CN107220238A - 一种基于混合网络模型的文本对象抽取方法 - Google Patents
一种基于混合网络模型的文本对象抽取方法 Download PDFInfo
- Publication number
- CN107220238A CN107220238A CN201710373201.XA CN201710373201A CN107220238A CN 107220238 A CN107220238 A CN 107220238A CN 201710373201 A CN201710373201 A CN 201710373201A CN 107220238 A CN107220238 A CN 107220238A
- Authority
- CN
- China
- Prior art keywords
- text object
- text
- word
- extracted
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明是一种基于混合网络模型的文本对象抽取方法。本发明利用词性及语义特征来寻找文本中的候选文本对象,利用已标注对象间关系的语料,获得不同文本对象间的关系,并以此为基础构建一个用于抽取文本对象的混合网络模型。相比不考虑关系的文本对象抽取方法,该模型充分利用了文本对象间的关系,能够更加精确地抽取文本对象。此外,由不同方式获取的关系都可以作为该模型的输入,使得该模型具有一定的灵活性。本发明在一个真实的数据集上进行了相关实验,相较于实验参照方法得到了更优的实验结果。
Description
技术领域
本发明涉及数据挖掘、信息提取和情感分析领域,具体是一种基于混合网络模型的文本对象抽取方法。
背景技术
在信息提取和情感分析领域,为了让用户更加精确地掌握文本的重点和让计算机理解文本的意义,首要任务是完成文本对象的抽取。文本对象是文本中表达观点或承载目标的词语或短语,例如商品评论分析系统就是一种直观的文本对象抽取的应用。一个优秀的评论分析系统能够识别评论中的观点和所针对的商品,在这种情况下,评论中的观点和所针对的商品都是文本对象。在新闻分析领域,文本对象除了观点(opinion)和目标(target),还包括观点的持有人(holder)。得到这些文本对象对于后续的分析有极大的帮助:不仅可以针对观点进行情感分析,判断观点所包含的情感极性,还可以帮助分析者快速准确地定位到观点持有人和目标,持有人和目标的信息可以被利用在搜索和广告投放领域中,具有巨大的价值。
针对文本对象抽取的研究主要有基于规则和基于统计两个不同的方向。基于规则的本文对象抽取方法可以精确地抽取文本对象,但是由于人类语言的庞大和复杂性,单纯的规则不可能完全涵盖所有抽取对象的可能性;而基于统计的文本对象抽取方法则需要大量语料用于训练,处理时间也极大地取决于运算条件和数据量大小。为了平衡两种方法的优缺点,目前文本对象抽取问题的解决方案多为同时采用规则和统计的混合模型。
在文本对象的抽取方法中,对象间的关系是一个较强的特征。如果一个观点持有人持有一个观点,则观点和持有人间就产生了关系,目标和观点之间的关系同理。若在文本对象的抽取过程中已有一个候选的观点对象,则与其有关系的其他对象很有可能作为持有人或者目标被抽取出来。利用网络模型,候选的文本对象被视作网络中的节点,而对象间的关系则是网络中的边,通过不同的权重还可以表示关系的紧密程度,从而可以很好地表现对象间的关系。本发明将观点持有人对象、观点对象和目标对象三种对象及对象间的关系引入到网络模型中,设计了一种新的模型,该模型可以准确地预测文本对象。
发明内容
基于上述背景技术,本发明提出了一种利用不同文本对象间关系的网络模型,用于精确地抽取文本对象。传统的文本对象抽取技术对于文本对象间关系的利用并不充分,常常只考虑文本对象间的单一关系,然而文本对象之间可能存在两种或两种以上的关系,这些关系蕴含着更多的信息,在抽取文本对象的过程中能起到更大的作用。本发明利用了“观点对象-目标对象关系”和“观点对象-观点持有人关系”两类文本对象间的关系,使得该模型对文本对象间关系的刻画更加贴近事实,从而能够更加准确地表示候选文本对象和潜在文本对象间的联系,获得更精确的文本对象抽取结果。使用本发明提供的文本对象抽取方法,可以应用到新闻分析、舆情监控等系统中,提供精准的分析服务。
本发明提出的文本对象抽取方法是结合对象间关系的方法。该方法将观点持有人对象、观点对象和目标对象三种对象及其关系结合起来,提高了模型的精度。本发明的具体实施步骤如下:
1.去除待分析数据中的噪音数据,随后进行预处理
去除格式混乱和编码错误的噪音数据。本发明针对不同语料库的不同组织方式,在这一阶段全部将其整理为按句划分格式,形成清除人工标注的纯文本。
视处理语言的种类,若有需要,则进行分词。
将所有语料按词分段保存,保留标点符号,在句与句之间以空格分割。
2.对整理好格式后的词语进行词性标注和主观程度标注
对文本中的每个词语进行词性标注。
在词语主观词典中查找每个词语的对应条目,进行主观程度的标注。对于不存在于该词典中的词语,统一按照没有主观性标注。
3.利用条件随机场初步抽取文本对象
标记训练集中的每个词语在其所属的文本对象中的位置,本发明使用IOB格式对词语进行标记,标记规则如公式(1)(2)所示:
将标签的预测视为一个序列标记问题,利用条件随机场模型进行训练并初步预测词语是否属于文本对象。该模型的训练特征包括词性和主观程度,预测输出的标记规则与上一步相同。
4.在已经初步抽取出文本对象的基础上,根据对象间的关系构建混合网络模型,对文本对象赋初始值。收集经过条件随机场模型预测之后的文本对象,将其与原始语料库中的人工标记的文本对象进行比对,采用交叠指标决定初步预测的文本对象是否与人工标注的文本对象相符,交叠指标如公式(3)所示:
对于在初步抽取环节中正确抽出的文本对象,在语料库的关系标记中搜索两种关系,即观点对象-目标对象关系和观点对象-持有人对象关系,并将这两种关系以对象两两配对的形式记录保存。
对于超过阈值长度的预料,将其分割为若干小于阈值的部分。然后将每部分中的所有词语包括候选文本对象作为网络的结点,构建一个文本对象关系矩阵。网络中的节点分数初始值由初步抽取步骤提取的结果决定,若初次提取的结果为文本对象候选,则其初始值高,反之则初始值低。
根据在上述两种配对关系,在矩阵的相应位置添加权重信息,若两个词语之间没有关系,则它们之间没有边存在,即权重为0。
5.在混合网络模型模型上运用随机游走算法,更新初步抽取的文本候选对象的初始值直至收敛
对于观点对象的矩阵,按照随机游走的算法更新其节点分数,如公式(4):
Sholder=μ1×Wh×Sopinion+(1-μ1)×Sholder (4)
对于目标对象的矩阵按公式(5)更新:
Starget=μ2×Wt×Sopinion+(1-μ2)×Starget (5)
对于持有人对象的矩阵按公式(6)更新:
Sopinion=μ3×Wh×Sholder+μ4×Wt×Starget+(1-μ3-μ4)×Starget (6)
每一次更新分数,都同时计算上述三个公式。考察更新前后分数的变化,以更新后的分数减去前一次分数的差值作为评判标准,当差值保持小于一定值之后认为运算收敛,否则继续迭代。
每一次更新分数,先计算上述三个公式,考察更新前后分数的变化,以更新后的分数减去前一次分数的差值作为评判标准,当差值持续小于阈值一定次数之后认为运算收敛,否则继续迭代。
去掉收殓后矩阵中分数未达到阈值的候选对象,剩下的文本对象作为最终结果。
附图说明
图1是本发明的混合网络模型的示意图。
具体实施方式
下面参照附图,并结合具体的数据集,对本发明的实施例进行详细的描述。以下描述的实施例仅仅是示例性的,只用于更好的解释本发明,便于本发明领域内的研究人员更好的理解,不能理解为对本发明的限制。
本发明是一种基于混合网络模型的文本对象抽取方法,主要是对文本中的文本对象进行识别和抽取。如图1所示,本发明包括以下步骤:
1.数据集介绍
本发明具体的实施例使用的数据集是来自MPQA3.0版本的新闻语料集,包括70篇不同领域的新闻语料,每一篇都包含不同文本对象及它们之间关系的人工标注。该版本的语料集是MPQA2.0版本语料集的一个子集,相比旧版增加了数个人工标注的类别,提供了更多的文本对象的信息。
2.数据预处理
数据预处理包括去除噪音数据和整理格式两个部分,因为实施例所选语料集为英文,所以不需要分词。
1)去除噪音数据
在所选择的语料库中有少数文档存在人工标注混乱的问题,该种文档已经不具有使用价值,所以作为噪声数据排除在外。另外对少量的标注正确而格式错误的文件进行手工修复。
2)整理格式
本发明将所有文档按句拆分,以空行分隔。词语与词语之间用换行分隔,保留所有标点符号。
3.对文本中的词语进行初次抽取所需要的特征标注
初次抽取所需要的特征分为两部分,分别是词性标注和词语主观程度标注。
1)词性标注
使用stanford corenlp工具对文档中所有词语进行词性标注。
2)词语主观程度标注
根据来自MPQA的词语主观程度词典subj_lexicon对词语主观程度进行标注。做法是在词语主观程度词典中搜索当前词语,若当前词存在在词典中,则标记上该词的主观程度,如果不存在于词典中,则认为该词不具备主观性。
4.利用条件随机场初步抽取文本对象
1)利用词性和词语主观程度两种特征,将文本对象的初次提取工作视为一个序列标记任务,采用条件随机场模型进行预测。
2)使用IOB格式标记人工标注好的三种文本对象,一个词语的标注和两种特征放在同一行。
3)训练条件随机场模型,使用CRF++工具在数据集上进行十折交叉验证,选取达到最佳预测效果的参数。
5.构建网络模型
1)将初步抽取得到的结果与人工标注的文本对象进行比对,若两者间互有重叠,则认为初步抽取的结果是正确的,计算初步抽取的正确率,并将正确的抽取结果过滤作为网络模型的节点。
2)根据人工标注检索对象间的关系,MPQA语料库中的三种文本对象之间存在着两种关系,将存在关系的文本对象配成对,并在网络模型中相应节点之间创建边以表示这些关系。
3)采用随机游走的算法不断更新节点的分数与边的权重直至收敛,将超过阈值分数的节点提取为最终的文本对象。
4评价指标
文本对象抽取算法通常采用准确率、召回率、F1-measure作为评价指标,它们的计算公式为:
本实施例与单纯使用条件随机场抽取文本对象、采用Adj标准选择的关系构建的网络模型抽取文本对象和采用dependency path选择的关系构建的网络模型抽取文本对象的结果比较如表一所示:
表一
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定的思想和确定的范围内,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种基于混合网络模型的文本对象抽取方法,包括相关数据预处理、文本对象的初步抽取及基于混合网络模型的文本对象精确抽取。具体操作步骤如下:
步骤a.去除语料集中的噪音数据,对剩下的数据进行预处理;
步骤b.对文本中的词语进行词性标注和词语主观程度标注;
步骤c.利用条件随机场初步抽取文本对象;
步骤d.在已经初步抽取出文本对象的基础上,根据对象间的关系构建混合网络模型,对文本对象赋初始值;
步骤e.在混合网络模型模型上运用随机游走算法,更新初步抽取的文本候选对象的初始值直至收敛,得到精确抽取的文本对象。
2.根据权利要求1所述的文本对象抽取方法,其特征是步骤a,具体包括:
(a1)去除格式混乱和编码错误的噪音数据。本发明针对不同语料库的不同组织方式,在这一阶段全部将其整理为按句划分格式,形成清除人工标注的纯文本。
(a2)视处理语言的种类,若有需要,则进行分词。
(a3)将所有语料按词分段保存,保留标点符号,在句与句之间以空格分割。
3.根据权利要求1所述的文本对象抽取方法,其特征是步骤b,具体包括:
(b1)对文本中的每个词语进行词性标注。
(b2)在词语主观词典中查找每个词语的对应条目,进行主观程度的标注。对于不存在于该词典中的词语,统一按照没有主观性标注。
4.根据权利要求1所述的文本对象抽取方法,其特征是步骤c,具体包括:
(c1)标记训练集中的每个词语在其所属的文本对象中的位置,本发明使用IOB格式对词语进行标记,标记规则如公式(1)(2)所示:
(c2)将标签的预测视为一个序列标记问题,利用条件随机场模型进行训练并初步预测词语是否属于文本对象。该模型的训练特征包括词性和主观程度,预测输出的标记规则与上一步相同。
5.根据权利要求1所述的文本对象抽取方法,其特征是步骤d,具体包括:
(d1)收集经过条件随机场模型预测之后的文本对象,将其与原始语料库中的人工标记的文本对象进行比对,采用交叠指标决定初步预测的文本对象是否与人工标注的文本对象相符,交叠指标如公式(3)所示:
(d2)对于在初步抽取环节中正确抽出的文本对象,在语料库的关系标记中搜索两种关系,即观点对象-目标对象关系和观点对象-持有人对象关系,并将这两种关系以对象两两配对的形式记录保存。
(d3)对于超过阈值长度的预料,将其分割为若干小于阈值的部分。然后将每部分中的所有词语包括候选文本对象作为网络的结点,构建一个文本对象关系矩阵。网络中的节点分数初始值由(c2)步骤提取的结果决定,若初次提取的结果为文本对象候选,则其初始值高,反之则初始值低。
(d4)根据在(d2)步骤所述的两种配对关系,在(d3)步骤所述矩阵的相应位置添加权重信息,若两个词语之间没有关系,则它们之间没有边存在,即权重为0。
6.根据权利要求1所述的文本对象抽取方法,其特征是步骤e,具体包括
(e1)对于观点对象的矩阵,按照随机游走的算法更新其节点分数,如公式(4):
Sholder=μ1×Wh×Sopinion+(1-μ1)×Sholder (4)
(e2)对于目标对象的矩阵按公式(5)更新:
Starget=μ2×Wt×Sopinion+(1-μ2)×Starget (5)
(e3)对于持有人对象的矩阵按公式(6)更新:
Sopinion=μ3×Wh×Sholder+μ4×Wt×Starget+(1-μ3-μ4)×Starget (6)
(e4)每一次更新分数,先计算上述三个公式,考察更新前后分数的变化,以更新后的分数减去前一次分数的差值作为评判标准,当差值持续小于阈值一定次数之后认为运算收敛,否则继续迭代。
(e5)去掉收敛后矩阵中分数未达到阈值的候选对象,剩下的文本对象作为最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710373201.XA CN107220238A (zh) | 2017-05-24 | 2017-05-24 | 一种基于混合网络模型的文本对象抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710373201.XA CN107220238A (zh) | 2017-05-24 | 2017-05-24 | 一种基于混合网络模型的文本对象抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107220238A true CN107220238A (zh) | 2017-09-29 |
Family
ID=59945179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710373201.XA Pending CN107220238A (zh) | 2017-05-24 | 2017-05-24 | 一种基于混合网络模型的文本对象抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107220238A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502568A (zh) * | 2019-08-08 | 2019-11-26 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
CN110825847A (zh) * | 2019-10-31 | 2020-02-21 | 北京奇艺世纪科技有限公司 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
CN111400451A (zh) * | 2020-03-16 | 2020-07-10 | 北京百度网讯科技有限公司 | 信息抽取方法、信息抽取装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890707A (zh) * | 2012-08-28 | 2013-01-23 | 华南理工大学 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN104298665A (zh) * | 2014-10-16 | 2015-01-21 | 苏州大学 | 一种中文文本中评价对象的识别方法及装置 |
CN104731770A (zh) * | 2015-03-23 | 2015-06-24 | 中国科学技术大学苏州研究院 | 基于规则和统计模型的中文微博情感分析方法 |
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN105786929A (zh) * | 2014-12-26 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 一种信息监测方法及装置 |
-
2017
- 2017-05-24 CN CN201710373201.XA patent/CN107220238A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890707A (zh) * | 2012-08-28 | 2013-01-23 | 华南理工大学 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN104298665A (zh) * | 2014-10-16 | 2015-01-21 | 苏州大学 | 一种中文文本中评价对象的识别方法及装置 |
CN105786929A (zh) * | 2014-12-26 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 一种信息监测方法及装置 |
CN104731770A (zh) * | 2015-03-23 | 2015-06-24 | 中国科学技术大学苏州研究院 | 基于规则和统计模型的中文微博情感分析方法 |
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
Non-Patent Citations (1)
Title |
---|
BISHAN YANG ET AL.: "Joint Inference for Fine-grained Opinion Extraction", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502568A (zh) * | 2019-08-08 | 2019-11-26 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
CN110502568B (zh) * | 2019-08-08 | 2020-11-10 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
CN110825847A (zh) * | 2019-10-31 | 2020-02-21 | 北京奇艺世纪科技有限公司 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
CN111400451A (zh) * | 2020-03-16 | 2020-07-10 | 北京百度网讯科技有限公司 | 信息抽取方法、信息抽取装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271529B (zh) | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 | |
CN110807328B (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
Constant et al. | MWU-aware part-of-speech tagging with a CRF model and lexical resources | |
CN103631961B (zh) | 一种情感词与评价对象的关系识别方法 | |
CN106598959B (zh) | 一种确定双语语句对互译关系方法及系统 | |
CN106777275A (zh) | 基于多粒度语义块的实体属性和属性值提取方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN105718586A (zh) | 分词的方法及装置 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN107832781A (zh) | 一种面向多源数据的软件缺陷表示学习方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN109977398A (zh) | 一种特定领域的语音识别文本纠错方法 | |
CN109344403A (zh) | 一种增强语义特征嵌入的文本表示方法 | |
CN105630770A (zh) | 一种基于sc文法的分词标音连写方法及装置 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN104881399B (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN107220238A (zh) | 一种基于混合网络模型的文本对象抽取方法 | |
CN113312922A (zh) | 一种改进的篇章级三元组信息抽取方法 | |
CN113420548A (zh) | 一种基于知识蒸馏和pu学习的实体抽取采样方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170929 |
|
WD01 | Invention patent application deemed withdrawn after publication |