CN107220238A

CN107220238A - 一种基于混合网络模型的文本对象抽取方法

Info

Publication number: CN107220238A
Application number: CN201710373201.XA
Authority: CN
Inventors: 程红蓉; 张盼; 蔡腾远; 周世杰; 向黎
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2017-09-29

Abstract

本发明是一种基于混合网络模型的文本对象抽取方法。本发明利用词性及语义特征来寻找文本中的候选文本对象，利用已标注对象间关系的语料，获得不同文本对象间的关系，并以此为基础构建一个用于抽取文本对象的混合网络模型。相比不考虑关系的文本对象抽取方法，该模型充分利用了文本对象间的关系，能够更加精确地抽取文本对象。此外，由不同方式获取的关系都可以作为该模型的输入，使得该模型具有一定的灵活性。本发明在一个真实的数据集上进行了相关实验，相较于实验参照方法得到了更优的实验结果。

Description

一种基于混合网络模型的文本对象抽取方法

技术领域

本发明涉及数据挖掘、信息提取和情感分析领域，具体是一种基于混合网络模型的文本对象抽取方法。

背景技术

在信息提取和情感分析领域，为了让用户更加精确地掌握文本的重点和让计算机理解文本的意义，首要任务是完成文本对象的抽取。文本对象是文本中表达观点或承载目标的词语或短语，例如商品评论分析系统就是一种直观的文本对象抽取的应用。一个优秀的评论分析系统能够识别评论中的观点和所针对的商品，在这种情况下，评论中的观点和所针对的商品都是文本对象。在新闻分析领域，文本对象除了观点(opinion)和目标(target)，还包括观点的持有人(holder)。得到这些文本对象对于后续的分析有极大的帮助：不仅可以针对观点进行情感分析，判断观点所包含的情感极性，还可以帮助分析者快速准确地定位到观点持有人和目标，持有人和目标的信息可以被利用在搜索和广告投放领域中，具有巨大的价值。

针对文本对象抽取的研究主要有基于规则和基于统计两个不同的方向。基于规则的本文对象抽取方法可以精确地抽取文本对象，但是由于人类语言的庞大和复杂性，单纯的规则不可能完全涵盖所有抽取对象的可能性；而基于统计的文本对象抽取方法则需要大量语料用于训练，处理时间也极大地取决于运算条件和数据量大小。为了平衡两种方法的优缺点，目前文本对象抽取问题的解决方案多为同时采用规则和统计的混合模型。

在文本对象的抽取方法中，对象间的关系是一个较强的特征。如果一个观点持有人持有一个观点，则观点和持有人间就产生了关系，目标和观点之间的关系同理。若在文本对象的抽取过程中已有一个候选的观点对象，则与其有关系的其他对象很有可能作为持有人或者目标被抽取出来。利用网络模型，候选的文本对象被视作网络中的节点，而对象间的关系则是网络中的边，通过不同的权重还可以表示关系的紧密程度，从而可以很好地表现对象间的关系。本发明将观点持有人对象、观点对象和目标对象三种对象及对象间的关系引入到网络模型中，设计了一种新的模型，该模型可以准确地预测文本对象。

发明内容

基于上述背景技术，本发明提出了一种利用不同文本对象间关系的网络模型，用于精确地抽取文本对象。传统的文本对象抽取技术对于文本对象间关系的利用并不充分，常常只考虑文本对象间的单一关系，然而文本对象之间可能存在两种或两种以上的关系，这些关系蕴含着更多的信息，在抽取文本对象的过程中能起到更大的作用。本发明利用了“观点对象-目标对象关系”和“观点对象-观点持有人关系”两类文本对象间的关系，使得该模型对文本对象间关系的刻画更加贴近事实，从而能够更加准确地表示候选文本对象和潜在文本对象间的联系，获得更精确的文本对象抽取结果。使用本发明提供的文本对象抽取方法，可以应用到新闻分析、舆情监控等系统中，提供精准的分析服务。

本发明提出的文本对象抽取方法是结合对象间关系的方法。该方法将观点持有人对象、观点对象和目标对象三种对象及其关系结合起来，提高了模型的精度。本发明的具体实施步骤如下：

1.去除待分析数据中的噪音数据，随后进行预处理

去除格式混乱和编码错误的噪音数据。本发明针对不同语料库的不同组织方式，在这一阶段全部将其整理为按句划分格式，形成清除人工标注的纯文本。

视处理语言的种类，若有需要，则进行分词。

将所有语料按词分段保存，保留标点符号，在句与句之间以空格分割。

2.对整理好格式后的词语进行词性标注和主观程度标注

对文本中的每个词语进行词性标注。

在词语主观词典中查找每个词语的对应条目，进行主观程度的标注。对于不存在于该词典中的词语，统一按照没有主观性标注。

3.利用条件随机场初步抽取文本对象

标记训练集中的每个词语在其所属的文本对象中的位置，本发明使用IOB格式对词语进行标记，标记规则如公式(1)(2)所示：

将标签的预测视为一个序列标记问题，利用条件随机场模型进行训练并初步预测词语是否属于文本对象。该模型的训练特征包括词性和主观程度，预测输出的标记规则与上一步相同。

4.在已经初步抽取出文本对象的基础上，根据对象间的关系构建混合网络模型，对文本对象赋初始值。收集经过条件随机场模型预测之后的文本对象，将其与原始语料库中的人工标记的文本对象进行比对，采用交叠指标决定初步预测的文本对象是否与人工标注的文本对象相符，交叠指标如公式(3)所示：

对于在初步抽取环节中正确抽出的文本对象，在语料库的关系标记中搜索两种关系，即观点对象-目标对象关系和观点对象-持有人对象关系，并将这两种关系以对象两两配对的形式记录保存。

对于超过阈值长度的预料，将其分割为若干小于阈值的部分。然后将每部分中的所有词语包括候选文本对象作为网络的结点，构建一个文本对象关系矩阵。网络中的节点分数初始值由初步抽取步骤提取的结果决定，若初次提取的结果为文本对象候选，则其初始值高，反之则初始值低。

根据在上述两种配对关系，在矩阵的相应位置添加权重信息，若两个词语之间没有关系，则它们之间没有边存在，即权重为0。

5.在混合网络模型模型上运用随机游走算法，更新初步抽取的文本候选对象的初始值直至收敛

对于观点对象的矩阵，按照随机游走的算法更新其节点分数，如公式(4)：

S_holder＝μ₁×W_h×S_opinion+(1-μ₁)×S_holder (4)

对于目标对象的矩阵按公式(5)更新：

S_target＝μ₂×W_t×S_opinion+(1-μ₂)×S_target (5)

对于持有人对象的矩阵按公式(6)更新：

S_opinion＝μ₃×W_h×S_holder+μ₄×W_t×S_target+(1-μ₃-μ₄)×S_target (6)

每一次更新分数，都同时计算上述三个公式。考察更新前后分数的变化，以更新后的分数减去前一次分数的差值作为评判标准，当差值保持小于一定值之后认为运算收敛，否则继续迭代。

每一次更新分数，先计算上述三个公式，考察更新前后分数的变化，以更新后的分数减去前一次分数的差值作为评判标准，当差值持续小于阈值一定次数之后认为运算收敛，否则继续迭代。

去掉收殓后矩阵中分数未达到阈值的候选对象，剩下的文本对象作为最终结果。

附图说明

图1是本发明的混合网络模型的示意图。

具体实施方式

下面参照附图，并结合具体的数据集，对本发明的实施例进行详细的描述。以下描述的实施例仅仅是示例性的，只用于更好的解释本发明，便于本发明领域内的研究人员更好的理解，不能理解为对本发明的限制。

本发明是一种基于混合网络模型的文本对象抽取方法，主要是对文本中的文本对象进行识别和抽取。如图1所示，本发明包括以下步骤：

1.数据集介绍

本发明具体的实施例使用的数据集是来自MPQA3.0版本的新闻语料集，包括70篇不同领域的新闻语料，每一篇都包含不同文本对象及它们之间关系的人工标注。该版本的语料集是MPQA2.0版本语料集的一个子集，相比旧版增加了数个人工标注的类别，提供了更多的文本对象的信息。

2.数据预处理

数据预处理包括去除噪音数据和整理格式两个部分，因为实施例所选语料集为英文，所以不需要分词。

1)去除噪音数据

在所选择的语料库中有少数文档存在人工标注混乱的问题，该种文档已经不具有使用价值，所以作为噪声数据排除在外。另外对少量的标注正确而格式错误的文件进行手工修复。

2)整理格式

本发明将所有文档按句拆分，以空行分隔。词语与词语之间用换行分隔，保留所有标点符号。

3.对文本中的词语进行初次抽取所需要的特征标注

初次抽取所需要的特征分为两部分，分别是词性标注和词语主观程度标注。

1)词性标注

使用stanford corenlp工具对文档中所有词语进行词性标注。

2)词语主观程度标注

根据来自MPQA的词语主观程度词典subj_lexicon对词语主观程度进行标注。做法是在词语主观程度词典中搜索当前词语，若当前词存在在词典中，则标记上该词的主观程度，如果不存在于词典中，则认为该词不具备主观性。

4.利用条件随机场初步抽取文本对象

1)利用词性和词语主观程度两种特征，将文本对象的初次提取工作视为一个序列标记任务，采用条件随机场模型进行预测。

2)使用IOB格式标记人工标注好的三种文本对象，一个词语的标注和两种特征放在同一行。

3)训练条件随机场模型，使用CRF++工具在数据集上进行十折交叉验证，选取达到最佳预测效果的参数。

5.构建网络模型

1)将初步抽取得到的结果与人工标注的文本对象进行比对，若两者间互有重叠，则认为初步抽取的结果是正确的，计算初步抽取的正确率，并将正确的抽取结果过滤作为网络模型的节点。

2)根据人工标注检索对象间的关系，MPQA语料库中的三种文本对象之间存在着两种关系，将存在关系的文本对象配成对，并在网络模型中相应节点之间创建边以表示这些关系。

3)采用随机游走的算法不断更新节点的分数与边的权重直至收敛，将超过阈值分数的节点提取为最终的文本对象。

4评价指标

文本对象抽取算法通常采用准确率、召回率、F1-measure作为评价指标，它们的计算公式为：

本实施例与单纯使用条件随机场抽取文本对象、采用Adj标准选择的关系构建的网络模型抽取文本对象和采用dependency path选择的关系构建的网络模型抽取文本对象的结果比较如表一所示：

表一

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定的思想和确定的范围内，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于混合网络模型的文本对象抽取方法，包括相关数据预处理、文本对象的初步抽取及基于混合网络模型的文本对象精确抽取。具体操作步骤如下：

步骤a.去除语料集中的噪音数据，对剩下的数据进行预处理；

步骤b.对文本中的词语进行词性标注和词语主观程度标注；

步骤c.利用条件随机场初步抽取文本对象；

步骤d.在已经初步抽取出文本对象的基础上，根据对象间的关系构建混合网络模型，对文本对象赋初始值；

步骤e.在混合网络模型模型上运用随机游走算法，更新初步抽取的文本候选对象的初始值直至收敛，得到精确抽取的文本对象。

2.根据权利要求1所述的文本对象抽取方法，其特征是步骤a，具体包括：

(a1)去除格式混乱和编码错误的噪音数据。本发明针对不同语料库的不同组织方式，在这一阶段全部将其整理为按句划分格式，形成清除人工标注的纯文本。

(a2)视处理语言的种类，若有需要，则进行分词。

(a3)将所有语料按词分段保存，保留标点符号，在句与句之间以空格分割。

3.根据权利要求1所述的文本对象抽取方法，其特征是步骤b，具体包括：

(b1)对文本中的每个词语进行词性标注。

(b2)在词语主观词典中查找每个词语的对应条目，进行主观程度的标注。对于不存在于该词典中的词语，统一按照没有主观性标注。

4.根据权利要求1所述的文本对象抽取方法，其特征是步骤c，具体包括：

(c1)标记训练集中的每个词语在其所属的文本对象中的位置，本发明使用IOB格式对词语进行标记，标记规则如公式(1)(2)所示：

(c2)将标签的预测视为一个序列标记问题，利用条件随机场模型进行训练并初步预测词语是否属于文本对象。该模型的训练特征包括词性和主观程度，预测输出的标记规则与上一步相同。

5.根据权利要求1所述的文本对象抽取方法，其特征是步骤d，具体包括：

(d1)收集经过条件随机场模型预测之后的文本对象，将其与原始语料库中的人工标记的文本对象进行比对，采用交叠指标决定初步预测的文本对象是否与人工标注的文本对象相符，交叠指标如公式(3)所示：

(d2)对于在初步抽取环节中正确抽出的文本对象，在语料库的关系标记中搜索两种关系，即观点对象-目标对象关系和观点对象-持有人对象关系，并将这两种关系以对象两两配对的形式记录保存。

(d3)对于超过阈值长度的预料，将其分割为若干小于阈值的部分。然后将每部分中的所有词语包括候选文本对象作为网络的结点，构建一个文本对象关系矩阵。网络中的节点分数初始值由(c2)步骤提取的结果决定，若初次提取的结果为文本对象候选，则其初始值高，反之则初始值低。

(d4)根据在(d2)步骤所述的两种配对关系，在(d3)步骤所述矩阵的相应位置添加权重信息，若两个词语之间没有关系，则它们之间没有边存在，即权重为0。

6.根据权利要求1所述的文本对象抽取方法，其特征是步骤e，具体包括

(e1)对于观点对象的矩阵，按照随机游走的算法更新其节点分数，如公式(4)：

S_holder＝μ₁×W_h×S_opinion+(1-μ₁)×S_holder (4)

(e2)对于目标对象的矩阵按公式(5)更新：

S_target＝μ₂×W_t×S_opinion+(1-μ₂)×S_target (5)

(e3)对于持有人对象的矩阵按公式(6)更新：

(e4)每一次更新分数，先计算上述三个公式，考察更新前后分数的变化，以更新后的分数减去前一次分数的差值作为评判标准，当差值持续小于阈值一定次数之后认为运算收敛，否则继续迭代。

(e5)去掉收敛后矩阵中分数未达到阈值的候选对象，剩下的文本对象作为最终结果。