CN106257455B

CN106257455B - 一种基于依存关系模板抽取观点评价对象的Bootstrapping方法

Info

Publication number: CN106257455B
Application number: CN201610537567.1A
Authority: CN
Inventors: 杨晓燕; 徐戈
Original assignee: Minjiang University
Current assignee: Fuzhou Guoji Information Technology Co ltd
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2019-09-17
Anticipated expiration: 2036-07-08
Also published as: CN106257455A

Abstract

本发明涉及一种基于依存关系模板抽取观点评价对象的Bootstrapping算法，考虑了情感词与观点评价对象词之间的语法、语义关系，构造观点评价对象词与情感词之间的依存关系模板，采用Bootstrapping方法抽取观点评价对象。本发明避免了直接采用词汇上下文抽取评价对象方法所带来的噪音，提高了观点评价对象抽取性能。

Description

一种基于依存关系模板抽取观点评价对象的Bootstrapping 方法

技术领域

本发明涉及观点挖掘领域，特别是一种基于依存关系模板抽取观点评价对象的Bootstrapping方法。

背景技术

随着网络的快速发展，互联网上产生了一种由大量用户参与的崭新的模式—用户生成内容(Users Generate Content，UGC)模式。在UGC上用户发表对于诸如事件、产品、人物等评论信息，这些评论信息对于用户购买决策、兴趣挖掘、个性化信息服务、舆情监控、信息预测等工作都具有重要的价值和意义。然而，这些评论数量庞大，品质良莠不齐，且多为短文本描述，手工分析和挖掘异常困难，因此，设计实现面向评论的观点挖掘(opinionmining)工具成为自然语言处理和数据挖掘界的热点问题之一。

目前观点挖掘算法中，基于模板匹配的方法使用得较为普遍，其本质是从样本中构造相关模板，将待分析文本与模板进行匹配从而提取需要的信息。王昌厚等将种子词出现位置的前一个词和后一个词的组合构造词形模式库用于抽取情感词。张凌等通过提取情感对象到情感词之间的一组词性模板形成词性模板库，用于提取原子情感对象。宋晓雷等利用种子词的前一个词和后一个词的词形、词性分别构造词形模板、词性模板用于抽取观点评价对象。然而，基于词形、词性模板的方法只考虑词、词性信息，句法信息没得到有效利用。例如“329/m元/q的/u价格/n是/v酷冷/a爱好者/n不错/a的/u选择/v。”这句中“价格”是观点评价对象，如果用该词的前一个词和后一个词的词形、词性构造词形模板和词性模板并用该模板去匹配待分析文本“这/r款/q产品/n最/d大/a的/u特点/n是/v性价比/n非常/d高/a。/wp”会抽取得到“特点”这个词作为观点评价对象，而这个句子的观点评价对象是“性价比”。产生错误的原因就是在获取观点评价对象过程中仅考虑词的信息而忽略了情感词与观点评价对象词在语法和语义上的信息。

国内外关于观点评价对象抽取的研究如下：观点评价对象抽取(opinion target)是指抽取出评论所针对的对象或对象的属性。如“索尼NWZ-A826外形设计简约大气。”这个句子中观点评价对象是“索尼NWZ-A826外形设计”，“简约大气”是评价短语。观点评价对象抽取为信息分类、检索与归纳等工作打下基础，是观点挖掘的重要任务。目前自动抽取观点评价对象已成为观点挖掘亟待解决的问题，国际上一些著名的评测如TREC Blog Track和NTCIR以及国内中文倾向性分析评测都将观点评价对象抽取作为其任务之一。观点评价对象抽取算法可以归结为无监督的机器学习(unsupervised machine learning)、监督的机器学习(supervised machine learning)、半监督的机器学习(semi-supervisedlearning)。无监督机器学习方法抽取观点评价对象主要采用模板和规则两种方法。张凌等提出利用词性模板库提取情感要素的方法。顾正甲等使用SBV极性传递法从语料中抽取观点评价对象。赵妍妍等基于句法路径获取观点评价对象。任彬等基于依存句法分析的方法通过规则匹配的方式从文本中提取信息。王素格等利用词对之间的依存关系和相关词性，构建含有情感词和观点评价对象的组块规则，再以此为基础抽取候选观点评价对象。在英文方面，Bloom等基于依存分析人工制定了31条依存规则用于抽取评价短语-观点评价对象的搭配。总的来说，无监督的机器学习方法不需标注语料，能降低成本，但是由于模板、规则构造不完备，因此泛化能力较差，获取的观点评价对象准确率较低。监督的机器学习方法抽取观点评价对象是将观点评价对象抽取问题看成是标注问题，这方面的代表方法有张磊等引入词形、词性、依存关系结构特征、距离特征、路径等特征模板，利用最大熵模型进行训练，提取观点评价对象-情感词对。袁璐等对句子进行浅层句法分析并制定相应规则，再结合隐马尔科夫模型进行训练。戴敏等引入词形、依存关系、语义角色标注等特征基于条件随机场模型进行观点评价对象抽取。以上方法均采用监督学习的方法进行观点评价对象识别，这些方法需要标注大量的训练数据，费时费力，精确率较高，但召回率较低。而且不同领域的训练数据是无法共享的，这大大影响了监督机器学习方法的适用性。针对中文语料库规模较小的不足之处，许多学者采用半监督学习算法抽取观点评价对象。半监督机器学习算法能够避免数据和资源的浪费，同时解决监督学习算法的模型泛化能力不强和无监督学习算法的模型不精确等问题，已经被应用于解决实际问题，尤其是自然语言处理问题。半监督机器学习的一种主流方法是自举(Bootstrapping)方法。该方法通过人工干预得到种子，然后增量式地迭代，在每一轮迭代中，都将产生新的标注样例，用这些新的有标注样例重新训练模型，如此循环往复，直到最终收敛结束。Michael Thelen等基于Bootstrapping算法原理提出词与模板双向评分的词典生成算法，取得较理想的效果。Wei Jin等将候选观点评价对象的同义词、近义词标注为候选观点评价对象，再重新训练模型，但该方法带入许多低频词汇影响识别性能。Shu Zhang等采用图模型识别观点评价对象与情感词，把观点评价对象与情感词看做是一个评价搭配关系对，每增加m个候选观点评价对象就产生n个候选情感词，这样不断迭代产生观点评价对象与情感词，该方法不足之处是评价候选观点评价对象时只考虑候选观点评价对象与情感种子词的共现率，召回率较低。Qiu Guang等提出利用小规模种子情感词以及观点评价对象和情感词之间的依存关系，通过观点评价对象和情感词之间的双向传播策略，增量式地识别新情感词和观点评价对象，但该方法需要依靠人工经验构造依存关系模板。宋晓雷等从种子观点评价对象和种子词形模板、词性模板出发通过Bootstrapping方法识别观点评价对象，但该方法忽略情感词的作用。由于Bootstrapping方法的优良特性，本发明采用Bootstrapping方法进行观点评价对象的抽取。

国内外关于依存分析技术的研究如下：依存分析(dependency parsing)是一种语言结构，通过分析语言单位内成分之间的依存关系揭示其句法结构，描述句中词和词之间存在的支配与被支配的依存关系，由于依存分析可以反映出句子各成分之间的语义修饰关系，可以获得长距离的搭配信息，并且依存分析与句子成分的物理位置无关，更倾向于人的语言直觉,能够提供更精确的结果，因此依存分析技术得到人们的广泛关注。例句1“这款产品最大的特点是性价比非常高。”的依存分析结构图如图1所示。图1中带箭头的有向弧表示两个词之间的从属关系，这条有向弧叫做依存弧。每个依存弧上标记依存关系类型，如果词与词之间直接发生依存关系，则其中一个词称为核心词，也叫支配词；另一个词称为修饰词，也叫从属词，依存弧的方向总是由核心(父亲)词指向修饰(儿子)词。

国内外关于语义角色标注技术的研究如下：语义角色标注(semantic rolelabeling)是自然语言处理领域的一个热门研究内容。它并不对整个语句做详细的语义分析，而只是标注句子中给定谓词的语义角色，从而使计算机对语句有一个“浅层”的理解。对于汉语中的大多数谓词来讲，其角色参数在句中比较固定，A0一般表示动作结果的施事者，A1表示动作结果的受事者。如例句2：“明系列是摩托罗拉手机的一个顶峰。”该句的语义角色标注结果如图2所示。句子中“是”是谓词，“明系列”是谓词“是”的“施事者”，“摩托罗拉手机的一个顶峰”是谓词“是”的“受事者”。

发明内容

有鉴于此，本发明的目的是提出一种基于依存关系模板抽取观点评价对象的Bootstrapping方法，避免了直接采用词汇上下文抽取评价对象方法所带来的噪音，提高了观点评价对象抽取性能。

本发明采用以下方案实现：一种基于依存关系模板抽取观点评价对象的Bootstrapping方法，具体包括以下步骤：

步骤S1：以情感词为中心寻找与初始依存关系模板匹配的词，并对该词进行过滤处理，获得候选观点评价对象词；

步骤S2：用下式计算候选观点评价对象词j的分数：

将依存关系模板与候选观点评价对象词之间的匹配关系用二维矩阵表示：W＝(w_ij),i＝{1,2,...,u},j＝{1,2,...,v}，其中，u表示模板个数，v表示候选观点评价对象词候选个数；当第i个依存关系模块与第j个候选观点评价对象词存在匹配关系时，w_ij＝w_ij+1；

步骤S3：按候选观点评价对象词的分数排序，挑选分数最高的5个词进入观点评价对象种子集；

步骤S4：从观点评价对象种子集出发寻找观点评价对象词与情感词之间的依存关系，如果存在依存关系则构造候选依存关系模板；

步骤S5：用下式计算候选依存关系模板分数：

将一个观点评价对象词与候选依存关系模板的关系用二维矩阵表示：P＝(p_ij),i＝{1,2,...,m},j＝{1,2,...,n}，其中，m表示观点评价对象个数，n表示候选依存关系模板个数；当第i个观点评价对象词与第j个候选依存关系模板存在匹配关系时，p_ij＝p_ij+1；

步骤S6：按候选依存关系模板的分数排序，挑选分数大于阈值θ的依存关系模板进入模板集；

步骤S7：重复步骤S1至步骤S6，直至没有新的候选观点评价对象词产生；

步骤S8：利用依存分析和语义角色标注技术的规则，对得到的候选观点评价对象进行边界识别。

进一步地，步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过滤；所述词性过滤为将名词短语作为候选观点评价对象；所述停用词包括通用停用词与领域停用词。

进一步地，步骤S8中，所述依存分析和语义角色标注技术的规则具体包括：

合并规则：如果当前词是观点评价对象词，该词的前一个词或后一个词出现在候选观点评价对象集中，则前一个词或后一个词扩展为观点评价对象词；

ATT规则：如果当前词是观点评价对象，前一个词或后一个词与该词具有ATT或QUN或DE句法依存关系，则前一个词或后一个词扩展为观点评价对象词；

LAD规则：如果当前词与当前词的父亲词依存关系是LAD且前一个词是观点评价对象词，则当前词的父亲词是观点评价对象词；

COO规则：如果当前词与当前词的儿子词依存关系是COO，且当前词是观点评价对象词，则当前词的儿子词是观点评价对象词；

SRL规则：如果当前词与某些词的语义关系是施事关系同时又与另外一些词的语义关系存在受事关系且受事者中包含情感词则施事者是观点评价对象词。

观点评价对象抽取与传统的信息抽取任务不同,抽取的信息必须是与情感词存在修饰关系的词语,而非客观描述的对象,所以在抽取时要考虑情感词对观点评价对象抽取的影响。观点评价对象词与情感词的依存关系存在以下5种形式，如图3-7所示。其中T代表观点评价对象词，O代表情感词，M代表中间词。图3表示“父亲关系”，即观点评价对象词是情感词的父亲节点；图4表示“儿子关系”，即观点评价对象词是情感词的儿子节点；图5表示“祖父关系”，即观点评价对象词是情感词的父亲的父亲节点；图6表示“孙子关系”，即观点评价对象词是情感词的儿子的儿子节点，图7表示“兄弟关系”,即观点评价对象词与情感词有同一个祖先词。我们将这5种关系形式分为两组，一组称为直接依存关系，包括“父亲关系”和“儿子关系”，另一组称为间接依存关系，包括“祖父关系”、“孙子关系”、“兄弟关系”。

针对以上依存关系形式，本发明提出观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板。直接依存关系模板表示为(dp,target，relate，opinion)。其中：dp表示观点评价对象词与情感词之间的依存关系类型；target指观点评价对象词，opinion指情感词；relate表示观点评价对象词与情感词之间的依存关系形式，(-1)表示观点评价对象词是情感词的父亲节点；(+1)表示上观点评价对象词是情感词的儿子节点。间接依存关系模板表示为(dp1，target，relate1，middle)+(dp2,middle，relate2，opinion)，其中dp1表示观点评价对象词与中间词的依存关系类型；relate1表示观点评价对象词与中间词的依存关系形式，(-1)表示观点评价对象词是中间词的父亲节点；(+1)表示观点评价对象词是中间词的儿子节点；dp2表示情感词与中间词的依存关系类型；middle指中间词；relate2表示情感词与中间词的依存关系形式，(-1)表示中间词是情感词的父亲节点；(+1)表示中间词是情感词的儿子节点。以例句1为例，观点评价对象词“性价比”与情感词“高”之间的依存关系类型是SBV关系，用直接依存关系模板表示为:(SBV,性价比，+1,高)。

与现有技术相比，本发明有以下有益效果：本发明采用一种以种子词与情感词之间的依存关系构造模板，并采用Bootstrapping方法实现观点评价对象的抽取。通过在COAE2011电子数据集上的实验结果表明本发明提出的方法能有效利用情感词与观点评价对象词之间的语法、语义信息，避免了直接采用词汇上下文抽取评价对象方法所带来的噪音，提高了观点评价对象抽取性能。

附图说明

图1为本发明背景技术中依存分析结构示意图。

图2为本发明背景技术中语义角色标注示意图。

图3为本发明观点评价对象词与情感词的依存关系形式之父亲关系。

图4为本发明观点评价对象词与情感词的依存关系形式之儿子关系。

图5为本发明观点评价对象词与情感词的依存关系形式之祖父关系。

图6为本发明观点评价对象词与情感词的依存关系形式之孙子关系。

图7为本发明观点评价对象词与情感词的依存关系形式之兄弟关系。

图8为本发明实施例中阈值的设置对性能的影响。

图9为本发明实施例中合并规则、ATT规则示意图。

图10为本发明实施例中COO规则示意图。

图11为本发明实施例中SRL规则示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供了一种基于依存关系模板抽取观点评价对象的Bootstrapping方法，具体包括以下步骤：

步骤S2：用下式计算候选观点评价对象词j的分数：

在本实施例中，设集合X＝{x₁,x₂,...,x_i,...,x_u}与集合Y＝{y₁,y₂,...,y_j,...,y_v},我们取X×Y的一个子集R构造一个从X到Y的匹配关系。即若＜x_i,y_j＞∈R，即称x_i与y_j有匹配关系，记作x_iRy_j。若即称x_i与y_j没有匹配关系，记作x_iRy_j。

步骤S5：用下式计算候选依存关系模板分数：

在本实施例中，步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过滤；所述词性过滤为将名词短语作为候选观点评价对象；所述停用词包括通用停用词与领域停用词。

在本实施例中，步骤S8中，所述依存分析和语义角色标注技术的规则具体包括：

在本实施例中，观点评价对象抽取与传统的信息抽取任务不同,抽取的信息必须是与情感词存在修饰关系的词语,而非客观描述的对象,所以在抽取时要考虑情感词对观点评价对象抽取的影响。观点评价对象词与情感词的依存关系存在以下5种形式，如图3-7所示。其中T代表观点评价对象词，O代表情感词，M代表中间词。图3表示“父亲关系”，即观点评价对象词是情感词的父亲节点；图4表示“儿子关系”，即观点评价对象词是情感词的儿子节点；图5表示“祖父关系”，即观点评价对象词是情感词的父亲的父亲节点；图6表示“孙子关系”，即观点评价对象词是情感词的儿子的儿子节点，图7表示“兄弟关系”,即观点评价对象词与情感词有同一个祖先词。我们将这5种关系形式分为两组，一组称为直接依存关系，包括“父亲关系”和“儿子关系”，另一组称为间接依存关系，包括“祖父关系”、“孙子关系”、“兄弟关系”。

通过对数据集的分析，本实施例将出现频率较高的6个观点评价对象作为初始种子词，分别为“外观”、“性能”、“设计”、“配置”、“功能”、“价格”；选4个出现频率较高的依存关系模板作为初始种子模板，其中直接关系模板3个分别是“SBV，target，-1，opinion”、“SBV，target，+1，opinion”、“ATT，target，+1，opinion”和一个间接关系模板“ATT，target，-1，middle”+“VOB，middle，+1，opinion”。

在本实施例中，为了提高算法的精确率，对候选观点评价对象词进行打分之前对其进行如下过滤处理。具体包括词性过滤与停用词过滤。词性过滤：我们将名词或名词短语作为候选观点评价对象。虽然其他词性的词语也可能是候选观点评价对象，但这些词性的引入会带来较大噪声。停用词过滤：这里的停用词包括通用停用词和领域停用词，如“上”，“的”，“时”等。

在本实施例中，还对比了现有技术与本申请的实验结果，其中，实验数据来自COAE2011电子领域评论语料大约150篇。语料中每个句子用哈尔滨工业大学的语言技术平台(Language Technology Platform，LTP)进行分句、分词、词性分析、依存分析、语义角色标注等预处理工作。评价短语、候选观点评价对象的答案由人工标注。以准确率、召回率和调和评价值作为评价标准，公式如下所示。评价方法采用精确评价和覆盖评价两种方法。精确评价是指系统抽取结果与答案完全匹配，覆盖评价是指系统抽取结果与答案有重叠就算正确。

其中，准确率的计算如下：

召回率的计算如下：

调和评价值得计算如下：

在本实施例中，实验结果与分析如下：

实验一:阈值设定对结论的影响。

为了说明阈值θ的设定对结论的影响，本文对阈值θ取不同值进行实验，实验结果如图8所示。通过实验验证阈值θ取0.10时得到的观点评价对象结果达到最优。

实验二：初始种子集、初始模板集、过滤处理、边界识别规则对结论的影响。

为了验证初始种子集、初始模板集、过滤处理、边界识别规则对观点评价对象抽取的影响，我们采用如下五种方法进行实验，实验结果见表1。

方法一：以初始观点评价对象种子集出发进行观点评价对象的自动抽取，并对候选观点评价对象进行过滤处理、边界识别。

方法二：以初始依存关系模板集出发进行观点评价对象的自动抽取，并对候选观点评价对象经过过滤处理、边界识别。

方法三：以初始依存关系模板集及初始观点评价对象种子集出发抽取候选观点评价对象，未对候选观点评价对象进行过滤处理，对候选观点评价对象的边界进行识别。

方法四：以初始依存关系模板集及初始观点评价对象种子集出发抽取候选观点评价对象，对候选观点评价对象进行过滤处理，未对观点评价对象使用边界识别规则。

本发明用初始依存模板集及初始观点评价对象种子集进行观点评价对象的自动抽取并对候选观点评价对象进行过滤处理，对观点评价对象的边界进行识别。

表1观点评价对象自动抽取结果

本发明方法与方法一、方法二对比，说明同时使用初始观点评价对象种子集和初始依存关系模板集抽取观点评价对象相对于单一使用初始观点评价对象种子集或初始依存关系模板集性能有一定提升。

本发明方法与方法三对比说明词性过滤处理和停用词过滤处理对观点评价对象抽取结果影响较大，在一定程度上可以减少噪声(即非观点评价对象)的产生。

本发明方法与方法四对比说明增加边界识别规则能使观点评价对象抽取性能有一定提升。如例句3：“索尼NWZ-A826外形设计简约大气。”的依存分析结果如图9所示。已知“设计”是观点评价对象种子词，而“外形”是候选观点评价对象，根据合并规则将“外形设计”作为观点评价对象。再依据依存分析“索尼”与“外形”、“NWZ-A826”与“外形”的依存关系分别是“ATT”、“ATT”,根据ATT规则得到“索尼NWZ-A826外形设计”这个信息完整的观点评价对象。

如例句4：“E60的扬声器音量和穿透力很强。”的依存分析结果如图10所示。这个句子中，“音量”是观点评价对象词,“音量”与其儿子词“穿透力”的依存关系是“COO”,根据COO规则，“穿透力”也是观点评价对象词。

如例句2：“明系列是摩托罗拉手机的一个顶峰。”的依存分析结果如图11所示。该句中“是”是谓词，“明系列”是谓词“是”的施事者，“摩托罗拉手机的一个顶峰”是谓词“是”的受事者。根据SRL规则谓词“是”的受事者中包含情感词“顶峰”，因此施事者“明系列”是观点评价对象。

实验三：与词性、词形模板进行对比。

为了验证本发明提出的基于依存关系模板的Bootstrapping方法抽取观点评价对象有效性，使用王昌厚等基于词形模板的Bootstrapping算法和宋晓雷等基于词性、词形模板的Bootstrapping算法作为对比模型。本发明和王昌厚等、宋晓雷等方法采用相同的数据集、过滤处理方法、初始观点评价对象种子集、相同的计算观点评价对象词、模板的公式以及采用相同的边界识别规则和自举算法。宋晓雷等方法的初始词性模板4个分别为：“#,word,a”,“a,word,c”,“u,word,d”,“u,word,v”。王昌厚等、宋晓雷等方法的初始词形模板选4个分别为:“在,word,方面”,“在,word,上”，“的,word,是”，“#,word,还是”。其中“#”代表句子的开始。实验结果如表2所示。

表2本文方法与词性、词形模板对比

由实验结果可知：采用依存关系构造模板相对词性、词形模板的方法，在精确评价、覆盖评价都有很大提高。主要原因是词性、词形模板方法只利用词的信息而忽略了情感词与观点评价对象词之间的语法、语义信息。如例句1“这款产品最大的特点是性价比非常高。”，该句子情感词“高”与儿子词“性价比”之间的依存关系类型是SBV，采用本发明方法能与模板库中已存在的依存关系模板SBV匹配，因此能获得“性价比”这个观点评价对象，而词性、词形模板方法只利用词性、词形信息忽略了情感词的作用只能抽取得到“特点”作为观点评价对象，因此观点评价对象抽取性能较低。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于依存关系模板抽取观点评价对象的Bootstrapping方法，其特征在于：包括以下步骤：

步骤S2：用下式计算候选观点评价对象词j的分数：

步骤S5：用下式计算候选依存关系模板分数：

步骤S8：利用依存分析和语义角色标注技术的规则，对得到的候选观点评价对象进行边界识别；

其中，步骤S8中，所述依存分析和语义角色标注技术的规则具体包括：

2.根据权利要求1所述的一种基于依存关系模板抽取观点评价对象的Bootstrapping方法，其特征在于：步骤S1中所述对该词进行过滤处理具体包括词性过滤与停用词过滤；所述词性过滤为将名词短语作为候选观点评价对象；所述停用词包括通用停用词与领域停用词。