CN104268160B

CN104268160B - 一种基于领域词典和语义角色的评价对象抽取方法

Info

Publication number: CN104268160B
Application number: CN201410453074.0A
Authority: CN
Inventors: 冯冲; 廖纯; 杨森; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2017-06-06
Anticipated expiration: 2034-09-05
Also published as: CN104268160A

Abstract

本发明涉及一种基于领域词典和语义角色的评价对象抽取方法，属于自然语言处理应用技术领域，包括以下步骤：首先根据词性、依存和语义角色信息，构建评价对象的领域词典DL，然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征，与DL一起利用条件随机场(CRFs)进行模型训练和预测，从而完成评价对象的抽取工作。对比现有技术，根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点，充分利用不同层级句法和语义信息，结合基于规则和机器学习的评价对象抽取方法的优点，自动快速而且准确地找到语料中置信度较高的评价对象，提高了中文句子评价对象抽取的准确率。

Description

一种基于领域词典和语义角色的评价对象抽取方法

技术领域

本发明涉及一种中文句子评价对象抽取方法,特别涉及一种基于领域词典和语义角色的评价对象抽取方法，属于自然语言处理应用技术领域。

背景技术

随着互联网特别是web2.0的发展，越来越多的人不仅仅通过网络获取信息，而且还更多的参与到网络的交流。博客、微博、论坛的形成发展极大地改变了人们的使用互联网的方式。伴随着互联网的发展，通过人工的方式了解网络的海量信息，对网络上的信息进行整合分析变得越来越困难。对网络文本的抓取和分析技术就是这样的应用背景下应运而生。由于越来越多的网络文本信息，如何使用自然语言处理技术来分析网络的文本是当前研究的一个主题。情感要素抽取是对文本中重要的情感要素比如评价词，评价对象，评价者等进行提取，是细粒度的情感挖掘，也变得越来越重要。

大数据时代的到来，对网络上的信息进行有效的整合分析已经是研究者一个十分重要的研究课题。情感信息抽取，特别是细粒度的情感要素抽取，在近几年得到了越来越多的重视。情感要素抽取对情感信息抽取技术的研究有着十分重要的研究意义，在网络评论信息分析处理、舆情监控、信息预测等领域发挥了越来越重要的影响。

评价对象抽取技术的研究，对上层情感信息检索、分类以及专家系统等进一步的研究，有着十分重要的学术价值。评价对象抽取(Opinion Targets Extraction/Identification)是对句子中观点的指向词进行识别。评价对象指的是句子中表述观点和发表评论所针对的对象；评价词是句子中发表观点所用的词汇，也称为情感词。随着评价对象抽取任务的提出，相继出现了不同的抽取算法，主要分为基于规则的方法和基于机器学习的方法。通常基于规则的方法主要是采用句子中词、词性等模板特征，例如基于关联规则的方法。基于规则的方法对特定领域的效果较好，但是领域适应性较差。基于机器学习的方法在近年来才得以在评价对象抽取任务上进行研究。当前主要有CRFs、HMM、LDA等机器学习模型。基于机器学习的方法，受到目前句子短、特征少、语料库不足等影响，不能满足当前实际使用的需要。

发明内容

本发明的目的是为了解决现有基于规则的评价对象抽取方法领域适应性差、基于机器学习的方法对有限的中文标注语料库不能充分挖掘出特征的问题，提出一种基于领域词典和语义角色的中文句子评价对象抽取方法。

为实现上述目的，本发明所采用的技术方案如下：

本发明技术方案的思想是首先根据词性、依存和语义角色信息，构建评价对象的领域词典DL，然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征，与DL一起利用条件随机场(CRFs)进行模型训练和预测，从而完成评价对象的抽取工作。

一种基于领域词典和语义角色的评价对象抽取方法，该方法包括以下步骤：

步骤一、语料预处理：对语料集S的每一个句子按照规则(Rules)进行过滤，然后对过滤后的句子集合进行分词、词性标注得到语料集T；

步骤二、领域词典(DL)构建：首先通过对语料集T进行分析，总结出词性序列模板集合(posT)，并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配，得到评价对象集合A；然后对T中的每一个句子进行依存结果类型分析，通过分析评价对象与评价词之间的依存关系类型，得到评价对象集合B；接下来通过一个基于语义角色的评价对象提取算法，得到评价对象集合C；最后，对集合A、B、C取并集，得到集合D，作为最终的DL；

步骤三、CRFs特征选择：使用词汇特征、依存特征、相对位置特征和语义角色特征作为CRFs的特征；所述词汇特征部分，选择当前词及其词性作为此部分特征；所述依存特征部分，选取当前词与中心词是否存在依存关系、该依存关系的类型、当前词的父节点以及父节点的词性作为此部分特征；所述相对位置特征部分，以当前词与评价词之间的距离是否小于n作为本部分特征，n是一个大于零的自然数；所述语义角色特征部分，选取语义角色名字和评价词词性作为该部分的特征；

步骤四、利用CRFs进行评价对象抽取：首先对语料集T进行B，I，O标注，然后将步骤三提取的四部分特征、步骤二构建的DL及BIO标注一起加入CRFs进行训练；并使用此训练后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别，给出BIO分类结果；

步骤五、抽取完成，输出抽取结果OT集合，即分类结果为B或以B开头后跟若干个I的词的集合。

所述Rules包含以下六项内容：

规则1：去除纯英文句子；

规则2：对句子进行“//”划分，并且使分句顺序倒置；

规则3：对句子中用户名和网址进行删除；

规则4：对连续出现的多个相同标点符号，用第一个标点符号进行替换，同时去除表情标示符；

规则5：对于微博中特殊的“#内容#”，则把较短内容直接作为候选评价对象，较长内容作为一个单独的句子另行分析；

规则6：对句子中的代词，选择其前句或后句中的名词性主语将其替换。

所述posT的获取过程如下：

首先对语料集T中的词性标注进行替换，将属于比较词、主张词和程度副词的词语的词性标注改成cmp，aw和adv；对于T中的每一个句子，提取其评价对象前两个、前一个、后两个、后一个词与评价对象的词性一起作为模板提取出来，如果评价对象不是一个单独的词，而是由多个词的组合，则将这些组合词的词性，组合起来形成模板；按照这种规则处理T中的所有句子，并计算每一个模板的出现概率；最后，将出现概率最高的m个模板提取出来作为posT，m是一个大于零的自然数。

所述集合A的获取过程如下：

将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配，将匹配得到的所有词性序列中词性为n的词提取出来，去掉重复，构成集合A。

所述集合B的获取过程如下：

对语料集T中的每个句子进行依存分析，找出与评价词集合O中的词存在ATT或SBV关系的词作为评价对象，加入集合B，然后再选取与已知评级对象B中现存词的关系为COO的词，也添加入B，形成最终的集合B。

所述基于语义角色的评价对象提取算法具体内容如下：

对于句子中的评价词，如果评价词词性为动词，则选取受事者(即该动作的承受者)作为评价对象，而如果评价词词性为形容词，则选取施事者(即该动作的发出者)作为评价对象。

所述BIO标注的具体过程如下：

首先对于每一个句子，找出对应的评价对象；然后遍历该句子分词结果中的每一个词，如果其是该句所对应的评价对象中的第一个词，则标注为B；若其是该句所对应的评价对象中的其他词，则标注为I；其他情况，全部标注为O。

有益效果

本发明对比现有技术，根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点，利用基于规则的句子过滤方法，去掉了部分冗余的信息，然后通过挖掘句子词汇、句法和语义各方面的信息，通过规则的方法建立评价对象的领域词典；并将其和语义角色特征，辅以其他三种常用特征一起使用CRFs进行识别，充分利用了不同层级句法和语义信息，使用户能够更快速而且准确地找到语料中置信度较高的评价对象，提高了中文句子评价对象抽取的准确率。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合实施例对本发明做进一步说明。

本实施例选取第六届中文倾向性分析评测(The Sixth Chinese OpinionAnalysis Evaluation,简称COAE2014)任务四提供的数据集作为实验语料集，用于领域词典的创建和CRFs的训练。该语料集中，对于每一个句子，都含有标注好的评价对象(OT：是评价对象)。

步骤一，对语料集S(多为微博、论坛中的句子)按照规则(Rules)进行初步过滤。Rules的具体内容如下：

规则1：去除纯英文句子(目前主要专注于中文句子的分析)；

规则2：对句子进行“//”划分，并且使分句顺序倒置；例如用户a转发了用户b的微博“iphone5s很漂亮。”，并在此微博中说“我很喜欢！”，在语料集S中则表示为：“我很喜欢！//iphone5s很漂亮。”，经过此条规则过滤之后，得到“iphone5s很漂亮。我很喜欢！”，这样就保证句子的转发关系，使后面的句子基于前面的句子进行分析。

规则3：对句子中用户名进行删除，即删除“@+用户名”结构，删除“http://t.cn/h87oy”这样的网址结构；

规则4：对连续出现的多个相同标点符号，如“。。。。。。”，“！！！！”等，采用第一个标点符号进行替换，同时去除微博中表情标示符；

规则6：对句子中的代词，选择其前句或后句中的名词性主语将其替换；例如句子“这款iphone好漂亮。我觉得它比三星漂亮多了！”针对第二个句子中的“它”，我们则用其前句的“iphone”代替；

接着对通过以上规则过滤后得到的句子集合，分别进行分词和词性标注，得到集合T；分词和词性标注可以手工进行，也可以使用现有的工具进行，如ICTCLAS，结巴分词，本实施例中使用ICTCLAS。

步骤二，开始构建领域词典：

首先，根据处理后的语料集合T，在其中标注好的评价对象OT附近，对其词性和词本身进行分析，具体分析流程如下：

对于语料集T中每一个分好词的句子，例如句子“轻薄的机身很漂亮。”分词以及词性标注的结果为{“轻薄/adj”“的/de”“机身/n”“很/d”“漂亮/adj”“。/wp”}；其中本句所对应的评价对象是“机身”。首先我们遍历句子，去掉词性标注为wp的标点符号，同时将属于比较词、主张词和程度副词的词语的词性标注改成cmp，aw和adv；得到集合如下{“轻薄/adj”“的/de”“机身/n”“很/adv”“漂亮/adj”}我们以评价对象“机身”为中心，分别按以下方式来提取模板：

a、前两个词的词性+评价对象的词性；

b、评价对象的词性+后两个词的词性；

c、评价对象的词性+后一个词的词性；

d、前一个词的词性+评价对象的词性；

e、如果一个评价对象不是一个单独的词，而是多个词的组合，则将这些组合词的词性按照其在句子中的出现顺序依次连接起来作为评价对象的词性形成模板；

则以上例子提取出的模板为“adj+de+n”“n+adv+adj”“n+adv”“de+n”；按上述流程处理语料集T中的每一个句子，提取模板；同时计算每一个模板的出现概率，将出现概率最高的m个模板作为词性序列模板提取出来作为posT，经多次实验，取m＝6，因此posT的模板内容具体如表1所示：

表1词性序列模板

其中，n表示的是名词；aw和adv表示主张词和程度副词，均由hownet得到；adj表示形容词；cmp表示比较词，比较词集合如表2所示。

表2比较词集合

然后，分别用表1总结出的六条词性模板序列匹配语料集T中的每个分好词的词性序列：

例如句子：iphone不如三星实用，但它轻薄的机身和屏幕很好的特点，还是让年轻人认为它更胜一筹。

经步骤一预处理之后，得到：iphone/n不如/v三星/n实用/adj，/wp但/c iphone/n轻薄/a的/u机身/n和/c屏幕/n很/d好/a的/u特点/n，/wp还是/c让/v年轻人/n认为/viphone/n更胜一筹/a。

将其与以上六条词性模板进行匹配：

得到“iphone/n不如/v三星/n”匹配模板“n+cmp+n”，提取出评价对象为“iphone”“三星”；“三星/n实用/adj”匹配模板“n+adj”，提取出评价对象为“三星”；“轻薄/a的/u机身/n”匹配“adj+的+n”，提取出评价对象为“机身”；“屏幕/n很/d好/a”匹配“n+adv+adj”，提取出评价对象为“屏幕”；“认为/v iphone/n”匹配“aw+n”，提取出评价对象为“iphone”；则综合提取出评价对象为“iphone”“三星”“机身”“屏幕”，加入集合A。

然后，对语料集T中的每个句子进行依存结果类型分析，考虑到评价词语评价对象之间的关系，选取依存分析结果中，与评价词集合O中的词存在ATT或SBV关系的词作为评价对象，加入集合B，然后再选取与已知评级对象关系为COO的词，也添加入B。此处，我们选择知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD作为评价词集合O；依存分析可以使用现有的工具进行，如stanford-parser，哈工大的LTP，本实施例中使用LTP。

例如句子：“效率和画质都好于一般摄像头。”

得到的依存分析结果如下：

首先，遍历评价词集合O，找出评价词集合OW，即OW＝{“好”}(id＝4)；接着继续遍历依存结果，选择与“好”有依存关系，即parent＝4的词，将其加入依存词集合dp，即dp＝{“效率”，“都”，“于”，“。”}；然后遍历集合dp中每一个词与依存词的关系(即依存结果中的relate这一项)，将relate＝”SBV”和relate＝”ATT”的词作为新的评价词，即将“效率”加入集合B；最后，以当前集合B中的词为基础，即“效率”id＝0为中心，遍历依存结果，寻找与B中评价词有“COO”关系的词作为新的评价词加入集合B，即将parent＝0，且relate＝”COO”的词语加入集合B，B＝{“效率”，“画质”}，完成对本句的处理。

然后，通过基于语义角色的评价对象提取算法，对于依存结果继续进行分析提取：

在对试验语料的分析中，我们发现对于包含评价对象的主观句中，评价对象跟评价词有着密切的关系。形容词性评价词的评价对象在很大程度上为施事者，而动词性评价词的评价对象一般为受事者。鉴于此，为了系统性能的提高，可引入语义角色来进行评价对象提取。例如句子“我很喜欢iphone”，依存分析结果如下：

首先遍历依存分析结果中的每个词，与评价词集合O进行匹配，找出其中的评价词OW，此例OW＝{“喜欢”}，如果评价词pos＝”V”动词，则选取type＝”A1”(受事着，即该动作的承受者)作为评价对象，而如果评价词pos＝”a”形容词，则选取type＝”A0”(施事着，即该动作的发出者)作为评价对象，该例子中，找到arg标签内type＝“A1”的项中，beg＝“3”end＝“3”，即A1受事者为从id＝“3”到id＝“3”的部分，即“iphone”，并将其加入集合C，完成该部分的提取。

最后，将三部分集合合并在一起，即为构建出的领域词典DL。

步骤三、CRFs特征提取：

在CRFs的训练过程中，特征的选择非常重要，本实施例使用以下四种类型的特征：词汇特征、依存特征、相对位置特征和语义角色特征。

词汇特征：选取当前词及其词性作为此部分特征；

依存特征：选取当前词与中心词，即依存结果relate＝“HED”的词，是否存在依存关系(若本身就是中心词，则填1)、该依存关系的类型(若无则填null，若当前词就为中心词，则填HED)、当前词的父节点(若parent＝-1，则置0)以及父节点的词性作为特征(若parent＝-1，则置0)；

相对位置特征：选取当前词与评价词之间的距离是否小于n作为特征，若是，则为1，否则为0；实验表明，n＝5时效果较好；

语义角色特征：选取语义角色名字和评价词词性一起作为特征；首先遍历依存分析结果，找到每一个arg标签内的type，以及各种type的语义角色的作用范围，即beg和end所指示的范围；然后分别对句中的每个词进行遍历，如果其具备语义角色，则将其语义角色名称和本句中的评价词词性一起加入特征，如果不具备，则将两位全置0；

例如上文句子“效率和画质都好于一般摄像头。”依存分析结果为：

CRFs特征为：

效率：效率n 1SBV好a 1A0a

和：和c 0null画质n 1A0a

画质：画质n 0null效率n 1A0a

都：都d 1ADV好a 1ADV a

好：好a 1HED 00100

于：于p 1CMP好a 100

一般：一般c 0null摄像头n 100

摄像头：摄像头n 0null于p 100

以上例子中前两列表示词汇特征，第三列到第六列表示依存特征，第七列表示相对位置特征，第八列和第九列表示语义角色特征。

步骤四，利用经训练的CRFs进行评价对象抽取：

在介绍如何使用CRFs进行评价对象抽取前，先介绍如何对其进行训练，训练过程如下：

将步骤三提取的四部分特征与步骤二构建的DL和BIO标注一起加入CRFs进行训练；针对DL的利用，如果当前词在DL中存在，则置1，否则置0；要使用BIO标注，首先要对语料集T进行B，I，O标注，其具体过程如下：

首先对于语料集T中的句子，遍历原始语料集S，找出对应于每一个句子的评价对象，即标注为OT的词；然后遍历每一个句子分词结果中的每一个词，如果其是该句所对应的评价对象中的第一个词，则标注为B；若其是该句所对应的评价对象中的其他词，则标注为I；其他情况，全部标注为O。

因此，加上这二维特征后，以上例子加入CRFs时的特征为：

效率：效率n 1SBV好a 1A0a 1B

和：和c 0null画质n 1A0a 0I

画质：画质n 0null效率n 1A0a 1I

都：都d 1ADV好a 1ADV a 0O

好：好a 1HED 001000O

于：于p 1CMP好a 1000O

一般：一般c 0null摄像头n 1000O

摄像头：摄像头n 0null于p 1000O

按以上流程提取语料集T中的所有句子的词的特征序列，并使用其对CRFs进行训练。

在使用经训练的CRFs进行评价对象抽取时，只需要去掉以上特征序列的最后一列，即BIO特征列即可，CRFs识别后输出当前词的BIO类别。

步骤五、抽取完成，输出抽取结果OT集合：对语料经CRFs分类后的词，按词在语料集T中出现的顺序保留词及其BIO类别构成新的序列，提取序列中分类结果为B的词或以B开头后面跟若干个I的词的组合的集合，此集合即为OT，输出即可。

为了验证本发明实施例提供的中文评价对象抽取方法的有效性，此次在COAE2014评测数据的基础上进行试验。在具体测试时，选取其中4/5的数据作为已知数据，通过对该部分数据的学习生成中文情感关键句分类器模型；剩余1/5的数据作为待识别的数据，使用本文所述识别方法进行识别，通过CRFs预测出BIO序列，并将此序列与此前标注好的BIO序列进行比对，得到评价对象抽取的准确率P、召回率R和查全率F值。同时将本文所提方法DL+Srl与基于词典的方法Lexicon和Jakob(Jakob,N.,&Gurevych,I.(2010,October).Extracting opinion targets in a single-and cross-domain setting withconditional random fields.In Proceedings of the 2010Conference on EmpiricalMethods in Natural Language Processing)方法这两种识别方法所得到的结果作了比较，比较结果如下表所示：

实验结果表明，使用本文领域词典和语义角色相结合的方法大大提升了实验效果，充分证明了本发明所提供方法的有效性。这主要是因为通过详细分析词汇、句法和语义各层面的信息，充分挖掘可以作为CRFs特征的信息，使用CRFs进行评价对象抽取，以保证达到更高的准确率、召回率和F值。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都在要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于领域词典和语义角色的评价对象抽取方法，其特征在于，包括以下步骤：

步骤一、语料预处理：对语料集S的每一个句子按照规则Rules进行过滤，然后对过滤后的句子集合进行分词、词性标注，得到语料集T；Rules的具体内容如下：

规则1：去除纯英文句子；

规则2：对句子进行“//”划分，并且使分句顺序倒置；

规则3：对句子中用户名和网址进行删除；

规则6：对句子中的代词，选择其前句或后句中的名词性主语将其替换；

步骤二、领域词典DL构建：首先通过对语料集T进行分析，总结出词性序列模板集合posT，并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配，得到评价对象集合A；然后对T中的每一个句子进行依存结果类型分析，通过分析评价对象与评价词之间的依存关系类型，得到评价对象集合B；接下来通过一个基于语义角色的评价对象提取算法，得到评价对象集合C；最后，对集合A、B、C取并集，得到集合D，作为最终的DL；

所述posT的获取过程如下：

首先对语料集T中的词性标注进行替换，将属于比较词、主张词和程度副词的词语的词性标注改成cmp，aw和adv；对于T中的每一个句子，提取其评价对象前两个、前一个、后两个、后一个词与评价对象的词性一起作为模板提取出来，如果评价对象不是一个单独的词，而是由多个词的组合，则将这些组合词的词性，组合起来形成模板；按照这种规则处理T中的所有句子，并计算每一个模板的出现概率；最后，将出现概率最高的m个模板提取出来作为posT，m是一个大于零的自然数；

所述集合A的获取过程如下：

将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配，将匹配得到的所有词性序列中词性为名词的词提取出来，去掉重复，构成集合A；

所述集合B的获取过程如下：

对语料集T中的每个句子进行依存分析，找出与评价词集合O中的词存在ATT或SBV关系的词作为评价对象，加入集合B，然后再选取与已知评级对象B中现存词的关系为COO的词，也添加入B，形成最终的集合B；

所述基于语义角色的评价对象提取算法具体内容如下：

对于句子中的评价词，如果评价词词性为动词，则选取受事者(即动作的承受者)作为评价对象，而如果评价词词性为形容词，则选取施事者(即动作的发出者)作为评价对象；

步骤四、利用CRFs进行评价对象抽取：首先对语料集T进行B，I，O标注，然后将步骤三提取的CRFs特征、步骤二构建的DL以及BIO标注一起加入CRFs进行训练；并使用此训练后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别，给出BIO分类结果；

所述BIO标注的具体过程如下：

首先对于每一个句子，找出对应的评价对象；然后遍历该句子分词结果中的每一个词，如果其是该句所对应的评价对象中的第一个词，则标注为B；若其是该句所对应的评价对象中的其他词，则标注为I；其他情况，全部标注为O；

步骤五、抽取完成，输出抽取结果OT集合，即分类结果为B或以B开头后跟若干个I的词的组合的集合。

2.根据权利要求1所述的一种基于领域词典和语义角色的评价对象抽取方法，其特征在于，m＝6。

3.根据权利要求1或2所述的一种基于领域词典和语义角色的评价对象抽取方法，其特征在于，n＝5。