CN102866989A

CN102866989A - 基于词语依存关系的观点抽取方法

Info

Publication number: CN102866989A
Application number: CN2012103171830A
Authority: CN
Inventors: 刘瑞; 安翼; 陈君龙; 宋浪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-08-30
Filing date: 2012-08-30
Publication date: 2013-01-09
Anticipated expiration: 2032-08-30
Also published as: CN102866989B

Abstract

本发明公开了一种基于词语依存关系的观点抽取方法，包括如下步骤：采集词语依存关系路径并构建词语依存关系库；采用基于词语依存关系链的匹配算法抽取评价对象和情感特征；通过评价对象和情感特征之间的词语依存关系判断观点极性。该方法能够在不同领域中抽取观点，并且能够实现较高的观点抽取准确率。

Description

基于词语依存关系的观点抽取方法

技术领域

本发明涉及一种观点抽取方法，尤其涉及一种基于词语依存关系的观点抽取方法，属于计算机信息数据处理技术领域。

背景技术

互联网的迅速发展和广泛普及，在很大程度上改变了人们的生活方式，人们不仅能够被动的接受信息，还能与外界进行交互，越来越多的用户在互联网上分享自己的观点或者体验。互联网逐渐成为一种交互式媒体，人们可以通过BBS、Blogs等网络媒介发表对各种事物的评论。这些信息数量庞大，具有强烈的主观性，表达方式相当自由，且不规范。

网络上这些主观性的评论包含着大量的情感倾向的信息，这些信息，无论对于普通的网络用户，还是对于生产商以及其他机构组织都有很重要的价值。例如，普通用户可以根据网络上其他用户对某一产品的评价，而得知该产品的优点和缺点；生产商可以通过网络上产品的评价可以得知自己产品的客户满意度。但是，在海量的网络信息中，如果依靠人工浏览网页，搜集评论，分析观点，将是一项费时费力，效率低下的工作。例如，一个人气旺盛的论坛中，每天都可能产生几百个甚至上千个主题贴；此外，许多情况下，在这些长篇累牍的评论中，大部分内容都是客观描述，而只有几句话是用户感兴趣的主观评论。如何从互联网的海量数据中高效快捷的出针对某一主题的主观评论性信息至关重要。

识别和抽取在互联网的评论中用户针对某一具体的主题主观性评论称为观点抽取。观点抽取用于抽取情感评论文本中包含观点的信息，并将无结构化的情感文本转化为计算机容易识别和处理的结构化文本，从而为情感分析的其他研究和应用服务。观点的抽取也叫意见的抽取，它主要包括：评价对象（也称主题特征）的抽取，如价格、质量等；情感特征（也称极性特征）的抽取，如好、坏等等。观点的极性往往表达了用户对主题的主观性评论。观点的两个最基本要素分别是主题特征和情感特征，主题特征和情感特征通常对应了句子中的评价对象和评价词语。Bloom等人将主题特征和情感特征定义为情感评价单元。早期的研究者将观点抽取这项任务分为两个步骤：首先获取主观句中的评价对象，及主题特征；继而选择距离评价对象窗口为k的评价词语（情感特征），从而构成一条观点。但是这种方法经验性太强，导致系统的性能有限，准确率难以保证。

近期的一部分研究者将主题特征抽取和情感特征抽取合并为一个独立的任务，通过发掘二者之间的关系，提出了基于模版的方法来识别主观句中的情感评价单元。Kobayashi等人定义了一个评价三元组<evaluated subject，focused attribute，value>，其中，“focusedattribute”对应情感评价单元中的评价对象，“value”对应情感特征。他们将情感特征和评价对象之间的修饰关系用8个共现模板（如<Attribute>of<Subject>is<Value>等）来描述。然而，由于模板过于简单而且修饰关系仅仅停留在词表面，在模板匹配过程中，该方法产生了大量的候选评价对象和候选情感特征，需要人工筛选来完成情感评价单元的抽取。显然，这种方法大大提高了识别的准确率，但是对于模版的构建需要大量的人工工作。

哈尔滨工业大学的赵妍妍等人在《软件学报》2011年第5期刊载的《基于句法路径的情感评价单元识别》论文中提出了一种基于句法路径的方法。该方法能自动识别主观句中的情感评价单元。将链接评价对象和情感特征的句法结构视为一条句法路径，如图1所示。该方法通过大量语料的训练构建了句法路径库，并基于句法路径的匹配来自动获取主观句中的情感评价单元。这种方法可以有效的匹配评价对象和情感特征。但是，在很多情况下，某些句法成分的标签表达了相似的含义，而且多条不同的句法路径描述了相同的句法功能（例如图1），而且。因此，对于句法路径库的构建需要大量的泛化和人工筛选工作。

在申请号为200910082342.1的中国发明专利申请中，公开了一种获取评价单元、建立句法路径词典的方法、装置及系统。其中，获取评价单元的方法包括如下步骤：识别情感句的极性词和目标词；创建句法路径，所述句法路径用于连接所述极性词与所述目标词；根据句法路径词典获取所述句法路径对应的目标词，其中，所述句法路径用于存储标准句法路径；将所述极性词与所述获取的目标词组成评价单元。

发明内容

针对现有技术所存在的不足，本发明所要解决的技术问题在于提供基于词语依存关系的观点抽取方法。该方法能够在不同领域中抽取观点，并且能够取得较高的观点抽取准确率。

为实现上述的发明目的，本发明采用下述的技术方案：

一种基于词语依存关系的观点抽取方法，包括如下步骤：

采集词语依存关系路径并构建词语依存关系库；

采用基于词语依存关系链的匹配算法抽取评价对象和情感特征；

通过评价对象和情感特征之间的词语依存关系判断观点极性。

其中较优地,所述构建词语依存关系库的步骤包括：

1)对于语料库中的文本进行预处理，获得词语及其词性；

2)将处理后的文本以标点符号划分为不同的分句；

3)对每个分句进行句法解析，分析句法结构，获得句子成分；

4)根据句子中标注好的句子成分，以存在于情感词词典中的词语作为候选评价词语，名词性短语中的名词或代词作为候选评价对象，计算候选评价词语与候选评价对象的最短路径；

5)重复步骤3）至4），对训练集合中的所有分句进行处理，并对所获得的词语依存关系路径进行统计，将出现较多的词语依存关系路径加入到词语依存关系库中。

其中较优地,所述对评论文本进行预处理是使用ICTCLAS词法分析器对文本进行预处理。

其中较优地,所述分析句法关系是使用Stanford Parser分析器对语料进行句法解析。

其中较优地,所述候选评价词语与候选评价对象的最短路径由评价词语和评价对象之间的词语依存关系路径构成。

其中较优地,所述采用基于词语依存关系链的匹配算法抽取评价对象和情感特征的步骤包括：

a．通过句法解析，得到主观句的句法成分和词语依存关系集合；

b．选取句中的名词性短语作为候选评价对象；

c．计算候选评价对象与句中形容词短语、副词短语以及动词短语的最短路径作为候选词语依存关系路径；

d．将候选的词语依存关系路径与词语依存关系库中的标准词语依存关系路径进行匹配，匹配优先级高的词语依存路径链所连接的两个词语作为最终的评价对象和情感特征。

其中较优地,所述通过评价对象和情感特征之间的词语依存关系判断观点极性的步骤包括：

(1)采用基于通用知识网络的词语倾向性预测方法计算评价词语的语义倾向性；

(2)若词语的语义倾向性不为中性，采用如下式对观点的情感特征进行量化：

(3)根据是否存在否定副词，采用如下式对观点的情感特征量化：

Polarity (SentiGram) = \{\begin{matrix} Polarity (SentiGram) \cdot (- 1) & neg = NULL \\ Polarity (SentiGram) & neg &NotEqual; NULL \end{matrix}\}

其中，Polarty(sentiword)为评价词语的语义倾向性。

其中较优地,所述基于通用知识网络的词语倾向性预测方法包括：

a.判断未知词语是否存在于情感词词典中，如果存在返回极性，如果不存在，则进入步骤b；

b.选取褒义基准词集和贬义词基准词集，褒义词集和基准词集的基准词数量相同；

c.计算所述未知词语与所述褒义词集之间的紧密程度；

d.计算所述未知词语与所述贬义词集之间的紧密程度；

e.计算所述未知词语与所述褒义词集间的紧密程度和所述未知词语与所述贬义基准词集间的紧密程度的差值；

f.根据步骤e所得到的差值，选取适当的阈值空间，判断出所述未知词语极性。

本发明所提供的基于词语依存关系的观点抽取方法，首先对评论文本进行预处理，通过分析句法关系与词语依存关系，通过训练预料自动构建词语依存关系库，然后通过情感词与主题词之间的词语依存关系，解决观点抽取中属性与情感的关联匹配问题。本方法在不同领域中抽取观点能够取得较高的准确率。

附图说明

图1是本发明背景技术中相同功能的不同句法路径示意图；

图2是例3S1句法路径示意图；

图3是例3S2句法路径示意图；

图4是词语依存关系路径出现频率图示意图；

图5是不同词语依存路径库下的评价对象抽取结果示意图；

图6是不同领域下的观点抽取效果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的详细说明。

本发明提出了一种基于词语依存关系的观点抽取方法来识别主观句中的主题特征以及其对应的情感特征。在本发明所提供的基于词语依存关系的观点抽取方法中，首先采集词语依存关系路径来构建词语依存关系库；然后采用基于词语依存关系链的匹配算法抽取主题特征和情感特征；最后通过主题特征和情感特征之间的词语依存关系判断观点极性。在本发明中，针对观点检索中跨领域的特点先对评论文本进行预处理，通过分析句法关系与词语依存关系，通过训练语料自动构建词语依存关系库，然后通过情感词与主题词之间的词语依存关系，解决观点抽取中主题特征与情感特征的关联匹配问题。下面展开详细的说明。

首先介绍如何采集词语依存关系路径来构建词语依存关系库，构建词语依存关系库主要包括如下步骤：1)对于语料库中的文本进行预处理，获得词语及其词性；2)将处理后的文本以标点符号划分为不同的分句；3)对每个分句进行句法解析，分析句法结构，获得句子成分；4)根据句子中标注好的句子成分，以存在于情感词词典中的词语作为候选评价词语，名词性短语中的名词或代词作为候选评价对象，计算候选评价词语与候选评价对象的最短路径。5)重复步骤3）至4），对训练集合中的所有分句进行处理，并对所获得的词语依存关系路径进行统计，将出现较多的词语依存关系路径加入到词语依存关系库中。下面对上述构建词语依存关系库的步骤一一做详细说明

对于语料库中的文本进行预处理，获得词语及其词性，主要是针对中文主观性评论文本预处理。对主观性文本预处理的一些基本工作与中文文本分析的其他研究的预处理类似，主要是对目的文档集中的每一篇文档进行句子切分、分词、词性标注、停靠词过滤、无意义字符过滤等工作。但是，主观性文本也有其自身的特点：

首先，对于一些文本中重复出现的词语，在许多文本分析的预处理阶段会进行去重处理，或只记录词语的频率。但是对于主观性文本的分析，重复出现的形容词却不能去重处理，因为它们可能各自代表了一段文字区域的倾向性。而且在主题抽取任务中，即使是相同的极性词也不能简单的统一记录为词频，因为它们修饰的主题可能不同。另外，在许多其他的文本分析中，比如传统的文本分类问题，为了减少文档空间向量的维数，许多虚词都会被过滤掉，其主要提取的主干词为名词，动词等，形容词会被当作文档的修饰成分被过滤掉。显然，在进行倾向性分析时不能过滤掉虚词，也不能去重处理，这是主观性文本分析一大特点。

基于主观性文本分析的特点，在对语料进行预处理的阶段所涉及到的过滤、去重工作极少。这个过程最主要的工作就是对文本进行分词以及词性的标注，本发明使用ICTCLAS词法分析器对已构建的语料库中的评论文本的预处理。下面简单介绍一下ICTCLAS词法分析器。

ICTCLAS词法分析器又称汉语词法分析系统，由中国科学院计算技术研究所研制，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS词法分析器的内核先后升级6次，目前版本的分词速度为单机996KB/s、分词精度98.45%、API不超过200KB，各种词典数据压缩后不到3M。

其次，根据对于语料库中的文本进行预处理，获得的词语及其词性，对相应的语料库中的文本以“；”、“。”、“！”、“?”等标点符号划分为不同的分句。

再次，对每个分句进行句法解析，分析句法结构，获得句子成分。句法解析是指对句子的词语语法功能进行分析。例如，“我来晚了”，这里“我”是主语，“来”是谓语，“晚了”是补语。句法分析的任务是自动分析出句子的语法结构及语法关系，将一个线性序列的句子转换成一个结构化的语法树。根据不同的语法体系，分析结果表现为不同的形式。

由于主观句中的评价对象一般呈现为名词或者代词，因此，本发明设定主观句中词性为名词或者代词的词语作为候选评价对象。本发明使用Stanford Parser分析器对语料进行句法解析。通过句法解析后，名词和代词在句子中的都存在于名词性短语（NP）中，具体描述为常用名词（NN），固有名词（NR），时间名词（NT）以及代词（PN）。评价词语在主观句中主要以形容词短语（ADJP）和副词短语（ADVP）的形式存在，同时有少量动词短语（VP）也能够表达情感倾向。基于此，主题特征和情感特征的主要内容都存在于上述几个句法成分中，所以句法解析的主要工作之一就是对于句法成分的分析。下面简单介绍一下Stanford Parser分析器。

Stanford Parser分析器由Stanford大学开发，基本上是一个词汇化的概率上下文无关语法分析器，同时也使用了依存分析。StanfordParser分析器根据不同的语法观点可以输出不同的的分析结果。详细参见网址：Http://nlp.stanford.edu/software/Lexparser.shtml。

利用依存语法进行句法分析是自然语言理解的重要手段之一，它能够给出一个句子当中词与词之间的依存关系。“依存”就是指词与词之间支配与被支配的关系，处于支配地位的成分称为支配者，而处于被支配地位的成分称为从属者。而任意两个词之间都存在一条词语依存链，连接这两个词语。

根据句法分析的步骤获取的句子成分，以存在于情感词词典中的词语作为候选评价词语，名词性短语（NP）中的名词或代词作为候选评价对象，计算候选评价词语与候选评价对象的最短路径。该路径由评价词语和评价对象之间的词语依存关系路径构成。

词语最短依存路径的抽取就是在不考虑中间词语的支配关系的前提下，通过词语间的依存关系找到评价对象词与评价词语之间的一条最短连接路径。在本发明中，词语依存路径指的是两个词语之间依存关系的无向图。

例1“电脑外观时尚。”通过句法解析，得到该句子中的词语依存关系集合：

[nn（外观-2,电脑-1），nsubj（时尚-3,外观-2）]

对于例1，通过观察句子的词语依存关系可以发现，评价对象“外观”与评价词语“时尚”之间存在直接的词语依存关系nsubj(时尚-3,外观-2)。又如：

例2“我最喜欢的还是92万像素的显示屏和金属机身。”通过句法解析，可以得到这句话的词语依存关系集合：

[nsubj（还是-5，我-1），advmod（喜欢-3，最-2），dvpmod（还是-5，喜欢-3），dep（喜欢-3，的-4），dep（像素-8，92-6），nummod（像素-8，万-7），assmod（机身-15，像素-8），assm（像素-8，的-9），conj（机身-15，显示屏-10），cc（显示屏-10，和-11），dep（显示屏-10，它-12），cpm（显示屏-10，的-13），nn（机身-15，金属-14），dobj（还是-5，机身-15）]

在例2这个句子中，无法直接找到评价词语“喜欢”与评价对象“显示屏”和“机身”的词语依存关系。本发明在不考虑词语依存关系中的支配关系的情况下，通过计算最短路径，找到评价词语与评价对象间的最短依存路径“dvpmod-dobj”和“dvpmod-dobj-conj”。

例3S1：“我最喜欢的还是92万像素的显示屏和它的金属机身。”

S2：“我最喜欢的还是92万像素的显示屏和金属机身。”

通过句法解析，得到的S1（图2）和S2（图3）的句法路径，从图2和图3中可以看出，在S1和S2中评价词语“喜欢”与评价对象“机身”的句法路径均为：VA↑-VP↑-VP↑-DVP↑-VP↓-NP↓-NP↓-NN↓。

但是，对于评价词语“喜欢”与评价对象“显示屏”的句法路径，在S1中与S2中的形式则不同：

S1：VA↑-VP↑-VP↑-DVP↑-VP↓-CP↓-IP↓-VP↓-VA↓；

S2：VA↑-VP↑-VP↑-DVP↑-VP↓-NP↓-DJP↓-JJ↓。

由此可见，表达意思基本相同的两个句子的评价词语与评价对象存在着不同的句法路径。

对于例3中的两个句子进行句法解析，并找出评价词语“喜欢”与评价对象“显示屏”和“机身”的词语依存路径分别为：

S1：dvpmod（还是-5，喜欢-3）-dobj（还是-5，机身-15）；

dvpmod（还是-5，喜欢-3）-dobj（还是-5，机身-15）-conj（机身-15，显示屏-10）；

S2：dvpmod(还是-5,喜欢-3)-dobj(还是-5,机身-15)；

dvpmod（还是-5，喜欢-3）-dobj（还是-5，机身-15）-conj（机身-15,显示屏-10）。

所以，在例3中的两个句子中评价词语“喜欢”与评价对象“机身”的词语依存路径均为“dvpmod-dobj”，评价词语“喜欢”与“评价对象”显示屏“的词语依存路径均为“dvpmod-dobj-conj”。

通过比较看出，词语的依存关系不仅能够表示出评价对象与情感特征之间的句法关系，而且，相对于句法路径，词语依存关系的表示更加清晰简洁。

在例1中，评价对象与评价词语之间的最短依存路径为topic-nsubj-sentiword，例2中评价对象与评价词语间的最短路径为topic-(conj-dobj-dvpmod)-sentiword和topic-(dodj-dvpmod)-sentiword。其中，“topic”表示评价对象，“sentiword”表示评价词语。

最后，按照上述方法，对训练集合中的所有分句进行处理，并对所获得的词语依存关系路径进行统计，将出现较多的词语依存关系路径加入到词语依存关系库中。本发明的词语依存关系库采用了自动构建的方式，比其他手工构建的规则更为全面，即能够覆盖更多的句法关系。

本发明通过统计出各种词语依存关系路径出现的频率，并且通过阈值th来限定来选取较为频繁的词语依存关系路径构成词语依存关系库。这种通过考虑频率来确定词语依存关系正确性的方法基于如下的假设：情感特征与其真正具有搭配关系的评价对象之间满足一定的依存关系，并且这些关系是有规律可循的，可总结的，而非杂乱无章的。基于这种假设，很多学者通过人工总结句法关系来进行主题特征和情感特征的识别，并且他们的研究也证明了该假设的正确性。

本发明提出的词语依存关系路径可以看做是句法关系的一种表现形式。因此，同样基于上述假设，在较大规模的语料库中情感特征与其真正具有搭配关系的评价对象之间的词语依存关系路径也是有规律可言的，是可以总结的。这类正确的词语依存关系路径在大语料库中出现的次数将会较多，所以统计频率也会较高；相反，由于情感特征和那些并非存在真正搭配关系的评价对象之间的词语依存关系路径没有规律可言，它们的表现形式也较为杂乱无章。所以，这些错误的句法路径的统计频率也会较低。基于此，在较大的语料库中统计出现的词语依存关系路径频率能够较为真实的反映出词语依存关系在主题特征和情感特征抽取中的正确性和可用性。

通过实验分析，发现在评论文本中评价对象与评价词语之间的词语依存路径存在着明显的规律性，结果如图4所示。这意味着通过少量的词语依存路径可以覆盖很大一部分的评价对象及其评价词语，这一现象对本发明使用基于词语依存关系的主题特征和情感特征抽取的思路提供了有力的支持。

在本发明中，观点的两个最基本要素主题特征和情感特征通常对应了句子中的评价对象和评价词语。鉴于此，本发明将搭配<评价对象，情感因素>称为情感评价单元。本发明将情感评价单元的结构定义如下：OpinionUnit＝<Topic,SentiGram>

其中，Topic为句子中的评价对象，SentiGram为修饰评价对象的情感因素，其中包含了对主题进行修饰的评价词语（sentiword）和影响主题倾向性的上下文因素。对于情感评价单元的识别主要包括对于评价对象（Topic）和评价词语（sentiword）的抽取。

通过情感词典可以获取主观句中的评价词语。为了找到与这些评价词语相搭配的评价对象，发明采用了一种基于词语依存关系路径匹配的算法。本发明首先通过句法解析得到词语依存关系集合，并找出主观句中包含的候选评价对象，并以此来匹配词语依存关系库中的词语依存链，找出候选情感特征。基于词语依存关系链的匹配算法抽取情感评价单元具体步骤如下：

1)通过句法解析，得到主观句的句法成分和词语依存关系集合；

2)选取句中的名词性短语（NP）作为候选评价对象；

3)计算候选评价对象与句中形容词短语（ADJP）、副词短语（ADVP）以及动词短语（VP）的最短路径作为候选词语依存关系路径；

4)将候选的词语依存关系路径与词语依存关系库中的标准词语依存关系路径进行匹配，匹配优先级高的词语依存路径链所连接的两个词语作为最终的评价对象和情感特征。

最后，介绍通过评价对象和情感特征之间的词语依存关系判断观点极性。

在实际语言应用中，具有情感倾向性的词语往往还会有一些副词的修饰成分，如：“不”、“很”、“有点儿”等。这种修饰成分大致可分为两类，一种是否定修饰，这类词语对原评价词词的倾向性起着置反的作用；另一种是程度修饰，它们对原词的倾向性有着强调或者弱化的作用。这类词往往对情感特征有着不可忽视的影响，为了充分考虑这些信息对主题倾向性的影响，本发明将情感特征表示为如下的三元组：

SentiGram＝<sentiword,neg,mod ifier>

其中，如上三元组包含了评价词语（word），否定修饰（neg）和程度修饰（modifier）。表1和表2为本发明在知网基础上总结出的常用程度修饰词语：

很

太

特

颇

最

极

尽

巨

尤

挺

很是

特别

实在

尤其

尤为

极为

极其

多么

大为

分外

十足

十分

甚为

绝对

非常

出奇

无比

格外

颇为

倍加

完全

极其

极度

最为

极为

万分

异常

着实

逾常

格外

更为

相当

莫大

百分之百

表1程度强化修饰词语

较

还

蛮

稍

些

微

略

有点

有点儿

有些

一点

一点儿

一些

些微

些小

稍许

稍为

稍微

稍稍

略为

略微

较为

比较

相对

轻度

或多或少

多多少少

表2程度弱化修饰词语

加入程度修饰词和否定修饰后，情感特征的倾向性强弱可以由情感词的倾向性强弱扩展得到，本发明的观点极性判断方法具体如下：

1)采用基于通用知识网络的词语倾向性预测方法计算评价词语的语义倾向性Polarity(sentiword)；

采用基于通用知识网络的词语语义倾向性预测方法对未知词语sentiword的倾向性进行预测，具体如下：首先判断未知词语是否存在于情感词典中，如果存在返回极性，如果不存在，则通过计算该未知词语与一个基准种子情感词词集的相似度与相关场信息来判断它的极性。具体包括，选取褒义基准词集和贬义词基准词集，褒义词集和基准词集的基准词数量相同；计算所述未知词语与所述褒义词集之间的紧密程度；计算所述未知词语与所述贬义词集之间的紧密程度；计算所述未知词语与所述褒义词集间的紧密程度和所述未知词语与所述贬义基准词集间的紧密程度的差值；根据得到的差值，选取适当的阈值空间，判断出所述未知词语极性。

2)若评价词语的语义倾向性Polarity(sentiword)≠0采用如下方法对观点的情感特征进行量化：

然后根据是否存在否定副词进行量化：

Polarity (SentiGram) = \{\begin{matrix} Polarity (SentiGram) \cdot (- 1) & neg = NULL \\ Polarity (SentiGram) & neg &NotEqual; NULL \end{matrix}\} - - - (2)

对于词语依存路径库的构建，本发明采用了自动构建的方式，自动采集有效地词语依存关系路径来构建词语依存关系库。因此训练语料应当尽可能包含多的主观性评论，以减少噪音都对构建效果的影响。下面根据为了验证在不同领域的有效性，使用本发明所提出的基于词语依存关系的观点抽取方法，验证的其判断效果。

本发明使用某酒店评论语料和从中关村在线）（http://www.zol.com.cn/）收集的笔记本电脑产品的评论，建立了包含2100篇评论的训练语料。

本实验使用的测试集合包括部分酒店评论语料和从中关村在线的笔记本电脑、手机、数码相机的评论。该任务的语料主要来源于商品评论，要求找出评价句中作者评价的对象，同时对评价对象的倾向性做出判断。实验评测主要包括两部分，一是找出评价句中作者评价的对象，另一是对评价对象的倾向性做出判断。

对于评价对象的抽取，实验评价方法为常用的正确率、召回率和F度量值，结果的匹配采用精确匹配和覆盖匹配。所谓精确匹配指，抽取的观点中，主题特征必须与人工标注的结果完全相同才算正确。而覆盖匹配则只要求抽取到主题特征与正确答案有重合即可。例如，系统的抽取结果为“接口”，而正确答案为“usb接口”，在这种情况下也认为系统抽取的结果是正确的。

本发明使用基于词语依存关系的观点抽取方法使用不同的词语依存路径库对测试集中的酒店和笔记本电脑的评论进行主题抽取，实验结果见表3。

词语依存路径数量	正确数	抽取总数	正确率	召回率	F值
						15	219	492	44.51%	28.97%	35.10%
20	263	633	41.55%	34.79%	37.87%
						25	309	734	42.10%	40.87%	41.48%
30	321	816	39.34%	42.46%	40.84%
						40	332	941	35.28%	43.92%	39.13%

表3不同词语依存路径库下的评价对象抽取结果

将上述实验结果绘制成图表如图5所示，从图5的结果可以明确看出，随着词语依存路径库包含路径数量的增长，本发明提供的基于词语依存关系的观点抽取方法抽取的召回率不断增长，但是，当词语依存路径库的大小超过25时，系统的准确率有明显的下降，并且在词语依存路径库包含25条路径的情况下，F值达到最高。基于此，本发明使用出现频率最高的25条词语依存路径构建词语依存路径库。

由于词语依存路径库的构建使用的是酒店评论与笔记本评论，为了验证基于词语依存关系的观点抽取方法在不同领域的有效性，本发明分别对酒店、笔记本电脑、数码相机和手机四个领域的评论进行评价对象的抽取，其结果如表4所示。

表4不同领域下观点抽取效果

表4中数据显示，精确匹配的结果要差一些，而覆盖匹配则取得了相对较好的效果。主要原因在于精确匹配要求抽取出的观点主题与标注的主题完全匹配，而语言的表达是灵活多样的，例如“外观设计时尚”，标注的观点主题为“外观设计”，而抽取的结果为“外观”，这就造成了结果的不匹配。但实际上，二者表达的含义是一样的，因此从实际应用角度看，更注重覆盖评价的结果。

将上述实验结果绘制成图表如图6所示，从图6的结果可以清楚地看出，虽然词语依存关系库是通过酒店和笔记本评论语料训练得到的。但是，在数码相机和手机领域使用基于词语依存关系的观点抽取方法的效果并无明显差别。可见，基于词语依存关系的观点抽取方法在不同领域应用中的有效性。

上面对本发明所提供的基于词语依存关系的观点抽取方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于词语依存关系的观点抽取方法，其特征在于包括如下步骤：

采集词语依存关系路径并构建词语依存关系库；

2.如权利要求1所述的观点抽取方法，其特征在于：

所述构建词语依存关系库的步骤包括：

1)对于语料库中的文本进行预处理，获得词语及其词性；

2)将处理后的文本以标点符号划分为不同的分句；

4)根据句子中标注的句子成分，以存在于情感词词典中的词语作为候选评价词语、名词性短语中的名词或代词作为候选评价对象，计算候选评价词语与候选评价对象的最短路径；

3.如权利要求2所述的观点抽取方法，其特征在于：

所述对评论文本进行预处理是使用I CTCLAS词法分析器对文本进行预处理。

4.如权利要求2所述的观点抽取方法，其特征在于：

所述分析句法关系是使用Stanford Parser分析器对语料进行句法解析。

5.如权利要求2所述的观点抽取方法，其特征在于：

所述候选评价词语与候选评价对象的最短路径由评价词语和评价对象之间的词语依存关系路径构成。

6.如权利要求1所述的观点抽取方法，其特征在于：

所述采用基于词语依存关系链的匹配算法抽取评价对象和情感特征的步骤包括：

b．选取句中的名词性短语作为候选评价对象；

7.如权利要求1所述的观点抽取方法，其特征在于：

所述通过评价对象和情感特征之间的词语依存关系判断观点极性的步骤包括：

Polarity (SentiGram) = \{\begin{matrix} Polarity (SentiGram) \cdot (- 1) & neg = NULL \\ Polarity (SentiGram) & neg &NotEqual; NULL \end{matrix}\}

其中，Polariry(sentiword)为评价词语的语义倾向性。

8.如权利要求7所述的观点抽取方法，其特征在于：

所述基于通用知识网络的词语倾向性预测方法包括：

a.判断未知词语是否存在于情感词词典中，如果存在则返回所述未知词语的极性，如果不存在，则进入步骤b；

b.选取褒义基准词集和贬义词基准词集；

c.计算所述未知词语与所述褒义词集之间的紧密程度；

d.计算所述未知词语与所述贬义词集之间的紧密程度；

f.根据步骤e所得到的差值，通过选取阈值空间判断所述未知词语的极性。