CN102637165A

CN102637165A - 一种中文的观点、评价信息的属性-观点对抽取方法

Info

Publication number: CN102637165A
Application number: CN2012100387462A
Authority: CN
Inventors: 黄民烈; 朱小燕
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2012-08-15
Anticipated expiration: 2032-02-17
Also published as: CN102637165B

Abstract

公开了一种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性-观点对抽取方法，包括以下步骤：(1)对中文的观点、评价信息进行分词和词性标注，得到观点、评价信息中的每一个词及对应的词性；(2)抽取属性-观点对；(3)统计正面、负面属性-观点对出现的次数，然后判断是否正面出现次数大于负面出现次数，如果是则为正面属性-观点对，否则为负面属性-观点对。

Description

一种中文的观点、评价信息的属性-观点对抽取方法

技术领域

本发明涉及计算机应用技术的技术领域，具体地涉及一种中文的观点、评价信息的属性-观点对抽取方法。

背景技术

“属性-观点”对，也可以叫做“特征-观点”对，在评论中，属性和特征是相对产品或服务而言的，反映了一个产品或服务的不同方面。评论中属性词与观点词对的抽取是实现文档摘要、属性分析、极性判断等研究的基础工作，具有较高的研究价值。

我们认为，属性是表达相同意思的同义词集，例如，“性价比”，“价位”，“价钱”，“价格”，“售价”可以看作是“性价比”这个属性的同义词集，也就是属性词。同一个产品或服务，对应于很多属性，例如，手机有“外观”，“质量”，“性价比”，“信号”等属性。观点词一般用来描述属性词，例如，“性价比”的观点词为“高”。

属性观点对的抽取有很多相关的研究，但是涉及到中文领域的不是很多。一般来说，有基于规则的方法和机器学习的方法。例如，定义规则出现属性词后面的观点词即认为是属性观点对；机器学习的方法需要人工标注数据，抽取特征训练模型。但是，这些方法需要标注和训练模型，准确率不高，鲁棒性低。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种不需要标注和训练模型、准确率较高、具有较高的鲁棒性的中文的观点、评价信息的属性-观点对抽取方法。

本发明的技术方案是：这种中文的观点、评价信息的属性-观点对抽取方法，包括以下步骤：

(1)对中文的观点、评价信息进行分词和词性标注，得到观点、评价信息中的每一个词及对应的词性；

(2)抽取属性-观点对；

(3)统计正面、负面属性-观点对出现的次数，然后判断是否正面出现次数大于负面出现次数，如果是则为正面属性-观点对，否则为负面属性-观点对。

该方法充分利用大规模的互联网上用户标注的信息，同时结合句法、语法规则和大规模语料上的统计分析，不需要人工标注数据和训练模型，准确率较高，且具有较高的鲁棒性。

附图说明

图1是根据本发明的中文的观点、评价信息的属性-观点对抽取方法的流程图；

图2是根据本发明的统计正面、负面属性-观点对出现的次数的流程图。

具体实施方式

下面对本发明的技术方案做进一步的详细描述。

如图1所示，这种中文的观点、评价信息的属性-观点对抽取方法，包括以下步骤：

(2)抽取属性-观点对；

(3)统计正面、负面属性-观点对出现的次数(如图2所示)，然后判断是否正面出现次数大于负面出现次数，如果是则为正面属性-观点对，否则为负面属性-观点对。

该方法结合规则和统计信息，不需要标注和训练模型，准确率较高，且具有较高的鲁棒性。

优选地，步骤(2)包括以下分步骤：

(2.1)抽取基于语法词性关系的属性-观点对；

(2.2)再抽取基于候选词典的属性-观点对；

(2.3)从搭配关系，领域相关性以及观点词是否具有倾向性三个方面来对步骤(2.2)的属性-观点对进行过滤；

(2.4)扩展步骤(2.3)的属性-观点对中的观点词和属性词；

(2.5)对属性-观点对的极性进行判断。

在步骤(2.1)中对于语法关系的使用，我们选择利用依存文法。依存文法通过分析一个句子内部语言单位成分的依存关系来揭示句子的句法结构。具体到属性词和观点词之间存在的依存关系，主要可以分为如下两类：第一，属性词和观点词存在直接的依存关系。比如，在“性价比很高”这句话中，“性价比”和“高”直接存在直接的主谓关系(在Stanford Parser中判定为nsubj关系)。第二，属性词和观点词存在间接的依存关系。即二者共同与第三个语言单位存在依存关系。比如，在“11寸的体型确实是同类产品中最小巧的”这句话中，“体型”和“小巧”属于属性-词观点词对。二者并没有直接的依存关系，而是共同与“是”存在依存关系：“体型”与“是”构成了主谓关系(在Stanford Parser中判定为nsubj关系)，“是”与“小巧”构成了表语关系(在Stanford Parser中判定为attr关系)。由于现有的中文语言处理工具所得到的句子依存关系中，会出现不可避免的错误。所以仅依靠依存关系来提取属性词-观点词对可能带来很大的噪音。为此，我们在利用依存关系的同时，增加了对词语词性的限制。这样，一个属性词-观点词对的抽取规则(见表1)就可以用如下的三元组来表示<依存关系，属性词词性，观点词词性>。

表1

仅仅利用语法词性关系来进行属性词-观点词的提取，由于依存语法判断的准确性较低，可能会导致如下问题：一，部分句子由于句子太长或者其他原因，使得依存语法分析失败；二，部分句子的依存语法分析出错，使得一些属性词-观点词对之间的关系并不满足表一种所示的规则，同时，满足了表一中所示规则的词语对可能并非是属性词-观点词对。上述两个问题均降低了召回率，第二个问题降低了提取的准确率。为了解决召回率的问题，我们采用了观点词再提取技术。优选地，步骤(2.2)包括以下分步骤：

(2.2.1)生成一个观点词表和一个属性词表；

(2.2.2)使用已有的字典对属性词和观点词进行扩展，即属性词只与其最近的观点词进行搭配，从而减少了同一句中不同的属性词和观点词出现的组合情况，以致生成了一个<属性词，观点词，句子>的三元组的集合。

在上一步过程中，得到的三元组表存在有很大的噪音。这样的噪音可能有三个原因：一是三元组中的属性词和观点词不满足搭配关系，比如，在三元组<“性价比”，“粗”，“这个手指一般粗的播放器性价比还不错”>中，“性价比”和“粗”的搭配便不恰当。二是是提取出来的属性词跟所在的领域没有关系，或者说关系不大。比如，在“大卖场里面的手机质量都很不错”一句中，“卖场”和“大”是一对搭配合理的属性词-观点词对，但是由于卖场并不算电子领域中的一个主要的属性。三是提取出来的观点词对属性词没有明显的评价关系，并不能表明属性的好或者差。比如，“有限公司”这一词组中，“有限”和“公司”是一对合理的搭配，但是“有限”一词仅仅是对公司类型的一个描述，并没有对该公司做出评价。为此，我们将从搭配关系，领域相关性以及观点词是否具有倾向性三个方面来对三元组进行过滤。优选地，步骤(2.3)包括以下分步骤：

(2.3.1)判断搭配关系；

(2.3.2)基于领域互信息进行过滤。

对于不满足搭配关系的情况，可能会有如下两种：一是提取出来的属性词和观点词本身不满足搭配关系，比如“性价比”和“粗”；另一种情况是提取出来的属性词和观点词本身满足搭配关系，但是在句子中并没有搭配关系。比如，在“质量很高而且性价比也不错”一句中，“性价比”和“高”是一组良好的搭配，但是在句子中他们并没有修饰关系。对于前一种情况，我们将采用统计的方法对两个词的搭配关系进行考虑；对于后者，我们则根据句子中的具体情况来进行判断。我们对在依据句法词性规则提取出来的属性词-观点词搭配表上，进行了统计计算，分别计算了如下的统计量(见表2)：一个属性词-观点词对出现的次数NOccur；同一对属性词-观点词之间的不同依存关系的频次rel[i](i＝1，2，3……7)，分别对应7中依存关系的出现次数，理论上，

观点词相对于属性词的位置的频次loc[i](i＝-5，-4，-3，-2，-1，1，2，3，4，5)，理论上，

一般的，两个词如果满足搭配关系，那么他们之间的相对距离的分布图会出现尖峰，尖峰的位置就是观点词最可能出现的位置，loc[]数组中最大值的下标iMax。上述特征用于将用于判断属性词和观点词再没有上下文的情况下是否搭配一致。对于每个句子中具体的搭配关系的判断，我们计算了如下特征量：属性词和观点词之间是否存在直接的依存关系relation；属性词与观点词的距离foDistance；观点词相对于属性词的位置与iMax的差值frDistance，其值越小，说明观点词距最可能出现的单词的距离越近，其越可能成为一个合适的搭配；三个标志位flag[]：观点词与属性词之间是否存在标点符号，其间是否间隔介词，其间是否间隔动词。

现在，对于一个三元组，我们有8个特征值可以用来判断属性词和观点词是否满足搭配关系。我们分别采用了SVM的方法和特征值加权评分这两种方法来判断某一三元组是否满足搭配的要求。在特征值加权评分的方法中，优选地，步骤(2.3.1)使用了公式(1)进行加权评分：

Score＝(OccurScore+RelationScore)*FrDistanceFactor*FlagFactor

(1)

其中，OccurScore和RelationScore分别为Noccur和relation的分段函数，而FrDistanceFactor和FlagFactor则分别是惩罚因子，同frDistance和flag有关，对Score取指定阈值即可对搭配关系进行判定。

表2

三元组中的属性词和和观点词都是单个的单词(分词结果中的一个词)，我们需要在原句中扩展出修饰观点词的副词，以及属性词前面的修饰词。对于观点词和属性词的修饰词，主要有以下这几个特征：第一，修饰词的词性多种多样，观点词的修饰词多为副词，而属性词的修饰词可能为名词，形容词，专有名词，英语缩写等等；第二，修饰词可能有多个，可能前面连续连个词均为修饰词。比如在词组“诺基亚5233手机”中，属性词“手机”前面就有“5233”，“诺基亚”两个词来修饰；第三，多个修饰词连续出现；第四，修饰词和被修饰词在较大量的语料中重复出现。根据上面四个特征，优选地，步骤(2.3.2)使用了公式2进行过滤：

M (w, D) = Σ_{i = 0}^{n} \log \frac{p (w, D (i))}{p (w) * p (D (i))} - - - (2)

其中，p(w)为词w在所有语料中出现的概率，p(D(i))为第i个领域出现的概率，等于第i个领域中的词的个数占所有语料中词的个数的比例，p(w，D(i))为词w在第i个领域中出现的次数处理所有语料中的单词数，其中i为正整数。

优选地，步骤(2.4)包括以下步骤：

(2.4.1)在原始语料中计算相邻两个词的互信息，相邻两个词w1，w2的互信息按照公式(3)计算：

M (w 1, w 2) = Σ_{i = 0}^{n} \log \frac{p (w 1, w 2)}{p (w 1) * p (w 2)} - - - (3)

其中，p(w1，w2)为相邻两个词相邻出现的概率，p(w1)和p(w2)则分别是w1，w2两个词出现的概率；

(2.4.2)对于单词串[w1，w2，w3…wi]，其中wi是被修饰词，从w(i-1)来逐个向前判断某个单词是否属于修饰词组中的单词；如果M(w(j-1)， wj)大于指定阈值a，同时w(j-1)，wj满足修饰词的词性要求，那么w(j-1)属于修饰词组。

优选地，步骤(2.5)包括以下两种方法：

1.利用现有人工标注的语料，进行极性的判断，按照公式(4)算出一个倾向性的评分polarity：

polarity = \{\begin{matrix} (\frac{NAdv}{NAdv + NDisadv} - 0.5) * 2, & NAdv &GreaterEqual; NDisadv \\ (\frac{NDisadv}{NAdv + NDisadv} - 0.5) * 2, & NAdv < NDisadv \end{matrix} - - - (4)

其中polarity的取值范围为[-1，1]；

2.利用上下文和句中的转折关系来进行极性判断：首先，对属性词-观点词对进行初始的极性赋值，如果为正面倾向，则polarity＝1，否则polarity＝-1；利用现有人工标注的语料进行极性赋值，如果有属性词没有得到极性赋值，令其polarity＝0；以一个句子S为单位进行分析，假设S是有n个小句，这些小句由逗号分开而组成，令psub(i)，表示第i个小句的示性标注，初始值全部预设为1，其中i＝1至n；从1开始逐个对n个小句进行极性判断，如果第i个小句的第一个词为一个转折词，那么psub(i)＝-psub(i-1)；S中找到了m个观点词-属性词对，令pfo(j)表示第j个属性词-观点词对的示性标注，其中j＝1至m；如果第j个属性词-观点词对出现在第i个小句中，那么pfo(j)＝psub(i)；如果第i个小句内部出现了转折词，设在转折词左边的属性词-观点词对为第j个，右边的为第j+1个，那么

pfo(j)＝psub(i)，pfo(j+1)＝-pfo(j)；通过公式(5)对一个属性词-观点词对的极性polarity进行计算：

polarity (j) = \frac{Σ_{i = 1; i! = j}^{m} pfo (i) * polarity (i) * weight (i, j)}{Σ_{i = 1; i! = j}^{m} weight (i, j)} - - - (5)

其中，weight(i，j)为第i个和第j个属性词-观点词对的权值，其和其间的距离成反比；对同一个属性词-观点词对在不同句子中的 polarity求平均值，作为新的polarity，迭代计算后，便得到了所有属性词-观点词对的polarity，然后根据指定阈值过滤掉没有明显倾向性的属性词-观点词对。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种中文的观点、评价信息的属性-观点对抽取方法，其特征在于：包括以下步骤：

(2)抽取属性-观点对；

2.根据权利要求1所述的中文的观点、评价信息的属性-观点对抽取方法，其特征在于：步骤(2)包括以下分步骤：

(2.1)抽取基于语法词性关系的属性-观点对；

(2.2)再抽取基于候选词典的属性-观点对；

(2.4)扩展步骤(2.3)的属性-观点对中的观点词和属性词；

(2.5)对属性-观点对的极性进行判断。

3.根据权利要求2所述的中文的观点、评价信息的属性-观点对抽取方法，其特征在于：步骤(2.2)包括以下分步骤：

(2.2.1)生成一个观点词表和一个属性词表；

4.根据权利要求3所述的中文的观点、评价信息的属性-观点对抽取方法，其特征在于：步骤(2.3)包括以下分步骤：

(2.3.1)判断搭配关系；

(2.3.2)基于领域互信息进行过滤。

5.根据权利要求4所述的中文的观点、评价信息的属性-观点对抽取方法，其特征在于：步骤(2.3.1)使用了公式(1)进行加权评分：

Score＝(OccurScore+RelationScore)*FrDistanceFactor*FlagFactor

(1)

6.根据权利要求5所述的中文的观点、评价信息的属性-观点对抽取方法，其特征在于：步骤(2.3.2)使用了公式2进行过滤：

M (w, D) = Σ_{i = 0}^{n} \log \frac{p (w, D (i))}{p (w) * p (D (i))} - - - (2)

7.根据权利要求6所述的中文的观点、评价信息的属性-观点对抽取方法，其特征在于：步骤(2.4)包括以下步骤：

M (w 1, w 2) = Σ_{i = 0}^{n} \log \frac{p (w 1, w 2)}{p (w 1) * p (w 2)} - - - (3)

(2.4.2)对于单词串[w1，w2，w3…wi]，其中wi是被修饰词，从w(i-1)来逐个向前判断某个单词是否属于修饰词组中的单词；如果M(w(j-1)，wj)大于指定阈值a，同时w(j-1)，wj满足修饰词的词性要求，那么w(j-1)属于修饰词组。

8.根据权利要求7所述的中文的观点、评价信息的属性-观点对抽取方法，其特征在于：步骤(2.5)包括以下两种方法：

1.利用现有人工标注的语料，进行极性的判断，按照公式(4)算出一个倾向性的评分极性值polarity：

polarity = \{\begin{matrix} (\frac{NAdv}{NAdv + NDisadv} - 0.5) * 2, & NAdv &GreaterEqual; NDisadv \\ (\frac{NDisadv}{NAdv + NDisadv} - 0.5) * 2, & NAdv < NDisadv \end{matrix} - - - (4)

其中polarity的取值范围为[-1，1]，为负表示负面观点的表达，为正则表示正面观点的表达；

polarity (j) = \frac{Σ_{i = 1; i! = j}^{m} pfo (i) * polarity (i) * weight (i, j)}{Σ_{i = 1; i! = j}^{m} weight (i, j)} - - - (5)

其中，weight(i，j)为第i个和第j个属性词-观点词对的权值，其和其间的距离成反比；对同一个属性词-观点词对在不同句子中的polarity求平均值，作为新的polarity，迭代计算后，便得到了所有属性词-观点词对的polarity，然后根据指定阈值过滤掉没有明显倾向性的属性词-观点词对。