CN103646088A

CN103646088A - 基于CRFs和SVM的产品评论细粒度情感要素提取

Info

Publication number: CN103646088A
Application number: CN201310686738.3A
Authority: CN
Inventors: 孙晓; 唐陈意; 叶嘉麒; 李承程; 任福继
Original assignee: Hefei University of Technology
Current assignee: Qingdao Class Cognition Artificial Intelligence Co ltd
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2014-03-19
Anticipated expiration: 2033-12-13
Also published as: CN103646088B

Abstract

本发明公开了一种基于CRFs和SVM的产品评论细粒度情感要素提取，包括如下步骤：a、采用CRFs模型，将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取；b、根据提取出的情感对象、情感词和引入的句子结构特征，采用SVM模型对词对进行情感倾向性分析。本发明不仅将评论句中情感对象和情感词一并提取出来，而且提高了情感倾向性分析中的情感分类精度，使得在情感要素抽取与情感判断上得到提高，F值达到76.3%。由于词义代码的引入，词义代码提高了系统的泛化能力和鲁棒性，使得评论结果分析的正确率和召回率均得到了较大提高。

Description

基于CRFs和SVM的产品评论细粒度情感要素提取

技术领域

本发明属于计算机信息挖掘技术领域，涉及产品情感要素提取，具体的涉及基于CRFs和SVM的产品评论细粒度情感要素提取。

背景技术

随着互联网用户迅速增长以及线上购物的不断普及，电子商务出现了爆炸式发展，虽然传统购物还无法被取缔，但是网上购物逐渐成为了人们的首选方式，因为在网上购物环境中，用户可以通过网上商品评论，随时获得更多、更全面的购物参考信息，对商品质量有更全面的了解，同时，用户在购买商品后，往往会参与到对商品的评价中，使得商品评论数据变得越来越庞大。相对商家宣传，评论数据往往能够更客观的反映出产品的真实面貌，如质量、外观、用户体验等等。准确而快速的获取和分析这些评论数据，除了可以为用户提供购买决策支持，还能给商家制定销售策略和改进商品提供全面准确的依据。

在网络交易平台上，评论数据往往较多，尤其是热门商品，在海量的数据面前，对信息的快速获取造成了障碍，而人工处理效率低下的缺点就尤为明显。为了解决这个问题，许多电子商务网站采用了五星制评级方式来量化用户对商品的评价。这种方法在一定程度上简化了评论处理，方便用户获取信息，但是，可能会丢失许多重要的信息。针对普通五星制的缺点，少数网站细化了评价分类，如日本的Kakaku网上商城，针对不同类型的商品，列出大家比较关注的一些主要属性，例如性价比等，让用户对产品的每一个属性分别评论并评分，总体的评分汇总直接提供给用户作为购物参考。这种方式有了明显的改进，但是同时带来了一些弊端，首先是产品属性集合并不是固定不变的，人们关注的属性随时可能发生变化，固定的属性集合随着时间的推移可能会渐渐变的不合理，因而需要随着产品的发展和用户的关注点进行更改。其次是固定的属性集合很有限，无法列举出所有属性。再次，人们喜欢使用自然语言表达观点和情感，固定的属性集合不利于提升用户体验。

使用自然语言对观点和认知进行表达是人们最自然的表达方式，这种用户评论也给研究者带来了新挑战，要从自然语言评论中自动发现情感要素，因而，使用自然语言处理技术自动处理用户的评论数据是最理想的处理方式。

单独的情感分类按照粒度的不同可以分为四个级别：词级/短语级、句子级、段落、篇章级。到目前为止，学者们对句子级和篇章级的研究较多，短语级的相对较少。虽然已有不少学者在情感倾向性分析上进行了一些研究，并且取得了不少成果，但在细粒度<情感对象，情感词>词对抽取及情感倾向性分析方面，综合效果距离实用仍有不少差距。

发明内容

为了解决现有技术中的不足，本发明提出了一种基于CRFs和SVM的产品评论细粒度情感要素提取，以同时提取评论句中情感对象和情感词，并对其情感倾向性进行分析。

为实现上述发明目的，本发明采用如下技术方案：基于CRFs和SVM的产品评论细粒度情感要素提取，包括如下步骤：

a、采用条件随机场模型（CRFs）将评论句中的情感对象（SS）和情感词（SW）同步提取出来，具体步骤包括：将评论语特征看成是序列，然后根据序列对评论语进行位置标注，再采取相应规则对错误标注进行层次过滤，完成对情感对象和情感词的提取；

b、根据提取出的情感对象、情感词和引入的句子结构特征，采用支持向量机（SVM）模型对情感对象和情感词组成的词对进行情感倾向性分析。

所述的a步骤中评论语句的特征包括：词本身（W）、词性（POS）、语法树父节点词本身（PW）、语法树父节点词性（PPOSE）、语法树父节点语义角色（PDP）。

所述的位置标注的符号集合为：BA（位于情感词之前的情感对象）、BB（位于情感对象之前的情感词）、EA（位于情感词之后的情感对象）、EB（位于情感对象之后的情感词）、SA（没有情感词的情感对象）、SB（没有情感对象的情感词）、P（标点符号）、O（其他）。

所述的a步骤中的相应规则的伪代码为：设CurrWord为当前词，WordLabel为当前词标记，SS为当前情感对象，SW为当前情感词，SSSet为情感对象集合，WPSet为<情感对象，情感词>词对集合;

初始化

如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:

不处理

else if WordLabel=P或者当前词到了句子末尾:

如果SS已找到：

将SS放入SSSet；

如果SSSet不为空并且SW已找到:

将SSSet和SW放入WPSet；

重新初始化

else if WordLabel=BA:

如果CurrWord和SS为并列关系:

将SS放入SSSet，SS设为CurrWord

否则:将SS和CurrWord拼接成新的SS

else if WordLabel=BB:

SW设为WordLabel，SS设为未找到;

else if WordLabel=EA:

如果CurrWord和SS为并列关系:

将SS放入SSSet，SS设为CurrWord

否则:将SS和CurrWord拼接成新的SS

else if WordLabel=EB:

SW设为CurrWord，再按照当前词标记为P的方式处理。

所述的b步骤中句子结构特征包括：情感对象词义代码（SSC）、情感词词义代码（SWC）、是否存在情感倾向反转词、情感词基本极性。

所述的词性（POS）包括：结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。

所述的语义角色（DP）包括：主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。

所述的语法树父节点词本身（PW）是指在语法分析树中，每个词都有一个父节点，每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Word_i/P_i/Index_i形式的数组，表示第i个词的父节点为第Index_i个词，他们之间的关系是P_i，形式化为

\{\begin{matrix} parent (i) = Word ({Index}_{i}) \\ relation (i) = P_{i} \end{matrix}

其中：parent(i)表示第i个词的父节点，word(i)表示第i个词，relation(i)表示第i个词与其父节点的依存关系，可以循环调用father的方式来到达树根。

所述的词义代码指的是具有相同或者相近意义的词的集合的编号，意义相同或者相近的词属于同一个集合，拥有相同的词义代码，由于一些词具有多义性，所以同一个词可能同时属于多个集合，拥有多个词义代码；词义代码的获取方法为：将词转化成向量，再使用K-means聚类算法将意义相同或者相近的词聚合成一类，再给每一类分配一个固定的唯一的编号，这个编号就是这一类词的词义代码。

所述的情感词基本极性判断方式为：基本的情感词极性通过《中国知网》情感词典查得，词典中没有的词使用SO-PMI算法计算极性，互信息(PMI)计算如下式：

PMI (w_{1}, w_{2}) = \log \frac{P (w_{1}, w_{2})}{P (w_{1}) P (w_{2})}

其中：p(w₁，w₂)为词w₁和w₂同时出现的概率，SO-PMI通过下式计算得到：

SO_PMI (w) = \underset{pw &Element; p_{set}}{Σ} PMI (w, pw) - \underset{nw &Element; N_{set}}{Σ} PMI (w, nw)

其中：Pset为正向情感词集合，Nset为负向情感词集合。

本发明的有益效果为：本发明针对评论细粒度词级/短语级研究，基于改进后的SVM和CRFs混合模型，通过引入搭配关系和句法特征以及句法结构信息，不仅将评论句中情感对象和情感词一并提取出来，而且提高了情感倾向性分析中的情感分类精度，使得在情感要素抽取与情感判断上得到提高，F值达到76.3%。由于词义代码的引入，词义代码提高了系统的泛化能力和鲁棒性，使得评论结果分析的正确率和召回率均得到了较大提高。

附图说明

图1本发明的CRFs对应图模型。

图2本发明的SVM模型中的分割超平面示意图。

图3本发明的语法分析树示例图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步说明：

一、情感词和情感对象提取：

CRFs是一种序列标注模型，对应其图模型如图1所示。在序列标注任务中观察序列X=X₁，....，X_n-1，X_n，对应评论的汉字序列，标记序列Y=Y₁，…，Y_n-1，Y_n，在发明中对应位置角色标记序列。评论语句可以看成以字或者以词为基本单位的序列，对情感词和情感对象的抽取过程可以看成一个序列标注的过程。

1、多粒度特征

本发明重点考虑句子结构及语义的重要性，因此将依存句法和语法树特征引入进来。提取中使用的特征如下：

（1）词本身（W）。词是能表达语义的最小语法单位，不同的词有着不同的含义。词包含了所有的显式特征，情感词及情感对象也均由词或词组成的短语构成。

（2）词性（POS）。词性是一种隐式特征，在自然语言处理中经常使用的特征之一。使用到的词性有：结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。

通过初步分析，情感对象和情感词的词性存在一定的搭配规律，如情感对象主要由名词、名词短语等构成，情感词主要由形容词，动词等构成。因此词性是情感对象和情感词提取的重要依据。例：屏幕/名词很/副词不错/形谓词；名词“屏幕”是情感对象，形谓词“不错”是情感词。

（3）语义角色（DP）。语义角色是一种更为高级的更为深入的隐式特征，是对整句语义的一种表现形式。使用到的语义角色包括：主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。一个词是否是情感对象或者情感词往往和该词的语义角色有着深层次的内在的联系，观察发现，情感对象充当主语和宾语较多。

（4）语法树父节点词本身（PW）。在语法分析树中，每个词都有一个父节点，每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Word_i/P_i/Index_i_形式的数组，表示第i个词的父节点为第Index_i个词，他们之间的关系是P_i。形式化如下

\{\begin{matrix} parent (i) = Word ({Index}_{i}) \\ relation (i) = P_{i} \end{matrix}

parent(i)表示第i个词的父节点，word(i)表示第i个词，relation(i)表示第i个词与其父节点的依存关系。可以循环调用father的方式来到达树根。

例：屏幕（主语，3）很（状语，3）不错（谓语，-1）该句中“屏幕”是主语，其父节点为第3个词“不错”，“很”为状语，父节点也是第3个词，“不错”的父节点是第-1个，父节点为-1的词被称为核心词（root），即语法树树根。可以得到“屏幕”和“不错”存在父子节点的关系。父节点词本身、词性及语义角色对判断一个词是否是情感对象或者情感词有着重要作用。

（5）语法树父节点词性（PPOSE）。

（6）语法树父节点语义角色（PDP）。

2、标注集合

由于本发明是将情感对象和情感词同时提取出来，将其视为序列标记问题，利用CRFs模型来处理。位置标注符号集合为：BA（位于情感词之前的情感对象）、BB（位于情感对象之前的情感词）、EA（位于情感词之后的情感对象）、EB（位于情感对象之后的情感词）、SA（没有情感词的情感对象）、SB（没有情感对象的情感词）、P（标点符号）、O（其他）。

之所以设计了BA、BB、EA、EB四个而不是两个来表示情感对象和情感词，是因为情感对象和情感词存在顺序问。如：①、屏幕/BA很/O不错/EB；②、很/O不错/BB的/O屏幕/EA。在①中情感对象在前，情感词在后。在②中情感词在前，情感对象在后。这两种不能视为一种情况，所以需要根据顺序进行区分。SA本质上并不算情感对象，SB虽然是情感词，但是找不到与之对应的情感对象，而SA和SB从特征层面近似情感对象和情感词，所以将其作为单独的一类。标记为O的词数量比较多，这样容易导致标记之间数量不均衡，为避免影响标记精度，采取如下方案：将标点符号从O中分离出来，标记为P，从而增加数据均衡性，进而提高标记精度。这些标记的词在后续处理中不影响处理结果，因此在后续处理中均被忽略。

3、提取情感对象和情感词

评论中的标注符号的复杂性影响了情感对象和情感词提取精度，采取规则对错误标记进行层次过滤，以下为该规则的伪代码：设CurrWord为当前词，WordLabel为当前词标记，SS为当前情感对象，SW为当前情感词，SSSet为情感对象集合，WPSet为<情感对象，情感词>词对集合;

初始化

如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:

不处理

else if WordLabel=P或者当前词到了句子末尾:

如果SS已找到：

将SS放入SSSet；

如果SSSet不为空并且SW已找到:

将SSSet和SW放入WPSet；

重新初始化

else if WordLabel=BA:

如果CurrWord和SS为并列关系:

将SS放入SSSet，SS设为CurrWord

否则:将SS和CurrWord拼接成新的SS

else if WordLabel=BB:

SW设为WordLabel，SS设为未找到;

else if WordLabel=EA:

如果CurrWord和SS为并列关系:

将SS放入SSSet，SS设为CurrWord

否则:将SS和CurrWord拼接成新的SS

else if WordLabel=EB:

SW设为CurrWord，再按照当前词标记为P的方式处理

大多情况下BA和EB、BB和EA是成对出现的，但是特殊结构的句子和CRFs错误标注可能导致BA、BB、EA、EB单独出现或者顺序错误，如不能处理这些错误，将降低进一步的提取精度。

4、以下为几种标注和提取情况的举例说明：

（1）昨天/O才/O收到/O电脑/SA，这种情况只有“电脑”，没有情感词，属于非观点句，直接忽略。

（2）衣服/BA昨天/O买/O的/O，/P非常/O漂亮/EB，这里“衣服”为情感对象，“漂亮”为情感词，但是这两个词分布在两个不同的子句中，跨子句配对词对可能会引入错误，因此将该情况忽略，不予处理。

（3）处理器/BA和/O显卡/BA都/O很/O强劲/EB，句中“处理器”和“显卡”均被标记成为BA且这两个词属于并列关系。因此“处理器”和“显卡”均被提取出来作为情感对象。

（4）服务/BA态度/BA很/O满意/EB，句中“服务”和“态度”均被标记为BA，但是它们并非并列关系，所以将其合并为一个情感对象。

（5）这/O款/O手机/BA既/O便宜/EB又/O好/EB，句中有两个情感词，为了防止词对之间出现交叉包含，所以只取一个情感词。

针对以上的标注情况及对应的处理方式，可以很好的去除干扰数据，提高提取情感对象和情感词的精度，提取出来的词对作为后续细粒度情感倾向性析基础。

二、情感分类

本发明中的细粒度情感倾向性分析可以视为分类问题，所以在这里采用SVM模型作为分类器对情感对象和情感词组成的词对进行情感倾向性分析。

支持向量机（Support Vector Machine，SVM），是一种统计机器学习方法，主要被用于解决分类问题。SVM是基于结构风险最小化理论的模型，通过在特征空间中构建最优分隔超平面，使得最终的学习器达到全局最优。在两类线性可分的情况下，存在无数个分割平面能将样本正确分割成两类，而SVM能将分类间隔达到最大。如图3所示，H₁和H₂均平行于H₀，且分别接近两类样本。这样的H₁和H₂之间的距离被称为间隔，最优分类线就是使分类间隔最大的分类线，H₁和H₂上的样本称为支持向量。使用以下公式来表示分类线：

w·x+b＝0w∈R,b∈R

只需使得w²/2最小即可求得最优分类线。

1、情感分析特征说明

同一个情感词，在不同的语句环境下表现出来的情感倾向性可能不同，甚至极性完全相反。例如“难道这很漂亮？”，这句话由于使用了反问，导致句子变成了负向情感。同一个情感词在修饰不同的情感对象时极性也不一定相同。例如“开机时间短”和“待机时间短”，两者都有“时间短”，但是前一个是正向情感，后一个是负向情感。所以要更为准确的判断情感倾向性，只考虑情感词是不够的，必须结合句子结构和情感词与情感对象的依存关系。

由于本发明是对情感对象和情感词组合成的词对进行情感分析，不用考虑整句的所有句法结构，仅考虑是否有情感否定词及情感词和情感对象的组合情感倾向性，即引入部分句子结构特征。以下为情感分析中使用到的特征及说明：

（1）情感对象SS。如上所述，同一个情感词在描述不同情感对象时，极性可能不同，所以在这里要考虑到情感对象对最终分析结果的影响。

（2）情感词SW。情感词的存在指示了情感倾向，每个情感词都具有基本的情感。

（3）情感对象词义代码SSC。假设已知“处理器频率很高”的情感倾向，但是“CPU”的具体词义未知，则很难判断“CPU频率很高”的情感倾向。若已知“处理器”和“CPU”具有相同的词义，那么后者的情感倾向就可以被正确判断。用户在已有背景知识情况下，知道“CPU”和“处理器”指的是同一类事物，但是从词层面，对于计算机而言这是两个完全不相同的词。为了使计算机也能判断出两个词word₁和word₂是否共属一类或有近似的意思，”词义”概念被引入到模型中：如果word₁和word₂有着同样的词义代码，即：

则认为，word₁和word₂属于同一类事物，否则认为属于不同类别事物。

（4）情感词词义代码SWC。与情感词词义代码类似，用于表示同一类情感词。

（5）是否存在情感倾向反转词。例如“对于产品质量不怎么满意”。该句子的语法分析树如图3所示，通过上述的提取方法，提取出来的情感对象是“产品质量”，情感词是“满意”，如果不考虑带有否定意义的词，情感倾向性会被错误的判为正向。从语法分析树上可以看到，否定词“不”是修饰“满意”的状语，所以可用通过从语法分析树上查找是否含有修饰情感词并且带有否定词意义的状语来获得是否存在情感倾向性反转词。

（6）情感词基本极性。情感词的情感倾向性是情感分类的基本依据。大部分情况下，词对的情感倾向性和情感词的极性是一致的。基本的情感词极性通过《中国知网》情感词典查得，词典中没有的词使用SO-PMI算法计算极性。

互信息(Pointwise Mutual Information，PMI)计算如下式

PMI (w_{1}, w_{2}) = \log \frac{P (w_{1}, w_{2})}{P (w_{1}) P (w_{2})}

其中p(w₁，w₂)为词w₁和w₂同时出现的概率，SO-PMI通过下式计算得到

SO_PMI (w) = \underset{pw &Element; p_{set}}{Σ} PMI (w, pw) - \underset{nw &Element; N_{set}}{Σ} PMI (w, nw)

其中Pset为正向情感词集合，Nset为负向情感词集合。

2、词义代码获取

词义代码指的是具有相同或者相近意义的词的集合的编号。意义相同或者相近的词属于同一个集合，拥有相同的词义代码。由于一些词具有多义性，所以同一个词可能同时属于多个集合，拥有多个词义代码。词义代码可以通过同义词词林来构建，但是实际的同义词词林词汇不够丰富，大量词组没有被收录到词林中，尤其是评论中大量出现的口语词汇。而且同义词词林通常是固定的，一旦制定就不再修改，另外，商品评论中的新词不断涌现，使得通过同义词词林来构建词义代码效果较差。

为了对词进行词义聚类，首先需要将词根据其上下文向量化，使用一个N维的向量<X₁,X₂,…,X_n>表示一个词W的词义向量。为了计算每一个词的最终词义向量，可使用自编码神经网络进行训练得到。NNLM(Feedforward Neural Net Language Model)将神经网络分为输入层、投影层、隐含层和输出层，整个网络参数为：

Q＝N*D+N*D*H+H*V

其中N为n-gram中的n，D为每个词的维度，H是隐含层节点数，V为输出成节点数，N*D为输入层到投影层的权重个数，N*D*H为投影层到隐含层的权重个数，H*V是隐含层到输出层的权重个数。

投影层到隐含层的计算量十分庞大，所以去除时间复杂度最高的隐含层，从而得到整个网络参数为（对输出层使用Huffman进行编码）：

Q＝N*D+D*log₂(V)

使用通过多层神经网络得到的向量就可以将每一个词映射到一个N维的空间，进而可以方便的计算出任意两个词w_i，w_j之间的欧式距离

S (i, j) = \sqrt{Σ_{k = 1}^{n} {(x_{ik} - x_{jk})}^{2}} .

对评论语料中的所有词求出其词义向量，进一步根据K-means算法对所有的词根据其词义向量进行聚类，聚类得到词类，每个词类的中心坐标通过下面的式子计算得到

x_{i} = Σ_{j = 1}^{m} x_{ji} / m

对于任意词w_j，可根据公式

来确定其隶属于哪里一个词类。

通过上面的方法从大量微博数据中学习从而将词转化成向量，再使用K-means聚类算法将意义相同或者相近的词聚合成一类。再给每一类分配一个固定的唯一的编号，这个编号就是这一类词的词义代码。

具体实施例

使用提出的方法在两个不同的数据集上分别进行了实验。一个数据集是通过从天猫商城上抓取最新商品评论而得到的，20款电子产品，共3146条评论数据，其中500条作为训练集，剩下的作为测试集，使用Dataset1表示。另一个数据集源于COAE2013任务3的数据，从任务3中随机抽取了2000条数据进行人工标记，其中500作为训练集，剩下的作为测试集，使用DataSet2表示。对于两个数据集均使用了交叉验证进行参数调优。表2为系统从数据集中抽取的部分情感对象和情感词，表1为开式测试抽取的结果统计。

表1评论对象-评论词对

表2评论对象-评论词词对开式抽取结果

	正确率	召回率	F-Measure
				Dataset1	0.841	0.773	0.806
Dataset2	0.758	0.436	0.442

从表2可以看到，DataSet1的正确率较高，但是召回率相对较低。之所以正确率很高是因为所选取的特征使得被抽取出来的规则限制比较严格，只要满足条件，即可保证正确。召回率相对较低不仅是因为限制条件严格，原因在于评论的口语化使得语言表达的随意性较大;另一个重要原因是评论中存在大量的错别字和标点符号缺失，使得底层的分词和词性标注等的正确率大大降低，给上层的处理带来了很大困难。

从表2中还可以看到Dataset2的正确率下降的不明显，从而验证了该抽取方法的有效性。但是召回率下降较多，主要是因为微博中内容更为广泛，句式更为复杂多样，新词和网络词汇更为丰富，以上原因导致了情感对象及情感词抽取困难，这也是造成参加COAE2013的队伍在任务3上的召回率普遍较低的原因。

表3词对中情感倾向性开式分析结果

	正确率	召回率	F-Measure
				Dataset1	0.812	0.932	0.868
Dataset2	0.806	0.890	0.846

表4情感倾向性开式综合分析结果

	正确率	召回率	F-Measure
				Dataset1	0.812	0.720	0.763
Dataset2	0.806	0.388	0.524

表3是只对已抽取出来的<情感对象，情感词>词对进行统计的结果，没有被抽取出来的将不被考虑，可以看到，不管是正确率还是召回率都比较理想，主要是因为词义代码的引入，词义代码提高了系统的泛化能力和鲁棒性，使得正确率和召回率均得到了较大提高。表4是对语料中所有的<情感对象，情感词>进行统计的结果（包括未提前出来的<情感对象，情感词>词对），其中召回率较低，主要原因是情感对象及情感词抽取的召回率较低造成。

通过实验结果分析可得，本发明提出的方法能较好的保证正确率，同时，对于商品评论也能有较高的召回率，虽然在微博语料中召回率较低，但是与同类其他方法相比，因为词义信息的引入，也达到了最佳系统性能指标，这充分证明了本发明的方法的有效性。

Claims

1.基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的a步骤中评论语特征包括：词本身（W）、词性（POS）、语法树父节点词本身（PW）、语法树父节点词性（PPOSE）、语法树父节点语义角色（PDP）。

3.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的位置标注的符号集合为：BA（位于情感词之前的情感对象）、BB（位于情感对象之前的情感词）、EA（位于情感词之后的情感对象）、EB（位于情感对象之后的情感词）、SA（没有情感词的情感对象）、SB（没有情感对象的情感词）、P（标点符号）、O（其他）。

4.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的a步骤中的相应规则的伪代码为：设CurrWord为当前词，WordLabel为当前词标记，SS为当前情感对象，SW为当前情感词，SSSet为情感对象集合，WPSet为<情感对象，情感词>词对集合;

初始化

如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:

不处理

else if WordLabel=P或者当前词到了句子末尾:

如果SS已找到：

将SS放入SSSet；

如果SSSet不为空并且SW已找到:

将SSSet和SW放入WPSet；

重新初始化

else if WordLabel=BA:

如果CurrWord和SS为并列关系:

将SS放入SSSet，SS设为CurrWord

否则:将SS和CurrWord拼接成新的SS

else if WordLabel=BB:

SW设为WordLabel，SS设为未找到;

else if WordLabel=EA:

如果CurrWord和SS为并列关系:

将SS放入SSSet，SS设为CurrWord

否则:将SS和CurrWord拼接成新的SS

else if WordLabel=EB:

SW设为CurrWord，再按照当前词标记为P的方式处理。

5.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的b步骤中句子结构特征包括：情感对象词义代码（SSC）、情感词词义代码（SWC）、是否存在情感倾向反转词、情感词基本极性。

6.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的词性（POS）包括：结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。

7.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的语义角色（DP）包括：主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。

8.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的语法树父节点词本身（PW）是指在语法分析树中，每个词都有一个父节点，每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Word_i/P_i/Index_i形式的数组，表示第i个词的父节点为第Index_i个词，他们之间的关系是P_i，形式化为

\{\begin{matrix} parent (i) = Word ({Index}_{i}) \\ relation (i) = P_{i} \end{matrix}

9.根据权利要求5所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的词义代码指的是具有相同或者相近意义的词的集合的编号，意义相同或者相近的词属于同一个集合，拥有相同的词义代码，由于一些词具有多义性，所以同一个词可能同时属于多个集合，拥有多个词义代码；词义代码的获取方法为：将词转化成向量，再使用K-means聚类算法将意义相同或者相近的词聚合成一类，再给每一类分配一个固定的唯一的编号，这个编号就是这一类词的词义代码。

10.根据权利要求5所述的基于CRFs和SVM的产品评论细粒度情感要素提取，其特征在于：所述的情感词基本极性判断方式为：基本的情感词极性通过《中国知网》情感词典查得，词典中没有的词使用SO-PMI算法计算极性，互信息(PMI)计算如下式：

PMI (w_{1}, w_{2}) = \log \frac{P (w_{1}, w_{2})}{P (w_{1}) P (w_{2})}

SO_PMI (w) = \underset{pw &Element; p_{set}}{Σ} PMI (w, pw) - \underset{nw &Element; N_{set}}{Σ} PMI (w, nw)

其中：Pset为正向情感词集合，Nset为负向情感词集合。