CN103049435B

CN103049435B - 文本细粒度情感分析方法及装置

Info

Publication number: CN103049435B
Application number: CN201310000734.5A
Authority: CN
Inventors: 施寒潇; 厉小军
Original assignee: Zhejiang Gongshang University
Current assignee: Hangzhou Brain Top Technology Co ltd
Priority date: 2013-01-04
Filing date: 2013-01-04
Publication date: 2015-10-14
Anticipated expiration: 2033-01-04
Also published as: CN103049435A

Abstract

本发明公开了一种文本细粒度情感分析方法，包括如下步骤：情感词极性强度量化计算；评价对象属性及其情感表达元素的联合识别；细粒度属性分类及其情感计算。本发明还公开了一种文本细粒度情感分析装置，包括评论数据采集及预处理模块、数据处理模块、数据分析模块、信息展示模块。本发明的细粒度情感分析方法采用的三大步骤有如下优点：（1）情感词极性强度量化计算步骤，在正确率上提高了将近30%；（2）评价对象属性及其情感表达元素的联合识别，针对特定情感分析应用领域，其联合识别正确率达到了80%以上；（3）细粒度属性分类及其情感计算利用细粒度属性分类，可以提升情感计算整体性能2.5%以上。

Description

文本细粒度情感分析方法及装置

技术领域

本发明属于计算机应用技术领域，具体的是一种主观性文本的细粒度情感分析方法和装置，可应用于商务网站的商品评论、企业或政府部门的网络舆情分析。

背景技术

随着互联网的飞速发展，特别是Web2.0技术的逐渐普及，广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第30次中国互联网络发展状况统计报告》（CNNIC，2012）的数据显示，截至2012年6月，我国网络用户总数量已经达到5.38亿，网民规模较2011年底增长2450万人，互联网普及率为39.9%。如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用，使网络内容的数量和网络信息的访问量都以前所未有的速度增长，互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样，如新闻、博客文章、产品评论、论坛帖子等等。

商品评论中的情感倾向性分析逐渐成为当前的研究热点。它的研究目的是利用网络上丰富的顾客评论资源，进行商品的市场反馈分析，为生产商和消费者提供了直观的针对商品各个特性的网络评价报告。目前，一方面情感信息在互联网上呈爆炸式增长，另一方面情感信息对普通消费者，公司组织，和国家政府等各级别的用户都有重要作用，如何帮助用户方便快捷地找到所需的情感信息，成为当前需要迫切解决的问题之一。情感分析任务正是适应这种需求，希望架设一个用户到情感信息的桥梁，使用户能有效获取情感信息。通过对网络上各种信息，特别是主观性文本的倾向性分析可以更好地理解用户的消费习惯，分析热点事件的舆情，为企业、政府等机构提供重要的决策依据。众所周知，当面对商品评论时，用户更希望了解产品各个方面的情感倾向，这更有利于他们的综合判断和抉择，而传统的情感分析往往是面向篇章和句子的粗粒度分析方法，不能有效解决此类需求，这就需要我们应随着互联网的飞速发展，特别是Web2.0技术的逐渐普及，广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第30次中国互联网络发展状况统计报告》（CNNIC，2012）的数据显示，截至2012年6月，我国网络用户总数量已经达到5.38亿，网民规模较2011年底增长2450万人，互联网普及率为39.9%。如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用，使网络内容的数量和网络信息的访问量都以前所未有的速度增长，互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样，如新闻、博客文章、产品评论、论坛帖子等等。

商品评论中的情感倾向性分析逐渐成为当前的研究热点。它的研究目的是利用网络上丰富的顾客评论资源，进行商品的市场反馈分析，为生产商和消费者提供了直观的针对商品各个特性的网络评价报告。目前，一方面情感信息在互联网上呈爆炸式增长，另一方面情感信息对普通消费者，公司组织，和国家政府等各级别的用户都有重要作用，如何帮助用户方便快捷地找到所需的情感信息，成为当前需要迫切解决的问题之一。情感分析任务正是适应这种需求，希望架设一个用户到情感信息的桥梁，使用户能有效获取情感信息。通过对网络上各种信息，特别是主观性文本的倾向性分析可以更好地理解用户的消费习惯，分析热点事件的舆情，为企业、政府等机构提供重要的决策依据。众所周知，当面对商品评论时，用户更希望了解产品各个方面的情感倾向，这更有利于他们的综合判断和抉择，而传统的情感分析往往是面向篇章和句子的粗粒度分析方法，不能有效解决此类需求，这就需要我们应用细粒度的情感分析方法来实现。

目前情感分析方法大致有两类。第一种是基于规则的方法。主要先根据情感词典找出文本中出现的情感词，然后进行简单的情感极性统计，根据最终得分与事先设定阈值比较得出情感极性结论，一般用于篇章级别的情感分析。第二种是基于机器学习的方法。通过对大量标注语料的训练，生成情感分类器，用来对测试文本进行分类。

（1）基于规则的方法。目前的方法主要是设计规则提取情感词和极性判定，然后对所有的情感词进行简单情感极性统计求得文本的整体情感极性，该方法更多的应用于篇章的情感分析。另外，通过计算词语的语义倾向，综合考虑极性元素分布、密度和语义强度进行情感词的扩展，进一步修正文本的整体情感极性。

（2）基于机器学习的方法。这种方法主要使用情感词、词语共现对、句法模板、主题相关特征等作为分类特征，使用基于机器学习的分类方法进行情感/倾向性分析。常用的分类方法有：中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大熵分类法和支持向量机分类法等。一般过程是首先通过对训练文档进行手工标注，生产训练模型，然后进行测试文档的预测。该方法目前在句子级别的情感分析中有广泛的应用

这两类方法进行文本情感分析时，无论是句子，还是篇章，都强依赖于情感词典，因此，情感词典的好坏直接影响情感分析的正确性，而目前更多的情感词典都是通过手工构建的，工作量巨大，同时随着互联网的发展，新的情感词层出不穷，所以靠一次性的情感词典构建是远远不够的，同时目前的情感词典往往还缺少极性强度的量化，很难满足情感计算的需求。另一方面，在具体的情感分析过程中，现有方法一般只考虑词的特性，对句子分词、词性标注后，利用词性的特点进行属性和情感词的识别，而缺乏对句子的整体语义理解，这样导致识别效率不高。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供了一种文本细粒度情感分析方法，包括如下步骤：情感词极性强度量化计算；评价对象属性及其情感表达元素的联合识别；细粒度属性分类及其情感计算。

进一步的，所述情感词极性强度量化计算包括基础情感词的极性强度量化计算和复合情感词的极性强度量化计算。

进一步的，所述基础情感词的极性强度量化计算包括字的情感值计算，采用如下公式：

（1）

（2）

其中，P _ci为字ci作为褒义词的权重，N _ci为字ci作为贬义词的权重。fp _ci为字ci出现在褒义词表中的频率，fn _ci为字ci出现在贬义词表中的频率，利用公式（1）和公式（2）可以计算出每个字作为褒义词和贬义词的权重，n为褒义词表中出现的所有字的个数，m为贬义词表中出现的所有字的个数，为了平衡情感词典中褒义词与贬义词之间的词数差异性，公式（1）和（2）对每个字在褒贬词表中出现的频率进行了归一化处理，

最后可以利用公式（3）计算出字ci的情感倾向值S _ci。

（3）

如果S _ci的值为正数，ci是褒义字，负数则是贬义字，接近于0的话，说明ci趋向于是中性。

进一步的，所述基础情感词的极性强度量化计算还包括基础词的情感值计算，采用如下公式：

（4）

其中为所有字中最大的情感值的绝对值，则为该字的符号值，如果该字的情感值大于0，则为+1，如果小于0，则为-1。

进一步的，所述复合情感词的极性强度量化计算分为：

1) 基础情感词的叠词；

2) 基础情感词+基础情感词；

3) 否定词+基础情感词；

4) 程度修饰词+基础情感词；

5) 否定词+程度修饰词+基础情感词或程度修饰词+否定词+基础情感词，采用如下公式计算：

（5）

其中为基础词的情感值，为程度词的作用系数（范围为0.5、0.7、0.9、1.1、1.3、1.5），为程度词反作用系数，也就是作用系数的范围极值之和，所以取值为2，为词情感值的符号值，如果该词的情感值大于0，则为+1，如果小于0，则为-1。为词情感值的绝对值。

进一步，所述评价对象属性及其情感表达元素的联合识别包括：语义特征的抽取和基于序列化联合识别模型构建。

进一步的，所述语义特征的抽取包括抽取分词信息、词性标注信息和语义角色信息。

进一步的，所述细粒度属性分类及其情感计算包括基于自举学习的属性分类和细粒度情感汇总计算。

进一步的，所述细粒度情感汇总计算采用如下公式（6）：

（6）

其中c(i)为属性类i，n(c(i))为评论中属性类c(i)出现的总次数，为评论中第j次出现的属性类c(i)对应的情感倾向值，为所有评论中属性类c(i)所对应的平均情感倾向值。

本发明还提供了一种文本细粒度情感分析装置，包括评论数据采集及预处理模块、数据处理模块、数据分析模块、信息展示模块，其中所述评论数据采集及预处理模块，进行评论数据的采集和存储；数据处理模块对采集的评论数据进行相应的处理，对新的评论信息进行预测；数据分析模块对数据处理模块处理后的信息进行情感分析，利用对象属性与情感词之间的关联信息以及情感词与修饰词之间的关系进行细粒度情感强度量化统计和计算；信息展示模块对处理和分析后的评论信息进行友好的可视化展示。

本发明的细粒度情感分析方法采用的三大步骤有如下优点：

（1）情感词极性强度量化计算步骤，相比其他方法，如Ku（2006）的方法，我们设计情歌词极性强度量化计算方法在正确率上提高了将近30%；（2）评价对象属性及其情感表达元素的联合识别，针对特定情感分析应用领域，其联合识别正确率达到了80%以上，大大超越利用规则和统计的方法；（3）细粒度属性分类及其情感计算利用细粒度属性分类，可以提升情感计算整体性能2.5%以上。

附图说明

图1是句子中单词的序列化结构关系图；

图2是自举学习算法的流程图；

图3是文本细粒度情感分析装置的示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明针对现有情感分析方法存在的问题，提出一种文本细粒度情感分析方法和装置。该方法和装置通过设计相应的算法建立一个可扩展的、极性强度定量的情感词典，从而解决情感词极性强度量化的难点；合理的采用自然语言技术与机器学习方法进行文本的细粒度情感分析，提高分析结果的准确性。

本发明采用了如下技术手段：情感词极性强度量化计算；评价对象属性及其情感表达元素的联合识别；细粒度属性分类及其情感计算。

1、情感词极性强度量化计算

提出基于情感词分类计算的极性强度量化方法。对情感词分为两大类处理，第一类是基础情感词，第二类是复合情感词。在基础情感词的极性强度量化计算工作中，我们首先计算出字的情感值，然后设计相关规则计算出词的情感值；在复合情感词的计算工作中，学习相应的语言学知识，设计相应的规则方法，利用词与词的组合关系进行复合计算。

（1）基础情感词的极性强度量化计算

基础情感词定义为首字不含有否定词、程度修饰词且字数不超过2个字的情感词。

1）字的情感值计算

先利用已有的情感词典通过字频统计的方法，计算出每个字的情感倾向值；然后利用字的情感倾向值设计相应的公式进行词的情感倾向值计算。详细步骤如下。

首先统计每个字的在情感词典中作为褒义词和贬义词的权重，如公式（1）、（2）所示。

（1）

（2）

其中，P _ci为字ci作为褒义词的权重，N _ci为字ci作为贬义词的权重。fp _ci为字ci出现在褒义词表中的频率，fn _ci为字ci出现在贬义词表中的频率。利用公式（1）和公式（2）可以计算出每个字作为褒义词和贬义词的权重。n为褒义词表中出现的所有字的个数，m为贬义词表中出现的所有字的个数。为了平衡情感词典中褒义词与贬义词之间的词数差异性，公式（1）和（2）对每个字在褒贬词表中出现的频率进行了归一化处理。

最后可以利用公式（3）计算出字ci的情感倾向值S _ci。

（3）

2）基础词的情感值计算

分析基础情感词的构造特点，不难发现其情感倾向值往往约等于所有字情感倾向值中的最大值。例如，“漂亮”中“漂”的情感值是0.5，“亮”的情感值是0.8，可以认为“漂亮”的情感倾向值值也等于0.8，而不应该简单的利用平均求值法来计算“漂亮”的情感值。所以在计算基础词的情感倾向值时，主要采用公式（4）：

（4）

（2）复合情感词的极性强度量化计算

复合情感词定义为首字含有否定词或程度修饰词的情感词或包含2个字以上的情感词。复合情感词的极性强度量化计算相对较为复杂，由于其往往由基础情感词、否定词、程度修饰词等多类词汇组合而成。本发明采用一种基于组词分类模型的方法解决复合情感词的极性强度量化计算。

针对不同复合情感词的组合特点，我们主要分成了5类：

6) 基础情感词的叠词，如漂漂亮亮，高高兴兴。这类词我们可以通过寻找词根的方法找到基础情感词的情感倾向值，由于叠词一般来说对原词的情感值影响不大，为了简化问题，我们直接取基础词的情感值。

7) 基础情感词+基础情感词，如小心谨慎。这类组合词的计算我们采用求平均值的方法实现。

8) 否定词+基础情感词，如不漂亮。这类组合词的计算可通过对基础情感词的情感倾向值取反运算来实现。

9) 程度修饰词+基础情感词，如很漂亮。这类组合词的计算可以先获得基础词的情感值，然后根据事先定义的不同程度修饰词的作用强度获得相应的作用系数（取值范围为0.5、0.7、0.9、1.1、1.3、1.5），如“很”的程度系数我们定义为1.3，“比较”的程度系数为0.7。该组合词的最终情感倾向值为两者的乘积，如果该值超出了词的情感倾向值范围[-1,+1]，我们就取最大极值。

10) 否定词+程度修饰词+基础情感词/程度修饰词+否定词+基础情感词，如不太漂亮/太不漂亮。这类组合词的计算相对比较复杂，前两者之间的位置关系直接影响情感词的倾向值计算。我们利用语言学知识，采用公式（5）来实现该类复合词的情感倾向值求解。

（5）

其中为基础词的情感值，为程度词的作用系数（范围为0.5、0.7、0.9、1.1、1.3、1.5），为程度词反作用系数，也就是作用系数的范围极值之和，所以取值为2，为词情感值的符号值，如果该词的情感值大于0，则为+1，如果小于0，则为-1。为词情感值的绝对值。以“不太漂亮”为例，“漂亮”的情感倾向值为0.8，“太”的程度作用系数为1.3，通过公式（5）计算“不太漂亮”的情感倾向值为0.56。而如果计算“太不漂亮”的情感倾向值，同样利用公式，我们可以得到-1。不难看出，这样的结果跟我们主观判断基本一致。

2、评价对象属性及其情感表达元素的联合识别

细粒度情感分析的最重要工作是评价对象属性及其情感表达元素的识别。

（1）语义特征的抽取

1）分词信息

在基于监督学习的文本情感分析中，词汇信息特征具有十分重要的作用。词是自然语言中最小的有意义的构成单位，但中文中词与词之间并没有明显的界限，因此，分词是中文信息处理的首要工作。

以往的分词方法，无论是基于规则的还是基于统计的，一般都依赖于一个事先编制的词表（词典）。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反，基于字标注的分词方法实际上是构词方法，即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置（即词位），通过抽取相关的特征信息和上下文信息，构建一定规模的训练集，利用机器学习工具，实现目标句子的分词，目前很多现成的分词系统主要利用这种方法。

2）词性标注信息

词性标注（Part-of-Speech tagging，POS tagging）是指对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。

如果每个单词仅仅对应一个词性标记，那么词性标注就非常容易了。但是语言本身的复杂性导致了并非每一个单词只有一个词性标记，而存在一部分单词有多个词性标记可以选择，如“鼓励”这个词，既可以是动词（“老师鼓励我们好好学习”），也可以是名词（“这是对我们的一种鼓励”），因此，词性标注的关键问题就是消解这样的歧义，也就是对于句子中的每一个单词在一定的上下文中选择恰如其分的标记。大多数的标注算法可以归纳为三类：一类是基于规则的标注算法（rule-based tagger)，一类是随机标注算法（stochastic tagger），最后一类是混合型的标注算法。基于规则的标注算法一般都包括一个手工制作的歧义消解规则库；随机标注算法一般会使用一个训练语料库来计算在给定的上下文中某一给定单词具有某一给定标记的概率，如基于HMM的标注算法；而混合型标注算法具有上述两种算法的特点，如TBL（transformation-based learning）标注算法。现有不少词性标注工具可以实现中文的词性标注。

3）语义角色信息

所谓语义角色标注，就是对于给定句子，对句中的每个谓词（动词、名词等）分析出其在句中的相应语义成分，并作相应的语义标记，如施事、受事、工具或附加语等。具体而言，即标注句子中的一些成分为给定动词谓词的语义角色，这些成分作为此谓词框架的一部分被赋予一定的语义含义。

本方法利用语义角色标注技术实现对句子的整体语义理解。以“佳能A530P的镜头比它的好，价格还比它便宜”为例，通过语义角色标注(Semantic Role Labeling, SRL)处理后，

[佳能A530P的镜头_Arg0][比它的_ARGM-ADV][好_V]，[价格_Arg0][还_ARGM-ADV][比它_ARGM-ADV][便宜_V].

目前不同的语料库和具体NLP任务，对于语义角色集的定义并不统一，只有施事者（Arg0）和受施者（Arg1）这两个语义角色是稳定的。考虑到情感分析系统的通用性，以及对SRL结果的依赖度，再加上情感分析系统中已经通过分词、词性标注子任务对各句子进行了简单分析，因此本发明主要考虑了Arg0和Arg1这两个语义角色和谓词信息。由于在抽取情感表达元素过程中，我们还对情感修饰词进行了识别，所以在SRL语义信息抽取过程中进一步考虑了ArgM-ADV。

（2）基于序列化联合识别模型构建

评价对象属性、情感词以及情感修饰词的抽取可以被看作是一个简单的分类工作。每个词看作是一个实例，然后利用支持向量机或隐马尔科夫等分类器，分别独立地判断每个词的类别标签。但这种分类的方法假设词与词之间的类别标签是独立的，而实际上，词的类别标签之间具有很强的相关性。单词所处的上下文的类别标签对目标词类别标签的判断具有十分重要作用。例如，句子的序列化结构关系，对评价对象属性及其情感表达元素的类别标签判断有帮助。在一个句子中有两个连续的词，如果前一个具有情感修饰作用的副词，则它后边的形容词有很大概率属于情感词，例如“酒店的地理位置非常好”中的“非常”和“好”。另外一个例子，如果一个句子中前面的一个词是名词，而后面连续跟着带有情感修饰的副词和带有情感的形容词，则它前面那个名词有很大可能是评价对象属性，例如上个句子中的名词“地理位置”，副词“非常”和形容词“好”这三个词的关系。可见，句子的单词出现的序列化结构关系对情感词和主题词的识别具有重大作用。另外除了词和词性，我们还发现语义角色标注信息对目标词的类别标签判断也具有很大的作用，评价对象属性及其情感表达元素的在句子中的语义角色往往相对固定，例如语义角色“Arg0”、“ArgM-ADV”和“V”往往标注句子中的评价对象属性、情感修饰词和情感词。所以我们在序列化结构下，针对单词的特征集合中，我们还充分利用了语义角色信息。

本发明使用线性条件随机场来描述句子中单词出现的序列化结构关系，如图1所示。条件随机场模型包含两组结点，其中实心圆表示可观测变量集合，用X表示，是指单词对应的特征集合；空心圆表示隐变量集合，用Y表示，是指要预测的类别标签集合。图1中的类表标签说明参看表1。在线性条件随机场模型中，每个单词对应的类别标签是按在句子中的位置关系线性相连的，即在统一预测中考虑了相邻单词的类别标签关系。

表1 标注集及相关说明

标注集	相关说明
		<TP>	评价对象特征
<SO>	情感词
		<ADV>	情感修饰词
<BG>	其他背景词汇

3、细粒度属性分类及其情感计算

（1）基于自举学习的属性分类

与情感词相类似，评价对象属性的描述也是多种多样，同一类对象属性，可以有多种语言表达，如“外观”，相似的描述可以有“外形”、“外表”、“表面”等。虽然这些词语不相同，但描述的含义、概念是基本相同的。细粒度情感计算工作之前，评价对象必须确定好属性类别，以方便情感汇总统计。所以属性分类（attribute classification）工作对细粒度情感分析十分重要，尽管已有WordNet（英文）、哈工大的同义词林等资源能够在一定程度上帮助属性分类，但由于存在领域相关性、资源局限性等情况，要在实际应用中实现有效的属性分类还比较困难。所以如何有效、正确的进行属性分类是细粒度情感计算、情感汇总的首要工作。

相比传统粗粒度情感分析，在细粒度情感分析中情感语料的标注工作更加费力、费时。本发明主要针对属性分类问题，探索利用自举学习（Bootstraping）方法实现细粒度情感语料的自动扩展，以减少对标注语料的依赖。

如图2为自举学习算法的流程图。

自举学习算法首先从语料库中选择具有代表性的一部分关系实例进行标注，这一部分数据集称为标注种子集L，其余大量的实例组成未标注数据集U，种子集最常用的选择方法是随机选择，以使种子集中的实例在语料库中具有一定的代表性。然后把标注种子集作为训练语料库，训练一个有监督分类器（如CRF、SVM分类器）并得到一个分类模型。再用该分类模型对未标注数据集U进行预测，找出最可靠的S个实例加入到标注数据集中，继续该过程直到所有的未标注数据均已加入或终止条件已满足。

（2）细粒度情感汇总计算

情感汇总是针对所有评论中相同评价对象属性类的情感值进行汇总统计。由于情感信息的描述多样化，可能存在多种修饰词，这对情感值的计算提出了较高的要求，具体算法跟复合情感词的极性强度量化计算类似，所以在求解以句子为单位的情感倾向值的过程中，针对识别出来的情感词以及修饰词信息，可以利用复合词的情感极性量化方法来实现情感倾向值的求解。

不考虑评论发表者的权重情况，认为所有评论的权重相等，情感汇总计算任务也就转变为计算某个属性类对应的情感平均值，如公式（6）所示。

（6）

如图3所示，本发明的文本细粒度情感分析装置主要由评论数据采集及预处理模块、数据处理模块、数据分析模块、信息展示模块等四部分，其中评论数据采集及预处理模块，主要针对目标网站设计爬虫软件进行评论数据的采集和存储，比如，根据需要主要针对酒店评论网站——驴评网进行信息爬虫，数据存储之前先对网页进行过滤和格式化信息抽取，只保存每条评论的发表时间、发表人、评论标题以及评论内容；数据处理模块主要针对评论数据进行相应的处理，其中包括应用自然语言处理技术进行评论数据的语义特征提取，如分词、词性标注、语义角色标注等，另外利用机器学习方法实现对抽取后的各种特征建立相应的学习模型，然后对新的评论信息进行预测；数据分析模块主要针对数据处理模块处理后的信息进行情感分析，利用对象属性与情感词之间的关联信息以及情感词与修饰词之间的关系进行细粒度情感强度量化统计和计算；信息展示模块主要针对处理和分析后的评论信息进行友好的可视化展示，以及提供相应的查询接口，帮助用户根据评论信息中各属性的情感值进行酒店推荐。

1、评论数据采集及预处理模块

该模块主要实现了目标评论网站的网页爬虫和网页中评论内容的格式化抽取。

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫是一种按照一定规则，自动抓取万维网信息的程序或者脚本。系统的主要目标是获取评论网站上的评论信息，所以我们仅锁定网站上评论相关区域的页面进行爬虫。以往所使用的技术为人工分析页面结构、编写标识符来定位目标信息，而本系统使用了XPath以及Python的扩展库lxml，极大的提高了编写抓取程序的效率和程序运行速度、可读性。XPath是一门在XML文档中查找信息的语言，可用来在XML文档中对元素和属性进行遍历，它基于XML的树状结构，提供在数据结构树中找寻节点的能力。而lxml库则可以快速正确地分析XML文档。具体到实现中，我们可以将HTML页面数据看成是XML数据的特殊形式，所以可以使用XPath来表示一个评论在此HTML文档中的具体位置。此外XPath的使用也非常方便，可以使用工具自动生成。另外，结合lxml所提供的方法，我们可以高效的实现目标信息的提取，如评论内容、用户名、评论发表日期、用户打分等，从而实现评论信息的格式化抽取，并存入预先设计好的相关数据库。

由于评论是用户生成的数据，所以往往存在书写格式不规范的情况，为了降低对后面文本分析和自然语言理解的影响，首先做了一些预处理，如去除空行、去除多余的空格、去除重复标点符号等，然后把预处理后的评论信息保存到对应的原始评论记录中的相应字段。

2、数据处理与分析模块

该模块是本装置的核心部分，因为它直接关系到系统的处理性能。主要应用了本发明的文本细粒度情感分析装置，实现评论数据的语义分析。包括三部分：

（1）利用自然语言处理技术实现评论语句的语义特征提取

主要利用分词技术、词性标注（POS Tagging）、语义角色标注（SRL）等自然语言处理技术，实现对评论句子的语义分析和处理，并抽取和转化为相应的特征表示，为后面的机器学习奠定了基础。

（2）机器学习方法进行评价对象属性与情感要素的联合识别

主要利用已获取的语义特征信息，通过构建相应的学习模型实现评价对象属性及其情感要素的联合识别。在模型的生成过程中我们通过反复试验，调整特征模板和充分利用上下文信息，努力提高了模型的性能。通过前面章节的分析，利用性能最好的模型对所有评论进行识别，并对所有评价对象属性描述进行属性分类。这为后面的情感量化计算奠定基础。

（3）基于分类属性的情感量化计算

主要利用已抽取的“属性-情感-修饰词”词对、属性分类信息以及上下文语义信息，找出情感词与相关修饰词之间的各种关系，设计出不同的情感计算方法，进一步提高计算精确度。具体内容包括：基于上述的实验数据和结果，研究相应的语言学规律，总结不同的计算方法实现最终的基于分类属性的情感量化汇总。

3、信息展示模块

信息展示模块主要面向用户，以便捷友好的展示方式进行商品查询和推荐。

下面用具体例子来说明本发明的文本细粒度情感分析方法和装置的应用，

打开网站主页，点击进入某个具体酒店时，就可以查看到酒店评论的所有信息，以及分类属性的情感得分。

点击主页中任一家酒店的超链接均可进入该酒店评论的具体信息页面。

该酒店评论总数为82条，通过利用前面介绍的方法最后对82条评论进行情感汇总，最后向用户展示了酒店各项属性特征的细粒度评分：“环境：2.8”，“设施：2.4”，“餐饮：2.6”，“价格：2.9”，“交通：2.8”，“服务：2.9”，“总分：2.7”。每条评论上方都有一个分数，这是对该评论进行情感分析计算后的得分显示，是通过求解该评论中出现的所有情感的平均值来获得。

Claims

1.一种文本细粒度情感分析方法，包括如下步骤：情感词极性强度量化计算；评价对象属性及其情感表达元素的联合识别；细粒度属性分类及其情感计算；所述情感词极性强度量化计算包括基础情感词的极性强度量化计算和复合情感词的极性强度量化计算；所述复合情感词的极性强度量化计算分为：

基础情感词的叠词；

基础情感词+基础情感词；

否定词+基础情感词；

程度修饰词+基础情感词；

否定词+程度修饰词+基础情感词或程度修饰词+否定词+基础情感词，采用如下公式计算：

（5）

其中为基础词的情感值，为程度词的作用系数，其范围为0.5、0.7、0.9、1.1、1.3、1.5，为程度词反作用系数，也就是作用系数的范围极值之和，所以取值为2，为词情感值的符号值，如果该词的情感值大于0，则为+1，如果小于0，则为-1；为词情感值的绝对值。

2.如权利要求1所述的文本细粒度情感分析方法，其特征在于：所述基础情感词的极性强度量化计算包括字的情感值计算，采用如下公式：

（1）

（2）

其中，P _ci为字ci作为褒义词的权重，N _ci为字ci作为贬义词的权重；fp _ci为字ci出现在褒义词表中的频率，fn _ci为字ci出现在贬义词表中的频率，利用公式（1）和公式（2）可以计算出每个字作为褒义词和贬义词的权重，n为褒义词表中出现的所有字的个数，m为贬义词表中出现的所有字的个数，为了平衡情感词典中褒义词与贬义词之间的词数差异性，公式（1）和（2）对每个字在褒贬词表中出现的频率进行了归一化处理，

最后可以利用公式（3）计算出字ci的情感倾向值S _ci：

（3）

3. 如权利要求2所述的文本细粒度情感分析方法，其特征在于：所述基础情感词的极性强度量化计算还包括基础词的情感值计算，采用如下公式：

（4）

4.如权利要求1所述的文本细粒度情感分析方法，其特征在于：所述评价对象属性及其情感表达元素的联合识别包括：语义特征的抽取和基于序列化联合识别模型构建。

5.如权利要求4所述的文本细粒度情感分析方法，其特征在于：所述语义特征的抽取包括抽取分词信息、词性标注信息和语义角色信息。

6.如权利要求1所述的文本细粒度情感分析方法，其特征在于：所述细粒度属性分类及其情感计算包括基于自举学习的属性分类和细粒度情感汇总计算。

7.如权利要求6所述的文本细粒度情感分析方法，其特征在于：所述细粒度情感汇总计算采用如下公式（6）：

（6）