CN108694165B

CN108694165B - 面向产品评论的跨领域对偶情感分析方法

Info

Publication number: CN108694165B
Application number: CN201710229726.6A
Authority: CN
Inventors: 夏睿; 王乐义
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2021-11-09
Anticipated expiration: 2037-04-10
Also published as: CN108694165A

Abstract

本发明公开了一种面向产品评论的跨领域对偶情感分析方法，该方法包括：对于给定目标领域的产品评论数据，获取源领域标注语料资源，随后对源领域和目标领域的样本数据预处理；借助英文本体库为语料中的特征词构建具有一对多关系的带权反义词典；结合改进的知识规则和带权反义词典为源领域和目标领域的样本构造翻转数据集，扩充语料；采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示，并对翻转样本中引入的带权情感词进行加权表示；采用对偶学习方法训练基分类器，并使用基于置信度的集成策略进行基分类器集成。本发明能较好地解决情感分析任务中产品评论等短文本的数据稀疏问题、极性转移问题，并在领域适应问题上表现良好。

Description

面向产品评论的跨领域对偶情感分析方法

技术领域

本发明涉及人工智能、自然语言处理领域，具体涉及一种面向产品评论的跨领域情感分析方法。

背景技术

随着计算机与网络技术的不断发展，当今互联网已进入社交媒体时代。越来越多的用户乐于在网络上分享自己对产品或事物观点和体验。微博、在线产品评论等带有主观倾向性的文本资源急剧膨胀。对于海量的主观文本信息，仅依靠人工进行跟踪、组织和管理已难以实现，如何利用计算机技术对互联网上的主观文本信息进行自动分析、挖掘用户的观点倾向，已逐渐成为当下最迫切的需求。

文本主观倾向性分析，又称文本情感分析，是自然语言处理领域研究的热点问题之一。由于情感分析任务是一个领域相关的课题，即不同领域间数据分布的差异，往往导致特征词在不同领域表现不同的情感极性。传统的基于监督学习的机器学习方法需要大量的有标注样本构建模型，而对于标注语料匮乏的领域，采用人工标注的方式，不仅需要昂贵的人力成本，效率也很低；另一方面，随着情感分析任务的研究，部分领域已积累了充足的有情感标注信息的语料。如何利用情感标注语料丰富的领域对标注语料匮乏的目标领域的样本进行跨领域情感分析已逐渐成为情感分析领域研究的热点。

虽然随着研究的深入，情感分析技术已取得了很大的进展，但仍存在一些问题有待进一步研究。如情感分类任务中的否定转移问题、领域适应问题、短文本数据稀疏问题等等。

发明内容

本发明的目的在于提供一种面向产品评论的跨领域对偶情感分析方法，解决产品评论、微博等短文本的数据稀疏性、否定情感转移问题及情感分类任务的领域适应问题。

实现本发明目的的技术方案为：一种面向产品评论的跨领域对偶情感分析方法，包括以下步骤：

步骤1，对于给定目标领域的产品评论数据，首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域，获取源领域标注语料资源；随后对源领域和目标领域的样本数据预处理，包括分词、词性标注和停用词过滤；

步骤2，借助英文本体库通过迭代查询的方式遍历源领域及目标领域语料中所有特征词的反义词，并根据反义词在数据集中的词频信息，为每个特征词的多个反义词分别设置权重，构建具备一对多关系的带权反义词典；

步骤3，使用步骤2构建的带权反义词典，结合跨领域翻转样本构造规则构造翻转样本，从而扩充源领域和目标领域的样本数据；

步骤4，采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示，并对翻转样本中引入的带权情感词进行加权表示；

步骤5，采用对偶学习方法训练基分类器，并使用基于置信度的集成策略进行基分类器集成。

与现有技术相比，本发明的有益效果为：

(1)否定词、转折词的出现往往伴随情感极性的转移，本发明通过设计跨领域翻转样本构造规则扩充样本集的同时，有效的解决了否定、转折语言结构中的情感极性转移问题；

(2)借助英文本体库查询源领域和目标领域语料中每个特征词的反义词，并根据每个特征词的多个反义词在数据集中的频率信息分别为其设置权重；这种带权反义词典体现了特征词在源领域和目标领域的综合分布。

(3)通过移除原样本中的特征词，并采用加权的方式为移除的特征词引入多个情感反义词，有效的改善了短文本的数据稀疏性。

(4)在构建翻转样本时，对原样本中的情感词采用一对多的替换方法，引入丰富的先验知识的同时，为样本引入了来自全局情感特征词，从而削弱样本中情感词的领域依赖性，使得翻转样本更具有领域适应性，为跨领域情感分析提供了新的思路。

附图说明

图1为本发明面向产品评论的跨领域对偶情感分析方法的流程图。

具体实施方式

结合图1，本发明的一种面向产品评论的跨领域对偶情感分析方法，包括以下步骤：

进一步的，所述步骤1具体为：

A)对于给定目标领域的产品评论数据，首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域，获取源领域标注语料资源；

B)使用现有的开源分词和词性标注工具对源领域及目标领域的语料进行分词、词性标注，并过滤语料中的停用词。

进一步的，使用的分词和词性标注工具包括NLTK，Stanford-PosTagger。

进一步的，步骤2所述具有一对多关系的带权反义词典的构建方法具体为：

借助英文本体库通过迭代查询的方式遍历源领域和目标领域中所有形容词、动词、副词的反义词，并根据各反义词在数据集的词频信息，为每个特征择的多个反义词分别设置权重，构建具备一对多关系的带权反义词典；

特征词的反义词权重计算策略如下：

A)BOOL权重策略，即将每个特征词的多个反义词的权重均设置为1；

B)词频权重策略，采用一种基于词频与权重映射关系的表示方法；

首先，定义一种词频和权重信息的映射关系，

表示为：

其中

为权重向量，维度为词表大小，

为词频权重，

为词表，#V为词表大小。

进一步的，使用的英文本体库为WordNet。

进一步的，步骤3中跨领域翻转样本构造规则具体为：

A)对样本按标点切分子句；若子句中不存在否定词或转折词，则将子句中的情感词移除，并将被移除情感词的所有反义词加入该样本的“词袋”；

若子句中存在否定或转折词，则移除否定词和转折词，否定域和转折域中的情感词保持不变，否定域外的情感词仍按子句中不存在否定词或转折词的规则构造翻转样本；

B)翻转训练集中样本的情感标签。

进一步的，步骤4具体为：

文本特征采用BOOL权重表示方法，对于样本中未翻转词语仍使用BOOL权重表示，对于翻转后添加的词语，使用步骤3所述带权反义词典进行加权表示。

进一步的，所述步骤5中，采用Logistic模型或Navie Bayes算法学习基分类器，具体为：

A)对偶学习阶段：使用源领域的原样本和翻转样本作为训练集训练基分类器cls_a；仅使用源领域的原样本训练基分类器cls_b；

B)对偶预测阶段：使用基分类器cls_a分别预测目标领域原样本和翻转样本；使用基分类器cls_b预测目标领域原样本；

C)分类器集成阶段：

(1)基于权重的集成：如式(2)中所示，其中权重参数α，0≤α≤1，p_o(+|x)为基分类器cls_a预测目标领域原样本为正类的概率，

为基分类器cls_a预测目标领域翻转样本预测为负类的概率；

为采用(2)中加权的方式集成目标领域原样本、翻转样本关于类别y的预测概率；

(2)基于置信度的集成：采用置信度平滑概率，如式(3)所示，其中

为样本最终预测的标签，p(y|x)为基分类器cls_b预测目标领域原样本的概率，Δp为

c为置信度，取[-0.3,0.3]，其中，当c<0时，系统更信任基于权重的集成

下面结合实施例对本发明作进一步说明。

实施例

一种面向产品评论的跨领域对偶情感分析方法，用于对产品评论或微博等短文本语料进行跨领域预测，如图1所示，包括以下步骤：

1)对于给定的目标领域的产品评论数据，首先为其选定情感标注语料规模不低于目标领域四倍的领域作为源领域，获取源领域标注语料资源；使用现有的开源分词和词性标注工具，例如NLTK，Stanford-PosTagger，对源领域及目标领域的语料进行分词、词性标注，并过滤语料中的停用词。以表1为例；

表1样本实例预处理

2)使用英文本体库WordNet根据词性标注信息，为源领域及目标领域语料中所有的形容词、动词、副词查询反义词，并根据各反义词在数据集的词频信息，为每个特征择的多个反义词分别设置权重，构建具备一对多关系的带权反义词典。以表2为例；

表2构建带权反义词典

3)使用第二步所述具备一对多关系的带权反义词典，结合改进的知识规则构造翻转样本，扩充源领域和目标领域的样本数据。根据改进的知识规则：

A)首先对样本按标点切分子句；若子句中不存在否定词或转折词，则将子句中的情感词移除，并将被移除特征词的所有反义词加入该样本的“词袋”；

B)若子句中存在否定或转折词，则移除否定词和转折词，否定域和转折域中的情感词保持不变，否定域外的情感词仍按A)中规则构造翻转样本；

C)翻转训练集中样本的情感标签。

示例样本翻转后结果如表3所示。

表3构建翻转样本

对于表3中给定的原样本来自“movie”，在样本翻转过程中移除情感词“funny”，“expensive”的同时，引入其带权的反义词，其中情感词“broken”，“beautiful”本身并非movie领域的情感词，通过这种翻转样本构造方式，再引入本领域特征情感词的同时，引入多个来自其他领域的特征情感词，在一定程度上削弱了样本的领域依赖性。

4)采用“词袋”模型对数据集中的原样本及翻转样本进行文本表示，并对翻转样本中加入的带权情感词进行加权表示。若文本特征采用BOOL权重表示方法，则对于样本中未翻转词语仍使用BOOL权重表示，对于翻转后添加的词语，使用3)中构造的一对多反义词典进行加权表示。采用稀疏的文本表示方式，原样本和翻转样本的文本表示如表4所示：

表4样本的文本表示

5)采用Logistic模型或Navie Bayes算法学习基分类器。主要分为一下几个阶段：

C)分类器集成阶段：

(1)基于权重的集成：如式(4)所示，其中权重参数α取0.5，p_o(+|x)为基分类器cls_a预测目标领域原样本为正类的概率为0.6，

为基分类器cls_a预测目标领域翻转样本预测为负类的概率为0.3；

虽然基分类器cls_a错误预测目标领域原样本为正类，但

为基分类器cls_a预测目标领域翻转样本预测为负类的概率仅0.3，通过这种加权集成的方式同时考虑原样本和翻转样本的预测结果，最终使得基分类器cls_a错误预测得到纠正。

(2)基于置信度的集成：置信度c取-0.3，基分类器cls_b预测目标领域原样本的概率p(+|x)＝0.6

根据公式(3)、(5)知，Δp＞c＝-0.3

最终预测原样本类别为正类。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。