CN108647204B

CN108647204B - 一种跨领域情感分析方法

Info

Publication number: CN108647204B
Application number: CN201810394150.3A
Authority: CN
Inventors: 李维华; 刘慧清; 段云浩; 王翔
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2021-09-17
Anticipated expiration: 2038-04-27
Also published as: CN108647204A

Abstract

本发明属于数据挖掘技术领域，公开了一种跨领域情感分析方法。本发明将源领域和目标领域看作全局的边缘分布，并基于贝叶斯网进行建模；然后，通过源领域特征模型和目标领域特征模型构建全局特征模型；第三，通过全局特征模型建立全局特征之间的关联，实现源领域和目标领域的特征扩展；最后，基于扩展的标签样本训练分类器，并使用分类器对目标领域非标签样本进行预测。通过本发明能够有效地缩小领域间距离，为标签样本不足的目标领域进行分析提供技术支持。

Description

一种跨领域情感分析方法

本发明属于数据挖掘技术领域，涉及一种跨领域情感分析方法，更为具体地讲，涉及一种基于贝叶斯网的跨领域情感分析方法。

背景技术

情感文本指的是带有主观情感倾向的文本。对文本的情感倾向进行分析，是舆情监控、口碑分析、话题监控等应用的重要技术基础。跨领域情感分析，研究的是在情感带有主题相关性和领域相关性、以及目标领域样本稀疏的条件下，如何充分利用相关源领域样本进行分析的技术问题。跨领域情感分析的关键就是缩小领域间的差异。目前跨领域情感分析主要的方法是基于传统机器学习的方法，如SFA(Spectral Feature Alignment)方法。SFA方法用图普聚类对特征进行聚类，以达到将源领域和目标领域的特征映射到同一个空间的目的。其次，是基于深度学习的分析方法，例如贾熹滨等提出“一种建立大规模跨领域文本情感倾向性分析框架的方法”(2016年11月9日公布的，公布号为CN106096004A的中国发明专利申请)。然而，基于深度学习的方法往往需要调整大量的参数，而且对源领域和目标领域之间差异没有足够重视。针对文本特征扩展的思想，袁满等提出的“一种基于频繁词集的短文本特征扩展方法”(《东南大学学报》，2014，第44卷第2期)，该方法基于二元共现关系，利用可信度和支持度，将相关词扩展到同一领域的短文本中。贝叶斯网是每个结点都有一张概率表的有向无环图，不仅可以有效地表示不确定性知识，同时为知识的推理和分析提供了直观、有效、可靠的计算方法。

本发明利用贝叶斯网可以有效地进行知识表示和推理的优点，通过构建全局特征模型，将所有特征词之间依赖关系表示在一个知识网络中，并利用贝叶斯网的推理将这些知识结合进行特征扩展，为缩小领域间的差异提供有效的支持。

发明内容

针对现有技术中存在的不足，本发明在现有技术的基础上提出一种基于贝叶斯网的跨领域情感分析方法，利用贝叶斯网对不确定性知识表示和推理的能力，通过全局特征模型、建立源领域和目标领域之间的特征词之间的关系。具体来说，本发明具体技术方案包括：

第一步：针对源领域的情感文本集合，计算其特征词集合上的一个联合分布p _S(.)；针对目标领域上的情感文本集合，计算其特征词集合上的一个联合分布p _T(.)；在源领域特征词集合W _S和目标领域特征词集合W _T组成的集合W _S∪W _T中学习一个特征词优先顺序；其中，所述的特征词优先顺序满足领域间的共同特征词W _S∩W _T优先于其它特征词W _S-W _T和W _T - W _S；

第二步：领域特征词集合中的每一个特征词依次对应特征模型的一个节点；领域特征词集合中任意两个特征词u和v，如果两个特征词的依赖度大于预设阀值时，则对应节点u和v之间存在边u―v；对任意边u―v，如果满足u优先于v则定义有向边u→v；如果v优先于u则定义有向边v→u；学习源领域特征的参数，参数包括每一个节点u在其父节点pa_S(u)条件下的条件概率表p _S(u|pa_S(u))，而且p _S(u|pa_S(u))通过联合分布p _S(.)计算得到；学习目标领域特征模型的参数，参数每一个节点u在其父节点pa_T(u)条件下的条件概率表p _T(u|pa_T(u))，而且p _T(u|pa_T(u))通过联合分布p _T(.)计算得到；

第三步：将所有出现在源领域的特征词或者目标领域的特征词W=W _S∪W _T定义为全局节点；对任意特征u,v∈W，如果在一个领域特征模型中u和v之间存在边，则在全局特征词模型u和v之间存在相同的边；如果任意特征u,v∈W _T∩W _S，如果u和v在源领域特征模型中或者目标领域特征模型中不存在边，那么删除u和v之间的边；计算全局特征模型的参数；

第四步：基于全局特征模型，对源领域或目标领域的文本，计算该文本特征词都出现的条件下其它特征词的后验概率，根据后验概率从大到小的顺序选择β个特征词扩展到该文本特征中，β为正整数；

第五步：基于扩展之后的标签样本，训练分类器；基于分类器预测目标领域未知类别的情感文本的情感倾向。

以上技术方案可以看出，本发明具有如下的有益效果：

（1）本发明基于贝叶斯网建立源领域和目标领域之间的关系，将所有特征词之间依赖关系表示在一个知识网络中，为定量分析他们的关系建立技术基础；

（2）本发明可以利用贝叶斯网的推理能力，将目标领域特征词扩展到源领域中，将源领域特征词扩展到目标领域中，可以有效缩小领域间的差异。

附图说明

图1.本发明具体实施方式流程图；

图2.源领域特征模型；

图3.目标领域特征模型示例；

图4.全局特征模型。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

图1为本发明实施例提供的方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：量化源和目标领域情感文本

具体包括以下步骤：

第一，对源领域情感文本集合，提取sn个特征词W _S={w _s1,w _s2,…,w _sn}；对目标领域情感文本集合，提取tm个特征词W _T={w _t1,w _t2,…,w _tm}；

本发明实施中，通过分词、去除停用词，得到特征词，英文文本可以通过分词、去除停用词之后进行词性还原，提取unigram和bigrams词作为特征词，可以采用公知的TF-IDF权值对特征词进行筛选，减少特征词的数量。

第二，针对源领域上的情感文本集合，定义其特征词集合上的一个联合分布p _S(.)；针对目标领域上的情感文本集合，定义其特征词集合上的一个联合分布p _T(.)；

本实施中，针对源领域上的情感文本集合，可以采用如下的方法获得特征词集合的一个联合分布p _S(w _s1,w _s2,…,w _sn)：

指定特征词集合{w _s1,w _s2,…,w _sn}中每一个特征词是否出现，其中，w _si=1表示特征词w _si出现在文本中，w _si=0表示特征词w _si不出现在文本中；统计满足条件的源领域情感文本数量，得到频度函数c _S(w _s1,w _s2,…,w _sn)，将c _S(w _s1,w _s2,…,w _sn)归一化得到源领域{w _s1,w _s2,…,w _sn}上的联合分布p _S(w _s1,w _s2,…,w _sn)。

针对目标领域上的情感文本集合，可以采用如下的方法获得特征词集合的一个联合分布p _T(w _t1,w _t2,…,w _tm)：

指定特征词集合{w _t1,w _t2,…,w _tm}中每一个特征词是否出现，其中，w _ti=1表示特征词w _ti出现在文本中，w _ti=0表示特征词w _ti不出现在文本中；统计满足条件的目标领域情感文本数量，得到频度函数c _T(w _t1,w _t2,…,w _tm)，将c _T(w _t1,w _t2,…,w _tm)归一化得到源领域{w _t1,w _t2,…,w _tm}上的联合分布p _T(w _t1,w _t2,…,w _tm)。

第三，学习特征词W _S∪W _T的优先顺序；

本实施例中，可以先将领域间的共同特征词W _S∩W _T优先排在其它特征词(W _S∪W _T)-(W _S∩W _T)的前面，然后，再用特征词权值f(w _i)由大到小的顺序分别调整领域间的共同特征的顺序和领域专有特征内部的顺序，而获得特征词的优先顺序。特征词的权重可以通过逆文档频IDF值定义，具体计算过程可以为：

(1)计算W _S中每一个特征词w _i的IDF权值

，其中|D _S|是源领域文本数，n _S(w _i)表示w _i在源领域中出现的文本数；

(2)计算W _T中每一个特征词w _i的IDF权值

，其中|D _T|是目标领域文本数，n _T(w _i)表示w _i在目标领域中出现的文本数；

(3)对于W _S-W _T中的特征词，定义f _T(w _i)=0；对于W _T-W _S中的特征词，定义f _S(w _i)=0；

(4)对特征词w _i的权值f(w _i)=g(f _S(w _i)+f _T(w _i))，本发明实施中可以采用f(w _i)=f _S(w _i)+f _T(w _i)。

步骤102：建立领域特征模型

具体包括以下步骤：

第一，分别针对源领域和目标领域，学习特征模型的结构；

对源领域及特征词{w _s1,w _s2,…,w _sn}；

首先，将{w _s1,w _s2,…,w _sn}定义为节点；其次，对{w _s1,w _s2,…,w _sn}中任意两个特征词u和v，如果两个特征词的依赖度大于预设阀值时，u和v之间存在边u―v；对任意边u―v，如果满足u优先于v则定义有向边u→v；如果v优先于u则定义有向边v→u；得到源领域特征模型的结构；

对目标领域及特征词{w _t1,w _t2,…,w _tm}；

首先，将{w _t1,w _t2,…,w _tm}定义为节点；其次，对{w _t1,w _t2,…,w _tm}中任意两个特征词u和v，如果两个特征词的依赖度大于预设阀值时，u和v之间存在边u―v；对任意边u―v，如果满足u优先于v则定义有向边u→v；如果v优先于u则定义有向边v→u；得到目标领域特征模型的结构；

在本实施例中，两个特征词u和v的依赖度可以定义为

，依赖阀值可以选择大于0的实数；

第二，学习特征模型的参数；

针对源领域，参数包括源领域每一个节点u在其父节点pa_S(u)条件下的条件概率表

，且通过源领域的联合分布p _S(.)计算得到，具体为：

针对目标领域，参数包括目标领域每一个节点u在其父节点pa_T(u)条件下的条件概率表

，且通过目标领域的联合分布p _T(.)计算得到，具体为：

步骤103：构建全局特征模型

具体包括以下步骤：

第一，将所有出现在源领域的特征词或者目标领域的特征词W=W _S∪W _T定义为节点；

第二，对任意特征词u,v∈W，如果在一个领域特征模型中节点u和v之间存在边，则在全局特征词模型中节点u和v之间存在相同的边；

第三，如果任意特征词u,v∈W _T∩W _S，如果节点u和v在源领域特征模型中或者目标领域特征模型中不存在边，那么删除节点u和v之间的边；

例如，图2所示的是源领域特征词集合W _S={w ₁,w ₂,w ₃,w ₄}上的特征模型。图3所示的是目标领域特征词集合W _T={w ₁,w ₂,w ₃,w ₅,w ₆}；按照步骤103的方法，w ₁→w ₂没有包含在全局模型中；

例如，图4所示的就是在特征词集W={w ₁,w ₂,w ₃,w ₄,w ₅,w ₆}上的特征模型，通过图2和图3所示两个领域特征模型得到全局特征模型。

第四，学习全局特征模型的参数；

在本实施例中，可以采用下面的步骤学习全局特征模型的参数：

(1)对于W _S-W _T中的每一个节点u在其父节点pa(u)条件下的条件概率表p(u|pa(u))，使用源领域中节点u的参数p _S(u|pa(u))作为全局特征模型的参数；

例如图4所示的节点w ₄，使用源领域中节点w ₄的参数p _S(w ₄|w ₂,w ₃)，如图2所示，作为全局特征模型中的节点w ₄的参数；

(2)对于W _T-W _S中的每一个节点u在其父节点pa(u)条件下的条件概率表p(u|pa(u))，使用目标领域中节点u的参数p _T(u|pa(u))作为全局特征模型的参数；

例如图4所示的节点w ₅，使用目标领域中节点w ₅的参数p _T(w ₅|w ₁,w ₂)，如图3所示，作为全局特征模型中的节点w ₅的参数p(w ₅|w ₁,w ₂)；节点w ₆，使用目标领域中节点w ₆的参数p _T(w ₆|w ₁)作为全局特征模型中的节点w ₆的参数p(w ₆|w ₁)；

(3)对于W _T∩W _S中的每一个节点u，源领域和目标领域其父节点分别为pa_S(u)和pa_T(u)，如果pa_S(u)=pa_T(u)，则全局特征模型节点u的父节点pa(u)=pa_S(u)=pa_T(u)，参数为：

；

例如节点w ₃，源领域特征模型和目标领域特征模型中节点w ₃的参数分别为p _S(w ₃|w ₁,w ₂)和p _T(w ₃|w ₁,w ₂)，使用平均值作为全局特征模型中的节点w ₃的参数p(w ₃|w ₁,w ₂)；同理可求节点w ₁的参数；

如果pa_S(u)≠pa_T(u)，则本发明的全局特征模型的结构学习方法有pa_S(u)⊂pa_T(u)或者pa_S(u)⊃pa_T(u)。如果pa_S(u)⊂pa_T(u)，则全局特征模型节点u的父节点pa(u)=pa_S(u)，参数为：

如果pa_S(u)⊃pa_T(u)，则全局特征模型节点u的父节点pa(u)=pa_T(u)，参数为：

例如，节点w ₂，源领域特征模型w ₂的父节点集合为{w ₁}、参数为p(w ₂|w ₁)，目标领域特征模型中节点w ₂的的父节点集合为空集∅、参数为p(w ₂)，则全局特征模型中的节点w ₂的父节点pa(u)=∅，参数为：

步骤104：领域文本特征词扩展

具体包括：基于全局特征模型，对源领域或目标领域的文本，计算该文本特征词都出现的条件下其它特征词的后验概率，根据后验概率从大到小的顺序选择β个特征词扩展到该文本特征中，β为正整数。

在本实施例中，可以采用下面的步骤实现特征扩展：

第一，对于源领域每一条带标签的情感文本，以及目标领域每一条情感文本，计算该文本特征词都出现的条件下其它特征词的后验概率；

第二，根据后验概率从大到小的顺序进行选择β个特征词为文本的扩展特征，β为正整数；

第三，根据分类器的训练需要，每个扩展特征词w的权值可以采用计算得到的后验概率进行定义。

例如，在图4所示特征集W={w ₁,w ₂,w ₃,w ₄,w ₅,w ₆}上的全局贝叶斯网，若某个源领域文本d _i的特征词集合为{w ₁,w ₂,w ₄}，计算特征w ₅的后验概率θ _i5=p(w ₅=1|w ₁=1,w ₂=1,w ₄=1)，同理计算特征w ₃、w ₆的后验概率θ _i3、θ _i6；如果β=1，则按照θ _i3、θ _i5和θ _i6其中的大者将w ₃、w ₅或w ₆扩展文本d _i中。例如，如果θ _i5最大，那么d _i扩展之后得到特征集合为{w ₁,w ₂,w _4， w ₅}。

在本实施例中，可以采用贝叶斯网的推理算法计算后验概率，并且使用后验概率作为扩展词的权值。

步骤105：训练分类器完成目标领域分类

基于扩展之后的标签样本，训练分类器；基于分类器预测目标领域未知类别的情感文本的情感倾向。

本实施例中，分类器可以选择支持向量机SVM。

以上所述仅为本发明的实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种跨领域情感分析方法，该方法的特征在于包括：

S1：针对源领域的情感文本集合，计算其特征词集合上的一个联合分布p _S(.)；针对目标领域上的情感文本集合，计算其特征词集合上的一个联合分布p _T(.)；在源领域特征词集合W _S和目标领域特征词集合W _T组成的集合W _S∪W _T中学习一个特征词优先顺序，且优先顺序满足W _S∩W _T优于(W _S∪W _T)-(W _S∩W _T)；

S2：领域特征词集合中的每一个特征词依次对应特征模型的一个节点；领域特征词集合中任意两个特征词u和v，如果两个特征词的依赖度大于预设阀值时，则对应节点u和v之间存在边u―v；对任意边u―v，如果满足u优先于v则定义有向边u→v；如果v优先于u则定义有向边v→u；学习源领域特征的参数，参数包括每一个节点u在其父节点pa_S(u)条件下的条件概率表p _S(u|pa_S(u))，而且p _S(u|pa_S(u))通过联合分布p _S(.)计算得到；学习目标领域特征模型的参数，参数每一个节点u在其父节点pa_T(u)条件下的条件概率表p _T(u|pa_T(u))，而且p _T(u|pa_T(u))通过联合分布p _T(.)计算得到；

S3：将所有特征词W=W _S∪W _T定义为全局节点；对任意特征u,v∈W，如果在一个领域特征模型中u和v之间存在边，则在全局特征词模型u和v之间存在相同的边；如果任意特征u,v∈W _T∩W _S，如果u和v在源领域特征模型中或者目标领域特征模型中不存在边，那么删除u和v之间的边；计算全局特征模型的参数；

S4：基于全局特征模型，对源领域或目标领域的文本，计算该文本特征词都出现的条件下其它特征词的后验概率，根据后验概率从大到小的顺序选择β个特征词扩展到该文本特征中，β为正整数；

S5：基于扩展之后的标签样本，训练分类器；基于分类器预测目标领域未知类别的情感文本的情感倾向。