CN108549633A

CN108549633A - 基于概率推理与情感认知的文本细粒度情感生成方法

Info

Publication number: CN108549633A
Application number: CN201810298349.6A
Authority: CN
Inventors: 柴玉梅; 徐源音; 王黎明; 张卓; 韩飞; 韩慧; 李永帅
Original assignee: Zhengzhou University
Current assignee: Fuxin Kunpeng Beijing Information Technology Co ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-18
Anticipated expiration: 2038-04-04
Also published as: CN108549633B

Abstract

本发明涉及基于概率推理与情感认知的文本细粒度情感生成方法，包括以下步骤：步骤1：准备训练方法所需的文本数据集；步骤2：对文本数据集进行处理；步骤3：提取构建贝叶斯网络所用的情感评估变量；步骤4：根据网络文本的特性，添加基于表情符号和词频的情感评估变量；步骤5：构建情感知识库；步骤6：构建常识知识库；步骤7：情感评估变量赋值；步骤8：学习情感生成贝叶斯网络的网络结构；步骤9，进行参数学习；步骤10：完成情感生成方法的构建工作。本发明利用情感认知方法解决其他情感生成方法中存在的忽视隐性情感的问题，同时利用贝叶斯网络计算情感产生的概率，比较每种情感类别概率的高低，生成文本包含的一或多种情感。

Description

基于概率推理与情感认知的文本细粒度情感生成方法

技术领域

本发明涉及机器学习和自然语言处理文本情感分析领域，具体涉及到情感认知方法以及贝叶斯网络的推理思想领域，尤其涉及基于概率推理与情感认知的文本细粒度情感生成方法。

背景技术

文本情感分析是自然语言处理的一个热门的研究领域，主要是能自动识别用户在文本中所表达的情感类别。情感是是多种感觉、思想和行为综合产生的心理和生理状态，泛指喜欢、厌恶、愤怒、惊讶、自豪等。传统的情感分析主要是识别用户的情感倾向：正向、负向或者中性，情感分析则是细粒度的情感分析任务，可以识别多种情感。情感的生成方法有基于词典和规则的方法、基于机器学习的方法、基于情感认知方法OCC、EMA的方法等。认知评估理论是认知心理学研究中应用广泛和较为成熟的情感分析理论。情感认知方法OCC理论将情感看为对事件的结果、智能体的行为和对象属性的认知评价。该方法通过一系列情感诱发条件定义了22种情感产生规则。

基于词典和规则的方法通常使用大规模、高质量的情感词典，如 HowNet情感词典、台湾大学NTUSD简体中文情感词典等。仅依赖词典匹配的方法只能识别出带有情感词的显性情感，对于不包含情感词的文本识别效果不好。基于机器学习的方法常用的主要有支持向量机(Support Vector Machines，SVMs)、卷积神经网络 (Convolutional NeuralNetwork，CNN)、长短期记忆网络(Long Short Term Memory networks，LSTM)等。机器学习的方法依赖特征工程或者和所需参数较多，耗时较长，在细粒度的文本情感生成中精度不高。贝叶斯网络(Bayesian Network，BN)又称为信念网络(Belief Network),是一种概率网络，是一组节点的联合概率分布，每一个节点代表一个随机变量，节点间的有向边代表变量间的依赖关系。传统的情感分析方法一般只识别一种情感，但人们通过文本表述的情感往往不是单一的。贝叶斯网络基于概率推理的这种特性正适应于文本情感分析，依据概率推理可识别人们可能想要表达的多种情感类别。

发明内容

针对现有技术的缺陷，本发明提出了基于概率推理与情感认知的文本细粒度情感生成方法，利用情感认知方法解决其他情感生成方法中存在的忽视隐性情感的问题，同时利用贝叶斯网络计算情感产生的概率，提高情感类别生成的准确度。

为实现上述目的，本发明提出基于概率推理与情感认知的文本细粒度情感生成方法，包括以下步骤：

步骤1：准备训练方法所需的文本数据集，选用七种情感进行文本标注；

步骤2.：对文本数据集进行分析、词性标注、依存句法分析、语义依存关系处理；

步骤3：根据情感认知方法OCC方法的情感产生规则，提取构建贝叶斯网络所用的情感评估变量；

步骤4：根据网络文本的特性，添加基于表情符号的情感评估变量；

步骤5：构建情感知识库；

步骤6：构建常识知识库；

步骤7：情感评估变量赋值；根据步骤2得到的数据预处理结果，对步骤3和步骤4提取的情感评估变量进行赋值；

步骤8：学习情感生成贝叶斯网络的网络结构；

步骤9，使用EM方法对情感生成贝叶斯网络进行参数学习；

步骤10：完成情感生成方法的构建工作；输入一条文本，将依次经过步骤2和步骤7处理后的结果输入网络方法，通过比较每类情感的概率值，即可得到文本的情感类别。

进一步的，在步骤1中，情感认知方法OCC方法对应情感有22 种，分析后选用喜欢、幸福、恐惧、生气、厌恶、悲伤、惊讶共七种情感对文本进行标注；在步骤2中对文本数据集使用哈工大语言云技术平台进行处理；处理后的文本结构定义为S＝{w₁,w₂,…w_N},w_i表示一条文本中的第i个词语对象；词语对象w_i＝＜cont,pos,ne,arg,rel,par semRel,sePmar＞，其中cont表示词语内容；pos代表词性；ne为命名实体信息；arg＝＜type,beg,end＞表示序号从beg至end构成的词组的语义角色类别为type；rel表示依存句法关系，par为关系指向的父节点词序号；semRel表示语义依存关系，semPar为关系指向的父节点词序号。

进一步的，在步骤3中情感评估变量如下：

情感评估变量

进一步的，在步骤4中添加基于表情符号的情感评估变量<exp、 elike、ehappiness、efear、esurprise、eanger、edisgust、esadness>, 其中exp表示是否有表情符号，其他变量表示对应的情感类型无为1，有为2；添加基于统计词频情感评估变量<welike、whappiness、wfear、 wsurprise、wanger、wdisgust、wsadness>表示对应的情感类型无为 1，有为2。

进一步的，步骤5中的情感知识库是从HowNet情感极性词典、大连理工大学情感词汇本体库、清华大学极性词典、台湾大学情感词典共个中文情感词典中，归纳整理去除了低频生僻词，得到基础情感极性词典包含正向情感词15630个，负向情感词18807个。

进一步的，步骤6中的构建常识知识库是提取HowNet知识库中Entity类作为基础object词典；再使用完整的HowNet知识库，通过分析其概念结构，完善其他常识词典。

进一步的，常识知识库具体描述如下：

常识词典具体描述

进一步的，对步骤3和步骤4提取的情感评估变量进行赋值：

1)words，根据文本S中是否存在谓语关系<SBV、VOB、ADV、POB、 IOB、FOB、DBL〉，确定该文本是否为独词句；

2)rel，根据主谓关系SBV得到文本主语Sub，若Sub属于other，则rel＝2；若Sub属于self，则rel＝1；如该句为独词句或以描述客观事物为主，则rel＝1；

3)au_obj，通过语义依存分析,得到客观事物的修饰语Feat；根据修饰语极性确立au_obj的属性值；

4)sta_eve,通过分析谓词、宾语以及各自的修饰词的极性，确定事件的属性；

5)au_eve,若事件相关主体rel＝1，au_eve的属性值等同于 sta_eve；否则，通过分析文本中除相关主体所在的子句，以及插入语的情感极性确定au_eve的属性值；

6)time,获取语义依存关系中的mTime、dTime、Time、mMod等关系指向的词语，对其匹配confirmation和future词典，获取文本的时间关系；

7)<exp、elike、ehappiness、efear、esurprise、eanger、edisgust、 esadness>,若文本中不存在表情，所有变量取1；若文本含有表情，则exp＝2，对每个表情对应情感叠加取值最高的两个情感变量赋值为 2，其他为1；

8)<welike、whappiness、wfear、wsurprise、wanger、wdisgust、 wsadness>根据标注数据集，通过计算每个词在每类情感类别下的词频，去掉模糊度较高的词后对每个词赋予2个情感类别；在依此对文本中对每个词对应情感叠加取值最高的两个情感变量赋值为2，其他为1。

进一步的，贝叶斯网络结构中序号和变量的对应关系为：

exp＝1；elike＝2；ehappiness＝3；efear＝4；eanger＝5；edisgust＝6；esadness＝7；esurprise＝8；wlike＝9；whappiness＝10；wfear＝11；wanger＝12 ；wdisgust＝13；wsadness＝14；wsurprise＝15；words＝16；rel＝17；au_ob j＝18；au_eve＝19；sta_eve＝10；time＝21；like＝22；happiness＝23；fear ＝24；anger＝25；disgust＝26；sadness＝27；surprise＝28。

进一步的，步骤9中的参数学习过程为：

1)对V中的每个变量x_i,遍历每个父节点π(x_i)可取的值j；对每个k遍历对应的k_r；

2)初始化t＝0；

3)对H中完整的数据集Y计算作为初始值；

4)对缺失数据集D计算：

5)当时：

t＝t+1

6)将参数放入条件概率表CPT；

其中，t为迭代次数；θ为S中节点的条件概率，表示为 Dg表示第g个样本实例，共有N个；Xg表第g个样本示例中缺少的变量；V 表示S中所有的变量(节点){x₁,x₂,x₃…x_n}|,k_r代表x_i的第r个取值,共有M_i个；π(x_i) 表示x_i的父集。

有益效果

1)本发明使用情感认知方法提取文本信息，并融合文本表情特征和情感词频特征，相较于传统的基于词典的或者机器学习的情感生成方法而言，可有效捕捉文本中隐含的情感元素。

2)本发明使用贝叶斯网络作为最终的情感类别生成方法，将基于概率推理贝叶斯网络应用于文本情感生成，可得到人们想要表达的多种情感类别。同时，它可以解决在文本情感生成中中情感评估变量的不完整性问题。

3)本发明同时可适用于随意性较强的网络文本。

附图说明

图1是本发明的系统流程图；

图2是本发明的系统结构示意图；

图3是本发明的情绪生成贝叶斯网络结构图；

图4是本发明实施例句的依存句法与语义分析结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的方法步骤详细如下：

步骤1，准备训练方法所需的文本数据集，情感认知方法OCC方法对应情感有22种，本发明分析后选用喜欢、幸福、恐惧、生气、厌恶、悲伤、惊讶共七种情感对文本进行标注。

步骤2，对文本数据集使用哈工大语言云技术平台进行分析、词性标注、依存句法分析、语义依存关系等等处理，处理后的文本结构定义为S＝{w₁,w₂,…w_N},w_i表示一条文本中的第i个词语对象。词语对象w_i＝＜cont,pos,ne,arg,rel,par,semRel,semPar＞，其中cont表示词语内容； pos代表词性；ne为命名实体信息；arg＝＜type,beg,end＞表示序号从 beg至end构成的词组的语义角色类别为type；rel表示依存句法关系，par为关系指向的父节点词序号；semRel表示语义依存关系， semPar为关系指向的父节点词序号。

步骤3，根据情感认知方法OCC方法的情感产生规则，提取构建贝叶斯网络所用的情感评估变量，如表1所示。

表1情感评估变量

步骤4，根据网络文本的特性，添加基于表情符号的情感评估变量<exp、elike、ehappiness、efear、esurprise、eanger、edisgust、 esadness>,其中exp表示是否有表情符号，其他变量表示对应的情感类型无为1，有为2；添加基于统计词频情感评估变量<welike、 whappiness、wfear、wsurprise、wanger、wdisgust、wsadness>表示对应的情感类型无为1，有为2。

步骤5，构建情感知识库。现常用的中文情感词典有四种，分别为：HowNet情感极性词典、大连理工大学情感词汇本体库、清华大学极性词典、台湾大学情感词典。归纳整理去除了低频生僻词，得到基础情感极性词典包含正向情感词15630个，负向情感词18807个。

步骤6，构建常识知识库。本发明提取HowNet知识库中Entity 类作为基础object词典。再使用完整的HowNet知识库，通过分析其概念结构，完善其他常识词典，常识知识库具体描述如表2所示。

表2常识词典具体描述

步骤7，情感评估变量赋值。根据步骤2得到的数据预处理结果，对步骤3和步骤4提取的情感评估变量进行赋值。

步骤8，学习情感生成贝叶斯网络的网络结构。根据情感认知方法的情感生成规则，绘制贝叶斯网络结构，如图3所示。

步骤9，使用EM方法对情感生成贝叶斯网络进行参数学习。

1)对V中的每个变量xi,遍历每个父节点π(x_i)可取的值j；对每个k遍历对应的kr。

2)初始化t＝0。

3)对H中完整的数据集Y计算作为初始值。

4)对缺失数据集D计算：

5)当时：

t＝t+1

6)将参数放入条件概率表CPT；

其中，t为迭代次数；θ为S中节点的条件概率，表示为 Dg表示第g个样本实例，共有N个；Xg表第g个样本示例中缺少的变量；V 表示S中所有的变量(节点){x₁,x₂,x₃…x_n},k_r代表x_i的第r个取值,共有M_i个；π(x_i) 表示x_i的父集。

步骤10，至此，已完成情感生成方法的构建工作。输入一条文本，将依次经过步骤2和步骤7处理后的结果输入网络方法，通过比较每类情感的概率值，即可得到文本的情感类别。

本发明以情感认知方法为基础，分析22种情感归并整理为7类情感。根据方法情感生成的规则提取情感评估变量，同时融入网络文本的表情特征和词频特征用以构建贝叶斯网络。该方法可处理较为随意的网络文本，同时依据认知方法的原理可获取文本的隐性情感表达。

本发明以贝叶斯网络作为最终的情感生成方法，可减少文本情感评估变量缺失时对情感生成的误差，同时以概率方式判定最终生成的情感，具有较强的可解释性与可分析性。

如图2所示，本发明包含3个主要模块：

1)数据准备模块：该模块主要包含数据的预处理部分，如分词、词性分析、依存句法分析等；以及情感词典和常识知识库的构建部分；

2)情感生成贝叶斯网络构建模块：该模块包含情感评估变量提取与赋值以及贝叶斯网络的结构确立与参数学习，是本发明的核心部分；

3)情感生成模块：该模块对上述模块完成结果的应用，即从输入一条文本到生成文本情感的过程。

实施例1：

文本：//@微博搞笑排行榜：鼓浪屿真不错，咱们一起去旅行！[欢欣鼓舞]

1)准备训练方法所需的文本数据集S共一万五千条，按喜欢、幸福、恐惧、生气、厌恶、悲伤、惊讶共七种情感对文本进行标注。

2)对文本数据集S使用哈工大语言云技术平台进行分析、词性标注、依存句法分析、语义依存关系等处理。

3)使用上文步骤3中提取的构建贝叶斯网络所用的情感评估变量。

4)根据网络文本的特性，确定基于表情符号的情感评估变量<exp、 elike、ehappiness、efear、esurprise、eanger、edisgust、esadness>, 其中exp表示是否有表情符号，其他变量表示对应的情感类型无为1，有为2；确定基于统计词频情感评估变量<welike、whappiness、wfear、wsurprise、wanger、wdisgust、wsadness>表示对应的情感类型无为 1，有为2。

5)按照上文步骤5和步骤6分别构建情感知识库和常识知识库。

6)依照上文步骤7所示的情感评估变量赋值方法对数据集S的数据预处理结果逐条进行情绪评估变量的赋值。

7)根据情感认知方法的情感生成规则，绘制贝叶斯网络结构，如图3所示。

并使用步骤8中所示的EM方法对情感生成贝叶斯网络进行参数学习。至此，已完成情感生成方法的构建工作。

8)对测试文本进行数据预处理，先提取表情“[欢欣鼓舞]”，在对文本做分词、词性标注等一系列分析，结果如图4所示。

9)情感评估变量赋值，文本包含表情，因而查找表情库匹配对应情感，表情变量赋值结果为：<exp、elike、ehappiness、efear、 eanger、edisgust、esadness、esurprise>←<2 1 2 1 1 1 2 1>；按照分词结果，以此累计每个词对应的情感，取最高的两类，对词频变量赋值结果为：<wlike、whappiness、wfear、wanger、wdisgust、 wsadness、wsurprise>←<1 2 1 1 2 1 1>；根据步骤六，使用情感词典和常识知识库对情感认知变量赋值，结果为：<words、rel、au_obj、 au_eve、sta_eve、time>←<2 1 1 1 1 2>。

10)将情感评估变量<2 1 2 1 1 1 2 11 2 1 1 2 1 12 1 1 1 1 2>输入训练好的贝叶斯网络，使用联合推理后得到每个情感为正的概率<(like 0.5362)、(happiness0.7971)、(surprise 0.0021)、(anger 0.0001)、(fear 0)、(disgust 0)、(sadness 0)>，取最高两类，最终生成情感为happiness、like。

本实例取自微博网络文本，包含表情特征，最终生成情感与文本表述情感基本一致。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于概率推理与情感认知的文本细粒度情感生成方法，其特征在于，包括以下步骤：

步骤2：对文本数据集进行分析、词性标注、依存句法分析、语义依存关系处理；

步骤4：根据网络文本的特性，添加基于表情符号和词频的情感评估变量；

步骤5：构建情感知识库；

步骤6：构建常识知识库；

步骤8：学习情感生成贝叶斯网络的网络结构；

步骤9，使用EM方法对情感生成贝叶斯网络进行参数学习；

2.根据权利要求1所述的文本细粒度情感生成方法，其特征在于：在步骤1中，情感认知方法OCC方法对应情感有22种，分析后选用喜欢、幸福、恐惧、生气、厌恶、悲伤、惊讶共七种情感对文本进行标注；在步骤2中对文本数据集使用哈工大语言云技术平台进行处理；处理后的文本结构定义为S＝{w₁,w₂,…w_N},w_i表示一条文本中的第i个词语对象；词语对象w_i＝＜cont,pos,ne,arg,rel,par,semRel,semPar＞，其中cont表示词语内容；pos代表词性；ne为命名实体信息；arg＝＜type,beg,end＞表示序号从beg至end构成的词组的语义角色类别为type；rel表示依存句法关系，par为关系指向的父节点词序号；semRel表示语义依存关系，semPar为关系指向的父节点词序号。

3.根据权利要求2所述的文本细粒度情感生成方法，其特征在于：步骤3中的情感评估变量如下：

情感评估变量

4.根据权利要求3所述的文本细粒度情感生成方法，其特征在于：所述步骤4中添加基于表情符号的情感评估变量<exp、elike、ehappiness、efear、esurprise、eanger、edisgust、esadness>,其中exp表示是否有表情符号，其他变量表示对应的情感类型无为1，有为2；添加基于统计词频情感评估变量<welike、whappiness、wfear、wsurprise、wanger、wdisgust、wsadness>表示对应的情感类型无为1，有为2。

5.根据权利要求4所述的文本细粒度情感生成方法，其特征在于：步骤5中的情感知识库是从HowNet情感极性词典、大连理工大学情感词汇本体库、清华大学极性词典、台湾大学情感词典共个中文情感词典中，归纳整理去除了低频生僻词，得到基础情感极性词典包含正向情感词15630个，负向情感词18807个。

6.根据权利要求5所述的文本细粒度情感生成方法，其特征在于：步骤6中的构建常识知识库是提取HowNet知识库中Entity类作为基础object词典；再使用完整的HowNet知识库，通过分析其概念结构，完善其他常识词典。

7.根据权利要求6所述的文本细粒度情感生成方法，其特征在于：常识知识库具体描述如下：

常识词典具体描述

8.根据权利要求7所述的文本细粒度情感生成方法，其特征在于：对步骤3和步骤4提取的情感评估变量进行赋值：

1)words，根据文本S中是否存在谓语关系<SBV、VOB、ADV、POB、IOB、FOB、DBL〉，确定该文本是否为独词句；

5)au_eve,若事件相关主体rel＝1，au_eve的属性值等同于sta_eve；否则，通过分析文本中除相关主体所在的子句，以及插入语的情感极性确定au_eve的属性值；

7)<exp、elike、ehappiness、efear、esurprise、eanger、edisgust、esadness>,若文本中不存在表情，所有变量取1；若文本含有表情，则exp＝2，对每个表情对应情感叠加取值最高的两个情感变量赋值为2，其他为1；

8)<welike、whappiness、wfear、wsurprise、wanger、wdisgust、wsadness>根据标注数据集，通过计算每个词在每类情感类别下的词频，去掉模糊度较高的词后对每个词赋予2个情感类别；在依此对文本中对每个词对应情感叠加取值最高的两个情感变量赋值为2，其他为1。

9.根据权利要求8所述的文本细粒度情感生成方法，其特征在于：贝叶斯网络结构中序号和变量的对应关系为：exp＝1；elike＝2；ehappiness＝3；efear＝4；eanger＝5；edisgust＝6；esadness＝7；esurprise＝8；wlike＝9；whappiness＝10；wfear＝11；wanger＝12；wdisgust＝13；wsadness＝14；wsurprise＝15；words＝16；rel＝17；au_obj＝18；au_eve＝19；sta_eve＝10；time＝21；like＝22；happiness＝23；fear＝24；anger＝25；disgust＝26；sadness＝27；surprise＝28。

10.根据权利要求9所述的文本细粒度情感生成方法，其特征在于：步骤9中的参数学习过程为：

2)初始化t＝0；

3)对H中完整的数据集Y计算作为初始值；

4)对缺失数据集D计算：

5)当时：

t＝t+1

6)将参数放入条件概率表CPT；

其中，t为迭代次数；θ为S中节点的条件概率，表示为Dg表示第g个样本实例，共有N个；Xg表第g个样本示例中缺少的变量；V表示S中所有的变量(节点){x₁,x₂,x₃…x_n},k_r代表x_i的第r个取值,共有M_i个；π(x_i)表示x_i的父集。