CN108519976A

CN108519976A - 基于神经网络生成大规模情感词典的方法

Info

Publication number: CN108519976A
Application number: CN201810297088.6A
Authority: CN
Inventors: 王黎明; 李永帅; 柴玉梅; 张卓; 韩慧; 徐源音; 韩飞
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-11

Abstract

本发明涉及基于神经网络生成大规模情感词典的方法，包括以下步骤：通过爬虫爬取数据并处理后生成数据词典D；通过改进的连续词袋方法进行训练情感词向量，得到同时具有句法结构信息和情感信息的词表示；对情感词向量进行正规化；利用正规化后的情感词向量进行双向长短期记忆神经网络训练；采用损失函数交叉熵作为目标函数；经过训练出来的双向LSTM神经网络分类器，进一步利用测试数据获得大规模情感词典。本发明利用改进的连续型词袋方法训练出一套具有高质量的情感词的向量表示，并通过长短期记忆神经网络不仅考虑到句法结构信息还包含了语义信息，从而获取更高的情感词获取质量以及增大了情感词的数量。

Description

基于神经网络生成大规模情感词典的方法

技术领域

本发明涉及到情感分析、机器学习和数据挖掘技术领域，具体涉及到基于神经网络生成大规模情感词典的方法。

背景技术

目前的情感词典学习算法主要就是利用传播算法去估计情感词的分值，这种方法利用WordNet词典的句法语境或者语言信息去计算两个词语之间的相似性，但是这种信息都不适合构建大规模的情感词典，原因就是WordNet并不能全面覆盖微博上一些通俗口语化的表达，这样会导致一些情感词的遗漏。

情感词典质量的好坏一般直接影响着一个对文本情感分析的结果的好坏，情感词典可以手工标注训练数据，而且可以大大提高在情感分类任务中的准确率。所谓情感词就是带有情感色彩的词或词组，通常含有某种极性，一般为正向的情感词和负向的情感词。正向情感词如漂亮、高兴、幸福等。负向情感词如可怕、颓废、伤心。本方法利用了人工神经网络，人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学方法。人工神经网络通常呈现为相互连接的“神经元”，它可以从输入的计算值，并且能够机器学习以及模式识别由于它们的自适应性质的系统。利用这些概念我们可以很好的建立一个基于一个长短期记忆神经网络的一个情感词分类器。

然而目前情感词典在情感分析人物中存在以下几点不足。词典规模太小。很多词典的规模都在几千甚至几百词，不能很好的涵盖网络用语的情感信息。词典只包含词语，没有词组的情况。许多词被独立起来是没有情感极性的，但当几个词组合到一块的时候就能表达出情感极性，动态极性词和不同的词组搭配会出现不同的情感极性，没有涵盖流行词汇。

发明内容

针对现有技术的缺陷，本发明提出了基于神经网络生成大规模情感词典的方法，目的在于利用改进的连续型词袋方法训练出一套具有高质量的情感词的向量表示，在情感词向量正规化后，并通过长短期记忆神经网络考虑了情感词的上下文关系，同时还考虑了情感词的语义关系，从而获取更高的情感词获取质量以及增大了情感词的数量。本发明提出了用基于改进的CBOW方法训练出情感词向量，并用双向 LSTM神经网络对情感词进行分类，既考虑了情感词的上下文关系同时还考虑了情感词的语义关系。

为实现上述目的，本发明提出基于神经网络生成大规模情感词典的方法，包括以下步骤：

基于神经网络生成大规模情感词典的方法，其特征在于，包括以下步骤：

步骤1，通过爬虫爬取数据并处理后生成相应的数据词典D；

步骤2，通过连续词袋方法进行训练情感词向量，输入层是预测词w_t的2m个上下文词w_t-m w_t-(m-1).....w_t+m，那么经过V_n×|V|矩阵转换，由one-hot转化为Word Embedding进一步描述，转化后的词向量 v_i＝Vw_i,i∈{t-m,....,t+m}，作为整个网络的输入的一部分其中m＝2；

步骤3，输入情感信息方法假设情感语句s_j中词语的数量为C，那么在知道一个情感极性句子的情况下，作为整个网络的输入；

步骤4，约束句法结构信息和情感信息，并得到同时具有句法结构信息和情感信息的词表示；

步骤5，在情感词典扩展前对情感词向量表示进行正规化；

步骤6，利用种子情感微博进行双向长短期记忆神经网络训练，采用损失函数交叉熵作为目标函数；

步骤7，经过训练出来的双向LSTM神经网络分类器，利用测试数据获得情感词典。

进一步的，所述爬虫爬取新浪微博得到所得数据，去除重复微博，字数少于8个字的微博和外文微博；并利用哈工大语言云平台把所得的数据进行分词，并且把所有的符号、不符合文本内容去除，并生成相应数据词典D。

进一步的，在所述步骤4中，用最小化来约束加入句法结构信息；其中，y_i＝P(w_i|w_i-2,w_i-1,w_i+1,w_i+2)，w_t为预测的词语；用最小化来约束情感信息，使其情感词具有情感的向量表示，其中g_j＝p(h_j|s_j)，s_j为语料中的句子；最后结合前面的两个最小化Γ＝β·Γ_w+(1-β)Γ_s来得到，同时具有句法结构信息和情感信息的词表示，其中β为两者之间的权重参数。

进一步的，在步骤5中，借助哈工大同义词词林，并利用公式(7) 进行情感词向量正规化；

其中，m_k表示字符k在情感词向量表示中所代表的向量，n_k表示字符k在训练集中出现的次数，L表示字符k的所有近义词集合。

进一步的，所述步骤6中的双向长短期记忆神经网络训练方法为：

在输出层有三个节点，一个是positive节点，一个是negative 节点，另外一个是neutral节点；我们分别用[1,0,0]、[0,1,0]、 [0,0,1]分别代表该词汇的输出结果为褒义、贬义、中性；其中x_i表示第i个节点输出的值，j∈{1,2,3}；在最后一层的输出做了一个softmax，通过这一步求取输出属于某一类的概率，如公式(8)：

所述步骤6中的双向长短期记忆神经网络采用损失函数交叉熵作为目标函数，采用公式(9)：

其中：y_ti指代在t时刻实际的标签中第i个值，pre_ti指代在t时刻预测的标签中第i个值。

进一步的，经过训练出来的双向LSTM神经网络分类器，利用测试数据获得情感词典；如果该词汇所输出的标签为[1,0,0]，那么判定为褒义情感词，如果该词汇所输出的标签为[0,1,0]，那么判定为贬义情感词，如果该词汇所输出的标签为[0,0,1]，那么判定为中性词，最后得到大规模情感词典(WB-Lex)。

有益效果

1)词典规模很大。很多词典的规模都在几千甚至几百词，不能很好的涵盖网络用语的情感信息，而本方法构建的词典情感词数量达上万，情感词质量更好。

2)词典不仅包含词语还包含词组的。许多词被独立起来是没有情感极性的，但当几个词组合到一块的时候就能表达出情感极性，比如，“又来”，“怎么回事”。本词典很好的解决了本问题的产生。

3)对于动态极性词，不同的词组其极性是不一样的。动态极性词和不同的词组搭配会出现不同的情感极性，比如，油耗高和效率高有着相反的极性。

4)涵盖流行词汇。比如，你脑子“瓦特”了，“凉凉”等词汇，本词典可收录大量的流行词汇。

附图说明

图1是本发明的系统流程图；

图2是本发明的改进的连续词袋方法示意图；

图3是本发明的双向长短期记忆神经网络示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的方法详细如下：

步骤1，通过爬虫爬取新浪微博得到所得数据，去除重复微博，字数少于8个字的微博和外文微博等。利用哈工大语言云平台把所得的数据进行分词，并且把所有的符号、不符合文本内容去除，并生成相应数据词典D，取词向量维数为70并以正太分布方式初始化数据。

步骤2，通过连续词袋方法进行训练情感词向量，输入层是预测词w_t的2m个上下文词w_t-m w_t-(m-1).....w_t+m，那么经过矩阵转V_n×|V|换，由one-hot转化为word embedding进一步描述，转化后的词向量 v_i＝Vw_i,i∈{t-m,....,t+m}，作为整个网络的输入的一部分我们规定取m＝2。

步骤3，输入情感信息方法假设情感语句s_j中词语的数量为C，那么在知道一个情感极性句子的情况下，作为整个网络的输入。

步骤4，用最小化来约束加入句法结构信息；其中， y_i＝P(w_i|w_i-2,w_i-1,w_i+1,w_i+2)，w_t为预测的词语。用最小化来约束情感信息，使其情感词具有情感的向量表示，其中g_j＝p(h_j|s_j)，s_j为语料中的句子。

如果s_j为褒义那么其分布为[1,0],如果s_j为贬义那么其分布为[0,1]。

那么：

句法结构信息按连续词袋方法进行约束，而我们加入的情感信息约束用以下公式约束，在每次遍历一段情感文本时我们对其文本中词向量进行情感信息调整。

e＝e+η(h_j-p)·H (3)

H＝H+η(h_j-p)·x_s (4)

在得到词向量e变化时，我们对每个词向量按(5)公式进行更新：

V(u):＝V(u)+(1-β)e (5)

其中：e代表在词向量变化大小，V(u)表示词汇u的向量,

最后结合前面的两个最小化Γ＝β·Γ_w+(1-β)Γ_s来得到同时具有句法结构信息和情感信息的词表示，其中β为两者之间的权重参数。其中更新句法结构时其形式和连续型词袋方法相似。

步骤5，情感词典扩展前对情感词向量表示进行正规化，从而进一步提高词典扩展的质量，在此过程中借助哈工大同义词词林，因为哈工大是国内算是比较完善的同义词数据集合了，利用下面公式(7) 进行情感词向量正规化。

对于步骤5进行情感词正规化的过程：

从获取褒义微博数据和贬义微博数据中词汇排序，人工挑选选出出现的总次数大于10的情感种子词。

借助哈工大同义词词林来进行情感词表示正规化。因为哈工大同义词词林(扩展版)提供了5层编码，也就是5层分类，利用其第四层分类对褒义词和贬义词进行扩展，遍历褒义词和贬义词，把含有种子词的第四层类别里的词全部分为该种子词类别。

调用公式(7)进行正规化，最后得到需要的情感词向量。

步骤6，利用种子情感微博进行双向长短期记忆神经网络训练，在输出层有三个节点，一个是positive节点，一个是negative节点，另外一个是neutral节点。我们分别用[1,0,0]、[0,1,0]、[0,0,1] 分别代表该词汇的输出结果为褒义、贬义、中性；其中x_i表示第i个节点输出的值，j∈{1,2,3}；在最后一层的输出我们做了一个softmax，通过这一步求取输出属于某一类的概率，如公式(8)：

然后我们采用损失函数交叉熵作为目标函数，如公式(9)所示：

步骤7，经过训练出来的双向LSTM神经网络分类器，利用测试数据获得想要的情感词典，如果该词汇所输出的标签为[1,0,0]，那么判定为褒义情感词，如果该词汇所输出的标签为[0,1,0]，那么判定为贬义情感词，如果该词汇所输出的标签为[0,0,1]，那么判定为中性词，最后得到想要的大规模情感词典(WB-Lex)。

本发明以长短期记忆神经网络作为情感词分类器。通过改进的连续型词袋方法对已有的具有情感倾向的微博数据训练，对每个词不仅加入了句法结构信息而且还加入了情感信息，可以更好的作为长短期记忆神经网络的训练数据，从而更能优化分类的效果，使产生出来的情感词也考虑到了语义信息，从而提高情感词质量。

在改进的连续型词袋方法中，加入了句子的情感信息，产生出所需要的的情感词向量表示，在具有情感信息的微博中进行最大似然化，同时使词向量表示不仅具有句法结构而且还有情感信息在里面，为长短期记忆神经网络提供了对情感词的分类准确性的基础。长短期记忆神经网络利用种子情感微博不仅考虑到词的句法结构信息还融合了其语义信息，使词汇的表现力更加丰富更具有准确性。

如图2所示，本发明包含了三个主要模块：

(1)改进的连续型词袋方法：产生具有句法结构信息又有情感信息的词向量；

(2)种子情感微博获取：通过北京大学发布的情感资源-情感种子字典和哈工大同义词词林获取种子情感微博；

(3)长短期记忆神经分类器：负责把具有句法结构信息和情感信息的词向量作为词基础，在获取种子情感微博后作为训练基础单位作为输入，训练长短期记忆神经网络从而融合语义信息使之具有情感词分类的功能。

实施例1:

表1初始化字典D

美丽	喜欢	放心	悲伤	...
					1	0	0	0	...
0	1	0	0	...
					0	0	1	0	...
0	0	0	1	...
					...	...	...	...

表2正态分布词向量

美丽	喜欢	放心	悲伤	...
					-0.5788147	0.6152149	0.03204051	-1.467552	...
0.925568	0.2535918	-0.8452936	-0.4617254	...
					0.4648884	-0.1693218	-1.4038	1.235173	...
0.3540596	0.5239199	-0.3235289	-1.053025	...
					...	...	...	...

2.取m＝2，那么得到窗口大小为5，比如当中心词为愤怒时，愤怒的词向量V愤怒＝{0.2343297,-1.893236,0.7293165,.......}

3.当我们计算句子“今天和朋友一起爬山很高兴，一路上我们看到了许多美丽的风景。”计算情感微博整个句子所表示的79维词向量为S1＝{1.656379,-2.42656,-0.856347,........}

4.经过不断迭代最终收敛，得到我们想要的具有情感信息的词向量表示如下表3：

表3

美丽	喜欢	放心	悲伤	...
					-1.26006	-3.634735	-0.8590524	-1.478481	...
0.4920519	0.2037901	1.561656	-3.154898	...
					-5.80345	-4.592091	1.849442	-0.1924206	...
2.179347	-2.227239	-2.411208	0.5265604	...
					...	...	...	...

5.情感词正规化结果如表4：

表4

6.在输出层进行softmax计算，得到各个节点所对应的概率。

7.通过约束损失函数交叉熵作为目标函数，得到双向长短期记忆神经网络分类器，通过测试文本，最终得到扩展的大规模情感词典 (WB-Lex)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于神经网络生成大规模情感词典的方法，其特征在于，包括以下步骤：

步骤1，通过爬虫爬取数据并处理后生成相应的数据词典D；

步骤2，通过连续词袋方法进行训练情感词向量，输入层是预测词w_t的2m个上下文词w_t-mw_t-(m-1) ..... w_t+m，那么经过V_n×|V|矩阵转换，由one-hot转化为Word Embedding进一步描述，转化后的词向量v_i＝Vw_i,i∈{t-m,....,t+m}，作为整个网络的输入的一部分其中m＝2；

步骤5，在情感词典扩展前对情感词向量表示进行正规化；

步骤6，利用种子情感微博进行双向长短期记忆神经网络训练，并采用损失函数交叉熵作为目标函数；

2.根据权利要求1所述的方法，其特征在于：所述步骤1中爬虫爬取数据后，去除重复数据和无效数据；把所得数据进行分词，生产数据词典D。

3.根据权利要求2所述的方法，其特征在于：所述爬虫爬取新浪微博得到所得数据，去除重复微博，字数少于8个字的微博和外文微博；并利用哈工大语言云平台把所得的数据进行分词，并且把所有的符号、不符合文本内容去除，并生成相应数据词典D。

4.根据权利要求1所述的方法，其特征在于：在所述步骤4中，用最小化来约束加入句法结构信息；其中，y_i＝P(w_i|w_i-2,w_i-1,w_i+1,w_i+2)，w_t为预测的词语；用最小化来约束情感信息，使其情感词具有情感的向量表示，其中g_j＝p(h_j|s_j)，s_j为语料中的句子；最后结合前面的两个最小化Γ＝β·Γ_w+(1-β)Γ_s来得到，同时具有句法结构信息和情感信息的词表示，其中β为两者之间的权重参数。

5.根据权利要求4所述的方法，其特征在于：在步骤5中，借助哈工大同义词词林，并利用公式(7)进行情感词向量正规化；

6.根据权利要求5所述的方法，其特征在于：所述步骤6中的双向长短期记忆神经网络训练方法为：

在输出层有三个节点，一个是positive节点，一个是negative节点，另外一个是neutral节点；我们分别用[1,0,0]、[0,1,0]、[0,0,1]分别代表该词汇的输出结果为褒义、贬义、中性；其中x_i表示第i个节点输出的值，j∈{1,2,3}；在最后一层的输出做了一个softmax，通过这一步求取输出属于某一类的概率，如公式(8)：

采用损失函数交叉熵作为目标函数，采用公式(9)：

7.根据权利要求6所述的方法，其特征在于：经过训练出来的双向LSTM神经网络分类器，利用测试数据获得情感词典；如果该词汇所输出的标签为[1,0,0]，那么判定为褒义情感词，如果该词汇所输出的标签为[0,1,0]，那么判定为贬义情感词，如果该词汇所输出的标签为[0,0,1]，那么判定为中性词，最后得到大规模情感词典(WB-Lex)。