CN108804417A

CN108804417A - 一种基于特定领域情感词的文档级情感分析方法

Info

Publication number: CN108804417A
Application number: CN201810485193.2A
Authority: CN
Inventors: 田刚; 王芳; 孙承爱; 李堂军; 任艳伟
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-11-13
Anticipated expiration: 2038-05-21
Also published as: CN108804417B

Abstract

本发明提供了一种基于特定领域情感词的文档级情感分析方法，按如下顺序进行：收集文档数据集，使用Skip‑gram词向量模型训练原型单词的集合，得到每个原型单词对应的词向量，并利用注意力机制对词向量进行重组，捕获词向量中非连续词之间的关系；分别使用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词和句子进行合成，形成文档向量特征；利用Skip‑gram词向量模型的领域情感词典，生成情感特征向量；最后，利用线性结合层将文档向量特征和情感特征向量相结合，形成有利于文档分类的文档特征。情感分析被广泛应用于产品分析、商品推荐、股票价格趋势预测等，本发明提供的方法能准确、高效地对文档进行情感分析，具有很大的商业价值。

Description

一种基于特定领域情感词的文档级情感分析方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于特定领域情感词的文档级情感分析方法。

背景技术

情感分析，也被称为观点挖掘或意见挖掘，是自然语言处理和统计语言学中的一个基本任务。情感分析对理解用户在社交网络或产品评论中产生的观点信息很重要，可以为商家和其他用户提供决策支持；在舆情监测中，可以及时了解民众对突发事件的态度，引导舆论趋势等，已经引起了来自工业界和学术界的广泛的注意力。情感分析按照粒度划分，分为词级、句子级、文档级。相比词级、句子级，文档级的情感分析需要考虑文档的整体结构(文档由句子组成，句子由词组成)，并且提取文档复杂的特征，使得这一研究变得复杂。现有的研究忽视了非连续词之间的关系，包括句法特征(有一定距离的短语结构)和语义特征(“its”指代的对象)；有的研究没有充分利用情感词典等先验知识，以丰富文档的情感特征，然而情感词典在情感分析任务中扮演着重要的角色，情感词是情感分析重要的基础，有必要建立一个准确、高覆盖率的情感词典，但相比特定领域词典，这些情感词典对于情感分析的性能较差，原因在于特定领域的情感术语可能不会在通用词典中出现，而且同一个术语在特定领域和通用词典中在不同的情形下含义也不同，因此，构建特定领域的情感词典很有必要。总结以往的研究发现，在为文档进行建模时，通常只考虑了文档表示或情感词典，没有将两者结合起来，使得提取的文档特征比较单一。

因此，为了高效地对文档进行情感分类，既要对词与句子进行建模以产生文档表示，又要考虑词的情感特征，充分利用线性结合层将这两部分有效结合，组合形成丰富的文档分类特征，是现在自然语言处理领域中一个亟需解决的关键技术问题。

发明内容

针对现有的文档级情感分析方法比较单一，为了能准确地对文档进行情感分析，本发明提供了一种基于特定领域情感词的文档级情感分析方法。

本发明采用以下的技术方案：

一种基于特定领域情感词的文档级情感分析方法，包括以下步骤：

步骤1：收集文档数据集，得到原型单词的集合，使用Skip-gram词向量模型训练原型单词的集合，得到每个原型单词对应的词向量，并利用注意力机制对词向量进行重组，以捕获词向量中非连续词之间的关系；

文档由句子组成，句子由词组成，利用非对称卷积神经网络对词进行合成，利用基于注意力机制的双向门循环神经网络对句子进行合成，最终形成文档向量特征；

步骤2：建立一种基于Skip-gram词向量模型的领域情感词典，以生成情感特征向量；

步骤3：利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征，并且通过softmax函数接收文档张量，最后输出文档的情感类别。

优选地，步骤1中所述的文档数据集来源于学术研究中使用的语料数据。

优选地，所述步骤1中的注意力机制使用的是self-Attention机制，self-Attention机制能为每个词和句子建立一个上下文向量。

优选地，所述步骤1，具体实现包括以下子步骤：

步骤1.1：使用self-attention机制重组词向量，self-attention机制为每个单词创建一个上下文向量，然后与原始向量相结合形成一个新的词向量；

步骤1.2：利用非对称卷积神经网络对词进行合成形成句子向量，利用双向门循环神经网络对句子进行合成形成文档向量，最终产生文档向量特征，同时，加入一层注意力机制，突出对文档分类重要的句子。

优选地，所述步骤1.2，具体包括以下子步骤：

步骤1.2.1：一个句子包括n个词{w₁,w₂,...w_n}，令x_i∈R^d是第i个词的词向量，把l_j当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码，其中j∈(1,2,3)；非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力，因此，使用非对称卷积神经网络，把l_j×d个卷积分成1×d和l_j×1个卷积，对于这两部分，分别利用滤波器对输入向量进行卷积，得到对应的feature map，利用频道对feature map进行切分，最终得到句子向量，具体过程如下：

首先，对于1×d卷积，我们使用卷积滤波器对输入向量进行卷积，特征的计算过程如公式(1)所示：

其中，m_i代表词向量x_i与词级上下文向量k_i的结合向量，i∈R，j∈(1,2,3)，表示矩阵的内积操作，b是卷积执行器的偏移量，f代表非线性函数，我们使用的是ReLU函数，特征平面nⁱ计算过程如(2)所示：

对于l_j×1卷积，我们使用滤波器对上面的计算结果nⁱ进行卷积操作，新的特征和新的特征平面oⁱ的计算如(3)和(4)所示：

其中，代表序列n-l_j+1的特征；

卷积操作之后，k-max池化操作被应用到特征平面中去选择最重要的特征，然而，双向门循环神经网络擅长处理序列数据，池化操作会切断序列信息，因此，采用非对称卷积神经网络的思想，通过频道切分特征平面，得到了新的特征结合得到最终的输出特征，如公式(5)所示：

步骤1.2.2：使用双向门循环神经网络和self-attention机制去获得文档向量，步骤1.2.1的输出作为这个模型的输入；

使用双向门循环神经网络对句子进行编码，计算过程如公式(6)和(7)所示：

将和结合得到丰富的数据信息，包括来自两个方向的历史和未来信息，

值得注意的是，在文档级情感分析任务中，并非所有的句子对情感分类都发挥着重要的作用，为了强调出对分类重要的句子，引入self-attention机制，计算过程如公式(8)-(11)：

y_i＝tanh(W_qf_i+B) (8)；

Z_i＝innerproduct(y_i,r_i) (9)；

其中，B表示偏移量，W_q表示权重，是注意力特征矩阵，r_i是句子级上下文向量，能在训练过程中被学习得到，h^*即文档向量特征。

优选地，所述步骤2，具体包括以下子步骤：

步骤2.1：计算领域语料中每个词的tf-idf值，如公式(12)所示：

其中，n代表某类c在文本集合中含有特定词语t的文本数量，m代表在文本中含有词语t的文本数量，S代表语料集中包含的文本数量；

之后，得到一个词集，如公式(13)所示：

D＝{(d₁,tf-idf'₁),(d₂,tf-idf'₂),...,(d_t,tf-idf'_t)}(13)；

其中，d_t代表文档中的每个词，t的范围是t∈R^d，idf_t'代表改进的反文档频率，tf代表词频；

步骤2.2：用词频统计筛选掉低频的词，与情感词典结合产生情感词，出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词，集合为：N＝{(n₁,wk₁),(n₂,wk₂),...,(n_j,wk_j)}，

其中，n_i是情感种子词，wk_i是n_i对应的情感权重向量；

步骤2.3：通过特定领域的语义相似性衡量来计算未知情感词d_i(i≤t)和情感种子词n_i的相似性，包括基于Skip-gram词向量模型和词的相似性，Si_i,j＝(S',SS”)；Si_i,j代表词的相似性和Skip-gram相似性的结合；

其中，d_i∈D'，n_i∈N，D'是D的子集，表示未知情感的词集，S'表示Skip-gram相似性，S”表示词的相似性；

为了更清楚地表示每个词与情感词的两种相似性，我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q，如公式(14)所示：

其中，d'代表未知情感的词，n_n代表种子情感词。

步骤2.4：将Si_i,j与情感权重向量进行相乘，得到e_i，e_i为情感特征向量，如公式(15)所示：

优选地，所述步骤3，具体包括以下子步骤：

步骤3.1：文档向量特征与情感特征向量结合得到文档特征O，如公式(16)所示：

步骤3.2：添加一个线性层将文档向量特征转换成真值向量，它的长度是类别C，然后使用一个softmax函数将真值转化为条件概率，计算过程如公式(17)所示：

y＝soft max(W_oO+b)(17)

其中，W_o是权重，b是偏移。

本发明具有的有益效果是：

(1)通过建立特定领域的情感词典，弥补了通用情感词典缺乏领域专有词的缺陷，同时构建领域词典的算法还应用于词汇的情感特征向量生成，不受不同领域词汇差异性的约束，具有通用性；

(2)通过在词向量和句子向量中分别加入注意力机制，使得Skip-gram词向量模型在训练过程中高度关注对分类重要的信息，同时减少了Skip-gram词向量模型的参数；

(3)本方法利用线性层有效地将文档向量特征和情感特征向量相结合，形成丰富的文档特征，有利于对文档进行情感类别的分类；

(4)本方法采用自下而上的形式进行模型构建，不仅适用于情感分析，还适用于文本分类等任务，具有广泛的适用性。

附图说明

图1为基于特定领域情感词的文档级情感分析的流程示意图。

图2为文档特征提取的示意图。

图3为构建特定领域词典的流程示意图。

图4为注意力可视化图。

图5为使用领域情感词典和没有使用领域情感词典的实验结果分析图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1至图3，一种基于特定领域情感词的文档级情感分析方法，包括以下步骤：

步骤1：收集文档数据集，得到原型单词的集合，使用Skip-gram词向量模型训练原型单词的集合，得到每个原型单词对应的词向量，并利用注意力机制对词向量进行重组，以捕获词向量中非连续词之间的关系。

其中，文档数据集来源于学术研究中使用的语料数据。

文档由句子组成，句子由词组成，利用非对称卷积神经网络对词进行合成，利用基于注意力机制的双向门循环神经网络对句子进行合成，最终形成文档向量特征。

注意力机制使用的是self-Attention机制，self-Attention机制能为每个词和句子建立一个上下文向量。

具体实现包括以下子步骤：

步骤1.2，具体包括以下子步骤：

其中，代表序列n-l_j+1的特征；

y_i＝tanh(W_qf_i+B) (8)；

Z_i＝innerproduct(y_i,r_i) (9)；

步骤2：建立一种基于Skip-gram词向量模型的领域情感词典，以生成情感特征向量，从而丰富文档的特征；

具体包括以下子步骤：

步骤2.1：计算领域语料中每个词的tf-idf值，如公式(12)所示：

之后，得到一个词集，如公式(13)所示：

D＝{(d₁,tf-idf'₁),(d₂,tf-idf'₂),...,(d_t,tf-idf'_t)}(13)；

其中，n_i是情感种子词，wk_i是n_i对应的情感权重向量；

其中，d'代表未知情感的词，n_n代表种子情感词。

具体包括以下子步骤：

y＝soft max(W_oO+b)(17)。

其中，W_o是权重，b是偏移。

实施例1

采用电影和餐馆两大领域数据集，进行基于特定领域情感词的文档级情感分析为实施例，详细描述本发明的实施过程。

本方法采用的数据集来自一篇论文：用门循环神经网络对文档建模的情感分析，作者是唐都钰等人，论文发表时间是2015年，所使用的数据集，如表1所示。

表1数据集

在四个大规模的数据集上评估本发明的有效性，使用80％的数据进行训练，10％的数据进行验证，剩下的10％的数据当做开发集，评估标准是分类准确率，公式如(18)所示：

其中，TP为将正类预测为正类的个数，TN为将正类预测为负类的个数，FP为将负类预测为正类的个数，FN为将负类预测为负类的个数。

首先，执行步骤1，收集文档数据集，得到原型单词的集合，使用Skip-gram词向量模型训练原型单词的集合，得到每个原型单词对应的词向量，并利用注意力机制对词向量进行重组，以捕获词向量中非连续词之间的关系。

图4为注意力可视化图，可以发现形容词被赋予很高的注意力权重，比如：“wasteful”、“wary”,而一些词，比如“this”、“of”却有较低的值，因为它们对文档分类不重要，这表明了注意力机制的作用。

然后，利用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词与句子进行合成，形成文档向量特征；

接着，执行步骤2，建立一种基于Skip-gram词向量模型的领域情感词典，以生成情感特征向量，从而丰富文档的特征。建立领域词典的算法如表2所示：

表2构建领域情感词典的算法

最后，执行步骤3，利用线性结合层得到的文档向量特征与生成的情感特征向量相结合形成文档特征，并且通过softmax函数接收文档张量，最后输出文档的情感类别。

在数据集上，证明了本方法的准确率相比之前的方法有很大的提升，如表2所示。

表2不同数据集下的准确率

我们验证了领域情感词典在情感分析中的作用，如图5所示，可以看出，引入领域情感词典的模型的准确率有很大的提高。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于特定领域情感词的文档级情感分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法，其特征在于，步骤1中所述的文档数据集来源于学术研究中使用的语料数据。

3.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法，其特征在于，所述步骤1中的注意力机制使用的是self-Attention机制，self-Attention机制能为每个词和句子建立一个上下文向量。

4.根据权利要求3所述的一种基于特定领域情感词的文档级情感分析方法，其特征在于，所述步骤1，具体实现包括以下子步骤：

5.根据权利要求4所述的一种基于特定领域情感词的文档级情感分析方法，其特征在于，所述步骤1.2，具体包括以下子步骤：

其中，代表序列n-l_j+1的特征；

y_i＝tanh(W_qf_i+B) (8)；

Z_i＝innerproduct(y_i,r_i) (9)；

6.根据权利要求5所述的一种基于特定领域情感词的文档级情感分析方法，其特征在于，所述步骤2，具体包括以下子步骤：

步骤2.1：计算领域语料中每个词的tf-idf值，如公式(12)所示：

之后，得到一个词集，如公式(13)所示：

D＝{(d₁,tf-idf'₁),(d₂,tf-idf'₂),...,(d_t,tf-idf'_t)} (13)；

其中，n_i是情感种子词，wk_i是n_i对应的情感权重向量；

其中，d'代表未知情感的词，n_n代表种子情感词。

7.根据权利要求6所述的一种基于特定领域情感词的文档级情感分析方法，其特征在于，所述步骤3，具体包括以下子步骤：

y＝softmax(W_oO+b) (17)

其中，W_o是权重，b是偏移。