CN108804417B - 一种基于特定领域情感词的文档级情感分析方法 - Google Patents

一种基于特定领域情感词的文档级情感分析方法 Download PDF

Info

Publication number
CN108804417B
CN108804417B CN201810485193.2A CN201810485193A CN108804417B CN 108804417 B CN108804417 B CN 108804417B CN 201810485193 A CN201810485193 A CN 201810485193A CN 108804417 B CN108804417 B CN 108804417B
Authority
CN
China
Prior art keywords
word
emotion
document
vector
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810485193.2A
Other languages
English (en)
Other versions
CN108804417A (zh
Inventor
田刚
王芳
孙承爱
李堂军
任艳伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201810485193.2A priority Critical patent/CN108804417B/zh
Publication of CN108804417A publication Critical patent/CN108804417A/zh
Application granted granted Critical
Publication of CN108804417B publication Critical patent/CN108804417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于特定领域情感词的文档级情感分析方法,按如下顺序进行:收集文档数据集,使用Skip‑gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,捕获词向量中非连续词之间的关系;分别使用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词和句子进行合成,形成文档向量特征;利用Skip‑gram词向量模型的领域情感词典,生成情感特征向量;最后,利用线性结合层将文档向量特征和情感特征向量相结合,形成有利于文档分类的文档特征。情感分析被广泛应用于产品分析、商品推荐、股票价格趋势预测等,本发明提供的方法能准确、高效地对文档进行情感分析,具有很大的商业价值。

Description

一种基于特定领域情感词的文档级情感分析方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于特定领域情感词的文档级情感分析方法。
背景技术
情感分析,也被称为观点挖掘或意见挖掘,是自然语言处理和统计语言学中的一个基本任务。情感分析对理解用户在社交网络或产品评论中产生的观点信息很重要,可以为商家和其他用户提供决策支持;在舆情监测中,可以及时了解民众对突发事件的态度,引导舆论趋势等,已经引起了来自工业界和学术界的广泛的注意力。情感分析按照粒度划分,分为词级、句子级、文档级。相比词级、句子级,文档级的情感分析需要考虑文档的整体结构(文档由句子组成,句子由词组成),并且提取文档复杂的特征,使得这一研究变得复杂。现有的研究忽视了非连续词之间的关系,包括句法特征(有一定距离的短语结构)和语义特征(“its”指代的对象);有的研究没有充分利用情感词典等先验知识,以丰富文档的情感特征,然而情感词典在情感分析任务中扮演着重要的角色,情感词是情感分析重要的基础,有必要建立一个准确、高覆盖率的情感词典,但相比特定领域词典,这些情感词典对于情感分析的性能较差,原因在于特定领域的情感术语可能不会在通用词典中出现,而且同一个术语在特定领域和通用词典中在不同的情形下含义也不同,因此,构建特定领域的情感词典很有必要。总结以往的研究发现,在为文档进行建模时,通常只考虑了文档表示或情感词典,没有将两者结合起来,使得提取的文档特征比较单一。
因此,为了高效地对文档进行情感分类,既要对词与句子进行建模以产生文档表示,又要考虑词的情感特征,充分利用线性结合层将这两部分有效结合,组合形成丰富的文档分类特征,是现在自然语言处理领域中一个亟需解决的关键技术问题。
发明内容
针对现有的文档级情感分析方法比较单一,为了能准确地对文档进行情感分析,本发明提供了一种基于特定领域情感词的文档级情感分析方法。
本发明采用以下的技术方案:
一种基于特定领域情感词的文档级情感分析方法,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系;
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征;
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量;
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
优选地,步骤1中所述的文档数据集来源于学术研究中使用的语料数据。
优选地,所述步骤1中的注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
优选地,所述步骤1,具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
优选地,所述步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
首先,对于1×d卷积,我们使用卷积滤波器
Figure BDA0001666559880000021
对输入向量进行卷积,特征
Figure BDA0001666559880000022
的计算过程如公式(1)所示:
Figure BDA0001666559880000023
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),
Figure BDA0001666559880000024
表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,我们使用的是ReLU函数,特征平面ni计算过程如(2)所示:
Figure BDA0001666559880000025
对于lj×1卷积,我们使用
Figure BDA0001666559880000031
滤波器对上面的计算结果ni进行卷积操作,新的特征
Figure BDA0001666559880000032
和新的特征平面oi的计算如(3)和(4)所示:
Figure BDA0001666559880000033
Figure BDA0001666559880000034
其中,
Figure BDA0001666559880000035
代表序列n-lj+1的特征;
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征
Figure BDA0001666559880000036
结合
Figure BDA0001666559880000037
得到最终的输出特征,如公式(5)所示:
Figure BDA0001666559880000038
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
Figure BDA0001666559880000039
Figure BDA00016665598800000310
Figure BDA00016665598800000311
Figure BDA00016665598800000312
结合得到丰富的数据信息,包括来自两个方向的历史和未来信息,
Figure BDA00016665598800000313
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
Figure BDA00016665598800000314
Figure BDA00016665598800000316
其中,B表示偏移量,Wq表示权重,
Figure BDA00016665598800000315
是注意力特征矩阵,ri是句子级上下文向量,能在训练过程中被学习得到,h*即文档向量特征。
优选地,所述步骤2,具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
Figure BDA0001666559880000041
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)}(13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di(i≤t)和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
Figure BDA0001666559880000042
其中,d'代表未知情感的词,nn代表种子情感词。
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
Figure BDA0001666559880000043
优选地,所述步骤3,具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
Figure BDA0001666559880000051
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=soft max(WoO+b)(17)
其中,Wo是权重,b是偏移。
本发明具有的有益效果是:
(1)通过建立特定领域的情感词典,弥补了通用情感词典缺乏领域专有词的缺陷,同时构建领域词典的算法还应用于词汇的情感特征向量生成,不受不同领域词汇差异性的约束,具有通用性;
(2)通过在词向量和句子向量中分别加入注意力机制,使得Skip-gram词向量模型在训练过程中高度关注对分类重要的信息,同时减少了Skip-gram词向量模型的参数;
(3)本方法利用线性层有效地将文档向量特征和情感特征向量相结合,形成丰富的文档特征,有利于对文档进行情感类别的分类;
(4)本方法采用自下而上的形式进行模型构建,不仅适用于情感分析,还适用于文本分类等任务,具有广泛的适用性。
附图说明
图1为基于特定领域情感词的文档级情感分析的流程示意图。
图2为文档特征提取的示意图。
图3为构建特定领域词典的流程示意图。
图4为注意力可视化图。
图5为使用领域情感词典和没有使用领域情感词典的实验结果分析图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1至图3,一种基于特定领域情感词的文档级情感分析方法,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系。
其中,文档数据集来源于学术研究中使用的语料数据。
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征。
注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
首先,对于1×d卷积,我们使用卷积滤波器
Figure BDA0001666559880000061
对输入向量进行卷积,特征
Figure BDA0001666559880000062
的计算过程如公式(1)所示:
Figure BDA0001666559880000063
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),
Figure BDA0001666559880000064
表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,我们使用的是ReLU函数,特征平面ni计算过程如(2)所示:
Figure BDA0001666559880000065
对于lj×1卷积,我们使用
Figure BDA0001666559880000066
滤波器对上面的计算结果ni进行卷积操作,新的特征
Figure BDA0001666559880000067
和新的特征平面oi的计算如(3)和(4)所示:
Figure BDA0001666559880000068
Figure BDA0001666559880000071
其中,
Figure BDA0001666559880000072
代表序列n-lj+1的特征;
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征
Figure BDA0001666559880000073
结合
Figure BDA0001666559880000074
得到最终的输出特征,如公式(5)所示:
Figure BDA0001666559880000075
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
Figure BDA0001666559880000076
Figure BDA0001666559880000077
Figure BDA0001666559880000078
Figure BDA0001666559880000079
结合得到丰富的数据信息,包括来自两个方向的历史和未来信息,
Figure BDA00016665598800000710
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
Figure BDA00016665598800000711
Figure BDA00016665598800000712
其中,B表示偏移量,Wq表示权重,
Figure BDA00016665598800000713
是注意力特征矩阵,ri是句子级上下文向量,能在训练过程中被学习得到,h*即文档向量特征。
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量,从而丰富文档的特征;
具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
Figure BDA0001666559880000081
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)}(13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di(i≤t)和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
Figure BDA0001666559880000082
其中,d'代表未知情感的词,nn代表种子情感词。
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
Figure BDA0001666559880000083
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
Figure BDA0001666559880000091
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=soft max(WoO+b)(17)。
其中,Wo是权重,b是偏移。
实施例1
采用电影和餐馆两大领域数据集,进行基于特定领域情感词的文档级情感分析为实施例,详细描述本发明的实施过程。
本方法采用的数据集来自一篇论文:用门循环神经网络对文档建模的情感分析,作者是唐都钰等人,论文发表时间是2015年,所使用的数据集,如表1所示。
表1数据集
Figure BDA0001666559880000092
在四个大规模的数据集上评估本发明的有效性,使用80%的数据进行训练,10%的数据进行验证,剩下的10%的数据当做开发集,评估标准是分类准确率,公式如(18)所示:
Figure BDA0001666559880000093
其中,TP为将正类预测为正类的个数,TN为将正类预测为负类的个数,FP为将负类预测为正类的个数,FN为将负类预测为负类的个数。
首先,执行步骤1,收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系。
图4为注意力可视化图,可以发现形容词被赋予很高的注意力权重,比如:“wasteful”、“wary”,而一些词,比如“this”、“of”却有较低的值,因为它们对文档分类不重要,这表明了注意力机制的作用。
然后,利用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词与句子进行合成,形成文档向量特征;
接着,执行步骤2,建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量,从而丰富文档的特征。建立领域词典的算法如表2所示:
表2构建领域情感词典的算法
Figure BDA0001666559880000101
最后,执行步骤3,利用线性结合层得到的文档向量特征与生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
在数据集上,证明了本方法的准确率相比之前的方法有很大的提升,如表2所示。
表2不同数据集下的准确率
Figure BDA0001666559880000102
我们验证了领域情感词典在情感分析中的作用,如图5所示,可以看出,引入领域情感词典的模型的准确率有很大的提高。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (6)

1.一种基于特定领域情感词的文档级情感分析方法,其特征在于,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系;
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征;
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量;
具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
Figure FDA0003337270740000011
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)} (13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di,i≤t和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
Figure FDA0003337270740000021
其中,d'代表未知情感的词,nn代表种子情感词;
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
Figure FDA0003337270740000022
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档特征,最后输出文档的情感类别。
2.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,步骤1中所述的文档数据集来源于学术研究中使用的语料数据。
3.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1中的注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
4.根据权利要求3所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1,具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
5.根据权利要求4所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
首先,对于1×d卷积,使用卷积滤波器
Figure FDA0003337270740000023
对输入向量进行卷积,特征
Figure FDA0003337270740000024
的计算过程如公式(1)所示:
Figure FDA0003337270740000031
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),
Figure FDA0003337270740000032
表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,使用的是ReLU函数,特征平面ni计算过程如(2)所示:
Figure FDA0003337270740000033
对于lj×1卷积,使用
Figure FDA0003337270740000034
滤波器对上面的计算结果ni进行卷积操作,新的特征
Figure FDA0003337270740000035
和新的特征平面oi的计算如(3)和(4)所示:
Figure FDA0003337270740000036
Figure FDA0003337270740000037
其中,
Figure FDA0003337270740000038
代表序列n-lj+1的特征;
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征
Figure FDA0003337270740000039
结合
Figure FDA00033372707400000310
得到最终的输出特征,如公式(5)所示:
Figure FDA00033372707400000311
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
Figure FDA00033372707400000312
Figure FDA00033372707400000313
Figure FDA00033372707400000314
Figure FDA00033372707400000315
结合得到丰富的数据信息,包括来自两个方向的历史和未来信息,
Figure FDA00033372707400000316
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
Figure FDA0003337270740000041
Figure FDA0003337270740000042
其中,B表示偏移量,Wq表示权重,
Figure FDA0003337270740000043
是注意力特征矩阵,ri是句子级上下文向量,能在训练过程中被学习得到,h*即文档向量特征。
6.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤3,具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
Figure FDA0003337270740000044
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=soft max(WoO+b) (17)
其中,Wo是权重,b是偏移。
CN201810485193.2A 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法 Active CN108804417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810485193.2A CN108804417B (zh) 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810485193.2A CN108804417B (zh) 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法

Publications (2)

Publication Number Publication Date
CN108804417A CN108804417A (zh) 2018-11-13
CN108804417B true CN108804417B (zh) 2022-03-15

Family

ID=64091196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810485193.2A Active CN108804417B (zh) 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法

Country Status (1)

Country Link
CN (1) CN108804417B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492108B (zh) * 2018-11-22 2020-12-15 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和系统
CN109446331B (zh) * 2018-12-07 2021-03-26 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN109684634B (zh) * 2018-12-17 2023-07-25 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN109858034B (zh) * 2019-02-25 2023-02-03 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN110222330B (zh) * 2019-04-26 2024-01-30 平安科技(深圳)有限公司 语义识别方法及装置、存储介质、计算机设备
CN111488460B (zh) * 2019-04-30 2021-10-15 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN110032646B (zh) * 2019-05-08 2022-12-30 山西财经大学 一种基于多源领域适应联合学习的跨领域文本情感分类方法
CN112069790A (zh) * 2019-05-21 2020-12-11 阿里巴巴集团控股有限公司 文本相似度识别方法、装置及电子设备
CN110321563B (zh) * 2019-06-28 2021-05-11 浙江大学 基于混合监督模型的文本情感分析方法
CN110688446B (zh) * 2019-08-23 2023-04-14 重庆兆光科技股份有限公司 一种句义数学空间表示方法、系统、介质和设备
CN110610168B (zh) * 2019-09-20 2021-10-26 合肥工业大学 一种基于注意力机制的脑电情绪识别方法
CN110688485B (zh) * 2019-09-26 2022-03-11 中国人民大学 一种基于突发事件的词向量语言模型
CN111177374B (zh) * 2019-12-13 2024-01-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统
CN111325027B (zh) * 2020-02-19 2023-04-28 东南大学 一种面向稀疏数据的个性化情感分析方法与装置
CN111950258A (zh) * 2020-08-10 2020-11-17 深圳市慧择时代科技有限公司 一种情感分类方法及装置
CN111984931B (zh) * 2020-08-20 2022-06-03 上海大学 一种社会事件网络文本的舆情计算与推演方法及系统
CN112702599B (zh) * 2020-12-24 2022-05-20 重庆理工大学 一种基于深度学习的vvc帧内快速编码方法
CN116432605B (zh) * 2023-06-14 2023-09-22 山东大学 融入先验知识的作文评语生成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016105803A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107015965A (zh) * 2017-03-24 2017-08-04 苏州希格玛科技有限公司 一种中文文本情感分析装置及方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278375A1 (en) * 2013-03-14 2014-09-18 Trinity College Dublin Methods and system for calculating affect scores in one or more documents

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016105803A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107015965A (zh) * 2017-03-24 2017-08-04 苏州希格玛科技有限公司 一种中文文本情感分析装置及方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Depeng Liang等.AC-BLSTM: Asymmetric Convolutional Bidirectional LSTM Networks for Text Classification.《https://arxiv.org/pdf/1611.01884.pdf》.2017,1-9. *
电商评论情感挖掘模型;熊乐等;《南昌大学学报》;20180225;第42卷(第1期);88-94 *

Also Published As

Publication number Publication date
CN108804417A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804417B (zh) 一种基于特定领域情感词的文档级情感分析方法
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
Qaisar Sentiment analysis of IMDb movie reviews using long short-term memory
CN107066446A (zh) 一种嵌入逻辑规则的循环神经网络文本情感分析方法
Amplayo et al. Cold-start aware user and product attention for sentiment classification
CN111368086A (zh) 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法
CN111160037A (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN111324734B (zh) 融合情绪知识的案件微博评论情绪分类方法
Zhang et al. Combining cross-modal knowledge transfer and semi-supervised learning for speech emotion recognition
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
Lee et al. Sentiment analysis of Chinese product reviews using gated recurrent unit
Chauhan et al. M2h2: A multimodal multiparty hindi dataset for humor recognition in conversations
Hong et al. Comprehensive technology function product matrix for intelligent chatbot patent mining
CN110032741A (zh) 一种基于语义扩展和最大边缘相关的伪文本生成方法
Palkar et al. Comparative evaluation of supervised learning algorithms for sentiment analysis of movie reviews
Hegde et al. Employee sentiment analysis towards remote work during COVID-19 using Twitter data
Sajinika et al. Twitter Sentiment Analysis and Topic Modeling for Online Learning
Zishumba Sentiment Analysis Based on Social Media Data
CN111428492B (zh) 一种情境感知的深度学习算法
Singh et al. Abstractive Text Summarization Using Attention-based Stacked LSTM
Muhammad et al. The Good, the Bad, and the Neutral: Twitter Users' Opinion on the ASUU Strike.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant