CN108804417B - 一种基于特定领域情感词的文档级情感分析方法 - Google Patents
一种基于特定领域情感词的文档级情感分析方法 Download PDFInfo
- Publication number
- CN108804417B CN108804417B CN201810485193.2A CN201810485193A CN108804417B CN 108804417 B CN108804417 B CN 108804417B CN 201810485193 A CN201810485193 A CN 201810485193A CN 108804417 B CN108804417 B CN 108804417B
- Authority
- CN
- China
- Prior art keywords
- word
- emotion
- document
- vector
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 111
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 133
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 16
- 230000002996 emotional effect Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 9
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 8
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 238000012886 linear function Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于特定领域情感词的文档级情感分析方法,按如下顺序进行:收集文档数据集,使用Skip‑gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,捕获词向量中非连续词之间的关系;分别使用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词和句子进行合成,形成文档向量特征;利用Skip‑gram词向量模型的领域情感词典,生成情感特征向量;最后,利用线性结合层将文档向量特征和情感特征向量相结合,形成有利于文档分类的文档特征。情感分析被广泛应用于产品分析、商品推荐、股票价格趋势预测等,本发明提供的方法能准确、高效地对文档进行情感分析,具有很大的商业价值。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于特定领域情感词的文档级情感分析方法。
背景技术
情感分析,也被称为观点挖掘或意见挖掘,是自然语言处理和统计语言学中的一个基本任务。情感分析对理解用户在社交网络或产品评论中产生的观点信息很重要,可以为商家和其他用户提供决策支持;在舆情监测中,可以及时了解民众对突发事件的态度,引导舆论趋势等,已经引起了来自工业界和学术界的广泛的注意力。情感分析按照粒度划分,分为词级、句子级、文档级。相比词级、句子级,文档级的情感分析需要考虑文档的整体结构(文档由句子组成,句子由词组成),并且提取文档复杂的特征,使得这一研究变得复杂。现有的研究忽视了非连续词之间的关系,包括句法特征(有一定距离的短语结构)和语义特征(“its”指代的对象);有的研究没有充分利用情感词典等先验知识,以丰富文档的情感特征,然而情感词典在情感分析任务中扮演着重要的角色,情感词是情感分析重要的基础,有必要建立一个准确、高覆盖率的情感词典,但相比特定领域词典,这些情感词典对于情感分析的性能较差,原因在于特定领域的情感术语可能不会在通用词典中出现,而且同一个术语在特定领域和通用词典中在不同的情形下含义也不同,因此,构建特定领域的情感词典很有必要。总结以往的研究发现,在为文档进行建模时,通常只考虑了文档表示或情感词典,没有将两者结合起来,使得提取的文档特征比较单一。
因此,为了高效地对文档进行情感分类,既要对词与句子进行建模以产生文档表示,又要考虑词的情感特征,充分利用线性结合层将这两部分有效结合,组合形成丰富的文档分类特征,是现在自然语言处理领域中一个亟需解决的关键技术问题。
发明内容
针对现有的文档级情感分析方法比较单一,为了能准确地对文档进行情感分析,本发明提供了一种基于特定领域情感词的文档级情感分析方法。
本发明采用以下的技术方案:
一种基于特定领域情感词的文档级情感分析方法,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系;
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征;
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量;
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
优选地,步骤1中所述的文档数据集来源于学术研究中使用的语料数据。
优选地,所述步骤1中的注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
优选地,所述步骤1,具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
优选地,所述步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,我们使用的是ReLU函数,特征平面ni计算过程如(2)所示:
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征结合得到最终的输出特征,如公式(5)所示:
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
优选地,所述步骤2,具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)}(13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di(i≤t)和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
其中,d'代表未知情感的词,nn代表种子情感词。
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
优选地,所述步骤3,具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=soft max(WoO+b)(17)
其中,Wo是权重,b是偏移。
本发明具有的有益效果是:
(1)通过建立特定领域的情感词典,弥补了通用情感词典缺乏领域专有词的缺陷,同时构建领域词典的算法还应用于词汇的情感特征向量生成,不受不同领域词汇差异性的约束,具有通用性;
(2)通过在词向量和句子向量中分别加入注意力机制,使得Skip-gram词向量模型在训练过程中高度关注对分类重要的信息,同时减少了Skip-gram词向量模型的参数;
(3)本方法利用线性层有效地将文档向量特征和情感特征向量相结合,形成丰富的文档特征,有利于对文档进行情感类别的分类;
(4)本方法采用自下而上的形式进行模型构建,不仅适用于情感分析,还适用于文本分类等任务,具有广泛的适用性。
附图说明
图1为基于特定领域情感词的文档级情感分析的流程示意图。
图2为文档特征提取的示意图。
图3为构建特定领域词典的流程示意图。
图4为注意力可视化图。
图5为使用领域情感词典和没有使用领域情感词典的实验结果分析图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1至图3,一种基于特定领域情感词的文档级情感分析方法,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系。
其中,文档数据集来源于学术研究中使用的语料数据。
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征。
注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,我们使用的是ReLU函数,特征平面ni计算过程如(2)所示:
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征结合得到最终的输出特征,如公式(5)所示:
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量,从而丰富文档的特征;
具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)}(13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di(i≤t)和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
其中,d'代表未知情感的词,nn代表种子情感词。
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=soft max(WoO+b)(17)。
其中,Wo是权重,b是偏移。
实施例1
采用电影和餐馆两大领域数据集,进行基于特定领域情感词的文档级情感分析为实施例,详细描述本发明的实施过程。
本方法采用的数据集来自一篇论文:用门循环神经网络对文档建模的情感分析,作者是唐都钰等人,论文发表时间是2015年,所使用的数据集,如表1所示。
表1数据集
在四个大规模的数据集上评估本发明的有效性,使用80%的数据进行训练,10%的数据进行验证,剩下的10%的数据当做开发集,评估标准是分类准确率,公式如(18)所示:
其中,TP为将正类预测为正类的个数,TN为将正类预测为负类的个数,FP为将负类预测为正类的个数,FN为将负类预测为负类的个数。
首先,执行步骤1,收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系。
图4为注意力可视化图,可以发现形容词被赋予很高的注意力权重,比如:“wasteful”、“wary”,而一些词,比如“this”、“of”却有较低的值,因为它们对文档分类不重要,这表明了注意力机制的作用。
然后,利用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词与句子进行合成,形成文档向量特征;
接着,执行步骤2,建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量,从而丰富文档的特征。建立领域词典的算法如表2所示:
表2构建领域情感词典的算法
最后,执行步骤3,利用线性结合层得到的文档向量特征与生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
在数据集上,证明了本方法的准确率相比之前的方法有很大的提升,如表2所示。
表2不同数据集下的准确率
我们验证了领域情感词典在情感分析中的作用,如图5所示,可以看出,引入领域情感词典的模型的准确率有很大的提高。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (6)
1.一种基于特定领域情感词的文档级情感分析方法,其特征在于,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系;
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征;
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量;
具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)} (13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di,i≤t和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
其中,d'代表未知情感的词,nn代表种子情感词;
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档特征,最后输出文档的情感类别。
2.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,步骤1中所述的文档数据集来源于学术研究中使用的语料数据。
3.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1中的注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
4.根据权利要求3所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1,具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
5.根据权利要求4所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,使用的是ReLU函数,特征平面ni计算过程如(2)所示:
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征结合得到最终的输出特征,如公式(5)所示:
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810485193.2A CN108804417B (zh) | 2018-05-21 | 2018-05-21 | 一种基于特定领域情感词的文档级情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810485193.2A CN108804417B (zh) | 2018-05-21 | 2018-05-21 | 一种基于特定领域情感词的文档级情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804417A CN108804417A (zh) | 2018-11-13 |
CN108804417B true CN108804417B (zh) | 2022-03-15 |
Family
ID=64091196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810485193.2A Active CN108804417B (zh) | 2018-05-21 | 2018-05-21 | 一种基于特定领域情感词的文档级情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804417B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492108B (zh) * | 2018-11-22 | 2020-12-15 | 上海唯识律简信息科技有限公司 | 基于深度学习的多级融合文档分类方法和系统 |
CN109446331B (zh) * | 2018-12-07 | 2021-03-26 | 华中科技大学 | 一种文本情绪分类模型建立方法及文本情绪分类方法 |
CN109670542A (zh) * | 2018-12-11 | 2019-04-23 | 田刚 | 一种基于评论外部信息的虚假评论检测方法 |
CN109684634B (zh) * | 2018-12-17 | 2023-07-25 | 北京百度网讯科技有限公司 | 情感分析方法、装置、设备及存储介质 |
CN109885670A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种面向话题文本的交互注意力编码情感分析方法 |
CN109858034B (zh) * | 2019-02-25 | 2023-02-03 | 武汉大学 | 一种基于注意力模型和情感词典的文本情感分类方法 |
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN110222330B (zh) * | 2019-04-26 | 2024-01-30 | 平安科技(深圳)有限公司 | 语义识别方法及装置、存储介质、计算机设备 |
CN111488460B (zh) * | 2019-04-30 | 2021-10-15 | 北京京东尚科信息技术有限公司 | 数据处理方法、装置和计算机可读存储介质 |
CN110032646B (zh) * | 2019-05-08 | 2022-12-30 | 山西财经大学 | 一种基于多源领域适应联合学习的跨领域文本情感分类方法 |
CN110321563B (zh) * | 2019-06-28 | 2021-05-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
CN110688446B (zh) * | 2019-08-23 | 2023-04-14 | 重庆兆光科技股份有限公司 | 一种句义数学空间表示方法、系统、介质和设备 |
CN110610168B (zh) * | 2019-09-20 | 2021-10-26 | 合肥工业大学 | 一种基于注意力机制的脑电情绪识别方法 |
CN110688485B (zh) * | 2019-09-26 | 2022-03-11 | 中国人民大学 | 一种基于突发事件的词向量语言模型 |
CN111177374B (zh) * | 2019-12-13 | 2024-01-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN111325027B (zh) * | 2020-02-19 | 2023-04-28 | 东南大学 | 一种面向稀疏数据的个性化情感分析方法与装置 |
CN111950258A (zh) * | 2020-08-10 | 2020-11-17 | 深圳市慧择时代科技有限公司 | 一种情感分类方法及装置 |
CN111984931B (zh) * | 2020-08-20 | 2022-06-03 | 上海大学 | 一种社会事件网络文本的舆情计算与推演方法及系统 |
CN112702599B (zh) * | 2020-12-24 | 2022-05-20 | 重庆理工大学 | 一种基于深度学习的vvc帧内快速编码方法 |
CN116432605B (zh) * | 2023-06-14 | 2023-09-22 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016105803A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN105975594A (zh) * | 2016-05-09 | 2016-09-28 | 清华大学 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
CN107015965A (zh) * | 2017-03-24 | 2017-08-04 | 苏州希格玛科技有限公司 | 一种中文文本情感分析装置及方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107590134A (zh) * | 2017-10-26 | 2018-01-16 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278375A1 (en) * | 2013-03-14 | 2014-09-18 | Trinity College Dublin | Methods and system for calculating affect scores in one or more documents |
-
2018
- 2018-05-21 CN CN201810485193.2A patent/CN108804417B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016105803A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN105975594A (zh) * | 2016-05-09 | 2016-09-28 | 清华大学 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
CN106610955A (zh) * | 2016-12-13 | 2017-05-03 | 成都数联铭品科技有限公司 | 基于词典的多维度情感分析方法 |
CN107015965A (zh) * | 2017-03-24 | 2017-08-04 | 苏州希格玛科技有限公司 | 一种中文文本情感分析装置及方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107590134A (zh) * | 2017-10-26 | 2018-01-16 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
Non-Patent Citations (2)
Title |
---|
Depeng Liang等.AC-BLSTM: Asymmetric Convolutional Bidirectional LSTM Networks for Text Classification.《https://arxiv.org/pdf/1611.01884.pdf》.2017,1-9. * |
电商评论情感挖掘模型;熊乐等;《南昌大学学报》;20180225;第42卷(第1期);88-94 * |
Also Published As
Publication number | Publication date |
---|---|
CN108804417A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804417B (zh) | 一种基于特定领域情感词的文档级情感分析方法 | |
Qaisar | Sentiment analysis of IMDb movie reviews using long short-term memory | |
Ishaq et al. | Aspect-based sentiment analysis using a hybridized approach based on CNN and GA | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
Amplayo et al. | Cold-start aware user and product attention for sentiment classification | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
Zhang et al. | Combining cross-modal knowledge transfer and semi-supervised learning for speech emotion recognition | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN107436942A (zh) | 基于社交媒体的词嵌入方法、系统、终端设备及存储介质 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
WO2023231576A1 (zh) | 混合语言语音识别模型的生成方法及装置 | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
Lee et al. | Sentiment analysis of Chinese product reviews using gated recurrent unit | |
Chauhan et al. | M2h2: A multimodal multiparty hindi dataset for humor recognition in conversations | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
Hong et al. | Comprehensive technology function product matrix for intelligent chatbot patent mining | |
Hegde et al. | Employee sentiment analysis towards remote work during COVID-19 using Twitter data | |
Palkar et al. | Comparative evaluation of supervised learning algorithms for sentiment analysis of movie reviews | |
CN108647257A (zh) | 一种微博情感确定方法 | |
Gapanyuk et al. | Architecture and Implementation of an Intelligent News Analysis System. | |
Sajinika et al. | Twitter Sentiment Analysis and Topic Modeling for Online Learning | |
Umidjon | UNLOCKING THE POWER OF NATURAL LANGUAGE PROCESSING (NLP) FOR TEXT ANALYSIS | |
CN111428492B (zh) | 一种情境感知的深度学习算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |