CN108804417A - 一种基于特定领域情感词的文档级情感分析方法 - Google Patents

一种基于特定领域情感词的文档级情感分析方法 Download PDF

Info

Publication number
CN108804417A
CN108804417A CN201810485193.2A CN201810485193A CN108804417A CN 108804417 A CN108804417 A CN 108804417A CN 201810485193 A CN201810485193 A CN 201810485193A CN 108804417 A CN108804417 A CN 108804417A
Authority
CN
China
Prior art keywords
word
vector
document
emotion
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810485193.2A
Other languages
English (en)
Other versions
CN108804417B (zh
Inventor
田刚
王芳
孙承爱
李堂军
任艳伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201810485193.2A priority Critical patent/CN108804417B/zh
Publication of CN108804417A publication Critical patent/CN108804417A/zh
Application granted granted Critical
Publication of CN108804417B publication Critical patent/CN108804417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明提供了一种基于特定领域情感词的文档级情感分析方法,按如下顺序进行:收集文档数据集,使用Skip‑gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,捕获词向量中非连续词之间的关系;分别使用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词和句子进行合成,形成文档向量特征;利用Skip‑gram词向量模型的领域情感词典,生成情感特征向量;最后,利用线性结合层将文档向量特征和情感特征向量相结合,形成有利于文档分类的文档特征。情感分析被广泛应用于产品分析、商品推荐、股票价格趋势预测等,本发明提供的方法能准确、高效地对文档进行情感分析,具有很大的商业价值。

Description

一种基于特定领域情感词的文档级情感分析方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于特定领域情感词的文档级情感分析方法。
背景技术
情感分析,也被称为观点挖掘或意见挖掘,是自然语言处理和统计语言学中的一个基本任务。情感分析对理解用户在社交网络或产品评论中产生的观点信息很重要,可以为商家和其他用户提供决策支持;在舆情监测中,可以及时了解民众对突发事件的态度,引导舆论趋势等,已经引起了来自工业界和学术界的广泛的注意力。情感分析按照粒度划分,分为词级、句子级、文档级。相比词级、句子级,文档级的情感分析需要考虑文档的整体结构(文档由句子组成,句子由词组成),并且提取文档复杂的特征,使得这一研究变得复杂。现有的研究忽视了非连续词之间的关系,包括句法特征(有一定距离的短语结构)和语义特征(“its”指代的对象);有的研究没有充分利用情感词典等先验知识,以丰富文档的情感特征,然而情感词典在情感分析任务中扮演着重要的角色,情感词是情感分析重要的基础,有必要建立一个准确、高覆盖率的情感词典,但相比特定领域词典,这些情感词典对于情感分析的性能较差,原因在于特定领域的情感术语可能不会在通用词典中出现,而且同一个术语在特定领域和通用词典中在不同的情形下含义也不同,因此,构建特定领域的情感词典很有必要。总结以往的研究发现,在为文档进行建模时,通常只考虑了文档表示或情感词典,没有将两者结合起来,使得提取的文档特征比较单一。
因此,为了高效地对文档进行情感分类,既要对词与句子进行建模以产生文档表示,又要考虑词的情感特征,充分利用线性结合层将这两部分有效结合,组合形成丰富的文档分类特征,是现在自然语言处理领域中一个亟需解决的关键技术问题。
发明内容
针对现有的文档级情感分析方法比较单一,为了能准确地对文档进行情感分析,本发明提供了一种基于特定领域情感词的文档级情感分析方法。
本发明采用以下的技术方案:
一种基于特定领域情感词的文档级情感分析方法,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系;
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征;
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量;
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
优选地,步骤1中所述的文档数据集来源于学术研究中使用的语料数据。
优选地,所述步骤1中的注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
优选地,所述步骤1,具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
优选地,所述步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
首先,对于1×d卷积,我们使用卷积滤波器对输入向量进行卷积,特征的计算过程如公式(1)所示:
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,我们使用的是ReLU函数,特征平面ni计算过程如(2)所示:
对于lj×1卷积,我们使用滤波器对上面的计算结果ni进行卷积操作,新的特征和新的特征平面oi的计算如(3)和(4)所示:
其中,代表序列n-lj+1的特征;
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征结合得到最终的输出特征,如公式(5)所示:
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
结合得到丰富的数据信息,包括来自两个方向的历史和未来信息,
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
其中,B表示偏移量,Wq表示权重,是注意力特征矩阵,ri是句子级上下文向量,能在训练过程中被学习得到,h*即文档向量特征。
优选地,所述步骤2,具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)}(13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di(i≤t)和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
其中,d'代表未知情感的词,nn代表种子情感词。
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
优选地,所述步骤3,具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=soft max(WoO+b)(17)
其中,Wo是权重,b是偏移。
本发明具有的有益效果是:
(1)通过建立特定领域的情感词典,弥补了通用情感词典缺乏领域专有词的缺陷,同时构建领域词典的算法还应用于词汇的情感特征向量生成,不受不同领域词汇差异性的约束,具有通用性;
(2)通过在词向量和句子向量中分别加入注意力机制,使得Skip-gram词向量模型在训练过程中高度关注对分类重要的信息,同时减少了Skip-gram词向量模型的参数;
(3)本方法利用线性层有效地将文档向量特征和情感特征向量相结合,形成丰富的文档特征,有利于对文档进行情感类别的分类;
(4)本方法采用自下而上的形式进行模型构建,不仅适用于情感分析,还适用于文本分类等任务,具有广泛的适用性。
附图说明
图1为基于特定领域情感词的文档级情感分析的流程示意图。
图2为文档特征提取的示意图。
图3为构建特定领域词典的流程示意图。
图4为注意力可视化图。
图5为使用领域情感词典和没有使用领域情感词典的实验结果分析图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:
结合图1至图3,一种基于特定领域情感词的文档级情感分析方法,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系。
其中,文档数据集来源于学术研究中使用的语料数据。
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征。
注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
首先,对于1×d卷积,我们使用卷积滤波器对输入向量进行卷积,特征的计算过程如公式(1)所示:
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,我们使用的是ReLU函数,特征平面ni计算过程如(2)所示:
对于lj×1卷积,我们使用滤波器对上面的计算结果ni进行卷积操作,新的特征和新的特征平面oi的计算如(3)和(4)所示:
其中,代表序列n-lj+1的特征;
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征结合得到最终的输出特征,如公式(5)所示:
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
结合得到丰富的数据信息,包括来自两个方向的历史和未来信息,
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
其中,B表示偏移量,Wq表示权重,是注意力特征矩阵,ri是句子级上下文向量,能在训练过程中被学习得到,h*即文档向量特征。
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量,从而丰富文档的特征;
具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)}(13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di(i≤t)和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
其中,d'代表未知情感的词,nn代表种子情感词。
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=soft max(WoO+b)(17)。
其中,Wo是权重,b是偏移。
实施例1
采用电影和餐馆两大领域数据集,进行基于特定领域情感词的文档级情感分析为实施例,详细描述本发明的实施过程。
本方法采用的数据集来自一篇论文:用门循环神经网络对文档建模的情感分析,作者是唐都钰等人,论文发表时间是2015年,所使用的数据集,如表1所示。
表1数据集
在四个大规模的数据集上评估本发明的有效性,使用80%的数据进行训练,10%的数据进行验证,剩下的10%的数据当做开发集,评估标准是分类准确率,公式如(18)所示:
其中,TP为将正类预测为正类的个数,TN为将正类预测为负类的个数,FP为将负类预测为正类的个数,FN为将负类预测为负类的个数。
首先,执行步骤1,收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系。
图4为注意力可视化图,可以发现形容词被赋予很高的注意力权重,比如:“wasteful”、“wary”,而一些词,比如“this”、“of”却有较低的值,因为它们对文档分类不重要,这表明了注意力机制的作用。
然后,利用非对称卷积神经网络和基于注意力机制的双向门循环神经网络对词与句子进行合成,形成文档向量特征;
接着,执行步骤2,建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量,从而丰富文档的特征。建立领域词典的算法如表2所示:
表2构建领域情感词典的算法
最后,执行步骤3,利用线性结合层得到的文档向量特征与生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
在数据集上,证明了本方法的准确率相比之前的方法有很大的提升,如表2所示。
表2不同数据集下的准确率
我们验证了领域情感词典在情感分析中的作用,如图5所示,可以看出,引入领域情感词典的模型的准确率有很大的提高。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (7)

1.一种基于特定领域情感词的文档级情感分析方法,其特征在于,包括以下步骤:
步骤1:收集文档数据集,得到原型单词的集合,使用Skip-gram词向量模型训练原型单词的集合,得到每个原型单词对应的词向量,并利用注意力机制对词向量进行重组,以捕获词向量中非连续词之间的关系;
文档由句子组成,句子由词组成,利用非对称卷积神经网络对词进行合成,利用基于注意力机制的双向门循环神经网络对句子进行合成,最终形成文档向量特征;
步骤2:建立一种基于Skip-gram词向量模型的领域情感词典,以生成情感特征向量;
步骤3:利用线性结合层将步骤1得到的文档向量特征与步骤2生成的情感特征向量相结合形成文档特征,并且通过softmax函数接收文档张量,最后输出文档的情感类别。
2.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,步骤1中所述的文档数据集来源于学术研究中使用的语料数据。
3.根据权利要求1所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1中的注意力机制使用的是self-Attention机制,self-Attention机制能为每个词和句子建立一个上下文向量。
4.根据权利要求3所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1,具体实现包括以下子步骤:
步骤1.1:使用self-attention机制重组词向量,self-attention机制为每个单词创建一个上下文向量,然后与原始向量相结合形成一个新的词向量;
步骤1.2:利用非对称卷积神经网络对词进行合成形成句子向量,利用双向门循环神经网络对句子进行合成形成文档向量,最终产生文档向量特征,同时,加入一层注意力机制,突出对文档分类重要的句子。
5.根据权利要求4所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤1.2,具体包括以下子步骤:
步骤1.2.1:一个句子包括n个词{w1,w2,...wn},令xi∈Rd是第i个词的词向量,把lj当成是卷积滤波器的宽度对一元、二元、三元的语义信息进行编码,其中j∈(1,2,3);非对称卷积神经网络能减少参数的个数并且通过添加非线性来提高表达能力,因此,使用非对称卷积神经网络,把lj×d个卷积分成1×d和lj×1个卷积,对于这两部分,分别利用滤波器对输入向量进行卷积,得到对应的feature map,利用频道对feature map进行切分,最终得到句子向量,具体过程如下:
首先,对于1×d卷积,我们使用卷积滤波器对输入向量进行卷积,特征的计算过程如公式(1)所示:
其中,mi代表词向量xi与词级上下文向量ki的结合向量,i∈R,j∈(1,2,3),表示矩阵的内积操作,b是卷积执行器的偏移量,f代表非线性函数,我们使用的是ReLU函数,特征平面ni计算过程如(2)所示:
对于lj×1卷积,我们使用滤波器对上面的计算结果ni进行卷积操作,新的特征和新的特征平面oi的计算如(3)和(4)所示:
其中,代表序列n-lj+1的特征;
卷积操作之后,k-max池化操作被应用到特征平面中去选择最重要的特征,然而,双向门循环神经网络擅长处理序列数据,池化操作会切断序列信息,因此,采用非对称卷积神经网络的思想,通过频道切分特征平面,得到了新的特征结合得到最终的输出特征,如公式(5)所示:
步骤1.2.2:使用双向门循环神经网络和self-attention机制去获得文档向量,步骤1.2.1的输出作为这个模型的输入;
使用双向门循环神经网络对句子进行编码,计算过程如公式(6)和(7)所示:
结合得到丰富的数据信息,包括来自两个方向的历史和未来信息,
值得注意的是,在文档级情感分析任务中,并非所有的句子对情感分类都发挥着重要的作用,为了强调出对分类重要的句子,引入self-attention机制,计算过程如公式(8)-(11):
yi=tanh(Wqfi+B) (8);
Zi=innerproduct(yi,ri) (9);
其中,B表示偏移量,Wq表示权重,是注意力特征矩阵,ri是句子级上下文向量,能在训练过程中被学习得到,h*即文档向量特征。
6.根据权利要求5所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤2,具体包括以下子步骤:
步骤2.1:计算领域语料中每个词的tf-idf值,如公式(12)所示:
其中,n代表某类c在文本集合中含有特定词语t的文本数量,m代表在文本中含有词语t的文本数量,S代表语料集中包含的文本数量;
之后,得到一个词集,如公式(13)所示:
D={(d1,tf-idf'1),(d2,tf-idf'2),...,(dt,tf-idf't)} (13);
其中,dt代表文档中的每个词,t的范围是t∈Rd,idft'代表改进的反文档频率,tf代表词频;
步骤2.2:用词频统计筛选掉低频的词,与情感词典结合产生情感词,出现在情感词中且在SentiNetWord中情感强度较大的被选为情感种子词,集合为:N={(n1,wk1),(n2,wk2),...,(nj,wkj)},
其中,ni是情感种子词,wki是ni对应的情感权重向量;
步骤2.3:通过特定领域的语义相似性衡量来计算未知情感词di(i≤t)和情感种子词ni的相似性,包括基于Skip-gram词向量模型和词的相似性,Sii,j=(S',SS”);Sii,j代表词的相似性和Skip-gram相似性的结合;
其中,di∈D',ni∈N,D'是D的子集,表示未知情感的词集,S'表示Skip-gram相似性,S”表示词的相似性;
为了更清楚地表示每个词与情感词的两种相似性,我们创建了包括Skip-gram相似性和词的语义相似性的综合矩阵Q,如公式(14)所示:
其中,d'代表未知情感的词,nn代表种子情感词。
步骤2.4:将Sii,j与情感权重向量进行相乘,得到ei,ei为情感特征向量,如公式(15)所示:
7.根据权利要求6所述的一种基于特定领域情感词的文档级情感分析方法,其特征在于,所述步骤3,具体包括以下子步骤:
步骤3.1:文档向量特征与情感特征向量结合得到文档特征O,如公式(16)所示:
步骤3.2:添加一个线性层将文档向量特征转换成真值向量,它的长度是类别C,然后使用一个softmax函数将真值转化为条件概率,计算过程如公式(17)所示:
y=softmax(WoO+b) (17)
其中,Wo是权重,b是偏移。
CN201810485193.2A 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法 Active CN108804417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810485193.2A CN108804417B (zh) 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810485193.2A CN108804417B (zh) 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法

Publications (2)

Publication Number Publication Date
CN108804417A true CN108804417A (zh) 2018-11-13
CN108804417B CN108804417B (zh) 2022-03-15

Family

ID=64091196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810485193.2A Active CN108804417B (zh) 2018-05-21 2018-05-21 一种基于特定领域情感词的文档级情感分析方法

Country Status (1)

Country Link
CN (1) CN108804417B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446331A (zh) * 2018-12-07 2019-03-08 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和系统
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109858034A (zh) * 2019-02-25 2019-06-07 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN110222330A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 语义识别方法及装置、存储介质、计算机设备
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法
CN110610168A (zh) * 2019-09-20 2019-12-24 合肥工业大学 一种基于注意力机制的脑电情绪识别方法
CN110688485A (zh) * 2019-09-26 2020-01-14 中国人民大学 一种基于突发事件的词向量语言模型
CN110688446A (zh) * 2019-08-23 2020-01-14 重庆兆光科技股份有限公司 一种句义数学空间表示方法、系统、介质和设备
CN111177374A (zh) * 2019-12-13 2020-05-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统
CN111325027A (zh) * 2020-02-19 2020-06-23 东南大学 一种面向稀疏数据的个性化情感分析方法与装置
CN111488460A (zh) * 2019-04-30 2020-08-04 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN111950258A (zh) * 2020-08-10 2020-11-17 深圳市慧择时代科技有限公司 一种情感分类方法及装置
CN111984931A (zh) * 2020-08-20 2020-11-24 上海大学 一种社会事件网络文本的舆情计算与推演方法及系统
CN112069790A (zh) * 2019-05-21 2020-12-11 阿里巴巴集团控股有限公司 文本相似度识别方法、装置及电子设备
CN112702599A (zh) * 2020-12-24 2021-04-23 重庆理工大学 一种基于深度学习的vvc帧内快速编码方法
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278375A1 (en) * 2013-03-14 2014-09-18 Trinity College Dublin Methods and system for calculating affect scores in one or more documents
WO2016105803A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107015965A (zh) * 2017-03-24 2017-08-04 苏州希格玛科技有限公司 一种中文文本情感分析装置及方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278375A1 (en) * 2013-03-14 2014-09-18 Trinity College Dublin Methods and system for calculating affect scores in one or more documents
WO2016105803A1 (en) * 2014-12-24 2016-06-30 Intel Corporation Hybrid technique for sentiment analysis
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107015965A (zh) * 2017-03-24 2017-08-04 苏州希格玛科技有限公司 一种中文文本情感分析装置及方法
CN107092596A (zh) * 2017-04-24 2017-08-25 重庆邮电大学 基于attention CNNs和CCR的文本情感分析方法
CN107590134A (zh) * 2017-10-26 2018-01-16 福建亿榕信息技术有限公司 文本情感分类方法、存储介质及计算机
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DEPENG LIANG等: "AC-BLSTM: Asymmetric Convolutional Bidirectional LSTM Networks for Text Classi cation", 《HTTPS://ARXIV.ORG/PDF/1611.01884.PDF》 *
熊乐等: "电商评论情感挖掘模型", 《南昌大学学报》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492108A (zh) * 2018-11-22 2019-03-19 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和系统
CN109492108B (zh) * 2018-11-22 2020-12-15 上海唯识律简信息科技有限公司 基于深度学习的多级融合文档分类方法和系统
CN109446331A (zh) * 2018-12-07 2019-03-08 华中科技大学 一种文本情绪分类模型建立方法及文本情绪分类方法
CN109670542A (zh) * 2018-12-11 2019-04-23 田刚 一种基于评论外部信息的虚假评论检测方法
CN109684634B (zh) * 2018-12-17 2023-07-25 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109885670A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种面向话题文本的交互注意力编码情感分析方法
CN109858034A (zh) * 2019-02-25 2019-06-07 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN109858034B (zh) * 2019-02-25 2023-02-03 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN110222330A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 语义识别方法及装置、存储介质、计算机设备
CN110222330B (zh) * 2019-04-26 2024-01-30 平安科技(深圳)有限公司 语义识别方法及装置、存储介质、计算机设备
CN111488460B (zh) * 2019-04-30 2021-10-15 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN111488460A (zh) * 2019-04-30 2020-08-04 北京京东尚科信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN110032646B (zh) * 2019-05-08 2022-12-30 山西财经大学 一种基于多源领域适应联合学习的跨领域文本情感分类方法
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN112069790A (zh) * 2019-05-21 2020-12-11 阿里巴巴集团控股有限公司 文本相似度识别方法、装置及电子设备
CN110321563A (zh) * 2019-06-28 2019-10-11 浙江大学 基于混合监督模型的文本情感分析方法
CN110688446B (zh) * 2019-08-23 2023-04-14 重庆兆光科技股份有限公司 一种句义数学空间表示方法、系统、介质和设备
CN110688446A (zh) * 2019-08-23 2020-01-14 重庆兆光科技股份有限公司 一种句义数学空间表示方法、系统、介质和设备
CN110610168B (zh) * 2019-09-20 2021-10-26 合肥工业大学 一种基于注意力机制的脑电情绪识别方法
CN110610168A (zh) * 2019-09-20 2019-12-24 合肥工业大学 一种基于注意力机制的脑电情绪识别方法
CN110688485B (zh) * 2019-09-26 2022-03-11 中国人民大学 一种基于突发事件的词向量语言模型
CN110688485A (zh) * 2019-09-26 2020-01-14 中国人民大学 一种基于突发事件的词向量语言模型
CN111177374A (zh) * 2019-12-13 2020-05-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统
CN111177374B (zh) * 2019-12-13 2024-01-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统
CN111325027A (zh) * 2020-02-19 2020-06-23 东南大学 一种面向稀疏数据的个性化情感分析方法与装置
CN111950258A (zh) * 2020-08-10 2020-11-17 深圳市慧择时代科技有限公司 一种情感分类方法及装置
CN111984931B (zh) * 2020-08-20 2022-06-03 上海大学 一种社会事件网络文本的舆情计算与推演方法及系统
CN111984931A (zh) * 2020-08-20 2020-11-24 上海大学 一种社会事件网络文本的舆情计算与推演方法及系统
CN112702599A (zh) * 2020-12-24 2021-04-23 重庆理工大学 一种基于深度学习的vvc帧内快速编码方法
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置
CN116432605B (zh) * 2023-06-14 2023-09-22 山东大学 融入先验知识的作文评语生成方法及装置

Also Published As

Publication number Publication date
CN108804417B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN108804417A (zh) 一种基于特定领域情感词的文档级情感分析方法
Zhang et al. Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary
Yang et al. A hybrid retrieval-generation neural conversation model
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN106919673B (zh) 基于深度学习的文本情绪分析系统
Li et al. Learning stock market sentiment lexicon and sentiment-oriented word vector from stocktwits
Zou et al. A lexicon-based supervised attention model for neural sentiment analysis
CN109933789A (zh) 一种基于神经网络的司法领域关系抽取方法及系统
CN108255805A (zh) 舆情分析方法及装置、存储介质、电子设备
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
Kaibi et al. A comparative evaluation of word embeddings techniques for twitter sentiment analysis
CN109558492A (zh) 一种适于事件归因的上市公司知识图谱构建方法及装置
Kmail et al. An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures
Wu et al. Exploring syntactic and semantic features for authorship attribution
CN102929861A (zh) 一种文本情感指数计算方法和系统
CN106126605B (zh) 一种基于用户画像的短文本分类方法
Jia et al. Chinese micro-blog sentiment classification based on emotion dictionary and semantic rules
CN105930509A (zh) 基于统计与模板匹配的领域概念自动抽取精化方法及系统
CN109086355A (zh) 基于新闻主题词的热点关联关系分析方法及系统
Tang et al. Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching
Dedhia et al. Ensemble model for Twitter sentiment analysis
Winarko et al. Recognizing the sarcastic statement on WhatsApp Group with Indonesian language text
Zaharia et al. Dialect identification through adversarial learning and knowledge distillation on romanian bert
Wang et al. Research on intelligent construction algorithm of subject knowledge thesaurus based on literature resources
Zhao et al. Keyword extraction for social media short text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant