CN114648031A - 基于双向lstm和多头注意力机制的文本方面级情感识别方法 - Google Patents

基于双向lstm和多头注意力机制的文本方面级情感识别方法 Download PDF

Info

Publication number
CN114648031A
CN114648031A CN202210324881.7A CN202210324881A CN114648031A CN 114648031 A CN114648031 A CN 114648031A CN 202210324881 A CN202210324881 A CN 202210324881A CN 114648031 A CN114648031 A CN 114648031A
Authority
CN
China
Prior art keywords
context
local
features
global
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210324881.7A
Other languages
English (en)
Inventor
唐宏
刘蓓明
刘杰
黄水文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210324881.7A priority Critical patent/CN114648031A/zh
Publication of CN114648031A publication Critical patent/CN114648031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理、深度学习、方面级情感分析领域,特别涉及一种基于双向LSTM和多头注意力机制的文本方面级情感识别方法,包括获取方面词所在的上下文文本的词嵌入表示;采用双向LSTM网络获取局部上下文和全局上下文的特征表示;局部上下文的特征表示通过上下文动态加权和多头自注意力机制得到局部特征,全局上下文的特征表示通过多头自注意力机制得到全局特征;根据局部特征和全局特征获得局部和全局共同关注的交互特征,将交互特征和局部特征通过动态权重拼接融合获得最终特征表示;将最终特征表示输入到线性层、softmax函数中进行情感预测;本发明对特征进行动态融合,从而提高了文本方面级情感识别的准确率。

Description

基于双向LSTM和多头注意力机制的文本方面级情感识别方法
技术领域
本发明涉及自然语言处理、深度学习、方面级情感分析领域,特别涉及一种基于双向LSTM和多头注意力机制的文本方面级情感识别方法。
背景技术
随着互联网的广泛普及,电子商务、社交媒体等应用产业得到迅猛发展,手机网民规模也不断扩大,越来越多的人通过互联网进行沟通交流,因此互联网上产生了大量的用户对于诸如人物、事件、产品等有价值的评论信息,这些评论信息表达了人们的情感色彩和情感倾向。通常这些海量的文本数据都蕴含着巨大的商业价值,但是如何挖掘出其中有效的信息则是我们需要考虑的问题。以网上购物为例,评论数量量巨大,用户很难快速定位到自己关注的商品某个特定方面的信息,单纯通过个人浏览在线评论,获得该商品的综合评价显然是不现实的。传统的情感识别只是识别一个评论整体的情感倾向,对商品所包含的具体方面、属性等并不关注,这种粗粒度的情感识别不但导致了信息提取不充分问题,更无法识别用户所关注的商品特定方面的情感倾向。所以在这种情况下,有必要建立一个对文本进行方面级别情感识别的系统。随着深度学习算法的快速发展,利用自然语言处理领域的相关技术进行文本方面级别的情感识别可以很大程度改善和提高文本有效信息的获取。
对于文本方面级情感识别,其挑战之一在于如何即考虑到文本中的长期依赖关系又突出局部信息的重要性。文本中的方面词是包含在上下文中的,故方面词的情感与整个上下文是存在联系的,但同时与方面词情感相关的信息主要集中在它的局部上下文中,局部信息显得更加重要,以前的方法大都忽略了局部信息的重要性。其挑战之二在于如何将文本中不同的特征进行有效融合,对于文本方面词来说,其包含的特征可以大致分为局部特征、全局特征以及共同关注的交互特征,以往研究大多直接将全局特征或交互特征作为方面词情感的输出,没有进行有效的融合或融合不充分,就会导致输出的特征不够全面、准确。
发明内容
为解决以上现有技术问题,本发明提出了一种基于双向LSTM和多头注意力机制的文本方面级情感识别方法,包括以下步骤:
S1:获取方面词所在的上下文文本的词嵌入表示,即句子所对应的矩阵形式;
S2:采用双向LSTM网络分别对局部上下文和全局上下文的词嵌入表示进行预处理,得到对应上下文文本的长期依赖关系和特征表示;
S3:局部上下文的特征表示通过上下文动态加权和多头自注意力机制得到局部特征,全局上下文的特征表示通过多头自注意力机制得到全局特征;
S4:根据局部特征和全局特征获得局部和全局共同关注的交互特征,将交互特征和局部特征通过动态权重拼接融合获得最终特征表示;
S5:将最终特征表示输入到线性层、softmax函数中进行情感预测,得到基于双向LSTM和多头注意力机制的文本方面级情感识别模型;
S6:对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练优化,将待识别的文本输入到训练好的模型中,得到该文本中特定方面词的情感识别结果;
其中,本发明中局部上下文指的是由句子中方面词所处位置前后几个单词共同组成的小范围,具体词的数量由用户自行设置;全局上下文指的是整个句子。
进一步的,获取方面词所在的上下文文本的词嵌入表示的过程包括:
S11:将局部上下文处理器的文本输入序列转换为“[CLS]+上下文+[SEP]”,得到局部上下文Xl
S12:将全局上下文处理器的文本输入序列转换为“[CLS]+上下文+[SEP]+方面词+[SEP]”,得到全局上下文Xg
S13:采用两个独立的BERT模型分别对局部上下文和全局上下文进行建模,两个BERT模型分别输出局部上下文的词嵌入
Figure BDA0003572984030000031
和全局上下文的词嵌入
Figure BDA0003572984030000032
其中
Figure BDA0003572984030000033
d1表示词嵌入的维度,n1表示文本序列的长度;
其中,l表示局部上下文,g表示全局上下文;[CLS]为第一个句子句首的标志位;[SEP]为两个句子之间的标志位;本发明中[CLS]和[SEP]为用来方便模型的训练和微调的标志位,[CLS]为classification的意思,放在第一个句子的首位;[SEP]为separator的意思,用于分开两个输入句子,例如句子A和B,要在句子A和B后面添加[SEP]标志。
进一步的,获取预处理后的局部上下文和全局上下文的特征的过程包括:将局部上下文的词嵌入表示
Figure BDA0003572984030000034
和全局上下文的词嵌入表示
Figure BDA0003572984030000035
分别输入到各自的双向LSTM网络中,得到局部上下文预处理后的特征表示Hl和全局上下文预处理后的特征表示Hg
进一步的,双向LSTM网络由细胞状态ct、隐藏状态ht、遗忘门ft、输入门it、输出门ot组成;将局部上下文的词嵌入表示
Figure BDA0003572984030000036
和全局上下文的词嵌入表示
Figure BDA0003572984030000037
分别输入到各自的双向LSTM网络中,双向LSTM网络的计算公式为:
Figure BDA0003572984030000038
则上下文m中所有单词经过双向LSTM后的矩阵为:
Figure BDA0003572984030000039
其中,m表示上下文类型,且m∈{l,g},l表示局部上下文,g表示全局上下文,t表示文本中第t个单词,n表示上下文文本的长度,
Figure BDA00035729840300000310
为上下文m中第t个单词的词嵌入表示,
Figure BDA00035729840300000311
表示上下文m中第t个单词经过双向LSTM网络后的隐藏层输出,
Figure BDA0003572984030000041
表示前向LSTM计算,
Figure BDA0003572984030000042
表示后向LSTM计算,
Figure BDA0003572984030000043
表示矩阵Hm的维度是n×2dm维,Hm,m∈{l,g}表示局部上下文和全局上下文经过双向LSTM网络预处理后的特征表示。
进一步的,将局部上下文经过双向LSTM网络预处理后的特征表示输入到上下文特征动态加权层和多头自注意力层获得局部特征,具体包括:
将局部上下文特征表示Hl输入到上下文特征动态加权层,其计算公式包括:
Figure BDA0003572984030000044
Figure BDA0003572984030000045
W=[V1,...Vt...Vn],1≤t≤n
Figure BDA0003572984030000046
将上下文特征动态加权层的输出输入到多头自注意力层中,计算公式为:
Figure BDA0003572984030000047
其中,Pa表示方面词的中心位置,a表示方面词的长度,SRDt表示上下文中第t个单词与特定方面词的语义相对距离,α表示SRDt的阈值,E为单位向量,Vt表示上下文中第t个单词特征对应的权重向量,W表示上下文特征对应的权重矩阵,Hl为局部上下文预处理后的特征表示,
Figure BDA0003572984030000048
为经过多头自注意力层输出的局部特征。
进一步的,将全局上下文经过双向LSTM网络预处理后的特征表示直接输入到多头自注意力层获得全局特征,具体包括包括:
将全局上下文特征表示Hg直接输入到多头自注意力层,其计算公式包括:
Figure BDA0003572984030000049
其中,Hg为全局上下文预处理后的特征表示,
Figure BDA00035729840300000410
为经过多头自注意力层输出的全局特征。
进一步的,将局部特征和全局特征通过多头交互注意力机制获取交互特征
Figure BDA0003572984030000051
的过程包括:
将局部特征和全局特征拼接起来,并将其进行线性映射,最后通过多头自注意力机制得到交互特征,该过程表示为:
Figure BDA0003572984030000052
Figure BDA0003572984030000053
Figure BDA0003572984030000054
其中,Oc表示局部特征和全局特征拼接的结果,
Figure BDA0003572984030000055
表示进行线性映射后的输出,Wc是权重参数,bc为偏置项,
Figure BDA0003572984030000056
为得到的交互特征。
进一步的,将得到的交互特征与局部特征通过动态权重拼接融合得到最终特征O包括:
将局部特征和交互特征加权通过激活函数获取它们的非线性值,再求出各自的动态权重,最后动态拼接融合得到最终特征,该过程表示为:
Figure BDA0003572984030000057
Figure BDA0003572984030000058
Figure BDA0003572984030000059
其中,Wm1、Wm2表示模型可学习的超参数,sigmoid表示激活函数,ε为局部特征分配的动态权重,(1-ε)为全局特征分配的动态权重,O为输出的最终特征;
Figure BDA00035729840300000510
为得到的局部特征表示,
Figure BDA00035729840300000511
为得到的交互特征表示。
进一步的,基于双向LSTM和多头注意力机制的文本方面级情感识别模型将获得的最终特征表示先经过线性层进行线性变化,再通过softmax函数进行情感分类预测,得到文本方面及情感识别模型,表示为:
y=softmax(WoO+bo);
其中,Wo为权重矩阵,bo为偏置向量,y为预测的情感值,O为最终特征表示。
进一步的,对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练优化,即采用Adam优化器对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练,优化过程中将交叉熵作为损失函数,并引入L2正则化项防止模型出现过拟合,损失函数表示为:
Figure BDA0003572984030000061
其中,L(θ)表示模型预测情感值和真实情感值的差距大小,越小代表越相近,θ表示一组LSTM网络和线性层的权重矩阵,c表示情感类别个数,yi表示预测情感值,yi表示真实情感值,λ为L2正则化参数,Θ表示该模型的参数集。
附图说明
图1为本发明的总体流程图;
图2为本发明采用的LSTM机制图;
图3为本发明的双向LSTM模型结构图;
图4为本发明的基于双向LSTM和多头注意力机制的文本方面级情感识别方法框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于双向LSTM和多头注意力机制的文本方面级情感识别方法,包括以下步骤:
S1:获取方面词所在的上下文文本的词嵌入表示,即句子所对应的矩阵形式;
S2:采用双向LSTM网络分别对局部上下文和全局上下文的词嵌入表示进行预处理,得到对应上下文文本的长期依赖关系和特征表示;
S3:局部上下文处理通过上下文动态加权和多头自注意力机制得到局部特征,全局上下文处理通过多头自注意力机制得到全局特征;
S4:根据局部特征和全局特征获得局部和全局共同关注的交互特征,再将交互特征和局部特征通过动态权重拼接融合获得最终特征表示;
S5:将最终特征表示输入到线性层、softmax函数中进行情感预测,得到基于双向LSTM和多头注意力机制的文本方面级情感识别模型;
S6:对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练优化,将待识别的文本输入到训练好的模型中,得到该文本中特定方面词的情感识别结果;
其中,LSTM表示长短期记忆网络,softmax表示归一化指数函数。。
在本实施例中采用BERT模型对文本中的词进行建模,获取方面词所在的上下文文本的词嵌入表示的过程包括:
S11:将局部上下文处理器的文本输入序列转换为“[CLS]+上下文+[SEP]”,对应的向量表示为Xl
S12:将全局上下文处理器的文本输入序列转换为“[CLS]+上下文+[SEP]+方面词+[SEP]”,对应的向量表示为Xg
S13:采用两个独立的BERT模型分别对局部上下文和全局上下文进行建模,经过BERT模型输出的词嵌入表示分别为
Figure BDA0003572984030000071
Figure BDA0003572984030000072
其中
Figure BDA0003572984030000073
Figure BDA0003572984030000074
d1表示词嵌入的维度,n1表示文本序列的长度。
其中,BERT表示基于Transformer的双向编码表征,l表示局部上下文,g表示全局上下文。
本实施例采用双向LSTM网络分别对局部上下文和全局上下文的词嵌入表示进行预处理,得到对应上下文文本的长期依赖关系和特征表示,具体步骤如下:
其中需要用到LSTM,LSTM的结构图如图2,双向LSTM网络由细胞状态ct、隐藏状态ht、遗忘门ft、输入门it、输出门ot组成,细胞状态ct表示长期记忆,隐藏状态ht表示文本的特征表示,遗忘门ft决定需要从细胞状态中丢弃什么信息,输入门it决定什么样的新信息被存放在细胞状态中、输出门ot决定将输出细胞状态的哪些信息;计算公式如下:
Figure BDA0003572984030000081
Figure BDA0003572984030000082
Figure BDA0003572984030000083
Figure BDA0003572984030000084
Figure BDA0003572984030000085
Figure BDA0003572984030000086
其中
Figure BDA0003572984030000087
表示输入向量,
Figure BDA0003572984030000088
分别表示遗忘门权重、输入门权重、输出门权重,
Figure BDA0003572984030000089
分别表示遗忘门偏量、输入门偏量、输出门偏量,
Figure BDA00035729840300000810
表示临时细胞状态,
Figure BDA00035729840300000811
表示更新后的细胞状态信息,
Figure BDA00035729840300000812
分别表示遗忘门输出、输入门输出、输出门输出,σ为Sigmoid激活函数,
Figure BDA00035729840300000813
表示t时刻的隐藏层状态。
在LSTM基础上进行双向LSTM的运算,如图3所示,输入的特征通过双向LSTM的计算公式为:
Figure BDA00035729840300000814
经过双向LSTM后的隐藏层输出表示为:
Figure BDA00035729840300000815
其中,
Figure BDA0003572984030000091
表示向量拼接操作,则上下文m,m∈{l,g}中所有单词经过双向LSTM后的矩阵为:
Figure BDA0003572984030000092
其中,m表示上下文类型,且m∈{l,g},l表示局部上下文,g表示全局上下文,t表示文本中第t个单词,n表示上下文文本的长度,
Figure BDA0003572984030000093
为上下文m中第t个单词的词嵌入表示,
Figure BDA0003572984030000094
表示上下文m中第t个单词经过双向LSTM网络后的隐藏层输出,
Figure BDA0003572984030000095
表示前向LSTM计算,
Figure BDA0003572984030000096
表示后向LSTM计算,
Figure BDA0003572984030000097
表示矩阵Hm的维度是n×2dm维,Hm,m∈{l,g}表示局部上下文和全局上下文经过双向LSTM网络预处理后的特征表示。
将经过双向LSTM网络预处理后的特征表示Hm,m∈{l,g}通过局部上下文处理和全局上下文处理获取局部特征和全局特征,具体步骤包括:
l
S31:将局部上下文经过双向LSTM网络预处理后的特征表示H输入到上下文特征动态加权层和多头自注意力层获得局部特征
Figure BDA0003572984030000098
计算公式包括:
Figure BDA0003572984030000099
Figure BDA00035729840300000910
W=[V1,...Vt...Vn],1≤t≤n
Figure BDA00035729840300000911
Figure BDA00035729840300000912
其中,Pa表示方面词的中心位置,a表示方面词的长度,SRDt表示上下文中第t个单词与特定方面词的语义相对距离,α表示SRDt的阈值,E为单位向量,Vt表示上下文中第t个单词的特征向量,W表示上下文对应的特征矩阵,H1为局部上下文预处理后的特征表示,
Figure BDA0003572984030000101
为上下文特征动态加权层的输出,
Figure BDA0003572984030000102
为经过多头自注意力层输出的局部特征。
S32:将全局上下文经过双向LSTM网络预处理后的特征表示Hg直接输入到多头自注意力层获得全局特征
Figure BDA0003572984030000103
计算公式如下:
Figure BDA0003572984030000104
其中,Hg为全局上下文预处理后的特征表示,
Figure BDA0003572984030000105
为经过多头自注意力层输出的全局特征。
在文本方面级情感分析中,我们不仅要考虑局部特征和全局特征,同时也要考虑局部和全局共同关注的交互特征,交互特征中也包含着对方面词情感有重要影响的信息,获取交互特征的步骤如下:
首先将局部特征和全局特征拼接起来,并将其进行线性映射,最后通过多头自注意力机制得到交互特征,其计算的表达式为:
Figure BDA0003572984030000106
Figure BDA0003572984030000107
Figure BDA0003572984030000108
其中,Oc表示局部特征和全局特征拼接的结果,
Figure BDA0003572984030000109
表示进行线性映射后的输出,Wc是权重参数,bc为偏置项,
Figure BDA00035729840300001010
为得到的交互特征。
获取交互特征后,将交互特征和局部特征通过动态权重拼接融合得到最终特征表示,步骤如下:
将局部特征和交互特征加权通过激活函数获取它们的非线性值,再求出各自的动态权重,最后动态拼接融合得到最终特征,其计算的表达式为:
Figure BDA00035729840300001011
Figure BDA0003572984030000111
Figure BDA0003572984030000112
其中,Wm1,Wm2表示模型可学习的超参数,sigmoid表示激活函数,ε,1-ε分别是对局部特征和全局特征分配的动态权重,O为输出的最终特征。
将最终特征O先经过线性层进行线性变化,再通过softmax函数进行情感分类预测:
y=softmax(WoO+bo)
其中,Wo为权重矩阵,bo为偏置向量,y为预测的情感值。
采用交叉熵作为损失函数,并引入L2正则化项防止模型出现过拟合,如下式所示:
Figure BDA0003572984030000113
其中,c表示情感类别个数,yi表示预测情感值,yi表示真实情感值,λ为L2正则化参数,Θ表示该模型的参数集。
与Adam优化器对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练优化,将待识别的文本输入该模型,得到其文本中包含的特定方面词的情感识别结果;Adam表示适应性矩估计。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,包括以下步骤:
S1:获取方面词所在的上下文文本的词嵌入表示,即所在句子对应的矩阵形式;
S2:采用双向LSTM网络分别对局部上下文和全局上下文的词嵌入表示进行预处理,得到对应上下文文本的特征表示;
S3:局部上下文的特征表示通过上下文动态加权和多头自注意力机制得到局部特征,全局上下文的特征表示通过多头自注意力机制得到全局特征;
S4:根据局部特征和全局特征获得局部和全局共同关注的交互特征,将交互特征和局部特征通过动态权重拼接融合获得最终特征表示;
S5:将最终特征表示输入到线性层、softmax函数中进行情感预测,得到基于双向LSTM和多头注意力机制的文本方面级情感识别模型;
S6:对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练优化,将待识别的文本输入到训练好的模型中,得到该文本中特定方面词的情感识别结果。
2.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,获取方面词所在的上下文文本的词嵌入表示的过程包括:
S11:将局部上下文处理器的文本输入序列转换为“[CLS]+上下文+[SEP]”,得到局部上下文Xl
S12:将全局上下文处理器的文本输入序列转换为“[CLS]+上下文+[SEP]+方面词+[SEP]”,得到全局上下文Xg
S13:采用两个独立的BERT模型分别对局部上下文和全局上下文进行建模,两个BERT模型分别输出局部上下文的词嵌入
Figure FDA0003572984020000011
和全局上下文的词嵌入
Figure FDA0003572984020000021
其中
Figure FDA0003572984020000022
d1表示词嵌入的维度,n1表示文本序列的长度;
其中,l表示局部上下文,g表示全局上下文;[CLS]为第一个句子句首的标志位;[SEP]为一个句子句尾的标志位。
3.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,获取预处理后的局部上下文和全局上下文的特征的过程包括:将局部上下文的词嵌入表示
Figure FDA0003572984020000023
和全局上下文的词嵌入表示
Figure FDA0003572984020000024
分别输入到各自的双向LSTM网络中,得到局部上下文预处理后的特征表示Hl和全局上下文预处理后的特征表示Hg
4.根据权利要求3所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,双向LSTM网络由细胞状态ct、隐藏状态ht、遗忘门ft、输入门it、输出门ot组成;将局部上下文的词嵌入表示
Figure FDA0003572984020000025
和全局上下文的词嵌入表示
Figure FDA0003572984020000026
分别输入到各自的双向LSTM网络中,双向LSTM网络的计算公式为:
Figure FDA0003572984020000027
则上下文m中所有单词经过双向LSTM后的矩阵为:
Figure FDA0003572984020000028
其中,m表示上下文类型,且m∈{l,g},l表示局部上下文,g表示全局上下文,t表示文本中第t个单词,n表示上下文文本的长度,
Figure FDA0003572984020000029
为上下文m中第t个单词的词嵌入表示,
Figure FDA00035729840200000210
表示上下文m中第t个单词经过双向LSTM网络后的隐藏层输出,
Figure FDA00035729840200000211
表示前向LSTM计算,
Figure FDA00035729840200000212
表示后向LSTM计算,
Figure FDA00035729840200000213
表示矩阵Hm的维度是n×2dm维,Hm,m∈{l,g}表示局部上下文和全局上下文经过双向LSTM网络预处理后的特征表示。
5.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,将局部上下文经过双向LSTM网络预处理后的特征表示输入到上下文特征动态加权层和多头自注意力层获得局部特征,具体包括:
将局部上下文特征表示Hl输入到上下文特征动态加权层,其计算公式包括:
Figure FDA0003572984020000031
Figure FDA0003572984020000032
W=[V1,...Vt...Vn],1≤t≤n
Figure FDA0003572984020000033
将上下文特征动态加权层的输出输入到多头自注意力层中,计算公式为:
Figure FDA0003572984020000034
其中,Pa表示方面词的中心位置,a表示方面词的长度,SRDt表示上下文中第t个单词与特定方面词的语义相对距离,α表示SRDt的阈值,E为单位向量,Vt表示上下文中第t个单词特征对应的权重向量,W表示上下文特征对应的权重矩阵,Hl为局部上下文预处理后的特征表示,
Figure FDA0003572984020000035
为经过多头自注意力层输出的局部特征。
6.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,将全局上下文经过双向LSTM网络预处理后的特征表示直接输入到多头自注意力层获得全局特征,具体包括包括:
将全局上下文特征表示Hg直接输入到多头自注意力层,其计算公式包括:
Figure FDA0003572984020000036
其中,Hg为全局上下文预处理后的特征表示,
Figure FDA0003572984020000037
为经过多头自注意力层输出的全局特征。
7.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,将局部特征和全局特征通过多头交互注意力机制获取交互特征
Figure FDA0003572984020000041
的过程包括:
将局部特征和全局特征拼接起来,并将其进行线性映射,最后通过多头自注意力机制得到交互特征,该过程表示为:
Figure FDA0003572984020000042
Figure FDA0003572984020000043
Figure FDA0003572984020000044
其中,Oc表示局部特征和全局特征拼接的结果,
Figure FDA0003572984020000045
表示进行线性映射后的输出,Wc是权重参数,bc为偏置项,
Figure FDA0003572984020000046
为得到的交互特征。
8.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,将得到的交互特征与局部特征通过动态权重拼接融合得到最终特征O包括:
将局部特征和交互特征加权通过激活函数获取其非线性值,再求出各自的动态权重,最后动态拼接融合得到最终特征,该过程表示为:
Figure FDA0003572984020000047
Figure FDA0003572984020000048
Figure FDA0003572984020000049
其中,Wm1、Wm2表示模型可学习的超参数,sigmoid表示激活函数,ε为局部特征分配的动态权重,(1-ε)为全局特征分配的动态权重,O为输出的最终特征;
Figure FDA00035729840200000410
为得到的局部特征表示,
Figure FDA00035729840200000411
为得到的交互特征表示。
9.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,基于双向LSTM和多头注意力机制的文本方面级情感识别模型将获得的最终特征表示先经过线性层进行线性变化,再通过softmax函数进行情感分类预测,得到文本方面及情感识别模型,表示为:
y=softmax(WoO+bo);
其中,Wo为权重矩阵,bo为偏置向量,y为预测的情感值;O为最终特征表示。
10.根据权利要求1所述的基于双向LSTM和多头注意力机制的文本方面级情感识别方法,其特征在于,对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练优化,即采用Adam优化器对基于双向LSTM和多头注意力机制的文本方面级情感识别模型进行训练,优化过程中将交叉熵作为损失函数,并引入L2正则化项防止模型出现过拟合,损失函数表示为:
Figure FDA0003572984020000051
其中,L(θ)为损失函数,其表示模型预测情感值和真实情感值的差距大小;θ表示一组LSTM网络和线性层的权重矩阵,c表示情感类别个数,yi表示预测情感值,yi表示真实情感值,λ为L2正则化参数,Θ表示该模型的参数集。
CN202210324881.7A 2022-03-30 2022-03-30 基于双向lstm和多头注意力机制的文本方面级情感识别方法 Pending CN114648031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210324881.7A CN114648031A (zh) 2022-03-30 2022-03-30 基于双向lstm和多头注意力机制的文本方面级情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210324881.7A CN114648031A (zh) 2022-03-30 2022-03-30 基于双向lstm和多头注意力机制的文本方面级情感识别方法

Publications (1)

Publication Number Publication Date
CN114648031A true CN114648031A (zh) 2022-06-21

Family

ID=81994811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210324881.7A Pending CN114648031A (zh) 2022-03-30 2022-03-30 基于双向lstm和多头注意力机制的文本方面级情感识别方法

Country Status (1)

Country Link
CN (1) CN114648031A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392260A (zh) * 2022-10-31 2022-11-25 暨南大学 一种面向特定目标的社交媒体推文情感分析方法
CN115952787B (zh) * 2023-03-13 2023-05-12 北京澜舟科技有限公司 一种指定目标实体的情感分析方法、系统及存储介质
CN116561592A (zh) * 2023-07-11 2023-08-08 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392260A (zh) * 2022-10-31 2022-11-25 暨南大学 一种面向特定目标的社交媒体推文情感分析方法
US11972218B1 (en) 2022-10-31 2024-04-30 Jinan University Specific target-oriented social media tweet sentiment analysis method
CN115952787B (zh) * 2023-03-13 2023-05-12 北京澜舟科技有限公司 一种指定目标实体的情感分析方法、系统及存储介质
CN116561592A (zh) * 2023-07-11 2023-08-08 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置
CN116561592B (zh) * 2023-07-11 2023-09-29 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置

Similar Documents

Publication Publication Date Title
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN109753566A (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN115239937B (zh) 一种跨模态情感预测方法
CN111382565A (zh) 基于多标签的情绪-原因对抽取方法及系统
CN110502626A (zh) 一种基于卷积神经网络的方面级情感分析方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN114443899A (zh) 视频分类方法、装置、设备及介质
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN116662500A (zh) 一种基于bert模型与外部知识图谱的问答系统构建方法
CN113705238A (zh) 基于bert和方面特征定位模型的方面级情感分析方法及模型
CN111930981A (zh) 一种草图检索的数据处理方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
Li Cross-border E-commerce intelligent information recommendation system based on deep learning
CN117056451A (zh) 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination