CN116384372A - 基于自注意力的多层次融合方面类别情感分析方法 - Google Patents

基于自注意力的多层次融合方面类别情感分析方法 Download PDF

Info

Publication number
CN116384372A
CN116384372A CN202211345353.6A CN202211345353A CN116384372A CN 116384372 A CN116384372 A CN 116384372A CN 202211345353 A CN202211345353 A CN 202211345353A CN 116384372 A CN116384372 A CN 116384372A
Authority
CN
China
Prior art keywords
information
attention
category
context
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211345353.6A
Other languages
English (en)
Inventor
田东
时嘉
冯建英
张慧
苗子溦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202211345353.6A priority Critical patent/CN116384372A/zh
Publication of CN116384372A publication Critical patent/CN116384372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了属于应用自注意力机制对情感词语分析领域的一种基于自注意力的多层次融合方面类别情感分析方法;该方法主要包括:获取样本语句以及与所述样本语句的相关联的若干组二元组标签信息;结合Bi‑LSTM和卷积注意机制获取输入文本的序列信息与局部重要信息;获取方面类别指示词的位置信息;包含情景的自注意力机制重新学习方面信息,然后引入多层次融合模块融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,对不同环境下的方面表示进行区别关注,在多个领域都能达到较好的分类精度。本发明为在线评论方面类别情感分析提供了有效新方案,并对电商平台服务、产品提升以及消费群体购买决策具有有效指导意义。

Description

基于自注意力的多层次融合方面类别情感分析方法
技术领域
本发明属于应用自注意力机制对情感词语分析领域,特别涉及一种基于自注意力的多层次融合方面类别情感分析方法。
背景技术
观点或意见几乎是所有人类进行活动的核心,是我们行为的关键影响因素。随着电子商务平台的兴起,在线评论成为宝贵的资源,尤其是对于受欢迎的产品和服务方面。从这些在线评论中识别和提取具有丰富观点的信息,有助于生产者和消费者做出决策。也就是说,评价不仅是电商销售产品的重要因素,而且在一定程度上也是影响消费者意愿的指标。但由于这些产品的评论数量巨大,要通过每一次评判对任何产品做出简单的决定是不可行的。因此,近年来,考虑到效率和大量评论数据的在线处理需求,情感分析从各个领域展开了探索。基于方面的情感分析(ABSA)作为情感分析领域的细粒度任务在近几年来受到广泛地关注,它主要包含两个子任务:方面项情感分析(ATSA)和方面类别情感分析(ACSA)。虽然近年来对ATSA和ACSA的研究都很有前景,但在本发明中,我们主要关注的是ACSA的任务。
ACSA的目的是在对情感极性(通常是积极的、消极的或中性的)进行分类的同时,根据方面类别对每个观点进行分类。可以看出他需要进行两个任务,方面类别识别(ACD)和方面情感分类(ASC)。与ATSA任务不同,ACSA任务中方面类别可能不会直接在句子中出现,且需要预定义。为了识别方面类别的情感,多年来人们致力于为给定方面目标建立合适的上下文特征。
在过去几十年里,早期传统的机器学习方法吸引较多人的研究,但这些方法严重依赖复杂的人工规则和特征工程,这样很容易忽视有效特征。随着深度学习技术的广泛应用,人们开始使用数据驱动的方式解决传统方法特征丢失问题。其中基于卷积神经网络(CNN)和递归神经网络(RNN)比如长短期记忆网络(LSTM)的大量有关研究被成功地应用于方面级情感分析中。CNN能够从时间或空间分布中学习局部特征,但在获取远程依赖以及建模序列信息方面存在不足。与CNN相比,RNN能够对序列信息进行有效建模,但缺乏位置不变性以及对局部信息的敏感性。上述方法使用不同的神经网络结构对语境和目标之间的关系进行建模,但考虑输入序列全部信息过于冗余,没有明确地建模每个词对识别特定目标情感的贡献程度。
注意力机制的出现在自然语言处理和计算机视觉掀起了热潮,因为它可以通过映射词的语义关联来捕捉每个词对特定目标的影响,也为模型添加了一定的可解释性。其变体自注意力机制在自然语言、图像识别领域也被证实有效。因此很多学者开始将自注意力的优势应用于该任务中。它的目的是获得一种考虑全局上下文的潜在表示,可以解决长期依赖不足的问题。此外,也有些研究构建基于依存树的图结构实现ACSA,但局限性在于需要寻找与方面类别相关的方面术语。而有些文本存在不规范的问题且方面类别通常不在文中明确描述出来,很难通过语言规则(例如依赖解析器)明确地利用上下文词和方面类别之间的关系。而自注意力机制能够学习句子内部结构特征,可以识别句子结构的差异,获得较好的学习效果。但自我注意通过加权平均操作将所有元素考虑在内,分散了注意力分布,这在ACSA中具有一定的局限性。因为可能会导致方面类别和情感匹配有误,造成结果的不准确。因此一个考虑上下文语义的自注意力网络提出,并被应用于ABSA中。
虽然以往的研究带来了显著的改进,但由于以下原因在大多数实际应用中仍然存在一些挑战:首先,ACSA任务的挑战之一是方面类别可能不在文本中出现,而这些模型利用给定的方面来指导句子编码,但却忽视了不同环境下方面表示的含义可能会存在不同,使得易受到其他方面类别有关较强情感词的干扰,使得上下文和方面信息的交互不足,效果不好。其次,大多数方法忽视了句子中重要词的位置信息对情感极性的影响,或只是将目标与句子特征拼接获得注意权重。但这样得到的位置向量可能会因为不同环境下词语对不同方面表示表达的情感存在不同而收到干扰,从而影响模型的性能。最后,ACSA的任务更多关注餐饮、电子产品等领域,但还未探索生鲜农产品在线评论的价值。新鲜葡萄是世界上最受欢迎的水果品种之一,因其丰富的营养价值和感官特性而受到消费者的高度赞赏。因此需要更进一步的研究来更好地了解消费者对鲜食葡萄在电商平台中的期望,以提升商家及产品质量。
发明内容
本发明的目的是提供的一种基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述基于自注意力的多层次融合方面类别情感分析方法包括:
S1:获取样本语句以及与样本语句相关联的若干组二元组标签信息;
S2:采用基于Bi-LSTM和卷积注意机制相结合来获取输入文本的序列信息与局部重要信息;
S3:获取方面类别指示词的位置信息;
S4:包含情景的自注意力机制重新学习方面信息,并引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析;其中利用词级别和句子级别共同提取文本特征;为解决考虑情境时不可避免带入的噪声问题,而引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息。
所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性;获取样本语句的初始句子序列,根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。
所述步骤S1中获取样本语句包括若干个单词。
所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。
所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法,以获得与方面类别有关的重要词语作为方面类别指示词,从而得到该词的位置信息;
所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析,用于实现对在线评论情感分布的精确分类。
所述步骤S1中获取样本语句的初始句子序列,具体包括:
将句子序列S通过嵌入矩阵映射,获得嵌入向量序列E={x1,x2,…,xn},其中
Figure BDA0003918197550000051
de表示单词嵌入的维度,给定预定义的方面类别ai∈A,方面嵌入可以通过映射得到/>
Figure BDA0003918197550000052
其中da是方面嵌入向量维度;
将单词嵌入E={x1,x2,…,xn}输入到多层Bi-LSTM中,第(l-1)层的输出送入下一层,则得到隐藏的上下文表示
Figure BDA0003918197550000053
在每一时间步t,当前隐藏状态/>
Figure BDA0003918197550000054
为:
Figure BDA0003918197550000055
Figure BDA0003918197550000056
Figure BDA0003918197550000057
其中
Figure BDA0003918197550000058
l∈L表示当前Bi-LSTM层的数量,ds/2表示Bi-LSTM一个隐藏状态的维数,该层的输出是一个隐藏表示的序列/>
Figure BDA0003918197550000059
式中
Figure BDA00039181975500000510
和/>
Figure BDA00039181975500000511
表示LSTM的正向传播和反向传播。
所述Bi-LSTM不能专注于局部特征,因而进一步利用卷积注意机制来提取高维语义,表示其中词与词之间的关系,它含有多头结构,在不同的子空间共同执行注意操作,但是只能考虑一个头部信息;一方面,卷积注意机制与传统卷积神经网络不同的是,它对高维语义卷积操作后,通过滤波器进行特征映射,这样不会因为卷积核的大小限制长距离依赖性能;另一方面,与自注意机制不同的是,它没有利用输入向量不同部分之间的信息,而是基于滤波器的内部信息,既保持了序列信息又对输入具有不变性;在这样的卷积滤波空间中,越重要的局部特征越接近相应的滤波器,而越不相关的部分越远离它,因此,它可以在基于上下文信息的基础上,捕捉到更重要的局部特征;
首先卷积注意机制接受Bi-LSTM的输出H表示作为输入,然后CNN卷积滤波器F=[f1,f2,…fm]在H上应用n元卷积运算,其中
Figure BDA0003918197550000061
c是卷积核的大小;可以通过如下公式得到特征映射矩阵M∈Rm×n
M=H*F (4)
式(4)中*表示卷积操作;在对输出表示应用所有过滤器之后,特征映射矩阵中具体值的含义如下:
mij=ψ(fi T·cat(hj,hj+1,…,hj+c-1)+b) (5)
其中cat表示拼接操作,ψ表示非线性激活函数,b为偏置值;卷积注意机制可以被视为一个信息过滤器,它过滤掉不相关的语义信息,同时保留与上下文相关的关键信息;则卷积注意向量的输出过程如下:
OM=F·M=F·(H*F) (6)
其式(6)中
Figure BDA0003918197550000071
表示查询(H)与键(F)的卷积操作的注意权值,该模块可以有效地从卷积滤波器中获取有价值的信息,这些信息直接作用于隐藏表示,捕捉重要局部特征;接下来所提出的融合机制在卷积层之后没有使用任何的池化操作来维持输入结构,可以避免池化操作导致输入序列顺序的丢失。
所述步骤S4情景的自注意力机制重新学习方面信息是通过包含情景的自注意力机制构建的方面类别预测方法获得与方面类别有关的重要词语作为方面类别指示词,将该词所在的位置作为重要位置信息,具体步骤包括:
输入层H首先转化为候选查询状态Qk,候选键状态Kk和值Vk,每个包含k个头;将ds维空间映射到dk维空间,其中dk=ds/k表示每个头的维度;类似于多头自我注意模型,允许模型从不同的表示子空间学习语义信息,情境导向的注意输出
Figure BDA0003918197550000072
在每个头可以被定义为:
Figure BDA0003918197550000073
所述步骤4中引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息,引入的上下文向量C将H转换为信息化的查询层和关键层,改进后的{Qk,Kk}如下表示:
Figure BDA0003918197550000074
其中
Figure BDA0003918197550000075
是上下文矩阵,/>
Figure BDA0003918197550000076
为可训练的参数,
Figure BDA0003918197550000077
是权重向量,可以避免由于/>
Figure BDA0003918197550000078
和/>
Figure BDA0003918197550000079
的值过大而导致的梯度较小的问题,具体地说是分配一个门控单元来学习上下文权重向量:
Figure BDA0003918197550000081
其中
Figure BDA0003918197550000082
是可训练参数,σ(·)表示sigmoid函数;可以看到,门控单元可以量化并保留在每个头部的情境表示;然后,将多个注意模型的输出进行串联,得到最终的输出表示O′;
在引入情境信息的同时不可避免会带来噪声信息,因此引入一个门控机制,该门控机制接受自注意机制的输出和上下文矩阵作为输入,包含一个非线性激活函数和一个门,其定义如下:
O=Fi⊙O′ (10)
F=σf(Wf·O′+Uf·C+bf) (11)
其式(10)、(11)中C表示上下文矩阵,通过将Ck与每个位置的隐藏向量连接起来后传递到具有残差连接的前馈线性层后获得;
Figure BDA0003918197550000083
⊙表示Hadamard乘积,σf为sigmoid函数;
为简单起见,上述全部过程可以表述为:
O=CGAtt(H,C) (12)
式(12)中CGAtt表示上述包含情景的自注意力机制的统称;在方面类别情感分析中,位置信息可以关注出现在句子中的方面信息,但即使方面类别中不存在于文本中,位置信息仍然起着重要的作用;句子中存在表示方面信息的词,可以将其视为方面指示词,把它们的位置看作是相应方面类别的位置;通过方面类别识别来获得对方面类别具有重要影响的单词权重,获得该单词的位置信息。
所述通过方面类别识别来获得对方面类别具有重要影响的单词权重,具体方法为:
将单词嵌入输入到LSTM层,并将每个时间步t的隐藏状态输出到Ht中:
Ht=LSTM(ht-1,xt) (13)
基于融合机制,通过隐藏上下文引导注意,为方面r生成一个特定于方面的隐藏交互状态:如下公式所示,
Figure BDA0003918197550000091
对于方面r通过注意机制计算每个单词识别给定方面的概率,
Figure BDA0003918197550000092
Figure BDA0003918197550000093
其中
Figure BDA0003918197550000094
是可训练的参数,方面注意权重αr∈Rn可以表示为Mr与μr的归一化相似度;
最后,将融合后的句子表示作为上下文隐藏状态的加权和进行方面检测:
Figure BDA0003918197550000095
Figure BDA0003918197550000096
所述获得该单词的位置信息的具体方法为:
通常基于阅读直觉,离特定目标越接近的情感词越能表达该情感;但由于特定目标可能不在句子中出现,因此利用方面注意权值αi来计算单词的局部表示,设计一个矩阵P表示文本中单词之间的相对距离:
Figure BDA0003918197550000101
其中n表示文本长度,i,j∈{1,2,…,n},|i-j|表示第i个字和第j个字之间的相对距离;
应用方面注意权值得到位置向量:
pl=Pαr (20)
对于每个方面r,靠近方面引导词的单词在pl中比其他的单词具有更高的权重值,对位置向量执行softmax函数,得到权重向量:
Figure BDA0003918197550000102
最后,获得针对方面类别r的位置注意的隐藏输出如下:
Figure BDA0003918197550000103
所述步骤4中引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,具体方法为:
方面类别与句子的语义密切相关,需要提取它们之间的深层语义关系,因此利用自注意力机制分别处理三个不同的输入,首先将方面嵌入输入到第一个CGATT模块,利用位置注意层的输出作为环境向量,构建新的基于上下文特征表示的方面嵌入;第二个和第三个CGATT模块都以第一个CGATT模块的输出作为环境向量,不同的是第二个利用并检索位置注意层的隐藏状态中有用的相关信息,而第三个直接使用原句的单词向量矩阵作为输入,然后将这两个CGATT模块的输出拼接起来作为最终生成的句子表示;
首先将隐藏状态作为全局上下文向量,重构
Figure BDA0003918197550000111
的方面表示:
Figure BDA0003918197550000112
其中
Figure BDA0003918197550000113
包含丰富的上下文信息,用于进行上下文表示向量的操作;在获得上下文语义方面嵌入后,分别从隐藏空间和词向量空间融合全局信息和方面信息;对于方面r,计算如下:
Figure BDA0003918197550000114
Figure BDA0003918197550000115
新的交互式表示向量C由c′r和c″r通过连接它们组成:
Cr=[c′r,c″r],r=1,2,·…,C (26)
通过上述方法,将给定的方面与上下文特征联系起来,将方面与上下文词之间的关系集成到表示向量中,将交互向量Cr输入到包含带有RELU激活函数的两个全连接层中,根据方面识别提供的权重结合全连接层的输出输入到softmax层中,预测情感极性作为最终输出;具体过程如下:
Figure BDA0003918197550000116
yr=softmax(prαr) (28)
其中
Figure BDA0003918197550000117
为训练参数;
对于方面识别任务,由于每个预测都是一个二值分类问题,因此损失函数定义为:
Figure BDA0003918197550000121
对于方面类别情感分类任务,采用带有L2正则化项的交叉熵作为损失函数:
Figure BDA0003918197550000122
最后,将方面识别任务和方面类别情感分类任务联合为两项任务模型,对组合损失函数训练模型中的参数进行训练:
Figure BDA0003918197550000123
其中γ为方面类别情感分类损失的权重,λ表示L2正则化参数,θ表示模型所有参数;此外,还加入了dropout策略以避免过拟合;最终得到基于自注意力的多层次融合方面类别情感分析预测模型。
本发明的有益效果如下:
1.本发明在Bi-LSTM的基础上进一步利用对其进行卷积操作,然后对卷积滤波器进行特征映射,这样既保持了序列信息又对输入具有不变性。解决了LSTM网络不能专注于局部特征,而CNN因卷积核大小的限制无法保留序列信息的问题,
2.本发明提出的方面类别识别方法对重要词语赋予较高的权重,进而获得相应的位置信息。解决了大多数方法忽视了句子中重要词的位置信息对情感极性的影响,或只是将目标与句子特征拼接获得注意权重进而影响分类效果的问题,
3.由于方面类别可能不在文本中出现,而这些模型利用给定的方面来指导句子编码,但却忽视了不同语境下方面表示的含义可能会存在不同,使得易受到其他方面类别有关较强情感词的干扰,使得上下文和方面信息的交互不足,效果不好。本发明提出的基于多层次融合模块从多个子空间中获取不同的上下文特征表示能够同时考虑到多级语义特征。并在模块中考虑到噪声信息的影响,加入了门控机制进行过滤信息的工作,提高上下文与方面类别的交互。
附图说明
图1为基于自注意力的多层次融合方面类别情感分析方法的总体流程示意图;
图2为基于自注意力的多层次融合方面类别情感分析模型结构图;
具体实施方式
本发明提供一种基于自注意力的多层次融合方面类别情感分析方法,下面结合附图和实施例,对本发明作进一步详细描述。
如图1所示的基于自注意力的多层次融合方面类别情感分析方法的总体流程示意图,该方法包括步骤:
S1:获取样本语句以及与样本语句相关联的若干组二元组标签信息;
S2:采用基于Bi-LSTM和卷积注意机制相结合来获取输入文本的序列信息与局部重要信息;
S3:获取方面类别指示词的位置信息;
S4:包含情景的自注意力机制重新学习方面信息,并引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析;其中利用词级别和句子级别共同提取文本特征;为解决考虑情境时不可避免带入的噪声问题,而引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息。
所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性;获取样本语句的初始句子序列,根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。
所述步骤S1中获取样本语句包括若干个单词。
所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。
所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法,以获得与方面类别有关的重要词语作为方面类别指示词,从而得到该词的位置信息;
所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析,用于实现对在线评论情感分布的精确分类。
所述步骤S1中获取样本语句的初始句子序列,具体包括:
将句子序列S通过嵌入矩阵映射,获得嵌入向量序列E={x1,x2,…,xn},其中
Figure BDA0003918197550000151
de表示单词嵌入的维度,给定预定义的方面类别ai∈A,方面嵌入可以通过映射得到/>
Figure BDA0003918197550000152
其中da是方面嵌入向量维度;
将单词嵌入E={x1,x2,…,xn}输入到多层Bi-LSTM中,第(l-1)层的输出送入下一层,则得到隐藏的上下文表示
Figure BDA0003918197550000153
在每一时间步t,当前隐藏状态/>
Figure BDA0003918197550000154
为:
Figure BDA0003918197550000155
Figure BDA0003918197550000156
Figure BDA0003918197550000157
其中
Figure BDA0003918197550000158
l∈L表示当前Bi-LSTM层的数量,ds/2表示Bi-LSTM一个隐藏状态的维数,该层的输出是一个隐藏表示的序列/>
Figure BDA0003918197550000159
式中
Figure BDA00039181975500001510
和/>
Figure BDA00039181975500001511
表示LSTM的正向传播和反向传播。
所述Bi-LSTM不能专注于局部特征,因而进一步利用卷积注意机制来提取高维语义,表示其中词与词之间的关系,它含有多头结构,在不同的子空间共同执行注意操作,但是只能考虑一个头部信息;一方面,卷积注意机制与传统卷积神经网络不同的是,它对高维语义卷积操作后,通过滤波器进行特征映射,这样不会因为卷积核的大小限制长距离依赖性能;另一方面,与自注意机制不同的是,它没有利用输入向量不同部分之间的信息,而是基于滤波器的内部信息,既保持了序列信息又对输入具有不变性;在这样的卷积滤波空间中,越重要的局部特征越接近相应的滤波器,而越不相关的部分越远离它,因此,它可以在基于上下文信息的基础上,捕捉到更重要的局部特征;
首先卷积注意机制接受Bi-LSTM的输出H表示作为输入,然后CNN卷积滤波器F=[f1,f2,…fm]在H上应用n元卷积运算,其中
Figure BDA0003918197550000161
c是卷积核的大小;可以通过如下公式得到特征映射矩阵M∈Rm×n
M=H*F (4)
式(4)中*表示卷积操作;在对输出表示应用所有过滤器之后,特征映射矩阵中具体值的含义如下:
mijψ(fi T·cat(hj,hj+1,…,hj+c-1)+b) (5)
其中cat表示拼接操作,ψ表示非线性激活函数,b为偏置值;卷积注意机制可以被视为一个信息过滤器,它过滤掉不相关的语义信息,同时保留与上下文相关的关键信息;则卷积注意向量的输出过程如下:
OM=F·M=F·(H*F) (6)
其式(6)中
Figure BDA0003918197550000162
表示查询(H)与键(F)的卷积操作的注意权值,该模块可以有效地从卷积滤波器中获取有价值的信息,这些信息直接作用于隐藏表示,捕捉重要局部特征;接下来所提出的融合机制在卷积层之后没有使用任何的池化操作来维持输入结构,可以避免池化操作导致输入序列顺序的丢失。
所述步骤S4情景的自注意力机制重新学习方面信息是通过包含情景的自注意力机制构建的方面类别预测方法获得与方面类别有关的重要词语作为方面类别指示词,将该词所在的位置作为重要位置信息,具体步骤包括:
输入层H首先转化为候选查询状态Qk,候选键状态Kk和值Vk,每个包含k个头;将ds维空间映射到dk维空间,其中dk=ds/k表示每个头的维度;类似于多头自我注意模型,允许模型从不同的表示子空间学习语义信息,情境导向的注意输出
Figure BDA0003918197550000171
在每个头可以被定义为:
Figure BDA0003918197550000172
所述步骤4中引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息,引入的上下文向量C将H转换为信息化的查询层和关键层,改进后的{Qk,Kk}如下表示:
Figure BDA0003918197550000173
其中
Figure BDA0003918197550000174
是上下文矩阵,/>
Figure BDA0003918197550000175
为可训练的参数,
Figure BDA0003918197550000176
是权重向量,可以避免由于/>
Figure BDA0003918197550000177
和/>
Figure BDA0003918197550000178
的值过大而导致的梯度较小的问题,具体地说是分配一个门控单元来学习上下文权重向量:
Figure BDA0003918197550000179
其中
Figure BDA00039181975500001710
是可训练参数,σ(·)表示sigmoid函数;可以看到,门控单元可以量化并保留在每个头部的情境表示;然后,将多个注意模型的输出进行串联,得到最终的输出表示O′;
在引入情境信息的同时不可避免会带来噪声信息,因此引入一个门控机制,该门控机制接受自注意机制的输出和上下文矩阵作为输入,包含一个非线性激活函数和一个门,其定义如下:
O=Fi⊙O′ (10)
F=σf(Wf·O′+Uf·C+bf) (II)
其式(10)、(11)中C表示上下文矩阵,通过将Ck与每个位置的隐藏向量连接起来后传递到具有残差连接的前馈线性层后获得;
Figure BDA0003918197550000181
⊙表示Hadamard乘积,σf为sigmoid函数;
为简单起见,上述全部过程可以表述为:
O=CGAtt(H,C) (12)
式(12)中CGAtt表示上述包含情景的自注意力机制的统称;在方面类别情感分析中,位置信息可以关注出现在句子中的方面信息,但即使方面类别中不存在于文本中,位置信息仍然起着重要的作用;句子中存在表示方面信息的词,可以将其视为方面指示词,把它们的位置看作是相应方面类别的位置;通过方面类别识别来获得对方面类别具有重要影响的单词权重,获得该单词的位置信息。
所述通过方面类别识别来获得对方面类别具有重要影响的单词权重,具体方法为:
将单词嵌入输入到LSTM层,并将每个时间步t的隐藏状态输出到Ht中:
Ht=LSTM(ht-1,xt) (13)
基于融合机制,通过隐藏上下文引导注意,为方面r生成一个特定于方面的隐藏交互状态:如下公式所示,
Figure BDA0003918197550000191
对于方面r通过注意机制计算每个单词识别给定方面的概率,
Figure BDA0003918197550000192
Figure BDA0003918197550000193
其中
Figure BDA0003918197550000194
是可训练的参数,方面注意权重ar∈Rn可以表示为Mr与μr的归一化相似度;
最后,将融合后的句子表示作为上下文隐藏状态的加权和进行方面检测:
Figure BDA0003918197550000195
Figure BDA0003918197550000196
所述获得该单词的位置信息的具体方法为:
通常基于阅读直觉,离特定目标越接近的情感词越能表达该情感;但由于特定目标可能不在句子中出现,因此利用方面注意权值αi来计算单词的局部表示,设计一个矩阵P表示文本中单词之间的相对距离:
Figure BDA0003918197550000197
其中n表示文本长度,i,j∈{1,2,…,n},|i-j|表示第i个字和第j个字之间的相对距离;
应用方面注意权值得到位置向量:
pl=Pαr (20)
对于每个方面r,靠近方面引导词的单词在pl中比其他的单词具有更高的权重值,对位置向量执行softmax函数,得到权重向量:
Figure BDA0003918197550000201
最后,获得针对方面类别r的位置注意的隐藏输出如下:
Figure BDA0003918197550000202
所述步骤4中引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,具体方法为:
方面类别与句子的语义密切相关,需要提取它们之间的深层语义关系,因此利用自注意力机制分别处理三个不同的输入,首先将方面嵌入输入到第一个CGATT模块,利用位置注意层的输出作为环境向量,构建新的基于上下文特征表示的方面嵌入;第二个和第三个CGATT模块都以第一个CGATT模块的输出作为环境向量,不同的是第二个利用并检索位置注意层的隐藏状态中有用的相关信息,而第三个直接使用原句的单词向量矩阵作为输入,然后将这两个CGATT模块的输出拼接起来作为最终生成的句子表示;
首先将隐藏状态作为全局上下文向量,重构
Figure BDA0003918197550000203
的方面表示:
Figure BDA0003918197550000204
其中
Figure BDA0003918197550000205
包含丰富的上下文信息,用于进行上下文表示向量的操作;在获得上下文语义方面嵌入后,分别从隐藏空间和词向量空间融合全局信息和方面信息;对于方面r,计算如下:
Figure BDA0003918197550000211
Figure BDA0003918197550000212
新的交互式表示向量C由c′r和c″r通过连接它们组成:
Cr=[c′r,c″r],r=1,2,…,C (26)
通过上述方法,将给定的方面与上下文特征联系起来,将方面与上下文词之间的关系集成到表示向量中,将交互向量Cr输入到包含带有RELU激活函数的两个全连接层中,根据方面识别提供的权重结合全连接层的输出输入到softmax层中,预测情感极性作为最终输出;具体过程如下:
Figure BDA0003918197550000213
yr=softmax(prαr) (28)
其中
Figure BDA0003918197550000214
为训练参数;
对于方面识别任务,由于每个预测都是一个二值分类问题,因此损失函数定义为:
Figure BDA0003918197550000215
对于方面类别情感分类任务,采用带有L2正则化项的交叉熵作为损失函数:
Figure BDA0003918197550000221
最后,将方面识别任务和方面类别情感分类任务联合为两项任务模型,对组合损失函数训练模型中的参数进行训练:
Figure BDA0003918197550000222
其中γ为方面类别情感分类损失的权重,λ表示L2正则化参数,θ表示模型所有参数;此外,还加入了dropout策略以避免过拟合;最终得到如图2所示的基于自注意力的多层次融合方面类别情感分析预测模型。

Claims (13)

1.一种基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述基于自注意力的多层次融合方面类别情感分析方法包括:
S1:获取样本语句以及与样本语句相关联的若干组二元组标签信息;
S2:采用基于Bi-LSTM和卷积注意机制相结合来获取输入文本的序列信息与局部重要信息;
S3:获取方面类别指示词的位置信息;
S4:包含情景的自注意力机制重新学习方面信息,并引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析;其中利用词级别和句子级别共同提取文本特征;为解决考虑情境时不可避免带入的噪声问题,而引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息。
2.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性;获取样本语句的初始句子序列,根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。
3.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S1中获取样本语句包括若干个单词。
4.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。
5.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法,以获得与方面类别有关的重要词语作为方面类别指示词,从而得到该词的位置信息。
6.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析,用于实现对在线评论情感分布的精确分类。
7.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S1中获取样本语句的初始句子序列,具体包括:
将句子序列S通过嵌入矩阵映射,获得嵌入向量序列E={x1,x2,…,xn},其中
Figure FDA0003918197540000021
de表示单词嵌入的维度,给定预定义的方面类别ai∈A,方面嵌入可以通过映射得到/>
Figure FDA0003918197540000022
其中da是方面嵌入向量维度;
将单词嵌入E={x1,x2,…,xn}输入到多层Bi-LSTM中,第(l-1)层的输出送入下一层,则得到隐藏的上下文表示
Figure FDA0003918197540000023
在每一时间步t,当前隐藏状态/>
Figure FDA0003918197540000024
为:
Figure FDA0003918197540000025
Figure FDA0003918197540000026
Figure FDA0003918197540000027
其中
Figure FDA0003918197540000031
l∈L表示当前Bi-LSTM层的数量,ds/2表示Bi-LSTM一个隐藏状态的维数,该层的输出是一个隐藏表示的序列/>
Figure FDA0003918197540000032
式中
Figure FDA0003918197540000033
和/>
Figure FDA0003918197540000034
表示LSTM的正向传播和反向传播。
8.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,利用卷积注意机制来提取高维语义,弥补Bi-LSTM无法捕捉局部特征的不足;一方面,卷积注意机制通过滤波器进行特征映射,不受卷积核大小的限制;另一方面,区别于自注意机制,它没有利用输入向量不同部分之间的信息,而是基于滤波器的内部信息,既保持了序列信息又对输入具有不变性;因此,它既能保持上下文信息也能捕捉到更重要的局部特征;首先卷积注意机制接受Bi-LSTM的输出H表示作为输入,然后CNN卷积滤波器F=[f1,f2,…fm]在H上应用n元卷积运算,其中
Figure FDA0003918197540000035
c是卷积核的大小;可以通过如下公式得到特征映射矩阵M∈Rm×n
M=H*F (4)
式(4)中*表示卷积操作;在对输出表示应用所有过滤器之后,特征映射矩阵中具体值的含义如下:
mij=ψ(fi T·cat(hj,hj+1,…,hj+c-1)+b) (5)
其中cat表示拼接操作,ψ表示非线性激活函数,b为偏置值;卷积注意机制可以被视为一个信息过滤器,它过滤掉不相关的语义信息,同时保留与上下文相关的关键信息;则卷积注意向量的输出过程如下:
OM=F·M=F·(H*F) (6)
其式(6)中
Figure FDA0003918197540000041
表示查询(H)与键(F)的卷积操作的注意权值,该模块可以有效地从卷积滤波器中获取有价值的信息,这些信息直接作用于隐藏表示,捕捉重要局部特征;接下来所提出的融合机制在卷积层之后没有使用任何的池化操作来维持输入结构,可以避免池化操作导致输入序列顺序的丢失。
9.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S4情景的自注意力机制重新学习方面信息是通过包含情景的自注意力机制构建的方面类别预测方法获得与方面类别有关的重要词语作为方面类别指示词,将该词所在的位置作为重要位置信息,具体步骤包括:
输入层H首先转化为候选查询状态Qk,候选键状态Kk和值Vk,每个包含k个头;将ds维空间映射到dk维空间,其中dk=ds/k表示每个头的维度;类似于多头自我注意模型,允许模型从不同的表示子空间学习语义信息,情境导向的注意输出
Figure FDA0003918197540000042
在每个头可以被定义为:
Figure FDA0003918197540000043
10.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤4中引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息,引入的上下文向量C将H转换为信息化的查询层和关键层,改进后的{Qk,Kk}如下表示:
Figure FDA0003918197540000051
其中
Figure FDA0003918197540000052
是上下文矩阵,/>
Figure FDA0003918197540000053
为可训练的参数,
Figure FDA0003918197540000054
是权重向量,可以避免由于/>
Figure FDA0003918197540000055
和/>
Figure FDA0003918197540000056
的值过大而导致的梯度较小的问题,具体地说是分配一个门控单元来学习上下文权重向量:
Figure FDA0003918197540000057
其中
Figure FDA0003918197540000058
是可训练参数,σ(·)表示sigmoid函数;可以看到,门控单元可以量化并保留在每个头部的情境表示;然后,将多个注意模型的输出进行串联,得到最终的输出表示O′;
在引入情境信息的同时不可避免会带来噪声信息,因此引入一个门控机制,该门控机制接受自注意机制的输出和上下文矩阵作为输入,包含一个非线性激活函数和一个门,其定义如下:
O=Fi⊙O′ (10)
F=σf(Wf·O′+Uf·C+bf) (11)
其式(10)、(11)中C表示上下文矩阵,通过将Ck与每个位置的隐藏向量连接起来后传递到具有残差连接的前馈线性层后获得;
Figure FDA0003918197540000059
⊙表示Hadamard乘积,σf为sigmoid函数;
为简单起见,上述全部过程可以表述为:
O=CGAtt(H,C) (12)
式(12)中CGAtt表示上述包含情景的自注意力机制的统称,在方面类别情感分析中,位置信息可以关注出现在句子中的方面信息,但即使方面类别中不存在于文本中,位置信息仍然起着重要的作用;句子中存在表示方面信息的词,可以将其视为方面指示词,把它们的位置看作是相应方面类别的位置;通过方面类别识别来获得对方面类别具有重要影响的单词权重,获得该单词的位置信息。
11.根据权利要求10所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述通过方面类别识别来获得对方面类别具有重要影响的单词权重,具体方法为:
将单词嵌入输入到LSTM层,并将每个时间步t的隐藏状态输出到Ht中:
Ht=LSTM(ht-1,xt) (13)
基于融合机制,通过隐藏上下文引导注意,为方面r生成一个特定于方面的隐藏交互状态:如下公式所示,
Figure FDA0003918197540000061
对于方面r通过注意机制计算每个单词识别给定方面的概率,
Figure FDA0003918197540000062
Figure FDA0003918197540000071
其中
Figure FDA0003918197540000072
是可训练的参数,方面注意权重αr∈Rn可以表示为Mr与μr的归一化相似度;
最后,将融合后的句子表示作为上下文隐藏状态的加权和进行方面检测:
Figure FDA0003918197540000073
Figure FDA0003918197540000074
12.根据权利要求10所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述获得该单词的位置信息的具体方法为:
通常基于阅读直觉,离特定目标越接近的情感词越能表达该情感;但由于特定目标可能不在句子中出现,因此利用方面注意权值αi来计算单词的局部表示,设计一个矩阵P表示文本中单词之间的相对距离:
Figure FDA0003918197540000075
其中n表示文本长度,i,j∈{1,2,…,n},|i-j|表示第i个字和第j个字之间的相对距离;
应用方面注意权值得到位置向量:
pl=Pαr (20)
对于每个方面r,靠近方面引导词的单词在pl中比其他的单词具有更高的权重值,对位置向量执行softmax函数,得到权重向量:
Figure FDA0003918197540000081
最后,获得针对方面类别r的位置注意的隐藏输出如下:
Figure FDA0003918197540000082
13.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤4中引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,具体方法为:
方面类别与句子的语义密切相关,需要提取它们之间的深层语义关系,因此利用自注意力机制分别处理三个不同的输入,首先将方面嵌入输入到第一个CGATT模块,利用位置注意层的输出作为环境向量,构建新的基于上下文特征表示的方面嵌入;第二个和第三个CGATT模块都以第一个CGATT模块的输出作为环境向量,不同的是第二个利用并检索位置注意层的隐藏状态中有用的相关信息,而第三个直接使用原句的单词向量矩阵作为输入,然后将这两个CGATT模块的输出拼接起来作为最终生成的句子表示;
首先将隐藏状态作为全局上下文向量,重构
Figure FDA0003918197540000083
的方面表示:
Figure FDA0003918197540000084
其中
Figure FDA0003918197540000085
包含丰富的上下文信息,用于进行上下文表示向量的操作;在获得上下文语义方面嵌入后,分别从隐藏空间和词向量空间融合全局信息和方面信息;对于方面r,计算如下:
Figure FDA0003918197540000091
Figure FDA0003918197540000092
新的交互式表示向量C由c′r和c″r通过连接它们组成:
Cr=[c′r,c″r],r=1,2,…,C (26)
通过上述方法,将给定的方面与上下文特征联系起来,将方面与上下文词之间的关系集成到表示向量中,将交互向量Cr输入到包含带有RELU激活函数的两个全连接层中,根据方面识别提供的权重结合全连接层的输出输入到softmax层中,预测情感极性作为最终输出;具体过程如下:
Figure FDA0003918197540000093
yr=softmax(prαr) (28)
其中
Figure FDA0003918197540000094
为训练参数;
对于方面识别任务,由于每个预测都是一个二值分类问题,因此损失函数定义为:
Figure FDA0003918197540000095
对于方面类别情感分类任务,采用带有L2正则化项的交叉熵作为损失函数:
Figure FDA0003918197540000101
最后,将方面识别任务和方面类别情感分类任务联合为两项任务模型,对组合损失函数训练模型中的参数进行训练:
Figure FDA0003918197540000102
其中γ为方面类别情感分类损失的权重,λ表示L2正则化参数,θ表示模型所有参数;此外,还加入了dropout策略以避免过拟合;最终得到基于自注意力的多层次融合方面类别情感分析预测模型。
CN202211345353.6A 2022-10-31 2022-10-31 基于自注意力的多层次融合方面类别情感分析方法 Pending CN116384372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211345353.6A CN116384372A (zh) 2022-10-31 2022-10-31 基于自注意力的多层次融合方面类别情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211345353.6A CN116384372A (zh) 2022-10-31 2022-10-31 基于自注意力的多层次融合方面类别情感分析方法

Publications (1)

Publication Number Publication Date
CN116384372A true CN116384372A (zh) 2023-07-04

Family

ID=86962018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211345353.6A Pending CN116384372A (zh) 2022-10-31 2022-10-31 基于自注意力的多层次融合方面类别情感分析方法

Country Status (1)

Country Link
CN (1) CN116384372A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786120A (zh) * 2024-02-28 2024-03-29 山东省计算中心(国家超级计算济南中心) 基于层次化注意力机制的文本情感分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786120A (zh) * 2024-02-28 2024-03-29 山东省计算中心(国家超级计算济南中心) 基于层次化注意力机制的文本情感分类方法及系统
CN117786120B (zh) * 2024-02-28 2024-05-24 山东省计算中心(国家超级计算济南中心) 基于层次化注意力机制的文本情感分类方法及系统

Similar Documents

Publication Publication Date Title
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
Wen et al. Ensemble of deep neural networks with probability-based fusion for facial expression recognition
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
Li et al. Improving convolutional neural network for text classification by recursive data pruning
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
Cao et al. Deep multi-view learning to rank
Kumar et al. Interpretable multimodal emotion recognition using hybrid fusion of speech and image data
Ma et al. A transformer-based model with self-distillation for multimodal emotion recognition in conversations
Chauhan et al. Analysis of Intelligent movie recommender system from facial expression
CN116384372A (zh) 基于自注意力的多层次融合方面类别情感分析方法
Wu et al. Sentimental visual captioning using multimodal transformer
Xia et al. Graph-based method for human-object interactions detection
Yuan [Retracted] A Classroom Emotion Recognition Model Based on a Convolutional Neural Network Speech Emotion Algorithm
CN117493973A (zh) 一种基于生成式人工智能的社交媒体负面情绪识别方法
CN112966503A (zh) 方面级情感分析方法
Zhou et al. Multi-modal multi-hop interaction network for dialogue response generation
CN112950414A (zh) 一种基于解耦法律要素的法律文本表示方法
CN117056451A (zh) 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法
CN111859925A (zh) 一种基于概率情感词典的情感分析系统及方法
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
Elabora et al. Evaluating citizens’ sentiments in smart cities: A deep learning approach
Song Distilling knowledge from user information for document level sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination