CN116384372A - 基于自注意力的多层次融合方面类别情感分析方法 - Google Patents
基于自注意力的多层次融合方面类别情感分析方法 Download PDFInfo
- Publication number
- CN116384372A CN116384372A CN202211345353.6A CN202211345353A CN116384372A CN 116384372 A CN116384372 A CN 116384372A CN 202211345353 A CN202211345353 A CN 202211345353A CN 116384372 A CN116384372 A CN 116384372A
- Authority
- CN
- China
- Prior art keywords
- information
- attention
- category
- context
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 79
- 238000004458 analytical method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 241000282326 Felis catus Species 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims 1
- 102100035709 Acetyl-coenzyme A synthetase, cytoplasmic Human genes 0.000 description 9
- 101000783232 Homo sapiens Acetyl-coenzyme A synthetase, cytoplasmic Proteins 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000219094 Vitaceae Species 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 235000021021 grapes Nutrition 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了属于应用自注意力机制对情感词语分析领域的一种基于自注意力的多层次融合方面类别情感分析方法;该方法主要包括:获取样本语句以及与所述样本语句的相关联的若干组二元组标签信息;结合Bi‑LSTM和卷积注意机制获取输入文本的序列信息与局部重要信息;获取方面类别指示词的位置信息;包含情景的自注意力机制重新学习方面信息,然后引入多层次融合模块融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,对不同环境下的方面表示进行区别关注,在多个领域都能达到较好的分类精度。本发明为在线评论方面类别情感分析提供了有效新方案,并对电商平台服务、产品提升以及消费群体购买决策具有有效指导意义。
Description
技术领域
本发明属于应用自注意力机制对情感词语分析领域,特别涉及一种基于自注意力的多层次融合方面类别情感分析方法。
背景技术
观点或意见几乎是所有人类进行活动的核心,是我们行为的关键影响因素。随着电子商务平台的兴起,在线评论成为宝贵的资源,尤其是对于受欢迎的产品和服务方面。从这些在线评论中识别和提取具有丰富观点的信息,有助于生产者和消费者做出决策。也就是说,评价不仅是电商销售产品的重要因素,而且在一定程度上也是影响消费者意愿的指标。但由于这些产品的评论数量巨大,要通过每一次评判对任何产品做出简单的决定是不可行的。因此,近年来,考虑到效率和大量评论数据的在线处理需求,情感分析从各个领域展开了探索。基于方面的情感分析(ABSA)作为情感分析领域的细粒度任务在近几年来受到广泛地关注,它主要包含两个子任务:方面项情感分析(ATSA)和方面类别情感分析(ACSA)。虽然近年来对ATSA和ACSA的研究都很有前景,但在本发明中,我们主要关注的是ACSA的任务。
ACSA的目的是在对情感极性(通常是积极的、消极的或中性的)进行分类的同时,根据方面类别对每个观点进行分类。可以看出他需要进行两个任务,方面类别识别(ACD)和方面情感分类(ASC)。与ATSA任务不同,ACSA任务中方面类别可能不会直接在句子中出现,且需要预定义。为了识别方面类别的情感,多年来人们致力于为给定方面目标建立合适的上下文特征。
在过去几十年里,早期传统的机器学习方法吸引较多人的研究,但这些方法严重依赖复杂的人工规则和特征工程,这样很容易忽视有效特征。随着深度学习技术的广泛应用,人们开始使用数据驱动的方式解决传统方法特征丢失问题。其中基于卷积神经网络(CNN)和递归神经网络(RNN)比如长短期记忆网络(LSTM)的大量有关研究被成功地应用于方面级情感分析中。CNN能够从时间或空间分布中学习局部特征,但在获取远程依赖以及建模序列信息方面存在不足。与CNN相比,RNN能够对序列信息进行有效建模,但缺乏位置不变性以及对局部信息的敏感性。上述方法使用不同的神经网络结构对语境和目标之间的关系进行建模,但考虑输入序列全部信息过于冗余,没有明确地建模每个词对识别特定目标情感的贡献程度。
注意力机制的出现在自然语言处理和计算机视觉掀起了热潮,因为它可以通过映射词的语义关联来捕捉每个词对特定目标的影响,也为模型添加了一定的可解释性。其变体自注意力机制在自然语言、图像识别领域也被证实有效。因此很多学者开始将自注意力的优势应用于该任务中。它的目的是获得一种考虑全局上下文的潜在表示,可以解决长期依赖不足的问题。此外,也有些研究构建基于依存树的图结构实现ACSA,但局限性在于需要寻找与方面类别相关的方面术语。而有些文本存在不规范的问题且方面类别通常不在文中明确描述出来,很难通过语言规则(例如依赖解析器)明确地利用上下文词和方面类别之间的关系。而自注意力机制能够学习句子内部结构特征,可以识别句子结构的差异,获得较好的学习效果。但自我注意通过加权平均操作将所有元素考虑在内,分散了注意力分布,这在ACSA中具有一定的局限性。因为可能会导致方面类别和情感匹配有误,造成结果的不准确。因此一个考虑上下文语义的自注意力网络提出,并被应用于ABSA中。
虽然以往的研究带来了显著的改进,但由于以下原因在大多数实际应用中仍然存在一些挑战:首先,ACSA任务的挑战之一是方面类别可能不在文本中出现,而这些模型利用给定的方面来指导句子编码,但却忽视了不同环境下方面表示的含义可能会存在不同,使得易受到其他方面类别有关较强情感词的干扰,使得上下文和方面信息的交互不足,效果不好。其次,大多数方法忽视了句子中重要词的位置信息对情感极性的影响,或只是将目标与句子特征拼接获得注意权重。但这样得到的位置向量可能会因为不同环境下词语对不同方面表示表达的情感存在不同而收到干扰,从而影响模型的性能。最后,ACSA的任务更多关注餐饮、电子产品等领域,但还未探索生鲜农产品在线评论的价值。新鲜葡萄是世界上最受欢迎的水果品种之一,因其丰富的营养价值和感官特性而受到消费者的高度赞赏。因此需要更进一步的研究来更好地了解消费者对鲜食葡萄在电商平台中的期望,以提升商家及产品质量。
发明内容
本发明的目的是提供的一种基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述基于自注意力的多层次融合方面类别情感分析方法包括:
S1:获取样本语句以及与样本语句相关联的若干组二元组标签信息;
S2:采用基于Bi-LSTM和卷积注意机制相结合来获取输入文本的序列信息与局部重要信息;
S3:获取方面类别指示词的位置信息;
S4:包含情景的自注意力机制重新学习方面信息,并引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析;其中利用词级别和句子级别共同提取文本特征;为解决考虑情境时不可避免带入的噪声问题,而引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息。
所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性;获取样本语句的初始句子序列,根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。
所述步骤S1中获取样本语句包括若干个单词。
所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。
所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法,以获得与方面类别有关的重要词语作为方面类别指示词,从而得到该词的位置信息;
所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析,用于实现对在线评论情感分布的精确分类。
所述步骤S1中获取样本语句的初始句子序列,具体包括:
所述Bi-LSTM不能专注于局部特征,因而进一步利用卷积注意机制来提取高维语义,表示其中词与词之间的关系,它含有多头结构,在不同的子空间共同执行注意操作,但是只能考虑一个头部信息;一方面,卷积注意机制与传统卷积神经网络不同的是,它对高维语义卷积操作后,通过滤波器进行特征映射,这样不会因为卷积核的大小限制长距离依赖性能;另一方面,与自注意机制不同的是,它没有利用输入向量不同部分之间的信息,而是基于滤波器的内部信息,既保持了序列信息又对输入具有不变性;在这样的卷积滤波空间中,越重要的局部特征越接近相应的滤波器,而越不相关的部分越远离它,因此,它可以在基于上下文信息的基础上,捕捉到更重要的局部特征;
M=H*F (4)
式(4)中*表示卷积操作;在对输出表示应用所有过滤器之后,特征映射矩阵中具体值的含义如下:
mij=ψ(fi T·cat(hj,hj+1,…,hj+c-1)+b) (5)
其中cat表示拼接操作,ψ表示非线性激活函数,b为偏置值;卷积注意机制可以被视为一个信息过滤器,它过滤掉不相关的语义信息,同时保留与上下文相关的关键信息;则卷积注意向量的输出过程如下:
OM=F·M=F·(H*F) (6)
其式(6)中表示查询(H)与键(F)的卷积操作的注意权值,该模块可以有效地从卷积滤波器中获取有价值的信息,这些信息直接作用于隐藏表示,捕捉重要局部特征;接下来所提出的融合机制在卷积层之后没有使用任何的池化操作来维持输入结构,可以避免池化操作导致输入序列顺序的丢失。
所述步骤S4情景的自注意力机制重新学习方面信息是通过包含情景的自注意力机制构建的方面类别预测方法获得与方面类别有关的重要词语作为方面类别指示词,将该词所在的位置作为重要位置信息,具体步骤包括:
输入层H首先转化为候选查询状态Qk,候选键状态Kk和值Vk,每个包含k个头;将ds维空间映射到dk维空间,其中dk=ds/k表示每个头的维度;类似于多头自我注意模型,允许模型从不同的表示子空间学习语义信息,情境导向的注意输出在每个头可以被定义为:
所述步骤4中引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息,引入的上下文向量C将H转换为信息化的查询层和关键层,改进后的{Qk,Kk}如下表示:
在引入情境信息的同时不可避免会带来噪声信息,因此引入一个门控机制,该门控机制接受自注意机制的输出和上下文矩阵作为输入,包含一个非线性激活函数和一个门,其定义如下:
O=Fi⊙O′ (10)
F=σf(Wf·O′+Uf·C+bf) (11)
为简单起见,上述全部过程可以表述为:
O=CGAtt(H,C) (12)
式(12)中CGAtt表示上述包含情景的自注意力机制的统称;在方面类别情感分析中,位置信息可以关注出现在句子中的方面信息,但即使方面类别中不存在于文本中,位置信息仍然起着重要的作用;句子中存在表示方面信息的词,可以将其视为方面指示词,把它们的位置看作是相应方面类别的位置;通过方面类别识别来获得对方面类别具有重要影响的单词权重,获得该单词的位置信息。
所述通过方面类别识别来获得对方面类别具有重要影响的单词权重,具体方法为:
将单词嵌入输入到LSTM层,并将每个时间步t的隐藏状态输出到Ht中:
Ht=LSTM(ht-1,xt) (13)
基于融合机制,通过隐藏上下文引导注意,为方面r生成一个特定于方面的隐藏交互状态:如下公式所示,
对于方面r通过注意机制计算每个单词识别给定方面的概率,
最后,将融合后的句子表示作为上下文隐藏状态的加权和进行方面检测:
所述获得该单词的位置信息的具体方法为:
通常基于阅读直觉,离特定目标越接近的情感词越能表达该情感;但由于特定目标可能不在句子中出现,因此利用方面注意权值αi来计算单词的局部表示,设计一个矩阵P表示文本中单词之间的相对距离:
其中n表示文本长度,i,j∈{1,2,…,n},|i-j|表示第i个字和第j个字之间的相对距离;
应用方面注意权值得到位置向量:
pl=Pαr (20)
对于每个方面r,靠近方面引导词的单词在pl中比其他的单词具有更高的权重值,对位置向量执行softmax函数,得到权重向量:
最后,获得针对方面类别r的位置注意的隐藏输出如下:
所述步骤4中引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,具体方法为:
方面类别与句子的语义密切相关,需要提取它们之间的深层语义关系,因此利用自注意力机制分别处理三个不同的输入,首先将方面嵌入输入到第一个CGATT模块,利用位置注意层的输出作为环境向量,构建新的基于上下文特征表示的方面嵌入;第二个和第三个CGATT模块都以第一个CGATT模块的输出作为环境向量,不同的是第二个利用并检索位置注意层的隐藏状态中有用的相关信息,而第三个直接使用原句的单词向量矩阵作为输入,然后将这两个CGATT模块的输出拼接起来作为最终生成的句子表示;
新的交互式表示向量C由c′r和c″r通过连接它们组成:
Cr=[c′r,c″r],r=1,2,·…,C (26)
通过上述方法,将给定的方面与上下文特征联系起来,将方面与上下文词之间的关系集成到表示向量中,将交互向量Cr输入到包含带有RELU激活函数的两个全连接层中,根据方面识别提供的权重结合全连接层的输出输入到softmax层中,预测情感极性作为最终输出;具体过程如下:
yr=softmax(prαr) (28)
对于方面识别任务,由于每个预测都是一个二值分类问题,因此损失函数定义为:
对于方面类别情感分类任务,采用带有L2正则化项的交叉熵作为损失函数:
最后,将方面识别任务和方面类别情感分类任务联合为两项任务模型,对组合损失函数训练模型中的参数进行训练:
其中γ为方面类别情感分类损失的权重,λ表示L2正则化参数,θ表示模型所有参数;此外,还加入了dropout策略以避免过拟合;最终得到基于自注意力的多层次融合方面类别情感分析预测模型。
本发明的有益效果如下:
1.本发明在Bi-LSTM的基础上进一步利用对其进行卷积操作,然后对卷积滤波器进行特征映射,这样既保持了序列信息又对输入具有不变性。解决了LSTM网络不能专注于局部特征,而CNN因卷积核大小的限制无法保留序列信息的问题,
2.本发明提出的方面类别识别方法对重要词语赋予较高的权重,进而获得相应的位置信息。解决了大多数方法忽视了句子中重要词的位置信息对情感极性的影响,或只是将目标与句子特征拼接获得注意权重进而影响分类效果的问题,
3.由于方面类别可能不在文本中出现,而这些模型利用给定的方面来指导句子编码,但却忽视了不同语境下方面表示的含义可能会存在不同,使得易受到其他方面类别有关较强情感词的干扰,使得上下文和方面信息的交互不足,效果不好。本发明提出的基于多层次融合模块从多个子空间中获取不同的上下文特征表示能够同时考虑到多级语义特征。并在模块中考虑到噪声信息的影响,加入了门控机制进行过滤信息的工作,提高上下文与方面类别的交互。
附图说明
图1为基于自注意力的多层次融合方面类别情感分析方法的总体流程示意图;
图2为基于自注意力的多层次融合方面类别情感分析模型结构图;
具体实施方式
本发明提供一种基于自注意力的多层次融合方面类别情感分析方法,下面结合附图和实施例,对本发明作进一步详细描述。
如图1所示的基于自注意力的多层次融合方面类别情感分析方法的总体流程示意图,该方法包括步骤:
S1:获取样本语句以及与样本语句相关联的若干组二元组标签信息;
S2:采用基于Bi-LSTM和卷积注意机制相结合来获取输入文本的序列信息与局部重要信息;
S3:获取方面类别指示词的位置信息;
S4:包含情景的自注意力机制重新学习方面信息,并引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析;其中利用词级别和句子级别共同提取文本特征;为解决考虑情境时不可避免带入的噪声问题,而引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息。
所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性;获取样本语句的初始句子序列,根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。
所述步骤S1中获取样本语句包括若干个单词。
所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。
所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法,以获得与方面类别有关的重要词语作为方面类别指示词,从而得到该词的位置信息;
所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析,用于实现对在线评论情感分布的精确分类。
所述步骤S1中获取样本语句的初始句子序列,具体包括:
所述Bi-LSTM不能专注于局部特征,因而进一步利用卷积注意机制来提取高维语义,表示其中词与词之间的关系,它含有多头结构,在不同的子空间共同执行注意操作,但是只能考虑一个头部信息;一方面,卷积注意机制与传统卷积神经网络不同的是,它对高维语义卷积操作后,通过滤波器进行特征映射,这样不会因为卷积核的大小限制长距离依赖性能;另一方面,与自注意机制不同的是,它没有利用输入向量不同部分之间的信息,而是基于滤波器的内部信息,既保持了序列信息又对输入具有不变性;在这样的卷积滤波空间中,越重要的局部特征越接近相应的滤波器,而越不相关的部分越远离它,因此,它可以在基于上下文信息的基础上,捕捉到更重要的局部特征;
M=H*F (4)
式(4)中*表示卷积操作;在对输出表示应用所有过滤器之后,特征映射矩阵中具体值的含义如下:
mijψ(fi T·cat(hj,hj+1,…,hj+c-1)+b) (5)
其中cat表示拼接操作,ψ表示非线性激活函数,b为偏置值;卷积注意机制可以被视为一个信息过滤器,它过滤掉不相关的语义信息,同时保留与上下文相关的关键信息;则卷积注意向量的输出过程如下:
OM=F·M=F·(H*F) (6)
其式(6)中表示查询(H)与键(F)的卷积操作的注意权值,该模块可以有效地从卷积滤波器中获取有价值的信息,这些信息直接作用于隐藏表示,捕捉重要局部特征;接下来所提出的融合机制在卷积层之后没有使用任何的池化操作来维持输入结构,可以避免池化操作导致输入序列顺序的丢失。
所述步骤S4情景的自注意力机制重新学习方面信息是通过包含情景的自注意力机制构建的方面类别预测方法获得与方面类别有关的重要词语作为方面类别指示词,将该词所在的位置作为重要位置信息,具体步骤包括:
输入层H首先转化为候选查询状态Qk,候选键状态Kk和值Vk,每个包含k个头;将ds维空间映射到dk维空间,其中dk=ds/k表示每个头的维度;类似于多头自我注意模型,允许模型从不同的表示子空间学习语义信息,情境导向的注意输出在每个头可以被定义为:
所述步骤4中引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息,引入的上下文向量C将H转换为信息化的查询层和关键层,改进后的{Qk,Kk}如下表示:
在引入情境信息的同时不可避免会带来噪声信息,因此引入一个门控机制,该门控机制接受自注意机制的输出和上下文矩阵作为输入,包含一个非线性激活函数和一个门,其定义如下:
O=Fi⊙O′ (10)
F=σf(Wf·O′+Uf·C+bf) (II)
为简单起见,上述全部过程可以表述为:
O=CGAtt(H,C) (12)
式(12)中CGAtt表示上述包含情景的自注意力机制的统称;在方面类别情感分析中,位置信息可以关注出现在句子中的方面信息,但即使方面类别中不存在于文本中,位置信息仍然起着重要的作用;句子中存在表示方面信息的词,可以将其视为方面指示词,把它们的位置看作是相应方面类别的位置;通过方面类别识别来获得对方面类别具有重要影响的单词权重,获得该单词的位置信息。
所述通过方面类别识别来获得对方面类别具有重要影响的单词权重,具体方法为:
将单词嵌入输入到LSTM层,并将每个时间步t的隐藏状态输出到Ht中:
Ht=LSTM(ht-1,xt) (13)
基于融合机制,通过隐藏上下文引导注意,为方面r生成一个特定于方面的隐藏交互状态:如下公式所示,
对于方面r通过注意机制计算每个单词识别给定方面的概率,
最后,将融合后的句子表示作为上下文隐藏状态的加权和进行方面检测:
所述获得该单词的位置信息的具体方法为:
通常基于阅读直觉,离特定目标越接近的情感词越能表达该情感;但由于特定目标可能不在句子中出现,因此利用方面注意权值αi来计算单词的局部表示,设计一个矩阵P表示文本中单词之间的相对距离:
其中n表示文本长度,i,j∈{1,2,…,n},|i-j|表示第i个字和第j个字之间的相对距离;
应用方面注意权值得到位置向量:
pl=Pαr (20)
对于每个方面r,靠近方面引导词的单词在pl中比其他的单词具有更高的权重值,对位置向量执行softmax函数,得到权重向量:
最后,获得针对方面类别r的位置注意的隐藏输出如下:
所述步骤4中引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,具体方法为:
方面类别与句子的语义密切相关,需要提取它们之间的深层语义关系,因此利用自注意力机制分别处理三个不同的输入,首先将方面嵌入输入到第一个CGATT模块,利用位置注意层的输出作为环境向量,构建新的基于上下文特征表示的方面嵌入;第二个和第三个CGATT模块都以第一个CGATT模块的输出作为环境向量,不同的是第二个利用并检索位置注意层的隐藏状态中有用的相关信息,而第三个直接使用原句的单词向量矩阵作为输入,然后将这两个CGATT模块的输出拼接起来作为最终生成的句子表示;
新的交互式表示向量C由c′r和c″r通过连接它们组成:
Cr=[c′r,c″r],r=1,2,…,C (26)
通过上述方法,将给定的方面与上下文特征联系起来,将方面与上下文词之间的关系集成到表示向量中,将交互向量Cr输入到包含带有RELU激活函数的两个全连接层中,根据方面识别提供的权重结合全连接层的输出输入到softmax层中,预测情感极性作为最终输出;具体过程如下:
yr=softmax(prαr) (28)
对于方面识别任务,由于每个预测都是一个二值分类问题,因此损失函数定义为:
对于方面类别情感分类任务,采用带有L2正则化项的交叉熵作为损失函数:
最后,将方面识别任务和方面类别情感分类任务联合为两项任务模型,对组合损失函数训练模型中的参数进行训练:
其中γ为方面类别情感分类损失的权重,λ表示L2正则化参数,θ表示模型所有参数;此外,还加入了dropout策略以避免过拟合;最终得到如图2所示的基于自注意力的多层次融合方面类别情感分析预测模型。
Claims (13)
1.一种基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述基于自注意力的多层次融合方面类别情感分析方法包括:
S1:获取样本语句以及与样本语句相关联的若干组二元组标签信息;
S2:采用基于Bi-LSTM和卷积注意机制相结合来获取输入文本的序列信息与局部重要信息;
S3:获取方面类别指示词的位置信息;
S4:包含情景的自注意力机制重新学习方面信息,并引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析;其中利用词级别和句子级别共同提取文本特征;为解决考虑情境时不可避免带入的噪声问题,而引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息。
2.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S1中二元组标签信息包括样本语句相关联的方面类别种类和情感极性;获取样本语句的初始句子序列,根据样本语句的初始句子序列以及二元组标签信息构建样本语句的二元组标签序列。
3.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S1中获取样本语句包括若干个单词。
4.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S2获取输入文本的序列信息与局部重要信息中的局部重要信息为短语和词组。
5.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S3获取方面类别指示词的位置信息是用于设计方面类别检测方法,以获得与方面类别有关的重要词语作为方面类别指示词,从而得到该词的位置信息。
6.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S4中引入的融合多层次信息对评论文本方面类别情感进行分析,用于实现对在线评论情感分布的精确分类。
7.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤S1中获取样本语句的初始句子序列,具体包括:
8.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,利用卷积注意机制来提取高维语义,弥补Bi-LSTM无法捕捉局部特征的不足;一方面,卷积注意机制通过滤波器进行特征映射,不受卷积核大小的限制;另一方面,区别于自注意机制,它没有利用输入向量不同部分之间的信息,而是基于滤波器的内部信息,既保持了序列信息又对输入具有不变性;因此,它既能保持上下文信息也能捕捉到更重要的局部特征;首先卷积注意机制接受Bi-LSTM的输出H表示作为输入,然后CNN卷积滤波器F=[f1,f2,…fm]在H上应用n元卷积运算,其中c是卷积核的大小;可以通过如下公式得到特征映射矩阵M∈Rm×n:
M=H*F (4)
式(4)中*表示卷积操作;在对输出表示应用所有过滤器之后,特征映射矩阵中具体值的含义如下:
mij=ψ(fi T·cat(hj,hj+1,…,hj+c-1)+b) (5)
其中cat表示拼接操作,ψ表示非线性激活函数,b为偏置值;卷积注意机制可以被视为一个信息过滤器,它过滤掉不相关的语义信息,同时保留与上下文相关的关键信息;则卷积注意向量的输出过程如下:
OM=F·M=F·(H*F) (6)
10.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤4中引入门控机制过滤噪声信息,以更精确地表示获取基于上下文的方面类别和有效获得重要词的位置信息,引入的上下文向量C将H转换为信息化的查询层和关键层,改进后的{Qk,Kk}如下表示:
在引入情境信息的同时不可避免会带来噪声信息,因此引入一个门控机制,该门控机制接受自注意机制的输出和上下文矩阵作为输入,包含一个非线性激活函数和一个门,其定义如下:
O=Fi⊙O′ (10)
F=σf(Wf·O′+Uf·C+bf) (11)
为简单起见,上述全部过程可以表述为:
O=CGAtt(H,C) (12)
式(12)中CGAtt表示上述包含情景的自注意力机制的统称,在方面类别情感分析中,位置信息可以关注出现在句子中的方面信息,但即使方面类别中不存在于文本中,位置信息仍然起着重要的作用;句子中存在表示方面信息的词,可以将其视为方面指示词,把它们的位置看作是相应方面类别的位置;通过方面类别识别来获得对方面类别具有重要影响的单词权重,获得该单词的位置信息。
12.根据权利要求10所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述获得该单词的位置信息的具体方法为:
通常基于阅读直觉,离特定目标越接近的情感词越能表达该情感;但由于特定目标可能不在句子中出现,因此利用方面注意权值αi来计算单词的局部表示,设计一个矩阵P表示文本中单词之间的相对距离:
其中n表示文本长度,i,j∈{1,2,…,n},|i-j|表示第i个字和第j个字之间的相对距离;
应用方面注意权值得到位置向量:
pl=Pαr (20)
对于每个方面r,靠近方面引导词的单词在pl中比其他的单词具有更高的权重值,对位置向量执行softmax函数,得到权重向量:
最后,获得针对方面类别r的位置注意的隐藏输出如下:
13.根据权利要求1所述的基于自注意力的多层次融合方面类别情感分析方法,其特征在于,所述步骤4中引入融合多层次信息来融合学习多层次上下文特征之间的相互作用,实现方面类别情感分析,具体方法为:
方面类别与句子的语义密切相关,需要提取它们之间的深层语义关系,因此利用自注意力机制分别处理三个不同的输入,首先将方面嵌入输入到第一个CGATT模块,利用位置注意层的输出作为环境向量,构建新的基于上下文特征表示的方面嵌入;第二个和第三个CGATT模块都以第一个CGATT模块的输出作为环境向量,不同的是第二个利用并检索位置注意层的隐藏状态中有用的相关信息,而第三个直接使用原句的单词向量矩阵作为输入,然后将这两个CGATT模块的输出拼接起来作为最终生成的句子表示;
新的交互式表示向量C由c′r和c″r通过连接它们组成:
Cr=[c′r,c″r],r=1,2,…,C (26)
通过上述方法,将给定的方面与上下文特征联系起来,将方面与上下文词之间的关系集成到表示向量中,将交互向量Cr输入到包含带有RELU激活函数的两个全连接层中,根据方面识别提供的权重结合全连接层的输出输入到softmax层中,预测情感极性作为最终输出;具体过程如下:
yr=softmax(prαr) (28)
对于方面识别任务,由于每个预测都是一个二值分类问题,因此损失函数定义为:
对于方面类别情感分类任务,采用带有L2正则化项的交叉熵作为损失函数:
最后,将方面识别任务和方面类别情感分类任务联合为两项任务模型,对组合损失函数训练模型中的参数进行训练:
其中γ为方面类别情感分类损失的权重,λ表示L2正则化参数,θ表示模型所有参数;此外,还加入了dropout策略以避免过拟合;最终得到基于自注意力的多层次融合方面类别情感分析预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211345353.6A CN116384372A (zh) | 2022-10-31 | 2022-10-31 | 基于自注意力的多层次融合方面类别情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211345353.6A CN116384372A (zh) | 2022-10-31 | 2022-10-31 | 基于自注意力的多层次融合方面类别情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116384372A true CN116384372A (zh) | 2023-07-04 |
Family
ID=86962018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211345353.6A Pending CN116384372A (zh) | 2022-10-31 | 2022-10-31 | 基于自注意力的多层次融合方面类别情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384372A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786120A (zh) * | 2024-02-28 | 2024-03-29 | 山东省计算中心(国家超级计算济南中心) | 基于层次化注意力机制的文本情感分类方法及系统 |
-
2022
- 2022-10-31 CN CN202211345353.6A patent/CN116384372A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117786120A (zh) * | 2024-02-28 | 2024-03-29 | 山东省计算中心(国家超级计算济南中心) | 基于层次化注意力机制的文本情感分类方法及系统 |
CN117786120B (zh) * | 2024-02-28 | 2024-05-24 | 山东省计算中心(国家超级计算济南中心) | 基于层次化注意力机制的文本情感分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275085B (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
Wen et al. | Ensemble of deep neural networks with probability-based fusion for facial expression recognition | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
Li et al. | Improving convolutional neural network for text classification by recursive data pruning | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
Cao et al. | Deep multi-view learning to rank | |
Kumar et al. | Interpretable multimodal emotion recognition using hybrid fusion of speech and image data | |
Ma et al. | A transformer-based model with self-distillation for multimodal emotion recognition in conversations | |
Chauhan et al. | Analysis of Intelligent movie recommender system from facial expression | |
CN116384372A (zh) | 基于自注意力的多层次融合方面类别情感分析方法 | |
Wu et al. | Sentimental visual captioning using multimodal transformer | |
Xia et al. | Graph-based method for human-object interactions detection | |
Yuan | [Retracted] A Classroom Emotion Recognition Model Based on a Convolutional Neural Network Speech Emotion Algorithm | |
CN117493973A (zh) | 一种基于生成式人工智能的社交媒体负面情绪识别方法 | |
CN112966503A (zh) | 方面级情感分析方法 | |
Zhou et al. | Multi-modal multi-hop interaction network for dialogue response generation | |
CN112950414A (zh) | 一种基于解耦法律要素的法律文本表示方法 | |
CN117056451A (zh) | 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法 | |
CN111859925A (zh) | 一种基于概率情感词典的情感分析系统及方法 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
Elabora et al. | Evaluating citizens’ sentiments in smart cities: A deep learning approach | |
Song | Distilling knowledge from user information for document level sentiment classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |