CN115658890A - 基于主题增强的情感共注意力bert模型的中文评论分类方法 - Google Patents

基于主题增强的情感共注意力bert模型的中文评论分类方法 Download PDF

Info

Publication number
CN115658890A
CN115658890A CN202211270443.3A CN202211270443A CN115658890A CN 115658890 A CN115658890 A CN 115658890A CN 202211270443 A CN202211270443 A CN 202211270443A CN 115658890 A CN115658890 A CN 115658890A
Authority
CN
China
Prior art keywords
attention
topic
emotion
representation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211270443.3A
Other languages
English (en)
Inventor
王世宇
周刚
陈静
兰明敬
卢记仓
李珠峰
夏毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202211270443.3A priority Critical patent/CN115658890A/zh
Publication of CN115658890A publication Critical patent/CN115658890A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种基于主题增强的情感共注意力BERT模型的中文评论分类方法,包括:构建基于主题增强的情感共注意力BERT模型,该模型包括一个上下文编码模块、一个基于GRU网络的主题分类模块及一个基于共注意力网络的情感注意模块;所述上下文编码模块用于使用BERT或类BERT模型生成每个单词和整个句子的上下文表示;所述主题分类模块用于生成每个主题的表示;所述情感注意模块用于将单词表示与主题表示进行共注意力计算,并将注意力值施加在每个单词上,得到情感的注意力表示;通过构建的基于主题增强的情感共注意力BERT模型对中文评论数据进行分类。本发明提升了中文评论的分类准确性,进而提升了情感分析的准确性。

Description

基于主题增强的情感共注意力BERT模型的中文评论分类方法
技术领域
本发明涉及情感分类技术领域,尤其涉及一种基于主题增强的情感共注意力BERT模型的中文评论分类方法。
背景技术
在利用外部知识辅助情感分析的研究中,已有的技术主要采用引入情感词典、 嵌入外部知识,或者设计新的预训练策略等方法,将外部知识引入到情感分析中。
早期基于机器学习的情感分析技术,通过外部信息来辅助情感分析,这些外 部信息大多通过增加新特征的方式引入。比如,对于Twitter数据,在构造特征 时,加入hashtags信息进行情感分析;还有研究使用情感字典辅助情感分析,如 SentiWordNet。eSAP在对SentiWordNet进行加工处理之后,将基于无监督的词 粒度情感与有监督学习进行结合,从词汇表中提取特征权重,输入SVM分类器 进行学习。
人为引入新特征,并使用机器学习的方法进行情感预测,耗费人力而且不够 灵活,一些深度模型通过增加嵌入的方法引入外部信息。ATAE-LSTM将方面嵌 入与词嵌入拼接,输入双向LSTM模型,将每个时刻输出的隐藏状态与方面嵌 入再次拼接,计算注意力值。ASAP使用多任务联合训练的方法,模型在学习方 面类别情感状态的同时,对评论执行评分预测,发现方面级情感的感知能够提升 整体评分预测准确性。
随着预训练模型在NLP领域的广泛应用,针对情感分析任务的预训练模型 被提出。SentiBERT将上下文表示与短语二叉树结合,从而捕获句子中的情感信 息。SKEP和SentiLARE通过设计新的预训练任务,结合情感词典、词性标记等 多种情感知识,提出了情感知识增强的预训练模型,在句子层面的表征和单词层 面的语言知识之间建立联系。但是,重新执行预训练任务的代价很大。在下游任 务中,人们更希望通过微调来利用预训练模型的强大表示能力,而不是从头开始 训练一个模型。
关于主题情感联合模型的研究工作,弱监督分层贝叶斯模型JST,适用于情 感分类的Sentiment-LDA等技术方法初步表明,文本中的主题和情感往往是密不 可分的,主题信息和情感信息的交互能够提升二者的识别效果。然而,基于LDA 模型提取的主题以词的多项式分布表示,只能大致反映主题的含义。此外,主题 的数目会影响主题提取的效果。在实际应用中,大量时间被耗费在确定最佳主题 数目的工作上。
发明内容
在情感分析任务中,通过引入外部知识提升预测效果的思想正在逐渐兴起。 主题情感联合模型表明,主题作为细粒度情感的载体,能够为情感分析提供辅助。 然而,当前对细粒度情感的研究注重于它们的识别,而很少关注它们对整体情感 的影响。为了使用主题信息辅助情感分析,本发明提出了一种基于主题增强的情 感共注意力BERT模型(TescaBERT)的中文评论分类方法。通过多任务学习框 架,主题信息被学习并用于指导模型进行情感分类。多阶段学习策略保证了模型 注入先验知识的准确性,交替共注意力机制使得最重要的主题和情感表达被关注。 本发明对中文银行评论数据和餐厅评论数据的标签进行自动转化,以获取有监督 的主题信息。实验结果表明,TescaBERT模型在2种数据集中取得了超过基线的 最先进水平,情感预测Kappa系数提升超过1个百分点。TescaBERT模型在可 解释性、噪声的抵抗性上也具备明显优势。
为了实现上述目的,本发明采用以下技术方案:
一种基于主题增强的情感共注意力BERT模型的中文评论分类方法,包括:
步骤1:构建基于主题增强的情感共注意力BERT模型,该模型包括一个上 下文编码模块、一个基于GRU网络的主题分类模块及一个基于共注意力网络的 情感注意模块;所述上下文编码模块用于使用BERT或类BERT模型生成每个单 词和整个句子的上下文表示;所述主题分类模块用于生成每个主题的表示;所述 情感注意模块用于将单词表示与主题表示进行共注意力计算,并将注意力值施加 在每个单词上,得到情感的注意力表示;
步骤2:通过构建的基于主题增强的情感共注意力BERT模型对中文评论数 据进行分类。
进一步地,所述主题分类模块中,采用双向GRU从上下文表示中提取主题 信息,为了减小主题信息之间的相互影响,对每个主题设置一个独立的双向GRU, 用于该主题信息的提取。
进一步地,所述主题分类模块中:
从特殊字符[CLS]的编码中获取句子的主题信息hcls
Figure BDA0003894961890000031
将hcls输 入m个双向GRU网络,得到m个隐藏状态t1,t2,...tm,其中,
Figure BDA0003894961890000032
将t1,t2,...tm依次输入全连接层,经过sigmoid函数激活后,得到m个主题 在句子中的概率分布,与对应主题标签计算损失,进行反向传播;并使用二元 交叉熵计算分类的损失。
进一步地,所述情感注意模块中:
将n个单词的表示向量进行堆叠,得到矩阵H=[h1,h2,...hn],
Figure BDA0003894961890000033
矩阵H包含句子的局部上下文信息,与主题表示 T=[t1,t2,...tm]一起,预测情感状态;
交替共注意力的迭代公式如下所示:
Figure BDA0003894961890000034
Figure BDA0003894961890000035
Figure BDA0003894961890000036
其中,X是输入矩阵,g是注意力指导向量,
Figure BDA00038949618900000318
是元素全为1的向量,M 是向量g指导下的中间表示,ax为关于当前输入的注意力分数,xi为输入矩阵 X的第i列对应的向量,
Figure BDA0003894961890000037
为第i个列向量的注意力得分,
Figure BDA0003894961890000038
为输出的注意力 表示,
Figure BDA0003894961890000039
Figure BDA00038949618900000310
为可学习参数;
在共注意力的第一步,X=H,且g=0,通过注意力池化,输出句子的 整体表示
Figure BDA00038949618900000311
在共注意力的第二步,X=T,且
Figure BDA00038949618900000312
通过句子表示
Figure BDA00038949618900000313
指导主题的注 意力生成,输出主题的注意力表示
Figure BDA00038949618900000314
该表示关注句子主要讨论的主题,忽略 无关的主题;
在共注意力的第三步,X=H,且
Figure BDA00038949618900000315
通过主题的表示
Figure BDA00038949618900000316
指导句子的 注意力生成,输出新的句子注意力表示
Figure BDA00038949618900000317
该表示关注句子中和主题相关的内 容,它包含着与主题相关的情感信息;
最后,将
Figure BDA0003894961890000041
送入全连接层,输出结果经过softmax归一化后,得到句子情感 的概率分布,与对应情感标签计算损失,进行反向传播;对于情感分析,使用 交叉熵计算分类的损失。
进一步地,在对模型进行训练时,采用多阶段训练策略,先对主题分类模块 进行训练,确保模型获取正确的外部主题信息;再对情感注意模块进行训练,确 保模型在正确主题信息的指导下生成情感的注意力表示。
进一步地,所述多阶段训练策略包括:
在第一阶段,只对主题分类模块进行训练,计算主题分类的损失;
在第二阶段,同时对主题分类模块和情感注意模块进行训练,并计算二者的 加权损失;
将主题分类模块的预测结果作为主题注意力计算的掩码:对于主题i,如果 预测值
Figure BDA0003894961890000042
即不涉及该主题,则对主题i的注意力值进行掩盖,即
Figure BDA0003894961890000043
如果预测结果
Figure BDA0003894961890000044
即涉及该主题,则保持原有注意力值不变,即
Figure BDA0003894961890000045
最后对经过掩码的注意力值重新归一化,确保
Figure BDA0003894961890000046
与现有技术相比,本发明具有的有益效果:
本发明提出了一种基于主题增强的情感共注意力BERT模型TescaBERT,该 模型采取多阶段学习策略引入外部主题信息,将主题表示注入交替共注意力层, 指导模型学习情感的注意力表示,该模型提升了中文评论的分类准确性,进而提 升了情感分析的准确性。
实验结果表明,TescaBERT模型在2种数据集中取得了超过基线的最先进水 平,情感预测Kappa系数提升超过1个百分点。TescaBERT模型在可解释性、 噪声的抵抗性上也具备明显优势。
附图说明
图1为本发明实施例一种基于主题增强的情感共注意力BERT模型的中文评 论分类方法的基本流程图;
图2为本发明实施例的TescaBERT框架示意图;
图3为本发明实施例主题注意力命中率;其中左为宽松命中率,右为严格命 中率;hit@1表示注意力最大者命中了正确的主题,hit@2表示前2注意力命中 了正确的主题,依次类推;未标注*号的数据为TescaBERT的运行结果,标注* 号的数据为TescaBERT在取消主题注意力掩码后的运行结果;
图4为本发明实施例注入噪声后模型分类指标变化;其中左为Kappa系数 在注入噪声后的变化情况,右为F1值在注入噪声后的变化情况,参考线为模型 在无噪声环境中多次训练的平均结果。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,一种基于主题增强的情感共注意力BERT模型的中文评论分类 方法,包括:
步骤1:构建基于主题增强的情感共注意力BERT模型,该模型包括一个上 下文编码模块、一个基于GRU网络的主题分类模块及一个基于共注意力网络的 情感注意模块;所述上下文编码模块用于使用BERT或类BERT模型生成每个单 词和整个句子的上下文表示;所述主题分类模块用于生成每个主题的表示;所述 情感注意模块用于将单词表示与主题表示进行共注意力计算,并将注意力值施加 在每个单词上,得到情感的注意力表示;
步骤2:通过构建的基于主题增强的情感共注意力BERT模型对中文评论数 据进行分类。
具体地,本发明提出了一种新的情感分析模型TescaBERT:一个基于BERT 实现主题分类,并辅助情感聚焦的模型。模型主要由3个模块组成:1)一个类 似BERT的上下文编码模块;2)一个基于GRU网络的主题分类模块;3)一个 基于共注意力网络的情感注意模块。模型的整体结构如图2所示,每个模块概述 如下。
上下文编码模块:这个模块使用BERT或类BERT模型生成每个单词和整个句 子的上下文表示。
主题分类模块:这个模块用于生成每个主题的表示,它们基于全局上下文 表示得到,受到句子主题标签的监督,包含当前句子在每个主题下的信息,将 会被用于情感表示的注意力生成。
情感注意模块:这个模块将单词表示与主题表示进行共注意力计算,并将 注意力值施加在每个单词上,得到情感的注意力表示,受到句子情感标签的监 督。
TescaBERT使用类似BERT的预训练模型在底层作为上下文编码器,且仅通 过微调获取上下文表示中包含的语义信息。同时,为了确保引入外部信息的准 确性,模型需要在拥有外部信息标签(即主题标签)的前提下,有监督地学习 外部信息的表示。因此,TescaBERT采用多任务学习与多阶段训练相结合的策 略,在模型中分别构建主题信息与情感信息的学习器,在不同的阶段对不同模 块的参数进行更新。最后,为了使外部信息的表示与上下文表示有效的结合, TescaBERT采取交替共注意力机制学习情感信息的注意力表示。
1.基于BERT的上下文编码
BERT和类BERT模型拥有编码上下文的强大能力。它不仅能够获取每个词 的隐藏表示,也能够从特殊字符[CLS]中得到全局的语义信息,例如情感状态、 主题状态等。这类信息由具体下游任务决定,能够通过微调获取。
2.基于GRU的主题分类
GRU在LSTM的基础上进行改进,能够通过控制网络记忆的更新与重置, 捕获主题与上下文之间的长期依赖关系,提取高级语义特征。因此,TescaBERT 使用双向GRU,从上下文表示中提取主题信息。为了减小主题信息之间的相互 影响,对每个主题设置一个独立的GRU,用于该主题信息的提取。
将句子输入BERT得到编码表示后,模型从特殊字符[CLS]的编码中获取句 子的主题信息。数据集中预先定义了m个主题,特殊字符[CLS]被BERT编码表 示为hcls,其中
Figure BDA0003894961890000061
将hcls输入m个双向GRU网络,得到m个隐藏状态 t1,t2,...tm,其中,
Figure BDA0003894961890000062
ti=GRUi(hcls),i∈{1,2,...,m} (1)
为了使每个隐藏状态分别对应一个主题的语义,将t1,t2,...tm依次输入全连 接层,经过sigmoid函数激活后,得到m个主题在句子中的概率分布,与对应主 题标签计算损失,进行反向传播。由于主题分类为多标签分类任务,模型使用 二元交叉熵计算分类的损失,如下所示:
Figure BDA0003894961890000063
其中,m为主题类别个数,
Figure BDA0003894961890000071
为第i个主题的标签,
Figure BDA0003894961890000072
代表句子不涉 及主题i,
Figure BDA0003894961890000073
代表句子的内容与主题i相关,
Figure BDA0003894961890000074
是主题分类器的输出,σ1为 非线性激活函数sigmoid。
在对主题分类模块进行训练后,每个GRU输出的隐藏状态ti蕴含着第i个 主题在句子中的信息。m个向量堆叠得到的矩阵T=[t1,t2,...tm]为句子的主题 表示,它将作为外部信息参与到后续的注意力计算。
3.基于共注意力的情感分析
TescaBERT将交替共注意力机制运用于情感表示的生成。交替共注意力通 过三次迭代,分别针对文本、主题和情感生成注意力。同时,上一阶段的结果 还将参与到下一个阶段的注意力生成,较为符合人的认知过程,即正确的文本 信息指导关注正确的主题,正确的主题信息指导关注正确的情感。
对于含有n个单词的句子,经过BERT编码表示后,每个单词被表示为 h1,h2,...hn,其中,
Figure BDA0003894961890000075
将n个单词的表示向量进行堆叠, 得到矩阵H=[h1,h2,...hn],它包含句子的局部的上下文信息,将与主题表示T 一起,预测情感状态。
交替共注意力模型的迭代公式如下所示:
Figure BDA0003894961890000076
Figure BDA0003894961890000077
Figure BDA0003894961890000078
其中,X是输入矩阵,g是注意力指导向量,
Figure BDA00038949618900000719
是元素全为1的向量,M 是向量g指导下的中间表示,ax为关于当前输入的注意力分数,xi为输入矩阵 X的第i列对应的向量,
Figure BDA0003894961890000079
为第i个列向量的注意力得分,
Figure BDA00038949618900000710
为输出的注意力 表示,
Figure BDA00038949618900000711
Figure BDA00038949618900000712
为可学习参数。
1)在共注意力的第一步,X=H,且g=0。该步骤通过注意力池化, 输出句子的整体表示
Figure BDA00038949618900000713
2)在第二步,X=T,且
Figure BDA00038949618900000714
句子表示
Figure BDA00038949618900000715
指导主题的注意力生成,输 出主题的注意力表示
Figure BDA00038949618900000716
该表示关注句子主要讨论的主题,忽略无关的主题;
3)在第三步,X=H,且
Figure BDA00038949618900000717
主题的表示
Figure BDA00038949618900000718
指导句子的注意力生成, 输出新的句子注意力表示
Figure BDA0003894961890000081
该表示关注句子中和主题相关的内容,它包含着 与主题相关的情感信息。
最后,将
Figure BDA0003894961890000082
送入全连接层,输出结果经过softmax归一化后,得到句子情感 的概率分布,与对应情感标签计算损失,进行反向传播。对于情感分析,模型 使用交叉熵计算分类的损失,如下所示:
Figure BDA0003894961890000083
其中,C为情感类别个数,
Figure BDA0003894961890000084
为第i个情感的标签,
Figure BDA0003894961890000085
是分类器的输出, σ2为归一化函数softmax。
4.多阶段训练与主题信息注入
在前面介绍了主题分类模块(下面用Mt表示)和情感注意模块(下面用Ms表示)的细节,在对模型进行训练时,为了确保引入正确的主题信息,防止错 误的主题信息影响情感分类的效果,TescaBERT采用多阶段训练策略。即:先 对主题分类模块进行训练,确保模型获取正确的外部主题信息;再对情感注意 模块进行训练,确保模型在正确主题信息的指导下生成情感的注意力表示。如 图1所示,在第一阶段,只对Mt进行训练,计算主题分类的损失:
Loss1=Losstopic (7)
第一阶段的训练量由主题分类结果在验证集上的F1值决定,当第一阶段主 题分类的F1值达到预先设定的阈值γ,即认为模型已经学习到了正确的主题信 息,因此开启第二阶段的训练。在第二阶段,同时对Mt和Ms进行训练,并计 算二者的加权损失:
Loss2=β1*Losstopic2*Losssenti (8)
由于Mt和Ms共享上下文编码模块的参数,为确保主题表示尽可能少的受 到情感分析的影响,在第二阶段维持对Mt的训练。此外,为了使模型更加关注 Ms,对β2设定较大的值。
在交替共注意力部分,模型引入主题信息的主要方式,是由Mt学习到的主 题表示T参与Ms的共注意力计算,指导情感表示的生成。需要注意的是,由于 主题信息作为外部信息指导情感分析,T在输入共注意力层时不参与梯度的反 向传播。此外,由于交替共注意力存在多次迭代,每次迭代产生的注意力都将 不可避免的引入噪声。因此可以利用主题分类的结果,减少在生成主题注意力 时产生的噪声。
将Mt的预测结果作为主题注意力计算的掩码:对于主题i,如果预测值
Figure BDA0003894961890000091
(不涉及该主题),则对主题i的注意力值进行掩盖,即
Figure BDA0003894961890000092
如果预 测结果
Figure BDA0003894961890000093
(涉及该主题),则保持原有注意力值不变,即
Figure BDA0003894961890000094
最后对经 过掩码的注意力值重新归一化,确保
Figure BDA0003894961890000095
这样做的好处是,对于由Mt判 断为无关的主题,Ms可以直接将其忽略,在Mt准确率足够高的前提下,能够 减少无关主题引入的噪声。
TescaBERT模型训练的算法描述如下所示。
算法1:TescaBERT的训练
输入:待分类的句子s,句子的主题标签yt,情感标签ys
输出:训练损失Loss
1.设定主题分类损失权重β1,情感分析损失权重β2,训练阶段切换阈值γ, 训练回合n,主题类别个数m,情感类别个数C,取整函数round,激活函数 sigmoid,F1值计算函数F1_score
2.while当前训练回合ne<ndo
3.输入s,从上下文编码器获取编码hcls∪H,H={h1,h2,…,hn}
4.while1≤i≤m do
5.将编码hcls输入GRU,得到主题表示ti=GRUi(hcls)
6.主题表示输入全连接层,得到主题分类器输出
Figure RE-GDA0004025988520000096
7.根据主题分类器输出得到主题预测
Figure RE-GDA0004025988520000097
8.end while
9.将m个主题表示进行拼接T={t1,t2,…,tm}
10.根据m个主题预测计算主题掩码
Figure RE-GDA0004025988520000098
11.使用二元交叉熵计算主题分类损失
Figure RE-GDA0004025988520000101
12.
Figure RE-GDA0004025988520000102
13.第一阶段仅计算主题分类损失Loss=Losstopic
14.return Loss
15.else
16.交替共注意力第一阶段,计算自注意力下的句子整体表示
Figure RE-GDA0004025988520000103
17.交替共注意力第二阶段,计算掩码注意力下的主题表示
Figure RE-GDA0004025988520000104
18.交替共注意力第三阶段,计算主题指导下的句子情感表示
Figure RE-GDA0004025988520000105
19.情感表示输入全连接层,得到情感分类器输出
Figure RE-GDA0004025988520000106
20.使用交叉熵计算情感分类损失
Figure RE-GDA0004025988520000107
21.第二阶段计算联合损失Loss=β1*Losstopic2*Losssenti
22.return Loss
23.end if
24.end while
TescaBERT模型参数设置如下所示:
上下文编码模块,可以选取的预训练模型包含BERT和RoBERTa等的base 版本,产生向量维度为768;设定训练阶段切换阈值γ=0.9,联合损失权重 β1=0.3,β2=1.0,主题类别个数默认为5,情感类别默认为3;在训练阶段, 使用Adam作为SGD的优化器,学习率η=5×10-6,设置weight decay为0.1, 训练10个批次。
为验证本发明效果,进行如下实验:
1.数据集介绍
由于TescaBERT使用主题信息增强情感分析,模型在执行主题分类和情感 分析任务时,均使用有监督的方式进行训练,因此,需要构造特定的数据集,它 同时包含情感和主题标签,以适应分类任务。
实验使用的第一个数据集为BDCI提供的银行理财产品评论中文数据集。原 始数据集包含两种标签,分别是评论的实体标签和情感标签。对于实体标签,共 包含银行、理财产品、用户评价在内的4种实体类型,使用BIO格式标注;对 于情感标签,数据包含3种情感类型(1代表正面,0代表负面,2代表中性), 每条评论对应一种标签。为了引入主题信息,根据实体标签,对评论数据进行主 题标注,在银行和理财产品进行实体消歧后,保留“银行”和“产品”作为数据 集的主题,将“用户评价”的实体词细化为三种不同的主题:“消费与额度”,“风 险与成本”和“审核与服务”,最终得到数据集BANK。
实验使用的第二个数据集为ASAP餐厅评论中文数据集。原始数据集为方面 级情感分析任务和评分预测任务构造,方面级情感分析任务包含18个细粒度的 方面类别,可以归纳为5个粗粒度类别,包括菜品、服务、价格、环境和位置, 这5个粗粒度类别被选取为主题标签;同时,基于用户评分与情感存在关联的假 设,将评分映射为情感标签,将打分为4分和5分的评论标记为积极,将打分为 3分的标记为中性,将打分为1分和2分的标记为消极。最后,过滤掉长度大于 254的评论,最终得到数据集ASAP。
经过处理后,每个数据集均包含5种主题。对于每条评论,如果涉及某个主 题,则该主题对应标签为1,否则为0。通过上述标注方法构造的数据,在其上 进行有监督学习,能够帮助模型感知主题信息。
为了衡量模型在倾斜数据上的有效性,使用macro f1-score和Kappa系数作 为模型的评价指标,计算公式如下所示:
Figure BDA0003894961890000111
Figure BDA0003894961890000121
其中,TPi为第i类预测为真,实际也为真的样本数,FPi为第i类预测为真, 实际为假的样本数,FNi为第i类预测为假,实际为真的样本数,N为样本总数, NT为预测正确的样本数,Ni为第i类的真实样本数,
Figure BDA0003894961890000122
为预测为第i类的样本 数,C为情感类别个数。
Kappa系数计算结果在[-1,1]之间,结果越接近1,说明模型预测结果与真 实结果越一致。对于数据倾斜情况较为严重的数据集,Kappa系数相比F1值更 能反映模型的分类效果。
2.方法有效性
TescaBERT与多种最先进的文本分类算法进行比较,在两种数据集下的表现 如表1所示:
表1句子级情感分析的F1值和Kappa系数基线(%)
Figure BDA0003894961890000123
上述结果使用10次运行的平均值计算得到。结果显示,TescaBERT在两个 数据集上实现了最先进的结果。
3.方法可解释性
TescaBERT使用交替共注意力机制,获取每个句子对不同主题和单词的注意 力。注意力值的分布,可以解释模型如何关注句子中的关键信息。本节获取交替 共注意力在第2阶段和第3阶段产生的注意力值,分析模型是否按照预期工作。
可以通过主题的注意力值,判断模型是否关注到了正确的主题。在交替共注 意力的第2阶段,保留模型对每个主题的注意力值,通过计算主题的命中率(hit), 衡量模型对主题关注的准确性。命中率采取2种计算方式,严格命中率要求注意 力最高者均为正确主题,宽松命中率仅要求注意力最高者之中包含正确主题。由 于每条评论可能有多个主题,命中率受hits@Num的影响。hits@Num表示模型 预测的关注度排名前Num的主题实际出现在句子中。此外,在引入题信息时, 使用Mt的预测结果,作为主题注意力计算的掩码。其目的是减少模型对无关主 题的关注,从而减少主题信息引入的噪声。掩码注意力机制能够帮助进一步解释 主题注意力的生成,因此对它消融并观察命中率的变化。
表2命中率最小值及对应的hit@Num
数据集 最小宽松命中率 最小严格命中率
BANK 93.70%(hit@1) 93.70%(hit@1)
ASAP 90.45%(hit@1) 85.78%(hit@2)
TescaBERT在2种中文数据集下,对主题的命中率如图3所示。两种命中率 的最小值及其对应的hit@Num如表2所示。表中结果说明,对于每条评论, TescaBERT能够准确地捕捉它的主题信息,无论它聚焦于单个主题还是多个主题。 此外,主题的宽松命中率,随hit@Num的增加递增;主题的严格命中率,在2 种数据集下随hit@Num的增加呈现不同的趋势:BANK始终增加,而ASAP先 降后增。对增长率变化不同趋势可能的解释是:模型在短文本数据集上捕获多主 题的能力强于长文本的数据集。
从图3的结果还可以发现,如果不使用主题注意力掩码,共注意力阶段对主 题的命中率将会降低。与宽松命中率相比,严格命中率在2个数据集上下降的情 况更为显著。取消注意力掩码后,主题命中率的下降,说明注意力掩码可以帮助 模型注意关键的主题信息。
4.噪声抵抗性
在引入外部信息的同时,将不可避免的引入噪声,在本次任务中,外部信息 的噪声即为错误的主题标签。为了研究模型在噪声环境下的性能,对主题标签施 加扰动(即随机修改一定比例的正确标签,若原标签为1,则修改为0;若原标 签为0,则修改为1),观察模型在加入噪声后的表现。在引入噪声时区分了两种 情况:在训练和测试时同时引入噪声,仅在测试时引入噪声。
仅在测试时引入噪声,只会对TescaBERT的主题分类模块Mt造成影响,而不影 响情感注意模块Ms的预测。原因是模型在计算主题的掩码注意力时,没有直接 使用真实标签作为掩码,而是使用模型的预测值作为掩码。这意味着,学习主题 信息的方式为归纳式学习。当测试集的主题标签存在噪声时,经过训练后的模型, 能够注意到正确的主题,进而增强模型的鲁棒性。因此,本节只关注模型在训练 过程中引入噪声的情况。使用的无噪声条件下的结果作为参考,比较模型在噪声 环境下训练的效果。在注入噪声的同时,固定随机数种子,确保模型参数的初始 化不对实验结果造成影响。情感分析指标随噪声注入的变化如图4所示。
以Kappa系数为评价指标,可以观察到:在引入20%噪声(即,随机替换 20%样本的主题标签为相反的值)的条件下,模型在BANK和ASAP下的性能 降低了4.03%和2.88%;在引入50%噪声的条件下,模型在BANK和ASAP下 的性能降低了5.07%和1.75%。上述结果说明模型具备一定的抵抗噪声的能力。
随着注入噪声的增加,模型的分类效果呈现下降的趋势。同时,也可以观察 到,模型性能在下降过程中出现了震荡。当注入噪声超过30%时,模型的分类性 能出现了小幅度的提高。对于上述现象,原因可能是:主题标签为二元标签。1 代表该主题存在,0代表该主题不存在。引入噪声的方式为将一定比例标签替换 为相反的值。对于本身稀疏的类别标签(例如BANK中的RISK),标签为1的 数据经过替换后比例上升,从而导致模型对稀疏主题的关注上升,进而对情感的 分析起到了正面作用。
综上,本发明提出了一种基于主题增强的情感共注意力BERT模型 TescaBERT,该模型采取多阶段学习策略引入外部主题信息,将主题表示注入交 替共注意力层,指导模型学习情感的注意力表示,该模型提升了中文评论的分类 准确性,进而提升了情感分析的准确性。
实验结果表明,TescaBERT模型在2种数据集中取得了超过基线的最先进水 平,情感预测Kappa系数提升超过1个百分点。TescaBERT模型在可解释性、 噪声的抵抗性上也具备明显优势。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些 改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于主题增强的情感共注意力BERT模型的中文评论分类方法,其特征在于,包括:
步骤1:构建基于主题增强的情感共注意力BERT模型,该模型包括一个上下文编码模块、一个基于GRU网络的主题分类模块及一个基于共注意力网络的情感注意模块;所述上下文编码模块用于使用BERT或类BERT模型生成每个单词和整个句子的上下文表示;所述主题分类模块用于生成每个主题的表示;所述情感注意模块用于将单词表示与主题表示进行共注意力计算,并将注意力值施加在每个单词上,得到情感的注意力表示;
步骤2:通过构建的基于主题增强的情感共注意力BERT模型对中文评论数据进行分类。
2.根据权利要求1所述的基于主题增强的情感共注意力BERT模型的中文评论分类方法,其特征在于,所述主题分类模块中,采用双向GRU从上下文表示中提取主题信息,为了减小主题信息之间的相互影响,对每个主题设置一个独立的双向GRU,用于该主题信息的提取。
3.根据权利要求1所述的基于主题增强的情感共注意力BERT模型的中文评论分类方法,其特征在于,所述主题分类模块中:
从特殊字符[CLS]的编码中获取句子的主题信息hcls
Figure FDA0003894961880000011
将hcls输入m个双向GRU网络,得到m个隐藏状态t1,t2,…tm,其中,
Figure FDA0003894961880000012
将t1,t2,...tm依次输入全连接层,经过sigmoid函数激活后,得到m个主题在句子中的概率分布,与对应主题标签计算损失,进行反向传播;并使用二元交叉熵计算分类的损失。
4.根据权利要求3所述的基于主题增强的情感共注意力BERT模型的中文评论分类方法,其特征在于,所述情感注意模块中:
将n个单词的表示向量进行堆叠,得到矩阵H=[h1,h2,…hn],
Figure FDA0003894961880000013
矩阵H包含句子的局部上下文信息,与主题表示T=[t1,t2,...tm]一起,预测情感状态;
交替共注意力的迭代公式如下所示:
Figure FDA0003894961880000021
Figure FDA0003894961880000022
Figure FDA0003894961880000023
其中,X是输入矩阵,g是注意力指导向量,
Figure FDA0003894961880000024
是元素全为1的向量,M是向量g指导下的中间表示,ax为关于当前输入的注意力分数,xi为输入矩阵X的第i列对应的向量,
Figure FDA0003894961880000025
为第i个列向量的注意力得分,
Figure FDA0003894961880000026
为输出的注意力表示,
Figure FDA0003894961880000027
Figure FDA0003894961880000028
为可学习参数;
在共注意力的第一步,X=H,且g=0,通过注意力池化,输出句子的整体表示
Figure FDA0003894961880000029
在共注意力的第二步,X=T,且
Figure FDA00038949618800000210
通过句子表示
Figure FDA00038949618800000211
指导主题的注意力生成,输出主题的注意力表示
Figure FDA00038949618800000212
该表示关注句子主要讨论的主题,忽略无关的主题;
在共注意力的第三步,X=H,且
Figure FDA00038949618800000213
通过主题的表示
Figure FDA00038949618800000214
指导句子的注意力生成,输出新的句子注意力表示
Figure FDA00038949618800000215
该表示关注句子中和主题相关的内容,它包含着与主题相关的情感信息;
最后,将
Figure FDA00038949618800000216
送入全连接层,输出结果经过softmax归一化后,得到句子情感的概率分布,与对应情感标签计算损失,进行反向传播;对于情感分析,使用交叉熵计算分类的损失。
5.根据权利要求1所述的基于主题增强的情感共注意力BERT模型的中文评论分类方法,其特征在于,在对模型进行训练时,采用多阶段训练策略,先对主题分类模块进行训练,确保模型获取正确的外部主题信息;再对情感注意模块进行训练,确保模型在正确主题信息的指导下生成情感的注意力表示。
6.根据权利要求1所述的基于主题增强的情感共注意力BERT模型的中文评论分类方法,其特征在于,所述多阶段训练策略包括:
在第一阶段,只对主题分类模块进行训练,计算主题分类的损失;
在第二阶段,同时对主题分类模块和情感注意模块进行训练,并计算二者的加权损失;
将主题分类模块的预测结果作为主题注意力计算的掩码:对于主题i,如果预测值
Figure FDA0003894961880000031
即不涉及该主题,则对主题i的注意力值进行掩盖,即
Figure FDA0003894961880000032
如果预测结果
Figure FDA0003894961880000033
即涉及该主题,则保持原有注意力值不变,即
Figure FDA0003894961880000034
最后对经过掩码的注意力值重新归一化,确保
Figure FDA0003894961880000035
CN202211270443.3A 2022-10-18 2022-10-18 基于主题增强的情感共注意力bert模型的中文评论分类方法 Pending CN115658890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211270443.3A CN115658890A (zh) 2022-10-18 2022-10-18 基于主题增强的情感共注意力bert模型的中文评论分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211270443.3A CN115658890A (zh) 2022-10-18 2022-10-18 基于主题增强的情感共注意力bert模型的中文评论分类方法

Publications (1)

Publication Number Publication Date
CN115658890A true CN115658890A (zh) 2023-01-31

Family

ID=84988055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211270443.3A Pending CN115658890A (zh) 2022-10-18 2022-10-18 基于主题增强的情感共注意力bert模型的中文评论分类方法

Country Status (1)

Country Link
CN (1) CN115658890A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070635A (zh) * 2023-03-06 2023-05-05 合肥工业大学 基于BERT-span模型的康复医学命名实体识别方法及系统
CN116127078A (zh) * 2023-04-19 2023-05-16 吉林大学 一种大规模极弱监督多标签政策分类方法及系统
CN117391051A (zh) * 2023-12-12 2024-01-12 江西师范大学 一种融合情感的共同注意网络多模态虚假新闻检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070635A (zh) * 2023-03-06 2023-05-05 合肥工业大学 基于BERT-span模型的康复医学命名实体识别方法及系统
CN116127078A (zh) * 2023-04-19 2023-05-16 吉林大学 一种大规模极弱监督多标签政策分类方法及系统
CN116127078B (zh) * 2023-04-19 2023-07-21 吉林大学 一种大规模极弱监督多标签政策分类方法及系统
CN117391051A (zh) * 2023-12-12 2024-01-12 江西师范大学 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN117391051B (zh) * 2023-12-12 2024-03-08 江西师范大学 一种融合情感的共同注意网络多模态虚假新闻检测方法

Similar Documents

Publication Publication Date Title
Li et al. Context-aware emotion cause analysis with multi-attention-based neural network
Dos Santos et al. Deep convolutional neural networks for sentiment analysis of short texts
CN108829662A (zh) 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
Xiang et al. Answer selection in community question answering via attentive neural networks
CN115658890A (zh) 基于主题增强的情感共注意力bert模型的中文评论分类方法
CN109086269B (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
Wu et al. Research on the Application of Deep Learning-based BERT Model in Sentiment Analysis
Bokka et al. Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks
CN111241807A (zh) 一种基于知识引导注意力的机器阅读理解方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
Han et al. Attention-based memory network for text sentiment classification
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
Gan et al. DHF-Net: A hierarchical feature interactive fusion network for dialogue emotion recognition
CN117370562A (zh) 基于情感分析的用户评价数据处理方法及装置
CN117610562B (zh) 一种结合组合范畴语法和多任务学习的关系抽取方法
Zhang et al. Description-enhanced label embedding contrastive learning for text classification
Wang et al. Sentiment lexical strength enhanced self-supervised attention learning for sentiment analysis
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
Mei et al. Towards generating diverse audio captions via adversarial training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination