CN117708336A

CN117708336A - 一种基于主题增强和知识蒸馏的多策略情感分析方法

Info

Publication number: CN117708336A
Application number: CN202410160917.1A
Authority: CN
Inventors: 黄海平; 杨滢彧; 王睿; 肖甫; 徐剑; 常舒予; 龙章伯; 郝仁
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-03-15
Anticipated expiration: 2044-02-05
Also published as: CN117708336B

Abstract

本发明属于情感分析技术领域，涉及一种基于主题增强和知识蒸馏的多策略情感分析方法；包括对数据集进行预处理获得真实文本；将真实文本中句子使用词袋模型表示成句子词袋表示并作为主题模型的输入，生成主题嵌入表示；将真实文本作为BERT‑base模型的输入获得句子向量表示，通过12层编码器生成12维包含语义信息的特征向量，将主题嵌入表示与特征向量结合，得到包含语义信息和主题信息的句子向量，完成教师模型训练；通过三种蒸馏策略及分类目标损失，对学生模型进行训练，将待分析的数据集输入训练好的学生模型中，得到分类结果；相比现有的情感分析模型，本发明具有更高的分类准确性和模型可解释性，降低模型时延，压缩网络参数。

Description

一种基于主题增强和知识蒸馏的多策略情感分析方法

技术领域

本发明属于情感分析技术领域，具体涉及一种基于主题增强和知识蒸馏的多策略情感分析方法。

背景技术

文本情感分析，是对带有主观感情色彩的文本进行分类、处理、归纳和推理的过程，情感极性分为积极、消极、中性等。随着网络上社交媒体的快速发展，互联网(如推特和论坛以及社会服务网络等)上产生大量的评论信息，往往表达了人们的各种主观情绪以及情感倾向性。

按照使用方法的不同，可以将现有情感分析研究划分为基于情感词典的方法、基于机器学习的方法和基于深度学习的方法。基于情感词典的文本情感分类方法大多时候只是将文本看作字词的集合，而不考虑文本中字词之间的关系。在此基础上，基于机器学习的文本情感分类方法被提出。它们能够对多种特征进行建模分析，在数据规模较大时也具有保持稳定分析和处理的能力，并具有较好的分类效果，但基于机器学习的文本情感分类方法主要集中在人工特征选取和分类器选取，需要消耗大量的时间和人力进行训练集标注和特征选择，而且该方法属于浅层的学习算法，不能刻画复杂函数，无法适应海量文本数据的处理，且不能充分考虑上下文语义。随着深度学习算法发展，越来越多的专家学者将深度学习应用于文本情感分类方法中。这些模型的广泛研究进步表明，语义信息对情感分析任务具有重大的意义。现有的研究中，已开始联合使用文档的主题信息和语义信息来提升情感分类效果。然而，如何高效提取并结合这些信息仍存在大量空白。同时随着预训练模型的广泛应用，模型参数量大，训练时间较长等问题逐一显现。

目前同时运用这两类信息引导情感分类的模型仍不多，例如，Encodingsyntactic dependency and topical information for social emotionclassification[C].Proceedings of the 42nd International ACM SIGIR Conferenceon research and development in information retrieval. 2019: 881-884中提出aGated DR-G-T model解决了这一问题，通过递归神经网络学习文档的特征向量，利用门控层结合预训练的LDA模型学习到的主题信息，但分类模型与主题模型是单独训练的，不能联合提取语义特征和主题特征，且训练时间开销较大。An end-to-end topic-enhancedself-attention network for social emotion classification[C].Proceedings ofthe web conference. 2020: 2210-2219中提出a TESAN model同时训练分类模型和主题模型，设计融合门将文档向量与主题嵌入相结合，构成用于社会情感分类的最终文档表示。但该模型只是对主题信息和语义信息进行简单的融合，并未对其进行筛选，有针对性地关注更加关键的信息，此外，在模型特征提取部分对文档高级的语义信息学习能力有限。且现有预训练模型中，普遍存在模型参数量大，训练时间较长等问题，如何减少模型训练开销，实现模型轻量化亟待解决。

发明内容

本发明针对上述现有技术中存在的问题，提供一种基于主题增强和知识蒸馏的多策略情感分析方法，利用主题嵌入表述引导训练模型，融合主题信息和语义信息最大化主题分布与词分布之间的相互信息来提升模型的分类性能及可解释性，同时通过三重蒸馏对学生模型进行训练，实现模型轻量化。

为了实现上述目的，本发明采用以下技术方案：一种基于主题增强和知识蒸馏的多策略情感分析方法，所述方法包括以下步骤：

步骤1，获取数据集，对数据集进行数据预处理获得真实文本，真实文本中包含n条句子，，句子中包含单词；将每条句子使用词袋模型表示成句子词袋表示，，为真实文本中不重复的单词的数量；

步骤2，训练教师模型；

步骤2.1，教师模型包括主题模型和BERT-base模型，将句子词袋表示作为主题模型的输入，句子词袋表示通过主题模型的编码器转换为主题分布，主题分布通过主题模型的解码器转换为包含主题信息的主题嵌入表示，，表示维度；

步骤2.2，将真实文本作为BERT-base模型的输入，得到句子向量表示，句子向量表示作为BERT-base模型中12层编码器的输入，将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量；

步骤2.3，将主题嵌入表示与特征向量结合，得到包含语义信息和主题信息的句子向量，完成对教师模型的训练；

步骤3，训练学生模型，学生模型包括含有6层编码器的BERT-base模型，分别利用 BERT-base模型中词元之间的横向蒸馏目标函数和纵向蒸馏目标函数、软交叉熵损失函数建立教师模型和学生模型之间的关系，完成学生模型进行训练；

步骤4，将待分析数据集输入训练好的学生模型中，通过分类层输出每个类别的概率，即得到分析结果。

进一步地，步骤1中所述的每条句子使用词袋模型表示成句子词袋表示，具体步骤如下：

将真实文本中重复的单词去除，得到词汇表，，句子通过TF-IDF方法得到句子词袋表示，具体计算公式如下：

；

，；

其中，表示单词在句子中出现的次数，表示单词在句子中出现的频率，表示包含单词的句子的数量；为单词在真实文本中的流行程度；如果包含该单词的句子越少，则越大，说明该单词具有良好的类别区分能力；表示句子中单词的语义相关性。

进一步地，步骤2.1中具体步骤如下：

步骤2.1.1，利用主题模型的编码器将句子词袋表示转化为主题分布，以此来学习句子潜在的语义信息；主题模型的编码器包括多层感知器MLP，通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将句子词袋表示映射得到维：

；

其中，为全连接层的权重矩阵和偏置项，为通过进行归一化后的隐层；为激活函数LeakyReLU的超参数，为经过激活函数LeakyReLU的输出；

步骤2.1.2，随后，通过多层感知器MLP中批标准化BN层及softmax函数转换将映射到维，得到文档-主题分布：

；

其中，为全连接层的权重矩阵和偏置项；

步骤2.1.3，为了学习到更加连贯的主题信息，在文档-主题分布中添加噪声，得到主题分布：

；

其中，表示噪声的混合比例；为狄利克雷分布，其中是分布参数；

步骤2.1.4，主题模型的解码器包括多层感知器MLP，通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将主题分布映射到维，得到主题嵌入表示：

；

其中，是全连接层的权重矩阵和偏置项，为通过进行归一化的输出隐向量。

进一步地，在主题模型训练过程中，定义主题模型损失函数来度量重构分布与真实之间的差异程度，主题模型损失函数越小，主题模型的鲁棒性就越好；

主题模型的解码器将主题嵌入表示进行重构，生成维的重构分布，

其中，是全连接层的权重矩阵和偏置项；

主题模型损失函数为：

；

其中，主题模型的目标包括重建项和基于MMD的正则化项，是用来平衡两部分的超参数，MMD为计算最大均值差异，用来度量主题信息分布与先验随机样本分布之间的距离；为重构分布的同维拆分。

进一步地，步骤2.2中，具体为：

步骤2.2.1，句子向量表示如下：

；

其中，是语义级别的句子的向量表示；是辅助区别句子对中的两个句子的向量表示；是真实文本的位置向量，其中，表示句子对应的向量长度，代表BERT-base模型中每一个词元对应的向量长度，令；

步骤2.2.2，句子向量表示作为BERT-base模型中12层编码器的输入，将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量：

；

其中，是u层编码器输出的第一个词元的CLS向量表示，；是BERT-base模型的输出。

进一步地，步骤2.3中，具体为：

步骤2.3.1，利用主题嵌入表示进行引导，计算特征向量中每个词元的注意力概率分布：

；

其中，是u层编码器输出的第一个词元的向量表示，；是全连接层权重矩阵和偏置项；越大，意味着对应的单词隐含主题信息的概率更大；

步骤2.3.2，计算出注意力分布并得到包含语义信息和主题信息的句子向量：

；

其中，，。

进一步地，步骤3中，具体为：

横向蒸馏目标函数表示为：

；

教师模型中BERT-base模型内每层编码器输出的隐向量组成三维矩阵；其中，为教师模型中任意横向相邻的三个词元，，为学生模型中任意横向相邻的三个词元, ，分别为教师模型及学生模型任意横向相邻的三个词元的cos距离；为均方误差计算公式；

纵向蒸馏目标函数表示为：

其中，为教师模型任意纵向相邻的三个词元，；为学生模型任意纵向相邻的三个词元，；，分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离；

让学生模型直接蒸馏教师模型的最终预测logit，软交叉熵损失函数：

其中，是用于控制软标签重要程度的超参数；表示logit输出的分类结果,其中，，为类别数量。

进一步地，定义分类目标损失估量训练好的学生模型的预测值与真实值的不一致程度：

其中，表示分类层输出每个类别的概率，表示真实标签分布；为类别数量。使用KL散度来衡量两者分布差异，通过优化以上损失函数可以使得学生网络的logit输出尽可能和教师网络的logit输出相似，从而达到学习的目的。

在本发明中，设计了一个新的模型，并提出一种新型知识蒸馏策略来解决上述限制。具体来说，模型由教师模型及学生模型两大部分组成。其中，教师模型包含三个部分：特征提取模块、主题抽取模块、分类器。首先，在特征提取部分，利用Bert模型学习文档的语义信息，传统Bert文本分类模型常见做法为将Bert最后一层输出的第一个词元位置（CLS位置）当作句子的表示，后接全连接层进行分类。在本发明中，除去第一层输入层，有12个编码器层，每个编码器层的第一个词元（CLS）向量都可以当作句子向量，可以抽象的理解为，编码器层越浅，句子向量越能代表低级别语义信息，越深，代表更高级别语义信息。因此，这里将第1层到第12层的CLS向量同时抽取，生成由浅及深的层级化句子向量作为分类器的输入，从而满足既想得到有关词的特征，又想得到语义特征的目的。

此外，在主题模型模块，利用基于Wasserstein自动编码器(WAE)的方法进行主题建模，保留Dirichlet先验，并将聚合后验与先验相匹配，从而促成更好的重构效果，同时实现主题可视化，有效增强模型可解释性。同时，利用注意力融合机制，充分利用语义信息及主题信息。通过主题引导筛选赋予更关键的词和更贴合语义的主题词更高的权重，显著提升模型的分类效果。

本发明具有以下技术效果：（1）本发明提出一种基于主题增强和知识蒸馏的多策略情感分析方法用于情感分类任务；基于词匹配进行深入研究，引入注意力融合机制，利用主题嵌入表示引导语义特征进行学习，充分利用语义信息及主题信息，从而满足既想得到有关词的特征，又想得到语义特征的目的；显著提升模型的分类效果。

（2）本发明提出一种新的知识蒸馏策略，通过融合主题信息和语义信息最大化主题分布与词分布之间的互信息来提升模型的分类性能及可解释性，同时通过三重蒸馏策略对学生模型进行训练，对模型实现轻量化处理，弥补了压缩模型所带来的信息缺失问题，在提高模型分类效果的同时，大大缩减了模型的训练时长。

附图说明

图1是本发明一种基于主题增强和知识蒸馏的多策略情感分析方法的流程图。

图2为本发明一种基于主题增强和知识蒸馏的多策略情感分析方法的总模型架构图。

图3是本发明的教师模型架构图。

图4是本发明的蒸馏策略示意图。

图5是本发明的学生模型架构图。

图6是本发明在Corona_NLP验证集上准确率随迭代次数的变化曲线。

图7是本发明在Corona_NLP验证集上损失结果随迭代次数的变化曲线。

图8是本发明在Corona_NLP数据集训练过程中分类目标损失随迭代次数的变化曲线。

图9是本发明在Corona_NLP数据集训练过程中软交叉熵损失函数随迭代次数的变化曲线。

图10是本发明在Corona_NLP数据集训练过程中词元之间横向蒸馏目标函数值随迭代次数的变化曲线。

图11是本发明在Corona_NLP数据集训练过程中词元之间纵向蒸馏目标函数值随迭代次数的变化曲线。

具体实施方式

下面将对本发明的内容和附图作详细说明，本实施例在以本发明技术方案为前提下进行实施，涉及到详细的实施方案与操作过程，但本发明的保护范围不仅限于下列的具体实施例，在本发明中使用的术语仅仅是出于描述特定实施例的目的，而非旨在限制本发明。

如图1一种基于主题增强和知识蒸馏的多策略情感分析方法的流程图、图2总模型架构图所示，一种基于主题增强和知识蒸馏的多策略情感分析方法，所述方法包括以下步骤：

步骤1.1，对数据集进行数据预处理，数据集中均包含单词、符号、URLs、hashtags 和mentions，文字对文本文本情感预测具有积极作用，而符号、URLs和mentions可以忽略。删除停用词和出现不超过三次的词；同时，在文本内容中，存在一部分的拼写错误、信息缺失或者重复等情况。因此，使用tweet-preprocessor对数据进行预处理，并利用spaCy进行词形还原，获得真实文本；真实文本D为向量矩阵，以二进制形式存储；

步骤1.2，将真实文本中重复的单词去除，得到词汇表，，句子通过TF-IDF方法得到句子词袋表示，具体计算公式如下：

；

，；

其中，表示单词在句子中出现的次数，表示单词在句子中出现的频率，表示包含单词的句子的数量；为单词在真实文本中的流行程度；表示句子中单词的语义相关性。

步骤2，训练教师模型，如图3本发明的教师模型架构图所示；

步骤2.1，教师模型包括主题模型和BERT-base模型；将句子词袋表示作为主题模型的输入，句子词袋表示通过主题模型的编码器转换为主题分布，主题分布通过主题模型的解码器转换为包含主题信息的主题嵌入表示，，表示维度；

具体为：步骤2.1.1，通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将句子词袋表示映射得到维：

；

其中，为全连接层的权重矩阵和偏置项；

步骤2.1.3，在文档-主题分布中添加噪声，得到主题分布：

；

其中，是全连接层的权重矩阵和偏置项，为通过进行归一化的输出隐向量；

步骤2.1.4，在主题模型训练过程中，定义主题模型损失函数度量重构分布与真实之间的差异程度，主题模型损失函数越小，主题模型的鲁棒性就越好；

其中，是全连接层的权重矩阵和偏置项；表示为的向量形式；

主题模型损失函数为：

；

步骤2.2，将真实文本中句子作为BERT-base 模型的输入，得到句子向量表示，句子向量表示作为BERT-base模型中12层 transformer编码器的输入，将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量；

具体为：句子向量表示如下：

；

其中，如图2-5所示，表示为的向量形式，是语义级别的句子的向量表示；是辅助区别句子对中的两个句子的向量表示；是真实文本的位置向量，其中，表示句子对应的向量长度，代表BERT-base模型中每一个词元对应的向量长度，令；

；

其中，是u层编码器输出的第一个词元的向量表示，；是BERT-base模型的输出。

具体为：步骤2.3.1，为了引入主题信息，与上下文信息相结合，利用主题嵌入表示进行引导，计算特征向量中每个词元的注意力概率分布：

；

其中，是全连接层权重矩阵和偏置项；

；

其中，，如图2和图3所示，表示为的向量形式，。中既包含文本的语义信息，同时也包含通过注意力机制引入的主题分布。

步骤3，训练学生模型，如图4蒸馏策略示意图所示，学生模型包括含有6层 transformer编码器的BERT-base模型，分别利用BERT-base模型中词元之间的横向蒸馏目标函数和纵向蒸馏目标函数、软交叉熵损失函数建立教师模型和学生模型之间的关系，完成学生模型进行训练；

BERT-base模型的编码器中每一层输出的隐向量组成三维矩阵，其中每一层输出的隐向量第一个词元与主题嵌入表示相结合生成句子向量，在所有隐向量组成的三维矩阵中，每个词元都会对应自己的向量表示，

词元之间横向关系的蒸馏目标，横向蒸馏目标函数在一个语言模型中，每个词元都是带有独立语境的，而一句话经过语言模型建模的语义信息依赖于每个词元之间的内在关系。因此，本发明不是直接对Embedding、每层的Token向量或者Block输出隐向量来比较他们的分布，让学生模型去直接拟合教师模型中的向量。试图将词元之间的语义关系进行蒸馏，所以把这个目标函数称为横向蒸馏目标函数；

横向来看任选三个token可以看作一个三元组。使用三元组的角度来衡量三个词元的语境关系，采用三元组（三个词元，限定在一个窗口中）比采用两元组（两个词元）可以获得更丰富的关系表示，然后采用MSE来计算loss。横向蒸馏目标函数表示为：

；

其中，为教师模型中中任意横向相邻的三个词元，是教师模型中第u层编码器输出的除CLS向量外第g个词元的向量表示，，，为学生模型中中任意横向相邻的三个词元, 是学生模型中第层编码器输出的除CLS向量外第个词元的向量表示，，，分别为教师模型及学生模型任意横向相邻的三个词元的cos距离；为均方误差计算公式；

即为计算cos距离，为欧氏距离；是向量相减（得到的是结尾指向结尾的向量），得到的是结尾指向结尾的向量；

在语言模型中，词元在每一层都可能表示了不同的语义信息，类似于上面横向的建模，同样可以纵向的建模，试图从纵向将词元之间的语义关系进行蒸馏。纵向蒸馏目标函数表示为：

让学生模型直接蒸馏教师模型的最终预测(logit)。为了更好地控制输出概率的平滑程度，给模型输出的激活函数softmax中加了一个温度参数。在知识蒸馏中，教师模型预测的概率输出为软标签，所以把这个目标函数称为软交叉熵损失函数：

步骤4，将待分析数据集输入训练好的学生模型中，如图5学生模型架构图所示，通过分类层（分类层利用多类别逻辑回归）输出每个类别的概率，也可以使用dropout和L2 正则化来防止过拟合；即得到分析结果；

定义分类目标损失估量训练好的学生模型的预测值与真实值的不一致程度：

其中，表示分类层输出每个类别的概率，表示真实标签分布；为类别数量。

数据集介绍：

本发明选取三个公共数据集进行实验，来验证教师模型和学生模型的优越性。

Corona_NLP：这是一个英文数据集，包含以下主题标签的用户的推文：#coronavirus, #coronavirusoutbreak, #coronavirusPandemic, #covid19, #covid_19。文本被标记为三种情绪类别：积极、中立和消极。其中，训练集包含26762条推文，验证集、测试机分别包含8920条数据。

Covid19_new_tweet：这个数据集包含来自印度的关于冠状病毒、covid-19等主题的推文。这些推文是在2020年3月23日至2020年7月15日之间收集的。数据集大小为6492，其中5194条数据作为训练集，1298条数据作为测试集。然后文本被标记为四种情绪类别恐惧，悲伤，愤怒和喜悦。

Twitter Sentiment：这是一个来自Kaggle的数据集，包含来自推特用户的20000条日常推文。文本被标记为两种情绪类别，分别是积极和消极。数据集共包含12264个实例，其中将80%设为训练集，20%设为测试集。

对处理后的数据集的统计结果如表1 Corona_NLP、Covid19_new_tweet、TwitterSentiment三个公开数据集情感类别的统计结果所示；

表1 Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集情感类别的统计结果

对比试验模型说明：

本发明将教师模型和学生模型与以下多个模型相比较，其中包括一些经典情感分类方法及目前使用最广泛的经典预训练模型：

朴素贝叶斯（Naive Bayes）是基于贝叶斯定义和特征条件独立假设的分类器方法。该模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

支持向量机（support vector machines）的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机。

决策树（Decision Tree）是一种基于树结构进行决策判断的模型，它通过多个条件判别过程将数据集分类，最终获取需要的结果。

随机森林（Random Forest）即建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型，是集成算法思想和随机选择特征的结合。

双向长短期记忆网络（Bi-LSTM）是由前向LSTM与后向LSTM组合而成。通过BiLSTM可以更好的捕捉双向的语义依赖。

TextCNN主要使用了一维卷积层和最大池化层。对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息。

Bert是由多个transformer编码器堆叠而成的。每个transformer编码器由两个子层组成，即多头自注意力层和前馈神经网络层。BERT已成为最流行和通用的语言模型模型之一。

实验指标说明：

本发明选取Acc(Accuracy)，PR(Precision)，F1(F1 score)这几个评估分类效果来验证模型的有效性。Acc和PR指标，共同表示所有预测样本中情绪的准确度。F1得分体现模型对样本情绪的区分能力。

在多分类任务中，是将情感类别为i的样本成功预测的数量。表示情绪i 中负样本成功预测为负的情况。是负样本错误地预测为正。则为将情感类型为i的数据错误预测的情况，其中，为情感类别数。

准确率是指，对于给定的测试数据集，分类器正确分类的样本数与总样本数之比，也就是预测正确的概率。计算公式为：

但是准确率作为最常用的指标，当出现样本不均衡的情况时，并不能合理反映模型的预测能力。因此，引入Precision。PR是预测结果中，预测为某一情感类型的样本中预测正确的概率。它是针对预测结果而言的，可以有效反映出模型的精确度。基于此，Precision被定义为：

为体现模型的全面性，先计算Recall指标：

Precision和Recall是一对矛盾的度量，一般来说，Precision高时，Recall值往往偏低；而Precision值低时，Recall值往往偏高。当分类置信度高时，Precision偏高；分类置信度低时，Recall偏高。为了能够综合考虑这两个指标，F-measure被提出（Precision和Recall的加权调和平均），即：

F1的核心思想在于，在尽可能的提高Precision和Recall的同时，也希望两者之间的差异尽可能小。

实验配置：

对于Corona_NLP数据集。在主题模型部分，将主题数设置为30，将编码器中MLP层的维度和分别设置为256和512。主题嵌入表示的维数等于BERT-base模型中每一个词元对应的向量长度，均设为768。激活函数LeakyReLU的超参数设为使0.01。 Dirichlet先验尽可能稀疏，并将Dirichlet超参数设置为0.0001。噪声与主题分布的比值定义为0.05。对于BERT模型部分，教师模型和学生模型分别使用12层和6层的 transforner编码器进行训练。每批样本的大小为16，共训练5个时期。

训练过程中，Adam优化器的学习率为5e-5。为防止模型过拟合，dropout参数被设为0.1。所有模型在Pytorch上实现，并在1 * RTX3090 24G GPU上运行。

由分析可知，本发明中学生模型在分类性能方面达到与教师模型相同水平，同时有效降低模型时延，压缩网络参数。图6展示模型在Corona_NLP验证集上分类准确率随迭代次数的变化，随着迭代次数的增加，分类准确率不断提升，分类性能不断提升至较高水平。图7展示模型在Corona_NLP验证集上损失值随迭代次数的变化结果，损失值随迭代次数的增加逐渐稳定在极小的数值上，可见模型分类效果准确，具有较高的鲁棒性。由图8可以看出分类目标损失随迭代次数的增加，稳定在0.38的较小值，由此说明学生模型的分类预测值与实际值间差距较小，分类性能高。图9展示软交叉熵损失函数随迭代次数的增加逐渐趋于平稳，并稳定在1.04左右，表明蒸馏策略有效并取得较好效果。图10、图11分别展示横向蒸馏目标函数值和纵向蒸馏目标函数值随迭代次数的变化稳定在极小数值，有效提升蒸馏效果，使得学生模型具有与教师模型同等的分类能力。

如表2所示，展示了在Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集上进行实验的整体结果；

表2 在Corona_NLP、Covid19_new_tweet、Twitter Sentiment三个公开数据集上进行实验的整体结果

由分析可知，本发明模型在分类性能方面高于现有的研究成果。尤其对于主题特征较为明显的Corona_NLP数据集和小型多分类数据集Covid19_new_tweet，本发明模型表现出显著的优越性。在三个公共数据集上进行试验，验证了提出的方法的优越性。

对所公开的实施例的上述说明，使本领域专业技术人员能够使用本发明。同时以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，所述方法包括以下步骤：

步骤1，获取数据集，对数据集进行数据预处理获得真实文本，真实文本中包含n条句子/>，/>，句子中包含单词；将每条句子使用词袋模型表示成句子词袋表示/>，/>，/>为真实文本/>中不重复的单词的数量；

步骤2，训练教师模型；

步骤2.1，教师模型包括主题模型和BERT-base模型，将句子词袋表示作为主题模型的输入，句子词袋表示/>通过主题模型的编码器转换为主题分布/>，主题分布/>通过主题模型的解码器转换为包含主题信息的主题嵌入表示/>，/>，/>表示维度；

步骤2.2，将真实文本作为BERT-base模型的输入，得到句子向量表示/>，句子向量表示/>作为BERT-base模型中12层编码器的输入，将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量/>；

步骤2.3，将主题嵌入表示与特征向量/>结合，得到包含语义信息和主题信息的句子向量/>，完成对教师模型的训练；

步骤3，训练学生模型，学生模型包括含有6层编码器的BERT-base模型，分别利用BERT-base模型中词元之间的横向蒸馏目标函数和纵向蒸馏目标函数/>、软交叉熵损失函数/>建立教师模型和学生模型之间的关系，完成学生模型进行训练；

2.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，

步骤1中所述的每条句子使用词袋模型表示成句子词袋表示/>，具体步骤如下：

将真实文本中重复的单词去除，得到词汇表/>，，句子/>通过TF-IDF方法得到句子词袋表示/>，具体计算公式如下：

；

，/>；

其中，表示单词/>在句子/>中出现的次数，/>表示单词/>在句子/>中出现的频率，/>表示包含单词/>的句子/>的数量；/>为单词/>在真实文本/>中的流行程度；/>表示句子/>中单词/>的语义相关性。

3.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，步骤2.1中具体步骤如下：

步骤2.1.1，主题模型的编码器包括多层感知器MLP，通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将句子词袋表示映射得到/>维：

；

其中，为全连接层的权重矩阵和偏置项，/>为通过/>进行归一化后的隐层；/>为激活函数LeakyReLU的超参数，/>为经过激活函数LeakyReLU的输出；

步骤2.1.2，随后，通过多层感知器MLP中批标准化BN层及softmax函数转换将映射到维，得到文档-主题分布/>：

；

其中，为全连接层的权重矩阵和偏置项；

步骤2.1.3，在文档-主题分布中添加噪声/>，得到主题分布/>：

；

其中，表示噪声的混合比例；/>为狄利克雷分布，其中/>是分布参数；

步骤2.1.4，主题模型的解码器包括多层感知器MLP，通过多层感知器MLP中批标准化BN层及激活函数LeakyReLU将主题分布映射到/>维，得到主题嵌入表示/>：

；

其中，是全连接层的权重矩阵和偏置项，/>为通过/>进行归一化的输出隐向量。

4.根据权利要求3所述的基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，在主题模型训练过程中，定义主题模型损失函数度量重构分布与真实之间的差异程度，具体为：

主题模型的解码器将主题嵌入表示进行重构，生成/>维的重构分布/>，

；

其中，是全连接层的权重矩阵和偏置项；

主题模型损失函数为：

；

其中，主题模型的目标包括重建项和基于MMD的正则化项，是用来平衡两部分的超参数，MMD为计算最大均值差异，用来度量主题信息分布/>与先验随机样本分布/>之间的距离；/>为重构分布/>的同维拆分。

5.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，步骤2.2中，具体为：

步骤2.2.1，句子向量表示如下：

；

其中，是语义级别的句子的向量表示； />是辅助区别句子对中的两个句子的向量表示；/>是真实文本的位置向量，其中/>，/>表示句子/>对应的向量长度，/>代表BERT-base模型中每一个词元对应的向量长度，令/>；

步骤2.2.2，句子向量表示作为BERT-base模型中12层编码器的输入，将每一层编码器输出的第一个词元组成12维包含语义信息的特征向量/>：

；

其中，是u层编码器输出的第一个词元的向量表示，/>；/>是BERT-base模型的输出。

6.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，步骤2.3中，具体为：

步骤2.3.1，利用主题嵌入表示进行引导，计算特征向量/>中每个词元的注意力概率分布：

；

其中，是u层编码器输出的第一个词元的向量表示，/>；是全连接层权重矩阵和偏置项；

步骤2.3.2，计算出注意力分布并得到包含语义信息和主题信息的句子向量/>：

；

其中，，/>。

7.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，步骤3中，具体为：

横向蒸馏目标函数表示为：

；

教师模型中BERT-base模型内每层编码器输出的隐向量组成三维矩阵；其中，为教师模型中任意横向相邻的三个词元，/>，/>为学生模型中任意横向相邻的三个词元, />；/>分别为教师模型及学生模型任意横向相邻的三个词元的cos距离；/>为均方误差计算公式；

纵向蒸馏目标函数表示为：

；

其中，为教师模型任意纵向相邻的三个词元，/>；为学生模型任意纵向相邻的三个词元，/>；/>，分别为教师模型及学生模型任意纵向相邻的三个词元的cos距离；

；

其中，是用于控制软标签重要程度的超参数；/>表示logit输出的分类结果,其中，/>，/>为类别数量。

8.根据权利要求1所述的基于主题增强和知识蒸馏的多策略情感分析方法，其特征在于，定义分类目标损失估量训练好的学生模型的预测值与真实值的不一致程度：

；

其中，表示分类层输出每个类别的概率，/>表示真实标签分布；/>为类别数量。