CN114238577B

CN114238577B - 融合多头注意力机制的多任务学习情感分类方法

Info

Publication number: CN114238577B
Application number: CN202111550577.6A
Authority: CN
Inventors: 严珂; 李欣雨
Original assignee: China Jiliang University; China Jiliang University Shangyu Advanced Research Institute Co Ltd
Current assignee: China Jiliang University; China Jiliang University Shangyu Advanced Research Institute Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2024-04-26
Anticipated expiration: 2041-12-17
Also published as: CN114238577A

Abstract

本发明公开了一种融合多头注意力机制的多任务学习情感分类方法，该方法使用适用于重要特征提取的多头注意力机制和改善分类泛化性的多任务学习来提高情感分类性能。使用多头注意力机制对分批次输入的句子序列进行特征提取，得到每条语句的预分类标签。使用由长短期记忆网络联合逐点卷积神经网络构成的编码器对分批次输入的句子序列进行编码，将预分类标签作为辅助标签帮助构建多任务情感分类器。设计新的损失函数项加入到原有的损失函数中，经过多轮训练，动态地优化模型参数，即得到最优的情感分类模型，利用该模型可对评论文本进行情感分类。该方法在准确率、F1值评测指标上均优于采用传统多任务学习方法，适用于不同的下游任务和预测场景。

Description

融合多头注意力机制的多任务学习情感分类方法

技术领域

本发明涉及自然语言处理领域，更具体的说，涉及一种融合多头注意力机制的多任务学习情感分类方法。

背景技术

互联网经济的发展和大数据时代的到来，为电子商务快速发展提供了强劲动力，大量电商平台涌入市场。电子商务、社交应用、数字内容相互融合，社交电商模式拓展了电子商务业务，为网民的线上购物提供了强有力的支持。相对于可以真实测评的线下购物，网络购物由于本身的虚拟化，信息良莠不齐，购物带有一定的风险性。网民往往无法真实地了解到商品的真实质量和规格等等，容易造成一定的财产损失和因为退换货造成的时间资金上的浪费等。商品线上评论对于消费者决定是否购买商品而言，是及其重要的一项信息来源，消费者可以通过在线评论了解商品的真实完整信息、建立对商品的整体感知。商品评论表达了已经购买过此商品或服务的消费者使用商品过程中所表现出来的各种情感。这些情感对于潜在的购买者来说，具有很大的参考价值。因此，从庞大的网络商品评论数据中抽取人们的情感信息来进行分类具有重要的商业价值和研究意义。

传统基于情感词典的方法，是通过设计一系列规则，让机器通过学习来记忆一些基本词汇，构建一个基本的情感词典。在缺乏大量训练数据集的情况下，基于词典与规则的方法相对能取得较好的分类结果且易于理解，但仍旧存在高度依赖情感词典的构建以及规则的设计、难以应对隐含的情感内容、跨领域情感分析的分类效果不佳的局限。而基于机器学习的方法，如最大熵、支持向量机(SVM)、朴素贝叶斯(Nb)、深度森林(DF)等，分类精确度往往依赖于大规模高质量的标注训练集，这些数据需要较高的人工成本，人为主观的数据标注结果也会影响分类效果。伴随着深度学习在自然语言处理领域的发展与应用，CNN和LSTM可以学习文本更深层次的信息，丰富文本的特征表示，提高情感分类的准确率，被许多研究者学习和关注。由于在模型中引入多任务学习框架具有提升任务性能的优点，引发了许多研究者的关注，多任务学习在自然语言处理(NLP)领域也取得了良好的进展。

在已有的用于情感分类的多任务学习模型中，往往需要提前将文本数据按照一定依据进行人为划分，如根据商品类型、属性、价格等。这种人工对评论文本进行领域分类的方式具有一定的局限性：一方面，工作量庞大，在实际工作中难以实现；另一方面，容易受人脑主观意识的影响，导致判断失误，且不一定被算法模型接受和认可，分类的结果也未必准确。

发明内容

针对上述问题，本发明提出一种融合多头注意力机制的多任务学习情感分类方法，可以用来解决处理多领域商品评论数据的人工划分工作量大、划分规则单一且不一定被算法接受的问题，从而提升情感分类的准确率。

本发明提供了一种融合多头注意力机制的多任务学习情感分类方法，包括以下步骤：

1)收集整理来自多个领域的商品评论数据，每条评论文本都有对应的情感极性标签：0或1，0代表消极情绪，1代表积极情绪；对文本数据进行预处理；

2)将预处理后的每种领域的商品评论，按照8:1:1的比例划分为训练集、验证集和测试集，正负样本分布均匀，随后进行文本初始化，从而得到词向量矩阵；

3)将词向量矩阵分批次输入多头注意力机制中进行特征提取，经过全连接层对特征提取后的结果进行线性变换操作，由SoftMax激活函数得到最终表示，从而构建文本分类器；取最终表示中的最大特征作为分类结果，得到每条语句的预分类标签；

4)使用由长短期记忆网络(LSTM)联合逐点卷积神经网络构成的编码器对分批次输入的词向量矩阵进行编码，将预分类标签作为辅助标签进行输入词向量矩阵类别的重分类，构建多任务情感分类器；所述的文本分类器和多任务情感分类器共同构成融合多头注意力机制的多任务学习情感分类模型；

5)设计了新的损失函数项加入到了原有的融合多头注意力机制的多任务学习情感分类模型的损失函数中，经过多轮训练，动态地优化模型参数，即得到最优的融合多头注意力机制的多任务学习情感分类模型，采用该模型可对评论文本进行情感分类。

上述技术方案中，进一步地，所述的预处理，是指对文本进行数据清洗、去除停用词、分词等操作。一般来说，文本数据中含有大量与主要信息无关的数据，这些冗余内容会对情感分类的准确性产生消极影响，因此在预处理阶段，需要通过这些操作还消除文本中包含的噪声。

进一步地，所述的文本初始化是指，将训练、验证、测试集中的文本转换为词向量。具体通过Word2Vec模型对输入的文本数据进行特征映射，从而得到相应的词向量矩阵R^n*V，其中，n表示词向量维度，V表示全部向量化的词语数目；所述输入的文本数据表示为Sentence＝{X₁，X₂，...X_i...，X_m}，其中，m表示句子中包含的词语的个数；X_i＝{h₁，h₂，...，h_n}，i＝1，2，...，m，作为输入的文本数据中所包含的词语表示。

进一步地，所述的多任务情感分类器基于对抗多任务学习框架，包括多个私有编码器、共享编码器和任务判别器，其中，私有编码器用于存储任务相关的特性；共享编码器用于捕获任务共同的特性，从而方便任务间进行信息共享；任务判别器用于剔除共享特征中的私有特征。

进一步地，所述的新的损失函数项用于监督文本分类器的预分类效果，并和其他损失函数一起共同控制整个模型的训练和优化走向。所述的新的损失函数项具体为：其中，T表示文本分类器设置的标签种类数目，n表示文本分类器得到的预分类标签，/>表示预分类标签n和真实情绪标签的交叉熵损失函数。

本发明的发明原理为：

本发明首先使用Word2Vec模型对输入的文本数据进行特征映射，得到相应的词向量矩阵。在情感分类任务中，文本向量化是一项重要的工作，因为计算机无法直接对各种类型的语言进行计算，所以需要将文本转换为计算机可以处理的数字数据。Word2Vec模型是一种很好的分布式的词语表示方式，将各个词语映射到低维且维度固定的向量空间，通过词向量之间的相似度来衡量词之间的关系，使词语之间产生相互关联，而且降低了计算的开销。

然后，多头注意力机制对分批次输入、用词向量矩阵表示的句子序列进行特征提取，以此来将多领域商品评论数据进行重新的归类，并且得到相应的预分类标签。相对于只关注某一方面的信息的单头注意力机制，多头注意力机制可以形成多个子空间，让模型去关注不同方面的信息。这样既可以防止过拟合的风险，又可以全面捕捉语义信息，获得最重要的特征表示。将词向量矩阵输入基于LSTM和逐点卷积神经网络的相应私有编码器和共享编码器中，评论语句根据上一层得到的预分类任务标签来决定使用对应的私有编码器，得到的私有特征表示和共享特征表示进行向量拼接，构成相应的分类器，对句子序列进行最终情感极性分类。

本发明与现有技术相比，具有以下优点：

本发明针对目前多领域商品评论数据的人工划分工作量大、划分规则单一且不一定被算法接受的问题，提出一种嵌入文本分类器进行特征提取预分类的多任务情感分类模型，有效减少了人工处理数据的工作量。使用多头注意力机制作为文本分类器，按照特征词所占权重的大小，在训练过程中动态的对评论文本数据进行划分，可以探寻出最优的预分类标签的划分方式。通过实验分析和测试验证了所提出的方法有效的应用在六个不同领域上的商品评论数据集上，相对于单任务模型和原始的多任务学习模型，情感分类的准确率得到有效提升。

附图说明

图1为融合多头注意力机制的多任务学习情感分类方法的整体架构图；

图2为基于LSTM和逐点卷积神经网络的编码器结构；

图3为引入对抗器的多任务学习模型。

具体实施方式

以下结合附图对本发明的优选实施例进行详细描述，但本发明并不仅仅限于这些实施例。本发明涵盖任何在本发明的精神和范围上做的替代、修改、等效方法以及方案。

为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。

在下列段落中参照附图以举例方式更具体地描述本发明。需说明的是，附图均采用较为简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

多任务学习(Multi-task Learning,MTL)，是指多个任务共同学习、联合训练的学习过程，旨在通过各任务间的信息共享提升单个任务的性能和泛化能力。本发明使用共享私有多任务方案来进行模型构建，在共享编码器之后添加了一个任务判别器节点，将私有特征尽可能从共享特征中剔除，从而减少特定任务的特征和一些其他任务带来的噪音污染，提升共享编码器的编码质量。本发明使用基于LSTM和逐点卷积神经网络构成的编码器来构建分类模型，设计了辅助分类的损失函数项加入到了原有多任务学习模型的损失函数中，在模型整体的计算训练中动态地优化特征提取和多任务情感分类组件参数，从而提升情感分类效果。

图1展示了本发明提出的一种融合多头注意力机制的多任务学习情感分类方法，其中包括以下步骤：

2)每种领域的商品评论数据约为2000余条，总计12000余条，将预处理后的每种领域的商品评论按照8:1:1的比例划分为训练集、验证集和测试集，正负样本分布均匀，随后进行文本初始化，从而得到词向量矩阵；

5)设计新的损失函数项加入原有的融合多头注意力机制的多任务学习情感分类模型的损失函数中，经过多轮训练，动态地优化模型参数，即得到最优的融合多头注意力机制的多任务学习情感分类模型，从而可对评论文本进行情感分类。

步骤1)中所述的预处理，是指对文本进行数据清洗、去除停用词、分词等操作。一般来说，文本数据中含有大量与主要信息无关的数据，这些冗余内容会对情感分类的准确性产生消极影响，因此在预处理阶段，需要通过这些操作还消除文本中包含的噪声。

步骤2)中所述的文本初始化是指：将训练、验证、测试集中的文本转换为词向量，具体是采用Word2Vec模型对输入的文本数据进行特征映射，从而得到相应的词向量矩阵Rⁿ ^*V，其中，n表示词向量维度，V表示全部向量化的词语数目；所述输入的文本数据表示为Sentence＝{X₁，X₂，...X_i...，X_m}，其中，m表示句子中包含的词语的个数；X_i＝{h₁，h₂，...，h_n}，i＝1，2，...，m，作为输入的文本数据中所包含的词语表示。

步骤4)中，所述的多任务情感分类器基于对抗多任务学习框架，包括多个私有编码器、共享编码器和任务判别器，其中，私有编码器用于存储任务相关的特性；共享编码器用于捕获任务共同的特性，从而方便任务间进行信息共享；任务判别器用于剔除共享特征中的私有特征。

步骤5)中所述的新的损失函数是用来监督文本分类器的预分类效果，并和其他损失函数一起共同控制整个模型的训练和优化走向。所述的新的损失函数项具体为：和其他损失函数一起共同控制整个模型的训练和优化走向，其中，T表示文本分类器设置的标签种类数目，n表示文本分类器得到的预分类标签，/>表示预分类标签n和真实情绪标签的交叉熵损失函数。

本发明选用word2vec预训练的词向量来初始化文本向量，词向量维度设置为256，LSTM的隐藏层状态维度设置为512。使用多头注意力模型进行特征提取，注意力机制头数设置4。考虑到英文评论语句过长造成内存不足的结果，本发明截取了不同的句子长度作为最大长度，超出部分丢弃，经过后期的测试验证中得到相对较佳的句子最大长度。训练过程采用SGD优化器来更新参数，使用随机梯度下降法，支持学习率衰减。

在本发明中，使用准确率(Accuracy)和F1-score指标作为评估标准来评判算法模型的优劣。其中，准确率由正确预测的文本数和总文本数的比值得来。F1-score是分类问题的一个衡量指标，它是精准率(Precision)和召回率(Recall)的调和平均数。精确率指被分类器判定积极中的正样本的比重，召回率表示被正确预测为积极的占总的正样本的比重。具体计算公式如下所示。

式中，TP表示预测结果为积极，真实值为积极；TN表示，预测结果为消极，真实值为消极；FP表示预测结果为积极，真实值为消极；FN表示预测结果为消极，真实值为积极。

本发明使用交叉熵等损失函数计算损失值，每次迭代都会减少损失值，直到损失值减少到最低水平。采用本发明方法对6个领域的商品评论数据集进进行分类的最终结果如表1～3所示：

表1对比了本发明中提出的模型和基于各种基础神经网络的单任务学习模型，例如，将长短时记忆网络(LSTM)、门控循环单元(GRU)、卷积神经网络(CNN)等基线模型作为编码器的方法。表2比较了本发明中提出的模型和无文本分类器的传统多任务学习情感分类模型，在多任务学习模型中同样选择了使用三种基本网络架构(MTL-CNN、MTL-LSTM和MTL-GRU)作为编码器的方法。

从表中可以很明显地发现，本发明在以上六种商品数据集上的评价指标相较于上述其他方法均得到提升，平均准确率和F1分值分别是0.8754和0.8752。相对于单任务学习中的LSTM，GRU，CNN在平均准确率上分别提高了3.08％，5.16％，8.33％，在平均F1值上分别提高了3.07％，5.15％，8.41％。相对于多任务模型MTL-LSTM，MTL-GRU，MTL-CNN，在平均准确率上分别提高了2.21％、9.00％和4.99％，在平均分值上分别提升2.21％、9.01％和5.10％。结果表明，使用多任务学习比单任务具有更高的精度。另外，相对于直接按照商品类型划分，无文本分类器的多任务学习情感分类模型，使用文本分类器对数据集进行预分类子任务可以取得更优的分类效果，这些均证明了本发明提出的方法是有效可行的。

表3验证了本发明中提出的多头注意力机制进行先前特征提取、LSTM作为情感分类器的有效性。分别对多任务编码器模型和文本分类器中特征提取预分类模型进行更换，在结合CNN特征提取和LSTM编码器的多任务情感分类(CNN-LSTM-MTL)模型，结合多尺度CNN特征提取和LSTM编码器的多任务情感分类(MSCNN-LSTM-MTL)模型以及结合多头注意力机制和GRU编码器的多任务情感分类(MHA-GRU-MTL)模型上做了对比实验。另外，为了验证模型中逐点卷积神经网络对实验结果的影响，本发明做了消融实验，在基于LSTM的编码器中去掉了逐点卷积神经网络，以此作为对比。

表1 数据集在本文模型和单任务模型上的表现

表2 数据集在本文模型和多任务模型上的表现

表3 模型自身实验对比结果

如表3所示，使用融合多头注意力机制进行特征提取结合LSTM编码器进行多任务分类相对于其他模型具有最优性。在文本分类器选择方面，虽然CNN可以通过卷积核扫描文本的局部以此来捕获文本的特征，但具有一定的局限性，它无法获得词语之间完整的交互信息，往往会忽略词语之间的语义联系。尽管使用多尺度卷积进行多方面特征提取，效果也并没有明显的提升。注意力机制可以获取词语之间的内在联系，将最重要的信息用更高的权重突出出来，抓住文本间关键特征，使得划分子任务的性能更佳，对后续情感分类起到更好的帮助作用。在逐点卷积神经网络方面，通过表3可以看出，在编码器中添加逐点卷积层比没有逐点卷积神经网络的平均准确率和F1分值分别提升了1.08％，1.09％，可以看出逐点卷积神经网络对情感分类起到一定的帮助作用。

虽然以上将实施例分开说明和阐述，但涉及部分共通之技术，在本领域普通技术人员看来，可以在实施例之间进行替换和整合，涉及其中一个实施例未明确记载的内容，则可参考有记载的另一个实施例。

以上所述的实施方式，并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等，均应包含在该技术方案的保护范围之内。

Claims

1.一种融合多头注意力机制的多任务学习情感分类方法，其特征在于：包括以下步骤：

2)将预处理后的每种领域的商品评论按照8:1:1的比例划分为训练集、验证集和测试集，正负样本分布均匀，随后进行文本初始化，从而得到词向量矩阵；

4)使用由长短期记忆网络联合逐点卷积神经网络构成的编码器对分批次输入的词向量矩阵进行编码，将预分类标签作为辅助标签进行输入词向量矩阵类别的重分类，构建多任务情感分类器；所述的文本分类器和多任务情感分类器共同构成融合多头注意力机制的多任务学习情感分类模型；

5)设计新的损失函数项加入原有的融合多头注意力机制的多任务学习情感分类模型的损失函数中，经过多轮训练，动态地优化模型参数，即得到最优的融合多头注意力机制的多任务学习情感分类模型，利用该模型可对评论文本进行情感分类；

步骤2)中所述的文本初始化是指：将训练、验证、测试集中的文本转换为词向量，具体是采用Word2Vec模型对输入的文本数据进行特征映射，从而得到相应的词向量矩阵R^n*V，其中，n表示词向量维度，V表示全部向量化的词语数目；所述输入的文本数据表示为Sentence＝{X₁,X₂,…X_i…,X_m}，其中，m表示句子中包含的词语的个数；X_i＝{h₁,h₂,…,h_n},i＝1,2,…,m，作为输入的文本数据中所包含的词语表示；

步骤4)中，所述的多任务情感分类器基于对抗多任务学习框架，包括多个私有编码器、共享编码器和任务判别器，其中，私有编码器用于存储任务相关的特性，共享编码器用于捕获任务共同的特性，任务判别器用于剔除共享特征中的私有特征；

步骤5)中所述的新的损失函数项用于监督文本分类器的预分类效果：其中，T表示文本分类器设置的标签种类数目，n表示文本分类器得到的预分类标签，/>表示预分类标签n和真实情绪标签的交叉熵损失函数。

2.根据权利要求1所述的融合多头注意力机制的多任务学习情感分类方法，其特征在于：步骤1)中所述的预处理，是指对文本进行数据清洗、去除停用词、分词操作。