CN114238636A

CN114238636A - 一种基于翻译匹配的跨语言属性级情感分类方法

Info

Publication number: CN114238636A
Application number: CN202111529633.8A
Authority: CN
Inventors: 吴含前; 王志可; 王启鹏; 姚莉; 李露
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-25

Abstract

本发明公开了一种基于翻译匹配的跨语言属性级情感分类方法，该方法能够利用语料资源丰富的源语言提升语料资源稀缺的目标语言属性级情感分类的性能，包括领域分类和属性情感分类两部分，在模型构建过程中基于模型特征设置了模型的超参，包括多头自注意力层数量、梯度反转超参值等。领域分类利用领域判别器与语言编码器的对抗训练减小机器翻译导致真实语言与翻译语言的领域偏差问题，属性情感分类对属性序列表示和句子序列表示细粒度交互获得属性级句子表示，然后通过全连接层和softmax层获得最终情感预测结果。本发明提出的属性级情感分类模型构建代价小，并且对比试验验证结果表明，相较于其他模型，本发明提出的属性级情感分类模型结果最优。

Description

一种基于翻译匹配的跨语言属性级情感分类方法

技术领域

本发明涉及自然语言处理方法，具体涉及一种基于翻译匹配的跨语言属性级情感分类方法。

背景技术

针对粗粒度的跨语言文本分类任务研究主要分为两种方法：其一是通过双语词典和机器翻译，例如Bel等在“Cross-lingualtext categorization”中最开始使用双语词典将目标语言翻译为源语言，然后利用基于源语言的分类器对翻译文本进行分类。其二是跨语言表示学习，即通过共享特征空间进行跨语言模型迁移实现较小代价的跨语言特征对齐。在跨语言词嵌入中，不同语言中具有相似含义的词具有相似的向量表示。例如Klementiev等在“Inducing crosslingual distributed representationsof words”中用大量的并行语料训练跨语言词嵌入，并在以英语为源语言、德语为目标语言的文本分类数据集上取得了较好的效果。

对于文本的情感分类也可被视为文本分类，而早期跨语言情感分类研究通常采用词典迁移的方法，即先将源语言的情感词典迁移至目标语言，再构建目标语言基于情感词的分类器，从而达到分类的目的。但当目标语言为资源稀缺的小语种时，双语情感资源将很难获得，基于词典迁移的方法具有一定局限性，而基于机器翻译方法进行情感分析具有可行性。Banea等在“Multilingual subjectivity analysis usingmachine translation”中利用机器翻译系统对比了正向翻译与反向翻译在主观性情感分析任务上的性能，初步探索了基于机器翻译方法进行情感分析的可行性。

而属性级情感分析(Aspect-levelSentiment Analysis)则是一种细粒度的情感分类，依赖的不是整体句子，而是与特定属性相关的一组词或短语，目前跨语言属性级情感分析的研究尚处在起步阶段。Lambert等在“Aspect-levelcross-lingualsentimentclassification with constrained SMT”中提出了一种基于约束SMT的方法，该方法在考虑上下文的情况下对情感单元进行翻译，其中情感单元包含情感持有者和情感目标。实验结果证明基于该方法建立的跨语言情感分类器可以达到与单语言分类器相当的结果。而Barnes等在“Exploring distributional representations and machinetranslationforaspect-basedcross-lingualsentiment classification”中探索了基于机器翻译的方法和跨语言词嵌入表示的方法在跨语言属性级情感分类任务上的性能，该方法使用SVM作为情感分类器进行性能比较和分析。

发明内容

基于现有技术的不足，本发明提出一种基于翻译匹配的跨语言属性级情感分类方法，通过具有领域分类器、目标编码器、梯度反转层、多头自注意力层、自适应融合的基于翻译匹配的跨语言属性级情感分类模型，利用语料资源丰富的源语言提升语料资源稀缺的目标语言属性级情感分类的性能。

为了实现上述目的，本发明的技术方案如下，一种基于翻译匹配的跨语言属性级情感分类方法，可分为对抗式域适应训练和属性情感分类训练两部分，包括目标编码器、领域分类器、梯度反转层、多头自注意力层、自适应融合层、全连接层和softmax层。领域分类器和目标编码器进行对抗式域适应训练能够减少目标翻译和真实语言之间的偏差，而梯度反转层能将两者目标函数统一到一个反向传播过程中进行训练；利用多层多头自注意力层建模目标翻译语料中<属性，句子>之间的细粒度交互可得到属性级句子表示，然后通过自适应融合层得到最终的属性级向量表示，将其输入全连接层和softmax层后得到最终情感预测结果。

所述基于翻译匹配的跨语言属性级情感分类模型通过目标编码器、领域分类器和梯度反转层进行对抗式域适应训练，使得通过所述目标语言编码器编码后目标翻译与真实语言之间的分布偏差减小。所述目标语言编码器为谷歌官方提供的BERT-Base模型，包含12层Transformer编码器子模块。利用目标语言编码器编码属性序列、目标翻译句子序列以及真实句子序列，分别得到A_tgt、S_tgt、U_tgt，再将句子序列表示经过平均池化层得到对应的句子向量表示，如下式所示：

u_tgt＝MeanPooling(U_tgt)

s_tgt＝MeanPooling(S_tgt)

所述领域分类器为二类分类器，对于一个句子向量表示x，其标签z∈{0，1}表示该样本属于翻译句子还是真实句子，而一种最大化两个分布之间相似度的方法就是最大化判别器分类损失，所述领域判别器的损失函数如下式所示：

其中，θ_t∈{θ_tgt,θ_d}，θ_tgt为目标语言编码器参数，θ_d为源域判别器参数。通过所述梯度反转层实现编码器与判别器相互对抗的训练方式，即寻求参数θ_d最小化损失函数同时寻求参数θ_tgt最大化损失函数，其通过在反向传播时，将所有关于参数θ_tgt的梯度值与一个超参数-λ相乘实现。

所述基于翻译匹配的跨语言属性级情感分类模型通过多头自注意力层、自适应融合进行属性情感分类训练。所述多头自注意力层将属性表示A_tgt和翻译句子表示S_tgt拼接后作为输入，从而建模得到属性级隐向量表示H_tgt，其过程如下式所示：

其中

表示拼接操作，Transformer(·)由X层Transformer编码器子模块堆叠而成。再通过所述自适应融合层得到自适应融合后的属性级表示，并且与A_tgt属性序列表示经平均池化层的结果拼接，从而得到最终的向量表示，如下式所示：

a_υ＝MeanPooling(A_tgt)

其中，H_tgt为属性级隐向量表示，W和b均为可训练参数，M∈R^N×N，N为属性序列与句子序列拼接后的最大长度，M_ij表示目标翻译表示中第i个词关于第j的词的注意力得分，W_t∈R^1×N为自适应权重参数，α_t表示每个位置的综合注意力得分，A_tgt为属性表示。

最后将最终的向量表示输入全连接层和softmax层，输出结果为特定于属性的情感极性概率分布，概率最大的情感类别即为预测结果，因此所述模型属性情感分类损失函数选用交叉熵，模型整体损失表示为领域判别器损失与属性情感分类损失和，如下式所示：

L＝L_C(θ_tgt)+L_D(θ_t)

其中M表示数据集大小，θ_t∈{θ_tgt,θ_d}，θ_tgt为目标语言编码器参数，θ_d为源域判别器参数。模型使用Adam优化器进行优化，其形式如下所示：

其中β₁，β₂∈[0,1)，分别是一阶动量衰减系数和二阶动量衰减系数，一般取值为0.9和0.999，ε为进步值，一般取值1e^-ε，

表示t-1次迭代中的参数梯度矩阵；在第t次迭代，X_t为参数矩阵，m_t是一阶动量，v_t是二阶动量，属于中间变量，α是学习速率。

有益效果：

1)本发明使用BERT作为目标语言编码器能够经过编码的序列更有意义，有利于提高属性情感分类性能，并且减小训练成本。

2)本发明使用了领域判别器和目标语言编码器的对抗式域适应训练，有利于减少机器翻译带来的目标翻译表示与真实句子表示之间的分布偏差，从而能更好的利用语料资源丰富的源语言提升语料资源稀缺目标语言属性级情感分类的性能。

3)本发明在利用多头自注意力机制建模属性表示与目标翻译表示之间的细粒度交互，并通过自适应融合层得到属性级句子向量表示，从而能更好的捕获句子信息并提高属性情感分类性能。

附图说明

图1是本发明方法流程图；

图2是本发明所用语料翻译样例示意图；

图3是本发明所用Transformer编码器子模块网络示意图；

图4是本发明所用深度域适应模型结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

实施例：本发明针对语料资源匮乏的目标语言语料构建了基于翻译匹配的跨语言属性级情感分类方法，在模型构建过程中基于模型特征设置了模型的超参，包括多头自注意力层数量、梯度反转超参等。如图1所示，本发明提出的跨语言属性级情感分类方法包括领域分类与属性情感分类，领域分类使得减少了对如图2所示目标翻译与真实语言之间编码后的分布偏差，属性情感分类使得模型能够充分建模语料属性级表示，并通过最终的表示得到特定于属性的情感极性概率分布，进而得到情感类别。

本发明的领域分类训练是一种对抗式域适应训练，如图1所示主要通过目标语言编码器、领域分类器和梯度反转层实现，其流程如图4所示。本发明中的目标语言编码器采用谷歌官方提供的BERT-Base模型，包含12层如图3所示Transformer编码器子模块。句子序列最大长度设置为60，属性序列最大长度为10，词向量维度为768，句子序列和属性序列共享语言编码器。将目标翻译与无标签目标语言句子通过所述编码器可分别得到序列表示L_tgt＝<A_tgt，S_tgt>、U_tgt，其中A_tgt为目标翻译属性序列表示，S_tgt为目标翻译句子序列表示，如式1所示通过平均池化层由S_tgt和U_tgt分别得到目标翻译句子向量表示、无标签句子向量表示。

领域分类器则是一个二分类器，其能判别输入的句子向量表示为目标翻译句子向量表示还是真实句子向量表示，而为了缓解翻译语料和真实语料之间存在域偏移问题采用最大化判别器分类损失的方法，其损失函数如式2所示：

其中，θ_t∈{θ_tgt,θ_d}，θ_tgt为目标语言编码器参数，θ_d为源域判别器参数。梯度反转层则使得目标语言编码器与领域分类器能够对抗式训练，即寻求参数θ_d最小化损失函数同时寻求参数θ_tgt最大化损失函数，其会在反向传播时将θ_tgt的梯度与超参数-λ相乘从而实现梯度反转，λ值为5e-7。

本发明的属性情感分类通过多头自注意力层、自适应融合层以及最后的全连接层和Softmax层实现，可由带标签的翻译语言通过目标语言编码器后的目标翻译属性序列表示A_tgt、目标翻译句子序列表示S_tgt得到最后情感类别。多头自注意力层内部使用如图3所示Transformer编码器子模块，在将A_tgt和S_tgt拼接后输入后可得到目标翻译样本的属性级句子表示H_tgt，过程如式3所所示。

其中

表示拼接操作，Transformer(·)由3层Transformer编码器子模块堆叠而成。而通过自适应融合层可得到最终的属性级向量表示，首先需要如式4所示计算H_tgt各个位置的注意力得分：

其中，W和b均为可训练参数，M∈R^N×N，N为属性序列与句子序列拼接后的最大长度，M_ij表示目标翻译表示中第i个词关于第j的词的注意力得分。一方面为了计算源语言对目标语言的注意力表示，利用自适应参数W_t融合得到隐向量表示H_tgt中每个位置的综合注意力得分，并经过softmax函数得到注意力分布，然后将注意力分布与目标语言隐向量表示H_tgt相乘得到自适应融合后的属性级表示，具体如式5所示：

其中W_t∈R^1×N为自适应权重参数，α_t表示每个位置的综合注意力得分。最后与A_tgt属性序列表示经平均池化层的结果拼接，从而得到最终的向量表示，其过程如式6所示：

最后将最终的向量表示r输入全连接层和softmax层，输出结果为特定于属性的情感极性概率分布，概率最大的情感类别即为预测结果，具体如式7所示：

y＝softmax(Wr+b) (7)

其中W为全连接层权重矩阵，b为偏置项。得到各个情感类别的条件概率分布后，构造如式8所示损失函数作为训练目标：

其中M表示数据集大小，θ_tgt为目标语言编码器参数，y为概率分布中表示样本是正例的概率，

为实际类别标签，如果样本属于正例，取值为1，否则取值为0。而在模型整体训练时，如式9所示，选择领域分类部分损失函数与属性情感分类部分损失函数和作为优化目标。

L＝L_C(θ_tgt)+L_D(θ_t) (9)

为了验证本发明对翻译语料进行属性级情感分类的优势，进行了一系列对比实验，使用准确率和F1值作为实验评价标准，准确率计算方式如式10所示，F1值计算方式如式11所示。

其中Correct表示所有预测正确的样本数，N表示样本总数，R为所有类别召回率均值，P为所有类别精准率均值。而对于任意类别k，精准率表示所有模型预测为类别k的样本中，预测正确的比例；召回率表示所有真实类别为k的样本中，被正确预测的比例，其计算方式如式12所示。

实验的步骤主要包括三个方面，首先是数据准备；然后模型训练；最后是通过训练好的模型进行属性级情感分类，展示主客观效果。

1)数据准备

实验使用的数据集为来自于SemEval-2016公开的属性级标注语料以及苏宁易购电商平台的公开语料，前者包含英文、西班牙文和俄文的属性级标注语料，后者则提供中文语料，并且依据SemEval-2016笔记本领域数据集的标注规范并结合中文语言的特点，对苏宁易购的语料制定了适用于中文语料的属性级标注规范，具体标注样例如表1所示。为了全面评估跨语言属性情感分类模型的性能，语料包含了两个领域的评论文本，分别是餐饮领域和笔记本领域。在餐饮领域数据集上，将英文作为源语言，西班牙文、俄文作为目标语言进行跨语言属性级情感分类研究；在笔记本领域数据集上将英文作为源语言，中文作为目标语言进行研究。详细语料分布统计情况如表2所示。

表1属性级情感分析语料标注示例表

表2实验所用数据集分布统计表

实验过程中，训练集和开发集均选择源语言语料或其目标翻译版本，而不使用任何额外的带标注目标语言语料资源，训练集与开发集比例为8:2，测试集则选择带属性标注的目标语言语料进行测试。

2)模型训练

模型使用Adam优化器进行优化，初始学习率设置为1e-5用于训练属性情感分类器，为了实现对抗训练，域判别器初始学习率设置为1e-5。此外，模型训练的批次大小取值为32，训练迭代轮数为10，为了减小过拟合的影响，神经元随机失活率设置为0.3。为了验证本发明提出的基于翻译匹配的跨语言属性级情感分类方法的有效性，选择如下模型与其进行对比实验：

·MT-DAN：该方法将源语言翻译为目标语言。基于目标翻译语料，利用翻译后的语料训练一个深度平均网络(Deep Average Network)生成用于情感分类的句子向量表示。最终构建一个目标语言情感分类模型，在测试阶段直接用真实目标语言语料进行测试。

·ATAE-LSTM(S2T)：该方法将源语言翻译为目标语言。基于目标翻译语料，利用LSTM网络建模属性表示和句子表示，并利用注意力机制将属性表示添加到句子表示中，生成属性级句子表示用于情感分类。最终构建一个目标语言情感分类模型，在测试阶段直接用真实目标语言语料进行测试。

·ATAE-LSTM(T2S)：该方法基于源语言语料，利用LSTM网络建模属性表示和句子表示，并利用注意力机制生成属性级句子表示用于情感分类。最终构建一个源语言情感分类器，在测试阶段使用机器翻译工具将真实语料翻译为源语言进行测试。

·BERT(S2T)：该方法将源语言翻译为目标语言。基于目标翻译语料，构建<属性，句子>对作为模型输入建模属性级句子表示，经平均池化层得到的向量表示用于情感分类。最终构建一个目标语言情感分类模型，在测试阶段直接用真实目标语言语料进行测试。

·BERT(T2S)：该方法基于源语言语料，构建<属性，句子>对作为模型输入建模属性级句子表示，经平均池化层得到的向量表示用于情感分类。最终构建一个源语言情感分类器，在测试阶段使用机器翻译工具将真实语料翻译为源语言进行测试。

·mBERT：该方法基于源语言语料，构建<属性，句子>对作为模型输入建模属性级句子表示，经平均池化层得到的向量表示用于属性情感分类。利用mBERT的跨语言表示能力，在测试阶段直接用真实目标语言语料进行测试。

·mBERT-adv：该方法基于源语言语料和无标注目标语言语料，引入语言判别器与mBERT进行对抗训练生成语言无关的特征表示，同时利用标注源语言语料进行属性级情感分类训练。在测试阶段直接用真实目标语言语料进行测试。

·TransMatch：该方法将源语言翻译为目标语言。基于目标翻译语料和无标注真实目标语言语料，利用目标语言编码器分别编码属性、目标翻译句子和真实句子表示，然后引入领域判别器与编码器对抗训练生成领域无关的特征表示，同时利用目标翻译语料进行属性级情感分类训练。在测试阶段直接用真实目标语言语料进行测试。

3)实验结果

将上述模型使用准备好的数据集进行训练、测试，可得到如表3所示结果。结果中显示了训练后模型在测试集上的准确率和F1值，两者的值越大则说明模型的性能越优越。

表3各类属性级情感分类方法实验结果对比

从表3结果可看到本发明提出的模型性能是最优的。从ATAE-LSTM(S2T)和MT-DAN的实验结果可看到建模属性与句子表示之间细粒度交互具有重要意义。从ATAE-LSTM(S2T)、ATAE-LSTM(T2S)和BERT(S2T)、BERT(T2S)这两组结果可以发现正向翻译的效果要比反向翻译差，其主要原因在于正向翻译方法利用机器翻译工具将源语言语料翻译为目标语言语料，但翻译结果质量较低，使基于目标翻译语料训练出的模型性能较差，即误差传播；而反向翻译方法基于源语言语料训练一个源语言情感分类器，在测试阶段将目标语言翻译为源语言，该分类器使用的源语言语料质量较高、性能较好，即使在测试阶段使用质量较差的翻译语料也依然能保持较好的性能。

再者，通过对比mBERT与mBERT-adv，可以发现在训练过程中引入语言判别器，可以提高跨语言属性情感分类的性能。mBERT在不借助任何外部语料和机器翻译工具的条件下取得了不错的性能，这也说明了目前跨语言预训练模型的潜力。

最后本发明提出的TransMatch方法的性能优于其他所有基准模型，其准确率和F1值较mBERT-adv有显著的优势。分析其原因，主要在于mBERT-adv方法在不借助机器翻译工具的条件下，在训练阶段引入语言判别器，旨在减少两种不同语言之间的分布差异问题，但该方法并不能直接提升mBERT的跨语言表示能力，实际效果并不理想。相反，TransMath首先借助机器翻译工具对语料进行迁移，这个过程已经消除了大部分的语言差异，但是翻译结果与真实语料之间仍然存在领域偏差问题，因此引入领域判别器消除分布偏差，从而取得了更优的性能。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代，均属于本发明的保护范围。

Claims

1.一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，所述方法包括领域分类和属性情感分类两部分，在领域分类部分，利用领域判别器与语言编码器的对抗训练减小机器翻译导致真实语言与翻译语言的领域偏差问题；在属性情感分类部分，将编码后的属性序列、目标翻译句子序列输入网络，得到最终情感预测结果。

2.根据权利要求1所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，所述领域分类部分为一个二分类问题，包括目标语言编码器、平均池化层、梯度反转层、全连接层和softmax层，所述目标语言编码器对带标签的翻译文本和无标签目标文本进行编码获得属性序列表示A_tgt、目标翻译句子序列表示S_tgt以及真实句子序列表示U_tgt，句子序列表示输入所述平均池化层后可获得句子向量表示，然后将其输入所述梯度反转层，最后将梯度反转层输出结果输入全连接层和softmax层判断输入的句子表示属于翻译句子或真实句子。

3.根据权利要求2所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，所述目标语言编码器为谷歌官方提供的BERT-Base模型，包含12层Transformer编码器子模块。

4.根据权利要求2所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，领域分类部分损失函数如下式所示：

其中，θ_t∈{θ_tgt,θ_d}，θ_tgt为目标语言编码器参数，θ_d为源域判别器参数，通过所述梯度反转层实现编码器与判别器相互对抗的训练方式，即寻求参数θ_d最小化损失函数同时寻求参数θ_tgt最大化损失函数，其通过在反向传播时，将所有关于参数θ_tgt的梯度值与一个超参数-λ相乘实现，λ值为5e-7。

5.根据权利要求1所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，所述属性情感分类部分包括目标语言编码器、多头注意力层、自适应融合层、全连接层和softmax层，所述目标语言编码器将得到的属性序列表示、目标翻译句子序列表示由多头注意力层、自适应融合层得到属性和句子细粒度交互的属性级句子表示，再由全连接层和softmax层得到最终情感预测结果。

6.根据权利要求5所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，所述多头自注意力层内部使用的是Transformer编码器子模块，以属性表示和翻译句子表示拼接后作为输入，其过程如下式所示：

其中

表示拼接操作，Transformer(·)由X层Transformer编码器子模块堆叠而成，A_tgt为属性表示，S_tgt为翻译句子表示，H_tgt为属性级隐向量表示。

7.根据权利要求5所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，所述自适应融合层首先利用注意力加性模型计算属性级隐向量表示各个位置的注意力得分，再利用自适应参数和sotfmax函数得到综合注意力分布，最后使注意力分布与目标语言隐向量表示相乘得到自适应融合后的属性级表示，并且与属性序列表示经平均池化层的结果拼接后得到最终的向量表示，其过程如下式所示：

a_v＝MeanPooling(A_tgt)

8.根据权利要求5所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，属性情感分类部分损失函数如下式所示：

其中M表示数据集大小，θ_tgt为目标语言编码器参数，y为模型通过全连接层和softmax层由权力要求8所述的最终向量表示r得到的概率分布中表示样本是正例的概率，

为实际类别标签，如果样本属于正例，取值为1，否则取值为0。

9.根据权利要求1所述的一种基于翻译匹配的跨语言属性级情感分类方法，其特征在于，模型训练时损失函数为所述领域分类部分损失函数与所述属性情感分类部分损失函数和，模型使用Adam优化器进行优化，其形式如下所示：

其中β₁，β₂∈[0,1)，分别是一阶动量衰减系数和二阶动量衰减系数，取值为0.9和0.999，ε为进步值，取值1e^-ε，