CN117436460B

CN117436460B - 一种翻译质量评估方法、装置、设备及存储介质

Info

Publication number: CN117436460B
Application number: CN202311782453.XA
Authority: CN
Inventors: 李旺; 冉从敬; 刘瑞琦; 朱伟杰; 张逸人; 马丽娜; 莫富传; 黄文俊; 刘妍
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-03-12
Anticipated expiration: 2043-12-22
Also published as: CN117436460A

Abstract

本发明公开了一种翻译质量评估方法、装置、设备及存储介质，其中该方法包括步骤：获取原始文本信息和翻译文本信息，并将所述原始文本信息和所述翻译文本信息拼接为文本序列；将所述文本序列输入至多语言预训练模型中进行特征提取，得到原始文本特征和翻译文本特征；将所述原始文本特征和翻译文本特征进行组合，得到融合原始文本特征和翻译文本特征的特征序列；利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估。本申请能够提升英译中翻译的准确的，并且降低了训练成本，提高了模型的可迁移性。

Description

一种翻译质量评估方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种翻译质量评估方法、装置、设备及存储介质。

背景技术

随着全球化进程的演进，机器翻译技术已经成为全世界人们相互沟通和交流的桥梁。伴随着机器翻译技术的发展，机器翻译中暴露出诸多如错译、漏译和过度翻译等问题，而人工的机器翻译评估方式已经无法满足现实的需要。为此，机器翻译质量评估（QualityEstimation，QE）应运而生，机器翻译质量评估研究如何在不提供参考译文的情况下对机器译文的质量进行评估。其研究成果不仅可以帮助过滤低质量的翻译结果，构建高质量的平行语料库，还可以帮助翻译人员评估机器译文的质量，减少译后编辑量。在现有的QE方法中，主要分为基于传统机器学习和基于深度学习两种方法，近年来伴随着深度学习的发展后一种方法逐渐成为主流。这两种方法都致力于从数据中提取出和QE任务相关的特征，抽取的特征质量的好坏直接影响着最终模型性能的好坏，即由于平行语料库大小受限，像预测器-评估器框架这类依赖于额外平行语料库的质量评估模型性能的提升受到了限制。

因此，如何提高英译中翻译的准确性，是目前亟需解决的技术问题。

发明内容

本发明主要目的在于提供一种翻译质量评估方法、装置、设备及存储介质，能够提升英译中翻译的准确的，并且降低了训练成本，提高了模型的可迁移性。

第一方面，本申请提供了一种翻译质量评估方法，其中该方法包括步骤：

获取原始文本信息和翻译文本信息，并将所述原始文本信息和所述翻译文本信息拼接为文本序列；

将所述文本序列输入至多语言预训练模型中进行特征提取，得到原始文本特征和翻译文本特征；

将所述原始文本特征和翻译文本特征进行组合，得到融合原始文本特征和翻译文本特征的特征序列；

利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估。

结合上述第一方面，作为一种可选的实现方式，将所述文本序列作为输入，输入至多语言预训练模型中；

利用所述多语言预训练模型中的自注意力机制对所述文本序列的上下文信息进行融合，以使得原始文本和翻译文本之间彼此关注且相互参考；

当所述原始文本和翻译文本之间彼此关注且相互参考后，利用所述多语言预训练模型中的平均池化层Avg Pool分离出原始文本和翻译文本特征。

结合上述第一方面，作为一种可选的实现方式，利用标量混合层Scalar Mix对所述多语言预训练模型自低向上的每个隐藏层的特征进行抽取，并将抽取的特征进行组合，以使的所述多语言预训练模型抽取的文本特征中拥有原始文本和翻译文本从词级到句法再到语义上不同层次的语言学信息。

结合上述第一方面，作为一种可选的实现方式，利用所述多语言预训练模型中构建的平均池化层Avg Pool对所述特征序列进行拆分为来自原文的原始文本特征和来自机器翻译的翻译文本特征；

利用特征混合层Mix Layer，接收所述平均池化层拆分的原始文本特征和翻译文本特征作为输入，并按照特定方式组合起来形成最终模型预测所需要的翻译特征，其中所述特定方式组合包括：特征拼接、特征求和以及可学习的标量组合网络；

将所述翻译特征作为输入，经过一系列线性叠加层输出预测的结果，得到最终的评估分数。

结合上述第一方面，作为一种可选的实现方式，根据所述特征序列，获取原始文本特征序列和翻译文本特征序列；

利用所述平均池化层分别将原始文本特征序列和翻译文本特征序列按照序列的时间维度求平均值；

通过平均值将所述原始文本特征序列和翻译文本特征序列的每个维度的特征集合，以汇聚整个句子的特征；

根据汇聚整个句子的特征，以使得从序列各个字词的特征向整个句子的特征的转换。

结合上述第一方面，作为一种可选的实现方式，仅对所述多语言预训练模型中的Adapter 模块中的参数进行更新，并将所述多语言预训练模型的所有参数冻结，以减少微调阶段需要更新和保存的参数量。

结合上述第一方面，作为一种可选的实现方式，对机器翻译质量评估中的原始文本SRC和翻译文本MT进行文本语义抽取，并将抽取的文本语义按照一定的顺序连接起来形成新的文本序列。

第二方面，本申请提供了一种翻译质量评估装置，该装置包括：

拼接模块，其用于获取原始文本信息和翻译文本信息，并将所述原始文本信息和所述翻译文本信息拼接为文本序列；

提取模块，其用于将所述文本序列输入至多语言预训练模型中进行特征提取，得到原始文本特征和翻译文本特征；

组合模块，其用于将所述原始文本特征和翻译文本特征进行组合，得到融合原始文本特征和翻译文本特征的特征序列；

处理模块，其用于利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估。

第三方面，本申请还提供了一种电子设备，所述电子设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现第一方面任一项所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行第一方面任一项所述的方法。

本申请提供的一种翻译质量评估方法、装置、设备及存储介质，其中该方法包括步骤：获取原始文本信息和翻译文本信息，并将所述原始文本信息和所述翻译文本信息拼接为文本序列；将所述文本序列输入至多语言预训练模型中进行特征提取，得到原始文本特征和翻译文本特征；将所述原始文本特征和翻译文本特征进行组合，得到融合原始文本特征和翻译文本特征的特征序列；利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估。本申请能够提升英译中翻译的准确的，并且降低了训练成本，提高了模型的可迁移性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1为本申请实施例中提供的一种翻译质量评估方法流程图；

图2为本申请实施例中提供的一种翻译质量评估装置示意图；

图3为本申请实施例中提供的多语言预训练模型架构图；

图4为本申请实施例中提供的一种电子设备示意图；

图5为本申请实施例中提供的一种计算机可读程序介质示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。附图所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

以下结合附图对本申请的实施例作进一步详细说明。

参照图1，图1所示为本发明提供的一种翻译质量评估方法流程图，如图1所示，该方法包括步骤：

步骤S101: 获取原始文本信息和翻译文本信息，并将所述原始文本信息和所述翻译文本信息拼接为文本序列。

具体而言，对机器翻译质量评估中的原始文本SRC和翻译文本MT进行文本语义抽取，并将抽取的文本语义按照一定的顺序连接起来形成新的文本序列。

一实施例中，使用拼接的序列作为输入输入至多语言预训练模型具体为：特征提取部分接收SRC和MT文本拼接的序列作为输入，使用XLM-R模型做编码器对序列进行特征编码。与分别单独输入SRC文本和MT文本相比，将两者拼接的方式有两个考虑，一方面 XLM-R模型天然支持多语言的序列输入，将SRC文本和MT文本一次性一起输入可以减少模型的运算量，另一方面由于XLM-R内部使用自注意力机制进行特征提取，SRC文本和MT文本同时输入可以使自注意力机制充分发挥作用，SRC文本和MT文本可以将注意力放在彼此身上。由于同时使用了SRC和MT文本，为了进行区分需要加入额外标记，原句子对转化为<s>SRC</s></s>MT</s>。

XLM-R 内部使用自注意力机制捕捉输入序列中每个标记的特征信息，对于本模型而言，XLM-R 接收SRC文本和MT文本拼接的序列作为输入，在XLM-R内部，文本序列中的每个字词都融合了序列中所有字词的特征信息，图2描述了单层单头注意力中单个字词特征的计算过程，在整个XLM-R模型中，这样的结构有上百个，在XLM-R的每一层都会生成隐藏状态向量（即Output）并作为输入传递给下一层。

需要说明的是，拼接的序列是指将原始文本（SRC）和机器翻译文本（MT）按照一定的顺序连接起来形成的新的文本序列。这个序列作为输入被送入XLM-R模型（多语言预训练模型）进行特征编码。

通常情况下，拼接的序列是在原始文本和机器翻译文本之间添加一个分隔符或连接符，以便在特征编码时能够区分出原始文本和机器翻译文本的部分。这样做的好处是可以同时利用原始文本和机器翻译文本的信息，从而有可能提高后续处理任务的性能。

需要说明的是，预训练语言模型的思想是，在模型被用于确定的任务之前，利用语料库数据对模型提前进行预训练，使得模型具有一定的通用语言学知识，这样再应用在具体任务时模型就已经有了预训练时的知识，能够很快适应不同的任务。

步骤S102: 将所述文本序列输入至多语言预训练模型中进行特征提取，得到原始文本特征和翻译文本特征。

具体而言，将所述文本序列作为输入，输入至多语言预训练模型中；利用所述多语言预训练模型中的自注意力机制对所述文本序列的上下文信息进行融合，以使得原始文本和翻译文本之间彼此关注且相互参考；当所述原始文本和翻译文本之间彼此关注且相互参考后，利用所述多语言预训练模型中的平均池化层Avg Pool分离出原始文本和翻译文本特征。

需要说明的是，原文和译文间信息相互参考这一质量评估模型构建的思路主要来自于对人工翻译评估行为的观察和分析。在人工进行翻译质量的评估中，评价者需要充分结合原文和译文之间的信息，比较两者间的差异从而得出结论。

具体而言，评估人员看到原文和译文时，会动用自己已有的两者语言的知识理解原文和译文，从而形成对原文和译文两者的理解。在这一过程中重要的是原文和译文两者的信息并不是孤立的，无论是在观察原文还是译文时，由于两者是同时提供的，评估人员都能在对方语言的基础上进行理解。也就是说，在观察译文时，评估人员对照了原文的信息对译文信息进行获取，在观察原文时也带有了译文的信息，由此使得原文和译文的信息相互做了参考。紧接着，在有了原文和译文的信息后，评估人员会对比两者间的差别，从而能够寻找翻译中的错误，在此时虽然原文和译文的信息互相做了参考，但并没有杂糅在一起，原文的信息和译文的信息依然独立存在，从而能被评估人员进行比较分析。

可以理解的是，在具体实现上，模型将原文和译文序列拼接后输入具有自注意力机制的预训练模型（需要说明的是本文中的预训练模型可以理解为多语言预训练模型），从而使两者相互参考；在之后通过平均池化层分离出原文和译文特征，为了鼓励模型对比原文和译文进行质量评估，在进入输出层前设计了多种原文和译文组合方式，输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估。

一实施例中，借助预训练语言模型 XLM-R 提取原始文本（SRC）和机器翻译文本（MT）中的特征信息，利用 XLM-R 强大的语言表征能力和预训练语言学知识，提取尽可能多的有利于评估翻译效果的特征，另一方面要考虑到 XLM-R 巨大参数量带来的微调成本问题，尽可能减轻训练的代价。为了达成上述目标，模型采用了原始文本（SRC）和机器翻译文本（MT）拼接共同作为输入，使用标量混合层融合模型各层网络的隐藏状态，并且改变传统微调思路采用Adapter插件训练模型。需要说明的是，adapter-tuning对预训练模型的结构进行了模块化的插入，在每层中加入设计好的adapter模块，在微调时原预训练模型的参数保持不变，仅对adapter的参数更新，从而大大减少了微调过程中所需要保存和更新的参数量。这种插入模块的方式还有一个好处是利于模型的迁移，因为对原预训练模型的参数和结构没有做任何更改，因此可以将在某任务上训练好的adapter模块单独取出进行保存和分享，就像一个插件一样可以方便的嵌入预训练模型中使预训练模型能够适应不同的任务。基于adapter模块的易用性和可迁移性非常适合翻译质量任务，因此本发明模型中将其应用在预训练模型中进行模型微调方式的改进，改进后的模型需要训练的参数量显著减少，从而很大程度上降低了训练成本。

需要说明的是，XLM-R 在提供了强大的预训练得到的知识以及特征提取能力的同时，XLM-R 极大的参数量使得模型在训练时会需要更多的数据以及耗费更多的资源。

一实施例中，仅对所述多语言预训练模型中的Adapter 模块中的参数进行更新，并将所述多语言预训练模型的所有参数冻结，以减少微调阶段需要更新和保存的参数量。

可以理解的是，在 XLM-R 中本模型加入了Adapter 模块，在训练模型时可以仅对Adapter 模块中的参数进行更新，XLM-R 中其他的参数固定不变，该模块能在训练中学到下游任务的相关特征，能够有效的提高训练的效率，Adapter的效果与XLM-R模型所有参数进行更新的效果非常接近，但Adapter 所需要的训练代价更小。

Adapter 的具体做法是，首先通过全连接对原输入降维进而减小参数量，经过内部的神经网络后再将维度还原，形成一种bottleneck的结构。应用时只需在原来的预训练模型的每层中间加入两个adapter即可，在微调过程中，原预训练模型的参数冻结住不更新，只更新adapter的参数，因此大大减少了微调阶段需要更新和保存的参数量。

可以理解的是，XLM-R是一种基于BERT架构的语言模型，其内部使用transformer模型的自注意力机制进行特征的运算和抽取，它有多层的注意力模块叠加组成，其中每一层都联合了上下文的信息，从模型输入文本序列开始每一层都对上下文信息进行融合，然后再将融合后的信息传入下一层，在下一层重复之前的工作继续对输入进行上下文信息的融合，以此类推直到输出层。在输出层模型输出融合后的一个特征序列，其中序列的第一个标记的特征被设计为融合了输入文本序列的特征，序列剩下的标记的特征则与输入文本序列的每个元素相对应。

通过对BERT中间的每一层进行探测任务实验，BERT的每一层神经网络编码了不同类型的语言学特征。探测任务是一系列的能够帮助判断特征所含的语言学信息的任务，如表层任务能够探测句子长度、单词是否存在，句法层任务能够探索词序敏感性、句法树深度等，语义层任务则能够进行时态检查、主语数量探测等。实验发现，BERT编码了丰富的语言学层次信息：表层信息特征在底层网络，句法信息特征在中间层网络，语义信息特征在高层网络。可以理解为在XLM-R模型的输出层，模型会输出一个融合后的特征序列。这个特征序列的第一个标记的特征是经过融合的，它整合了输入文本序列的所有特征，而序列中剩下的标记的特征则与输入文本序列的每个元素相对应。

更具体地说，XLM-R模型在处理输入文本序列时，会从第一层开始，对输入序列进行自注意力机制的计算，每一层都会考虑输入序列的上下文信息，并将这些信息整合到一起，传输到下一层。这样，在最终的输出层，模型会得到一个包含了整个输入文本序列信息的特征向量。这个特征向量的第一个元素是输入文本序列的整体特征的融合，而后面的元素则对应于输入文本序列中的每一个元素。

此外，为了充分利用预训练模型的特征抽取能力，本发明的做法是融合预训练模型多层次的语言学知识，不仅包含预训练模型输出层的句子和单词对应的特征信息，还对模型自底向上的每一个隐含层的特征序列中的信息进行抽取，从而使得模型抽取的文本特征中拥有原文和译文从词级到句法再到语义上不同层次的语言学信息。在具体实现上，由于每个层次知识对于翻译质量评估任务的贡献不同，模型设计了线性混合层（标量混合层）来对各层知识进行不同权重的融合，从而更适应于英译中的翻译质量评估任务。

可以理解的是，基于多语言的预训练模型构建从而利用迁移学习迁移语言学知识，设计了标量混合层（Scalar Mix）对预训练模型进行每个隐藏层的特征抽取，实现融合预训练模型多层次的语言学知识，在预训练模型中使用Adapter进行微调方式的改进，通过设计拼接的序列输入以及特征组合模块使得原文和译文间信息相互参考。

步骤S103: 将所述原始文本特征和翻译文本特征进行组合，得到融合原始文本特征和翻译文本特征的特征序列。

具体而言，在得到原始文本特征和翻译文本特征后，将两者进行特征组合，得到了融合原始文本特征和翻译文本特征的特征序列。需要说明的是，特征序列中包括原始文本特征序列和翻译文本特征序列。

一实施例中，根据所述特征序列，获取原始文本特征序列和翻译文本特征序列；

利用所述平均池化层分别将原始文本特征序列和翻译文本特征序列按照序列的时间维度求平均值；通过平均值将所述原始文本特征序列和翻译文本特征序列的每个维度的特征集合，以汇聚整个句子的特征；根据汇聚整个句子的特征，以使得从序列各个字词的特征向整个句子的特征的转换。

步骤S104: 利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估。

具体而言，利用所述多语言预训练模型中构建的平均池化层Avg Pool对所述特征序列进行拆分为来自原文的原始文本特征和来自机器翻译的翻译文本特征；利用特征混合层Mix Layer，接收所述平均池化层拆分的原始文本特征和翻译文本特征作为输入，并按照特定方式组合起来形成最终模型预测所需要的翻译特征，其中所述特定方式组合包括：特征拼接、特征求和以及可学习的标量组合网络；将所述翻译特征作为输入，经过一系列线性叠加层输出预测的结果，得到最终的评估分数。

需要说明的是，标量混合层（Scalar Mix）在预训练模型中对SRC和MT文本序列进行特征编码后，将预训练模型的每一层生成的隐藏状态向量全部传递给一个标量混合层。这个标量混合层的作用是学习编码器每一层隐藏状态的加权和，从而产生一个新的聚合的隐藏状态序列。这个聚合的隐藏状态序列包含了SRC和MT文本序列的特征信息。

对于基于transformer架构的语言模型，如XLM-R，在训练过程中模型的不同网络层都学到了不同的语言学知识，而这些知识就储存在各层的隐形状态向量中。标量混合层接收各层的隐藏状态，并学习它们的组合从而利用各个层次的语言知识完成质量评估任务。

经过标量混合层后，模型得到了融合SRC和MT文本信息，以及他们在多个语言层次的语言学知识的特征序列，序列中的每个特征与模型最初的输入序列中的每个字词一一对应。至此特征提取模块完成了对序列特征的提取，并将结果作为输入传递给下一个模块。

可以理解的是，标量混合层的作用是通过对预训练模型每一层的隐藏状态向量进行加权和，生成一个新的聚合的隐藏状态序列，这个序列包含了更多的特征信息，从而增加了模型对特征提取的信息量。这个聚合的隐藏状态序列既包含了源语言（SRC）的特征信息，也包含了目标语言（MT）的特征信息，这有助于模型更好地进行翻译任务。

可以理解的是，特征组合模块（平均池化层和特征混合层）接收来自于特征提取模块中获得的特征序列作为输入，需要将这一混合SRC和MT文本特征的特征序列进行拆分和重组，再交给最终输出层输出预测结果，特征组合模块依次通过平均池化层（Avg Pool）和特征混合层（Mix Layer）进行这两种特征的分离和重组。需要说明的是，将SRC和MT特征序列拆分出来并加以组合，这样可以鼓励模型从SRC和MT特征两方面权衡机器译文的质量，在翻译字词级别的准确性和机器译文句子层面的质量间权衡结果。

具体的，可以理解的是，平均池化层分别将SRC序列特征和MT序列特征按照序列的时间维度求平均值，假设SRC序列的特征维度为 N×d，其中 N 表示SRC序列长度也就是SRC文本中的字词数，d 表示序列中每个字词标记的维度，即序列中共有 N 个字词，每个字词的特征都是一个 d 维向量。平均池化层对序列中所有字词的每个特征维度求平均值组成新的特征，池化后的特征维度为 1×d 。同样的对MT序列进行平均池化，得到的MT特征维度也是 1×d。

平均池化层主要有两个作用，其中之一是通过平均值将序列的每个维度的特征集合起来，从而能够汇集整个句子的特征，实现了从序列各个字词的特征向整个句子的特征的转换。除了平均池化外，最大池化也是一种常用的池化方法，它取特征的最大值而非平均值，擅长捕捉突出的特征值，但也会对其他特征值进行丢弃。考虑到文本序列中每个词的特征都是不可或缺的，因此采用平均池化而非最大池化。

平均池化层的另一个作用是将SRC序列和MT序列的特征统一成相同形状，以便于两者的重新组合以及输入全连接层。在神经网络中，一旦网络结构确定下来后，在训练过程中每层网络接收的特征维度是固定的，而对于池化前的SRC和MT的序列特征形状和序列长度有关，多数情况下对于每一个样本两者并不相等，而且不同样本间两者长度也不一样，为了使模型能够运行需要将其统一成相同的维度。虽然SRC和MT特征序列长度是变化的，但序列特征中每个字词的维度是固定的，平均池化层按照特征维度将序列信息聚集起来，从而实现无论样本的SRC和MT序列长度如何变化，其最终的特征形状都是一致的。

特征组合组接收平均池化层的SRC和MT两项特征作为输入，并将其按照特定方式组合起来形成最终模型预测所需要的翻译特征。该层神经网络的设计初衷是使模型能够综合考虑分别来自SRC和MT的特征，为了促使模型更好的学到对两者的利用方式，本模型在这一层设计了三种可供选择的组合方式：特征拼接（Concatenate）、特征求和（Point-wiseaddition）以及可学习的标量组合网络。

输出层接收组合后的特征（翻译特征）作为输入，通过一系列线性叠加层输出预测的结果，针对句子级别的评估任务，该层由一个以 tanh 作为激活函数的全连接层，以及另外一个输出维度为1的全连接层构成，最终输出结果为单个数字即评估分数。全连接层将一个特征空间线性变换到另一个特征空间，通过非线性激活函数 tanh，增加神经网络模型的非线性，使得神经网络可以任意逼近任何非线性函数，增加输出层对特征的学习能力。

可以理解的是，使用跨语言的XLM-R预训练模型进行特征的提取，分成特征提取模块和特征组合模块两部分。特征提取部分使用带有Adapter模块的预训练模型，并经过标量混合层将预训练模型中每一层的特征进行组合，增大特征提取的信息量。特征组合模块将抽取后的特征进行汇聚并拆分成来自原文的原始文本（SRC）特征和来自机器翻译文本（MT）特征，然后通过Mix Layer将这两部分特征进行融合，从而构建出同时具有原文和译文信息的翻译特征。最后通过全连接层输出最终的预测分数。

本申请基于当前机器翻译质量评估（Quality Estimation，QE）中英译中方向的研究与其他语言对相比较为滞后等问题，构建了一个以原文和译文多语言学知识特征抽取和融合为特点的句子级别的英译中翻译评估模型，进一步提升了该任务的模型性能，具体工作流程如下：

由于翻译质量评估需要用到多语言的多语言学层次的知识，并且需要对原文和译文都要有充分的理解和比较，因此本发明选择多语言的预训练模型（XLM-R）作为特征提取器，使用拼接序列的输入方式将原文信息和译文信息导入模型中进行评估；

在原文信息与译文信息导入模型后，利用模型的自注意力机制使得原文和译文之间能够彼此关注且相互参考；

在原文信息与译文信息相互参考后，通过模型的平均池化层（Avg Pool）分离出原文和译文特征；

在抽取了原文特征与译文特征后，通过模型构建的特征混合层（Mix Layer）对原文特征与译文特征进行重组，从而形成最终模型预测所需要的翻译特征。

在形成模型预测所需要的翻译特征后，输出层接收组合后的特征作为输入，通过一系列线性叠加层输出预测的结果，最终输出结果为单个数字即评估分数。

本申请多语言预训练模型针对英译中语义丰富形式灵活的难点，通过探索并构建了一个以原文和译文多语言学知识特征抽取和融合为特点的句子级别的英译中翻译评估模型，能够更准确地评估翻译质量，从而帮助提高翻译的准确性，并且该模型不仅可以用于英文到中文的翻译评估，还可以扩展到其他语言对，具有更强的适应性和泛化能力。

参照图2，图2所示为本发明提供的一种翻译质量评估装置示意图，如图2所示，该装置包括：

拼接模块201：其用于获取原始文本信息和翻译文本信息，并将所述原始文本信息和所述翻译文本信息拼接为文本序列。

提取模块202：其用于将所述文本序列输入至多语言预训练模型中进行特征提取，得到原始文本特征和翻译文本特征。

组合模块203：其用于将所述原始文本特征和翻译文本特征进行组合，得到融合原始文本特征和翻译文本特征的特征序列。

处理模块204：其用于利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估。

进一步地，一种可能的实施方式中，处理模块，还用于将所述文本序列作为输入，输入至多语言预训练模型中；

进一步地，一种可能的实施方式中，处理模块，还用于利用标量混合层Scalar Mix对所述多语言预训练模型自低向上的每个隐藏层的特征进行抽取，并将抽取的特征进行组合，以使的所述多语言预训练模型抽取的文本特征中拥有原始文本和翻译文本从词级到句法再到语义上不同层次的语言学信息。

进一步地，一种可能的实施方式中，处理模块，还用于利用所述多语言预训练模型中构建的平均池化层Avg Pool对所述特征序列进行拆分为来自原文的原始文本特征和来自机器翻译的翻译文本特征；

进一步地，一种可能的实施方式中，处理模块，还用于根据所述特征序列，获取原始文本特征序列和翻译文本特征序列；

进一步地，一种可能的实施方式中，还包括调整模块，其用于仅对所述多语言预训练模型中的Adapter 模块中的参数进行更新，并将所述多语言预训练模型的所有参数冻结，以减少微调阶段需要更新和保存的参数量。

进一步地，一种可能的实施方式中，拼接模块，还用于对机器翻译质量评估中的原始文本SRC和翻译文本MT进行文本语义抽取，并将抽取的文本语义按照一定的顺序连接起来形成新的文本序列。

参照图3，图3所示为本发明提供的多语言预训练模型架构图，如图3所示：

第一层为多语言预训练模型，其中包括Adapter模块，第二层为标量混合层（Scalar Mix），第三层为平均池化层（Avg Pool）第四层为特征混合层（Mix Layer）第五层为前馈（Feed-forward）。

Adapter模块：提高训练的效率，便于领域迁移，仅对 Adapter 模块中的参数进行更新，XLM-R 中其他的参数固定不变，该模块能在训练中学到下游任务的相关特征，能够有效的提高训练的效率。

标量混合层：融合各个语言学层次的语言知识，预训练模型的不同网络层都学到了不同的语言学知识，即表层特征集中在底层网络，句法特征信息则在中间层，更高级的语义信息在高层网络，抽取各层的隐藏状态，并学习它们的组合从而利用各个语言学层次的语言知识。

平均池化层：按照序列的时间维度求平均值，将SRC序列和MT序列转化为同维度的特征，通过平均池化分别得到SRC和MT文本的对应特征，鼓励模型通过对比SRC和MT文本的特征进行评分

特征混合层：用于组合SRC和MT特征。

SRC和MT之间相互参考：SRC和MT文本拼接的序列作为输入，在预训练模型中利用注意力机制融合了互相的信息。

一实施例中，接收原始文本（SRC）和机器翻译文本（MT）拼接的序列作为输入，使用XLM-R模型做编码器对序列进行特征编码，Adapter模块，在训练模型时可以仅对 Adapter模块中的参数进行更新，XLM-R 中其他的参数固定不变，该模块能在训练中学到下游任务的相关特征，能够有效的提高训练的效率，在预训练模型对原始文本（SRC）和机器翻译文本（MT）序列进行特征编码后，接下来将预训练模型的每一层生成的隐藏状态向量全部传递给一个标量混合层59F ，该模块学习编码器每一层隐藏状态的加权和，从而产生一个新的聚合的隐藏状态序列。这个聚合的隐藏状态序列包含了原始文本（SRC）和机器翻译文本（MT）序列的特征信息。

经过标量混合层后，模型得到了融合原始文本（SRC）和机器翻译文本（MT）信息，以及他们在多个语言层次的语言学知识的特征序列，序列中的每个特征与模型最初的输入序列中的每个字词一一对应，至此特征提取模块完成了对序列特征的提取，并将结果作为输入传递给下一个模块（特征组合模块，其中包括平均池化层和特征混合层）。

特征组合模块接收来自于特征提取模块中获得的特征序列作为输入，需要将这一混合SRC和MT文本特征的特征序列进行拆分和重组，再交给最终输出层输出预测结果，特征组合模块依次通过平均池化层（Avg Pool）和特征混合层（Mix Layer）进行这两种特征的分离和重组，并在重组后生成翻译特征。

输出层接收组合后的翻译特征作为输入，通过一系列线性叠加层输出预测的结果，针对句子级别的评估任务，该层由一个以 tanh 作为激活函数的全连接层，以及另外一个输出维度为1的全连接层构成，最终输出结果为单个数字即评估分数。

可以理解的是，本申请基于当前机器翻译质量评估（Quality Estimation，QE）中英译中方向的研究与其他语言对相比较为滞后等问题，构建了一个以原文和译文多语言学知识特征抽取和融合为特点的句子级别的英译中翻译评估模型，进一步提升了该任务的模型性能，具体工作流程如下：

下面参照图4来描述根据本发明的这种实施方式的电子设备400。图4显示的电子设备400仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件（包括存储单元420和处理单元410）的总线430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）421和/或高速缓存存储单元422，还可以进一步包括只读存储单元（ROM）423。

存储单元420还可以包括具有一组（至少一个）程序模块425的程序/实用工具424，这样的程序模块425包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器460通过总线430与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施方式的方法。

根据本公开的方案，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图5所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品500，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

本发明是参照根据本发明实施例的方法、设备（系统）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

Claims

1.一种翻译质量评估方法，其特征在于，包括：

利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估；

其中，利用标量混合层Scalar Mix对所述多语言预训练模型自低向上的每个隐藏层的特征进行抽取，并将抽取的特征进行组合，以使的所述多语言预训练模型抽取的文本特征中拥有原始文本和翻译文本从词级到句法再到语义上不同层次的语言学信息；

利用所述多语言预训练模型中构建的平均池化层Avg Pool对所述特征序列进行拆分为来自原文的原始文本特征和来自机器翻译的翻译文本特征；

将所述翻译特征作为输入，经过一系列线性叠加层输出预测的结果，得到最终的评估分数；

根据所述特征序列，获取原始文本特征序列和翻译文本特征序列；

2.根据权利要求1所述的方法，其特征在于，所述将所述文本序列输入至多语言预训练模型中进行特征提取，得到原始文本特征和翻译文本特征，包括：

将所述文本序列作为输入，输入至多语言预训练模型中；

3.根据权利要求1所述的方法，其特征在于，还包括：

仅对所述多语言预训练模型中的Adapter 模块中的参数进行更新，并将所述多语言预训练模型的所有参数冻结，以减少微调阶段需要更新和保存的参数量。

4.根据权利要求1所述的方法，其特征在于，所述获取原始文本信息和翻译文本信息，并将所述原始文本信息和所述翻译文本信息拼接为文本序列，包括：

对机器翻译质量评估中的原始文本SRC和翻译文本MT进行文本语义抽取，并将抽取的文本语义按照一定的顺序连接起来形成新的文本序列；

其中，新的文本序列是在原始文本和机器翻译文本之间添加一个分隔符或连接符，以区分出原始文本和机器翻译文本的部分。

5.一种翻译质量评估装置，其特征在于，包括：

处理模块，其用于利用平均池化层和特征混合层，对所述特征序列分别进行拆分和重组操作，并输出重组后的翻译特征，得到最终的预测分数，以对翻译质量进行评估；

其中，处理模块，还用于利用标量混合层Scalar Mix对所述多语言预训练模型自低向上的每个隐藏层的特征进行抽取，并将抽取的特征进行组合，以使的所述多语言预训练模型抽取的文本特征中拥有原始文本和翻译文本从词级到句法再到语义上不同层次的语言学信息；

6.一种电子设备，其特征在于，所述电子设备，包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行根据权利要求1至4中任一项所述的方法。