CN113609875B

CN113609875B - 翻译质量评估方法、装置、电子设备和存储介质

Info

Publication number: CN113609875B
Application number: CN202110901225.4A
Authority: CN
Inventors: 张为泰; 刘俊华; 叶忠义; 刘聪
Original assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2024-02-20
Anticipated expiration: 2041-08-06
Also published as: CN113609875A

Abstract

本发明提供一种翻译质量评估方法、装置、电子设备和存储介质，其中方法包括：确定原文文本及其对应的待评估译文文本；对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；基于所述句级评估结果和所述词级评估结果，确定所述待评估译文文本的质量评估结果。本发明提高了翻译质量评估的准确性。

Description

翻译质量评估方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言技术领域，尤其涉及一种翻译质量评估方法、装置、电子设备和存储介质。

背景技术

随着翻译的市场需求进一步扩大，对各个语种的机器翻译提出了强烈的需求。然而，目前的机器翻译能力仍未达到专业译员的翻译水平，如何准确评价和衡量机器翻译在不同场景下的翻译质量，变得愈发重要。

目前，在衡量机器翻译模型的翻译质量时，通常需要由译员专家构建测试集，然后通过BLEU(Bilingual Evaluation Understudy，双语评估替补)等公式计算机器译文与参考答案之间的相似度，从而确定机器翻译质量。然而，由于语言表达的多样性和语种方向的丰富性，以及BLEU等计算方法自身的缺陷，翻译质量评估的准确性仍显不足。

发明内容

本发明提供一种翻译质量评估方法、装置、电子设备和存储介质，用以解决现有技术中翻译质量评估准确性欠佳的缺陷。

本发明提供一种翻译质量评估方法，包括：

确定原文文本及其对应的待评估译文文本；

对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；

对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；

基于所述句级评估结果和所述词级评估结果，确定所述待评估译文文本的质量评估结果。

根据本发明提供的一种翻译质量评估方法，所述对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果，包括：

基于所述原文文本和所述待评估译文文本中各分词之间的相关性，确定所述待评估译文文本的语义忠实度。

根据本发明提供的一种翻译质量评估方法，所述原文文本或所述待评估译文文本中包含一个无语义的特殊符号；

所述基于所述原文文本和所述待评估译文文本中各分词之间的相关性，确定所述待评估译文文本的语义忠实度，包括：

基于所述原文文本和所述待评估译文文本中各分词之间的相关性，确定所述特殊符号的语义编码向量；

基于所述特殊符号的语义编码向量，确定所述待评估译文文本的语义忠实度。

基于所述待评估译文文本中各译文分词的相关性，确定所述待评估译文文本的语义流利度。

根据本发明提供的一种翻译质量评估方法，所述基于所述待评估译文文本中各译文分词的相关性，确定所述待评估译文文本的语义流利度，包括：

基于所述原文文本中的各原文分词与所述待评估译文文本中的各译文分词的相关性，以及各译文分词之间的相关性，确定所述待评估译文文本中各译文分词的语义编码向量；

将各译文分词的语义编码向量融合，得到所述待评估译文文本的文本语义向量；

基于所述文本语义向量，确定所述待评估译文文本的语义流利度。

根据本发明提供的一种翻译质量评估方法，所述待评估译文文本的翻译准确度是基于如下步骤确定的：

基于所述原文文本中每一原文分词的编码特征，对所述原文文本进行翻译解码，得到所述待评估译文文本中每一译文分词的翻译概率；

和/或，基于所述待评估译文文本中每一译文分词的编码特征，对所述待评估译文文本进行翻译解码，得到所述原文文本中每一原文分词的翻译概率；

基于每一译文分词的翻译概率和/或每一原文分词的翻译概率，确定所述待评估译文文本的翻译准确度。

根据本发明提供的一种翻译质量评估方法，所述待评估译文文本的对齐匹配度是基于如下步骤确定的：

将所述原文文本与所述待评估译文文本对齐，得到多个对齐词对；

确定所述多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率；

和/或，确定所述多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率；

基于所述多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率，和/或，基于所述多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率，确定所述待评估译文文本的对齐匹配度。

本发明还提供一种翻译质量评估装置，包括：

文本确定单元，用于确定原文文本及其对应的待评估译文文本；

句级评估单元，用于对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；

词级评估单元，用于对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；

评估结果确定单元，用于基于所述句级评估结果和所述词级评估结果，确定所述待评估译文文本的质量评估结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述翻译质量评估方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述翻译质量评估方法的步骤。

本发明提供的翻译质量评估方法、装置、电子设备和存储介质，通过对待评估译文文本分别进行句级别翻译质量评估和词级别翻译质量评估，得到句级评估结果和词级评估结果，再基于句级评估结果和词级评估结果，确定待评估译文文本的质量评估结果，提高了翻译质量评估的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的翻译质量评估方法的流程示意图；

图2为本发明提供的跨语言质量评估模型的结构示意图；

图3为本发明提供的翻译准确度计算方法的流程示意图；

图4为本发明提供的对齐匹配度确定方法的流程示意图；

图5为本发明提供的翻译质量评估装置的结构示意图；

图6为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着翻译的市场需求进一步扩大，对各个语种的机器翻译提出了强烈的需求。然而，尽管近年来机器翻译技术在神经网络模型的崛起下取得了长足的进步，但是目前的机器翻译能力还没有达到专业译员的翻译水平，无法在实际应用场景中替代人工翻译。如何准确评价和衡量机器翻译在不同场景下的翻译质量，变得愈发重要。

目前，在衡量机器翻译模型的翻译质量时，通常需要由译员专家构建含源文及参考译文的测试集，然后通过BLEU等方法，计算机器译文与参考译文之间的相似度，相似度越高，则认为翻译质量越高。或者，还可以仅提供源文测试集，不构建参考译文，通过抽取句长、关键词、领域难度等各类特征，然后建立线性回归模型等方法，预测机器译文的翻译质量。

然而，对于第一类方法，由于语言表达具有多样性，一般人工仅标注一个参考译文，对于同样句子的其他正确译法，BLEU等指标会偏低，无法反应真实翻译质量。同时，人工标注参考译文的成本过高，特别是当语种方向较多、领域较多时，成本将成倍数增长，且测试集量级较少、覆盖领域和语种不全时，相应结论不可靠。另外，BLEU等计算方式自身存在缺陷，在英德、中英等语言上的最新研究表明，BLEU的结果与人工专家评分结论相关系数较低，无法真实反应翻译质量。

对于第二类方法，由于模型结构过于简单，抽取的特征表示无法真实反应机器译文的质量，同时仅通过对特征建立线性回归模型来预测翻译质量并不可靠。

对此，本发明实施例提供了一种翻译质量评估方法。图1为本发明实施例提供的翻译质量评估方法的流程示意图，如图1所示，该方法包括：

步骤110，确定原文文本及其对应的待评估译文文本。

具体地，获取原文文本以及需要进行质量评估的待评估译文文本。其中，原文文本与待评估译文文本的语种不同。此处，待评估译文文本可以是机器翻译得到的译文，也可以是译员人工翻译得到的译文，本发明实施例对此不作具体限定。

步骤120，对待评估译文文本进行句级别翻译质量评估，得到句级评估结果；句级评估结果包括待评估译文文本的语义忠实度和/或语义流利度。

具体地，从原文文本和待评估译文文本的整体语义出发，以分句为单位，对待评估译文文本进行句级别翻译质量评估，评估待评估译文文本的语义与原文文本的语义之间的契合程度，和/或，评估待评估译文文本自身行文的流利程度，从而得到句级评估结果。其中，句级评估结果包括待评估译文文本的语义忠实度和/或语义流利度。待评估译文文本的语义忠实度可以表征待评估译文文本对原文文本语义的还原程度，即待评估译文文本的语义与原文文本的语义之间的契合程度；待评估译文文本的语义流利度可以表征待评估译文文本整体行文的流畅程度，反映了待评估译文文本的表达符合对应语种表达习惯的程度。

步骤130，对待评估译文文本进行词级别翻译质量评估，得到词级评估结果；词级评估结果包括待评估译文文本中各个分词的翻译准确度和/或对齐匹配度。

具体地，从原文文本和待评估译文文本中的各分词的语义出发，以分词为单位，对待评估译文文本进行词级别翻译质量评估，得到词级评估结果。其中，词级评估结果可以包括待评估译文文本中各个分词的翻译准确度。其中，翻译准确度可以表征在依次翻译原文文本中各分词时，将各原文分词翻译为对应位置处的译文分词的可能性。考虑到不同语种的语法不同，同一语义在不同语种的表达环境下可能存在语序的差别，例如，对于中文“你是谁”，对应的英文表达为“Who are you”，其中，“你”和“谁”与“you”和“Who”在语句中的位置是相反的。因此，为了评估待评估译文文本是否完整地反映了原文文本中各个分词的语义，还可以评估待评估译文文本的对齐匹配度。其中，对齐匹配度可以表征待评估译文文本与原文文本对齐后，原文文本中各分词以及待评估译文文本中与其对齐的各分词之间的语义匹配度。

步骤140，基于句级评估结果和词级评估结果，确定待评估译文文本的质量评估结果。

具体地，将句级评估结果和词级评估结果融合，可以得到待评估译文文本的质量评估结果。其中，将从不同粒度进行质量评估得到的句级评估结果和词级评估结果融合，可以提高质量评估的准确性。此处，可以为句级评估结果和词级评估结果设置对应权重，然后将句级评估结果和词级评估结果加权融合，也可以通过多层感知机网络对句级评估结果和词级评估结果进行融合，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过对待评估译文文本分别进行句级别翻译质量评估和词级别翻译质量评估，得到句级评估结果和词级评估结果，再基于句级评估结果和词级评估结果，确定待评估译文文本的质量评估结果，提高了翻译质量评估的准确性。

基于上述实施例，步骤120包括：

基于原文文本和待评估译文文本中各分词之间的相关性，确定待评估译文文本的语义忠实度。

具体地，确定原文文本和待评估译文文本中各分词之间的相关性，从而基于两个文本中各分词之间的相关性，确定待评估译文文本的语义忠实度。其中，原文文本和待评估译文文本中各分词之间的相关性越高，表明原文文本和待评估译文文本之间的语义相关度越高，待评估译文文本的语义忠实度也越高。

基于上述任一实施例，原文文本或待评估译文文本中包含一个无语义的特殊符号；

基于原文文本和待评估译文文本中各分词之间的相关性，确定待评估译文文本的语义忠实度，包括：

基于原文文本和待评估译文文本中各分词之间的相关性，确定特殊符号的语义编码向量；

基于特殊符号的语义编码向量，确定待评估译文文本的语义忠实度。

具体地，可以通过在原文文本或待评估译文文本中设置一个无语义的特殊符号，例如[CLS]，基于原文文本和待评估译文文本中各分词之间的相关性，确定该特殊符号的语义编码向量。由于该特殊符号没有语义，因此确定原文文本和待评估译文文本中各分词之间的相关性时，尤其是该特殊符号与两个文本中其他分词之间的相关性时，可以平等地融合两个文本中其他分词的语义信息，使得确定得到的该特殊符号的语义编码向量中包含有更准确的语义信息。然后，基于特殊符号的语义编码向量，确定待评估译文文本的语义忠实度，可以更准确地判断待评估译文文本与原文文本的语义相关度，从而提高语义忠实度的准确性。

此处，语义忠实度的确定可以通过神经网络模型实现，具体可以通过确定原文文本以及待评估译文文本中各分词的词向量，将各分词的词向量融合后，通过跨语言的自注意力机制对原文文本和待评估译文文本中表示相同意思的分词之间的关系进行加强，确定原文文本和待评估译文文本中各分词之间的相关性，从而编码得到该特殊符号的语义编码向量。随后，利用打分网络，例如Softmax层，对该特殊符号的语义编码向量进行打分，得到待评估译文文本的语义忠实度。

本发明实施例提供的方法，通过在原文文本或待评估译文文本中设置一个无语义的特殊符号，基于原文文本和待评估译文文本中各分词之间的相关性，确定特殊符号的语义编码向量，并基于特殊符号的语义编码向量，确定待评估译文文本的语义忠实度，提高了语义忠实度的准确性。

基于上述任一实施例，步骤120包括：

基于待评估译文文本中各译文分词的相关性，确定待评估译文文本的语义流利度。

具体地，确定待评估译文文本中各译文分词之间的相关性，从而基于各译文分词之间的相关性，确定待评估译文文本的语义流利度。其中，待评估译文文本中各译文分词之间的相关性越高，表明待评估译文文本中各译文分词的语义连贯性更好，待评估译文文本的语义流利度也越高。

基于上述任一实施例，基于待评估译文文本中各译文分词的相关性，确定待评估译文文本的语义流利度，包括：

基于原文文本中的各原文分词与待评估译文文本中的各译文分词的相关性，以及各译文分词之间的相关性，确定待评估译文文本中各译文分词的语义编码向量；

将各译文分词的语义编码向量融合，得到待评估译文文本的文本语义向量；

基于文本语义向量，确定待评估译文文本的语义流利度。

具体地，考虑到语言翻译时，需要在保证语义还原的前提下尽可能提高语言的流畅性，因此，在确定待评估译文文本的语义流利度时，可以基于原文文本中的各原文分词与待评估译文文本中的各译文分词的相关性，以及各译文分词之间的相关性，确定待评估译文文本中各译文分词的语义编码向量。其中，译文分词的语义编码向量中可以包含该译文分词与其他原文分词和其他译文分词之间的关联关系。将各译文分词的语义编码向量融合，得到待评估译文文本的文本语义向量。其中，可以求取各译文分词的语义编码向量的平均值，作为上述文本语义向量。随后，基于文本语义向量，确定待评估译文文本的语义流利度。

此处，语义流利度的确定可以通过神经网络模型实现，具体可以通过与语义忠实度的确定步骤中相同的神经网络模型实现。其中，确定原文文本以及待评估译文文本中各分词的词向量，将各分词的词向量融合后，同样利用自注意力机制，确定原文文本和待评估译文文本中各分词之间的相关性，从而编码得到各译文分词的语义编码向量。随后，利用打分网络，例如Softmax层，对各译文分词的语义编码向量融合得到的文本语义向量进行打分，得到待评估译文文本的语义流利度。

基于上述任一实施例，待评估译文文本的语义忠实度和语义流利度可以通过跨语言质量评估模型确定得到，跨语言质量评估模型可以基于BiTransformer的提取器-预测器模型构建得到。图2为本发明实施例提供的跨语言质量评估模型的结构示意图，如图2所示，跨语言质量评估模型包括输入层、编码层和输出层。

其中，输入层用于对输入的原文文本和待评估译文文本中各分词进行词向量编码。此处，原文文本中包含一个无语义的特殊符号[CLS]，且原文文本和待评估译文文本以[SEP]分隔。编码层用于基于自注意力机制，对原文文本和待评估译文文本中各分词的词向量的融合向量进行自注意力变换，建模原文文本和待评估译文文本中各分词之间的相关性，并经由输出层输出原文文本和待评估译文文本中各分词的语义编码向量。基于特殊符号[CLS]的语义编码向量，利用Softmax进行预测，得到待评估译文文本的语义忠实度Score1，将待评估译文文本中各译文分词的语义编码向量求平均后，利用Softmax进行预测，得到待评估译文文本的语义流利度Score2。

跨语言质量评估模型可以通过预训练+微调的方式进行训练，从而减少人工标注的成本。其中，预训练的过程中，可以随机对输入的双语文本的部分分词进行抹除，同时在输出层预测这些分词，从而训练出能够对双语句对进行准确语义建模的模型。

例如，X＝[x1,x2,x3…]为源句，Y＝[y1,y2,y3,y4…]为目标句，两者是平行句对，一般可以使用机器翻译的平行训练数据。在X与Y之间使用<SEP>符号进行分割，在X的起始位置加入<CLS>标签，该标签的编码表示了整个平行句对的语义表示。如此，整个模型的输入序列为[CLS,x1,x2,x3,…,SEP,y1,y2,y3,y4,…]。在训练前，随机对整个输入序列的token进行丢弃，并使用特定的符号<DROP>来代替，如丢弃过后的输入序列为[CLS,x1,DROP,DROP,…,SEP,y1,y2,DROP,y4,…]，而训练的目标是对丢弃位置的token进行预测并复原。

预训练完毕后，可以利用少量的人工评分数据，进行模型微调，得到跨语言质量评估模型。其中，可以随机选择数千句机器译文进行人工评分，评分范围从0到5分，0分表示完全翻译错误，5分表示翻译正确，从而构造人工评分数据集，并可以从中分割出训练集、开发集和测试集。模型建模上，采用以下所述的损失函数进行计算：

Loss＝min(abs(score1-label)+abs(score2-label))

其中label是人工标注分数，score1为样本译文文本的语义忠实度，score2为样本译文文本的语义流利度。

基于上述任一实施例，图3为本发明实施例提供的翻译准确度计算方法的流程示意图，如图3所示，待评估译文文本的翻译准确度是基于如下步骤确定的：

步骤310，基于原文文本中每一原文分词的编码特征，对原文文本进行翻译解码，得到待评估译文文本中每一译文分词的翻译概率；

和/或，步骤320，基于待评估译文文本中每一译文分词的编码特征，对待评估译文文本进行翻译解码，得到原文文本中每一原文分词的翻译概率；

步骤330，基于每一译文分词的翻译概率和/或每一原文分词的翻译概率，确定待评估译文文本的翻译准确度。

具体地，确定原文文本中每一原文分词的编码特征。其中，原文分词的编码特征中包含该分词在原文文本的语境下的语义信息。根据对原文文本进行翻译解码，可以得到待评估译文文本中每一译文分词的翻译概率。其中，译文分词的翻译概率反映了对应位置处的原文分词与该译文分词之间的语义相关度。

此处，每一译文分词的翻译概率可以利用端到端的机器翻译模型确定得到，且该机器翻译模型在训练时无需进行人工评分标注，降低了人工标注的成本。具体而言，假设原文文本X＝[x₁，x₂，...，x_m]，待评估译文文本Y＝[y₁，y₂，...，y_n]，其中原文文本和待评估译文文本的长度分别是m和n。机器翻译模型通过递归神经网络或者自注意力神经网络计算原文文本中每个原文分词的编码特征h_i。随后，利用注意力模块，在每个解码时刻，确定当前解码结果所依赖的原文文本的语义信息c_j，具体可表示为：

其中，a(h_i，s_j-1)是依赖于第i个分词的编码特征h_i和解码模块上一时刻的输出状态s_j-1的函数，可采用前馈神经网络实现。解码模块基于每个原文分词的编码特征和注意力模块的输出，采用递归神经网络以生成对应的译文分词。其中，解码模块的输出状态表示为s_j，翻译后每个译文分词的翻译概率表示为P(y_j)，其计算公式可表示如下：

P(y_j)＝g(y_j-1，s_j，c_j)

s_j＝f(y_j-1，s_j-1，c_j)

其中，y_j为第j个译文分词，f()可以为递归神经网络，g()可以为概率计算网络。

由此，可以通过下式计算出待评估译文文本的正向翻译得分：

此外，还可以基于待评估译文文本中每一译文分词的编码特征，对待评估译文文本进行翻译解码，得到原文文本中每一原文分词的翻译概率。其中，原文分词的翻译概率反映了对应位置处的译文分词与该原文分词之间的语义相关度。此处，原文分词的翻译概率的确定方式与每一译文分词的翻译概率的确定方式类似，同样可以利用上述端到端的机器翻译模型确定，区别仅在于输入为待评估译文文本，而输出为每一原文分词的翻译概率。

基于每一译文分词的翻译概率和/或每一原文分词的翻译概率，确定待评估译文文本的翻译准确度。其中，待评估译文文本的翻译准确度可以包括待评估译文文本的正向翻译得分和反向翻译得分。此处，正向翻译得分可以为每一译文分词的翻译概率之和，而反向翻译得分可以为每一原文分词的翻译概率之和。

基于上述任一实施例，图4为本发明实施例提供的对齐匹配度确定方法的流程示意图，如图4所示，待评估译文文本的对齐匹配度是基于如下步骤确定的：

步骤410，将原文文本与待评估译文文本对齐，得到多个对齐词对；

步骤420，确定多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率；

和/或，步骤430，确定多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率；

步骤440，基于多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率，和/或，基于多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率，确定待评估译文文本的对齐匹配度。

具体地，将原文文本与待评估译文文本对齐，得到多个对齐词对。其中任一对齐词对中的两个分词之间的语义存在对应关系。随后，确定多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率，和/或，确定多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率。其中，对齐翻译概率反映了对齐词对中两个分词之间的语义相关度。基于多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率，和/或，基于多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率，确定待评估译文文本的对齐匹配度。其中，对齐匹配度包括正向对齐匹配度和反向对齐匹配度，正向对齐匹配度是基于多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率确定的，反向对齐匹配度是基于多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率确定的。

此处，可以使用统计机器翻译模型，例如IBM1模型，实现对齐翻译概率的计算。其中，统计机器翻译模型可以通过对大量的平行语料进行统计分析，从大量句对齐的语料中学习实现词对齐。将原文文本与待评估译文文本输入至统计机器翻译模型，该模型会将原文文本与待评估译文文本自动对齐，并计算对齐词对中译文分词翻译为对应原文分词的对齐翻译概率和/或原文分词翻译为对应译文分词的对齐翻译概率。

统计机器翻译模型的训练算法可以采用期望最大化算法，训练过程主要包括：1)初始化模型，通常从均匀分布开始；2)计算期望步骤(E)，利用对隐藏变量的现有估计值，计算其最大似然估计值；3)最大化步骤(M)，最大化在第2)步求得的最大似然估计值来计算参数的值；4)重复迭代步骤2)和3)直至模型收敛。

基于上述任一实施例，本发明实施例还提供了一种翻译质量评估方法，包括：

基于跨语言质量评估模型，结合原文文本和待评估译文文本，进行句级别翻译质量评估，得到句级评估结果Score_qe(x，y)，其中Score_qe(x，y)＝(Score1+Score2)/2，Score1为待评估译文文本的语义忠实度，Score2为待评估译文文本的语义流利度。

基于端到端的机器翻译模型，对待评估译文文本进行词级别翻译质量评估，得到待评估译文文本的正向翻译得分Score_s2t(x，y)和反向翻译得分Score_t2s(x，y)。

基于统计机器翻译模型，对待评估译文文本进行词级别翻译质量评估，得到待评估译文文本的正向对齐匹配度AScore_s2t(x，y)和反向对齐匹配度AScore_t2s(x，y)。

基于多层感知机网络，对句级评估结果、正向翻译得分、反向翻译得分、正向对齐匹配度和反向对齐匹配度进行融合，得到待评估译文文本的质量评估结果。例如，可以采用如下公式确定最终的质量评估结果：

S(x，y)＝

w₁Score_s2t(x，y)+w₂Score_t2s(x，y)+w₃AScore_s2t(x，y)+w₄AScore_s2t(x，y)+w₅Score_qe(x，y)

基于上述任一实施例，图5为本发明实施例提供的翻译质量评估装置的结构示意图，如图5所示，该装置包括：文本确定单元510、句级评估单元520、词级评估单元530和评估结果确定单元540。

其中，文本确定单元510用于确定原文文本及其对应的待评估译文文本；

句级评估单元520用于对待评估译文文本进行句级别翻译质量评估，得到句级评估结果；句级评估结果包括待评估译文文本的语义忠实度和/或语义流利度；

词级评估单元530用于对待评估译文文本进行词级别翻译质量评估，得到词级评估结果；词级评估结果包括待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；

评估结果确定单元540用于基于句级评估结果和词级评估结果，确定待评估译文文本的质量评估结果。

本发明实施例提供的装置，通过对待评估译文文本分别进行句级别翻译质量评估和词级别翻译质量评估，得到句级评估结果和词级评估结果，再基于句级评估结果和词级评估结果，确定待评估译文文本的质量评估结果，提高了翻译质量评估的准确性。

基于上述任一实施例，句级评估单元520具体用于：

本发明实施例提供的装置，通过在原文文本或待评估译文文本中设置一个无语义的特殊符号，基于原文文本和待评估译文文本中各分词之间的相关性，确定特殊符号的语义编码向量，并基于特殊符号的语义编码向量，确定待评估译文文本的语义忠实度，提高了语义忠实度的准确性。

基于上述任一实施例，句级评估单元520具体用于：

基于文本语义向量，确定待评估译文文本的语义流利度。

基于上述任一实施例，待评估译文文本的翻译准确度是基于如下步骤确定的：

基于原文文本中每一原文分词的编码特征，对原文文本进行翻译解码，得到待评估译文文本中每一译文分词的翻译概率；

和/或，基于待评估译文文本中每一译文分词的编码特征，对待评估译文文本进行翻译解码，得到原文文本中每一原文分词的翻译概率；

基于每一译文分词的翻译概率和/或每一原文分词的翻译概率，确定待评估译文文本的翻译准确度。

基于上述任一实施例，待评估译文文本的对齐匹配度是基于如下步骤确定的：

将原文文本与待评估译文文本对齐，得到多个对齐词对；

确定多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率；

和/或，确定多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率；

基于多个对齐词对中译文分词翻译为对应原文分词的对齐翻译概率，和/或，基于多个对齐词对中原文分词翻译为对应译文分词的对齐翻译概率，确定待评估译文文本的对齐匹配度。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行翻译质量评估方法，该方法包括：确定原文文本及其对应的待评估译文文本；对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；基于所述句级评估结果和所述词级评估结果，确定所述待评估译文文本的质量评估结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的翻译质量评估方法，该方法包括：确定原文文本及其对应的待评估译文文本；对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；基于所述句级评估结果和所述词级评估结果，确定所述待评估译文文本的质量评估结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的翻译质量评估方法，该方法包括：确定原文文本及其对应的待评估译文文本；对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；基于所述句级评估结果和所述词级评估结果，确定所述待评估译文文本的质量评估结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种翻译质量评估方法，其特征在于，包括：

确定原文文本及其对应的待评估译文文本；

对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；所述语义忠实度用于表征所述待评估译文文本的语义与所述原文文本的语义之间的契合程度，所述语义流利度用于表征所述待评估译文文本整体行文的流畅程度；

对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；所述翻译准确度用于表征在依次翻译所述原文文本中各分词时，将各原文分词翻译为对应位置处的译文分词的可能性，所述对齐匹配度用于表征所述待评估译文文本与所述原文文本对齐后，所述原文文本中各分词以及所述待评估译文文本中与其对齐的各分词之间的语义匹配度；

2.根据权利要求1所述的翻译质量评估方法，其特征在于，所述对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果，包括：

3.根据权利要求2所述的翻译质量评估方法，其特征在于，所述原文文本或所述待评估译文文本中包含一个无语义的特殊符号；

4.根据权利要求1所述的翻译质量评估方法，其特征在于，所述对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果，包括：

5.根据权利要求4所述的翻译质量评估方法，其特征在于，所述基于所述待评估译文文本中各译文分词的相关性，确定所述待评估译文文本的语义流利度，包括：

6.根据权利要求1至5任一项所述的翻译质量评估方法，其特征在于，所述待评估译文文本的翻译准确度是基于如下步骤确定的：

7.根据权利要求1至5任一项所述的翻译质量评估方法，其特征在于，所述待评估译文文本的对齐匹配度是基于如下步骤确定的：

8.一种翻译质量评估装置，其特征在于，包括：

句级评估单元，用于对所述待评估译文文本进行句级别翻译质量评估，得到句级评估结果；所述句级评估结果包括所述待评估译文文本的语义忠实度和/或语义流利度；所述语义忠实度用于表征所述待评估译文文本的语义与所述原文文本的语义之间的契合程度，所述语义流利度用于表征所述待评估译文文本整体行文的流畅程度；

词级评估单元，用于对所述待评估译文文本进行词级别翻译质量评估，得到词级评估结果；所述词级评估结果包括所述待评估译文文本中各个分词的翻译准确度和/或对齐匹配度；所述翻译准确度用于表征在依次翻译所述原文文本中各分词时，将各原文分词翻译为对应位置处的译文分词的可能性，所述对齐匹配度用于表征所述待评估译文文本与所述原文文本对齐后，所述原文文本中各分词以及所述待评估译文文本中与其对齐的各分词之间的语义匹配度；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述翻译质量评估方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述翻译质量评估方法的步骤。