CN114997188A

CN114997188A - 翻译评估方法、翻译评估模型训练方法及电子设备

Info

Publication number: CN114997188A
Application number: CN202210624350.XA
Authority: CN
Inventors: 王颗; 汪嘉怿; 张昱琪; 赵宇; 陈博兴
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-09-02

Abstract

本申请提供一种翻译评估方法、翻译评估模型训练方法及电子设备，该翻译评估方法包括：对待评估译文的原文进行加噪处理，得到多个加噪原文；将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文，其中，所述机器翻译模型为输出所述待评估译文的模型；计算所述多个第一加噪译文的第一相似度；将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果，结合了机器翻译模型内部特征或状态，进行其输出译文的评估，提高了翻译评估的精准度。

Description

翻译评估方法、翻译评估模型训练方法及电子设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种翻译评估方法、翻译评估模型训练方法及电子设备。

背景技术

机器翻译又称为自动翻译，是一种利用计算机将源语言下的文本(原文)转换为目标语言下的文本(译文)的过程。随着机器翻译应用场景的增加，翻译质量的评估也受到了广泛的关注。

机器翻译测评(Machine Translation Metric)，主要通过衡量翻译结果与给定部分的语言表达一致性进行。常用的翻译质量评测方法主要基于BLEU(BilingualEvaluation Understudy，双语互译质量评估辅助工具)、BERT(Bidirectional EncoderRepresentations from Transformers，Tansformer的双向编码器表示)模型等进行，上述模型仅基于机器翻译模型的翻译结果，即译文，进行评估，评估精准度较低，无法满足需求。

发明内容

本申请提供一种翻译评估方法、翻译评估模型训练方法及电子设备，综合机器翻译模型输出的译文及其内部特征，如第一相似度，进行机器翻译质量评估，提高了翻译评估的精准度。

第一方面，本申请提供一种翻译评估方法，包括：

对待评估译文的原文进行加噪处理，得到多个加噪原文；

将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文，其中，所述机器翻译模型为输出所述待评估译文的模型；

计算所述待评估译文以及多个第一加噪译文的第一相似度；

将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

第二方面，本申请提供一种翻译评估模型训练方法，包括：

获取训练样本集，其中，所述训练样本集包括多个样本对，每一样本对包括原文样本、译文样本以及所述译文样本的评估标签；

对各所述原文样本进行加噪处理，得到各原文样本对应的多个加噪原文；

针对各个原文样本，将所述原文样本对应的多个加噪原文输入对应的机器翻译模型中，得到所述原文样本对应的多个加噪译文，并计算所述原文样本对应的译文样本与所述原文样本对应的多个加噪译文的第一相似度；其中，加噪原文对应的机器翻译模型为翻译加噪原文对应的原文样本的模型；

根据所述训练样本集以及所述第一相似度，对所述翻译评估模型进行训练，以输出训练好的翻译评估模型。

第三方面，本申请提供一种翻译评估装置，包括：

原文加噪模块，用于对待评估译文的原文进行加噪处理，得到多个加噪原文；

第一加噪译文获取模块，用于将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文，其中，所述机器翻译模型为输出所述待评估译文的模型；

第一相似度计算模块，用于计算所述多个第一加噪译文的第一相似度；

翻译评估模块，用于将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

第四方面，本申请提供一种翻译评估模型训练装置，包括：

训练集获取模块，用于获取训练样本集，其中，所述训练样本集包括多个样本对，每一样本对包括原文样本、译文样本以及所述译文样本的评估标签；

样本加噪模块，用于对各所述原文样本进行加噪处理，得到各原文样本对应的多个加噪原文；

样本相似度计算模块，用于针对各个原文样本，将所述原文样本对应的多个加噪原文输入对应的机器翻译模型中，得到所述原文样本对应的多个加噪译文，并计算所述原文样本对应的译文样本与所述原文样本对应的多个加噪译文的第一相似度；其中，加噪原文对应的机器翻译模型为翻译加噪原文对应的原文样本的模型；

模型训练模块，用于根据所述训练样本集以及所述第一相似度，对所述翻译评估模型进行训练，以输出训练好的翻译评估模型。

第五方面，本申请提供一种电子设备，包括：

处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现本申请第一方面或第二方面提供的方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现本申请第一方面或第二方面提供的方法。

第七方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请第一方面或第二方面提供的方法。

本申请提供的翻译评估方法、翻译评估模型训练方法及电子设备，针对进行机器翻译模型输出的译文评估的场景，对待评估译文的原文进行加噪，从而得到多个加噪原文，将该多个加噪原文输入机器翻译模型中，得到对应的多个加噪译文，计算该多个加噪译文的相似度，即第一相似度，进而将该第一相似度、待评估译文及其原文输入预先训练好的翻译评估模型中，从而基于该翻译评估模型输出该待评估译文的评估结果，实现了综合考虑机器翻译模型输出的译文以及该机器翻译模型内部的特征，即通过加噪过程以及第一相似度体现的该机器翻译模型自身结构的鲁棒特性，进行译文的评估，提高了翻译质量评估的精准度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例的一种应用场景示意图；

图2为本申请实施例提供的一种翻译评估方法的流程示意图；

图3为本申请实施例提供的另一种翻译评估方法的流程示意图；

图4为本申请图3所示实施例中翻译评估模型的结构示意图；

图5为本申请实施例提供的另一种翻译评估方法的流程示意图；

图6为本申请图5所示实施例中翻译评估模型的结构示意图；

图7为本申请实施例提供的一种翻译评估模型的训练方法的流程示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1为本申请实施例的一种应用场景示意图，如图1所示，机器翻译终端102基于机器翻译模型，如Transformer模型、循环神经网络模型等，对输入的原文进行翻译，如实时、在线翻译或者离线翻译等，输出该原文的译文。

为了评估翻译质量，可以将机器翻译终端102输出的译文，该译文的原文或参考译文，输入翻译评估终端104，基于该翻译评估终端104内设置的翻译评估模型，如BLEU模型、TER(Translation Edit Rate，翻译编辑率)等，对译文进行评估，并输出或显示评估结果，以基于该评估结果对机器人翻译终端102内的机器翻译模型进行改进，以提高翻译质量。

翻译评估模型按输入可以划分为三种类型：参考译文类型、原文类型以及参考译文结合原文类型。参考译文类型的输入包括译文和参考译文，原文类型的输入包括原文和译文，参考译文结合原文类型的输入则包括参考译文、原文和译文。

由于参考译文通常需要专业翻译人员提供，翻译评估模型训练时又需要数量庞大的训练样本进行，输入包括参考译文的模型的训练，耗费人力且成本较高，故而原文类型，即以译文及其原文为输入的翻译评估类型得到了广泛地应用。

相关技术中，翻译评估模型，如BERT模型，通常仅以机器翻译模型的输出，即译文，为依据，进行翻译质量评估。由于译文仅为机器翻译模型针对某一原文输出的结果，评估结果容易受到原文的限制，如原文结构简单、原文类型单一等，导致仅基于译文的翻译评估结果存在一定的片面性，从而导致翻译质量评估准确度较低。

为了提高翻译评估模型的精准度，本申请实施例提供了一种利用不确定性度量(Uncertainty Quantification)基于模型的翻译评估方法，具体通过对原文进行加噪处理，并基于机器翻译模型得到加噪原文的译文，将加噪原文的译文以及待评估译文的相似度这一不确定性度量、译文和原文输入预先训练的翻译评估模型，从而得到评估结果，通过机器翻译模型输出的译文以及表征模型内部状态的第一相似度这一不确定性度量特征，进行翻译质量评估，提高了评估精准度。

不确定性度量特征，用于估计模型对输出结果的不确定性，在本申请中输出结果为译文，如待评估译文。模型的不确定性主要包括偶然不确定性和认知不确定性。偶然不确定性又称为数据不确定性，是由于数据本身的噪声产生的，如原文、训练集等。认知不确定性又称为模型不确定性，是由于模型参数和模型结构的不确定性产生的。通过评估模型的不确定性，可以提高模型输出，即译文，评估的准确度。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的一种翻译评估方法的流程示意图，该方法可以由任意设置本申请实施例提供的翻译评估模型的设备执行，如上述翻译评估终端104或后续实施例中的电子设备，该翻译评估终端104的具体形式可以为计算机、服务器、手持设备等。

如图2所示，该翻译评估方法包括以下步骤：

步骤S201，对待评估译文的原文进行加噪处理，得到多个加噪原文。

其中，待评估译文为需要进行翻译质量评估的机器翻译模型输出的一个译文，可以为一篇文章的段落或分句。待评估译文的原文可以对应任意一种语言，如汉语、英语、日语、德语等。待评估译文的语言可以为与其原文采用的语言不同的任意一种语言，如英语、日语、德语、汉语等。

示例性的，待评估译文可以为机器翻译大赛中各个机器翻译模型输出的译文。待评估译文还可以为学生递交的翻译作业。待评估译文还可以为国际贸易中翻译软件输出的译文。

可以将原文输入机器翻译模型，进而通过该机器翻译模型，得到该原文的译文，即上述待评估译文。

具体的，在得到待评估译文和原文后，可以对待评估译文和原文进行转换，以得到向量表示的待评估译文和原文。

具体的，可以随机将原文中一定比例的分词替换为其他分词，从而得到一个加噪原文。

具体的，可以随机删除原文中一定比例的分词，从而得到一个加噪原文。

具体的，可以基于加噪算法，对待评估译文的原文随机加噪N次，得到N个不同的加噪原文，N为正整数，如5、10、15等。加噪算法可以用于随机改变即原文中的部分分词，如采用掩码替换原文中的部分分词，并从词典库中为每个掩码按照一定规则选择一个替换词或预测词，从而得到加噪原文。

示例性的，以原文为“今天天气挺不错的，适合出去走走”，添加掩码后的原文可以为“今天[掩码1]挺不错的，适合出去[掩码2]”，即将原文中的“天气”替换为“掩码1”以及将“走走”替换为“掩码2”，掩码1对应的预测词为“阳光”，掩码2对应的预测词为“游玩”，则加噪原文为“今天阳光挺不错的，适合出去游玩”。

步骤S202，将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文。

其中，所述机器翻译模型为输出所述待评估译文的模型。机器翻译模型可以为任意一种模型，如基于统计的翻译模型、神经网络机器翻译模型(Neural MachineTranslation，NMT)，如Tansformer模型、LSTM神经网络模型、循环神经网络模型等。

将原文对应的N个加噪原文分别输入该原文对应的机器翻译模型，从而由该机器人翻译模型输出对应的N个第一加噪译文。原文对应的机器翻译模型即为对该原文进行翻译，得到待评估译文的机器翻译模型。

步骤S203，计算所述多个第一加噪译文的第一相似度。

其中，第一相似度用于表征各个第一加噪译文之间的相似度，译文之间的相似度可以采用编辑距离表示。

具体的，对于原文x，通过N次不同的加噪，得到N个加噪原文

将原文x以及N个加噪原文

分别输入机器翻译模型，得到待评估译文以及N个第一加噪译文，则第一相似度可以包括N个第一加噪译文

中任意两个译文之间的相似度，如为任意两个译文之间的相似度的平均值、和值、中值、众值等。

示例性的，第一相似度S₁可以为：

其中，

为第i个第一加噪译文，

为第j个第一加噪译文，i和j的取值范围均为1至N。

表示第i个第一加噪译文和第j个第一加噪译文之间的相似度，可以采用最小编辑距离表示。

在一个实施例中，第一相似度可以为到待评估译文与该多个第一加噪译文之间的相似度。

步骤S204，将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

其中，翻译评估模型可以为任意一种多语言模型，如XLM-R(Cross-lingualLanguage Model Rretraining-RoBERTa)、M-Bert(Multilingual-Bert)等预训练语言模型。

具体的，可以对原文以及待评估译文进行分词，将原文的各个分词与待评估译文的各个分词以特定分隔符进行拼接，得到输入特征向量，将该输入特征向量以及第一相似度输入预先训练好的翻译评估模型，经由该翻译评估模型输出该待评估译文的评估结果。

本申请提供的翻译评估方法，针对进行机器翻译模型输出的译文评估的场景，对待评估译文的原文进行加噪，从而得到多个加噪原文，将该多个加噪原文输入机器翻译模型中，得到对应的多个加噪译文，计算该多个加噪译文的相似度，即第一相似度，进而将该第一相似度、待评估译文及其原文输入预先训练好的翻译评估模型中，从而基于该翻译评估模型输出该待评估译文的评估结果，实现了综合考虑机器翻译模型输出的译文以及该机器翻译模型内部的特征，即通过加噪过程以及第一相似度体现的该机器翻译模型自身结构的鲁棒特性，进行译文的评估，提高了翻译质量评估的精准度。

图3为本申请实施例提供的另一种翻译评估方法的流程示意图，本实施例是在图2所示实施例的基础上，对步骤S201和步骤S204的进一步细化，如图3所示，该翻译评估方法可以包括以下步骤：

步骤S301，执行N次步骤S302和步骤S303，以得到N个加噪原文。

其中，N为大于或等于2的正整数，如3、5、10、20等，N为可调参数。

步骤S302，以第一概率随机删除所述原文中的分词，以及以第二概率在所述原文中随机插入掩码。

其中，第一概率p_i和第二概率p_d可以位于5％至30％之间，如可以为10％、15％，第一概率p_i和第二概率p_d可以相同，也可以不同。第一概率p_i和第二概率p_d均可以为可调参数。掩码(mask)用于屏蔽对应位置的分词。

示例性的，以原文为“haven’t seen you in forever”为例，通过上述加噪步骤，即通过以一定概率或比例随机插入掩码<masked>和随机删除分词(token)，可以将该原文处理为“<masked>haven’t<masked>you forever”。通过执行N次步骤S302，便可以得到N个带掩码的原文。

步骤S303，将带掩码的原文输入掩码语言模型，得到一个加噪原文。

其中，掩码语言模型(Masked Language Model，MLM)用于预测带掩码的输入的掩码对应的分词。可以为预训练语言模型，如BERT、RoBERTa等模型。

每得到一个带掩码的原文，便将其输入掩码语言模型中，从而通过掩码语言模型基于上下文对其中的掩码进行预测，得到该带掩码的原文对应的加噪原文。

在一个实施例中，可以执行N次步骤S302之后，在分别将所得到的N个带掩码的原文输入掩码语言模型，从而得到N个不同的加噪原文。

以上述实施例中的“<masked>haven’t<masked>you forever”这一带掩码的原文为例，其对应的加噪原文可以为“I haven’t loved you forever”。即掩码语言模型预测其中的两个掩码分别为“I”和“loved”。

步骤S304，将N个加噪原文输入机器翻译模型，以得到N个第一加噪译文。

其中，所述机器翻译模型为输出所述待评估译文的模型。

将通过上述步骤得到的N个加噪原文，依次将该N个加噪原文输入翻译原文的机器翻译模型中，得到N个第一加噪译文。

步骤S305，计算N个第一加噪译文的第一相似度。

第一相似度为其中一种不确定性度量特征，通过机器翻译模型对加噪原文的翻译以及所翻译的加噪原文的译文(即第一加噪译文)之间的相似度的计算，可以实现对机器翻译模型内部结构的鲁棒性的测试。

第一相似度越高，则表明机器翻译模型的鲁棒性越强，通过该机器翻译模型翻译的译文的质量则越好。

通过上述加噪算法，得以快速地得到多个不同的加噪原文，且通过第一概率和第二概率的合理设置，可以使得通过机器翻译模型翻译加噪原文的过程，即通过加噪译文的相似度，很好地表征机器翻译模型的鲁棒性，进而结合该鲁棒性进行后续翻译质量的评估，以提高翻译质量评估的准确度。

步骤S306，将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型。

可选的，图4为本申请图3所示实施例中翻译评估模型的结构示意图，如图4所示，该翻译评估模型包括预训练语言层、前馈网络层和输出层。预训练语言层包括一个预训练的语言模型，如XLM-R、M-Bert等跨语言预训练语言模型。预训练语言层用于接收原文以及待评估译文，如由原文和待评估译文拼接而成的输入向量，并根据原文以及待评估译文，生成语义特征向量；前馈网络层用于接收该语义特征向量，并根据该语义特征向量以及不确定性度量特征，如第一相似度，生成权重向量；输出层用于接收该权重向量，并根据该权重向量，生成该待评估译文的评估结果。

在一个实施例中，不确定性度量特征包括第一相似度、第二相似度、各个掩码的预测概率、原文中各个分词的频次以及待评估译文中各个分词的预测概率中的至少一项。上述各不确定性度量特征用于从多个维度进行机器翻译模型的评估，将在后续实施例中详细介绍。

前馈网络层(Feed Forward Layer)可以包括一个线性回归模型，将语义特征向量与不确定性度量特征线性映射为权重向量。

通过在翻译评估模型中引入表征机器翻译模型内部结构特性的不确定性度量特征，如表征机器翻译模型鲁棒性的第一相似度和第二相似度，表征训练数据特性的分词的频次，表征原文翻译难易程度的掩码预测概率，以及表征翻译准确度的分词预测概率，通过上述不确定性度量特征的构造，使得翻译评估模型可以结合机器翻译模型内部状态和输入的数据，进行翻译质量的评估，提高了翻译评估的准确度。

步骤S307，经由所述翻译评估模型的预训练语言层，根据所述原文以及所述待评估译文，生成语义特征向量。

具体的，可以将原文与待评估译文以特定分隔符进行拼接，如sep，将拼接后的原文和译文输入翻译评估模型的预训练语言层，从而经由该预训练语言层中的预训练语言模型，如XLM-R，输出原文和待评估译文对应的语义特征向量。

步骤S308，经由所述翻译评估模型的前馈网络层，根据所述语义特征向量以及不确定性度量特征，生成权重向量。

具体的，可以将语义特征向量与不确定性度量特征，如第一相似度、第二相似度等，进行拼接，拼接后输入该前馈网络层，从而经由该前馈网络层输出权重向量。

步骤S309，经由所述翻译评估模型的输出层，根据所述权重向量，生成所述待评估译文的评估结果。

示例性的，评估结果可以为待评估译文的评分，如95分。

在本实施例中，针对进行机器翻译模型输出的译文评估的场景，通过第一概率和第二概率分别对原文的分词进行随机删除和随机屏蔽，进而通过掩码语言模型对掩码进行预测，从而得到多个加噪原文，将该多个加噪原文输入机器翻译模型中，得到对应的多个加噪译文，通过构造第一相似度这一不确定性度量特征，将该第一相似度与翻译评估模型的预训练语言层输入的语义特征向量进行拼接后，通过翻译评估模型的前馈网络层和输出层进行翻译质量的预测，实现了综合考虑机器翻译模型输出的译文以及该机器翻译模型的鲁棒性，进行译文的评估，提高了翻译质量评估的精准度。

在一个实施例中，输入翻译评估模型的前馈网络层的不确定性度量特征还包括：各个掩码的预测概率。

可选的，所述方法还包括：获取掩码语言模型输出的各个掩码的预测概率。相应的，上述步骤S204具体为：将所述原文、所述待评估译文、所述第一相似度以及各个掩码的预测概率，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

各个掩码的预测概率为本申请提及的另一种不确定性度量特征，掩码语言模型在进行掩码预测时，会输出掩码对应的预测分词以及该预测分词的预测概率，如0.85，则为了进一步提高翻译评估的准确度，可以结合掩码的预测概率，即掩码对应的预测分词的预测概率进行。掩码的预测概率可以表征原文翻译的难易程度，若掩码的预测概率较高，则表明原文的加噪处理，对译文翻译的影响较低，即原文自身完整性、翻译难度较低。

具体的，可以将原文及其待评估译文输入翻译评估模型的预训练语言层，以得到语义特征向量，将第一相似度以及各个掩码的预测概率输入翻译评估模型的前馈网络层，如通过在将第一相似度、预测概率和语义特征向量拼接之后，输入该前馈网络层，从而通过前馈网络层以及输出层，得到待评估译文的评估结果。

通过在翻译评估模型中，引入表征原文翻译难易程度的不确定性度量特征，即掩码的预测概率，通过原文翻译难易程度辅助翻译评估模型对翻译质量进行评估，提高了翻译质量评估的准确度。

在一个实施例中，输入翻译评估模型的前馈网络层的不确定性度量特征还包括：第二相似度。

可选的，所述机器翻译模型为神经网络机器翻译模型，所述方法还包括：多次以第三概率随机将所述机器翻译模型的神经元失活，得到多个加噪机器翻译模型；将所述原文输入所述多个加噪机器翻译模型，以得到多个第二加噪译文；计算所述多个第二加噪译文的第二相似度。相应的，上述步骤S204具体为：将所述原文、所述待评估译文、所述第一相似度以及所述第二相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

其中，第三概率可以为5％至30％之间，如8％、10％、15％等。

具体的，可以通过对机器翻译模型进行加噪的方式衡量模型的不确定性，即通过多次随机将机器翻译模型的神经元以一定概率(第三概率)失活，从而得到多个加噪机器翻译模型，将上述原文分别输入该多个加噪机器翻译模型中，得到多个第二加噪译文，并计算该多个第二加噪译文之间的相似度，即第二相似度。第二相似度的计算方式与第一相似度的计算方式类似，仅将第一加噪译文替换为第二加噪译文即可，在此不再赘述。

具体的，可以将原文及其待评估译文输入翻译评估模型的预训练语言层，以得到语义特征向量，将第一相似度以及第二相似度输入翻译评估模型的前馈网络层，如通过在将第一相似度、第二相似度和语义特征向量拼接之后，输入该前馈网络层，从而通过前馈网络层以及输出层，得到待评估译文的评估结果。

通过在翻译评估模型中，引入表征机器翻译模型鲁棒性的不确定性度量特征，即第二相似度，通过机器翻译模型的鲁棒性辅助翻译评估模型对翻译质量进行评估，提高了翻译质量评估的准确度。

在一个实施例中，输入翻译评估模型的前馈网络层的不确定性度量特征还包括：原文各分词的频次。

可选的，所述方法还包括：获取所述原文中各个分词在训练集中的频次，其中，所述训练集用于训练所述机器翻译模型。相应的，上述步骤S204具体为：将所述原文、所述待评估译文、所述第一相似度以及所述原文中各个分词的频次，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

其中，分词在训练集中的频次，可以采用分词在训练集中出现的次数表征。分词的频次越高，则机器翻译模型对该分词翻译的准确度越高。

通过在翻译评估模型中，引入表征输入机器翻译模型的原文分词相关的不确定性度量特征，即分词的频次，通过原文自身分词的不确定性，辅助翻译评估模型对翻译质量进行评估，提高了翻译质量评估的准确度。

在一个实施例中，输入翻译评估模型的前馈网络层的不确定性度量特征还包括：待评估译文中各分词的预测概率。

可选的，所述机器翻译模型为神经网络机器翻译模型，所述方法还包括：获取所述机器翻译模型输出层输出的所述待评估译文中各个分词的预测概率。相应的，上述步骤S204具体为：将所述原文、所述待评估译文、所述第一相似度以及所述待评估译文中各个分词的预测概率，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

分词的预测概率又称为分词的解码概率，神经网络机器翻译模型通常为自回归模型，即按照从左到右的顺序逐个生成译文分词，获取解码步骤输出的待评估译文的分词的解码概率，并将该解码概率输入翻译评估模型的前馈网络层，以结合解码概率这一不确定性度量特征进行翻译质量评估。

神经网络机器翻译模型，如XLM-R模型，通常包括一个softmax层，通过该层可以输出待评估译文各个分词的概率分布，针对待评估译文中的每个分词，神经网络机器翻译模型输出的分词为，该分词对应的概率分布中最大概率的词，该最大概率即为上述预测概率。

具体的，可以计算所生成的待评估译文的各个分词的预测概率的期望E，将期望E与第一相似度和语义特征拼接后，输入翻译评估模型的前馈网络层。各个分词的预测概率的期望E的计算关系式如下：

其中，

为第t个step的解码概率或预测概率，θ为机器翻译模型的模型参数，x为原文，y_t为第t时刻的模型输出，y_＜t为t时刻之前的模型输出。

分词的预测概率可以表征机器翻译模型对该分词的自信程度，预测概率越高，则翻译结果，即待评估译文的不确定性越低，翻译质量越高。通过将待评估译文分词预测概率这一不确定性度量特征引入翻译评估模型，通过模型对待评估译文的分词的自信程度或可靠程度，进行待评估译文整体进行评估，提高了译文质量评估的准确度。

图5为本申请实施例提供的另一种翻译评估方法的流程示意图，本实施例是在图2所示实施例的基础上，对步骤S204的进一步细化，以及在步骤S204之前增加第二相似度、各个掩码的预测概率、原文中各个分词的频次以及待评估译文中各个分词的预测概率获取的步骤，如图5所示，该翻译评估方法可以包括以下步骤：

步骤S501，获取所述原文中各个分词在训练集中的频次。

步骤S502，获取机器翻译模型输出层输出的所述待评估译文中各个分词的预测概率。

步骤S503，执行N次步骤S504，以得到N个加噪原文。

其中，N为大于或等于2的正整数。

步骤S504，以第一概率随机删除所述原文中的分词，以及以第二概率在所述原文中随机插入掩码；并将带掩码的原文输入掩码语言模型，得到一个加噪原文。

步骤S505，计算N个第一加噪译文的第一相似度。

步骤S506，获取掩码语言模型输出的各个掩码的预测概率。

步骤S507，多次以第三概率随机将所述机器翻译模型的神经元失活，得到多个加噪机器翻译模型。

步骤S508，将所述原文输入所述多个加噪机器翻译模型，以得到多个第二加噪译文。

步骤S509，计算所述多个第二加噪译文的第二相似度。

步骤S510，将所述原文、所述待评估译文、所述第一相似度、所述第二相似度、所述原文中各个分词的频次、各个掩码的预测概率以及所述待评估译文中各个分词的预测概率，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

具体的，可以将原文及其待评估译文输入翻译评估模型的预训练语言层，以得到语义特征向量，将第一相似度、第二相似度、原文中各个分词的频次、各个掩码的预测概率以及待评估译文中各个分词的预测概率这些不确定性度量特征，输入翻译评估模型的前馈网络层，如通过在将这些不确定性度量特征与语义特征向量拼接之后，输入该前馈网络层，从而通过前馈网络层以及输出层，得到待评估译文的评估结果。

在一个实施例中，可以仅选择上述不确定性度量特征中的一个或多个输入翻译评估模型，即与语义特征向量拼接后输入翻译评估模型的前馈网络层，从而通过前馈网络层以及输出层，得到待评估译文的评估结果。

图6为本申请图5所示实施例中翻译评估模型的结构示意图，如图6所示，该翻译评估模型包括XLM-R层，前馈网络层和输出层。该翻译评估模型还可以包括输入嵌入层(Embedding)(图中未示出)，输入嵌入层用于生成原文的分词向量[x₁ x₂…x_T]以及待评估译文的分词向量[y₁ y₂…y_T]，并通过特定分隔符将两者进行拼接，从而得到输入向量，如图6中的“[CLS][x₁][x₂][…][x_T][EOS][SEP][y₁][y₂][…][y_T][EOS]”其中，“CLS”表示输入向量的开头，“EOS”为原文和待评估译文的分词向量的结尾，“SEP”为特定分隔符。XLM-R层包括XLM-R模型，将输入向量输入XLM-R模型，经由XLM-R模型输出原文和待评估译文对应的语义特征向量。进而将该语义提特征向量与第一相似度、第二相似度、原文中各个分词的频次、各个掩码的预测概率以及待评估译文中各个分词的预测概率这些不确定性度量特征进行拼接后，输入前馈网络层，得到权重向量，将该权重向量输入输出层，得到评估结果。

图7为本申请实施例提供的一种翻译评估模型的训练方法的流程示意图，该训练方法可以用于训练图2至图6对应的任一实施例提供的翻译评估模型，如图7所示，翻译评估模型的训练方法包括以下步骤：

步骤S701，获取训练样本集。

其中，所述训练样本集包括多个样本对，每一样本对包括原文样本、译文样本以及所述译文样本的评估标签。

步骤S702，对各所述原文样本进行加噪处理，得到各原文样本对应的多个加噪原文。

步骤S703，针对各个原文样本，将所述原文样本对应的多个加噪原文输入对应的机器翻译模型中，得到所述原文样本对应的多个加噪译文，并计算所述原文样本对应的多个加噪译文的第一相似度。

其中，加噪原文对应的机器翻译模型为翻译加噪原文对应的原文样本的模型。

步骤S704，根据所述训练样本集以及所述第一相似度，对所述翻译评估模型进行训练，以输出训练好的翻译评估模型。

具体的，样本对可以通过拼接(Concat)原文样本、译文样本以及评估标签得到。

具体的，组成样本对的各个对象(如译文样本、评估标签、原文样本)之间可以采用分隔符进行分隔，该分隔符可以为“SEP”、“S”或者其他符号。

示例性的，训练样本集中的译文样本可以为机器翻译模型、翻译工具、翻译插件或上述翻译终端102输出的译文，如跨境电商贸易过程中交易平台输出的译文、在线翻译工具历史翻译的译文等；还可以为用户上传的译文，如翻译教育场景下教师上传的译文或翻译作业。

示例性的，可以收集翻译终端102历史时间翻译的各个原文及其译文，分别作为训练文本对中的原文样本和译文样本。

示例性的，可以收集历年机器翻译测评比赛提供的公开数据，整合该公开数据得到用于进行模型训练的训练样本集。该公开数据包括多个原文以及参赛的翻译终端102输出的各个原文的译文。评估标签则可以基于比赛结果中各个专家对译文的评分确定。

可选的，训练样本集中的评估标签可以由人工标注，如专家。

为了提高训练样本集中评估标签的标注效率，训练样本集中小部分译文的评估标签可以由人工标注，大部分的译文的评估标签则由翻译评估算子自动标注，人工标注与自动标注的比例可以为1：9，2：8或者其他比例。训练样本集基于评估标签的标注方式可以划分为人工训练样本集和伪训练样本集，人工训练样本集中的各个训练文本对中的评估标签由人工标注，人工训练样本集中的训练文本对可称为人工训练文本对；伪训练样本集中的各个训练文本对中的评估标签则基于翻译评估算子进行标注，伪训练样本集中的训练文本对可称为伪训练文本对，伪训练样本集中的评估标签可称为伪评估标签。

其中，翻译评估算子可以为除去上述翻译评估模型之外的任意一种算子，如BLEU、TER等。

在一个实施例中，在获取完整的译文之后，还可以对完整的译文进行划分，以得到各个译文片段，该译文片段包括至少一个分句，如包括一个段落，将一个译文片段视为一个译文样本。

具体的，依次将各个训练文本对以及对应的不确定性度量特征输入该翻译评估模型，基于翻译评估模型输出的预测评分与对应的评估标签，确定评估误差，通过该评估误差的反向传播，进行翻译评估模型的参数微调。

在一个实施例中，除了第一相似度这一不确定性度量特征之外，还可以将上述实施例提及的第二相似度、原文中各个分词的频次、各个掩码的预测概率以及待评估译文中各个分词的预测概率这些不确定性度量特征引入翻译评估模型，则上述步骤S704可以被替换为：根据所述训练样本集，以及所述第二相似度、原文中各个分词的频次、各个掩码的预测概率以及待评估译文中各个分词的预测概率这些不确定性度量特征中的至少一项，对所述翻译评估模型进行训练，以输出训练好的翻译评估模型。各不确定性度量特征的计算或获取方式如前述实施例所示，仅需将原文替换为原文样本，待评估译文替换为译文样本即可，在此不再赘述。

本申请实施例提供的翻译评估方法可以适用于多种场景下的翻译质量的评估，如跨境电商场景、在线翻译场景、翻译教育场景、企业办公场景、字幕翻译场景等。

在跨境电商场景下，交易双方或多方，通过聊天软件、音视频软件、交易平台等进行交流，可以基于软件或平台内设置的翻译插件，将其他语言的文本(原文)翻译为指定语言的文本(译文)。在得到译文之后，可以采用在线或离线的方式，将翻译插件输出的译文(待评估译文)、该译文的原文，以及第一相似度等不确定性度量特征，输入翻译评估模型，基于该翻译评估模型输出该译文的评分，以便于用户判断是否接受译文，以及便于翻译插件的供应方基于评分进行翻译插件的维护，以提高翻译质量。

在企业办公场景下，如多语言场景下的在线会议，通过会议软件内设置的翻译插件，将识别的会议音频的文本数据(原文)翻译为设定语言的译文(待评估译文)，将译文、该译文的原文，以及第一相似度等不确定性度量特征，输入翻译评估模型，以得到该译文的评分，以便于用户基于该评分判断是否需要查阅原文或者借助其他翻译工具重新进行翻译，以提高会议沟通的顺畅性，以及使得用户更好地掌握会议内容。

针对跨境电商场景或企业办公场景下，本申请提供一种翻译插件的翻译评估方法或翻译插件评估方法，包括：

获取翻译插件翻译的原文的待评估译文；对待评估译文的原文进行加噪处理，得到多个加噪原文；将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文，其中，所述机器翻译模型为输出所述待评估译文的模型；计算所述多个第一加噪译文的第一相似度；将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

其中，翻译插件基于机器翻译模型将原文翻译为译文，如待评估译文。

在在线翻译场景下，翻译工具的提供方为了提高翻译质量，需要定期或不定期对翻译工具的翻译质量进行评估。将翻译工具，如机器人、手持设备等，翻译的译文、该译文的原文，以及第一相似度等不确定性度量特征，输入翻译评估模型中，基于该翻译评估模型进行翻译工具翻译质量的评估，以当翻译工具翻译质量较差时，及时对翻译工具进行维护，以提高翻译工具的翻译准确度，从而提高用户体验和忠实度。

针对在线翻译场景下，本申请提供一种翻译工具评估方法，包括：

获取翻译工具翻译的多个待评估译文；针对每个待评估译文，对所述待评估译文的原文进行加噪处理，得到多个加噪原文，将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文，其中，所述机器翻译模型为输出所述待评估译文的模型；计算所述多个第一加噪译文的第一相似度；将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果；基于多数多个待评估译文的评估结果，生成该翻译工具的评估结果。

其中，翻译工具可以为在线翻译工具或离线翻译工具。可以为独立的翻译软件或翻译应用程序，或者为设置在其他翻译软件中的插件，如小程序。翻译工具基于机器翻译模型将原文翻译为译文，如待评估译文。

具体的，可以获取该翻译工具在最近一端时间，如10天、30天等，所翻译的各个原文以及各个原文的待评估译文。

其中，翻译工具的可以用于表征翻译工具是否合格。

示例性的，该翻译工具可以设置在上述翻译终端102上，则可以由该翻译终端102将多个原文以及各个原文的待评估译文发送至翻译评估终端104，从而由翻译评估终端104执行本实施例提供的翻译工具评估方法，输出该翻译工具的评估结果，并将该评估结果发送至翻译终端102。

在一个实施例中，评估结果中还可以包括评分低于预设分数的各个待评估译文的标识。

具体的，可以基于各个待评估译文的评估的平均值、最小值、方差等参数中的一项或多项，生成翻译工具的评估结果，以判断该翻译工具是否合格，以及在该翻译工具不合格时，基于所生成的评估结果对该翻译工具进行针对性的维护。

在一个实施例中，上述翻译工具、翻译插件可以统称为翻译平台，翻译平台被配置为基于机器翻译模型对原文进行翻译，以得到对应的译文，如待评估译文。

本申请提供一种翻译评估方法，包括：

获取翻译平台输出待评估译文及其原文，所述翻译平台基于机器翻译模型将对应的原文翻译为所述待评估译文；对待评估译文的原文进行加噪处理，得到多个加噪原文；将所述多个加噪原文输入所述机器翻译模型，以得到多个第一加噪译文；计算所述多个第一加噪译文的第一相似度；将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

本实施例提供的各个步骤，可以参照图2、图3和图5对应的步骤进行解释，在此不再赘述。

在翻译教育场景下，为了提高学生提交的翻译作业的评估效率，教师可以将学生提交的翻译作业(译文)、原文，以及第一相似度等不确定性度量特征，输入翻译评估模型，从而由翻译评估模型输出各个翻译作业的评分。

在翻译教育场景或翻译教学场景下，本申请提供一种翻译评估方法，包括：

获取用户(如教师、助教等)输入或上传的待评估译文及其原文，对待评估译文的原文进行加噪处理，得到多个加噪原文；将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文，其中，所述机器翻译模型为输出所述待评估译文的模型；计算所述多个第一加噪译文的第一相似度；将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

本申请实施例提供的一种翻译评估装置，该翻译评估装置包括：原文加噪模块、第一加噪译文获取模块、第一相似度计算模块和翻译评估模块。

其中，原文加噪模块用于对待评估译文的原文进行加噪处理，得到多个加噪原文；第一加噪译文获取模块用于将所述多个加噪原文输入机器翻译模型，以得到多个第一加噪译文，其中，所述机器翻译模型为输出所述待评估译文的模型；第一相似度计算模块用于计算所述多个第一加噪译文的第一相似度；翻译评估模块用于将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

可选的，原文加噪模块，具体用于：

执行N次以下步骤，以得到N个加噪原文，N为大于或等于2的正整数：以第一概率随机删除所述原文中的分词，以及以第二概率在所述原文中随机插入掩码；将带掩码的原文输入掩码语言模型，得到一个加噪原文。

可选的，所述装置还包括：

掩码概率获取模块，用于获取所述掩码语言模型输出的各个掩码的预测概率。

相应的，翻译评估模块，具体用于：

将所述原文、所述待评估译文、所述第一相似度以及各个掩码的预测概率，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

可选的，所述机器翻译模型为神经网络机器翻译模型，所述装置还包括：

第二相似度计算模块，用于多次以第三概率随机将所述机器翻译模型的神经元失活，得到多个加噪机器翻译模型；将所述原文输入所述多个加噪机器翻译模型，以得到多个第二加噪译文；计算所述多个第二加噪译文的第二相似度。

相应的，翻译评估模块，具体用于：

将所述原文、所述待评估译文、所述第一相似度以及所述第二相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

可选的，所述装置还包括：

分词频次获取模块，用于获取所述原文中各个分词在训练集中的频次，其中，所述训练集用于训练所述机器翻译模型。

相应的，翻译评估模块，具体用于：

将所述原文、所述待评估译文、所述第一相似度以及所述原文中各个分词的频次，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

获取所述机器翻译模型输出层输出的所述待评估译文中各个分词的预测概率；

相应的，翻译评估模块，具体用于：

将所述原文、所述待评估译文、所述第一相似度以及所述待评估译文中各个分词的预测概率，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果。

本申请实施例提供的翻译评估模型的训练装置，可用于执行上述图2、图3和图5对应的任意实施例提供的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例提供一种翻译工具评估装置，包括：

训练集获取模块，用于获取训练样本集，其中，所述训练样本集包括多个样本对，每一样本对包括原文样本、译文样本以及所述译文样本的评估标签；样本加噪模块，用于对各所述原文样本进行加噪处理，得到各原文样本对应的多个加噪原文；样本相似度计算模块，用于针对各个原文样本，将所述原文样本对应的多个加噪原文输入对应的机器翻译模型中，得到所述原文样本对应的多个加噪译文，并计算所述原文样本对应的译文样本与所述原文样本对应的多个加噪译文的第一相似度；其中，加噪原文对应的机器翻译模型为翻译加噪原文对应的原文样本的模型；模型训练模块，用于根据所述训练样本集以及所述第一相似度，对所述翻译评估模型进行训练，以输出训练好的翻译评估模型。

本申请实施例提供的翻译评估模型的训练装置，可用于执行上述图7对应的任意实施例提供的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本申请实施例提供的一种电子设备的结构示意图，如图8所示，本实施例的提供的电子设备包括：

至少一个处理器810；以及与所述至少一个处理器通信连接的存储器820；其中，所述存储器820存储有计算机执行指令；所述至少一个处理器810执行所述存储器存储的计算机执行指令，以使所述电子设备执行如前述任一实施例提供的方法。

可选地，存储器820既可以是独立的，也可以跟处理器810集成在一起。

本实施例提供的电子设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时，可以实现前述任一实施例提供的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例提供的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例提供的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种翻译评估方法，其特征在于，所述方法包括：

对待评估译文的原文进行加噪处理，得到多个加噪原文；

计算所述多个第一加噪译文的第一相似度；

2.根据权利要求1所述的方法，其特征在于，对原文进行加噪处理，得到多个加噪原文，包括：

执行N次以下步骤，以得到N个加噪原文，N为大于或等于2的正整数：

以第一概率随机删除所述原文中的分词，以及以第二概率在所述原文中随机插入掩码；

将带掩码的原文输入掩码语言模型，得到一个加噪原文。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取所述掩码语言模型输出的各个掩码的预测概率；

将所述原文、所述待评估译文以及所述第一相似度，输入预先训练好的翻译评估模型，以得到所述待评估译文的评估结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述机器翻译模型为神经网络机器翻译模型，所述方法还包括：

多次以第三概率随机将所述机器翻译模型的神经元失活，得到多个加噪机器翻译模型；

将所述原文输入所述多个加噪机器翻译模型，以得到多个第二加噪译文；

计算所述多个第二加噪译文的第二相似度；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述原文中各个分词在训练集中的频次，其中，所述训练集用于训练所述机器翻译模型；

6.根据权利要求1所述的方法，其特征在于，所述机器翻译模型为神经网络机器翻译模型，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述翻译评估模型包括预训练语言层、前馈网络层和输出层；

所述预训练语言层用于根据所述原文以及所述待评估译文，生成语义特征向量；

所述前馈网络层用于根据所述语义特征向量以及不确定性度量特征，生成权重向量；

所述输出层用于根据所述权重向量，生成所述待评估译文的评估结果；

其中，所述不确定性度量特征包括所述第一相似度，以及包括第二相似度、各个掩码的预测概率、原文中各个分词的频次以及待评估译文中各个分词的预测概率中的至少一项。

8.一种翻译评估方法，其特征子在于，所述方法包括：

获取翻译平台输出待评估译文及其原文，所述翻译平台基于机器翻译模型将对应的原文翻译为所述待评估译文；

对待评估译文的原文进行加噪处理，得到多个加噪原文；

将所述多个加噪原文输入所述机器翻译模型，以得到多个第一加噪译文；

计算所述多个第一加噪译文的第一相似度；

9.一种翻译评估模型训练方法，其特征在于，所述方法包括：

针对各个原文样本，将所述原文样本对应的多个加噪原文输入对应的机器翻译模型中，得到所述原文样本对应的多个加噪译文，并计算所述原文样本对应的多个加噪译文的第一相似度；其中，加噪原文对应的机器翻译模型为翻译加噪原文对应的原文样本的模型；

10.一种电子设备，包括：

处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-9任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-9任一项所述的方法。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一项所述的方法。