CN113408302B

CN113408302B - 一种机器翻译结果的评估方法、装置、设备及存储介质

Info

Publication number: CN113408302B
Application number: CN202110735395.XA
Authority: CN
Inventors: 黄辉; 詹润哲; 刘学博
Original assignee: Um Zhuhai Research Institute; University of Macau
Current assignee: Um Zhuhai Research Institute; University of Macau
Filing date: 2021-06-30
Publication date: 2024-07-02
Anticipated expiration: 2041-06-30

Abstract

本申请提供一种机器翻译结果的评估方法、装置、设备及存储介质，涉及自然语言技术领域。该方法包括：获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料；根据各机器系统的目标语言语料以及参考语言语料，确定各机器系统的实际匹配分数；根据各机器系统的实际匹配分数，确定该参考语言语料中各语义单元的第一困难权重；根据目标机器系统的目标语言语料中各语义单元是否存在于该参考语言语料中，得到该目标机器系统的目标语言语料中各语义单元的第二困难权重；根据第一困难权重以及第二困难权重，确定该目标机器系统的翻译结果的评估分数。应用本申请实施例，可以提高对机器翻译结果进行评估的准确性。

Description

一种机器翻译结果的评估方法、装置、设备及存储介质

技术领域

本申请涉及自然语言技术领域，具体而言，涉及一种机器翻译结果的评估方法、装置、设备及存储介质。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言或译文)的过程。随着经济全球化以及互联网的飞速发展，机器翻译在经济、文化交流等方面起到越来越重要的作用，基于此，对机器翻译结果的评估具有重要的研究价值。

目前，将机器翻译结果(目标语言)中的各语义单元(如字词、词组)与参考译文进行匹配，将各语义单元的匹配结果直接进行分数整合可得到对机器翻译结果的评估分数。

然而，在分数整合阶段，各语义单元被赋予相同的评估策略，也就是说，现有技术并没有区分各语义单元被翻译时的难易程度，这样会降低对机器翻译结果进行评估的准确性。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种机器翻译结果的评估方法、装置、设备及存储介质，可以提高对机器翻译结果进行评估的准确性。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种机器翻译结果的评估方法，所述方法包括：

获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料；

根据各机器系统的目标语言语料以及参考语言语料，确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数；

根据所述各机器系统的实际匹配分数，确定所述参考语言语料中各语义单元的第一困难权重；

根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中，得到所述目标机器系统的目标语言语料中各语义单元的第二困难权重，所述目标机器系统为所述多个机器系统中的任意一个机器系统；

根据所述第一困难权重以及所述第二困难权重，确定所述目标机器系统的翻译结果的评估分数。

可选地，所述根据所述第一困难权重以及所述第二困难权重，确定所述目标机器系统的翻译结果的评估分数，包括：

基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重，确定精确率参数以及召回率参数；

根据所述精确率参数以及所述召回率参数，确定所述目标机器系统的翻译结果的评估分数。

可选地，所述根据所述各机器系统的实际匹配分数，确定所述参考语言语料中各语义单元的第一困难权重，包括：

根据所述各机器系统的实际匹配分数，分别确定出所述各机器系统的目标语言语料中与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，所述目标语义单元为所述参考语言语料中的任意一个语义单元；

根据与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，确定所述第一困难权重。

可选地，所述根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中，得到所述目标机器系统的目标语言语料中各语义单元的第二困难权重，包括：

若所述目标机器系统的目标语言语料中的语义单元存在于所述参考语言语料中，则将所述参考语言语料中所述语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重；

若所述目标机器系统的目标语言语料中的语义单元不存在于所述参考语言语料中，则将所述参考语言语料中与所述语义单元匹配度最高的语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重。

可选地，所述基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重，确定精确率参数以及召回率参数，包括：

根据所述目标机器系统的实际匹配分数，确定所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数；

基于所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数、所述各语义单元的第二困难权重以及所述目标机器系统的目标语言语料的长度，确定所述精确率参数；

根据所述目标机器系统的实际匹配分数，确定所述参考语言语料中各语义单元所属的最高匹配分数；

基于所述参考语言语料中各语义单元所属的最高匹配分数、所述各语义单元的第一困难权重以及所述参考语言语料的长度，确定所述召回率参数。

可选地，所述根据所述精确率参数以及所述召回率参数，确定所述目标机器系统的翻译结果的评估分数，包括：

根据预设超参数、所述精确率参数以及所述召回率参数，确定所述目标机器系统的翻译结果的评估分数，其中，所述预设超参数用于指示所述精确率参数与所述召回率参数之间的比重。

可选地，所述根据各机器系统的目标语言语料以及参考语言语料，确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数，包括：

将所述各机器系统的目标语言语料以及所述参考语言语料分别输入预先训练的词语向量化模型中，得到所述各机器系统的目标语言语料向量以及参考语言语料向量；

根据所述各机器系统的目标语言语料向量以及所述参考语言语料向量，确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的匹配分数。

第二方面，本申请实施例还提供了一种机器翻译结果的评估装置，所述装置包括：

获取模块，用于获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料；

第一确定模块，用于根据各机器系统的目标语言语料以及参考语言语料，确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数；

第二确定模块，用于根据所述各机器系统的实际匹配分数，确定所述参考语言语料中各语义单元的第一困难权重；

判断模块，用于根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中，得到所述目标机器系统对应的目标语言语料中各语义单元的第二困难权重，所述目标机器系统为所述多个机器系统中的任意一个机器系统；

第三确定模块，用于根据所述第一困难权重以及所述第二困难权重，确定所述目标机器系统的翻译结果的评估分数。

可选地，所述第三确定模块，具体用于基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重，确定精确率参数以及召回率参数；根据所述精确率参数以及所述召回率参数，确定所述目标机器系统的翻译结果的评估分数。

可选地，所述第二确定模块，具体用于根据所述各机器系统的实际匹配分数，分别确定出所述各机器系统的目标语言语料中与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，所述目标语义单元为所述参考语言语料中的任意一个语义单元；根据与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，确定所述第一困难权重。

可选地，所述判断模块，具体用于若所述目标机器系统的目标语言语料中的语义单元存在于所述参考语言语料中，则将所述参考语言语料中所述语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重；若所述目标机器系统的目标语言语料中的语义单元不存在于所述参考语言语料中，则将所述参考语言语料中与所述语义单元匹配度最高的语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重。

可选地，所述第三确定模块，还具体用于根据所述目标机器系统的实际匹配分数，确定所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数；基于所述目标机器系统的目标语言语料中各语义单元所属的最高匹配分数、所述各语义单元的第二困难权重以及所述目标机器系统的目标语言语料的长度，确定所述精确率参数；根据所述目标机器系统的实际匹配分数，确定所述参考语言语料中各语义单元所属的最高匹配分数；基于所述参考语言语料中各语义单元所属的最高匹配分数、所述各语义单元的第一困难权重以及所述参考语言语料的长度，确定所述召回率参数。

可选地，所述第三确定模块，还具体用于根据预设超参数、所述精确率参数以及所述召回率参数，确定所述目标机器系统的翻译结果的评估分数，其中，所述预设超参数用于指示所述精确率参数与所述召回率参数之间的比重。

可选地，所述第一确定模块，还具体用于将所述各机器系统的目标语言语料以及所述参考语言语料分别输入预先训练的词语向量化模型中，得到所述各机器系统的目标语言语料向量以及参考语言语料向量；根据所述各机器系统的目标语言语料向量以及所述参考语言语料向量，确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的匹配分数。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述第一方面的所述机器翻译结果的评估方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面的所述机器翻译结果的评估方法的步骤。

本申请的有益效果是：

本申请实施例提供一种机器翻译结果的评估方法、装置、设备及存储介质，该方法包括：获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料；根据各机器系统的目标语言语料以及参考语言语料，确定各机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的实际匹配分数；根据各机器系统的实际匹配分数，确定该参考语言语料中各语义单元的第一困难权重；根据目标机器系统的目标语言语料中各语义单元是否存在于该参考语言语料中，得到该目标机器系统的目标语言语料中各语义单元的第二困难权重，该目标机器系统为多个机器系统中的任意一个机器系统；根据第一困难权重以及第二困难权重，确定该目标机器系统的翻译结果的评估分数。

采用本申请实施例提供的机器翻译结果的评估方法，在得到各机器系统的实际匹配分数之后，可对各语义单元的难易程度进行分析，确定出该参考语言语料中各语义单元的第一困难权重以及该目标机器系统的目标语言语料中各语义单元的第二困难权重，即区分了各语义单元翻译时的难易程度，在分数整合阶段，通过引入困难权重的概念确定目标机器系统的翻译结果进的评估分数，这样可以提高对机器翻译结果进行评估的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种机器翻译结果的评估方法的流程示意图；

图2为本申请实施例提供的另一种机器翻译结果的评估方法的流程示意图；

图3为本申请实施例提供的又一种机器翻译结果的评估方法的流程示意图；

图4为本申请实施例提供的再一种机器翻译结果的评估方法的流程示例图；

图5为本申请实施例提供的另一种机器翻译结果的评估方法的流程示意图；

图6为本申请实施例提供的又一种机器翻译结果的评估方法的流程示意图；

图7为本申请实施例提供的一种机器翻译结果的评估装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在对本申请实施例进行详细解释之前，首先对本申请的应用场景予以介绍。该应用场景具体可以为对机器竞赛中的各机器翻译结果(译文)进行自动评估的场景，或者其他对机器翻译结果进行自动评估的场景，本申请不对其进行限定，可用评估分数表征各机器系统的翻译性能。发明人发现，随着机器翻译技术的发展，自注意力机制与深层的神经模型的应用虽然显著提升了译文的准确性，但各机器系统的翻译风格极其接近，致使各机器系统对同一个源语言预料分别进行翻译后的译文在细节上的差异无法区别，进而使利用传统的评估方式得到的评估分数不能精确的与各机器系统的性能进行匹配，即评估分数无法精确的表示各机器系统进行翻译时的实际表现。

本申请利用下述实施例的方式可对多个机器系统基于同一个源语言语料分别进行翻译后的译文与参考译文之间的关系进行分析，得到用于表征各语义单元难易程度的困难权重，也就是说，通过困难权重可知哪些语义单元是容易翻译的，哪些语义单元是不容易翻译的，即本申请技术方案具有难度感知的效果，其中，参考译文可用于指示该源语言语料被翻译后的一种正确翻译结果，需要说明的是，本申请不对源语言语料以及参考译文中的具体内容进行限定。

基于各语义单元的困难程度，可对各机器系统中的任意一个目标机器系统的翻译结果进行评估，这样可以提高对目标机器翻译结果进行评估的准确性，即最后得到的评估分数可以更精确的反应目标机器系统进行翻译时的实际表现。

如下结合附图对本申请提到的机器翻译结果的评估方法进行示例说明。图1为本申请实施例提供的一种机器翻译结果的评估方法的流程示意图。

如图1所示，该方法可包括：

S101、获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料。

其中，源语言语料中的内容是需要被翻译的内容，源语言语料中可包括多个待翻译句子，各待翻译句子最小单位可以为字词，也可以为词组。各机器系统可将某种源语言的语料翻译为某种指定的目标语言的语料，如该源语言语料为中文，目标语言语料为英文，也就是说，各机器系统将语料为中文的源语言翻译为语料为英文的目标语言。需要说明的是，本申请不对源语言语料的具体内容进行限定。

示例性的，可将该源语言语料分别输入各机器系统对应的源语言翻译模型中，各源语言翻译模型输出目标语言语料，其中，各源语言翻译模型可采用深度网络结构。

在各源语言翻译模型输出目标语言语料后，可将各目标语言语料与对应的机器系统相关联存储，并以键值对的存储方式存储在数据库中。在需要对机器系统的翻译结果进行自动评估时，可从该数据库中获取多个机器系统对应的目标语言语料，其中，多个机器系统可包括需要评估的机器系统以及其他机器系统。

S102、根据各机器系统的目标语言语料以及参考语言语料，确定各机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的实际匹配分数。

其中，该参考语言语料可用于指示该源语言语料的正确翻译结果，可选地，该参考语言语料可为由专家制定的内容，也可为通过一种置信度满足预设要求的机器系统翻译后得到的目标语言语料，需要说明的是，本申请不对参考语言语料的获取方式进行限定。

可利用分词工具将各机器系统的目标语言语料划分为多个语义单元，各语义单元的最小单位可以为字词，也可以为字词，本申请不对其进行限定，同理，也可将该参考语言预料划分为多个语义单元。

可选地，可通过余弦相似度、欧氏距离、信息熵差值或WMD(Word Mover'sDistance，词移)距离等方式确定各机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的实际匹配分数。举例来说，假设存在3个机器系统，每个机器系统(如机器系统1、机器系统2、机器系统3)对应的目标语言语料中可包括J个语义单元，参考语言语料中可包括I个语义单元，以其中一个机器系统(如机器系统1)对应的目标语言语料为例进行说明，其他机器系统类似。可采用上述提到的方式(如余弦相似度)确定出机器系统1的目标语言语料中各语义单元(如语义单元J)分别与该参考语言语料中各语义单元(如语义单元1、语义单元2…语义单元I)的实际匹配分数，最后可将与各机器系统对应的实际匹配分数以矩阵的形式存储在数据库中，即每个机器系统对应一个实际匹配分数矩阵。

需要说明的是，各机器系统的目标语言语料中所包含的语义单元个数可相同(如均为J个)，也可不相同，本申请不对其进行限定。

S103、根据各机器系统的实际匹配分数，确定该参考语言语料中各语义单元的第一困难权重。

其中，此处以参考语言语料为维度进行说明，可从数据库中获取各机器系统的目标语言语料与该参考语言语料的实际匹配分数矩阵，各实际匹配分数矩阵中的行是以目标语言语料中各语义单元为维度来说的，代表目标语言语料中某个语义单元分别与该参考语言语料中各语义单元的实际匹配分数；各实际匹配分数矩阵中的列是以该参考语言语料中各语义单元为维度来说的，代表该参考语言语料中某个语义单元分别与目标语言语料中某个语义单元的实际匹配分数。

继续以上述举例来说，该参考语言语料中各语义单元(如语义单元1、语义单元2…语义单元I)可通过下述方式确定，其中以确定语义单元1的第一困难权重进行说明，其他语义单元类似，分别从机器系统1的实际匹配分数矩阵、机器系统2的实际匹配分数矩阵以及机器系统3的实际匹配分数矩阵中获取第一列中的最高的实际匹配分数，可根据这3个最高的实际匹配分数确定出该参考语言语料中语义单元1的第一困难权重，其中，该第一困难权重可用于表示语义单元1被翻译出的困难程度，该第一困难权重越大，代表着语义单元1越难被翻译出；该第一困难权重越小，代表着语义单元1越容易被翻译出。

S104、根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中，得到该目标机器系统的目标语言语料中各语义单元的第二困难权重。

其中，该目标机器系统为多个机器系统中的任意一个机器系统，也就是说，可通过本步骤确定出每个机器系统的目标语言语料中各语义单元的第二权重。目标机器系统的目标语言语料中各语义单元是否存在于该参考语言语料可直接根据该目标机器系统的实际匹配分数体现，也就是说，可根据该目标机器系统的实际匹配分数矩阵判断目标机器系统的目标语言语料中各语义单元是否存在于该参考语言语料中。

可以理解的是，实际匹配分数矩阵中每行存在的实际匹配分数越大，代表着该参考语言语料中存在与该行对应的该目标机器系统对应的语义单元的机率越大，或者说，不管目标语言语料中各语义单元是否存在于该参考语言语料中，可直接根据该目标机器系统的实际匹配分数矩阵得到该目标机器系统对应的目标语言语料中各语义单元的第二困难权重。具体的，确定该目标机器系统的实际匹配分数矩阵中每行中的最大的实际匹配参数，可直接将该最大的实际匹配参数所在的列代表的该参考语言语料中的语义单元的第一权重，作为该行代表的该目标机器系统的目标语言语料中的语义单元的第二权重。

S105、根据第一困难权重以及第二困难权重，确定该目标机器系统的翻译结果的评估分数。

其中，可根据该参考语言语料中各语义单元的第一困难权重确定召回率参数，可根据该目标语言语料中各语义单元的第二困难权重确定精确率参数，最后结合该召回率参数以及该精确率参数可得到该目标机器系统的翻译结果的评估分数。

继续上述举例来说，通过本步骤(分数整合阶段)可分别确定出机器系统1、机器系统2以及机器系统3的翻译结果的评估分数，可按照评估分数从大到小的顺序对机器系统1、机器系统2以及机器系统3进行排序，这样可将排在首位的机器系统作为翻译性能最好的机器系统。

综上所述，本申请提供的机器翻译结果的评估方法，在得到各机器系统的实际匹配分数之后，可对各语义单元的难易程度进行分析，确定出该参考语言语料中各语义单元的第一困难权重以及该目标机器系统的目标语言语料中各语义单元的第二困难权重，即区分了各语义单元翻译时的难易程度，在分数整合阶段，通过引入困难权重的概念确定目标机器系统的翻译结果进的评估分数，这样可以提高对机器翻译结果进行评估的准确性。

图2为本申请实施例提供的另一种机器翻译结果的评估方法的流程示意图。可选地，如图2所示，上述根据第一困难权重以及第二困难权重，确定该目标机器系统的翻译结果的评估分数，包括：

S201、基于第一困难权重、目标机器系统的实际匹配分数以及所述第二困难权重，确定精确率参数以及召回率参数。

S202、根据精确率参数以及召回率参数，确定该目标机器系统的翻译结果的评估分数。

其中，该精确率参数用于指示目标机器系统的目标语言语料中存在多少个正确的语义单元，也就是说，该精确率参数是以目标语言语料为维度进行说明的；该召回率参数用于指示参考语言语料中的语义单元被翻译出了多少，也就是说，该召回率参数是以参考语言语料为维度进行说明的，在计算该精确率参数时，将该目标机器系统的目标语言语料中各语义单元的第二困难权重以及该目标机器系统的实际匹配分数矩阵引入，在计算该召回率参数，将该参考语言语料中各语义单元的第一困难权重以及该目标机器系统的实际匹配分数矩阵引入。

在得到该精确率参数以及该召回率参数后，可将该精确率参数以及该召回率参数带入评估分数计算公式中，将该评估分数计算公式的结果作为该目标机器系统的翻译结果的评估分数。

可以看出，在确定该目标机器系统的翻译结果的评估分数的过程中，引入了语义单元的困难权重，即给困难权重较低的语义单元赋予较低的分值，给困难权重较高的语义单元赋予较高的分值，这样可以使本申请的自动评分结果与人工方式的评估结果之间的相关系数得到提高，而且还避免了采用人工方式所需的昂贵成本。

图3为本申请实施例提供的又一种机器翻译结果的评估方法的流程示意图。可选地，如图3所示，上述根据各机器系统的实际匹配分数，确定该参考语言语料中各语义单元的第一困难权重，包括：

S301、根据各机器系统的实际匹配分数，分别确定出各机器系统的目标语言语料中与该参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数。

S302、根据与该述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，确定该第一困难权重。

其中，目标语义单元为参考语言语料中的任意一个语义单元，假设参考语言语料t＝(t₁,…,t_i,…,t_I)，则目标语义单元可为(t₁,…,t_i,…,t_I)中的任意一个，可用(h₁,…,h_K)表示K个机器系统分别对应的目标语言语料，各机器系统的实际匹配分数可用sim(t,h)表示，以各机器系统对应的实际匹配分数矩阵来说，确定参考语言语料中目标语义单元所对应的目标列数，从各机器系统对应的实际匹配分数矩阵的目标列数中提取最大的实际匹配分数，匹配分数越大代表着匹配度越高，整个过程可进行表示。

该参考语言语料中目标语义单元对应的第一困难权重d(t)的确定过程可通过下述公式描述：

其中，可根据K个机器系统的实际匹配分数矩阵确定出该参考语言语料中目标语义单元对应的平均匹配分数，可通过该平均匹配分数表征该目标语义单元被多大程度翻译出，该平均匹配分数越大，证明该目标语义单元越容易被翻译出，该平均匹配分数取值在[0-1]区间内。利用数值1减去该平均匹配分数，可直接反应该目标语义单元被翻译的难易程度，d(t)数值越大，证明该目标语义单元越难越翻译；d(t)数值越小，证明该目标语义单元越容易被翻译。

最后可得到该参考语言语料中各语义单元(t₁,…,t_i,…,t_I)的第一困难权重d(t)，也可用矩阵的形式将第一困难权重d(t)与该参考语言语料中各语义单元进行相关联存储。

图4为本申请实施例提供的再一种机器翻译结果的评估方法的流程示例图。可选的，如图4所示，上述根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中，得到该目标机器系统的目标语言语料中各语义单元的第二困难权重，包括：

S401、若该目标机器系统的目标语言语料中的语义单元存在于该参考语言语料中，则将该参考语言语料中该语义单元的第一困难权重作为该目标机器系统的目标语言语料中该语义单元的第二困难权重。

S402、若该目标机器系统的目标语言语料中的语义单元不存在于该参考语言语料中，则将该参考语言语料中与该语义单元匹配度最高的语义单元的第一困难权重作为该目标机器系统的目标语言语料中该语义单元的第二困难权重。

其中，可根据目标机器系统的目标语言语料中的语义单元与该参考语言语料的关系，确定该目标语言语料中各语义单元的第二困难权重，也就是说，可利用该参考语言语料中各语言预料的第一困难权重确定目标语言语料中目标语义单元的第二困难权重，该目标语义单元为该目标语言语料中的任意一个语义单元。

可通过下述公式确定目标机器系统的目标语言语料中目标语义单元的第二困难权重：

其中，(ifh∈t)表示目标语义单元h存在于参考语言预料t中，表示目标语义单元h不存在于参考语言预料t中。举例来说，假设目标语义单元h具体为英文the，若参考语言语料中存在英文the的语义单元，那么可将参考语言语料t中为英文the的语义单元对应的第一困难权重作d(t)为该目标机器系统的目标语言语料中为英文the的目标语义单元h的第二困难权重；若参考语言语料中不存在英文the的语义单元，那么可从目标机器系统的匹配分数矩阵中查找目标语义单元h对应的行中所包含的最大匹配分数，进而确定出最大匹配分数所在的列，此过程可通过(max_t∈tsim(t,h))描述，将该列所对应的参考语言预料中的语义单元的第一困难权重d(t)作为目标语义单元h的第二困难权重。

图5为本申请实施例提供的另一种机器翻译结果的评估方法的流程示意图。可选地，如图5所示，上述基于第一困难权重、目标机器系统的实际匹配分数以及第二困难权重，确定精确率参数以及召回率参数，包括：

S501、根据该目标机器系统的实际匹配分数，确定该目标机器系统的目标语言语料中各语义单元所属的最高匹配分数。

S502、基于该目标机器系统的目标语言语料中各语义单元所属的最高匹配分数、各语义单元的第二困难权重以及该目标机器系统的目标语言语料的长度，确定该精确率参数。

其中，可根据上述提到的目标机器系统的实际匹配分数矩阵，确定出每行(目标语言语料中的各语义单元)所包含的最大匹配分数将每行对应的最大匹配分数与每行对应的第二困难权重进行相乘并求和，将求和结果与该目标机器系统的目标语言语料的长度|h|相除，将相除后的结果作为该精确率参数的具体数值(P_DA)。

可通过下述公式对该精确率参数的具体数值(P_DA)的求解过程进行表示：

其中，若该目标机器系统的目标语言语料中包含有10个语义单元，那么该目标机器系统的目标语言语料的长度|h|具体数值为10，也就是说，|h|的具体数值与目标语言语料中语义单元的个数相关。

S503、根据该目标机器系统的实际匹配分数，确定该参考语言语料中各语义单元所属的最高匹配分数。

S504、基于该参考语言语料中各语义单元所属的最高匹配分数、各语义单元的第一困难权重以及该参考语言语料的长度，确定该召回率参数。

其中，继续利用上述提到的目标机器系统的实际匹配分数矩阵，可确定出每列(参考语言语料的各语义单元)所包含的最大匹配分数将每列对应的最大匹配分数与每列对应的第一权重进行相乘并求和，将求和结果与该参考语言语料的长度|t|相除，将相除后的结果作为该召回率参数的具体数值(R_DA)。

可通过下述公式对该召回率参数的具体数值(R_DA)的求解过程进行表示：

其中，若该参考语言语料中包含有I个语义单元(t₁,…,t_i,…,t_I)，那么该参考语言语料的长度|h|等于I，也就是说，|h|的具体数值与该参考语言语料中语义单元的个数相关。

可以看出，在确定精确率参数时，引入了该目标机器的目标语言语料中各语义单元的第二权重，在确定召回率参数时，引入了该参考语言语料中各语义单元的第一权重，也就是说，在已得到的语义单元的最大匹配分数的基础上施加困难权重，这样可以区分语义单元在评估过程中的关注程度，可使利用该精确率参数以及该召回率参数得到的评估分数更精确的反应目标机器系统的翻译性能。

可选地，上述根据精确率参数以及召回率参数，确定该目标机器系统的翻译结果的评估分数，包括：根据预设超参数、该精确率参数以及该召回率参数，确定该目标机器系统的翻译结果的评估分数，其中，该预设超参数用于指示该精确率参数与该召回率参数之间的比重。

具体的，可通过下述公式确定该目标机器系统的翻译结果的评估分数(F_DA)：

其中，β表示上述提到的预设超参数，该预设超参数可用于指示该精确率参数与该召回率参数之间的比重，一般情况下，β取值为1，表示在确定该目标机器系统的翻译结果的评估分数的过程中，该精确率参数与该召回率参数具有一样的权重；在β大于1时，表示在确定该目标机器系统的翻译结果的评估分数时，更倾向于考虑该召回率参数，即更多的是从参考语言语料中的语义单元被翻译出了多少的维度确定该目标机器系统的翻译结果的评估分数；在β小于1且大于0时，表示在确定该目标机器系统的翻译结果的评估分数时，更倾向于考虑该精确率参数，即更多的是从该目标机器系统的目标语言语料中存在多少个正确的语义单元的维度确定该目标机器系统的翻译结果的评估分数，需要说明的是，本申请不对β的具体数值进行限定。

可以看出，通过对预设超参数β的调节，可以调整精确率参数以及召回率参数在分数整合阶段的参与程度，便于获取不同维度的目标机器系统的翻译结果的评估分数。

图6为本申请实施例提供的又一种机器翻译结果的评估方法的流程示意图。可选地，如图6所示，上述根据各机器系统的目标语言语料以及参考语言语料，确定各机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的实际匹配分数，包括：

S601、将各机器系统的目标语言语料以及该参考语言语料分别输入预先训练的词语向量化模型中，得到各机器系统的目标语言语料向量以及参考语言语料向量。

其中，可预先利用结巴(jieba)分词工具或者其他分词工具对各机器系统的目标语言语料以及该参考语言语料分别进行切分，请分别删除各目标语言语料以及该参考语言语料中所包含的特殊符号等，最后得到各目标语言语料中的语义单元以及该参考语言语料中的语义单元。

将各目标语言语料中的语义单元以及该参考语言语料中的语义单元分别输入预先的词语向量化模型中，该预先训练的词语向量化模型可将各语义单元编码为语义空间内的向量表示，即该预先训练的词语向量化模型可分别输出各目标语言语料向量以及参考语言语料向量，其中，各目标语言语料向量以及参考语言语料向量由多个语义单元向量组成。

S602、根据各机器系统的目标语言语料向量以及该参考语言语料向量，确定各机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的匹配分数。

其中，可通过余弦相似度、欧氏距离、信息熵差值或WMD(Word Mover'sDistance，词移)距离等方式确定各机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的匹配分数sim(t,h)，本申请不对其进行限定，此处以余弦相似度计算方式为例进行说明，该余弦相似度计算方式如下：

其中，O(t)表示参考语言语料向量中某个语义单元向量，O(h)表示目标机器系统的目标语言语料向量中某个语义单元向量。

目标机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的匹配分数可以以匹配分数矩阵的形式进行表示，该匹配分数矩阵中的第J行第I列上的匹配分数代表的是，目标机器系统的目标语言语料向量中第J个语义单元向量以及参考语言语料中第I个语义单元向量按照上述公式计算得到的结果。按照求解目标机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的匹配分数，可得到各机器系统的匹配分数。

图7为本申请实施例提供的一种机器翻译结果的评估装置的结构示意图。如图7所示，该装置包括：

获取模块701，用于获取多个机器系统对同一个源语言语料分别进行翻译后得到的目标语言语料；

第一确定模块702，用于根据各机器系统的目标语言语料以及参考语言语料，确定各机器系统的目标语言语料中各语义单元与该参考语言语料中各语义单元的实际匹配分数；

第二确定模块703，用于根据各机器系统的实际匹配分数，确定该参考语言语料中各语义单元的第一困难权重；

判断模块704，用于根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中，得到该目标机器系统的目标语言语料中各语义单元的第二困难权重；

第三确定模块705，用于根据第一困难权重以及第二困难权重，确定该目标机器系统的翻译结果的评估分数。

可选地，第三确定模块705，具体用于基于第一困难权重、目标机器系统的实际匹配分数以及第二困难权重，确定精确率参数以及召回率参数；根据精确率参数以及召回率参数，确定目标机器系统的翻译结果的评估分数。

可选地，第二确定模块703，具体用于根据各机器系统的实际匹配分数，分别确定出各机器系统的目标语言语料中与参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，目标语义单元为参考语言语料中的任意一个语义单元；根据与参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，确定第一困难权重。

可选地，判断模块704，具体用于若目标机器系统的目标语言语料中的语义单元存在于参考语言语料中，则将参考语言语料中语义单元的第一困难权重作为目标机器系统的目标语言语料中语义单元的第二困难权重；若目标机器系统的目标语言语料中的语义单元不存在于参考语言语料中，则将参考语言语料中与语义单元匹配度最高的语义单元的第一困难权重作为目标机器系统的目标语言语料中语义单元的第二困难权重。

可选地，第三确定模块705，还具体用于根据目标机器系统的实际匹配分数，确定目标机器系统的目标语言语料中各语义单元所属的最高匹配分数；基于目标机器系统的目标语言语料中各语义单元所属的最高匹配分数、各语义单元的第二困难权重以及目标机器系统的目标语言语料的长度，确定精确率参数；根据目标机器系统的实际匹配分数，确定参考语言语料中各语义单元所属的最高匹配分数；基于参考语言语料中各语义单元所属的最高匹配分数、各语义单元的第一困难权重以及参考语言语料的长度，确定召回率参数。

可选地，第三确定模块705，还具体用于根据预设超参数、精确率参数以及召回率参数，确定目标机器系统的翻译结果的评估分数，其中，预设超参数用于指示精确率参数与召回率参数之间的比重。

可选地，第一确定模块702，还具体用于将各机器系统的目标语言语料以及参考语言语料分别输入预先训练的词语向量化模型中，得到各机器系统的目标语言语料向量以及参考语言语料向量；根据各机器系统的目标语言语料向量以及参考语言语料向量，确定各机器系统的目标语言语料中各语义单元与参考语言语料中各语义单元的匹配分数。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图8为本申请实施例提供的一种电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器801、存储介质802和总线803，存储介质802存储有处理器801可执行的机器可读指令，当该电子设备运行时，处理器801与存储介质802之间通过总线803通信，处理器801执行机器可读指令，以执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法实施例的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种机器翻译结果的评估方法，其特征在于，所述方法包括：

根据所述第一困难权重以及所述第二困难权重，确定所述目标机器系统的翻译结果的评估分数；

所述根据所述各机器系统的实际匹配分数，确定所述参考语言语料中各语义单元的第一困难权重，包括：

根据与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，确定所述第一困难权重；

所述根据目标机器系统的目标语言语料中各语义单元是否存在于所述参考语言语料中，得到所述目标机器系统的目标语言语料中各语义单元的第二困难权重，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一困难权重以及所述第二困难权重，确定所述目标机器系统的翻译结果的评估分数，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一困难权重、所述目标机器系统的实际匹配分数以及所述第二困难权重，确定精确率参数以及召回率参数，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述精确率参数以及所述召回率参数，确定所述目标机器系统的翻译结果的评估分数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据各机器系统的目标语言语料以及参考语言语料，确定所述各机器系统的目标语言语料中各语义单元与所述参考语言语料中各语义单元的实际匹配分数，包括：

6.一种机器翻译结果的评估装置，其特征在于，所述装置包括：

第三确定模块，用于根据所述第一困难权重以及所述第二困难权重，确定所述目标机器系统的翻译结果的评估分数；

所述第二确定模块，具体用于根据所述各机器系统的实际匹配分数，分别确定出所述各机器系统的目标语言语料中与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，所述目标语义单元为所述参考语言语料中的任意一个语义单元；根据与所述参考语言语料中目标语义单元匹配度最高的语义单元对应的匹配分数，确定所述第一困难权重；

所述判断模块，具体用于若所述目标机器系统的目标语言语料中的语义单元存在于所述参考语言语料中，则将所述参考语言语料中所述语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重；若所述目标机器系统的目标语言语料中的语义单元不存在于所述参考语言语料中，则将所述参考语言语料中与所述语义单元匹配度最高的语义单元的第一困难权重作为所述目标机器系统的目标语言语料中所述语义单元的第二困难权重。

7.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-5任一项所述机器翻译结果的评估方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-5任一项所述机器翻译结果的评估方法的步骤。