CN111783478A

CN111783478A - 机器翻译质量估计方法、装置、设备及存储介质

Info

Publication number: CN111783478A
Application number: CN202010834042.0A
Authority: CN
Inventors: 薛征山; 邓涵铖; 王德鑫; 熊德意; 郝杰
Original assignee: Tianjin University; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Tianjin University; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-10-16
Anticipated expiration: 2040-08-18
Also published as: CN111783478B

Abstract

本申请实施例提供了一种机器翻译质量估计方法、装置、设备及存储介质。所述方法包括：获取源语言文本和机器翻译文本；确定源语言文本对应的第一词特征向量集合和机器翻译文本对应的第二词特征向量集合；对第一词特征向量集合进行编码处理，得到源语言文本对应的源语言句子向量和编码后的第一词特征向量集合；对编码后的第一词特征向量集合和第二词特征向量集合进行处理，得到目标语言句子向量和目标中心词混合双向特征向量集合；对源语言句子向量和目标语言句子向量进行处理，得到对齐表示参数；对对齐表示参数和目标中心词混合双向特征向量集合进行处理，得到机器翻译质量估计参数。本申请实施例提高了机器翻译质量估计参数的准确度。

Description

机器翻译质量估计方法、装置、设备及存储介质

技术领域

本申请实施例涉及机器翻译技术领域，特别涉及一种机器翻译质量估计方法、装置、设备及存储介质。

背景技术

机器翻译是指通过机器翻译模型把一种自然源语言转变为另一种自然目标语言的过程。由于不同机器翻译模型给出的翻译结果不尽相同，因此需要对机器翻译的质量进行评估。

在相关技术中，机器翻译质量估计(Quality Estimation，QE)是一种直接估计机器翻译质量的技术。机器翻译质量估计按照所需估计文本的粒度可分为单词级、句子级、篇章级三个级别。句子级的机器翻译质量估计参数的真实值可以通过如下方式确定：通过预测器确定源语言文本和机器翻译文本的质量向量，再将该质量向量输入到估计器中，由估计器来回归机器翻译质量估计参数。

然而，上述确定机器翻译质量估计参数的流程中源语言文本在估计器中的参与度较低，从而使得最终确定的机器翻译质量估计参数的准确度较低。

发明内容

本申请实施例提供一种机器翻译质量估计方法、装置、设备及存储介质。所述技术方案如下：

一方面，本申请实施例提供一种机器翻译质量估计方法，所述方法包括：

获取源语言文本和机器翻译文本，所述源语言文本是指未进行机器翻译时的第一语言的文本，所述机器翻译文本是指对所述源语言文本进行机器翻译后得到的将所述第一语言转换为第二语言的文本，所述第一语言不同于所述第二语言；

调用机器翻译质量估计模型，所述机器翻译质量估计模型包括预测模块和估计模块；

从所述预测模块中的词嵌入集合中确定所述源语言文本对应的第一词特征向量集合和所述机器翻译文本对应的第二词特征向量集合；

通过所述预测模块对所述第一词特征向量集合进行编码处理，得到所述源语言文本对应的源语言句子向量和编码后的所述第一词特征向量集合；

通过所述预测模块对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行处理，得到目标语言句子向量和目标中心词混合双向特征向量集合；

通过所述预测模块对所述源语言句子向量和所述目标语言句子向量进行处理，得到对齐表示参数，所述对齐表示参数用于表征所述源语言句子向量和所述目标语言句子向量之间的相似度；

通过所述估计模块对所述对齐表示参数和所述目标中心词混合双向特征向量集合进行处理，得到机器翻译质量估计参数。

另一方面，本申请实施例提供一种机器翻译质量估计装置，所述装置包括：

文本获取模块，用于获取源语言文本和机器翻译文本，所述源语言文本是指未进行机器翻译时的第一语言的文本，所述机器翻译文本是指对所述源语言文本进行机器翻译后得到的将所述第一语言转换为第二语言的文本，所述第一语言不同于所述第二语言；

模型调用模块，用于调用机器翻译质量估计模型，所述机器翻译质量估计模型包括预测模块和估计模块；

向量确定模块，用于从所述预测模块中的词嵌入集合中确定所述源语言文本对应的第一词特征向量集合和所述机器翻译文本对应的第二词特征向量集合；

向量编码模块，用于通过所述预测模块对所述第一词特征向量集合进行编码处理，得到所述源语言文本对应的源语言句子向量和编码后的所述第一词特征向量集合；

所述向量确定模块，还用于通过所述预测模块对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行处理，得到目标语言句子向量和目标中心词混合双向特征向量集合；

参数确定模块，用于通过所述预测模块对所述源语言句子向量和所述目标语言句子向量进行处理，得到对齐表示参数，所述对齐表示参数用于表征所述源语言句子向量和所述目标语言句子向量之间的相似度；

所述参数确定模块，还用于通过所述估计模块对所述对齐表示参数和所述目标中心词混合双向特征向量集合进行处理，得到机器翻译质量估计参数。

另一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上述方面所述的机器翻译质量估计方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的机器翻译质量估计方法。

又一方面，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的机器翻译质量估计方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过基于对齐表示参数和目标中心词混合双向特征向量集合确定机器翻译质量估计参数，由于对齐表示参数用于表征源语言句子向量和目标语言句子向量之间的相似度，所以提高了源语言信息在估计模块中的参与度，从而提高了机器翻译质量估计参数的准确度。

附图说明

图1是本申请一个实施例提供的机器翻译质量估计方法的流程图；

图2是本申请另一个实施例提供的机器翻译质量估计方法的流程图；

图3是本申请一个实施例提供的机器翻译质量估计模型的示意图；

图4是本申请一个实施例提供的机器翻译质量估计模型的训练方法的流程图；

图5是本申请一个实施例提供的机器翻译质量估计装置的框图；

图6是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例的执行主体可以是计算机设备，计算机设备是指具备计算和处理能力的电子设备，计算机设备包括终端或服务器。例如，终端可以是指手机、平板电脑、PC(Personal Computer，个人计算机)、智能可穿戴设备或其他电子设备。服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

计算机设备中存储有机器翻译质量估计模型，计算机设备获取源语言文本和机器翻译文本后，调用机器翻译质量估计模型，通过机器翻译质量估计模型对上述源语言文本和机器翻译文本进行处理，得到机器翻译质量估计参数。

为了便于描述，在下述方法实施例中，仅以各步骤的执行主体为计算机设备进行介绍说明，但对此不构成限定。

请参考图1，其示出了本申请一个实施例提供的机器翻译质量估计方法的流程图，该方法可以由计算机设备执行，该方法可以包括如下几个步骤。

步骤101，获取源语言文本和机器翻译文本。

在本申请实施例中，源语言文本是指未进行机器翻译时的第一语言的文本，机器翻译文本是指对源语言文本进行机器翻译后得到的将第一语言转换为第二语言的文本，第一语言不同于第二语言。第一语言和第二语言可以是以下语言类型的任意一种：中文、英文、德语、西班牙语、法语、意大利语等，本申请实施例对第一语言和第二语言的类型不作限定。源语言文本和机器翻译文本的表现形式可以是一句话，也可以是一个短语，本申请实施例对此不作限定。

在一个示例中，在机器翻译完成后，计算机设备即可获取源语言文本和机器翻译文本。

在另一个示例中，计算机设备每隔预设时长获取源语言文本和机器翻译文本。

在可能的实现方式中，源语言文本可以是同一个文本，但机器翻译文本可以是不同机器翻译模型输出的文本，计算机设备通过获取上述源语言文本和机器翻译文本，对该不同机器翻译模型的翻译性能进行估计。

步骤102，调用机器翻译质量估计模型。

在本申请实施例中，机器翻译质量估计模型包括预测模块和估计模块。机器翻译质量估计模型是指用于估计机器翻译质量的模型，机器翻译质量估计模型能够输出机器翻译质量估计参数。

计算机设备中存储有机器翻译质量估计模型，计算机设备获取到源语言文本和机器翻译文本后，就调用机器翻译质量估计模型。

步骤103，从预测模块中的词嵌入集合中确定源语言文本对应的第一词特征向量集合和机器翻译文本对应的第二词特征向量集合。

机器翻译质量估计模型中包括预测模块，预测模块中包括词嵌入集合，词嵌入集合中包括至少一个词标识与该词标识对应的词特征向量的对应关系。

源语言文本可以切分成至少一个词，每个词对应有各自的词标识，计算机设备通过源语言文本中各个词的词标识从词嵌入集合中确定第一词特征向量集合，该第一词特征向量集合中包括源语言文本中各个词的第一词特征向量，第一词特征向量用于唯一表征该源语言文本中的词。

机器翻译文本可以切分成至少一个词，每个词对应有各自的词标识，计算机设备通过机器翻译文本中各个词的词标识从词嵌入集合中确定第二词特征向量集合，该第二词特征向量集合包括机器翻译文本中各个词的第二词特征向量，第二词特征向量用于唯一表征该机器翻译文本中的词。在可能的实现方式中，第二词特征向量包括前向词特征向量和后向词特征向量。

在可能的实现方式中，词嵌入集合是词嵌入表格，该词嵌入表格可以预先设定好，示例性地，该词嵌入表格中的词特征向量可以通过第一语言的语料库和第二语言的语料库训练得到。各个词标识和词特征向量的对应关系可以按照行存储的方式存储在词嵌入表格中，计算机设备可以根据词标识从词嵌入表格中选出一行词特征向量作为第一词特征向量或第二词特征向量；当然，在可能的实现方式中，各个词标识和词特征向量的对应关系可以按照列存储的方式存储在词嵌入表格中，计算机设备可以根据词标识从词嵌入表格中选出一列词特征向量作为第一词特征向量或第二词特征向量，本申请实施例对此不作限定。

步骤104，通过预测模块对第一词特征向量集合进行编码处理，得到源语言文本对应的源语言句子向量和编码后的第一词特征向量集合。

在本申请实施例中，源语言句子向量(Source Sentence Vector，SSV)用于表征源语言文本的语义特征，语义是指语言所蕴含的意义，源语言文本的语义特征用于指示源语言文本所蕴含的意义。

在可能的实现方式中，计算机设备根据预测模块中的起始符号[SOS(Start OfSentence，句子的开始)]对应的编码器隐状态得到源语言句子向量。

步骤105，通过预测模块对编码后的第一词特征向量集合和第二词特征向量集合进行处理，得到目标语言句子向量和目标中心词混合双向特征向量集合。

在本申请实施例中，目标语言句子向量(Target Sentence Vector，TSV)用于表征预测模块预测将源语言文本从第一语言转换为第二语言后得到的文本的语义特征，该文本的语义特征用于指示该文本所蕴含的意义。

在可能的实现方式中，计算机设备根据预测模块中的开始符号[SOS]和结束符号[EOS(End Of Sentence，句子的结束)]对应的解码器隐状态生成目标语言句子向量。

目标中心词混合双向特征向量集合中包括至少一个目标中心词混合双向特征向量，目标中心词混合双向特征向量用于表征预测模块预测将源语言文本从第一语言转换为第二语言后得到的文本的上下文信息。

步骤106，通过预测模块对源语言句子向量和目标语言句子向量进行处理，得到对齐表示参数。

在本申请实施例中，对齐表示参数用于表征源语言句子向量和目标语言句子向量之间的相似度。

在可能的实现方式中，由于源语言句子向量的维度和目标语言句子向量的维度不一定相同，所以需要对源语言句子向量和目标语言句子向量进行映射处理，该映射处理可以是低维映射处理，低维映射处理可以表示为[ssv；tsv]＝[FCNSSV(SSV)；FCNTSV(TSV)]；其中，ssv表示低维映射处理后的源语言句子向量，tsv表示低维映射处理后的目标语言句子向量，FCN^SSV(SSV)表示对源语言句子向量进行低维映射处理，FCN^TSV(TSV)表示对目标语言句子向量进行低维映射处理。

在可能的实现方式中，对齐表示参数根据低维映射处理后的源语言句子向量和低维映射处理后的目标语言句子向量确定，示例性地，对齐表示参数X可以通过如下公式确定得到：X＝FCN([tsv；ssv])

步骤107，通过估计模块对对齐表示参数和目标中心词混合双向特征向量集合进行处理，得到机器翻译质量估计参数。

机器翻译质量估计参数用于表征机器翻译文本的质量。示例性地，估计模块又可以称之为估计器，通过估计模块对对齐表示参数和目标中心词混合双向特征向量集合进行处理，确定机器翻译质量估计参数。由于机器翻译质量估计参数的确定过程中引入了对齐表示参数，而对齐表示参数用于表征源语言句子向量和目标语言句子向量之间的相似度，其提高了源语言信息在估计模块中的参与度，从而提高了机器翻译质量估计参数的准确度。

在可能的实现方式中，机器翻译质量估计参数包括HTER(Human-targetedTranslation Edit Rate，译后编辑距离)。

综上所述，本申请实施例提供的技术方案中，通过基于对齐表示参数和目标中心词混合双向特征向量集合确定机器翻译质量估计参数，由于对齐表示参数用于表征源语言句子向量和目标语言句子向量之间的相似度，所以提高了源语言信息在估计模块中的参与度，从而提高了机器翻译质量估计参数的准确度。

在示意性实施例中，预测模块包括主预测器(Primary Predictor，PP)和混合预测器(Mixed Predictor，MP)。在可能的实现方式中，主预测器和混合预测器在本质上为解码器，其可以是机器翻译模型(Transformer)中的解码器。主预测器包括L₁层(L₁-layer)级联的解码层，混合预测器包括L₂层(L₂-layer)级联的解码层，L₁、L₂为正整数。L₁和L₂可以相等，也可以不相等，例如，L₁可以大于或小于L₂，本申请实施例对此不作限定。

如图2所示，计算机设备可通过如下步骤确定目标语言句子向量和目标中心词混合双向特征向量集合：

步骤201，通过主预测器对编码后的第一词特征向量集合和第二词特征向量集合进行解码处理，得到第一预测翻译文本对应的第一中心词混合双向特征向量集合。

在可能的实现方式中，预测模块还包括编码器，该编码器可以是机器翻译模型中的编码器，该编码器可以包括L₀层(L₀-layer)级联的编码层，L₀为正整数。主预测器和混合预测器可以使用同一个编码器。在本申请实施例中，编码器用于对源语言文本进行编码，得到编码后的第一词特征向量。示例性地，第一词特征向量也可以称之为第一词特征向量序列，第一词特征向量集合也可以称之为第一词特征向量序列集合。第二词特征向量也可以称之为第二词特征向量序列，第二词特征向量集合也可以称之为第二词特征向量序列集合。

在本申请实施例中，第一预测翻译文本是指主预测器预测将源语言文本从第一语言转换为第二语言后得到的文本，第一中心词混合双向特征向量集合包括第一预测翻译文本中各个词的第一中心词混合双向特征向量，第一中心词混合双向特征向量用于表征第一预测翻译文本的上下文信息。示例性地，第一预测翻译文本是指主预测器基于观测到机器翻译文本上下文的情况下预测将源语言文本从第一语言转换为第二语言后得到的文本。

在可能的实现方式中，计算机设备通过主预测器使用编码后的第一词特征向量集合对第二词特征向量集合进行解码处理，得到第一预测翻译文本对应的第一中心词混合双向特征向量。

在可能的实现方式中，步骤201包括如下几个子步骤：

步骤201a，通过主预测器对编码后的第一词特征向量集合和第二词特征向量集合进行解码处理，得到第一预测翻译文本对应的第一中心词双向特征向量集合。

在可能的实现方式中，通过主预测器使用编码后的第一词特征向量集合对第二词特征向量集合进行双向(前向和后向)解码处理，得到第一预测翻译文本对应的第一中心词双向特征向量集合。

在本申请实施例中，第一中心词双向特征向量集合包括第一预测翻译文本中各个词的第一中心词双向特征向量，第一中心词双向特征向量用于表征隐藏状态。

在可能的实现方式中，第一中心词双向特征向量

可以通过如下公式确定：

其中

表示第一预测翻译文本中第m个单词对应的前向特征向量，

表示第一预测翻译文本中第m个单词对应的后向特征向量，m为小于等于n的正整数，n为第一预测翻译文本中包括的单词数量。

步骤201b，将机器翻译文本对应的第一向量集合和第一中心词双向特征向量集合中相同位置的向量进行点乘，得到第三中心词双向特征向量集合。

在本申请实施例中，第一向量集合包括机器翻译文本中的各个词在主预测器包括的隐藏层权重矩阵中对应的第一向量，第三中心词双向特征向量集合包括第一预测翻译文本中各个词的第三中心词双向特征向量，第三中心词双向特征向量用于表征隐藏权重状态。

在可能的实现方式中，第三中心词双向特征向量表示为

第三中心词双向特征向量

可以通过如下公式确定：

其中，h₁表示第一向量，

表示第一中心词双向特征向量。

步骤201c，将第一中心词双向特征向量集合和第三中心词双向特征向量集合中相同位置的向量进行拼接，得到第一中心词混合双向特征向量集合。

在可能的实现方式中，第一中心词混合双向特征向量

可以通过如下公式确定：

其中，

表示第三中心词双向特征向量，

表示第一中心词双向特征向量。

与QEBrain不同的是，本申请实施例在获取中心词的双向表示时不使用中心词左右的词的词特征向量，因为使用这些词特征向量会使模型参数的数量增加一倍，且在预测过程中，因为这些词特征向量产生于预测模块，所以它们的词特征向量可能携带额外的噪声，影响模型表现，所以本申请实施例通过中心词混合双向特征向量来获取中心词的双向表示。

步骤202，通过混合预测器对编码后的第一词特征向量集合和第二词特征向量集合进行解码处理，得到第二预测翻译文本对应的第二中心词混合双向特征向量集合和目标语言句子向量。

在本申请实施例中，第二预测翻译文本是指混合预测器将源语言文本从第一语言转换为第二语言后得到的文本，第二中心词混合双向特征向量集合包括第二预测翻译文本中各个词的第二中心词混合双向特征向量，第二中心词混合双向特征向量用于表征第二预测翻译文本的上下文信息。

在可能的实现方式中，第一预测翻译文本和第二预测翻译文本是两个相同的文本，或者，第一预测翻译文本和第二预测翻译文本是两个不相同的文本，本申请实施例对此不作限定。

在可能的实现方式中，通过混合预测器使用编码后的第一词特征向量集合对第二词特征向量集合进行解码处理，得到第二预测翻译文本对应的第二中心词混合双向特征向量集合和目标语言句子向量。

在可能的实现方式中，步骤202包括如下几个子步骤：

步骤202a，通过混合预测器对编码后的第一词特征向量和第二词特征向量集合进行解码处理，得到第二预测文本对应的第二中心词双向特征向量集合。

在本申请实施例中，第二中心词双向特征向量集合包括第二预测翻译文本中各个词的第二中心词双向特征向量，第二中心词双向特征向量用于表征隐藏状态。

在可能的实现方式中，第二中心词双向特征向量

可以通过如下公式确定：

其中

表示第二预测翻译文本中第m个单词对应的前向特征向量，

表示第二预测翻译文本中第m个单词对应的后向特征向量，m为小于等于n的正整数，n为第二预测翻译文本中包括的单词数量。

步骤202b，将机器翻译文本对应的第二向量集合和第二中心词双向特征向量集合中相同位置的向量进行点乘，得到第四中心词双向特征向量集合。

在本申请实施例中，第二向量集合包括机器翻译文本中的各个词在混合预测器包括的隐藏层权重矩阵中对应的第二向量，第四中心词双向特征向量集合包括第二预测翻译文本中各个词的第四中心词双向特征向量，第四中心词双向特征向量用于表征隐藏权重状态。

在可能的实现方式中，第四中心词双向特征向量表示为

第四中心词双向特征向量

可以通过如下公式确定：

其中，h₂表示第二向量，

表示第二中心词双向特征向量。

步骤202c，将第二中心词双向特征向量集合和第四中心词双向特征向量集合中相同位置的向量进行拼接，得到第二中心词混合双向特征向量集合。

在可能的实现方式中，第二中心词混合双向特征向量

可以通过如下公式确定：

其中，

表示第四中心词双向特征向量，

表示第二中心词双向特征向量。

步骤202d，将第二中心词双向特征向量集合中与第二预测翻译文本的第一个词对应的后向特征向量和与第二预测翻译文本中的最后一个词对应的正向特征向量，确定为目标语言句子向量。

步骤203，根据第一中心词混合双向特征向量集合和第二中心词混合双向特征向量集合，确定目标中心词混合双向特征向量集合。

在可能的实现方式中，计算机设备根据将第一中心词混合双向特征向量、第二词特征向量、第二中心词混合双向特征向量，确定目标中心词混合双向特征向量。示例性地，计算机设备将第一中心词混合双向特征向量、第二词特征向量和第二中心词混合双向特征向量进行连接处理，得到目标中心词混合双向特征向量，目标中心词混合双向特征向量用于表征机器翻译质量估计模型最终确定的预测翻译文本的语义特征。例如，可以通过如下公式确定目标中心词混合双向特征向量：

其中，

表示第一中心词混合双向特征向量，

表示第二中心词混合双向特征向量，t_m表示第二词特征向量，

表示目标中心词混合双向特征向量。

在示意性实施例中，机器翻译质量估计参数可以通过如下方式确定：

第一、根据第二中心词双向特征向量集合和第二词特征向量集合，确定错误匹配特征向量集合。

在本申请实施例中，错误匹配特征向量集合包括至少一个错误匹配特征向量，错误匹配特征向量用于表征第二预测翻译文本与机器翻译文本之间的错误匹配信息。

在可能的实现方式中，通过logit函数分别对第二中心词双向特征向量和第二词特征向量进行处理，得到logit处理后的第二中心词双向特征向量和logit处理后的第二词特征向量。根据logit处理后的第二中心词双向特征向量和logit处理后的第二词特征向量，得到错误匹配特征向量。例如，将logit处理后的第二中心词双向特征向量、logit处理后的第二词特征向量、logit处理后的第二中心词双向特征向量与logit处理后的第二词特征向量的差值进行拼接处理，得到错误匹配特征向量。

第二、通过估计模块对错误匹配特征向量集合和目标中心词混合双向特征向量集合进行处理，得到中间状态向量。

在本申请实施例中，中间状态向量用于表征机器翻译文本作为源语言文本的翻译文本时的句子级别翻译质量。

在可能的实现方式中，通过BiLSTM(Bidirectional Long-Term Short-TermMemory，双向长短期记忆神经网络)对错误匹配特征向量集合和目标中心词混合双向特征向量集合进行处理，得到中间状态向量，中间状态向量mem可以通过如下公式确定：

其中，f表示错误匹配特征向量集合，

表示目标中心词混合双向特征向量集合。

第三、通过估计模块对中间状态向量和对齐表示参数进行处理，得到机器翻译质量估计参数。

在可能的实现方式中，预测模块还包括源语言正则单元。对齐表示参数可以通过如下方式确定：通过源语言正则单元中的全连接层(FCN，Fully-Connected Network)对源语言句子向量和目标语言句子向量进行处理，得到对齐表示参数。对齐表示参数X可以通过如下公式确定：X＝FCN([tsv；ssv])；其中，tsv表示低维映射处理后的目标语言句子向量，ssv表示低维映射处理后的源语言句子向量。

在可能的实现方式中，机器翻译质量估计参数

通过如下公式确定：

其中，φ表示激活函数。示例性地，激活函数可以根据机器翻译质量估计参数的取值范围确定，例如，机器翻译质量估计参数的取值范围为0～1，则选择计算结果为0～1的激活函数计算机器翻译质量估计参数。

在可能的实现方式中，计算机设备通过估计模块对中间状态向量、对齐表示参数和人为特征向量进行处理，得到机器翻译质量估计参数。人为特征向量还可以称之为统计特征向量。

综上所述，本申请实施例提供的技术方案中，由于主预测器是通过平行语料训练完成的，混合预测器是通过平行语料结合带噪声数据训练完成的，所以主预测器和混合预测器提取的中心词混合双向特征向量更加具有鲁棒性，同时也使得错误匹配特征向量更具有鲁棒性，从而提高了机器翻译质量估计参数的准确度。

在示意性实施例中，在计算机设备调用机器翻译质量估计模型之前，需要先对机器翻译质量估计模型进行训练，得到完成训练的机器翻译质量估计模型，然后计算机设备通过该完成训练的机器翻译质量估计模型对源语言文本和机器翻译文本进行处理，得到机器翻译质量估计参数。

如图3所示，其示出了本申请一个实施例提供的机器翻译质量估计模型的示意图，该机器翻译质量估计模型300包括预测模块310和估计模块320。预测模块310包括编码器311、主预测器312、混合预测器313、源语言正则单元314和噪音正则单元315。估计模块320还可以称之为估计器。在可能的实现方式中，预测模块310中还包括词嵌入集合316。示例性地，本申请实施例提供的机器翻译质量估计模型还可以称之为NSRQE(Noise-and Source-Regularized Predictor-Estimator for Quality Estimation，基于源语言正则与噪音正则的机器翻译质量估计)模型。另外，对图3中的英文单词进行一下解释说明：SR(ShiftRight，向右移)；RSL(Reverse Shift Left，翻转向左移)；src(source，源)用来表示源语言文本；tgt(target，目标)用来表示机器翻译文本；Emb Table(Embdeding Table，词嵌入表格)是词嵌入集合的一种表现形式；PAD(PADding，填充)，其填充的全是0的数；Hand-crafted features用于表示人为特征向量；categorial logit vectors用于表示第二中心词双向特征向量。

如图4所示，计算机设备可通过如下步骤对机器翻译质量估计模型进行训练：

步骤401，根据目标损失函数对预测模块进行训练，得到完成训练的预测模块。

在本申请实施例中，目标损失函数是根据主预测器的第一损失函数、混合预测器的第二损失函数、源语言正则单元的第三损失函数和噪音正则单元的第四损失函数确定的。示例性地，将第一损失函数、第二损失函数、第三损失函数和第四损失函数之和的平均数确定为目标损失函数。示例性地，计算机设备通过最小化目标损失函数对预测模块进行训练，得到完成训练的预测模块。

计算机设备同时对主预测器、混合预测器、源语言正则单元和噪音正则单元进行训练，得到完成训练的预测模块。

步骤402，根据估计器输出的预测机器翻译质量估计参数对估计器进行训练，得到完成训练的估计器。

在可能的实现方式中，计算机设备根据预测机器翻译质量估计参数的均方误差，对估计模块进行训练，得到完成训练的估计模块。

步骤403，根据完成训练的预测模块和完成训练的估计器，得到完成训练的机器翻译质量估计模型。

计算机设备完成对预测模块和估计模块的训练后，即可得到完成训练的机器翻译质量估计模型。

在示意性实施例中，主预测器的第一损失函数通过如下方式确定：

第一、获取训练数据。

在本申请实施例中，训练数据包括至少一个训练源语言文本和至少一个训练翻译文本，至少一个训练翻译文本包括与至少一个训练源语言文本中的一部分训练源语言文本对应的标准训练翻译文本，以及与至少一个训练源语言文本中的另一部分训练源语言文本对应的带噪声训练翻译文本。

在本申请实施例中，带噪声训练翻译文本是根据标准翻译文本生成的，也即，带噪声训练翻译文本是标准翻译文本的噪声版本。在可能的实现方式中，带噪声训练翻译文本通过如下方式确定：

1、从平行语料数据中抽取一个句子对，随机选择标准翻译文本的位置进行插入字符、删除字符和替换字符等操作，生成标准翻译文本的噪声版本。

平行语料数据是指包括至少一个源语言文本及其标准翻译文本的数据集。在可能的实现方式中，本申请实施例中的平行语料数据中的源语言文本与标准翻译文本的长度比在1/3～3之间。

2、若标准翻译文本的噪声版本和标准翻译文本之间的编辑距离小于目标倍数的标准翻译文本长度，则将噪声样本设置为第一类型的训练数据。

编辑距离包括levenshtein距离，levenshtein距离指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符、插入一个字符和删除一个字符。

3、若标准翻译文本的噪声版本和平行语料之间的编辑距离不小于目标倍数的平行语料译文长度，则将噪声样本设置为第二类型的训练数据。

在可能的实现方式中，目标倍数为0.3。第一类型的训练数据用于训练主预测器、混合预测器、噪音正则单元、源语言正则单元。第二类型的训练数据用于训练源语言正则单元，因为无法重构第二类型的训练数据来生成主预测器、混合预测器和噪音正则单元的鲁棒性特征。

第二、从词嵌入集合中确定训练源语言文本对应的第三词特征向量集合和训练翻译文本对应的第四词特征向量集合。

第三词特征向量集合中包括训练源语言文本中各个词的第三词特征向量，第三词特征向量用于唯一表征该训练源语言文本中的词。

第四词特征向量集合中包括训练翻译文本中各个词的第四词特征向量，第四词特征向量用于唯一表征该训练翻译文本中的词。在可能的实现方式中，第四词特征向量包括前向词特征向量和后向词特征向量。

有关此步骤的介绍说明可参见上文实施例，此处不再赘述。

第三、通过编码器对第三词特征向量集合进行编码处理，得到训练源语言文本对应的训练源语言句子向量和编码后的第三词特征向量集合。

训练源语言句子向量用于表征训练源语言文本的语义特征。在可能的实现方式中，计算机设备根据编码器中的起始符号[SOS(Start Of Sentence，句子的开始)]对应的编码器隐状态得到训练源语言句子向量。

有关此步骤的介绍说明可参见上文实施例，此处不再赘述。

第四、通过主预测器对编码后的第三词特征向量集合和第四特征向量集合进行解码处理，得到第三预测翻译文本对应的第五中心词双向特征向量集合。

在本申请实施例中，第三预测翻译文本是指主预测器预测将训练源语言文本从第一语言转换为第二语言后得到的文本，第五中心词双向特征向量集合包括第三预测翻译文本中各个词的第五中心词双向特征向量。

有关此步骤的介绍说明可参见上文实施例，此处不再赘述。

第五、通过第一全连接层将第五中心词双向特征向量映射到第一预测单词分布。

在本申请实施例中，第一预测单词分布用于表征主预测器预测的训练翻译文本中每个词各自的翻译概率分布。

第六、根据第一预测单词分布、第三预测翻译文本中包括的单词数量，确定主预测器的第一损失函数。

在可能的实现方式中，第一损失函数

可通过如下公式确定：

其中，n表示第三预测翻译文本中包括的单词数量，m为当前词语在第三预测翻译文本中的位置，o_m为当前词语对应的标准词的词标识，

表示第一预测单词分布。

第三预测翻译文本中包括的单词数量也可以称之为第三预测翻译文本的长度。

在可能的实现方式中，第一损失函数

可通过如下公式确定：

其中，d_m是单词级别的二分类标记，若m位置的中心词是噪声词则d_m为0；反之d_m为1。d_m在获取训练数据的时候是预先设定的。

通过在计算第一损失函数的时候加入d_m，实现了主预测器对非噪声词进行训练，而对噪声词不进行训练。

在示意性实施例中，混合预测器的第二损失函数通过如下方式确定：

第一、通过混合预测器对编码后的第三词特征向量集合和第四特征向量集合进行解码处理，得到训练目标语言句子向量和第四预测翻译文本对应的第六中心词双向特征向量集合。

在本申请实施例中，第四预测翻译文本是指混合预测器预测将训练源语言文本从第一语言转换为第二语言后得到的文本，第六中心词双向特征向量集合包括第四预测翻译文本中各个词的第六中心词双向特征向量。

有关此步骤的介绍说明可参见上文实施例，此处不再赘述。

第二、通过第二全连接层将第六中心词双向特征向量映射到第二预测单词分布。

在本申请实施例中，第二预测单词分布用于表征混合预测器预测的训练翻译文本中每个词各自的翻译概率分布。

第三、根据第二预测单词分布、第四预测翻译文本中包括的单词数量，确定混合预测器的第二损失函数。

在可能的实现方式中，第二损失函数

可通过如下公式确定：

其中，n表示第四预测翻译文本中包括的单词数量，m为当前词语在第四预测翻译文本中的位置，o_m为当前词语对应的标准词的词标识，

表示第二预测单词分布。

第四预测翻译文本中包括的单词数量也可以称之为第四预测翻译文本的长度。

在示意性实施例中，噪音正则单元的第四损失函数通过如下步骤确定：

第一、根据主预测器输出的第五中心词双向特征向量集合和混合预测器输出的第六中心词双向特征向量集合，确定训练目标中心词混合双向特征向量集合。

训练目标中心词混合双向特征向量集合中包括至少一个训练目标中心词混合双向特征向量，训练目标中心词混合双向特征向量用于表征预测模块预测将训练源语言文本从第一语言转换为第二语言后得到的文本的上下文信息。

有关训练目标中心词混合双向特征向量集合的确定方式可参见上文实施例，此处不再赘述。

噪音正则单元还可以称之为鲁棒性正则单元。

第二、确定训练目标中心词混合双向特征向量集合中各个训练目标中心词混合双向特征向量的概率参数。

主预测器的训练数据为平行语料，而混合预测器除了与主预测器同步使用平行语料进行训练之外，还加入了伪造的带噪声数据(即源语言文本及其对应的非标准翻译的目标文本)进行训练，由于主预测器和混合预测器使用不同的数据进行训练，所以主预测器和混合预测器可以分别感知不同类型的数据，所以可以通过对齐主预测器和混合预测器对这两种不同类型数据的感知来确定噪声词。

将主预测器和混合预测器各自提取到的中心词混合双向特征向量连接并计算训练目标中心词混合双向特征向量集合，使用全连接层将训练目标中心词混合双向特征向量集合进行堆叠处理，然后再通过softmax概率函数来确定当前位置为m的中心词是否带有噪声。

在本申请实施例中，概率参数用于表征训练翻译文本中与训练目标中心词混合双向特征向量对应的中心词是噪声词的概率。

在可能的实现方式中，概率参数

可通过如下公式确定：

c＝0或1；

其中，V_m表示使用全连接层将训练目标中心词混合双向特征向量集合进行堆叠处理后的数据，V_m是一个二维数据，c为中心词(第m个词语)是否为噪声词的标记参数，c＝0表示噪声词，c＝1表示非噪声词。

在可能的实现方式中，可以分别计算c＝0和c＝1时的概率参数，选取较大的概率参数作为训练目标中心词混合双向特征向量的概率参数。

第三、根据各个训练目标中心词混合双向特征向量的概率参数，确定噪音正则单元的第四损失函数。

在可能的实现方式中，第四损失函数CE₁通过如下公式确定：

其中，d_m是单词级别的二分类的标记，若m位置的中心词是噪声词则d_m为0；反之d_m为1，n表示预测文本包括的词语个数。

通过最小化第四损失函数，主预测器和混合预测器可以产生两种类型数据(带噪声数据和不带噪声数据)的区别表示，即能减小或缓解预测模块训练过程与应用过程中数据存在的分歧，该分歧是由于在训练过程中使用了大量的标准的平行语料，但是在应用阶段输入的却是相对少量的源语言与需要后编辑(带有噪声)的机器译文句子对而导致的。本申请实施例通过在第一损失函数和第四损失函数中加入d_m，从而实现主预测器仅对平行语料进行训练。

在示意性实施例中，源语言正则单元的第三损失函数通过如下步骤确定：

第一、确定训练源语言句子向量和训练目标语言句子向量之间的相似度。

在可能的实现方式中，由于训练源语言句子向量和训练目标语言句子向量的维度不一定相同，所以需要对训练源语言句子向量和训练目标语言句子向量进行映射处理，该映射处理可以是低维映射处理，然后再求相似度。例如，对训练源语言句子向量和训练目标语言句子向量分别进行映射处理，得到相同维度的映射后的训练源语言句子向量和映射后的训练目标语言句子向量；确定映射后的训练源语言句子向量和映射后的训练目标语言句子向量之间的相似度。

在可能的实现方式中，计算机设备确定训练源语言句子向量和训练目标语言句子向量之间的余弦相似度，该余弦相似度sim可通过如下公式确定：

其中，ssv表示映射处理后的训练源语言句子向量，tsv表示映射处理后的训练目标语言句子向量，dot表示点乘运算，|ssv|表示ssv的模，|tsv|表示tsv的模，σ为正数，σ的取值范围包括0～10-³。σ是为了防止上述公式分母为0。

通过将训练数据设置为包括标准训练翻译文本和带噪声训练翻译文本，实现对于给定的训练源语言文本及其对应的训练源语言句子向量，标准训练翻译文本所产生的TSV比带噪声训练翻译文本产生的TSV有更高的与SSV的余弦相似度sim。

第二、根据相似度和训练数据的大小，确定源语言正则单元的间隔损失函数。

在可能的实现方式中，间隔损失函数L_sim通过如下公式确定：

其中，B表示训练数据的批大小(batch size)，α是用于调整不同噪声程度样本最小间隔的参数，I_b为小批次样本(mini-batch)中第b个样本的二元噪声指示参数，I_b为1说明是标准训练翻译文本，I_b为0说明是带噪声训练翻译文本，ReLU(Rectified Linear Unit，线性整流函数)表示激活函数。

第三、根据训练源语言文本和训练翻译文本之间的相似性分布和噪声指示参数，确定源语言正则单元的交叉熵损失函数。

每一个样本的相似性分布

可通过如下公式确定：

其中，x是X的每个分量的表示，X＝FCN([tsv；ssv])，ssv表示映射处理后的训练源语言句子向量，tsv表示映射处理后的训练目标语言句子向量，X是二维向量。

交叉熵损失函数可通过如下公式确定：

其中，w是句子级别的噪声指示参数，当w为0时表示句子带噪声；当w为1时表示句子不带噪声。

CE₂用于防止在早期的训练中FCN^SSV(SSV对应的全连接层)或FCN^TSV(TSV对应的全连接层)出现梯度为0的情况。CE₂也可以称之为二分类损失函数，其可以通过检查翻译是否包含有噪声器来补充间隔损失函数L_sim。

第四、根据源语言正则单元的间隔损失函数和源语言正则单元的交叉熵损失函数，确定源语言正则单元的第三损失函数。

源语言正则单元，用于对带噪声训练翻译文本中训练源语言文本与第四预测翻译文本之间的语义相似度建模。

在本申请实施例中，将间隔损失函数和交叉熵损失函数之和作为源语言正则单元的第三损失函数。

请参考表1，其示出了NSRQE模型(左)与QEBrain模型(右)在各英语-德语QE数据集上的实验结果对比：

表1

如表1所示，在NSQRE模型(本申请实施例提供的机器翻译质量估计模型)与QEBrain模型通过各英语-德语QE数据集在SMT(Statistical MachineTranslation，基于统计的机器翻译)模型和NMT(Neural Machine Translation，基于神经网络的机器翻译)模型上的实验结果对比中，无论有没有错误匹配特征向量f的参与，NSRQE模型均较QEBrain模型取得更高的Pearson(皮尔逊)相关系数、更低的MAE(Mean Absolute Error，平均绝对误差)、更低的RMSE(Root Mean Square Error，均方根误差)，也就是说NSRQE模型得益于源语言正则单元与噪音正则单元，全面提升了句子级机器翻译质量估计参数的准确度。需要说明的是，表格中的“w/f”是代表有f(with f)，“w/o f”是代表没有f(withoutf)，“w/k”是代表中心词混合双向特征向量

“/”是代表或的意思。

请参考表2，其示出了NSRQE模型(左)与QEBrain模型(右)模型鲁棒性和稳定性评价实验结果对比：

表2

表2给出了NSRQE模型与QEBrain模型鲁棒性和稳定性评价试验结果的对比。在QE数据中机器翻译较差(拥有更高的HTER值的翻译，即整个数据集的HTER平均值较高)的情况下，NSRQE模型得到的Pearson相关系数的差值比QEBrain模型的更低，说明NSQRE模型受机器翻译模型好坏的影响小，更能反映机器翻译系统的真实水平，比QEBrain模型更加稳定，也说明了噪音正则单元和源语言正则单元这两个单元能感受到机器翻译文本中噪声的存在。

表2中还对比有和无错误匹配特征f参与的两种情况下，NSRQE模型与QEBrain模型各自的表现，可以发现错误匹配特征的加入使得NSRQE模型表现提升明显，而加入错误匹配特征f的QEBrain模型较没有错误匹配特征f的QEBrain模型区别较小，说明了NSQRE模型更能学习到错误匹配特征f，说明本申请实施例中的机器翻译质量估计模型，使得错误匹配特征f更加有效。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图5，其示出了本申请一个实施例提供的机器翻译质量估计装置的框图，该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置500可以包括：文本获取模块510、模型调用模块520、向量确定模块530、向量编码模块540和参数确定模块550。

文本获取模块510，用于获取源语言文本和机器翻译文本，所述源语言文本是指未进行机器翻译时的第一语言的文本，所述机器翻译文本是指对所述源语言文本进行机器翻译后得到的将所述第一语言转换为第二语言的文本，所述第一语言不同于所述第二语言；

模型调用模块520，用于调用机器翻译质量估计模型，所述机器翻译质量估计模型包括预测模块和估计模块；

向量确定模块530，用于从所述预测模块中的词嵌入集合中确定所述源语言文本对应的第一词特征向量集合和所述机器翻译文本对应的第二词特征向量集合；

向量编码模块540，用于通过所述预测模块对所述第一词特征向量集合进行编码处理，得到所述源语言文本对应的源语言句子向量和编码后的所述第一词特征向量集合；

所述向量确定模块530，还用于通过所述预测模块对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行处理，得到目标语言句子向量和目标中心词混合双向特征向量集合；

参数确定模块550，用于通过所述预测模块对所述源语言句子向量和所述目标语言句子向量进行处理，得到对齐表示参数，所述对齐表示参数用于表征所述源语言句子向量和所述目标语言句子向量之间的相似度；

所述参数确定模块550，还用于通过所述估计模块对所述对齐表示参数和所述目标中心词混合双向特征向量集合进行处理，得到机器翻译质量估计参数。

在示意性实施例中，所述预测模块包括主预测器和混合预测器；

所述向量确定模块530，包括：向量解码单元和向量确定单元(图中未示出)。

向量解码单元，用于通过所述主预测器对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行解码处理，得到第一预测翻译文本对应的第一中心词混合双向特征向量集合，所述第一预测翻译文本是指所述主预测器预测将所述源语言文本从所述第一语言转换为所述第二语言后得到的文本，所述第一中心词混合双向特征向量集合包括所述第一预测翻译文本中各个词的第一中心词混合双向特征向量；

所述向量解码单元，还用于通过所述混合预测器对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行解码处理，得到第二预测翻译文本对应的第二中心词混合双向特征向量集合和所述目标语言句子向量，所述第二预测翻译文本是指所述混合预测器将所述源语言文本从所述第一语言转换为所述第二语言后得到的文本，所述第二中心词混合双向特征向量集合包括所述第二预测翻译文本中各个词的第二中心词混合双向特征向量；

向量确定单元，用于根据所述第一中心词混合双向特征向量集合和所述第二中心词混合双向特征向量集合，确定所述目标中心词混合双向特征向量集合。

在示意性实施例中，所述向量解码单元，用于：

通过所述主预测器对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行解码处理，得到所述第一预测翻译文本对应的第一中心词双向特征向量集合，所述第一中心词双向特征向量集合包括所述第一预测翻译文本中各个词的第一中心词双向特征向量，所述第一中心词双向特征向量用于表征隐藏状态；

将所述机器翻译文本对应的第一向量集合和所述第一中心词双向特征向量集合中相同位置的向量进行点乘，得到第三中心词双向特征向量集合，所述第一向量集合包括所述机器翻译文本中的各个词在所述主预测器包括的隐藏层权重矩阵中对应的第一向量，所述第三中心词双向特征向量集合包括所述第一预测翻译文本中各个词的第三中心词双向特征向量，所述第三中心词双向特征向量用于表征隐藏权重状态；

将所述第一中心词双向特征向量集合和所述第三中心词双向特征向量集合中相同位置的向量进行拼接，得到所述第一中心词混合双向特征向量集合。

在示意性实施例中，所述向量解码单元，用于：

通过所述混合预测器对编码后的所述第一词特征向量和所述第二词特征向量集合进行解码处理，得到所述第二预测文本对应的第二中心词双向特征向量集合，所述第二中心词双向特征向量集合包括所述第二预测翻译文本中各个词的第二中心词双向特征向量，所述第二中心词双向特征向量用于表征隐藏状态；

将所述机器翻译文本对应的第二向量集合和所述第二中心词双向特征向量集合中相同位置的向量进行点乘，得到第四中心词双向特征向量集合，所述第二向量集合包括所述机器翻译文本中的各个词在所述混合预测器包括的隐藏层权重矩阵中对应的第二向量，所述第四中心词双向特征向量集合包括所述第二预测翻译文本中各个词的第四中心词双向特征向量，所述第四中心词双向特征向量用于表征隐藏权重状态；

将所述第二中心词双向特征向量集合和所述第四中心词双向特征向量集合中相同位置的向量进行拼接，得到所述第二中心词混合双向特征向量集合；

将所述第二中心词双向特征向量集合中与所述第二预测翻译文本的第一个词对应的后向特征向量和与所述第二预测翻译文本中的最后一个词对应的正向特征向量，确定为所述目标语言句子向量。

在示意性实施例中，所述参数确定模块550，用于：

根据所述第二中心词双向特征向量集合和所述第二词特征向量集合，确定错误匹配特征向量集合，所述错误匹配特征向量集合包括至少一个错误匹配特征向量，所述错误匹配特征向量用于表征所述第二预测翻译文本与所述机器翻译文本之间的错误匹配信息；

通过所述估计模块对所述错误匹配特征向量集合和所述目标中心词混合双向特征向量集合进行处理，得到中间状态向量，所述中间状态向量用于表征所述机器翻译文本作为所述源语言文本的翻译文本时的句子级别翻译质量；

通过所述估计模块对所述中间状态向量和所述对齐表示参数进行处理，得到所述机器翻译质量估计参数。

在示意性实施例中，所述预测模块还包括源语言正则单元；

所述参数确定模块550，用于：

通过所述源语言正则单元中的全连接层对所述源语言句子向量和所述目标语言句子向量进行处理，得到所述对齐表示参数。

在示意性实施例中，所述装置500，还包括：模型训练模块(图中未示出)。

所述模型训练模块，用于：

对所述机器翻译质量估计模型进行训练，得到完成训练的所述机器翻译质量估计模型。

在示意性实施例中，所述预测模块包括编码器、主预测器、混合预测器、源语言正则单元和噪音正则单元；

所述模型训练模块，用于：

根据目标损失函数对所述预测模块进行训练，得到完成训练的所述预测模块，所述目标损失函数是根据所述主预测器的第一损失函数、所述混合预测器的第二损失函数、所述源语言正则单元的第三损失函数和所述噪音正则单元的第四损失函数确定的；

根据所述估计模块输出的预测机器翻译质量估计参数对所述估计模块进行训练，得到完成训练的所述估计模块；

根据完成训练的所述预测模块和完成训练的所述估计模块，得到完成训练的所述机器翻译质量估计模型。

在示意性实施例中，所述模型训练模块，还用于：

获取训练数据，所述训练数据包括至少一个训练源语言文本和至少一个训练翻译文本，所述至少一个训练翻译文本包括与所述至少一个训练源语言文本中的一部分训练源语言文本对应的标准训练翻译文本，以及与所述至少一个训练源语言文本中的另一部分训练源语言文本对应的带噪声训练翻译文本；

从所述词嵌入集合中确定所述训练源语言文本对应的第三词特征向量集合和所述训练翻译文本对应的第四词特征向量集合；

通过所述编码器对所述第三词特征向量集合进行编码处理，得到所述训练源语言文本对应的训练源语言句子向量和编码后的所述第三词特征向量集合；

通过所述主预测器对编码后的所述第三词特征向量集合和所述第四特征向量集合进行解码处理，得到第三预测翻译文本对应的第五中心词双向特征向量集合，所述第三预测翻译文本是指所述主预测器预测将所述训练源语言文本从所述第一语言转换为所述第二语言后得到的文本，所述第五中心词双向特征向量集合包括所述第三预测翻译文本中各个词的第五中心词双向特征向量；

通过第一全连接层将所述第五中心词双向特征向量映射到第一预测单词分布；

根据所述第一预测单词分布、所述第三预测翻译文本中包括的单词数量，确定所述主预测器的第一损失函数。

在示意性实施例中，所述模型训练模块，还用于：

通过所述混合预测器对编码后的所述第三词特征向量集合和所述第四特征向量集合进行解码处理，得到训练目标语言句子向量和第四预测翻译文本对应的第六中心词双向特征向量集合，所述第四预测翻译文本是指所述混合预测器预测将所述训练源语言文本从所述第一语言转换为所述第二语言后得到的文本，所述第六中心词双向特征向量集合包括所述第四预测翻译文本中各个词的第六中心词双向特征向量；

通过第二全连接层将所述第六中心词双向特征向量映射到第二预测单词分布；

根据所述第二预测单词分布、所述第四预测翻译文本中包括的单词数量，确定所述混合预测器的第二损失函数。

在示意性实施例中，所述模型训练模块，还用于：

根据所述主预测器输出的第五中心词双向特征向量集合和所述混合预测器输出的第六中心词双向特征向量集合，确定训练目标中心词混合双向特征向量集合；

确定所述训练目标中心词混合双向特征向量集合中各个训练目标中心词混合双向特征向量的概率参数，所述概率参数用于表征所述训练翻译文本中与所述训练目标中心词混合双向特征向量对应的中心词是噪声词的概率；

根据所述各个训练目标中心词混合双向特征向量的概率参数，确定所述噪音正则单元的第四损失函数。

在示意性实施例中，所述模型训练模块，还用于：

确定所述训练源语言句子向量和所述训练目标语言句子向量之间的相似度；

根据所述相似度和所述训练数据的大小，确定所述源语言正则单元的间隔损失函数；

根据训练源语言文本和训练翻译文本之间的相似性分布和噪声指示参数，确定所述源语言正则单元的交叉熵损失函数；

根据所述源语言正则单元的间隔损失函数和所述源语言正则单元的交叉熵损失函数，确定所述源语言正则单元的第三损失函数。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图6，其示出了本申请一个实施例提供的计算机设备的结构框图。

本申请实施例中的计算机设备可以包括一个或多个如下部件：处理器610和存储器620。

处理器610可以包括一个或者多个处理核心。处理器610利用各种接口和线路连接整个计算机设备内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行计算机设备的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统和应用程序等；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块芯片进行实现。

可选地，处理器610执行存储器620中的程序指令时实现上述各个方法实施例提供的方法。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器620包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等；存储数据区可存储根据计算机设备的使用所创建的数据等。

上述计算机设备的结构仅是示意性的，在实际实现时，计算机设备可以包括更多或更少的组件，比如：显示屏等，本实施例对此不作限定。

本领域技术人员可以理解，图6中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由计算机设备的处理器加载并执行以实现上述机器翻译质量估计方法实施例中的各个步骤。

在示例性实施例中，提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述机器翻译质量估计方法。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种机器翻译质量估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预测模块包括主预测器和混合预测器；

所述通过所述预测模块对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行处理，得到目标语言句子向量和目标中心词混合双向特征向量集合，包括：

通过所述主预测器对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行解码处理，得到第一预测翻译文本对应的第一中心词混合双向特征向量集合，所述第一预测翻译文本是指所述主预测器预测将所述源语言文本从所述第一语言转换为所述第二语言后得到的文本，所述第一中心词混合双向特征向量集合包括所述第一预测翻译文本中各个词的第一中心词混合双向特征向量；

通过所述混合预测器对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行解码处理，得到第二预测翻译文本对应的第二中心词混合双向特征向量集合和所述目标语言句子向量，所述第二预测翻译文本是指所述混合预测器将所述源语言文本从所述第一语言转换为所述第二语言后得到的文本，所述第二中心词混合双向特征向量集合包括所述第二预测翻译文本中各个词的第二中心词混合双向特征向量；

根据所述第一中心词混合双向特征向量集合和所述第二中心词混合双向特征向量集合，确定所述目标中心词混合双向特征向量集合。

3.根据权利要求2所述的方法，其特征在于，所述通过所述主预测器对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行解码处理，得到第一预测翻译文本对应的第一中心词混合双向特征向量集合，包括：

4.根据权利要求2所述的方法，其特征在于，所述通过所述混合预测器对编码后的所述第一词特征向量集合和所述第二词特征向量集合进行解码处理，得到第二预测翻译文本对应的第二中心词混合双向特征向量集合和所述目标语言句子向量，包括：

5.根据权利要求2所述的方法，其特征在于，所述通过所述估计模块对所述对齐表示参数和所述目标中心词混合双向特征向量集合进行处理，得到机器翻译质量估计参数，包括：

6.根据权利要求1所述的方法，其特征在于，所述预测模块还包括源语言正则单元；

所述通过所述预测模块对所述源语言句子向量和所述目标语言句子向量进行处理，得到对齐表示参数，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述调用机器翻译质量估计模型之前，还包括：

8.根据权利要求7所述的方法，其特征在于，所述预测模块包括编码器、主预测器、混合预测器、源语言正则单元和噪音正则单元；

所述对所述机器翻译质量估计模型进行训练，得到完成训练的所述机器翻译质量估计模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述根据目标损失函数对所述预测模块进行训练，得到完成训练的所述预测模块之前，还包括：

10.根据权利要求9所述的方法，其特征在于，所述根据目标损失函数对所述预测模块进行训练，得到完成训练的所述预测模块之前，还包括：

11.根据权利要求10所述的方法，其特征在于，所述根据目标损失函数对所述预测模块进行训练，得到完成训练的所述预测模块之前，还包括：

12.根据权利要求10所述的方法，其特征在于，所述根据目标损失函数对所述预测模块进行训练，得到完成训练的所述预测模块之前，还包括：

13.一种机器翻译质量估计装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至12任一项所述的机器翻译质量估计方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至12任一项所述的机器翻译质量估计方法。