CN111652004B

CN111652004B - 一种用于机器翻译系统的融合方法及装置

Info

Publication number: CN111652004B
Application number: CN202010388547.9A
Authority: CN
Inventors: 刘洋; 孙茂松; 黄轩成; 张嘉成; 谭知行; 栾焕博
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2022-07-05
Anticipated expiration: 2040-05-09
Also published as: CN111652004A

Abstract

本发明实施例提供一种用于机器翻译系统的融合方法及装置。该方法包括：获取源语句和若干待融合翻译草稿，建立机器翻译系统融合任务模型；在机器翻译系统融合任务模型中定义编码器，得到源语句编码结果和翻译草稿编码结果，并作为解码器的输入，得到目标翻译概率；基于目标翻译概率，引入投票机制，使若干待融合翻译草稿中的词进行相互投票，得到出现在若干待融合翻译草稿中的高频词；综合所有高频词结果，得到目标翻译结果。本发明实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中，既能更好地综合各翻译系统的翻译结果，同时使用端到端神经网络方法能降低错误传播，从而改善翻译的最终质量，具有良好的实用性。

Description

一种用于机器翻译系统的融合方法及装置

技术领域

本发明涉及机器翻译技术领域，尤其涉及一种用于机器翻译系统的融合方法及装置。

背景技术

随着国际交流的日益深入，人们对语言翻译的需求与日俱增。然而，世界上存在的语言种类繁多、各有特征、形式灵活，使得语言的自动处理以及包括语言之间的机器翻译，成为至关重要的技术。

机器翻译是指计算机在不需要人类指导的情况下进行某一特定语言到另一语言的文本翻译。而机器翻译的系统融合旨在将多个机器翻译系统的翻译进行融合，得到更好的翻译结果，如图1所示，不同翻译系统存在各自的缺陷，翻译可能有各种各样的错误，系统融合的目的在于将各个翻译综合，来得到更好的翻译结果。而要将各个翻译综合，直接有效的方法是保留各个翻译中出现得多的片段，抛弃仅有极个别翻译中出现的片段，即“投票”机制。

目前的机器翻译系统融合主要有两种做法，一种是基于统计模型的方法，使用投票机制融合多个机器翻译系统的翻译结果；另一种是基于深度神经网络模型的方法，使用端到端序列到序列建模的方法实现系统融合。这两种方法各有其缺点，统计模型的方法未使用端到端建模方法，存在错误传播问题；神经网络模型的方法不包含投票机制，融合的翻译效果有限。

因此，如何在基于神经网络模型的系统融合方法中引入投票机制是亟待解决的问题。

发明内容

本发明实施例提供一种用于机器翻译系统的融合方法及装置，用以解决现有技术中存在的问题。

第一方面，本发明实施例提供一种用于机器翻译系统的融合方法，包括：

获取源语句和若干待融合翻译草稿；

基于所述源语句和所述若干待融合翻译草稿，建立机器翻译系统融合任务模型；

在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器，得到源语句编码结果和翻译草稿编码结果；

以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入，得到目标翻译概率；

基于所述目标翻译概率，引入投票机制，使所述若干待融合翻译草稿中的词进行相互投票，得到出现在所述若干待融合翻译草稿中的高频词；

综合所有高频词结果，得到目标翻译结果。

第二方面，本发明实施例提供一种用于机器翻译系统的融合装置，包括：

获取模块，用于获取源语句和若干待融合翻译草稿；

建立模块，用于基于所述源语句和所述若干待融合翻译草稿，建立机器翻译系统融合任务模型；

编码模块，用于在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器，得到源语句编码结果和翻译草稿编码结果；

解码模块，用于以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入，得到目标翻译概率；

投票模块，用于基于所述目标翻译概率，引入投票机制，使所述若干待融合翻译草稿中的词进行相互投票，得到出现在所述若干待融合翻译草稿中的高频词；

处理模块，用于综合所有高频词结果，得到目标翻译结果。

第三方面，本发明实施例提供一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述用于机器翻译系统的融合方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现任一项所述用于机器翻译系统的融合方法的步骤。

本发明实施例提供的用于机器翻译系统的融合方法及装置，通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中，既能更好地综合各翻译系统的翻译结果，同时使用端到端神经网络方法能降低错误传播，从而改善翻译的最终质量，具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的机器翻译系统融合示意图；

图2为本发明实施例提供的一种用于机器翻译系统的融合方法流程图；

图3为本发明实施例提供的基于投票机制的系统融合方法架构图；

图4为本发明实施例提供的一个投票机制的示例图；

图5为本发明实施例提供的一种用于机器翻译系统的融合装置结构图；

图6为本发明实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术中存在的翻译效果较差的问题，提供一种对投票机制建模的系统融合方法，高效准确的综合各个机器系统的翻译结果，得到较为精确的综合翻译结果。

图2为本发明实施例提供的一种用于机器翻译系统的融合方法流程图，如图2所示，包括：

S1，获取源语句和若干待融合翻译草稿；

S2，基于所述源语句和所述若干待融合翻译草稿，建立机器翻译系统融合任务模型；

S3，在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器，得到源语句编码结果和翻译草稿编码结果；

S4，以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入，得到目标翻译概率；

S5，基于所述目标翻译概率，引入投票机制，使所述若干待融合翻译草稿中的词进行相互投票，得到出现在所述若干待融合翻译草稿中的高频词；

S6，综合所有高频词结果，得到目标翻译结果。

具体地，基于待翻译的源语句和经过各机器翻译系统得到的多个待融合翻译草稿，建立一个整体的机器翻译系统融合任务模型，即对求解的问题进行描述，其中，进一步定义了源语句和多个待融合翻译草稿的编码器，得到对应的源语句编码结果和翻译草稿编码结果，再将这两个结果作为解码器的输入，得到输出的目标翻译概率，最后引入投票机制，旨在让翻译草稿中的词相互投票，以此选出翻译草稿中出现得较多的词，达到一定频率的词便作为目标翻译结果的组成词之一，将所有的筛选出的高频词进行组合，便得到目标翻译结果。

本发明实施例通过将投票机制引入基于深度神经网络的机器翻译系统融合方法中，既能更好地综合各翻译系统的翻译结果，同时使用端到端神经网络方法能降低错误传播，从而改善翻译的最终质量，具有良好的实用性。

基于上述实施例，该方法中步骤S2具体包括：

定义x为源语句，

为N个待融合的翻译草稿，

为第n个翻译草稿，

代表第n个翻译草稿的第j个词，y＝y₁…y_K是含有K个词的目标翻译，则所述机器翻译系统融合任务模型为：

其中，y_k是目标翻译的第k个词，y_＜k＝y₁…y_k-1是目标翻译的前缀，θ是模型可学习参数。

具体地，如图3所示，首先对系统融合的整体做一个形式化描述：x代表源语句，

是N个待融合的翻译草稿，其中

是第n个翻译草稿，我们使用

代表第n个翻译草稿的第j个词。y＝y₁…y_K是含有K个词的目标翻译。那么，系统融合任务可以被建模为：

其中y_k是目标翻译的第k个词，y_＜k＝y₁…y_k-1是目标翻译的前缀，θ是模型的可学习参数。

基于上述任一实施例，该方法中步骤S3具体包括：

所述机器翻译系统融合任务模型包含N+1个编码器：

H^src＝Encoder^src(x,θ)

其中，Encoder^src(·)为源语句的编码器，H^src为源语句的编码结果，Encoder^hyp(·)为翻译草稿的编码器，

为第n个翻译草稿编码结果，N个翻译草稿的编码器的可学习参数θ是共享的。

具体地，为了对源语句和翻译草稿进行建模，模型包含N+1个编码器：

H^src＝Encoder^src(x,θ)

其中，Encoder^src(·)是源语句的编码器，H^src是源语句的编码结果，Encoder^hyp(·)是翻译草稿的编码器，

是第n个翻译草稿的编码结果，N个翻译草稿的编码器的可学习参数是共享的。

基于上述任一实施例，该方法中步骤S4具体包括：

以H^src和

为输入，输出所述目标翻译概率：

其中，Decoder(·)为解码器，

为目标翻译的第k个词的向量表示，g(·)为计算生成概率的函数。

基于上述任一实施例，该方法中步骤S5具体包括：

定义所述若干待融合翻译草稿中的词为投票者和候选者；

计算投票者影响力因子和投票者偏好因子，获得所述若干待融合翻译草稿中的每个词获得的票数，并加上所述每个词的自身影响力因子，得到所述每个词作为目标翻译生成词的可能性概率；

将所述概率进行归一化处理，得到归一化可能性概率；

基于所述归一化可能性概率，提取所述归一化可能性概率对应的所述高频词。

其中，所述计算投票者影响力因子和投票者偏好因子，获得所述若干待融合翻译草稿中的每个词获得的票数，并加上所述每个词的自身影响力因子，得到所述每个词作为目标翻译生成词的可能性概率，具体包括：

计算针对翻译草稿中各词的权重：

其中f(·)计算权重，

为第n个翻译草稿的第j个词，e_n,j为未归一化的权重，e_n,j的大小代表第n个翻译草稿的第j个词为下一个出现在目标翻译的词的可能性；

定义投票者与候选者之间的相似度：

其中

为投票者，h_m,i为从翻译草稿的编码

中抽取的向量表示，

为候选者，h_n,j为

的向量表示；

计算所述每个词作为目标翻译生成词的可能性概率：

其中，所述将所述概率进行归一化处理，得到归一化可能性概率，具体包括：

将所述每个词作为目标翻译生成词的可能性概率进行归一化，得到：

具体地，投票机制旨在让翻译草稿中的词相互投票，以此选出翻译草稿中出现得较多的词，此处用一个例子来说明本发明的投票机制，如图4所示，其中，位于每一个机器翻译草稿上方的数字代表影响力数值，下方为偏好数值，在本示例中，当前输入为一个源语句和三个翻译草稿，目标翻译已经翻译了一部分，问题是第5个词应该是什么？翻译草稿中的每个词都有两种身份：投票者(voter)和候选者(candidate)。投票者把“票”投给候选者。例如，在图4的例子中，此时，第2个翻译草稿中的“yesterday”是候选者，其他翻译草稿中的所有词为投票者，而“票”的大小取决于两个方面：一是投票者的影响力(influence)，代表投票者重要性，二是投票者的偏好(preference)，代表投票者对此候选者的青睐程度。

投票者的影响力实际上为注意力机制(attention mechanism)中基于源语句的编码，翻译草稿的编码，还有部分的目标翻译，计算的针对翻译草稿中各词的权重：

其中f(·)计算权重，

是第n个翻译草稿的第j个词，e_n,j是未归一化的权重，其大小代表第n个翻译草稿的第j个词有多大可能是下一个该出现在目标翻译的词，同时也是该词作为投票者的影响力。

而投票者对候选者的偏好，定义为投票者与候选者之间的相似度：

其中

是投票者，h_m,i是从翻译草稿的编码

中抽取的向量表示。同样的，

是候选者，h_n,j是其向量表示，相似度构成的矩阵如图3中咖啡色矩阵。

进一步地，根据翻译草稿中所有的词的影响力和他们之间的偏好，计算得到每个词获得的“票数”加上他们原本的影响力，得到每个词作为下一个目标翻译的生成词的可能性：

将这一可能性进行归一化，得到：

到此，利用将翻译草稿中的词赋予投票者和候选者的身份，利用它们的影响力和他们之间的偏好进行投票，重新得到了翻译草稿中的词出现在目标翻译的可能性，这一可能性被用于解码器中的注意力层(attention layer)，即图3中的hyp-trg att层。

图5为本发明实施例提供的一种用于机器翻译系统的融合装置结构图，如图5所示，包括：获取模块51、建立模块52、编码模块53、解码模块54、投票模块55和处理模块56；其中：

获取模块51用于获取源语句和若干待融合翻译草稿；建立模块52用于基于所述源语句和所述若干待融合翻译草稿，建立机器翻译系统融合任务模型；编码模块53用于在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器，得到源语句编码结果和翻译草稿编码结果；解码模块54用于以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入，得到目标翻译概率；投票模块55用于基于所述目标翻译概率，引入投票机制，使所述若干待融合翻译草稿中的词进行相互投票，得到出现在所述若干待融合翻译草稿中的高频词；处理模块56用于综合所有高频词结果，得到目标翻译结果。

本发明实施例提供的装置用于执行上述对应的方法，其具体的实施方式与方法的实施方式一致，涉及的算法流程与对应的方法算法流程相同，此处不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：获取源语句和若干待融合翻译草稿；基于所述源语句和所述若干待融合翻译草稿，建立机器翻译系统融合任务模型；在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器，得到源语句编码结果和翻译草稿编码结果；以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入，得到目标翻译概率；基于所述目标翻译概率，引入投票机制，使所述若干待融合翻译草稿中的词进行相互投票，得到出现在所述若干待融合翻译草稿中的高频词；综合所有高频词结果，得到目标翻译结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取源语句和若干待融合翻译草稿；基于所述源语句和所述若干待融合翻译草稿，建立机器翻译系统融合任务模型；在所述机器翻译系统融合任务模型中定义所述源语句和所述若干翻译草稿的编码器，得到源语句编码结果和翻译草稿编码结果；以所述源语句编码结果和所述翻译草稿编码结果作为解码器的输入，得到目标翻译概率；基于所述目标翻译概率，引入投票机制，使所述若干待融合翻译草稿中的词进行相互投票，得到出现在所述若干待融合翻译草稿中的高频词；综合所有高频词结果，得到目标翻译结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。