CN111144137B

CN111144137B - 机器翻译后编辑模型语料的生成方法及装置

Info

Publication number: CN111144137B
Application number: CN201911303458.3A
Authority: CN
Inventors: 蔡洁
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Iol Wuhan Information Technology Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-09-05
Anticipated expiration: 2039-12-17
Also published as: CN111144137A

Abstract

本发明实施例提供一种机器翻译后编辑模型语料的生成方法及装置。其中，方法包括：将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文；将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料；其中，双向翻译模型，是根据语言与单语原文相同的训练文本和训练文本的语言与第二译文相同的译文进行训练后得到的。本发明实施例提供的机器翻译后编辑模型语料的生成方法及装置，不需要人工编辑，自动化生成三元组形式的机器翻译后编辑模型语料，能提高机器翻译后编辑模型语料的生成效率。

Description

机器翻译后编辑模型语料的生成方法及装置

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种机器翻译后编辑模型语料的生成方法及装置。

背景技术

机器翻译后编辑模型，用于根据输入的机器翻译译文，输出后编辑译文，对机器翻译译文进行自动校对和编辑，以提高译文质量。机器翻译后编辑模型，是根据三元组语料进行训练后获得的。三元组语料，由原文、机器翻译译文和译员后编辑译文组成，记为(原文，机器翻译译文，译员后编辑译文)。上述三元组语料，为机器翻译后编辑模型语料。

相比较基于统计方法的模型，基于深度学习的模型需要大量数据训练才能得到良好的效果。因此，基于深度学习的机器翻译后编辑模型，需要大量三元组语料。现有的语料多为(原文，机器翻译译文)或(原文，译员译文)形式的二元组语料。为了获得三元组语料，现有方法通过将(原文，机器翻译译文)形式的二元组语料中的机器翻译译文，进行反向的机器翻译之后由译员进行人工后编辑，获得译员后编辑译文，或者将(原文，译员译文)形式的二元组语料中的原文进行机器翻译后再进行反向的机器翻译。上述过程中，均需要人工参与，效率较低，并且由于译员的水平不一，难以获得高质量的译员后编辑译文，导致机器翻译后编辑模型的编辑效果不佳。

发明内容

本发明实施例提供一种机器翻译后编辑模型语料的生成方法及装置，用以解决或者至少部分地解决现有技术存在的效率低的缺陷。

第一方面，本发明实施例提供一种机器翻译后编辑模型语料的生成方法，包括：

将单语原文输入至双向翻译模型，输出语言与所述单语原文不同的第一译文和语言与所述单语原文相同的第二译文；

将所述第二译文、所述第一译文和所述单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料；

其中，所述双向翻译模型，是根据语言与所述单语原文相同的训练文本和所述训练文本的语言与所述第二译文相同的译文进行训练后得到的。

优选地，所述将单语原文输入至双向翻译模型，输出语言与所述单语原文不同的第一译文和语言与所述单语原文相同的第二译文的具体步骤包括：

将所述单语原文输入至双向翻译模型中的第一子翻译模型，输出所述第一译文；

将所述第一译文输入至双向翻译模型中的第二子翻译模型，输出所述第二译文。

优选地，所述将单语原文输入至双向翻译模型，输出语言与所述单语原文不同的第一译文和语言与所述单语原文相同的第二译文之前，还包括：

根据所述训练文本和所述训练文本的语言与所述第二译文相同的译文进行训练，获得所述第一子翻译模型。

根据所述训练文本的语言与所述第二译文相同的译文和所述训练文本进行训练，获得所述第二子翻译模型。

优选地，所述第一子翻译模型为深度学习模型。

优选地，所述第二子翻译模型为深度学习模型。

第二方面，本发明实施例提供一种机器翻译后编辑模型语料的生成装置，包括：

翻译模块，用于将单语原文输入至双向翻译模型，输出语言与所述单语原文不同的第一译文和语言与所述单语原文相同的第二译文；

组合模块，用于将所述第二译文、所述第一译文和所述单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料；

优选地，所述翻译模块包括：

正向翻译单元，用于将所述单语原文输入至双向翻译模型中的第一子翻译模型，输出所述第一译文；

反向翻译单元，用于将所述第一译文输入至双向翻译模型中的第二子翻译模型，输出所述第二译文。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，执行所述程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的机器翻译后编辑模型语料的生成方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的机器翻译后编辑模型语料的生成方法的步骤。

本发明实施例提供的机器翻译后编辑模型语料的生成方法及装置，通过将将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文，将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料，不需要人工编辑，自动化生成三元组语料，能提高机器翻译后编辑模型语料的生成效率。并且，仅根据单语原文就能获得三元组形式的机器翻译后编辑模型语料，更加简单、方便、快速。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的机器翻译后编辑模型语料的生成方法的流程示意图；

图2为根据本发明实施例提供的机器翻译后编辑模型语料的生成装置的结构示意图；

图3为根据本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例提供一种机器翻译后编辑模型语料的生成方法及装置，其发明构思是，不需要基于二元组语料，仅通过单语的语料即可实现自动、高效、大量地生成三元组形式的机器翻译后编辑模型语料。

图1为根据本发明实施例提供的机器翻译后编辑模型语料的生成方法的流程示意图。如图1所示，该方法包括：步骤S101、将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文。

其中，双向翻译模型，是根据语言与单语原文相同的训练文本和训练文本的语言与第二译文相同的译文进行训练后得到的。

具体地，单语原文为某一种语言的原始语料，例如使用汉语撰写的文章。

双向翻译模型，用于对第一语言的单语原文进行机器翻译，获得第二语言的第一译文，并对第二语言的第一译文进行机器翻译，获得第一语言的第二译文。

双向翻译模型的输入为单语原文，输出为第一译文和第二译文。

单语原文的语言和第二译文的语言相同，均为第一语言；第一译文的语言与单语原文、第二译文的语言不同，第一译文的语言为第二语言。

例如，将上述汉语撰写的文章作为单语原文，第一语言为汉语，第二语言为英语，双向翻译模型将汉语的单语原文翻译为英语的第一译文，再将英语的第一译文翻译为汉语的第二译文。

步骤S102、将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料。

具体地，获得第一译文和第二译文之后，将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得三元组语料，作为机器翻译后编辑模型语料。

需要说明的是，单语原文是使用第一语言撰写的，第二译文是机器翻译得到的第一语言的语料，单语原文具有更高的语言质量，将单语原文作为三元组中的译员后编辑译文，从而可以使得训练机器翻译后编辑模型时，将译员后编辑译文作为训练时的样本标签，样本标签的质量更高，从而能提高训练获得的机器翻译后编辑模型的性能。

本发明实施例通过将将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文，将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料，不需要人工编辑，自动化生成三元组语料，能提高机器翻译后编辑模型语料的生成效率。并且，仅根据单语原文就能获得三元组形式的机器翻译后编辑模型语料，更加简单、方便、快速。

基于上述各实施例的内容，将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文的具体步骤包括：将单语原文输入至双向翻译模型中的第一子翻译模型，输出第一译文。

具体地，双向翻译模型包括第一子翻译模型和第二子翻译模型。

第一子翻译模型，用于对第一语言的单语原文进行机器翻译，获得第二语言的第一译文。

第一子翻译模型的输入为单语原文，输出为第一译文。

将第一译文输入至双向翻译模型中的第二子翻译模型，输出第二译文。

具体地，第二子翻译模型，用于对第二语言的第一译文进行机器翻译，获得第一语言的第二译文。

第二子翻译模型的输入为第一译文，输出为第二译文。

本发明实施例通过将单语原文输入至双向翻译模型中的第一子翻译模型，输出第一译文，将第一译文输入至双向翻译模型中的第二子翻译模型，输出第二译文，从而能更简单、方便、快速地获得机器翻译后编辑模型语料，生成机器翻译后编辑模型语料的效率更高。

基于上述各实施例的内容，将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文之前，还包括：根据训练文本和训练文本的语言与第二译文相同的译文进行训练，获得第一子翻译模型。

具体地，训练第一子翻译模型时，将第一语言的训练文本作为样本数据，将该训练文本的第二语言译文作为样本数据的标签进行训练，通过调整第一子翻译模型中的各参数，直至获得训练好的第一子翻译模型。

本发明实施例通过根据训练文本和训练文本的语言与第二译文相同的译文进行训练，获得第一子翻译模型，使得能根据第一子翻译模型获得第一译文，从而能更简单、方便、快速地获得机器翻译后编辑模型语料，生成机器翻译后编辑模型语料的效率更高。

基于上述各实施例的内容，将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文之前，还包括：根据训练文本的语言与第二译文相同的译文和训练文本进行训练，获得第二子翻译模型。

具体地，训练第二子翻译模型时，将训练文本的第二语言译文作为样本数据，将该第一语言的训练文本作为样本数据的标签进行训练，通过调整第二子翻译模型中的各参数，直至获得训练好的第二子翻译模型。

本发明实施例通过根据训练文本的语言与第二译文相同的译文和训练文本进行训练，获得第二子翻译模型，使得能根据第二子翻译模型获得第二译文，从而能更简单、方便、快速地获得机器翻译后编辑模型语料，生成机器翻译后编辑模型语料的效率更高。

基于上述各实施例的内容，第一子翻译模型为深度学习模型。

具体地，第一子翻译模型可以为基于任一种深度学习方法构建的深度学习模型。

深度学习(DL，Deep Learning)是机器学习(ML，Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI，ArtificialIntelligence)。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习是一类模式分析方法的统称，就具体研究内容而言，主要涉及三类方法：

(1)基于卷积运算的各类神经网络系统，如卷积神经网络(CNN)。

(2)基于多层神经元的自编码神经网络，包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(Sparse Coding)。

(3)以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

本发明实施例通过基于深度学习的第一子翻译模型获得第一译文，能获得质量更高的第一译文，从而能提高训练获得的机器翻译后编辑模型的性能。

基于上述各实施例的内容，第二子翻译模型为深度学习模型。

具体地，第二子翻译模型可以为基于任一种深度学习方法构建的深度学习模型。

本发明实施例通过基于深度学习的第二子翻译模型获得第二译文，能获得质量更高的第二译文，从而能提高训练获得的机器翻译后编辑模型的性能。

图2为根据本发明实施例提供的机器翻译后编辑模型语料的生成装置的结构示意图。基于上述各实施例的内容，如图2所示，该装置包括翻译模块201和组合模块202，其中：

翻译模块201，用于将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文；

组合模块202，用于将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料；

具体地，翻译模块201与组合模块202电连接。

翻译模块201将单语原文输入至双向翻译模型，通过双向翻译模型对第一语言的单语原文进行机器翻译，获得第二语言的第一译文，并对第二语言的第一译文进行机器翻译，获得第一语言的第二译文。

获得第一译文和第二译文之后，组合模块202将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得三元组语料，作为机器翻译后编辑模型语料。

本发明实施例提供的机器翻译后编辑模型语料的生成装置，用于执行本发明上述各实施例提供的机器翻译后编辑模型语料的生成方法，该机器翻译后编辑模型语料的生成装置包括的各模块实现相应功能的具体方法和流程详见上述机器翻译后编辑模型语料的生成方法的实施例，此处不再赘述。

该机器翻译后编辑模型语料的生成装置用于前述各实施例的机器翻译后编辑模型语料的生成方法。因此，在前述各实施例中的机器翻译后编辑模型语料的生成方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

基于上述各实施例的内容，翻译模块包括正向翻译单元和反向翻译单元。

正向翻译单元，用于将单语原文输入至双向翻译模型中的第一子翻译模型，输出第一译文。

具体地，正向翻译单元将单语原文输入第一子翻译模型，通过第一子翻译模型对第一语言的单语原文进行机器翻译，获得第二语言的第一译文。

反向翻译单元，用于将第一译文输入至双向翻译模型中的第二子翻译模型，输出第二译文。

具体地，反向翻译单元将第一译文输入第二子翻译模型，通过第二子翻译模型对第二语言的第一译文进行机器翻译，获得第一语言的第二译文。

图3为根据本发明实施例提供的电子设备的实体结构示意图。基于上述实施例的内容，如图3所示，该电子设备可以包括：处理器(processor)301、存储器(memory)302和总线303；其中，处理器301和存储器302通过总线303完成相互间的通信；处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令，以执行上述各方法实施例所提供的机器翻译后编辑模型语料的生成方法，例如包括：将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文；将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料；其中，双向翻译模型，是根据语言与单语原文相同的训练文本和训练文本的语言与第二译文相同的译文进行训练后得到的。

本发明另一实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的机器翻译后编辑模型语料的生成方法，例如包括：将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文；将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料；其中，双向翻译模型，是根据语言与单语原文相同的训练文本和训练文本的语言与第二译文相同的译文进行训练后得到的。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明另一实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的机器翻译后编辑模型语料的生成方法，例如包括：将单语原文输入至双向翻译模型，输出语言与单语原文不同的第一译文和语言与单语原文相同的第二译文；将第二译文、第一译文和单语原文分别作为三元组中的原文、机器翻译译文和译员后编辑译文，获得机器翻译后编辑模型语料；其中，双向翻译模型，是根据语言与单语原文相同的训练文本和训练文本的语言与第二译文相同的译文进行训练后得到的。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行上述各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种机器翻译后编辑模型语料的生成方法，其特征在于，包括：

其中，所述双向翻译模型，是根据语言与所述单语原文相同的训练文本和所述训练文本的语言与所述第二译文相同的译文进行训练后得到的；所述双向翻译模型，用于对所述单语原文进行机器翻译，获得语言与所述单语原文不同的第一译文，对语言与所述单语原文不同的第一译文进行机器翻译，获得语言与所述单语原文相同的第二译文。

2.根据权利要求1所述的机器翻译后编辑模型语料的生成方法，其特征在于，所述将单语原文输入至双向翻译模型，输出语言与所述单语原文不同的第一译文和语言与所述单语原文相同的第二译文的具体步骤包括：

3.根据权利要求2所述的机器翻译后编辑模型语料的生成方法，其特征在于，所述将单语原文输入至双向翻译模型，输出语言与所述单语原文不同的第一译文和语言与所述单语原文相同的第二译文之前，还包括：

4.根据权利要求2所述的机器翻译后编辑模型语料的生成方法，其特征在于，所述将单语原文输入至双向翻译模型，输出语言与所述单语原文不同的第一译文和语言与所述单语原文相同的第二译文之前，还包括：

5.根据权利要求2所述的机器翻译后编辑模型语料的生成方法，其特征在于，所述第一子翻译模型为深度学习模型。

6.根据权利要求2至5任一所述的机器翻译后编辑模型语料的生成方法，其特征在于，所述第二子翻译模型为深度学习模型。

7.一种机器翻译后编辑模型语料的生成装置，其特征在于，包括：

其中，所述双向翻译模型，是根据语言与所述单语原文相同的训练文本和所述训练文本的语言与所述第二译文相同的译文进行训练后得到的；所述双向翻译模型，用于对所述单语原文进行机器翻译，获得语言与所述单语原文不同的第一译文，并对语言与所述单语原文不同的第一译文进行机器翻译，获得语言与所述单语原文相同的第二译文。

8.根据权利要求7所述的机器翻译后编辑模型语料的生成装置，其特征在于，所述翻译模块包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一所述的机器翻译后编辑模型语料的生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一所述的机器翻译后编辑模型语料的生成方法的步骤。