CN107301174B

CN107301174B - 一种基于拼接的集成式自动译后编辑系统及方法

Info

Publication number: CN107301174B
Application number: CN201710492040.6A
Authority: CN
Inventors: 黄河燕; 曹倩雯; 郭宇航
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-06-22
Filing date: 2017-06-26
Publication date: 2019-12-24
Anticipated expiration: 2037-06-26
Also published as: CN107301174A

Abstract

本发明公开了一种基于拼接的集成式自动译后编辑系统与方法，属于计算机自然语言处理及机器翻译技术领域。包括本系统，又包括训练模块与解码模块；本方法分为训练过程与解码过程。训练过程建立在传统的神经网络机器翻译模型基础之上，源语料用训练原文与多种机器翻译系统的译文以一定顺序在语句级别拼接后生成的训练语料做替换，输出译后编辑系统；解码过程以训练过程输出的系统、翻译原文与机器翻译译文按照相同顺序拼接生成的翻译语料作为输入，输出经过本系统校正的译后编辑译文。本发明的优势在于以较低的代价集成了翻译原文与多种机器翻译结果，既提供了完整的语义支持，也体现多种机器翻译系统的优势，从而提高了整体翻译质量。

Description

一种基于拼接的集成式自动译后编辑系统及方法

技术领域

本发明涉及一种基于拼接的集成式自动译后编辑系统及方法，属于计算机应用、自然语言处理及机器翻译技术领域。

技术背景

近年来，随着全球化浪潮的推进，国际交流日益频繁，各行各业对翻译服务的需求都更加迫切。人工翻译的成本代价较大，且不能满足实时翻译需求，而机器翻译以其高效和便捷的优势在工业界和日常生活中逐渐被广泛地应用。一大批优秀的机器翻译产品为工业及生活提供了便利，如：谷歌翻译，百度翻译，有道翻译官等。这些翻译平台都各有所长，也有各自的局限，因此，其翻译结果有共性错误，也有个性化的错误。

译后编辑过程是为了解决这些各种类型的机器翻译错误，得到能够还原出翻译原文含义的流畅译文。现有的译后编辑方法利用神经网络机器翻译模型，善于生成流畅度较高的语句，能够在一定程度上改善机器翻译译文的语序问题，但是现有的这些方法大多只利用了一种机器翻译译文作为训练的输入语料，不仅解决的翻译错误非常有限，还难以恢复翻译原文的原始含义。现有的小部分译后编辑方法虽然加入了翻译原文或其它机器翻译译文的信息，但是需要训练单独的模块，训练代价较高。

发明内容

本发明的目的是为了解决译后编辑过程只能对共性的翻译错误进行建模，并且得到的译文不能准确还原出原始含义的问题，提出一种基于拼接的集成式自动译后编辑系统及方法。

一种基于拼接的集成式自动译后编辑系统及方法包括一种基于拼接的集成式自动译后编辑系统，称为本系统，及一种基于拼接的集成式自动译后编辑方法，简称为本方法；

其中，集成指可用多种不同源语言的组合作为译后编辑的输入，包括多种不同的机器翻译译文与翻译原文；

本系统能够使得翻译原文与多种不同的机器翻译译文在译后编辑过程中相互影响，以翻译原文验证信息量的完备性，以多种机器翻译译文验证翻译错误的完备性，提高翻译的忠实度，进而提高译后编辑结果的整体质量；

本系统包括训练模块与解码模块；

各模块的功能如下：

训练模块的功能是训练基于拼接的集成式自动译后编辑系统，即本系统基于神经网络翻译模型输出已训练模型；此已训练模型又称为译后编辑系统模型；

解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码；

各模块之间的连接关系如下：

训练模块与解码模块相连，具体通过训练模块输出的已训练模型，即译后编辑系统模型相连。

为实现上述目的，本发明所采用的技术方案如下：

定义1：设置一个常数K，代表本方法中的机器翻译系统，称为 MachineTranslation系统，即MT系统，MT系统共有K个，具体记作：MT₁,MT₂,MT₃,…,MT_K；

定义2：设置一个常数N，代表本方法中用于训练模块的训练原文和参考译文的语料，训练原文语料和参考译文语料均假设有N句；

定义3：设置一个常数M，代表本方法中用于解码模块的翻译原文语料假设有M句；

在上述定义的基础之上，本方法包括训练模块的训练过程及解码模块的解码过程两部分，其中训练模块完成对基于拼接的集成式自动译后编辑系统的训练，输出已训练模型；解码过程利用训练过程输出的已训练模型进行解码；

训练模块的训练过程，具体为：

步骤一、搜集本系统训练过程所需要的各语料，并对其中的训练原文语料经K个MT系统进行翻译，得出K个机器翻译译文语料；

其中，各语料主要包括训练原文语料和参考译文语料；其中，训练原文语料和参考译文语料为双语平行语料；

训练原文语料，记为：{source₁,source₂,…,source_N}，

参考译文语料，记为{ref₁,ref₂,…,ref_N}，为训练模块的目标语料，

训练原文语料的K个机器翻译译文语料，记为：

{mt₁-outs₁,mt₁-outs₂,…,mt₁-outs_N}，{mt₂-outs₁,mt₂- outs₂,…,mt₂-outs_N}，……，{mt_K-outs₁,mt_K- outs₂,…,mt_K-outs_N}，

步骤二、对步骤一中的训练原文以及步骤一输出的K个机器翻译译文语料按一定顺序进行语句级别的拼接组合，输出训练拼接语料，作为训练模块的源语料；

训练拼接语料，记为：

{sourcemt-outs₁,sourcemt-outs₂,…,sourcemt-outs_N}；

步骤三、用步骤二得到的训练模块的源语料与步骤一的目标语料基于神经网络翻译模型训练本系统，输出译后编辑系统模型；

至此，从步骤一到步骤三，完成了本方法中训练模块的训练过程；

步骤四、设置本系统的解码过程中需要的各语料；

其中，解码过程中需要的各语料主要包括翻译原文语料和机器翻译译文语料，机器翻译译文语料由翻译原文语料经K个MT系统翻译得到；

翻译原文语料，记为：{src₁,src₂,…,src_M}，

翻译原文语料的K个机器翻译译文语料，记为：

{mt_1-1,mt_1-2,…,mt_1-M}，{mt_2-1,mt_2-2,…,mt_2-M}，……， {mt_K-1,mt_K-2,…,mt_K-M}；

步骤五、对步骤四的翻译原文与其对应的K个机器翻译译文语料按照与训练过程相同的拼接顺序进行语句级别的拼接组合，输出翻译拼接语料，作为解码模块的输入；

拼接语料，记为：

{srcmt₁,srcmt₂,…,srcmt_M}；

步骤六、将步骤五输出的翻译拼接语料输入到步骤三输出的译后编辑系统模型，输出译后编辑译文；

至此，从步骤四到步骤六，完成了本方法中解码模块的解码过程。

有益效果

本发明是一种基于拼接的集成式自动译后编辑系统及方法，对比现有技术，具有如下有益效果：

1.本发明直接将翻译原文加入译后编辑过程，为译后编辑系统的训练提供了完整的语义支持，并通过拼接的方式，与未加入翻译原文的方法相比，能够以极低的代价提高译文信息量的完备性；

2.本发明同时使用多种机器翻译译文作为输入，与仅使用单一机器翻译译文作为输入的方法相比，既能体现多种机器翻译系统的优势也能在训练过程中学习纠正不同类型的翻译错误，多种机器翻译译文与翻译原文在译后编辑过程中有效地相互影响，交叉验证，同时提高译文的忠实度与流畅度，从而提高了整体翻译质量。

附图说明

图1为本发明一种基于拼接方式的集成式自动译后编辑系统及方法的训练过程与解码过程。

具体实施方式

本发明所提出的模型和方法基于神经网络机器翻译模型，下面结合附图及实施例对本发明做进一步说明。

实施例1

本实施例结合附图1，叙述了本发明一种基于拼接方式的集成式自动译后编辑系统及方法的详细组成及训练与解码流程。

从图1可以看出训练模块与解码模块相连。

训练模块的训练过程包含以下步骤：

步骤A：设置机器翻译系统；假定K＝3，即有三种机器翻译系统，具体可设置为百度、谷歌与有道，分别记作MT₁,MT₂,MT₃系统；

步骤B：搜集本系统训练过程所需要的各语料；

其中，各语料主要包括训练原文语料和参考译文语料；其中，训练原文语料和参考译文语料为平行语料；假定N＝600000，即训练原文有60000句；

训练原文语料，记为：{source₁,source₂,…,source₆₀₀₀₀₀}，

训练译文语料，记为{ref₁,ref₂,…,ref₆₀₀₀₀₀}，

训练原文语料的机器翻译译文语料，记为：

{mt₁-outs₁,mt₁-outs₂,…,mt₁-outs₆₀₀₀₀₀}，{mt₂- outs₁,mt₂-outs₂,…,mt₂-outs₆₀₀₀₀₀}，{mt₃-outs₁,mt₃- outs₂,…,mt₃-outs₆₀₀₀₀₀}；

步骤C：对步骤B的语料按照一定顺序进行拼接组合，可以按照每一句话的训练原文在前，其对应的百度、谷歌、有道机器翻译译文分别在后的顺序依次进行拼接，输出训练拼接语料，也可以按照其他顺序进行拼接，这里不做限制；

其中，训练拼接语料，记为：

{sourcemt-outs₁,sourcemt-outs₂,…,sourcemt-outs_N}；

步骤D：用步骤C得到的训练拼接语料作为源语料，步骤B中的参考译文作为目标语料基于神经网络翻译模型训练本系统，输出译后编辑系统模型；

解码模块与训练模块之间以基于拼接方式的集成式自动译后编辑系统相连，解码过程包含以下步骤：

步骤E：设置本系统的解码过程中需要的各语料；

其中，解码过程中需要的各语料主要包括翻译原文语料和机器翻译译文语料，机器翻译译文语料由翻译原文语料经3个MT系统翻译得到，假定M＝1597，即翻译原文有1597句；

翻译原文语料，记为：{src₁,src₂,…,src₁₅₉₇}，

翻译原文语料的3个机器翻译译文语料，记为：

{mt_1-1,mt_1-2,…,mt_1-1597}，{mt_2-1,mt_2-2,…,mt_2-1597}， {mt_3-1,mt_3-2,…,mt_3-1597}；

步骤F：对步骤E的的翻译原文与其对应的3个机器翻译译文语料按照与训练过程相同的拼接顺序进行语句级别的拼接组合，在本实施例中按照每一句话的翻译原文在前，其对应的百度、谷歌、有道机器翻译译文分别在后的顺序依次进行拼接，输出翻译拼接语料，作为翻译模块的输入；

拼接语料，记为：

{srcmt₁,srcmt₂,…,srcmt₁₅₉₇}；

步骤G：将步骤F输出的翻译拼接语料输入到步骤D输出的译后编辑系统模型，输出译后编辑译文。

实施例2

本实施例在统计意义上阐述了本系统及方法相对于未加入翻译原文，直接利用机器翻译译文作为源语言训练的自动译后编辑系统的优势。

假定用于训练模块的训练原文与参考译文数据集有600000句，用于测试模块的翻译原文数据集有1597句，机器翻译系统只采用摩西(Moses)统计机器翻译系统，评分采用multi-bleu脚本，BLEU 值代表整体翻译质量，具体得分如下表1所述：

表1：初步翻译系统、单源(只利用机器翻译译文作为源语言)译后编辑系统、基于拼接的集成式自动译后编辑系统对翻译原文处理效果在统计意义上的对比

系统名称	Moses	单源译后编辑	基于拼接的集成式自动译后编辑
				翻译质量得分(BLEU)	23.97	19.93	24.12

从表1中可以看出，即使只使用一种较为不够成熟的机器翻译译文与翻译原文集成的方式训练译后编辑系统时，在整体翻译质量 (BLEU)方面，基于拼接的集成式自动译后编辑系统翻译质量相对高于未经译后编辑处理的Moses翻译系统的翻译质量，并且明显高于只用相同语料的机器翻译译文作为源语料训练的自动译后编辑系统的翻译质量。这说明本及方法能够有效通过翻译原文与机器翻译译文的结合提高翻译质量。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于拼接的集成式自动译后编辑系统，其特征在于：集成指可用多种不同源语言的组合作为译后编辑的输入，包括多种不同的机器翻译译文与翻译原文；

所述系统能够使得翻译原文与多种不同的机器翻译译文在译后编辑过程中相互影响，以翻译原文验证信息量的完备性，以多种机器翻译译文验证翻译错误的完备性，提高翻译的忠实度，进而提高译后编辑结果的整体质量；

所述系统包括训练模块与解码模块；

各模块的功能如下：

各模块之间的连接关系如下：

训练模块与解码模块相连，具体通过训练模块输出的已训练模型，即译后编辑系统模型相连；

为实现上述目的，所采用的技术方案如下：

定义1：设置一个常数K，代表机器翻译系统，称为Machine Translation系统，即MT系统，MT系统共有K个，具体记作：MT₁,MT₂,MT₃,…,MT_K；

定义2：设置一个常数N，代表用于训练模块的训练原文和参考译文的语料，训练原文语料和参考译文语料均假设有N句；

定义3：设置一个常数M，代表用于解码模块的翻译原文语料假设有M句。

2.根据权利要求1所述的一种基于拼接的集成式自动译后编辑系统所依托的编辑方法，其特征在于：所述方法包括训练模块的训练过程及解码模块的解码过程两部分，其中训练模块完成对基于拼接的集成式自动译后编辑系统的训练，输出已训练模型；解码过程利用训练过程输出的已训练模型进行解码；

训练模块的训练过程，具体为：

训练原文语料，记为：{source₁,source₂,…,source_N}，

参考译文语料，记为{ref₁,ref₂,…,ref_N}，为训练模块的目标语料；

步骤四、设置本系统的解码过程中需要的各语料；

至此，从步骤四到步骤六，完成了本方法中解码模块的解码过程；

从步骤一到步骤六，完成了一种基于拼接的集成式自动译后编辑方法。

3.根据权利要求2所述的编辑方法，其特征在于：步骤一中，训练原文语料的K个机器翻译译文语料，记为：

{mt₁-outs₁,mt₁-outs₂,…,mt₁-outs_N}，{mt₂-outs₁,mt₂-outs₂,…,mt₂-outs_N}，……，{mt_K-outs₁,mt_K-outs₂,…,mt_K-outs_N}。

4.根据权利要求2所述的编辑方法，其特征在于：步骤二中的训练拼接语料，记为：

{sourcemt-outs₁,sourcemt-outs₂,…,sourcemt-outs_N}。

5.根据权利要求2所述的编辑方法，其特征在于：步骤四中，机器翻译译文语料由翻译原文语料经K个MT系统翻译得到；

翻译原文语料，记为：{src₁,src₂,…,src_M}，

翻译原文语料的K个机器翻译译文语料，记为：

{mt_1-1,mt_1-2,…,mt_1-M}，{mt_2-1,mt_2-2,…,mt_2-M}，……，{mt_K-1,mt_K-2,…,mt_K-M}。

6.根据权利要求2所述的编辑方法，其特征在于：步骤五中的翻译拼接语料，记为：

{srcmt₁,srcmt₂,…,srcmt_M}。