CN107301174B - 一种基于拼接的集成式自动译后编辑系统及方法 - Google Patents
一种基于拼接的集成式自动译后编辑系统及方法 Download PDFInfo
- Publication number
- CN107301174B CN107301174B CN201710492040.6A CN201710492040A CN107301174B CN 107301174 B CN107301174 B CN 107301174B CN 201710492040 A CN201710492040 A CN 201710492040A CN 107301174 B CN107301174 B CN 107301174B
- Authority
- CN
- China
- Prior art keywords
- translation
- training
- original
- splicing
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于拼接的集成式自动译后编辑系统与方法,属于计算机自然语言处理及机器翻译技术领域。包括本系统,又包括训练模块与解码模块;本方法分为训练过程与解码过程。训练过程建立在传统的神经网络机器翻译模型基础之上,源语料用训练原文与多种机器翻译系统的译文以一定顺序在语句级别拼接后生成的训练语料做替换,输出译后编辑系统;解码过程以训练过程输出的系统、翻译原文与机器翻译译文按照相同顺序拼接生成的翻译语料作为输入,输出经过本系统校正的译后编辑译文。本发明的优势在于以较低的代价集成了翻译原文与多种机器翻译结果,既提供了完整的语义支持,也体现多种机器翻译系统的优势,从而提高了整体翻译质量。
Description
技术领域
本发明涉及一种基于拼接的集成式自动译后编辑系统及方法,属于计算机应用、自然语言处理及机器翻译技术领域。
技术背景
近年来,随着全球化浪潮的推进,国际交流日益频繁,各行各业对翻译服务的需求都更加迫切。人工翻译的成本代价较大,且不能满足实时翻译需求,而机器翻译以其高效和便捷的优势在工业界和日常生活中逐渐被广泛地应用。一大批优秀的机器翻译产品为工业及生活提供了便利,如:谷歌翻译,百度翻译,有道翻译官等。这些翻译平台都各有所长,也有各自的局限,因此,其翻译结果有共性错误,也有个性化的错误。
译后编辑过程是为了解决这些各种类型的机器翻译错误,得到能够还原出翻译原文含义的流畅译文。现有的译后编辑方法利用神经网络机器翻译模型,善于生成流畅度较高的语句,能够在一定程度上改善机器翻译译文的语序问题,但是现有的这些方法大多只利用了一种机器翻译译文作为训练的输入语料,不仅解决的翻译错误非常有限,还难以恢复翻译原文的原始含义。现有的小部分译后编辑方法虽然加入了翻译原文或其它机器翻译译文的信息,但是需要训练单独的模块,训练代价较高。
发明内容
本发明的目的是为了解决译后编辑过程只能对共性的翻译错误进行建模,并且得到的译文不能准确还原出原始含义的问题,提出一种基于拼接的集成式自动译后编辑系统及方法。
一种基于拼接的集成式自动译后编辑系统及方法包括一种基于拼接的集成式自动译后编辑系统,称为本系统,及一种基于拼接的集成式自动译后编辑方法,简称为本方法;
其中,集成指可用多种不同源语言的组合作为译后编辑的输入,包括多种不同的机器翻译译文与翻译原文;
本系统能够使得翻译原文与多种不同的机器翻译译文在译后编辑过程中相互影响,以翻译原文验证信息量的完备性,以多种机器翻译译文验证翻译错误的完备性,提高翻译的忠实度,进而提高译后编辑结果的整体质量;
本系统包括训练模块与解码模块;
各模块的功能如下:
训练模块的功能是训练基于拼接的集成式自动译后编辑系统,即本系统基于神经网络翻译模型输出已训练模型;此已训练模型又称为译后编辑系统模型;
解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;
各模块之间的连接关系如下:
训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连。
为实现上述目的,本发明所采用的技术方案如下:
定义1:设置一个常数K,代表本方法中的机器翻译系统,称为 MachineTranslation系统,即MT系统,MT系统共有K个,具体记作:MT1,MT2,MT3,…,MTK;
定义2:设置一个常数N,代表本方法中用于训练模块的训练原文和参考译文的语料,训练原文语料和参考译文语料均假设有N句;
定义3:设置一个常数M,代表本方法中用于解码模块的翻译原文语料假设有M句;
在上述定义的基础之上,本方法包括训练模块的训练过程及解码模块的解码过程两部分,其中训练模块完成对基于拼接的集成式自动译后编辑系统的训练,输出已训练模型;解码过程利用训练过程输出的已训练模型进行解码;
训练模块的训练过程,具体为:
步骤一、搜集本系统训练过程所需要的各语料,并对其中的训练原文语料经K个MT系统进行翻译,得出K个机器翻译译文语料;
其中,各语料主要包括训练原文语料和参考译文语料;其中,训练原文语料和参考译文语料为双语平行语料;
训练原文语料,记为:{source1,source2,…,sourceN},
参考译文语料,记为{ref1,ref2,…,refN},为训练模块的目标语料,
训练原文语料的K个机器翻译译文语料,记为:
{mt1-outs1,mt1-outs2,…,mt1-outsN},{mt2-outs1,mt2- outs2,…,mt2-outsN},……,{mtK-outs1,mtK- outs2,…,mtK-outsN},
步骤二、对步骤一中的训练原文以及步骤一输出的K个机器翻译译文语料按一定顺序进行语句级别的拼接组合,输出训练拼接语料,作为训练模块的源语料;
训练拼接语料,记为:
{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN};
步骤三、用步骤二得到的训练模块的源语料与步骤一的目标语料基于神经网络翻译模型训练本系统,输出译后编辑系统模型;
至此,从步骤一到步骤三,完成了本方法中训练模块的训练过程;
步骤四、设置本系统的解码过程中需要的各语料;
其中,解码过程中需要的各语料主要包括翻译原文语料和机器翻译译文语料,机器翻译译文语料由翻译原文语料经K个MT系统翻译得到;
翻译原文语料,记为:{src1,src2,…,srcM},
翻译原文语料的K个机器翻译译文语料,记为:
{mt1-1,mt1-2,…,mt1-M},{mt2-1,mt2-2,…,mt2-M},……, {mtK-1,mtK-2,…,mtK-M};
步骤五、对步骤四的翻译原文与其对应的K个机器翻译译文语料按照与训练过程相同的拼接顺序进行语句级别的拼接组合,输出翻译拼接语料,作为解码模块的输入;
拼接语料,记为:
{srcmt1,srcmt2,…,srcmtM};
步骤六、将步骤五输出的翻译拼接语料输入到步骤三输出的译后编辑系统模型,输出译后编辑译文;
至此,从步骤四到步骤六,完成了本方法中解码模块的解码过程。
有益效果
本发明是一种基于拼接的集成式自动译后编辑系统及方法,对比现有技术,具有如下有益效果:
1.本发明直接将翻译原文加入译后编辑过程,为译后编辑系统的训练提供了完整的语义支持,并通过拼接的方式,与未加入翻译原文的方法相比,能够以极低的代价提高译文信息量的完备性;
2.本发明同时使用多种机器翻译译文作为输入,与仅使用单一机器翻译译文作为输入的方法相比,既能体现多种机器翻译系统的优势也能在训练过程中学习纠正不同类型的翻译错误,多种机器翻译译文与翻译原文在译后编辑过程中有效地相互影响,交叉验证,同时提高译文的忠实度与流畅度,从而提高了整体翻译质量。
附图说明
图1为本发明一种基于拼接方式的集成式自动译后编辑系统及方法的训练过程与解码过程。
具体实施方式
本发明所提出的模型和方法基于神经网络机器翻译模型,下面结合附图及实施例对本发明做进一步说明。
实施例1
本实施例结合附图1,叙述了本发明一种基于拼接方式的集成式自动译后编辑系统及方法的详细组成及训练与解码流程。
从图1可以看出训练模块与解码模块相连。
训练模块的训练过程包含以下步骤:
步骤A:设置机器翻译系统;假定K=3,即有三种机器翻译系统,具体可设置为百度、谷歌与有道,分别记作MT1,MT2,MT3系统;
步骤B:搜集本系统训练过程所需要的各语料;
其中,各语料主要包括训练原文语料和参考译文语料;其中,训练原文语料和参考译文语料为平行语料;假定N=600000,即训练原文有60000句;
训练原文语料,记为:{source1,source2,…,source600000},
训练译文语料,记为{ref1,ref2,…,ref600000},
训练原文语料的机器翻译译文语料,记为:
{mt1-outs1,mt1-outs2,…,mt1-outs600000},{mt2- outs1,mt2-outs2,…,mt2-outs600000},{mt3-outs1,mt3- outs2,…,mt3-outs600000};
步骤C:对步骤B的语料按照一定顺序进行拼接组合,可以按照每一句话的训练原文在前,其对应的百度、谷歌、有道机器翻译译文分别在后的顺序依次进行拼接,输出训练拼接语料,也可以按照其他顺序进行拼接,这里不做限制;
其中,训练拼接语料,记为:
{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN};
步骤D:用步骤C得到的训练拼接语料作为源语料,步骤B中的参考译文作为目标语料基于神经网络翻译模型训练本系统,输出译后编辑系统模型;
解码模块与训练模块之间以基于拼接方式的集成式自动译后编辑系统相连,解码过程包含以下步骤:
步骤E:设置本系统的解码过程中需要的各语料;
其中,解码过程中需要的各语料主要包括翻译原文语料和机器翻译译文语料,机器翻译译文语料由翻译原文语料经3个MT系统翻译得到,假定M=1597,即翻译原文有1597句;
翻译原文语料,记为:{src1,src2,…,src1597},
翻译原文语料的3个机器翻译译文语料,记为:
{mt1-1,mt1-2,…,mt1-1597},{mt2-1,mt2-2,…,mt2-1597}, {mt3-1,mt3-2,…,mt3-1597};
步骤F:对步骤E的的翻译原文与其对应的3个机器翻译译文语料按照与训练过程相同的拼接顺序进行语句级别的拼接组合,在本实施例中按照每一句话的翻译原文在前,其对应的百度、谷歌、有道机器翻译译文分别在后的顺序依次进行拼接,输出翻译拼接语料,作为翻译模块的输入;
拼接语料,记为:
{srcmt1,srcmt2,…,srcmt1597};
步骤G:将步骤F输出的翻译拼接语料输入到步骤D输出的译后编辑系统模型,输出译后编辑译文。
至此,从步骤四到步骤六,完成了本方法中解码模块的解码过程。
实施例2
本实施例在统计意义上阐述了本系统及方法相对于未加入翻译原文,直接利用机器翻译译文作为源语言训练的自动译后编辑系统的优势。
假定用于训练模块的训练原文与参考译文数据集有600000句,用于测试模块的翻译原文数据集有1597句,机器翻译系统只采用摩西(Moses)统计机器翻译系统,评分采用multi-bleu脚本,BLEU 值代表整体翻译质量,具体得分如下表1所述:
表1:初步翻译系统、单源(只利用机器翻译译文作为源语言)译后编辑系统、基于拼接的集成式自动译后编辑系统对翻译原文处理效果在统计意义上的对比
系统名称 | Moses | 单源译后编辑 | 基于拼接的集成式自动译后编辑 |
翻译质量得分(BLEU) | 23.97 | 19.93 | 24.12 |
从表1中可以看出,即使只使用一种较为不够成熟的机器翻译译文与翻译原文集成的方式训练译后编辑系统时,在整体翻译质量 (BLEU)方面,基于拼接的集成式自动译后编辑系统翻译质量相对高于未经译后编辑处理的Moses翻译系统的翻译质量,并且明显高于只用相同语料的机器翻译译文作为源语料训练的自动译后编辑系统的翻译质量。这说明本及方法能够有效通过翻译原文与机器翻译译文的结合提高翻译质量。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (6)
1.一种基于拼接的集成式自动译后编辑系统,其特征在于:集成指可用多种不同源语言的组合作为译后编辑的输入,包括多种不同的机器翻译译文与翻译原文;
所述系统能够使得翻译原文与多种不同的机器翻译译文在译后编辑过程中相互影响,以翻译原文验证信息量的完备性,以多种机器翻译译文验证翻译错误的完备性,提高翻译的忠实度,进而提高译后编辑结果的整体质量;
所述系统包括训练模块与解码模块;
各模块的功能如下:
训练模块的功能是训练基于拼接的集成式自动译后编辑系统,即本系统基于神经网络翻译模型输出已训练模型;此已训练模型又称为译后编辑系统模型;
解码模块的功能是利用训练模块输出的译后编辑系统模型进行解码;
各模块之间的连接关系如下:
训练模块与解码模块相连,具体通过训练模块输出的已训练模型,即译后编辑系统模型相连;
为实现上述目的,所采用的技术方案如下:
定义1:设置一个常数K,代表机器翻译系统,称为Machine Translation系统,即MT系统,MT系统共有K个,具体记作:MT1,MT2,MT3,…,MTK;
定义2:设置一个常数N,代表用于训练模块的训练原文和参考译文的语料,训练原文语料和参考译文语料均假设有N句;
定义3:设置一个常数M,代表用于解码模块的翻译原文语料假设有M句。
2.根据权利要求1所述的一种基于拼接的集成式自动译后编辑系统所依托的编辑方法,其特征在于:所述方法包括训练模块的训练过程及解码模块的解码过程两部分,其中训练模块完成对基于拼接的集成式自动译后编辑系统的训练,输出已训练模型;解码过程利用训练过程输出的已训练模型进行解码;
训练模块的训练过程,具体为:
步骤一、搜集本系统训练过程所需要的各语料,并对其中的训练原文语料经K个MT系统进行翻译,得出K个机器翻译译文语料;
其中,各语料主要包括训练原文语料和参考译文语料;其中,训练原文语料和参考译文语料为双语平行语料;
训练原文语料,记为:{source1,source2,…,sourceN},
参考译文语料,记为{ref1,ref2,…,refN},为训练模块的目标语料;
步骤二、对步骤一中的训练原文以及步骤一输出的K个机器翻译译文语料按一定顺序进行语句级别的拼接组合,输出训练拼接语料,作为训练模块的源语料;
步骤三、用步骤二得到的训练模块的源语料与步骤一的目标语料基于神经网络翻译模型训练本系统,输出译后编辑系统模型;
至此,从步骤一到步骤三,完成了本方法中训练模块的训练过程;
步骤四、设置本系统的解码过程中需要的各语料;
其中,解码过程中需要的各语料主要包括翻译原文语料和机器翻译译文语料,机器翻译译文语料由翻译原文语料经K个MT系统翻译得到;
步骤五、对步骤四的翻译原文与其对应的K个机器翻译译文语料按照与训练过程相同的拼接顺序进行语句级别的拼接组合,输出翻译拼接语料,作为解码模块的输入;
步骤六、将步骤五输出的翻译拼接语料输入到步骤三输出的译后编辑系统模型,输出译后编辑译文;
至此,从步骤四到步骤六,完成了本方法中解码模块的解码过程;
从步骤一到步骤六,完成了一种基于拼接的集成式自动译后编辑方法。
3.根据权利要求2所述的编辑方法,其特征在于:步骤一中,训练原文语料的K个机器翻译译文语料,记为:
{mt1-outs1,mt1-outs2,…,mt1-outsN},{mt2-outs1,mt2-outs2,…,mt2-outsN},……,{mtK-outs1,mtK-outs2,…,mtK-outsN}。
4.根据权利要求2所述的编辑方法,其特征在于:步骤二中的训练拼接语料,记为:
{sourcemt-outs1,sourcemt-outs2,…,sourcemt-outsN}。
5.根据权利要求2所述的编辑方法,其特征在于:步骤四中,机器翻译译文语料由翻译原文语料经K个MT系统翻译得到;
翻译原文语料,记为:{src1,src2,…,srcM},
翻译原文语料的K个机器翻译译文语料,记为:
{mt1-1,mt1-2,…,mt1-M},{mt2-1,mt2-2,…,mt2-M},……,{mtK-1,mtK-2,…,mtK-M}。
6.根据权利要求2所述的编辑方法,其特征在于:步骤五中的翻译拼接语料,记为:
{srcmt1,srcmt2,…,srcmtM}。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710477987X | 2017-06-22 | ||
CN201710477987 | 2017-06-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107301174A CN107301174A (zh) | 2017-10-27 |
CN107301174B true CN107301174B (zh) | 2019-12-24 |
Family
ID=60134993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710492040.6A Active CN107301174B (zh) | 2017-06-22 | 2017-06-26 | 一种基于拼接的集成式自动译后编辑系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107301174B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299481A (zh) * | 2018-11-15 | 2019-02-01 | 语联网(武汉)信息技术有限公司 | 机器翻译引擎推荐方法、装置及电子设备 |
CN109670191B (zh) * | 2019-01-24 | 2023-03-07 | 语联网(武汉)信息技术有限公司 | 机器翻译的校准优化方法、装置与电子设备 |
CN112836528B (zh) * | 2021-02-07 | 2023-10-03 | 语联网(武汉)信息技术有限公司 | 机器翻译后编辑方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184171A (zh) * | 2011-04-20 | 2011-09-14 | 传神联合(北京)信息技术有限公司 | 机器翻译检查方法 |
CN103942192A (zh) * | 2013-11-21 | 2014-07-23 | 北京理工大学 | 一种双语最大名词组块分离-融合的翻译方法 |
-
2017
- 2017-06-26 CN CN201710492040.6A patent/CN107301174B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184171A (zh) * | 2011-04-20 | 2011-09-14 | 传神联合(北京)信息技术有限公司 | 机器翻译检查方法 |
CN103942192A (zh) * | 2013-11-21 | 2014-07-23 | 北京理工大学 | 一种双语最大名词组块分离-融合的翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107301174A (zh) | 2017-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ansari et al. | Findings of the IWSLT 2020 evaluation campaign | |
Farhad et al. | Findings of the 2021 conference on machine translation (WMT21) | |
Castilho et al. | A comparative quality evaluation of PBSMT and NMT using professional translators | |
Cettolo et al. | Report on the 11th IWSLT evaluation campaign | |
Castilho et al. | Is neural machine translation the new state of the art? | |
Freitag et al. | APE at scale and its implications on MT evaluation biases | |
Cettolo et al. | Report on the 10th IWSLT evaluation campaign | |
US9176952B2 (en) | Computerized statistical machine translation with phrasal decoder | |
CN107301174B (zh) | 一种基于拼接的集成式自动译后编辑系统及方法 | |
Chollampatt et al. | Adapting grammatical error correction based on the native language of writers with neural network joint models | |
US20120296633A1 (en) | Syntax-based augmentation of statistical machine translation phrase tables | |
Gerlach et al. | Combining pre-editing and post-editing to improve SMT of user-generated content | |
Agarwal et al. | Findings of the iwslt 2023 evaluation campaign | |
Specia et al. | Findings of the WMT 2020 shared task on machine translation robustness | |
He et al. | Multi-style adaptive training for robust cross-lingual spoken language understanding | |
Chollampatt et al. | Can automatic post-editing improve NMT? | |
CN104731774A (zh) | 面向通用机译引擎的个性化翻译方法及装置 | |
Chakravarthi et al. | Multilingual multimodal machine translation for Dravidian languages utilizing phonetic transcription | |
Sánchez-Cartagena et al. | Abu-matran at wmt 2016 translation task: Deep learning, morphological segmentation and tuning on character sequences | |
Hu et al. | Crowdsourced monolingual translation | |
Freitag et al. | Combined spoken language translation | |
Stodden et al. | DEplain: A German parallel corpus with intralingual translations into plain language for sentence and document simplification | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
Esperança-Rodier et al. | Evaluation of NMT and SMT systems: A study on uses and perceptions | |
Seretan et al. | The ACCEPT Portal: An online framework for the pre-editing and post-editing of user-generated content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |