CN112836525B

CN112836525B - 一种基于人机交互机器翻译系统及其自动优化方法

Info

Publication number: CN112836525B
Application number: CN202110040304.0A
Authority: CN
Inventors: 刘均伟; 梁钦; 段轶; 张潺; 陈慷
Original assignee: Jiangsu Jinling Sci&tech Group Co ltd
Current assignee: Jiangsu Jinling Sci&tech Group Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2023-08-18
Anticipated expiration: 2041-01-13
Also published as: CN112836525A

Abstract

本发明提出了一种基于人机交互机器翻译系统及其自动优化方法，该方法包括：借助回环翻译技术以人工校译语料完成用户应用领域平行语料库定向增强，通过文本生成技术基于用户术语以及人工校译语料的目标语言数据生成用户应用领域的单语语料，将用户应用领域内单语语料回译生成偏向用户应用领域的平行语料，在原生平行语料的基础上融入全部用户应用领域平行语料进行机器翻译模型自动在线训练。本发明利用人机翻译系统积累的高质量平行语料在线上完成机器翻译模型的自动优化，使语料库管理与建设、机器翻译、机器辅助翻译、在线训练各个环节形成闭环，从而不断提升人机翻译平台对特定用户应用领域数据的翻译能力。

Description

一种基于人机交互机器翻译系统及其自动优化方法

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种基于人机交互机器翻译系统及其自动优化方法。

背景技术

随着深度学习技术的飞速发展，基于深度神经网络的机器翻译在质量上已实现质的飞跃。同时越来越多的公司开始推出人机交互机器翻译平台(以下简称人机翻译平台)，实现机器翻译和机器翻译翻译(CAT)之间的整合。人工译员借助人机翻译平台将机器翻译后的文本结果进行译后编辑，然后译后编辑的句对作为翻译资源加入记忆库，并作为下次类似文本翻译的推荐，同时人机交互翻译时可加入术语用于纠正翻译错误的词汇或短语。在一些政府机构或一些与互联网隔绝的单位，人机翻译平台使得机器翻译和机器辅助翻译形成优势互补，在大幅提升了翻译效率同时，也积累部分经过人工校译的高质量平行语料。如果能够在训练语料中融入一定规模的人工校译的高质量平行语料，可以有效提升模型在用户应用领域的翻译能力，但人工校译语料规模有限，单纯将该部分语料加入训练集进行模型训练发挥的作用有限。

此外，当前大部分平台提供的术语翻译功能，基本上是通过先翻译后替换实现，此方法虽然可以保证专业术语被正确翻译，但翻译过程中却丢掉了术语的上下文信息，无法保证最终翻译出的句子是最优结果。

发明内容

鉴于上述问题，本发明提供了一种基于人机交互机器翻译系统及其自动优化方法。

为解决上述技术问题，本发明采用的技术方案是：一种基于人机交互机器翻译系统的自动优化方法，包括：采用基础平行语料库训练机器翻译模型，获取基于所述机器翻译模型输出的结果经人工校译后的术语库和人工校译平行语料库，所述人工校译平行语料库包括目标语言端句子和原语言端句子；构建回环翻译模型，将所述原语言端句子输入至回环翻译模型，生成多个同义句；根据所述多个同义句与原语言端句子的相似度，挑选出同义句，并将挑选出的同义句与所述目标语言端句子一一结成句对，生成回环平行语料库；构建文本生成模型，将所述术语库中的术语输入至文本生成模型，生成一系列包含所述术语的用户领域句子，并将所述用户领域句子汇总后生成第一目标语言单语语料库；将所述目标语言端句子输入至文本生成模型，生成用户领域文章，并将所述用户领域文章拆分，生成第二目标语言单语语料库；构建回译模型，将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型，生成回译平行语料库；将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练。

作为优选方案，所述构建回环翻译模型，包括：选取与所述原语言端句子相对应的中间语言，构建从原语言到中间语言的机器翻译模型，然后构建从中间语言到同义语言的机器翻译模型。

作为优选方案，根据所述多个同义句与原语言端句子的相似度，挑选出同义句，包括：将原语言端句子表示为向量同义句表示为向量/>根据相似度计算公式计算出similarity值，所述相似度计算公式为

其中，similiarity∈(0,1)

若similiarity值>0.95，则挑选出所述同义句。

作为优选方案，还包括：从所述人工校译平行语料库中随机抽取若干句对，并对所述句对进行3-5倍重复扩充后，输入至机器翻译模型进行训练。

作为优选方案，所述生成回译平行语料库，包括：利用所述回译模型将第一目标语言单语语料库和第二目标语言单语语料库中的目标语言句子逐一翻译成原语言句子，然后将所述原语言句子和对应的目标语言句子一一结成句对，生成回译平行语料库。

作为优选方案，所述文本生成模型采用通用神经网络技术及其组合，或采用GPT2/GPT3文本生成技术及其变种。

本发明还提供了一种人机交互机器翻译系统，包括：语料库管理模块，用于存储基础平行语料库和人工校译平行语料库，并基于所述人工校译平行语料库生成回环平行语料库和目标语言单语语料库，同时基于所述目标语言单语语料库生成回译平行语料库，所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后生成总语料库；在线训练模块，用于接收所述总语料库，并利用所述总语料库对机器翻译模型进行训练；机器翻译模块，用于加载训练后的机器翻译模型，以提供翻译服务；机器辅助翻译模块，用于对机器翻译模块的输出结果提供人工校译功能。

作为优选方案，所述回环平行语料库通过以下步骤生成：构建回环翻译模型，将所述人工校译平行语料库中的原语言端句子输入至回环翻译模型，生成多个同义句；根据所述多个同义句与原语言端句子的相似度，挑选出同义句，并将挑选出的同义句与所述人工校译平行语料库中的目标语言端句子一一结成句对，生成回环平行语料库。

作为优选方案，所述目标语言单语语料库包括第一目标语言单语语料库和第二目标语言单语语料库，其通过以下步骤生成：构建文本生成模型，将所述术语库中的术语输入至文本生成模型，生成一系列包含所述术语的用户领域句子，并将所述用户领域句子汇总后生成第一目标语言单语语料库；将所述人工校译平行语料库中的目标语言端句子输入至文本生成模型，生成用户领域文章，并将所述用户领域文章拆分，生成第二目标语言单语语料库。

作为优选方案，所述回译平行语料库通过以下步骤生成：构建回译模型，利用所述回译模型将目标语言单语语料库中的目标语言句子逐一翻译成原语言句子；将所述原语言句子和对应的目标语言句子一一结成句对，生成回译平行语料库。

与现有技术相比，本发明实施例的有益效果包括：借助回环翻译技术及人工校译语料完成用户应用领域平行语料定向增强，通过文本生成技术基于用户术语以及人工校译语料的目标语言数据生成用户应用领域的单语语料，将用户应用领域内单语语料回译生成偏向用户应用领域的平行语料，在原生平行语料的基础上融入全部用户应用领域平行语料进行机器翻译模型自动在线训练。本发明实施例实现了机器翻译模型的自动优化，在降低人为干预的基础上保证了翻译质量的不断提升；由于借助回环翻译模型、文本生成及回译等技术手段自动构建了颇具规模的用户应用领域平行语料，使得平台自动优化的模型对用户业务领域的数据适应性更强，专业术语能够充分利用上下文信息翻译地更加精准，从而提升了用户体验。

附图说明

参照附图来说明本发明的公开内容。应当了解，附图仅仅用于说明目的，而并非意在对本发明的保护范围构成限制。在附图中，相同的附图标记用于指代相同的部件。其中：

图1为本发明实施例的基于人机交互机器翻译系统的自动优化方法的流程示意图；

图2为本发明实施例的人机交互机器翻译系统的结构示意图。

具体实施方式

容易理解，根据本发明的技术方案，在不变更本发明实质精神下，本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

本发明公开的一种基于人机交互机器翻译系统的自动优化方法应用于人机交互机器翻译系统中，该人机交互机器翻译系统至少包括语料库管理模块、机器翻译模块、机器辅助翻译模块、在线训练模块等。本发明实施例中，以原语言表示待翻译的语言，目标语言表示最终翻译成的语言。

根据本发明的一实施方式结合图1示出。一种基于人机交互机器翻译系统的自动优化方法，包括如下步骤：

步骤1，基础平行语料库建设：通过搜集开源平行语料、人工标注、双语网站语料爬取等多种途径完成基础平行语料库的建设。

步骤2，机器翻译模型训练并上线使用：基于基础平行语料库，利用序列到序列深度神经网络训练出基础机器翻译模型，线上部署机器翻译模型并应用。

步骤3，线上人工校译语料积累：机器翻译模型上线后，译员借助机器辅助翻译模块相关功能在机器翻译模型的输出结果基础上进行人工校译，同时积累用户应用领域的专业术语库和高质量的人工审核标注的人工校译平行语料库，其中，人工校译平行语料库包括目标语言端句子和原语言端句子。

步骤4，通过引入中间语言构建回环翻译模型：首先构建原语言到中间语言的机器翻译模型，然后构建中间语言到同义语言的翻译模型，从而构建了原语言→中间语言→同义语言的回环翻译模型，此步骤可按实际测试效果构建多个回环翻译模型。

具体的，为了降低整理语料的人工成本，便于利用开源公开的现成语料，优先选取与原语言的平行语料较多的中间语言(如原语言为英语，中间语言可选取法语、西班牙语、德语等语种)，构建原语言到中间语言的机器翻译模型，然后构建中间语言到同义语言的机器翻译模型，最终构建了原语言→中间语言→同义语言的回环翻译模型。

利用构建的回环翻译模型可生成原语言句子的同义句，如从原语言(英语)→中间语言(法语)→同义语言(英语)。为了增加原语言句子的多样性，按具体语种情况构建1-5个回环翻译模型。

步骤5，利用回环翻译模型生成回环平行语料库：将原语言端句子输入至回环翻译模型，生成多个同义句；根据所述多个同义句与原语言端句子的相似度，挑选出同义句，并将挑选出的同义句与所述目标语言端句子一一结成句对，生成回环平行语料库。

通过回环翻译完成用户应用领域内平行语料增强，以人工校译的高质量用户领域的平行语料为基础，借助回环翻译模型生成同义句，使得原语言端句子结构更加丰富多样。

本发明实施例中，将上述生成的同义句按照句子相似度算法进行比较，筛选出与原语言端句子相似度较高的句子，具体举例如下；

i.假设原语言为英语，原语言端句子为A，待筛选的同义句为B。

ii.引用英语bert预训练模型，分别表示句子A为向量句子B为向量/>

iii.定义相似度计算公式如下(其中，similiarity∈(0,1))：

iv.将句子A和句子B进行相似度计算后得到similarity值，如果similiarity>0.95，则看作B能够基本表达A的意思，句子B能够和句子A对应的目标语言端句子组合成一个平行语料句对。

优选的，为了增强语料库的适应性，从生成的多个同义句中以5％的概率随机抽样作为噪声数据，该噪声数据直接与对应的目标语言端句子结成句对，加入到回环平行语料库中。

步骤6，借助用户应用领域数据构建文本生成模型：基于用户积累的用户领域单语语料库和人工校译平行语料库的目标语言端句子，利用神经网络技术构建文本生成模型。文本生成模型采用通用神经网络技术及其组合，或采用GPT2/GPT3文本生成技术及其变种。

步骤7，使用文本生成模型围绕用户术语生成目标语言单语语料D：利用文本生成模型，以术语库做输入，生成一系列包含用户术语又接近用户应用领域的目标语言句子，保证术语更恰当地融入到句子结构中，所有句子汇总后形成目标语言单语语料库D。

步骤8，使用文本生成模型围绕人工校译语料库生成目标语言单语语料库E：利用文本生成模型，逐一以人工校译语料库的目标语言端句子做输入，生成接近用户应用领域的用户领域文章，并将用户领域文章拆分，生成目标语言单语语料库E。

步骤9，使用回译模型将目标语言单语语料库扩充为回译平行语料库：训练一个从目标语言到原语言的回译模型，利用该模型将目标语言单语语料库D和目标语言单语语料库E进行目标语言到原语言方向的翻译，即将目标语言单语语料库D和目标语言单语语料库E中目标语言句子逐一翻译成原语言句子，然后将所述原语言句子和对应的目标语言句子一一结成句对，形成回译平行语料库。

步骤10，机器翻译模型在线训练：将基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练，训练完成并评估后上线导入机器翻译模块投入使用。

步骤11，在实际使用过程中不断反复循环上述步骤。

此外，该方法还包括：从人工校译平行语料库中随机抽取若干句对，并对句对进行3-5倍重复扩充后，输入至机器翻译模型进行训练。

参见图2，本发明还提供了一种人机交互机器翻译系统，包括：

语料库管理模块，用于存储基础平行语料库和人工校译平行语料库，并基于人工校译平行语料库生成回环平行语料库和目标语言单语语料库，同时基于目标语言单语语料库生成回译平行语料库，基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后生成总语料库。

在线训练模块，具有模型发布、模型测试、在线训练和模型管理功能，用于接收总语料库，并利用总语料库对机器翻译模型进行训练，训练完成后在线发布该机器翻译模型到机器翻译模块。

机器翻译模块，具有文本翻译、文档翻译、模型应用和模型加载功能，用于加载和应用训练后的机器翻译模型，以提供翻译服务。

机器辅助翻译模块，具有术语管理、翻译记忆、翻译推荐、人工校译和语料生成等辅助翻译功能，用于对机器翻译模块的输出结果提供人工校译功能。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

应理解，所述集成的单元或系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明实施例公开了一种基于人机交互机器翻译系统及其自动优化方法，其有益效果包括：借助回环翻译技术及人工校译语料完成用户应用领域平行语料定向增强，通过文本生成技术基于用户术语以及人工校译语料的目标语言数据生成用户应用领域的单语语料，将用户应用领域内单语语料回译生成偏向用户应用领域的平行语料，在原生平行语料的基础上融入全部用户应用领域平行语料进行机器翻译模型自动在线训练。本发明实施例实现了机器翻译模型的自动优化，在降低人为干预的基础上保证了翻译质量的不断提升；由于借助回环翻译模型、文本生成及回译等技术手段自动构建了颇具规模的用户应用领域平行语料，使得平台自动优化的模型对用户业务领域的数据适应性更强，专业术语能够充分利用上下文信息翻译地更加精准，从而提升了用户体验。

本发明的技术范围不仅仅局限于上述说明中的内容，本领域技术人员可以在不脱离本发明技术思想的前提下，对上述实施例进行多种变形和修改，而这些变形和修改均应当属于本发明的保护范围内。

Claims

1.一种基于人机交互机器翻译系统的自动优化方法，其特征在于，包括：

采用基础平行语料库训练机器翻译模型，获取基于所述机器翻译模型输出结果经人工校译后的术语库和人工校译平行语料库，所述人工校译平行语料库包括目标语言端句子和原语言端句子；

构建回环翻译模型，将所述原语言端句子输入至回环翻译模型，生成多个同义句；

根据所述多个同义句与原语言端句子的相似度，挑选出同义句，并将挑选出的同义句与所述目标语言端句子一一结成句对，生成回环平行语料库；

构建文本生成模型，将所述术语库中的术语输入至文本生成模型，生成一系列包含所述术语的用户领域句子，并将所述用户领域句子汇总后生成第一目标语言单语语料库；

将所述目标语言端句子输入至文本生成模型，生成用户领域文章，并将所述用户领域文章拆分，生成第二目标语言单语语料库；

构建回译模型，将所述第一目标语言单语语料库和第二目标语言单语语料库输入至回译模型，生成回译平行语料库；

将所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后输入至机器翻译模型进行训练；

其中，所述构建回环翻译模型，包括：选取与所述原语言端句子相对应的中间语言，构建从原语言到中间语言的机器翻译模型，然后构建从中间语言到同义语言的机器翻译模型；

所述生成回译平行语料库，包括：利用所述回译模型将第一目标语言单语语料库和第二目标语言单语语料库中的目标语言句子逐一翻译成原语言句子，然后将所述原语言句子和对应的目标语言句子一一结成句对，生成回译平行语料库。

2.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法，其特征在于，根据所述多个同义句与原语言端句子的相似度，挑选出同义句，包括：

将原语言端句子表示为向量，同义句表示为向量/>；

根据相似度计算公式计算出similarity值，所述相似度计算公式为

，其中，/>；

若similiarity值 > 0.95，则挑选出所述同义句。

3.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法，其特征在于，还包括：从所述人工校译平行语料库中随机抽取若干句对，并对所述句对进行3-5倍重复扩充后，输入至机器翻译模型进行训练。

4.根据权利要求1所述的基于人机交互机器翻译系统的自动优化方法，其特征在于，所述文本生成模型采用通用神经网络技术及其组合，或采用GPT2/GPT3文本生成技术及其变种。

5.一种人机交互机器翻译系统，其特征在于，包括：

语料库管理模块，用于存储基础平行语料库和人工校译平行语料库，并基于所述人工校译平行语料库生成回环平行语料库和目标语言单语语料库，同时基于所述目标语言单语语料库生成回译平行语料库，所述基础平行语料库、人工校译平行语料库、回环平行语料库和回译平行语料库汇总后生成总语料库；

在线训练模块，用于接收所述总语料库，并利用所述总语料库对机器翻译模型进行训练；

机器翻译模块，用于加载训练后的机器翻译模型，以提供翻译服务；

机器辅助翻译模块，用于对机器翻译模块的输出结果提供人工校译功能；

其中，所述回环平行语料库通过以下步骤生成：构建回环翻译模型，将所述人工校译平行语料库中的原语言端句子输入至回环翻译模型，生成多个同义句；根据所述多个同义句与原语言端句子的相似度，挑选出同义句，并将挑选出的同义句与所述人工校译平行语料库中的目标语言端句子一一结成句对，生成回环平行语料库；

所述构建回环翻译模型，包括：选取与所述原语言端句子相对应的中间语言，构建从原语言到中间语言的机器翻译模型，然后构建从中间语言到同义语言的机器翻译模型；

所述目标语言单语语料库包括第一目标语言单语语料库和第二目标语言单语语料库，其通过以下步骤生成：构建文本生成模型，将术语库中的术语输入至文本生成模型，生成一系列包含所述术语的用户领域句子，并将所述用户领域句子汇总后生成第一目标语言单语语料库；将所述人工校译平行语料库中的目标语言端句子输入至文本生成模型，生成用户领域文章，并将所述用户领域文章拆分，生成第二目标语言单语语料库；

所述回译平行语料库通过以下步骤生成：构建回译模型，利用所述回译模型将目标语言单语语料库中的目标语言句子逐一翻译成原语言句子；将所述原语言句子和对应的目标语言句子一一结成句对，生成回译平行语料库。