CN112101047A

CN112101047A - 一种面向小语种包含精确术语匹配的机器翻译方法

Info

Publication number: CN112101047A
Application number: CN202010786081.8A
Authority: CN
Inventors: 刘均伟; 梁钦; 段轶
Original assignee: Jiangsu Jinling Sci&tech Group Co ltd
Current assignee: Jiangsu Jinling Sci&tech Group Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-12-18

Abstract

本发明公开了一种面向小语种包含精确术语匹配的机器翻译方法，包括如下步骤：平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。

Description

一种面向小语种包含精确术语匹配的机器翻译方法

技术领域：

本发明属于语言文字处理技术领域，特别涉及一种面向小语种包含精确术语匹配的机器翻译方法。

背景技术：

随着神经机器翻译技术的迅速发展，越来越多的译员开始采用神经机器翻译来帮助自己完成翻译任务，目前神经机器翻译技术已相对成熟，通常经过平行语料收集/标注、语料预处理、二值化处理、模型训练、模型服务化等过程完成机器翻译引擎构建，最终提供机器翻译服务。其中，平行语料是一种稀缺资源，尤其是小语种与汉语方向的平行语料，例如维语到汉语、泰语到汉语、蒙古语到汉语，但目前工业级的机器翻译应用还主要是依赖于平行语料的监督学习方法为主，没有百万级以上的平行语料规模很难训练出有实战意义的小语种到汉语的神经翻译模型。另外，对行业术语大多数机器翻译引擎很难翻译得准确，相对普遍的方式是对术语翻译进行译前干预，让译员可以导入指定的双语术语构建术语库，进行翻译时将待翻译文本中的术语用占位符进行替换，利用机器翻译引擎和预先建立的术语库，对替换后的待翻译文本进行翻译和术语替换，但是目前大部分的替换方法比较武断，在模型训练和翻译过程中没有考虑短语结构，很容易将句子中原有的句子结构破坏，影响最终的翻译质量。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容：

针对上述背景以及技术不足，本发明公开了一种面向小语种包含精确术语匹配的机器翻译方法。该方法旨改进数据稀疏的小语种到汉语的机器翻译方法及模型训练及应用过程中各个环节的易用性以及整体的使用效率及体验。

为实现上述目的，本发明提供了一种面向小语种包含精确术语匹配的机器翻译方法，包括如下步骤：平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。

优选地，上述技术方案中，首先收集待翻译小语种到非汉语大语种、非汉语大语种到汉语的平行语料、待翻译小语种到汉语的平行语料、汉语单语语料、待翻译小语种与汉语双语术语词典库，借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成待翻译小语种到汉语的大规模平行语料集，然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练，最后在翻译过程中融入精确术语匹配处理，最终完成包含术语翻译的待翻译小语种到汉语的神经机器翻译。

优选地，上述技术方案中，详细的步骤如下：

步骤1，语料收集：虽然公开的数据集中待翻译小语种到汉语的平行语料较少，但非汉语大语种与汉语、待翻译小语种与非汉语大语种的双语平行语料以及汉语单语语料相对较多，从公开的数据集中筛选出以下质量较高的语料：至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A，待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B，待翻译小语种与汉语的双语平行语料、以下称平行语料C，汉语单语语料、以下称语料X，待翻译小语种与汉语双语术语词典库(里面是源语言是待翻译小语种，目的语言是汉语的词对)；

步骤2，非汉语大语种与汉语神经机器翻译模型训练：基于平行语料A，利用深度神经网络训练出非汉语大语种到汉语方向的神经机器翻译模型；

步骤3，扩充待翻译小语种和汉语平行语料：利用新训练的非汉语大语种与汉语神经机器翻译模型，将平行语料B中的非汉语大语种语料翻译成汉语，形成待翻译小语种与汉语的双语平行语料D；

步骤4，汉语和待翻译小语种统计机器翻译模型训练：以平行语料C、平行语料D为基础，分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到待翻译小语种的统计机器翻译模型；

步骤5，汉语和待翻译小语种神经机器翻译模型训练：以平行语料C、平行语料D为基础，分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到待翻译小语种的神经机器翻译模型；

步骤6，基于汉语和待翻译小语种统计机器翻译进行语料扩充：利用步骤4训练的多个汉语和待翻译小语种统计机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料，形成待翻译小语种与汉语的双语平行语料E；

步骤7，基于汉语和待翻译小语种神经机器翻译进行语料扩充：利用步骤5训练的多个汉印神经机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料，形成待翻译小语种与汉语的双语平行语料F；

步骤8，构建自动机双数组前缀树：机器翻译实际用户将积累的领域内待翻译小语种与汉语双语术语词典导入机器翻译系统，生成自动机双数组前缀树，用于待翻译句子潜在术语检索；

步骤9，生成术语占位符训练语料：借助待翻译小语种与汉语双语术语词典库，遍历平行语料E和平行语料F，借助自动机双数组前缀树搜索待翻译小语种句子中包含待翻译小语种术语，并且对应的汉语句子中包含待翻译小语种术语对应的汉语译文的所有平行句对，将查找到的句对利用自然语言处理工具进行句法分析，进一步判断该术语在句子中的成分是否为名词或短语，如果是则将对应的双语句子中的术语以及译文替换成占位符，考虑到单个句子中可能会出现多个术语，可以通过替换成多个不同的占位符生成多条平行语料，最终生成占位符平行语料G；

步骤10，待翻译小语种和汉语神经机器翻译模型训练：经过上述步骤，已经通过多种途径收集或生成了平行语料C、平行语料E、平行语料F、平行语料G，从多种途径完成了待翻译小语种与汉语的双语平行语料的数据增强；针对最终形成的待翻译小语种与汉语平行语料，利用神经机器翻译训练出待翻译小语种到汉语的基于Transformer的神经机器翻译模型；

步骤11，待翻译小语种和汉语神经机器翻译模型应用：输入待翻译的待翻译小语种语句，借助自动机双数组前缀树搜索句子中是否包含潜在术语，如果包含则借助利用自然语言处理工具对待翻译句子进行句法分析，进一步判断该术语在句子中的成分是否为名词或短语，如果是则将搜索到的术语替换成占位符，然后调用待翻译小语种和汉语神经机器翻译模型完成待翻译的待翻译小语种句子推理得到汉语译文，将汉语译文中的占位符替换成术语对应的汉语译文，完成包含术语翻译的机器翻译过程，如果自动机双数组前缀树没有搜索到潜在术语，则直接翻译得到汉语译文。

优选地，上述技术方案中，汉语也可以换成其他待翻译语种，

优选地，上述技术方案中，非汉语大语种为英语、俄语、阿拉伯语、法语和西班牙语，所述待翻译小语种是非汉语大语种以外的其他各类世界通行语种。

与现有技术相比，本发明具有如下有益效果：

本发明提供的机器翻译方法融合了多种不同形式来源的平行语料完成了最终的数据增强，解决了小语种到汉语方向平行语料少的难题，在保证可用性的基础上降低了小语种到汉语机器翻译引擎构建成本，同时该方法在模型训练和翻译过程中引入了精确匹配用户术语处理流程，保证术语翻译的可信度，提升了系统的实用性，加强了用户体验。

附图说明：

图1是本发明收集处理的语料集；

图2是本发明的流程图。

具体实施方式：

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

本发明提出一种方法，首先收集待翻译小语种(下文以印地语为例，但本发明方法不限于印地语，其他小语种适用)到非汉语大语种(下文以英语为例，但本发明方法不限于英语，其他大语种适用)、非汉语大语种(如上文，以英语为例)到汉语的平行语料、印地语到汉语的平行语料、汉语单语语料、印地语与汉语双语术语词典库，借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成印地语到汉语的大规模平行语料集，然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练，最后在翻译过程中融入精确术语匹配处理，最终完成包含术语翻译的印地语到汉语的神经机器翻译。详细的步骤如下：

1.语料收集：虽然公开的数据集中印地语到汉语的平行语料较少，但英语与汉语、印地语与英语的双语平行语料以及汉语单语语料相对较多，从公开的数据集中筛选出以下质量较高的语料：至少千万级别的英语与汉语的双语平行语料(以下称为平行语料A)、印地语与英语的双语平行语料(以下称平行语料B)、印地语与汉语的双语平行语料(以下称平行语料C)，汉语单语语料(以下称语料X)、印地语与汉语双语术语词典库(里面是源语言是印地语，目的语言是汉语的词对)；

2.英汉神经机器翻译模型训练：基于平行语料A，利用深度神经网络训练出英语到汉语方向的神经机器翻译模型；

3.扩充印汉平行语料：利用新训练的英汉翻译模型，将平行语料B中的英语语料翻译成汉语，形成印地语与汉语的双语平行语料D；

4.汉印统计机器翻译模型训练：以平行语料C、平行语料D为基础，分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到印地语的统计机器翻译模型；

5.汉印神经机器翻译模型训练：以平行语料C、平行语料D为基础，分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到印地语的神经机器翻译模型；

6.基于汉印统计机器翻译进行语料扩充：利用步骤4训练的多个汉印统计机器翻译模型分别将汉语单语语料X翻译成印地语语料，形成印地语与汉语的双语平行语料E；

7.基于汉印神经机器翻译进行语料扩充：利用步骤5训练的多个汉印神经机器翻译模型分别将汉语单语语料X翻译成印地语语料，形成印地语与汉语的双语平行语料F；

8.构建自动机双数组前缀树：机器翻译实际用户将积累的领域内印地语与汉语双语术语词典导入机器翻译系统，生成自动机双数组前缀树，用于待翻译句子潜在术语检索；

9.生成术语占位符训练语料：借助印地语与汉语双语术语词典库，遍历平行语料E和平行语料F，借助自动机双数组前缀树搜索印地语句子中包含印地语术语，并且对应的汉语句子中包含印地语术语对应的汉语译文的所有平行句对，将查找到的句对利用自然语言处理工具进行句法分析，进一步判断该术语在句子中的成分是否为名词或短语，如果是则将对应的双语句子中的术语以及译文替换成占位符，考虑到单个句子中可能会出现多个术语，可以通过替换成多个不同的占位符生成多条平行语料，最终生成占位符平行语料G；

10.印汉神经机器翻译模型训练：经过上述步骤，已经通过多种途径收集或生成了平行语料C、平行语料E、平行语料F、平行语料G，从多种途径完成了印地语与汉语的双语平行语料的数据增强。针对最终形成的印地语与汉语平行语料，利用神经机器翻译训练出印地语到汉语的基于Transformer的神经机器翻译模型；

印汉神经机器翻译模型应用：输入待翻译的印地语语句，借助自动机双数组前缀树搜索句子中是否包含潜在术语，如果包含则借助利用自然语言处理工具对待翻译句子进行句法分析，进一步判断该术语在句子中的成分是否为名词或短语，如果是则将搜索到的术语替换成占位符，然后调用印汉神经机器翻译模型完成待翻译的印地语句子推理得到汉语译文，将汉语译文中的占位符替换成术语对应的汉语译文，完成包含术语翻译的机器翻译过程，如果自动机双数组前缀树没有搜索到潜在术语，则直接翻译得到汉语译文。

下面结合附图2对本发明的最佳实施方式进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

1.收集处理语料集。印地语这类小语种的语料是比较稀缺的，需要尽可能多的收集与印地语相关的语料，主要包括如下过程：

a)收集英语与汉语的双语平行语料，此平行语料最终用于训练翻译模型用于将印地语与英语平行语料转换成印地语与汉语的平行语料，故要求保证该语料数据规模和质量；

b)收集印地语与英语的双语平行语料，通过后面训练地英汉机器翻译模型可以将其中地英语语料翻译成汉语形成印地语与汉语平行语料；

c)收集印地语与汉语的双语平行语料；

d)收集通用领域汉语单语语料，此部分语料作为目标端语言通过印汉翻译模型翻译生成大规模的印地语与汉语平行语料，要求语料覆盖面要广，文本质量要高；

e)收集印地语与汉语双语术语词典，该术语词典主要用于生成带占位符的印地语与汉语平行语料，术语以名词和短语为主，规模无须太大。

2.多途径完成数据增强。充分利用收集到的各类语料通过多种途径和层次进行数据增强，让系统获得更多不同样式的句子来学习，同时避免过拟合问题。主要通过以下途径完成数据增强：

a)利用大规模英汉平行语料训练出效果极佳的英汉神经机器翻译模型，然后基于英汉神经机器翻译模型将收集到的印地语与英语平行语料转化为印地语与汉语平行语料；

b)基于收集和生成的所有印地语与汉语平行语料，利用基于短语的统计机器翻译方法训练汉语到印地语机器翻译模型，然后使用该模型将汉语单语语料进行翻译形成一类印地语与汉语的平行语料；

c)基于收集和生成的所有印地语与汉语平行语料，利用基于句法的统计机器翻译方法训练汉语到印地语机器翻译模型，然后使用该模型将汉语单语语料进行翻译形成一份印地语与汉语的平行语料；

d)基于收集和生成的所有印地语与汉语平行语料，利用基于卷积网络的神经机器翻译方法训练汉语到印地语机器翻译模型，然后使用该模型将汉语单语语料进行翻译形成一份印地语与汉语的平行语料；

e)基于收集和生成的所有印地语与汉语平行语料，利用基于Transformer模型的神经机器翻译方法训练汉语到印地语机器翻译模型，然后使用该模型将汉语单语语料进行翻译形成一份印地语与汉语的平行语料；

f)将上述所有收集的和生成的印地语与汉语语料进行汇总形成规模比较大的平行语料；

g)基于形成的大规模印地语与汉语平行语料，利用精确术语匹配方法生成带占位符的印地语与汉语平行语料加入到之前的平行语料中，在生成占位符语料的同时也进一步增强了句子的多样性。

3.精确术语匹配。在模型训练前的语料处理和模型训练完成后的模型推理都会涉及到术语匹配的流程，为了达到精确匹配的效果，避免正常的名词或短语被分割影响翻译质量，需要经过以下步骤：

a)首先利用印地语与汉语双语术语词典构建自动机双数组前缀树，利用该前缀树可以高效地进行术语检索；

b)将待翻译句子利用自动机双数组前缀树进行潜在术语搜索，如果句子中搜索到术语进行下一步；

c)对搜索到术语的平行语料句对的原始语言端句子利用斯坦福自然语言处理工具进行句法分析生成句子解析树，如果搜索到的术语在句子解析树中为名词或者短语则将该术语看作为真正的术语，以汉语“中国科学院研究团队发现新型冠状病毒已突变”进行句法分析为例，生成如下句子解析树，举例如下：

i.

ii.假设术语词典中存在“学院”这个术语，但很显然这个“学院”在句子结构中是名词“科学院”的一部分，故不看作术语；

iii.假设术语词典中存在“状病”这个术语，但实际“状病”这个词在句子结构中是名词“冠状”和“病毒”各取一部分组成的，故不看作术语；

iv.假设术语词典中存在“冠状病毒”这个术语，从句子解析树看，这个虽然跨越两个名词“冠状”和“病毒”，但两个名词都是完整的，且组合后形成了一个名词短语，故可以看作术语；

4.包含术语翻译的机器翻译过程。用户要想在实际中应用本发明中介绍的包含术语翻译的机器翻译功能，首先要按照本文介绍的方法进行印汉神经机器翻译模型训练，其次用户需要积累自身业务领域的术语词典，拥有模型和术语词典后，经过以下步骤即可完成翻译；

a)待翻译印地语文本进行精确术语匹配，将匹配到的术语替换成占位符，如果搜索到多个术语，则将搜索到的术语分别替换成多个不同的占位符；

b)将术语替换过的待翻译印地语文本，输入印汉神经机器翻译模型进行推理，输出汉语译文的中间结果；

将汉语译文中间结果中的占位符逐一替换成用户术语词典中术语对应的汉语译文，输出最终的机器翻译结果。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.面向小语种包含精确术语匹配的机器翻译方法，其特征在于：包括如下步骤：平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。

2.根据权利要求1所述的面向小语种包含精确术语匹配的机器翻译方法，其特征在于：首先收集待翻译小语种到非汉语大语种、非汉语大语种到汉语的平行语料、待翻译小语种到汉语的平行语料、汉语单语语料、待翻译小语种与汉语双语术语词典库，借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成待翻译小语种到汉语的大规模平行语料集，然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练，最后在翻译过程中融入精确术语匹配处理，最终完成包含术语翻译的待翻译小语种到汉语的神经机器翻译。

3.根据权利要求2所述的面向小语种包含精确术语匹配的机器翻译方法，其特征在于：详细的步骤如下：

步骤1，语料收集：从公开的数据集中筛选出以下质量较高的语料：至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A，待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B，待翻译小语种与汉语的双语平行语料、以下称平行语料C，汉语单语语料、以下称语料X，待翻译小语种与汉语双语术语词典库；

4.根据权利要求2或3所述的面向小语种包含精确术语匹配的机器翻译方法，其特征在于：汉语也可以换成其他待翻译语种。

5.根据权利要求2或3所述的面向小语种包含精确术语匹配的机器翻译方法，其特征在于：非汉语大语种为英语、俄语、阿拉伯语、法语和西班牙语，所述待翻译小语种是非汉语大语种以外的其他各类世界通行语种。

6.根据权利要求3所述的面向小语种包含精确术语匹配的机器翻译方法，其特征在于：待翻译小语种与汉语双语术语词典库里面是源语言是待翻译小语种，目的语言是汉语的词对。