CN112101047A - 一种面向小语种包含精确术语匹配的机器翻译方法 - Google Patents
一种面向小语种包含精确术语匹配的机器翻译方法 Download PDFInfo
- Publication number
- CN112101047A CN112101047A CN202010786081.8A CN202010786081A CN112101047A CN 112101047 A CN112101047 A CN 112101047A CN 202010786081 A CN202010786081 A CN 202010786081A CN 112101047 A CN112101047 A CN 112101047A
- Authority
- CN
- China
- Prior art keywords
- chinese
- translated
- machine translation
- language
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 183
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000001537 neural effect Effects 0.000 claims abstract description 62
- 238000004458 analytical method Methods 0.000 claims abstract description 11
- 230000000694 effects Effects 0.000 claims abstract description 5
- 230000014616 translation Effects 0.000 claims description 175
- 238000012549 training Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 241000711573 Coronaviridae Species 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
Abstract
本发明公开了一种面向小语种包含精确术语匹配的机器翻译方法,包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。
Description
技术领域:
本发明属于语言文字处理技术领域,特别涉及一种面向小语种包含精确术语匹配的机器翻译方法。
背景技术:
随着神经机器翻译技术的迅速发展,越来越多的译员开始采用神经机器翻译来帮助自己完成翻译任务,目前神经机器翻译技术已相对成熟,通常经过平行语料收集/标注、语料预处理、二值化处理、模型训练、模型服务化等过程完成机器翻译引擎构建,最终提供机器翻译服务。其中,平行语料是一种稀缺资源,尤其是小语种与汉语方向的平行语料,例如维语到汉语、泰语到汉语、蒙古语到汉语,但目前工业级的机器翻译应用还主要是依赖于平行语料的监督学习方法为主,没有百万级以上的平行语料规模很难训练出有实战意义的小语种到汉语的神经翻译模型。另外,对行业术语大多数机器翻译引擎很难翻译得准确,相对普遍的方式是对术语翻译进行译前干预,让译员可以导入指定的双语术语构建术语库,进行翻译时将待翻译文本中的术语用占位符进行替换,利用机器翻译引擎和预先建立的术语库,对替换后的待翻译文本进行翻译和术语替换,但是目前大部分的替换方法比较武断,在模型训练和翻译过程中没有考虑短语结构,很容易将句子中原有的句子结构破坏,影响最终的翻译质量。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容:
针对上述背景以及技术不足,本发明公开了一种面向小语种包含精确术语匹配的机器翻译方法。该方法旨改进数据稀疏的小语种到汉语的机器翻译方法及模型训练及应用过程中各个环节的易用性以及整体的使用效率及体验。
为实现上述目的,本发明提供了一种面向小语种包含精确术语匹配的机器翻译方法,包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。
优选地,上述技术方案中,首先收集待翻译小语种到非汉语大语种、非汉语大语种到汉语的平行语料、待翻译小语种到汉语的平行语料、汉语单语语料、待翻译小语种与汉语双语术语词典库,借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成待翻译小语种到汉语的大规模平行语料集,然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练,最后在翻译过程中融入精确术语匹配处理,最终完成包含术语翻译的待翻译小语种到汉语的神经机器翻译。
优选地,上述技术方案中,详细的步骤如下:
步骤1,语料收集:虽然公开的数据集中待翻译小语种到汉语的平行语料较少,但非汉语大语种与汉语、待翻译小语种与非汉语大语种的双语平行语料以及汉语单语语料相对较多,从公开的数据集中筛选出以下质量较高的语料:至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A,待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B,待翻译小语种与汉语的双语平行语料、以下称平行语料C,汉语单语语料、以下称语料X,待翻译小语种与汉语双语术语词典库(里面是源语言是待翻译小语种,目的语言是汉语的词对);
步骤2,非汉语大语种与汉语神经机器翻译模型训练:基于平行语料A,利用深度神经网络训练出非汉语大语种到汉语方向的神经机器翻译模型;
步骤3,扩充待翻译小语种和汉语平行语料:利用新训练的非汉语大语种与汉语神经机器翻译模型,将平行语料B中的非汉语大语种语料翻译成汉语,形成待翻译小语种与汉语的双语平行语料D;
步骤4,汉语和待翻译小语种统计机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到待翻译小语种的统计机器翻译模型;
步骤5,汉语和待翻译小语种神经机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到待翻译小语种的神经机器翻译模型;
步骤6,基于汉语和待翻译小语种统计机器翻译进行语料扩充:利用步骤4训练的多个汉语和待翻译小语种统计机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料E;
步骤7,基于汉语和待翻译小语种神经机器翻译进行语料扩充:利用步骤5训练的多个汉印神经机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料F;
步骤8,构建自动机双数组前缀树:机器翻译实际用户将积累的领域内待翻译小语种与汉语双语术语词典导入机器翻译系统,生成自动机双数组前缀树,用于待翻译句子潜在术语检索;
步骤9,生成术语占位符训练语料:借助待翻译小语种与汉语双语术语词典库,遍历平行语料E和平行语料F,借助自动机双数组前缀树搜索待翻译小语种句子中包含待翻译小语种术语,并且对应的汉语句子中包含待翻译小语种术语对应的汉语译文的所有平行句对,将查找到的句对利用自然语言处理工具进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将对应的双语句子中的术语以及译文替换成占位符,考虑到单个句子中可能会出现多个术语,可以通过替换成多个不同的占位符生成多条平行语料,最终生成占位符平行语料G;
步骤10,待翻译小语种和汉语神经机器翻译模型训练:经过上述步骤,已经通过多种途径收集或生成了平行语料C、平行语料E、平行语料F、平行语料G,从多种途径完成了待翻译小语种与汉语的双语平行语料的数据增强;针对最终形成的待翻译小语种与汉语平行语料,利用神经机器翻译训练出待翻译小语种到汉语的基于Transformer的神经机器翻译模型;
步骤11,待翻译小语种和汉语神经机器翻译模型应用:输入待翻译的待翻译小语种语句,借助自动机双数组前缀树搜索句子中是否包含潜在术语,如果包含则借助利用自然语言处理工具对待翻译句子进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将搜索到的术语替换成占位符,然后调用待翻译小语种和汉语神经机器翻译模型完成待翻译的待翻译小语种句子推理得到汉语译文,将汉语译文中的占位符替换成术语对应的汉语译文,完成包含术语翻译的机器翻译过程,如果自动机双数组前缀树没有搜索到潜在术语,则直接翻译得到汉语译文。
优选地,上述技术方案中,汉语也可以换成其他待翻译语种,
优选地,上述技术方案中,非汉语大语种为英语、俄语、阿拉伯语、法语和西班牙语,所述待翻译小语种是非汉语大语种以外的其他各类世界通行语种。
与现有技术相比,本发明具有如下有益效果:
本发明提供的机器翻译方法融合了多种不同形式来源的平行语料完成了最终的数据增强,解决了小语种到汉语方向平行语料少的难题,在保证可用性的基础上降低了小语种到汉语机器翻译引擎构建成本,同时该方法在模型训练和翻译过程中引入了精确匹配用户术语处理流程,保证术语翻译的可信度,提升了系统的实用性,加强了用户体验。
附图说明:
图1是本发明收集处理的语料集;
图2是本发明的流程图。
具体实施方式:
下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
本发明提出一种方法,首先收集待翻译小语种(下文以印地语为例,但本发明方法不限于印地语,其他小语种适用)到非汉语大语种(下文以英语为例,但本发明方法不限于英语,其他大语种适用)、非汉语大语种(如上文,以英语为例)到汉语的平行语料、印地语到汉语的平行语料、汉语单语语料、印地语与汉语双语术语词典库,借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成印地语到汉语的大规模平行语料集,然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练,最后在翻译过程中融入精确术语匹配处理,最终完成包含术语翻译的印地语到汉语的神经机器翻译。详细的步骤如下:
1.语料收集:虽然公开的数据集中印地语到汉语的平行语料较少,但英语与汉语、印地语与英语的双语平行语料以及汉语单语语料相对较多,从公开的数据集中筛选出以下质量较高的语料:至少千万级别的英语与汉语的双语平行语料(以下称为平行语料A)、印地语与英语的双语平行语料(以下称平行语料B)、印地语与汉语的双语平行语料(以下称平行语料C),汉语单语语料(以下称语料X)、印地语与汉语双语术语词典库(里面是源语言是印地语,目的语言是汉语的词对);
2.英汉神经机器翻译模型训练:基于平行语料A,利用深度神经网络训练出英语到汉语方向的神经机器翻译模型;
3.扩充印汉平行语料:利用新训练的英汉翻译模型,将平行语料B中的英语语料翻译成汉语,形成印地语与汉语的双语平行语料D;
4.汉印统计机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到印地语的统计机器翻译模型;
5.汉印神经机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到印地语的神经机器翻译模型;
6.基于汉印统计机器翻译进行语料扩充:利用步骤4训练的多个汉印统计机器翻译模型分别将汉语单语语料X翻译成印地语语料,形成印地语与汉语的双语平行语料E;
7.基于汉印神经机器翻译进行语料扩充:利用步骤5训练的多个汉印神经机器翻译模型分别将汉语单语语料X翻译成印地语语料,形成印地语与汉语的双语平行语料F;
8.构建自动机双数组前缀树:机器翻译实际用户将积累的领域内印地语与汉语双语术语词典导入机器翻译系统,生成自动机双数组前缀树,用于待翻译句子潜在术语检索;
9.生成术语占位符训练语料:借助印地语与汉语双语术语词典库,遍历平行语料E和平行语料F,借助自动机双数组前缀树搜索印地语句子中包含印地语术语,并且对应的汉语句子中包含印地语术语对应的汉语译文的所有平行句对,将查找到的句对利用自然语言处理工具进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将对应的双语句子中的术语以及译文替换成占位符,考虑到单个句子中可能会出现多个术语,可以通过替换成多个不同的占位符生成多条平行语料,最终生成占位符平行语料G;
10.印汉神经机器翻译模型训练:经过上述步骤,已经通过多种途径收集或生成了平行语料C、平行语料E、平行语料F、平行语料G,从多种途径完成了印地语与汉语的双语平行语料的数据增强。针对最终形成的印地语与汉语平行语料,利用神经机器翻译训练出印地语到汉语的基于Transformer的神经机器翻译模型;
印汉神经机器翻译模型应用:输入待翻译的印地语语句,借助自动机双数组前缀树搜索句子中是否包含潜在术语,如果包含则借助利用自然语言处理工具对待翻译句子进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将搜索到的术语替换成占位符,然后调用印汉神经机器翻译模型完成待翻译的印地语句子推理得到汉语译文,将汉语译文中的占位符替换成术语对应的汉语译文,完成包含术语翻译的机器翻译过程,如果自动机双数组前缀树没有搜索到潜在术语,则直接翻译得到汉语译文。
下面结合附图2对本发明的最佳实施方式进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
1.收集处理语料集。印地语这类小语种的语料是比较稀缺的,需要尽可能多的收集与印地语相关的语料,主要包括如下过程:
a)收集英语与汉语的双语平行语料,此平行语料最终用于训练翻译模型用于将印地语与英语平行语料转换成印地语与汉语的平行语料,故要求保证该语料数据规模和质量;
b)收集印地语与英语的双语平行语料,通过后面训练地英汉机器翻译模型可以将其中地英语语料翻译成汉语形成印地语与汉语平行语料;
c)收集印地语与汉语的双语平行语料;
d)收集通用领域汉语单语语料,此部分语料作为目标端语言通过印汉翻译模型翻译生成大规模的印地语与汉语平行语料,要求语料覆盖面要广,文本质量要高;
e)收集印地语与汉语双语术语词典,该术语词典主要用于生成带占位符的印地语与汉语平行语料,术语以名词和短语为主,规模无须太大。
2.多途径完成数据增强。充分利用收集到的各类语料通过多种途径和层次进行数据增强,让系统获得更多不同样式的句子来学习,同时避免过拟合问题。主要通过以下途径完成数据增强:
a)利用大规模英汉平行语料训练出效果极佳的英汉神经机器翻译模型,然后基于英汉神经机器翻译模型将收集到的印地语与英语平行语料转化为印地语与汉语平行语料;
b)基于收集和生成的所有印地语与汉语平行语料,利用基于短语的统计机器翻译方法训练汉语到印地语机器翻译模型,然后使用该模型将汉语单语语料进行翻译形成一类印地语与汉语的平行语料;
c)基于收集和生成的所有印地语与汉语平行语料,利用基于句法的统计机器翻译方法训练汉语到印地语机器翻译模型,然后使用该模型将汉语单语语料进行翻译形成一份印地语与汉语的平行语料;
d)基于收集和生成的所有印地语与汉语平行语料,利用基于卷积网络的神经机器翻译方法训练汉语到印地语机器翻译模型,然后使用该模型将汉语单语语料进行翻译形成一份印地语与汉语的平行语料;
e)基于收集和生成的所有印地语与汉语平行语料,利用基于Transformer模型的神经机器翻译方法训练汉语到印地语机器翻译模型,然后使用该模型将汉语单语语料进行翻译形成一份印地语与汉语的平行语料;
f)将上述所有收集的和生成的印地语与汉语语料进行汇总形成规模比较大的平行语料;
g)基于形成的大规模印地语与汉语平行语料,利用精确术语匹配方法生成带占位符的印地语与汉语平行语料加入到之前的平行语料中,在生成占位符语料的同时也进一步增强了句子的多样性。
3.精确术语匹配。在模型训练前的语料处理和模型训练完成后的模型推理都会涉及到术语匹配的流程,为了达到精确匹配的效果,避免正常的名词或短语被分割影响翻译质量,需要经过以下步骤:
a)首先利用印地语与汉语双语术语词典构建自动机双数组前缀树,利用该前缀树可以高效地进行术语检索;
b)将待翻译句子利用自动机双数组前缀树进行潜在术语搜索,如果句子中搜索到术语进行下一步;
c)对搜索到术语的平行语料句对的原始语言端句子利用斯坦福自然语言处理工具进行句法分析生成句子解析树,如果搜索到的术语在句子解析树中为名词或者短语则将该术语看作为真正的术语,以汉语“中国科学院研究团队发现新型冠状病毒已突变”进行句法分析为例,生成如下句子解析树,举例如下:
i.
ii.假设术语词典中存在“学院”这个术语,但很显然这个“学院”在句子结构中是名词“科学院”的一部分,故不看作术语;
iii.假设术语词典中存在“状病”这个术语,但实际“状病”这个词在句子结构中是名词“冠状”和“病毒”各取一部分组成的,故不看作术语;
iv.假设术语词典中存在“冠状病毒”这个术语,从句子解析树看,这个虽然跨越两个名词“冠状”和“病毒”,但两个名词都是完整的,且组合后形成了一个名词短语,故可以看作术语;
4.包含术语翻译的机器翻译过程。用户要想在实际中应用本发明中介绍的包含术语翻译的机器翻译功能,首先要按照本文介绍的方法进行印汉神经机器翻译模型训练,其次用户需要积累自身业务领域的术语词典,拥有模型和术语词典后,经过以下步骤即可完成翻译;
a)待翻译印地语文本进行精确术语匹配,将匹配到的术语替换成占位符,如果搜索到多个术语,则将搜索到的术语分别替换成多个不同的占位符;
b)将术语替换过的待翻译印地语文本,输入印汉神经机器翻译模型进行推理,输出汉语译文的中间结果;
将汉语译文中间结果中的占位符逐一替换成用户术语词典中术语对应的汉语译文,输出最终的机器翻译结果。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。 这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述 教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在 于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实 现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。 本发明的范围意在由权利要求书及其等同形式所限定。
Claims (6)
1.面向小语种包含精确术语匹配的机器翻译方法,其特征在于:包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。
2.根据权利要求1所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:首先收集待翻译小语种到非汉语大语种、非汉语大语种到汉语的平行语料、待翻译小语种到汉语的平行语料、汉语单语语料、待翻译小语种与汉语双语术语词典库,借助统计机器翻译、神经机器翻译引擎通过回译完成数据增强形成待翻译小语种到汉语的大规模平行语料集,然后在平行语料中增加占位符平行语料完成神经机器翻译模型训练,最后在翻译过程中融入精确术语匹配处理,最终完成包含术语翻译的待翻译小语种到汉语的神经机器翻译。
3.根据权利要求2所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:详细的步骤如下:
步骤1,语料收集:从公开的数据集中筛选出以下质量较高的语料:至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A,待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B,待翻译小语种与汉语的双语平行语料、以下称平行语料C,汉语单语语料、以下称语料X,待翻译小语种与汉语双语术语词典库;
步骤2,非汉语大语种与汉语神经机器翻译模型训练:基于平行语料A,利用深度神经网络训练出非汉语大语种到汉语方向的神经机器翻译模型;
步骤3,扩充待翻译小语种和汉语平行语料:利用新训练的非汉语大语种与汉语神经机器翻译模型,将平行语料B中的非汉语大语种语料翻译成汉语,形成待翻译小语种与汉语的双语平行语料D;
步骤4,汉语和待翻译小语种统计机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于短语的统计机器翻译、基于句法的统计机器翻译等多种方法训练出汉语到待翻译小语种的统计机器翻译模型;
步骤5,汉语和待翻译小语种神经机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译等多种方法训练出汉语到待翻译小语种的神经机器翻译模型;
步骤6,基于汉语和待翻译小语种统计机器翻译进行语料扩充:利用步骤4训练的多个汉语和待翻译小语种统计机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料E;
步骤7,基于汉语和待翻译小语种神经机器翻译进行语料扩充:利用步骤5训练的多个汉印神经机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料F;
步骤8,构建自动机双数组前缀树:机器翻译实际用户将积累的领域内待翻译小语种与汉语双语术语词典导入机器翻译系统,生成自动机双数组前缀树,用于待翻译句子潜在术语检索;
步骤9,生成术语占位符训练语料:借助待翻译小语种与汉语双语术语词典库,遍历平行语料E和平行语料F,借助自动机双数组前缀树搜索待翻译小语种句子中包含待翻译小语种术语,并且对应的汉语句子中包含待翻译小语种术语对应的汉语译文的所有平行句对,将查找到的句对利用自然语言处理工具进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将对应的双语句子中的术语以及译文替换成占位符,考虑到单个句子中可能会出现多个术语,可以通过替换成多个不同的占位符生成多条平行语料,最终生成占位符平行语料G;
步骤10,待翻译小语种和汉语神经机器翻译模型训练:经过上述步骤,已经通过多种途径收集或生成了平行语料C、平行语料E、平行语料F、平行语料G,从多种途径完成了待翻译小语种与汉语的双语平行语料的数据增强;针对最终形成的待翻译小语种与汉语平行语料,利用神经机器翻译训练出待翻译小语种到汉语的基于Transformer的神经机器翻译模型;
步骤11,待翻译小语种和汉语神经机器翻译模型应用:输入待翻译的待翻译小语种语句,借助自动机双数组前缀树搜索句子中是否包含潜在术语,如果包含则借助利用自然语言处理工具对待翻译句子进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将搜索到的术语替换成占位符,然后调用待翻译小语种和汉语神经机器翻译模型完成待翻译的待翻译小语种句子推理得到汉语译文,将汉语译文中的占位符替换成术语对应的汉语译文,完成包含术语翻译的机器翻译过程,如果自动机双数组前缀树没有搜索到潜在术语,则直接翻译得到汉语译文。
4.根据权利要求2或3所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:汉语也可以换成其他待翻译语种。
5.根据权利要求2或3所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:非汉语大语种为英语、俄语、阿拉伯语、法语和西班牙语,所述待翻译小语种是非汉语大语种以外的其他各类世界通行语种。
6.根据权利要求3所述的面向小语种包含精确术语匹配的机器翻译方法,其特征在于:待翻译小语种与汉语双语术语词典库里面是源语言是待翻译小语种,目的语言是汉语的词对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786081.8A CN112101047A (zh) | 2020-08-07 | 2020-08-07 | 一种面向小语种包含精确术语匹配的机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786081.8A CN112101047A (zh) | 2020-08-07 | 2020-08-07 | 一种面向小语种包含精确术语匹配的机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101047A true CN112101047A (zh) | 2020-12-18 |
Family
ID=73750043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786081.8A Pending CN112101047A (zh) | 2020-08-07 | 2020-08-07 | 一种面向小语种包含精确术语匹配的机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101047A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591493A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
CN113609849A (zh) * | 2021-07-07 | 2021-11-05 | 内蒙古工业大学 | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
CN108829684A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于迁移学习策略的蒙汉神经机器翻译方法 |
CN109446535A (zh) * | 2018-10-22 | 2019-03-08 | 内蒙古工业大学 | 一种基于三角架构的蒙汉神经机器翻译方法 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
CN110688862A (zh) * | 2019-08-29 | 2020-01-14 | 内蒙古工业大学 | 一种基于迁移学习的蒙汉互译方法 |
-
2020
- 2020-08-07 CN CN202010786081.8A patent/CN112101047A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250375A (zh) * | 2016-08-09 | 2016-12-21 | 北京百度网讯科技有限公司 | 翻译处理方法及装置 |
CN108829684A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于迁移学习策略的蒙汉神经机器翻译方法 |
CN109446535A (zh) * | 2018-10-22 | 2019-03-08 | 内蒙古工业大学 | 一种基于三角架构的蒙汉神经机器翻译方法 |
CN110688862A (zh) * | 2019-08-29 | 2020-01-14 | 内蒙古工业大学 | 一种基于迁移学习的蒙汉互译方法 |
CN110543644A (zh) * | 2019-09-04 | 2019-12-06 | 语联网(武汉)信息技术有限公司 | 包含术语翻译的机器翻译方法、装置与电子设备 |
Non-Patent Citations (6)
Title |
---|
GU, J.等: "Universal neural machine translation for extremely low resource languages", ARXIV * |
IRVINE, A.等: "Combining bilingual and comparable corpora for low resource machine translation", IN PROCEEDINGS OF THE EIGHTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION, pages 262 - 270 * |
任众;侯宏旭;武静;王洪彬;李金廷;樊文婷;申志鹏;: "基于统计和神经网络的蒙汉机器翻译研究", 中文信息学报, no. 11, pages 1 - 7 * |
桑杰端珠: "稀疏资源条件下的藏汉机器翻译研究", 《信息科技辑》 * |
牛向华: "基于单语语料库训练的蒙汉机器翻译的研究", 《信息科技辑》 * |
蔡子龙;杨明明;熊德意;: "基于数据增强技术的神经机器翻译", 中文信息学报, no. 07, pages 30 - 36 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591493A (zh) * | 2021-01-29 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
CN113609849A (zh) * | 2021-07-07 | 2021-11-05 | 内蒙古工业大学 | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 |
CN113657123A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707026B2 (en) | Multilingual translation memory, translation method, and translation program | |
US20080040095A1 (en) | System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach | |
CN109213995A (zh) | 一种基于双语词嵌入的跨语言文本相似度评估技术 | |
CN112101047A (zh) | 一种面向小语种包含精确术语匹配的机器翻译方法 | |
Sen et al. | Neural machine translation of low-resource languages using SMT phrase pair injection | |
KR20110027361A (ko) | 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법 | |
Xu et al. | Do we need Chinese word segmentation for statistical machine translation? | |
CN108491399A (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
CN106156013A (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
JP2003141114A (ja) | 複数言語対訳テキスト入力による第3言語テキスト生成アルゴリズム及び装置、プログラム | |
Lone et al. | Machine intelligence for language translation from Kashmiri to English | |
CN113408307A (zh) | 一种基于翻译模板的神经机器翻译方法 | |
Ahmadnia et al. | Round-trip training approach for bilingually low-resource statistical machine translation systems | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
Anju et al. | Malayalam to English machine translation: An EBMT system | |
Gamal et al. | Survey of arabic machine translation, methodologies, progress, and challenges | |
Chang et al. | A corpus-based statistics-oriented transfer and generation model for machine translation | |
Zhang | Research on English machine translation system based on the internet | |
Gupta et al. | Augmenting training data with syntactic phrasal-segments in low-resource neural machine translation | |
Satpathy et al. | Analysis of Learning Approaches for Machine Translation Systems | |
Kharate et al. | Survey of Machine Translation for Indian Languages to English and Its Approaches | |
Mahmut et al. | Exploration of Chinese-Uyghur neural machine translation | |
JP4708682B2 (ja) | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 | |
Piao | Research on Korean Translation Computer Intelligent Proofreading Algorithm Based on Multi-Strategy Analysis | |
Khusainov et al. | Multilingual Neural Machine Translation System for 7 Turkic-Russian Language Pairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |