CN105677642A - 一种机器翻译语序调整方法 - Google Patents
一种机器翻译语序调整方法 Download PDFInfo
- Publication number
- CN105677642A CN105677642A CN201511031687.6A CN201511031687A CN105677642A CN 105677642 A CN105677642 A CN 105677642A CN 201511031687 A CN201511031687 A CN 201511031687A CN 105677642 A CN105677642 A CN 105677642A
- Authority
- CN
- China
- Prior art keywords
- word
- translation
- rule
- machine
- machine translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及机器翻译领域,特别涉及一种机器翻译语序调整方法;在机器学习中引入译词调序规则模板,通过规则模板对比源文、标准译文和机器译文,从训练集中抽取出译词调序规则,通过规则将“Crossover”词对中的当前词和调换词交换位置。本发明方法通过模板匹配抽取调序规则形成规则序列;应用规则序列调整相应的机器译文中的语序错误,使得机器译文的语序更加自然,更加符合目标语言的语法结构和用语习惯,此外本发明方法可以应用于任何两种语言的相互翻译中,而且可以针对性的修改对应翻译系统的语序问题,自动化程度高,显著减少用于人工后编辑的人力和时间成本。
Description
技术领域
本发明涉及机器翻译领域,特别涉及一种机器翻译语序调整方法。
背景技术
如今互联网已经遍布全球,来自不同国籍和民族的人们能够随时随地分享交流信息;人们也迫切希望能快速畅通的获得网络上的所有信息。故而,多种语言之间准确高效的机器自动翻译在现在以及未来的国际化氛围下,有着极大的市场需求。但是,一个性能高、功能强大、准确率高的互联网多语言翻译系统在现在的技术水平下,还需要有很多重大的技术难点需要克服。在现有的机器翻译水平之下,高质量的可用的机器译文依然是不可得的。目前解决这一问题的一般方式为使用机器翻译作为前期处理,对机器翻译的结果作人工后编辑,从而能够得到可用的翻译结果。一般情况下要得到高质量的翻译结果,对人工后编辑的编辑人员的专业素质要求极高,专家级的人工后编辑人员是必不可少的,但是面对巨大的翻译需求缺口,人工后编辑的工作量极大,数量有限的专家是解决不了如此庞大的任务量,在后编辑中居高不下的人力和时间成本限制了机器翻译的发展和应用。
研究者们通过对用户编辑模式和翻译错误类型的分析发现,在机器翻译的结果中,很多错误是重复出现的(如词汇翻译错误,句子结构类型的错误,词语形式的错误等),如果通过人工后编辑来处理这些重复的错误,将消耗极大的人力和物力成本,同时也严重降低了机器翻译的效率和翻译用户体验的满意度。因此很多研究者尝试构建一个自动后编辑模型,以根据机器翻译的错误类型自动得修改包含相同或类似的翻译错误,以减少人工后编辑的工作量,提高机器翻译质量。现有的主流方法大多是根据“机器译文——专家后编辑译文”的平行语料训练出基于SMT(基于统计的机器翻译)的自动后编辑模型。虽然基于统计机器翻译的自动后编辑的研究已经取得了一定的成果;但是统计机器翻译SMT里面具体发生了什么,还有很多是不明确的。就这一后编辑技术而言,仅能知道该方法能够提高最终翻译结果质量,但是不知道具体哪些后编辑操作是有效的(即那部分后编辑操作代表了机器翻译系统的缺陷),这不利于直观的分析机器翻译的弊端。在这些情况下如果能通过自动学习的方式解析出机器翻译的重复错误的相关模式,并且将这些模式化的错误自动更正;可以分析出机器翻译的错误根源,有助于从源头上提高机器翻译的质量。
此外对于机器翻译重复出现的错误中,译文词语顺序错误,语序语法错误是基本的错误之一,据统计,语序错误(包括置前语序错误、句内疑问词(W)短语语序错误、句内be动词/情态动词(MD)短语语序错误、句内邻居短语语序错误等情况)在机器翻译总错误中所占据的比重很大,而且鉴于不同语言之间存在的巨大的语法差异,语序错误在机器翻译中出现的机率很大,语序错误极大的影响了机器翻译的专业化程度;同时由于语序和语法本身的复杂性,使得机器翻译语序或者语法错误在人工后编辑中的更正难度也很大;而且相对译词错误,语序和语法错误的重复率更高,如果都是通过人工后编辑来调整,耗费的人力和时间成本巨大。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种机器翻译语序调整方法,通过在机器学习中引入译词调序规则模板,所述规则模板对比机器译文与源文和标准译文,提取出译词调序规则,通过规则匹配找出需要交换顺序的“crossover”词对或者词组对,通过调整词对的位置使得机器译文的语序更加符合翻译目标语言的语法特点。
所述译词调序规则模板中,包含待调换词对的相应信息,当在机器译文和源文中检测出符合译词调序规则模板的调序规则时,提取出该规则,并使用该调序规则来执行相应的词对的位置调整动作。将调整后的机器译文与源文进行输入到学习机中,再次匹配译词调序规则模板,进行调序规则检测,当检测出符合译词调序规则模板的调序规则时,提取出该规则,并应用该规则再次调整机器译文中的语序错误;重复上述过程,通过迭代不断提取新的调序规则,直到不能学到新的译词调序规则时,停止迭代。在迭代的过程中通过将修改后机器译文与标准译文进行比照,计算出调整前后的BLEU增益值,通过BLEU增益值来判断修改后的机器译文的调整效果。
为了实现上述发明目的,本发明提供以下技术方案,一种机器翻译语序调整方法,包含以下实现过程:
(1)构建译词调序规则模板,包括待调序词对的对应信息,所述待调换词对包括当前词和调换词,其中当前词信息包括:当前词,当前词的前N个词,当前词的后N个词,当前词的前N个词的词性,当前词的后N个词的词性,当前词对应的源文中原词的前N个词和后N个词;调换词信息包括:调换词,调换词的前N个词,调换词的后N个词,调换词的前N个词的词性,调换词的后N个词的词性,调换词对应的源文中原词的前N个词和调后N个词,其中N为0或者正整数;当发现符合规则模板时的调序规则时,将该调序规则提取出来,将当前词与调换词交换顺序。
所述当前词和调换词的获取过程包括,通过将机器译文和标准译文的相应内容进行对齐,当发现机器译文中的语序与标准译文中存在差异时,根据机器译文与标准译文中的词语对齐情况找到需要调换顺序的词对(“crossover”wordorphrase),将待调换词对中,处于机器译文靠前位置的待调序词定义为当前词,将位于机器译文中靠后位置的待调序词定义为调换词。
(2)使用上述译词调序规则模板提取机器翻译的译词调序规则。
(3)使用译词调序规则来抽取待调换词对(“crossover”词对),并将抽取出的词对调换位置。
其中所述步骤(2)中包括以下实现步骤:
(2-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;
(2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;
(2-3)将所述训练样本集与机器译文输入到具有译词调序规则模板的学习机中;
(2-4)所述学习机对比机器译文与标准译文和源文的差异,根据译词调序规则模板提取机器译文中的语序调整的第一规则,形成对应的第一规则集合;
(2-5)利用第一规则集中的每条规则来修改Dev(开发集)机器译文;并将修改后的译文与Dev标准译文进行比较,计算调整前后BLEU的增益值,从规则集中选出BLEU的增益值最大的调序规则(将其定义为:第一调序规则);
(2-6)应用所述第一调序规则来调整机器译文,形成第一调整译文;
(2-7)将第一调整译文输入学习机中;所述学习机对比第一调整译文与标准译文和源文的差异,根据译词调序规则模板提取第二规则,形成第二规则集;
(2-8)利用第二规则集中的每条规则来调整Dev机器译文;并将调整后的译文与Dev标准译文进行比较,计算调整前后BLEU的增益值,从规则集中选出BLEU的增益值最大的调序规则(将其定义为:第二调序规则);
重复上述步骤,依次迭代,直到BLEU的增益值小于设定的阈值,停止计算;并将规则序列返回。
进一步的,将所述规则序列应用于测试集中,使用规则序列来调整测试集中机器译文的语序错误,并对调整结果进行评价,根据评价结果来测试规则序列对机器译文语序错误调整的效果,当调整效果到达设置的阈值时,可以认为该规则序列对于机器译文语序错误的调整是有效的。
进一步的,应用所述规则序列来自动调整机器译文中的错误语序;提高机器翻译的质量,减少人工后编辑的工作量,提高机器翻译的质量和效率。
进一步的,所述译词调序规则模板中当前词的前N个词可以为空值,这种情况相当于将机器翻译中的处于句中靠后位置的词语前置到句首。
进一步的,所述译词调序规则模板中当前词的后N个词可以为空值,这种情况相当于将机器翻译中的处于句中靠前位置的词语后置到句尾。
进一步的,所述当前词为由不少于两个个的词组成的词块。
进一步的,所述调换词为由不少于两个的词组成的词块。
进一步的,所述当前词和,或调换词均为由不少于两个的词组成的词块。
与现有技术相比,本发明的有益效果:本发明提供一种机器翻译语序调整方法,通过设计译词调序规则模板,从训练数据集中来抽取机器翻译中的译词调序规则;通过抽取出来译词调序规则来自动调整机器翻译译文中的语法错误,以提高机器翻译的译文质量,实现机器翻译的自动后编辑。本发明方法的译词调序规则模板包括待调换词对的相应信息,该词对中的当前词和调换词的前后N个词和对应的词性,此外本发明所采用的规则模板的待调换词对的相关信息中还包括对应的源文的上下文信息,对应提取出来的调序规则中引入了更多的考虑因素和计算条件。
本发明将译词调序规则模板加载于学习机中,将训练样本集(包括源文和标准译文)和对应的机器译文输入到学习机中,所述学习机根据译词调序规则模板来抽取机器翻译中的错误语序的调序规则;并通过调序规则来更正机器译文的中相应语序错误;在进行规则应用时,本发明仅提取在开发集(Dev集)中BLEU增益最大的调序规则来修改机器译文,并将修改后的机器译文和训练集再次输入到学习机中提取调序规则......依次迭代,直到BLEU增益小于设定的阈值,停止计算。通过上述方法最终自动提取出一个调序效果最好的规则序列;应用上述规则序列来修改机器译文中重复出现的语序错词,实现了机器翻译后编辑的自动化,节省了用于人工后编辑所花费的人力和时间成本,有助于获得高质量的机器译文。
此外,本发明方法通过选择不同的翻译语言(源文和目标语言)和翻译系统进行调序规则的提取,提取出的调序规则具有更强的适应性和针对性。
附图说明:
图1为本发明方法的实现过程示意图。
图2为本发明方法中规则序列提取的过程示意图。
图3为本发明实施流程示意图。
图4为本发明实施例1中采用的规则模板示意图。
图5为实施例中训练样本示例图。
图6为图5中源文、机器译文和标准译文的词汇映射关系示意简图。
图7为图5中,源文、第一调整译文与标准译文的词汇映射关系示意图。
需要说明的是,本发明所有附图均为示意性的,不代表实际的尺寸和比例。
具体实施方式
下面结合试验样例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
本发明提供一种机器翻译语序调整方法,通过在机器学习中引入译词调序规则模板,所述规则模板对比机器译文与源文和标准译文,提取出译词调序规则,通过模板匹配找出映射顺序存在“crossover”词对或者词组对,通过调序使得机器译文的语序更加符合翻译目标语言的语法特点。所述译词调序规则模板中,包含待调换词对的相应信息,当在机器译文和源文中检测出符合译词调序规则模板的调序规则时,提取出该规则,并使用该调序规则来执行相应的词组位置调整动作。将调整后的机器译文与源文进行输入到学习机中,再次根据译词调序规则模板提取译词调序规则,进行调序规则检测,当检测出符合译词调序规则模板的调序规则时,提取出该规则,并应用该规则再次调整机器译文中的语序错误;重复上述过程,通过迭代不断提取新的译词调序规则,直到不能学到新的译词调序规则时,停止迭代。在迭代的过程中通过将位置调整后的机器译文与标准译文进行比照,计算出调整前后的BLEU增益值,通过BLEU增益值来判断修改后的机器译文的调整效果。
为了实现上述发明目的,本发明提供以下技术方案,一种机器翻译语序调整方法,包含如图1所示的实现过程:
(1)构建译词调序规则模板,所述译词调序规则模板包括规则条件和调整动作,所述规则条件包括待调换词对的相关信息,待调换词对包括当前词和调换词;其中当前词信息包括:当前词,当前词(或者词组)的前N个词,当前词的后N个词,当前词的前N个词的词性,当前词的后N个词的词性,当前词对应的源文中原词的前N个词和当前词对应的源文中原词的后N个词。调换词信息包括:调换词(或者调换词组),调换词的前N个词,调换词的后N个词,调换词的前N个词的词性,调换词的后N个词的词性,调换词对应的源文中原词的前N个词和调换词对应的源文中原词的后N个词,其中N为0或者为正整数(译词调序规则模板中的待调换词对的相应信息可以根据需要向后文扩展,这样增加了提规则取出的灵活性,能够适应更加复杂的语序调整情况);所述调整动作为将当前词与调换词交换顺序;所述当前词和调换词的获取过程包括,通过将机器译文和标准译文对齐,建立起机器译文与标准译文词语的映射关系;当发现机器译文与标准译文的映射中,存在映射位置交叉的词对时,认为该词对为调换词对(“crossover”词对),将调换词对中前一个词定义为当前词,将后一个词定义为调换词。本发明方法通过上述规则模板通过对比机器译文和标准译文,找出机器译文中的语序错误和调序规则,通过考量待调整语序的当前词和调换词的相关信息(包括上下文的词语和,或对应的词性),并结合对应的源文的上下文信息,提取译词调序规则,考量因素更加全面合理,更加符合翻译的本质和原理,翻译是在准确、通顺的基础上,把源文信息转变成另一种语言信息的行为,参考机器译文和源文提取出的调序规则,更加贴合源文的语境,最终的翻译更加准确自然。
(2)使用上述译词调序规则模板提取机器翻译的译词调序规则。
(3)使用译词调序规则来抽取待调整词对(“crossover”词对),并将抽取出的词对调换位置,实现机器译文错误语序的更正。
其中所述步骤(2)中包括如图2、图3所示的实现步骤:
(2-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文(训练集中的样本数量根据需要而设定,比如说包括20000条源文及对应的标准译文);本发明中可以适用于任何两种语言的相互翻译中,根据需要翻译的源文和目标言语的标准译文之间的对应关系,能够自动学习出对应语法和语序的差异,通过语法之间的差异来自动调整机器翻译的译文语序。
(2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;机器翻译系统为现有的机器翻译系统,例如百度翻译、谷歌翻译、有道翻译、灵格斯翻译等,不同的机器翻译系统由于各自本身的特点其语序错误出现的方式可能有区别,本发明方法可以选用现有任何一种机器翻译系统来获取机器译文,通用性好,适用面广阔;同时当选定某一机器翻译系统后,本发明会进行相应的译词调序规则提取,对该翻译系统存在的弊端进行直观而有效的分析,因而具有很强的针对性。
(2-3)将所述训练样本集与机器译文输入到具有译词调序规则模板的学习机中,所述学习机为加载有调序规则译词调序规则模板的,能够实现机器译文、标准译文和源文之间的对齐和建立起相应的映射关系的功能模块(映射关系可以理解为源文、机器译文和标准译文中词汇或者短语的对应关系),其中源文与译文的对齐和映射关系的建立采用meteor工具来实现。
(2-4)所述学习机对比机器译文与标准译文和源文的差异,对比过程过程的采用METEOR对齐工具或者字典方式来实现,根据译词调序规则模板提取出机器译文中的语序调整的第一规则,形成对应的第一规则集合;训练样本集中,比如包含20000源文样本,对应的将具有20000条标准译文和对应20000条机器译文,通过规则模板的比对,将提取出一系列的调序规则。
(2-5)利用第一规则集来修改Dev机器译文;并将修改后的译文与Dev标准译文进行比较,计算BLEU的增益值,从规则集中选出BLEU的增益值最大的调序规则(将其定义为:第一调序规则);在本步骤中引入开发样本集,(Dev集中包含的源文数量较训练集少,比如为3000条)来及时评价和检验调序规则对机器译文中的语序错误的调整效果,可以防止调序规则提取出现过拟合的情况出现。
(2-6)应用所述第一调序规则来修改训练集源文对应的机器译文,形成第一调整译文;通过Dev集选取BLEU的增益值最大的调序规则来修改训练样本集中对应机器译文中的语序错误,其校正的效果最为显著,有利于提高调序规则提取的效率。
(2-7)将第一调整译文输入学习机中;所述学习机对比第一调整译文与标准译文和源文的差异,根据译词调序规则模板提取第二规则,形成第二规则集;
(2-8)利用第二规则集来修改Dev机器译文;并将修改后的译文与Dev标准译文进行比较,计算调整前后的BLEU的增益值,从规则集中选出BLEU的增益值最大的调序规则(将其定义为:第二调序规则);
重复上述步骤,依次迭代,直到BLEU的增益值小于设定的阈值,停止计算;并将提取出规则序列返回。在规则提取的过程中,将每次从规则集中选出BLEU的增益值最大的调序规则(第一调序规则、第二调序规则、第三调序规则......)提取记录下来;并按照提取的先后顺序排列形成一个规则序列。
使用所述规则序列用来调整机器译文的语序错误,将有效的纠正机器译文中重复出现的语序错误,使得机器翻译的译文更加符合目标语言的语法结构和语言习惯,显著提高机器翻译的译文质量,减少人工后编辑所需要的人力和时间成本。将本方法应用于机器翻译系统中,将从源头减少机器翻译的语序错误,提高机器翻译的语法和语序准确性,提高机器翻译的可靠性,使得不同语言之间的交流更加自然顺畅,促进使用不同语言的人们之间的沟通,促进社会和经济发展。
进一步的,将所述规则序列应用于测试集(比如包含3000条源文、机器译文及标准译文)中,使用规则序列来调整测试集中的机器译文的语序错误,并对调整结果进行评价,根据评价结果来测试规则序列对机器译文错误语序调整的效果,当调整效果到达设置的阈值时,可以认为该规则序列对于机器译文语序错误的调整时有效的。
进一步的,所述译词调序规则模板中当前词的前N个词可以为空值,这种情况相当于将机器翻译中的处于句中靠后位置的词语前置到句首,此时提取出来的调序规则非常适用于置前语序错误的修改,前置语序错误在翻译错误中十分常见,也是在机器翻译中出现的基本语序错误之一,机器翻译中出现前置错误造成机器译文明显不符合目标语言的用语习惯,减低译文的质量。通过本发明方法提取前置语序的调序规则,从而可以自动调整机器翻译中前置语序。
进一步的,所述译词调序规则模板中调换词的后N个词可以为空值,这种情况相当于将机器翻译中的处于句中靠前位置的词语后置到句尾,这样的调整方式与前置语序的调整方式对应。
进一步的,所述当前词为由不少于两个的词组成的词块。
进一步的,所述调换词为由不少于两个的词组成的词块。
进一步的,所述当前词和调换词均为由不少于两个的词组成的词块。
在翻译中其实需要调整语序多数是针对短语或者词块来进行的,由于语言习惯和语法结构的差异,语序位置的调换也多是出现在相应的词块之间,对短语或者词块的语序调整能使机器翻译的译文快速向符合目标语言语法习惯的标准译文靠近,快速提高机器翻译的译文质量。因此相比于单词之间的语序调整,词块的语序调整的规则提取更加重要,对机器译文修改前后BLEU增益值的贡献也更大,适用的范围也更广泛。
优选的的,所述译词调序规则模板中当前词信息和,或调换词信息中包括该词的前后两个词和对应的词性,这样减少了规则的复杂性,规则提取效率更高。
实施例1
根据不同语言之间的互译应该结合语境和前后文内容的特点,构建如图4所示的译词调序规则模板:
Words_1:[A]
…&word_1:B[-2]&word_1:C[-1]&word_1:D[1]&word_1:E[2]&...
…&pos_1:F[-2]&pos_1:H[-1]&pos_1:I[1]&pos_1:J[2]&...
…&srcwd_1:B1[-2]&srcwd_1:C1[-1]&srcwd_1:D1[1]&srcwd_1:E1[2]&...
words_2:[a]
…&word_2:b[-2]&word_2:c[-1]&word_2:d[1]&word_2:e[2]&...
…&pos_2:f[-2]&pos_2:h[-1]&pos_2:i[1]&pos_2:j[2]&...
…&srcwd_2:b1[-2]&srcwd_2:c1[-1]&srcwd_2:d1[1]&srcwd_2:e1[2]&...
其中前四行为当前词的相关信息,后四行为调换词的相关信息,Words_1:[A]表示当前词A,wd:B[-2]表示为当前词前面的第二个词B,wd:C[-1]表示当前词前面的第一个词C,wd:D[1]表示当前词后面的第一个词D,wd:E[2]表示当前词后面的第二个词E,pos_1:F[-2]为当前词的前面的第二词的词性为F,pos_1:H[-1]当前词的前面的第一词的词性为H,pos_1:I[1]当前词的后面的第一词的词性为I,pos_1:J[2]当前词的后面的第二词的词性为J。cwd_1:B1[-2]表示当前词对应原词的前面第二个词为B1,srcwd_1:C1[-1]表示当前词对应原词的前面第一个词为C1,srcwd_1:D1[1]表示当前词对应原词的后面第一个词为D1,srcwd_1:E1[2表示当前词对应原词的后面第二个词为E1。第四至第七行的为调换词的信息,其中Words_2:[a]表示调换词为a,word_2:b[-2]表示调换词的前面第二个词为b,word_2:c[-1]表示调换词的前面第一个词为c,word_2:d[1]表示调换词的后面第一个词为d,word_2:e[2]表示调换词的后面第二个词为e,pos_2:f[-2]表示调换词的前面的第二个词的词性为f,pos_2:h[-1]表示调换词的前面第一个词的词性为h,pos_2:i[1]表示调换词的后面的第一个词的词性为i,pos_2:j[2]表示调换词的后面第二个词的词性为j,srcwd_2:b1[-2]表示调换词对应原词的前面第二个词为b1,srcwd_2:c1[-1]表示调换词对应原词的前面第一个词为c1,srcwd_2:d1[1]表示调换词对应原词的后面第一个词为d1,srcwd_2:d1[1]表示调换词对应原词的后面第一个词为d1,rcwd_2:e1[2]表示调换词对应原词的后面第二个词为e1。
将上述译词调序规则模板加载到学习机中,将训练集(包括源文和对应标准译文),和训练集源文对应机器译文输入到学习机中,通过学习机对齐机器译文与源文和标准译文,根据译词调序规则模板找出其中的调序规则。
上述信息的词中,至少一个不为空值;上述当前词和调换词可以为单词也可以为多个词组成的词组或者词块。
应用上述译词调序规则模板来抽取机器翻译中的译词调序规则。比如说输入学习机中的包括图5所示的源文:“去电影院应该坐哪路车?”,机器译文:“gotothecinemawhichbusshoulditake?”,标准译文:“whichbusshoulditaketogotothecinema?”的样本,通过学习机对齐机器译文和源文与标准译文(如图6所示),并根据语序调整的规则模板,提取出“whichbusshoulditake”和“gotothecinema”的调换词块对。应用抽取出来的“crossover”词块对调整机器译文中的语序问题,调换机器译文中“crossover”词块对中量词块的位置,(图7为经过调序后的对应情况),重复上述过程,直到不能生成新的调序规则或者调整译文的BLEU增益值小于设定的阈值时,停止计算,具体的规则不再赘述;最终按照上述规则的产生的顺序生成一个规则序列,应用上述规则序列来自动修改对应机器翻译系统译文中重复出现的语序错误,使得机器翻译的译文效果越来越好。
应该理解本发明实施例中的训练集中包含的样本数量远大于1条,比如为20000条,通过较多的训练样本来提取调序规则,能够抽取到数量众多的调序规则,在每次抽取中选取调整效果最好的规则来进行迭代运算,最终形成调整效果最佳的规则序列。
Claims (9)
1.一种机器翻译语序调整方法,其特征在于:包含以下实现过程:
(1)构建译词调序规则模板,所述译词调序规则模板包括:待调序词对的对应信息,所述待调换词对包括:当前词和调换词,其中所述当前词信息包括:当前词,当前词的前后N个词与对应的词性以及当前词对应原词的前后N个词;所述调换词信息包括:调换词,调换词的前后N个词与对应的词性以及调换词对应源词的前后N个词,其中N为0或者为正整数;
(2)使用上述译词调序规则模板来提取机器翻译的译词调序规则。
2.如权利要求1所述的处理方法,其特征在于:所述当前词和调换词的获取过程包括:通过将机器译文和标准译文对齐,建立起机器译文与标准译文词语的映射关系;当发现机器译文与标准译文的映射中,存在位置交叉的词对时,认为该词对为调换词对,将调换词对中前一个词定义为当前词,将后一个词定义为调换词。
3.如权利要求2所述的处理方法,其特征在于:其中所述步骤(2)中包括以下实现步骤:
(2-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;
(2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;
(2-3)将所述训练样本集与机器译文输入到具有译词调序规则模板的学习机中;
(2-4)所述学习机对比机器译文与标准译文和源文的差异,根据译词调序规则模板提取机器译文中的语序调整的第一规则,形成对应的第一规则集合;
(2-5)利用第一规则集的每条规则来调整开发集机器译文;并将调整后的开发集机器译文与开发集标准译文进行比较,计算调整前后BLEU的增益值;从规则集中选出BLEU的增益值最大的调序规则,将其定义为:第一调序规则;
(2-6)应用所述第一调序规则来调整机器译文,形成第一调整译文;
(2-7)将第一调整译文输入学习机中;所述学习机对比第一调整译文与标准译文和源文的差异,根据译词调序规则模板提取第二规则,形成第二规则集;
(2-8)利用第二规则集的每条规则来调整开发集中机器译文;并将调整后的译文与开发集的标准译文进行比较,计算调整前后BLEU的增益值;从规则集中选出BLEU的增益值最大的调序规则,将其定义为:第二调序规则;
依次迭代,直到BLEU的增益值小于设定的阈值,停止计算。
4.如权利要求3所述的处理方法,其特征在于:在规则提取的过程中,将每次从规则集中选出BLEU的增益值最大的调序规则提取出来;按提取的先后顺序形成规则序列。
5.如权利要求4所述的处理方法,其特征在于:应用所述规则序列来自动调整机器译文中的语序错误。
6.如权利要求1至5之一所述的处理方法,其特征在于:所述当前词前N个词为为空值。
7.如权利要求1至5之一所述的处理方法,其特征在于:所述调换词的后N个词为空值。
8.如权利要求1至5之一所述的处理方法,其特征在于:所述当前词为单个词或者为由至少两个个单词组成的词块。
9.如权利要求1至5之一所述的处理方法,其特征在于:所述调换词为单个词或者为由至少两个单词组成的词块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511031687.6A CN105677642A (zh) | 2015-12-31 | 2015-12-31 | 一种机器翻译语序调整方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511031687.6A CN105677642A (zh) | 2015-12-31 | 2015-12-31 | 一种机器翻译语序调整方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105677642A true CN105677642A (zh) | 2016-06-15 |
Family
ID=56189937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511031687.6A Pending CN105677642A (zh) | 2015-12-31 | 2015-12-31 | 一种机器翻译语序调整方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677642A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033093A (zh) * | 2018-07-01 | 2018-12-18 | 东莞市华睿电子科技有限公司 | 一种基于相似度匹配的文本翻译方法 |
CN109344231A (zh) * | 2018-10-31 | 2019-02-15 | 广东小天才科技有限公司 | 一种补全语义残缺的语料的方法及系统 |
CN109766556A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种语料修复的方法和装置 |
CN110334353A (zh) * | 2019-07-09 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 词序识别性能的分析方法、装置、设备及存储介质 |
CN111859941A (zh) * | 2019-04-30 | 2020-10-30 | 广东小天才科技有限公司 | 一种调整英文语句顺序的方法及系统 |
CN112417823A (zh) * | 2020-09-16 | 2021-02-26 | 中国科学院计算技术研究所 | 一种中文文本语序调整和量词补全方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
CN101882158A (zh) * | 2010-06-22 | 2010-11-10 | 河南约克信息技术有限公司 | 基于上下文的译文自动调序方法 |
CN102375809A (zh) * | 2010-08-04 | 2012-03-14 | 英业达股份有限公司 | 以输入的第一语言即时输出第二语言的系统及其方法 |
US20130268259A1 (en) * | 2012-04-04 | 2013-10-10 | Electronics And Telecommunications Research Institute | Translation apparatus and method thereof |
CN104572629A (zh) * | 2013-10-18 | 2015-04-29 | 富士通株式会社 | 生成单语解析模型的方法和装置以及语言转换装置 |
-
2015
- 2015-12-31 CN CN201511031687.6A patent/CN105677642A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706777A (zh) * | 2009-11-10 | 2010-05-12 | 中国科学院计算技术研究所 | 机器翻译中抽取调序模板的方法及系统 |
CN101882158A (zh) * | 2010-06-22 | 2010-11-10 | 河南约克信息技术有限公司 | 基于上下文的译文自动调序方法 |
CN102375809A (zh) * | 2010-08-04 | 2012-03-14 | 英业达股份有限公司 | 以输入的第一语言即时输出第二语言的系统及其方法 |
US20130268259A1 (en) * | 2012-04-04 | 2013-10-10 | Electronics And Telecommunications Research Institute | Translation apparatus and method thereof |
CN104572629A (zh) * | 2013-10-18 | 2015-04-29 | 富士通株式会社 | 生成单语解析模型的方法和装置以及语言转换装置 |
Non-Patent Citations (1)
Title |
---|
姚佳: "基于错误驱动学习的机器翻译后编辑建模", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033093A (zh) * | 2018-07-01 | 2018-12-18 | 东莞市华睿电子科技有限公司 | 一种基于相似度匹配的文本翻译方法 |
CN109344231A (zh) * | 2018-10-31 | 2019-02-15 | 广东小天才科技有限公司 | 一种补全语义残缺的语料的方法及系统 |
CN109344231B (zh) * | 2018-10-31 | 2021-08-17 | 广东小天才科技有限公司 | 一种补全语义残缺的语料的方法及系统 |
CN109766556A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种语料修复的方法和装置 |
CN111859941A (zh) * | 2019-04-30 | 2020-10-30 | 广东小天才科技有限公司 | 一种调整英文语句顺序的方法及系统 |
CN111859941B (zh) * | 2019-04-30 | 2023-05-05 | 广东小天才科技有限公司 | 一种调整英文语句顺序的方法及系统 |
CN110334353A (zh) * | 2019-07-09 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 词序识别性能的分析方法、装置、设备及存储介质 |
CN110334353B (zh) * | 2019-07-09 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 词序识别性能的分析方法、装置、设备及存储介质 |
CN112417823A (zh) * | 2020-09-16 | 2021-02-26 | 中国科学院计算技术研究所 | 一种中文文本语序调整和量词补全方法及系统 |
CN112417823B (zh) * | 2020-09-16 | 2023-08-29 | 中国科学院计算技术研究所 | 一种中文文本语序调整和量词补全方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677642A (zh) | 一种机器翻译语序调整方法 | |
CN105701089A (zh) | 一种机器翻译错词修正的后编辑处理方法 | |
CN110046261B (zh) | 一种建筑工程多模态双语平行语料库的构建方法 | |
CN105740218A (zh) | 一种机器翻译后编辑处理方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
CN111310480A (zh) | 一种基于英语枢轴的弱监督汉越双语词典构建方法 | |
CN105573994B (zh) | 基于句法骨架的统计机器翻译系统 | |
WO2017012327A1 (zh) | 句法分析的方法和装置 | |
CN104375988A (zh) | 一种词语对齐方法及装置 | |
CN112766000A (zh) | 基于预训练模型的机器翻译方法及系统 | |
CN105068990A (zh) | 一种面向机器翻译的多策略英文长句分割方法及装置 | |
CN105630776A (zh) | 一种双向词语对齐方法及装置 | |
CN115329785A (zh) | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 | |
CN108536724A (zh) | 一种基于双层哈希索引的地铁设计规范中主体识别方法 | |
CN103793375A (zh) | 一种在自动化翻译处理中精准替换术语及短语的方法 | |
KR20110112192A (ko) | 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법 | |
CN107491441B (zh) | 一种基于强制解码的动态抽取翻译模板的方法 | |
CN103092830A (zh) | 一种调序规则获取方法及装置 | |
Anju et al. | Malayalam to English machine translation: An EBMT system | |
Laskar et al. | Improved English to Hindi multimodal neural machine translation | |
CN114936567B (zh) | 一种基于知识蒸馏的无监督机器翻译质量预估方法和装置 | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN109657244B (zh) | 一种英文长句自动切分方法及系统 | |
CN115130481A (zh) | 一种模型训练、机器翻译方法、装置、设备及存储介质 | |
CN114861628A (zh) | 训练机器翻译模型的系统、方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160615 |