发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种融合了句型模板和统计机器翻译技术的翻译方法,以解决统计机器翻译系统不能很好的翻译具有固定句型结构的句子的问题,从而使对具有固定句型结构的句子的翻译更加流畅,符合领域常用句型的翻译结构。
(二)技术方案
为达到上述目的,本发明的技术方案是这样实现的:
一种融合了句型模板和统计机器翻译技术的翻译方法,该方法包括:
A、配置句型模板,建立句型模板库;
B、利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行步骤D;否则,执行步骤C;
C、将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;
D、将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。
所述步骤A包括:从大规模的语言资料库中或从日常工作遇到的包含固定句型的句子中抽象出句型模板,并将抽象出的句型模板按照一定的策略加入到系统的句型模板库中,建立句型模板库。
所述句型模板包括模板的常量和模板的变量两个部分。
配置句型模板库中句型模板的优先级,步骤B中所述利用配置的句型模板对输入的源语言进行匹配采用嵌套匹配策略进行,具体包括:按句型模板优先级由高到低的顺序依次对输入的源语言进行匹配,首先利用句型模板库中优先级较高的句型模板对输入的源语言进行匹配,然后利用句型模板库中优先级较低的句型模板对输入的源语言进行匹配,直至句型模板库中没有句型模板能够匹配上输入的源语言为止。
所述步骤C包括:按照句号、逗号、分号和冒号的先后顺序依次对源语言进行切分,如果按照句号、逗号、分号和冒号中任何一种切分方式能够将源语言切分成与句型模板相匹配的子句,则结束切分,对切分得到的子句进行匹配,并将切分得到的子句转换成包含源语言词语与目标语言词语的句子。
所述匹配包括整句匹配和部分匹配两种匹配方式,在采用整句匹配方式时,源语言的句首与句型模板的句首相对应,源语言的句尾与句型模板的句尾相对应;在采用部分匹配方式时,源语言中的部分词语与句型模板中的部分词语相对应。
所述步骤D包括:将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统,统计机器翻译系统将源语言切分成不同的短语,并到短语表中查找与所述短语相匹配的目标短语,顺序连接目标短语构成不同的译文,计算译文的分数,选择分数最高的译文作为最终的译文。
所述统计机器翻译系统为基于短语的单调解码的翻译系统;
所述短语表包括多条记录,每条记录包括源语言短语、目标语言短语以及源语言短语与目标语言短语之间的翻译概率三个部分;
在计算译文的分数时,所述译文分数等于翻译概率与语言模型概率的乘积。
所述源语言短语与目标语言短语中的短语为连续的单词串。
所述语言模型概率用于计算翻译的目标语言的流畅程度,采用概率统计方法揭示语言单位内在的统计规律;
所述概率统计方法为基于N元组统计的方法。
(三)有益效果
从上述技术方案可以看出,本发明具有以下有益效果:
1、本发明提供的这种融合了句型模板和统计机器翻译技术的翻译方法,采用句型模板的定义方法、句型模板的匹配算法及其句型模板方法与统计机器翻译的融合策略,很好地解决了统计机器翻译系统不能很好的翻译具有固定句型结构的句子的问题,使对具有固定句型结构的句子的翻译更加流畅,符合领域常用句型的翻译结构。
2、本发明提供的这种融合了句型模板和统计机器翻译技术的翻译方法,结合了基于模板的技术和统计机器翻译的技术,仅仅只需要用户定义一定量的常用固定句型的模板,就能够翻译出符合特定领域句型结构的标准化的目标译文,同时又具有成本低,耗时短,不存在版权纠纷等优点。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,图1为本发明提供的融合了句型模板和统计机器翻译技术的翻译方法总体技术方案的实现流程图,该方法包括以下步骤:
步骤101:配置句型模板,建立句型模板库;
步骤102:利用配置的句型模板对输入的源语言进行匹配,如果匹配成功,则将输入的源语言转换成包含源语言词语与目标语言词语的句子,并执行步骤104;否则,执行步骤103;
步骤103:将输入的源语言按照标点符号切分成子句,对切分的子句进行匹配,将切分的子句转换成包含源语言词语与目标语言词语的句子;
步骤104:将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统进行翻译,得到翻译结果。
上述步骤101包括:从大规模的语言资料库中或从日常工作遇到的包含固定句型的句子中抽象出句型模板,并将抽象出的句型模板按照一定的策略加入到系统的句型模板库中,建立句型模板库。所述句型模板包括模板的常量和模板的变量两个部分。
上述在从大规模的语言资料库中或从日常工作遇到的包含固定句型的句子中抽象出句型模板时,由用户针对某些领域的特殊翻译需求,按照句型模板的定义方法进行。由于某个特定领域的特定句型不会太多,所以句型模板库不会像规则库那样庞大,而且句型模板库的构建不需要语言学家的参与,普通的用户完全可以胜任,并且可以在使用中逐步的将新的句型模板加入库中,句型模板库的构建所要耗费的人力、物力要比规则库的构建小很多。然后,在用户输入一个待翻译的句子时,首先调用句型模板的匹配算法对该句子进行匹配替换,然后将匹配替换后生成的句子送入统计机器翻译系统进行翻译。
预先配置句型模板库中句型模板的优先级,上述步骤102中所述利用配置的句型模板对输入的源语言进行匹配采用嵌套匹配策略进行,具体包括:按句型模板优先级由高到低的顺序依次对输入的源语言进行匹配,首先利用句型模板库中优先级较高的句型模板对输入的源语言进行匹配,然后利用句型模板库中优先级较低的句型模板对输入的源语言进行匹配,直至句型模板库中没有句型模板能够匹配上输入的源语言为止。
上述步骤103包括:按照句号、逗号、分号和冒号的先后顺序依次对源语言进行切分,如果按照句号、逗号、分号和冒号中任何一种切分方式能够将源语言切分成与句型模板相匹配的子句,则结束切分,对切分得到的子句进行匹配,并将切分得到的子句转换成包含源语言词语与目标语言词语的句子。
上述匹配包括整句匹配和部分匹配两种匹配方式。整句匹配是指对于模板库中的模板,输入句子的句首和句尾必须与模板的首尾完全对应才能匹配,而部分匹配则允许对句子中的任何部分进行模板匹配,不局限于对输入句子首尾的完全匹配。整句匹配的优点是匹配精度较高,但匹配能力不够强,而部分匹配则恰恰相反,其匹配能力很强但精度不够高,容易造成错误调序,须根据实际的情况进行衡量选择匹配策略。在采用整句匹配方式时,源语言的句首与句型模板的句首相对应,源语言的句尾与句型模板的句尾相对应;在采用部分匹配方式时,源语言中的部分词语与句型模板中的部分词语相对应。
上述步骤104包括:将匹配得到的包含源语言词语与目标语言词语的句子输出给统计机器翻译系统,统计机器翻译系统将源语言切分成不同的短语,并到短语表中查找与所述短语相匹配的目标短语,顺序连接目标短语构成不同的译文,计算译文的分数,选择分数最高的译文作为最终的译文。
上述统计机器翻译系统为基于短语的单调解码的翻译系统。所述短语表包括多条记录,每条记录包括源语言短语、目标语言短语以及源语言短语与目标语言短语之间的翻译概率三个部分;在计算译文的分数时,所述译文分数等于翻译概率与语言模型概率的乘积。短语表可以采用两种方法自动获取,一种是从词典中获取,另一种从平行语料库中自动获取。从字典中获取的短语的翻译概率可以手动设置成较高的值。
所述的从平行语料库中自动获取短语翻译对的过程如下:首先收集两种语言互为对齐的句子对,然后利用自动对齐软件获取句子对中单词之间的对齐关系,最后短语抽取工具从单词级对齐好的语料中抽取短语,并计算它们的之间的翻译概率。
上述源语言短语与目标语言短语中的短语不一定是语言学意义上的短语,准确地说是连续的单词串,如“并计算它们的”。所述语言模型概率用于计算翻译的目标语言的流畅程度,采用概率统计方法揭示语言单位内在的统计规律;所述概率统计方法为基于N元组(N-Gram)统计的方法。所述的N-Gram是指该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的模型多是二元组(Bi-Gram)或三元组(Tri-Gram)。
基于图1所述的融合了句型模板和统计机器翻译技术的翻译方法总体技术方案的实现流程图,以下结合具体的实施例对本发明融合了句型模板和统计机器翻译技术的翻译方法进一步详细说明。
实施例
如图2所示,图2为依照本发明实施例提供的融合了句型模板和统计机器翻译技术的翻译方法流程图,该方法包括以下步骤:
步骤201:配置句型模板,建立句型模板库。
在本步骤中,配置的句型模板包括“模板的常量”部分和“模板的变量”两部分。例如对于平行语料库中的如下句对:
一种治疗糖尿病的药物组合物及制备方法
A pharmaceutical composition for the treatment of diabetes and itspreparation method
抽象成句型模板变成下面的形式:
一种治疗##1[,10]{0}?的##2[,6]{0}及制备方法
A##2 for treatment of ## 1 and its preparation method
其中的##1[,10]{0}?,##2[,6]{0},##1及##2为句型模板的变量部分,其余为句型模板的常量部分,源语言中的##N与目标语言中的##N一一对应。
句型模板的变量部分的定义的完整形式及含义如下:
源语言中句型模板变量部分的完整形式为:##N[m,n]{+/—word}?
目标语言中句型模板变量部分的完整形式为:##N
各部分的含义如下:
##N:句子中可以被泛化成变量部分的标志符,N从1开始编号
[m,n]:变量部分的长度限制。表示被泛化的变量部分的长度必须在某个范围之内。有以下几种变种形式
[m,n]表示m=<变量的长度<=n
[m,]表示m=<变量的长度
[,n]表示0=<变量的长度<=n
[0]表示对变量的长度没有限制
{+/—word}:表示变量部分必须含有{+word}或必须不能含有{-word}某些词语,{0}表示对是否含有哪些词没有限制。
?:表示对句型变量进行匹配时,如果句子中有多处符合的情形,是匹配到第一次出现还是最后一次出现。例如对于例子中的句型模板,下面的这个句子在匹配时:
一种治疗肝炎的新研制的药物及制备方法
一种治疗##1[,10]{0}?的##2[,6]{0}及制备方法
对于##1[,10]{0}这个变量部分,如果加问号则变量将替换“肝炎”,变为
A药物for treatment of肝炎and its preparation method
否则,变量将替换“肝炎的新研制”,变为
A药物for treatment of肝炎的新研制and its preparation method
步骤202:根据输入的源语言决定采用何种模板匹配策略,是采用整句匹配还是部分匹配,所谓整句匹配是指除了模板中的常量部分完全匹配外,还要求模板的首尾与句子的首尾要严格相同,例如下面的句子和模板就是整句匹配:
一种治疗糖尿病的药物组合物及制备方法
一种治疗##1[,10]{0}?的##2[,6]{0}及制备方法
而下面的句子和模板就是部分匹配:
下面介绍一种治疗糖尿病的药物组合物及制备方法
一种治疗##1[,10]{0}?的##2[,6]{0}及制备方法
步骤203:在决定了匹配策略后,进行句型模板的匹配过程,整个匹配过程采取嵌套匹配策略,即在匹配了句型模板库中优先级较高的句型模板后仍允许对匹配替换后的句子匹配库中优先级较低的句型模板,直到没有句型模板可以匹配上句子为止,如果句型模板库中有句型模板可以匹配输入的源语言的句子,则执行步骤204;否则,执行步骤205。
步骤204:输出匹配替换后的结果到统计机器翻译系统进行翻译,执行步骤206。
步骤205:将输入的源语言的句子按标点符号切分成子句,首先按句号切分,如果仍不能匹配,则按逗号切分,如果仍不成功,则依次再按分号和冒号进行切分,只要有一种切分能匹配上句型模板库中的句型模板就将匹配的结果句子输出到统计机器翻译系统进行翻译。
步骤206:统计机器翻译系统将源语言切分成不同的短语,并到短语表中查找与所述短语相匹配的目标短语,顺序连接目标短语构成不同的译文,计算译文的分数,选择分数最高的译文作为最终的译文。
在本步骤中,翻译系统只需翻译句子中非目标语言的部分,这样既保留了句子的结构信息又减轻了翻译系统的负担,将句型模板和统计机器翻译系统有效的融合到了一起。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。