CN101685441A - 一种基于非连续短语的泛化重排序统计翻译方法及装置 - Google Patents
一种基于非连续短语的泛化重排序统计翻译方法及装置 Download PDFInfo
- Publication number
- CN101685441A CN101685441A CN200810222771A CN200810222771A CN101685441A CN 101685441 A CN101685441 A CN 101685441A CN 200810222771 A CN200810222771 A CN 200810222771A CN 200810222771 A CN200810222771 A CN 200810222771A CN 101685441 A CN101685441 A CN 101685441A
- Authority
- CN
- China
- Prior art keywords
- translation
- phrase
- continuous
- translated
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 187
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000000203 mixture Substances 0.000 claims description 47
- 239000000284 extract Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 14
- 238000013138 pruning Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 2
- 230000008521 reorganization Effects 0.000 claims description 2
- 230000014616 translation Effects 0.000 abstract description 144
- 238000002474 experimental method Methods 0.000 abstract description 5
- 238000009795 derivation Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 102100022670 Nuclear receptor subfamily 6 group A member 1 Human genes 0.000 description 1
- 101710093927 Nuclear receptor subfamily 6 group A member 1 Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种基于非连续短语的泛化重排序统计翻译方法及装置,由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错误训练模块以及解码器组成装置,对基于短语的统计机器翻译给出泛化的重排序模型,引入非连续短语,对于给定的待翻译文种中的任何一个连续的串,利用规则来组合连续短语和非连续短语,来获取尽可能多的连续的目标翻译,同时与一个重排序的子模型结合,实现短语的局部和全局的重排序,得到该源语言句子的最后的目标翻译。该模型能够抓住短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的泛化能力。实验结果表明模型改善了基于最大熵的重排序模型和基于层次短语的翻译模型大约1.54%and 0.66%的BLEU打分。
Description
技术领域
本发明涉及自然语言处理技术领域,是一种新的基于非连续短语的泛化重排序统计翻译方法及装置。
背景技术
在统计机器翻译中,基于短语的翻译模型已经改善了基于词的翻译模型。在基于短语的翻译模型中,短语是任意一个没有句法限制的连续的子串,它能够学习到一些局部知识,例如局部排序,或者多词表达的翻译,以及与局部上下文相关的词的插入和删除。但是,在基于短语的翻译模型中,缺少非连续短语、较弱的短语重排序能力和泛化能力等关键问题仍然没有得到有效的解决。
为了改善基于短语的翻译模型,两个问题必须要解决。一是短语的类型,既要包括连续短语,又要涉及到非连续短语。二是短语的重排序问题。基于句法的翻译模型利用句法信息在这两个问题上做了有益的探索,成为统计机器翻译中的一个热点。一般情况下,基于句法的翻译模型按照句法知识源可以划分为两类:基于语言学句法的翻译模型和基于形式句法的翻译模型。
基于语言学句法的翻译模型利用的句法结构来源于句法理论。它们的句法树要么来自短语结构的分析器,要么来自依存句法分析器。所有这些语言学句法的翻译方法使用句法结构知识来增强它们的重排序能力,也使用了非连续短语来获得短语的泛化能力。但是,这些模型高度依赖于句法分析器,翻译模型的表现也受到句法分析器的准确性的限制。
基于形式句法的翻译模型采用了一个简单并且有效的机制,它利用同步上下文无关文法,并不依赖于任何句法标注就可以从平行文本中归纳出文法,改善了基于短语的翻译模型。吴德凯的括号转录文法(BTG)能够对任意两个相邻的待翻译文种的字符串的翻译进行顺序或者逆序的重排序。由于BTG能够很好地平衡算法的有效性和语言的表达能力之间的关系,所以它在统计机器翻译中得到了广泛的应用。熊德意提出一个基于最大熵的重排序模型来加强BTG(MEBTG,又称为最大熵括号转录文法),但是无论在BTG还是MEBTG中,短语都只涉及到连续的字符串。蒋伟提出的基于层次短语的翻译模型(HPTM)通过将子短语归约为变量来组织层次短语,不仅对短语进行了重排序,而且将一些短语的泛化整合到模型的全局。
发明内容
一、要解决的技术问题
现存的基于短语的翻译的基于短语的翻译模型有的不能处理非连续短语,有的只是通过规则来重排短语,缺乏有效的重排序模型;本发明的目的在于引入非连续短语,与一个重排序的子模型结合,实现了短语的局部和全局的重排序,从而完成从待翻译文种到翻译文种的翻译,为此而提供一种基于非连续短语的泛化重排序统计翻译方法及装置。
二、解决技术问题的技术方案
为达成所述目的,本发明第一方面,是提供基于非连续短语的泛化重排序统计翻译方法,分为训练过程和翻译过程两部分,具体过程如下:
训练过程包括:
a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具,从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,得到双向的GIZA++的词对齐结果,并应用启发式的修正规则为每一个句子对获取一个多对多的词对齐。
b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者多元的语言模型。
c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对并统计其概率信息;
d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训练最大熵分类器。
e)利用最小错误训练算法在开发集上训练我们的翻译模型参数。
翻译过程包括:
在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基础上,应用我们的翻译模型参数,使用我们的规则进行推导,相当于对待翻译文种句子进行翻译及顺序的调整,直至完成翻译。也就是我们的解码过程。
为达成所述目的,本发明第二方面,是提供一种基于非连续短语的泛化重排序统计翻译装置,由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错误训练模块以及解码器组成,其中:
词对齐模块接收训练语料,用于对待翻译文种和翻译文种平行训练语料,利用GIZA++工具从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,得到双向的GIZA++词对齐结果并应用启发式修正规则为每一个句子对获取并输出一个多对多的词对齐结果;
语言模型模块接收训练语料,使用SRILM工具对训练语料的翻译文种训练,生成三元或者多元的语言模型;
抽取短语模块与词对齐模块连接,接收词对齐模块在训练语料的词对齐结果,用于抽取连续和非连续的短语翻译对并统计其概率信息;
训练最大熵分类器模块与词对齐模块连接,接收词对齐模块在训练语料的词对齐结果,用于抽取连续短语的重排序实例,训练并生成最大熵重排序分类器;
最小错误训练模块接收开发集,利用最小错误训练算法在开发集上训练并输出翻译模型参数;
解码器分别与训练最大熵分类器模块、抽取短语模块和最小错误训练模块连接,接收抽取短语模块抽取的连续和非连续短语翻译对,用训练最大熵分类器模块训练出的最大熵分类器、最小错误训练模块的翻译模型参数,并使用规则组合抽取短语模块抽取的连续和非连续短语翻译对,对待翻译文种句子进行翻译及顺序的调整,获得待翻译文种的翻译。
本发明的有益效果:受HPTM和MEBTG的启发,本发明提出一个泛化的重排序模型(GREM),它引入非连续短语,与一个重排序的子模型(MEBTG)结合,实现了短语的局部和全局的重排序。和MEBTG或者BTG相比,我们的模型通过引入非连续短语具备了更大的泛化能力。较之HPTM,HPTM没有这样一个基于最大熵的重排序子模型,它只是通过规则来重排序,而且HPTM的规则要比我们的模型多,因为我们的非连续短语只允许一个间隔在待翻译文种端或者翻译文种端,而HPTM的层次短语可能有2到3个变量。
另外一个涉及到非连续短语的工作,是斯玛德(Simard)第一个将多词表达引入统计机器翻译,它在待翻译文种端或者翻译文种端不必是连续的,遗憾的是该方法中非连续短语的间隔(Gap)只能允许一个词。这样限制了非连续短语的泛化能力,我们的模型允许间隔可以被任意连续的词序列来填充,而且我们的模型引入了MEBTG具备了更大的全局的重排序能力。
该模型不仅能够抓住短语的局部和全局重排序知识,而且能够通过非连续的短语获得短语的一定的泛化能力。实验结果表明我们的模型GREM分别改善了基于最大熵的重排序模型和基于层次短语的翻译模型大约1.54%and 0.66%的双语评估替代标准(Bilingual EvaluationUnderstudy,BLEU)打分。
附图说明
图1是本发明中GREM的一个例子。
图2是本发明中训练和翻译的整体框架图。
具体实施方式
下面详细说明本发明技术方案中所涉及的各个细节问题。
本发明提出基于非连续短语的泛化重排序统计翻译方法分为训练过程和翻译过程两部分,本发明中的待翻译文种和翻译文种以待翻译中文和翻译英文为例,具体过程如下:
训练过程包括:
a)对待翻译中文和翻译英文平行训练语料,从待翻译中文到翻译英文和翻译英文到待翻译中文两个方向,通过双向运行GIZA++并应用启发式(grow-diag-final)的修正规则为每一个句子对获取一个多对多的词对齐。
b)使用SRILM工具对训练语料的翻译英文进行训练,生成三元或者多元的语言模型。
c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对并统计其概率信息;
d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训练最大熵分类器。
e)利用最小错误训练算法在开发集上训练我们的翻译模型参数。
翻译过程包括:
在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基础上,应用我们的翻译模型参数,使用我们的规则进行推导,相当于对待翻译中文句子进行翻译及顺序的调整,直至完成翻译。也就是我们的解码过程。
我们定义一个非连续的短语为x1◇x2,只允许一个占位符◇来连接两个连续的串x1和x2。◇作为一个间隔(Gap)能够被任何一个连续的字符串来填充。之所以只考虑带有一个间隔的非连续短语,是因为这种短语具有最简单的形式,在保证算法效率的基础上使得翻译模型具备一定的表达能力。在这样的定义下,短语翻译对具备四种形式:
这里,每一种短语翻译对允许在待翻译中文端或者翻译英文端存在非连续短语。其中,短语翻译对和在待翻译中文端的短语是连续的,而短语翻译对和在待翻译中文端具备非连续的短语。在翻译英文端,短语翻译对和具备连续的形式而短语翻译对和却是非连续的短语。对于一个给定的待翻译中文句子中的任何一个连续的串,我们利用规则来获取尽可能多的连续的目标翻译,我们的规则能够组合待翻译中文端或者翻译英文端的连续短语或者非连续短语从而扩大待翻译中文字符串的候选翻译。进而通过MEBTG对任意两个相邻的连续待翻译中文短语的目标翻译进行重排序来得到该待翻译中文句子的最后的目标翻译。
如上所述,我们的思路可以用图1中的例子来解释如下:
给定一个待翻译中文句子“在船上我们有一位精通日语的医生”:
假设我们有8个连续或者非连续的短语翻译对(图1中的第二行)。图中的箭头表示待翻译中文句子中的词和短语翻译对之间的对应关系。每一个圆角长方形表示一个短语翻译对,它们的待翻译中文端或者翻译英文端是连续或者非连续的。
在我们的模型中,通过使用不同的组合规则我们可以获得位于第3行的新的连续的短语翻译对。
基于第二行和第三行所有的连续的短语翻译对,分别使用顺序或者逆序的重排序规则来找到任意两个相邻的翻译英文短语的顺序;
这样就得到了最终的目标翻译“We have a doctor who can understandJapanese very well in the ship”。从例子中我们可以清楚地看到我们的模型不仅可以抓住短语的局部和全局的重排序,而且通过非连续短语的使用获得了一定的短语泛化能力。
请参见图2,本发明中训练和翻译装置的整体框架如下所述:
1.训练过程中的词对齐模块
GIZA++是一个可以免费得到的实现IBM翻译模型的软件。我们使用这个软件来获取我们的词对齐。如果翻译中英方向,GIZA++得到的词对齐,对于每一个翻译英文词,可以对齐到多个待翻译中文词,但是,每一个待翻译中文词最多只能对齐到一个翻译英文词。这个“一对多”的限制对于逆向的GIZA++也是反过来的。为了获取“多对多”的词对齐,对于中英平行训练语料,利用GIZA++T具,从两个方向(待翻译中文到翻译英文和翻译英文到待翻译中文)实现词对齐,并应用启发式的修正规则来得到最后的词对齐。得到词对齐后,我们根据这个词对齐直接统计一个最大似然词汇化翻译表,估计词翻译概率w(e|f)和w(f|e),用于后续的短语翻译概率的计算。
2、语言模型模块
SRILM是一个可以免费得到的用于建立统计语言模型的工具。我们利用这个工具对训练语料的翻译英文端进行训练,生成三元或者多元的语言模型。
3.抽取短语模块
我们从词对齐的双语语料开始,<c,e,A>为三元组,其中c为一个待翻译中文的句子,e为一个翻译英文的句子,A为c和e之间的词对齐。
目前的基于短语的翻译模型经常获取满足定义1的短语翻译对:
定义1:给定一个词对齐的句子对<c,e,A>,c或者e为句子c或者e中任意连续的非空字符串,<c,e>是一个短语翻译对的充要条件为:
定义2:给定一个词对齐的句子对<c,e,A>,c或者e为句子c或者e中任意连续的非空字符串,c1◇c2是一个非连续的非空待翻译中文的字符串,e1◇e2是一个非连续的非空翻译英文的字符串。一个待翻译中文的短语既可以是一个连续的待翻译中文字符串c,也可以是一个非连续的待翻译中文字符串c1◇c2,即一个翻译英文的短语要么是一个连续的翻译英文字符串e,要么是一个非连续的翻译英文字符串e1◇e2,即那么是一个短语翻译对的充要条件为:
下面给出我们的连续和非连续短语翻译对的抽取算法,
利用上述算法可以从c到e的词对齐中抽取类型(1)、(2)和(4)的短语翻译对。变量PPSet表示抽取的短语翻译对集合,PPSet_1、PPSet_2、PPSet_3和PPSet_4分别表示上述4种短语翻译对集合。受蒋伟的层次短语思想的启发,我们在抽取过程中标注了间隔◇的方向。对于短语翻译对如果它的翻译英文端的间隔◇词对齐于待翻译中文端x的左边或者右边,我们就分别标注“CL”或者“CR”。对于短语翻译对如果它的待翻译中文端的间隔◇词对齐于翻译英文端x的左边或者右边,我们就分别标注“EL”或者“ER”。类型(1)和(4)的短语翻译对,不需要这样的标注。在这个标注的帮助下,我们可以像使用层次短语一样使用我们的非连续短语。用同样的方式我们可以从e到c的词对齐中抽取类型(1)、(2)和(4)的短语翻译对,进而合并这两个方向的每一种类型的短语翻译对,对于类型(4)的短语翻译对,为了增加准确性,我们只取两个方向的交集。
抽取短语结束后,短语翻译对的特征计算类似于基于短语的翻译模型。在我们的训练过程中,我们只是将间隔◇看做一个普通的词,每一个短语翻译对都有4个概率,两个方向的基于频率的翻译概率和两个方向的词汇化概率。我们对每一个短语翻译对的同现分配1次计数,然后在连续和非连续短语中平均分配这个权重,用这个权重作为观察数据来估计相对频率,得到两个方向的基于频率的翻译概率。
4.训练最大熵分类器模块
对连续短语的重排序,我们选择熊德意的基于最大熵的重排序模型(MEBTG)。该模型可以从两个相邻的连续短语翻译对中提取特征进行重排序,而不用管这两个短语翻译对是否出现在训练语料中。我们从词对齐的训练语料中抽取重排序实例,进而对任意两个相邻的连续短语翻译对抽取下面这些特征:
词汇化特征:相邻的两个待翻译中文短语或者翻译英文短语的首词或者尾词;
组合特征:词汇化特征的组合;
使用这些特征训练最大熵重排序分类器。
5、规则集以及我们的翻译模型
为了表示方便,我们使用泛化的乔姆斯基范式(GCNF)来给出我们的规则。对于终结符规则,对应于我们的四种短语翻译对,我们只需要翻译一个连续的待翻译中文短语X或者非连续的待翻译英文短语X(2)为它们的连续的翻译x或者非连续的翻译x1◇x2。
在这四个规则中,非终结符出现在规则表达式的左端(LHS)。左端的非终结符写成列的形式,表示我们的短语翻译对。连续的非终结符X表示一个连续的待翻译中文字符串或者翻译英文字符串,非连续的非终结符用它们连续的片段的数目来标注,如r3中的X(2)对应于短语“x1◇x2”。
一个非终结符的规则用下面的7种形式表示:
在这几个非终结符规则中,非终结符出现在规则表达式的左端,或者右端的括号中。在规则的每一行,一个角色模板描述了右端非终结符的相邻状态和相对顺序。例如在r5的顶行,[1,2]表示两个非终结符的顺序是顺序,在规则r6的底行,[2,1]表示两个非终结符是逆序的。r5和r6分别对应括号转录文法(BTG)的顺序和逆序规则。在r7的底行,[2,1,2]表示第二个非终结符既在第一个非终结符的前面,又在第一个非终结符的后面。符号(表示连接)按照角色模板来重新安排每一种语言中的非终结符。
基于这些规则,我们使用一个对数线性模型对每一个规则的概率进行建模:
其中φi是定义在规则rk上的第i个特征,λi是φi的权重。
对于非终结符规则r5和r6,我们使用下面的特征:
其中Ω为应用该重排序规则的概率,通过最大熵分类器来计算,λΩ为其权重;ΔLM为语言模型增量,由公式(3)和(4)来计算,λLM为权重:
这里,如果我们使用n元语言模型的话,x1 l和x1 r分别表示连续字符串x1的最左端和最右端的n-1个词。其他连续的字符串的对应表示有相同的含义。LM(·)为字符串·的语言模型概率的对数。
对于规则r3到r11,我们使用下面的特征:
·双向的翻译概率;
·双向的词汇化概率;
·规则惩罚;
·词惩罚;
·语言模型;
我们定义推导D为规则r1到r11的应用序列,c(D)和e(D)分别为D的待翻译中文和翻译英文生成。使用对数线性模型来模拟推导D的概率:
其中Pr(j)为应用的规则中第j次规则的概率.给定待翻译中文的句子c,使用下面的决策找到最好的推导D*生成最后的翻译英文句子e*:
6、解码器
我们开发了一个自底向上的CKY(Cocke-Kasami-Younger)风格的解码器。给定待翻译中文句子,首先通过终结符规则r1到r4使用我们的短语表初始化搜索空间,每一个连续或者非连续的待翻译中文的短语都有两个可能的选择:连续的或者非连续的翻译或者2者兼有。在待翻译中文端从i到j的所有可能的推导,放在我们的线图(chart)从i到j的模块格(i,j)中,(i,j)中的任意一个子模块格已经在(i,j)之前得到扩展。我们采取2步来完成每一个子模块格的推导。首先利用规则r7到r11得到每一个子模块格的初始假设,并通过合并两个子推导的打分来计算新生成的偏假设的打分。这样每一个模块格中就只包含连续的偏假设了。其后,应用规则r5和r6,利用最大熵分类器来重排序任意两个相邻的连续短语,也就是应用MEBTG。当整个源句子被覆盖,解码结束。
解码过程中,我们使用了3种剪枝策略:重组剪枝,阈值剪枝以及柱状剪枝来平衡解码器的速度和表现。
7、最小错误训练模块
为了获得最好的翻译效果,我们在开发集上使用Och的最大化BLEU训练算法对我们的规则的不同特征的权重进行训练,生成我们的翻译模型的参数。
8、实验
我们使用了IWSLT07(International Workshop on Spoken LanguageTranslation 2007)的语料作为实验数据,表1列出了训练集、开发集以及测试集详细的实验数据的统计量。
请参见下面表1:
其中“ASL”表示平均句子长度。我们的训练集包括IWSLT07发布的39,953个中英训练句子对以及来自网络(http://iwslt07.itc.it/ menu/resources.html)的235,929个句子对。我们选择IWSLT 2007发布的开发集IWSLT07_CE_devset4作为我们的开发集来调整参数,直接使用IWSLT 2007发布的测试集作为我们的测试集。
我们选择熊德意的Bruin系统和蒋伟的Hiero系统作为我们的基线系统用于比较,这两个系统是我们实验室分别根据相关论文实现的。
对于Hiero系统,抽取满足定义1的短语翻译对作为初始规则,然后抽取不多于两个非终结符的规则。实验中要求初始规则的长度不多于9个词,其他规则不多于5个终结符和非终结符。解码器也是最大化推导概率的CKY风格的线图分析器。搜索空间使用40限制线图单元格的大小进行剪枝,使用10作为阈值剪枝来去掉那些比单元格中当前最好假设差的翻译假设。
对于Bruin系统,我们抽取满足定义1的短语翻译对,短语长度限制也是9个词。从训练语料中抽取重排序实例,使用来自网络(http://maxent.sourceforge.net/)的最大熵分类器来训练重排序模型,解码过程中,阈值剪枝和柱状剪枝同Hiero系统。
对于我们的系统,主要参数,例如最大熵重排序模型、语言模型和连续的短语表与Bruin系统完全相同,只是添加了一个非连续的短语表。
为了比较Hiero系统和我们系统的规则的数量,我们使用了一个包含502个句子对的人工标注词对齐的语料分别进行规则抽取,对于Hiero规则,限制非终结符不超过2个,初始规则的长度不多于10个词,其他规则不多于5个终结符和非终结符。我们总共得到Hiero的包含最多2个非终结符的406458个规则,我们的规则可以覆盖Hiero规则所有的只有1个非终结符的规则和一部分2个非终结符的规则。例如,如果一个Hiero规则具备这样的形式:“<X1stringX2string,X1stringX2string>”,“string”表示一个终结符串,“X”表示一个非终结符,我们可以将它看做我们的规则r5和r11的组合。
表2中列出了Hiero规则和和本发明规则的比较,请参见下面表2:
可以看出,本发明的规则可以覆盖Hiero规则的76.16%。
表3列出了在翻译过程中3个系统规则应用的数目,请参见下面表3:
System | Filtered By DevSet | Filtered By TestSet |
Bruin | 157,784 | 141,347 |
Hiero | 4,192,871 | 2,612,076 |
GREM | 335,429 | 184,272 |
我们从训练语料中抽取每一种规则,并用开发集或者测试集进行过滤。对Bruin系统,我们只使用了连续短语。其他这两个系统,都使用了连续和非连续短语。可以看出,我们的规则比Hiero系统要少得多。
表4:不同系统的翻译效果比较,请参见下面表4:
System | BLEU-4 | NIST |
Bruin | 0.3766 | 6.3844 |
Hiero | 0.3799 | 6.4293 |
GREM | 0.3824 | 6.4892 |
表4列出了三个系统的翻译表现,可以看出,我们的方法改善了基线系统Bruin和Hiero大约1.54%and 0.66%的BLEU打分。实验分析表明我们模型通过引入非连续短语,较之Bruin系统获取了更多的短语泛化能力。我们的模型使用较少的规则就获得了与Hiero系统相当的翻译效果。我们模型的规则相当于Hiero的规则的一个子集,因为我们的规则只允许一个间隔,而Hiero可以有1个或者多个非终结符。实验也说明,Hiero的大量规则可以简化成一个相对比较整洁的形式,就像我们的规则一样。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1、一种基于非连续短语的泛化重排序统计翻译方法,步骤如下:
训练步骤包括:
a)对待翻译文种和翻译文种的平行训练语料,利用GIZA++工具,从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,双向运行GIZA++工具并应用启发式的修正规则为每一个句子对获取一个多对多的词对齐;
b)使用SRILM工具对训练语料的翻译文种进行训练,生成三元或者多元的语言模型;
c)在训练语料词对齐结果的基础上,抽取连续和非连续的短语翻译对并统计其概率信息;
d)在训练语料词对齐结果的基础上,抽取连续短语的重排序实例,训练最大熵分类器;
e)利用最小错误训练算法在开发集上训练翻译模型参数;翻译步骤包括:
在抽取的连续和非连续短语翻译对以及训练出的最大熵分类器的基础上,应用翻译模型参数,使用规则对待翻译文种句子进行翻译及顺序的调整,直至完成解码、翻译。
2、根据权利要求1所述的泛化重排序统计翻译方法,其特征在于,所述非连续的短语为带有一个间隔◇的非连续短语x1◇x2,只允许一个占位符◇来连接两个连续的非空的字符串x1和x2;◇作为一个间隔在翻译过程中被任何一个同一文种的连续的字符串来填充,生成具有最简单形式的连续短语用于在保证算法效率的基础上使得翻译模型具备一定的表达能力。
6、根据权利要求2所述的泛化重排序统计翻译方法,其特征在于,对于一个给定的待翻译文种的句子中的任何一个连续的字符串,利用组合待翻译文种端或者翻译文种端的连续短语或者非连续短语从而扩大该待翻译文种字符串的候选翻译的规则,获取尽可能多的连续的目标翻译。
7、根据权利要求6所述的泛化重排序统计翻译方法,其特征在于,规则包括从r1到r4的四个终结符规则和从r5到r11的7个非终结符规则,其中规则表达式为:
在r1到r4的四个终结符规则中,表达式的左端列的连续的非终结符X表示一个连续的待翻译文种的字符串或者翻译文种的字符串,表示为短语翻译对;其非连续的非终结符用它们连续的片段的数目来标注,X(2)对应于非连续短语x1◇x2;
8、根据权利要求6所述的泛化重排序统计翻译方法,其特征在于,通过最大熵括号转录文法对任意两个相邻的连续待翻译文种的短语的目标翻译进行重排序来得到该待翻译文种句子的最后的目标翻译。
9、一种基于非连续短语的泛化重排序统计翻译装置,其特征在于,由词对齐模块、语言模型模块、抽取短语模块、训练最大熵分类器模块,最小错误训练模块以及解码器组成;其中:
词对齐模块接收训练语料,用于对待翻译文种和翻译文种平行训练语料,利用GIZA++工具从待翻译文种到翻译文种和翻译文种到待翻译文种两个方向,得到训练语料双向GIZA++的词对齐,并应用启发式修正规则为每一个句子对获取并输出一个多对多的词对齐结果;
语言模型模块接收训练语料,使用SRILM工具对训练语料的翻译文种训练,生成三元或者多元的语言模型;
抽取短语模块与词对齐模块连接,接收词对齐模块在训练语料的词对齐结果,用于抽取连续和非连续的短语翻译对并统计其概率信息;
训练最大熵分类器模块与词对齐模块连接,接收词对齐模块在训练语料的词对齐结果,用于抽取连续短语的重排序实例,训练并生成最大熵重排序分类器;
最小错误训练模块接收开发集,利用最小错误训练算法在开发集上训练并输出翻译模型参数;
解码器分别与训练最大熵分类器模块、抽取短语模块和最小错误训练模块连接,接收抽取短语模块抽取的连续和非连续短语翻译对,用训练最大熵分类器模块训练出的最大熵分类器、最小错误训练模块的翻译模型参数,并使用规则组合抽取短语模块抽取的连续和非连续短语翻译对,对待翻译文种句子进行翻译及顺序的调整,获得待翻译文种的翻译。
10、根据权利要求9所述的泛化重排序统计翻译装置,其特征在于,解码器是一个自底向上的CKY风格的解码器,使用了三种剪枝策略:重组剪枝,阈值剪枝以及柱状剪枝来平衡解码器的速度和表现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810222771A CN101685441A (zh) | 2008-09-24 | 2008-09-24 | 一种基于非连续短语的泛化重排序统计翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810222771A CN101685441A (zh) | 2008-09-24 | 2008-09-24 | 一种基于非连续短语的泛化重排序统计翻译方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101685441A true CN101685441A (zh) | 2010-03-31 |
Family
ID=42048605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810222771A Pending CN101685441A (zh) | 2008-09-24 | 2008-09-24 | 一种基于非连续短语的泛化重排序统计翻译方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101685441A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908041A (zh) * | 2010-05-06 | 2010-12-08 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种基于多代理机制的多词表达抽取系统及方法 |
CN102214166A (zh) * | 2010-04-06 | 2011-10-12 | 三星电子(中国)研发中心 | 基于句法分析和层次模型的机器翻译系统和方法 |
CN102402503A (zh) * | 2010-09-15 | 2012-04-04 | 富士通株式会社 | 基于扩展的层次化短语模型的统计机器翻译装置和方法 |
CN102681984A (zh) * | 2010-12-17 | 2012-09-19 | 谷歌公司 | 使用对偶分解组合基于模型的对准器 |
CN103092831A (zh) * | 2013-01-25 | 2013-05-08 | 哈尔滨工业大学 | 一种用于统计机器翻译的参数调整方法 |
CN103150329A (zh) * | 2013-01-06 | 2013-06-12 | 清华大学 | 双语文本的词语对齐方法及装置 |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN105760366A (zh) * | 2015-03-16 | 2016-07-13 | 国家计算机网络与信息安全管理中心 | 针对特定领域的新词发现方法 |
CN107608953A (zh) * | 2017-07-25 | 2018-01-19 | 同济大学 | 一种基于不定长上下文的词向量生成方法 |
CN107798386A (zh) * | 2016-09-01 | 2018-03-13 | 微软技术许可有限责任公司 | 基于未标注数据的多过程协同训练 |
CN111626064A (zh) * | 2019-02-26 | 2020-09-04 | 株式会社理光 | 神经机器翻译模型的训练方法、装置及存储介质 |
CN112287698A (zh) * | 2020-12-25 | 2021-01-29 | 北京百度网讯科技有限公司 | 篇章翻译方法、装置、电子设备和存储介质 |
-
2008
- 2008-09-24 CN CN200810222771A patent/CN101685441A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214166A (zh) * | 2010-04-06 | 2011-10-12 | 三星电子(中国)研发中心 | 基于句法分析和层次模型的机器翻译系统和方法 |
CN102214166B (zh) * | 2010-04-06 | 2013-02-20 | 三星电子(中国)研发中心 | 基于句法分析和层次模型的机器翻译系统和方法 |
CN101908041A (zh) * | 2010-05-06 | 2010-12-08 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种基于多代理机制的多词表达抽取系统及方法 |
CN101908041B (zh) * | 2010-05-06 | 2012-07-04 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种基于多代理机制的多词表达抽取系统及方法 |
CN102402503A (zh) * | 2010-09-15 | 2012-04-04 | 富士通株式会社 | 基于扩展的层次化短语模型的统计机器翻译装置和方法 |
CN102681984A (zh) * | 2010-12-17 | 2012-09-19 | 谷歌公司 | 使用对偶分解组合基于模型的对准器 |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN103823809B (zh) * | 2012-11-16 | 2018-06-08 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN103150329A (zh) * | 2013-01-06 | 2013-06-12 | 清华大学 | 双语文本的词语对齐方法及装置 |
CN103092831A (zh) * | 2013-01-25 | 2013-05-08 | 哈尔滨工业大学 | 一种用于统计机器翻译的参数调整方法 |
CN105760366A (zh) * | 2015-03-16 | 2016-07-13 | 国家计算机网络与信息安全管理中心 | 针对特定领域的新词发现方法 |
CN105760366B (zh) * | 2015-03-16 | 2018-06-29 | 国家计算机网络与信息安全管理中心 | 针对特定领域的新词发现方法 |
CN107798386A (zh) * | 2016-09-01 | 2018-03-13 | 微软技术许可有限责任公司 | 基于未标注数据的多过程协同训练 |
CN107798386B (zh) * | 2016-09-01 | 2022-02-15 | 微软技术许可有限责任公司 | 基于未标注数据的多过程协同训练 |
CN107608953A (zh) * | 2017-07-25 | 2018-01-19 | 同济大学 | 一种基于不定长上下文的词向量生成方法 |
CN111626064A (zh) * | 2019-02-26 | 2020-09-04 | 株式会社理光 | 神经机器翻译模型的训练方法、装置及存储介质 |
CN111626064B (zh) * | 2019-02-26 | 2024-04-30 | 株式会社理光 | 神经机器翻译模型的训练方法、装置及存储介质 |
CN112287698A (zh) * | 2020-12-25 | 2021-01-29 | 北京百度网讯科技有限公司 | 篇章翻译方法、装置、电子设备和存储介质 |
CN112287698B (zh) * | 2020-12-25 | 2021-06-01 | 北京百度网讯科技有限公司 | 篇章翻译方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101685441A (zh) | 一种基于非连续短语的泛化重排序统计翻译方法及装置 | |
Bod | An all-subtrees approach to unsupervised parsing | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
Ney et al. | Algorithms for statistical translation of spoken language | |
Leusch et al. | A novel string-to-string distance measure with applications to machine translation evaluation | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN103198149B (zh) | 一种查询纠错方法和系统 | |
CN107729326B (zh) | 基于Multi-BiRNN编码的神经机器翻译方法 | |
CN102117270B (zh) | 一种基于模糊树到精确树的统计机器翻译方法 | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
Reddy et al. | Unsupervised discovery of rhyme schemes | |
US20080120092A1 (en) | Phrase pair extraction for statistical machine translation | |
CN107133223B (zh) | 一种自动探索更多参考译文信息的机器翻译优化方法 | |
CN105068997A (zh) | 平行语料的构建方法及装置 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN103942192A (zh) | 一种双语最大名词组块分离-融合的翻译方法 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN106610949A (zh) | 一种基于语义分析的文本特征提取方法 | |
CN112417823A (zh) | 一种中文文本语序调整和量词补全方法及系统 | |
Forbes et al. | An FST morphological analyzer for the gitksan language | |
CN102184172A (zh) | 一种用于盲人读取汉字的系统和方法 | |
JP5058221B2 (ja) | 文短縮装置、その方法およびプログラム | |
WO2012071922A1 (zh) | 一种实现高命中率的逐词比对方法 | |
CN113723080B (zh) | 一种基于反向翻译的英文文章自动语法纠错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20100331 |