CN102053959A - 一种用于机器翻译的调序模型的生成方法和装置 - Google Patents

一种用于机器翻译的调序模型的生成方法和装置 Download PDF

Info

Publication number
CN102053959A
CN102053959A CN 201010600035 CN201010600035A CN102053959A CN 102053959 A CN102053959 A CN 102053959A CN 201010600035 CN201010600035 CN 201010600035 CN 201010600035 A CN201010600035 A CN 201010600035A CN 102053959 A CN102053959 A CN 102053959A
Authority
CN
China
Prior art keywords
source language
alignment
speech
example sentence
collocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010600035
Other languages
English (en)
Other versions
CN102053959B (zh
Inventor
吴华
胡晓光
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2010106000350A priority Critical patent/CN102053959B/zh
Publication of CN102053959A publication Critical patent/CN102053959A/zh
Application granted granted Critical
Publication of CN102053959B publication Critical patent/CN102053959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种用于机器翻译的调序模型的生成方法,包括:获取双语语料库;对双语语料库中的源语言例句进行搭配抽取,以获取源语言搭配词对;对源语言例句以及目标语言例句进行双语词对齐,并根据双语词对齐结果确定源语言搭配词的对应译文;根据源语言搭配词在源语言例句中的顺序以及对应译文在目标语言例句的顺序确定源语言搭配词对的调序方向;对调序方向进行统计,获取每一调序方向的调序概率,以形成调序模型。通过上述方式,基于源语言的词与词之间的搭配信息建立调序模型,进而提高调序模型的调序能力。

Description

一种用于机器翻译的调序模型的生成方法和装置
技术领域
本发明涉及机器翻译领域,特别涉及一种用于机器翻译的调序模型的生成方法和装置。
背景技术
近年来,基于短语的统计机器翻译(phrase-based statistical machine translation)相比于IBM公司当初提出的基于单词的统计机器翻译(word-based statistical machine translation)在译文质量上有了很大的进步,因而受到人们的广泛关注。简单地说,基于短语的统计机器翻译在训练时,首先将双语语料库中的双语例句进行双语词对齐,随后双语词对齐的基础上抽取出带概率的双语短语表。在翻译时,首先是将要翻译的源语言句子与短语表中的源语言短语进行匹配,得到与源语言短语对应的目标语言短语,然后对目标语言短语进行调序,进而得到目标语言句子。
在基于短语的统计机器翻译系统中,存在三个比较重要的模型:翻译模型、调序模型以及语言模型。其中,调序模型是为了解决翻译中存在的调序问题。现有的调序模型主要是基于相邻的短语。例如,在翻译“人们将来的发展与他们幼年时的发展息息相关”时,调序模型考虑的是“与他们幼年时的发展”与“息息相关”之间的调序问题。基于短语的调序模型存在以下两个缺陷:一是不能对非连续性的短语进行调序,例如不能对“与...息息相关”和“他们幼年时的发展”进行调序;二是调序模型依赖于整个短语,使得估计参数时存在数据稀疏问题,导致估计不准。
为了提高调序模型的调序能力,部分研究者采用功能词(function word)或者边界词(boundary word)等方式来解决数据稀疏问题,但上述解决方案的效果仍不理想,无法满足机器翻译需求。
发明内容
本发明所要解决的技术问题是提供一种用于机器翻译的调序模型的生成方法和装置,以通过词与词之间的搭配信息来提高调序模型的调序能力。
本发明为解决技术问题而采用的技术方案是提供一种用于机器翻译的调序模型的生成方法,包括:a.获取双语语料库,所述双语语料库包括多个双语例句对,每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句;b.对所述源语言例句进行搭配抽取,以获取源语言搭配词对,每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词;c.对所述源语言例句以及所述目标语言例句进行双语词对齐,并根据双语词对齐结果确定所述源语言搭配词的对应译文;d.根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向;e.对所述调序方向进行统计,获取每一所述调序方向的调序概率,以形成调序模型。
根据本发明之一优选实施例,所述步骤b进一步包括:b1.对所述源语言例句进行复制,以形成包括两个所述源语言例句的源语言例句对;b2.对所述源语言例句对进行单语词对齐,并根据单语词对齐结果获得一组源语言对齐词对,每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词;b3.从所述源语言对齐词对中选择所述源语言搭配词对。
根据本发明之一优选实施例,在所述步骤b2中,利用单语词对齐模型对所述源语言例句对进行单语词对齐。
根据本发明之一优选实施例,在所述步骤b3中,过滤掉对齐频率小于第一阈值的所述源语言对齐词对。
根据本发明之一优选实施例,在所述步骤b3中,基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率,根据所述对齐概率计算所述源语言对齐词对的搭配概率,并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。
根据本发明之一优选实施例,在所述步骤c中,利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。
根据本发明之一优选实施例,所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。
本发明为解决技术问题而采用的技术方案是提供一种用于机器翻译的调序模型的生成装置,包括:双语语料获取单元,用于获取双语语料库,所述双语语料库包括多个双语例句对,每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句;搭配抽取单元,用于对所述源语言例句进行搭配抽取,以获取源语言搭配词对,每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词;双语词对齐单元,用于对所述源语言例句以及所述目标语言例句进行双语词对齐,并根据双语词对齐结果确定所述源语言搭配词的对应译文;调序方向确定单元,用于根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向;调序模型生成单元,用于对所述调序方向进行统计,获取每一所述调序方向的调序概率,以形成调序模型。
根据本发明之一优选实施例,所述搭配抽取单元进一步包括:源语言例句对形成单元,用于对所述源语言例句进行复制,以形成包括两个所述源语言例句的源语言例句对;单语词对齐单元,用于对所述源语言例句对进行单语词对齐,并根据单语词对齐结果获得一组源语言对齐词对,每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词;源语言搭配词对选择单元,从所述源语言对齐词对中选择所述源语言搭配词对。
根据本发明之一优选实施例,所述单语词对齐单元利用单语词对齐模型对所述源语言例句对进行单语词对齐。
根据本发明之一优选实施例,所述源语言搭配词对选择单元过滤掉对齐频率小于第一阈值的所述源语言对齐词对。
根据本发明之一优选实施例,所述源语言搭配词对选择单元基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率,根据所述对齐概率计算所述源语言对齐词对的搭配概率,并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。
根据本发明之一优选实施例,所述双语词对齐单元利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。
根据本发明之一优选实施例,所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。
由以上技术方案可以看出,本发明提供的调序模型的生成方法及装置基于源语言的词与词之间的搭配信息来建立调序模型,进而提高了调序模型的调序能力。
附图说明
图1是本发明实施例中的调序模型生成方法的流程示意图;
图2是本发明实施例中的搭配抽取结果的示意图;
图3是本发明实施例中的双语词对齐结果的示意图;
图4是本发明实施例中的搭配抽取方法的流程示意图;
图5是本发明实施例中的调序模型生成装置的示意框图;
图6是本发明实施例中的搭配抽取单元的示意框图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
本发明利用源语言句子中的词与词之间的搭配信息来提高调序模型的调序能力,例如在以上例句中,如果能够发现“与”和“息息相关”是一个搭配词对,那么在调序过程中,考虑采用这样的调序模型来约束二者的调序方向:
p(o|wi,wj)o∈(straight,inverted)
在上述调序模型中,wi和wj表示在源语言句子中具有搭配关系的两个源语言搭配词,二者构成一源语言搭配词对,o表示调序方向,其中,“straight”表示源语言搭配词wi和wj在源语言句子中的顺序与源语言搭配词wi和wj的对应译文在目标语言句子中的顺序相同,“inverted”表示源语言搭配词wi和wj在源语言句子中的顺序与wi和wj的对应译文在目标语言句子中的顺序相反。
请参阅图1,图1是本发明实施例中的调序模型生成方法的流程示意图。在本实施例中,通过训练的方式来生成上述模型,该调序模型生成方法主要包括以下几个步骤:
在步骤S101中,获取双语语料库。该双语语料库包括多个双语例句对,每一双语例句对包括源语言例句以及与源语言例句对应的目标语言例句。双语语料库在机器翻译领域中被普遍使用,并可通过各种方式获得,在此不再赘述。
在步骤S102中,对源语言例句进行搭配抽取,以获取源语言搭配词对。如图2所示,在本步骤中,可通过单语词对齐的方式来获取源语言搭配词对。例如,在图2中,“人们”与“发展”、“将来”与“发展”以及“与”与“息息相关”均为两个具有搭配关系的源语言搭配词,进而分别构成一源语言搭配词对。下文将详细描述通过单语词对齐方式来获取源语言搭配词对的搭配抽取方法。
在步骤S103中,对双语例句对中的源语言例句以及目标语言例句进行双语词对齐,并根据双语词对齐结果确定源语言搭配词的对应译文。如图3所示,源语言搭配词“人们”的对应译文为“People”、“将来”的对应译文为“future”、“发展”的对应译文为“development”、“与”的对应译文为“to”以及“息息相关”的对应译文为“is closely related”。在本步骤中,双语词对齐可通过训练好的双语词对齐模型来实现。双语词对齐模型及其训练方法为本领域公知常识,在此不再赘述。
在步骤S104中,根据源语言搭配词在源语言例句中的顺序以及源语言搭配词的对应译文在目标语言例句的顺序确定源语言搭配词对的调序方向。具体来说,如图2-3所示,在源语言例句中,源语言搭配词“人们”位于“发展”的前面,同时在目标语言例句中,“人们”的对应译文“People”同样位于“发展”的对应译文“development”的前面。此时,认为源语言搭配词对“人们”与“发展”的调序方向为“straight”,即源语言搭配词在源语言例句中的顺序与对应译文在目标语言例句中的顺序相同。同理,“将来”与“发展”的调序方向也是“straight”。进一步,在源语言例句中,源语言搭配词“与”位于“息息相关”的前面,而在目标语言例句中,“与”的对应译文“to”位于“息息相关”的对应译文“is closely related”的后面,则认为源语言搭配词对“与”与“息息相关”的调序方向是“inverted”,即源语言搭配词在源语言例句中的顺序与对应译文在目标语言例句中的顺序相反。
在步骤S105中,对上述调序方向进行统计,获取每一调序方向的调序概率,以形成调序模型。
具体来说,每一源语言搭配词对wi和wj的调序方向的调序概率为:
p ( o | w i , w j ) = count ( o , w i , w j ) Σ o ′ count ( o ′ , w i , w j )
其中,count(o,wi,wj)是在双语语料库中源语言搭配词对wi和wj的调序方向为o(例如,straight或inverted)的出现次数,而
Figure BSA00000394569100062
是在双语语料库中源语言搭配词对wi和wj的各种调序方向o′的出现次数的求和结果。
例如:
p ( straight | w i , w j ) = count ( straight , w i , w j ) count ( straight , w i , w j ) + count ( inverted , w i , w j )
p ( inverted | w i , w j ) = count ( inverted , w i , w j ) count ( straight , w i , w j ) + count ( inverted , w i , w j )
p(straight|wi,wj)+p(inverted|wi,wj)=1
如图4所示,图4是本发明实施例中的搭配抽取方法的流程示意图。
在步骤401中,对源语言例句进行复制,以形成如图2所示的包括两个同样源语言例句的源语言例句对。
在步骤402中,对源语言例句对进行单语词对齐,并根据单语词对齐结果获得一组源语言对齐词对,每一源语言对齐词对包括两个具有对齐关系的源语言对齐词。
在本技术领域中,统计双语词对齐方法已经在机器翻译领域进行了很好的研究,并能从双语句对中抽取对齐的双语词对。本实施例对双语词对齐算法进行调整,以在源语言例句对中进行单语词对齐。
在本实施例中,提供了三种用于单语词对齐的单语词对齐模型MWA Model 1-3(分别对应于IBM Model 1-3):
p MWAModel 1 ( S , A | S ) ∝ Π m = 1 l t ( w m | w a m )
p MWAModel 2 ( S , A | S ) ∝ Π m = 1 l t ( w m | w a m ) · d ( m | a m , l )
p MWAModel 3 ( S , A | S ) ∝ Π n = 1 l n ( φ n | w n ) · Π m = 1 l t ( w m | w a m ) · d ( m | a m , l )
其中,S表示具有l个词的单语词序列,A表示对齐集合,φn表示与wn对齐的词数量,
Figure BSA00000394569100081
为词对齐概率,其描述wm
Figure BSA00000394569100082
对齐的概率,d(m|am,l)为位置对齐概率,其表示在长度为l的句子中位置am的词与位置m的另一个词对齐的概率。n(φn|wn)为繁殖概率,其表示wn可以对齐的词数量的概率。对于上述模型,除了词不能与自身对齐,可使用双语词对齐相似的方法进行训练。此外,单语词对齐模型还可以采用其他形式,例如IBM Model 4-5。
对给定的源语言例句对,可使用训练好的单语词对齐模型进行单语词对齐,进而获得一组源语言对齐词对。
在步骤403中,从源语言对齐词对中选择源语言搭配词对。
首先,计算源语言对齐词对的对齐频率,即源语言对齐词对的出现次数,表示为freq(wn|wm)。在本步骤中,过滤掉对齐频率小于第一阈值(例如,5次)的源语言对齐词对。随后,基于对齐频率,计算每个源语言对齐词对的对齐概率。
p ( w n | w m ) = freq ( w n | w m ) Σ w ′ freq ( w ′ | w m )
p ( w m | w n ) = freq ( w m | w n ) Σ w ′ freq ( w ′ | w n )
其中,
Figure BSA00000394569100085
表示与wm对齐的所有词的对齐频率的求和结果,
Figure BSA00000394569100086
表示与wn对齐的所有词的对齐频率的求和结果。
接着,根据对齐概率计算每个源语言对齐词对的搭配概率,具体搭配概率计算公式包括:
p ‾ ( w m | w n ) = p ( w n | w m ) + p ( w m | w n ) 2
最后,选择搭配概率大于第二阈值的源语言对齐词对wn和wm作为源语言搭配词对。
在本实施例中,通过训练获得上述调序模型后,可以将上述调序模型作为一个特征应用在现有的任何类型的翻译系统中,例如log-linear的统计翻译模型中。
对于一个待翻译的源语言句子,首先从源语言句子中抽取搭配词对fi以及
Figure BSA00000394569100092
具体抽取方式可以与上文所述的搭配抽取方式相同。随后,根据源语言句子与产生的翻译候选E计算搭配词对的调序方向
Figure BSA00000394569100093
进而确定在该调序方向上的调序概率。为了进一步区分搭配词对,利用搭配词对的搭配概率对搭配词对的调序概率进行加权。因而,对于翻译候选E,其在调序方向上的评分可通过以下公式计算:
P O ( F , E ) = Σ ( i , c i ) p ( o i , c i , a i , a c i | f i , f c i ) r ( f i , f c i )
r ( f i , f c i ) = p ( f i | f c i ) + p ( f c i | f i ) 2
其中,
Figure BSA00000394569100096
为搭配词对fi
Figure BSA00000394569100097
在调序方向上的调序概率,
Figure BSA00000394569100099
为搭配词对fi
Figure BSA000003945691000910
的搭配概率,搭配概率的具体计算方式与上文描述的相同。
实际上,待翻译的源语言句子中的搭配词对中的词还可能与句子中的其他词进行搭配。因此,在本实施例中进一步考虑搭配概率高于给定阈值的其他词对。因此,翻译候选E在调序方向上的评分可根据以下公式进行计算:
Figure BSA000003945691000911
Figure BSA000003945691000912
其中,α和β表示权重,θ是阈值。
在现有的统计机器翻译系统中,一般采用log-linear模型来整合各种特征。在这种log-linear模型中,存在M个特征hm(E,F),m=1,...,M。对于每个特征,设置一个特征参数λm,并且该特征参数可以通过最小错误率训练得到。因而,对于待翻译的源语言句子F,可根据如下公式从多个翻译候选E中选择评分最高的翻译候选作为最终翻译结果E*
E * = arg max E { p ( E | F ) }
= arg max E { Σ m = 1 M λ m h m ( E , F ) }
在本实施例中,上述调序模型可进一步与本领域公知的其他调序模型(例如,相对位置调序模型、共现调序模型/Co-occurrence based reordering model)进行融合,融合的方法也是各自作为特征加入到上述log-linear模型中,以进一步提高调序模型的调序能力。特征的参数同样可以通过最小错误率训练得到。
如从上述描述所看到的,本发明的调序模型仅依赖于源语言句子及词的相对位置。该调序模型独立于统计机器翻译系统的其他模型,例如语言模型以及翻译模型,因而可作为附加特征应用于统计机器翻译系统。
请参阅图5,图5是本发明实施例中的调序模型生成装置的示意框图。在本实施例中,该调序模型生成装置主要包括双语语料获取单元501、搭配抽取单元502、双语词对齐单元503、调序方向确定单元504以及调序模型生成单元505。
双语语料获取单元501用于获取双语语料库。该双语语料库包括多个双语例句对,每一双语例句对包括源语言例句以及与源语言例句对应的目标语言例句。
搭配抽取单元502用于对源语言例句进行搭配抽取,以获取源语言搭配词对。如图2所示,可通过单语词对齐的方式来获取源语言搭配词对。例如,在图2中,“人们”与“发展”、“将来”与“发展”以及“与”与“息息相关”均为两个具有搭配关系的源语言搭配词,进而分别构成一源语言搭配词对。下文将详细描述通过单语词对齐方式来获取源语言搭配词对的搭配抽取单元502。
双语词对齐单元503用于对双语例句对中的源语言例句以及目标语言例句进行双语词对齐,并根据双语词对齐结果确定源语言搭配词的对应译文。如图3所示,源语言搭配词“人们”的对应译文为“People”、“将来”的对应译文为“future”、“发展”的对应译文为“development”、“与”的对应译文为“to”以及“息息相关”的对应译文为“is closely related”。在双语词对齐单元503中,双语词对齐可通过训练好的双语词对齐模型来实现。双语词对齐模型及其训练方法为本领域公知常识,在此不再赘述。
调序方向确定单元504用于根据源语言搭配词在源语言例句中的顺序以及源语言搭配词的对应译文在目标语言例句的顺序确定源语言搭配词对的调序方向。具体来说,如图2-3所示,在源语言例句中,源语言搭配词“人们”位于“发展”的前面,同时在目标语言例句中,“人们”的对应译文“People”同样位于“发展”的对应译文“development”的前面。此时,认为源语言搭配词对“人们”与“发展”的调序方向为“straight”,即源语言搭配词在源语言例句中的顺序与对应译文在目标语言例句中的顺序相同。同理,“将来”与“发展”的调序方向也是“straight”。进一步,在源语言例句中,源语言搭配词“与”位于“息息相关”的前面,而在目标语言例句中,“与”的对应译文“to”位于“息息相关”的对应译文“is closely related”的后面,则认为源语言搭配词对“与”与“息息相关”的调序方向是“inverted”,即源语言搭配词在源语言例句中的顺序与对应译文在目标语言例句中的顺序相反。
调序模型生成单元505用于对上述调序方向进行统计,获取每一调序方向的调序概率,以形成调序模型。
具体来说,每一源语言搭配词对wi和wj的调序方向的调序概率为:
p ( o | w i , w j ) = count ( o , w i , w j ) Σ o ′ count ( o ′ , w i , w j )
其中,count(o,wi,wj)是在双语语料库中源语言搭配词对wi和wj的调序方向为o(例如,straight或inverted)的出现次数,而
Figure BSA00000394569100122
是在双语语料库中源语言搭配词对wi和wj的各种调序方向o′的出现次数的求和。
例如:
p ( straight | w i , w j ) = count ( straight , w i , w j ) count ( straight , w i , w j ) + count ( inverted , w i , w j )
p ( inverted | w i , w j ) = count ( inverted , w i , w j ) count ( straight , w i , w j ) + count ( inverted , w i , w j )
p(straight|wi,wj)+p(inverted|wi,wj)=1
如图6所示,图6是本发明实施例中的搭配抽取单元502的示意框图。在本实施例中,搭配抽取单元包括源语言例句对形成单元601、单语词对齐单元602以及源语言搭配词对选择单元603。
源语言例句对形成单元601用于对源语言例句进行复制,以形成如图2所示的包括两个同样源语言例句的源语言例句对。
单语词对齐单元602用于对源语言例句对进行单语词对齐,并根据单语词对齐结果获得一组源语言对齐词对,每一源语言对齐词对包括两个具有对齐关系的源语言对齐词。
在本技术领域中,统计双语词对齐方法已经在机器翻译领域进行了很好的研究,并能从双语句对中抽取对齐的双语词对。本实施例对双语词对齐算法进行调整,以在源语言例句对中进行词对齐。
在本实施例中,提供了三种用于单语词对齐的单语词对齐模型MWA Model 1-3(分别对应于IBM Model 1-3):
p MWAModel 1 ( S , A | S ) ∝ Π m = 1 l t ( w m | w a m )
p MWAModel 2 ( S , A | S ) ∝ Π m = 1 l t ( w m | w a m ) · d ( m | a m , l )
p MWAModel 3 ( S , A | S ) ∝ Π n = 1 l n ( φ n | w n ) · Π m = 1 l t ( w m | w a m ) · d ( m | a m , l )
其中,S表示具有l个词的单语词序列,A表示对齐集合,φn表示与wn对齐的词数量,
Figure BSA00000394569100134
为词对齐概率,其表示wm对齐的概率,d(m|am,l)为位置对齐概率,其表示在长度为l的句子中位置am的词与位置m的另一个词对齐的概率。n(φn|wn)为繁殖概率,其表示wn可以对齐的词数量的概率。对于上述模型,除了词不能与自身对齐,可使用双语词对齐相似的方法进行训练。此外,单语词对齐模型还可以采用其他形式,例如IBM Model 4-5。
对给定的源语言例句对,可使用训练好的单语词对齐模型进行单语词对齐,进而获得一组源语言对齐词对。
源语言搭配词对选择单元603用于从源语言对齐词对中选择源语言搭配词对。
首先,计算源语言对齐词对的对齐频率,即源语言对齐词对的出现次数,表示为freq(wn|wm)。源语言搭配词对选择单元603过滤掉对齐频率小于第一阈值(例如,5次)的源语言对齐词对。随后,基于对齐频率,计算每个源语言对齐词对的对齐概率。
p ( w n | w m ) = freq ( w n | w m ) Σ w ′ freq ( w ′ | w m )
p ( w m | w n ) = freq ( w m | w n ) Σ w ′ freq ( w ′ | w n )
其中,
Figure BSA00000394569100143
表示与wm对齐的所有词的对齐频率的求和结果,
Figure BSA00000394569100144
表示与wn对齐的所有词的对齐频率的求和结果。
接着,源语言搭配词对选择单元603根据对齐概率计算每个源语言对齐词对的搭配概率,具体搭配概率计算公式包括:
p ‾ ( w m | w n ) = p ( w n | w m ) + p ( w m | w n ) 2
最后,源语言搭配词对选择单元603选择搭配概率大于第二阈值的源语言对齐词对wn和wm作为源语言搭配词对。
在本实施例中,通过训练获得上述调序模型后,可以将上述调序模型作为一个特征应用在现有的任何类型的翻译系统中,例如log-linear的统计翻译模型中。
对于一个待翻译的源语言句子
Figure BSA00000394569100146
,首先从源语言句子中抽取搭配词对fi以及具体抽取方式可以与上文所述的搭配抽取方式相同。随后,根据源语言句子与产生的翻译候选E计算搭配词对的调序方向
Figure BSA00000394569100148
进而确定在该调序方向上的调序概率。为了进一步区分搭配词对,利用搭配词对的搭配概率对搭配词对的调序概率进行加权。因而,对于翻译候选E,其在调序方向上的评分可通过以下公式计算:
P O ( F , E ) = Σ ( i , c i ) p ( o i , c i , a i , a c i | f i , f c i ) r ( f i , f c i )
r ( f i , f c i ) = p ( f i | f c i ) + p ( f c i | f i ) 2
其中,
Figure BSA000003945691001411
为搭配词对fi
Figure BSA000003945691001412
在调序方向
Figure BSA000003945691001413
上的调序概率,
Figure BSA00000394569100151
为搭配词对fi
Figure BSA00000394569100152
的搭配概率,搭配概率的具体计算方式与上文描述的相同。
实际上,待翻译的源语言句子中的搭配词对中的词还可能与句子中的其他词进行搭配。因此,在本实施例中进一步考虑搭配概率高于给定阈值的其他词对。因此,翻译候选E在调序方向上的评分可根据以下公式进行计算:
Figure BSA00000394569100153
Figure BSA00000394569100154
其中,α和β表示权重,θ是阈值。
在现有的统计机器翻译系统中,一般采用log-linear模型来整合各种特征。在这种log-linear模型中,存在M个特征hm(E,F),m=1,...,M。对于每个特征,设置一个特征参数λm,并且该特征参数可以通过最小错误率训练得到。因而,对于待翻译的源语言句子F,可根据如下公式从多个翻译候选E中选择评分最高的翻译候选作为最终翻译结果E*
E * = arg max E { p ( E | F ) }
= arg max E { Σ m = 1 M λ m h m ( E , F ) }
在本实施例中,上述调序模型可进一步与本领域公知的其他调序模型(例如,相对位置调序模型、共现调序模型/Co-occurrence based reordering model)进行融合,融合的方法也是各自作为特征加入到上述log-linear模型中,以进一步提高调序模型的调序能力。特征的参数同样可以通过最小错误率训练得到。
如从上述描述所看到的,本发明的调序模型仅依赖于源语言句子及词的相对位置。该调序模型独立于统计机器翻译系统的其他模型,例如语言模型以及翻译模型,因而可作为附加特征应用于统计机器翻译系统。
由以上技术方案可以看出,本发明提供的调序模型的生成方法及装置基于源语言的词与词之间的搭配信息来建立调序模型,进而提高了调序模型的调序能力。
在上述实施例中,仅对本发明进行了示范性描述,但是本领域技术人员在阅读本专利申请后可以在不脱离本发明的精神和范围的情况下对本发明进行各种修改。

Claims (14)

1.一种用于机器翻译的调序模型的生成方法,其特征在于,所述生成方法包括以下步骤:
a.获取双语语料库,所述双语语料库包括多个双语例句对,每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句;
b.对所述源语言例句进行搭配抽取,以获取源语言搭配词对,每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词;
c.对所述源语言例句以及所述目标语言例句进行双语词对齐,并根据双语词对齐结果确定所述源语言搭配词的对应译文;
d.根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向;
e.对所述调序方向进行统计,获取每一所述调序方向的调序概率,以形成调序模型。
2.如权利要求1所述的调序模型的生成方法,其特征在于,所述步骤b进一步包括:
b1.对所述源语言例句进行复制,以形成包括两个所述源语言例句的源语言例句对;
b2.对所述源语言例句对进行单语词对齐,并根据单语词对齐结果获得一组源语言对齐词对,每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词;
b3.从所述源语言对齐词对中选择所述源语言搭配词对。
3.如权利要求2所述的调序模型的生成方法,其特征在于,在所述步骤b2中,利用单语词对齐模型对所述源语言例句对进行单语词对齐。
4.如权利要求2所述的调序模型的生成方法,其特征在于,在所述步骤b3中,过滤掉对齐频率小于第一阈值的所述源语言对齐词对。
5.如权利要求2所述的调序模型的生成方法,其特征在于,在所述步骤b3中,基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率,根据所述对齐概率计算所述源语言对齐词对的搭配概率,并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。
6.如权利要求1所述的调序模型的生成方法,其特征在于,在所述步骤c中,利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。
7.如权利要求1所述的调序模型的生成方法,其特征在于,所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。
8.一种用于机器翻译的调序模型的生成装置,其特征在于,所述生成装置包括:
双语语料获取单元,用于获取双语语料库,所述双语语料库包括多个双语例句对,每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句;
搭配抽取单元,用于对所述源语言例句进行搭配抽取,以获取源语言搭配词对,每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词;
双语词对齐单元,用于对所述源语言例句以及所述目标语言例句进行双语词对齐,并根据双语词对齐结果确定所述源语言搭配词的对应译文;
调序方向确定单元,用于根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向;
调序模型生成单元,用于对所述调序方向进行统计,获取每一所述调序方向的调序概率,以形成调序模型。
9.如权利要求8所述的调序模型的生成装置,其特征在于,所述搭配抽取单元进一步包括:
源语言例句对形成单元,用于对所述源语言例句进行复制,以形成包括两个所述源语言例句的源语言例句对;
单语词对齐单元,用于对所述源语言例句对进行单语词对齐,并根据单语词对齐结果获得一组源语言对齐词对,每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词;
源语言搭配词对选择单元,从所述源语言对齐词对中选择所述源语言搭配词对。
10.如权利要求9所述的调序模型的生成装置,其特征在于,所述单语词对齐单元利用单语词对齐模型对所述源语言例句对进行单语词对齐。
11.如权利要求9所述的调序模型的生成装置,其特征在于,所述源语言搭配词对选择单元过滤掉对齐频率小于第一阈值的所述源语言对齐词对。
12.如权利要求9所述的调序模型的生成装置,其特征在于,所述源语言搭配词对选择单元基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率,根据所述对齐概率计算所述源语言对齐词对的搭配概率,并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。
13.如权利要求8所述的调序模型的生成装置,其特征在于,所述双语词对齐单元利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。
14.如权利要求8所述的调序模型的生成装置,其特征在于,所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。
CN2010106000350A 2010-12-13 2010-12-13 一种用于机器翻译的调序模型的生成方法和装置 Active CN102053959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106000350A CN102053959B (zh) 2010-12-13 2010-12-13 一种用于机器翻译的调序模型的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106000350A CN102053959B (zh) 2010-12-13 2010-12-13 一种用于机器翻译的调序模型的生成方法和装置

Publications (2)

Publication Number Publication Date
CN102053959A true CN102053959A (zh) 2011-05-11
CN102053959B CN102053959B (zh) 2012-07-04

Family

ID=43958298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106000350A Active CN102053959B (zh) 2010-12-13 2010-12-13 一种用于机器翻译的调序模型的生成方法和装置

Country Status (1)

Country Link
CN (1) CN102053959B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092830A (zh) * 2011-10-28 2013-05-08 北京百度网讯科技有限公司 一种调序规则获取方法及装置
CN103116575A (zh) * 2011-11-16 2013-05-22 富士通株式会社 基于层次短语模型的译文词序概率确定方法及装置
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN111274828A (zh) * 2020-01-21 2020-06-12 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
WO2007068123A1 (en) * 2005-12-16 2007-06-21 National Research Council Of Canada Method and system for training and applying a distortion component to machine translation
CN101706777A (zh) * 2009-11-10 2010-05-12 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991710A (en) * 1997-05-20 1999-11-23 International Business Machines Corporation Statistical translation system with features based on phrases or groups of words
WO2007068123A1 (en) * 2005-12-16 2007-06-21 National Research Council Of Canada Method and system for training and applying a distortion component to machine translation
CN101706777A (zh) * 2009-11-10 2010-05-12 中国科学院计算技术研究所 机器翻译中抽取调序模板的方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092830A (zh) * 2011-10-28 2013-05-08 北京百度网讯科技有限公司 一种调序规则获取方法及装置
CN103092830B (zh) * 2011-10-28 2016-04-27 北京百度网讯科技有限公司 一种调序规则获取方法及装置
CN103116575A (zh) * 2011-11-16 2013-05-22 富士通株式会社 基于层次短语模型的译文词序概率确定方法及装置
CN103116575B (zh) * 2011-11-16 2016-06-22 富士通株式会社 基于层次短语模型的译文词序概率确定方法及装置
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN105068997B (zh) * 2015-07-15 2017-12-19 清华大学 平行语料的构建方法及装置
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN111274828A (zh) * 2020-01-21 2020-06-12 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端
CN111274828B (zh) * 2020-01-21 2021-02-02 陈刚 基于留言的语言翻译方法、系统、计算机程序和手持终端

Also Published As

Publication number Publication date
CN102053959B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
Xu et al. Revealing the myth of higher-order inference in coreference resolution
Van den Bercken et al. Evaluating neural text simplification in the medical domain
CN108399163A (zh) 结合词聚合与词组合语义特征的文本相似性度量方法
CN110852117B (zh) 一种提升神经机器翻译效果的有效数据增强方法
CN102214166B (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN102053959B (zh) 一种用于机器翻译的调序模型的生成方法和装置
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN110838368A (zh) 一种基于中医临床知识图谱的机器人主动问诊方法
US20120150529A1 (en) Method and apparatus for generating translation knowledge server
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN104102630B (zh) 一种针对中文社交网络中中英文混合文本的规范方法
CN110008335A (zh) 自然语言处理的方法及装置
CN102654867B (zh) 一种跨语言搜索中的网页排序方法和系统
CN104503960B (zh) 一种用于英语翻译的文本数据处理方法
CN105068997A (zh) 平行语料的构建方法及装置
CN103488627B (zh) 全篇专利文献翻译方法及翻译系统
CN105843801A (zh) 多译本平行语料库的构建系统
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN101008941A (zh) 多文档自动摘要的逐次主轴筛选法
CN104375988A (zh) 一种词语对齐方法及装置
CN105868187B (zh) 多译本平行语料库的构建方法
CN102650987A (zh) 一种基于源语言复述资源的机器翻译方法及装置
CN104731774A (zh) 面向通用机译引擎的个性化翻译方法及装置
Dandapat et al. Improved named entity recognition using machine translation-based cross-lingual information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant