CN101030196A - 训练双语词对齐模型的方法和装置、双语词对齐方法和装置 - Google Patents

训练双语词对齐模型的方法和装置、双语词对齐方法和装置 Download PDF

Info

Publication number
CN101030196A
CN101030196A CNA2006100580676A CN200610058067A CN101030196A CN 101030196 A CN101030196 A CN 101030196A CN A2006100580676 A CNA2006100580676 A CN A2006100580676A CN 200610058067 A CN200610058067 A CN 200610058067A CN 101030196 A CN101030196 A CN 101030196A
Authority
CN
China
Prior art keywords
languages
speech
submodel
bilingual
alignment model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100580676A
Other languages
English (en)
Other versions
CN101030196B (zh
Inventor
王海峰
刘占一
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN200610058067A priority Critical patent/CN101030196B/zh
Priority to US11/678,378 priority patent/US7844447B2/en
Priority to JP2007048881A priority patent/JP4381425B2/ja
Publication of CN101030196A publication Critical patent/CN101030196A/zh
Application granted granted Critical
Publication of CN101030196B publication Critical patent/CN101030196B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

本发明提供了训练双语词对齐模型的方法和装置、双语词对齐方法和装置。本发明的训练双语词对齐模型的方法,包括:利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。

Description

训练双语词对齐模型的方法和装置、双语词对齐方法和装置
技术领域
本发明涉及信息处理技术,具体地,涉及自然语言处理中双语词对齐的技术和统计机器翻译技术。
背景技术
词对齐在自然语言处理中被广泛地使用。现有的词对齐技术,通常使用统计词对齐模型,把双语句子中互为译文的词对对应起来。统计词对齐模型包含用于确定双语句子中互为译文的词对的统计信息。
在P.F.Brown、S.A.Della Pietra、V.J.Della Pietra和R.Mercer于1993年发表的文章“The Mathematics of Statistical Machine Translation:Parameter Estimation”(发表于Computational Linguistics,19(2):263-311)中描述了关于统计机器翻译模型和统计词对齐模型以及相应的参数估计方法。
统计词对齐模型需要有足够的双语语料来训练参数。如果训练语料不充分,那么得到的参数将不能产生高质量的对齐结果。但是,对于某些语言对来说,可用的双语语料更少,所以双语语料的数量制约着统计词对齐模型的质量和阻碍了统计词对齐模型的进一步应用。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了利用中间语言的训练双语词对齐模型的方法和装置、双语词对齐方法和装置。
根据本发明的一个方面,提供了一种训练双语词对齐模型的方法,包括:利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。
根据本发明的另一个方面,提供了一种双语词对齐方法,包括:利用前面所述的训练双语词对齐模型的方法,根据第一和第二语种的双语语料以及第二和第三语种的双语语料,获得第一和第三语种的双语词对齐模型;以及利用第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。
根据本发明的另一个方面,提供了一种训练双语词对齐模型的装置,包括:第一训练单元,其利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;第二训练单元,其利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及模型估计单元,其根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。
根据本发明的另一个方面,提供了一种双语词对齐装置,其特征在于,包括:前面所述的训练双语词对齐模型的装置,用于根据第一和第二语种的双语语料以及第二和第三语种的双语语料,获得第一和第三语种的双语词对齐模型;并且利用由上述训练双语词对齐模型的装置获得的第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的训练双语词对齐模型的方法的流程图;
图2是根据本发明一个实施例的双语词对齐方法的流程图;
图3是根据本发明一个实施例的训练双语词对齐模型的装置的方框图;以及
图4是根据本发明一个实施例的双语词对齐装置的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明一个实施例的训练双语词对齐模型的方法的流程图。
如图1所示,首先在步骤101,利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型。在本实施例中的双语词对齐模型包括词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。
其中,词汇翻译子模型是词汇翻译概率的集合,词汇翻译概率p(ws|wt)是目标语言词汇wt翻译到源语言语词汇ws的概率。
位置扭曲子模型是位置扭曲概率的集合,位置扭曲概率p(j|i,l,m)是给定源语言句子的长度m,目标语句子的长度l的情况下,目标语言句子中第ith个位置对应到源语言句子中第jth的位置的概率。
词汇衍生子模型是词汇衍生概率的集合,词汇衍生概率p(i|wt)是目标语言词汇wt对应i个源语言词汇的概率。
在本步骤中,利用统计方法,根据第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型,即,第一和第二语种的词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。
接着,在步骤105,利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型。与前面步骤101类似,在本步骤中,利用统计方法,根据第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型,即,第二和第三语种的词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。
在本实施例中,假定存在着大量、准确的第一和第二语种的双语语料以及第二和第三语种的双语语料,但是缺乏第一和第三语种的双语语料。这样,通过前面的步骤101和105,可以利用充足的第一和第二语种的双语语料以及第二和第三语种的双语语料获得质量好的第一和第二语种的双语词对齐模型以及第二和第三语种的双语词对齐模型。
接着,在步骤110,根据第一和第二语种的双语词对齐模型以及第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。
在本实施例中,需要分别估计词汇翻译子模型、位置扭曲子模型和词汇衍生子模型,具体地,包括如下步骤:
利用第一和第二语种的词汇翻译子模型以及第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇翻译子模型;
利用第一和第二语种的位置扭曲子模型以及第二和第三语种的位置扭曲子模型,估计第一和第三语种的位置扭曲子模型;以及
利用第一和第二语种的词汇衍生子模型以及/或者第二和第三语种的词汇衍生子模型、第一和第二语种的词汇翻译子模型以及/或者第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇衍生子模型。
下面,就详细说明上述这些子模型的估计过程。
1)首先,关于第一和第三语种的词汇翻译子模型的估计
当设pCE(wc|we)是第二语种的词we到第一语种的词wc的翻译概率,
pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,
C(wj,wc)是第一语种的词wc和第三语种的词wj的同现次数,
p(wc|wj)是第三语种的词wj到第一语种的词wc的翻译概率时,
利用公式 C ( w j , w c ) = Σ w e p EJ ( w e | w j ) * p CE ( w c | w e ) 收集第一语种的词wc和第三语种的词wj的同现次数;以及
利用公式 p ( w c | w j ) = C ( w j , w c ) Σ w c ′ C ( w j , w c ′ ) 计算第三语种的词wj到第一语种的词wc的翻译概率p(wc|wj)。
2)其次,关于第一和第三语种的位置扭曲子模型的估计
当设pEJ(k|i,l,m′)是第二语种的句子长度为m’、第三语种的句子长度为l、第ith个第三语种的词对应到第kth个第二语种的词的概率,
pCE(j|k,m′,m)是第一语种的句子长度为m、第二语种的句子长度为m’、第kth个第二语种的词对应到第jth个第一语种的词的概率,
C(j,i,l,m)和pCJ(j|i,l,m)分别是第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数和概率时,
利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数;以及
利用公式 p CJ ( j | i , l , m ) = C ( j , i , l , m ) Σ j ′ C ( j ′ , i , l , m ) 计算第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的位置扭曲概率。
3)最后,关于第一和第三语种的词汇衍生子模型的估计
当设pJE(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,
pCE(i|we)是第二语种的词we对应i个第一语种的词的概率,
C(i,wj)和p(i|wj)分别是第三语种的词wj衍生出i个第一语种的词的同现次数和概率时,
利用公式 获得第三语种的词wj衍生出i个第一语种的词的同现次数;以及
利用公式
Figure A20061005806700113
计算第三语种的词wj衍生出i个第一语种的词的词汇衍生概率。
通过以上描述可知,对于由于训练语料不充分而无法得到高质量的词对齐模型的问题,本实施例的训练双语词对齐模型的方法可以利用一个中间语种来解决。例如,通常情况下,由于中文和日文的双语语料比较少,因此制约着中文和日文的统计词对齐模型的质量。采用本实施例的方法,可以利用语料丰富的中间语种,如英文,来解决这个问题。因为存在着大量、丰富的中文和英文的双语语料以及日文和英文的双语语料,因此可以获得高质量的中文和英文的词对齐模型以及日文和英文的词对齐模型,进而,利用中文和英文的词对齐模型以及日文和英文的词对齐模型,就可以估计出中文和日文的词对齐模型。
当然,本发明并不限于中文、英文和日文的情况,任何语种都可以作为前面实施例中的第一、第二和第三语种。只是通常情况下,作为中间语种的第二语种,应当考虑语料丰富的国际性的语言,例如,英语、法语或西班牙语等。
在同一发明构思下,图2是根据本发明一个实施例的双语词对齐方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,首先在步骤101,利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型。接着,在步骤105,利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型。接着,在步骤110,根据第一和第二语种的双语词对齐模型以及第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。
以上步骤101、105和110与前面图1所示的实施例基本相同,在此不再重复。
然后,在步骤215,利用估计出的第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。具体的对齐方式为:
1.利用词汇翻译概率和位置对齐概率,为每一个源语言单词寻找一个最佳的单词对齐。这样得到一个对齐序列A0。
2.在对齐序列Ai的基础上,利用词汇翻译概率,位置扭曲模型和词汇衍生模型,通过尝试交换任意两个对齐或改变一个对齐,来寻找更好的对齐序列Ai+1。
3.重复过程2,直到没有更好的对齐序列被发现。
在此,本领域技术人员应当可以理解,对于最佳对其序列的搜索可以采用人们已知的和将来的任何搜索算法。
从以上描述可知,采用本实施例的双语词对齐方法,通过利用一个中间语种解决了由于训练语料不充分而无法得到高质量的词对齐模型的问题,因此即使对于语料稀少的双语语种,例如,中文和英文,也可以进行准确的词对齐。
在同一发明构思下,图3是根据本发明一个实施例的训练双语词对齐模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,本实施例的训练双语词对齐模型的装置300,第一训练单元303,其利用第一和第二语种的双语语料301,训练第一和第二语种的双语词对齐模型;第二训练单元304,其利用第二和第三语种的双语语料302,训练第二和第三语种的双语词对齐模型;以及模型估计单元305,其根据由第一训练单元303训练的第一和第二语种的双语词对齐模型以及由第二训练单元304训练的第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。
具体地,由第一训练单元303训练的第一和第二语种的双语词对齐模型以及由第二训练单元304训练的第二和第三语种的双语词对齐模型,分别包括:词汇翻译子模型、位置扭曲子模型和词汇衍生子模型。模型估计单元305,包括:词汇翻译子模型估计单元,其利用第一和第二语种的词汇翻译子模型以及第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇翻译子模型;位置扭曲子模型估计单元,其利用第一和第二语种的位置扭曲子模型以及第二和第三语种的位置扭曲子模型,估计第一和第三语种的位置扭曲子模型;以及词汇衍生子模型估计单元,其利用第一和第二语种的词汇衍生子模型以及/或者第二和第三语种的词汇衍生子模型、上述第一和第二语种的词汇翻译子模型以及/或者第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇衍生子模型。
与前面实施例类似,在本实施例中,词汇翻译子模型估计单元,当设pCE(wc|we)是第二语种的词we到第一语种的词wc的翻译概率,pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,C(wj,wc)是第一语种的词wc和第三语种的词wj的同现次数,p(wc|wj)是第三语种的词wj到第一语种的词wc的翻译概率时,
利用公式 C ( w j , w c ) = Σ w e p EJ ( w e | w j ) * p CE ( w c | w e ) 收集第一语种的词wc和第三语种的词wj的同现次数;并且
利用公式 p ( w c | w j ) = C ( w j , w c ) Σ w c C ( w j , w c ′ ) 计算第三语种的词wj到第一语种的词wc的翻译概率p(wc|wj)。
位置扭曲子模型估计单元,当设pEJ(k|i,l,m′)是第二语种的句子长度为m’、第三语种的句子长度为l、第ith个第三语种的词对应到第kth个第二语种的词的概率,pCE(j|k,m′,m)是第一语种的句子长度为m、第二语种的句子长度为m’、第kth个第二语种的词对应到第jth个第一语种的词的概率,C(j,i,l,m)和pCJ(j|i,l,m)分别是第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数和概率时,
利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数;并且
利用公式 p CJ ( j | i , l , m ) = C ( j , i , l , m ) Σ j ′ C ( j ′ , i , l , m ) 计算第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的位置扭曲概率。
词汇衍生子模型估计单元,当设pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,pCE(i|we)是第二语种的词we对应i个第一语种的词的概率,C(i,wj)和p(i|wj)分别是第三语种的词wj衍生出i个第一语种的词的同现次数和概率时,
利用公式
Figure A20061005806700144
获得第三语种的词wj衍生出i个第一语种的词的同现次数;以及
利用公式
Figure A20061005806700151
计算第三语种的词wj衍生出i个第一语种的词的词汇衍生概率。
从以上描述可知,本实施例的训练双语词对齐模型的装置在操作上可以实现前面图1描述的实施例的训练双语词对齐模型的方法。采用本实施例,可以通过利用一个中间语种解决由于训练语料不充分而无法得到高质量的词对齐模型的问题。
在此,应当指出,本实施例的训练双语词对齐模型的装置300及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
在同一发明构思下,图4是根据本发明一个实施例的双语词对齐装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,本实施例的双语词对齐装置400,包括:前面图3描述的训练双语词对齐模型的装置300和词对齐单元406。词对齐单元406利用由训练双语词对齐模型的装置300获得的第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐,具体的词对齐方式在前面实施例中已经进行了描述,在此不再重复。
通过以上描述可知,本实施例的双语词对齐装置400可以实施前面描述的本发明实施例的双语词对齐方法。采用本实施例的双语词对齐装置,通过利用一个中间语种解决了由于训练语料不充分而无法得到高质量的词对齐模型的问题,因此即使对于语料稀少的双语语种,例如,中文和英文,也可以进行准确的词对齐。
在此,应当指出,本实施例的双语词对齐装置400及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
以上虽然通过一些示例性的实施例对本发明的双语词对齐方法和装置、训练双语词对齐模型的方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (12)

1.一种训练双语词对齐模型的方法,包括:
利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;
利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及
根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。
2.根据权利要求1所述的训练双语词对齐模型的方法,其中,上述第一和第二语种的双语词对齐模型、第二和第三语种的双语词对齐模型以及第一和第三语种的双语词对齐模型分别包括词汇翻译子模型、位置扭曲子模型和词汇衍生子模型;
上述估计第一和第三语种的双语词对齐模型的步骤包括:
利用上述第一和第二语种的词汇翻译子模型以及上述第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇翻译子模型;
利用上述第一和第二语种的位置扭曲子模型以及上述第二和第三语种的位置扭曲子模型,估计第一和第三语种的位置扭曲子模型;以及
利用上述第一和第二语种的词汇衍生子模型以及/或者上述第二和第三语种的词汇衍生子模型、上述第一和第二语种的词汇翻译子模型以及/或者上述第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇衍生子模型。
3.根据权利要求2所述的训练双语词对齐模型的方法,其中,上述估计第一和第三语种的词汇翻译子模型的步骤,包括:
当设pCE(wc|we)是第二语种的词we到第一语种的词wc的翻译概率,
pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,
C(wj,wc)是第一语种的词wc和第三语种的词wj同现次数,
p(wc|wj)是第三语种的词wj到第一语种的词wc的翻译概率时,
利用公式 C ( w j , w c ) = Σ w c p EJ ( w e | w j ) * p CE ( w c | w e ) 收集第一语种的词wc和第三语种的词wj的同现次数;以及
利用公式 p ( w c | w j ) = C ( w j , w c ) Σ w c ′ C ( w j , w c ′ ) 计算第三语种的词wj到第一语种的词wc的翻译概率p(wc|wj)。
4.根据权利要求2所述的训练双语词对齐模型的方法,其中,上述估计第一和第三语种的位置扭曲子模型的步骤,包括:
当设pEJ(k|i,l,m′)是第二语种的句子长度为m’、第三语种的句子长度为l、第ith个第三语种的词对应到第kth个第二语种的词的概率,
pCE(j|k,m′,m)是第一语种的句子长度为m、第二语种的句子长度为m’、第kth个第二语种的词对应到第jth个第一语种的词的概率,
C(j,i,l,m)和pCJ(j|i,l,m)分别是第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数和概率时,
利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数;以及
利用公式 p CJ ( j | i , l , m ) = C ( j , i , l , m ) Σ j ′ C ( j ′ , i , l , m ) 计算第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的位置扭曲概率。
5.根据权利要求2所述的训练双语词对齐模型的方法,其中,上述估计第一和第三语种的词汇衍生子模型的步骤,包括:
当设pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,
pCE(i|we)是第二语种的词we对应i个第一语种的词的概率,
C(i,wj)和p(i|wj)分别是第三语种的词wj衍生出i个第一语种的词的同现次数和概率时,
利用公式
Figure A2006100580670004C1
获得第三语种的词wj衍生出i个第一语种的词的同现次数;以及
利用公式
Figure A2006100580670004C2
计算第三语种的词wj衍生出i个第一语种的词的词汇衍生概率。
6.一种双语词对齐方法,包括:
利用权利要求1~5的任意一项所述的训练双语词对齐模型的方法,根据第一和第二语种的双语语料以及第二和第三语种的双语语料,获得第一和第三语种的双语词对齐模型;以及
利用第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。
7.一种训练双语词对齐模型的装置,包括:
第一训练单元,其利用第一和第二语种的双语语料,训练第一和第二语种的双语词对齐模型;
第二训练单元,其利用第二和第三语种的双语语料,训练第二和第三语种的双语词对齐模型;以及
模型估计单元,其根据上述第一和第二语种的双语词对齐模型以及上述第二和第三语种的双语词对齐模型,估计第一和第三语种的双语词对齐模型。
8.根据权利要求7所述的训练双语词对齐模型的装置,其中,上述第一和第二语种的双语词对齐模型、第二和第三语种的双语词对齐模型以及第一和第三语种的双语词对齐模型分别包括词汇翻译子模型、位置扭曲子模型和词汇衍生子模型;
上述模型估计单元包括:
词汇翻译子模型估计单元,其利用上述第一和第二语种的词汇翻译子模型以及上述第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇翻译子模型;
位置扭曲子模型估计单元,其利用上述第一和第二语种的位置扭曲子模型以及上述第二和第三语种的位置扭曲子模型,估计第一和第三语种的位置扭曲子模型;以及
词汇衍生子模型估计单元,其利用上述第一和第二语种的词汇衍生子模型以及/或者上述第二和第三语种的词汇衍生子模型、上述第一和第二语种的词汇翻译子模型以及/或者上述第二和第三语种的词汇翻译子模型,估计第一和第三语种的词汇衍生子模型。
9.根据权利要求8所述的训练双语词对齐模型的装置,其中,上述词汇翻译子模型估计单元被被设置为:
当设pCE(wc|we)是第二语种的词we到第一语种的词wc的翻译概率,
pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,
C(wj,wc)是第一语种的词wc和第三语种的词wj的同现次数,
p(wc|wj)是第三语种的词wj到第一语种的词wc的翻译概率时,
利用公式 C ( w j , w c ) = Σ w e p EJ ( w e | w j ) * p CE ( w c | w e ) 收集第一语种的词wc和第三语种的词wj的同现次数;以及
利用公式 p ( w c | w j ) = C ( w j , w c ) Σ w c ′ C ( w j , w c ′ ) 计算第三语种的词wj到第一语种的词wc的翻译概率p(wc|wj)。
10.根据权利要求8所述的训练双语词对齐模型的装置,其中,上述位置扭曲子模型估计单元被设置为:
当设pEJ(k|i,l,m′)是第二语种的句子长度为m’、第三语种的句子长度为l、第ith个第三语种的词对应到第kth个第二语种的词的概率,
pCE(j|k,m′,m)是第一语种的句子长度为m、第二语种的句子长度为m’、第kth个第二语种的词对应到第jth个第一语种的词的概率,
C(j,i,l,m)和pCJ(j|i,l,m)分别是第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数和概率时,
利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的同现次数;以及
利用公式 p CJ ( j | i , l , m ) = C ( j , i , l , m ) Σ j ′ C ( j ′ , i , l , m ) 计算第一语种的句子长度为m、第三语种的句子长度为l、第ith个第三语种的词对应到第jth个第一语种的词的位置扭曲概率。
11.根据权利要求8所述的训练双语词对齐模型的装置,其中,上述词汇衍生子模型估计单元被设置为:
当设pEJ(we|wj)是第三语种的词wj到第二语种的词we的翻译概率,
pCE(i|we)是第二语种的词we对应i个第一语种的词的概率,
C(i,wj)和p(i|wj)分别是第三语种的词wj衍生出i个第一语种的词的同现次数和概率时,
利用公式
Figure A2006100580670006C2
获得第三语种的词wj衍生出i个第一语种的词的同现次数;以及
利用公式
Figure A2006100580670006C3
计算第三语种的词wj衍生出i个第一语种的词的词汇衍生概率。
12.一种双语词对齐装置,其特征在于,包括:权利要求7~11的任意一项所述的训练双语词对齐模型的装置,用于根据第一和第二语种的双语语料以及第二和第三语种的双语语料,获得第一和第三语种的双语词对齐模型;并且
利用由上述训练双语词对齐模型的装置获得的第一和第三语种的双语词对齐模型,对第一和第三语种的双语句子对进行词对齐。
CN200610058067A 2006-02-28 2006-02-28 训练双语词对齐模型的方法和装置、双语词对齐方法和装置 Expired - Fee Related CN101030196B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN200610058067A CN101030196B (zh) 2006-02-28 2006-02-28 训练双语词对齐模型的方法和装置、双语词对齐方法和装置
US11/678,378 US7844447B2 (en) 2006-02-28 2007-02-23 Method and apparatus for training bilingual word alignment model, method and apparatus for bilingual word alignment
JP2007048881A JP4381425B2 (ja) 2006-02-28 2007-02-28 二言語単語対応付けモデル訓練方法及び装置、二言語単語対応付け方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610058067A CN101030196B (zh) 2006-02-28 2006-02-28 训练双语词对齐模型的方法和装置、双语词对齐方法和装置

Publications (2)

Publication Number Publication Date
CN101030196A true CN101030196A (zh) 2007-09-05
CN101030196B CN101030196B (zh) 2010-05-12

Family

ID=38445093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610058067A Expired - Fee Related CN101030196B (zh) 2006-02-28 2006-02-28 训练双语词对齐模型的方法和装置、双语词对齐方法和装置

Country Status (3)

Country Link
US (1) US7844447B2 (zh)
JP (1) JP4381425B2 (zh)
CN (1) CN101030196B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201820B (zh) * 2007-11-28 2010-06-02 北京金山软件有限公司 一种双语语料库过滤方法及系统
CN103544147A (zh) * 2013-11-06 2014-01-29 北京百度网讯科技有限公司 训练翻译模型的方法和装置
CN104123274A (zh) * 2013-04-26 2014-10-29 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN103678565B (zh) * 2013-12-09 2017-02-15 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
JP5008144B2 (ja) * 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 対訳情報生成装置、対訳情報生成方法、及びプログラム
CN101667174A (zh) * 2008-09-01 2010-03-10 株式会社东芝 用于提高多语语料库中词对齐质量的方法及装置
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
CN102591857B (zh) * 2011-01-10 2015-06-24 富士通株式会社 一种平行语料资源获取方法及系统
US8838433B2 (en) 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
US8903707B2 (en) * 2012-01-12 2014-12-02 International Business Machines Corporation Predicting pronouns of dropped pronoun style languages for natural language translation
CN103577399B (zh) 2013-11-05 2018-01-23 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
US10713593B2 (en) * 2016-11-04 2020-07-14 Google Llc Implicit bridging of machine learning tasks
WO2023128170A1 (ko) * 2021-12-28 2023-07-06 삼성전자 주식회사 전자 장치, 전자 장치의 제어 방법 및 프로그램이 기록된 기록매체

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
GB2272091B (en) * 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
US6349276B1 (en) * 1998-10-29 2002-02-19 International Business Machines Corporation Multilingual information retrieval with a transfer corpus
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201820B (zh) * 2007-11-28 2010-06-02 北京金山软件有限公司 一种双语语料库过滤方法及系统
CN104123274A (zh) * 2013-04-26 2014-10-29 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN104123274B (zh) * 2013-04-26 2018-06-12 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN103544147A (zh) * 2013-11-06 2014-01-29 北京百度网讯科技有限公司 训练翻译模型的方法和装置
CN103678565B (zh) * 2013-12-09 2017-02-15 国家计算机网络与信息安全管理中心 一种基于自引导方式的领域自适应句子对齐系统
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备

Also Published As

Publication number Publication date
JP2007234023A (ja) 2007-09-13
JP4381425B2 (ja) 2009-12-09
CN101030196B (zh) 2010-05-12
US20070203690A1 (en) 2007-08-30
US7844447B2 (en) 2010-11-30

Similar Documents

Publication Publication Date Title
CN101030196A (zh) 训练双语词对齐模型的方法和装置、双语词对齐方法和装置
CN101030197A (zh) 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
CN1652106A (zh) 基于语言知识库的机器翻译方法与装置
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1945562A (zh) 训练音译模型、切分统计模型以及自动音译的方法和装置
Ramanathan et al. Simple syntactic and morphological processing can help English-Hindi statistical machine translation
CN1656477A (zh) 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络
CN101051458A (zh) 基于组块分析的韵律短语预测方法
US20050038643A1 (en) Statistical noun phrase translation
EP1544748A3 (en) Method and apparatus for evaluating machine translation quality
CN1647068A (zh) 统计机器翻译
CN1940915A (zh) 训练语料扩充系统和方法
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN103823796A (zh) 一种翻译系统及翻译方法
CN1750121A (zh) 一种基于语音识别及语音分析的发音评估方法
EP3825898A3 (en) Translation method and apparatus and electronic device
EP4109324A3 (en) Method and apparatus for identifying noise samples, electronic device, and storage medium
CN110516229A (zh) 一种基于深度学习的领域自适应中文分词方法
CN1852425A (zh) 在播放多媒体文件时获得当前播放时间的方法和装置
Pecina et al. Simple and effective parameter tuning for domain adaptation of statistical machine translation
KR20110112192A (ko) 구문 분석 및 계층적 어구 모델 기반 기계 번역 시스템 및 방법
CN1928854A (zh) 一种基于标点处理的层次化汉语长句句法分析方法及装置
CN1949184A (zh) 一种芯片验证的方法及系统
CN1801140A (zh) 一种机器翻译模板自动获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100512