CN101714137B - 评价、选择例句对,构建通用例句库,机器翻译的方法及装置 - Google Patents

评价、选择例句对,构建通用例句库,机器翻译的方法及装置 Download PDF

Info

Publication number
CN101714137B
CN101714137B CN2008101659862A CN200810165986A CN101714137B CN 101714137 B CN101714137 B CN 101714137B CN 2008101659862 A CN2008101659862 A CN 2008101659862A CN 200810165986 A CN200810165986 A CN 200810165986A CN 101714137 B CN101714137 B CN 101714137B
Authority
CN
China
Prior art keywords
mentioned
example sentence
languages
sentence
centering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101659862A
Other languages
English (en)
Other versions
CN101714137A (zh
Inventor
刘占一
王海峰
吴华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN2008101659862A priority Critical patent/CN101714137B/zh
Publication of CN101714137A publication Critical patent/CN101714137A/zh
Application granted granted Critical
Publication of CN101714137B publication Critical patent/CN101714137B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了对进行了对齐的双语语料库中的例句对进行评价的方法,从进行了对齐的双语语料库中选择例句对的方法,利用进行了对齐的双语语料库构建通用例句库的方法,机器翻译的方法及装置。根据本发明的一个方面,提供了一种对进行了对齐的双语语料库中的例句对进行评价的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括以下步骤:根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;其中,基于上述计算出的得分,对上述给定的例句对进行评价。

Description

评价、选择例句对,构建通用例句库,机器翻译的方法及装置
技术领域
本发明涉及信息处理技术,具体地,涉及对进行了对齐的双语语料库中的例句对进行评价,从进行了对齐的双语语料库中选择例句对,利用进行了对齐的双语语料库构建通用例句库,以及机器翻译的技术。
背景技术
基于实例的机器翻译(Example-based Machine Translation,EBMT)技术的基本思想是通过修改与输入句子相似的例句对来生成译文。该技术首先搜索进行了对齐的双语语料库,以查找与输入句子相似的匹配例句对,然后识别出输入句子和匹配例句对之间的不同之处,最后EBMT模型消除例句对中的不同从而生成译文。EBMT技术的具体细节可以参见Harold Somers,Review Article:Example-based Machine Translation,Machine Translation,v.14n.2,p.113-157,June1999,在此通过参考引入其整个内容。
从EBMT技术的基本思想可以看出,译文主要来源于匹配例句对,因此,用于EBMT模型的例句对质量会在很大程度上影响EBMT模型的性能。
然而,在现有的双语语料库中,存在大量的不规范例句对,例如,习惯用语,意译例句对等等,这些例句对包含了大量的不正式的语法信息。从EBMT技术的基本思想来看,这些例句对不适合被EBMT模型修改来生成输入句子的译文。
此外,EBMT技术受到硬件条件的限制(例如内存、处理器速度等),用于EBMT模型的例句库的规模不能太大。
因此,需要一种为EBMT模型选择通用、可靠的例句对的方法。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了对进行了对齐的双语语料库中的例句对进行评价的方法,从进行了对齐的双语语料库中选择例句对的方法,利用进行了对齐的双语语料库构建通用例句库的方法,机器翻译的方法,对进行了对齐的双语语料库中的例句对进行评价的装置,从进行了对齐的双语语料库中选择例句对的装置,利用进行了对齐的双语语料库构建通用例句库的装置和机器翻译的装置。
根据本发明的一个方面,提供了一种对进行了对齐的双语语料库中的例句对进行评价的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括以下步骤:根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;其中,基于上述计算出的得分,对上述给定的例句对进行评价。
根据本发明的另一个方面,提供了一种从进行了对齐的双语语料库中选择例句对的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括以下步骤:根据上述对进行了对齐的双语语料库中的例句对进行评价的方法,计算给定的例句对的得分;以及将上述计算出的得分与给定的阈值进行比较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。
根据本发明的另一个方面,提供了一种利用进行了对齐的双语语料库构建通用例句库的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括:步骤1:根据上述对进行了对齐的双语语料库中的例句对进行评价的方法,计算上述双语语料库中的每一个例句对的得分;步骤2:根据上述得分的降序对上述双语语料库中的例句对进行排序;以及步骤3:确定上述步骤2排序后的第1个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库。
根据本发明的另一个方面,提供了一种机器翻译的方法,包括以下步骤:为待翻译的第一语种的句子,在根据上述从进行了对齐的双语语料库中选择例句对的方法选择出的例句对或根据上述利用进行了对齐的双语语料库构建通用例句库的方法构建的通用例句库中查找相似的第一语种的例句;为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文。
根据本发明的另一个方面,提供了一种对进行了对齐的双语语料库中的例句对进行评价的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述装置包括:得分计算单元,根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;其中,基于上述得分计算单元计算出的得分,对上述给定的例句对进行评价。
根据本发明的另一个方面,提供了一种从进行了对齐的双语语料库中选择例句对的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述装置包括:上述对进行了对齐的双语语料库中的例句对进行评价的装置,用于计算给定的例句对的得分;以及比较单元,用于将上述计算出的得分与给定的阈值进行比较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。
根据本发明的另一个方面,提供了一种利用进行了对齐的双语语料库构建通用例句库的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述装置包括:上述对进行了对齐的双语语料库中的例句对进行评价的装置,用于执行步骤1:计算上述双语语料库中的每一个例句对的得分;排序单元,用于执行步骤2:根据上述得分的降序对上述双语语料库中的例句对进行排序;以及确定单元,用于执行步骤3:确定上述排序单元排序后的第1个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库。
根据本发明的另一个方面,提供了一种机器翻译的装置,包括:相似例句查找单元,用于为待翻译的第一语种的句子,在根据上述从进行了对齐的双语语料库中选择例句对的装置选择出的例句对或根据上述利用进行了对齐的双语语料库构建通用例句库的装置构建的通用例句库中查找相似的第一语种的例句;区别部分译文准备单元,用于为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及参考译文生成单元,用于将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的对进行了对齐的双语语料库中的例句对进行评价的方法的流程图;
图2是根据本发明的另一个实施例的从进行了对齐的双语语料库中选择例句对的方法的流程图;
图3是根据本发明的另一个实施例的利用进行了对齐的双语语料库构建通用例句库的方法的流程图;
图4是根据本发明的另一个实施例的机器翻译的方法的流程图;
图5是根据本发明的另一个实施例的对进行了对齐的双语语料库中的例句对进行评价的装置的方框图;
图6是根据本发明的另一个实施例的从进行了对齐的双语语料库中选择例句对的装置的方框图;
图7是根据本发明的另一个实施例的利用进行了对齐的双语语料库构建通用例句库的装置的方框图;以及
图8是根据本发明的另一个实施例的机器翻译的装置的方框图。
具体实施方式
下面就结合附图对本发明的各个实施例进行详细的说明。
对进行了对齐的双语语料库中的例句对进行评价的方法
本实施例的对进行了对齐的双语语料库中的例句对进行评价的方法通过使用“覆盖率”和“一致性”来综合评价每个例句对的质量,其中,覆盖率描述了例句对的通用性,而一致性描述了例句对被EBMT模型使用时的可靠性。
图1是根据本发明的一个实施例的对进行了对齐的双语语料库中的例句对进行评价的方法的流程图。如图1所示,首先,在步骤101,对于进行了对齐的双语语料库中的一个给定的例句对,计算给定的例句对中的第一语种的例句在双语语料库中的覆盖率。
在本实施例中,进行了对齐的双语语料库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语语料库,其包括多对互为译文的相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。
具体地,在步骤1,首先计算给定的例句对中的第一语种的例句与双语语料库中的任一例句对中的第一语种的例句之间的相似度。在本领域中,有许多方法来计算两个例句之间的相似度。在本实施例中,仅以两个例句之间的编辑距离为例来说明计算相似度的具体细节,但是应该理解,本发明并不限于此,可以利用本领域的技术人员公知的任何方法来计算两个例句之间的相似度。
在本实施例中,所谓“编辑距离”是指“从原串转换到目标串所需要的最少的插入、删除和替换的数目”,或者说“让字符串1和字符串2变成相同字符串需要的最小的操作(插入、删除和替换)次数”。该定义最早出现在V.Levenshtein,“Binary codes capable of correctingspurious insertions and deletions of ones”,Problems of InformationTransmission,1:8-17,1965,在此通过参考引入其整个内容。现在,编辑距离广泛地应用于计算机领域,已经成为了一个经典算法。
具体地,例如,可以利用以下公式(1)计算两个例句之间的相似度:
S ( e i , e ) = log ( 1 - ED ( e i , e ) max ( | e i | , | e | ) ) - - - ( 1 )
其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i个例句对中的第一语种的例句,|e|为上述例句e中的词的个数,|ei|为上述例句ei中的词的个数,S(ei,e)为上述例句e与上述例句ei之间的相似度,以及ED(ei,e)为上述例句e与上述例句ei之间的编辑距离。
在利用上述公式(1)计算得到给定的例句对中的第一语种的例句与双语语料库中的任一例句对中的第一语种的例句之间的相似度之后,计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率。
在本实施例中,在计算上述相似度的平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
可选地,为了减少计算量,也可以首先根据上述相似度的降序对上述双语语料库中的例句对进行排序,然后计算上述排序后的前N个例句对的相似度的平均值作为上述平均值。
具体地,例如,可以利用以下公式(2)计算上述平均值,即覆盖率:
Figure G2008101659862D00071
其中,Cov(e)为在步骤101中所要计算的上述给定的例句对中的第一语种的例句在双语语料库中的覆盖率,以及EN为上述排序后的前N个例句对组成的集合。
返回图1,下面,本实施例的方法在步骤105中计算给定的例句对中的第一语种的例句和第二语种的例句之间的一致性。具体地,在本实施例中,计算一致性的算法包括三个部分。
第一部分,根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率。对于一个确定的语言对来说,目标语句子的长度和源语言句子的长度有一个大致的对应关系,也就是说,如果给定源语言句子的长度,那么可以估计出目标语句子的长度。同样,利用目标语句子的长度和源语言句子的长度的对应关系,可以估计出目标语句子匹配源语言句子的程度,该匹配程度可以部分地反映双语例句对的质量。
具体地,例如,可以利用以下公式(3)计算上述概率:
L(e,f)=logp(I|J)       (3)
其中,e为上述给定的例句对中的上述第一语种的例句,f为上述给定的例句对中的上述第二语种的例句,I为上述例句e的长度,J为上述例句f的长度,以及L(e,f)为上述概率。
第二部分,根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率。
具体地,例如,可以利用以下公式(4)计算上述比率:
R ( e , f ) = log ( Σ i = 1 . . . I δ ( ( x , tw i ) ∈ a ) + Σ j = 1 . . . J δ ( ( sw j , y ) ∈ a ) I + J )
(4)
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,x为上述例句e中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e,f)为上述比率。
第三部分,根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率。
具体地,例如,可以利用以下公式(5)计算上述词对齐概率:
P ( e , f ) = Σ ( j , i ) ∈ a log ( p ( tw i | sw j ) ) | a | - - - ( 5 )
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,p(twi|swj)为上述例句e中的第i个词twi与上述例句f中的第j个词swj之间的对齐概率,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词对的个数,以及P(e,f)为上述词对齐概率。
在利用上述公式(3)至公式(5)分别计算得到上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e,f)之后,计算上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e,f)的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
在本实施例中,在计算上述平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
具体地,例如,可以利用以下公式(6)计算上述一致性:
Con(e,f)=λ1*L(e,f)+λ2*R(e,f)+λ3*P(e,f)(6)
其中,λ1,λ2和λ3分别为上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e,f)的权重,以及Con(e,f)为在步骤105中所要计算的给定的例句对中的第一语种的例句和第二语种的例句之间的一致性。
返回图1,最后,在步骤110,根据在步骤101中计算得到的给定的例句对中的第一语种的例句e在上述双语语料库中的覆盖率Cov(e)和/或在步骤105中计算得到的给定的例句对中的第一语种的例句e和第二语种的例句f之间的一致性Con(e,f),计算上述给定的例句对(e,f)的得分。
在本实施例中,既可以将上述覆盖率Cov(e)作为上述给定的例句对(e,f)的得分,也可以将上述一致性Con(e,f)作为上述给定的例句对(e,f)的得分,还可以将上述覆盖率Cov(e)和上述一致性Con(e,f)的平均值作为上述给定的例句对(e,f)的得分,本发明对此没有任何限制。
在本实施例中,在计算上述覆盖率Cov(e)和上述一致性Con(e,f)的平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
具体地,例如,可以利用以下公式(7)计算上述得分:
Sore(e,f)=β1*Cov(e)+β2*Con(e,f)    (7)
其中,β1和β2分别为上述覆盖率Cov(e)和上述一致性Con(e,f)的权重,以及Sore(e,f)为在步骤110中所要计算给定的例句对的得分。
在本实施例中,虽然参考图1描述了在步骤101中计算覆盖率,而在步骤105中计算一致性,但是本发明对计算覆盖率和一致性的顺序没有任何限制,可以将步骤101和步骤105的顺序颠倒。
此外,在本实施例中,虽然描述了在步骤101中计算覆盖率并在步骤105中计算一致性,但是如果在覆盖率和一致性已知的情况下,本发明的方法可以直接根据覆盖率和/或一致性来计算给定的例句对的得分,从而对给定的例句对进行评价。
通过本实施例的对进行了对齐的双语语料库中的例句对进行评价的方法,可以利用覆盖率和一致性对双语语料库中的例句对进行评价,从而可以知道那些例句对是通用、可靠的例句对,进而可以为EBMT模型提供有效的信息。
从进行了对齐的双语语料库中选择例句对的方法
在同一发明构思下,图2是根据本发明的另一个实施例的从进行了对齐的双语语料库中选择例句对的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,首先,在步骤201,利用上述参考图1的实施例的对进行了对齐的双语语料库中的例句对进行评价的方法,具体地,利用上述步骤101、步骤105和步骤110,计算双语语料库中的一个给定的例句对的得分。
接着,在步骤205,确定在步骤201中计算的得分是否大于一个给定的阈值。这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。
如果在步骤205中确定给定的例句对的得分小于给定的阈值,则本实施例的方法在步骤215中结束。另一方面,如果给定的例句对的得分大于给定的阈值,则在步骤210中将给定的例句对选出。
通过本实施例的从进行了对齐的双语语料库中选择例句对的方法,可以利用上述参考图1的实施例的对进行了对齐的双语语料库中的例句对进行评价的方法计算例句对的得分,并将得分较高的例句对从双语语料库中选出,从而可以为EBMT模型提供通用、可靠的例句对,进而可以提高EBMT模型的准确率和效率。
利用进行了对齐的双语语料库构建通用例句库的方法
在同一发明构思下,图3是根据本发明的另一个实施例的利用进行了对齐的双语语料库构建通用例句库的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,首先,在步骤301,利用上述参考图1的实施例的对进行了对齐的双语语料库中的例句对进行评价的方法,具体地,利用上述步骤101、步骤105和步骤110,计算双语语料库10中的每一个例句对的得分。
接着,在步骤305,根据在步骤301中计算出的得分的降序对双语语料库10中的例句对进行排序。
接着,在步骤310,确定排序后的第1个例句对的得分是否大于一个给定的阈值。这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。
如果在步骤310中确定排序后的第1个例句对的得分小于给定的阈值,则本实施例的方法在步骤320中结束。
另一方面,如果排序后的第1个例句对的得分大于给定的阈值,则在步骤315中将第1个例句对加入通用例句库20。同时,在步骤315中,将第1例句对从双语语料库10中删除,或者给第1例句对赋予一个小权重。
然后,本发明的方法返回步骤301,重新计算双语语料库10中的每个例句对的得分,直到排序后的第1个例句对的得分小于给定的阈值。
在本实施例中,虽然每次将排序后的第1个例句对的得分与给定阈值进行比较,但是也可以将排序后的前N个例句对的得分与给定的阈值进行比较,并将大于给定的阈值的例句对加入通用例句库20中,本发明对此没有任何限制。
通过本实施例的利用进行了对齐的双语语料库构建通用例句库的方法,可以利用上述参考图1的实施例的对进行了对齐的双语语料库中的例句对进行评价的方法将双语语料库中的通用、可靠的例句对构建为通用例句库20,从而可以利用通用例句库20进行EBMT,提高了EBMT模型的准确率和效率。
机器翻译的方法
在同一发明构思下,图4是根据本发明的另一个实施例的机器翻译的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,首先,在步骤401,为待翻译的第一语种的句子,在根据上述参考图2的实施例的从进行了对齐的双语语料库中选择例句对的方法选择出的例句对或根据上述参考图3的实施例的利用进行了对齐的双语语料库构建通用例句库的方法构建的通用例句库20中查找相似的第一语种的例句。
例如,对于待翻译的第一语种的句子:
This is a pencil.
在上述选出的例句对或通用例句库中查找到的相似的例句对为:
Figure G2008101659862D00121
接着,在步骤405,为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文。也就是说,为上述区别部分“pencil”准备相应的译文。在本实施例中,可以利用上述双语语料库10为上述区别部分“pencil”准备译文“铅笔”。
接着,在步骤410,将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文。也就是说,将上述相似的例句对中的“钢笔”替换为“铅笔”即可得到待翻译的句子的参考译文:
这是一支铅笔。
通过本实施例的机器翻译的方法,可以利用上述参考图2的实施例的从进行了对齐的双语语料库中选择例句对的方法选择出的例句对或上述参考图3的实施例的利用进行了对齐的双语语料库构建通用例句库的方法构建的通用例句库20,进行翻译,从而可以提高EBMT的准确率和效率。
对进行了对齐的双语语料库中的例句对进行评价的装置
在同一发明构思下,图5是根据本发明的另一个实施例的对进行了对齐的双语语料库中的例句对进行评价的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置通过使用“覆盖率”和“一致性”来综合评价每个例句对的质量,其中,覆盖率描述了例句对的通用性,而一致性描述了例句对被EBMT模型使用时的可靠性。
如图5所示,本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500包括:覆盖率计算单元501,用于对于进行了对齐的双语语料库中的一个给定的例句对,计算给定的例句对中的第一语种的例句在双语语料库中的覆盖率。
在本实施例中,进行了对齐的双语语料库是由专业人员(例如,翻译人员)手工或计算机自动进行了词对齐的双语语料库,其包括多对互为译文的相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息。
具体地,本实施例的覆盖率计算单元501包括相似度计算单元,用于计算给定的例句对中的第一语种的例句与双语语料库中的任一例句对中的第一语种的例句之间的相似度。在本领域中,有许多方法来计算两个例句之间的相似度。在本实施例中,仅以两个例句之间的编辑距离为例来说明计算相似度的具体细节,但是应该理解,本发明并不限于此,可以利用本领域的技术人员公知的任何方法来计算两个例句之间的相似度。
在本实施例中,所谓“编辑距离”是指“从原串转换到目标串所需要的最少的插入、删除和替换的数目”,或者说“让字符串1和字符串2变成相同字符串需要的最小的操作(插入、删除和替换)次数”。该定义最早出现在V.Levenshtein,“Binary codes capable of correctingspurious insertions and deletions of ones”,Problems of InformationTransmission,1:8-17,1965,在此通过参考引入其整个内容。现在,编辑距离广泛地应用于计算机领域,已经成为了一个经典算法。
具体地,例如,可以通过相似度计算单元利用以下公式(1)计算两个例句之间的相似度:
S ( e i , e ) = log ( 1 - ED ( e i , e ) max ( | e i | , | e | ) ) - - - ( 1 )
其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i个例句对中的第一语种的例句,|e|为上述例句e中的词的个数,|ei|为上述例句ei中的词的个数,S(ei,e)为上述例句e与上述例句ei之间的相似度,以及ED(ei,e)为上述例句e与上述例句ei之间的编辑距离。
此外,本实施例的覆盖率计算单元501还包括平均值计算单元,其用于在通过相似度计算单元利用上述公式(1)计算得到给定的例句对中的第一语种的例句与双语语料库中的任一例句对中的第一语种的例句之间的相似度之后,计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率。
在本实施例中,在通过平均值计算单元计算上述相似度的平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
可选地,为了减少计算量,本实施例的覆盖率计算单元501还可以包括排序单元,其根据上述相似度的降序对上述双语语料库中的例句对进行排序,然后平均值计算单元计算上述排序单元排序后的前N个例句对的相似度的平均值作为上述平均值。
具体地,例如,可以通过平均值计算单元利用以下公式(2)计算上述平均值,即覆盖率:
Figure G2008101659862D00151
其中,Cov(e)为覆盖率计算单元501所要计算的上述给定的例句对中的第一语种的例句在双语语料库中的覆盖率,以及EN为上述排序后的前N个例句对组成的集合。
返回图5,本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500还包括:一致性计算单元505,用于计算给定的例句对中的第一语种的例句和第二语种的例句之间的一致性。具体地,在本实施例中,一致性计算单元505包括三个部分。
第一部分为长度概率计算单元,其根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率。对于一个确定的语言对来说,目标语句子的长度和源语言句子的长度有一个大致的对应关系,也就是说,如果给定源语言句子的长度,那么可以估计出目标语句子的长度。同样,利用目标语句子的长度和源语言句子的长度的对应关系,可以估计出目标语句子匹配源语言句子的程度,该匹配程度可以部分地反映双语例句对的质量。
具体地,例如,可以通过长度概率计算单元利用以下公式(3)计算上述概率:
L(e,f)=logp(I|J)          (3)
其中,e为上述给定的例句对中的上述第一语种的例句,f为上述给定的例句对中的上述第二语种的例句,I为上述例句e的长度,J为上述例句f的长度,以及L(e,f)为上述概率。
第二部分为比率计算单元,其根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率。
具体地,例如,可以通过比率计算单元利用以下公式(4)计算上述比率:
R ( e , f ) = log ( Σ i = 1 . . . I δ ( ( x , tw i ) ∈ a ) + Σ j = 1 . . . J δ ( ( sw j , y ) ∈ a ) I + J )
(4)
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,x为上述例句e中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e,f)为上述比率。
第三部分为词对齐概率计算单元,其根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率。
具体地,例如,可以通过词对齐概率计算单元利用以下公式(5)计算上述词对齐概率:
P ( e , f ) = Σ ( j , i ) ∈ a log ( p ( tw i | sw j ) ) | a | - - - ( 5 )
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,p(twi|swj)为上述例句e中的第i个词twi与上述例句f中的第j个词swj之间的对齐概率,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词对的个数,以及P(e,f)为上述词对齐概率。
此外,本实施例的一致性计算单元505还包括平均值计算单元,其在上述长度概率计算单元、上述比率计算单元和上述词对齐概率计算单元分别计算上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e,f)之后,计算上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e,f)的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
在本实施例中,在平均值计算单元计算上述平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
具体地,例如,可以通过平均值计算单元利用以下公式(6)计算上述一致性:
Con(e,f)=λ1*L(e,f)+λ2*R(e,f)+λ3*P(e,f)  (6)
其中,λ1,λ2和λ3分别为上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e,f)的权重,以及Con(e,f)为一致性计算单元505所要计算的给定的例句对中的第一语种的例句和第二语种的例句之间的一致性。
返回图5,本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500还包括:得分计算单元510,其根据覆盖率计算单元501计算得到的给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率Cov(e)和/或一致性计算单元505计算得到的上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性Con(e,f),计算上述给定的例句对的得分;其中,基于上述得分计算单元计算出的得分,对上述给定的例句对进行评价。
在本实施例中,既可以将上述覆盖率Cov(e)作为上述给定的例句对(e,f)的得分,也可以将上述一致性Con(e,f)作为上述给定的例句对(e,f)的得分,还可以将上述覆盖率Cov(e)和上述一致性Con(e,f)的平均值作为上述给定的例句对(e,f)的得分,本发明对此没有任何限制。
在本实施例中,得分计算单元510包括平均值计算单元,用于计算上述覆盖率Cov(e)和上述一致性Con(e,f)的平均值。在计算平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
具体地,例如,可以通过平均值计算单元利用以下公式(7)计算上述得分:
Sore(e,f)=β1*Cov(e)+β2*Con(e,f)   (7)
其中,β1和β2分别为上述覆盖率Cov(e)和上述一致性Con(e,f)的权重,以及Sore(e,f)为得分计算单元510所要计算给定的例句对的得分。
在本实施例中,虽然利用覆盖率计算单元501计算覆盖率,并利用一致性计算单元505计算一致性,但是本发明对计算覆盖率和一致性的顺序没有任何限制。
此外,在本实施例中,虽然描述了装置500包括用于计算覆盖率的覆盖率计算单元501以及用于计算一致性的一致性计算单元505,但是如果在覆盖率和一致性已知的情况下,本发明的装置500可以在没有覆盖率计算单元501以及一致性计算单元505的情况下,直接根据覆盖率和/或一致性来计算给定的例句对的得分,从而对给定的例句对进行评价。
通过本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500,可以利用覆盖率和一致性对双语语料库中的例句对进行评价,从而可以知道那些例句对是通用、可靠的例句对,进而可以为EBMT模型提供有效的信息。
从进行了对齐的双语语料库中选择例句对的装置
在同一发明构思下,图6是根据本发明的另一个实施例的从进行了对齐的双语语料库中选择例句对的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图6所示,本实施例的从进行了对齐的双语语料库中选择例句对的装置600包括:上述对进行了对齐的双语语料库中的例句对进行评价的装置500,用于计算给定的例句对的得分;以及比较单元605,用于将上述计算出的得分与给定的阈值进行比较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。
具体地,本实施例的装置600利用上述覆盖率计算单元501、一致性计算单元505和得分计算单元510,计算双语语料库中的一个给定的例句对的得分。
在本实施例中,利用比较单元605确定得分计算单元510计算的得分是否大于一个给定的阈值。这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。
如果比较单元605确定给定的例句对的得分小于给定的阈值,则本实施例的装置600结束运行。
另一方面,如果给定的例句对的得分大于给定的阈值,则本实施例的装置600将给定的例句对选出。
通过本实施例的从进行了对齐的双语语料库中选择例句对的装置600,可以利用上述参考图5的实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500计算例句对的得分,并将得分较高的例句对从双语语料库中选出,从而可以为EBMT模型提供通用、可靠的例句对,进而可以提高EBMT模型的准确率和效率。
利用进行了对齐的双语语料库构建通用例句库的装置
在同一发明构思下,图7是根据本发明的另一个实施例的利用进行了对齐的双语语料库构建通用例句库的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图7所示,本实施例的利用进行了对齐的双语语料库构建通用例句库的装置700包括:上述对进行了对齐的双语语料库中的例句对进行评价的装置500,用于执行步骤1:计算上述双语语料库中的每一个例句对的得分;排序单元705,用于执行步骤2:根据上述得分的降序对上述双语语料库中的例句对进行排序;以及确定单元710,用于执行步骤3:确定上述排序单元排序后的第1个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库。
具体地,本实施例的装置700利用上述覆盖率计算单元501、一致性计算单元505和得分计算单元510,计算双语语料库中的每一个例句对的得分。
排序单元705根据得分计算单元510计算出的得分的降序对双语语料库10中的例句对进行排序。
确定单元710确定排序后的第1个例句对的得分是否大于一个给定的阈值。这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。
如果确定单元710确定排序后的第1个例句对的得分小于给定的阈值,则本实施例的装置700结束运行。
此外,本实施例的装置700还包括添加单元715,如果排序单元705排序后的第1个例句对的得分大于给定的阈值,则添加单元715将第1个例句对加入通用例句库20。同时,添加单元715将第1例句对从双语语料库10中删除,或者给第1例句对赋予一个小权重。
此外,本实施例的装置700可以利用对例句进行评价的装置500、排序单元705、确定单元710以及添加单元715,重新计算双语语料库10中的每个例句对的得分,直到排序后的第1个例句对的得分小于给定的阈值。
在本实施例中,虽然每次将排序后的第1个例句对的得分与给定阈值进行比较,但是也可以将排序后的前N个例句对的得分与给定的阈值进行比较,并将大于给定的阈值的例句对加入通用例句库20中,本发明对此没有任何限制。
通过本实施例的利用进行了对齐的双语语料库构建通用例句库的装置700,可以利用上述参考图5的实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500将双语语料库中的通用、可靠的例句对构建为通用例句库20,从而可以利用通用例句库20进行EBMT,提高了EBMT模型的准确率和效率。
机器翻译的装置
在同一发明构思下,图8是根据本发明的另一个实施例的机器翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图8所示,本实施例的机器翻译的装置800包括:相似例句查找单元801,用于为待翻译的第一语种的句子,在根据上述从进行了对齐的双语语料库中选择例句对的装置600选择出的例句对或根据上述利用进行了对齐的双语语料库构建通用例句库的装置700构建的通用例句库中查找相似的第一语种的例句;区别部分译文准备单元805,用于为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及参考译文生成单元810,用于将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文。
例如,对于待翻译的第一语种的句子:
This is a pencil.
相似例句查找单元801在上述选出的例句对或通用例句库中查找到的相似的例句对为:
Figure G2008101659862D00211
区别部分译文准备单元805为上述区别部分“pencil”准备相应的译文。在本实施例中,可以利用上述双语语料库10为上述区别部分“pencil”准备译文“铅笔”。
参考译文生成单元810将上述相似的例句对中的“钢笔”替换为“铅笔”即可得到待翻译的句子的参考译文:
这是一支铅笔。
通过本实施例的机器翻译的装置800,可以利用上述参考图6的实施例的从进行了对齐的双语语料库中选择例句对的装置600选择出的例句对或上述参考图7的实施例的利用进行了对齐的双语语料库构建通用例句库的装置700构建的通用例句库20,进行翻译,从而可以提高EBMT的准确率和效率。
以上虽然通过一些示例性的实施例详细地描述了本发明的对进行了对齐的双语语料库中的例句对进行评价的方法,从进行了对齐的双语语料库中选择例句对的方法,利用进行了对齐的双语语料库构建通用例句库的方法,机器翻译的方法,对进行了对齐的双语语料库中的例句对进行评价的装置,从进行了对齐的双语语料库中选择例句对的装置,利用进行了对齐的双语语料库构建通用例句库的装置和机器翻译的装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (22)

1.一种机器翻译的方法,包括以下步骤:
为待翻译的第一语种的句子,在从进行了对齐的双语语料库中选择的例句对中查找相似的第一语种的例句,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及
将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文;
其中,所述从进行了对齐的双语语料库中选择的例句对通过下述步骤选择:
计算给定的例句对的得分;以及
将上述计算出的得分与给定的阈值进行比较;
如果上述得分大于上述阈值,则将上述给定的例句对选出;
其中,所述计算给定的例句对的得分的步骤包括:
根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;
基于上述计算出的得分,对上述给定的例句对进行评价;
其中,上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率通过以下步骤计算:
计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的相似度;以及
计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;
其中,上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性通过以下步骤计算:
根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率;
根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率;
根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率;以及
计算上述概率、上述比率和上述词对齐概率的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
2.一种机器翻译的方法,包括以下步骤:
为待翻译的第一语种的句子,在利用进行了对齐的双语语料库构建的通用例句库中查找相似的第一语种的例句,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及
将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文;
其中,所述利用进行了对齐的双语语料库构建的通用例句库通过下述步骤构建:
步骤1:计算上述双语语料库中的每一个例句对的得分;
步骤2:根据上述得分的降序对上述双语语料库中的例句对进行排序;以及
步骤3:确定上述步骤2排序后的第1个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库;
其中,所述计算上述双语语料库中的每一个例句对的得分的步骤包括:
根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;
基于上述计算出的得分,对上述给定的例句对进行评价;
其中,上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率通过以下步骤计算:
计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的相似度;以及
计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;
其中,上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性通过以下步骤计算:
根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率;
根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率;
根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率;以及
计算上述概率、上述比率和上述词对齐概率的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
3.根据权利要求1或2所述的方法,其中,在上述根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率计算上述给定的例句对的得分的步骤之前,还包括以下步骤:
计算上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;
其中,将上述计算出的覆盖率作为上述给定的例句对的得分。
4.根据权利要求1或2所述的方法,其中,在上述根据上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性计算上述给定的例句对的得分的步骤之前,还包括以下步骤:
计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性;
其中,将上述计算出的一致性作为上述给定的例句对的得分。
5.根据权利要求1或2所述的方法,其中,在上述根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分的步骤之前,还包括以下步骤:
计算上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;
计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性;以及
计算上述覆盖率和上述一致性的平均值,作为上述给定的例句对的得分。
6.根据权利要求1或2所述的方法,其中,上述计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的相似度的步骤包括以下步骤:
根据上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的编辑距离计算上述相似度。
7.根据权利要求6所述的方法,其中,上述根据上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的编辑距离计算上述相似度的步骤包括以下步骤:
利用以下公式计算上述相似度:
S ( e i , e ) = log ( 1 - ED ( e i , e ) max ( | e i | , | e | ) )
其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i个例句对中的第一语种的例句,|e|为上述例句e中的词的个数,|ei|为上述例句ei中的词的个数,S(ei,e)为上述例句e与上述例句ei之间的相似度,以及ED(ei,e)为上述例句e与上述例句ei之间的编辑距离。
8.根据权利要求1或2所述的方法,其中,上述计算上述相似度的平均值的步骤包括以下步骤:
根据上述相似度的降序对上述双语语料库中的例句对进行排序;以及
计算上述排序后的前N个例句对的相似度的平均值作为上述平均值。
9.根据权利要求1或2所述的方法,其中,上述根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率的步骤包括以下步骤:
利用以下公式计算上述比率:
R ( e , f ) = log ( Σ i = 1 . . . I δ ( ( x , tw i ) ∈ a ) + Σ j = 1 . . . J δ ( ( sw j , y ) ∈ a ) I + J )
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,x为上述例句e中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e,f)为上述比率。
10.根据权利要求1或2所述的方法,其中,上述根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率的步骤包括以下步骤:
利用以下公式计算上述词对齐概率:
P ( e , f ) = Σ ( j , i ) ∈ a log ( p ( tw i | sw j ) ) | a |
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,p(twi|swj)为上述例句e中的第i个词twi与上述例句f中的第j个词swj之间的对齐概率,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词对的个数,以及P(e,f)为上述词对齐概率。
11.根据权利要求2所述的方法,其中在上述步骤3之后还包括:
步骤4:将上述第1个例句对加入上述通用例句库,并将上述第1个例句对从上述双语语料库中删除或给上述第1个例句对赋予一个小权重;以及
针对上述双语语料库中的除了上述第1个例句对之外的其它例句对,重复执行上述步骤1-步骤4,直到在上述步骤3中确定上述步骤2排序后的第1个例句对的得分小于上述给定的阈值。
12.一种机器翻译的装置,包括:
相似例句查找单元,用于为待翻译的第一语种的句子,在从进行了对齐的双语语料库中选择例句对的装置选择出的例句对中查找相似的第一语种的例句,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
区别部分译文准备单元,用于为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及
参考译文生成单元,用于将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文;
其中,所述从进行了对齐的双语语料库中选择例句对的装置包括:
对进行了对齐的双语语料库中的例句对进行评价的装置,用于计算给定的例句对的得分;以及
比较单元,用于将上述计算出的得分与给定的阈值进行比较;
其中,如果上述得分大于上述阈值,则将上述给定的例句对选出;
所述对进行了对齐的双语语料库中的例句对进行评价的装置包括:
得分计算单元,根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;
覆盖率计算单元,用于计算上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;以及
一致性计算单元,用于计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性;
其中,基于上述得分计算单元计算出的得分,对上述给定的例句对进行评价;
上述覆盖率计算单元包括:
相似度计算单元,用于计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的相似度;以及
第二平均值计算单元,用于计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;
上述一致性计算单元包括:
长度概率计算单元,根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率;
比率计算单元,根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率;
词对齐概率计算单元,根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率;以及
第三平均值计算单元,用于计算上述概率、上述比率和上述词对齐概率的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
13.一种机器翻译的装置,包括:
相似例句查找单元,用于为待翻译的第一语种的句子,在利用进行了对齐的双语语料库构建通用例句库的装置构建的通用例句库中查找相似的第一语种的例句,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息;
区别部分译文准备单元,用于为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及
参考译文生成单元,用于将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文;
其中,所述利用进行了对齐的双语语料库构建通用例句库的装置包括:
对进行了对齐的双语语料库中的例句对进行评价的装置,用于执行步骤1:计算上述双语语料库中的每一个例句对的得分;
排序单元,用于执行步骤2:根据上述得分的降序对上述双语语料库中的例句对进行排序;以及
确定单元,用于执行步骤3:确定上述排序单元排序后的第1个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库;
所述对进行了对齐的双语语料库中的例句对进行评价的装置包括:
得分计算单元,根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;
覆盖率计算单元,用于计算上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;以及
一致性计算单元,用于计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性;
其中,基于上述得分计算单元计算出的得分,对上述给定的例句对进行评价;
上述覆盖率计算单元包括:
相似度计算单元,用于计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的相似度;以及
第二平均值计算单元,用于计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;
上述一致性计算单元包括:
长度概率计算单元,根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率;
比率计算单元,根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率;
词对齐概率计算单元,根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率;以及
第三平均值计算单元,用于计算上述概率、上述比率和上述词对齐概率的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
14.根据权利要求12或13所述的装置,其中,将上述覆盖率计算单元计算出的覆盖率作为上述给定的例句对的得分。
15.根据权利要求12或13所述的装置,其中,将上述一致性计算单元计算出的一致性作为上述给定的例句对的得分。
16.根据权利要求12或13所述的装置,其中,上述得分计算单元包括第一平均值计算单元,用于计算上述覆盖率和上述一致性的平均值,作为上述给定的例句对的得分。
17.根据权利要求12或13所述的装置,其中,上述相似度计算单元用于:
根据上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的编辑距离计算上述相似度。
18.根据权利要求17所述的装置,其中,上述相似度计算单元用于:
利用以下公式计算上述相似度:
S ( e i , e ) = log ( 1 - ED ( e i , e ) max ( | e i | , | e | ) )
其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i个例句对中的第一语种的例句,|e|为上述例句e中的词的个数,|ei|为上述例句ei中的词的个数,S(ei,e)为上述例句e与上述例句ei之间的相似度,以及ED(ei,e)为上述例句e与上述例句ei之间的编辑距离。
19.根据权利要求12或13所述的装置,其中,上述第二平均值计算单元包括:
排序单元,用于根据上述相似度的降序对上述双语语料库中的例句对进行排序;
其中,上述第二平均值计算单元用于计算上述排序单元排序后的前N个例句对的相似度的平均值作为上述平均值。
20.根据权利要求12或13所述的装置,其中,上述比率计算单元用于:
利用以下公式计算上述比率:
R ( e , f ) = log ( Σ i = 1 . . . I δ ( ( x , tw i ) ∈ a ) + Σ j = 1 . . . J δ ( ( sw j , y ) ∈ a ) I + J )
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,x为上述例句e中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e,f)为上述比率。
21.根据权利要求12或13所述的装置,其中,上述词对齐概率计算单元用于:
利用以下公式计算上述词对齐概率:
P ( e , f ) = Σ ( j , i ) ∈ a log ( p ( tw i | sw j ) ) | a |
其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,twi为上述例句e中的第i个词,swj为上述例句f中的第j个词,p(twi|swj)为上述例句e中的第i个词twi与上述例句f中的第j个词swj之间的对齐概率,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词对的个数,以及P(e,f)为上述词对齐概率。
22.根据权利要求13所述的装置,还包括:
添加单元,用于执行步骤4:将上述第1个例句对加入上述通用例句库,并将上述第1个例句对从上述双语语料库中删除或给上述第1个例句对赋予一个小权重;
其中,上述构建通用例句库的装置利用上述对例句对进行评价的装置、上述排序单元、上述确定单元以及上述添加单元,针对上述双语语料库中的除了上述第1个例句对之外的其它例句对,重复执行上述步骤1-步骤4,直到在上述步骤3中确定上述排序单元排序后的第1个例句对的得分小于上述给定的阈值。
CN2008101659862A 2008-10-06 2008-10-06 评价、选择例句对,构建通用例句库,机器翻译的方法及装置 Expired - Fee Related CN101714137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101659862A CN101714137B (zh) 2008-10-06 2008-10-06 评价、选择例句对,构建通用例句库,机器翻译的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101659862A CN101714137B (zh) 2008-10-06 2008-10-06 评价、选择例句对,构建通用例句库,机器翻译的方法及装置

Publications (2)

Publication Number Publication Date
CN101714137A CN101714137A (zh) 2010-05-26
CN101714137B true CN101714137B (zh) 2012-06-27

Family

ID=42417787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101659862A Expired - Fee Related CN101714137B (zh) 2008-10-06 2008-10-06 评价、选择例句对,构建通用例句库,机器翻译的方法及装置

Country Status (1)

Country Link
CN (1) CN101714137B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103119584B (zh) * 2010-12-17 2016-03-16 北京交通大学 机器翻译测评装置及方法
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN104123274B (zh) * 2013-04-26 2018-06-12 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN108733657B (zh) * 2017-04-17 2022-10-28 北京搜狗科技发展有限公司 神经机器翻译中注意力参数的修正方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
CN1570922A (zh) * 2004-04-30 2005-01-26 王敖格 一种模式-参数语言翻译方法及其翻译系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
CN1570922A (zh) * 2004-04-30 2005-01-26 王敖格 一种模式-参数语言翻译方法及其翻译系统

Also Published As

Publication number Publication date
CN101714137A (zh) 2010-05-26

Similar Documents

Publication Publication Date Title
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
Munteanu et al. Improving machine translation performance by exploiting non-parallel corpora
CN101714137B (zh) 评价、选择例句对,构建通用例句库,机器翻译的方法及装置
Piao et al. Development of the multilingual semantic annotation system
US20140039879A1 (en) Generic system for linguistic analysis and transformation
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
WO2008103894A1 (en) Automated word-form transformation and part of speech tag assignment
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN103678287B (zh) 一种关键词翻译统一的方法
CN111554272A (zh) 一种面向中文语音识别的语言模型建模方法
CN111814493A (zh) 机器翻译方法、装置、电子设备和存储介质
CN113743090B (zh) 一种关键词提取方法及装置
Lardilleux et al. Generalizing sampling-based multilingual alignment
Utt et al. Crosslingual and multilingual construction of syntax-based vector space models
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
Molina et al. Discursive sentence compression
CN102135957A (zh) 一种翻译短句的方法及装置
Lehal et al. Sangam: A Perso-Arabic to Indic script machine transliteration model
NL2031111B1 (en) Translation method, device, apparatus and medium for spanish geographical names
Bhuyan et al. Effects of prediction-length on accuracy in automatic Assamese word prediction
Garabík et al. Accuracy of Slovak Language Lemmatization and MSD Tagging–MorphoDiTa and SpaCy
CN111814025A (zh) 一种观点提取方法及装置
JP4953459B2 (ja) 文字ベクトルを用いた略語生成装置、方法及びプログラム
Bollmann Spelling normalization of historical German with sparse training data
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120627

Termination date: 20161006