CN101526937A

CN101526937A - 机器翻译设备和方法

Info

Publication number: CN101526937A
Application number: CN200910126931A
Authority: CN
Inventors: 釜谷聪史; 知野哲朗; 住田一男
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-03-07
Filing date: 2009-03-05
Publication date: 2009-09-09
Also published as: US20090228263A1; JP5112116B2; JP2009217360A; US8204735B2

Abstract

一种机器翻译设备，其包括：输入单元，其输入源语言语句；句法分析单元，其对所述源语言语句进行句法分析并产生句法信息；提取单元，其从所述句法信息提取第一部分信息，第一部分信息包括第一部分结构，第一部分结构包括作为句法信息节点的最高有效节点下方的所有节点和对应的语素，该提取单元还提取第二部分信息，第二部分信息包括第二子树和对应语素，第二子树代表第一部分信息中的两条第一部分信息之间的差异；翻译单元，其利用多个翻译系统翻译所有部分信息条目的语素；以及最可信结构选择单元，其选择翻译分数平均值最高的组合。

Description

机器翻译设备和方法

技术领域

本发明涉及一种用于将以源语言输入的语句机器翻译成目标语言语句的设备和方法。

背景技术

随着自然语言处理技术向前进展，转换以第一语言(源语言)输入的语句并输出第二语言(目标语言)语句的机器翻译设备已经得到了发展。在这些设备中，用于将日文文本翻译成诸如英文和中文之类的其他语言的机器翻译系统已经投入实用。尽管已经为这种翻译装置提出过很多翻译系统，但仍未实现能够为每句话产生恰当翻译的系统。

在机器翻译中，采用了自然语言处理技术，其包括语形学分析和句法(syntactic)分析(相关性分析)。作为实现高精度翻译机器的一种方式，提高这些技术中每种的处理精度很重要。例如，JP-A2006-53679(特开)提出了一种能够以高精度提供翻译处理的自然语言分析装置。根据这项技术，并不是逐个评估剖析林(parse tree)所包含的剖析树，而是对其整体进行相关性分析，从而能够从多个选项中选择最可信的翻译，而不会落入局部最优的情况。

此外，作为实现高精度翻译的方法，曾提出过通过组合不同翻译系统来翻译源语言语句的翻译装置。例如，JP-A2001-222529(特开)提出了一种翻译技术，利用这种技术，基于输入语句的外在模式将以源语言输入的语句划分成子串，切换翻译系统使其通过为每个子串选择最适当的翻译系统而工作，集成翻译结果以获得全句的翻译。

然而，根据JP-A 2001-222529(特开)，是利用其外在模式，例如短语和从句作为单元，以一维方式划分输入语句的。因此，有可能限制划分模式的类型并以不适于翻译的单元来划分语句。这可能会妨碍翻译质量的提高。

发明内容

根据本发明的一个方面，一种机器翻译设备，其包括：输入单元，其输入源语言形式的源语言语句；语素分析单元，其对所述源语言语句进行语形学分析并输出所述源语言语句的语素序列；句法分析单元，其对所述源语言语句的语素进行句法分析并输出所述源语言语句的句法结构；第一提取单元，在所述句法结构中包括的第一节点充当有效节点时，所述第一提取单元从所述句法结构提取与第一部分结构相对应的第一子串，所述第一部分结构包括要统一到所述第一节点的每一个中的所有叶子方向的节点；第二提取单元，在与所述第一节点具有直接或间接语法关系的第二节点充当所述有效节点时，所述第二提取单元从所述句法结构提取与第二部分结构相对应的第二子串，所述第二部分结构代表包括要统一到所述第二节点的每一个中的所有叶子方向节点的部分结构和所述第一部分结构之间的差异；翻译单元，其利用多个翻译系统中的每一个将所述第一子串和所述第二子串翻译成目标语言的形式，并产生部分翻译信息，在所述部分翻译信息中，代表翻译可靠性的翻译分数与翻译结果相关联；选择单元，其从所述部分翻译信息的条目的多个组合中选择一个组合，其中要选择的组合满足如下条件：作为所述部分翻译信息的条目中包括的翻译结果的原文的所述第一子串和所述第二子串彼此不交叠，所述源语言语句中包括的语素中的每一个匹配作为所述组合内所述部分翻译信息中包括的翻译结果的原文的所述第一子串和所述第二子串之一，且基于所述部分翻译信息中包括的所述翻译分数计算的用于表示所述组合可靠性的第一可信度采取最大值；产生单元，其通过翻译所述源语言语句产生所述目标语言形式的目标语言语句，使得所述目标语言语句具有所选组合内的所述部分翻译信息中包括的翻译结果；以及输出单元，其输出所述目标语言语句。

根据本发明的另一个方面，一种机器翻译方法，其包括：输入源语言形式的源语言语句；对所述源语言语句进行语形学分析并输出所述源语言语句的语素序列；对所述源语言语句的语素进行句法分析并输出所述源语言语句的句法结构；在所述句法结构中包括的第一节点充当有效节点时，从所述句法结构提取与第一部分结构相对应的第一子串，所述第一部分结构包括要统一到所述第一节点的每一个中的所有叶子方向的节点；在与所述第一节点具有直接或间接语法关系的第二节点充当所述有效节点时，从所述句法结构提取与第二部分结构相对应的第二子串，所述第二部分结构代表包括要统一到所述第二节点的每一个中的所有叶子方向节点的部分结构和所述第一部分结构之间的差异；利用多个翻译系统中的每一个将所述第一子串和所述第二子串翻译成目标语言的形式，并产生部分翻译信息，在所述部分翻译信息中，代表翻译可靠性的翻译分数与翻译结果相关联；从所述部分翻译信息的条目的多个组合中选择一个组合，其中要选择的组合满足如下条件：作为所述部分翻译信息的条目中包括的翻译结果的原文的所述第一子串和所述第二子串彼此不交叠，所述源语言语句中包括的语素中的每一个匹配作为所述组合内所述部分翻译信息中包括的翻译结果的原文的所述第一子串和所述第二子串之一，且基于所述部分翻译信息中包括的所述翻译分数计算的用于表示所述组合可靠性的第一可信度采取最大值；通过翻译所述源语言语句产生所述目标语言形式的目标语言语句，使得所述目标语言语句具有所选组合内的所述部分翻译信息中包括的翻译结果；以及输出所述目标语言语句。

附图说明

图1为方框图，示出了根据本发明实施例的机器翻译设备的结构；

图2为示出了语素分析单元获得的分析结果范例的图示；

图3为示出了词典存储单元中存储的词汇词典的范例数据结构的图示；

图4为示出了规则存储单元中存储的语法规则的范例数据结构的图示；

图5为示出了句法分析单元输出的剖析林范例的图示；

图6为示出了图5的剖析林中的剖析树范例的图示；

图7为示出了图5的剖析林中的另一剖析树范例的图示；

图8为示出了图5的剖析林中的又一剖析树范例的图示；

图9为示出了图5的剖析林中的又一剖析树范例的图示；

图10为示出了图5的剖析林中的又一剖析树范例的图示；

图11为示出了减少了解译歧义的剖析林范例的图示；

图12为示出了提取单元输出的划分信息的范例数据结构的图示；

图13为详细示出了翻译单元范例结构的方框图；

图14为示出了部分翻译存储单元中存储的部分翻译信息的范例数据结构的图示；

图15为根据实施例的整个机器翻译过程的流程图；

图16为根据该实施例的整合翻译过程的流程图；

图17为根据该实施例的基本部分翻译采纳过程的流程图；

图18为根据该实施例的部分翻译差异采纳过程的流程图；

图19为示出了在机器翻译过程期间产生的剖析林范例的图示；

图20为示出了在机器翻译过程期间产生的剖析林另一范例的图示；

图21为示出了在机器翻译过程期间产生的剖析林又一范例的图示；以及

图22为解释根据该实施例的机器翻译设备硬件结构的图示。

具体实施方式

下面将参考附图详细描述根据本发明的设备和方法的示范性实施例。在下面的解释中，采用了在日文和英文之间进行翻译的范例。然而，在翻译过程中处理的语言不限于这两种语言，可以包括任何语言的组合。

根据本发明实施例的机器翻译设备对以源语言输入的语句(在下文中称为“源语言语句”)进行句法分析，并利用句法分析获得的句法信息将源语言语句划分成适于翻译的单元。然后，利用不同的翻译系统逐个翻译划分获得的字符串(在下文中称为“部分字符串”)，并整合出可信度(翻译分数)最大的翻译结果，可信度表示翻译的可靠性。由此以高精度翻译了输入的源语言语句。

根据JP-A 2001-222529(特开)，通过选择适当的系统轮流切换多个翻译系统。然而，根据这种方法，需要考虑每种可能的源语言语句，且需要事先选择以最佳方式划分出部分字符串的方法和翻译这些字符串的系统。开发结合了这种方法的翻译装置需要大量的劳动。此外，如果更新翻译系统的任一个，就必需审查所有的规则。这使得难以在整个翻译装置上反映出个别翻译系统做出的改善。

相比之下，根据本实施例的机器翻译设备利用所有翻译系统翻译部分字符串，并利用翻译分数最高的翻译系统整合翻译结果以完成翻译。因此，不需要事先为每个划分出的部分字符串选择翻译系统。因此，可以发挥出不同翻译系统的最好能力，并可以在整个翻译上直接反映出翻译系统中逐个做出的改善，以提高其质量。

如图1所示，机器翻译设备100包括输入单元101、语素分析单元102、词典存储单元121、规则存储单元122、句法分析单元103、提取单元104、翻译单元110、部分翻译存储单元123、最可信结构选择单元105、产生单元106和输出单元107。

输入单元101接收由用户输入的源语言语句。可以利用任何通用输入装置，例如键盘、定点装置、手写字符识别、光学字符识别(OCR)和语音识别，来输入源语言语句。

语素分析单元102对所接收的源语言语句进行语形学分析，并输出源语言语句的语素序列作为分析结果。在语素分析单元102执行的语形分析过程中，可以采用任何通常使用的语形分析技术，例如最小连接成本法和利用词语划分模型通过动态规划使划分概率最大化的方法。

在图2的范例中，源语言语句201为日文语句“watashi wa saizu gaookii node kiniitta kedo yamemasu”，语素串202示出了分析该语句的结果。由符号“.”表示语素串202的语素之间的断点。

在图1中，词典存储单元121中存储词汇词典，在句法分析单元103(稍后介绍)执行句法分析过程时会参考词汇词典。在图3中，给出了图2中所示的语素串202的语素的语法范畴范例。

如图3所示，词汇词典包括彼此关联的单词和单词的语法范畴。例如，表示“I，me”的日文单词301与语法范畴N(名词)相关联。除了N(名词)之外，词汇的语法范畴还包括CM(格标记)、ADJ(形容词)、CJF(连接小品词)、V(动词)和AUX(助动词)。

在图1中，规则存储单元122中存储语法规则，在句法分析单元103(稍后介绍)执行句法分析过程时会参考语法规则。

如图4所示，规则存储单元122中例如以“(语法范畴)->(语法范畴1语法范畴2)”的形式存储所述的语法规则。在语法规则的该列表中，指定箭头左方的语法范畴由箭头右方所述的语法范畴1和2构成。

例如，根据语法规则401，语句(语法范畴S)由名词短语(语法范畴NP)和动词短语(语法范畴VP)构成。此外，根据语法规则402，语句(S)由从属短语(语法范畴SP)和动词短语(语法范畴VP)构成。根据语法规则403，从属短语(语法范畴SP)由形容词短语(语法范畴AP)和连接小品词(语法范畴CJP)构成。

词典存储单元121和规则存储单元122可以由任何通用记录介质形成，例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)。

在图1中，句法分析单元103接收由语素分析单元102输出的语素，并对所接收的语素进行句法分析过程，结果，输出表示源语言语句的句法结构的图示。在句法分析过程时，句法分析单元103参考词典存储单元121中存储的词汇词典和规则存储单元122中存储的语法规则。在句法分析单元103执行的句法分析过程中，可以采用任何常规句法分析方法，例如图表剖析和通用LR剖析。

句法分析单元103输出表示至少一个句法结构的图示，其示出了语素串中的句法和语义关系。被称为剖析树的结构代表涉及语素串中可能的语素关系的解译。这意味着，根据语素串以及分析语素串的语法规则，单个源语言语句可能会采用超过一个可能的解译，或换言之，超过一个剖析树。

根据该实施例的本发明针对句法和语义二义性提供了鲁棒性。为了实现这个目的，利用结合了一般化LR剖析的句法分析作为范例做出如下解释。利用一般化LR剖析的方法，通过参考上下文无关语法同时分析输入语句的所有语法上可信的句法选项，并以一群共享林(在下文中简称“剖析林”)的形式输出输入语句的句法信息。

在图5中，示出了对图2的语素串202执行句法分析获得的剖析林范例。在图5的剖析林结构中包括的节点中，叶节点对应于语素串的语素。该图的剖析林结构是通过根据语法规则集中为那些语素构成的不同剖析树来加以描述的。

如图5所示，剖析林的每个节点都与从图4的语法规则导出的语法范畴相关联。为了易于解释，为每个节点也附加了标识符以便彼此区分。在下文的解释中，使用语法范畴和节点(例如节点S24)的标识符的组合来将该节点与其他节点区分开。

如上所述，剖析林是这样一种数据结构，其中以高效的方式保存从语法规则来看对特定源语言语句可信的多个剖析树。例如，图5的剖析林包含图6到10所示的五棵剖析树。

在剖析林中，如果一些剖析树在部分上具有相同结构(子树)，则共享该部分(共享子树)。在图5中，例如，节点AP14被节点AP15和SP16共享。这是因为图6的剖析树与图8的剖析树共享植根于节点AP14的部分结构。

在语素串的剖析林中，当两棵子树或更多子树的根与相同语法范畴相关联时，合并这些子树的根(局部歧义被堆积)，由此进一步提高了数据保持的效率。例如，图5的节点SP21具有如下结构：以节点NP12和SP20作为子节点的节点SP21a以及以节点SP17和SP19作为子节点的节点SP21b被合并。这是因为图9中的节点SP21和图10中的节点SP21对应于相同的语素串，且这些节点的语法范畴都是SP。

句法分析单元103还解析解译剖析林中的语义歧义(semanticambiguity)，并最终输出仅具有最高可信度(首选项)结构的剖析林，其中可信度表示该结构的可靠性。

例如，图8中所示的剖析树是图5的剖析林的结构组件之一，其中，可以将该结构解译成“watashi wa saizu ga ookii”(I am size-wise large)，这表明“watashi”(I)修饰“ookii”(large)。例如，如果产生这种解译的频率低于产生如下解译的频率：即“watashi”修饰“kini-it(ta)”且“watashi”修饰“yame(masu)”，则句法分析单元103判定“watashi”修饰“ookii”的解译不恰当。因此句法分析单元103抛弃图8的剖析树并保留其他剖析树。结果，句法分析单元103输出如图11所示的剖析林，其中减少了解译中的歧义。

有一些常规方法可以用来判断剖析林所包含的剖析树的语义选择并解析解译中的歧义。一种方法是推测性自由语境语法(stochasticfree-context grammar)，利用这种方法，从庞大的语料库获悉应用每条语法规则的概率，并给出语法规则概率之积作为剖析树的概率。也可以使用JP-A 2006-53679(特开)中介绍的方法。

如上所述，句法分析单元103针对根据语法规则通过一般化LR剖析分析的句法结构从语义角度解析解译中的歧义。如果解析了解译中的所有歧义，句法分析单元103输出具有单个解译的剖析树。另一方面，如果仍然存在未解析的歧义，句法分析单元103输出包含若干剖析树的剖析林。

句法分析单元103可以用于不解析语义歧义而输出包括根据语法规则获得的所有剖析树的剖析林。

在图1中，提取单元104提取对应于具有形成剖析林并充当最高有效节点(most significant node)的节点的子树的语素，由此产生划分后的源语言语句的划分信息。更具体而言，提取单元104将句法分析单元103输出的剖析林中包括的节点判定为要标记节点(第一节点)，并切分出第一节点将其作为叶子方向上较低结构(子树)来支配的区域(第一部分结构)。于是，第一部分结构包括统一到第一节点中的所有叶子方向(leaf-ward)的节点。然后，提取单元104将对应于每个切分出的第一部分结构的源语言语句的范围标识为代表对应于第一部分结构的部分字符串的第一子串。之后，提取单元104通过将第一节点的每一个与从第一节点标识的相应的第一子串相关联来产生划分信息。在下文中，将通过这种方式产生的划分信息称为基本部分信息。

当句法分析单元103输出的剖析林中包括的两个节点构成组合且节点之一支配的区域包含另一节点的句法结构时，提取单元104切分开所包括的两个节点支配的两区域之间的差异。提取单元104将源语言语句中对应于切分区域的该范围(语素)识别为部分字符串。换言之，提取单元104针对每个第一节点切分出由第二节点(位置沿叶子方向低于第一节点，作为较低结构(子树))支配的区域(划分区域)。于是，第二节点与第一节点具有直接或间接的语法关系，并被统一到第一节点中。而且，切分区域包括统一到第二节点中的所有叶子方向的节点。然后，提取单元104将源语言语句中对应于表示划分区域和第一节点支配的第一部分结构间差异的第二部分结构的范围标识为第二子串，即对应于第二部分结构的部分字符串。

在以下描述中，将支配包含另一结构的结构的节点称为父节点，而将支配被包含结构的节点称为子节点。提取单元104产生划分信息，在划分信息中将父节点、子节点和源语言语句对应于划分出的第二部分结构的区域(第二子串)彼此关联。在下文中，将通过这种方式产生的划分信息称为差异部分信息。

该装置可以具有如下结构，其中，可以由不同的单元(例如第一提取单元和第二提取单元)来执行基本部分信息的提取和差异部分信息的提取。

图12为示出了提取单元104输出的划分信息(基本部分信息和差异部分信息)的范例数据结构的图示。如图的顶部所示，以“(语法范畴和节点标识符)，(对应的部分字符串)”的形式描述基本部分信息。

在图5中，例如，节点AP15支配着包含节点NP12、N1、CM2、AP14、NP13、N3、CM4和ADJ5的下方结构。节点AP15对应于源语言语句的字符串“watashi wa saizu ga ookii”(I am large size-wise)。于是，提取单元104针对节点AP15产生如图12所示的基本部分信息1201(AP15，watashiwa saizu ga ookii)。

此外，如图12的底部所示，以“(父节点的语法范畴和标识符)，(子节点的语法范畴和标识符)，(对应的部分字符串)”的形式描述差异部分信息。

例如，考虑针对图5的节点S25a和SP16的组合产生的差异部分信息。节点S25a支配着包含节点NP12、N1、CM2、VP24(堆积的局部歧义节点VP24a和VP24b)、SP16、CJP6、AP14、NP13、N3、CM4、ADJ5、SP20、SP19、VP18、V7、AUX8、CJP9、VP23、VP22、V10和AUX11的下方结构。换言之，节点S25a支配着图5的区域501。

类似地，节点SP16支配着包含节点CJP6、AP14、NP13、N3、CM4和ADJ5的下方结构。换言之，节点SP16支配着图5的区域502。

这意味着节点S25a完全包含了由节点SP16支配的区域。然后，节点S25a变为父节点，节点SP16变为子节点。

然后，提取单元104划分出图5的区域503，这是节点S25a和节点SP16所支配的区域之间的差异。区域503包含节点NP12、N1、CM2、VP24(堆积的局部歧义节点VP24a和VP24b)、SP20、SP19、VP18、V7、AUX8、CJP9、VP23、VP22、V10和AUX11。然后，提取单元104标识输入语句中对应于区域503的范围。

结果，提取单元104针对节点S25a和SP16的组合产生图12中的差异部分信息1202(S25a、SP16，“watashi wa kiniitta kedo yamemasu”(I likeit，but I won’t take it))。

通过这种方式，提取单元104为所有节点和所有两个节点的组合产生两种划分信息，即基本部分信息和差异部分信息。之后，提取单元104输出一组所产生的划分信息。

除了为每个节点和每一两节点组合产生划分信息之外，提取单元104也可以用于限制要提取的节点的语法范畴。例如，在图4中，划分出仅对应于诸如名词短语和动词短语之类的短语的区域。因此，可以将要划分的节点的语法范畴限制为S(语句)、SP(从属短语)、VP(动词短语)、NP(名词短语)和AP(形容词短语)。由此可以控制源语言语句的划分大小。

此外，可以基于语料库计算由提取单元104产生的划分信息中包括的部分字符串出现的概率，从而可以删除包括概率低于预定值的部分字符串的划分信息。那么就防止了划分变得不自然。此外，该结构可以使得仅对剖析林中优先度高的剖析树进行划分处理，从而可以减小处理量。

在图1中，翻译单元110在每个预定翻译系统中将源语言的给定字符串翻译成目标语言，并产生包括翻译结果和翻译分数的部分翻译信息。如图13所示，翻译单元110包括实现不同翻译系统的翻译引擎111到11n。

翻译引擎111到11n在通用机器翻译系统，诸如基于规则的、基于范例的和基于统计的系统中之类的预定系统中翻译给定字符串。翻译单元110将输入字符串分布到翻译引擎111到11n中的每一个。翻译单元110还输出由翻译引擎111到11n翻译的字符串和计算出的翻译分数。

例如，对于基于范例的翻译系统，可以采用字符串和范例之间的相似度作为翻译分数。对于基于统计的翻译系统而言，可以采用基于语言模型的翻译概率作为翻译分数。对于基于规则的翻译系统而言，可以根据句法的可信度和所采用规则的优选度获得翻译分数。换言之，可以通过对于每种翻译系统而言预定的计算方法计算翻译分数。然而，并非总是需要针对不同系统逐个决定计算方法来获得翻译分数。例如，可以基于公共语言模型(语料库)计算由翻译系统输出的每个翻译字符串的出现概率并用作翻译分数。或者，可以基于事先从平行翻译语料库等获悉的翻译模型针对翻译系统和源语言语句的每者输出的翻译字符串的组合计算翻译概率，并用作翻译分数。

翻译单元110产生部分翻译信息并将其存储在部分翻译存储单元123中。在部分翻译信息中，提取单元104产生的划分信息、翻译划分信息中包括的部分字符串获得的部分翻译、与部分翻译一同输出的翻译分数、原始划分信息中包括的节点信息以及标识用于翻译的翻译系统的标识符是彼此相关联的。

因为划分信息包括基本部分信息和差异部分信息，所以翻译单元110产生与划分信息类型相对应的两种部分翻译信息。

基本部分信息包括在切分部分结构时参考的节点以及对应于被切分部分结构的部分字符串。于是，翻译单元110产生部分翻译信息，其中，节点、部分字符串、翻译单元110获得的部分字符串的部分翻译、以及与部分翻译一同输出的翻译分数被彼此相关联。在下文中，将把通过这种方式从基本部分信息产生的部分翻译信息称为部分翻译基本信息。

另一方面，差异部分信息包括在切分部分结构时参考的父节点和子节点、以及对应于被切分部分结构的部分字符串。于是，翻译单元110产生部分翻译信息，其中，父节点、子节点、部分字符串、翻译单元110获得的部分字符串的部分翻译、以及与部分翻译一同输出的翻译分数被彼此相关联。在下文中，将从差异部分信息产生的部分翻译信息称为部分翻译差异信息。

在图1中，部分翻译存储单元123中存储着由翻译单元110产生的部分翻译信息。下文详细解释部分翻译信息。

如图14所示，部分翻译信息包括作为基本部分信息中包括的节点或差异部分信息中包括的父节点的节点(父)；作为差异部分信息中包括的子节点的节点(子)；基本部分信息或差异部分信息中包括的部分字符串；部分翻译；翻译分数；以及标识翻译系统的标识符。

对于部分翻译基本信息而言，“节点(子)”单元始终保持空白。部分翻译表示翻译切分部分字符串的结果。为了方便起见包括标识符作为补充要素，来表示利用多个翻译系统之一获得的翻译。有/没有标识符不会对根据本实施例的机器翻译设备100的工作造成任何影响。

在图14中，部分翻译基本信息1401是部分翻译基本信息的范例。部分翻译基本信息1401表明在参照节点S25a切分基本部分信息并利用翻译系统1(例如翻译引擎111)翻译时，以0.6的翻译分数获得了部分翻译“Since I am large size，although it is pleased，I stop.”。

部分翻译基本信息1402是部分翻译基本信息的另一范例。以和部分翻译基本信息1401相同的方式，部分翻译基本信息1402示出了翻译针对节点S25a切分出的基本部分信息的结果。然而，利用翻译系统2(例如翻译引擎112)未获得部分翻译，翻译分数为0。这可能是这样的情形：即翻译系统2是基于范例的且未找到相似范例。

图14的部分翻译差异信息1405是部分翻译差异信息的范例。部分翻译差异信息1405表明，利用翻译系统2(例如翻译引擎112)翻译参照节点S25a切分的差异部分信息并消除节点SP16下方的结构，结果以0.5的翻译分数获得了部分翻译“Although I love it，I give it up.”

在图1中，最可信结构选择单元105检查部分翻译存储单元123中存储的部分翻译信息项的所有可能组合，以找到特定组合：部分翻译信息中包括的节点处于同一剖析树上；部分翻译信息的部分字符串足以覆盖整个源语言语句而没有彼此交叠；且该组合的概率在所有可能组合中具有最大值，或者换言之，总翻译分数，即从组合的部分翻译信息产生的整个语句的翻译分数，具有最高值。然后，最可信结构选择单元105输出一组最可信的部分翻译信息，其包含所选组合中包括的部分翻译结构。

例如，最可信结构选择单元105从多条部分翻译信息中产生这些条目的所有可能组合，其中，部分翻译信息中包括的节点处于同一剖析树上，且部分翻译信息的部分字符串足以覆盖整个源语言语句。然后，最可信结构选择单元105针对所产生的每个组合计算总翻译分数，并选择总翻译分数最高的组合。最可信结构选择单元105可以用于利用动态规划等选择该组最可信的部分翻译信息，从而无需产生所有的组合。

作为总翻译分数，最可信结构选择单元105使用的是部分翻译信息中包括的翻译分数的平均值。然而，总翻译分数的计算不限于该方法。可以考虑到子树的概率计算总翻译分数，或者可以采用任何其他方法。例如，作为剖析林中对应于划分信息的子树的概率(基于划分信息产生每条部分翻译信息)，最可信结构选择单元105可以用于根据随机上下文无关文法计算产生句法结构的概率，并通过将这些概率相乘来合并所得的翻译分数平均值，作为总翻译分数。

在图14中，部分翻译差异信息1406示出了从基本部分信息获得的部分翻译信息，该信息是参照节点S25a获得的。另一方面，节点S25a支配着整个源语言语句。于是，翻译对应于该节点的字符串意味着翻译整个源语言语句。换言之，部分翻译差异信息1406的部分翻译代表着利用翻译系统1(例如翻译引擎111)翻译整个源语言语句的结果。

包括利用不同翻译系统翻译针对支配整个源语言语句的节点切分的基本部分信息获得的部分翻译的部分翻译信息，包含了用每个翻译系统可实现的整个源语言语句的最佳翻译结果以及该结果的翻译分数(全局翻译分数)。因此，应当从利用翻译单元110中包括的所有翻译引擎获得的翻译结果的组合中找到翻译分数的平均值大于全局翻译分数的组合。由此可以提高整个源语言语句的翻译结果的质量。

在图1中，产生单元106基于最可信结构选择单元105输出的该组最可信部分翻译信息和句法分析单元103输出的剖析林产生目标语言的语句，即翻译整个源语言语句的结果。

当该组最可信部分翻译信息中的部分翻译信息具有部分翻译差异结构时，产生单元106从父节点沿叶子方向支配的部分翻译信息的区域消除子节点沿叶子方向支配的部分翻译信息的区域，并利用该部分翻译信息中包括的部分翻译替换对应于剩余区域的语素串。然后，产生单元106从剖析林消除仅支配被替换的语素串的区域的任何节点，使得该部分翻译变成直接被部分翻译信息中包括的父节点支配的区域。当父节点支配其他节点时，应当将对应于这些节点的语素和部分翻译重新设置成适当次序。因此，产生单元106参照被消除的语素串中最靠近源语言语句末尾的语素，将父节点直接支配的节点按照对应于其他节点支配的区域的语素串的次序重新设置。

当该组最可信部分翻译信息中包括的部分翻译信息具有部分翻译基本结构时，产生单元106利用该部分翻译信息中的部分翻译替换对应于沿叶子方向由部分翻译信息的节点支配的区域的语素串。然后，产生单元106从剖析林消除掉在其支配区域中包括被替换语素串但在其支配区域中不包括部分翻译信息中包括的节点的节点，使得该部分翻译变成直接被部分翻译信息的节点支配的区域。

通过这种方式，产生单元106在剖析林中嵌入部分翻译信息，并由此以保持句法和语义关系的剖析树的形式输出由适当翻译系统获得的源语言语句部分字符串的翻译结果。然后，产生单元106从左到右连接输出的剖析树的叶节点，由此产生目标语言语句。

产生单元106可以用于采纳更高级的翻译产生方法。例如，可以对以剖析树形式输出的翻译结果再次采用基于规则的翻译系统，从而可以对目标语言语句做出调节。

输出单元107输出由产生单元106产生的目标语言语句。可以利用任何常规系统来实现输出单元107采用的输出方法，例如输出到显示装置上的图像，由打印机打印以及由语音合成器进行语音合成。可以根据需要切换这些系统，或者可以同时采用多种系统。

下面参考图15解释由根据本实施例的机器翻译设备100执行的翻译过程。

首先，输入单元101接收源语言语句S(步骤S1501)。接下来，语素分析单元102对源语言语句S进行语形学分析并产生语素串M(步骤S1502)。然后，句法分析单元103对语素串M进行句法分析并产生剖析林P(步骤S1503)。

之后，提取单元104从剖析林F产生基本部分信息并将其添加到划分信息集D(步骤S1504)。提取单元104还从剖析林F产生差异部分信息，并将其添加到划分信息集D(步骤S1505)。

接下来，翻译单元110利用翻译单元110中包括的所有翻译引擎111到11n翻译对应于划分信息集D中的各条部分信息的部分字符串，产生包含翻译结果的部分翻译信息并将其存储在部分翻译存储单元123中(步骤S1506)。

然后，最可信结构选择单元105从各条所存储的部分翻译信息的所有可能组合中选择最可信部分翻译信息集C(步骤S1507)。最可信部分翻译信息集C必需是所存储的部分翻译信息中其节点处于同一剖析树上、其部分字符串足以构成整个源语言语句且其总翻译分数采取最大值的条目的组合。

之后，产生单元106执行整合翻译过程，以从所选的最可信部分翻译信息集C产生目标语言语句T(步骤S1508)。稍后将给出整合翻译过程的细节。最后，输出单元107输出所产生的目标语言语句T(步骤S1509)并终止翻译过程。

接下来，将参考图16到18详细描述步骤S1508的整合翻译过程。

首先，产生单元106从剖析林F提取出具有最可信部分翻译信息集C中包括的部分翻译信息的所有节点的剖析树，并将其判定为剖析树St(步骤S1601)。由于最可信部分翻译信息集C的性质的原因，所以始终会将所提取的剖析树St判定为表示整个源语言语句的解译的单个剖析树。接下来，从最可信部分翻译信息集C获取未处理的部分翻译信息p(步骤S1602)。产生单元106判断该部分翻译信息p是否是一条部分翻译基本信息(步骤S1603)。当该部分翻译信息p是一条部分翻译基本信息时(步骤S1603处的“是”)，产生单元106执行部分翻译基本施加过程，以将部分翻译基本信息施加到剖析树St(步骤S1604)。稍后将给出部分翻译基本施加过程的细节。

当该部分翻译信息p不是一条部分翻译基本信息时，或换言之，当该部分翻译信息p是一条部分翻译差异信息时(步骤S1603处的“否”)，产生单元106执行部分翻译差异施加过程，以将部分翻译差异信息施加到剖析树St(步骤S1605)。稍后将给出部分翻译差异施加过程的细节。

然后，产生单元106判断是否已经处理了最可信部分翻译信息集C中的所有条的部分翻译信息(步骤S1606)。如果有任何未处理信息项(步骤S1606处的“否”)，则检索下一条部分翻译信息p并重复该过程(步骤S1602)。

当处理过所有条的部分翻译信息时(步骤S1606处的“是”)，产生单元106通过将对应于最终获得的剖析树St的叶子的语素连接到一起来产生目标语言语句T(步骤S1607)。然后，整合翻译过程结束。

接下来，将参考图17详细描述在步骤S1604执行的部分翻译基本施加过程。

首先，产生单元106从部分翻译信息p获得节点n(步骤S1701)。更具体而言，产生单元106从部分翻译信息p的“节点(父)”单元获得节点n。接下来，产生单元106利用部分翻译信息p中包括的部分翻译t替换节点n支配的区域中的语素(步骤S1702)。然后，产生单元106从剖析树St消除由节点n支配的区域中的节点(步骤S1703)。之后，产生单元106将部分翻译t插入到由节点n支配的区域中(步骤S1704)。最后，产生单元106从剖析树St中消除其区域中不包括节点n的任何节点(步骤S1705)，部分翻译基本施加过程结束。

下文将参考图18详细解释在步骤S1605执行的部分翻译差异施加过程。

首先，产生单元106从部分翻译信息p获得父节点np和子节点nc(步骤S1801)。更具体而言，产生单元106从部分翻译信息p的“节点(父)”单元获得父节点np，并从“节点(子)”单元获得节点nc。然后，产生单元106利用部分翻译信息p中包括的部分翻译t替换对应于父节点np和子节点nc支配的区域之间的差异的语素(步骤S1802)。之后，产生单元106从剖析树St消除支配仅包括那些被替换语素的区域的任何节点(步骤S1803)。产生单元106将部分翻译t插入到由父节点np支配的区域中(步骤S1804)。然后，产生单元106根据被替换语素中最右边的一个和剩余语素之间的位置关系重新设置由父节点np直接支配的节点(步骤S1805)。由此结束部分翻译差异施加过程。

接下来，将参考图19到21详细解释根据本发明实施例的机器翻译过程。在以下解释中，假设翻译单元110拥有两个翻译系统，其标识符为“1”和“2”。

假设输入如图2所示的日文源语言语句201(步骤S1501)。语素分析单元102对输入的源语言语句201进行语形学分析并例如获取附图的语素串202作为语素串M(步骤S1502)。

句法分析单元103利用如图3所示的词汇词典和如图4所示的语法规则对语素串M执行一般化LR剖析，从而产生如图5所示的剖析林。在此假设句法分析单元103进一步解决了解译中的语义歧义，并输出如图11所示的仅保持高优先结构的剖析林F(步骤S1503)。

提取单元104从剖析林F提取基本部分信息和差异部分信息，并输出例如如图12所示的划分信息D(步骤S1504和S1505)。然后，翻译单元110利用所有翻译系统翻译划分信息集D的所有条的划分信息中的部分字符串。翻译单元110将翻译结果和翻译分数与原始划分信息组合并依次产生各条部分翻译信息。翻译单元110然后在部分翻译存储单元123中存储如图14所示的部分翻译信息(步骤S1506)。

下面考虑如下的情形：最可信结构选择单元105选择部分翻译基本信息1403、部分翻译基本信息1404和部分翻译差异信息1406的组合作为最可信部分翻译信息集C(步骤S1507)。

对于该组合而言，最可信部分翻译信息集C中包括的各条部分翻译信息的翻译分数平均值为(0.8+0.4+0.9)/3＝0.7。该数字值大于针对部分翻译基本信息1401的翻译分数0.6和针对部分翻译基本信息1402的翻译分数0两者，前者表示整个源语言语句是利用翻译系统1翻译的，后者表示整个源语言语句是利用翻译系统2翻译的。这意味着本实施例以高于常规技术的精确性实现了翻译，常规技术单独利用不同系统之一进行翻译或选择翻译分数高的翻译系统的翻译结果。

接下来，产生单元106基于剖析林F和最可信部分翻译信息集C执行整合翻译过程，以产生最终的目标语言语句(步骤S1508)。

首先，产生单元106从剖析林F提取出具有属于最可信部分翻译信息集C的部分翻译信息中包括的所有节点的剖析树St(步骤S1601)。该剖析树St对应于图11的剖析林F中节点S25a下方的剖析树。然后，产生单元106例如从未处理的各条最可信部分翻译信息集C中获得部分翻译差异信息1406作为部分翻译信息p，其包括图14的部分翻译基本信息1403、部分翻译基本信息1404和部分翻译差异信息1406(步骤S1602)。

因为该部分翻译信息p不是部分翻译基本信息(步骤S1603处的“否”)，产生单元106执行部分翻译差异施加过程(步骤S1605)。

在部分翻译差异施加过程中，产生单元106获得部分翻译信息p，或换言之部分翻译差异信息1406中包括的父节点S25a和子节点SP20作为父节点np和子节点nc(步骤S1801)。

对应于父节点np下方的区域和子节点nc下方的区域之间的差异的语素串表示对应于图12的差异部分信息1203中包括的部分字符串的语素串。因此，利用部分翻译信息p中包括的部分翻译“I just can’t buy it”替换包括对应于节点N1、CM2、V10和AUX11的语素的语素串(步骤S1802)。

接下来，产生单元106参照所替换的语素串从剖析树St搜索仅支配以上语素的任何节点。在图11的剖析林F的剖析树St中，节点N1、CM2、NP12、V10、AUX11和VP22满足该条件。产生单元106从剖析树St消除这些节点(步骤S1803)。此外，产生单元106将部分翻译t插入到由父节点np支配的区域中(步骤S1804)。图19为示出了从上述过程获得的剖析树St的图示。

应当指出，父节点np以节点VP24作为直接支配的节点，且位于该节点VP24支配的区域最右边的语素对应于节点CJF9。位于被替换语素串最右边的语素对应于节点AUX11。该语素位于在输入源语言语句的次序中对应于节点CJF9的语素后面。于是，对在步骤S1804处插入的区域排序并放置在节点VP24之后(步骤S1805)。因此剖析树St保持与图19所示相同。

在完成了部分翻译差异施加过程之后，产生单元106执行步骤S1606的操作。最可信部分翻译信息集C仍然具有图14的部分翻译基本信息1403和部分翻译基本信息1404作为未处理的部分翻译信息。因此，产生单元106获得部分翻译基本信息1404，例如作为下一条要处理的部分翻译信息p(步骤S1602)。

因为该部分翻译信息p为部分翻译基本信息(步骤S1603处的“是”)，产生单元106执行部分翻译基本施加过程(步骤S1604)。

在部分翻译基本施加过程中，产生单元106获取部分翻译信息p，或换言之，部分翻译基本信息1404中包括的节点S19作为节点n(步骤S1701)。

对应于节点n下方区域的语素串表示图12的基本部分信息1204中包括的部分字符串。于是，利用部分翻译信息p中包括的部分翻译“I like it，but.”来替换包括图11的对应于节点V7、AUX8和CJF9的语素的语素串(步骤S1702)。

之后，产生单元106从剖析树St搜索节点n下方区域中的节点。在图11的剖析林F中包括的剖析树St中，节点V7、AUX8、CJP9和VP18满足该条件。因此产生单元106从剖析林F消除这些节点(步骤S1703)。产生单元106将部分翻译t插入到由节点n支配的区域中(步骤S1704)。图20中示出了从该过程获得的剖析树St。

在图20中，剖析树St不具有任何不包括节点n，或换言之节点SP19的结构。因此在步骤S1705不消除任何节点。

在完成了部分翻译基本施加过程之后，产生单元106执行步骤S1606的操作。因为最可信部分翻译信息集C仍包括未处理的部分翻译信息，即图14的部分翻译基本信息1403，产生单元106获取部分翻译基本信息1403作为要处理的下一条部分翻译信息p(步骤S1602)。

对部分翻译基本信息1403执行的部分翻译基本施加过程与对部分翻译基本信息1404执行的操作相同。在对部分翻译基本信息1403执行部分翻译基本施加过程之后，剖析树St看起来像图21中的那个剖析树。

现在处理了最可信部分翻译信息集C中所有条目的部分翻译信息(步骤S1606处的“是”)。于是，产生单元106将对应于剖析树St的叶节点的语素连接在一起，并产生目标语言语句T“It’s so big for me，I like it，but I just can’t buy it”(步骤S1607)。

在完成了整合翻译过程之后，输出单元107输出目标语言语句T(步骤S1509)。然后，机器翻译过程结束。

根据本实施例的翻译装置利用语法信息将输入的源语言语句划分成部分字符串，利用多个翻译系统翻译部分字符串并将具有最高翻译分数平均值的翻译组合成目标语言语句。通过这种方式，即使在没有翻译系统能够独自为整个源语言语句产生适当翻译结果时，通过利用为每个部分字符串选择的最佳翻译系统翻译划分的部分字符串并组合翻译结果，也可以获得高度精确的翻译。

根据本实施例，利用源语言语句的句法结构从二维方面划分源语言语句，于是可以将所划分部分字符串的关系用于翻译。因此，与根据源语言语句的外在模式进行一维划分相比，可以以高精度获得翻译结果并以高精度产生最终的目标语言语句。

此外，通过基于语法信息执行整合过程，可以利用维持的部分翻译关系产生目标语言语句。这提高了翻译结果的精确性。此外，因为划分过程和翻译过程彼此无关，所以个别翻译系统的改进可以直接有助于整个翻译质量的提高。此外，在句法分析的时候处理剖析林结构。于是，即使在源语言语句有超过一个剖析树时，或者换言之，即使在输入的源语言语句有多个句法和语义解释时，也可以以并行方式执行操作。由此可以提高机器翻译过程的效率和可用性。

接下来，参考图22解释根据该实施例的翻译装置的硬件结构。

根据该实施例的机器翻译设备包括使用常规计算机的硬件结构，包括诸如中央处理单元(CPU)51之类的控制装置、诸如只读存储器(ROM)52和RAM53之类的存储装置、连接到网络以执行通信的通信接口54、诸如硬盘驱动器(HDD)和紧致盘(CD)驱动器之类的外部存储装置、显示装置、诸如键盘和鼠标之类的输入装置、以及连接这些组件的总线61。

根据该实施例的翻译装置所执行的翻译程序以可安装或可执行格式文件的形式存储并提供于计算机可读记录介质中，例如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)和数字多用盘(DVD)中。

可以将根据该实施例的翻译装置执行的翻译程序存储在连接到诸如因特网之类的网络的计算机中并经过网络下载其。可以经由诸如因特网之类的网络提供或分布根据该实施例的翻译装置执行的翻译程序。

可以事先将根据该实施例的翻译程序存储在ROM等中并通过这种方式来提供。

为根据该实施例的翻译装置执行的翻译程序赋予包括上述单元(输入单元、语素分析单元、句法分析单元、提取单元、翻译单元、最可信结构选择单元、产生单元和输出单元)的模块结构。作为实际的硬件结构，CPU51(处理器)从记录介质读取翻译程序并执行该程序，从而在主存储装置上加载和产生各单元。

本领域的技术人员将容易想到更多的优点和改进。因此，在其更宽的方面上，本发明不限于这里所示和所述的特定细节和代表性实施例。因此，在不脱离如所附权利要求及其等价要件定义的一般发明构思的精神或范围的情况下，可以做出各种修改。

Claims

1、一种机器翻译设备，其包括：

输入单元，其输入源语言形式的源语言语句；

语素分析单元，其对所述源语言语句进行语形学分析并输出所述源语言语句的语素序列；

句法分析单元，其对所述源语言语句的语素进行句法分析并输出所述源语言语句的句法结构；

第一提取单元，在所述句法结构中包括的第一节点充当有效节点时，所述第一提取单元从所述句法结构提取与第一部分结构相对应的第一子串，所述第一部分结构包括要统一到所述第一节点的每一个中的所有叶子方向的节点；

第二提取单元，在与所述第一节点具有直接或间接语法关系的第二节点充当所述有效节点时，所述第二提取单元从所述句法结构提取与第二部分结构相对应的第二子串，所述第二部分结构代表包括要统一到所述第二节点的每一个中的所有叶子方向节点的部分结构和所述第一部分结构之间的差异；

翻译单元，其利用多个翻译系统中的每一个将所述第一子串和所述第二子串翻译成目标语言的形式，并产生部分翻译信息，在所述部分翻译信息中，代表翻译可靠性的翻译分数与翻译结果相关联；

选择单元，其从所述部分翻译信息的条目的多个组合中选择一个组合，其中要选择的所述一个组合满足如下条件：作为所述部分翻译信息的条目中包括的翻译结果的原文的所述第二子串和所述第一子串彼此不交叠，所述源语言语句中包括的语素中的每一个匹配作为所述组合内所述部分翻译信息中包括的翻译结果的原文的所述第二子串和所述第一子串之一，且基于所述部分翻译信息中包括的所述翻译分数计算的、用于表示所述组合可靠性的第一可信度采取最大值；

产生单元，其通过翻译所述源语言语句产生所述目标语言形式的目标语言语句，使得所述目标语言语句具有所选组合内的所述部分翻译信息中包括的翻译结果；以及

输出单元，其输出所述目标语言语句。

2、根据权利要求1所述的设备，其中所述句法结构是包括多个剖析树的剖析林，可以基于用于所述源语言语句的句法分析的预定语法规则来采用所述剖析树。

3、根据权利要求2所述的设备，其中

所述句法分析单元产生包括所述剖析树的所述剖析林，将所述剖析树中的每一个与表示对应剖析树的可靠性的第二可信度相关联；

所述第一提取单元从所述剖析林内包括的所述剖析树中的、所述第二可信度大于预定第一阈值的一个剖析树提取所述第一子串；以及

所述第二提取单元从所述剖析林内包括的所述剖析树中的、所述第二可信度大于所述第一阈值的所述一个剖析树提取所述第二子串。

4、根据权利要求1所述的设备，其中

所述句法结构包括对应语素的语法范畴与其每一个都关联的节点；以及

所述第一提取单元从所述句法结构提取与第一部分结构相对应的第一子串，在所述第一部分结构中，与特定语法范畴相关联的所述第一节点充当所述有效节点。

5、根据权利要求1所述的设备，其中

所述第一提取单元还从所提取的第一子串中提取在源语言语料库中出现的概率大于预定第二阈值的一个第一子串；以及

所述第二提取单元还从所提取的第二子串中提取在所述源语言语料库中出现的概率大于所述第二阈值的一个第二子串。

6、根据权利要求1所述的设备，其中所述翻译单元产生所述翻译结果，将通过预定计算方法针对所述翻译系统中的每一个计算出的所述翻译分数与所述翻译结果相关联。

7、根据权利要求1所述的设备，其中所述翻译单元产生所述翻译结果，将作为所述翻译结果在目标语言语料库中出现的概率而计算出的所述翻译分数与所述翻译结果相关联。

8、根据权利要求1所述的设备，其中所述翻译单元产生所述翻译结果，将作为基于预定翻译模型的翻译结果的翻译概率而计算出的所述翻译分数与所述翻译结果相关联。

9、根据权利要求1所述的设备，其中所述选择单元从所述组合中产生一个组合，在所述一个组合中，所述部分翻译信息内的每一条中包括的所述翻译结果的原文的语素彼此不交叠，所述源语言语句中包括的所述语素中的每一个对应于所述组合内的所述部分翻译信息中包括的所述翻译结果的原文的所述语素之一，所述选择单元为所产生的组合中的每一个计算所述第一可信度并选择针对所计算出的第一可信度具有最大值的组合。

10、根据权利要求1所述的设备，其中所述产生单元根据所述源语言语句中的所述翻译结果的原文的语素的次序组合所选组合内的所述部分翻译信息中包括的翻译结果，从而产生所述目标语言语句。

11、一种机器翻译方法，其包括：

输入源语言形式的源语言语句；

对所述源语言语句进行语形学分析并输出所述源语言语句的语素序列；

对所述源语言语句的语素进行句法分析并输出所述源语言语句的句法结构；

在所述句法结构中包括的第一节点充当有效节点时，从所述句法结构提取与第一部分结构相对应的第一子串，所述第一部分结构包括要统一到所述第一节点的每一个中的所有叶子方向的节点；

在与所述第一节点具有直接或间接语法关系的第二节点充当所述有效节点时，从所述句法结构提取与第二部分结构相对应的第二子串，所述第二部分结构代表包括要统一到所述第二节点的每一个中的所有叶子方向节点的部分结构和所述第一部分结构之间的差异；

利用多个翻译系统中的每一个将所述第一子串和所述第二子串翻译成目标语言的形式，并产生部分翻译信息，在所述部分翻译信息中，代表翻译可靠性的翻译分数与翻译结果相关联；

从所述部分翻译信息的条目的多个组合中选择一个组合，其中要选择的所述一个组合满足如下条件：作为所述部分翻译信息的条目中包括的翻译结果的原文的所述第二子串和所述第一子串彼此不交叠，所述源语言语句中包括的语素中的每一个匹配作为所述组合内所述部分翻译信息中包括的翻译结果的原文的所述第二子串和所述第一子串之一，且基于所述部分翻译信息中包括的所述翻译分数计算的、用于表示所述组合可靠性的第一可信度采取最大值；

通过翻译所述源语言语句产生所述目标语言形式的目标语言语句，使得所述目标语言语句具有所选组合内的所述部分翻译信息中包括的翻译结果；以及

输出所述目标语言语句。