CN101320366A

CN101320366A - 用于机器翻译的装置和方法

Info

Publication number: CN101320366A
Application number: CNA2008101083097A
Authority: CN
Inventors: 釜谷聪史; 知野哲朗; 降幡建太郎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-06-07
Filing date: 2008-06-06
Publication date: 2008-12-10
Also published as: US20080306728A1; JP2008305167A

Abstract

接收单元接收源语言的输入语句。获得从输入语句翻译成目标语句的范例翻译候选以及范例翻译候选的第一可能性。产生单元通过不同于范例翻译单元的过程的过程将输入语句翻译成目标语言，并在用于输入语句中每个单词的翻译结果的候选中产生翻译单词候选，该翻译单词候选示出了第二可能性大于或等于第一阈值的候选。当范例翻译候选中包括的翻译单词不包含在翻译单词候选中时，更改单元仅将第一可能性降低预定值。选择单元从范例翻译候选中选择第一可能性最大的范例翻译候选。

Description

用于机器翻译的装置和方法

技术领域

本发明涉及通过组合多种翻译系统将源语言语句翻译成目标语言语句的装置和方法，所述多种翻译系统包括通过参考相似翻译范例进行翻译的翻译系统。

背景技术

作为将以第一语言表达的源语言语句转换成第二语言来输出的相关领域中的机器翻译装置内的翻译系统，已知的有基于规则的翻译系统、基于统计的翻译系统、和基于范例的翻译系统等。

基于规则的翻译系统是一种利用规则来给出翻译方法的翻译系统，其条件例如有形成源语言语句的单词、源语言语句的语法结构和语义解释。基于统计的翻译系统是这样的一种翻译系统，其利用概率统计学习源语言和目标语言的语言行为以及在源语言和目标语言之间翻译期间观察到的语言现象。

基于范例的翻译系统是一种通过模仿充当模型的翻译范例来生成期望的翻译语句的翻译系统，所述充当模型的翻译范例例如是过去的翻译范例以及翻译人员给出的范例翻译。与基于规则的翻译系统和基于统计的翻译系统相比，基于范例的翻译系统能够获得自然而流畅的译文，并具有仅通过增加范例就可以对应于新输入的优点。因此，近年来对基于范例的翻译系统研究得非常多，使用该技术安装的翻译装置已经投入实用。

影响基于范例的翻译系统性能的重要问题之一是安装有该系统的翻译装置参考的范例集合的质量和尺度。搜索最适合于输入语句的相似范例的精度也是影响基于范例的翻译系统性能的重要问题。

考虑到自然语言的多样性，应当包括在范例集合中的译文远非有限数量的。因此，可以说，以较高精度从有限的范例中搜索适当范例语句的技术是范例翻译的关键。

例如，在JP-A2004-62726(特开)中公开了一种提供较高精度范例搜索技术的技术和包括高精度基于范例的翻译系统的翻译装置。通过在搜索范例时搜索目标语言侧的相似度和作为第一语言的源语言侧的相似度而实现这些目标。

例如，假设在范例集合中包括了意思是“我饲养老鼠。”的日语语句J1和对应的英语语句E1“I feed a mouse.”。然后，假设输入英语源语句E2“I feed a seal.”作为翻译目标。这时，在JP-A2004-62726(特开)的方法中，计算源语句E2中的“seal”和英语语句E1中的“mouse”之间的相似度以及作为翻译语句的日语语句中意思为“海豹”的单词和日语语句J1中意思为“老鼠”的对应单词之间的相似度。因为两个单词都表示动物，所以判断它们是相似的，由此系统采纳该范例。换言之，搜索出英语语句E1作为相似范例，并输出意思为“我饲养海豹。”的日语翻译语句作为翻译结果。

根据JP-A2004-62726(特开)的方法，可以通过评估源语言侧和目标语言侧的多义性来改善性能。

然而，一些范例表明，源语言侧和目标语言侧相似度都很强未必会获得精确而自然的翻译语句。例如，基于以上范例，当输入英语源语句E3“Ifeed my son。”时，基于同样的判断采纳相同的范例。结果，输出了不恰当的意思是“我饲养我的儿子。”的日语翻译语句。

在该范例中，因为英语中的单词“feed”具有很多含义，所以在将其翻译成日语时，需要根据上下文从多个翻译单词中选择合适的翻译单词。然而，在JP-A2004-62726(特开)的方法中，因为仅考虑了对应于范例不匹配部分的单词之间的相似度，所以可能会选择不合适的日语翻译作为结果。

例如，假设在范例集合中包括意思为“我正在烤面包。”的日语语句J2以及与对应的英语语句E4“I’m baking bread.”相关联的范例。然后，假设输入意思为“我正在做汤。”的日语源语句J3作为翻译目标。在这种情况下，因为对应于不匹配部分的“面包”和“汤”都是食物，所以采纳以上范例。结果，产生了别扭的译文，如“我正在烤汤。”

即使将认真检查过的范例归入范例集合中，只要是在有限的范例中进行翻译的，这就是一个难以避免的难题。然而，这是一个主要问题，因为用户没有别的选择，只能相信搜索到的范例，而输出的翻译语句则具有缺陷。

发明内容

根据本发明的一个方面，一种机器翻译装置包括：范例存储单元，对其进行相应配置以存储源语言范例和从所述源语言范例翻译出来的目标语言范例；接收单元，其被配置成接收所述源语言的输入语句；范例翻译单元，其被配置成执行范例翻译过程，即基于在所述范例存储单元中存储的对应于与所述输入语句一致或几乎一致的所述源语言范例的所述目标语言范例，获得从所述输入语句翻译成所述目标语言的多个范例翻译候选，每个所述范例翻译候选与表示所述每个范例翻译候选的确定度的第一可能性相关；产生单元，其被配置成通过不同于所述范例翻译过程的另一翻译过程将所述输入语句翻译成所述目标语言，并产生翻译单词候选，所述翻译单词候选示出具有大于或等于预定第一阈值的第二可能性的用于所述另一翻译过程的结果的候选，所述第二可能性表示用于所述另一翻译过程的结果的所述候选的确定度；更改单元，其被配置成判断与所述范例翻译候选中包括的每个单词相对应的翻译单词是否存在于所述翻译单词候选中，并且当所述翻译单词不存在于所述翻译单词候选中时，通过减去预定值来更改所述第一可能性；以及选择单元，其被配置成从所述范例翻译候选中选择第一可能性最大的所述范例翻译候选。

根据本发明的另一个方面，一种机器翻译方法包括：接收源语言输入语句；执行范例翻译过程，即基于在范例存储单元中存储的对应于与所述输入语句一致或几乎一致的源语言范例的目标语言范例，获得从所述输入语句翻译成所述目标语言的多个范例翻译候选，每个所述范例翻译候选与表示所述每个范例翻译候选的确定度的第一可能性相关，所述范例存储单元存储所述源语言范例和从所述源语言范例翻译成的所述目标语言范例；通过不同于所述范例翻译过程的另一翻译过程将所述输入语句翻译成所述目标语言；产生翻译单词候选，所述翻译单词候选示出具有大于或等于预定第一阈值的第二可能性的用于所述另一翻译过程的结果的候选，所述第二可能性表示用于所述另一翻译过程的结果的所述候选的确定度；判断与所述范例翻译候选中包括的每个单词相对应的翻译单词是否存在于所述翻译单词候选中；当所述翻译单词不存在于所述翻译单词候选中时，通过减去预定值来更改所述第一可能性；以及从所述范例翻译候选中选择第一可能性最大的所述范例翻译候选。

附图说明

图1是根据本发明实施例的机器翻译装置的方框图；

图2是示出了范例存储单元中存储的翻译范例的数据结构的图示；

图3是示出了从范例翻译单元输出的范例翻译候选的输出格式的图示；

图4是示出了翻译单词候选产生单元所用的翻译规则的图示；

图5是示出了所产生的翻译单词候选的图示；

图6是示出了由翻译单词候选添加单元添加后的翻译单词候选的图示；

图7是根据本实施例的机器翻译过程的总体流程的流程图；

图8是范例翻译候选的评估过程的总体流程的流程图；

图9是示出了替代性范例翻译候选的图示；

图10是示出了翻译单词候选集合的图示；以及

图11是示出了根据本实施例的机器翻译装置的硬件配置的图示。

具体实施方式

以下将参考附图详细描述根据本发明的机器翻译装置和方法的示范性实施例。在下文中，将把日语和英语之间的翻译用作范例，但要翻译的语言不限于这两种语言，任何语言都可以是目标。

根据本发明实施例的机器翻译装置通过参考由基于规则的翻译系统获得的翻译结果来缩小基于范例的翻译系统获得的翻译候选的范围。

如图1所示，机器翻译装置100包括范例存储单元120、接收单元101、范例翻译单元102、翻译单词候选产生单元103、翻译单词候选添加单元104、候选评估单元105以及输出控制单元106。

范例存储单元120生成第一语言语句以及与第一语言语句成相互翻译关系的第二语言语句这一对语句，并将其作为翻译范例存储在其中。通过对应于翻译范例，范例存储单元120中存储形成第一语言语句的单位和形成第二语言语句的单位作为翻译对应信息，该翻译对应信息表示其间的翻译关系(在下文中称为翻译对齐信息)。在本实施例中，将单词用作单位，在下文中，用单词来作为单位解释。然而，形成语句的单位不限于单词，还可以使用诸如词素或词组之类的其他单位。

不是将翻译对齐信息预先静态地保持在范例存储单元120中，而是可以将翻译对齐信息形成为可以在范例翻译单元102中被动态地评估的形式，这将在稍后描述。在本实施例中，仅使用两种语言来解释对应的范例语句。然而，可以这样形成范例语句，使得在其中相应地存储两种或更多种语言，并根据输入语言和期望的输出语言优选地提取和使用。

在图2所示的范例中，存储了六个范例201、202、203、204、205和206。在每个范例中，第一语言的语句和第二语言的语句对应于翻译对齐信息。

例如，在范例201中，作为第一语言的日语的日语语句207对应于作为第二语言的英语的英语语句208(“I feed a mouse.”)，后者与日语语句207是相互翻译关系。相应地存储翻译对齐信息209，其表明了日语语句207中的单词和英语语句208中的单词的对应关系。

通过基于单词在每个语句中出现的位置的标识符来表示翻译对齐信息。对于以日语描述翻译范例的语句，按照单词的顺序将标识符写作“j1、j2、...”。对于以英语描述翻译范例的语句，按照单词的顺序将标识符写作“e1、e2、...”。

例如，图2所示的翻译对齐信息209是由三个翻译对齐(j1:e2)、(j3:e3，e4)和(j5，j6，j7:e3)形成的。对齐(j1:e1)表示第一个日语单词210与第一个英语单词(“I”)对齐。对齐(j3:e3，e4)表示第三个日语单词与第三和第四个英语单词(“a mouse”)对齐。对齐(j5，j6，j7:e3)表示由第五、第六和第七个日语单词构成的词组211与第三个英语单词(“feed”)对齐。

在以下解释中，在翻译范例中的每个语句中，用相同语言描述的作为输入语句的语句被称为范例源语句，用翻译目的语言(目标语言)描述的语句被称为范例翻译语句。

可以通过任何通用的存储介质，例如硬盘驱动器(HDD)、光盘、存储卡和随机存取存储器(RAM)来形成范例存储单元120。

返回到图1，接收单元101接收要翻译的输入语句。例如，可以通过诸如键盘、鼠标、手写文字识别系统或光学字符读出器(OCR)之类的文本输入系统来实现接收单元101。也可以通过与语音识别装置组合的语音输入系统来实现接收单元101。

范例翻译单元102利用基于范例的翻译系统将输入语句翻译成目标语言。具体而言，范例翻译单元102在范例存储单元120中搜索包括类似于由接收单元101接收的输入语句的范例源语句的翻译范例。然后范例翻译单元102输出一组第一可能性、单词对齐信息和范例翻译结果作为范例翻译候选。第一可能性是表示根据相似度定义的翻译范例的确定度的可能性。单词对齐信息是表示输入语句和所用范例源语句之间单词对应关系的范例对应信息。利用翻译范例做出范例翻译结果。

在本实施例中，将所有相似的翻译范例看作处理目标，并将所有范例翻译候选作为范例翻译候选集合输出。可以将范例翻译单元102形成为基于第一可能性来限制要输出的范例翻译候选的数目。或者，可以将范例翻译单元102形成为仅输出所需数量的范例翻译候选。

图3为示出了范例翻译候选集合的图示，该范例翻译候选集合包括当在范例存储单元120中存储图2所示的翻译范例时针对输入语句“I feed myson.”而获得的范例翻译候选301、302和303。

例如，范例翻译候选301示出了可以基于图2所示的范例201(“I feeda mouse.”)获得的范例翻译候选。范例翻译候选301包括作为范例翻译结果的日语语句305，并给出单词对齐信息306((e1:s1)，(e2:s2))作为范例源语句304和输入语句之间的单词对齐信息。参考图3，范例翻译候选301的可能性为0.75。同时，“s1，s2，...”为标识输入语句中的单词的标识符，并从语句开始给出对应于出现顺序的数字值。

单词对齐信息306表示输入语句中的第一个单词对应于范例源语句中的第一个单词“I”，而输入语句中的第二个单词对应于范例源语句中的第二个单词“feed”。

因此，通过参考输入语句和范例源语句之间的单词对齐信息以及存储于范例存储单元120中的翻译范例的范例源语句和范例翻译语句之间的翻译对齐信息，可以知道输入语句中的单词是如何被范例翻译结果中的单词替换的。

例如，利用图3所示的单词对齐信息306，可以判定输入语句中的单词“I”对应于范例源语句304中的第一个单词“I”。通过参考图2所示的翻译对齐信息209，可以知道在作为范例源语句的英语语句208中的第一个单词“I”对应于在作为范例翻译语句的日语语句207中的第一个单词210。

返回到图1，翻译单词候选产生单元103利用不同于范例翻译单元102使用的系统的第二翻译系统来翻译输入语句。然后翻译单词候选产生单元103利用形成输入语句的每个单词(在下文中称为输入单词)为第二翻译系统选择的翻译结果产生候选(在下文中称为翻译单词候选)。翻译单词候选产生单元103基于其第二可能性等于或大于预定阈值的翻译结果产生对应于每个输入单词的翻译单词候选。第二可能性是表示第二翻译系统获得的翻译结果的确定度的可能性。

在本实施例中，翻译单词候选产生单元103使用属于基于规则的翻译系统的变换系统作为第二翻译系统。变换系统是一种翻译系统，其通过针对输入语句的单词分析和语法分析获得语法结构，利用所获得的语法结构条件使用翻译规则将输入语句转换成目标语言的结构，并基于该结构产生期望的目标语言语句。

应当指出第二翻译系统不限于基于规则的翻译系统。只要该系统与范例翻译单元102中使用的范例译文不同，就可以使用任何系统，例如基于统计的翻译系统。

在图4所示的翻译规则401到406中，左侧示出了与转换前的结构相关的条件表达式，右侧示出了转换后的结构，中间为符号“→”。可以定义各种翻译规则，例如多个单词中的结构关系条件，如图4所示的翻译规则401中那样。对于另一个范例，也可以使用相对简单的转换，其唯一的条件是要翻译的源语言中的单词，如翻译规则406中所示。

在变换系统中，通过从规则中选择最适合的组合来产生翻译语句。根据本实施例的翻译单词候选产生单元103针对输入语句中的每个单词通过列出使用变换系统进行翻译处理而获得的候选来产生翻译单词候选。

在本实施例中，将与变换系统的规则的兼容程度用作翻译结果的可能性(第二可能性)。换言之，翻译单词候选产生单元103基于具有最高兼容度的规则组合产生翻译结果。

图5是示出了翻译单词候选产生单元103针对输入语句“I feed myson.”的输出的图示。例如，图5所示的翻译单词候选集合501示出了单词“feed”的翻译单词候选集合，并指出两个日语单词502和503对应于该单词。

返回到图1，翻译单词候选添加单元104进一步获得可能将输入单词翻译成的所有翻译单词候选并将这些翻译单词候选添加到由翻译单词候选产生单元103列出的翻译单词候选的集合。具体而言，翻译单词候选添加单元104基于其第二翻译系统的可能性(第二可能性)等于或大于第二阈值的翻译结果产生与每个输入单词相对应的翻译单词候选。第二阈值小于翻译单词候选产生单元103所用的阈值。然后翻译单词候选添加单元104将翻译单词候选添加到已经由翻译单词候选产生单元103产生的翻译单词候选上。

翻译单词候选产生单元103通过翻译系统(即变换系统)获得翻译单词，即作为翻译结果的翻译语句。在该系统中，基于翻译过程中选择的最适合的翻译规则组合来引导最终选择的翻译单词。

翻译单词候选添加单元104通过采用与目标单词转换相关的任何规则放松了最适合的翻译规则的条件，并将所采用的规则下的翻译单词候选添加到翻译单词候选集合。

例如，翻译单词候选产生单元103从图4所示的翻译规则404和405分别引导图5所示的翻译单词候选集合501中包括的作为翻译单词候选的单词502和503。

通过忽略应用条件而仅关注源语言和目标语言之间的单词转换，例如，可以针对单词“feed”应用图4所示的包括单词“feed”的翻译规则401、402和403。换言之，翻译单词候选添加单元104能够使用翻译规则401、402和403针对单词“feed”添加日语单词411、日语单词412和日语单词413作为新的翻译单词候选。

在添加翻译单词候选之后，翻译单词候选添加单元104给出候选评估单元105稍后参考所列翻译单词候选的罚分(penalty)。在本实施例中，当翻译单词候选具有高可靠性时设定小的罚分，当翻译单词候选具有低可靠性时设定大罚分。

可以认为，与在第二翻译系统中的普通翻译过程中被判定为最适合的翻译单词相比，条件放宽的翻译单词具有低可靠性。这是因为条件放宽的翻译单词未能充分匹配其中可以使用以规则为条件的翻译单词的状况。通过用单词之间关系的条件来放宽严格定义的规则，例如图4所示的翻译规则404，而获得翻译单词候选，其被认为作为翻译单词是具有低可靠性的。这是因为，认为条件的放宽程度高于通过简单单词转换(例如翻译规则403)而获得的翻译单词候选。

翻译单词候选添加单元104在选择翻译单词候选时为每个翻译单词候选给出罚分。这是为了考虑每个翻译单词候选的可靠程度的差异并展示翻译单词候选字符的差异。

具体而言，对于翻译单词候选产生单元103列出的作为具有最大可能性(具有最高可靠程度)的候选的翻译单词候选，翻译单词候选添加单元104不给出罚分。换言之，给出罚分0。根据翻译规则的类型，翻译单词候选添加单元104为由翻译单词候选添加单元104新添加的翻译单词候选给出不同的罚分。例如，翻译单词候选添加单元104为仅基于单词而添加的翻译单词候选给出罚分1。翻译单词候选添加单元104为基于多个单词之间的关系而添加的翻译单词候选给出罚分2。

图6是如图5所示的翻译单词候选添加单元104针对输入语句“I feedmy son.”的输出的图示。例如，图6中所示的翻译单词候选集合601示出了针对单词“feed”的翻译单词候选的集合。翻译单词候选集合601示出，单词502和单词503的罚分为0，单词604的罚分为1，单词602、单词603和单词605的罚分为2。

在翻译单词候选添加单元104处给出的罚分不限于这样的离散值。根据翻译模式，可以分配连续值以进一步详细评估。此外，例如，可以形成罚分，从而评估与变换系统中的翻译规则调节单元中包括的单词的相似度，并根据相似度改变罚分。例如，可以这样形成基于统计的翻译系统，从而通过假设概率是翻译确定度来参考将某一源语言单词转换成目标语言单词的概率并将其倒数作为罚分。

翻译单词候选添加单元104不是主要成分，需要的是提供匹配由翻译单词候选产生单元103产生的规则的最适合的翻译单词候选。

返回图1，对于属于作为范例翻译单元102的输出的范例翻译候选集合的每个范例翻译候选，候选评估单元105选择具有最大可能性的范例翻译候选。这是通过参考由翻译单词候选产生单元103和翻译单词候选添加单元104列出的翻译单词候选集合来执行的。如图1所示，候选评估单元105包括更改单元105a和候选选择单元105b。

更改单元105a针对每个范例翻译候选判断范例翻译候选中包括的单词(在下文中称为翻译单词)是否包括在被列出的翻译单词候选中。如果翻译单词未包括在翻译单词候选中，则降低范例翻译候选的可能性(第一可能性)。利用该功能，减小了将包括未被第二翻译系统选择的任何翻译单词候选的范例翻译候选选择为翻译结果的概率。

在本实施例中，如果存在任何未包括在翻译单词候选中的翻译单词，则更改单元105a摒除该范例翻译候选，以免将其选择为翻译结果。换言之，更改单元105a将这种范例翻译候选的可能性设置为0。因此，排除掉包括不能被第二翻译系统采用的翻译单词候选的范例翻译候选，由此提高了范例译文的精确度。也可以形成更改单元105a，从而根据未包括在翻译单词候选中的翻译单词数量更改降低可能性的值。

候选选择单元105b从范例翻译候选中选择具有最大可能性的范例翻译候选作为翻译结果。本实施例的候选选择单元105b进一步计算每个范例翻译候选的罚分。然后，候选选择单元105b从具有最大可能性的范例翻译候选中选择具有最小罚分的范例翻译候选作为翻译结果。候选选择单元105b通过增加对应于范例翻译候选中包括的翻译单词的翻译单词候选的罚分来计算范例翻译候选的罚分。通过这种功能，可以将包括具有高可靠度的翻译单词候选的范例翻译候选选择为翻译结果，由此能够进一步提高范例译文的精确度。

当翻译单词候选添加单元104未包括在该配置中时，不计算该翻译单词候选的罚分。因此，候选选择单元105b为每个范例翻译候选计算罚分并基于所计算的罚分进行评估不是必需的。

替代使用可能性和罚分两个标准来选择候选者的是，可以这样形成，使得对应于罚分更改可能性，并在更改后仅使用可能性作为标准来选择具有最大可能性的候选。换言之，更改单元105a对应于每个范例翻译候选的罚分更改范例翻译候选的可能性(第一可能性)，然后候选选择单元105b在更改后利用可能性来选择具有最大可能性的范例翻译候选。

输出控制单元106控制输出由候选选择单元105b选择的翻译结果的过程。例如，可以利用各种已知的系统来实现输出控制单元106，例如由显示装置输出的图像、由打印机输出的打印以及由语音合成器输出的合成语音。还可以形成这种系统以便按需切换，或者组合多个这种系统。

接下来，将参考图7解释通过这种方式形成的根据本实施例的机器翻译装置100执行的机器翻译过程。

接收单元101接收输入语句S(步骤S701)。范例翻译单元102通过从范例存储单元120获得与类似于输入语句S的范例源语句相对应的范例翻译语句作为范例翻译候选，从而执行范例翻译。范例翻译单元102然后产生范例翻译候选的集合Ec(步骤S702)。此时，范例翻译单元102产生单词对齐信息，该单词对齐信息针对所获得的每个范例翻译候选给出输入语句S中的单词(输入单词)和范例源语句中的单词(在下文中称为源语句单词)之间的对应关系(步骤S703)。

翻译单词候选产生单元103针对输入语句S通过变换系统执行翻译，并为每个输入单词产生翻译单词候选集合Mt(步骤S704)。翻译单词候选添加单元104进一步利用放宽条件的翻译规则通过变换系统执行翻译，并向翻译单词候选集合Mt添加获得的翻译单词候选。同时，翻译单词候选添加单元104为翻译单词候选集合Mt中的每个翻译单词候选给出罚分(步骤S705)。

候选评估单元105对用于评估范例翻译候选集合Ec中的每个候选者的变量进行初始化。具体而言，候选评估单元105将具有最大可能性的范例候选eb设置为空，将最小罚分Pmin设置为无穷大，将最大可能性Lmax设置为0(步骤S706)。

为最小罚分Pmin设置的初始值不限于无穷大，而是可以根据期望的翻译性能设置任意值。例如，如果将初始值设置为0，可以将为其计算了罚分的所有范例翻译候选形成为不被选择。

候选评估单元105从范例翻译候选集合Ec获得未评估的范例翻译候选e(步骤S707)。然后，候选评估单元105通过评估获得的范例翻译候选e并选择具有最大可能性的范例翻译候选来执行范例翻译候选的评估过程(步骤S708)。稍后将描述范例翻译候选的评估过程的细节。通过执行范例翻译候选的评估过程，将在该点具有最大可能性的范例翻译候选设置为具有最大可能性的范例候选eb。

候选评估单元105判断是否处理了所有的范例翻译候选(步骤S709)。如果未处理所有的候选者(步骤S709处的“否”)，则候选评估单元105选择下一个范例翻译候选e并重复该过程(步骤S707)。

如果处理了所有的范例翻译候选(步骤S709处的“是”)，则输出控制单元106输出具有最大可能性的范例候选eb(步骤S710)并完成机器翻译过程。

接下来，将参考图8详细描述在步骤S708中对范例翻译候选的评估过程。

候选评估单元105将要评估的范例翻译候选e的罚分P初始化为0(步骤S801)。然后候选评估单元105获得输入语句S中的单词(输入单词)mk(步骤S802)。

更改单元105a判断与单词mk相关的单词对齐信息是否存在于范例翻译候选e中(步骤S803)。例如，假设输入英语语句“I feed a mouse.”作为输入语句，并将标识符为“s1”的第一个单词“I”确定为单词mk。在这种情况下，对于图3中所示的范例翻译候选301而言，包括“s1”的对齐信息被包含在单词对齐信息306中。因此，更改单元105a判定与单词mk相关的单词对齐信息存在。

当与单词mk相关的单词对齐信息存在时(步骤S803处的“是”)，更改单元105a参考单词对齐信息和翻译对齐信息，并获得范例翻译语句中包括的对应于单词mk的单词(翻译单词)fk(步骤S804)。

例如，对于输入语句(“I feed a mouse.”)中的第一个单词“I”而言，基于图3中所示的单词对齐信息306((e1:s1)，(e2:s2))获得范例源语句中的第一个单词“I”(标识符为“e1”)。然后，基于图2中所示的范例201的翻译对齐信息209，获得其标识符“j1”对应于标识符“e1”的单词210作为单词fk。

更改单元105a然后判断单词fk是否存在于对应于单词mk的翻译单词候选集合Mt中(步骤S805)。如果单词fk不存在(步骤S805处的“否”)，更改单元105a摒除被评估的范例翻译候选e并完成范例翻译候选的评估过程。摒除范例翻译候选e相当于将范例翻译候选e的可能性改为0。

当单词fk存在于对应于单词mk的翻译单词候选集合Mt中时(步骤S805处的“是”)，候选选择单元105b将对应于单词fk的翻译单词候选的罚分增加到范例翻译候选e的罚分P上(步骤S806)。

候选选择单元105b判断是否处理了输入语句S中的所有单词(步骤S807)。如果未处理所有单词(步骤S807处的“否”)，则获得下一个单词mk以重复该过程(步骤S802)。

如果处理了所有单词(步骤S807处的“是”)，则候选选择单元105b判断范例翻译候选e的可能性是否小于现在的最大可能性Lmax(步骤S808)。

如果范例翻译候选e的可能性小于最大可能性Lmax(步骤S808处的“是”)，则完成范例翻译候选的评估过程以摒除被评估的范例翻译候选e。如果范例翻译候选e的可能性不小于最大可能性Lmax(步骤S808处的“否”)，则候选选择单元105b判断范例翻译候选e的罚分P是否大于现在的最小罚分Pmin(步骤S809)。

如果罚分P大于最小罚分Pmin(步骤S809处的“是”)，则完成范例翻译候选的评估过程以摒除被评估的范例翻译候选e。如果罚分P不大于最小罚分Pmin(步骤S809处的“否”)，则候选选择单元105b将被评估的范例翻译候选e设置为具有最大可能性的范例候选eb。同时，候选选择单元105b将罚分P设置为最小罚分Pmin，并将范例翻译候选e的可能性设置成最大可能性Lmax(步骤S810)。

如上所述，更改单元105a能够消除包括不能被第二翻译系统采用的翻译单词候选的范例翻译候选。候选选择单元105b还可以采用包括具有更高可靠度的翻译范例的范例翻译候选。

接下来，将解释如上配置的根据本实施例的机器翻译装置100执行的机器翻译过程的具体范例。

在下文中，假设接收英语语句“I feed my son.”作为输入语句S(步骤S701)。此时，假设获得图3所示的包括三个范例翻译候选301、302和303的范例翻译候选集合Ec作为范例翻译单元102的输出(步骤S702)。此外，假设获得图6所示的翻译单词候选集合Mt作为翻译单词候选产生单元103的输出(步骤S704)。

在图3所示的三个范例翻译候选中，对于人的直觉而言语法上正确的表达是范例翻译候选303。在相关领域的翻译技术中，因为从范例翻译候选中选择具有最大可能性的候选者，所以会发生一个问题，即，还有可能输出翻译别扭的范例翻译候选301。

在以上假设下，为了选择具有最大可能性的范例翻译候选，通过分别将具有最大可能性的范例候选eb初始化为空，将最小罚分Pmin初始化为无穷大，将最大可能性Lmax初始化为0来继续该过程(步骤S706)。

目前，三个未处理的范例翻译候选存在于范例翻译候选集合Sc中。因此，针对第一个范例翻译候选301调用范例翻译候选的评估过程(步骤S708)。

对于范例翻译候选的评估过程，作为初始化过程，将罚分P初始化为0(步骤S801)。然后，获得输入语句S中的第一个单词“I”并分配给单词mk(步骤S802)。因为第一个输出单词“I”具有单词对齐信息(步骤S803处的“是”)，因此获得对应于输入单词“I”的范例翻译语句中的单词并存储在单词fk中(步骤S804)。这是通过参考范例存储单元120保存的单词对齐信息和翻译对齐信息而实现的。在这种情况下，将图2所示的日语单词210分配给单词fk。

在针对输入单词“I”的翻译单词候选集合Mt中存在如图6所示的日语单词606，该单词对应于单词fk(图2中的单词210)(步骤S805处的“是”)。虽然将单词606的罚分加到范例翻译候选301的罚分P(步骤S806)，但因为单词606的罚分为0，所以罚分P变成0。

之后，对下一个输入单词重复该过程(步骤S807处的“否”)。换言之，获得输入语句S中的第二个单词“feed”并分配给单词mk(步骤S802)。因为第二个输出单词“feed”具有单词对齐信息(步骤S803处的“是”)，所以获得对应于输入单词“feed”的范例翻译语句中的单词并存储在单词fk中(步骤S804)。这是通过参考范例存储单元120保存的单词对齐信息和翻译对齐信息而实现的。在这种情况下，将图2所示的日语词组211分配给单词fk。

在相对于输入单词“feed”的翻译单词候选集合Mt中存在如图6所示的日语单词603，并且该单词与单词fk一致(图2中的词组211)(步骤S805处的“是”)。虽然将单词603的罚分加到范例翻译候选301的罚分P(步骤S806)，但因为单词603的罚分为2，所以罚分P变成2。

因此，在完成对输入语句S中所有输入单词的评估之后，在该范例中，罚分P变成2。

因为范例翻译候选301的可能性0.75大于现在的最大可能性Lmax(＝0)(步骤S808处的“是”)，因此比较罚分P和现在的最小罚分Pmin(步骤S809)。因为罚分P(＝2)小于最小罚分Pmin(＝无穷大)(步骤S809处的“否”)，因此将范例翻译候选301设定为具有最大可能性的范例候选eb。此外，将现在为2的罚分P设置为最小罚分Pmin，并将范例翻译候选301的可能性0.75设置为最大可能性Lmax(步骤S810)。据此完成了范例翻译候选301的评估过程。

现在，在范例翻译候选集合Ec中，图3所示的范例翻译候选302和303仍然保持为未评估的范例翻译候选(步骤S709处的“否”)。因此，获得下一个范例翻译候选302(步骤S707)以进一步执行范例翻译候选的评估过程(步骤S708)。

对于范例翻译候选302，当通过范例翻译候选评估过程处理过所有输入单词时(步骤S807处的“是”)，将罚分P计算为2。

因为范例翻译候选302的可能性0.4小于现在的最大可能性Lmax(＝0.75)(步骤S808处的“否”)，所以不把范例翻译候选302选择为具有最大可能性的范例候选eb，并完成范例翻译候选的评估过程。

现在，在范例翻译候选集合Sc中，图3所示的范例翻译候选303仍然保持为未评估的范例翻译候选(步骤S709处的“否”)。因此，获得范例翻译候选303(步骤S707)以进一步执行范例翻译候选的评估过程(步骤S708)。

对于范例翻译候选303，当通过范例翻译候选评估过程处理过所有输入单词时(步骤S807处的“是”)，将罚分P计算为0。

因为范例翻译候选303的可能性0.75等于现在的最大可能性Lmax(＝0.75)(步骤S808处的“是”)，因此比较罚分P和现在的最小罚分Pmin(步骤S809)。因为罚分P(＝0)小于最小罚分Pmin(＝2)(步骤S809处的“否”)，因此将范例翻译候选303设定为具有最大可能性的范例候选eb。将现在为0的罚分P设置为最小罚分Pmin，并将范例翻译候选303的可能性0.75设置为最大可能性Lmax(步骤S810)。据此完成了范例翻译候选303的范例翻译候选的评估过程。

现在，因为未估算的范例翻译候选不存在于范例翻译候选集合Sc中(步骤S709处的“是”)，因此将图3所示的作为具有最大可能性的范例候选eb的范例翻译候选303作为翻译结果输出(步骤S710)。

如上所述，通过向基于范例的翻译系统给予由基于规则的翻译系统(第二翻译系统)获得的翻译单词候选的知识，即使由基于范例的翻译系统产生了不合适的翻译语句，也可以摒除掉不合适的翻译语句。结果，易于选择更加合适的翻译语句，由此提高范例译文的精确度。

接下来，将参考图9和10解释根据本实施例的机器翻译装置100执行的机器翻译过程的备选具体范例。

在下文中假设接收意思为“我正在做汤。”的日语语句作为输入语句S(步骤S701)。此时，假设获得图9所示的包括三个范例翻译候选1001、1002和1003的范例翻译候选集合Ec作为范例翻译单元102的输出(步骤S702)。此外，假设获得图10所示的翻译单词候选集合Mt作为翻译单词候选产生单元103的输出(步骤S704)。

图9所示的三个范例翻译候选具有由范例翻译单元102输出的相同相似度(0.96)。因此，相关领域的范例翻译系统不能恰当地缩小方案的范围。然而，在输出的范例翻译候选中，对人的直觉而言语法上正确的表达仅有范例翻译候选1003，即“我正在做汤。”

对于范例翻译候选1001而言，将日语单词1004翻译成英语单词“bake(ing)”。该英语单词不存在于图10所示的翻译单词候选集合1101中。因此，范例翻译候选1001不能是具有最大可能性的范例候选eb。

对于范例翻译候选1002而言，将日语单词1004翻译成英语单词“cook(ing)”。该英语单词被列示于图10所示的翻译单词候选集合1101中，罚分为1。

对于范例翻译候选1003而言，将日语单词1004翻译成英语单词“make(ing)”。该英语单词被列示于图10所示的翻译单词候选集合1101中，罚分为0。

因此，罚分较小的范例翻译候选1003优先于罚分较大的范例翻译候选1002。换言之，将范例翻译候选1003选择为用于输入语句S的具有最大可能性的范例候选eb，并输出英语语句“I am making soup.”作为翻译结果。这在语法上是正确的且符合人的直觉。

通过这种方式，根据本实施例的机器翻译装置100能够在基于范例的翻译系统获得的翻译候选中摒除掉包括不是由第二翻译系统引导的翻译单词的翻译结果。因此，即使产生了不合要求的别扭的翻译结果，也可以适当地消除翻译结果，由此防止把错误的含义给予用户。此外，可以根据第二翻译系统获得的翻译单词候选的可靠程度缩小范例翻译结果的范围。结果，可以输出更高质量的范例翻译结果。

接下来将参考图11解释根据本实施例的机器翻译装置100的硬件配置。

根据本实施例的机器翻译装置100包括诸如中央处理单元(CPU)51之类的控制装置、诸如只读存储器(ROM)52和随机存取存储器(RAM)53之类的存储装置、通过与网络的连接进行通信的通信接口(I/F)54以及连接每个单元的总线61。

通过预先在ROM 52等中安装根据本实施例的机器翻译装置100执行的机器翻译程序来提供该机器翻译程序。

可以通过在计算机可读记录介质中以可安装形式或可执行形式记录成文件来提供根据本实施例的机器翻译装置100执行的机器翻译程序，所述计算机可读记录介质例如为光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)和数字多用盘(DVD)。

可以如此形成根据本实施例的机器翻译装置100执行的机器翻译程序，使其存储在连接到诸如因特网之类的网络的计算机中并通过经网络下载而提供。可以如此形成根据本实施例的机器翻译装置100执行的机器翻译程序，从而经由诸如因特网之类的网络来提供或分布。

由根据本实施例的机器翻译装置100执行的机器翻译程序具有包括每个上述单元(接收单元、范例翻译单元、翻译单词候选产生单元、翻译单词候选添加单元、候选评估单元和输出控制单元)的模块化构成。作为一种实际硬件配置，在CPU 51从ROM 52读出并执行机器翻译程序时将每个单元加载到主存储装置上，由此在主存储装置上生成每个单元。

Claims

1、一种机器翻译装置，其包括：

范例存储单元，对其进行相应配置以存储源语言范例和从所述源语言范例翻译出来的目标语言范例；

接收单元，其接收所述源语言的输入语句；

范例翻译单元，其执行范例翻译过程，即基于在所述范例存储单元中存储的对应于与所述输入语句一致或几乎一致的所述源语言范例的所述目标语言范例，获得从所述输入语句翻译成所述目标语言的多个范例翻译候选，每个所述范例翻译候选与表示所述每个范例翻译候选的确定度的第一可能性相关；

产生单元，其通过不同于所述范例翻译过程的另一翻译过程将所述输入语句翻译成所述目标语言，并产生翻译单词候选，所述翻译单词候选示出具有大于或等于预定第一阈值的第二可能性的用于所述另一翻译过程的结果的候选，所述第二可能性表示用于所述另一翻译过程的结果的所述候选的确定度；

更改单元，其判断与所述范例翻译候选中包括的每个单词相对应的翻译单词是否存在于所述翻译单词候选中，并且当所述翻译单词不存在于所述翻译单词候选中时，通过减去预定值来更改所述第一可能性；以及

选择单元，其从所述范例翻译候选中选择第一可能性最大的所述范例翻译候选。

2、根据权利要求1所述的装置，其中，相比包括具有较小第二可能性的所述翻译单词候选中所含的翻译单词的所述范例翻译候选，所述选择单元优先选择包括具有较大第二可能性的所述翻译单词候选中所含的翻译单词的所述范例翻译候选。

3、根据权利要求1所述的装置，其中，所述更改单元还将包括具有所述较小第二可能性的所述翻译单词候选中所含的所述翻译单词的所述范例翻译候选的第一可能性降低，使之低于包括具有所述较大第二可能性的所述翻译单词候选中所含的所述翻译单词的所述范例翻译候选的第一可能性。

4、根据权利要求1所述的装置，还包括：

添加单元，其在用于所述翻译结果的所述候选中，将可能性大于或等于第二阈值且小于所述第一阈值的用于翻译结果的候选添加到针对所述输入语句中包括的每个单词的所述翻译单词候选中，其中所述第二阈值小于所述第一阈值。

5、根据权利要求4所述的装置，其中，相比包括由所述添加单元添加的所述翻译单词候选中所含的所述翻译单词的所述范例翻译候选，所述选择单元优先选择包括由所述产生单元产生的所述翻译单词候选中所含的所述翻译单词的所述范例翻译候选。

6、根据权利要求4所述的装置，其中，所述更改单元还将包括由所述添加单元添加的所述翻译单词候选中所含的所述翻译单词的所述范例翻译候选的第一可能性降低，使之低于包括由所述产生单元产生的所述翻译单词候选中所含的所述翻译单词的所述范例翻译候选的第一可能性。

7、根据权利要求1所述的装置，其中，所述产生单元基于预定的翻译规则将所述输入语句翻译成所述目标语言，并针对所述输入语句中的每个单词在用于所述翻译结果的所述候选中产生所述翻译单词候选，所述翻译单词候选的第二可能性，即与所述翻译规则的兼容度，大于或等于所述第一阈值。

8、根据权利要求1所述的装置，其中

所述范例存储单元对应地存储所述源语言范例、所述目标语言范例以及翻译对应信息，所述翻译对应信息示出了所述源语言范例中包括的源语句单词和所述目标语言范例中包括的翻译单词之间的对应关系；

所述范例翻译单元还产生范例对应信息，所述范例对应信息示出了所述输入语句中的单词和与所述输入语句一致或几乎一致的所述源语言范例中包括的所述源语句单词之间的对应关系；以及

所述更改单元从所述范例对应信息中获得与所述输入语句中的单词相对应的所述源语句单词，针对每个范例翻译候选，从与所述范例翻译候选相对应的所述翻译对应信息中获得与所获得的源语句单词相对应的翻译单词，并且仅将所述第一可能性降低当所获得的翻译单词不包括在所述翻译单词候选时的值。

9、一种机器翻译方法，其包括：

接收源语言输入语句；

执行范例翻译过程，即基于在范例存储单元中存储的对应于与所述输入语句一致或几乎一致的源语言范例的目标语言范例，获得从所述输入语句翻译成所述目标语言的多个范例翻译候选，每个所述范例翻译候选与表示所述每个范例翻译候选的确定度的第一可能性相关，所述范例存储单元存储所述源语言范例和从所述源语言范例翻译成的所述目标语言范例；通过不同于所述范例翻译过程的另一翻译过程将所述输入语句翻译成所述目标语言；

产生翻译单词候选，所述翻译单词候选示出具有大于或等于预定第一阈值的第二可能性的用于所述另一翻译过程的结果的候选，所述第二可能性表示用于所述另一翻译过程的结果的所述候选的确定度；

判断与所述范例翻译候选中包括的每个单词相对应的翻译单词是否存在于所述翻译单词候选中；

当所述翻译单词不存在于所述翻译单词候选中时，通过减去预定值来更改所述第一可能性；以及

从所述范例翻译候选中选择第一可能性最大的所述范例翻译候选。