CN101158947A

CN101158947A - 机器翻译的方法和装置

Info

Publication number: CN101158947A
Application number: CNA2007101547576A
Authority: CN
Inventors: 知野哲朗; 釜谷聪史; 降幡建太郎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-22
Filing date: 2007-09-13
Publication date: 2008-04-09
Also published as: JP2008076865A; JP4393494B2; US20080077391A1; US7937262B2

Abstract

本发明提供了一种机器翻译的方法和装置。第一识别单元将第一语言语音识别为第一语言字符串，并且输出第一识别结果。第二识别单元从存储在实例存储单元中的第一语言实例中，识别出所述第一语言语音作为最可能的第一语言实例，并且输出第二识别结果。当所述第一识别结果和所述第二识别结果之间的相似度超出预定阈值时，获取单元从所述实例存储单元中获取对应于所述第二识别结果的第二语言实例。

Description

机器翻译的方法和装置

技术领域

本发明涉及一种用于将第一语言语音机器翻译成第二语言语音的方法和装置。

背景技术

使用语音输入的人机界面技术近年来投入实际使用。作为基于语音的人机界面技术的例子，语音激活的操作系统通过用户的语音来运行。一接收到指示用户预先设置的预定命令的语音输入，语音激活的操作系统就识别该语音输入并执行所述命令。另一个基于语音的人机界面技术的例子是一种系统，其分析用户的语音，并且将所述语音转换成字符串以生成文档。

此外，语音翻译系统将第一语言的语音翻译成第二语言的语音，并且输出所述第二语言的语音，从而支持使用不同语言的人们之间的交流。进一步地，语音交互系统使得用户能够用口语和系统进行交互。

在上述系统中，语音识别技术是以这样的方式使用的：包括在用户语音中的语音信号被转换成数字信号，所述数字信号和预定模式相比较，使得语音的内容被识别成源文本。在所述语音识别技术中，为了提高识别的精确性，使用例如N元(N-gram)语言模型的统计语言模型来从多个根据与预定模式的比较所识别出的候选中选择最可能的候选。在这种情况下，通过参考预先存储的语音内容的实例来选出最可能的候选。

进一步地，在上述系统中使用机器翻译技术，利用机器翻译技术，把其内容是通过使用语音识别技术获得的第一语言语音的源文本，机器翻译成作为目标语言的第二语言的目标文本。当前，使用例如基于规则的翻译、基于实例的翻译、以及统计翻译来作为机器翻译的方法。在基于规则的翻译方法中，基于双方语言中词法结构之间的对应关系或者句法结构之间的对应关系规则将第一语言文本翻译成为第二语言文本。在基于实例的翻译方法中，尽可能多地收集双语实例对，即，第一语言和第二语言中的语法上相当的实例，以使目标第二语言翻译能够通过参考所述双语实例对而获得。在统计翻译方法中，通过参考基于大量的实例数据的统计信息来获得第一语言输入的翻译，即，第二语言输出。

然而，在语音识别技术中，识别结果可能被周围的环境例如噪音所影响，或者识别结果根据用户声音的条件，例如语调、音量、以及语速而变化。另外，为了支持每种类型的语音句子，导致了处理负担，例如用于与预定模式比较的负担，的增长。因此，获得足够的识别精确性变得困难。

进一步地，在基于实例的翻译中，预先收集与所有的句子相关的实例事实上是不可能的，因为存在着无穷种短语的变化。因此，几乎不可能通过基于实例的翻译方法来获取第二语言的实例。另外，在基于规则的翻译方法中虽然能够应用普通规则来翻译任何句子，但是获得自然的翻译依然很困难。

为了解决上述问题并获得高度精确的翻译结果，美国专利No.6356865公开了一种混合翻译方法，其是多种机器翻译方法的组合，例如基于实例的机器翻译方法和基于规则的机器翻译方法的组合。

然而，在混合翻译方法中，不可能为混合翻译方法中用到的每个翻译方法提供适当的输入。例如，在上述混合翻译方法中，只有通过使用例如隐马可夫模型(hidden Markov model，HMM)的典型的语音识别方法所获得的识别结果，才能提供为翻译处理的输入。

因此，即使在如果使用不同的语言识别方法，语音识别的精确性能够增加的情况下，机器翻译的结果也不够精确，因为机器翻译过程是基于通过预定的语音识别方法所获得的、低精确性的识别结果来执行的。

发明内容

根据本发明的一个方面，一种用于将第一语言机器翻译成第二语言的装置，包括：实例存储单元，在其中相关联地存储第一语言实例和第二语言实例，其中所述第二语言实例是所述第一语言实例的翻译；接收单元，其接收第一语言语音；第一识别单元，其将所述第一语言语音识别为第一语言字符串，并且输出第一识别结果；第二识别单元，其从存储在所述实例存储单元中的第一语言实例中，将所述第一语言语音识别为最可能的第一语言实例，并且输出第二识别结果；计算单元，其计算所述第一识别结果和所述第二识别结果之间的相似度；以及获取单元，当计算出的相似度超出预定阈值时，所述获取单元从所述实例存储单元中获取对应于所述第二识别结果的第二语言实例。

根据本发明的另一方面，一种用于将第一语言机器翻译成第二语言的装置，包括：实例存储单元，在其中相关联地存储第一语言实例和第二语言实例，其中所述第二语言实例是所述第一语言实例的翻译；接收单元，其接收第一语言语音；第一识别单元，其将所述第一语言语音识别为第一语言字符串，并且输出第一识别结果；第二识别单元，其从存储在所述实例存储单元中的第一语言实例中，将所述第一语言语音识别为最可能的第一语言实例，计算指示所述最可能的第一语言实例的确定性的第一似然性，并且输出包括计算出的第一似然性的第二识别结果；以及获取单元，当计算出的第一似然性超出第一阈值时，所述获取单元从所述实例存储单元中获取对应于所述第二识别结果的第二语言实例。

根据本发明的又一方面，一种将第一语言机器翻译成第二语言的方法，包括：通过将输入的第一语言语音识别为第一语言字符串来输出第一识别结果；通过从存储在实例存储单元中的第一语言实例中，将所述输入的第一语言语音识别为最可能的第一语音实例来输出第二识别结果，其中所述实例存储单元在其中相关联地存储了第一语言实例和第二语言实例，所述第二语言实例是所述第一语言实例的翻译；计算所述第一识别结果和所述第二识别结果之间的相似度；以及当计算出的相似度超出预定阈值时，从所述实例存储单元中获取对应于所述第二识别结果的第二语言实例。

附图说明

图1是根据本发明第一实施例的机器翻译装置的方框图；

图2是音素字典的例子；

图3是单词字典的例子；

图4是存储在图1示出的语言模型存储单元中的语言模型的例子；

图5是用于解释存储在图1示出的实例存储单元中的双语实例对的例子；

图6是输入语音的例子；

图7是通过普通语音识别方法获得的识别结果的例子；

图8是通过基于实例的语音识别方法获得的识别结果的例子；

图9是解释校准信息的例子；

图10是通过基于实例的翻译方法所获得的翻译结果的例子；

图11是根据所述第一实施例的机器翻译装置所执行的机器翻译过程的流程图；

图12是根据本发明的第二实施例的机器翻译装置的方框图；

图13是通过基于规则的翻译方法所获得的翻译结果的例子；

图14是根据所述第二实施例的机器翻译装置所执行的机器翻译过程的流程图；

图15是根据本发明的第三实施例的机器翻译装置的方框图；

图16是根据所述第三实施例的机器翻译装置所执行的机器翻译过程的流程图；以及

图17是用于解释根据所述第一到第三实施例的机器翻译装置的硬件配置的方框图。

具体实施方式

以下参考附图详细介绍本发明的示例性实施例。

根据本发明的第一实施例的机器翻译装置能够通过参考普通识别方法和基于实例的识别方法所获得的识别结果，来实现翻译结果的更高的精确性，其中所述普通识别方法能够识别任何语音内容，所述基于实例的识别方法能够识别对应于预先存储的实例的语音内容。

在实施例中介绍了从日语到英语的翻译。然而，本发明并不局限于将日语和英语作为源语言和翻译目标语言，其能够应用到其它任何语言中。

图1是根据第一实施例的机器翻译装置100的方框图。机器翻译装置100包括通信单元111、语音输入单元112、扬声器113、声学模型存储单元121、语言模型存储单元122、实例存储单元123、输入接收单元101、第一识别单元102、第二识别单元103、对应关系提取单元104、相似度计算单元105、基于实例的翻译单元106以及输出控制单元107。

通信单元111接收从外部设备(未示出)发出的语音数据，并将所述语音数据输出到输入接收单元101。语音输入单元112将输入语音转换成电信号(语音数据)，并将语音数据输出到输入接收单元101。

另外，机器翻译装置100至少包括通信单元111和语音输入单元112中的任一个来接收语音数据。

扬声器113将合成语音作为识别结果或者翻译结果输出。在本实施例中，合成语音作为翻译结果输出。然而，翻译结果的输出方法并不局限于语音输出，可以使用任何种类的常规使用的输出方法。例如，文本格式的翻译结果可以在显示单元中显示(未示出)。

声学模型存储单元121在其中存储了声学模型，在所述声学模型中，语音特征的预定参考模式与单词相对应，作为语音识别的单元。

具体而言，声学模型存储单元121包括音素字典121a和单词字典121b。音素字典121a在其中存储了关于预先存储在其中的每个音素的特征的参考模式。单词字典121b在其中存储了用于验证输入语音的单词数据。

音素字典121a和在使用隐马可夫模型(HMM)的常规语音识别方法中使用的字典是相同的。在音素字典121a中，和由第一识别单元102计算得到的特征具有相同形式的可验证的特征时间序列数据作为参考模式和音素标签一起以关联的方式存储在其中。

图2是音素字典121a的例子。如图2所示，在音素字典121a中，特征时间序列数据由包括节点和有向链接的有限状态自动机来表示。

每个节点都表示用于验证的状态。例如，对应于音素“i”的节点分别表示音素“i”的各个不同状态“i1”、“i2”和“i3”。有向链接分别对应于作为音素的子元素的特征(未示出)。

单词字典121b和在常规的基于HMM的语音识别方法中使用的字典是相同的。字典121b初步在其中存储分别对应于每个单个单词的音素序列，并且用来获得与通过基于音素字典121a的验证所获得的音素序列相对应的单词。

图3是单词字典121b的例子。如图3所示，单词字典121b在其中以关联的方式存储单词，构成单词的音素序列，以及通过使用大量语音数据和文本集预先计算出的单词的出现率。

当第一识别单元102和第二识别单元103识别对应于语音的单词时，参考存储在声学模型存储单元121中的声学模型。另外，声学模型并不局限于上述那些，而是能够在语音识别过程中使用任何种类的常规使用的模型，例如HMM，动态编程(DP)模型，以及神经网络(NN)模型。

语言模型存储单元122在其中存储语言模型，在所述语音模型中预先确定单词之间的连接关系。语言模型和例如在语音识别过程中使用的HMM相同，其用于从作为中间数据获得的单词序列中选择最可能的单词序列。

图4是存储在语言模型存储单元122中的语言模型的例子。在图4示出的例子中，使用用于二单词联合的二元(bi-gram)语言模型。

具体而言，在图4中示出的语言模型中，两个单词(第一单词和第二单词)和出现率相关联。出现率通过分析大量的文本集而预先获得。另外，语言模型并不局限于二元(bi-gram)语言模型。可替换地，用于三单词联合的三元(tri-gram)模型也能够用作语言模型。

实例存储单元123在其中以关联的方式存储包括源语言和目标语言的语义等价实例的双语实例对。图5是用于解释存储在实例存储单元123中的双语实例对的实例。

如图5所示，实例存储单元123在其中存储了双语实例对的实例，其以关联的方式分别包括用于唯一标识每个实例的地址、日语实例、英语实例以及实例类型，即日语和英语实例的类型。例如，作为实例类型，指示关于句子类型或者单词意思的信息。例如，作为句子类型，指示实例是句子还是带有包括变量部分(即可替换单词)的变量的句子。例如，作为单词意思，指示城市名或者房间类型。另外，实例类型可以根据语音的部分、含义、或者语义元素来分类以高精确性地选择实例。

如图5所示，在地址＝Y1的条目中，日语实例201和英语实例202：“Is there somewhere I can leave my baggage？”是语义等价的双语实例对，日语实例201和英语实例202的实例类型是“句子”。

同样地，在地址＝Y2的条目中，日语实例203和英语实例204：“I’d like to reserve a business air ticket to<X2/London>”是语义等价的双语实例对，日语实例203和英语实例204的实例类型是“带变量的句子”。

变量部分表示能被其它单词替换的单词，包括在日语实例和英语实例中的变量部分括在角括号“<”和“>”中。包括在变量部分的斜线“/”前面的部分表示唯一标识变量的标识符。斜线“/”后面的部分表示变量的具体例子，其是实例的实际部分。

即，如果所有的角括号“<”和“>”，斜线“/”，以及标识符“X2”都从日语实例203和英语实例204中移除，即可指示日语实例203和英语实例204的实际例子。

进一步地，包括在日语实例203和英语实例204中的变量部分具有相同的标识符，因而变量部分彼此关联。因此，变量部分可以分别被语义等价的日语和英语的短语所替换。

在地址＝Y4的条目中，双语实例对的日语实例和英语实例的每一个中包括了多个变量部分。

在地址＝H1的条目中，日语实例205和英语实例206(London)是语义等价的双语实例对，日语实例205和英语实例206的实例类型是城市名。同样地，在地址＝H2的条目中，日语实例207和英语实例208：“Los Angels”是语义等价的双语实例对，日语实例207和英语实例208的实例类型是城市名

声学模型存储单元121，语言模型存储单元122，以及实例存储单元123可以由通常使用的记录介质如硬盘驱动器(HDD)、光盘、存储卡或者随机访问存储器(RMM)来配置。

输入接收单元101通过麦克风(未示出)等接收用户的日语语音的输入信号，并且将该输入信号转换成电信号，然后基于最小时间单位来对电信号采样，并通过使用模数(A/D)转换器(未示出)等转换成数字数据。随后，输入接收单元101输出转换成数字数据的语音波形数据，如波形振幅的时间序列数据。上述过程可以采用常规语音数字化方法来执行。如果输入接收单元101从通信单元111中接收到已经转换成数字数据的语音波形数据，则输入接收单元101不需要执行上述转换过程。

图6是三个输入语音I1、I2和I3的例子。另外，为了方便描述，通过中文字符和日语音素字符的混合来指示对应于每个输入语音的附加说明的日语。

一接收到来自输入接收单元101的语音波形数据输出，第一识别单元102就执行语音听写过程。即，第一识别单元102将日语语音转换成日语文本，然后输出包括日语文本的识别结果以及表示该识别结果的确定性的普通识别分值的第一识别结果(在下文中，称为“普通识别结果”)。

具体而言，第一识别单元102通过分析频率的时间变化，例如通过应用快速傅立叶变换(FFT)分析来计算语音信号的特征。

然后，第一识别单元102通过应用(例如基于HM、DP或者NN的)语音识别方法来比较存储在声学模型存储单元121中的声学模型以验证计算出的特征，并且生成语音内容的识别候选。

第一识别单元102通过使用语言模型从生成的识别候选中估计并且选择最可能的候选，这样语音识别过程的识别结果能够达到高度精确。已经投入实际应用的语音听写技术能够应用到由第一识别单元102使用声学模型和语言模型所执行的语音识别过程中。

图7是普通识别结果的例子。日语文本S1、S2和S3分别是通过普通语音识别过程获得的输入语音I1、I2和I3的识别结果。

通过日语文本Sn和普通识别分值Qn来指示每个普通识别结果。另外，“n”被用作识别号。例如，表示“Could you add a chair？”的日语文本S3用于指示输入语音I3的识别结果，“Q3＝80”用于指示普通识别分值。另外，如图7所示，日语文本S1和S2是错误识别结果的例子，而日语文本S3是正确识别结果的例子。

一从输入接收单元101接收到语音波形数据输出，第二识别单元103就通过参考存储在实例存储单元103中作为识别候选的日语实例来识别语音波形数据，并且输出包括实例存储单元123中的地址、日语实例以及表示每个识别候选的识别结果的确定性的、基于实例的识别分值的第二识别结果(在下文中，称为“基于实例的识别结果”)。

在以由第一识别单元102执行的常规的语音识别过程相同的方式搜索包括在语音识别过程中的识别候选的过程中，即使在翻译期间，一旦第二识别单元103发现候选不包括在实例存储单元123中存储的日语实例中，则第二识别单元103就拒绝所述候选。

另外，也能够预先准备自动机以使第二识别单元103能够接收存储在实例存储单元123中的所有日语实例。因而，第二识别单元103能够有效地执行所述过程。或者，预先准备对存储在实例存储单元123中的所有日语实例都可用的语言模型，以使第二识别单元103能够在识别过程中使用所述语言模型。在这种情况下，识别过程由第一识别单元102和第二识别单元103共同执行，语音模型根据第一识别单元102或者第二识别单元103而改变。

如上所述，第二识别单元103具体地识别了存储在实例存储单元123中的日语实例。因此，如果语音输入和任何一个存储在实例存储单元123中的日语实例相同或者相似，和由第一识别单元102执行的普通语音识别过程相比，第二识别单元103能够精确地识别所述语音输入。

此外，如果语音输入和任何存储在实例存储单元123中的日语实例都不相似，则第二识别单元103能以比第一识别单元102高的比率拒绝所述语音输入。

图8是基于实例的识别结果R1、R2和R3的例子。基于实例的识别结果R1、R2和R3分别是通过基于实例的语音识别过程获得的输入语音I1、I2和I3的识别结果。

通过实例存储单元123中的地址Yn、对应于地址Yn的日语实例以及基于实例的识别分值Pn来指示每个基于实例的识别结果。例如，在第一个实例中，地址“Y1”和表示“Is there somewhere I can leavemy baggage？”的日语实例用于指示语音输入I1的基于实例的识别结果R1，进一步地，“P1＝85”用于指示基于实例的识别分值。在第二个实例中，地址Y2中的日语实例是带有变量的句子，其用于指示基于实例的识别结果R2。

对应关系提取单元104提取包括在基于实例的识别结果中的日语实例和包括在普通识别结果中的日语文本之间的对应关系。对应关系提取单元104能够通过应用常规使用的基于DP的提取方法来执行对应关系提取过程，以在两个字符串之间关联彼此匹配或者不匹配的部分。

或者，对应关系提取单元104能够关联包括在输入语音的第一部分中的单词，以使对应关系提取单元104能够通过使用输入语音的时间序列数据精确地提取单词之间的对应关系。

相似度计算单元105计算基于实例的识别结果和普通识别结果之间的相似度，其中这两个识别结果由对应关系提取单元104关联。此外，相似度计算单元105也以关联的方式输出包括了对应关系和相似度的校准信息。相似度计算单元105能够使用任何常规使用的方法来计算相似度。例如，相似度计算单元105能够基于两个字符串之间的编辑距离(edit distance)来获得相似度。

图9是用于介绍校准信息的例子。校准信息A2是基于对应于语音输入I2的普通识别结果S2和基于实例的识别结果R2所获得的。校准信息A3是基于对应于语音输入I3的普通识别结果S3和基于实例的识别结果R3所获得的。

每条校准信息由校准结果An和相似度Mn成对指示。校准结果An中不匹配的部分被圆括号“(”和“)”括起，并且进一步被垂直线“|”分开。基于实例的识别结果在垂直线“|”的左侧指示，普通识别结果在垂直线“|”的右侧指示。对应结果An的其余部分照原样指示。

例如，对应结果A3包括四个不匹配的部分，其中基于实例的识别结果和普通识别结果分别在垂直线“|”的左侧和右侧指示。没有包括在圆括号“(”和“)”中的校准结果A3的剩余部分表示基于实例的识别结果和普通识别结果的匹配部分。

基于实例的翻译单元106(获取单元106)通过获取存储在实例存储单元123中的实例来执行将日语字符串翻译成英语字符串的基于实例的翻译过程。然后，基于实例的翻译单元106输出包括基于实例的翻译结果和基于实例的翻译结果的确定性的基于实例的识别结果。

具体而言，基于实例的翻译单元106确定接收到的日语字符串和存储在实例存储单元123中的日语实例的每个条目之间的相似度，并且通过使用和日语实例中的一个条目相对应的英语实例来获取日语字符串的具有最高相似度的翻译结果。在基于实例的翻译过程中，如果必要的话，基于实例的翻译单元106参考日语单词和英语单词之间的对应关系。

由基于实例的翻译单元106执行的基于实例的翻译过程并不局限于上述方法。只要基于预先准备的实例来获得翻译结果，任何种类的翻译方法都是可用的。

图10分别是语音输入I1、I2和I3的基于实例的翻译结果U1、U2和U3的例子。

在基于实例的翻译结果U1的实例中，将存储在实例存储单元123中的地址Y1的英语实例作为翻译结果输出而不进行任何改变。在基于实例的翻译结果U2的实例中，将存储在实例存储单元123中的地址Y2的英语实例的变量部分X2：“London”替换为地址H2的英语实例：“Los Angels”。在基于实例的翻译结果U3的实例中，将存储在实例存储单元123中的地址Y3的英语实例作为翻译结果输出而不进行任何改变。

输出控制单元107将翻译结果的文本信息转换成合成语音，并且将所述合成语音输出到扬声器113。输出控制单元107所执行的语音合成过程中可以应用任何普遍使用的语音合成方法。例如，音素编辑语音合成、共振峰语音合成、基于语音集的语音合成或者文本-语音合成被采纳为语音合成方法。另外，如果作为输出设备的显示单元包含在机器翻译装置中，则输出控制单元107可以在显示单元的显示屏上显示翻译结果。

根据第一实施例的由机器翻译装置100执行的机器翻译过程将参照图11详细描述。

输入接收单元101从通信单元111或者语音输入单元112中接收语音输入(步骤S1101)。输入接收单元101确定是否输入了语音(步骤1102)。如果没有输入语音(步骤S1102中为“否”)，则输入接收单元101重复所述确定过程直到输入了语音为止(步骤S1101)。

如果输入了语音(步骤S1102中为“是”)，则第一识别单元102对输入语音执行普通语音识别过程(步骤S1103)。具体而言，第一识别单元102通过应用FFT分析等来计算所述语音的特征，并且从声学模型存储单元121获取对应于计算出来的特征的候选单词。然后，第一识别单元102通过参照语言模型，从获取的候选单词中选择最可能的候选单词，并且将所选择的候选单词与表示所选择的候选单词的确定性的普通识别分值一起输出作为普通识别结果。

第二识别单元103对输入语音执行基于实例的语音识别过程(步骤S1104)。具体而言，第二识别单元103通过应用FFT分析等来计算语音的特征，并且从声学模型存储单元121中获取对应于计算出来的特征的候选单词。然后，第二识别单元103从存储在实例存储单元123中的包含所获取的候选单词的实例中选择最可能的实例，并且将所选择的实例与指示所选择的实例的确定性的基于实例的识别分值一起输出作为基于实例的识别结果。

对应关系提取单元104提取普通识别结果和基于实例的识别结果之间的对应关系(步骤S1105)。具体而言，对应关系提取单元104通过应用基于DP的方法等提取普通识别结果和基于实例的识别结果之间的匹配或者不匹配的部分。

相似度计算单元105基于普通识别结果和基于实例的识别结果之间的编辑距离计算普通识别结果和基于实例的识别结果之间的相似度(步骤S1106)。

基于实例的翻译单元106确定相似度是否超出了第一阈值(步骤S1107)。如果相似度超出了第一阈值(步骤S1107中为“是”)，则基于实例的翻译单元106从存储在实例存储单元123中的实例中获取基于实例的识别结果的翻译(步骤S1108)。

当普通识别结果和基于实例的识别结果彼此相似时，可以确定基于实例的识别结果具有更高的确定性。因此，优选地使用基于实例的识别结果的翻译而不进行任何改变。

如果相似度低于第一阈值(步骤S1107中为“否”)，则基于实例的翻译单元106进一步确定相似度是否低于第二阈值，该第二阈值是比第一阈值更低的量(步骤S1109)。

如果相似度低于第二阈值(步骤S1109中为“是”)，则系统控制进行到步骤S1101，因为可以确定识别精确性很低。

如果相似度超出了第二阈值(步骤S1109中为“否”)，则基于实例的翻译单元106仅仅将对应于基于实例的识别结果的不匹配部分的翻译替换为对应于普通识别结果的不匹配部分的翻译(步骤S1110)。

例如，当输入和存储在实例存储单元123中的实例除了变量部分以外完全相同的输入语音时，可以通过仅仅将所述变量部分的翻译替换为另外的翻译来获得正确的翻译。因此，基于实例的翻译单元106从存储在实例存储单元123中的英语实例中获取对应于不匹配部分，即变量部分，的英语实例，并且用所获取的英语实例替代不匹配部分的翻译，然后输出整个输入语音的翻译。

例如，具体而言，当输入表示“I’d like to reserve a business airticket to Los Angels.”的日语语音时，图5中示出的地址＝Y2的条目被获取作为最可能的实例，但是这里假定所述实例的相似度低于第一阈值(例如，80)并且超出第二阈值(例如，70)。

在这种情况下，英语实例208“Los Angels”(参见图5)可以被获取作为对应于不匹配部分的英语实例。因此，包含在地址＝Y2的条目中的英语实例204中的变量部分的单词“London”被英语实例208“Los Angels”所替代，然后输出英语实例“I’d like to reserve a businessair ticket to Los Angels.”。

基于实例的翻译单元106在步骤S1108或者步骤S1110中获得翻译后，输出控制单元107合成所述翻译的语音并将合成语音输出到扬声器113(步骤S1111)。然后，终止机器翻译过程。

如上所述，根据第一实施例的机器翻译装置100参考通过普通识别方法和基于实例的识别方法所获得的识别结果，其中所述普通识别方法能够识别任何语音内容，所述基于实例的识别方法只能够识别和那些预先存储的实例相对应的语音内容。然后，如果基于实例的识别结果的确定性足够高，则机器翻译装置100使用由基于实例的识别方法所获得的识别结果。更进一步地，即使基于实例的识别结果的确定性不足够高，机器翻译装置100也能够输出部分被普通识别结果替换的实例。换言之，机器翻译装置100能够通过使用由多种不同的语音识别方法而获得的单独的识别结果来以合适的方式进行翻译，从而提高机器翻译的精确性。

根据第一实施例，机器翻译装置100只使用基于实例的机器翻译方法。根据本发明第二实施例的机器翻译装置1200不但使用基于实例的机器翻译方法，还使用基于规则的机器翻译方法。即，机器翻译装置1200依靠普通识别结果和基于实例的识别结果，选择性地使用基于规则的机器翻译方法或者基于实例的机器翻译方法。

图12是机器翻译装置1200的方框图。如图12所示，机器翻译装置1200包括通信单元111、语音输入单元112、扬声器113、声学模型存储单元121、语言模型存储单元122、实例存储单元123、输入接收单元101、第一识别单元102、第二识别单元103、对应关系提取单元104、相似度计算单元105、基于实例的翻译单元106、输出控制单元107以及基于规则的翻译单元1208。

根据第一和第二实施例的机器翻译装置100和1200的区别在于：机器翻译装置1200还包括基于规则的翻译单元1208。和图1中相同的部分用同样的标号表示，并且省略对这些部分的描述。

基于规则的翻译单元1208基于日语和英语的语法和字典、例如日语词汇和英语词汇之间的对应关系的预先准备的规则以及日语和英语之间的语义对应关系，将任何日语字符串翻译成语义等价的英语字符串。然后，基于规则的翻译单元1208输出包括了基于规则的翻译结果和表示基于规则的翻译结果的确定性的基于规则的翻译分值的基于规则的翻译信息。

任何种类的常规使用的基于规则的翻译方法，例如传递法，都能够应用到由基于规则的翻译单元1208所执行的基于规则的翻译过程中。或者，基于规则的翻译单元1208能够使用统计的翻译方法，该统计的翻译方法通过参考与基于大量的实例数据而预先准备的源语言短语和目标语音短语之间的对应关系有关的统计信息，获得源语言输入的翻译。

图13是通过基于规则的翻译方法所获得的翻译结果的例子。基于规则的翻译单元1208基于规则将分别作为输入语音I1、I2和I3的普通识别结果的日语文本S1、S2和S3翻译成英语，并且获得基于规则的翻译结果V1、V2和V3。

即，V1＝“Is there a floor where you tell the hill held in the hand？”是日语文本S1的基于规则的翻译结果。V2＝“I reserve a business ticketfor Los Angels of a life as a nonpayment.”是日语文本S2的基于规则的翻译结果。V3＝“Could you add a chair？”是日语文本S3的基于规则的翻译结果。

机器翻译装置1200所执行的机器翻译过程以下参照图14详细介绍。

步骤S1401和S1402的语音输入接收过程和图11示出的步骤S1101和S1102的语音输入接收过程相同，因而省略对步骤S1401和S1402的介绍。

如果输入了语音(步骤S1402中为“是”)，则第二识别单元103通过参考存储在实例存储单元103中的实例，对输入语音执行基于实例的语音识别过程(步骤S1403)。步骤S1403的过程和图11中示出的步骤S1104中的过程相同。

基于实例的翻译单元106确定包括在基于实例的识别结果中的基于实例的识别分值是否超出了第一阈值(步骤S1404)。另外，在第二实施例中定义的阈值和根据第一实施例定义的阈值并不相关。

如果基于实例的识别分值超出了第一阈值(步骤S1404中为“是”)，则基于实例的翻译单元106从存储在实例存储单元123中的实例中，获取基于实例的识别结果的翻译(步骤S1405)。在这种情况下，可以确定基于实例的识别结果具有更高的确定性，因而更愿意照原样使用基于实例的识别结果的翻译。

如果基于实例的识别分值低于第一阈值(步骤S1404中为“否”)，则第一识别单元102对输入语音执行普通语音识别过程(步骤S1406)。步骤S1406的过程和图11中示出的步骤S1103中的过程相同。

如上所述，根据第二实施例的机器翻译装置1200首先执行基于实例的识别过程。只有当基于实例的识别过程没有足够的确定性时，机器翻译装置1200才执行普通识别过程。这样可以防止不必要的处理。换言之，能够最小化必要的处理。

基于规则的翻译单元1208确定基于实例的识别分值是否低于第二阈值，该第二阈值是比第一阈值更低的值(步骤S1407)。如果基于实例的识别分值低于第二阈值(步骤S1407中为“是”)，则基于规则的翻译单元1208通过参考普通识别结果，执行基于规则的翻译过程(步骤S1408)。

如果基于实例的识别分值不够高，则输入语音的内容被确定为不与任何存储在实例存储单元123中的实例相对应。因此，使用能够翻译任何句子的基于规则的翻译方法来代替基于实例的翻译方法。

如果确定基于实例的识别分值不低于第二阈值(步骤S1407中为“否”)，则对应关系提取单元104确定包括在普通识别结果中的普通识别分值是否超出第三阈值(步骤S1409)。

如果普通识别分值低于第三阈值(步骤S1409中为“否”)，则确定识别精确性不够高，因而系统控制进行到步骤S1401。

如果普通识别分值超出了第三阈值(步骤S1409中为“是”)，则对应关系提取单元104提取普通识别结果和基于实例的识别结果之间的对应关系(步骤S1410)。步骤S1410中的过程和图11中示出的步骤S1105中的过程相同。然后，相似度计算单元105计算普通识别结果和基于实例的识别结果之间的相似度(步骤S1411)。步骤S1411的过程和图11中示出的步骤S1106的过程相同。

基于实例的翻译单元106确定相似度是否低于第四阈值(步骤S1402)。如果相似度低于第四阈值(步骤S1412中为“是”)，则基于实例的识别结果被确定为不够精确。因此，基于规则的翻译单元1208通过参考普通识别结果来执行基于规则的翻译过程(步骤S1408)。

例如，即使输入语音的内容不和任何存储在实例存储单元123中的实例相对应，但是由于在基于实例的识别过程中每个实例都被验证，所以具有最高的基于实例的识别分值的实例被挑选出。在这种情况下，选择了误识别的实例，这样基于实例的识别结果的精确性降低。另一方面，在普通识别过程中，每个单词都被验证，因而普通识别结果很少与语音内容有很大偏差。

如上所述，根据第二实施例的机器翻译装置1200根据普通识别结果和基于实例的识别结果之间的对应关系是否能够被提取来确定是否输入了没有作为实例存储的语音内容。如果对应关系不能够被提取，则机器翻译装置1200通过参考普通识别结果来执行基于规则的翻译过程。因此，机器翻译装置1200能够根据通过多个不同的语音识别方法所获得的识别结果来选择适当的翻译方法。因而，机器翻译装置1200能够输出具有高精确性的翻译结果。

如果相似度不低于第四阈值(步骤S1412中为“否”)，则基于实例的翻译单元106将对应于基于实例的识别结果的不匹配部分的翻译替换为对应于该不匹配部分的普通识别方法的翻译(步骤S1413)。步骤S1413的过程和图11中示出的步骤S1110中的过程相同。

即，如果在基于实例的识别过程中获得特定程度的识别精确度(步骤S1404中为“否”并且步骤S1407中为“否”)，并且如果在普通识别过程中获得足够的识别精确度(步骤S1409中为“是”)，以及如果确定基于实例的识别结果和普通识别结果彼此对应地相似(步骤S1412中为“否”)，则输入语音被确定为和排除了该实例的变量部分的实例相同。因此，为了获得正确的翻译，用对应于变量部分的普通识别结果部分来替换实例的变量部分就足够了。

在基于实例的翻译单元106或者基于规则的翻译单元1208在步骤S1405、S1408或者S1413中获得或者输出翻译之后，输入控制单元107合成翻译的语音，并且将合成的语音输出到扬声器113(步骤S1414)。然后，机器翻译过程终止。

由机器翻译装置1200执行的机器翻译过程通过使用图6中示出的例子来更具体地描述。假定语音I1、I2和I3被翻译成英语语音，并且输出所述英语语音。此外，假定第一到第四阈值分别设置为80、60、70和75。

首先，假定输入了日语语音I1。另外，语音I1对应于图5示出的地址Y1处的日语实例201，但是日语实例201中的一部分，例如作为主导词的助词之后的词语，在语音I1中被省略。

然后，假定获得图8中示出的R1来作为语音I1的基于实例的识别结果。基于实例的识别结果R1并不严格地对应于语音I1，但是基本等价地表达了语音I1的内容。因此，选择基于实例的识别结果R1作为最可能的实例。这时，R1的基于实例的识别分值是85，其比第一阈值(＝80)更大(步骤S1404中为“是”)，因而使用基于实例的翻译结果(步骤S1405)。在这种情况下，可以从存储在实例存储单元123中的英语实例中获取正确的英语实例202：“Is there somewhere I canleave my baggage？”作为翻译结果。

如上所述，即使输入语音和实例只有微小的区别，也能够通过基于实例的识别方法正确地识别语音。换句话说，即使语音和实例只有微小的区别，也能够获取正确的翻译，从而能够输出高质量的翻译。

在这种情况下，不执行普通识别过程(步骤S1406)和基于规则的翻译过程(步骤S1408)，因为那些过程不是必要的。因此，能够有益地减少处理负担。

如果执行了对语音I1的普通识别过程，则语音I1可能被误识别，因为在语音I1中省略了后置词语等。例如，在图7示出的日语文本S1的情况下，输出误识别的结果，并且日语文本S1的普通识别分值得到相对较低的分值(Q1＝70)。

然而，根据第二实施例的机器翻译装置1200能够使用通过基于实例的语音识别方法所获得的识别结果，其中该基于实例的语音识别方法能够高精确度地识别语音。因此，机器翻译装置1200能够避免输出通过普通语音识别方法所获得的误识别的翻译结果，例如，以图13所示的翻译结果V1：“Is there a floor where you tell the hill held inthe hand？”的方式。

随后，假定输入了日语语音I2(见图6)。另外，语音I2和图5中示出的地址Y2中的日语实例203相对应，但是日语实例203的一些部分，例如变量部分，和语音I2不同。

然后，假定获得图8中示出的R2作为语音I2的基于实例的识别结果。这时，基于实例的识别结果R2的基于实例的识别分值是比第一阈值(＝80)小的75(步骤S1404中为“否”)，因而对语音I2执行普通识别过程(步骤S1406)。

通过执行普通识别过程，假定获得了日语文本S2和普通识别分值Q2＝75(见图7)。在这种情况下，基于实例的识别分值(75)比第二阈值(＝60)大(步骤S1407中为“否”)，并且普通识别分值Q2＝75比第三阈值(＝70)大(步骤S1409中为“是”)，因而执行对应关系提取过程(步骤S1410)。结果是，假定获得了校准信息A2和相似度M2＝78(见图9)。

相似度M2＝78比第四阈值(＝75)大(步骤S1412中为“否”)，因而执行基于实例的翻译过程(步骤S1413)。在这种情况下，通过将地址Y2中的英语实例204的变量部分“<X2/London>”替换为对应于日语实例207的英语实例208“Los Angels”的方式来获得基于实例的翻译结果。然后，基于实例的翻译结果U2：“I’d like to reserve abusiness air ticket to Los Angels.”作为翻译结果输出。

如上所述，通过提取基于实例的识别结果和普通识别结果之间的对应关系，能够精确地检测到实例中要被替换的部分来执行基于实例的翻译过程。更进一步地，即使当普通识别过程中发生误识别时，如果正确地识别了变量部分，也可能通过改变基于实例的识别结果的变量部分来正确地输出翻译结果。

随后，假定输入了日语语音I3。另外，语音I3和图5中示出的地址Y3中的日语实例的发音相似，但是语音I3的意思和地址Y3中的日语实例完全不同。语音I3用日语表示：“Could you add a chair？”，然而在地址Y3中的日语实例用日语表示：“When do you like toleave？”。

然后，假定获得图8中示出的R3作为语音I3的基于实例的识别结果。由于语音I3具有相似的发音，所以假定选择基于实例的识别结果R3作为最可能的实例。这时，基于实例的识别结果R3的基于实例的识别分值是65，其比第一阈值(＝80)小(步骤S1404中为“否”)，因而执行普通识别过程(步骤S1406)。

通过执行普通识别过程，假定获得日语文本S3和普通识别分值Q3＝80(见图7)。在这种情况下，基于实例的识别分值(65)比第二阈值(＝60)大(步骤S1407中为“否”)，并且普通识别分值Q3＝80比第三阈值(＝70)大(步骤S1409中为“是”)，因而执行对应关系提取过程(步骤S1410)。结果是，假定获得校准信息A3和相似度M3＝45(见图9)。

相似度M3＝45比第四阈值(＝75)小(步骤S1412中为“是”)，因而执行基于规则的翻译过程(步骤S1408)。结果是，获得和图13中示出的基于实例的翻译结果V3＝“Could you add a chair？”相同的基于规则的翻译结果。

如上所述，如果不能提取对应关系，则确定基于实例的识别没有正常工作。因此，使用基于规则的翻译方法而不使用基于实例的翻译方法。因而，机器翻译装置1200能够解决如下问题，即，因为常规的机器翻译装置不能够在基于规则的翻译方法和基于实例的翻译方法之间以适当的方式切换，所以执行基于实例的翻译过程，因而输出不正确的翻译结果，例如图10示出的基于实例的翻译结果U3：“Whendo you like to leave？”。

根据第二实施例的机器翻译装置1200能够基于通过普通识别过程和基于实例的识别过程所获得的识别结果，选择基于规则的翻译方法或者基于实例的翻译方法，然后通过基于规则的翻译方法或者基于实例的翻译方法来执行机器翻译。因此，机器翻译装置1200能够具备基于实例的翻译方法和基于规则的翻译方法双方的优点，其中所述基于实例的翻译方法能够高质量地翻译，所述基于规则的翻译方法能够翻译任何句子。更进一步地，通过包括在实例中详述的语音识别功能，机器翻译装置1200不仅能够精确地检测到和任何一个实例相似的语音输入，而且能够精确地检测到要在实例中改变的部分。

图15是根据本发明第三实施例的机器翻译装置1500的方框图。在机器翻译装置1500中，特征计算过程由普通识别过程和基于实例的识别过程共同的特定处理单元执行，因为特征计算过程是共同的过程。

机器翻译装置1500包括通信单元111、语音输入单元112、扬声器113、声学模型存储单元121、语言模型存储单元122、实例存储单元123、输入接收单元101、第一识别单元1502、第二识别单元1503、对应关系提取单元104、相似度计算单元105、基于实例的翻译单元106、输出控制单元107以及特征计算单元1509。

根据第一和第三实施例的机器翻译装置100和1500之间的区别在于机器翻译装置1500还包括特征计算单元1509，还包括第一识别单元1502以及第二识别单元1503，而不包括第一识别单元102和第二识别单元103。和图1中相同的部分用同样的标号来表示，并且省略了对这些部分的介绍。

特征计算单元1509从输入接收单元101中接收语音波形数据输出，并且计算语音的特征。具体而言，特征计算单元1509例如通过应用FFT分析来分析频率的时间变化，来计算语音的语音信号特征。

换言之，特征计算单元1509具有计算语音特征的功能，根据第一实施例该功能由第一识别单元102和第二识别单元103执行。

于是，在第三实施例中，第一识别单元1502和第二识别单元1503具有除上述功能外的其它功能。第一识别单元1502和第二识别单元1503基于由特征计算单元1509计算的特征来分别地执行每个过程，这正是根据第一实施例和在第三实施例之间的区别。

以下参考图16详细介绍由机器翻译装置1500执行的机器翻译过程。

步骤S1601和S1602中的语音输入接收过程与图11所示的步骤S1101和S1102相同，所以省略步骤S1601和S1602的描述。

如果输入了语音(步骤S1602为“是”)，则特征计算单元1509通过应用FFT分析等来计算语音的特征(步骤S1603)。

第一识别单元1502通过参考计算出的特征来对语音执行普通语音识别过程(步骤S1604)。具体而言，第一识别单元1502从声学模型存储单元121中获取和所述特征相对应的候选单词。然后，第一识别单元1502通过参考语言模型，从获取到的候选单词中选择最可能的候选单词，并且输出包括了最可能的候选单词以及表示最可能的候选单词的确定性的普通识别分值的普通识别结果。

然后，第二识别单元1503通过参考计算出的特征以及存储在实例存储单元123中的实例来对语音执行基于实例的语音识别过程(步骤S1605)。具体而言，第二识别单元1503从声学模型存储单元121中获取和所述特征相对应的候选单词。随后，第二识别单元1503从包括了从存储在实例存储单元123中的实例中获取到的候选单词的实例中选择最可能的候选实例，并且输出包括了最可能的候选实例以及表示最可能的候选实例的确定性的基于实例的识别分值的基于实例的识别结果。

在步骤S1606到S1612中的对应关系提取过程、相似度计算过程、基于实例的翻译过程以及输出控制过程和图11示出的步骤S1105到S1111中的这些过程相同，因而省略对步骤S1606到S1612的这些过程的描述。

如上所述，在根据第三实施例的机器翻译装置1500中，特征计算过程由普通识别过程和基于实例的识别过程共有的特定处理单元来执行，因为特征计算过程是公共的过程。因此，能够简化机器翻译装置1500的配置，从而减少机器翻译装置1500的处理负担。

另外，本发明并不局限于上述实施例，而是能够在不偏离本发明构思的范围内进行修改。

例如，机器翻译装置不仅能够用于机器翻译，也能够用于根据获得的识别结果，选择通过多种不同的语音识别方法所获得的识别结果。更进一步地，翻译之外的其它应用，例如交互式人机界面、问题答复(QA)系统或者检索系统，也能够使用关于接收到的语音的数据。

此外，识别过程并不局限于只是语音的语音识别过程。只要识别过程中包括普通识别过程和基于实例的识别过程，还可以应用到例如基于笔输入的字符输入的字符识别，或者手势输入的手语识别中。

更进一步地，还可以将读数据增加到语音识别结果或者实例中，使得对应关系提取过程中的提取以及实例的获取能够高精确度地执行。更进一步地，还可以在机器翻译装置过程中执行基于实例的机器翻译和基于规则的机器翻译中的任何一个。或者，如果基于实例的机器翻译没有顺利工作，则可以通过基于规则的机器翻译来重新翻译。相反地，如果基于规则的机器翻译没有顺利工作，则可以通过基于实例的机器翻译来重新翻译。

根据第一到第三实施例的机器翻译装置的硬件配置以下参照图17来描述。

机器翻译装置包括作为控制设备的中央处理单元(CPU)51、作为存储设备的只读存储器(ROM)52和随机访问存储器(RAM)53、通信接口(I/F)54以及总线61。CPU 51、ROM 52、RAM 53以及通信I/F 54连接到总线61。通信I/F 54进一步连接到网络，并且通过网络通信。

由根据第一至第三实施例的机器翻译装置执行的机器翻译程序被预先存储在例如ROM 52中。

或者，机器翻译程序能够在诸如光盘只读存储器(CD-ROM)、软磁盘(FD)、可记录光盘(CD-R)以及多功能数码光盘(DVD)之类的计算机可读记录介质中，以可安装或者可执行的格式来记录。

还能够在连接到例如互联网的网络的计算机中存储机器翻译程序，并通过网络下载机器翻译程序。此外，也可以通过网络提供或者分发机器翻译程序。

机器翻译程序被配置来包括如上所述的单元，即，输入接收单元、第一识别单元、第二识别单元、对应关系提取单元、相似度计算单元、基于实例的翻译单元、输出控制单元、基于规则的翻译单元以及特征计算单元，这些构成了模块式结构。在实际的硬件中，CPU 51从ROM52中读出机器翻译程序，执行机器翻译程序，随后每个上述单元都被装载到主存储设备中。

Claims

1.一种用于将第一语言机器翻译成第二语言的装置，包括：

实例存储单元，在其中相关联地存储第一语言实例和第二语言实例，其中所述第二语言实例是所述第一语言实例的翻译；

接收单元，其接收第一语言语音；

第一识别单元，其将所述第一语言语音识别为第一语言字符串，并且输出第一识别结果；

第二识别单元，其从存储在所述实例存储单元中的第一语言实例中，将所述第一语言语音识别为最可能的第一语言实例，并且输出第二识别结果；

计算单元，其计算所述第一识别结果和所述第二识别结果之间的相似度；以及

获取单元，当计算出的相似度超出预定阈值时，所述获取单元从所述实例存储单元中获取对应于所述第二识别结果的第二语言实例。

2.根据权利要求1所述的装置，还包括：

声学模型存储单元，在其中存储声学模型，在该声学模型中语音特征和单词以相关联的方式存储；以及

语言模型存储单元，在其中存储用于定义单词之间的连接关系的语言模型，其中

所述第一识别单元计算所述第一语言语音的特征，从所述声学模型存储单元中获取对应于计算出的特征的候选单词，并且通过基于所述语言模型从所述候选单词中选择最可能的候选单词来产生所述第一识别结果。

3.根据权利要求1所述的装置，还包括声学模型存储单元，在其中存储声学模型，在该声学模型中语音特征和单词以相关联的方式存储，其中

所述第二识别单元计算所述第一语言语音的特征，从所述声学模型存储单元中获取对应于计算出的特征的候选单词，并且通过从包括获取到的候选单词的第一语言实例中选择最可能的第一语言实例来产生所述第二识别结果。

4.根据权利要求1所述的装置，还包括对应关系提取单元，其提取单词间对应关系，该对应关系包括了关于所述第一识别结果中包含的第一单词和所述第二识别结果中包含的第二单词之间的匹配部分和不匹配部分的信息，其中

所述获取单元基于所述单词间对应关系，从所述实例存储单元中获取对应于不匹配单词的第二语言实例，所述不匹配单词是对应于所述不匹配部分的单词，并且将对应于所述第二识别结果并对应于所述不匹配单词的所述第二语言实例的单词替换为所获取的对应于所述不匹配单词的第二语言实例。

5.根据权利要求4所述的装置，其中当所述第一语言语音中的所述第一单词的位置和所述第一语言语音中的所述第二单词的位置在预定范围内时，所述对应关系提取单元提取所述第一单词和所述第二单词之间的所述单词间对应关系。

6.根据权利要求1所述的装置，还包括：

规则存储单元，在其中存储所述第一语言和所述第二语言之间的对应关系的规则；以及

基于规则的翻译单元，当所述计算出的相似度超出所述预定阈值时，所述基于规则的翻译单元基于所述规则将所述第一识别结果翻译为所述第二语言。

7.根据权利要求6所述的装置，其中

所述规则是关于所述第一语言和所述第二语言之间的语法的转换规则，并且

所述基于规则的翻译单元基于所述转换规则将所述第一识别结果翻译为所述第二语言。

8.根据权利要求6所述的装置，其中

所述规则是关于所述第一语言和所述第二语言之间的词汇的转换规则，并且

9.根据权利要求6所述的装置，其中

所述规则是关于所述第一语言和所述第二语言之间的语义内容的转换规则，并且

10.根据权利要求6所述的装置，其中

所述规则是关于第一语言短语和第二语言短语之间的对应关系的统计信息的统计规则，并且

所述基于规则的翻译单元基于所述统计规则将所述第一识别结果翻译为所述第二语言。

11.根据权利要求1所述的装置，还包括：

声学模型存储单元，在其中存储声学模型，在该声学模型中语音特征和单词以相关联的方式存储；

语言模型存储单元，在其中存储用于定义单词之间的连接关系的语言模型；以及

特征计算单元，其计算所述第一语言语音的特征，其中

所述第一识别单元从所述声学模型存储单元中获取对应于由所述特征计算单元计算出的所述特征的候选单词，并且通过基于所述语言模型从所述候选单词中选择最可能的候选单词来产生所述第一识别结果，并且

所述第二识别单元从所述声学模型存储单元中获取对应于由所述特征计算单元计算的所述特征的候选单词，并且通过从包括了自所述实例存储单元中获取到的候选单词的第一语言实例中选择最可能的第一语言实例来产生所述第二识别结果。

12.一种用于将第一语言机器翻译成第二语言的装置，包括：

接收单元，其接收第一语言语音；

第二识别单元，其从存储在所述实例存储单元中的第一语言实例中，将所述第一语言语音识别为最可能的第一语言实例，计算指示所述最可能的第一语言实例的确定性的第一似然性，并且输出包括计算出的第一似然性的第二识别结果；以及

获取单元，当计算出的第一似然性超出第一阈值时，所述获取单元从所述实例存储单元中获取对应于所述第二识别结果的第二语言实例。

13.根据权利要求12所述的装置，其中

所述第一语言实例包括表示可替换的单词的变量部分，并且

所述第二识别单元为所述第一语言实例排除了所述变量部分的部分计算所述第一似然性。

14.根据权利要求12所述的装置，还包括：

基于规则的翻译单元，当所述计算出的第一似然性低于第二阈值时，所述基于规则的翻译单元基于所述规则将所述第一识别结果翻译为所述第二语言。

15.根据权利要求14所述的装置，其中所述第一识别单元还计算指示所述第一识别结果的确定性的第二似然性，并且输出包括计算出的第二似然性的所述第一识别结果。

16.根据权利要求15所述的装置，其中当所述计算出的第二似然性超出第三阈值时，所述基于规则的翻译单元基于所述规则将所述第一识别结果翻译为所述第二语言。

17.一种将第一语言机器翻译成第二语言的方法，包括：

通过将输入的第一语言语音识别为第一语言字符串来输出第一识别结果；

通过从存储在实例存储单元中的第一语言实例中，将所述输入的第一语言语音识别为最可能的第一语音实例来输出第二识别结果，其中所述实例存储单元在其中相关联地存储了第一语言实例和第二语言实例，所述第二语言实例是所述第一语言实例的翻译；

计算所述第一识别结果和所述第二识别结果之间的相似度；以及

当计算出的相似度超出预定阈值时，从所述实例存储单元中获取对应于所述第二识别结果的第二语言实例。