CN101154221A

CN101154221A - 执行输入语音翻译处理的装置

Info

Publication number: CN101154221A
Application number: CNA2007101531421A
Authority: CN
Inventors: 降幡建太郎; 知野哲朗; 釜谷聪史
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-28
Filing date: 2007-09-28
Publication date: 2008-04-02
Also published as: US20080091407A1; US8275603B2; JP4481972B2; JP2008083459A

Abstract

一种语音翻译装置，包括输入单元、语音识别单元、翻译单元、第一划分单元、第二划分单元、关联单元和输出单元。输入单元以第一语言输入语音。语音识别单元根据语音产生第一文本。翻译单元将第一文本翻译成第二语言，并且产生第二文本。第一划分单元划分第一文本并且产生多个第一短语。第二划分单元划分第二文本并且产生多个第二短语。关联单元在每个短语组内关联语义上等同的短语。输出单元根据第二文本内的短语顺序来顺序地输出相关联的短语。

Description

执行输入语音翻译处理的装置

技术领域

本发明涉及一种语音翻译装置和一种语音翻译方法。

背景技术

近年来，对包括语音识别、机器翻译和语音合成的基本技术的研究持续发展。通过结合语音识别、机器翻译和语音合成，可以实现语音翻译系统的实际应用。在语音翻译系统中，当接收到源语言的语音输入时，输出目标语言的语音。

然而，许多技术上的问题仍存在于每个基本技术中。因此，实现以足够高的精度来总是正确识别且翻译用户发出的语音的系统是困难的。

例如，在语音识别时，需要措施来对抗在执行语音识别的环境中呈现的周围噪声、用户语音的突然中止以及类似事件的发生。然而，完全消除由周围噪声、突然停止等等引起的错误是困难的。此外，如果机械地翻译包括语音识别错误(诸如上述错误)的文本，则无法获得正确的结果。

此外，在机器翻译时，用于根据上下文执行差别翻译的与上下文有关的处理技术仍是不发达的。因此，无法总是做出正确的翻译。

因此，提出了许多用于检测语音识别、机器翻译等等中的错误的接口。当多个用户实时交谈时，在减少复杂操作和由于在用户之间提供的系统而所需的等待时间方面，多个接口担任着重要的角色。

例如，在JP-A 2000-29492(KOKAI)中提出下述技术。从根据输入语音转换的文本中自动检测包括识别错误的短语。所检测的短语通过文本或语音被呈现给发出语音的说话者。说话者纠正错误。

仅将错误的短语呈现给说源语言的说话者。因此，减少了涉及检查全部语音内容的工作。诸如此类的技术可以缩短检查所需的时间。

然而，在JP-A 2000-29492描述的技术中，下列过程并不改变。一个源语言说话者进行说话。可听见地输出语音识别结果。再次识别用户发出的校正语音。接着，以目标语言输出语音。因此，在源语言说话者说话的时间与将语音传输给说话参与者的时间之间的时滞较长。

此外，尽管执行了自动错误检测，但不是所有的错误短语都可以被自动检测到。因此，在源语言说话者没有注意到错误的情况下将目标语言的语音输出到说话参与者，从而引起源语言说话者和说话参加者之间的误解。

发明内容

根据本发明的一个方面，一种语音翻译装置包括以第一语言输入语音的输入单元；识别语音并且产生第一文本的语音识别单元；将第一文本翻译成第二语言并且产生第二文本的翻译单元；将第一文本划分成多个第一短语的第一划分单元；将第二文本划分成多个第二短语的第二划分单元；关联单元，将多个第二短语中的每一个与多个第一短语中的、在语义上等同于该第二短语的一个短语相关联；以及输出单元，根据第二文本内的短语顺序来顺序地输出第二短语和通过关联单元与第二短语相关联的第一短语。

根据本发明的另一个方面，一种语音翻译方法包括：以第一种语言输入语音；识别语音并且产生第一文本；将第一文本翻译成第二语言并且产生第二文本；第一文本划分成多个第一短语；将第二文本划分成多个第二短语；将多个第二短语中的每一个与多个第一短语中的在语义上等同于第二短语的一个短语相关联；且根据第二文本内的短语顺序来顺序地输出第二短语和在关联期间与第二短语相关联的第一短语。

附图说明

图1是使用根据一实施例的语音翻译装置的构思情况的解释性示图；

图2是根据实施例的语音翻译装置的结构的框图；

图3是存储在根据实施例的应用历史存储单元中的翻译规则应用历史的示例图；

图4是由根据实施例的关联单元执行的对齐的解释性构思图；

图5是保存在根据实施例的短语存储单元中的数据的数据结构的第一实例的示图；

图6是从输入源语言语音时到输出目标语言语音时所执行的流程图；

图7是当根据本实施例的语音翻译装置已接收到输入语音时，直到产生一个短语对集合时所执行的流程图；

图8是当根据本实施例的语音翻译装置可听见地输出短语对集合中的一个短语对时所执行的流程图；

图9是输入到根据本实施例的语音翻译装置中的输入语音、根据输入语音产生的源语言文本和目标语言文本的第一例子的示图；

图10是根据本实施例的语音翻译装置输出短语对的顺序的第一例子的解释性示图；

图11是根据第一例子的时间示图，其指示通过根据本实施例的语音翻译装置接收到的输入语音和输出语音短语对；

图12是输入到根据实施例的语音翻译装置中的输入语音的第二例子，以及根据输入语音产生的源语言文本和目标语言文本的示图；

图13是保存在根据实施例的短语存储单元中的数据的数据结构的第二例子的示图；

图14是根据实施例的语音翻译装置输出短语对的顺序的第二例子的解释性示图；

图15是根据第二例子的时间示图，其指示通过根据实施例的语音翻译装置接收到的输入语音和输出语音短语对；以及

图16是语音翻译装置的硬件结构的示图。

具体实施方式

在下文根据附图描述本发明的示例性实施例。如图1所示，日语说话者对着麦克风10说话，并且收听通过耳机160输出的日语语音。英语说话者对着麦克风11说话，并且收听从设置在语音翻译装置100中的扬声器150输出的英语语音。

例如，当日语说话者说日语时，语音翻译装置100识别所说的语音并且将语音翻译成英语。接着，语音翻译装置100通过扬声器150输出已翻译的英语语音。此外，在输出英语语音期间，语音翻译装置100输出对日语说话者发出的语音执行的语音识别的结果。将结果以日语输出到耳机160。日语说话者可以通过收听从耳机160输出的日语语音来检查语音识别错误。

换句话说，日语说话者可以收听对应于当前被输出到英语说话者的英语语音的日语语音，并且检查错误。

如果日语说话者发现了错误，则日语说话者可以说话并且中断正从语音翻译装置100输出的语音，以为英语说话者校正错误。然后，当语音翻译装置100在输出语音的同时接收到中断语音的输入时，语音翻译装置100最好优先于已翻译的英语语音而输出中断语音。

接着，在语音翻译装置100输出作为中断语音的翻译的语音之后，语音翻译装置100重新开始输出在中断之前被输出的原始语音。从中断点开始输出原始语音。日语说话者不必重复相同的内容。因此，提高了可用性。

当利用一种常规技术同时输出日语语音和英语语音时，即使当立即中断时，中断往往不是相关的，因为日语和英语之间的词序不同。因此，在根据实施例的语音翻译装置100中，执行一个过程，从而使得输出语音的词序即使在不同语言之间仍相对应。因此，不管日语说话者和英语说话者何时中断正输出的语音，都不存在误解和其它问题。此后将详细描述过程。

利用英语说话者和日语说话者谈话的例子来对本实施例进行描述。然而，并不限于这些语言。也可以使用所有其它的自然语言，诸如德语、法语和汉语。

如图2所示，语音翻译装置100包括语音输入接收单元201、语音识别单元202、机器翻译单元203、短语对齐单元204、语音合成单元206、语音输出单元205、短语存储单元207和控制单元208。

控制单元208控制整个语音翻译装置100，并且例如对每一个部件给出指令。此后将描述控制单元208的细节。

语音输入接收单元201包括第一语音输入接收单元211和第二语音输入接收单元212。根据来自控制单元208的指令，语音输入接收单元201接收将被翻译的语言的语音的输入。利用一种已知的模拟到数字转换方法，语音输入接收单元201将语音转换成脉冲编码调制(PCM)格式等等的数字信号。

输入单元包括麦克风10和11以及语音输入接收单元201。

第一语音输入接收单元211通过麦克风10接收由日语说话者发出的语音的输入。第一语音输入接收单元211利用上述方法将语音转换成数字信号。接着，第一语音输入接收单元211将数字信号输出到语音识别单元202中的日语语音识别单元261，随后将描述这一过程。

第二语音输入接收单元212通过麦克风11接收由英语说话者发出的语音的输入。第二语音输入接收单元212利用上述方法将语音转换成数字信号。接着，第二语音输入接收单元212将数字信号输出到语音识别单元202中的英语语音识别单元262，随后将描述这一过程。

语音输入接收单元201等待使用第一语音输入接收单元211和第二语音输入接收单元212的日语说话者和英语说话者的语音。如果一个语音输入接收单元检测到来自说话者的输入语音，则语音输入接收单元201停止从使用其它语音输入接收单元的说话者接收语音。语音输入接收单元201仅对检测到的输入语音执行输入处理。

语音识别单元202包括日语语音识别单元261和英语语音识别单元262。利用一种已知的信号分析方法和一种已知的语言分析方法，语音识别单元202对从语音输入接收单元201输入的数字信号执行语音识别处理。语音识别单元202产生以说话者的语言书写的文本(此后称作为源语言文本S)。

根据实施例，源语言是在翻译之前由一个说话者使用的语言。目标语言是在翻译之后由另一个说话者使用的语言。换句话说，语音翻译装置100将源语言的语音翻译成目标语言。根据实施例，主要描述源语言是日语而目标语言是英语的例子。

日语语音识别单元261对从第一语音输入接收单元211输入的语音信号执行语音识别处理，并且产生以日语书写的文本。

英语语音识别单元262对从第二语音输入接收单元212输入的语音信号执行语音识别处理，并且产生以英语书写的文本。

机器翻译单元203包括规则保存单元221和应用历史存储单元222。机器翻译单元203对从语音识别单元202输入的源语言文本S执行翻译处理，并且产生以目标语言书写的文本(此后称为目标语言文本T)。

例如，如果源语言文本S以日语书写，则机器翻译单元203产生以英语书写的目标语言文本T。如果源语言文本S以英语书写，则机器翻译单元203产生以日语书写的目标语言文本T。以此方式，机器翻译单元203产生语义上等同于源语言文本S的目标语言文本T。

使用词典和规则保存单元221中的结构转换规则，机器翻译单元203根据源语言文本S产生目标语言文本T。可以将包括已知方法的任何方法用作用于将源语言文本S转换为目标语言文本T的转换方法。

机器翻译单元203将结构转换规则保存在应用历史存储单元222中作为翻译规则应用历史H。当机器翻译单元203将通过源语言文本S的分析而获得的条件结构转换成目标语言的结构时，使用结构转换规则。

如图3所示，翻译规则应用历史H保存当将源语言文本S转换成目标语言文本T时所使用的翻译规则。

除了源语言文本S和目标语言文本T之外，机器翻译单元203还将翻译规则应用历史H输出到短语对齐单元204。

短语对齐单元204包括第一划分单元231、第二划分单元232和关联单元233。短语对齐单元204将源语言文本S和目标语言文本T划分成预定长度的短语，并且使这些短语相关联。

第一划分单元231将源语言文本S分成多个短语，并且产生一个源语言短语组。

第二划分单元232将目标语言文本T分成多个短语，并且产生一个目标语言短语组。

根据实施例的单个短语是包括一个或多个实义词以及零个或多个功能词的子句。根据实施例，短语并不限于是子句。短语还可以是不同的处理单位。

关联单元233使每一个目标语言短语TP与语义上等同于目标语言短语TP的源语言短语SP相关联(对齐)。

在图4中，源语言文本S是“(1)太郎は/(2)酒を/(3)昨晚から/(4)んでいる”。目标语言文本T是“(1)Taro/(2)has been drinking/(3)fromlast evening”。文本内的“/”表示短语之间的分隔。数字表示从起点开始的顺序。

根据输入的翻译规则应用历史H，关联单元233使得包括对应词的多个短语相关联。

首先，图3所示的翻译规则应用历史H中的规则1指示将“酒をむ”转换成“drink”。关联单元233将源语言(日语)短语SP(2)和源语言(日语)短语SP(4)与目标语言(英语)短语TP(2)相关联。如果多个源语言短语SP与单个目标语言短语TP相关联，则关联单元233以此方式将多个源语言短语SP组合成一个。例如，如图3所示，关联单元233将源语言短语SP(2)“酒を”和源语言短语SP(4)“文んでいる”组合成“酒をんでいる”。

类似地，根据规则2，关联单元233将源语言短语SP(1)“太郎は”和目标语言短语TP(1)”Taro”相关联。根据规则3，关联单元233还将源语言短语SP(3)“昨晚から”与目标语言短语TP(3)“fromlast evening”相关联。

在翻译规则应用历史H中的规则4指示在“昨晚”和“last evening”之间的关联。然而，根据规则3，这些短语已经相关联。因此，关联单元233不利用规则4执行处理。

因此，关联单元233产生一个短语对集合PPSET，PPSET包括三个短语对PP：[(1)Taro，(1)“太郎は”]，[(2)has been drinking，(2)“酒を”(4)“んでいる”]，以及[(3)from last evening，(3)“昨晚から”]。

一个短语对PP是一对相关联的目标语言短语TP和源语言短语SP。短语对集合PPSET是根据通过单个语音等等输入的句子而产生的一组短语对PP。

短语存储单元207保存从短语对齐单元204输入的短语对集合PPSET。

如图5所示，短语存储单元207将短语对集合PPSET编号、短语对PP编号、源语言短语SP和目标语言短语SP相关联，并且保存相关联的短语对集合PPSET编号、短语对PP编号、源语言短语SP和目标语言短语TP。

如图5所示，短语存储单元207将三个短语对PP保存为一个短语对集合PPSET1。短语对PP是：PP(1，1)[(1)Please arrive，(3)“到着してください”，PP(1，2)[(2)at Hiya and Hotel，(2)“ヒヤツとホテルに”]，以及PP(1，3)[(3)by 3 p.m.，(1)“午後3時までに”]。

短语对集合PPSET编号指示中断语音的层次。例如，短语对集合PPSET1指示来自第一层语音的短语对集合PPSET。短语对集合PPSET2指示来自中断短语对集合PPSET1的输出的语音的短语对集合PPSET。

短语对PP编号指示(短语对集合PPSET编号、目标语言短语TP在目标语言文本T中出现的顺序)。因为需要在没有交换目标语言短语TP的顺序的情况下输出短语对PP，所以保存目标语言短语T在目标语言文本T内出现的顺序。换句话说，根据目标语言短语TP出现的顺序来输出每一个短语对PP。此后将详细描述该处理。

语音合成单元206包括日语语音合成单元251和英语语音合成单元252。语音合成单元206根据来自控制单元208的指令合成数字信号，数字信号表示每一个短语的阅读声音的波形。根据短语存储单元207预先指定的顺序来执行合成。

日语语音合成单元251合成数字信号，该数字信号表示根据日语短语的日语读音的波形。如果源语言是日语，则日语语音合成单元251根据源语言短语SP合成数字信号。如果源语言是英语，则日语语音合成单元251根据目标语言短语TP合成数字信号。

英语语音合成单元252合成数字信号，该数字信号表示根据英语短语的英语读音的波形。如果源语言是日语，则英语语音合成单元252根据目标语言短语TP合成数字信号。如果源语言是英语，则英语语音合成单元252根据源语言短语SP合成数字信号。

语音输出单元205包括第一语音输出单元241和第二语音输出单元242。在通过一种已知的数字到模拟转换方法将从语音合成单元206输入的数字信号转换之后，语音输出单元205将被转换的信号输出为语音。语音输出单元205还根据目标语言文本T内的短语顺序将目标语言短语TP以及与目标语言短语TP相关的源语言短语SP顺序地输出为语音。短语顺序是短语出现在文本中的顺序。

第一语音输出单元241转换从日语语音合成单元251输入的数字信号，并且将语音输出到耳机160。第二语音输出单元242转换从英语语音合成单元252输入的数字信号，并且将语音输出到扬声器150。

接下来，参考图6，将描述从根据实施例的语音翻译装置100接收语音输入时到当语音翻译装置输出语音时所执行的处理。

首先，控制单元208将计数器变量i设定为初始值‘1’(步骤S601)。接下来，语音输入接收单元201接收输入语音SAI1(步骤S602)。如果输入语音SAI1没有被输入(步骤S602：否)，则语音输入接收单元201等待输入。SAI1的‘1’是计数器变量i的值。

当语音输入接收单元201接收输入语音SAI1(步骤S602：是)时，语音输入接收单元201产生对应于输入语音SAIi的短语对集合PPSETi(步骤S603)。此后将详细描述该处理。

接下来，控制单元208将初始值‘1’分配给指针Ji(步骤S604)。

接着，控制单元208判断指针Ji是否大于短语对总元素数Ni(步骤S605)。短语对总元素数Ni指示包含在正被处理的短语对集合PPSETi中的短语对的总数。

当控制单元208判断指针Ji小于短语对总元素数Ni(步骤S605：否)时，控制单元208将语音中断标记设定为“False”(步骤S606)。

接着，将短语对PP(i，Ji)可听见地输出(步骤S607)。如果在处理期间接收到中断语音的输入，则控制单元208将语音中断标记设定为“True”。此后将描述处理。

接下来，控制单元208将指针Ji增加“1”(步骤S608)。指针Ji指示目标语言文本T内的目标语言短语TP的顺序。换句话说，因为指针Ji增加1，因此可以将目标语言短语TP等等根据目标语言文本T内的短语顺序可听见地输出。

接着，控制单元208判断语音中断标记是否“True”(步骤S609)。当语音中断标记是“FALSE”时(步骤S609：否)，处理从判断指针Ji是否大于短语对总元素数Ni重新开始(步骤S605)。

当语音中断标记是“TRUE”时(步骤S609：是)，控制单元208将计数器变量i增加“1”(步骤S610)。接着，控制单元208再次根据中断语音生成短语对集合PPSETi(步骤S603)。

当控制单元208判断指针Ji大于短语对总元素数Ni时(步骤S605：是)，认为利用短语对集合PPSETi的处理完成，并且删除短语对集合PPSETi(步骤S611)。

接着，控制单元208将计数器变量i减少“1”(步骤S612)。控制单元208判断计数器变量i是否小于“1”(步骤S613)。当控制单元208判断计数器变量i等于或大于“1”时(步骤S613：否)，控制单元208再次判断指针Ji是否大于短语对总元素数Ni(步骤S605)。

当控制单元208判断计数器变量i小于“1”时(步骤S613：是)，控制单元208完成处理。

通过利用上述过程执行从接收到语音输入时到输出语音时的处理，根据实施例的语音翻译装置100可以递归地处理短语对集合PPSETi。

因此，当中断输入语音时，在优先处理中断语音之后，可以重新开始被中断的原始语音的处理。

接下来，参考图7，将描述当语音翻译装置100已接收到输入语音SAIi时所执行的处理。执行处理，直到执行短语对齐并且产生短语对集合PPSETi。

首先，语音识别单元202识别从语音输入接收单元201输入的输入语音SAIi，并且产生源语言文本Si(步骤S701)。如果输入语音SAIi的源语言是日语，则日语语音识别单元261产生源语言文本Si。如果输入语音SAIi的源语言是英语，则英语语音识别单元262产生源语言文本Si。

接着，机器翻译单元203机械地翻译源语言文本Si，并且产生目标语言文本Ti(步骤S702)。

接下来，第一划分单元231将源语言文本Si分割成多个短语(步骤S703)。第二划分单元232将目标语言文本Ti分割成多个短语(步骤S704)。

关联单元233对齐目标语言短语TP和源语言短语SP，并且产生短语对集合PPSETi(步骤S705)。短语对齐单元204在短语存储单元207中存储所产生的短语对集合PPSETi。

接下来，参考图8，将描述当根据实施例的语音翻译装置100可听见地输出短语对PP(i，Ji)时执行的过程。此后将描述目标语言是英语而源语言是日语的例子。

首先，英语语音合成单元252读取来自短语存储单元207的短语对PP(i，Ji)内的目标语言短语TP。英语语音合成单元252合成读取的目标语言(英语)短语TP，并且产生目标语言短语语音信号TPAO(步骤S801)。

接下来，日语语音合成单元251读取来自短语存储单元207的短语对PP(i，Ji)内的源语言短语SP。日语语音合成单元251合成读取的源语言(日语)短语，并且产生源语言短语语音信号SPAO(步骤S802)。

第二语音输出单元242将所产生的目标语言短语语音信号TPAO输出到扬声器150(步骤S803)。

接下来，第一语音输出单元241将所产生的源语言短语语音信号SPAO输出到耳机160(步骤S804)。

语音输入接收单元201检测说话者是否发出中断语音(步骤S805)。说话者可以是日语说话者或英语说话者。

当语音输入接收单元201未检测到中断语音(步骤S805：否)时，控制单元208判断语音的输出是否已完成(步骤S807)。当控制单元208判断语音输出未完成时(步骤S807：否)，继续语音合成(步骤S801)。

当控制单元208判断语音输出完成时(步骤S807：是)，处理完成。

如果语音输入接收单元201检测到作为中断的结果的输入语音SAIi+1(步骤S805：是)，则控制单元208中断来自第二语音输出单元242的目标语言短语语音信号TPAO的输出以及来自第一语音输出单元241的源语言短语语音信号SPAO的输出(步骤S808)。

接着，控制单元208将语音中断标记设定为“TRUE”(步骤S809)。从而完成处理。

接下来，将使用具体的例子详细描述上述处理。在例子中，日语说话者首先说话。当语音翻译装置100可听见地输出语音时，在语音中出现语音识别错误。日语说话者中断输出。

如图9所示，首先，第一语音输入接收单元211接收来自日语说话者的输入语音SAI1“ごごさんじまでにはつとほてるにとうちやくしてください”。接着，第一语音输入接收单元211接收来自日语说话者的作为中断的输入语音“えきのちかくのはいはつとほてるです”的输入。

此外，图9显示了源语言文本S和由语音翻译装置100根据输入语音产生的目标语言文本T。在输入顺序1中，给出一个例子，其中在由日语语音识别单元261执行的语音识别中出现错误。将“はいはつとほてる”识别为“ヒヤツとホテル”。因此，机器翻译单元203将“ヒヤツとホテル ”翻译成目标语言文本T中的“Hiya and Hotel”。

此外，在例子中，在输出语音期间，日语说话者注意到语音识别中的错误。日语说话者以输入顺序2中所示的输入语音SAI2“えきのちかくのはいはつととてるです”中断输出。

由此产生的短语对集合PPSETi如图5所示。当输出短语对PP(1，2)时接收到上述输入语音SAI2的中断。

接着，语音翻译装置100根据图10所示的顺序输出图5所示的短语对集合PPSETi中的短语对PP。

接下来，参考图6，描述根据图11所示的时序图执行以输出短语对PP语音的过程。

首先，在步骤S601，控制单元208将计数器变量i设定为“1”。计数器变量i指示到原始语音的中断层。换句话说，未被中断的原始语音是第一层。中断原始语音的语音是第二层。中断第二层语音的语音是第三层，依此类推。

换句话说，控制单元208将计数器变量i设定为“1”，以接收初始未被中断的语音的输入。

接着，在步骤S602，语音输入接收单元201等待来自日语说话者和英语说话者的语音。语音输入接收单元201仅接收来自首先检测到的说话者的语音输入。

在该例子中，第一语音输入接收单元211检测到来自日语说话者的第一语音，并且停止接收来自英语说话者的输入。如图11中的参考标记1101所指示，日语说话者将输入语音SAI1“ごごさんじまでにはつとほてるにとうちやくしてください”(午後3時までにハイハツトホテルに到着してください)输入到麦克风10。因此，在步骤S602，第一语音输入接收单元211接收输入语音SAI1。

在图6的步骤S603，产生包含源语言短语SP和目标语言短语TP的短语对(PP)的集合(PPSET1)。在图7中详细描述执行产生短语对集合PPSET1的过程。

首先，在步骤S701，语音识别单元202根据输入语音SAI1产生源语言文本S。同时，发生识别错误，并且将部分“はいはつとほてるに”识别为“ヒヤツとホテルに”。从而语音识别单元202产生源语言文本S1“午後3時までにヒヤツとホテルに到着してください”。

在步骤S702，机器翻译单元203根据源语言文本S1产生目标语言文本T1“Please arrive at Hiya and Hotel by 3 p.m”。因为在步骤S702已发生识别错误“ヒヤツとホテルに”，因此机器翻译单元203将应正确翻译为“at Hyhat Hotel”的短语翻译为“at Hiya and Hotel”。

接下来，在步骤S703，第二划分单元232将目标语言文本T1分成多个短语。在S704，第一划分单元231将源语言文本S1分成多个短语。接着，在步骤705，关联单元233产生短语对集合PPSET1，其中短语被关联，并且将所产生的短语对集合PPSET1存储在短语存储单元207中。

将参考图5描述所存储的短语对集合PPSET1。短语对集合PPSET1包括短语对PP(1，1)、短语对PP(1，2)和短语对PP(1，3)。

每一个短语对PP包括目标语言短语TP和源语言短语SP。例如，短语对PP(1，1)包括源语言短语SP(1，1)“到着してください”和目标语言短语TP(1，1)“Please arrive”。以此方式，将与对应短语对PP相同的下标加于目标语言短语TP和源语言短语SP。

类似地，短语对PP(1，2)是[(2)at Hiya and Hotel，(2)“ヒヤツとホテルに”]，而短语对PP(1，3)是[(3)by 3 p.m.，(1)“午後3時までに”]。

在以此方式产生短语对集合PPSETi之后，控制单元208返回到图6中的过程。在步骤S604，控制单元208将指针J1设定为“1”。指针Ji指示接下来短语对PP(i，Ji)将被可听见地输出。

接着，在步骤S605，控制单元208判断指针Ji是否大于短语对总元素数Ni。换句话说，控制单元208判断短语对PP(i，Ji)是否存在于短语存储单元207中。控制单元208比较指针J1的值“1”和短语对集合PPSETi的短语对总元素数“3”。换句话说，控制单元208判断J1小于短语对总元素数(步骤S605：否)。在步骤S606，语音翻装置100开始输出短语对PP(1，1)的处理。

接下来，在步骤S606，控制单元208将语音中断标记设定为“FALSE”。语音中断标记指示在步骤S607的短语对PP的音频输出期间说话者是否发出中断语音，后面描述其。

在步骤S607，将短语对PP(1，1)中的目标语言短语TP“Pleasearrive”输出给英语说话者。将源语言短语SP“到着してください”输出给日语说话者。将参考图8描述步骤S607的过程的细节。

首先在步骤S801，英语语音合成单元252根据目标语言短语TP(1，1)“Please arrive”生成语音信号。接着，在步骤S802，日语语音合成单元251根据源语言短语SP(1，1)“到着してください”生成语音信号。

在步骤S803，第二语音输出单元242输出所产生的目标语言(英语)短语语音信号TPAO(1，1)“Please arrive”。在步骤S804，第一语音输出单元241输出所产生的源语言(日语)短语语音信号SPAO(1，1)“とうちやくしてください”。目标语言短语语音信号TPAO(1，1)和源语言短语语音信号SPAO(1，1)对应于图11的语音短语对1102。如图11所示，几乎同时输出“とうちやくしてください”和“Pleasearrive”。根据实施例的语音翻译装置100以此方式输出语音，从而在输出期间对应关系是清楚的。

源语言短语语音信号SPAO(1，1)“とうちやくしてください”和目标语言短语语音信号TPAO(1，1)“Please arrive”形成短语对语音PPAO(1，1)。

接着在步骤S805，语音输入接收单元201在语音输出期间等待来自日语说话者或英语说话者的输入语音。以此方式，语音输入接收单元201按照需要检测中断语音。在例子中，直到完成语音输出时中断不出现。

因此，图8所示的过程完成，并且控制单元208返回到图6的过程。在步骤S608，控制单元208将指针J1设定为2。这指示已将要被处理的下一个短语对变成短语对PP(1，2)。

在步骤S609，控制单元208利用语音中断标记在步骤S607的处理期间判断是否检测到中断语音。在这个阶段，语音输入标记是“FALSE”。因此，控制单元208判断没有出现中断。控制单元208在步骤S605开始处理，以输出还未被输出的短语对PP。

随后，过程如先前被执行的过程一样被执行。换句话说，在步骤S605，控制单元208判断指针J2(设定为2)小于短语对总元素数N2(设定为3)。控制单元208进行到步骤S606，并且将语音中断标记设定为“FALSE”。

在步骤S607，可听见地输出短语对PP(2，2)。根据图8详细描述输出。

首先在步骤S801，英语语音合成单元252根据目标语言短语TP(1，2)“at Hiya and Hotel”产生语音信号。在步骤S802，日语语音合成单元251根据源语言短语SP(1，2)“ひやつとほてるに”产生语音信号。

在步骤S803，第二语音输出单元242输出所产生的目标语言(英语)短语语音信号TPAO(1，2)“at Hiya and Hotel”。接下来在步骤S804，第一语音输出单元241输出所产生的源语言(日语)短语语音信号SPAO(1，2)“ひやつとほてるに”。目标语言短语语音信号TPAO(1，2)和源语言短语语音信号SPAO(1，2)对应于图11的语音短语对1103。如图11所示，几乎同时输出这些语音信号。

利用语音短语对PPAO(1，2)输出的语音不同于包括语音识别错误的先前的语音短语对PPAO(1，1)的语音。因此，日语说话者知道语音翻译装置100没有正确处理日语说话者所说的“ハイハツトホテル”。

为了校正“ひやつとほてるに”，日语说话者中断输出并且发出输入语音SAI2“えきのちかくのはいはつとほてるです”(駅の近くのハイハツトホテルです)。日语说话者所发出的输入语音SAI2对应于由图11中的参考数字1104所指示的输入语音SAI2。

从而在图8的步骤S805，语音输入接收单元201检测到中断语音(步骤S805：是)。在步骤S808，控制单元208中断来自语音输出单元205的短语对语音PPAO(1，2)的输出。在步骤S809，控制单元208将指示是否存在中断的语音中断标记设定为“TRUE”。接着，控制单元208返回到图6的过程。

在步骤S609，控制单元208将指针J1设定为3。接着在步骤S609，控制单元208判断语音中断标记。因为语音中断标记被设定为“TRUE”，因此可以知道出现中断输入语音SAI2。控制单元208以与根据输入语音SAI1相同的方式根据输入语音SAI2产生短语对PP。接着，控制单元208进行到步骤S610，以输出语音。

在步骤S610，控制单元208将计数器变量i设定为2。当计数器变量i被设定为2时，控制单元208处理中断输入语音SAI2。

在步骤S603，控制单元208根据源语言文本S2“駅の近くのハイハツトホテル”和目标语言文本T2“Hyhat Hotel near the station”产生中断输入语音SAI2。以此方式，在当前的处理中，正确识别“はいはつとほてる”并且产生“ハイハツトホテル”。此外，根据源语言文本S2和目标语言文本T2产生短语对集合PPSET2。将短语对集合PPSET2存储在短语存储单元207中。

如图5所示，短语对集合PPSET2包括短语对PP(2，1)[(1)HyhatHotel，(2)“ハイハツトホテルです”]和短语对PP(2，2)[(2)near thestation，(1)“駅尺の近くの”]。

接着在步骤S604，控制单元208将指针J2设定为1。在步骤S605，指针J2(设定为1)小于短语对总元素数N2(设定为2)。因此，控制单元208进行到步骤S606。

接下来在步骤S606，控制单元208将语音中断标记设定为“FALSE”。在步骤S607，控制单元208根据短语对PP(2，1)生成语音短语对PPAO(2，1)。接着，控制单元208将包括在语音短语对PPAO(2，1)中的源语言短语语音信号SPAO(2，1)“はいはつとほてる”输出到日语说话者。控制单元208还将包括在语音短语对PPAO(2，1)中的目标语言短语语音信号TPAO(2，1)“Hyatt Hotel”输出到英语说话者。语音短语对PPAO(2，1)对应于图11的语音短语对1105。

换句话说，在图11中由语音短语对1103所指示的先前语音短语对PPAO(1，2)中，将“ハイハツトホテル”部分识别为“ひやつとほてる”。如图11中语音短语对1105所指示的，此时将“ハイハツトホテル ”部分正确输出为“はいはつとほてる”。以此方式，由于日语说话者在音频输出期间发出中断语音，所以可以防止由语音识别错误引起的与英语说话者之间的误解。

在图8的步骤S805，语音输入接收单元201检测是否已出现中断语音。在此阶段没有中断语音。

在图6的步骤S608，控制单元208将指针J2增加1。指针J2被设定为2。接着在步骤S609，控制单元208返回到步骤S605，因为语音中断标记是“FALSE”。

通过步骤S605到S609的过程，控制单元208处理短语对PP(2，2)并且输出目标语言短语语音信号TPAO“near the station”和源语言短语语音信号SPAO“えきのちかくの”。目标语言短语语音信号TPAO和源语言短语语音信号SPAO对应于图11的短语对1106。在语音输出期间没有发出中断语音。

在完成过程之后，控制单元再次返回到步骤S605。在这个阶段，将指针J2设定为“3”。将短语对元素数N2设定为“2”。因此，控制单元208进行到步骤S611。换句话说，控制单元208判断短语对PP(2，3)没有存在于短语存储单元207中，并且已经输出包括在短语对集合PPSET2中的所有短语对PP。

接着在步骤S611，控制单元208从短语存储单元207中删除短语对集合PPSET2。在步骤S612，控制单元208将计数器变量i减少1，并且在中断之前返回到短语对集合PPSET1的处理。

接着，控制单元208判断计数器变量i是否小于“1”。如果计数器变量i小于“0”，则短语对集合PPSET未存储在短语存储单元207中。从而完成处理。然而，当前计数器变量i被设定为“1”。因此，控制单元208返回到步骤S605。

在这个阶段，计数器变量i是“1”。将指针J1设定为3。将短语对总元素数N1设定为“3”。

在从步骤S605到S609的过程中，执行利用还未被可听见地输出的最后的短语对PP(1，3)[(3)by 3 p.m.，(1)“午後3時までに”]的处理，其在图5的第三行中被指示出。换句话说，如图11的参考数字1107所指示的，执行直到语音短语对PPAO(1，3)(by 3 p.m.，“ごごさんじまでに”)的输出处理的过程。

在语音短语对PPAO(1，3)输出期间，确定没有出现中断。在将指针J1增加1之后，控制单元208返回到步骤S605。在这个阶段，计数器变量i是“1”。指针J1是“4”。短语对总元素数N1是“3”。换句话说，控制单元208判断指针J1大于短语对总元素数N1，并且进行到步骤S611。因此，完成对短语对集合PPSET1内所有短语对PP的处理。

在步骤S611，控制单元208删除短语对集合PPSET1。接着在步骤S612，控制单元208将计数器变量i减少“1”。计数器变量i变成“0”。在步骤S613，控制单元208判断计数器变量i小于“1”。控制单元208判断短语对集合PPSET没有出现在短语存储单元207中。过程完成。

由于执行上述过程，日语说话者通过收听源语言语音来检查错误。因为关联并且输出源语言语音和目标语言语音，因此即使在音频输出期间发出中断语音时，也不出现误解和混淆。此外，如果英语说话者发现错误或者希望检查错误，则英语说话者也可以中断音频输出。接下来，将描述英语说话者何时中断日语说话者发出的语音输出。

以下一种情况被描述。首先，日语说话者说话。当语音翻译装置100可听见地输出语音时，翻译错误出现在语音翻译中。为了消除翻译错误引起的混淆，英语说话者发出中断语音。

如图12所示，首先，第一语音输入接收单元211接收来自日语说话者的输入语音SAI1“このかうんた一でえんではらつてもいいですか”。接着，第二语音输入接收单元212接收来自英语说话者作为中断的输入语音“Circle，you mean coin”。接下来，在通过英语说话者可听见地输出语音之后，第一语音输入接收单元211接收来自日语说话者的输入语音“いいえにほんえんです”。

换句话说，在图12所示的例子中，首先，在输入顺序1由日语语音识别单元261造成翻译错误。将“円”翻译成“circle”。

英语说话者以输入顺序2所指示的输入语音SAI2“Circle，youmean coin？”中断音频输出，因为英语说话者无法明白“circle”的意思。

接着，日语说话者以输入顺序3所指示的“いいえ日本円です”回应英语说话者。图12假定诸如上述的情况。

如图13所示，短语存储单元207存储短语对集合PPSET1到短语对集合PPSET3。根据图12的输入顺序1到输入顺序3输入的输入语音SAI1到输入语音SAI3产生短语对集合PPSET1到短语对集合PPSET3。

接着，按照图14所示的顺序，语音翻译装置100输出图13所示的短语对集合PPSETi中的短语对PP。

接下来，将参照图6描述根据图15所示的时序图执行输出语音短语对的过程。

首先在步骤S601，控制单元208将计数器变量i设定为“1”。接着，第一语音输入接收单元211检测来自日语说话者的第一语音。停止接收来自英语说话者的输入。如图15的参考数字1501所指示的，日语说话者将输入语音SAI1“えんではらつてもいいですか”输入到麦克风10中。接着在步骤S602，第一语音输入接收单元211接收输入语音SAI1。

接下来，日语语音识别单元261正确识别所输入的语音SAI1并且产生源语言文本S1“円で払つてもいいですか”。机器翻译单元203机械地翻译源语言文本S1。当执行机器翻译时，机器翻译单元203将源语言文本S1中的“円で”错误地翻译为“with a circle”，而“円で，，应翻译成“by yen”。从而机器翻译单元203产生目标语言文本T1“May I pay with a circle？”。

在将源语言文本S1和目标语言文本T1分别分成多个短语之后，短语对齐单元204执行对齐处理。因此，将图13所示的短语对集合PPSET1存储在短语存储单元207中。(上述过程是步骤S603)。

接着在步骤S604，控制单元208将指针J1设定为1。在步骤S605到步骤S609的处理中，语音翻译装置100根据存储在短语存储单元207中的短语对PP(1，1)输出语音短语对PPAO(1，1)。所输出的语音短语对对应于图15中的语音短语对1502。

控制单元208判断当输出语音短语对1502时没有中断语音。控制单元208返回步骤S605。在这个阶段，计数器变量i是“1”。指针J1是“2”。短语对总元素数N1是“3”。语音翻译装置100处理短语对PP(1，2)并且输出语音短语对PPAO(1，2)。所输出的语音短语对对应于图15的语音短语对1503。

目标语言短语TP(1，2)“with a circle”是翻译上的错误。听到包括在语音短语对1503内的目标语言短语语音信号TPAO(1，2)“witha circle”的英语说话者发现短语不适用于谈话场景(关于付款的谈话)。

因此，英语说话者在语音短语对1503的音频输出期间发出中断输入语音SAI2“Circle，you mean coin？”(円つて硬貨のことですか)，用于确认英语说话者所听到的内容。中断输入语音SAI2对应于图15中的参考数字1504。

因此，第二语音输入接收单元212接收中断输入语音SAI2。在图6的步骤S609，将语音中断标记设定为“TRUE”。

在步骤S609，控制单元208判断语音中断标记被设定为“TRUE”。控制单元208进行到步骤S610并且将计数器变量i设定为“2”。

接着在步骤S603，控制单元208产生源语言文本S2“Circle，youmean coin？”并且根据输入语音SAI2产生目标语言文本T2“円つて硬貨のことですか”。短语对齐单元204分别将源语言文本S2和目标语言文本T2分成多个短语，并且对每一个分成的短语执行对齐处理。以此方式产生短语对集合PPSET2。将所产生的短语对集合PPSET2存储在短语存储单元207中。存储在短语存储单元207中的记录被显示为图13的第四个记录(PP(2，1))和第五个记录(PP(2，2))。

接着，语音翻译装置100重复在步骤S604到步骤S609的处理，从而利用短语对集合PPSET2中的短语对PP(2，1)和短语对PP(2，2)来执行音频输出处理等等。作为这些处理的结果而输出的语音对应于图15的语音短语对1505和语音短语对1506。

作为上述处理的结果，语音翻译装置100将输入语音SAI2的翻译结果“円つて硬貨のことですか”可听见地输出给日语说话者。

日语说话者已听到源语言短语语音信号SPAO(1，2)“えんで”。因此，日语说话者已确认日语说话者发出的语音已经通过语音翻译装置100被正确识别。“えんで”包括在图15的语音短语对1503中。

因此，日语说话者可以确认由于翻译错误等原因，没有将包括在由日语说话者发出的输入语音SAI1中的“円で”部分正确地传送给英语说话者。

例如，在可听见地输出输入语音SAI2之后，日语说话者发出输入语音SAI3“いいえにほんえんです”(いいえ，日本円です)。换句话说，通过以另一个表达“日本円”替换“円”，日语说话者尝试消除关于“円で”的误解。输入语音SAI3由图15的参考数字1507指示。

在图6的步骤603，语音翻译装置100对输入语音SAI3执行语音识别处理，并且产生源语言文本S3“いいえ日本円です”。接着，虽然语音翻译装置100将源语言文本S1中的“円で”错误地翻译为“circle”，但语音翻译装置100根据源语言文本S3正确产生目标语言文本T3“No，Japanese yen”。利用一种已知方法，语音翻译装置100正确产生目标语言文本T3。此处省略了关于它的说明。

在步骤S603，语音翻译装置100根据源语言文本S3和目标语言文本T3产生短语对集合PPSET3。短语对集合PPSET3对应于图13的第六个记录(PP(3，1))和第七个记录(PP(3，2))。接着，语音翻译装置100将短语对集合PPSET3存储在短语存储单元207中。因此，在步骤S603完成处理。

语音翻译装置100执行进一步的处理。通过重复执行步骤S609的处理，语音翻译装置100输出语音短语对PPAO(3，1)和语音短语对PPAO(3，2)。所输出的语音短语对PPAO对应于图15中的语音短语对1508和语音短语对1509。

接着，通过执行步骤S605和步骤S611到步骤S613的处理，语音翻译装置100重新开始对短语对集合PPSET1的处理。

直到短语对集合PPSET1内的语音短语对PPAO(1，3)的输出处理的过程已被完成。因此，语音翻译装置100利用短语对PP(1，3)执行处理。换句话说，语音翻译装置100执行步骤S605到S606的处理，并且输出语音短语对PPAO(1，3)。所输出的语音短语对对应于图15的语音短语对1510。

由于正在执行的这种处理，尽管语音翻译装置100发出错误，仍将日语说话者的意图“to pay in Japanese yen”传送给英语说话者。语音翻译装置100确定不再有中断输入语音并且完成图6所示的处理。

在根据上述实施例的语音翻译装置100中，通过检查源语言短语，用户可以以源语言检查作为目标语言短语输出的目标语言短语的内容。源语言说话者可以检查已被识别的所有内容。因此，源语言说话者可以正确检测由语音翻译装置100发出的语音识别错误。此外，因为同时输出源语言短语和目标语言短语，因此不需要以下的过程，其中，在日语说话者已检查内容之后，将所识别的内容输出到英语说话者。

以此方式，在接收源语言的输入语音之后并且直到输出已被翻译成目标语言的目标语言短语组，不需要用户检查错误等等所需的时间。因此，可以适当进行谈话。从而可以减少时滞。

在根据上述实施例的语音翻译装置100中，当通过在源语言说话者通过与被可听见输出的目标语言短语TP相关联的源语言短语SP说出之后的语音来输出目标语言短语TP时，源语言说话者可以检查语音识别错误等等。在源语言说话者已说出时和输出目标语言短语TP时之间，源语言说话者不检查错误。因此，可以防止谈话延迟。

当可听见地输出源语言短语SP和目标语言短语TP时，语音翻译装置100可以接收来自源语言说话者或目标语言说话者的中断语音。当源语言说话者和目标语言说话者发出中断语音以做出关于翻译错误、语音识别错误等待的询问、校正等等时，语音翻译装置100优先翻译中断语音并且输出语音。源语言说话者和目标语言说话者总是收听源语言语音和目标语言语音的相同部分。因此，源语言说话者和目标语言说话者可以推断何处发生问题。因此，可以防止发生在源语言说话者和目标语言说话者之间的误解等等。

在已完成中断语音之后，根据实施例的语音翻译装置100重新开始原始音频输出。因此，说话者不必发出相同的语音。从而可以减少说话者的负担。

根据所执行的过程的细节，上文已描述根据实施例的语音翻译装置。然而，本发明不限于此方面。在实际阶段，通过对组成元素进行修改，可以实现本发明，而不脱离本发明的范围。通过适当组合根据上述实施例所披露的多个组成元素，还可以形成多个发明。例如，可以从根据实施例所披露的所有组成元素中删除多个组成元素。此外，可以适当组合不同实施例的组成元素。在上述过程内已经给出一些例子。此后将描述根据其它可能实施例的其它例子。

作为根据实施例使用的一种翻译方法，已经描述了一种转换方法。在所述转换方法中，利用词典和结构转换规则执行转换。然而，翻译方法不限于此转换方法。例如，可以使用利用例子的方法等等。在利用例子的方法中，从对应翻译的例子中选择具有与输入文本高相似度的例子。

在第一变形例子中，使用一种不同于转换方法的翻译方法。在例子中，不同于上述方法的一种方法用于短语对齐。可以将各种已知方法(例如利用两种语言之间的词语和短语的共同出现概率)用于短语对齐。可以将各种已知方法用于第一变形例子。

在JP-A 2004-38976(KOKAI)中描述的一种技术是诸如上述技术的例子。在所披露的技术中，通过利用双语词典测量的词语之间的相似度执行词语对齐。所测量的相似度作为用于执行短语对齐的标记。抽取在与源语言短语具有最高一致度的目标语言文本内的片段。设计种技术从而使得也可以抽取不连续的片段。语音翻译装置的短语对齐单元可以使用上述的各种短语对齐方法。

根据上述实施例，描述一处理，其中在音频输出期间，源语言说话者和目标语言说话者执行中断。然而，处理没有根据源语言说话者和目标语言说话者之间的哪一个说话者说话而不同。在第一变形例子中，根据源语言说话者和目标语言说话者之间的哪一个说话者说话而改变处理。

在第一变形例子中，当错误出现在语音识别结果或翻译结果中时，假定中断语音是指示关于正被输出的短语等等而做出的校正、询问或类似操作等等的语音。当源语言说话者确认错误已出现在语音识别结果中时，源语言说话者中断音频输出。当仅目标语言说话者中断音频输出时，错误出现在翻译结果中。当源语言说话者和目标语言说话者都中断音频输出时，错误出现在语音识别结果中。

通过合并上述处理中的条件，第一变形例子的语音翻译装置可以改进重复语音的语音识别结果，或者利用关于已被中断的短语或在中断短语之前或之后的短语的信息，允许较好地选择候选翻译。

提出数种诸如上述的方法，这些方法用于利用语音历史来改进语音识别和翻译精确性。例如，在JP-A2003-316386(KOKAI)中，提出一种方法，其中自动检测在初始语音和校正语音之间的匹配部分，并且利用匹配部分的语音历史来执行处理。因此，可以提供更适当的候选识别的选择。

例如，将描述一个例子，其中第一变形例子的语音翻译装置接收来自日语说话者的输入语音“午後3時までに早くホテルに到着してください”。语音翻译装置在识别输入语音“午後3時までに早くホテルに到着してください时产生错误，并且产生源语言文本“午後3時までに/早く/ホテルに/当社を/ください”。语音翻译装置产生目标语言文本“Give/this company/to the hotel/by 3 p.m./soon”。

语音翻译装置将以下短语对按照以下顺序可听见地输出到目标语言(英语)说话者和源语言(日语)说话者：语音短语对(1)(Give，“ください”)、语音短语对(2)(this company，“当社を”)、短语对(3)(to thehotel，“ホテルに”)、语音短语对(4)(by 3 p.m.，“午後3時までに”)和语音短语对(5)(soon，“早く”)。

当在语音短语对(2)的输出期间日语说话者听到“当社を”时，日语说话者推断没有正确识别出“到着してください”部分。日语说话者发出中断语音“到着してください”。

当语音翻译装置接收到中断输入语音“到着してください”时，语音翻译装置参考在源语言(日语)文本中的“当社を”之前和之后的短语。语音翻译装置检测指示对中断输入语音所执行的识别处理的结果的文本“到着してください”，并且检测来自原始源语言文本内的类似部分“到着してください”。

语音翻译装置的语音识别单元对除用于先前语音的识别处理的“到着してください”以外的候选识别给予优先级，并且以新的识别结果“到着してください”替换该部分。

语音翻译装置不是仅重新翻译替换部分，而是在替换之后重新翻译全部源语言文本。语音翻译装置产生目标语言文本。因此，语音翻译装置可以获得目标语言文本“Please arrive at Hyhat Hotel by 3p.m.”。

接下来，语音翻译装置依序可听见地输出在根据重新产生的源语言文本和目标语言文本产生的短语对集合内的短语，从语音短语对(1)(arrive，“到着してください”)开始。

在上述的第一变形例子中，语音翻译装置将原始源语言文本与指示中断输入语音的识别结果的文本相比较。然而，翻译方法不限于此比较。例如，类似部分可以由匹配的语音信号电平所检测。因此，可以进一步增加精确度。

在第一变形例子中，在目标语言文本的开始处检测到错误部分。然而，当在目标语言文本的中间处检测到错误部分时，可以执行相同的处理。

在第一变形例子中，语音翻译装置在对源语言说话者的输入语音的语音识别中产生错误。然而，在误译发生在对输入语音所执行的翻译处理中时，当目标语言说话者发出中断语音时，也可以使用第一变形例子的语音翻译装置。

如根据上述实施例所解释的，当语音翻译装置接收到来自源语言说话者的输入语音“円で”时，不管“円で”需被翻译成“yen”，语音翻译装置将“円で”翻译成“circle”。

如在上述实施例中，将描述以下过程，在英语说话者产生中断语音“Circle，you mean coin？”时执行该过程，同时语音翻译装置输出语音短语对(with circle，“円で”)。

例如，将“円”的多个对应的候选翻译保存在存储于语音翻译装置中的翻译词典内。第一优先候选项是“circle”。第二优先候选项是“yen”。在对来自源语言说话者的输入语音执行的翻译过程中，语音翻译装置选择第一优先候选项“circle”。

语音翻译装置检测来自英语说话者的中断语音，并且判断上述翻译可能是错误的。因此，当“円”包括在来自源语言说话者的下一个输入语音中时，语音翻译装置选择第二优先候选项“yen”作为翻译并且输出所选择的候选项。

此外，语音翻译装置可以比较包括在初始源语言文本中的短语“円”的对应候选翻译和包括在中断文本中的短语“coin”之间的语义相似度。

例如，语音翻译装置将“circle”和“coin”之间所计算出的相似度与“yen”和“coin”之间所计算出的相似度进行比较。语音翻译装置确定与“coin”具有较高相似度的“yen”为对应的翻译的候选选择。

由于诸如上述变形例子并入语音翻译装置，当语音识别错误或翻译错误出现在语音中时，此后可以输出一个校正结果，而不需要用户指定语音识别错误或翻译错误的位置。

可以将表示询问的特定短语(例如“you mean…”和“is it…”)登记在语音翻译装置中。当输入这些短语时，语音翻译装置可以判断已出现语音识别错误或翻译错误。

以此方式，语音翻译装置执行上述第一变形例子中的方法。通过识别中断语音和原始语音之间的匹配部分，语音翻译设备检测语音识别错误。通过利用相似度等等，语音翻译装置检测翻译错误。因此，可以增强语音翻译装置的翻译精确度。可以校正翻译错误和语音识别错误，而不需用户执行操作。因此，增加了可用性。

根据上述实施例和第一变形例子，语音翻译装置处理中断语音，同时输出语音短语对作为语音，其用于消除由被输出的短语中的翻译错误或语音识别错误引起的误解。然而，中断语音不限于诸如此类的语音。

根据实施例，语音翻译装置为源语言说话者提供输入语音的语音识别结果的反馈。然而，语音翻译装置不限于执行诸如此类的反馈。

在第一变形例子的语音翻译装置中，在翻译根据输入语音产生的源语言文本并且产生目标语言文本之后，将目标语言文本进一步重新翻译(逆向翻译)回源语言。将重新翻译的结果加到给源语言说话者的输出。

当第一变形例子的语音翻译装置将语音识别结果可听见地输出到说话者时，语音翻译装置增加噪声到输出语音中的短语并且输出短语，其中在内部处理的逆向翻译的结果和语音识别的结果之间的差异明显。因此，当用户收听输出语音时，语音翻译装置可以通知用户可能发生翻译错误。

例如，当语音翻译装置根据来自源语言说话者的输入语音“円で/払つていいですか？”来产生目标语言文本“May I pay/with circle？”时，语音翻译装置逆向翻译所产生的目标语言文本并且产生源语言文本“円周で/払つていいですか？”。

语音翻译装置按照每一个短语来比较原始语音识别结果“円で/払つていいですか？”和重新翻译的源语言文本“円周で/払つていいですか？”。换句话说，语音翻译装置首先比较“円周で”和“円で”，接着比较“払つていいですか？”和“払つていいですか？”。语音翻译装置计算出“円周で”和“円で”之间的一致度是60％。语音翻译装置计算出“払つていいですか？”和“払つていいですか？”之间的一致度是100％。将一致度的阈值设定为70％。

语音翻译装置根据主要的语音识别将短语(円周で，with circle)输出到说话者。然而，短语的一致度小于阈值。因此，噪声被加入了短语。

换句话说，即使当逆向翻译结果不同于原始语音的内容，这不一定指示翻译错误。当所有逆向翻译结果被输出到用户并且被检查时，出现逆向翻译引起的翻译错误。因此，虽然用户的负担增加了，但仅稍微改进了有利的效果。

因此，语音翻译装置将语音识别结果作为语音内容输出到用户，并且当逆向翻译之后的一致度小于阈值时增加噪声。因此，语音翻译装置可以将关于短语翻译的精确度有效地传达给用户。

利用上述方法，说话者可以同时接收关于逆向翻译结果的信息和语音翻译装置已识别出的文本。因此，即使当用户收听源语言短语并且判断语音识别结果正确时，通过收听增加到短语的噪声，可以通知用户发生错误的可能性。

如果判断短语具有显著噪声，则源语言说话者可以判断已发生翻译错误。因此，源语言说话者可以利用不同的短语表达说话，并且消除由翻译错误引起的与目标语言说话者之间的误解。因此，可以非常顺利地执行谈话。

根据实施例，语音翻译装置同时输出源语言短语和目标语言短语。然而，输出方法不限于此。例如，在将目标语言短语输出到目标语言说话者之前，语音翻译装置可以将源语言短语输出给源语言说话者。因此，在目标语言说话者收听目标语言短语之前，源语言说话者可以做出校正。以此方式，可以在目标语言短语输出和源语言短语输出之间提供时滞。

根据上述实施例，语音翻译装置通过语音输出源语言短语和目标语言短语。然而，输出方法不限于此。

作为第二变形例子，将描述语音翻译装置利用显示单元输出源语言短语和目标语言短语的例子。在第二变形例子中，语音翻译装置是小型的便携式终端。在终端的两个表面上都提供液晶显示器。当语音翻译装置接收到来自说话者的输入语音时，语音翻译装置在一个表面上显示源语言短语，而在另一个表面上显示目标语言短语。源语言说话者参考一个表面上的源语言短语，而目标语言说话者参考另一个表面上的目标语言短语。关于中断处理等等，可以通过中断语音接收中断，如上述实施例所述。

在第二变形例子的语音翻译装置中，在与上述实施例和第一变形例子中输出语音的时间同时的时间来显示源语言短语和目标语言短语。因此，可以达到如根据实施例和第一变形例子的那些效果相同的效果。

根据实施例，假定两个人(源语言说话者和目标语言说话者)使用语音翻译装置。然而，可以使用语音翻译装置的人数不限于两个人。可以扩展为允许很多人使用根据实施例的语音翻译装置。

根据实施例，当语音翻译装置接收到中断输入语音时，语音翻译装置可以通过输入语音产生所需要的尽可能多的中断层。当以此方式产生很多中断层时，即使当语音翻译装置递归返回到原始语音，返回原始语音的益处可能减少，因为用户已忘记原始语音的内容或已经完成通信。

因此，语音翻译装置可以自动取消原始语音。可以在语音翻译装置上提供用于取消原始语音的按钮等等，并且说话者可以人工取消原始语音。

因此，可以处理这些情况，例如当说话者之间的话题在中断期间改变时，或者当在听到来自语音翻译装置的输出语音之后，确定语音识别错误时。

如图16所示，语音翻译装置的硬件结构包括只读存储器(ROM)1602、中央处理器(CPU)1601、随机存取存储器(RAM)1603、通过总线1606互相连接的语音输入接口(I/F)1604和语音输出I/F1605。ROM 1602存储语音翻译装置中的语音翻译程序等等。CPU1601根据ROM 1602内的程序来控制语音翻译装置的每一个部件。RAM 1603存储需要用于控制语音翻译装置的各种数据。将来自说话者的语音信号输入到语音输入I/F 1604中。语音输出I/F 1605将这些语音信号输出到说话者。可以将语音翻译装置用于包括上述结构的公共计算机中。

将由根据实施例的语音翻译装置运行的语音翻译程序提供存储在计算机可读记录介质上，例如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)和多功能数字光盘(DVD)。将语音翻译程序以可安装的格式或可执行的格式存储为文件。

从语音翻译装置中的记录介质读取语音翻译程序并且执行语音翻译程序。因此，将语音翻译程序加载到主存储设备上。参考软件结构描述的上述每一个组件在主存储设备中产生。

也可以将由根据实施例的语音翻译装置运行的语音翻译程序存储在连接到网络(例如因特网)的计算机上。通过经由网络下载可以提供语音翻译程序。也可以经由网络(例如因特网)提供或分配由根据实施例的语音翻译装置所运行的语音翻译程序。

通过预先包括在ROM等等中，也可以提供根据实施例的语音翻译程序。

由根据实施例的语音翻译装置运行的语音翻译程序具有包括上述组件的模块结构。关于实际硬件，由于CPU(处理器)从记录介质读取语音翻译程序并且运行所读取的程序，将每一个组件加载到主存储设备上。接着，在主存储设备中产生每一个组件。

Claims

1.一种语音翻译装置，包括：

输入单元，其以第一语言输入语音；

语音识别单元，其识别所述语音并且产生第一文本；

翻译单元，其将所述第一文本翻译成第二语言并且产生第二文本；

第一划分单元，其将所述第一文本划分成多个第一短语；

第二划分单元，其将所述第二文本划分成多个第二短语；

关联单元，其将所述多个第二短语中的每一个与所述多个第一短语中的、在语义上等同于该第二短语的一个短语相关联；以及

输出单元，其按照所述第二文本内的短语顺序来顺序地输出第二短语和通过所述关联单元与第二短语相关联的第一短语。

2.如权利要求1所述的装置，其中：

在由所述输出单元输出第二短语和第一短语期间，所述输入单元能够输入语音；以及

当所述输入单元输入语音时，所述输出单元中断第二短语和第一短语的输出。

3.如权利要求2所述的装置，其中，在所述输出单元输出根据在输出期间输入到所述输入单元的语音而产生的第二短语和第一短语之后，所述输出单元输出根据其输出已被中断的语音而产生的第二短语和第一短语。

4.如权利要求1所述的装置，其中，所述输出单元几乎同时输出第二短语和第一短语。

5.如权利要求1所述的装置，还包括：

第一语音合成单元，其根据第一短语合成语音信号，其中，

所述输出单元输出第一短语的语音信号。

6.如权利要求1所述的装置，还包括：

第二语音合成单元，其根据第二短语合成语音信号，其中，

所述输出单元输出第二短语的语音信号。

7.如权利要求1所述的装置，其中：

所述关联单元将所述第二语言的每一个第二短语与在语义上等同于该第二短语的所述第一语言的第一短语相关联，以及

所述输出单元按照所述第二文本内的短语顺序来顺序地输出所述第二语言的第二短语和通过所述关联单元与第二短语相关联的所述第一语言的第一短语。

8.一种语音翻译方法，包括：

输入步骤，用于以第一语言输入语音；

识别步骤，用于识别所述语音并且产生第一文本；

翻译步骤，用于将所述第一文本翻译成第二语言并且产生第二文本；

第一划分步骤，用于将所述第一文本划分成多个第一短语；

第二划分步骤，用于将所述第二文本划分成多个第二短语；

关联步骤，用于将所述多个第二短语中的每一个与所述多个第一短语中的、在语义上等同于该第二短语的一个短语相关联；以及

输出步骤，用于按照所述第二文本内的短语顺序来顺序地输出第二短语和在所述关联步骤中与第二短语相关联的第一短语。

9.如权利要求8所述的方法，其中：

在所述输出步骤中输出第二短语和第一短语期间，能够在所述输入步骤中输入语音；以及

当在所述输入步骤中输入语音时，在所述输出步骤中断第二短语和第一短语的输出。

10.如权利要求9所述的方法，其中，在输出根据在输出期间在输入步骤中输入的语音而产生的第二短语和第一短语之后，在所述输出步骤中，输出根据其输出已被中断的语音而产生的第二短语和第一短语。

11.如权利要求8所述的方法，其中：

在所述关联步骤中，将所述第二语言的每一个第二短语与在语义上等同于该第二短语的所述第一语言的第一短语相关联，以及

按照所述第二文本内的短语顺序来顺序地输出所述第二语言的第二短语和在所述关联步骤中与第二短语相关联的所述第一语言的第一短语。