CN101154220A

CN101154220A - 机器翻译装置和方法

Info

Publication number: CN101154220A
Application number: CNA2007101497026A
Authority: CN
Inventors: 蚁生政秀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-25
Filing date: 2007-08-31
Publication date: 2008-04-02
Also published as: US20080077387A1; JP2008077601A

Abstract

一种机器翻译装置，包括：接收单元，用于接收多个语音的输入；检测单元，用于检测所述多个语音中的语音的说话者；识别单元，用于对所述多个语音执行语音识别；翻译单元，用于将识别结果翻译为翻译后的句子；输出单元，用于以语音输出所述翻译后的句子；以及输出控制单元，用于通过参考从接收到输出第一语音的处理阶段、相对于所述第一语音检测到的说话者以及相对于第二语音检测的说话者来控制语音的输出，其中，所述第一语音是所述多个语音中的首先输入的语音，所述第二语音是所述多个语音中的、在所述第一语音之后输入的语音。

Description

机器翻译装置和方法

技术领域

本发明涉及用于翻译输入语音并且输出翻译后的语音的装置和方法。

背景技术

近来，作为一种用于翻译输入语音并且输出作为翻译结果的翻译后的句子的机器翻译设备，已经开发了一种语音翻译系统，以通过将语音输入从源语言翻译为译文语言并且输出结果语音来辅助多语言交流。此外，语音交流系统被用来实现利用由用户输入的语音和输出到用户的语音的对话。

与这些语音翻译系统和语音交流系统相结合，提出了一种称作话音插入(barge-in)的技术，例如，根据日本专利No.3513232。利用话音插入技术，在系统正向用户输出语音时，当用户输入一打断语音时，系统改变输出控制过程从而系统停止输出语音，或者改变定时以根据由用户发出的语音的内容重新开始播放输出语音。

然而，根据日本专利No.3513232的方法是一种设计用于系统和用户之间的一对一的对话的技术，因此，系统不能管理用于常常出现在用于在多个用户之间作为媒介来传达对话的系统(例如语音翻译系统)中的中断语音的处理。

例如，在语音翻译系统中，当系统正输出由说话者发出的语音的翻译后的语音时，如果听者发出打断语音，并且听者使用不同于说话者的语言，那么系统需要在不干扰对话的情况下，向初始的说话者通知该打断语音。然而，传统的话音插入系统仅允许系统抑制它的输出语音以防打断语音，并且不能管理打断语音处理以避免损害用户之间的对话的自然性。

发明内容

根据本发明的一方面，一种机器翻译装置包括：接收单元，用于接收多个语音的输入；检测单元，用于检测所述多个语音中的语音的说话者；识别单元，用于对所述多个语音执行语音识别；翻译单元，用于将识别结果翻译为翻译后的句子；输出单元，用于以语音输出所述翻译后的句子；以及输出控制单元，用于通过参考从接收到输出第一语音的处理阶段、相对于所述第一语音检测到的说话者以及相对于第二语音检测的说话者来控制语音的输出，其中，所述第一语音是所述多个语音中的首先输入的语音，所述第二语音是所述多个语音中的、在所述第一语音之后输入的语音。

根据本发明的另一方面，一种机器翻译方法包括：接收多个语音的输入；检测所述多个语音中的语音的说话者；对所述多个语音执行语音识别；将识别结果翻译为翻译后的句子；以语音输出所述翻译后的句子；以及通过参考从接收到输出第一语音的处理阶段、相对于所述第一语音检测到的说话者以及相对于第二语音检测到的说话者来控制语音的输出，其中，所述第一语音是所述多个语音中的首先输入的语音，所述第二语音是所述多个语音中的、在所述第一语音之后输入的语音。

附图说明

图1是用于说明使用翻译装置的场景的示意性的视图；

图2是根据本发明第一实施例的翻译装置的功能框图；

图3是用于说明规则的表，基于该规则，图1所示的翻译装置决定输出过程；

图4是根据第一实施例的语音翻译处理的流程图；

图5是根据第一实施例的信息检测处理的流程图；

图6是根据第一实施例的输出过程决定处理的流程图；

图7到11是用于说明由图1所示的翻译装置输出的输出内容的示意性的视图；

图12到14是用于说明根据第一实施例的语音之间的对应关系的示意性的视图；

图15是根据本发明第二实施例的翻译装置的功能框图；

图16是用于说明根据第二实施例的语言信息表的示例性的数据结构的示意性的视图；

图17是根据第二实施例的输出过程决定处理的流程图；

图18是用于说明根据第二实施例的示例性的类属词典的示意性的视图；

图19是用于说明根据第二实施例的指示对象提取的例子的示意性的视图；

图20是用于说明根据第二实施例的显示单元的示例性的显示方法的示意性的视图；

图21是用于说明在根据第二实施例的示例句子翻译中的对应部分提取处理的例子的示意性的视图；

图22是根据本发明第三实施例的翻译装置的功能框图；

图23是用于说明规则的表，基于该规则，图22所示的翻译装置决定输出过程；

图24是根据第三实施例的输出过程决定处理的流程图；

图25是根据本发明第四实施例的翻译装置的功能框图；

图26是根据第四实施例的输出过程决定处理的流程图；

图27是用于说明根据第四实施例的语音和翻译结果的例子的示意性的视图；以及

图28是根据本发明实施例的翻译装置的硬件结构的框图。

具体实施方式

以下将参考附图详细描述本发明的典型实施例。

根据第一实施例的翻译装置根据与发出打断语音的说话者有关的信息以及语音翻译处理的处理状态来控制输出翻译结果的过程。以下，主要说明从日语到英语的机器翻译，然而，源语言和译文语言的组合不局限于此，任何语言的任何组合都可以被用于根据第一实施例的机器翻译。

图1描述了一示例情况，其中，三个说话者，即说话者A、说话者B和说话者C通过翻译装置100相互对话。也就是说，翻译装置100通过将由任一说话者发出的语音翻译为另一个说话者使用的语言并且以语音输出译文来中继说话者之间的对话。说话者不局限于三个，可以是超过一个的任意数量的人，翻译装置100中继它们的对话。

翻译装置100经由头戴送受话机200a、200b和200c来在说话者之间交换语音，每个头戴送受话机包括扬声器和话筒。根据第一实施例，假设每一个说话者的语音被独立地捕获到翻译装置100中。头戴送受话机200a、200b和200c具有共同的功能，因此在下面的说明中，它们有时被统称为头戴送受话机200。用于输入语音的方式不局限于头戴送受话机200，任何允许每一个说话者独立地输入他的/她的语音的方法都可以被使用。

可以配置其用于通过使用类似话筒阵列这样的多个话筒，并且使用声音从声源到达各个话筒的时间段之间的差以及声强的差来估计声源的方向，并且提取每一个说话者的语音。

此外，在第一实施例中，假设由说话者说出的原始语音可以由其它的说话者听到。然而，也可以配置为其他的说话者听不见由原始说话者发出的原始语音，准确地说，其他的说话者仅听得见从翻译装置100输出的翻译结果的语音输出。此外，可以配置为当输出由说话者发出的语音的翻译结果时，说话者可以听到他/她自己的语音的翻译结果。

如图2所示，翻译装置100包括：输入接收单元101、语音识别单元103、检测单元102、翻译单元104、输出控制单元105、以及语音输出单元106。

输入接收单元101接收由用户发出的语音。具体地，输入接收单元101将从如图1所示的由每一个说话者使用的头戴送受话机200输入的语音转换为电信号(语音数据)，然后根据脉冲编码调制(PCM)系统对语音数据进行模数转换以得到数字数据，并且输出转换后的数字数据。可以按照与用于语音信号的传统使用的数字化处理类似的方式来执行这种处理。

此外，输入接收单元101输出可以标识输入源的信息，准确地说，由各个说话者所戴的每一个头戴送受话机200的话筒的标识符。当使用话筒阵列时，输入接收单元101输出有关所估计的声源的信息，作为用于代替话筒的标识符来标识输入源的信息。

检测单元102检测是否存在语音输入以及语音输入的持续时间(语音区间)，并且检测语音输入源的说话者。具体来讲，如果声音持续的时间段较长并超过了阈值，那么检测单元102检测时间段作为语音区间。检测区间的方法不局限于此，还可以应用任何传统使用的语音区间检测技术，例如一种方法，如果一时间段与从语音的频率分析结果获取的语音模型有很强的相似性，那么该方法检测该时间段作为语音区间。

此外，检测单元102通过参考预先存储的话筒和说话者的标识符之间的对应信息，根据从输入接收单元101输出的话筒的标识符来确定输入源的说话者。当使用话筒阵列时，检测单元102可以配置为根据有关所估计的声源方向的信息来估计说话者。此外，检测单元102可以被配置为通过任何方法检测说话者，例如一种方法，其通过使用传统上已经使用的说话者标识技术来区分输入语音是否是已登记的说话者的语音。

检测单元102输出从每一个说话者提取的语音信号以及语音区间的检测结果。

语音识别单元103对从检测单元102输出的语音信号执行语音识别处理。通过使用线性预测编码(LPC)分析，隐马尔可夫模型(HMM)，动态规划，神经网络，N元语言模型等的，通常使用的任何语音识别方法都可以被用于语音识别处理。

翻译单元104翻译由语音识别单元103获得的识别结果。通过参考存储在存储单元(未显示)中的，由每一个说话者预先设置的信息来确定翻译的源的语言(源语言)以及翻译结果的语言(译文语言)。

传统已经使用的任何翻译技术都可以被用于由翻译单元104执行的翻译处理：例如，例句翻译技术，利用其，通过在示例句子中搜索输入语音，从而输出对应于语音输入的翻译后的句子(翻译结果)；基于规则的翻译技术，利用其，通过根据统计模型以及预定规则翻译输入语音，从而输出翻译后的句子(翻译结果)，等等。

假设根据需要，其它的单元可以获取由语音识别单元103和翻译单元104执行的处理的结果。

输出控制单元105通过参考以下内容，根据预定规则决定翻译结果的输出过程：各种处理的处理状态，例如语音接收处理，语音识别处理，翻译处理，翻译结果的输出处理；有关说话者的信息；有关打断语音的信息。

语音输出单元106例如通过语音合成，以语音输出由翻译单元104翻译的翻译后的句子(翻译结果)。

在图3中，显示了与当输入打断语音时，适合于由打断语音打断的语音的处理状态的，以及发出打断语音的说话者的，所执行的输出处理的细节有关的规则的例子。随后将说明由输出控制单元105执行的，用于决定输出过程的处理的细节。

输出控制单元105经由语音输出单元106输出由翻译单元104翻译的翻译结果。当输出时，输出控制单元105以译文语言输出合成语音的翻译结果。通常使用的任何合成话音的方法都可以被用于由语音输出单元106执行的话音合成处理，例如，通过音素的汇编的话音合成，共振峰话音合成以及基于话音全集的话音合成。

可以配置为，一同执行各种输出以及显示方法，或代替由语音输出单元106执行的语音输出而执行各种输出以及显示方法，例如，以译文语言在显示文本的显示设备上进行文本输出，或通过打印机将翻译结果输出为印刷文本。

如下描述由具有上述结构的翻译装置100执行的基本处理。开始，当说话者说话时，输入接收单元101接收语音，检测单元102检测语音区间和说话者。通过参考预定的语言信息，然后对输入语音执行语音识别和翻译，并且通过合成话音输出翻译结果。其他的用户收听翻译后的合成话音，并且可以理解由说话者发出的语音的内容。当在语音翻译的基本处理期间发出打断语音时，根据第一实施例的方法允许翻译装置100在没有干扰对话的情况下适当地输出翻译结果。

接下来，参照图4说明由翻译装置100执行的包括基本语音翻译处理的语音翻译处理。

开始，输入接收单元101接收由用户发出的语音的输入(步骤S401)。具体地，输入接收单元101将从头戴送受话机200的话筒输入的语音转换为电信号，然后对语音数据进行模数转换，并且输出转换后的语音的数字数据。

接下来，检测单元102执行信息检测处理，以根据语音数据检测语音区间和有关说话者的信息(步骤S402)。

接下来，语音识别单元103对由检测单元102检测到的语音区间内的语音执行语音识别处理(步骤S403)。语音识别单元103通过使用如上所述的传统的语音识别技术来执行语音识别处理。

接下来，翻译单元104翻译通过语音识别单元103获得的语音识别结果(步骤S404)。翻译单元104通过使用传统的翻译技术来执行翻译处理，例如如上所述的例句翻译或基于规则的翻译。

接下来，输出控制单元105决定采用输出过程(步骤S405)。

接下来，语音输出单元106根据由输出控制单元105决定的输出过程输出翻译结果(步骤S406)，然后结束语音翻译处理。

以下，预定的处理时间单位被称为帧。在图4中，为了简化说明，按照帧执行的处理(信息检测处理、输出过程决定处理)，以及按照检测到的语音区间执行的处理(语音识别处理、翻译处理和输出控制处理)被连续地描述。在实践中，每一个处理并行地执行。例如，根据由输出控制单位105作出的决定，在一些情况下，可以中止执行中的翻译处理。

接下来，参照图5说明在步骤S402的信息检测处理的细节。与一般的语音识别和对话技术类似，按照帧来执行信息检测处理。例如，假定10毫秒为一帧。如果在起动系统之后，在第一秒和第三秒之间输入了语音，那么意味着语音输入存在于第100帧和第300帧之间。

通过以这种方式将处理划分到每个时间单位中，在结束语音输入之前，可以并行地执行语音识别处理和翻译处理；例如，如果输入等于50帧的语音信号，那么起动那些处理；从而，可以在接近于输入语音的结尾的时间点输出处理结果。

在下列说明中，假设由用户经由话筒输入语音，可以相对于每一个话筒独立地处理语音，由每一个用户预先指定与语音翻译有关的、关于每一个话筒的用户的说话者信息，即，所讲的语言以及对应于语音输入的输出语言。

图5是由检测单元102对来自单个话筒的信号输入执行的每一帧的处理的流程图。相对于每一个话筒按照帧来执行图5所示的处理。

开始，检测单元102在处理来自话筒的输入中，基于帧中的信号检测语音区间(步骤S501)。如果检测单元102需要根据关于多个帧的信息来检测语音区间，那么检测单元102可以确定语音区间从在当前点之前退回所需数量的帧处开始。

然后检测单元102确定是否检测到语音区间(步骤S502)。如果未检测到任何语音区间(步骤S502：否)，那么检测单元102确定在来自用户的帧中未输入语音，并且终止处理，然后执行另一个处理，例如翻译处理。

如果检测到语音区间(步骤S502：是)，那么检测单元102通过参考预置的信息来获取与对应于输入源的头戴送受话机200的说话者有关的信息(步骤S503)。检测到语音区间的情况可以包含以下两种情况，一种情况是，其中接着前一帧检测到语音区间，一种情况是，其中第一次检测到语音区间。

然后，检测单元102输出指示检测到语音区间的信息，以及所获取的有关说话者的信息(步骤S504)，并且结束信息检测处理。

开始检测到语音的起始帧与之后未检测到语音的结束帧之间的时间段是语音区间。在上述例子中，从第100帧到第300帧，根据在话筒上执行的处理检测到语音，并且检测单元102输出有关检测到的语音的信息以及有关说话者的信息。因此，通过检测单元102可以获知是否存在来自用户的语音输入以及当存在语音输入时的有关说话者的信息。

接下来，参照图6说明步骤S405的输出过程决定处理的细节。为了说明其，假设与信息检测处理类似，按照帧来执行输出过程决定处理。

开始，输出控制单元105获取由检测单元102输出的有关语音区间的信息以及有关说话者的信息(步骤S601)。然后，输出控制单元105通过参考所获取的信息确定是否检测到语音区间(步骤S602)。

如果未检测到任何语音区间(步骤S602：否)，那么输出控制单元105不执行操作，或者继续已经确定的并且直到前一帧而执行的处理，并且结束当前帧中的输出过程决定处理。未检测到新的语音区间的情况可以包含以下两种情况，一种情况是，不存在语音，一种情况是，所检测到的语音与前一帧中的语音相同。

如果检测到语音区间(步骤S602：是)，则输出控制单元105获取每一个单元执行的处理的状态(步骤S603)。然后，输出控制单元105根据说话者和每一个单元的处理状态决定对于翻译结果的输出过程(步骤S604)。

具体地，输出控制单元105根据如图3所示的规则决定输出过程。

虽然图3中未显示，以下说明在当翻译单元104未执行处理并且未输出任何翻译结果的语音时检测到新的语音区间的情况下的输出过程决定处理。在这种情况下，输出控制单元105继续直到上一帧为止已经检测到的处理。也就是说，因为该情况不是打断语音，所以继续在上一帧中确定和继续的处理，例如输入接收处理或翻译处理。

图7是用于说明在这种情况下的输出内容的例子的示意性的视图。如图7所示，不存在对由说话者发出的语音701的打断语音，因此在结束语音701之后执行翻译处理，然后将翻译结果702输出到听者。

在图7中，水平轴表示时间轴，其指示当说话者说话时，在什么时间将翻译结果返回给听者。箭头描述语音对应于翻译结果。图7描述一例子，其中，在结束语音之后输出翻译结果，然而，可以配置为，类似于同声传译，同时执行翻译处理，并且在语音持续时间检测结束之前开始输出翻译结果。

接下来，说明适用于图3所示的规则的实例。在第一情况中，假设当已经检测到另一个语音并且还未检测到该语音的结束时，检测到一新的语音。第一情况对应于图3中的输出过程301，其中，当第一说话者正在说话时(第一语音)，听者进行打断。

在第一情况中，听者在未等待输出翻译结果的情况下说话，因此，第一语音对于听者是不需要的，该听者发出打断语音。然后，输出控制单元105选择输出过程，用于仅输出由听者发出的打断语音的翻译结果，而不输出由第一说话者发出的第一语音的翻译结果。

图8是用于说明在第一情况下的输出内容的例子的示意性的视图。如图8所示，在说话者首先发出语音801之后，在正常环境下，执行语音翻译，然后输出翻译结果802。然而，在第一情况中，听者发出打断语音803，抑制翻译结果802的输出，同时输出打断语音的翻译结果804。图8中的虚线指示其被抑制。

抑制翻译结果的输出的最简单的方式是语音输出单元不输出语音。因此，当听者需要紧急地向说话者说话时，通过抑制由第一说话者发出的第一语音的翻译结果的输出，可以实现具有较少等待时间的对话。抑制输出的方法不局限于此，可以应用任何方法，例如，调低输出的音量，从而抑制输出。

在第二情况中，假设当检测到由第一说话者发出的第一语音的语音区间的结束，并且在执行第一语音的翻译处理，同时还未输出其翻译结果时，检测到新的语音。在第二情况中，如果新的语音的说话者与第一说话者相同，则新的语音可以被认为是对第一语音的附加语音。

第二情况对应于图3中的输出过程302，其中，当第一说话者结束第一语音，并且正在处理语音翻译时，并且在输出第一语音的翻译结果之前，第一说话者进行打断。在第二情况中，输出控制单元105对该两个语音一同执行翻译处理，并且决定输出过程以输出对应于该两个语音的翻译结果。

图9是用于说明在第二情况下的输出内容的例子的示意性的视图。如图9所示，在第一说话者首先发出语音901之后，接下来检测到语音902。然后输出对应于语音901和语音902两者的翻译结果903。

因此，即使由于结巴语音被分离地检测为两部分，通过一同输出翻译结果，说话者也可以更准确地传达语音的意图。

在第三情况中，假设当检测到由第一说话者发出的第一语音的语音区间的结束，并且在执行第一语音的翻译处理，同时还未输出其翻译结果时，检测到新的语音；此外，新检测到的语音的第二说话者不同于第一说话者。第三情况对应于图3中的输出过程303，其中，当第一说话者结束第一语音，并且正在处理语音翻译时，并且在输出第一语音的翻译结果之前，听者进行打断。

在以下方面第三情况类似于第一情况(图3中的输出过程301)，即，在输出第一语音的翻译结果之前，听者发出打断语音，因此，输出控制单元105决定类似于输出过程301的输出过程303。

在第四情况中，假设当检测到新的语音时，正在以语音输出之前输入的第一语音的翻译结果，并且新检测到的语音也由第一说话者发出。第四情况对应于图3中的输出过程304，其中，当正在输出第一语音的语音翻译结果时，第一说话者进行打断。

在第四情况中，如果打断语音的新的语音区间超过了为说话者预定的阈值，则输出控制单元105中止执行中的翻译结果的语音输出，并且决定用语音输出打断语音的翻译结果的输出过程。

图10是用于说明在第四情况下的输出内容的例子的示意性的视图。如图10所示，假设说话者首先发出语音1001，然后，语音1001的翻译结果1002正在被输出。在输出翻译结果1002的期间，相同的说话者发出了打断语音1003，并且如果打断语音1003的长度超过了为说话者预定的阈值，则中止翻译结果1002的输出，并且输出打断语音1003的翻译结果1004。

因此，说话者可以纠正第一语音并且发出新的语音，而无需特殊的操作。此外，只有当打断语音的持续时间超过为说话者设定的阈值时，翻译装置100才打断之前的语音的翻译结果的输出，从而减少了错误的打断，即，由不相关的噪声打断输出，例如说话者的咳嗽。

在第五情况中，假设当检测到新的语音时，仍然正在输出之前输入的第一语音的翻译结果，并且新检测到的语音的说话者是听者。第五情况对应于图3中的输出过程305，其中，当正在输出语音翻译结果时，听者进行打断。

在第五情况中，可以假定一情况，其中，听者想要说话，甚至通过打断由说话者发出的语句。然而，应该避免由咳嗽，无意义的同意等等引起的误操作。因此，如果新的打断语音的持续时间超过了为听者预定的阈值，则输出控制单元105中止执行中的翻译结果的语音输出，并且决定用语音输出打断语音的语音翻译结果的输出过程。

图11是用于说明在第五情况下的输出内容的例子的示意性的视图。如图11所示，当正在响应于由第一说话者发出的语音1101而输出翻译结果1102时，听者发出打断语音1103，并且如果打断语音1103的长度超过了为说话者预定的持续时间，则翻译装置100中止翻译结果1102的输出，并且输出由听者发出的打断语音1103的翻译结果1004。

因此，听者可以立即应答由第一说话者发出的语音的翻译结果，并且可以尽快地传达响应于第一说话者的内容。此外，听者可以发出打断语音而不顾由说话者发出的语音，并且可以在不听不需要的语音的情况下对话。

通过为说话者和听者分别设置不同的阈值作为用于检测打断语音的时间段，可以为每一个发出打断语音的用户执行适当的处理。准确地说，当第一说话者发出打断语音时，第一说话者不可能向他/她自己点头，因此，阈值被设置为用于拒绝包括咳嗽在内的不相关的话的充足的时间段。另一方面，在对于听者的情况中，不希望由说话者发出的语音的翻译结果被听者的同意表示而打断，因此阈值被设置为比简单同意相对更长的时间段。

因此，根据第一实施例的翻译装置100能够根据有关发出打断语音的说话者的信息以及语音翻译处理的处理状态来控制待输出的翻译结果。因此，能够在不干扰对话的情况下适当地控制打断语音的翻译结果的输出。此外，翻译装置100可以尽可能以自然的方式对用户之间的语音执行翻译处理，并且输出其翻译结果。

此外，在结束第一说话者的语音之后，并且正在被翻译时，并且在输出语音的翻译结果之前，当第一说话者发出打断语音时，可以想到关于输出过程302的下列变形。

可以配置为输出控制单元105确定较后的语音是对第一语音的校正语音，然后决定输出过程以用后面的语音的翻译结果替换第一语音的翻译结果并且输出其。

此外，如果建立了后面的语音与第一语音的对应关系，则输出控制单元105可以被配置为决定一输出过程，以输出包括替换了第一语音中的对应部分的后面的语音的结果。以下参照图12到14说明在这种情况下的输出内容的例子。

在图12的例子中，对于第一语音1201执行形态分析和语法分析，第一语音1201的日语意思是“I′m going to LA tomorrow”，因此，语音1201被分成三块。对于后一(第二)语音1202执行相同的分析，其意思是“I′m going to Los Angeles tomorrow”，并且如果语音1202被分成三块1211，则在两组三个块之间执行动态规划(DP)匹配，以估计每一个块之间的对应关系。

因此，在该例子中确定第二块被重新叙述，因此，后一语音的第二块替换第一语音的第二块，并且对语音1203执行翻译处理，语音1203的意思是“I′m going to Los Angeles tomorrow”。

在图13的例子中，虽然用户发出意思为“I′m living In Kanagawaprefecture”的第一日语语音，但是由于错误的识别，输出了意思是“I′mliving In Kagawa prefecture”的识别结果1301，例如输出在未显示的显示设备上。然后用户发出没有主语的第二日语语音1302“living inKanagawa prefecture”(1311)，以纠正识别结果1301中的错误。

在这种情况下，在第二语音中省略主语，因此，仅从第二语音提取两个块以得到分析结果。接下来，类似于上述例子执行DP匹配，例如如下进行确定：相比较于第一语音，在第二语音中，遗漏了第一块，替换了第二块，并且第三块是相同的。因此，第一语音的三个块中的第二块被第二语音中的对应块替换，因此对意思为“I′m living inKanagawa prefecture”的语音1303执行翻译处理。

在图14中，描述了意思为“I′m living In Kagawa prefecture”的识别结果1401以及对应的音素1402。在该例子中，仅仅说了对应于错误块的字符串1403(“In Kanagawa prefecture”)，并且描述了字符串1403的音素1404。

通过这种方式，对以音素描述的语音执行DP匹配，并且如果在对应的区间中的音素的数量比预定数量更大，并且匹配的程度比阈值更大，那么可以确定第二语音是第一语音的部分重述。

例如，预定数量被设置为六个音素(近似等于三个音节)。作为用于计算匹配度的方法，通过使用音素精度，阈值被设置为例如70％。根据下列等式(1)计算音素精度(Acc)：

Acc＝100×(总音素数量-遗漏数量-插入数量-替换数量)/总音素数量 (1)

总音素数量是指第一语音的对应部分中的音素的总数。遗漏数量、插入数量以及替换数量分别是指相对于第一语音的、在第二语音中的被删除的、被添加的以及被替换的音素的数量。

上述例子中，“KagawakenNni”的总音素数量是11，相对于“KanagawakenNni”的遗漏数量是零，插入数量是2(“na”)，并且替换数量是零，因此Acc是82％。在这种情况下，音素数量(11)比预定数量(6)更大，并且匹配的程度比阈值(70％)更大，因此可以确定第二语音是重述语音。因此，第一语音的对应部分被重述语音替换，因此对意思为“I′m living in Kanagawa prefecture”的语音1405执行翻译处理。

因此，当在第二语音和第一语音之间建立了对应关系时，第二语音被确定为第二语音的重述，并且利用第二语音校正第一语音，因此，说话者可以更准确地传达语音的意图。

根据第二实施例的翻译装置1500指定第一语音期间的打断的点以及对应于包含在打断语音中的指示词的第一语音中的点，以向说话者呈现由说话者发出的源语音的内容。

如图15所示，翻译装置1500包括：存储单元1510、显示单元1520、输入接收单元101、语音识别单元103、检测单元102、翻译单元104、输出控制单元1505、指示对象提取单元1506以及对应部分提取单元1507。

在第二实施例中，翻译装置1500与第一实施例的不同在于添加了存储单元1510、显示单元1520、指示对象提取单元1506以及对应部分提取单元1507，并且输出控制单元1505的功能不同于第一实施例。因为翻译装置1500的其它的单元和功能与图1所示的根据第一实施例的翻译装置100的框图相同，所以，相同的参考标记被分配给相同的单元，并且省略了对它们的说明。

存储单元1510在其中存储语言信息表1511，该表在其中存储有关各个说话者的语言的信息。语言信息表1511可以利用任何通常使用的记录介质来构造，例如硬盘驱动器(HDD)，光盘，存储卡以及随机存取存储器(RAM)。

如图16所示，语言信息表1511在其中相关联地存储唯一标识说话者的信息(用户名)，以及说话者所使用的源语言的信息(语言)。

根据第一实施例，翻译装置100根据由每一个说话者预先指定的，有关从哪一种语言向哪一种语言执行翻译的信息来执行翻译。相反，根据第二实施例，通过使用语言信息表1511，翻译装置1500可以在没有重新输入语言信息的情况下，使用初始设置的语言，直到说话者改变。

此外，通过使用语言信息表1511，输出控制单元1505可以仅将一种翻译语言的翻译结果输出给使用该翻译语言的用户。例如，当日语用户、英语用户以及中文用户使用翻译装置1500时，翻译装置1500可以被配置为使得响应于由日语用户发出的语音，英语翻译结果仅被输出给英语用户，而中文翻译结果仅被输出给中文用户。

显示单元1520是一显示设备，其可以显示由语音识别单元103获得的识别结果以及由翻译单元104获得的翻译结果。可以通过接收来自输出控制单元1505的指令来改变显示内容。可以想到有关显示单元1520的单元数以及显示内容的各种实例。这里，作为在这种情况下的一个例子，假设每个用户装备有一个显示单元1520，其允许用户监视并收听，并且允许在翻译之前的打断语音的内容被显示给打断语音的说话者。

指示对象提取单元1506从被打断的语音的翻译结果提取包含在打断语音中的指示词所指示的指示对象。具体来讲，如果指示词(例如代词)包含在由不同于第一说话者的说话者发出的打断语音中，那么指示对象提取单元1506拾取直到发出打断语音时为止输出的被打断的语音的一部分，并且从该被打断的语音中提取对应于打断语音中的指示词的名词短语或动词短语。

对应部分提取单元1507提取翻译之前的语音的识别结果中的词与语音的翻译结果中的词之间的对应部分。以下，源句子中的词被称为源语言词，翻译后的句子中的词被称为翻译后的词。当通过基于规则的翻译执行翻译处理时，翻译单元104分析作为用于翻译处理的输入句子的识别结果，在预定规则下转换分析结果的树，并且利用翻译后的词替换源语言词。在这种情况下，对应部分提取单元1507可以通过比较转换前后的树结构，来提取源语言词和翻译后的词之间的对应部分。

除根据第一实施例的输出控制单元105的功能之外，输出控制单元1505还包括一功能，其通过参考由指示对象提取单元1506和对应部分提取单元1507获得的提取结果，从而在显示单元1520上显示输入句子，该输入句子附加有有关指示词的信息以及与对语音的打断有关的信息。

具体来讲，输出控制单元1505在显示单元1520上显示对应于由指示对象提取单元1506提取的指示对象的一部分输入句子，其附加有双下划线。此外，输出控制单元105在显示单元1520上显示对应于到发出打断语音的时间点时已经输出的翻译结果的部分输入句子，其附加有下划线。用于对应部分的显示格式不局限于下划线或双下划线，可以应用任何可以区别对应部分与其它词的格式，例如通过改变任何属性，例如字符的大小、颜色或字体。

接下来，说明由翻译装置1500执行的语音翻译处理。根据第二实施例的语音翻译处理几乎与图4所示的根据第一实施例的语音翻译处理类似，输出过程决定处理的细节不同。

具体来讲，在第二实施例中，除了按照与第一实施例相同的方式决定语音输出的内容的处理之外，翻译装置1500执行决定将显示在显示单元1520上的输出内容的处理。因为这些处理是独立的，所以以下仅说明后一处理，然而，在实践中，还并行地执行与第一实施例类似的前一处理。

以下参照图17说明由翻译装置1500执行的输出过程决定处理。

决定将显示的输出内容的处理的单个步骤不在一帧内完成。因此，图17描述了处理的流程，该处理假定在获取了所需数量的帧并且完成处理之后，将进行下一步，从而代替按照帧执行的处理的流程。

此外，当在输出翻译结果期间检测到新的语音时，并且其说话者不同于第一说话者时，将执行图17所示的处理。在其它条件下的处理以类似于如上所述的根据第一实施例的、图6所示的处理的方式执行。

开始，输出控制单元1505获取到检测到打断语音时为止已经输出的源语音的翻译结果中的词(步骤S1701)。

例如，假定第一说话者发出意思为“From now，I would like to goto XXX street and YYY street”的日语语音。作为翻译结果，翻译装置1500已创建了句子“From now，I would like to go to XXX street andYYY street”，并且正在输出该创建的翻译结果。

在输出翻译结果期间，在听者听到“XXX street”时，听者认为如果说话者去那里是危险的，并且发出语音“the street is dangerous foryou”。在该例子中，“From now，I would like to go to XXX street”被获取作为到检测到打断语音时为止已经输出的源语音的翻译结果中的词。

接下来，对应部分提取单元1507提取翻译之前的语音的识别结果中的，相对于所获取的词的对应部分(步骤S1702)。具体来讲，对应部分提取单元1507通过参考用于翻译的转换前后的树结构，从而提取识别结果中的、对应于翻译结果中的所述词的词。

在上述例子中，对应部分提取单元1507提取对应于“From now”、“I would like to”、“go to”以及“XXX street”的四个日语短语。

接下来，指示对象提取单元1506从打断语音的识别结果中检测指示词(步骤S1703)。当检测时，输出控制单元1505例如通过参考预先注册的词典(未显示)来检测用作指示词的词。在上述例子中，输出控制单元1505从打断语音的识别结果中获取“the street”作为用作代词的部分。

然后，指示对象提取单元1506提取源语音中的、所检测到的指示词所指示的指示对象(步骤S1704)。具体来讲，在下列处理中，指示对象提取单元1506提取指示对象。

指示对象提取单元1506从包含在被打断语音的识别结果中的词语中的、最接近于被打断的时间点的词语开始进行分析，从而分析它是否可以替换打断语音中的指示词。例如通过使用类属词典，根据词语的概念之间的距离来确定替换的可行性。类属词典是一种词典，其中，词语被按语意分类，例如，以使得靠上层的类包括具有概括意思的词语，并且下层的类包括更具体的词语。

在图18中，可以被用于局部地区的名称的，例如街道、道路以及大街这样的词语，例如“某某街道”，被分类入结点1801。

通过使用这种类属词典，指示对象提取单元1506可以确定节点之间的更短的距离表示更高的替换可能性。例如，街道所属的结点1801和国家级道路所属的结点1802之间的距离是2，因此，确定替换可能性相对较高。相反，街道和冰在日语中的发音(touri和kouri)彼此接近，然而，它们各自的节点(结点1801和结点1803)之间的距离较长，因此，确定替换可能性较低。

然后，指示对象提取单元1506计算指示语音的每个块与语音中的打断点之间的距离的分数与指示替换可能性的分数的和，并且假定具有较高的计算分数的部分是指示词的指示对象。评估指示词的指示对象的方法不局限于此，可以应用在语音交互技术中用于评估指示词的任何方法。

在图19中，以相关联的方式显示了在上述例子中处理的源语音的翻译结果以及指示从打断点开始的距离的数值。

指示对象提取单元1506分析词语“XXX street”，它最接近打断点，并且分析指示词“The street”以确定替换可能性。在该例子中，确定正被讨论的词语是可替换的，并且假定“XXX street”是指示词的指示对象。

返回图17，输出控制单元1505决定输出过程，其明确地声明直到在步骤S1702提取的打断点处的识别结果中的对应部分，以及在步骤S1704提取的指示对象(步骤S1705)。具体来讲，输出控制单元1505决定输出过程以在显示单元1520上显示识别结果，其中，对应部分附加有下划线，指示对象附加有双下划线。

图20是用于说明一屏幕的示意性的视图，其显示日语信息以向上述例子中的日语说话者通知打断。

在图20的上部，显示了用通过参考语言信息表1511而获取的语言表示的消息。在该例子中，消息表示为日语，其是日语消息2004，其意思是“下列语音被打断”。

此外，输出控制单元1505显示由第一说话者发出的语音的内容，并且显示对应于直到打断点为止已经输出给听者的部分的日语词2001以及2003，它们带有下划线。此外，输出控制单元1505显示对应于与打断点最接近的部分的日语词2002，其带有删除线。

此外，因为指示对象提取单元1506假定指示对象是“XXXstreet”，所以输出控制单元1505显示日语词2002(“XXX street”)，其带有双下划线，其指示它上面的词语是基于指示词的估计结果。

另一方面，翻译单元104对打断语音执行类似于第一实施例的翻译处理，作为翻译结果，语音输出单元106以语音输出意思为“thestreet is dangerous for you”的日语句子。因此，第一说话者可以清楚地掌握听者在输出由第一说话者他/她自己发出的语音的翻译结果的期间进行打断的事件，直到打断点为止已传达给听者的内容，以及由听者发出的打断语音中的“the street”所指的源语音中的对应部分。

在上述例子中，在翻译单元104通过使用基于规则的翻译技术来执行翻译处理的情况中说明了由对应部分提取单元1507执行的处理。相反，以下说明的是一情况，其中，翻译单元104通过使用例句翻译技术来执行翻译处理。

如图21所示，当用户发出意思为“I give some examples”的日语语音2101时，并且在语音识别之后，翻译单元104从在其中存储有例句的表(未显示)中搜索对应的例句，然后获取日语例句2102。

翻译单元104进一步从例句的表中获取对应于日语例句2102的翻译结果2103，并且输出翻译结果2103作为例句翻译的结果。预先准备表，因此，翻译结果2103和日语例句2102之间的对应关系可以预先登记。当翻译单元104比较语音和例句时，可以建立由用户发出的日语语音2101与日语例句2102之间的对应关系。因此，对应部分提取单元1507可以在可能的范围内提取作为翻译之前的语音的句子的识别结果与翻译之后的翻译结果之间的对应部分。

因此，翻译装置1500可以清楚地声明在语音中被打断的打断点，以及源语音中的、对应于包含在打断语音中的指示词的部分，以向说话者呈现源语音的内容。因此，说话者可以准确地掌握打断语音的内容，并且可以实现平滑地对话。

根据第三实施例的翻译装置2200根据打断语音的意图控制源语音的翻译结果的输出过程。

如图22所示，翻译装置2200包括：存储单元1510、显示单元1520、输入接收单元101、语音识别单元103、检测单元102、翻译单元104、输出控制单元2205、以及分析单元2208。

在第三实施例中，翻译装置2200与第二实施例的不同在于添加了分析单元2208，并且输出控制单元2205的功能不同于第二实施例。因为翻译装置2200的其它的单元和功能与图15所示的根据第二实施例的翻译装置1500的框图相同，所以，相同的参考标记被分配给相同的单元，并且省略了对它们的说明。

分析单元2208通过对语音的识别结果执行形态分析来分析语音的意图，并且提取指示语音的意图的预定的代表词。

作为代表词，用于表达同意的，例如“uh-huh”和“I see”这样的词，或意思为“sure”这样的词被登记在存储单元1510中。

除输出控制单元1505的功能之外，输出控制单元2205通过参考由分析单元2208分析的打断语音的意思来控制翻译结果的输出。

图23是用于说明当输出控制单元2205通过参考语音的意思来决定输出过程时的规则的示意性的视图。在图23中，用户被定义为三种类型，即，被打断的用户，使用与打断语音不同的语言的用户以及使用与打断语音相同的语言的用户；并且根据每一个代表词来关联用于各个用户的输出处理的规则的实例。

接下来，说明由翻译装置2200执行的语音翻译处理。根据第二实施例的语音翻译处理几乎与图4所示的根据第一和第二实施例的语音翻译处理类似，然而，输出过程决定处理的细节不同。

以下参照图24说明由翻译装置2200执行的输出过程决定处理。

从步骤S2401到步骤S2404的、根据用户和处理状态决定输出内容的处理类似于由翻译装置100执行的从步骤S601至步骤S604的处理。也就是说，基于图3所示的规则对打断语音执行处理。除此之外，根据第三实施例，执行根据用户和语音意图的用于输出内容的下列决定处理。翻译装置2200可以被用于执行从步骤S2405至步骤S2406的处理，以下说明其，以排它的方式在步骤S2404内进行。

首先，分析单元2208对打断语音的识别结果执行形态分析，并且提取代表词(步骤S2405)。具体来讲，分析单元2208从对于打断语音的识别结果的形态分析的结果中提取对应于一预先登记的代表词的词。如果在一帧中未获取任何打断语音，则不执行下列步骤。

接下来，输出控制单元2205决定适合于说话者以及由分析单元2208提取的代表词的输出过程。具体来讲，输出控制单元2205根据如图23所示的规则决定输出过程。以下说明决定处理的细节。

在第一情况中，其中，代表词是意思为同意的词2301，例如“uh-huh”或“I see”，不输出打断语音的翻译结果，继续执行被打断的翻译结果的输出。这可以防止翻译装置2200输出无意义的打断语音的翻译结果，其会扰乱对话。通过传统的话音插入技术可以实现继续打断的语音的方法。

在第二情况中，假设代表词是词语2302，其意思是同意被打断的翻译结果，例如“sure”。在第二情况中，打断语音的翻译结果不被输出到使用与打断说话者相同的语言的用户。这是因为用户通过听打断语音本身可以理解打断语音意味着赞成。

通过参考存在于存储单元1510中的语言信息表1511中的信息可以获取对应于每一个用户的语言。

另一方面，打断语音的翻译结果被输出到使用不同于由打断说话者使用的语言的语言的用户，因为需要通知打断语音意味着赞成。

在第三情况中，假设代表词是词2303，其意味着否定，例如“No”。在第三情况中，类似于对于词2302的第二情况，打断语音的翻译结果不被输出到使用与打断说话者相同的语言的用户。

打断语音的翻译结果被输出到使用不同于由打断说话者使用的语言的语言的用户，因为需要通知打断语音意味着否定。当向被打断的说话者输出翻译结果时，翻译结果被附加意思为“Excuse me”的词，然后输出给被打断的说话者，以避免由于打断语音造成的粗鲁。相反，对于其他的用户不需要这种考虑，因此，直接输出输入句子的翻译结果。

这些处理减少了打断语音给被打断的说话者带来粗鲁的印象的可能性，并且使得对话平滑地进行。

如果代表词不属于任何上述类型，那么打断语音的翻译结果不被输出到使用与打断说话者相同的语言的用户，并且翻译结果被输出到其他的用户。因此，这些处理可以省略使得打断语音的翻译结果被传输给使用与打断说话者相同的语言的用户的冗余的处理。

此外，可以针对不同的语言设置不同的有关代表词、前缀以及对应于该代表词的处理的信息。此外，其可以被配置为参考有关被打断的语音的语言以及打断语音的语言的信息。因此，例如，如果英语用户以日语表示同意，则可以执行对于打断语音的处理。

因此，翻译装置2200可以根据打断语音的意图控制源语音的翻译结果的输出过程。这可以防止翻译装置2200输出不必要的打断语音的翻译结果，它会导致干扰对话。

在处理多种不同的语言的语音翻译系统中，当由使用不同于被打断的语音的语言的打断说话者发出打断语音时，如由传统的话音插入技术所提供的手段，难以通过仅控制到打断说话者的输出来通知打断语音的意图。

根据日语专利No.3513232的一种方法不能处理为语音翻译系统所特有的一种情况，例如，当在语音翻译系统输出翻译结果之前，另一个用户发出了打断语音。

根据第四实施例的翻译装置2500控制输出以将翻译结果的输出内容匹配到各个用户，当三个或更多用户使用翻译装置2500时，第一说话者(第一用户)的语言不同于发出打断语音的听者(第二用户)的语言，并且另一个用户(第三用户)的语言不同于使用翻译装置2500的其他两个用户的语言。

如图25所示，翻译装置2500包括：存储单元1510、显示单元1520、输入接收单元101、语音识别单元103、检测单元102、翻译单元104、输出控制单元2505、对应部分提取单元1507。

在第四实施例中，翻译装置2500与第二实施例的不同在于省略了指示对象提取单元1506，并且输出控制单元2505的功能不同于第二实施例。因为翻译装置2500的其它的单元和功能与图15所示的根据第二实施例的翻译装置1500的框图相同，所以，相同的参考标记被分配给相同的单元，并且省略了对它们的说明。

以下，由第一用户使用的语言被称为第一语言，由第二用户使用的语言被称为第二语言，并且不同于第一语言和第二语言的语言被称为第三语言。当第一语言和第二语言不同时，翻译装置2500进行控制以用第三语言向使用第三语言的第三用户输出翻译结果的一部分，该部分对应于直到打断语音为止已经用第二语言输出给第二用户的由第一说话者发出的第一语音的一部分翻译结果。第三语言的翻译结果的输出部分对应于由第一用户发出的第一语音的翻译结果中的、以第二语言输出给第二用户的部分。

接下来，说明由翻译装置2500执行的语音翻译处理。根据第四实施例的语音翻译处理几乎与图4所示的根据第一到第三实施例的语音翻译处理类似，然而，输出过程决定处理的细节不同。

具体来讲，根据第四实施例，除了通过类似于第二实施例的处理的输出过程决定处理之外，对于第三语言的第三用户还执行另一个输出过程决定处理。在下列说明中，仅提取后一处理进行说明，然而，在实践中，类似于第二实施例的处理也并行地执行。

以下参照图26说明由翻译装置2500执行的输出过程决定处理。

以下，在以第二语言输出的翻译结果中，直到检测到打断语音为止已经输出的部分被称为翻译后的词1。输出控制单元2505首先获取翻译后的词1(步骤S2601)。

以下，源语音的识别结果中的对应于所获取的翻译后的词1的对应部分被称为源语言词1。然后，对应部分提取单元1507提取源语言词1(步骤S2602)。通过参考转换前后的树结构来提取对应部分，类似于第二实施例。

接下来，输出控制单元2505获取需要输出的语言(步骤S2603)。具体来讲，输出控制单元2505从语言信息表1511获取用于使用翻译装置2500的用户的语言，并且从所获取的语言中获取一种语言。

以下，在所获取的语言的翻译结果中，对应于在步骤S2602获取的源语言词1的部分被称为翻译后的词2。然后，对应部分提取单元1507提取翻译后的词2(步骤S2604)。

接下来，输出控制单元2505决定输出过程，以至少输出直到所有获取的翻译后的词2被输出时的翻译结果(步骤S2605)。因此，可以输出源语言词中的、对应于直到打断点时已经输出的第二语言的部分翻译结果的部分，作为除了第二语言外的语言的翻译结果。

然后输出控制单元2505确定是否所有的语言都被处理了(步骤S2606)，如果所有的语言还未被处理完(步骤S2606：否)，那么输出控制单元2505获取下一个语言，并且重复该处理(步骤S2603)。如果所有的语言都已处理(步骤S2606：是)，则输出控制单元2505结束输出过程决定处理。

接下来，参照图27说明根据第四实施例将处理的信息的更具体的例子。

在图27所示的例子中，假设第一说话者以语言1发出语音2701。语音2701被示意性地表示为结果字符串，通过分析输入句子，翻译单元104将输入句子按照预定的单位分割为所述结果字符串。例如，“AAA”和“BBB”中的每一个是分割后的单元。

以语言2和语言3对语音2701执行翻译处理，并且分别输出翻译结果2702和翻译结果2703。与语音2701中的分割后的单元相同的字符串指示每一个翻译结果中的各个对应部分。

另一方面，由于语言的语法规则上的差别、遗漏等等，可能出现一些在源语音和翻译结果之间不对应的部分。在图27中，与语音2701中的分割后的单元不一致的字符串指示翻译结果中的不对应于源语音的任何部分的部分。例如，在图27中，语言2的翻译结果2702中的“GGG”不对应于语音2701的任何部分。

图27描述了语言2的说话者在一时间点发出了打断语音，直到该时间点，已经输出了语言2的翻译结果2702中的直到“GGG”处的部分。在这种情况下，根据第四实施例，装置2500在刚打断之后不中止语言3的翻译结果2703的输出，然而，可以在输出对应于已经以语言2输出的部分的部分之后停止输出处理。以下说明这种过程的一具体例子。

开始，输出控制单元2505获取语言2的字符串“EEE DDDGGG”，直到检测到打断语音时，已经输出了它们(步骤S2601)。接下来，对应部分提取单元1507从翻译之前的输入句子中提取对应部分“DDD EEE”(步骤S2602)。

然后，对应部分提取单元1507从语言3的翻译结果中提取对应于所提取的部分“DDD EEE”的部分(步骤S2604)。在该例子中，对应的分割后的单元都存在于语言3中，因此，提取“DDD EEE”。

因此，输出控制单元2505决定输出过程，以用语言3输出直到“DDD EEE”处的翻译结果(步骤S2605)。在该例子中，当发出打断语音时，语言3的翻译结果仅输出到“BBB AAA CCC”，然而，通过监视每一个帧中的处理，继续翻译结果的输出直到“DDD EEE”被输出。

因此，语言3的翻译结果的输出是“BBB AAA CCC DDD EEE”。因此，当输入打断语音时，输出控制单元2505不抑制所有翻译结果的输出，用户共享由打断点传达的内容，从而避免对话上下文的不连续。

当如上所述将翻译结果输出给不同的三种语言的各个用户时，翻译装置2500可以用于通过改变合成话音的参数，从而以清楚的可辨别的方式来输出源语音和打断语音。作为用于话音合成的参数，可以使用任何参数，例如话音的性别，话音质量的特征，说话的平均速度，话音的平均音高以及平均音量。

例如，在上述例子中，第一语音(语言1)和打断语音(语言2)被独立地翻译并且两个翻译结果被输出到第三用户。当输出翻译结果时，以预定的范围改变用于翻译结果的话音合成参数。因此，用户可以清楚地掌握打断语音的存在。

因此，当第一说话者与发出打断语音的听者之间的语言不同时，翻译装置2500可以将待输出给使用不同语言的另一个用户的翻译结果的输出内容匹配到对于其他的两个的内容。因此，可以避免由上下文的不连续而引起的谈话之间的扰乱。

接下来，说明根据第一到第四实施例的翻译装置的硬件结构。

如图28所示，翻译装置包括例如中央处理单元(CPU)51的控制设备，例如只读存储器(ROM)52和随机存取存储器(RAM)的存储设备，连接到网络以进行通信的通信接口(I/F)54，以及连接每一个单元的总线61。

通过预先将其存储到ROM 52中来提供在根据第一至第四实施例的翻译装置上执行的机器翻译程序。

可以在记录在计算机可读记录介质中的，可安装格式或可执行格式的文件中提供在翻译装置上执行的机器翻译程序，所述计算机可读记录介质例如：只读光盘(CD-ROM)，软磁盘(FD)，可记录光盘(CD-R)以及数字多用途盘(DVD)。

此外，可以通过存储在连接到例如因特网这样的网络的计算机中，并且经由网络由翻译装置下载来提供机器翻译程序。或者，可以经由例如因特网的网络来提供或分发机器翻译程序。

机器翻译程序具有包括如上所述的每一个单元的模块结构(输入接收单元、语音识别单元、检测单元、翻译单元、输出控制单元、指示对象提取单元、对应部分提取单元以及分析单元)。作为实际的硬件，在主存储器上加载并创建每一个单元，CPU 51从ROM 52读出机器翻译程序并且执行该程序。

Claims

1.一种机器翻译装置，包括：

接收单元，用于接收多个语音的输入；

检测单元，用于检测所述多个语音中的语音的说话者；

识别单元，用于对所述多个语音执行语音识别；

翻译单元，用于将识别结果翻译为翻译后的句子；

输出单元，用于以语音输出所述翻译后的句子；以及

输出控制单元，用于通过参考从接收到输出第一语音的处理阶段、相对于所述第一语音检测到的说话者以及相对于第二语音检测的说话者来控制语音的输出，其中，所述第一语音是所述多个语音中的首先输入的语音，所述第二语音是所述多个语音中的、在所述第一语音之后输入的语音。

2.根据权利要求1所述的装置，其中，当所述第一语音的说话者不同于所述第二语音的说话者时，所述输出控制单元控制不输出所述第一语音的翻译后的句子，而输出所述第二语音的翻译后的句子。

3.根据权利要求1所述的装置，其中，当所述第一语音的说话者不同于所述第二语音的说话者时，并且当所述第一语音的翻译后的句子正在被输出时，所述输出控制单元进行控制以停止所述第一语音的翻译后的句子的输出，而输出所述第二语音的翻译后的句子。

4.根据权利要求1所述的装置，其中，当所述第一语音的说话者不同于所述第二语音的说话者时，并且当所述第一语音的翻译后的句子正在被输出时，并且当所述第二语音的语音区间比第一阈值更长时，所述输出控制单元进行控制以停止所述第一语音的翻译后的句子的输出，而输出所述第二语音的翻译后的句子。

5.根据权利要求4所述的装置，其中，当所述第一语音的说话者与所述第二语音的说话者相同时，并且当所述第一语音的翻译后的句子正在被输出时，并且当所述第二语音的语音区间比第二阈值更长时，所述输出控制单元进行控制以停止所述第一语音的翻译后的句子的输出，而输出所述第二语音的所述翻译后的句子。

6.根据权利要求5所述的装置，其中，所述输出控制单元通过使用比所述第一阈值小的所述第二阈值来控制所述翻译后的句子的输出。

7.根据权利要求1所述的装置，其中，当所述第一语音的说话者与所述第二语音的说话者相同时，并且当所述接收单元完成接收所述第一语音时，所述输出控制单元进行控制以输出所述第一语音的翻译后的句子以及所述第二语音的翻译后的句子。

8.根据权利要求1所述的装置，其中，当所述第一语音的说话者与所述第二语音的说话者相同时，并且当所述接收单元完成接收所述第一语音时，所述输出控制单元控制不输出所述第一语音的翻译后的句子，而输出所述第二语音的翻译后的句子。

9.根据权利要求1所述的装置，其中，当所述第一语音的说话者与所述第二语音的说话者相同时，并且当所述接收单元完成接收所述第一语音时，所述输出控制单元进行控制以用所述第二语音替换所述第一语音中的、对应于所述第二语音的部分，并且输出替换后的第一语音的翻译后的句子。

10.根据权利要求1所述的装置，还包括：

对应部分提取单元，用于提取包含在所述语音的识别结果中的源语言词与包含在所述语音的翻译后的句子中的翻译后的词之间的对应部分；以及

显示单元，用于显示所述第一语音的识别结果；其中

当所述第一语音的说话者不同于所述第二语音的说话者时，所述输出控制单元进行控制以获取在所述第二语音的开始之前被输出的所述第一语音的翻译后的句子中的翻译后的词，并且根据所述对应部分获取对应于所获取的翻译后的词的源语言词，并且按照与除了所获取的源语言词之外的源语言词不同的显示方式将所获取的源语言词输出到所述显示单元。

11.根据权利要求1所述的装置，还包括：

指示对象提取单元，用于当所述第二语音的识别结果包括引用指示对象的指示词时，从所述第一语音的翻译后的句子提取所述指示对象；以及

显示单元，用于显示所述第一语音的识别结果；其中

所述输出控制单元进行控制以按照与除了所述指示对象以外的词不同的显示方式来将所提取的指示对象输出到所述显示单元。

12.根据权利要求1所述的装置，还包括：存储单元，用于以相关联的方式存储说话者和语言，其中，所述翻译单元从所述存储单元获取对应于除了所检测到的说话者之外的说话者的语言，并且将由所述识别单元获得的识别结果翻译为所获取的语言的翻译后的句子。

13.根据权利要求1所述的装置，还包括：分析单元，用于根据所述语音的识别结果分析所述语音的语义内容，其中，所述输出控制单元进行控制以根据分析后的语义内容输出所述翻译后的句子。

14.根据权利要求13所述的装置，其中，所述分析单元通过从所述语音的识别结果中提取代表词来分析所述语义内容，所述代表词指示语音的意图并且被预先定义。

15.根据权利要求14所述的装置，其中，

所述分析单元从所述第二语音的识别结果中提取指示同意的意图的代表词，并且分析所述第二语音以确定所述第二语音是否意味着同意，以及

当所述第二语音表示同意时，所述输出控制单元进行控制以输出所述第一语音的翻译后的句子，而不输出所述第二语音的翻译后的句子。

16.根据权利要求1所述的装置，还包括：对应部分提取单元，用于提取包含在所述语音的识别结果中的源语言词与包含在所述语音的翻译后的句子中的翻译后的词之间的对应部分，其中

当所述第一语音的第一语言不同于所述第二语音的第二语言时，所述输出控制单元进行控制以获取在所述第二语音的开始之前被输出的第二语言的翻译后的句子中的翻译后的词，并根据所述对应部分获取对应于所获取的翻译后的词的源语言词，以及

当用不同于所述第一语言和所述第二语言的第三语言来输出翻译后的句子时，所述输出控制单元进行控制，以根据所述对应部分获取所述第三语言的翻译后的句子中的、对应于所获取的源语言词的翻译后的词，并且用所述第三语言输出所述翻译后的句子中的所获取的翻译后的词。

17.根据权利要求1所述的装置，其中，所述输出单元通过合成一合成话音来输出所述翻译后的句子。

18.根据权利要求17所述的装置，其中，当以第三语言输出所述翻译后的句子时，所述输出控制单元进行控制以用所述第三语言、以合成话音输出所述第二语音的翻译后的句子，其中，所述第三语言不同于所述第一语音的第一语言以及所述第二语音的第二语言，所述合成话音是利用与用于以第三语言来输出所述第一语音的翻译后的句子的合成话音的属性不同的属性而合成的，所述合成话音的属性至少包括语音的速度、话音的音高、话音的音量以及话音的质量中的至少一个。

19.一种机器翻译方法，包括：

接收多个语音的输入；

检测所述多个语音中的语音的说话者；

对所述多个语音执行语音识别；

将识别结果翻译为翻译后的句子；

以语音输出所述翻译后的句子；以及

通过参考从接收到输出第一语音的处理阶段、相对于所述第一语音检测到的说话者以及相对于第二语音检测到的说话者来控制语音的输出，其中，所述第一语音是所述多个语音中的首先输入的语音，所述第二语音是所述多个语音中的、在所述第一语音之后输入的语音。