CN104462070A

CN104462070A - 语音翻译系统和语音翻译方法

Info

Publication number: CN104462070A
Application number: CN201410471705.1A
Authority: CN
Inventors: 河村聪典; 住田一男; 釜谷聪史
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-19
Filing date: 2014-09-16
Publication date: 2015-03-25
Also published as: JP2015060423A; US9280539B2; US20150081274A1

Abstract

第一语音输入设备捕获第一语言的语音。第一语音输出设备输出第一语言的另一个语音。第二语音输入设备捕获第二语言的语音。第二语音输出设备输出第二语言的另一个语音。在语音识别/翻译服务器中，第一语音识别设备接收来自第一语音输入设备的第一语言的第一发言语音，并识别该第一发言语音。第一机器翻译设备连续地将识别结果的第一语言翻译为第二语言而无需等待所述第一发言语音完成。第一语音合成设备生成翻译结果的第二语音。通过调节第一发言语音的音量至小于第二语音的音量，第一输出调节设备将第一发言语音和第二语音输出至第二语音输出设备。

Description

语音翻译系统和语音翻译方法

技术领域

此处描述的实施例一般地涉及语音翻译系统和语音翻译方法。

背景技术

语音翻译系统的实际应用正在不断进步。例如，NTT DOCOMO有限公司于2012年启动的语音翻译服务，如“hematite honyaku”。该服务不仅支持面对面的语音翻译服务，还支持非面对面的语音翻译服务。在面对面的语音翻译服务中，两个用户通常利用一个语音翻译终端，并且两个用户共同面对的交谈受到语音翻译的影响。此外，在非面对面语音翻译服务中，两个位于远程的用户通过诸如电话的呼叫设备进行的对话受到语音翻译的影响。

面对面语音翻译服务中，在通常由两个用户拥有的语音翻译终端上会为两个用户各自的语言准备发言开始按钮和发言完成按钮。当两个说不同的语言(例如，日语、英语)的用户以各自的语言交谈时——在按下开始按钮之后——两个用户以各自的语言进行发言。然后，当两个用户中的第一用户完成发言时，该第一用户按下发言完成按钮。此处，作为所述发言完成按钮的替代，第一用户的发言可通过对安静间隙进行检测自动完成。

因此，语音翻译终端的屏幕上语音识别结果和翻译结果被显示为字符串。此外，该翻译结果被作为语音通过另一方(两个用户中的第二用户)的扬声器输出。现在，注视着屏幕的第二用户以相同的方式操作进行发言。在这里，翻译结果被通过第一用户的扬声器输出。这样，通过重复相同的操作，两个用户可以通过语音翻译终端进行交谈。

在非面对面语音翻译服务中，第一用户A进行比如[按下发言开始按钮]->[发言]->[按下发言完成按钮]操作。在这种情况下，第二用户B(另一方)可通过电话听到诸如[用户A按下发言开始按钮发出的通知音“噼！”]->[用户A的发言]->[用户A按下发言完成按钮发出的通知音“噼！”]->[翻译结果的语音]。随后，通过相互重复该操作，可以执行通过语音翻译的交谈。

在该语音翻译装置中，在一个用户的发言完成之后，通过显示器或扬声器输出语音翻译结果。因此，与通过常规交谈进行的交流相比较，另一个用户需要很长的时间来理解该用户的意图。

为了解决该问题，下述参考文献中提出了面对面同步翻译系统。

(参考文献1)JP公开号2002-27039

(参考文献2)“Evaluation of a Simultaneous Interpretation Systemfor Continuous-Speech Conversation”,Information Processing Society ofJapan(IPSJ)SIG technical reports,2013-HCI-151(17),1-99,2013-01-25

在面对面同步翻译系统中，在两个用户正在进行发言的同时，自动地检测其中的翻译单元，并且根据用户的发言显示翻译结果。在这种情况下将无需等待用户发言的完成即通知翻译结果。因此，一个用户理解另一个用户的意图所需的必要时间被减少了，并且用户们可以流畅地进行交流。

设想在同步语音翻译系统中的面对面语音翻译服务。即使在发言的同时连续地显示翻译结果，没有问题发生。但是，在应用了同步语音翻译系统的非面对面语音翻译服务中，当(连续翻译的)翻译结果的语音与讲话者(用户A)的原始语音相叠加进行输出时，对于倾听者(用户B)而言难以听到翻译结果的语音。

为了解决该问题，如果翻译结果的语音在讲话者的发言完成之后输出，倾听者可轻易地听到该翻译的语音。但是，在该方法中，对于倾听者而言花费了大量的时间来理解讲话者的意图。结果是，用户A与B之间的交流不能被流畅的实现。

此外，可考虑不输出讲话者的原始语音而是输出翻译结果的语音以避免语音的叠加的方法。在该方法中，倾听者仅听到翻译结果的语音而听不到讲话者的原始语音。这样，对于倾听者而言难以与发言时序同步。例如，当翻译结果的语音中顿时，有两种情况被考虑。作为第一情况，在讲话者的发言被完成之后，其处于等待倾听者的发言的情况。作为第二情况，讲话者持续地进行具有中顿的发言。由于两个用户(讲话者和倾听者)处于远距离的位置，对于他们来说难以理解他们的发言是上述两个情况下的哪一个。因而他们的交谈是不流畅的。

发明内容

实施例提供的语音翻译系统和语音翻译方法能够轻易地同步用户之间的相互发言时序并使他们之间能够流畅地进行交流。

根据一个实施例，语音翻译系统包括第一语音装置，第二语音装置，以及语音识别/翻译服务器。第一语音装置包括至少捕获第一语言的语音的第一语音输入设备，和输出第一语言的另一个语音的第一语音输出设备。第二语音装置包括至少捕获第二语言的语音的第二语音输入设备，和输出第二语言的另一个语音的第二语音输出设备。语音识别/翻译服务器执行第一语音装置与第二语音装置之间的语音翻译。该服务器包括第一语音识别设备、第一机器翻译设备、第一语音合成设备、以及第一输出调节设备。第一语音识别设备接收来自第一语音输入设备的第一语言的第一发言语音，并且识别该第一发言语音。第一机器翻译设备持续地将识别结果的第一语音翻译为第二语言而无需等待第一发言语音完成。第一语音合成设备生成翻译结果的第二语音。通过调节第一发言语音的音量调节至小于第二语音的音量，第一输出调节设备第一发言语音和第二语音输出至第二语音输出设备。

根据实施例，可以被提供的语音翻译系统和语音翻译方法能够轻易地同步用户之间的相互发言时序并且能够使他们之间流畅地进行交流。

附图说明

图1为根据多个实施例的语音翻译系统全部组件的示意图。

图2为语音翻译系统的主体部分的组件的框图。

图3为根据第一实施例的第二输出调节设备运行的流程图。

图4为根据第一实施例的输出语音的时序图。

图5为根据第二实施例的第二输出调节设备运行的流程图。

图6为根据第二实施例的输出语音的时序图。

图7为根据第三实施例的第二输出调节设备运行的流程图。

图8为根据第三实施例的输出语音的时序图。

具体实施方式

图1为根据本实施例的语音翻译系统的全部组件的示意图。用户终端A(100)为第一语音设备。作为用户终端A(100)，便携式外壳配备了扬声器111、显示器112、麦克风113、以及语音输入按钮114。类似地，用户终端B(200)为第二语音设备。作为用户终端B(200)，便携式外壳配备了扬声器211、显示器212、麦克风213、以及语音输入按钮214。扬声器111和211通过语音输出(来自该设备的)翻译结果。显示器112和212显示语音识别结果和翻译结果。麦克风113和213捕获用户的发言语音。语音输入按钮114和214指示开始捕获所述发言语音。

用户终端A(100)和用户终端B(200)通过网络300上的语音识别/翻译服务器400相互连接。通过该连接，提供利用便携式电子设备如智能手机的语音翻译系统。网络300可能是任何无线通信和有线通信。而且，本实施例的语音翻译系统不限于图1的组件。例如，该系统可被施加至使用个人计算机的电视会议系统。

(第一实施例)

图2为根据第一实施例的语音翻译系统的主要组件的框图。

在该语音翻译系统中，对于说第一语言(如日语)的用户A和说第二语言(如英语)的用户B，在他们之间执行语音翻译。为了处于远程的用户A和B进行双向的交谈，用户终端A(100)配备了第一语音输入设备110和第一语音输出设备120。类似地，用户终端B(200)配备了第二语音输入设备230和第二语音输出设备240。第一语音输入设备110等效于图1中的麦克风113，并且第一语音输出设备120等价于图1中的扬声器111。此外，第二语音输入设备230等效于图1中的麦克风213，并且第二语音输出设备240等效于图1中的扬声器211。

(安装在两个终端之间的网络上的)语音识别/翻译服务器400包括两个语音翻译装置401和402、第一输出调节设备470、第二输出调节装置480、以及控制设备490。

语音翻译装置401包括第一语音识别设备410、第一机器翻译设备430、以及第一语音合成设备450。语音翻译装置401识别接收到的第一语音，并且输出翻译结果的第二语音。此外，语音翻译装置402包括第二语音识别设备420、第二机器翻译设备440、以及第二语音合成设备460。语音翻译装置402识别接收到的第二语音，并且输出翻译结果的第一语音。在下文中将阐述处理的细节。

第一语音识别设备410接收并捕获发送自用户终端A(100)的第一语音输入设备110的第一语言的语音。第一机器翻译设备430将(通过第一语音识别设备410识别的)第一语言的语音识别结果参考翻译字典(图2中未示出)翻译为第二语言，并且将该翻译结果输出至第一语音合成设备450。第一语音合成设备450生成(第一机器翻译设备430输出的)第二语言的所述翻译结果的语音合成信号，并将该语音合成信号输出至用户终端B(200)的第二语音输出设备240。

另一方面，第二语音识别设备420接收并捕获发送自用户终端B(200)的第二语音输入设备230的第二语言的语音。第二机器翻译设备440将(第二语音识别设备420识别的)第二语言的语音识别结果参考翻译字典(在图2中未示出)翻译为第一语言，并将该翻译结果输出至第二语音合成设备460。第二语音合成设备460生成第一语言的所述翻译结果(自第二机器翻译设备440输入)的语音合成信号，并将该语音合成信号输出至用户终端A(100)的第一语音输出设备120。

此处，来自第一机器翻译设备430的翻译结果被输出至第一语音合成设备450。然而，该翻译结果可被输出至第二语音合成设备460。类似地，来自第二机器翻译设备440的翻译结果被输出至第二语音合成设备460。然而，该翻译结果可被输出至第一语音合成设备450。

第一输出调节设备470调节第二语言的发言语音的音量和第一语言的语音合成信号(输出自第二语音合成设备460)的音量。类似地，第二输出调节设备480调节第一语言的发言语音的音量和第二语言的语音合成信号(输出自第一语音合成设备450)的音量。控制设备490控制所有这些设备的时间设置。而且，用户终端A(100)、用户终端B(200)、以及语音识别/翻译服务器400均配备了通信设备(图2中未示出)以执行网络通信。

然后，将说明第一实施例的语音翻译系统的操作。

首先，当用户A开始以第一语言(例如日语)进行发言时，用户终端A(100)的第一语音输入设备110捕获发言语音。来自第一语音输入设备110的第一语音穿过网络上的语音识别/翻译服务器400并通过降低该第一语音的音量被发送至用户终端B(200)的第二语音输出设备240。

同时，在语音识别/翻译服务器400中，第一语音识别设备410识别(接收自第一语音输入设备110的)第一语音的发言语音，并将语音识别结果输出至第一机器翻译设备430。第一机器翻译设备430将第一语言的语音识别结果翻译为第二语言(例如，英语)，并将该翻译结果输出至第一语音合成设备450。在这种情况下，例如，通过参考文献2中所描述的方法，不论何时自动地检测到翻译单元，连续地生成翻译结果的第二语音，即使用户A还正在进行发言。第一语音合成设备450生成翻译结果的第二语音合成信号。第二输出调节设备480调节该第二语音合成信号的音量。因此，用户A发言的第一语言通过语音识别/翻译服务器400被翻译为第二语言。该(具有被第二输出调节设备480调节过的音量的)翻译结果的语音被输出至用户终端B(200)的第二语音输出设备240，并被用户B听到。

以同样的方式，当用户B开始以第二语言(例如英语)进行发言时，用户终端B(200)的第二语音输入设备230捕获该发言语音。来自第二语音输入设备230的第二语音经过网络上的语音识别/翻译服务器400，并通过降低第一语音的音量被发送至用户终端A(100)的第一语音输出设备120。

同时，在语音识别/翻译服务器400中，第二语音识别设备420识别第二语言的发言语音(接收自第二语音输入设备230)，并输出该语音识别结果至第二机器翻译设备440。第二机器翻译设备440将第二语言的语音识别结果翻译为第一语言(例如日语)，并将该翻译结果输出至第二语音合成设备460。在这种情况下，例如，通过如参考文献2所描述的方法，不论何时自动地检测到翻译单元，连续地生成翻译结果的第一语音，即使用户B还正在发言。第二语音合成设备460生成翻译结果的第一语音合成信号。第一输出调节设备470调节该第一语音合成信号的音量。因此，用户B发言的第二语言被语音识别/翻译服务器400翻译为第一语言。该翻译结果的语音(具有被第一输出调节设备470调节过的音量)被输出至用户终端A(100)的第一语音输出设备120，并被用户A听到。

图3为第二输出调节设备480在用户A向第一语音输入设备110发言时的操作的流程图。此外，第一输出调节设备470实施与图3相同的操作。

当第二输出调节设备480通过网络接收来自第一语音输入设备110的第一语音的发言(例如日语)(S300)时，第二输出调节设备480降低第一语音的音量，并通过网络输出第一语音(具有降低了的音量)至用户终端B的第二语音输出设备240(S310)。

第一语音识别单元410识别第一语音的发言。响应于识别结果，第一机器翻译设备430持续地生成具有轻微延迟的翻译结果。随后，第一语音合成设备450生成该翻译结果的第二语音(例如英语)。之后，检查第一语音合成设备450中是否存在该翻译结果的第二语音(S320)。如果存在该翻译结果的第二语音，第二输出调节设备480调节使第一语言的第一语音的音量小于翻译结果的第二语音(由第一语音合成设备450生成)的音量，并输出该第二语音(具有调节过的音量)至用户终端B(200)。在用户终端B(200)中，第二语音输出设备240接收第一语音(发言的语音)和第二语音(翻译结果)，并输出以使用户B从扬声器中听到(S330)。此处，第一语音的音量被调节至较小。在S330之后，或者在S320中如果不存在第二语音，返回处理，并等待下一个语音输入。

在该操作中，通过伴随着具有轻微延迟的第一语言(例如日语)的发言语音(具有小的音量)，用户B可听到与其相叠加的第二语言(例如英语)的翻译结果的第二语音(具有较大的音量)。

结果，用户B可听到用户A的第一语言的发言语音。相应地，用户B可自然地察觉到用户A通过停止用户A的发言来等待用户B的发言。此外，第一语言的发言语音的音量小于翻译结果的第二语音的音量。因此，用户B可听到翻译结果的第二语音同时不受到由第一语言的发言所导致的干扰，并且可以理解用户A的发言的内容。结果是，用户B在轮到他/她时可快速地开始发言，并且两个用户A与B之间的交谈可以流畅地执行。

以同样的方式，当用户B开始发言时，实施上述操作相反方向的处理。简单地说，当第一输出调节设备470通过网络接收来自第二语音输入设备230的第二语音的发言(例如英语)时(对应于S300)，第一输出调节设备470降低第二语音的音量，并通过网络将第二语音(具有降低了的音量)输出至用户终端A的第一语音输出设备120(对应于S310)。

第二语音识别单元420识别第二语音的发言。响应于识别结果，第二机器翻译设备440持续地生成具有轻微延迟的翻译结果。随后，第二语音合成设备460生成翻译结果的第一语音(例如日语)。之后，检查第二语音合成设备460中是否存在该翻译结果的第一语音(对应于S320)。如果存在翻译结果的第一语音，第一输出调节设备470调节使第二语言的第二语音的音量小于翻译结果的第一语音(由第二语音合成设备460生成)的音量，并将该第一语音(具有调节过的音量)输出至用户终端A(100)。在用户终端A(100)中，第一语音输出设备120接收第二语音(发言语音)和第一语音(翻译结果)，并输出以便使用户A从扬声器中听取(对应于S330)。此处，第二语音的音量被调节至较小。

在该操作中，通过伴随着具有轻微延迟的第二语言(例如英语)的发言语音(具有小的音量)，用户A可听到与其相叠加的第一语言(例如日语)的翻译结果的第一语音(具有较大的音量)。

因此，用户A可听到用户B的第二语言的发言语音。因而，用户A可自然地察觉用户B通过停止用户B的发言来等待用户A的发言。此外，第二语言的发言语音的音量小于翻译结果的第一语音的音量。因此，用户A可听到翻译结果的第一语音同时不会受到由第二语言的发言引起的干扰。结果是，用户A可在轮到他/她时快速地开始发言，并且两个用户A与B之间的交谈可以流畅地执行。

图4示出了沿时间轴表示的(在第一实施例的语音翻译系统中)输出语音。在用户A发言的语音(日语1)被翻译并且该翻译结果的语音被提供给用户B的案例中，第二输出调节设备480将第一语言的发言语音(日语1)的音量调节至较小，并将翻译结果的第二语音(英语1)的音量调节至较大。第二语音输出设备240输出发言语音(日语1)和第二语音(英语1)。

另一方面，在用户B发言的语音(英语2)被翻译并将该翻译结果的语音(日语2)并提供给用户A的案例中，第一输出调节设备470将第二语言的发言语音(英语2)的音量调节至较小，并且将翻译结果的第一语音(日语2)的音量调节至较大。第一语音输出设备120输出发言的语音(英语2)和第一语音(日语2)。

通过重复上述处理，对于用户A和B两者来说易于同步相互发言的时间设置，并且他们之间可以执行流畅的交谈。

顺便一提，在第一实施例的语音翻译系统中，其并非主要为避免输出的翻译结果的第一语音或第二语音迟于实际发言的语音。尤其是在非面对面语音翻译服务中，发言的用户不会知道翻译结果的语音输出被延迟了多少。因此，响应于来自用户A的发言的响应，如果没有快速的返回用户B(另一方)的答复发言，用户A无法判断用户B答复的延迟是由于翻译处理导致的，还是由于用户A的意图没有被正确的传送因而由用户B对用户A的沉默所导致。

此外，即使是在用户A的意图被正确转送至用户B，用户B开始答复时，用户A担忧用户A的意图没有正确地传递至用户B。在这样的案例中，如果用户B的答复被延迟，用户A会恼怒，并且常常连续地进行发言。此处，由于用户A和用户B之间的发言时序的冲突，它们的交谈是不流畅的。

(第二实施例)

第二实施例为解决上述问题的方法。在第二实施例中，除了第一实施例的方法外，用户A在翻译结果的语音被输出至用户B时可听到用户A的发言的翻译结果的语音。

图5为根据第二实施例的第二输出调节设备480的操作的流程图。

在图5中，操作S500～S530与图3的那些(操作)相同。第二实施例中，在S530，如果设置第一语音输出设备120输出(来自第一语音合成设备450的)翻译结果的第二语音(英语1)，第一语音输出设备120可输出的音量小于从第二语音输出设备240输出的第二语音。

在新增的S540，对用户B发言的第二语言(英语2)的响应中，第二输出调节设备480检查第二语音合成设备460是否输出翻译结果的第一语音(日语2)。如果第一语音(日语2)被输出，第二输出调节设备480输出来自第二语音输出设备240的翻译结果的第二语音(日语2)。此处，第二语音(日语2)的音量小于在S530中的翻译结果的第二语音(英语1)的音量。在S550之后，或者如果在S540中没有输出第一语音，则返回处理，并等待下一个语音输入。

以这种方式，当第二语音输出设备240输出用户B的发言语音的翻译结果(日语2)时，第二输出调节设备480将翻译结果(日语2)的音量调节至小于从第二语音输出设备240输出的之前的翻译结果(英语1)的音量。

通过该处理，每个用户可以同时地以小的不打扰他/她的发言的音量听到他/她的发言的(被另一方听到的)翻译结果的语音。因此，每个用户可知道他/她发言的内容被发送到对方的完成时间，换句话说，等待来自对方的回复的时间。因此，用户不会对来自伴有连续翻译延迟的对方的回复的延迟感到不安。此外，他们的交谈也不易发生冲突，并且它们的交谈可以流畅地进行。

图6展示了沿着时间轴表示(在第二实施例的语音翻译系统中)的输出语音。

当(用户A发言的)第一语言被识别/翻译，并且该翻译结果的语音被提供给用户B时，第二输出调节设备480将第一语言(将首先由第二语音输出设备240输出)的发言语音(日语1)的音量调节至较小。之后，第二输出调节设备480将(第一机器翻译设备430的)翻译结果的第二语音(英语1)的音量调节至大于所述发言语音(日语1)。第二语音输出设备240输出与发言语音(日语1)相叠加的翻译结果的第二语音(英语1)。

此外，当第一语音输出设备120输出翻译结果的第二语音(英语1)时，第一输出调节设备470将第二语音的音量调节至小于第二语音输出设备240输出的第二语音(英语1)的音量。

之后，当(用户B发言的)第二语言的语音被识别/翻译，并且该翻译结果被提供给用户A时，第一输出调节设备470将第二语言(首先由第一语音输出设备120输出)的发言语音(英语2)的音量调节至较小。之后，第一输出调节设备470将翻译结果(通过第二机器翻译设备440)的第一语音(日语2)的音量调节至大于第二语言的发言语音(英语2)以及之前翻译结果的第二语音(英语1)。第一语音输出设备120输出与发言语音(英语2)相叠加的翻译结果的第一语音(日语2)。

此外，当由第二语音输出设备240输出翻译结果的第一语音(日语2)时，第二输出调节设备480将该第一语音的音量调节至小于从第二语音输出设备120输出的第一语音(日语2)的音量及之前翻译结果的第二语音(英语1)的音量。

(第三实施例)

在第三实施例中，除了第二实施例，用户自身发言的翻译结果的语音的音量将被进一步精细地调整。

图7为根据第三实施例的第二输出调节设备480的操作流程图。

在图7中，操作S700～S730与图3中所述的相同。第三实施例中，在S730，如果设置由第一语音输出设备120输出(来自第一语音合成设备450的)翻译结果的第二语音(英语1)，第一语音输出设备120可以输出比第二语音输出设备240输出的第二语音较小的音量。随后，如果不存在用户A的第一语言的发言语音，那么第一语音输出设备120可以通过将小音量改变为大音量输出第二语音(英语1)。

在新增的S740中，响应于用户B发言的第二语音(英语2)，第二输出调节设备480检查第二语音合成设备460是否输出翻译结果的第一语音(日语2)。如果该第一语音(日语2)被输出，第二输出调节设备480检查是否用户B正在以第二语音进行发言(S750)。如果用户B正在发言，第二输出调节设备480输出来自第二语音输出设备240的翻译结果的第一语音(日语2)。此处，第一语音(日语2)的音量小于在S730处翻译结果的第二语音(英语1)的音量。另一方面，如果用户B没有正在进行发言(S750)，通过改变小音量为大音量(S770)，第二语音输出设备240输出第一语音(日语2)。

以这种方式，当用户B的发言语音的翻译结果(日语2)被第二语音输出设备240输出时，如果用户B正在发言，第二输出调节设备480将该翻译结果(日语2)的音量调节为小于从第二语音输出设备240输出的之前的翻译结果(英语1)的音量。如果用户B没有正在进行发言，通过将小音量改变为大音量来输出该翻译结果(日语2)。

以相同的方式，当第一语音输出设备120输出用户A的发言语音的翻译结果(英语1)时，如果用户A正在进行发言，第一输出调节设备470将翻译结果(英语1)的音量调节为小于从第一语音输出设备120输出的之前的翻译结果的音量。如果用户A没有正在进行发言，通过将小音量改变为大音量来输出该翻译结果(英语1)。

图8示出了沿时间轴表示的(在第三实施例的语音翻译系统中的)输出语音。

当用户A的发言的语音(日语1)被识别/翻译，并且当翻译结果的第二语音(英语1)被提供给用户B时，第二输出调节设备480将发言的语音(日语1)(将首先由第二语音输出设备240输出)的音量调节至较小。而后，第二输出调节设备480将(第一机器翻译设备430的)翻译结果的第二语音(英语1)的音量调节至大于发言的语音(日语1)。翻译结果的第二语音(英语1)通过与发言语音(日语1)相叠加而从第二语音输出设备240输出。

此外，当第一语音输出设备120输出翻译结果的第二语音(英语1)时，如果用户A正在进行发言，第一输出调节设备470将第二语音的音量调节至小于从第二语音输出设备240输出的第二语音(英语1)的音量。如果用户A没有正在进行发言，通过将小音量改变为大音量，第一语音输出设备120输出翻译结果的第二语音(英语1)。

之后，当用户B的发言的语音(英语2)被识别/翻译，并且翻译结果的第一语音(日语2)被提供给用户A时，第一输出调节设备470将发言语音(英语2)(首先由第一语音输出设备120输出)的音量调节为较小。之后，第一输出调节设备470将(第二机器翻译设备440的)翻译结果的第一语音(日语2)的音量调节至大于发言语音(英语2)。翻译结果的第一语音(日语2)通过与发言语音(英语2)相叠加而从第一语音输出设备120输出。

此外，当第二语音输出设备240输出翻译结果的第一语音(日语2)时，如果用户B正在进行发言，第二输出调节设备480将第一语音的音量调节至小于从第一语音输出设备120输出的发言的语音(英语2)的音量。如果用户B没有正在进行发言，通过将小音量改变为大音量，第二语音输出设备240输出翻译结果的第一语音(日语2)。

通过该处理，相较第二实施例而言，每个用户均可清楚地知道他/她发言内容被传送至对方的完成时间。此外，他们交谈的冲突不易发生，并且他们的交谈可以流畅进行。

在公开的实施例中，可通过存储在计算机可读介质中的计算机程序执行处理。

在实施例中，计算机可读介质可为，例如，磁盘、软盘、硬盘、光盘(如CD-ROM、CD-R、DVD)、磁性光盘(如MD)。然而，可以使用任何被配置为存储用于使计算机执行上述处理的计算机程序的计算机可读介质。

此外，基于来自存储器设备的被安装的程序的对计算机的指示，在计算机上运行的OS(操作系统)、或者MW(中间件)如数据库管理软件或网络，可以实施每个处理中的一部分以实现实施例。

另外，存储器设备不限于与计算机独立的设备。贮存程序的存储器设备包括通过LAN或因特网进行的程序下载。此外，存储器设备并不限于一个。在实施例的处理通过多个存储器设备进行实施的案例中，所述存储器设备可包括多个存储器设备。

计算机可根据贮存在存储器设备中的程序实施实施例的每个处理阶段。所述计算机可能是一个装置如个人计算机或者是多个通过网络相连接的处理装置位于其中的系统。此外，所述计算机不限于个人计算机。本领域技术人员将认识到所述计算机包括诸如信息处理器、微型计算机等等中的处理单元。总之，可以使用程序实施实施例中功能的装备和装置被一般地称为计算机。

虽然对特定的实施例进行了描述，这些实施例仅以示例性的方式示出，并且并非旨在对本发明的范围进行限制。事实上，此处描述的新颖的实施例可以多种其它的形式具现化；进一步地，可在不离开本发明的原则的情况下对此处描述的实施例进行多种删减、替换和改变。附上的权利要求及其等同物旨在覆盖落入本发明原则和范围的形式和修改。

Claims

1.一种语音翻译系统，包括：

第一语音装置，包括

至少捕获第一语言的语音的第一语音输入设备，和

输出第一语言的另一个语音的第一语音输出设备；

第二语音装置，包括

至少捕获第二语言的语音的第二语音输入设备，和

输出第二语言的另一个语音的第二语音输出设备；以及

执行第一语音装置与第二语音装置之间语音翻译的语音识别/翻译服务器；

其中该服务器包括

接收来自第一语音输入设备的第一语言的第一发言语音，并识别该第一发言语音的第一语音识别设备；

无需等待所述第一发言语音完成，连续地将识别结果的第一语言翻译为第二语言的第一机器翻译设备；

生成翻译结果的第二语音的第一语音合成设备；以及

通过调节第一发言语音的音量至小于第二语音的音量，将第一发言语音和第二语音输出至第二语音输出设备的第一输出调节设备。

2.如权利要求1所述的系统，

其中所述服务器进一步包括

接收来自第二语音输入设备的第二语言的第二发言语音，并识别该第二发言语音的第二语音识别设备；

无需等待所述第二发言语音完成，连续地将识别结果的第二语言翻译为第一语言的第二机器翻译设备；

生成翻译结果的第一语音的第二语音合成设备；以及

通过调节第二发言语音的音量至小于第一语音的音量，将第二发言语音和第一语音输出至第一语音输出设备的第二输出调节设备。

3.如权利要求2所述的系统，其中

通过调节第一语音的音量至小于第二语音的音量，第一输出调节设备将第一语音输出至第二语音输出设备。

4.如权利要求2所述的系统，其中

通过调节第二语音的音量调节至小于第一语音的音量，第二输出调节设备将第二语音输出至第一语音输出设备。

5.如权利要求2所述的系统，其中，

当检测到第二发言语音完成时，

第一输出调节设备将第一语音的音量调节至大于从第一语音输出设备输出的第二发言语音的音量。

6.如权利要求2所述的系统，其中，

当检测到第一发言语音完成时，

第二输出调节设备将第二语音的音量调节至大于从第二语音输出设备输出的第一发言语音的音量。

7.如权利要求2所述的系统，其中

通过调节第二语音的音量调节至小于输出至第二语音输出设备的第二语音的音量，第一输出调节设备将第二语音输出至第一语音输出设备。

8.如权利要求2所述的系统，其中

通过调节第一语音的音量调节至小于输出至第一语音输出设备的第一语音的音量，第二输出调节设备将第一语音输出至第二语音输出设备。

9.一种用于在系统中对语音进行翻译的方法，所述系统包括

第一语音装置，包括

至少捕获第一语言的语音的第一语音输入设备，和

输出第一语言的另一个语音的第一语音输出设备；

第二语音装置，包括

至少捕获第二语言的语音的第二语音输入设备，和

输出第二语言的另一个语音的第二语音输出设备；以及

所述方法包括：

由所述服务器接收来自第一语音输入设备的第一语言的第一发言语音；

由所述服务器识别该第一发言语音；

无需等待所述第一发言语音完成，由所述服务器连续地将识别结果的第一语言翻译为第二语言；

由所述服务器生成翻译结果的第二语音；

由所述服务器将第一发言语音的音量调节至小于第二语音的音量；以及

由所述服务器将与第一发言语音相叠加的第二语音输出至第二语音输出设备。

10.如权利要求9所述的方法，进一步包括：

由所述服务器接收来自第二语音输入设备的第二语言的第二发言语音；

由所述服务器识别第二发言语音；

无需等待第二发言语音完成，由所述服务器连续地将识别结果的第二语言翻译为第一语言；

由所述服务器生成翻译结果的第一语音；

由所述服务器将第二发言语音的音量调节至小于第一语音的音量；以及

由所述服务器将与第二发言语音相叠加的第一语音输出至第一语音输出设备。