CN103246643A

CN103246643A - 语音翻译装置和语音翻译方法

Info

Publication number: CN103246643A
Application number: CN2013100490468A
Authority: CN
Inventors: 坂本明子; 住田一男; 釜谷聪史
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-02-10
Filing date: 2013-02-07
Publication date: 2013-08-14
Also published as: US20130211818A1; JP2013164515A; JP5750380B2; US9262410B2

Abstract

根据一个实施例，语音翻译装置包括第一输入单元（101），其被配置为输入第一说话者的第一语音；第二输入单元（102），其被配置为输入与第一说话者不同的第二说话者的第二语音；第一翻译单元（103），其被配置为将第一语音翻译成第一目标语言句子；第二翻译单元（104），其被配置为将第二语音翻译成第二目标语言句子；第一输出单元（107），其被配置为输出第一目标语言句子；第二输出单元（108），其被配置为输出第二目标语言句子；语音检测单元（105），其被配置为从第一语音中检测第一语音期间和从第二语音中检测第二语音期间；以及输出定时调整单元（106），其被配置为当第一语音期间和第二语音期间彼此重叠时，调整第一输出单元和第二输出单元中的至少一个。

Description

语音翻译装置和语音翻译方法

技术领域

在此描述的实施例通常涉及语音翻译装置和相关的方法。

背景技术

随着近年来语音处理和自然语言处理的发展，语音翻译装置正在被开发。在不同语言的交流中，语音翻译装置将由源语言用户所说的源语言句子翻译成目标语言句子，并为目标语言用户合成目标语言语音。

传统的语音翻译装置输出合成语音，而不管是否输入另一个语音。合成语音的输出和其它语音被重叠。因此，用户之间的交流出现错误。这样的错误在非面对面交流的情况下（例如，用传统的语音翻译装置通过电话进行的交流）会经常遇见。

发明内容

实施例提供了语音翻译装置和相关的方法，用于通过调整合成语音的输出定时来实现说话者之间的顺畅交流。

根据一个实施例，语音翻译装置包括：第一输入单元，其被配置为输入第一说话者的第一语音；第二输入单元，其被配置为输入与第一说话者不同的第二说话者的第二语音；第一翻译单元，其被配置为将第一语音翻译成第一目标语言句子；第二翻译单元，其被配置为将第二语音翻译成第二目标语言句子；第一输出单元，其被配置为输出第一目标语言句子；第二输出单元，其被配置为输出第二目标语言句子；语音检测单元，其被配置为从第一语音中检测第一语音期间和从第二语音中检测第二语音期间；以及输出定时调整单元，其被配置为当第一语音期间和第二语音期间彼此重叠时，调整第一输出单元和第二输出单元中的至少一个。在本文中，“句子”是指一种口语说话方式，其可以是语法完整的句子或短语（不完整的句子，这种说话方式缺少名词或动词等，或者甚至是一个单词，诸如对是否问题的回答等）。

根据实施例，可以提供语音翻译装置和相关的方法，其用于通过调整合成语音的输出定时来实现说话者之间的顺畅交流。

附图说明

图1示出一个实施例的语音翻译装置；

图2示出语音翻译装置的硬件；

图3示出翻译单元的细节；

图4示出意图检测规则的例子；

图5示出说话者选择规则的例子；

图6表示语音翻译装置的操作的流程图；

图7表示一个实施例的交流的流程；

图8示出另一个实施例的语音翻译装置；

图9示出再一个实施例的语音翻译装置；

图10示出另一个实施例的说话者选择规则的例子。

具体实施方式

以下将参照附图描述各种实施例。

实施例一

本实施例的语音翻译装置帮助不同语言的说话者彼此进行交流。在本实施例中，第一说话者是英语说话者，第二说话者是日语说话者。但是，语音翻译装置的目标语言并不限于英语和日语，因为任何两种语言或特定语言中的任何两种方言（诸如普通话和粤语）都可以采用。说话者可以包括超过三个的说话者，以及三种或更多种语言和/或方言。

图1示出一个实施例的语音翻译装置100。该装置100包括输入第一说话者所说的第一语音（英语语音）的第一语音输入单元101、输入第二说话者所说的第二语音（日语语音）的第二语音输入单元102、将第一语音翻译成日语并生成合成日语语音的第一翻译单元103、将第二语音翻译成英语并生成合成英语语音的第二翻译单元104、从第一语音中检测第一语音期间和从第二语音中检测第二语音期间的语音检测单元105、调整输出合成日语语音或合成英语语音的定时以使得（A）输出合成日语语音或合成英语语音的时段与（B）第一语音期间或第二语音期间彼此不重叠的输出定时调整单元106、根据输出定时调整单元106的指令向第一说话者输出合成英语语音的第一语音输出单元107、根据输出定时调整单元106的指令向第二说话者输出合成日语语音的第二语音输出单元108、以及控制其它单元的过程和其它单元之间的信息的通信的控制单元112。单元112可以是或者包括处理器。

通过不重叠，一个说话者在另一个说话者开始说话之前或者在另一个说话者结束说话之后开始并结束说话。当两个说话者同时完全或部分地进行说话时，出现重叠时段；也就是说，一个说话者在另一个说话者停止说话之前开始说话。

装置100可以调整输出翻译后的语音的合成语音的定时，以使得输出合成语音的时段和说话者的语音期间彼此不重叠。也就是说，什么不重叠呢，是说话者的语音期间与另一个说话者的语音合成输出不重叠。这样，装置100在说话者说他们的语音时避免输出合成语音，平滑地进行说话者的交流。

装置100还包括：意图检测单元109，其从第一说话者所说的英语语音中检测第一意图和从第二说话者所说的日语语音中检测第二意图；说话者选择单元110，其在英语语音的期间和日语语音的期间彼此重叠时，根据第一意图和第二意图选择第一说话者或第二说话者；以及消息输出单元111，其根据单元110的选择结果输出预定消息。

意图是指说话者想要通过说话实现的目的的更广义的概念。意图从每个语音期间提取。例如，当说话者说“How many people will be there？”时，可以推断说话者想要通过该说话问另一个说话者一个问题。该说话的意图是“疑问（Question）”。下面将描述提取意图的方法。

当单元110选择第一说话者时，装置100将第一说话者的英语语音翻译成日语，生成合成日语语音并通过单元108输出合成日语语音。或者当单元110选择第二说话者时，装置100将第二说话者的日语语音翻译成英语，生成合成英语语音并通过单元107输出合成英语语音。

例如，当第一说话者的语音和第二说话者的另一个语音彼此重叠，第一说话者的第一意图是“疑问”，第二说话者的第二意图是“陈述（Description）”时，装置100根据预定规则选择第二说话者。然后，装置100通过单元107优先输出第二说话者的合成语音。优先输出一个说话者的合成语音可以防止说话者之间的交流进入重叠的语音状态和混乱的说话者的状态。下面描述使用说话者选择的预定规则。

在本例子中，装置100选择正在说出不要求从另一个说话者处接收响应的“陈述”的第二说话者。从而，单元100可以简洁且无疑地在说话者之间进行交流。

硬件结构

装置100可以通过图2所示的硬件构建，例如计算机。装置100包括控制装置100的全部并可以是中央处理单元（CPU）等的控制单元201、是随机存取存储器（RAM）等的存储单元202、存储各种数据和程序并且是硬盘驱动器（HDD）、紧凑盘驱动器（CD-Drive）等的外部存储单元203、接收说话者的输入并且是键盘、鼠标等的操作单元204、控制与外部设备的通信的通信单元205、获取用户所说的语音的麦克风206、生成合成语音的扬声器207、显示图像的显示器208、和连接上述单元的总线209。

在该硬件结构中，当单元201执行由单元202和单元203存储的各种程序时，实现下面的功能。

每个单元的功能

单元101获取第一用户所说的英语语音。单元101可以是麦克风206。所获取的语音被执行A/D转换，并由单元203存储数字语音数据。

单元102获取第二用户所说的日语语音。单元102的其它功能类似于单元101。

单元103将通过单元101获取的英语语音翻译成日语，并生成合成日语语音。

单元104将通过单元102获取的日语语音翻译成英语，并生成合成英语语音。

图3示出单元103和104的细节。每个单元103和104包括语音识别单元301、机器翻译单元302和语音合成单元303。单元301识别源语言语音，并生成源语言句子。语音识别可以是使用隐马尔可夫模型（HMM）的方法。单元302将源语言句子翻译成目标语言句子。机器翻译可以是使用转换（Transfer）系统、中间语言（Interlingua）系统等的方法。单元303将目标语言句子转换为合成语音。语音合成可以是使用共振峰合成系统或HMM的方法。上述单元的执行结果由单元202或单元203存储。

单元105从第一语音中检测第一语音期间，并从第二语音中检测第二语音期间。语音期间可以通过测量所获取的语音的短时功率来检测。例如，如果短时功率超过预定阈值的时间段持续超过100ms，则该时间段的开始点被设置为语音期间的开始点。如果另一个短时功率小于或等于阈值的另一个时间段持续超过500ms，则另一个时间段的开始点被设置为语音期间的结束点。

单元106调整输出合成语音的输出，以使得输出合成语音的期间与说话者的语音期间彼此不重叠。例如，当单元105确定第一说话者的说话正在继续的情况（即，只检测到说话的开始点的情况）时，单元106待机准备向单元107发送指示输出合成英语语音的信号。在第一说话者的说话结束后（即，单元105检测到语音期间的结束点），单元106向单元107发送信号。

换句话说，单元106向单元107发送信号，以使得输出合成英语语音的开始时间（即，输出开始时间）晚于与第一说话者的语音期间的结束点对应的时间（即，结束时间）。

如果单元105没有检测到语音，则单元106向单元107发送信号而无需待机准备。

单元107根据单元106的指令向第一说话者输出合成英语语音。数字合成语音由单元202或203缓存直到接收到信号。在接收了信号后，单元107执行合成语音的D/A转换，单元207输出模拟合成语音。

单元108根据单元106的指令向第二说话者输出合成日语语音。单元108的其它功能类似于单元107。

单元109从英语源语言句子中检测第一意图，并从日语源语言句子中检测第二意图。每个翻译单元的单元301生成英语和日语源语言句子。

在该实施例中，源语言句子的意图根据图4所示的意图检测规则检测。401表示源语言，其是用于检测的候选者。402表示源语言句子模式。403表示模式匹配时的所检测的意图。例如，当作为第一说话者的语音的语音识别结果的英语源语言句子是“How many people will be there?”时，英语语言句子与404所表示的模式“How many~”匹配，则英语源语言句子的意图被检测为由405表示的“疑问”。在源语言句子与模式之间匹配的方法可通过匹配字符串实现。如果模式402不匹配源语言句子，则句子的意图是“陈述”。

图4所示的意图检测规则可以由单元202和单元203存储。另外，规则可通过单元205获取。此外，除了“陈述”、“疑问”作为意图之外，单元109可以使用“确认”、“请求”等作为意图。另一种检测意图的方法可以是使用统计模型的方法，该统计模型通过机器学习技术从源语言句子与意图之间的关系中学习。

单元110根据单元105的检测结果，确定第一语音期间和第二语音期间是否彼此重叠。当第一语音期间和第二语音期间重叠时，单元110根据单元109所检测的意图，选择第一说话者和第二说话者中的一个。装置100通过语音输出单元优先输出所选择的说话者的合成语音。

在本实施例中，说话者根据图5所示的说话者选择规则选择。501表示第一意图的类型。502表示第二意图的类型。503表示根据第一意图和第二意图的组合所选择的说话者。504表示单元111所输出的消息，其将在后面描述。505表示消息的输出目的地。

例如，当第一意图是“陈述”而第二意图是“疑问”时，第一说话者通过图5所示的行507选择。这时，单元111向还未被选择的第二说话者（日语说话者）输出消息“少

ぉ待ち下さい”（请稍等）。然后，装置100将第一说话者的语音翻译成日语，生成合成日语语音，并通过单元108输出合成日语语音。

在这种情况下，单元110选择说与“陈述”对应的语音的说话者。意图“陈述”表示不需要来自语音对方的响应。因此，装置100可简洁地进行说话者的交流。

图5所示的说话者选择规则可由单元202或单元203存储。此外，规则可由单元205获取。

单元111根据单元100所选择的结果输出预定消息。预定消息可由显示器208显示为字符串。或者预定消息可以被生成为合成语音，并且合成语音可通过每个语音输出单元输出。在输出合成语音的情况下，合成语音根据与通过翻译单元生成的合成语音的语音质量不同的其它语音质量生成。因此，第一和第二说话者可以确定正输出的合成语音是装置100的消息还是翻译后的语音对方的语音。

单元112控制其它单元的过程以及其它单元之间的信息通信。

流程图

图6表示装置100的操作的示例性流程图。

单元101获取第一说话者的语音。单元102获取第二说话者的语音（S1）。

单元105从第一说话者的语音中检测第一语音期间，并从第二说话者的语音中检测第二语音期间（S2）。

单元103将第一说话者的语音翻译成日语，并生成合成日语语音。单元104将第二说话者的语音翻译成英语，并生成合成英语语音（S3）。

单元105确定第一语音期间和第二语音期间是否彼此重叠（S4）。如果它们不重叠，则操作进行到S5。如果它们重叠，则操作进行到S7。如果单元105在S2没有检测到第一语音期间或第二语音期间，则单元105确定它们彼此不重叠。

不重叠的情况的处理

在S5，单元106调整输出合成语音的定时，以使得输出合成语音的期间和说话者的语音期间彼此不重叠。例如，如果第一说话者的语音在S5在继续（即，如果单元105仅检测到语音期间的开始点），则单元106待机准备发送指示输出第二合成语音的信号，直到第一说话者的语音结束后（即，单元105检测到第一语音期间的结束点）。在第一说话者的语音结束后（即，单元105检测到第一语音期间的结束点），单元106向单元107发送信号。

在S6，单元107或单元108根据从单元106接收的信号输出合成语音。

重叠情况的处理

在S7，单元109从由翻译单元103和104的每一个的单元301生成的英语和日语源语言句子中检测第一意图和第二意图。

在S8，单元110根据第一和第二意图，选择第一说话者和第二说话者中的一个。

在S9，单元111根据在S8选择的结果输出预定消息。

在S10，单元106调整输出在S8选择的说话者的合成语音的定时。如果在S8选择第一说话者，则单元106调整输出合成日语语音的定时。如果在S8选择第二说话者，则单元106调整输出合成英语语音的定时。定时调整的具体过程与S5类似。

在S11，单元107或单元108根据单元106的指令输出在S8选择的说话者的合成语音。如果在S8选择第一说话者，则单元108输出合成日语语音。如果在S8选择第二说话者，则单元107输出合成英语语音。

不同语言交流的例子

图7表示第一说话者（英语说话者）和第二说话者（日语说话者）之间的一个实施例的交流的流程。

从中心顶端到中心底部的两个箭头线是时间线，其表示第一语音、第二语音、和输出合成语音的定时。在时间线上的白方块表示第一说话者所说的第一语音的期间或者输出由单元103生成的合成日语语音的期间。时间线上的阴影方块表示第二说话者所说的第二语音的期间或者输出由单元104生成的合成英语语音的期间。时间线上的黑色方块表示单元111的输出消息的期间。从右侧到左侧的箭头线表示翻译的方向。例如，表示单元103将语音701“Welcome to our restaurant”翻译成语音704“レストランヘょぅこそ”。

语音701“Welcome to our restaurant”的情况

在图6的S1，单元101获取第一说话者所说的语音701。在图6的S2，单元105检测语音701的期间。这时，第二说话者没有说话，并且第二语音期间未被检测。

在图6的S3，单元103将语音701翻译成“レストランヘょぅこそ”并生成合成日语语音。第二语音期间未被检测。第一语音期间和第二语音期间彼此不重叠。图6的操作从S4进行到S5。

在图6的S5，单元106调整输出合成日语语音的定时。在图7中，第一说话者的语音701结束，第二说话者的语音702立刻开始。在图6的S3，当合成日语语音完全生成时，单元105检测到语音702的开始点。当单元105检测到语音702的结束点时，单元106向单元108发送指示输出合成日语语音704的信号。因此，输出合成日语语音704的开始时间晚于输出第二说话者的语音702的结束时间。

这样，装置100可以输出合成语音，以使得合成语音的期间和说话者所说的语音的期间彼此不重叠。因此，装置100可以防止在说话者说话时输出合成语音。

语音705“How many people will be there?”和语音706“窓際の席は予約できますか？”的情况

在图6的S1至S3，过程翻译每个语音并生成每个合成语音。在图6的S4，单元105确定第一和第二语音期间是否彼此重叠。在这种情况下，语音705和语音706重叠，因此，过程S4进行到S7。

在图6的S7，单元109根据意图检测规则，从每个语音的每个源语言句子中检测意图。语音705的源语言句子是“How many people will bethere?”。该句子匹配图4中的模式404。因此，语音705的意图被检测为“疑问”。语音706的源语言句子是“窓際の席は予約できますか？”。该句子匹配图4的模式406。因此，语音706的意图被检测为“疑问”。

在图6的S8，单元110根据在S7检测到的意图选择说话者。在这种情况下，第一和第二意图都表示“疑问”。通过图5中的行506，第二说话者被选择。

在图6的S9，单元11向第一说话者输出图5的行506中的消息“Pleasewait”。在这种情况下，消息被转换成合成英语语音，图7中的语音707被单元107输出。

在图6的S10，单元106调整输出第二说话者的合成语音的定时，以使得输出合成语音的输出期间和第一说话者的语音期间彼此不重叠。在图6的S11，单元107输出第二说话者的合成语音（图7中的语音708）。

如上所述，当说话者的语音重叠时，装置100选择一个说话者并输出所选择的说话者的合成语音。因此，装置100可以防止说话者之间的交流以语音重叠和说话者混乱的状态进行。

在第一说话者的语音713和第二说话者的语音714的情况下，单元109同样根据图4中的意图检测规则，从每个语音的源语言句子中检测意图（图6的S7）。在这种情况下，语音713的意图被检测为“陈述”，而语音714的意图被检测为“疑问”。在图6的S8，单元110根据图5中的说话者选择规则选择说“陈述”的语音713的第一说话者。因此，装置100通过选择不要求从另一个说话者处接收响应的说“陈述”的说话者，可以简洁且无疑地在说话者之间进行交流。

该实施例涉及面对面交流的情况。但它不限于此，因为该实施例可以应用于非面对面交流的情况。

另一个实施例

变化例1

图8示出另一个实施例的语音翻译装置。第一终端120包括单元101和单元107。第二终端121包括单元102和单元108。服务器122包括单元103、单元104、单元105、单元106、单元109、单元110和单元111。终端120和121由图2所示的硬件构建。终端120和121通过图2中的单元205与服务器122中的单元112交流信息。因此，终端120和121的结构可通过包括在服务器122中是高计算成本的单元103和104等紧凑化。

上述单元可以被包括在终端120、终端121和服务器122中的一个中。

装置100包括输入单元101和102，但不限于此，因为只有一个输入单元也可以获取所有说话者的语音。输出单元107和108输出合成语音，但并不限于此，因为只有一个输出单元也可以输出所有的合成语音。

单元105可通过使用在单元301中包括的检测语音的功能来实现。单元103和104可以仅由一个翻译单元实现。

变化例2

图9示出再一个实施例的语音翻译装置。语音翻译装置150可包括属性获取单元130，其获取第一和第二说话者的属性。属性表示说话者的特性或特征，例如“店员”或“顾客”。

单元130通过使用显示器208向说话者显示装置150的可用属性。单元130获取通过图2中的单元204选择的属性作为说话者的属性。

图7中的情况涉及销售情形（餐馆）的交流。单元130向第一和第二说话者显示属性“店员”和“顾客”。通过图2中的单元204，第一说话者选择“店员”，第二说话者选择“顾客”。

属性可以通过预先注册的说话者的简档来获取。属性可通过全球定位系统（GPS）的位置数据或者说话者的口音等估计。

单元110通过使用由单元130获取的属性来选择说话者。优先说话者通过图10所示的说话者选择规则来选择。1001表示被优先选择的说话者的属性。

该情形假定第一说话者的属性是“店员”，第二说话者的属性是“顾客”。语音705和706的意图是“疑问”。在这种情况下，图10中所示的说话者选择规则1001是“顾客”。单元110优先选择具有属性“顾客”的第二说话者。因此，单元110可以根据属性选择合适的说话者。

单元130可提取说话者的年龄、位置、亲密度、性别等作为属性。在图7中，单元110可通常优先选择具有属性“顾客”的第二说话者。

变化例3

如果语音期间彼此重叠时，则单元110可测量每个语音的重要度，并可优先选择具有更高重要度的说话者。每个语音的重要度可以通过比较源语言句子和有关句子的重要度的统计模型来计算。统计模型可通过人为对句子添加了重要度的学习语料库预先学习。当语音期间重叠时，单元110可以优先选择所说的源语言句子比另一个说话者所说的具有更高重要度的说话者。

选择说话者的方法可以是通过使用统计模型来比较语音的相对重要度的方法。在这种情况下，统计模型通过人为添加了重要度小和重要度大的成对句子来学习。当语音期间彼此重叠时，单元110可以优先选择所说的源语言句子比另一个说话者所说的具有更高重要度的说话者。

根据上述的至少一个实施例的语音翻译装置，输出定时调整单元可防止说话者之间的交流以语音重叠和说话者混乱的状态进行。

实施例的流程图表示根据实施例的方法和系统。应当理解，所示的流程图的每个模块以及流程图中模块的组合都可以通过计算机程序指令实现。这些计算机程序指令可以被加载到计算机或其它可编程装置上以产生一种机器，以使得在计算机或其它可编程装置上执行的指令创建用于实现流程图的模块中规定的功能的装置。这些计算机程序指令还可以被存储在非瞬态计算机可读存储器中，其可以指导计算机或其它可编程装置以特定方式起作用，以使得在非瞬态计算机可读存储器中存储的指令产生包括实现在流程图的模块中规定的功能的指令装置的制造产品。计算机程序指令还可以被加载到计算机或其它可编程装置/设备上以使一系列的操作步骤/动作在计算机或其它可编程装置上执行，以产生提供用于实现在流程图模块中规定的步骤/动作的计算机可编程装置/设备。

尽管已经描述了某些实施例，但这些实施例仅作为例子提供，并不意味着限制本发明的范围。实际上，在此描述的创新性实施例可以体现为各种形式；另外，在不脱离本发明的精神的情况下，可以对在此描述的实施例进行各种省略、替换和改变。后附的权利要求及其等同意在覆盖这些形式或者修改，其将落入本发明的范围和精神中。

Claims

1.一种语音翻译装置，包括：

处理器；

第一输入单元，其被配置为输入第一说话者的第一语音；

第二输入单元，其被配置为输入与所述第一说话者不同的第二说话者的第二语音；

第一翻译单元，其被配置为将所述第一语音翻译成第一目标语言句子；

第二翻译单元，其被配置为将所述第二语音翻译成第二目标语言句子；

第一输出单元，其被配置为输出所述第一目标语言句子；

第二输出单元，其被配置为输出所述第二目标语言句子；

语音检测单元，其被配置为从所述第一语音中检测第一语音期间和从所述第二语音中检测第二语音期间；以及

输出定时调整单元，其被配置为当所述第一语音期间和所述第二语音期间彼此重叠时，调整所述第一输出单元和所述第二输出单元中的至少一个。

2.如权利要求1所述的装置，其中，在所述第二输入单元输入所述第二说话者的另一个第二语音之后，所述第一输出单元输出所述第一目标语言句子。

3.如权利要求1所述的装置，其中，在所述第一输入单元输入所述第一说话者的另一个第一语音之后，所述第二输出单元输出所述第二目标语言句子。

4.如权利要求1所述的装置，还包括：

意图检测单元，其被配置为从所述第一语音中检测第一意图和从所述第二语音中检测第二意图；以及

说话者选择单元，其被配置为当所述第一语音期间和所述第二语音期间彼此重叠时，根据所述第一意图和所述第二意图，选择所述第一说话者或所述第二说话者；

其中，当所述说话者选择单元选择所述第一说话者时，所述第一输出单元输出所述第一目标语言句子。

5.如权利要求1所述的装置，还包括：

其中，当所述说话者选择单元选择所述第二说话者时，所述第二输出单元输出所述第二目标语言句子。

6.如权利要求1所述的装置，还包括：

其中，所述意图检测单元检测所述第一意图和第二意图中的一个是否是陈述，所述说话者选择单元选择与所述第一意图和所述第二意图中的一个对应的所述第一说话者或所述第二说话者。

7.如权利要求1所述的装置，还包括：

意图检测单元，其被配置为从所述第一语音中检测第一意图和从所述第二语音中检测第二意图；

说话者选择单元，其被配置为当所述第一语音期间和所述第二语音期间彼此重叠时，根据所述第一意图和所述第二意图，选择所述第一说话者或所述第二说话者；以及

消息输出单元，其被配置为根据由所述说话者选择单元选择的所述第一说话者或所述第二说话者，输出预定消息。

8.如权利要求7所述的装置，其中，所述消息输出单元通过与所述第一输出单元和所述第二输出单元的声音不同的声音输出所述预定消息。

9.如权利要求1所述的装置，还包括：

属性获取单元，其被配置为获取所述第一说话者的第一属性和所述第二说话者的第二属性；以及

说话者选择单元，其被配置为当所述第一语音期间和所述第二语音期间彼此重叠时，根据所述第一属性和所述第二属性，选择所述第一说话者或所述第二说话者；

10.如权利要求1所述的装置，还包括：

其中，当所述说话者选择单元选择所述第二说话者时，所述第一输出单元输出所述第二目标语言句子。

11.如权利要求1所述的装置，还包括：

语音识别单元，其被配置为识别所述第一语音和所述第二语音；

其中，所述第一翻译单元将所识别的第一语音翻译成所述第一目标语言句子，所述第二翻译单元将所识别的第二语音翻译成所述第二目标语言句子。

12.如权利要求1所述的装置，还包括：

语音合成单元，其被配置为对于所述第一目标语言句子和所述第二目标语言句子合成语音。

13.一种语音翻译方法，包括：

输入第一说话者的第一语音；

输入与所述第一说话者不同的第二说话者的第二语音；

将所述第一语音翻译成第一目标语言句子；

将所述第二语音翻译成第二目标语言句子；

输出所述第一目标语言句子；

输出所述第二目标语言句子；

从所述第一语音中检测第一语音期间和从所述第二语音中检测第二语音期间；以及

当所述第一语音期间和所述第二语音期间彼此重叠时，调整输出所述第一目标语言句子和输出所述第二目标语言句子中的至少一个。