CN101046960A

CN101046960A - 处理语音中的话音的装置和方法

Info

Publication number: CN101046960A
Application number: CNA2007101016257A
Authority: CN
Inventors: 井本和范
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-27
Filing date: 2007-03-09
Publication date: 2007-10-03
Also published as: US20070225975A1; JP4786384B2; JP2007264126A; US7949523B2

Abstract

一种语音处理装置，包括：规则存储单元，在其中存储了将语音识别中的错误原因、应答方法和应答用户相互关联的规则，所述应答方法的每一个是在语音识别期间已经发生错误时所使用的，所述应答用户的每一个是多个用户中的一个并作为应答的对象；输入接收单元，其接收语音的输入；识别单元，其识别所述接收的语音；检测单元，其检测在语音识别期间发生的错误的原因；方法选择单元，其从规则存储单元选择与所述检测的错误原因相关的一种应答方法；用户选择单元，其从规则存储单元选择与所述检测的错误原因相关的一个应答用户；以及执行单元，其通过所选择的应答方法向所选择的应答用户执行应答。

Description

处理语音中的话音的装置和方法

技术领域

本发明涉及一种处理语音中的话音并支持人们之间的通信的装置和方法。

背景技术

近年来，在语音处理技术上做了许多研究，包括语音识别和语音合成，在语言处理技术上也做了许多研究，包括机器翻译。此外，在语音语言处理技术上也已经做了许多研究，包括在其中语音处理与语言处理相结合语音翻译。在语音翻译投入实际应用之前需要解决大量的问题；但是，作为支持互相说不同语言的人们之间的通信的技术，人们对语音翻译技术具有很高的期望。如今已经有一些产品投入实际使用中，其通过恰当限制使用情形的范围或者让用户互相合作的设计来解决技术问题。

语音翻译技术中的性能水平在未来有望更高；但是，这并不容易达到“让两个说话者的语音在所有时间所有情形下都被正确地翻译”的最终目标。例如，对于语音识别(其是语音翻译技术中的一部分)，并不容易使其能够在每个使用环境中一贯地识别用户语音的内容。

在当前技术条件下，不能保证总是可以获得正确的翻译结果。因此，为了拥有处于实际使用水平的语音翻译技术，非常重要的就是即使当翻译结果有错误并且因此由会话对方发出的语音的内容不可懂的时候，还能够有效地改正错误。

让我们看看人们之间的通信，当由于他们周围的噪声，一个人听不见另一个人在说什么的时候，或者当一个人不能理解另一个人所说的话中的一些词时，该错误将被通过他们之间的交互进行改正和弥补。例如，一个人将请另一个人再说一次，或者一个人将与另一个人检查该词的含义。于是，为了将语音翻译技术的水平提高到实际使用水平，非常重要的就是不仅仅提高语音翻译技术中所涉及的各种技术领域内的性能水平，还要将用于有效地改正错误的界面接合到系统中。

当一个人不能理解另一方发出的语音的内容时，改正错误的最简单的方法之一就是请求说话者重复该语音。这是告诉说话者收听者不理解的最可靠的方法，而不管在语音翻译过程中已经发生的错误的类型。

当使用该方法时，即使收听者已经理解了一部分语音，说话者仍然被请求重复整个语音的内容。因此，效率水平很低。此外，不可能告诉说话者没有正确翻译该语音的原因。因而，即使说话者重复该语音，仍然会重复同样的错误。因此，会有以失败结束会话的危险。

为了处理这一问题，已经提出了另一项技术，利用该技术收听者被请求选择他/她不能理解的一部分翻译结果。此外，提出了另一项技术，利用其呈现了收听者不理解翻译结果的原因的选项，使得收听者可以从已提出的选项中选择原因。

根据这些技术，收听者能够仅仅指出他/她不能理解的部分，而不是整个语音。因此，说话者能够通过仅仅说出已经被指出的那部分来改正错误。因此，可以有效地保持会话。另外，可以允许收听者在可能的预测的范围内选择他/她不能理解的原因。因此，可以减小重复相同错误的可能性。

但是，不能理解翻译结果的原因的范围很宽。收听者仅仅能够指出宽范围的原因中的一小部分。更具体而言，翻译结果不能被理解的原因可以宽泛地被分类为由说话者或收听者引起的一组原因和由与技术相关的错误引起的一组原因。前一组的例子包括这样的情况：语音的内容已经被正确地翻译，但是收听者没有充分的知识来理解它；以及这样的情况：语音本身包含错误。后一组的例子包括：由与涉及语音翻译技术(诸如语音识别和机器翻译)的技术领域相关的错误引起的原因。

对于后一组，与机器翻译相关的原因可以进一步被分类为与对多义词的解释有关的错误和语法分析中的错误。与语音识别相关的原因可以进一步被分类为语言学错误(类似未知的词)和声学错误(类似说话的方式，例如语速、话音的音量等等)和使用环境(是否存在噪声)。

在这些各种的错误原因中，很难让收听者指出，例如，说话者说话方式中的问题，因为收听者不懂说话者的语言。因此，收听者仅仅能够指出错误原因的很宽范围中的一小部分，诸如收听者他/她自身知识的缺乏或对多义词的解释中的错误。特别地，当问题与语音识别过程中的声学错误相关时，因为也很难让说话者注意到该错误，所以存在重复同样错误的高危险。

为了处理这种情形，已经提出了一项技术，利用其检测影响语音识别中性能水平的原因(例如，语音或周围环境的音量)，并且该检测到的原因被作为反馈呈现给说话者。(例如，参见JP-A 2003-330491(公开))。如在JP-A 2003-330491(公开)所公开的，在由机器人呈现的机器和人之间的会话的实例中，满足以下条件：会话发生在机器和人之间非平等的条件下，对机器说话的说话者通常仅仅是一个人，并且说话者还是所述机器的用户。因此，给与说话者的反馈在短期和长期都能有效地起作用。

但是，与被设计来支持人们之间的会话的技术不同，在JP-A2003-330491(公开)中公开的方法并不能适应这种情况：设备是由多个用户操作的，包括并不拥有该设备的人。因此，因为反馈是以统一的方式返回给说话者，就会存在不能正确改正错误的一些情形。

例如，当一个并不是所述语音处理装置的拥有者的人是说话者时，即使应当改变该装置的设置的反馈指令被返回给说话者，也不能让说话者解决该问题，因为他/她并不熟悉该装置的操作。

当语音识别技术被用于支持人们之间的通信时，换句话说，当一个人与另一个人通过机器通信时，引起这种问题的原因是因为会话的人基本上条件相等，还因为说话者也是该设备的拥有者的假设非真。

发明内容

根据本发明的一个方面，一种语音处理装置，包括：规则存储单元，在该规则存储单元中存储了将语音识别中的错误原因、应答方法以及应答用户相互关联的规则，其中，所述应答方法中的每一个是在所述语音识别期间已经发生错误时所使用的，所述应答用户中的每一个是多个用户中的一个并作为应答对象；输入接收单元，其接收语音的输入；识别单元，其识别所述接收的语音；检测单元，其检测在所述语音识别期间发生的错误的原因；方法选择单元，其从所述规则存储单元选择与所检测的错误原因相关的所述应答方法中的一种；用户选择单元，其从所述规则存储单元选择与所检测的错误原因相关的所述应答用户中的一个；以及执行单元，其通过所述选择的应答方法向所述选择的应答用户执行应答。

根据本发明的另一个方面，一种语音处理方法包括：接收语音的输入；识别所述接收的语音；检测在语音识别期间发生的错误的原因；从在其中存储了规则的规则存储单元选择与所述检测的错误原因相关的应答方法中的一个，其中，所述规则将语音识别中的错误原因、应答方法以及应答用户相互关联，所述应答方法中的每一个是当在所述语音识别期间已经发生错误时所使用的，所述应答用户中的每一个是多个用户中的一个并作为应答对象；从所述规则存储单元选择与所述检测的错误原因相关的应答用户中的一个；以及通过所述选择的应答方法向所述选择的应答用户执行应答。

附图说明

图1是根据本发明第一实施例的语音处理装置的框图；

图2是说明了规则表格的数据结构的实例的示图；

图3是根据第一实施例的语音处理的总体流程的流程图；

图4是错误原因检测处理的总体流程的流程图；

图5是说明了话音速度的分布的实例的示图；

图6是说话速度计算处理的总体流程的流程图；

图7是话音音量计算处理的总体流程的流程图；

图8是噪声检测处理的总体流程的流程图；

图9是根据第二实施例的语音处理装置的框图；

图10是根据第二实施例的语音处理的总体流程的流程图；

图11是说明了在其上输出翻译结果的显示屏幕的实例的示图；

图12是说明了在其上输出应答消息的显示屏幕的实例的示图；

图13是根据第三实施例的语音处理装置的框图；

图14是根据第三实施例的语音处理的总体流程的流程图；

图15是说明了在其上输出翻译结果的显示屏幕的实例的示图；

图16是说明了指定错误部分之后的显示屏幕的实例的示图；

图17是说明了在其上显示应答消息的显示屏幕的实例的示图；

图18是说明了在源语言用户已经重复了话音之后的显示屏幕的实例的示图；

图19是说明了在其上显示对目标语言用户的反馈的显示屏幕的实例的示图；

图20是根据第四实施例的语音处理装置的框图；

图21是说明了历史管理表格的数据结构的实例的示图；

图22是说明了规则表格的数据结构的实例的示图；

图23是根据第四实施例的语音处理的总体流程的流程图；

图24是根据第五实施例的语音处理的总体流程的流程图；

图25是说明了在其上显示应答处理的状况的显示屏幕的实例的示图；以及

图26是根据第一到第五实施例的语音处理装置的硬件结构的示图。

具体实施方式

参考附图来详细说明语音处理装置和语音处理方法的示例性实施例。

根据第一实施例的语音处理装置检测作为语音处理对象的话音中的声学的错误原因，并根据该错误原因的内容切换应答用户。

图1是根据第一实施例的语音处理装置100的框图。如图所示，语音处理装置100包括输入接收单元101、识别单元102、检测单元103、方法选择单元104、用户选择单元105、执行单元106、显示单元110、语音输入单元121、通信单元122、和存储单元130。

显示单元110在显示屏幕上显示语音处理的结果、指示当发生问题时要使用的应答方法的消息，等等。以下将说明将在显示单元110上显示的显示屏幕的实例。

语音输入单元121将语音输入转换成电信号(即，语音数据)，并输出该语音数据到输入接收单元101。可以利用通常使用的麦克风来实现语音输入单元121。

通信单元122接收从外部装置(未示出)发送的语音数据并输出所接收的语音数据到输入接收单元101。作为通过其输入语音数据的结构，如果语音处理装置100包括语音输入单元121和通信单元122中至少一个的话，就足够了。

存储单元130在其中存储了规则表格131，该表格131定义了用于选择对应于已经被检测到的错误原因的应答用户和应答方法的规则。可以使用任何类型的通常使用的记录介质来构成存储单元130，如硬盘驱动器(HDD)、光盘、存储卡或随机存储器(RAM)。

图2是说明了规则表格131的数据结构的实例的示图。如图所示，规则表格131在其中存储了互相关联的原因类型、检测到的错误原因、应答用户以及应答实例。

“原因类型”是用于分类检测到的错误原因的信息。语速、话音的音量以及噪声被指定为原因类型。根据第一实施例，就对语音识别中的问题有影响的原因而论，与话音的声学相关的信息被指定为错误原因。

对于“检测到的错误原因”来说，例如，当原因类型是语速时，检测整个话音的语速是高还是低被指定为错误原因。

对于“应答用户”，指定作为应答对象以解决错误原因的用户，换句话说，就是指定应当对其呈现解决错误原因的解决手段的用户。根据第一实施例，从已向输入接收单元101输入语音的说话者和向其呈现识别结果的会话对方之中，指定适合于利用所述解决手段来解决问题的用户。

当语音处理装置100自身执行应答时，语音处理装置100被指定为应答用户。在附图中，示出了在其中“说话者”被指定以指示所述应答被返回给发出话音的说话者以及在其中拥有语音处理装置100的“拥有者”被指定的实例。

对于“应答实例”，指示呈现给应答用户的每个应答的内容的信息被指定。例如，如图所示，对于整个话音的速度高的错误原因，呈现意味着“请讲慢一些”的消息的应答实例被指定。在图中的实例中，基于用户执行应答的假设的消息被用作为应答实例。但是，还可接受的就是指定其他应答实例，在其中语音处理装置100自身进行音量调节处理。在这种情形下，指示语音处理装置100自身的信息被指定为应答用户。

另一种设计是可接受的，在其中，如果需要，从外部信息处理装置(未示出)等读取存储在规则表格131中的规则。

输入接收单元101接收从语音输入单元121等输入的语音数据的输入。输入接收单元101还向识别单元102和检测单元103转发该接收的语音数据。

另一种设计也是可接受的，在其中，输入接收单元101经由通信单元122接收来自外部信息处理装置(未示出)的语音数据，并接收所接收的语音数据的输入。在这种情况下，这样的设计是可接受的，在其中，如需要，输入接收单元101在已经被外部信息处理装置加密的语音数据上进行解密处理、解码处理、格式转换处理、速率转换处理、等等。

识别单元102分析从输入接收单元101转发的语音数据，以便提取在语音数据的识别过程中需要的特征量。识别单元102然后通过参考预先学习的词典，向方法选择单元104输出声学上最相似的词或词序列，作为识别的结果。此外，识别单元102检测指示在输入语音数据(其中，在每个输入语音数据中，说话者已经产生了话音)中的一个或多个持续时间的语音区间信息(speech section information)，并输出所检测的语音区间信息到检测单元103。所述语音区间信息在检测单元103计算语音速度，等等时被参照。

对于由识别单元102进行的语音识别处理，可以利用任何通常已经使用的各种方法；例如，可以使用隐马尔可夫模型、神经网络、动态规划(DP)匹配，等等。

检测单元103分析从输入接收单元101转发的语音数据，检测一个或多个影响语音识别过程中的性能水平的元素作为错误原因，并输出检测到的错误原因到方法选择单元104。影响语音识别过程中的性能水平的元素的实例包括在发生语音的位置周围观察到的声音环境以及说话者的说话风格。

对于声音环境，实例包括在使用语音处理装置100的环境背景中不断或突然观测到的噪声，类似在街上汽车行驶的声音或在办公室中敲打键盘的声音。对于说话风格，实例包括在其结尾变小的话音音量以及语速很高。

以下将说明，根据第一实施例，检测单元103检测作为错误原因的语速、话音的音量以及噪声。

当检测单元103已经检测到错误原因时，方法选择单元104确定与检测的错误原因相对应的解决手段，并输出所确定的解决手段到用户选择单元105和执行单元106。

更具体而言，方法选择单元104从规则表格131获得与检测单元103检测的错误原因相对应的应答实例，并确定将由所获得的应答实例指示的应答方法作为解决手段。

用户选择单元105选择应将由方法选择单元104确定的解决手段所呈现给的用户。更具体而言，用户选择单元105从规则表格131获得与检测单元103检测的错误原因相对应的应答用户，并选择所获得的应答用户作为应对其呈现所述解决手段的用户。

执行单元106通过向由用户选择单元105选择的应答用户呈现由方法选择单元104确定的解决手段来执行应答。执行单元106通过用应答用户能够理解的语言以文本在显示屏幕上显示应答实例来执行应答，其中该应答实例就是用于解决问题的指令。

用于执行所述应答的方法并不限于该实例。可接受的是，通过在文本上进行语音合成以及再现合成的声音来呈现解决手段。可选地，可接受的是，使用主动方法来执行应答，其中例如，语音处理装置100自身改变语音识别过程中的设置，而不是如上所述的用户接收指令的被动方法。

接下来，将说明由根据如上配置的第一实施例的语音处理装置100所进行的语音处理。图3是根据第一实施例的语音处理的总体流程的流程图。

首先，输入接收单元101接收由用户发出的语音输入(步骤S301)。接下来，识别单元102在接收的语音上进行语音识别处理(步骤S302)。如上所述，在语音识别处理时，可以利用各种通常使用的语音识别方法中的任何一种，诸如HMM、神经网络、DP匹配。

接下来，检测单元103进行错误原因检测处理(步骤S303)。将在下面解释错误原因检测处理的细节。

随后，检测单元103判断是否已经检测到了任何错误原因(步骤S304)。当已经检测到了一个或多个错误原因时(步骤S304：是)，方法选择单元104从规则表格131获得与所检测到的错误原因相对应的解决手段(步骤S305)。例如，当从被分类为原因类型“话音音量”的原因中已经检测到错误原因“整个话音的音量太大”时，方法选择单元104从图2所示的规则表格131中确定表示“请调节音量”的应答实例作为解决手段。

接下来，用户选择单元105从规则表格131获得与检测到的错误原因相对应的应答用户(步骤S306)。例如，当已经检测到错误原因“整个话音的音量太大”时，用户选择单元105从图2所示的规则表格131中选择“拥有者”作为应答用户。

如上所述，根据第一实施例，不仅仅可以指定说话者，也可以指定装置的拥有者作为应答用户。换句话说，用户选择单元105能够根据错误原因的内容来切换应答用户，从而使得反馈能被返回到能够解决该问题的用户。该设计是基于这样的概念而做出的，即语音处理装置100目的在于支持人们之间的会话，并且有可能即使表示“请调节音量”的指令被给予说话者，说话者也不能解决该问题，因为说话者不一定是熟悉该装置操作的装置的拥有者。

随后，执行单元106对所获得的应答用户执行由解决手段指示的应答(步骤S307)，从而完成语音处理。例如，当已经检测到错误原因“整个话音的音量太大”时，执行单元106执行应答以在显示屏幕上显示表示“请调节音量”的消息。

在步骤S304，当检测单元103已经判断没有检测到错误原因(步骤S304：否)，那么执行单元106输出语音识别的结果(步骤S308)，从而完成语音处理。

接下来，将说明在步骤S303的错误原因检测处理的细节。图4是错误原因检测处理的总体流程的流程图。

在错误原因检测处理时，检测单元103计算语速、话音的音量(话音音量)和噪声作为声学信息，并基于所计算的信息来检测错误原因。

更具体而言，首先，检测单元103进行语速计算处理(步骤S401)以计算由说话者发出的语音的语速。接下来，检测单元103进行话音音量计算处理(步骤S402)以计算由说话者发出的话音的音量。此后，检测单元103进行噪声检测处理(步骤S403)以检测话音背景中存在的噪声。

可以改变进行这些类型处理的顺序。将在下面介绍语速计算处理、话音音量计算处理和噪声检测处理的细节。

在已经通过步骤S401到S403的处理计算或检测了语速、话音的音量和噪声之后，检测单元103通过参考规则表格131来检测与语速相关的错误原因(步骤S404)。

例如，检测单元103将在语速计算处理中计算的语速与指示预先确定的语速最大值的阈值进行比较。当计算的语速高于该最大值时，检测单元103检测出语速太高作为错误原因。此外，检测单元103将语速与指示预先确定的语速最小值的阈值相比较。当计算的语速低于所述最小值时，检测单元103检测出语速太低作为错误原因。

接下来，将说明用于设置语速的阈值的方法。图5是说明语速分布的实例的示图。在用于设置在该实例中使用的语速的阈值的方法中，预先获得图5所示的语速的分布，并且出现的频率等于或低于预定值的语速被设置为所述阈值。例如，可以从当预先学习语音识别的模型时使用的语音数据中获得如图所示的语速的分布。

用于设置语速阈值的方法并不限于该实例。采用任何方法都是可以接受的，只要通过使用该方法可以设置作为用以判断是否能影响语音识别过程中的问题的边界的阈值。例如，可接受的是预先研究在语速和语音识别过程中的性能水平之间的关系，并设置通过其使得识别过程中的性能水平等于或低于预定值的语速，作为阈值。

此外，在上述实例中，说明了与整个语音区间的语速相关的错误原因；但是，当使用了在其中语音区间被分割为更小的区域从而使得为该更小区域的每一个计算语速的另一种设计时，可以检测关于一部分话音的错误原因，例如“在句子结尾的语速太高”。

此外，在第一实施例的描述中，说明了基于阈值而决定性地判断是否存在由语速引起的问题的示例性方法；但是，用于判断是否存在由语速引起的语音识别过程中的问题的方法并不限于该实例。使用任何其他现有的方法是可接受的。

随后，通过参考规则表格131，检测单元103检测与话音的音量相关的错误原因(步骤S405)。

在该情形下，类似在语速的情形下，检测单元103将音量与指示话音音量的最大值和最小值的两个预定阈值比较。当音量大于或小于该阈值时，检测单元103检测出话音太大或太小作为错误原因。对于指示话音音量的信息，使用平均功率和最大功率中的一个，平均功率指的是在每帧中功率的平均值，最大功率指的是在每帧中功率的最大值。

对于设置阈值的方法，采用了一种根据语音输入单元121的特征(诸如方向性)来设置阈值的方法。但是，用于为话音的音量设置阈值的方法并不限于该实例。采用任何其他方法都是可接受的，只要可以通过使用该方法来设置能够起到用以判断是否可以影响语音识别过程中的问题的边界的作用的阈值。例如，可接受的是预先研究在功率和语音识别过程中的性能水平之间的关系，并设置通过其可以使得识别过程中的性能水平等于或低于预定值的功率，作为阈值。

此外，可接受的是将发声分割成更小的区域，并为每个更小的区域计算话音的音量，从而可以对一部分话音检测错误原因。

接下来，检测单元103参考规则表格131，并检测与噪声有关的错误原因(步骤S406)。在步骤S404的噪声检测处理中，判断是否有噪声。因此，在步骤S406，通过参考规则表格131，检测单元103确定所检测的噪声是否应当被检测为错误原因。在图2中，示出了这样的实例，其中在整个话音中的背景噪声(持续噪声)和一部分话音中的突发噪声都被检测为错误原因。

如目前为止的说明，检测单元103能够检测出会话对方难以做出判断的错误原因，诸如语速、话音的音量以及噪声。

接下来，将说明在步骤S401的语速计算处理的细节。首先，将解释语速计算处理的概念。

在近年来的语音识别过程中，通过参考已经从大量话音数据中学习的统计声学模型来进行搜索。但是，该方法中的问题在于在很大程度上与在学习过程中使用的话音数据的语速分布相偏离的的话音不能匹配该模型，从而不可能获得正确的识别结果。为了从根本上解决该问题，一个思想就是通过学习从具有更广的话音语速范围的话音得到的语音数据来构造模型。但是，该方法要求收集大量的语音数据。

为了解决这个问题而不重新构造模型，另一个思想就是测量整个话音或一部分话音的语速，并且向用户呈现具有非常高的语速或非常低的语速的语音区间中的语速并不合适，从而请求用户再次发出该期间的话音。

根据第一实施例，后一种方法被用作解决该问题的方法。为了计算语速，需要(1)检测来自语音数据的语音区间，以及(2)为每个语音区间测量语速。

为了(1)检测来自语音数据的语音区间，可以使用由识别单元102检测的语音区间信息。为了(2)测量话音的速度，如果可以获得100％精确度的语音识别结果，可以利用通过在语音识别结果中提取在语音区间中包含的音素或音节的数目并且用语音区间的长度分割所提取的音素或音节的数目来获得的每单位时间的音素(或音节)的数目。

但是，获得100％精确的语音识别结果并不容易。另外，目的是检测识别结果中发生问题所在的语速。因此，需要始终如一地测量语速，即使对识别错误也要测量。

根据第一实施例，作为对于识别错误一贯地工作的方法的实例，就是这样的方法，其中通过从剩余语音中区分元音或辅音来估计语速。在该方法中，通过在两个组，即，比可能复杂的音素来说更容易区分的元音和辅音上进行区别，以近似的方式基于所检测的元音数目来计算在语音区间中的音素(或音节)的数目。在日语中，基本上，其每一个都由结合在一起的元音和辅音构成的短音节可以被用作语言的单位。在类似英语的其他外语中，利用元音作为其核心来构造每个音节。因此，为了粗略地测量语速，通过使用元音的数目来近似音节的数目就不成问题。

在以下部分中，将说明使用上述方法的语速计算处理的细节。图6是在语速计算处理的总体流程的流程图。

首先，检测单元103将语音区间分割成帧的单位(步骤S601)并获得该语音区间的长度(步骤S602)。如上所述，为了获得语音区间的长度，可以使用由识别单元102检测的语音区间信息。语音区间被分割成帧，从而使得每个帧具有适合于计算语速的长度。根据第一实施例，语音区间被分割，从而使得帧周期是10毫秒，并且帧长是25毫秒。

接下来，检测单元103将元音的数目初始化为“0”，并将前一类别初始化为“辅音区间”(步骤S603)。前一类别就是在其中存储了指示前一帧是“元音”还是“辅音”的判断结果的信息。“元音区间”或“辅音区间”中的一个被指定为前一类别。

接下来，对于从分割得到的每个帧，检测单元103以帧为单位分析语音数据，并提取声学特征(步骤S604)。根据第一实施例，作为提取声学特征的方法，可以使用美尔频率倒谱系数(MFCC)。可以通过将已通过傅立叶变换被频谱化(spectralized)的语音数据输入到美尔比例带通滤波器中，并且在对数变换值上施加傅立叶逆变换来获得MFCC。

声学特征并不限于MFCC。可接受的是使用任何其他声学特征，只要它们有利于计算语速。

随后，检测单元103计算在提取的MFCC和元音标准格局(vowelstandard pattern)之间的距离(步骤S605)。对于元音标准格局，使用了通过预先从大量语音数据中学习而产生的格局。可以使用任何一种常规使用的方法作为计算距离的方法。

接下来，检测单元103判断作为对象的帧是否是元音区间(步骤S606)。更具体而言，检测单元103预先设置用于区分元音和辅音的阈值。当所述区间具有比阈值小的值时，该区间被判断为元音区间。当该区间具有等于或大于所述阈值的值时，该区间被判断为辅音区间。

当所述区间被判断为元音区间时(步骤S606，是)，检测单元103判断前一类别是否是元音区间(步骤S607)。

当已经判断前一类别不是元音区间时(步骤S607，否)，检测单元103向元音数目增加“1”(步骤S608)。原因就是适当地判断了已经检测出元音的第一区间。

在步骤S608将“1”加到元音的数目之后，或者如果在步骤S607已经判断前一类别是元音区间(步骤S607：是)，那么检测单元103就存储“元音区间”到前一类别(步骤S609)。

当在步骤S607中前一类别被判断为元音区间时，对元音数目就不再执行加法，因为适当地判断了前一类别被放置在连续的元音区间的中间某处。

当已经在步骤S606中判断了作为对象的帧不是元音区间时(步骤S606：否)，检测单元103存储“辅音区间”到前一类别(步骤S610)。

随后，检测单元103判断是否已经处理了所有的帧(步骤S611)。当并没有处理所有的帧时(步骤S611：否)，则提取下一帧的声学特征，并重复该处理(步骤S604)。

当已经处理了所有帧时(步骤S611：是)，检测单元103基于元音数目和语音区间的长度来计算语速(步骤S612)，并且因而完成语速计算处理。

检测单元103计算通过用语音区间的长度分割元音的数目而获得的每单位时间的元音的数目作为语速。根据第一实施例，基于元音和辅音之间的区别来计算语速的方法；但是，计算语速的方法并不限于该实例。使用任何其他现有方法是可接受的。

接下来，将说明在步骤S402的话音音量计算处理的细节。首先，将说明话音音量计算处理的概念。

在语音识别过程中由于语音的音量(话音的响度)而发生的问题的实例包括，如图2所示，具有大(或小)音量的整个话音和具有大(或小)音量的一部分话音。

当已经输入的话音是在等于或大于由输入接收单元101所期望的动态范围的范围内时，语音数据被舍入。因为已经被舍入的语音数据有失真，因此语音数据就不能正确地匹配已学习的声学模型，而这个情形就成了识别错误的原因。

相反，对于从远离装置的位置发出的语音以及包括具有非常小音量的话音的语音，语音数据被输入在小于期望范围的动态范围之内。识别音素所需的信息从处于更小动态范围的语音数据中丢失。因此，该语音数据不能正确地匹配已学习的声学模型，而该情形就成为识别错误的原因。

可以被用来解决这些问题的方法之一就是根据使用环境，预先调节输入到输入接收单元101的语音的音量。另一个方法就是在发出话音时动态地校正音量。例如，当需要在诸如商业事务所的安静环境中准备工作活动报告时，则在该环境中很少变化并且说话者是固定的。因此，可以采用预先调节音量的方法。可选地，通过使用头戴式麦克风，还可以动态地调节音量，因为可以估计麦克风和每个说话者的嘴之间的距离。

但是，当语音处理装置100被用于更广泛的真实环境中时，例如，当用户试图利用他/她手中的终端与城市区域中的某个人通信时，预先调节音量并不容易。另外，因为麦克风和说话者之间的距离并不固定，所以动态调节音量并不容易。

作为不同于预先调节和动态调节的方案，可接受的是使用另一种方法，在其中测量整个话音或一部分话音的功率，从而使得当存在具有非常大或非常小的功率的语音区间时将指示语音的音量不合适的信息呈现给用户，并且请求用户再次发出该相应持续时间的话音。

根据第一实施例，采用了后一种方法作为解决该问题的方法。为了计算语音的音量，需要(1)检测来自语音数据的语音区间，以及(2)为每个语音区间测量功率。为了(1)从语音数据检测语音区间，可以使用由识别单元102检测的语音区间信息。

在以下部分中，将介绍使用上述方法的话音音量计算处理的细节。

图7是话音音量计算处理的总体流程的流程图。

首先，检测单元103将语音区间分割成帧的单位(步骤S701)并获得语音区间中的帧数Nf(步骤S702)。如上所述，对于语音区间，可以使用由识别单元102检测的语音区间信息。语音区间被分割成帧，从而使得每个帧具有适合于计算功率的长度。根据第一实施例，语音区间被分割，从而使得帧周期是10毫秒，帧长是25毫秒。

接下来，检测单元103将累积功率Pa和最大功率Px初始化为“0”(步骤S703)。

随后，检测单元103以帧为单位计算功率Pt(步骤S704)。对于计算功率的方法，可以采用各种常规已经使用的方法中的任何一种。例如，可以使用这样的方法，在其中使用快速傅立叶变换(FFT)来计算语音数据的功率。

接下来，检测单元103将计算的功率Pt加到累积功率Pa(步骤S705)。随后，检测单元103判断功率Pt是否大于最大功率Px(步骤S706)。

当功率Pt大于最大功率Px(步骤S706：是)时，检测单元103利用功率Pt更新最大功率Px(步骤S707)。

在更新了最大功率Px之后，或者如果已经判断功率Pt不大于最大功率Px(步骤S706：否)，那么检测单元103判断是否已经处理了所有的帧(步骤S708)。

当没有处理所有的帧时(步骤S708：否)，那么计算下一帧的功率，并重复所述处理(步骤S704)。

当已经处理了所有帧时(步骤S708：是)，检测单元103基于累积功率Pa和帧数Nf来计算平均功率(步骤S709)，并因而完成话音音量计算处理。

检测单元103通过用帧数Nf分割累积功率Pa来计算平均功率。在第一实施例的描述中，说明了使用语音区间中的平均功率和最大功率来计算话音音量的方法；但是，计算话音音量的方法并不限于该方法。使用任何其他现有方法是可接受的。

接下来，将说明在步骤S403的噪声检测处理的细节。首先，将说明噪声检测处理的概念。

在真实环境中，有各种类型的噪声，并且噪声对语音识别过程具有显著的影响。噪声的实例包括在语音环境中持续地观测到的持续噪声和突然观测到的突发噪声。

持续噪声表示具有小功率波动并被不断地观测到的噪声类型，诸如来自室内空调的噪声和街上的噪声。突发噪声表示突然观测到的噪声类型，诸如在键盘上敲打的声音或汽车驶过的声音。

为了从根本上解决噪声的问题，一种方法可以在语音识别过程的初始阶段就消除噪声分量。另一种方法可以是构造在其上反映了噪声分量的声学模型。但是，因为有许多具有各种声学特征的噪声类型，因此不容易实现在每种类型的噪声上一贯地工作的噪声消除处理，也不容易通过收集每种类型的噪声数据来构造声学模型。

作为除了噪声消除和噪声声学模型构造之外的方案，可接受的是使用另一种方法，在其中检测在整个话音或一部分话音中的噪声，从而使得当存在噪声与语音重叠的语音区间时将解决该问题的方法呈现给用户，并且请求用户再次发出相应区间的话音。

根据第一实施例，后一种方法可以被用作该方案的方法。根据第一实施例，将说明这样的实例，在其中检测出持续噪声和突发噪声，并呈现根据所检测的噪声来解决该问题的方法。对于检测持续噪声和突发噪声的方法，将使用仅仅检测持续噪声和突发噪声的存在的方法。在该方法中，不详细识别噪声的类型，也不识别重叠噪声的格局中的差别。

为了检测持续噪声，可以利用一种使用判断标准的检测方法。判断标准的实例可以是，例如，被检测为语音的持续时间的长度是否超过在生理上能够发出话音的时间，或者在语音区间附近的功率是否超过阈值。

为了检测突发噪声，可以利用一种使用了另一种判断标准的检测方法。判断标准的实例可以是，例如，是否存在具有短周期并具有极大功率的持续时间。根据第一实施例，使用了通过计算语音区间的持续时间长度以及相邻帧的功率来检测持续噪声的方法，以及使用了通过计算局部极大功率长度来检测突发噪声的方法。

在该情况下，语音区间长度表示指示在其中话音被继续的语音区间的长度的信息。相邻帧表示将在其中检测噪声的帧之前和之后预定范围内的帧。局部极大功率长度表示在帧内的区间持续的长度，且与相邻帧相比，该区间具有大于预定阈值(下文中，称为“第一阈值”)的功率。

在以下部分中，将说明使用上述方法的噪声检测处理的细节。图8是噪声检测处理的总体处理的流程图。

首先，检测单元103将语音区间分割为帧的单位(步骤S801)并获得语音区间中的帧的数目Nf(步骤S802)。对于该语音区间，可以使用由识别单元102检测的语音区间信息，如上所述。语音区间被分割成帧，从而使得每个帧具有适合于测量噪声的长度。根据第一实施例，语音区间被分割，从而使得帧周期是100毫秒，帧长度是250毫秒。在以下解释中，语音区间中帧的数目Nf被用作为指示语音区间长度的信息。

接下来，检测单元103计算语音区间的相邻帧的平均功率Ps(步骤S803)。对于计算功率的方法，如前所述，可以利用常规使用的各种方法中的任何一种。例如，可以利用在其中使用了FFT的方法。

接下来，检测单元103将计数Ct初始化为“0”，将局部极大功率长度Np初始化到Nf，以及将累积功率Pa初始化为“0”(步骤S804)。在该情形中，计数Ct是用来对功率大于预定第一阈值的帧进行计数的信息。

接下来，检测单元103以帧为单位计算功率Pt(步骤S805)。随后，检测单元103将计算的功率Pt加到累积功率Pa(步骤S806)。

然后，检测单元103判断计算的功率Pt是否大于第一阈值(步骤S807)。

当已经判断所述计算的功率Pt不大于第一阈值时(步骤S807：否)，检测单元103判断是否满足以下两个条件：局部极大功率长度Np大于计数Ct；以及计数Ct不是“0”(步骤S808)。

当局部极大功率长度Np大于计数Ct并且计数Ct不是“0”时(步骤S808：是)，检测单元103用计数Ct来更新局部极大功率Np(步骤S809)。

如果以下条件都不满足或者只满足一个(步骤S808：否)，那么检测单元就初始化计数Ct为“0”(步骤S810)：局部极大功率长度Np大于计数Ct，并且该计数不是“0”。

在步骤S807，当已经判断所述计算的功率Pt大于第一阈值时(步骤S807：是)，检测单元103对计数Ct加“1”(步骤S811)。

接下来，检测单元103判断是否已经处理了所有的帧(步骤S812)。

当没有处理所有的帧时(步骤S812：否)，计算下一帧的功率，并重复所述处理(步骤S805)。

当已经处理了所有的帧时(步骤S812：是)，检测单元103基于累积功率Pa和帧数Nf来计算平均功率Pav(步骤S813)。

随后，检测单元103判断是否满足以下两个条件：局部极大功率长度Np大于预定阈值(以下称为“第二阈值”)，以及相邻帧的平均功率Ps和平均功率Pav之间的差小于预定阈值(以下称为“第三阈值”)(步骤S814)。

当局部极大功率长度Np大于第二阈值，并且相邻帧的平均功率Ps和平均功率Pav之间的差小于第三预定阈值时(步骤S814：是)，检测单元103判断当前帧具有持续噪声(步骤S815)，并因而完成噪声检测处理。

如果以下条件都不满足或者仅仅满足一个(步骤S814：否)，检测单元103判断局部极大功率长度Np是否小于预定阈值(以下称为“第四阈值)(步骤S816)：局部极大功率长度Np大于第二阈值，并且相邻帧的平均功率Ps和平均功率Pav之间的差小于第三阈值。

当局部极大功率长度Np小于第四阈值时(步骤S816：是)，那么检测单元103判断当前帧具有突发噪声(步骤S817)，从而完成噪声检测处理。

当局部极大功率长度Np不小于第四阈值时(步骤S816：否)，检测单元103判断当前帧没有噪声(步骤S818)，从而完成噪声检测处理。

在上述实例中，作为用于检测由于噪声引起的问题的方法，说明了这样的方法：在该方法中使用了语音区间长度，相邻帧功率，以及局部极大功率持续时间长度；但是，用于检测由于噪声引起的问题的方法并不限于该实例。使用任何其他现有的方法是可接受的。

根据目前为止的解释，当使用根据第一实施例的语音处理装置时，可以检测存在于话音中并且用户不能正常识别的声学的错误原因，并且还可以根据该错误原因的内容来切换应答用户。于是，用户能够理解错误原因并避免因为犯同样的错误而使会话错误结束的危险。另外，可以减少不必要的交互，因为反馈仅仅被返回给能够解决所述问题的用户。因而，能够平滑地继续会话。

使用根据第二实施例的语音处理装置，在语音翻译处理(其中，在以第一语言发出的语音的内容上进行的语音识别过程的结果被翻译成第二语言，并被输出给会话对方)期间，检测所述语音处理时发生的声学的错误原因，并且根据所检测到的错误原因的内容来切换应答用户。

如在此所述，第二实施例是这样的实例，在其中上述本发明的内容被应用到支持在互相说不同语言的用户之间的会话的语音翻译装置中。在以下说明中，使用了这样的实例，在其中语音处理装置具有在日语和英语之间翻译的功能；但是，在翻译过程中使用的源语言和目标语言的组合并不限于该实例。可接受的是将本发明应用到任何语言的组合中。

图9是根据第二实施例的语音处理装置900的框图。如图所示，语音处理装置900包括输入接收单元101，识别单元102，检测单元103，方法选择单元104，用户选择单元105，执行单元906，翻译单元907，显示单元110，语音输入单元121，通信单元122，以及存储单元130。

第二实施例不同于第一实施例之处在于，增加了翻译单元907，并且执行单元906具有不同于第一实施例中描述的功能。其他结构和功能与图1所示的那些相同，其中图1是根据第一实施例的语音处理装置100的框图。因而，相同的参考标记用于表示共有的元件，其说明也将省略。

翻译单元907接收作为语音识别过程的结果并且已由识别单元102输出的源语言形式的字符串，将所接收的字符串转换成目标语言的字符串，并输出该目标语言字符串到方法选择单元104。在由翻译单元907进行的翻译处理中，可以采用已经常规使用的翻译技术中的任何一种，如基于规则的翻译和基于实例的翻译。

执行单元906不同于根据第一实施例的执行单元106之处在于：执行单元906根据应答用户是说源语言的源语言用户还是说目标语言的目标语言用户，在切换了显示中使用的语言之后执行应答。此外，执行单元906不同于根据第一实施例的执行单元106之处还在于，当没有检测到错误原因时，执行单元906输出通过翻译语音识别结果所获得的翻译结果，而不是输出语音识别结果。

接下来，将说明由根据第二实施例的语音处理装置900进行的语音处理。图10是根据第二实施例的语音处理的总体流程的流程图。

在步骤S1001到S1002的语音输入处理和语音识别处理与由根据第一实施例的语音处理装置100进行的在步骤S301到S302的处理相同。因此，以下将省略其说明。

在进行了语音识别处理之后，翻译单元907将语音识别的结果翻译成目标语言(步骤S1003)。使用诸如基于规则的翻译或基于实例的翻译的方法来进行所述翻译处理，如上所述。

从步骤S1004到S1007的错误原因检测处理、方法选择处理以及应答用户选择处理与由根据第一实施例的语音处理装置100进行的在步骤S303到S306的处理相同。因此，省略其说明。

在步骤S1007选择了应答用户之后，执行单元906判断应答用户是否是源语言用户(步骤S1008)。更具体而言，执行单元906基于在语音识别过程期间检测的由说话者使用的语言、在应答用户选择处理中选择的应答用户以及预先指定的拥有者的语言，来判断应答用户是否是源语言用户。例如，当由说话者发出的话音是源语言的并且选择的应答用户是说话者时，那么该应答用户被判断为源语言用户。

当已经判断了该应答用户是源语言用户时(步骤S1008：是)，执行单元906以源语言向源语言用户执行由解决手段指示的应答(步骤S1009)。

当已经判断了所述应答用户不是源语言用户时，即，应答用户是目标语言用户时(步骤S1008：否)，执行单元906以目标语言向目标语言用户执行由解决手段指示的应答(步骤S1010)。

在步骤S1005，当检测单元103已经判断没有检测到错误原因时(步骤S1005：否)，执行单元906输出翻译的结果(步骤S1011)，并从而完成语音处理。

图11是说明了在其上已经输出翻译结果的显示屏幕的实例的示图。如图所示，在显示屏幕1101上，显示了用于以源语言显示语音识别结果的显示字段1102和用于以目标语言显示翻译结果的显示字段1103。

当没有检测到错误原因时(步骤S1005：否)，在显示字段1102上显示的来自语音识别结果的翻译结果将被显示在显示字段1103上。

接下来，将说明由根据如上配置的第二实施例的语音处理装置900进行的语音处理的具体实例。

在以下说明中，将使用这样的实例，在其中，源语言用户是日本游客，其是该装置的拥有者，而目标语言用户是英语母语说话者，其是日本游客的旅行目的地的当地居民并且其不熟悉该装置的操作。在该例中，该日本游客向该当地居民询问旅馆的位置。

在步骤S1001，接收到了由源语言用户说出的且表示“你能告诉我去希尔顿饭店的路吗？”的日语句子的输入。随后，在步骤S1002和S1003，识别单元102和翻译单元907将源语言形式的话音的内容转换成目标语言。

接下来，在步骤S1004，检测单元103通过测量语速、话音的音量和噪声来检查在语音识别过程中是否有任何错误。

在该情形下，假设最后一部分话音的音量太小且难以理解。将采用图2所示的规则表格131中的规则，该规则定义了请求说话者说更大声一点的应答应当被返回给说话者(步骤S1006和S1007)。

图12是说明了在其上输出应答消息的显示屏幕的实例的示图。如图所示，显示屏幕1201包括显示字段1202，其用于显示应答消息。在显示字段1202中显示了对应于已经从规则表格131中选择出来的并且意思为“因为音量太小，语音的最后部分不能理解，请说大点声”的应答实例的日语消息。

如上所述，当使用根据第二实施例的语音处理装置时，可以检测不懂会话对方语言的用户不能注意到的错误原因。并且，可以根据需要指出错误原因。另外，可以切换应答用户，从而使得反馈被返回到能够根据错误原因的内容解决该问题的用户。于是，通过指出错误原因，可以避免因为犯相同错误而使会话错误结束的危险。另外，可以减少不必要的交互，因为反馈仅仅被返回给能够解决该问题的用户。进一步，可以平滑地继续该会话，即使是与不熟悉该装置操作的会话对方的会话。因而，用户将能够自由地甚至与用户第一次遇到的外国人通信。

利用根据本发明第三实施例的语音处理装置，会话对方从已经被呈现的语音识别结果指出具有错误的部分，从而使得在已经指出的范围内检测语音中声学的错误原因。

图13是根据第三实施例的语音处理装置的框图。如图所示，语音处理装置1300包括输入接收单元101、识别单元102、检测单元1303、方法选择单元104、用户选择单元105、执行单元906、翻译单元907、确认单元1308、显示单元110、语音输入单元121、通信单元122以及存储单元130。

第三实施例不同于第二实施例之处在于，还包括确认单元1308，并且检测单元1303具有不同于在第二实施例中描述的功能。其他结构和功能与图9所示的那些相同，其中图9是根据第二实施例的语音处理装置900的框图。因此，相同的参考标记被用来表示共有的元件，以下将省略其说明。

确认单元1308从在显示屏幕上显示的翻译结果中确认已经被目标语言用户指定的错误部分作为没有被理解的部分。更具体而言，确认单元1308确认已经使用输入设备(未示出，诸如操作按键、键盘或触摸笔)从正在显示屏幕上显示的翻译结果的文本中选出的部分作为错误部分。

当确认单元1308已经确认了错误部分时，可以仅仅呈现与在多个错误原因之中的已经在错误部分发生的错误的原因相对应的解决手段。即使检测单元1303不能判断有错误，也可以请求改正错误。

检测单元1303不同于根据第二实施例的检测单元103之处在于，检测单元1303从对应于由确认单元1308确认的错误部分的一部分语音识别结果中检测错误原因，而不是从整个语音识别结果中检测错误原因。

接下来，将说明由如上配置的根据第三实施例的语音处理装置1300进行的语音处理。图14是根据第三实施例的语音处理的整体流程的流程图。

从步骤S1401到S1404的语音输入处理、语音识别处理以及错误原因检测处理与由根据第二实施例的语音处理装置900进行的从步骤S1001到S1004的处理相同。因此，将省略其说明。

在进行了错误原因检测处理之后，执行单元906向目标语言用户呈现翻译结果(步骤S1405)。接下来，确认单元1308确认已经由目标语言用户指定的错误部分(步骤S1406)。更具体而言，确认单元1308从正在屏幕上显示的翻译结果中确认已经被目标语言用户使用诸如操作按键的输入设备指定为没有被理解的部分的部分，作为错误部分。

随后，检测单元1303判断是否在由确认单元1308确认的错误部分中检测出了错误原因(步骤S1407)。当在由确认单元1308确认的错误部分中已经检测出了一个或多个错误原因时(步骤S1407：是)，将进行从步骤S1408到S1412的处理。

从步骤S1408到S1412的方法选择处理、应答用户选择处理以及应答执行处理与由根据第二实施例的语音处理装置900进行的从步骤S1006到S1010的处理相同。因此，将省略其说明。

当在由确认单元1308确认的错误部分中没有检测到错误原因时(步骤S1407：否)，结束语音处理。根据第三实施例，因为翻译结果已经被在步骤S1405呈现，就不需要输出翻译结果，这与根据第二实施例的步骤S1011不同。

根据目前为止的说明，第三实施例不同于第二实施例之处在于，仅对与由用户指定的错误部分相对应的错误原因执行应答。利用该设计，可以仅改正最少必要的部分。

接下来，将说明由如上配置的根据第三实施例的语音处理装置1300进行的语音处理的具体实例。

在以下说明中，将使用这样的实例，在其中源语言用户是英语母语说话者，其是日本游客的旅行目的地的当地居民并且不熟悉该装置的操作，而目标语言用户是日本游客，其是该装置的拥有者。在该例中，当地居民应答由日本游客发出的询问该当地居民在该旅行目的地的旅馆的位置在前的语音。

首先，在步骤S1401，接收了英语语句的输入，该句话由源语言用户说出并表示为“Since the hotel is quite far from here，I recommend a taxi.(因为旅馆非常远，我建议你乘出租车)”。随后，在步骤S1402和S1403，识别单元102和翻译单元907将该源语言的话音的内容转换成目标语言。

接下来，在步骤S1404，检测单元1303通过测量语速、话音的音量和噪声来检测在语音识别过程中是否存在任何错误。

在该情况下，假设单词“taxi”被错误地识别为“tax”，因为语速在话音后半部变快。在该情况下，翻译结果被呈现给日本游客，其是目标语言用户(步骤S1405)。

图15是说明了在其上输出翻译结果的显示屏幕的实例的示图。如图所示，在显示屏幕1501上，显示了用于显示翻译结果的显示字段1502、用于向日本游客显示消息的显示字段1503以及用于显示在由当地居民发出的话音上进行的语音识别结果的显示字段。

在图中，示出了这样的实例，在其中已经执行了语音识别过程，且在输入语音上有错误，并且“Since the hotel is quite far from here，Irecommend a tax.”被显示为语音识别结果。另外，通过翻译语音识别结果而获得的日语句子被显示在显示字段1502中。进一步，在屏幕上，要求指出错误部分并且意思为“如果有任何不理解的部分，请圈出该部分”的日语消息被显示在显示字段1503中。

图16是说明了指定错误部分之后的显示屏幕的实例的示图。在图示的显示屏幕1601上，示出了因为单词“taxi”被错误识别成“tax”而不正确翻译的日语句子的实例，并且指示“tax”所对应的日语单词的部分1602已经被日本游客指定为不理解的部分。在显示字段1603中，显示了意思为“对方将被请求检查具有单词“tax”的部分”的日语句子。进一步，对应于该被指定的错误部分的以英语表示的语音识别结果的一部分(即“a tax”)被画上下划线，如参考数字1604所示。可见确认了对应于所述错误部分的一部分语音识别结果。

随后，检测单元1303判断是否在作为被确认的错误部分的“a tax”部分中检测到错误原因(步骤S1407)。例如，假设已经检测到在语音的最后一部分的语速是高的。

在这种情形下，例如，从规则表格131获得请求说话者说得慢一点的应答实例。虽然图2中未示出，但是规则表格131在其中存储了源语言和目标语言的应答消息，并且对该消息的选择被根据应答用户来进行切换。

图17是说明了在其上显示应答消息的显示屏幕的实例的示图。在图示的显示屏幕1701上，示出了这样的实例，在其中，与检测出在语音的最后部分的语速太高的事实相对应，在显示字段1702中显示要求说话者说得慢一点的应答实例。

图18是说明了在源语言用户根据应答再说了一次话音之后的显示屏幕的实例的示图。在图中所示的显示屏幕1801上，示出了这样的实例，在其中在显示字段1803中仅显示已经被再说一次的部分的语音识别结果，并且在显示字段1802中显示通过翻译该语音识别结果而获得的翻译结果。

在上述例子中，已经说明了这样的情形：源语言用户的说话方式中存在问题。作为另一个例子，当因为在背景中有持续噪声而不能正确识别语音的情况下，根据图2所示的规则表格131，应答用户将是作为该装置的拥有者的目标语言用户。从而，应答将被呈现给目标语言用户(步骤S1412)。

图19是说明了在其上显示对目标语言用户的反馈的显示屏幕的实例的示图。在图中所示的显示屏幕1901上，显示了这样的实例，在其中在显示字段1902中显示当背景噪声重叠整个语音时将被使用的应答实例。

在上面的描述中，说明了这样的实例，在其中在由确认单元1308指出的部分中已经检测到了错误原因；但是，也可以接受另一种设计，从而使得当在已经指出的部分中没有检测到错误原因时，判断存在在第三实施例的假设范围之外的错误原因，并且可以将诸如“请再说一次”的普通应答返回给说话者。

根据目前为止的说明，当使用根据第三实施例的语音处理装置时，会话对方指出在所呈现的语音识别结果之中具有错误的部分，并且可以在已经指出的范围内检测语音中的声学的错误原因。因此，可以提高在错误原因检测中的精确程度。另外，可以平滑地继续会话，因为仅仅纠正最少必须的部分。

根据第四实施例的语音处理装置在其中存储了已经检测的错误原因的历史，并当发生错误时通过参考被存储的错误原因历史来切换要使用的应答方法。

图20是根据第四实施例的语音处理装置的框图。如图所示，语音处理装置2000包括输入接收单元101，识别单元102，检测单元103，方法选择单元2004，用户选择单元2005，执行单元906，翻译单元907，显示单元110，语音输入单元121，通信单元122以及存储单元2030。

第四实施例不同于第二实施例之处在于，方法选择单元2004和用户选择单元2005具有不同于第二实施例中描述的功能。并且，第四实施例不同于第二实施例之处还在于历史管理表格2032被附加地包括在存储单元2030中，并且规则表格2031具有不同于第二实施例中描述的数据结构。其他的结构和功能与图9所示的那些相同，其中图9是根据第二实施例的语音处理装置900的框图。因而，相同的参考标记被用来表示共有的元件，并将省略其说明。

历史管理表格2032在其中存储了过去已经检测的错误原因的历史。图21是说明了历史管理表格2032的数据结构的实例的示图。

如图所示，历史管理表格2032在其中存储了互相对应的“发生时间”(用来当发出话音时确认时间点的信息)、“说话者”和“检测的错误原因”。在图中，示出了这样的实例，在其中存储了指示与由英语说话者讲的前一话音相重叠的背景噪声已经被检测为错误原因的历史。

规则表格2031不同于根据第二实施例的规则表格之处在于规则表格2031在其中存储了这样的规则，该规则进一步示出了，与其他条件相对应的，与错误原因的历史相关的预定条件。

图22是说明了规则表格2031的数据结构的实例的示图。如图所示，规则表格2031在其中存储了互相对应的原因类型、将被检测的错误原因、历史条件、应答用户和应答实例。

对于“历史条件”，指定了与错误原因的历史相关的预定条件。指定的历史条件的实例包括：背景噪声是否重叠前一话音中的语音，或者是否没有背景噪声重叠前一话音中的语音。可接受的是如果不需要进行该流程的话，省略指定历史条件的程序。

方法选择单元2004不同于根据第二实施例的方法选择单元104之处在于，通过参考历史管理表格2032，方法选择单元2004确定解决手段，从而使得其不仅仅匹配所检测的错误原因，还匹配在错误原因的历史中满足的条件。

用户选择单元2005不同于根据第二实施例的用户选择单元105之处在于，通过参考历史管理表格2032，用户选择单元2005选择不仅匹配所检测的错误原因而且匹配在错误原因的历史中满足的条件的应答用户。

接下来，将说明由如上配置的根据第四实施例的语音处理装置2000进行的语音处理。图23是根据第四实施例的语音处理的总体流程的流程图。

从步骤S2301到S2305的语音输入处理、语音识别处理以及错误原因检测处理与由根据第二实施例的语音处理装置900进行的步骤S1001到S1005的处理相同。因此，省略其说明。

在步骤S2305，当判断已经检测到了一个或多个错误原因时(步骤S2305：是)，方法选择单元2004参考历史管理表格2032，并从规则表格2031获得对应于错误原因和历史条件的解决手段(步骤S2306)。

例如，假设，对于在当前话音上进行的语音识别的结果，已经检测到了背景噪声重叠该语音，并且历史管理表格2032在其中存储了错误原因的历史，如图21所示。在该情形下，所获得的历史条件指示了背景噪声重叠前一话音中的语音。因而，从图22中所示的规则表格2031获得请求说话者改变位置的应答实例作为解决手段。

接下来，用户选择单元2005参考历史管理表格2032，并从规则表格2031获得对应于错误原因和历史条件的应答用户(步骤S2307)。在上述实例中，从如图22所示的规则表格2031获得装置的拥有者作为应答用户。

从步骤S2308到S2311的应答执行处理与由根据第二实施例的语音处理装置900进行的步骤S1008到S1011的处理相同。因此，省略其说明。

根据目前为止的说明，第四实施例不同于第二实施例之处在于，根据第四实施例，存储了错误原因的历史，从而使得能够通过参考该历史来切换应答内容和应答用户。通过这种设计，可以当重复地检测到相同的错误原因时改变应答的内容。

接下来，将说明由根据第四实施例的语音处理装置2000进行的语音处理的具体实例。

在以下说明中，将使用这样的实例，在其中源语言用户是英语当地说话者，其是日本游客的旅行目的地的当地居民并且不熟悉该装置的操作，而目标语言用户是日本游客，其是该装置的拥有者。在该实例中，所述当地居民应答由向该当地居民询问有关旅行目的地的旅馆位置的日本游客发出的在前的语音。

首先，在步骤S2301，接收到由源语言用户说出且表示“Since the hotelis quite far from here，I recommend a taxi.”的英语句子的输入。随后，在步骤S2302和S2303，识别单元102和翻译单元907将源语言的话音内容转换成目标语言。

接下来，在步骤S2304，检测单元103通过测量语速、话音音量和噪声来检查是否在语音识别处理中有任何错误。

在该情形下，假设如图21所示在前一话音中检测到了背景噪声，并且在当前正在处理的语音中已经检测到了背景噪声。在该情形下，方法选择单元2004从如图22所示的规则表格2031中选择请求应该改变位置的应答实例，作为解决手段(步骤S2306)。此外，用户选择单元2005从如图22所示的规则表格2031中选择拥有者作为应答用户(步骤S2307)。

另一方面，如果在当前正在处理的语音中第一次检测到背景噪声，那么从如图22所示的规则表格2031中选择请求说话者说更大声的应答。

如目前为止的说明，当使用根据第四实施例的语音处理装置时，当重复检测到相同的错误原因时，可以选择新的解决手段来突破该情形。通过根据过去已经检测到的错误原因来返回最合适的反馈，可以避免因为犯同样错误而错误结束会话的危险。另外，因为反馈仅仅被返回给能够解决该问题的用户，可以减少不必要的交互。

根据第五实施例的语音处理装置呈现了，在对应于所检测到的错误原因的应答正在被执行时，对于会话对方的应答的执行状况。

根据第五实施例的语音处理装置的结构与图9所示的相同，其中图9是根据第二实施例的语音处理装置900的框图。因而，同样的参考标记表示共有的元件，并省略其说明。

第五实施例不同于第二实施例之处在于，当执行单元106正在执行应答时，应答的内容被显示给用户而不是应答用户，从而可以理解当前状况。

接下来，将说明由如上配置的根据第五实施例的语音处理装置所进行的语音处理。图24是根据第五实施例的语音处理的总体流程的流程图。

从步骤S2401到S2411的语音输入处理、语音识别处理、错误原因检测处理、方法选择处理、应答用户选择处理以及为应答用户进行的应答执行处理与由根据第二实施例的语音处理装置900进行的步骤S1001到S1011的处理相同。因此，省略其说明。

根据第五实施例，在步骤S2409执行单元106执行对源语言用户的应答之后，或者在步骤S2410执行单元106执行对目标语言用户的应答之后，执行单元106分别向目标语言用户或源语言用户呈现处理状况(步骤S2412，S2413)。

如目前为止的说明，根据第五实施例，反馈不仅被返回给解决与错误原因有关的问题的用户，而是被返回给这两个用户。因而，可以让两个用户理解彼此的当前状况。

接下来，将说明由根据如上配置的第五实施例的语音处理装置所进行的语音处理的具体实例。

在以下说明中，将使用这样的实例，在其中源语言用户是英语母语说话者，其是日本游客的旅行目的地的当地居民并且不熟悉该装置的操作，而目标语言用户是日本游客，是该装置的拥有者。在该例中，所述当地居民应答由向该当地居民询问有关旅行目的地的旅馆位置的日本游客发出的之前的语音。

首先，在步骤S2401，接收到由源语言用户说出的表示“Since the hotelis quite far from here，I recommend a taxi.”的英语句子的输入。随后，在步骤S2402和S2403，识别单元102和翻译单元907将源语言的话音内容转换成目标语言。

接下来，在步骤S2404，检测单元103通过测量语速、话音音量和噪声来检查是否在语音识别处理中有任何错误。

在该情形下，假设在整个语音中的语速很高，听不懂任何话音。那么，采用如图2所示的规则表格131中的规则，从而将要求说话者说得更慢一点的应答返回给说话者(步骤S2406，步骤S2407)。

在该情形下，执行单元106显示应答消息给源语言用户(步骤S2409)，并且还向目标语言用户显示正在向源语言用户执行的应答的状况(步骤S2412)。

图25是说明了在其上显示应答处理的状况的显示屏幕的实例的示图。在图中的显示屏幕2501上，显示了这样的实例，在其中在显示字段2503中显示应答，并且在显示字段2502中显示指示应答处理的状况的日语消息。

在上述说明中，使用了这样的实例，在其中同时显示对于源语言用户和目标语言用户的消息；但是，另一种设计也是可以接受的，从而向源语言用户呈现通过在消息上进行语音合成而获得的合成声音，而在显示屏幕上向目标语言用户传达消息。用于呈现消息的方法并不限于这些例子。为了呈现消息，可以使用常规上已经使用的各种方法的任何一种；例如，在朝着源语言用户和目标语言用户的方向上输出以各自语言产生的合成声音。

如目前为止的说明，当使用根据第五实施例的语音处理装置时，当正在执行对应于所检测的错误原因的应答时，可以向会话对方呈现应答的执行状况。因而，会话对方能够理解已经发生了错误，还能理解由说话者或装置的拥有者进行的操作的内容。因此，可以防止由于会话中的空白所导致的迷惑，并平滑地继续会话。

图26是说明了根据第一到第五实施例的语音处理装置的硬件结构的示图。

根据第一到第五实施例的语音处理装置的每一个都包括诸如中央处理单元(CPU)51的控制装置，诸如只读存储器(ROM)52和随机存储器(RAM)52的存储装置，连接到网络并进行通信的通信接口(I/F)54，以及使得构成元件互相连接的总线61。

在根据第一到第五实施例的语音处理装置的每一个中执行的语音处理程序被预先提供为包括在ROM 52等中。

在根据第一到第五实施例的语音处理装置的每一个中执行的语音处理程序可以以可安装格式或可执行格式的文件被提供为记录在计算机可读记录介质中，该介质诸如光盘只读存储器(CD-ROM)、软盘(FD)、可写光盘(CD-R)或数字通用光盘(DVD)。

在根据第一到第五实施例的语音处理装置的每一个中执行的语音处理程序可以被存储在连接到诸如因特网的网络的计算机中并被提供为可经由网络下载。可以经由诸如因特网的网络提供或分发在根据第一到第三实施例的语音处理装置的每一个中执行的语音处理程序。

在根据第一到第五实施例的语音处理装置的每一个中执行的语音处理程序可以被构造成包括上述构成元件(即，输入接收单元、识别单元、检测单元、方法选择单元、用户选择单元、执行单元、翻译单元以及确认单元)的模块。在实际的硬件结构中，当CPU 51读取并执行来自ROM 52的语音处理程序时，构成元件被加载到主存储装置上并在该主存储装置中产生。

Claims

1.一种语音处理装置，包括：

规则存储单元，在其中存储了将语音识别中的错误原因、应答方法以及应答用户相互关联的规则，其中，所述应答方法的每一个是在所述语音识别期间已经发生错误时所使用的，所述应答用户的每一个是多个用户中的一个并作为应答的对象；

输入接收单元，其接收语音的输入；

识别单元，其识别所述接收的语音；

检测单元，其检测在所述语音识别期间发生的错误的原因；

方法选择单元，其从所述规则存储单元选择与所述检测的错误原因相关的一种所述应答方法；

用户选择单元，其从所述规则存储单元选择与所述检测的错误原因相关的一个所述应答用户；以及

执行单元，其通过所述选择的应答方法向所述选择的应答用户执行所述应答。

2.根据权利要求1所述的装置，还包括：

错误部分接收单元，其接收在所述语音识别的结果中具有所述错误的部分的指定的输入，其中，

所述检测单元从所述接收的对所述部分的指定中检测在所述语音识别期间已经发生的所述错误的原因。

3.根据权利要求1所述的装置，还包括：

历史存储单元，在该历史存储单元中存储了所述检测到的错误原因的历史；以及

获得单元，当已经检测到所述错误原因时，从所述历史存储单元中获得所述历史，其中，

所述规则存储单元在其中存储了将与所述历史相关的预定条件、所述错误原因、所述应答方法和所述应答用户相互关联的规则，

所述获得单元获得与所述获得的历史相关的所述预定条件中的一个，

所述方法选择单元从所述规则存储单元选择与所述获得的条件以及所述检测的错误原因相关的一种所述应答方法，以及

所述用户选择单元从所述规则存储单元选择与所述获得的条件以及所述检测的错误原因相关的一个所述应答用户。

4.根据权利要求3所述的装置，其中，

所述规则存储单元在其中存储了与所述预定条件相关的规则，每一个所述预定条件指示了对在作为错误检测对象的语音之前输入的语音的识别期间已经发生的错误的原因和对作为错误检测对象的语音的识别期间已经发生的错误的原因之间的关系。

5.根据权利要求1所述的装置，还包括：

翻译单元，其将第一语言的语音的识别结果翻译成第二语言，其中，

所述规则存储单元在其中存储了与所述应答用户相关的规则，每一个应答用户是第一用户和第二用户中的至少一个，所述第一用户是以所述第一语言输入所述语音的用户，且所述第二用户是接收所述第二语言的翻译结果的用户。

6.根据权利要求1所述的装置，其中，

所述执行单元向所述选择的应答用户执行应答，并向没有被选择的其他用户呈现与该应答相关的信息。

7.根据权利要求1所述的装置，其中，

所述检测单元检测至少所述语音的语速作为所述错误原因。

8.根据权利要求1所述的装置，其中，

所述检测单元检测至少所述语音的话音音量作为所述错误原因。

9.根据权利要求1所述的装置，其中，

所述检测单元检测至少所述语音中包括的噪声作为所述错误原因。

10.根据权利要求9所述的装置，其中，

所述检测单元检测持续至少预定第一时间段的持续噪声作为所述噪声。

11.根据权利要求10所述的装置，其中，

所述检测单元检测在比所述第一时间段短的预定第二时间段内发生的所述持续噪声和突发噪声作为所述噪声。

12.根据权利要求1所述的装置，其中，

所述规则存储单元在其中存储了将所述错误原因、所述应答方法和所述应答用户相互关联的规则，每个所述错误原因是在整个所述语音中已经发生的错误的原因和在一部分所述语音中已经发生的错误的原因中的一个，以及

所述检测单元检测在所述整个语音和所述一部分语音之一中已经发生的错误的原因。

13.根据权利要求12所述的装置，还包括：

显示单元，其显示所述语音识别的结果，其中，

当所述检测单元已经检测到在所述一部分语音中已经发生的错误的原因时，所述执行单元将指示所述错误原因已经被检测到的信息与对应于在其中已经检测到所述错误的所述一部分语音的一部分识别结果相关联，并输出该相关联的结果到所述显示单元。

14.根据权利要求1所述的装置，还包括：

语音输入单元，其输入所述语音，其中，

所述输入接收单元接收来自所述语音输入单元的语音的输入。

15.根据权利要求1所述的装置，还包括：

通信单元，其向外部装置发送信息并从该外部装置接收信息，其中，

所述输入接收单元经由所述通信单元接收从所述外部装置发送的语音的输入。

16.一种语音处理方法，包括以下步骤：

接收语音的输入；

识别所述接收的语音；

检测在所述语音识别期间发生的错误的原因；

从在其中存储了规则的规则存储单元选择与所述检测的错误原因相关的一种应答方法，其中，该规则将语音识别中的错误原因、应答方法和应答用户相互关联，所述应答方法的每一个是当在所述语音识别期间已经发生错误时所使用的，所述应答用户的每一个是多个用户中的一个且作为应答的对象；

从所述规则存储单元选择与所述检测的错误原因相关的一个所述应答用户；以及

通过所述选择的应答方法向所述选择的应答用户执行所述应答。