CN101046958A

CN101046958A - 语音处理的装置和方法

Info

Publication number: CN101046958A
Application number: CNA2007100915674A
Authority: CN
Inventors: 蚁生政秀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-03-29
Filing date: 2007-03-28
Publication date: 2007-10-03
Also published as: JP2007264473A; JP4557919B2; US7801726B2; US20070233471A1

Abstract

语音处理装置，包括：语音输入单元，接收语音的输入，该语音包括操作者和该操作者之外的人之中的一个的话音；指定持续时间接受单元，接受由所述操作者指定的指定持续时间作为时间间隔，该时间间隔是在所述输入语音中的语音处理的对象；话音持续时间检测单元，从所述输入语音中检测话音持续时间，该话音持续时间是在其中存在所述话音的时间间隔；说话人确定单元，基于所述输入语音来确定所述话音的说话人是所述操作者还是所述之外的人；以及决定单元，检测在指定持续时间和话音持续时间之间的重叠时间段，并且，当检测到所述重叠时间段并且确定所述说话人是所述之外的人时，决定包括了所述重叠时间段的所述话音持续时间是处理持续时间。

Description

语音处理的装置和方法

技术领域

本发明涉及一种对输入语音进行处理和输出的装置和方法。

背景技术

近年来，作为一类处理输入语音的语音处理装置，正在进行对于通过将输入话音的源语言翻译为目标语言从而支持语际交流的语音翻译系统等的开发。

在所述语音处理系统中，由于将多个说话人的语音输入所述系统，需要对每位说话人执行语音处理。已经提出了一种用于指定方向的技术，在其中，通过利用可移动的麦克风或陀螺传感器，使得每个输入语音的说话人都可以存在，并用于确定翻译方向，例如，见JP-A 2005-141759(公开)中所公开的。

然而，在JP-A 2005-141759(公开)中公开的技术存在着发生故障或者操作复杂的问题。这是因为，如果存在环境噪声或者来自说话人的交流对象的响应诸如是不应该处理的点头时，此技术不能为每个输入语音进行语音处理。

利用在JP-A 2005-141759(公开)中公开的技术，通过移动朝向操作者或交流对象的语音翻译系统或者麦克风的主体，将说话人在操作者和交流对象之间进行切换。然而，此切换操作的缺陷在于，对于每个对话都需要进行，并可能妨碍自然对话。JP-A 2005-141759(公开)公开了利用麦克风阵列的说话人切换方法；然而，仍然没有解决对不需要的语音进行可能不希望的处理的问题。

作为确定说话人的另一种方法，在JP-A 2003-295892(公开)中公开了允许用户明确指定说话人的技术。具体地，当输入用户的语音时，所述用户打开开关，而当输入交流对象的语音时，关闭该开关。在JP-A2003-295892(公开)中公开的技术使得可以通过一次开关操作确定翻译语言，并且因此能够改进所述装置的可操作性。

然而，在JP-A2003-295892(公开)中公开的方法存在这样的问题，即，处理了不需要的语音，从而导致可能出现由于如下原因的故障。利用在JP-A 2003-295892(公开)中公开的方法，通过打开所述开关，能够为用户的语音指定将要进行处理的语音的持续时间。然而，当用户关闭所述开关时，所有输入语音都被处理。这个问题是由于缺少一种方法来为所述交流对象的语音适当地设置话音持续时间而导致的。

发明内容

根据本发明的一方面，一种语音处理装置，包括：语音输入单元，用于接收语音的输入，该语音包括操作者和该操作者之外的人之中的一个的话音；指定持续时间接受单元，用于接受由所述操作者指定的指定持续时间作为时间间隔，该时间间隔是在所述输入语音中的语音处理的对象；话音持续时间检测单元，用于从所述输入语音中检测话音持续时间，该话音持续时间是在其中存在所述话音的时间间隔；说话人确定单元，基于所述输入语音来确定所述话音的说话人是所述操作者还是所述操作者之外的人；以及决定单元，用于检测在所述接受的指定持续时间和所述检测的话音持续时间之间的重叠时间段，并且，当检测到所述重叠时间段并且由所述说话人确定单元确定所述说话人是所述操作者之外的人时，决定包括了所述重叠时间段的所述话音持续时间是处理持续时间。

根据本发明另一方面，一种语音处理方法，包括步骤：输入语音，该语音包括操作者和该操作者之外的人之中的一个的话音；接受由所述操作者指定的指定持续时间的输入作为时间间隔，该时间间隔是在所述输入语音中的语音处理的对象；从所述输入语音中检测话音持续时间，该话音持续时间是在其中存在所述话音的时间间隔；基于所述输入语音来确定所述话音的说话人是所述操作者还是所述操作者之外的人；检测在所述接收的指定持续时间和所述检测的话音持续时间之间的重叠时间段；以及，当检测到所述重叠时间段并且确定所述说话人是所述操作者之外的人时，决定包括了所述重叠时间段的所述话音持续时间是处理持续时间。

附图说明

图1是示意性视图，其解释了使用根据本发明第一实施例的语音处理装置的情况；

图2是根据第一实施例的语音处理装置的功能框图；

图3是根据第一实施例的语音处理的流程图；

图4是根据第一实施例的话音持续时间检测处理的流程图；

图5是在其中进行话音持续时间检测处理的处理状态的一个例子的说明视图；

图6是根据第一实施例的说话人确定处理的流程图；

图7是根据第一实施例的处理内容确定处理的流程图；

图8是根据第一实施例的话音持续时间结束检测处理的流程图；

图9是根据第一实施例的指定持续时间结束检测处理的流程图；

图10是根据第一实施例的处理的各种信息的例子的说明视图；

图11是根据第二实施例的语音处理装置的框图；

图12是根据第二实施例的语音处理的流程图；

图13是根据第三实施例的语音处理的流程图；

图14是根据第四实施例的语音处理的流程图；

图15是根据第四实施例的处理内容确定处理的流程图；

图16是根据第五实施例的语音处理装置的框图；

图17是根据第五实施例的说话人确定处理的流程图；以及

图18是根据第一到第五实施例的各语音处理装置的硬件构成的说明视图。

具体实施方式

以下将参照附图说明根据本发明的语音处理装置和语音处理方法的示例性实施例。

根据本发明第一实施例的语音处理装置基于指定持续时间、话音持续时间以及说话人信息，来决定处理持续时间。所述处理持续时间是作为语音处理对象的语音持续时间(此后，简称为“对象语音”)。所述指定持续时间是由操作者指定的持续时间。所述话音持续时间是从输入语音检测的。通过参照关于从多个麦克风输入的语音的信息来获得所述说话人信息。

具体地，所述话音持续时间是在多个输入语音中被确定为话音的话音的持续时间。所述处理持续时间是实际处理的对象语音的持续时间。所述指定持续时间是操作者为语音处理指定的持续时间。因为由操作者指定所述指定持续时间，存在由于操作错误而导致操作者错误指定所述指定持续时间的可能性。在这种情况下，不应将所指定的持续时间视为所述处理持续时间。然而，第一实施例能够考虑到可能的操作错误等来适当地决定所述处理持续时间。

图1是使用根据第一实施例的语音处理装置的情况的示意性视图。

语音处理装置100的说话人或用户包括系统操作者101和交流对象102。在第一实施例中，假设系统操作者101所说的语言是语言L1，而交流对象102所说的是语言L2。

作为硬件构造，语音处理装置100包括：输入单元103、麦克风104a和104b以及按下讲话按键105。输出单元103向用户，即，系统操作者101和交流对象102输出语音处理结果。输出单元103可以使用诸如在例如液晶显示器的显示装置上显示所述语音处理结果的方法，或者输出通过语音合成所述语音处理结果所得到的语音的方法等许多常规方法，作为输出方法。

包括系统操作者101或者交流对象102的话音的语音被输入到麦克风104a和104b的每一个。麦克风104a朝向系统操作者101，而麦克风104b朝向交流对象102。假设在系统操作者101和交流对象102之间的相对位置关系固定。

系统操作者101使用按下讲话按键105来指定语音的指定持续时间。按下讲话按键105可以被设置为两种状态；ON状态，在其中系统操作者101开启按下讲话按键105，以及OFF状态，在其中系统操作者101关闭按下讲话按键105。假设系统操作者101指定这样的持续时间，在其中按下讲话按键105处于ON状态，即，从按下讲话按键105输出指示ON状态的ON信号，作为指定持续时间。

图2是根据第一实施例的语音处理装置100的框图。参照图1进行解释，作为硬件构造，语音处理装置100包括：输出单元103、麦克风104a和104b以及按下讲话按键105。如图2所示，作为软件构造，语音处理装置100还包括输入接收单元201、话音持续时间检测单元202、说话人确定单元203、指定持续时间接受单元204、处理内容确定单元205以及语音处理单元206。

输入接收单元201接收语音，该语音包括系统操作者101或交流对象102的话音。具体地，输入接收单元201对从两个麦克风104a和104b输出的语音的模拟信号进行采样，并将该模拟信号转换为立体声数字信号。输入接收单元201向话音持续时间检测单元202和说话人确定单元203输出所述立体声数字信号。输入接收单元201能够利用常规A/D转换技术等进行所述处理。

话音持续时间检测单元202从输入接收单元201输出的所述立体声数字信号检测话音持续时间。话音持续时间检测单元202能够利用任意一种常规话音持续时间检测技术来检测所述话音持续时间。常规检测技术的例子包括：将比具有预设音量的阈值相对更长的持续时间确定为话音持续时间的方法，以及将具有较高的话音模型似然(likelihood)的持续时间确定为话音持续时间的方法，其中通过对语音进行频率分析得到所述话音模型。

说话人确定单元203从由输入接收单元201输出的立体声数字信号来确定所述语音的说话人是系统操作者101还是交流对象102。

说话人确定单元203能够利用任何一种常规方法来确定所述说话人是系统操作者101还是交流对象102。所述常规确定方法的例子包括：利用从麦克风104a和104b输出的信号的基于输入到麦克风104a和104b中每一个的语音的响度的方法，以及，基于用互相关函数表示的时间差的正或负的方法。

指定持续时间接受单元204接受由系统操作者101指定的持续时间。具体地，当按下讲话按键105处于ON状态时，按下讲话按键105向指定持续时间接受单元204发送ON信号，而当按下讲话按键105处于OFF状态时，其向指定持续时间接受单元204发送OFF信号。当指定持续时间接受单元204接收到所述ON信号时，指定持续时间接受单元204接受在其中所述ON信号被输入到指定持续时间接受单元204的持续时间，作为指定持续时间。

参照关于由话音持续时间检测单元202检测的话音持续时间的信息、关于由说话人确定单元203确定的说话人的信息以及关于由指定持续时间接受单元204接受的指定持续时间的信息，处理内容确定单元205判断在其中语音处理单元206对被输入到输入接收单元201的语音进行语音处理的处理持续时间以及语音处理的内容。在第一实施例中，作为语音处理的内容，处理内容确定单元205决定是否利用语言L1或语言L2进行语音识别和翻译。

在由处理内容确定单元205决定的处理持续时间内，语音处理单元206进行语音处理，其中该语音处理的内容由处理内容确定单元205决定。语音处理单元206对于输入语音之中的在处理持续时间内的语音进行语音识别处理和翻译处理，并向输出单元103输出语音识别处理结果和翻译处理结果。

在所述语音识别处理中，语音处理单元206能够使用任何一种熟知的语音识别方法，诸如利用线性预测编码(LPC)分析、隐马尔科夫模型(HMM)、动态规划、神经网络以及N-gram语音模型的方法。

在所述翻译处理中，语音处理单元206能够使用任何一种熟知的机器翻译方法，诸如基于句法转移的(syntactic-transfer-based)机器翻译、基于实例的机器翻译、统计机器翻译以及中间语言机器翻译等。

下面将解释根据第一实施例的语音处理装置100所进行的语音处理。

在所述语音处理中，处理内容确定单元205对于每个预定时间单元(此后，简称为“帧”)基于从话音持续时间检测单元202、说话人确定单元203以及指定持续时间接受单元204输出的处理结果，来决定处理持续时间和处理内容。另外，语音处理单元206对所述语音进行语音处理。

通常需要预定的时间期间来分别进行话音持续时间检测处理、说话人确定处理以及指定持续时间接受处理。由于这个原因，所述语音处理实际上会被延迟差不多与所述话音持续时间检测处理、所述说话人确定处理以及所述指定持续时间接受处理中的最长持续时间相对应的帧数。然而，为方便起见，假设进行所述语音处理而没有这些延迟。

例如，说话人在时刻t产生语音。花费Δt秒来确定在时刻t所述语音开始。然而，即使实际时刻是t+Δt，装置能够认为时刻t是检测所述语音的开始。作为诸如语音识别的处理实时信号的例子，这样的处理方法为人所熟知，并且能够通过常规技术实现。

此外，话音持续时间检测单元202、说话人确定单元203、指定持续时间接受单元204、处理内容确定单元205以及语音处理单元206为每帧进行他们各自的处理，并输出处理结果。可以在话音持续时间检测单元202或者指定持续时间接受单元204得到各持续时间的起点或终点之后输出所述处理结果。

以下将描述根据第一实施例的语音处理的整体流程。图3是根据第一实施例的语音处理的整体流程的流程图。

首先，在各帧中，输入接收单元201接收由用户(系统操作者101或交流对象102)之一生成的语音(步骤S301)。具体地，输入接收单元201将从麦克风104a或104b输出的语音模拟信号转换为数字信号，并输出与所述帧一样多的处理结果。

指定持续时间接受单元204接受从系统操作者101开启所述按下讲话按键105到系统操作者101关闭该按下讲话按键105的时间间隔，作为指定持续时间(步骤S302)。具体地，指定持续时间接受单元204确定在每一帧中系统操作者101是否按下所述按下讲话按键105，并接受从开始按下到结束按下的间隔作为指定持续时间。

接下来，话音持续时间检测单元202进行话音持续时间检测处理(步骤S303)，说话人确定单元203进行说话人确定处理(步骤S304)，而处理内容确定单元205进行处理内容判断处理(步骤S305)。稍后将详细解释话音持续时间检测处理、说话人确定处理以及处理内容判断处理。

然后，语音处理单元206根据所述处理内容判断处理的结果，在处理持续时间中对语音进行语音识别处理(步骤S306)。

在第一实施例中，在由处理内容判断处理确定了所述处理内容和所述处理持续时间之后，语音处理单元206即开始所述语音处理。可选地，可以在确定了所述处理内容和所述处理持续时间并且然后完成了对话音持续时间和指定持续时间的检测之后，进行所述语音处理。

具体地，如下执行步骤S306中的语音识别处理。首先，语音处理单元206从诸如随机存储器(RAM)的存储区域(未示出)获取对应于所述处理持续时间的语音信息。在获取所述语音信息时，说话人确定单元203已经确定了说话人是系统操作者101还是交流对象102。因此，如果说话人是系统操作者101，语音处理单元206对于由麦克风104a收集的语音来获取对应于处理持续时间的语音信息。如果说话人是交流对象102，语音处理单元206对于由麦克风104b收集的语音来获取对应于处理持续时间的语音信息。

在获取所述语音信息之后，语音处理单元206利用在处理内容中指定的语言对所获取的语音进行语音识别处理。通过处理内容确定单元205的处理内容判断处理，如果说话人是系统操作者101，在处理内容中设置语言L1，且如果说话人是交流对象102，在处理内容中设置语言L2。语音处理单元206根据所述处理内容对所获取的语音进行语音识别处理。

由于根据所述说话人是系统操作者101还是交流对象102，存在着语言差异，语音处理单元206进行语音识别处理的同时改变在语音识别处理中所使用的诸如声学模型、字典以及语法的信息。

语音处理单元206根据所述语音识别处理的结果在处理持续时间中对所述语音进行翻译处理(步骤S307)。

具体地，语音处理单元206将所述语音识别处理结果从某种语言翻译为在处理内容中设置的语言。例如，处理内容确定单元205通过所述处理内容判断处理来设置如下的处理内容。如果说话人是系统操作者101，语音处理单元206将语音识别处理结果从语言L1翻译为语言L2。如果说话人是交流对象102，语音处理单元206将语音识别处理结果从语言L2翻译为语言L1。语音处理单元206根据所述处理内容来翻译所述语音识别处理结果。

可选地，根据所述说话人是系统操作者101还是交流对象102，不仅可改变源语言和翻译语言，还可以改变翻译方法。

接下来将详细解释在步骤S303的话音持续时间检测处理。图4是根据第一实施例的话音持续时间检测处理的整体流程的流程图。

首先，话音持续时间检测单元202从时刻t为预设数目(此后简称为“X”)的帧获取每帧音量(volume per frame)(步骤S401)。可以利用从输入接收单元201输入的数字信号来计算所述每帧音量。话音持续时间检测单元202确定在所述X帧期间，每帧音量是否高于预定阈值(此后，称为“阈值T1”)(步骤S402)。如果所述每帧音量不高于阈值T1(步骤S402：否)，流程返回到步骤S401，并重复所述处理。

如果每帧音量高于阈值T1(步骤S402：是)，话音持续时间检测单元202检测所述时刻t，作为话音持续时间的起点(步骤S403)。

接下来，话音持续时间检测单元202从某时刻u获取每预设数目(此后，简称为“Y”)帧的音量(步骤S404)。

话音持续时间检测单元202确定在Y帧期间每帧音量是否低于预定阈值(此后，称为“阈值T2”)(步骤S405)。如果每帧音量不低于阈值T2(步骤S405：否)，流程返回到步骤S404，并重复进行所述处理。如果每帧音量低于阈值T2(步骤S405：是)，话音持续时间检测单元202检测出时刻u，作为话音持续时间的终点(步骤S406)。这样，话音持续时间检测单元202检测出从话音持续时间的检测的起点到所述话音的检测的终点的持续时间，作为话音持续时间。

接下来，将解释在话音持续时间检测处理中的状态转换。图5是话音持续时间检测处理中的处理状态的一个例子的说明视图。

刚启动语音处理装置100之后的状态是初始状态501，其被示于图5的左部。当话音持续时间检测单元202开始所述话音持续时间检测处理时，所述状态被改变为等待检测话音持续时间的起点的状态(无话音状态)。在此状态下，话音持续时间检测单元202进行对应于图4所示的步骤S402的确定502(关于从时刻t到现在，在X帧期间内，所述音量是否高于阈值T1)。此时，话音持续时间检测单元202可以参照前X帧的音量。

如果所述音量不高于阈值T1，所述状态保持为等待检测所述话音持续时间的起点的状态。如果所述音量高于阈值T1，话音持续时间检测单元202检测时刻t，作为话音持续时间的起点。另外，话音持续时间检测单元202的状态被改变为等待检测话音持续时间的终点的状态(话音状态)。在所述等待检测话音持续时间的终点的状态下，话音持续时间检测单元202进行对应于图4所示的步骤S405的确定503(关于从时刻u到现在，在Y帧期间内，所述音量是否低于阈值T2)。

如果所述音量不低于阈值T2，话音持续时间检测单元202的状态保持为等待检测话音持续时间的终点的状态。如果所述音量低于阈值T2，话音持续时间检测单元202检测出时刻u作为话音持续时间的终点。另外，话音持续时间检测单元202的状态被改变为等待检测话音持续时间的起点的状态。

由话音持续时间检测单元202所进行的话音持续时间检测处理不限于基于以上解释的方法的话音持续时间检测处理。话音持续时间检测单元202能够基于任何一种常规方法进行话音持续时间检测处理。例如，话音持续时间检测单元202能够通过另外进行如下处理来更精确地检测所述话音持续时间。话音持续时间检测单元202在等待检测所述话音持续时间的起点的状态(无语音状态)中从话音信号来估计环境噪声的强度。另外，话音持续时间检测单元202根据所估计的环境噪声的强度改变阈值T1和T2。

以下将解释在步骤S304的说话人确定处理。图6是根据第一实施例的说话人确定处理的整体流程的流程图。

首先，说话人确定单元203利用立体声信号基于当前帧计算互相关函数，其中所述立体声信号是预设持续时间中的信号，并且被从两个麦克风104a和104b所输出的模拟话音信号中获得(步骤S601)。

说话人确定单元203基于当相关度变得最大时的时间来指定声源方向，并确定说话人是系统操作者101还是交流对象102(步骤S602)。麦克风104a和104b的位置以及在系统操作者101和交流对象102之间的相对位置关系被固定。因此，说话人确定单元203确定位于所述指定的声源的方向的人是每帧的说话人。

说话人确定单元203获取关于由话音持续时间检测单元202检测出的话音持续时间的信息(步骤S603)。说话人确定单元203将在所述话音持续时间中说话最频繁的人确定为话音持续时间中的说话人(步骤S604)。

如果说话人确定单元203确定所述相同的人说话的时间长于预定时间，说话人确定单元203能够确定该人是话音持续时间中的对应持续时间的话音的说话人。如果说话人确定单元203确定说话人在某时间的边界发生变化，可以在此边界划分所述话音持续时间。从而可以每个话音持续时间确定一个说话人。假设在一个话音持续时间中没有出现多个说话人的语音。

由说话人确定单元203进行的说话人确定处理不限于以上解释的方法。说话人确定单元203能够使用任何一种能够确定话音持续时间的说话人的常规技术。

以下将详细解释在步骤S305的处理内容判断处理。

图7是根据第一实施例的处理内容判断处理的整体流程的流程图。

首先，处理内容确定单元205从存储区域(未示出)获取关于由话音持续时间检测单元202检测出的话音持续时间的信息(步骤S701)。

处理内容确定单元205获取关于由指定持续时间接受单元204接受的指定持续时间的信息(步骤S702)。

如果通过在步骤S302的指定持续时间接受处理以及在步骤S303的话音持续时间检测处理获取了指定持续时间和话音持续时间的起点和终点，在所述存储区域(未示出)中记录所述信息作为处理持续时间候选。在步骤S701和S702，处理内容确定单元205从存储区域获取所述记录的信息。

此外，在处理内容确定单元205通过处理内容判断处理决定了处理持续时间和处理内容并且语音处理单元206进行了具有所述决定的处理内容的语音处理之后，将所述处理持续时间候选之中的终点被确定的话音持续时间或指定持续时间从存储区域中删除。

处理内容确定单元205确定是否检测到所述话音持续时间的终点(步骤S703)。如果检测到所述话音持续时间的终点(S703：是)，处理内容确定单元205进行指定持续时间终点处理，该处理基于在终点已被检测出的话音持续时间和指定持续时间之间的关系以及关于说话人的信息，来决定所述处理持续时间(步骤S704)。稍后将详细描述该话音持续时间终点处理。

如果在步骤S703没有检测到话音持续时间的终点(步骤S703：否)，或者在处理内容确定单元205进行话音持续时间结束处理之后，处理内容确定单元205确定是否检测到所述指定持续时间的终点(步骤S705)。

如果检测到所述指定持续时间的终点(步骤S705：是)，处理内容确定单元205进行指定持续时间终点处理，该处理基于在终点已被检测出的指定持续时间和话音持续时间之间的关系以及关于说话人的信息，来决定所述处理持续时间(步骤S706)。稍后将详细描述该指定持续时间终点处理。

如果没有检测到所述指定持续时间的终点(步骤S705：否)，则处理内容确定单元205在进行指定持续时间终点处理或者话音持续时间终点处理之后，确定是否决定了所述处理持续时间和所述处理内容(步骤S707)。

如果决定了所述处理持续时间和所述处理内容(步骤S707：是)，处理内容确定单元205向语音处理单元206输出处理持续时间和处理内容(步骤S708)，并结束所述处理内容判断处理。

如果未决定所述处理持续时间和所述处理内容(步骤S707：否)，处理内容确定单元205结束所述处理内容判断处理，而不输出所述处理持续时间和所述处理内容。在这种情况下，处理内容确定单元205保留关于处理持续时间候选的信息，并进行下一帧的处理。

下面将详细解释在步骤S703的话音持续时间终点处理。图8是根据第一实施例的话音持续时间终点处理的整体流程的流程图。

处理内容确定单元205确定所述指定持续时间是否被包含在从话音持续时间的起点到终点的时间间隔中(步骤S801)。如果所述指定持续时间未被包含在从话音持续时间的起点到终点的时间间隔中(步骤S801：否)，处理内容确定单元205初始化所述处理持续时间候选，并结束所述话音持续时间终点处理(步骤S802)。

以下将参照图10解释具体例子，在其中以与步骤S802类似的方式来决定所述处理内容等。图10是根据第一实施例进行处理的各种信息的例子的说明视图。在图10中，用符号(B)表示系统操作者101，用符号(A)表示交流对象102。

例(1)示出了这样的情形，在其中以与步骤S802类似的方式来决定所述处理持续时间和所述处理内容。具体地，例(1)是系统操作者(B)是说话人但没有输入所述指定持续时间的情形的例子。

在第一实施例中，所述指定持续时间未被包含在例(1)中的检测出的话音持续时间中。由此，处理内容确定单元205将所述话音持续时间初始化为所述处理持续时间候选而不决定所述处理持续时间(步骤S802)。

原因如下。如果系统操作者101是说话人但所述指定持续时间未被包含在检测到的话音持续时间中，则系统操作者101能够判断所述话音是不期望的处理对象语音。即，所检测到的话音持续时间不是所述处理持续时间。通过所述处理，可以减少由于接收到不应该被处理的噪声或话音而导致的可能故障。

如果处理内容确定单元205确定所述指定持续时间被包含在从话音持续时间的起点到终点的时间间隔中(步骤S801：是)，处理内容确定单元205基于关于由说话人确定单元203确定的说话人的信息，确定所述话音持续时间中的说话人是否为系统操作者101(步骤S803)。

如果所述说话人不是系统操作者101，即，说话人是交流对象102(步骤S803：否)，处理内容确定单元205决定将所检测到的话音持续时间作为所述处理持续时间，并且然后决定将从语言L2到语言L1的语音翻译作为所述处理内容(步骤S804)。处理内容确定单元205结束所述话音持续时间终点处理。

继续参照图10，例(2)示出了这样的情形，在其中以与步骤S804类似的方式决定所述处理持续时间和所述处理内容。

具体地，例(2)是系统操作者(B)在交流对象(A)说话的时刻后稍微延时的时刻指定所述指定持续时间的情形的例子。在这种情形下，话音持续时间检测单元202检测所述话音持续时间，且说话人确定单元203确定该话音持续时间对应于交流对象(A)。

如果系统操作者(B)，通过按下所述按下讲话按键105，响应于交流对象102的话音来输入所述指定持续时间，则系统操作者(B)不能够准确把握系统操作者(B)之外的人的话音持续时间的起点和终点。由此，可以考虑到，在话音持续时间的起点和终点以及按下讲话按键105的ON和OFF之间存在偏移的可能性。结果，如例(2)所示的指定持续时间的部分所示，检测出的话音持续时间和指定持续时间之间具有偏移。

在第一实施例中，即使存在所述偏移，处理内容确定单元205也能够决定将所检测的话音持续时间作为处理持续时间，并且将语音识别和从语言L2到语言L1的翻译作为处理内容(步骤S804)。

利用常规方法，不能通过所述按键等明确地指定处理交流对象的语音的持续时间，并且需要对所有语音进行处理。结果，由于对不必要的噪声等的处理，存在出现故障的可能性。相比较而言，在第一实施例中，甚至对于交流对象102的语音，也能够指定所述处理持续时间。因此能够减小出现故障的可能性。

此外，当为交流对象102的语音指定所述指定持续时间时，存在在实际的话音持续时间和所述指定持续时间之间出现偏移的可能性。在第一实施例中，可以适当地决定所述处理持续时间，并进行所述语音处理。即，如果系统操作者101希望对交流对象102的语音进行处理，则开始指定所述指定持续时间，从而使得所述指定持续时间与话音持续时间相重叠。通过这样做，将所述话音持续时间确定为处理持续时间，并且可将交流对象102的语音设置为语音处理对象。

通常，不知道交流对象102的话音持续时间的起点和终点的时刻。然而，通过输入关于所述话音期间内的指定持续时间的信息，能够将所述话音持续时间确定为所述处理持续时间。因此，系统操作者101能够决定将交流对象102所期望的话音的话音持续时间作为所述处理持续时间。

如果处理内容确定单元205确定所述话音持续时间中的说话人是系统操作者101(步骤S803：是)，处理内容确定单元205确定是否检测到最新的指定持续时间的终点(步骤S805)。

如果没有检测到最新的指定持续时间的终点(步骤S805：否)，则用于处理间隔的判断资料不充分。如果是这样，处理内容确定单元205保留所述话音持续时间和所述指定持续时间的所有处理持续时间候选，即，延缓确定所述处理持续时间，并结束所述话音持续时间终点处理。

图10所示的例(3)的前半部分(直到话音持续时间1001中的话音完成的时刻)示出了处理内容确定单元205确定在步骤S805中没有检测到最新的指定持续时间的终点的例子。

在例(3)中，在检测系统操作者(B)的话音时将话音持续时间划分为两个话音持续时间。在确定第一话音持续时间时，仍然没有检测到指定持续时间的终点。由此，处理内容确定单元205延缓对所述处理持续时间等的确定，并结束所述话音持续时间终点处理。此外，在检测到所述指定持续时间的终点之后，结合所述两个划分的话音持续时间，并且利用被设置为处理持续时间的所述结合的话音持续时间进行所述语音处理。

通过所述处理，当系统操作者101发出某一句的话音时，所述指定持续时间是在其中指定了整个句子的持续时间。然而，即使通过话音持续时间检测处理检测到两个话音持续时间，由于系统操作者101摸索(fumble)语音中间的正确单词，可以避免为每个话音持续时间划分所述处理持续时间。

此外，通过避免为每个话音持续时间划分所述处理持续时间，可以防止语音识别处理和翻译处理的精确度下降。如果利用诸如语言模型的语言信息进行语音识别处理，则采用了上下文信息。由此，如果对一个句子来整体地处理语音，就能够有效利用所述上下文信息。

如果检测到最新的指定持续时间的终点(步骤S805：是)，处理内容确定单元205决定将话音持续时间和指定持续时间之间的所有重叠时间段作为处理持续时间，并决定将从语言L1到语言L2的语音翻译作为处理内容(步骤S806)。然后，处理内容确定单元205结束所述话音持续时间终点处理。

继续参照图10，例(4)示出了以与步骤S806类似的方式决定处理持续时间和处理内容的情形。具体地，例(4)是这样的情形的例子，在其中，系统操作者(B)说话并且为所述话音的第一部分之外的部分指定所述指定持续时间。

在例(4)中，在话音持续时间和指定持续时间之间的重叠时间段等同于所述指定持续时间。因此，决定将所述指定持续时间作为处理持续时间。此外，由于所述说话人是系统操作者101，决定将从语言L1到语言L2的语音翻译作为所述处理内容。

通过上述处理，系统操作者能够将所述语音的期望间隔设置为处理持续时间。例如，当删除不必要的单词或者存在环境噪声时，系统操作者101关闭麦克风104a和104b。从而可以仅将必需的持续时间设置为所述处理持续时间，并避免故障。

此外，例如，系统操作者101对大部分话音使用外语，而对系统操作者101不知道如何用外语表述的部分使用他/她的母语。系统操作者101指定在其中该系统操作者101使用他/她的母语的时间间隔作为指定持续时间。因此，能够决定仅将后一部分作为语音翻译处理对象。通过这样做，即使在所述话音中混合了两种语言，系统操作者101仍然能够将话音的意思传达给交流对象102。

如果话音持续时间的起点被包含在指定持续时间中，可以将所述话音持续时间的起点设置为指定持续时间的起点。通过这样做，即使当系统操作者101在系统操作者101按下所述按下讲话按键105之后的时刻才开始讲话，能够决定不是将按下所述按下讲话按键105的起点作为所述处理持续时间的起点，而是将话音检测的起点作为所述处理持续时间的起点。

以下将参照图9详细解释在步骤S706中的指定持续时间终点处理。图9是根据第一实施例的指定持续时间终点处理的整体流程的流程图。

首先，处理内容确定单元205判断所述话音持续时间是否被包含在从所述指定持续时间的起点到终点的时间间隔中(步骤S901)。如果所述话音持续时间未被包含在从所述指定持续时间的起点到终点的时间间隔中(步骤S901：否)，处理内容确定单元205初始化所述处理持续时间候选，并结束所述指定持续时间终点处理(步骤S902)。

通过所述处理，即使系统操作者101指定了所述指定持续时间，在检测到话音之前也不进行所述语音处理。因此，可以防止由于操作错误或噪声所导致的故障。

如果判断所述话音持续时间被包含在从所述指定持续时间的起点到终点的时间间隔中(步骤S901：是)，处理内容确定单元205确定是否检测到最新的话音持续时间的终点(步骤S903)。

如果没有检测到最新的话音持续时间的终点(步骤S903：否)，处理内容确定单元205确定不能对所述处理持续时间作出最终确定，并且延缓确定所述处理持续时间，并结束所述指定持续时间终点处理。

如果检测到最新的话音持续时间的终点(步骤S903：是)，处理内容确定单元205决定将在话音持续时间和指定持续时间之间的重叠时间段作为处理持续时间，并决定将从语言L1到语言L2的语音翻译作为处理内容(步骤S904)。然后，处理内容确定单元205结束所述指定持续时间终点处理。

如果说话人是交流对象102，当检测到所述话音持续时间的终点时，处理内容确定单元205决定所述处理持续时间(步骤S804)。由此，处理内容确定单元205在步骤S903不作出确定处理。因此，在图9所示的指定持续时间终点处理中，不需要确定与话音持续时间终点处理中的步骤S803不同的说话人。另外，在处理内容确定单元205能够决定所述处理内容(从语言L1到语言L2的语音翻译)时假设说话人是系统操作者101。

继续参照图10，例(3)是以与步骤S904类似的方式来决定所述处理持续时间和所述处理内容的情形的例子。具体地，例(3)示出了这样的情形，在其中，系统操作者(B)说话，并且所述话音持续时间被划分为两个话音持续时间，并且，由于在话音的中间插入了停顿(pause)，可检测到两个划分的话音持续时间。例(3)还示出了这样的情形，在其中，系统操作者(B)在第一话音持续时间的开始发出意思为“呃”的不必要的单词的话音。在图10中，系统操作者(B)的话音的涂黑的持续时间表示所述不必要的单词部分。

在例(3)的情形中，系统操作者(B)意图将除了所述不必要单词以外的两个划分的语音相结合所得到的语音设置为对象语音。由此，系统操作者(B)在发出所述不必要单词的话音之后，开始指定所述指定持续时间，并且在所述话音结束后结束对所述指定持续时间的指定。

在第一实施例中，在例(3)的情形中，处理内容确定单元205能够决定将检测的话音持续时间中的整个指定持续时间作为处理持续时间并且决定将语音识别以及从语言L1到语言L2的翻译作为处理内容(步骤S904)。如果话音持续时间的终点迟于指定持续时间的终点，处理内容确定单元205能够在步骤S806中类似地决定所述处理持续时间。

结果，所述用于语音处理的处理持续时间是图10中例(3)的垂直线所指示的持续时间的结合。于是，能够对通过结合所述两个被划分的语音所得到的语音的语音识别处理结果进行翻译处理，并且能够提高所述翻译处理的精确度。

通过这样做，如果系统操作者101说“呃，我(停顿)想去车站”，并且在“我(停顿)想去车站”部分按下所述按下讲话按键105，则不会处理不必要的单词“呃”。另外，“我想去车站”部分被视为对象语音，而无需将这部分划分为“我”部分和“想去车站”部分。因此，可以分别把握“想去”的主语和宾语是“我”和“车站”，并进行高精确度的翻译。

下面将参照图10解释根据第一实施例的语音处理的另一个具体例子。

例(5)是这样的情形的例子，在其中，交流对象(A)说了两句话，而系统操作者(B)保持按下讲话按键105开启，以指示所述指示持续时间。

在例(5)的情形中，系统操作者(B)不能把握交流对象(A)的话音持续时间的起点和终点的时刻，并且不能确定所述语音是否仅包括来自所述话音的两个句子。在第一实施例中，即使在例(5)的情形中，处理内容确定单元205决定将所述两个检测的话音持续时间作为所述处理持续时间，并决定将从语言L2到语言L1的语音识别和翻译作为所述处理内容(步骤S804)。

对于例(5)的情形和例(3)的情形，其话音持续时间和指定持续时间之间的关系相同，不同之处仅在于说话人。在例(3)的情形中，说话人是系统操作者(B)，从而能够准确地指定所述处理对象话音持续时间。因此，处理内容确定单元205决定将不包含所述不必要单词的持续时间作为所述处理持续时间。

另一方面，在例(5)的情形中，说话人是交流对象(A)，从而不能准确地指定所述处理对象话音持续时间。因此，处理内容确定单元205可以适当地决定所述处理持续时间，而不必删除作为所述不必要的单词的在话音持续时间和指定持续时间之间的偏移部分。

这样，根据第一实施例的语音处理装置能够基于由系统操作者指定的指定持续时间、从输入语音检测到的话音持续时间以及通过参照关于从多个麦克风输入的语音的信息而获得的说话人，来适当地决定作为对象语音处理的语音持续时间的处理持续时间。因此，可以减少故障的出现而无需处理不必要的话音。

根据本发明第二实施例的语音处理装置包括摄像头(camera)来代替所述按下讲话按键，并且根据由该摄像头摄取的说话人面部的图像中的变化来接受对于对象语音的指定持续时间的指定。

图11是根据第二实施例的语音处理装置1100的框图。如图11所示，语音处理装置1100包括输出单元103、麦克风104a和104b、摄像头1108、输入接收单元201、话音持续时间检测单元202、说话人确定单元203、指定持续时间接受单元1204、处理内容确定单元205以及语音处理单元206。

第二实施例与第一实施例的不同之处在于取代所述按下讲话按键105而设置了摄像头1108，以及指定持续时间接受单元1204的功能。语音处理装置1100的其它组成元件及功能与图2所示的根据第一实施例的语音处理装置100相同。因此，通过与图2所示相同的参考符号表示图11所示的相同的组成元件，并且在此不再重复进行描述。

摄像头1108摄取说话人的面部图像。摄像头1108能够由任何一种常规成像装置构成，诸如包含光学系统组件的成像装置，该光学系统组件包括诸如用于摄取图像的镜头、电荷耦合器件(CCD)、CCD驱动电路以及A/D转换器。

指定持续时间接受单元1204分析由摄像头1108摄取的面部图像，提取说话人的视线，并且接受所述视线朝向所述语音处理装置1100的持续时间作为指定持续时间。这种分析面部图像并提取说话人视线的方法可以包括任何一种常规方法，诸如，对从面部五官如眼睛、鼻子计算得到的特征量进行模式匹配的方法。

接下来，将详细解释根据第二实施例的语音处理装置1100的语音处理。图12是根据第二实施例的语音处理的流程图。

步骤S1201的输入接收处理与根据第一实施例的语音处理装置100的步骤S301中的处理相同。因此，不重复解释该处理。

在输入接收单元201接收语音输入之后，指定持续时间接受单元1204从由摄像头1108摄取的面部图像检测视线，并接受所述视线朝向所述语音处理装置1100的持续时间作为指定持续时间(步骤S1202)。具体地，指定持续时间接受单元1204从各帧的面部图像检测所述视线。另外，指定持续时间接受单元1204接受从视线朝向语音处理装置1100开始到视线离开语音处理装置1100的持续时间作为所述指定持续时间。

从步骤S1203到S1207的话音持续时间检测处理、说话人确定处理、处理内容确定处理以及语音处理与根据第一实施例的语音处理装置100的步骤S303到S307相同。因此，不再重复解释该处理。

这样，根据第二实施例的语音处理装置1100包括摄像头1108来代替按下讲话按键105。另外，语音处理装置1100能够接受这样的指定持续时间，在其中根据由摄像头1108摄取的说话人面部图像中的变化对所述话音进行处理。因此，可以减轻系统操作者按下所述按键等的负担，并提高语音处理装置1100的可操作性。

在第二实施例中，假设交流对象102说“今天天气很好(停顿)而且舒服”，而系统操作者101响应于交流对象102，在所述停顿时说“是啊”。即使连续指定所述指定持续时间，仍然可能出现将所述话音持续时间划分为两段话音持续时间的问题。

结果，所述语音处理被进行三次，即，将“今天天气很好”从语言L2翻译为语言L1，将“是啊”从语言L1翻译为语言L2，并将“而且舒服”从语言L2翻译为语言L1。如果句子被划分，则语音处理的精确度下降，而且处理结果可能不确切。

因此，根据本发明第三实施例的语音处理装置意在通过在接受所述指定持续时间时进行所述语音处理而不改变的所确定的说话人，来提高语音处理的精确度。

第三实施例与第一实施例的不同之处在于说话人确定单元203的功能。第三实施例的语音处理装置的其它组成元件及功能与图2所示的根据第一实施例的语音处理装置100相同。因此，利用与图2所示相同的参考符号表示相同的组成元件，并且在此不再进行重复解释。

根据第三实施例的说话人确定单元203与根据第一实施例的相应单元的不同之处如下。如果系统操作者101按下所述按下讲话按键105并且已经确定了说话人，则说话人确定单元203不进行所述说话人确定处理。

以下将参照图13详细解释根据第三实施例的语音处理的整体流程。图13是根据第三实施例的语音处理的整体流程的流程图。

从步骤S1301到S1303的输入接收处理、指定持续时间接收处理以及话音持续时间检测处理与根据第一实施例的语音处理装置100的步骤S301到S303中的处理相同。因此，不再重复解释该处理。

在所述话音持续时间检测处理之后，说话人确定单元203确定是否系统操作者101按下所述按下讲话按键105并且已经确定了所述说话人(步骤S1304)。

如果系统操作者101没有按下所述按下讲话按键105，以及还没有确定所述说话人(步骤S1304：否)，则说话人确定单元203进行所述说话人确定处理(步骤S1305)。

如果系统操作者101按下所述按下讲话按键105，并且已经确定了所述说话人(步骤S1304：是)，则说话人确定单元203向输出单元103输出关于所确定的说话人的信息而不进行所述说话人确定处理(步骤S1306)。从而系统操作者101能够掌握是否正确地确定了所述说话人。

这样，当指定所述指定持续时间时，所述说话人能够被固定并且无需间断即可对短响应或突发噪声进行语音处理。可选地，所述语音处理装置可以被配置成固定所述说话人，直到检测到所述话音持续时间的终点。

从步骤S1307到S1309的处理内容确定处理和语音处理与根据第一实施例的语音处理装置100的步骤S305到S307中的处理相同。因此，在此不再重复解释该处理。

由于上述功能，如果系统操作者101在例如所述“今天天气很好”部分连续指定所述指定持续时间，则指定持续时间中的说话人被固定为交流对象102。此外，如果在所述停顿时没有确定所述语音结束，则可以将“今天天气很好而且舒服”的整体语音设置为处理持续时间中的语音。此外，由于能够将处理持续时间中的说话人确定为交流对象102，可以仅从朝向交流对象102的麦克风104b收集话音，而不收集周围的和不必要的短话音。

这样，当固定了所确定的说话人且指定了所述指定持续时间时，根据第三实施例的语音处理装置能够进行所述语音处理。因此，可以提高所述语音处理的精确度。

根据本发明第四实施例的语音处理装置计算检测的话音持续时间的可靠度，并根据所述可靠度调整所述处理持续时间的起点和终点。

第四实施例与第一实施例的不同之处在于话音持续时间检测单元202和处理内容确定单元205的功能。根据第四实施例的语音处理装置的其它组成元件和功能与图2所示的根据第一实施例的语音处理装置100相同。因此，利用与图2所示相同的参考符号表示根据第四实施例的语音处理装置的相同组成元件，并且在此不再进行重复解释。

根据第四实施例的话音持续时间检测单元202与根据第一实施例的话音持续时间检测单元202的差别在于所述可靠度表示在各帧中的语音是人的话音的似然。

作为所述可靠度，其是音量的强度的似然或相对于从大量语音数据计算得到的话音统计模型的帧特征量的似然。为计算所述帧特征量的似然，可以使用任何一种用于话音持续时间检测技术的常规方法，诸如基于多个混合正态分布来计算话音模型的似然的方法。

根据第四实施例的处理内容确定单元205与根据第一实施例的处理内容确定单元205的不同之处在于利用由话音持续时间检测单元202计算的可靠度来调整所述处理持续时间的起点和终点。

以下将参照图14详细解释根据第四实施例的语音处理的整体流程。图14是根据第四实施例的语音处理的整体流程的流程图。

从步骤S1401到S1402的输入接收处理和指定持续时间接受处理与根据第一实施例的语音处理装置100的步骤S301到S302中的处理相同。因此，在此不再解释该处理。

在所述指定持续时间接受处理之后，话音持续时间检测单元202计算各帧中的语音的可靠度(步骤S1403)。在计算时，将音量的强度或帧特征量的似然计算为各帧中的语音的可靠度。将计算得到的可靠度存储在存储区域(未示出)中，从而可以由后续的处理内容确定处理参照。

从步骤S1404到S1405的话音持续时间检测处理和说话人确定处理以及从步骤S1407到S1408的语音处理与根据第一实施例的语音处理装置100的步骤S303到S304以及步骤S306到S307中的处理相同。因此，在此不再解释该处理。

在第四实施例中，在步骤S1406的处理内容确定处理的内容不同于第一实施例。以下将详细解释在步骤S1406的处理内容确定处理。

图15是根据第四实施例的处理内容确定处理的整体流程的流程图。

从步骤S1501到S1506的话音持续时间信息获取处理、话音持续时间终点处理以及指定持续时间终点处理与根据第一实施例的语音处理装置100的步骤S701到S706中的处理相同。因此，在此不再解释该处理。

在进行了所述话音持续时间终点处理或者所述指定持续时间终点处理之后，处理内容确定单元205决定将预设数目(此后，称为“n”)的前后帧之中的具有在步骤S1403计算得到的最高可靠度的帧作为处理持续时间的起点(步骤S1507)。

假设所述处理持续时间的起点是语音处理装置100启动后的第20帧。如果n是三(n＝3)，处理内容确定单元205从存储区域获取从第17(＝20-3)帧到第23(20+3)帧的可靠度。如果第22帧的可靠度最高，处理内容确定单元205决定将第22帧作为处理持续时间的起点。

然后，处理内容确定单元205决定将预设数目的前后帧之中的具有最高可靠度的帧作为所述处理持续时间的终点(步骤S1508)。

从步骤S1509到S1510的确定处理和输出处理与根据第一实施例的语音处理装置100的步骤S707到S708中的处理相同。因此，在此不再解释该处理。

可选地，可以根据说话人是系统操作者101还是交流对象102来改变预设值n。通过这样做，可以校正当检测到不同说话人的话音持续时间的起点和终点时产生的可能误差，并且，可以检测出合适的处理持续时间。

此外，通过进行上述处理，即使所述话音持续时间的起点的时刻与系统操作者开始指定所述处理持续时间的时刻相比有偏移，也可以检测到合适的处理持续时间。

这样，根据第四实施例的语音处理装置能够计算所检测的话音持续时间的可靠度，并根据该可靠度调整所述处理持续时间的起点和终点。因此，可以减少由于所述处理持续时间的错误设置而导致的故障发生。

根据第五实施例的语音处理装置利用由多个麦克风构成的麦克风阵列来接收所述话音，检测具有高精确度的声源的方向，加强在所述声源方向上的话音，以及进行高精确度的语音处理。

图16是根据第五实施例的语音处理装置6100的构造的框图。语音处理装置6100包括输出单元103、麦克风阵列6109、按下讲话按键105、输入接收单元6201、话音持续时间检测单元202、说话人确定单元6203、指定持续时间接受单元204、处理内容确定单元205以及语音处理单元206。

第五实施例与第一实施例的不同之处在于，取代所述麦克风104a和104b而设置了麦克风阵列6109，以及输入接收单元6201和说话人确定单元6203的功能。语音处理装置6100的其它组成元件和功能与图2所示的根据第一实施例的语音处理装置100相同。因此，利用与图2所示相同的参考符号表示相同的组成元件，并且在此不再重复进行描述。麦克风阵列6109接收来自多个麦克风的话音，并且利用从声源到各麦克风的话音到达时间的差或者声压的差来估计该话音的声源的方向。此外，麦克风阵列6109能够通过信号处理加强或者抑制在指定方向上的话音。对于麦克风阵列6109，可以采用任何一种常规类型的麦克风阵列。

输入接收单元6201将从麦克风阵列6109输出的模拟话音信号转换为数字信号，并向话音持续时间检测单元202和说话人确定单元6203输出该数字信号。

说话人确定单元6203从话音到达麦克风阵列6109的多个麦克风的时间差来指定声源的方向，并确定将存在于所指定的声源方向上的说话人作为对应的说话人。

说话人确定单元6203输出在所指定的声音方向上的加强的话音的数字话音信号。从而可以利用所述加强的话音的信号来检测具有高精确度的话音持续时间。此外，由于可以对所述加强的话音进行语音识别等，因此，能够提高所述语音处理的精确度。

接下来，将详细解释根据第五实施例的说话人确定处理。图17是根据第五实施例的说话人确定处理的整体流程的流程图。

首先，说话人确定单元6203通过常规技术，诸如使用了互相关的方法，利用话音从声源到各个麦克风的到达时间的差来估计声源的方向(S1701)。

说话人确定单元6203指定存在于所指定的声源方向上的说话人(步骤S1702)。

从步骤S1703到S1704的话音持续时间信息获取处理和说话人确定处理与根据第一实施例的语音处理装置100的步骤S603到S604中的处理相同。因此，在此不再解释该处理。

与第三实施例类似，当指定所述指定持续时间时，可以将声源的估计方向固定为先前声源的方向，而不进行说话人确定处理，即，所述声源方向估计处理。在这种情况下，加强和收集在所述固定方向上的话音，并通过语音处理单元206对所述加强的话音进行语音处理。

这样，根据第五实施例的语音处理装置能够利用由多个麦克风构成的麦克风阵列来接收话音，检测具有高精确度的声源方向，加强在该声源方向上的话音，以及进行高精确度的话音持续时间处理和语音处理。

本发明不限于所述第一到第五实施例。在本发明的范围内，可以适当地修改或改变本发明。例如，可以进行如下修改。

在第一到第五实施例中，如果检测到交流对象102的话音，系统操作者指定所述指定持续时间，并且存在在话音持续时间和指定持续时间之间的重叠时间段，该话音持续时间被决定为处理持续时间(步骤S804)。然而，可能出现以下缺点。如果在交流对象102的话音中的一瞬间指定了所述指定持续时间，则该指定持续时间被决定为所述处理持续时间。

为防止所述缺点，可以进行如下配置，即，如果所述话音持续时间和所述指定持续时间的持续时间长度小于预定长度，不决定将所述话音持续时间作为所述处理持续时间。可选地，如果话音持续时间中的指定持续时间的长度小于指定持续时间对话音持续时间的预定比例，不决定将所述话音持续时间作为所述处理持续时间。

通过如上配置，如果系统操作者101按下所述按下讲话按键105以翻译交流对象102的话音，但是不久之后停止所述语音翻译处理，或者如果由于操作错误而指定所述指定持续时间时，通过立即结束所述指定持续时间的指定(关闭所述按下讲话按键105)，能够避免对于所述处理持续时间的决定。

在第一到第五实施例中，如果当指定所述指定持续时间时检测到所述系统操作者的话音持续时间的起点和终点，则延缓确定所述处理持续时间，直到检测到所述指定持续时间的终点，并且不决定所述处理持续时间和所述处理内容(步骤S805：否)。

因此，可以将所述语音处理装置配置为测量从检测到系统操作者的话音持续时间的终点开始所经过的时间，以及当所述经过的时间等于或大于预设值时，确定检测到所述指定持续时间的终点并且强制性地决定所述处理持续时间和所述处理内容。

通过这样做，可以避免决定所述处理持续时间以延迟所述语音处理，以及避免对流畅对话的妨碍，诸如在其中系统操作者101没有结束对所述指定持续时间的指定。此外，由于两段话音之间的长时间间隔，将会很自然地确定所述两段语音互不相同，而不会确定所述两段话音组成一句话。在这种情况下，可以将所述话音划分为两段话音，因此，可以实现具有较短等待时间的响应。

在第一到第五实施例中，当系统操作者101通过按下所述按下讲话按键105来指定所述指定持续时间时，可以将在其间所述按下讲话按键105处于ON状态的话音的持续时间确定为所述指定持续时间。

可选地，当所述按下讲话按键105的ON/OFF操作被认为是诸如点击按下讲话按键105的一个操作时，可以将所述语音处理装置配置为，对于按下讲话按键105的每一次操作，切换指定所述指定持续时间的起点和终点。即，如果没有输入所述指定持续时间的起点，通过点击所述按下讲话按键105来开始所述指定持续时间的指定。当系统操作者101下一次点击所述按下讲话按键105时，结束所述指定持续时间的指定。

此外，当以是否点击了所述按下讲话按键105来确定所述指定持续时间的起点时，可以将所述语音处理装置配置为，无需指定所述指定持续时间的终点，并且决定将所述话音持续时间的终点作为所述指定持续时间的终点。通过这样做，如果说话人是交流对象102，能够决定将话音持续时间作为处理持续时间。如果说话人是系统操作者101，能够决定将点击之后的话音持续时间的一部分作为处理持续时间。

利用所述配置，失去了系统操作者101能够决定将所述话音的期望部分的持续时间作为所述处理持续时间这样的优点。然而，系统操作者101能够排除诸如话音持续时间的开始部分的不必要的话音持续时间。因此，可以表现出可根据说话人来决定合适的处理持续时间的优点。

在第一到第五实施例中，提取对应于所述处理持续时间的语音信息，通过以时间顺序结合多个处理持续时间来对所述语音信息进行语音识别，并翻译所述语音识别结果。原因如下。如果在结合所述处理持续时间时对所述语音进行语音识别处理，期望提高所述语音识别处理的精确度。

作为另一种方法，可以如下配置所述语音处理装置。对与所述处理持续时间相重叠的所有话音持续时间进行语音识别处理，并且仅输出和翻译对应于所述处理持续时间的部分的语音识别结果。通过这样做，能够对较长持续时间中的话音进行语音识别处理。因此，可以利用上下文信息来提高语音识别的精确度。

作为再一种方法，可以如下配置所述语音处理装置。如果将所述处理持续时间划分为多个处理持续时间，对每个划分的处理持续时间中的语音进行语音识别并且翻译语音识别结果，而无需以时间顺序结合所述划分的处理持续时间。

图18是根据第一到第五实施例的各个语音处理装置的硬件框图。

根据第一到第五各个实施例的语音处理装置包括诸如中央处理单元(CPU)51的控制装置，诸如只读存储器(ROM)52和随机存储器(RAM)53的存储装置，用于连接到网络以保持通信的通信接口(I/F)54，以及连接各组成元件的总线61。

通过被预先集成在ROM 52等之内，来提供由根据第一到第五各个实施例的语音处理装置所执行的语音处理程序。

由根据第一到第五各个实施例的语音处理装置所执行的语音处理程序可以被配置为，通过以可安装或可执行的格式被记录在诸如光盘只读存储器(CD-ROM)、软盘(FD)、可记录光盘(CD-R)或者数字通用光盘(DVD)的计算机可读记录介质中，来进行提供。

此外，由根据第一到第五各个实施例的语音处理装置所执行的语音处理程序可以被配置为，通过被存储在与诸如互联网的网络相连接的计算机中，并经由网络下载而进行提供。此外，由根据第一到第五各个实施例的语音处理装置所执行的语音处理程序可以被构成为经由诸如互联网的网络来提供或发布。

通过包含所述单元(输入接收单元、话音持续时间检测单元、说话人确定单元、指定持续时间接受单元、处理内容确定单元以及语音处理单元)的模块来配置由根据第一到第五各个实施例的语音处理装置所执行的语音处理程序。作为实际硬件，CPU 51从ROM 52读取语音处理程序，并执行该语音处理程序。结果，在主存储装置(未示出)上加载并生成所述各单元。

本领域技术人员将很容易得到其它的优点和变型。因此，就其广义方面而言，本发明不限于在此示出和描述的具体细节和代表性实施例。于是，无需脱离由所附的权利要求及其等同内容所定义的一般发明概念的精神和范围，即可作出各种变型。

Claims

1.一种语音处理装置，包括：

语音输入单元，用于接收语音的输入，该语音包括操作者与该操作者之外的人之中的一个的话音；

指定持续时间接受单元，用于接受由所述操作者指定的指定持续时间作为时间间隔，该时间间隔是在所述输入语音中的语音处理的对象；

话音持续时间检测单元，用于从所述输入语音中检测话音持续时间，该话音持续时间是在其中存在所述话音的时间间隔；

说话人确定单元，基于所述输入语音来确定所述话音的说话人是所述操作者还是所述操作者之外的人；以及

决定单元，用于检测在所述接受的指定持续时间和所述检测的话音持续时间之间的重叠时间段，并且，当检测到所述重叠时间段并且由所述说话人确定单元确定所述说话人是所述操作者之外的人时，决定包括了所述重叠时间段的所述话音持续时间是处理持续时间。

2.根据权利要求1所述的装置，其中，

当检测到所述重叠时间段并且由所述说话人确定单元确定所述说话人是所述操作者时，所述决定单元决定所述重叠时间段是所述处理持续时间。

3.根据权利要求1所述的装置，进一步包括：

语音处理单元，用于对由所述决定单元决定的所述处理持续时间中的语音进行语音处理，其中，

所述决定单元进一步基于由所述说话人确定单元确定的说话人，决定对所述语音进行的语音处理的处理内容，以及

所述语音处理单元根据由所述决定单元决定的所述处理内容对所述处理持续时间中的语音进行语音处理。

4.根据权利要求3所述的装置，其中，

所述决定单元根据所述说话人是所述操作者还是所述操作者之外的人，改变用于语音识别处理并包括声学模型、字典以及语法中至少一种的信息，并且决定将利用所述改变的信息进行语音识别处理作为所述处理内容。

5.根据权利要求3所述的装置，其中，

所述确定单元根据所述说话人是所述操作者还是所述操作者之外的人，改变用于翻译处理并包括翻译源语言、翻译目标语言以及翻译方法中的至少一种的信息，并且决定将利用所述改变的信息进行翻译处理作为所述处理内容。

6.根据权利要求3所述的装置，其中，

所述语音处理单元对由所述话音持续时间检测单元检测到的所述话音持续时间中的语音进行语音处理，并且输出全部语音处理结果中对应于由所述决定单元确定的所述处理持续时间的部分语音处理结果。

7.根据权利要求3所述的装置，其中，

当所述话音持续时间检测单元在由所述指定持续时间接受单元接受的所述指定持续时间中检测到多个话音持续时间，并且所述决定单元决定所述多个话音持续时间是所述处理持续时间时，所述语音处理单元结合所述多个处理持续时间并且对所述结合的处理持续时间中的语音进行语音处理。

8.根据权利要求1所述的装置，其中，

当所述接受的指定持续时间短于预定时间段时，由于所述指定持续时间接受单元不接受所述指定持续时间，所述决定单元决定所述处理持续时间。

9.根据权利要求1所述的装置，其中，

当由所述指定持续时间接受单元接受的所述指定持续时间对于所述检测到的话音持续时间的比例低于预定阈值时，由于所述指定持续时间接受单元不接受所述指定持续时间，所述决定单元决定所述处理持续时间。

10.根据权利要求1所述的装置，其中，

所述指定持续时间接受单元接受操作按键被按下的时间段作为所述指定持续时间。

11.根据权利要求1所述的装置，其中，

所述指定持续时间接受单元接受从按下操作按键到下一次按下该操作按键的时间段作为所述指定持续时间。

12.根据权利要求1所述的装置，其中，

当从按下操作按键开始经过预定时间段时，所述指定持续时间接受单元接受从按下该操作按键开始直到经过所述预定时间段的持续时间作为所述指定持续时间。

13.根据权利要求1所述的装置，进一步包括：

成像单元，用于摄取所述操作者的面部的图像或者所述操作者之外的人的面部的图像；以及

识别单元，用于识别由所述成像单元摄取的所述面部的图像，从而获取包括所述面部的方向和表情的面部图像信息，其中，

所述指定持续时间接受单元基于所述获取的面部图像信息的变化来接受所述指定持续时间的起点和终点。

14.根据权利要求1所述的装置，其中，

当在所述指定持续时间的指定期间已经确定了所述说话人时，所述说话人确定单元不确定所述说话人。

15.根据权利要求1所述的装置，其中，

所述话音持续时间检测单元进一步计算表示所述检测的话音持续时间的似然的可靠度，以及

所述决定单元将所述话音持续时间的起点和终点改变为所述计算的可靠度最大的所述话音持续时间的起点和终点，其中对于在所述话音持续时间的起点或终点的之前和之后中的至少一个的预定范围内的话音持续时间来计算所述可靠度。

16.根据权利要求1所述的装置，其中，

所述语音输入单元通过包含了多个麦克风的麦克风阵列来接收所述语音，以及

所述说话人确定单元基于输入到所述多个麦克风的语音来确定所述话音的说话人是所述操作者还是所述操作者之外的人。

17.一种语音处理方法，包括以下步骤：

输入语音，该语音包括操作者与该操作者之外的人之中的一个的话音；

接受由所述操作者指定的指定持续时间的输入作为时间间隔，该时间间隔是在所述输入语音中的语音处理的对象；

从所述输入语音中检测话音持续时间，该话音持续时间是在其中存在所述话音的时间间隔；

基于所述输入语音来确定所述话音的说话人是所述操作者还是所述操作者之外的人；

检测在所述接收的指定持续时间和所述检测的话音持续时间之间的重叠时间段；以及，

当检测到所述重叠时间段并且确定所述说话人是所述操作者之外的人时，决定包括了所述重叠时间段的所述话音持续时间是处理持续时间。