CN101031958B

CN101031958B - 语音端点指示器

Info

Publication number: CN101031958B
Application number: CN2006800007466A
Authority: CN
Inventors: P·赫瑟林顿; A·埃斯科特
Original assignee: QNX Software Systems Ltd
Current assignee: BlackBerry Ltd
Priority date: 2005-06-15
Filing date: 2006-04-03
Publication date: 2012-05-16
Anticipated expiration: 2026-04-03
Also published as: US20070288238A1; CA2575632A1; JP2008508564A; JP2011107715A; US8165880B2; CN101031958A; US8170875B2; EP1771840A1; JP5331784B2; US8554564B2; US20120265530A1; US20060287859A1; EP1771840A4; CA2575632C; WO2006133537A1; KR20070088469A

Abstract

基于规则的端点指示器将在音频流中包含的口语话语从背景噪声和非语音瞬间隔离开。基于规则的端点指示器包括多个规则，以基于多个语音特征来确定口语话语的开始和/或结尾。规则可基于事件、事件的组合、事件的持续时间、与事件相关的持续时间来对音频流或音频流的部分进行分析。规则可取决于包括音频流自身的特征、音频流中包含的预期回答、或环境条件而手动或自动定制。

Description

语音端点指示器

技术领域

本发明涉及自动语音识别，并且更具体地，涉及将口语话语从背景噪声和非语音瞬间隔离的系统。

背景技术

在车辆环境中，可使用自动语音识别(ASR)系统，以向乘客提供基于语音输入的导航指导。这项功能减少了对安全性的考虑，其中司机在试图手动键入或从屏幕读取信息时，注意力不用从路面移开。另外，可使用ASR系统以控制音频系统、气候控制、或其他车辆功能。

ASR系统使用户的语音进入麦克风，且信号被转换成命令并被计算机识别。一旦识别了命令，计算机可执行应用程序。实现ASR系统的一个要素是正确地识别口语话语。这要求定位话语的开始和/或结尾(“端点指示”)。

一些系统搜索音频帧中的能量。一旦检测到能量，系统通过减去从检测到该能量的点的时间段(确定话语的开始时间)，并加上从检测到该能量的点的预定时间(确定话语的结尾时间)而预测话语的结尾点。在尝试确定口语话语中，音频流的选择部分然后被传送到ASR。

声音信号中的能量可来自许多源。例如在车辆环境中，可从诸如车身振动、关门声、重击、爆裂声、引擎噪声、空气运动等的瞬态噪声中获得。关注能量的存在的上述系统，可将这些瞬态噪声误判为口语话语，并将信号的环境部分传送到ASR系统用于处理。ASR系统可能不必要地将瞬态噪声当作语音命令而尝试识别，因而产生错误的确定，且延迟了对真实命令的响应。

因此，存在对可在瞬态噪声环境中识别口语话语的智能端点指示器系统的需求。

发明内容

基于规则的端点指示器包括一个或多个规则，该规则确定在音频流中的音频语音片断的开始、结尾、或确定开始和结尾。规则可基于多种因素，诸如事件或事件的组合的出现、或者语音特征的存在/不存在的持续时间。此外，该规则可以包括：对无声的持续时间、浊音音频事件、非浊音音频事件、或任何这样的事件的组合，事件的持续时间，或与事件有关的持续时间进行分析。取决于应用的规则或被分析的音频流的内容，基于规则的端点指示器传送到ASR的音频流的量可能改变。

动态端点指示器可分析关于音频流的一个或多个动态方面，并基于分析的动态方面而确定音频语音片段的开始、结尾或开始和结尾。可被分析的动态方面包括，但不限于：(1)音频流自身，诸如说话者的语速、说话者的音调等；(2)音频流中的预期回答，诸如向说话者提出的问题的预期回答(例如“yes”或“no”)；(3)环境条件，诸如背景噪声水平、回声等。规则可使用一个或多个动态方面，以对音频语音片段进行端点指示。

本领域技术人员在查看下文中的附图和详细说明后，将清楚本发明的其它系统、方法、特征和优势。说明书中包括的这样另外的系统、方法、特征和优势将落在本发明的范畴中，并由权利要求保护。

附图说明

参照附图和说明书，将更好地理解本发明，图中的部件不是必须成比例的，相反重点在于说明本发明的原理。此外，在附图中，在不同的图中，相同的附图标记被分配给相应的部件。

图1是语音端点指示系统的框图；

图2是结合到车辆中的语音端点指示系统的部分视图；

图3是语音端点指示器的流程图；

图4是图3的一部分的更详细的流程图；

图5是模拟的语音声音的端点指示；

图6是图5的一些模拟的语音声音的详细端点指示；

图7是图5的一些模拟的语音声音的第二详细端点指示；

图8是图5的一些模拟的语音声音的第三详细端点指示；

图9是图5的一些模拟的语音声音的第四详细端点指示；

图10是基于声音的动态语音端点指示系统的部分流程图。

具体实施方式

基于规则的端点指示器可为了触发特征而检查音频流的一个或多个特征。触发特征可包括浊音或非浊音的声音。当声带振动时产生的浊音语音片断(例如，元音)，发出接近周期性的时域信号。当声带没有振动时产生的非浊音语音片断(诸如在英语中字母“f”的发音时)缺乏周期性，并具有与类似噪声的结构相似的时域信号。通过在音频流中识别触发特征，并采用在语音声音的自然特性上进行操作的一组规则，端点指示器可提高语音话语的开头和/或结尾的确定。

可选地，端点指示器可分析音频流的至少一个动态方面。可被分析的音频流的动态方面包括，但不限于：(1)音频流自身，诸如说话者的语速、说话者的音调等；(2)音频流的预期回答，诸如说话者对问题的预期回答(例如，“yes”或“no”)；或(3)环境情况，诸如背景噪声水平、回声等。动态端点指示器可以是基于规则的。端点指示器的动态特性使得能提高对语音片断的开始和/或结尾的确定。

图1是用于执行基于声音的语音端点指示的设备100的框图。端点指示设备100可具有硬件或能在一个或多个处理器上结合一个或多个操作系统进行运行的软件。端点指示设备100可包括诸如计算机的处理环境102。处理环境102可包括处理单元104和存储器106。处理单元104可通过经由双向总线访问系统存储器106而执行算术、逻辑和/或控制操作。存储器106可存储输入音频流。存储器106可包括用于检测音频语音片断的开始和/或结尾的规则模块108。存储器106也可包括用于检测在音频片段中的触发特征的声音分析模块116和/或可以用于识别音频输入的ASR单元118。另外，存储单元106可存储在端点指示器的操作期间获得的缓存音频数据。处理单元104与输入/输出(I/O)单元110进行通信。I/O单元110从将声波转换成电信号的装置114接收输入音频流，并将输出信号传送到将电信号转换成音频声音的装置112。I/O单元110可作为处理单元104、将电信号转变成音频声音的装置112和将声波转变成电信号的装置114之间的接口。I/O单元110可把通过将声波转换成电信号的装置114所接收的输入音频流从声学波形转换成计算机可理解的格式。类似地，I/O单元110可将从处理环境102发送的信号转换成电信号，以通过将电信号转变成音频声音的装置112而输出。处理单元104可适当地编程，以执行图3和4的流程图。

图2示出了结合到车辆200中的端点指示器设备100。车辆200可包括司机座椅202、乘客座椅204和后部座椅206。另外，车辆200可包括端点指示器设备100。处理环境102可被结合到车辆200的车载计算机中，诸如电子控制单元、电子控制模块、车身控制模块，或者处理环境102可以是使用一个或多个允许的协议而与车辆200的现有电路进行通信的单独的后加工单元。协议的一些可包括JI850VPW、JI850PWM、ISO、ISO9141-2、ISO14230、CAN、高速CAN、MOST、LIN、IDB-1394、IDB-C、D2B、蓝牙、TTCAN、TTP或在商标FlexRay下推广的协议。将电信号转变成音频声音的一个或多个装置112可位于车辆200的乘客空间、诸如前乘客空间。而不限于这样的配置，将声波转变成电信号的装置114可连接到I/O单元110，用于接收输入的音频流。可选地，或另外，将电信号转变成音频声音的另外的装置212和将声波转变成电信号的装置214可位于车辆200的后乘客空间中，用于从在后座椅中的乘客接收音频流，并将信息输出给这些相同的乘客。

图3是语音端点指示器系统的流程图。该系统可通过将输入音频流分成离散的片段(诸如帧)，从而可在逐帧的基础上分析输入的音频流。每帧可包括整个输入音频流的大约10ms至大约100ms的任何地方。在开始处理数据前，该系统可缓冲预定量的数据，诸如大约350ms至大约500ms的输入音频数据。如块302所示，能量检测器可用于确定是否出现与噪声无关的能量。能量检测器检查诸如帧的音频流的部分来获得出现的能量的量，并将该量与噪声能量的估计相比较。噪声能量的估计可以是恒定的或可以是动态确定的。以分贝(dB)、或功率的比例的形式的差可以是瞬时信噪比(SNR)。在分析前，将帧假设为是非语音，从而如果能量检测器确定帧中存在这样的能量，则将帧标记成非语音，如块304所示。在检测到能量后，如块306所示，可进行指定为帧n的当前帧的声音分析。可如2005年5月17日提交的序列号为11/131,150的美国专利申请中所述那样进行声音分析，这里通过引用结合该说明书。声音分析可检查在帧n中出现的任何触发特征。声音分析可查看帧n中是否出现“S”或“X”。可选地，声音分析可检查元音的存在。为说明的目的但并不受限制，使用元音作为声音分析的触发特征来描述图3的剩余部分。

存在声音分析可识别帧中元音的存在的多种方法。一种方式是通过使用音调估计器。音调估计器可在帧中搜索指示存在元音的周期信号。或者，音调估计器可在帧中搜索特定频率的预定水平，其可指示元音的存在。

如块310所示，当声音分析确定在帧n中存在元音时，帧n被标记成语音。系统然后可检查一个或多个的先前的帧。如块312所示，系统可检查紧接在前的帧，帧n-1。如块314所示，系统可确定先前的帧是否被标记为包含语音。如果先前的帧已经被标记为语音(即，对块314回答为“YES”)，则系统已经确定在帧中包括语音，并对新的音频帧进行分析，如块304所示。如果先前的帧没有被标记为语音(即，对块314回答为“No”)，则系统可使用一个或多个规则，以确定帧是否应该被标记成语音。

如图3中所示，被指定为判决块“外部端点指示”的块316可使用惯例(该惯例使用一个或多个规则)，以确定帧是否应被标记成语音。一个或多个规则可被应用到诸如帧或帧组的音频流的任何部分。规则可确定正在检查的当前一帧或多帧是否包含语音。规则可指示在帧或帧组中是否存在语音。如果存在语音，则可将帧指定成在端点内。

如果规则指示不存在语音，则将帧指定成在端点外。如果判决块316指示帧n-1在端点外(例如，不存在语音)，然后新帧，帧n+1，被输入到系统，并被标记成非语音，如块304所示。如果判决块316指示帧n-1处于端点内(例如，存在语音)，则帧n-1被标记成语音，如块318所示。可逐帧分析先前的音频流，直到存储器中的最后一帧被分析，如块320所示。

图4是图3中所示的块316的更详细的流程图。如上述，块316可包括一个或多个规则。这些规则可涉及关于语音的存在和/或不存在的任何方面。在这种方式下，可使用规则以确定口语话语的开始和/或结尾。

规则可基于对事件(例如，浊音的能量、非浊音的能量、无声的不存在/存在)或事件的组合(例如，非浊音能量之后接着是无声之后再接着浊音能量、浊音能量之后接着无声再接着是非浊音能量再接着是无声)进行分析。特别地，规则可检查从无声时期进入能量事件，或从无声时期进入能量事件的转变。规则可采用在元音之前语音可包括不超过一个从非浊音事件或无声的转变的规则，来分析元音之前转变的次数。或者规则可采用在元音之后语音可包括不超过两个从非浊音事件或无声的转变，来分析元音之后的转变的次数。

一个或多个的规则可检查多个持续时期。具体地，规则可检查关于事件(例如，浊音能量、非浊音能量、无声的不存在/存在等)的持续。规则可采用语音在元音之前可包括持续时间大约300ms至400ms的范围内，且可以是大约350ms，的规则来分析元音之前的持续时间。或者规则可采用语音可在元音之后包括持续时间大约400ms至800ms的范围内，且可以是大约600ms，的规则来分析元音之后的持续时间。

一个或多个规则可检查事件的持续。具体地，规则可检查某种能量的持续或缺乏某种能量的持续。非浊音能量是一种可被分析的能量。规则可采用语音可包括在大约150ms至300ms的范围中，且可能是大约200ms的连续非浊音能量的持续时间的规则，来分析连续的非浊音能量的持续。可选地，连续的无声可被分析成缺乏能量。规则可采用语音在元音之前可包括大约50ms至80ms的范围内，且可以是大约70ms的连续无声的持续时间的规则，来分析在元音之前的连续无声的持续。或者规则可采用语音在元音之后可包括大约200ms至300ms的范围内，且可以是大约250ms的连续无声的持续时间的规则，来分析在元音之后的连续无声的持续时间。

在块402，执行检查，以确定被分析的帧或帧组具有高于背景噪声水平的能量。具有高于背景噪声水平的帧或帧组可基于某种能量的持续时间或关于事件的持续时间而被进一步分析。如果被分析的帧或帧组不具有高于背景噪声水平的能量，则帧或帧组可基于连续无声、从无声时期进入能量事件的转变、或从进入能量事件的无声时期的转变而被进一步分析。

如果在被分析的帧或帧组中存在能量，则“能量”计数器在块404增加。“能量”计数器对时间量进行计数。它根据帧长度而增加。如果帧尺寸是大约32ms，则块404将“能量”计数器增加大约32ms。在判决406，执行检查，以察看“能量”计数器的值是否超过时间阈值。在判决块406估计的阈值与用于确定语音的存在和/或不存在的连续非浊音能量规则相对应。在判决块406，可估计连续非浊音能量的最大持续时间的阈值。如果判决406确定设定的阈值被“能量”计数器的值超过，则在块408将被分析的帧或帧组指定成在端点外(例如，不存在语音)。结果，返回参照图3，系统跳回到块304，其中新的帧，帧n+1被输入到系统且标记成非语音。可选地，在块406可估计多个阈值。

如果在块406，“能量”计数器的值没有超过任何时间阈值，则在判决块410执行检查，以确定“无能量”计数器是否超过隔离阈值。与“能量”计数器404类似，“无能量”计数器418计数，且在被分析的帧或帧组不具有大于噪声水平的能量时使计数器增加帧的长度。隔离阈值是定义两个爆破音事件之间的时间量的时间阈值。爆破音是从说话者嘴中逐字爆发的辅音。空气被瞬时阻止，以建立压强，用于释放爆破音。爆破音可包括发音“P”、“T”、“B”和“K”。该阈值处于大约10ms至大约50ms范围中，且可以是大约25ms。如果隔离阈值超过隔离的非浊音能量事件，则被无声包围的爆破音已经被识别(例如，STOP中的P)，并且“隔离事件”计数器412递增。“隔离事件”计数器412以整数值递增。在“隔离事件”计数器412递增后，在块414对“无能量”计数器418进行复位。因为在被分析的帧或帧组中发现能量，所以对计数器进行复位。如果“无能量”计数器418没有超过隔离阈值，则在块414对“无能量”计数器418进行复位，而不递增“隔离事件”计数器412。此外，因为在正被分析的帧或帧组中发现能量，所以对“无能量”计数器418进行复位。在对“无能量”计数器418进行复位后，外部端点指示分析通过在块416返回“NO”值而将正被分析的帧或多帧指定为在端点指示内(例如，出现语音)。结果，返回参照图3，系统在318或322将已分析的帧标记成语音。

可选地，如果判决402确定不存在高于噪声水平的能量，则正被分析的帧或帧组包含无声或背景噪声。在这种情况下，“无能量”计数器418递增。在判决420，执行检查，以察看“无能量”计数器的值是否超过时间阈值。在判决420估计的阈值与可用于确定语音的存在和/或不存在的连续非浊音能量规则阈值相对应。在判决块420，可估计连续无声的持续时间的阈值。如果判决420确定“无能量”计数器的值超过设定的阈值，则在块408将正被分析的帧或帧组指定成在端点外(例如，不存在语音)。结果，返回参照图3，系统跳回到块304，其中新帧，帧n+1，被输入到系统中，且标记成非语音。可选地，可在块420估计多个阈值。

如果“无能量”计数器418的值没有超过任何时间阈值，则在判决块422执行检查，以确定是否已经出现最大数量的允许的隔离事件。“隔离事件”计数器提供必要的信息，以回答该检查。允许的隔离事件的最大数量是可配置的参数。如果期望语法(例如，“Yes”或“No”的回答)，则可相应设置允许的隔离事件的最大数量，以端点指示器的结果变得“紧密”。如果已经超过允许的隔离事件的最大数量，则在块408将正被分析的帧或多帧指定成在端点外(例如，不存在语音)。结果，返回参照图3，系统跳到块304，其中新的帧，帧n+1，被输入到系统中，且被标记成非语音。

如果还没有达到允许的隔离事件的最大数量，则在块424对“能量”计数器404进行复位。当识别出无能量的帧时，对“能量”计数器404进行复位。在对“能量”计数器404进行复位后，外部端点指示分析通过在块416返回“NO”，而将正被分析的帧或多帧指定成在端点内(例如，存在语音)。结果，返回参照图3，系统在318或322将已分析的帧标记成语音。

图5-9示出了模拟音频流的一些未加工的时间序列、这些信号的多种特征曲线、和相应未加工信号的声谱。在图5中，块502示出了模拟音频流的未加工的时间序列。该模拟的音频流包括口语话语“NO”504、“YES”506、“NO”504、“YES”506、“NO”504、“YESSSSS”508、“NO”504、以及若干“滴答”声音510。这些嘀嗒声音可表示当车辆转弯信号接通时产生的声音。块512表示未加工的时间序列音频流的多种特征曲线。块512沿x轴显示了若干采样。曲线514是端点指示器分析的一种表示。当曲线514处于零水平时，端点指示器还没有确定口语话语的存在。当曲线514处于非零水平，端点指示器限定口语话语的开始和/或结尾。曲线516表示比背景能量水平高的能量。曲线518表示时域中的口语话语。块520表示块502中识别的相应音频流的谱表示。

块512示出了端点指示器可以如何响应输入音频流。如图5中所示，端点指示器曲线514正确地捕获“NO”504和“YES”506信号。当“YESSSSS”508被分析时，端点指示器曲线514暂时捕获末尾的“S”，当其发现已经超过在元音之后的最大时限，或连续非浊音能量的最大持续时间时，端点指示器截至。基于规则的端点指示器将端点指示器曲线514限定的音频流的部分传送到ASR。如块512和图6-9中所示，传送到ASR的音频流的部分取决于应用的规则而变化。“滴答”510被检测为具有能量。这由在块512的最右部的上方的背景能量的曲线516所示。然而，因为在“滴答”510中没有检测到元音，所以端点指示器排除了这些音频声音。

图6是一个端点指示的“NO”504的放大图。口语话语曲线518由于时间拖尾效应而落后一帧或两帧。曲线518在由高于能量曲线516表示的检测到能量的整个时期内继续。在口语话语曲线518上升后，其调整水平位置且沿着背景能量曲线516上方。当检测到语音能量时，开始端点指示器曲线514。在曲线518表示的时期期间，没有违反任何端点指示器的规则，并且音频流被识别成口语话语。当已经违反在元音后最大连续无声持续时间规则或者在元音后的最大时间规则时，端点指示器在最右端截止。如举例说明，发送到ASR的音频流的部分包括大约3150个采样。

图7是一个端点指示的“YES”506的放大图。口语话语曲线518再次由于时间拖尾效应而滞后一帧或两帧。端点指示器曲线514在检测到能量时开始。端点指示器曲线514继续直到能量跌落到噪声；当已经违反在元音后最大连续非浊音能量持续时间规则或者在元音后的最大时间规则时。如举例说明，发送到ASR的音频流的部分包括大约5550个采样。在图6和图7中发送到ASR的音频流的量之间的差别由应用不同的规则的端点指示器引起。

图8是一个端点指示的“YESSSSS”508的放大图。端点指示器将元音后的能量作为可能的辅音而接收，然而仅在合理的时间量内。在合理的时间段后，可能已经违反连续非浊音能量的最大持续时间规则或者在元音后的最大时间规则，并且端点指示器曲线跌落，限制通过ASR的数据。如举例说明，发送到ASR的音频流的部分包括大约5750个采样。尽管口语话语持续了另外的6500个采样，因为端点指示器在合理的时间量后截止，发送到ASR的音频流的量与在图6和图7中发送的量不同。

图9是端点指示的“NO”504继之以若干“滴答”510的放大图。与图6-8一样，口语话语曲线518由于时间拖尾效应而滞后一帧或两帧。当检测到能量时端点指示器曲线514开始。第一次滴答被包括在端点指示曲线514内，因为存在高于背景噪声能量水平的能量，且该能量可能是辅音，即，拖尾“T”。然而，在第一和接下来的滴答之间存在大约300ms的无声。根据该实例使用的阈值，该无声时段违反了端点指示器在元音之后持续无声的最大持续时间的规则。因此，端点指示器排除了第一次滴答之后的能量。

端点指示器也可被配置成通过分析音频流的至少一个动态方面，来确定音频语音片段的开始和/或结尾。图10是分析音频流的至少一个动态方面的端点指示器系统的部分流程图。在1002可执行全局方面的初始化。全局方面可包括音频流自身的特性。为说明的目的但不受限，这些全局方面可包括说话者的语速或说话者的音调。在1004，可执行局部方面的初始化。为说明的目的和不受限制，这些局部方面可包括预期的说话者的回答(例如，“YES”或“NO”回答)、环境情况(例如，开放或封闭的环境，影响系统中回声或反馈的存在)、背景噪声的估计。

在整个系统操作中，在多个时间可出现全局和局部初始化。每次系统加电和/或在预定时段后，可执行背景噪声的估计(局部方面初始化)。可采用更小的频率而进行对说话者的语速和音调的确定(全局初始化)的分析和初始化。类似地，可采用更小的频率对预期的某种回答的局部方面进行初始化。可在ASR与期望某种回答的端点指示器通信时发生这样的初始化。环境情况的局部方面可被配置成每个动力循环进行一次初始化。

在初始化时段1002和1004期间，端点指示器可在关于图3和图4以前描述的默认阈值设置中运作。如果任何初始化都需要改变阈值设置或计时器，系统可动态地改变合适的阈值。可选地，基于初始化的值，系统可重新调出在系统存储器中存储的特定或普通用户简档(profile)。该简档可改变全部或某些阈值设置和计时器。如果在初始化过程期间，系统确定用户说话速度快，则某些规则的最大持续时间可下降到在简档中存储的水平。此外，可能以训练模式操作系统，从而系统执行初始化，以创建并存储用于以后使用的用户简档。在系统存储器中可存储一个或多个简档，用于以后的使用。

与图1中所述的端点指示器类似，可对动态端点指示器进行配置。另外，动态端点指示器可包括处理环境和ASR之间的双向总线。双向总线可在处理环境和ASR之间传送数据和控制信息。从ASR传送到处理环境的信息可包括数据，该数据指示响应对说话者提出的问题而预期的某种回答。从ASR传送到处理环境的信息可用于动态分析音频流的方面。

动态端点指示器的操作可与参照图3和4描述的端点指示器类似，除了“外部端点指示”例程、块316的一个或多个规则的一个或多个阈值可被动态配置。如果存在大量的背景噪声，能量高于噪声判决的阈值(块402)可被动态提高，以计算这种情况。一旦执行这样的重新配置，动态端点指示器可拒绝更多的瞬态和非语音声音，因而减少了错误确认的数量。动态可配置的阈值不限于背景噪声水平。动态端点指示器使用的任何阈值可被被动态配置。

图3、4和10中所示的方法可在信号承载介质、诸如存储器的计算机可读介质中被编码，可在诸如一个或多个集成电路、或由控制器或计算机处理的装置内被编程。如果方法由软件实现，软件可驻留在或连接到规则模块108或任何类型的通信接口。存储器可包括用于实现逻辑功能的可执行指令的有序列表。逻辑功能可通过数字电路、通过源代码、通过模拟电路、或诸如通过电、音频或视频信号的通过模拟源而实现。软件可在任何计算机可读或信号承载介质中具体化，用于由指令可执行系统、设备或装置使用，或与指令可执行系统、设备或装置相关。这样的系统可包括基于计算机的系统、包含处理器的系统、或者可选择性地从指令可执行系统、设备或也可执行指令的装置中获取指令的其它系统。

“计算机可读介质”、“机器可读介质”、“传播的信号”介质和/或“信号承载介质”可包括任何包含、存储、通信、传播或传输软件，用于由指令可执行系统、设备或装置或与指令可执行系统、设备或装置相关。机器可读介质可选择性地是，但不限于电、磁、光学、电磁、红外线或半导体系统、设备、装置或传播介质。机器可读介质实例的非穷举列表可包括：具有一个或多个导线的电连接“电”、移动磁盘或光盘、诸如随机存取存储器“RAM”(电)的易失性存储器、只读存储器“ROM”(电)、电可擦除可编程只读存储器(EPROM或闪存存储器)(电)、或光纤(光)。机器可读介质还可包括在其上打印软件的有形介质、由于软件可电存储为图像或其它形式(例如，通过光学扫描)，然后编译，并/或解释或另外处理。处理的介质可存储在计算机和/或机器存储器中。

尽管已经描述了本发明的多个实施例，对于本领域技术人员来说很明显在本发明的范围内有很多另外的实施例和实现。从而，本发明不受限于，除了根据附属权利要求以及它们的等同物。

Claims

1.一种确定音频语音片段的开始和结尾中的至少一个的端点指示器，所述端点指示器包括：

声音触发模块，其识别包括音频语音片段的音频流的一部分；和

规则模块，其与所述声音触发模块进行通信，所述规则模块包括多个规则，所述多个规则分析所述音频流的至少一部分，以检测所述音频语音片段的开始和结尾中的至少一个，并确定关于所述音频语音片段的音频流的所述部分是否在音频端点内；

其中，所述规则模块分析所述音频流的所述部分中爆破音的预定数量。

2.根据权利要求1所述的端点指示器，其中所述声音触发模块对元音进行识别。

3.根据权利要求1所述的端点指示器，其中所述声音触发模块对S或X声音进行识别。

4.根据权利要求1所述的端点指示器，其中所述音频流的所述部分包括帧。

5.根据权利要求1所述的端点指示器，其中所述规则模块分析所述音频流的所述部分中的能量的缺乏。

6.根据权利要求1所述的端点指示器，其中所述规则模块分析所述音频流中的所述部分中的能量。

7.根据权利要求1所述的端点指示器，其中所述规则模块分析所述音频流的所述部分中的经过的时间。

8.根据权利要求1所述的端点指示器，其中所述规则模块检测所述音频语音片段的开始和结尾。

9.根据权利要求1所述的端点指示器，还包括能量检测模块。

10.根据权利要求1所述的端点指示器，还包括与麦克风输入端通信的处理环境、处理单元和存储器，其中所述规则模块驻留在所述存储器中。

11.一种利用具有多个判决规则的端点指示器来确定音频语音片段的开始和结尾中的至少一个的方法，所述方法包括：

接收音频流的一部分；

确定所述音频流的所述部分是否包括触发特征；并且

将至少一个判决规则应用到关于所述触发特征的所述音频流的所述部分，包括分析所述音频流的所述部分中爆破音的预定数量，以检测所述音频语音片段的开始和结尾中的至少一个，并确定所述音频流的所述部分是否在音频端点内。

12.根据权利要求11所述的方法，其中所述判决规则被应用到包括所述触发特征的所述音频流的所述部分。

13.根据权利要求11所述的方法，其中所述判决规则被应用到与包括所述触发特征的所述部分不同的所述音频流的部分。

14.根据权利要求11所述的方法，其中所述触发特征是元音。

15.根据权利要求11所述的方法，其中所述触发特征是S或X声音。

16.根据权利要求11所述的方法，其中所述音频流的所述部分是帧。

17.根据权利要求11所述的方法，还包括分析所述音频流的所述部分中的能量的缺乏。

18.根据权利要求11所述的方法，还包括分析所述音频流的所述部分中的能量。

19.根据权利要求11所述的方法，还包括分析所述音频流的所述部分中的经过的时间。

20.根据权利要求11所述的方法，还包括检测可能的语音片段的开始和结尾。