CN1354870A

CN1354870A - 噪声信号中语音的端点定位

Info

Publication number: CN1354870A
Application number: CN00803546A
Authority: CN
Inventors: 毕宁; 张承纯; A·P·德雅科
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2000-02-08
Publication date: 2002-06-19
Anticipated expiration: 2020-02-08
Also published as: US6324509B1; WO2000046790A1; ES2255982T3; DE60024236D1; HK1044404A1; KR20010093334A; ATE311008T1; EP1159732B1; HK1044404B; DE60024236T2; KR100719650B1; JP2003524794A; AU2875200A; EP1159732A1; CN1160698C

Abstract

一种用来在存在噪音时对语音进行精确的端点定位的设备,包括一处理器和一软件模块。该处理器执行软件模块的指令,比较发音与第一信噪比(SNR)门限值以确定该发音的第一起点和第一终点。然后该处理器比较时间上早于第一起点的那部分发音与第二SNR门限值以确定该发音的第二起点。该处理器然后还比较时间上后于第一终点的那部分发音与第二SNR门限值以确定该发音的第二终点。周期性地重新计算第一和第二SNR门限值以反映变化的SNR条件。第一SNR门限值有益地超过第二SNR门限值。

Description

噪声信号中语音的端点定位

发明背景

I、发明领域

本发明总的说来涉及通信领域，更确切地说涉及存在噪声时的语音的端点定位。

II、背景

话音识别(VR)代表赋予一机器以识别用户或用户话音命令并使人机接口便利的仿真智能的最重要技术之一。VR还代表一种主要的人类语音理解技术。使用把声的语音信号恢复为语言消息的技术的系统称为话音识别器。话音识别器典型地包含声处理器和字译码器，前者提取话音识别来向原始语音所必需的一系列带信息的特征或矢量，后者给该系列特征或矢量译码以产生诸如对应于输入发音的一系列语言字的富有意义和所需输出格式。为提高指定系统的性能，需要训练以用有效的参数装备该系统。换言之，该系统在能发挥最佳功能前需学习。

声处理器代表话音识别器中的前端语音分析子系统。作为对输入语音信号的响应，声处理器提供适当的显示法以表征该随时间变化的语音信号。声处理器应删除诸如背景噪声、信道失真，说话者特征和说话方式的不相关信息，有效的声处理使话音识别器具有增强的声鉴别力，为达到此目的，要分析的一个有用特征是短时间频谱包络。用来表征短时间频谱包络的两个常用频谱分析技术是线性预测编码(LPC)和基于滤波器组的频谱模拟。在专利号为5414796的美国专利及L.B.Rabiner和R.W.Schfer所著的1978年版的《语音信号的数字处理》一书第396至第453页中描述了示例的LPC技术，前者已转让给本发明的受让人并在此完全引述供参考，后者也在此完全引述供参考。

因为安全的原因，VR(通常称为语音识别)的使用变得越来越重要。例如，VR可用来取代在无线电话键盘上揿按钮的手工任务。这在用户驾车启动电话呼叫时特别重要。使用没有VR的话机时，驾驶员必须从方向盘上移出一只手，并在揿按钮拔打该呼叫时看着电话键盘。这些动作增加了车祸的可能性。能够使用语音的话机(即设计成语音识别的话机)将让驾驶员在继续注视路面的同时发出电话呼叫。免提汽车配套话机系统将附加地准许驾驶员在呼叫发起期间保持双手在方向盘上。

语音识别设备分为依赖说话人型和不依赖说话人型两类。不依赖说话人型设备能接受任何用户的话音命令。依赖说话人型设备较常见，训练成识别特定用户的命令。依赖说话人型VR设备典型地工作在两个阶段：训练阶段和识别阶段。在训练阶段，VR系统提示用户对系统词汇中的每个单词说一遍或两遍，这样系统可以了解用户说这些单词或短语的语音特征。另一个可选择的是，对于语言VR设备，训练是通过特别按原稿读出覆盖该语言中所有音素的一篇或更多篇短文完成的。由于免提汽车配套话机系统的示例性词汇可以包括键盘上的数字；关键词“呼叫”、“发送”、“拨打”、“取消”、“消除”、“增加”、“历史”、“程序”、“是”和“否”；以及预定数量的常叫的同事、朋友或家庭成员的名字。一旦训练完成，用户在识别阶段能够通过说这些所训练的关键词发起呼叫。例如，假设“约翰”这个名字是所训练的名字之一。用户可通过说“呼叫约翰”这个短语发起向约翰的一个呼叫。VR系统会识别“呼叫”和“约翰”这两个单词，并拨打用户事先作为约翰的电话号码输入的那个号码。

为精确捕获发话发音以作识别，能够使用语音的产品典型地使用端点检测器确定发音的起点和终点。在传统的VR设备中，端点检测器依据单一信噪比(SNR)门限确定发音的端点。在两篇关于语音和声频处理的IEEE会刊中描述了这样的传统VR设备，它们是Jean-ClaudeJunqua等人于1994年7月发表的《一种存在噪音时用作单词界限检测的稳健算法》和1998年3月的《TIA/EIA过度性标准IS-733》中的2-35至2-50。然而，如果SNR门限定得太低，VR设备对背噪音变得太敏感，这会触发端点检测器，从而导致错误识别。反之，如果门限定得太高，则VR设备变得易于在发音的始点和终点丢失弱辅音。这样，需要一种存在背音噪声时使用多个自适应SNR门限以精确检测语音的端点的VR设备。

发明概要

本发明关于一种存在背景噪声时使用多个自适应SNR门限精确检测语音的端点的VR设备。因此，在本发明的一个方面，一种用来检测发音端点的设备有益地包括一处理器；以及一可由该处理器执行的的软件模块，用于比较发音与第一门限值以确定该发音的第一起点和第一终点、比较时间上早于第一起点的那部分发音与第二门限值以确定该发音的第二起点、以及比较时间上后于第一终点的那部分发音与第二门限值以确定该发音的第二终点。

在本发明的另一个方面，一种检测发音的端点的方法有益地包括以下步骤：比较发音与第一门限值以确定该发音的第二起点和第一终点；比较时间上早于第一起点的那部分发音与第二门限值以确定该发音的第二起点；以及比较时间上后于第一终点的那部分发音与第二门限值以确定该发音的第二终点。

在本发明的另一方面，一种用来检测发音的端点的设备有益地包括：用来比较发音与第一门限值以确定该发音的第一起点和第一终点的装置；用来比较时间上早于第一起点的那部分发音与第二门限值以确定该发音的第二起点的装置；以及用来比较时间上后于第一终点的那部分发音与第二门限值以确定该发音的第二终点的装置。

附图简述

图1是话音识别系统的方框图。

图2是说明诸如图1的系统的话音识别系统检测发音的端点所执行的方法步骤的流程图。

图3是对于不同频带，发音的信号振幅和第一、第二自适应SNR门限与时间的曲线图。

图4是说明诸如图1的系统的话音识别系统的比较瞬时SNR与自适应SNR门限所执行的方法步骤的流程图。

图5是无线话机中语音端点检测器的瞬时信噪比(分贝)与信噪比估算值(分贝)的曲线图。

图6是免提汽车配套话机系统中语音端点检测器的瞬时信噪比(分贝)比信噪比估算值(分贝)的曲线图。

较佳实施例的详细描述

依照一实施例，如图1所示，话音识别系统10包括模数转换器(A/D)12、声处理器14、VR模板数据库16、模式比较逻辑电路18和判定逻辑电路20。声处理器14包括端点检测器22。VR系统10可驻留在，例如无线话机或免提汽车配套话机系统中。

当VR系统10在语音识别阶段时，某人(未示出)说一单词或短语，产生一语音信号。该语音信号用普通变换器(亦未示出)转换为电语音信号s(t)，将其提供给A/D转换器，A/D转换器按照已知的采样方法(如脉冲编码调制(PCM))将其转换为数字化语音采样s(n)。

语音采样s(n)提供给声处理器14进行参数测定。声处理器14产生模拟输入语音信号s(t)的特征的一组参数。参数可依照许多已知语言参数测定技术中的任何一个来确定，例如包括语音编码器编码及如前面提到的专利号为5414796的美国专利中描述的使用基于快速富里叶变换(FFT)的倒频谱系数。声处理器14可实施成数字信号处理器(DSP)。该DSP可包括语音编码器。另外，声处理器14可实施成语音编码器。

在VR系统10的训练期间也执行参数确定，其中，VR系统10所有词汇的一组模板传送给VR模板数据库16，永久存储在其中。数据库16可有益地实施成诸如闪存的任何一种形式的非易失性存储媒介。这使得在关掉VR系统10的电源时这些模板能保留在VR模板数据库16中。

该组参数提供给模式比较逻辑电路18。模式比较逻辑电路18有益地检测发音的起点和终点，计算动态声特征(诸如时间导数、二次时间导数等)，通过选择相关帧而压缩声特征，量化静态和动态声特征。例如，Lawrence Rabiner和Biing-Hwang Juang所著的《语音识别基本原理》(1993年版)中描述了端点检测、动态声特征推导、模式压缩及模式量化的各种已知方法，在此完全引述供参考。模式比较逻辑电路18比较该组参数和存储在VR模板数据库16中的所有模板。该组参数与存储在VR模板数据库16中的所有模板的比较结果或距离提供给判定逻辑电路20。判定逻辑电路20从VR模板数据库16选择最匹配该组参数的模板。在另一种方案中，判定逻辑电路20可使用传统的“N-best”选择算法，“N-best”选择算法在预定的匹配门限之内选择N个最接近匹配。然后询问该人有意于哪个选择。判定逻辑电路20的输出是对说了词汇中哪个词的判定。

模式比较逻辑电路18和判定逻辑电路20可有益地实施成一微处理器。VR系统10可以是例如一专用集成电路(ASIC)。VR系统10的识别精确度是对VR系统10正确识别词汇中的所说单词或短语的程度的测试。例如，95％的识别精确度表明VR系统10每100次中有95次正确识别词汇中的单词。

声处理器14中的端点检测器22确定属于每个语音发音的起点和终点的参数。端点检测器22用来捕获有效发音，有效发音或者用作语音训练阶段中的一语音模板或者在语音识别阶段与语音模板比较以发现最好的匹配。在存在背景噪声时端点检测器22减少VR系统10的错误，从而提高诸如对无线话机的话音拔打和话音控制的功能的稳健性。如下面参照图2所作的详细描述，在端点检测器22中确定了两个自适应信噪比门限以捕获有效发音。第一门限高于第二门限。第一门限用来发现发音中诸如辅音的相对弱的部分。可适当调谐这两个自适应SNR门限以使VR系统10或者对噪音稳健或者对任何语言部分敏感。

在一实施例中第二门限是诸如上述专利号为5414796美国专利中描述声码器的13k比特每秒(kbps)声码器中的半速率门限，第一门限比13kbps声码器中的全速率大4至10分贝。这两个门限有益地自适应背景SNR，背景SNR可每10或20毫秒地进行估算。这是需要的，因为背景噪声(即公路噪声)在汽车中是变化的。在一实施例中，VR系统10驻留在无线电话手机的声码器中，端点检测器22在0.3-2kHz和2-4kHz这两个频带中计算SNR。在另一实施例中，VR系统10驻留在免提汽车配套话机系统中，端点检测器22在0.3-2kHz、2-3kHz和34kHz这三个频带中计算SNR。

依照一实施例，端点检测器执行图2的流程图中所示的方法步骤，以检测发音的端点。图2中示出的算法步骤可有益地用传统的数字信号处理技术实施。

在步骤100中清除数据缓冲器和称为GAP的参数。将用LENGTH表示的参数设定为等于称作HEADER_LENGTH的参数。称作LENGTH的参数跟踪端点正被检测的发音的长度。各种参数可有益地存储在端点检测器中的寄存中。数据缓冲器可有益地是循环缓冲器，如果无人说话则循环缓冲器节省存储空间。声处理器(未示出)包括端点检测器，它以每个发音固定数目帧实时处理语音发音。在一实施例中，每帧有十毫秒。端点检测器必须从起点“回顾”某一数目的语音帧，因为声处理器(未示出)执行实时的处理。HEADER的长度确定从起点回顾多少帧，HEADER的长度可以是例如10至20帧。完成步骤100后，算法进入步骤102。

如以下参照图4所描述，在步骤102中加载一帧语音数据并更新或重新计算SNR估算值。这样，SNR估算值按每帧更新以自适应改变SNR条件。如下面参照图4和图6所描述，计算第一和第二SNR门限。第一SNR门限高于第二SNR门限。完成步骤102后，算法进入步骤104。

在步骤104中当前或瞬时SNR与第一SNR门限比较。如果一预定数目N个连续帧的SNR大于第一SNR门限，算法进入步骤106。另一方面，如果N个连续帧的SNR不比第一门限大，算法进入步骤108。在步骤108中算法用包含在HEADER中的帧更新数据缓冲器。然后算法回到步骤104。在一实施例中，数目N是3。与3个连续帧比较是作平均之用。例如，假如只用一个帧，该帧包含噪音峰值。产生的SNR则不是在3个连续帧上平均的SNR的指示。

在步骤106中，加载语音数据的下一个帧并更新SNR估算值。然后算法进入步骤110。在步骤110中，比较当前SNR与第一SNR门限，以确定发音的端点。如果SNR小于第一SNR门限，算法进入步骤112。另一方面，如果SNR不小于第一SNR门限，算法进入步骤114。在步骤114中清除参数GAP且参数LENGTH增加1。然后算法返回步骤106。

在步骤112中，参数GAP增加1，然后算法进入步骤116。在步骤116中参数GAP与称作GAP门限的参数比较。参数GAP门限表示通话期间单词间的间隙。参数GAP门限可有益地设定为200至400毫秒。如果GAP大于GAP门限，算法进入步骤118。还是在步骤116中，LENGTH这个参数与称作MAX_LENGTH的参数比较，下面结合步骤154对此进行描述，如果长度大于或等于最大长度，算法进入步骤118。然而，如果在步骤116中GAP不大于GAP门限，并且LENGTH不大于或等于MAX_LENGTH，算法进入步骤120。在步骤120中参数LENGTH增加1。然后算法返回步骤106加载语音数据的下一帧。

在步骤118中，算法开始向后寻找发音的起点。算法回看保存在HEADER中的帧，HEADER可有益地包含20个帧。将称作PRE_START的参数设定为等于HEADER。算法还开始寻找发音的终点，将称作PRE_END的参数设定为等于LENGTH减GAP。然后算法进入步骤122和124。

在步骤122中，将指针I设定为等于PRE_START减1，清除称作GAP_START的参数(即设定GAP_START等于零)。指针i表示发音的起点。然后算法进入步骤126。类似地，在步骤124中，设定指针j等于PRE_END，清除称作GAP_END的参数。指针j表示发音的终点。然后算法进入步骤128。如图3所示，在相对两端有箭头的第一行段说明发音的长度。该行的两端表示发音的真正起点和终点(即：END减SATRT)。在相对的两端有箭头的第二行段在第一行段下面示出，表示PRE_END减PRE_START的值，最左端表示指针i的初始值而最右端表示指针j的初始值。

在步骤126中，算法加载帧号i的当前SNR。然后算法进入步骤130。类似地，在步骤128中，算法加载帧号j的当前SNR。然后算法进入步骤132。

在步骤130中，算法把帧号i的当前SNR与第二SNR门限比较。如果当前SNR小于第二SNR门限，算法进入步骤134。另一方面，如果当前SNR不小于第二SNR门限，算法进入步骤136。类似地，在步骤132中，算法把帧号j的当前SNR与第二SNR门限比较。如果当前SNR小于第二SNR门限，算法进入步骤138。另一方面，如果当前SNR不小于第二SNR门限，算法进入步骤140。

在步骤136中，清除GAP_START且指针i减1。然后算法返回步骤126。类似地，在步骤140中清除GAP_END且指针j增加1。然后算法返回步骤128。

在步骤134中GAP_START增加1。然后算法进入步骤142。类似地，在步骤138中GAP_END增加1。然后算法进入步骤144。

在步骤142中把GAP_START与称作GAP_START_THRESHOLD的参数比较。参数GAP_START_THRESHOLD表示说出的单词的音素间的间隙，或快速连续交谈中相邻单词间的间隙。如果GAP_START大于GAP_START_THRESHOLD，或者如果指针i小于或等于零，算法进入步骤196。另一方面，如果GAP_START不大于GAP_START_THERSGOLD，且指针i不小于或等于零，算法进入步骤148。类似地，在步骤144中GAP_END与称作GAP_END_THRESHOLD的参数比较。参数GAP_END_THRESHOLD表示说出的单词的音素间的间隙，或快速连续的交谈中相邻单词间的间隙。如果GAP_END大于GAP_END_THRESHOLD，或如果指针j大于或等于LENGTH，算法进入步骤150。另一方面，如果GAP_END不大于GAP_END_THRESHOLD，且指针j不大于或等于LENGTH，算法进入步骤152。

在步骤148中，指针i减1。然后算法返回步骤126。类似地，在步骤152中，指针j增1。然后算法返回到步骤128。

在步骤146中，称作START的参数表示发音的真正起点，设定为等于指针i减GAP_START。然后算法进入步骤154。类似地，在步骤150中，称作END的参数表示发音的真正终点，设定为等于指针j减GAP_END。然后算法进入步骤154。

在步骤154中，比较END减START的差值与称作MIN_LENGTH的参数，MIN_LENGTH是表示比VR设备词汇中最短单词长度小的一长度的预定值。还将END减START的差值与参数MAX LENGTH作比较，MAX_LENGTH是表示比VR设备词汇中最长单词的长度还大的一长度的预定值。在一实施例中，MIN_LENGTH是100毫秒，MAX_LENGTH是2.5毫秒。如果END减START的差值大于或等于MIN_LENGTH且小于或等于MAX_LEGTH，则已捕获有效发音。另一方面，如果END减START的差值小于MIN_LENGTH或大于MAX_LENGTH，该发音无效。

在图5中，绘出驻留在无线话机中的端点检测器的SNR估算值的一组示例性第一和第二SNR门限。例如，假如SNR估算值是40分贝，则第一门限是19分贝而第二门限近似8.9分贝，在图6中，绘出驻留在免提汽车配磁话机系统中的端点检测器的SNR估算值(分贝)对瞬时SNR(分贝)的曲线，并示出基于SNR估算的一组示例性第一和第二SNR门限。例如，假如瞬时SNR是15分贝，则第一门限近似15分贝而第二门限近似8.2分贝。

在一实施例中，依照图4的流程图中说明的步骤执行结合图3描述的估算步骤102、106和比较步骤104、110、130和132。在图4中，通过遵循用短划线封闭并标记为参考字102(为简单起见)的步骤执行估算SNR的步骤(图3的步骤102或步骤106)。在步骤200中，用频带能量(BE)值和前一帧的平滑频带能量值(E^SM)计算当前帧的平滑频带能量值(E^SM)如下：

E^SM＝0.6E^SM+0.4BE

完成步骤200的计算后，执行步骤202。在步骤202中，确定当前帧的平滑背景能量值(B^SM)为1.03倍前一帧的平滑背景能量值(B^SM)和当前帧的平滑频带能量值(E^SM)的最小值如下：

B^SM＝min(1.03B^SM，E^SM)

完成步骤202的计算后，执行步骤204。在步骤204中，确定当前帧的平滑信号能量值(S^SM)是0.97倍前一帧的平滑信号能量值(S^SM)和当前帧的平滑频带能量值(E^SM)的最大值如下：

S^SM＝max(0.97S^SM，E^SM)

完成步骤204的计算后，执行步骤206。在步骤206中，从当前帧的平滑信号能量值(S^SM)和当前帧的平滑背景能量值(B^SM)计算当前帧的SNR估算值(SNR^EST)如下：

SNR^EST＝10log₁₀(S^SM/B^SM)

完成步骤206的计算后，通过做步骤208的比较而执行比较瞬时SNR与估算SNR(SNR^EST)以确定第一或第二SNR门限的步骤(对第一SNR门限来说是图3的步骤104或步骤110，对第二SNR门限来说是图3的步骤130或步骤132)，步骤208的比较用短划线封闭并标记为参考数字104(为简间起见)。步骤208的比较使用下列等式求瞬时SNR(SNR^INST)。

SNR^INST＝10log₁₀(BE/B^SM)

因此，在步骤208中，依照下面的方程式比较当前帧的瞬时SNR(SNR^INST)与第一或第二SNR门限：

SNR^INST＞门限(SNR^EST)？

在一实施例中，VR系统驻留于无线话机中，可通过把当前帧的SNR估算(SNR^EST)定位在水平轴上并把第一和第二门限看作是与所示第一和第二门限曲线的相交点从图5的曲线图获得第一和第二SNR门限。在另一实施例中，VR系统驻留于免提汽车配套话机系统中，可通过把当前帧的SNR估算值(SNR^EST)定位在水平轴上并把第一和第二门限看作是与所示第一和第二门限曲线的相交点从图6的曲线图获得第一和第二SNR门限。

可依照任何已知的方法计算瞬时SNR(SNR^INST)，包括例如专利号为5742734和5341456的美国专利中描述的SNR计算方法，该两专利已转让给本发明的受让人，在此完全引述供参考。可初始化SNR估算值(SNR^EST)为任何值，但可有益地如下所述地初始化。

在一实施例中，VR系统驻留于天线话机中，设定低频带(0.3-2kHz)的平滑频带能量(E^SM)的初始值(即第一帧中的值)等于第一帧的输入信号频带能量(BE)。还设定高频带(2至4kHz)平滑频带能量(E^SM)的初始值等于第一帧的输入信号频带能量(BE)。设定平滑背景能量(B^SM)的初始值等于低频带的5059644和高频带蝗5059644(这些单位是信号能量的量化电平，它是从输入信号的数字化采样的平方和计算的)。平滑信号能(S^SM)的初始值设定为等于低频带的3200000和高频带320000。

在另一实施例中，VR系统驻留于免提汽车配套话机系统中，设定低频带(0.3至2kHz)平滑频带能量(E^SM)的初始值(即第一帧中的值)等于第一帧的输入信号频带能量(BE)。还设定中频带(2至3kHz)和高频带(3至4kHz)的平滑频带能量(E^SM)的初始值等于第一帧的输入信号频带能量(BE)。设定平滑背景能(B^SM)的初始值等于低频带的5059644、中频带的5059644和高频带5059644。设定平滑信号能量(S^SM)的初始值等于低频带的3200000、中频带的250000和高频带的70000。

因此，已描述一种在存在噪声时用于对语音进行精确端点定位的新颖、改进方法和设备。描述的实施例有益地或者通过设置适当高的第一SNR门限值避免误触发端点检测器，或者通过设置适当低的第二SNR门限值不错过任何弱的语音部分。

本领域的熟练人员明白：结合此处揭示的实施例描述的各种说明性逻辑块和算法步骤可实施或执行于数字信号处理器(DSP)，专用集成电路(ASIC)，分立的门电路或晶体管逻辑电路、诸如寄存器和FIFO的分立的硬件元件，执行一组固件指令的处理器或任何传统的可编程软件模块及处理器。该处理可有益地是微处理器，但作为可选项，该处理器可以是任何传统的处理器、微控制器或状态机。该软件模块可驻留于RAM存储器、闪存、寄存器或任何其他形式的本领域中已知的可写存储媒介。熟练人员还会认识到：上述描述中可参考的数据、指令、命令、信息、信号、位、码元和码片有益地用电压、电流、电磁波、磁场或磁性粒子、光场或光粒子或任何有关的组合表示。

这样已示出并描述本发明的较佳实施例。然而，对本领域中传统的熟练人员说明显的是：可不脱离本发明的精神或范围对此处揭示的实施例进行许多改动。因经，将依照以下权利要求限制本发明。

Claims

1、一种用来检测发音的端点的设备，其特征在于它包含：

一处理器，以及

一由该处理器执行的软件模块，比较发音与第一门限值以确定该发音的第一起点和第一终点，比较时间上早于第一起点的那部分发音与第二门限值以确定该发音的第二起点以及比较时间上后于第一终点的那部分发音与第二门限值以确定该发音的第二终点。

2、如权利要求1所述的设备，其中，第一和第二门限值基于信噪比。

3、如权利要求1所述的设备，其中，周期性地重新计算第一和第二门限值。

4、如权利要求1所述的设备，其中，第一门限值超过第二门限值。

5、如权利要求1所述的设备，其中，第二终点和第二起点间的差值受预定的最大和最小长度界限约束。

6、一种检测发音的端点的方法，其特征在于它包含以下步骤：

比较发音与第一门限值以确定该发音的第一起点和第一终点；

比较时间早于第一起点的那部分发音与第二门限值以确定该发音的第二起点；以及

比较时间上后于第一终点的那部分发音与第二门限值以确定该发音的第二终点。

7、如权利要求6所述的方法，其中，第一和第二门限值基于信噪比。

8、如权利要求6所述的方法，还包含周期性地重新计算第一和第二门限值的步骤。

9、如权利要求6所述的方法，其中，第一门限值超出第二门限值。

10、如权利要求6所述的方法，还包含由预定的最大和最小长度界限约束第二终点和第二起点间差值的步骤。

11、一种用来检测发音的端点的设备，其特征在于它包含：

用来比较发音与第一门限值以确定该发音的第一起点和第一终点的装置；

用来比较时间上早于第一起点的那部分发音与第二门限值以确定该发音的第二起点的装置；以及

用来比较时间上后于第一终点的那部分发音与第二门限值以确定该发音的第二终点的装置。

12、如权利要求11所述的设备，其中，第一和第二门限值基于信噪比。

13、如权利要求11所述的设备，还包含用来周期性地重新计算第一和第二门限值的装置。

14、如权利要求11所述的设备，其中，第一门限值超出第二门限值。

15、如权利要求11所述的设备，还包含由预定的最大和最小长度界限约束第二终点和第二起点间差值的装置。