CN102687196A

CN102687196A - 用于检测语音段的方法

Info

Publication number: CN102687196A
Application number: CN2010800505608A
Authority: CN
Inventors: 卡洛斯·加西亚马丁内斯; 海伦卡·杜先斯巴罗贝斯; 毛里西奥·赛德拉维申斯; 大卫·卡德纳斯桑切斯
Original assignee: Telefonica SA
Current assignee: Telefonica SA
Priority date: 2009-10-08
Filing date: 2010-10-07
Publication date: 2012-09-19
Anticipated expiration: 2030-10-07
Also published as: EP2486562A1; ES2371619B1; UY32941A; WO2011042502A1; US20130054236A1; ES2454249T3; AR078575A1; ES2371619A1; CN102687196B; EP2486562B1; BR112012007910A2

Abstract

本发明涉及一种用于检测数字音频输入信号中的噪音段和语音段的方法，所述输入信号被分为多个帧，本方法包括：第一阶段（10），其中，如果帧与之前N个帧的平均能量值不大于第一能量阈值，则进行将所述帧并分类成噪音的第一分类，N>1；第二阶段（20），其中，针对在第一阶段中没有被分类成噪音的每个帧，基于结合至少第一标准、第二标准和第三标准来判定将所述帧分类为噪音还是分类为语音，第一标准是关于帧与声学的噪音模型和语音模型的频谱相似性，第二标准是关于对帧的能量的分析，而第三标准是关于持续时间，包括：使用状态机，用于根据对声学相似性大于第一声学阈值的确定数目的连续帧的累加来检测段的开始，以及用于检测所述段的结束；第三阶段（30），其中，使用关于持续时间的标准来审查在第二阶段中进行的将信号帧分类成语音或分类成噪音的分类。

Description

用于检测语音段的方法

技术领域

本发明属于语音技术的领域，特别为语音识别和说话人验证领域，本发明具体地属于对语音和噪音的检测的领域。

背景技术

自动语音识别是特别复杂的任务。原因之一是难以检测由用户发声的语音段的起始和结束，将语音段的起始和结束合适地区别于在开始说话之前、在结束说话之后出现的静默时段以及所述用户在说话期间为了呼吸而进行停顿的时段。

对发声的语音段的检测和定界出于两个原因而是基础的。首先，出于计算效率的原因：在语音识别中使用的算法在计算负荷方面要求非常高，因此在没有消除其中不存在用户话音的时段的情况下，将这些算法应用于整个声学信号会涉及到触发处理负荷，并且因此会引起识别系统的响应的显著延迟。其次，但是同样重要地，出于效验的原因：消除不包括用户话音的信号段极大地限制了识别系统的搜索空间，显著降低了识别系统的错误率。出于这些原因，商业自动语音识别系统包括用于检测噪音段和语音段的模块。

由于语音段检测的重要性，已经为合适地进行这项任务做出了许多努力。

例如，日本专利申请JP-A-9050288公开了一种用于检测语音段的方法。具体地，借助于将输入信号的幅值与阈值相比较来确定语音段的开始点和结束点。该方法具有下述缺点：操作取决于噪音信号的水平，因此在大幅值噪音存在时该方法的结果不合适。

接着，日本专利申请JP-A-1244497公开了一种基于计算信号的能量来检测语音段的方法。具体地，计算第一语音帧的平均能量，并且将所获得的值用作为对与话音交叠的噪音信号的能量的估计。然后，借助于将每个信号帧的能量与取决于噪音信号的估计能量的阈值进行比较来检测话音脉冲。由此补偿了噪音信号的能量值的可能的可变性。然而，当存在大幅值且短持续时间的噪音段时，该方法不会正确地起作用。

美国专利US-6317711也公开了一种用于检测语音段的方法。在该情况下，借助于LPC倒谱和MEL倒谱参数化针对每个信号帧获得特征向量。然后，寻找所述向量的最小值，并通过将所述向量中的所有元素的值除以该最小值来对所述向量中的所有元素归一化。最后，将归一化的能量的值与预定阈值集合比较以检测语音段。与之前方法提供的结果相比，该方法提供了更好的结果，尽管在不利的噪音状况下该方法仍然难以检测语音段。

美国专利US-6615170公开了一种用于检测语音段的替选方法，该方法基于对声学噪音和语音模型进行训练并且基于将输入信号与所述模型比较，借助于最大逼真性的最大化来确定所确定的帧是语音还是噪音，而不是基于将参数或参数向量与阈值或阈值集合相比较。

除了这些专利和其他类似的专利之外，科学文献中的对检测噪音和语音段的任务的处理非常昂贵，许多文章和文献提出了进行所述检测的不同方法。如此，例如“Voice Activity Detection Based on Conditional MAPCriterion标准”（Jong Won Shin,Hyuk Jin Kwon,Suk Ho Jin,Nam SooKim;in IEEE Signal Processing Letters,ISSN:1070-9908,Vo.15,Feb.2008）描述了一种用于基于MAP（最大后验）标准的变体来检测语音的方法，该方法基于频谱参数并且使用取决于紧接在前的分类结果的不同阈值来将信号帧分类成语音和噪音。

至于归一化，应该指出对包括在ETSI分布式语音识别标准（ETSI ES202 050 v1.1.3.Distributed Speech Recognition;Advanced Front-endFeature Extraction Algorithm;Compression Algorithms.TechnicalReport ETSI ES 202050,ETSI）中的用于检测语音的方法的推荐。该标准中推荐的方法是基于以下操作：针对信号的每一帧都来计算信号的三个参数并且将这些参数与三个相应的阈值比较，使用若干个连续帧的集合来进行最终语音/噪音判定。

然而，尽管提出了大量的方法，但是语音段检测的任务现今继续呈现出相当大的困难。至今所提出的方法，即基于将参数与阈值比较的方法以及基于统计分类的方法，在不利的噪音状况下特别是在非固定噪音存在的情况下，是不够鲁棒的，这使得在这样的状况下语音段检测错误增加。为此，将这些方法用在噪音特别大的环境中，如汽车的内部，会存在显著的问题。

换句话说，到目前为止所提出的检测语音段的方法，即基于将信号的参数与阈值比较的方法以及基于统计比较的方法，在不利的噪音环境下呈现出显著的鲁棒性问题。这些方法的操作特别在非固定噪音存在的情况下劣化。

由于在确定状况下缺少鲁棒性，不能实行或者尤其难以在确定的环境（例如汽车的内部）中使用自动语音识别系统。在这些情况下，基于将信号的参数与阈值比较或者基于统计比较来检测语音段的方法的使用不能提供合适的结果。据此，自动语音识别器得到了许多错误的结果并且经常将抛弃用户发声，这使得这种类型的系统是极其难以使用的。

发明内容

本发明涉及根据权利要求1所述的一种用于检测语音段的方法。在从属权利要求中限定了本方法的优选实施方式。

本申请企图通过提供一种用于检测语音段的、在噪音环境中即使是在非固定噪音存在的情况下也是鲁棒的方法。为此，所提出的方法基于结合三个标准，用于做出将输入信号的各段分类为语音或者分类为噪音的判定。具体地，使用了基于与阈值比较的涉及信号的能量的第一标准。将信号的一系列频谱参数与语音模型和噪音模型的统计比较用作为第二标准。并且使用了基于不同的话音脉冲和噪音脉冲的持续时间、基于与阈值集合比较的第三标准。

所申请的用于检测语音段的方法以三个阶段进行。在第一阶段中，将能量没有超过某个能量阈值的信号帧丢弃，该信号帧的值根据现有噪音水平实时自动更新。在第二阶段，对没有被丢弃的语音帧采用结合了所阐述的三个标准的判定方法，以便将所述帧分类为语音或噪音。最终，在第三阶段中，根据持续时间标准来使所获得的噪音段和语音段生效，将持续时间没有超过某个阈值的段消除。

与用其他方法获得的噪音段和语音段相比，结合三个标准并且以所提出的三个阶段来执行方法允许以更高的精度来获得噪音段和语音段，尤其是在不利的噪音的情况下。这种段检测是实时进行的，因此能够应用在自动交互式语音识别系统中。

本发明的目的是一种用于检测数字音频输入信号中的噪音段和语音段的方法，所述输入信号被分为多个帧，所述方法包括：

-第一阶段，其中，如果帧与之前N个帧的平均能量值不大于第一能量阈值，则进行将该帧分类成噪音的第一分类，N为大于1的整数；

-第二阶段，其中，针对在第一阶段中没有被分类成噪音的每个帧，基于结合至少第一标准、第二标准和第三标准来判定将所述帧分类为噪音还是分类为语音，第一标准是关于帧与声学的噪音模型和语音模型的频谱相似性，第二标准是关于相对于第二能量阈值对帧的能量的分析，而第三标准是关于持续时间，包括：使用状态机，用于根据对声学相似性大于第一声学阈值的确定数目的连续帧的累加来检测段的开始，以及用于根据声学相似性小于所述第一声学阈值的另一确定数目的连续帧的累加来检测所述段的结束；

-第三阶段，其中，使用关于持续时间的标准来审查在第二阶段中进行的将信号帧分类成语音或分类成噪音的分类，将持续时间小于第一最小段持续时间阈值的语音段、以及不包括确定数目的同时超过所述声学阈值和所述第二能量阈值的连续帧的语音段分类成噪音。

换句话说，本发明的方法以三个阶段进行：基于能量阈值的第一阶段、多标准判定的第二阶段以及持续时间检查的第三阶段。

第二阶段的判定基于：

-一方面，同时对三个标准的使用：频谱相似性、能量值和持续时间（在段的结束处与噪音模型在频谱方面相似的连续帧的最小数目对于认为该段结束是必要的）。

-另一方面，使用不同的状态，这为检测段的开始（有必要对具有大于阈值的声学相似性的几个帧进行累加）并且为检测段的结束（滞后）二者引入了一定的滞后。

这通过消除假的段开始和假的段结束来进行更好的操作。

在第三阶段中优选地使用两个持续时间阈值：

-第一最小段持续时间阈值。

-满足关于声学相似性的标准和最小能量的标准二者的连续帧的第二持续时间阈值。

在脉冲噪音以及用户咕哝的情况下，这种双阈值的使用进行了改进。

本发明可以用作语音识别系统的一部分。本发明还可以用作扬声器识别或验证系统的一部分、或者用作声学语言检测系统的一部分或者多媒体内容声学索引系统的一部分。

在第二阶段以及在第三阶段二者中使用持续时间的标准意味着该方法将对非固定噪音以及用户的咕哝进行正确的分类，这是至今已知的方法所不能实现的：基于能量阈值的标准不能区别具有高能量值的非固定噪音，而基于比较声学特性（无论声学特性是时域的还是频谱阈的）的标准不能区别用户的咽喉声音和咕哝，咽喉声音和咕哝给出了与语音段的声学相似性。然而，将频谱相似性和能量结合允许将大量这种类型的噪音与语音段区别。并且使用持续时间的标准允许防止将具有这种类型的噪音的信号段错误地分类为语音段。

另一方面，将三个标准结合在所描述的本发明的各个阶段中的方式使正确地分类噪音段和语音段的能力最优化。具体地，对第一能量阈值的应用防止在声学比较中对具有低能量内容的段进行考虑。由此防止了不可预测结果，该不可预测结果在以下基于声学比较的检测方法中是典型的：没有过滤掉这种类型的段的检测方法以及将混合的特征向量与频谱特性和能量特性比较的检测方法。对第二能量阈值的使用防止在第一阶段中将具有低能量水平的语音段消除，这是因为对第二能量阈值的使用允许使用仅消除那些具有非常低的能量水平的噪音段的第一相当非限制性的能量阈值，将对具有更高功率的噪音段的消除留给第二阶段，在该第二阶段中更加限制性的第二能量阈值进行干预。在第二阶段中将声学阈值和能量阈值结合使用允许将噪音段与语音段区别：一方面，对超过声学阈值和能量阈值的需求防止了将以下段分类为语音：具有高能量噪音但是具有与语音不同的频谱特性（非固定噪音，如喘气（blow）或爆裂声（cracking））的段，以及在声学上与语音相似但是具有低能量的噪音段（咕哝（mumbling）声音以及咽喉（guttural）声音）；另一方面，使用两个独立的比较而不是混合的特征（声学和能量）向量允许调整检测的方法。在该第二阶段对持续时间的标准（需要在语音段开始处超过累加的声学分值阈值并且需要将所述段的结束处的最小数目的噪音信号帧链接在一起）的使用允许将具有短持续时间的非固定噪音的信号段检测为噪音，并且允许将与以下声音对应的段分类为语音：所述声音尽管是语音，但是具有较低的音调，类似于与闭塞辅音和摩擦辅音（k、t、s……）对应的音素的情况。最后，对第三阶段的使用允许进行最终的过滤，消除已经被分类为语音但是没有达到最小持续时间的噪音段，通过相对于在其他方法中使用的所有过程不同的过程来纠正本方法的头两个阶段中的错误。

对具有高能量噪音的信号帧以及具有咕哝的信号帧的正确分类使得可以在不同环境（在办公室、在家中、汽车内部等）中并且在具有不同的使用通道（麦克风或电话）的情况下，将本方法用在识别系统中。本方法还可以应用于不同类型的话音应用：话音信息服务、话音装备控制等。

附图说明

为了对正在进行的描述进行补充并且为了帮助更好地理解本发明的特征，以下简要地描述本发明的实施方式作为本发明的示例性并且非限制性的示例。

图1示出了用于检测语音段的方法的框图。

图2示出了噪音和语音帧分类处理的状态图。

图3示出了用于检查同时符合声学阈值和能量阈值的帧的方法。

图4示出了使持续时间阈值生效的流程图。

具体实施方式

根据本发明的优选实施方式，用于检测噪音段和语音段的方法以三个阶段进行。

作为在该方法之前的步骤，将输入信号划分为具有非常短的持续时间（在5毫秒至50毫秒之间）的帧，相继对这些帧进行处理。

如图1所示，在第一阶段10中，为每个帧1计算能量。计算该帧与之前N个帧的能量值的平均值（框11：计算之前N个帧的平均能量），其中，N是整数，N的值根据环境而变化；在噪音极小的环境中，典型地N=10，而对于有噪音的环境，N>10。然后，将该平均值与第一能量阈值Threshold_energ1比较（框12：使平均能量阈值生效），第一能量阈值的值在第二阶段中根据噪音水平进行修改，而第一能量阈值的初始值是可配置的；典型地，对于10ms的帧，Threshold_energ1=15，该值可以根据应用而调整。如果之前的帧的平均能量值不超过所述第一能量阈值Threshold_energ1，则该帧被确定地分类为噪音，并且对该帧的处理结束，开始对下一个信号帧的处理。如果相反地该平均值超过所述第一能量阈值，则继续对该帧进行处理，转到本方法的第二阶段20。

在第二阶段20中进行两个处理：

-将正被处理的帧与声学的语音模型和噪音模型进行统计比较（框21：与声学模型进行统计比较（Viterbi算法）），以及

-帧分类处理（框22：帧分类）用于将帧分为语音或噪音（参见图2）。

为了进行统计比较，首先获得特征向量，该特征向量包括根据信号获得的频谱参数集合。具体地，选择在ETSI ES 202 050标准中提出的形成特征向量的参数的子集。

以下描述如何选择参数的子集。

-首先根据通过与将要被分析的信号不同的声学的语音信号和噪音信号集合所获得的参数的值，对语音帧和噪音帧的各个参数的值的概率密度函数进行估计。

-通过使用估计的概率密度函数来计算各个参数的分类错误概率。

-创建参数列表，从该错误概率的较低值至较高值排序。

-选择由列表中的前N个参数形成的子集，N的值介于0至39之间。典型地N=5，但是N的值可以根据应用而变化。

统计比较需要声学的语音模型和噪音模型的存在。具体地，隐马尔可夫模型（HMM）用于对以下两个声学单元进行统计建模：一个声学单元表示语音帧，而另一个声学单元表示噪音帧。这些模型在使用本发明的用于检测噪音段和语音段的方法之前获得。为此，出于该目的使用含有被如此标记的噪音段和语音段的记录来对这些声学单元进行预先训练。

使用Viterbi算法来进行比较。由此，根据在正被处理的帧中获得的特征向量、根据统计的语音模型和噪音模型并且根据预先处理的帧的比较数据，来确定当前帧是语音帧的概率以及当前帧是噪音帧的概率。还计算了通过将帧是语音帧的概率除以帧是噪音帧的概率来计算的声学分值参数。

帧分类处理（框22）借助于判定处理（参见图2）来进行，该判定处理考虑在统计比较处理21中获得的声学分值参数以及其他的标准，包括将之前的帧分类成语音或噪音的判定。

该图2示出了状态图，其中当发生转变时（例如如果声学分值小于“threshold_ac_1”），状态就转到箭头所指示之处，并且进行被包括在所述状态中的处理。为此，一旦进行了转变，则出现下一个状态中的处理。

如图2所示，判定处理的步骤如下：

*初始状态210：声学分值累加器，即Acoustic sc.Accumulator被设置为零（2101）。将临时被分类为语音或被分类为噪音的可能的之前帧分类为噪音（2102）。

然后将在统计比较中获得的声学分值参数与第一声学阈值Threshold_ac_1比较。

A）如果声学分值参数没有超过所述第一声学阈值Threshold_ac_1，则进行以下动作：

i）将当前帧确定地分类为噪音（2102）。

ii）更新在第一阶段中使用的第一能量阈值Threshold_energ1（2103），获得其当前值与当前帧的能量值之间（以记忆因子加权）的平均值。记忆因子是在0与1之间的值；记忆因子的值典型地为0.9，记忆因子的值取决于应用是可调整的。

iii）然后对来自本方法的第一阶段10的下一个信号帧进行处理。

B）在统计比较中获得的声学分值参数超过所述第一声学阈值Threshold_ac_1的情况下，进行以下动作：

i）将当前帧临时分类为语音（2201）。

ii）通过在统计比较中获得的声学分值参数的值来更新声学分值累加器的值（2202）。

iii）检查（2203）信号的能量是否超过了根据（在本方法的第一阶段10中使用的）第一能量阈值Threshold_energ1的当前值所计算出的第二能量阈值Threshold_energ2（参见图3），第二能量阈值的值是通过将所述第一能量阈值Threshold_energ1乘以因子然后向其加上附加的偏移量来获得的。该因子具有在0至1之间的可配置的值，而也具有可配置的值的偏移量可以取正值和负值二者，该偏移量的绝对值介于0倍至10倍的第一能量阈值Threshold_energ1之间。如果信号的能量超过了所述第二能量阈值Threshold_energ2，则针对超过（统计比较的）第一能量阈值Threshold_energ1和该第二能量阈值Threshold_energ2二者的帧的第一连续帧计数器以值1开始。

iv）转到下一个状态：语音段开始检查状态220。

v）然后对来自本方法的第一阶段10的下一个信号帧进行处理。

*语音段开始检查状态220：将在统计比较中获得的声学分值参数与第一声学阈值Threshold_ac_1比较。

i）将当前帧和被临时分类为语音的所有之前帧分类为噪音（2102）。

ii）将声学分值累加器（2101）以及针对超过第二能量阈值Threshold_energ_2和第一能量阈值Threshold_energ_1二者的帧的第一连续帧计数器设置为零。

iii）动作返回（2204）至初始状态210。

iv）然后对来自本方法的第一阶段10的下一个信号帧进行处理。

i）将当前帧临时分类为语音（2301或2201）。

ii）检查（2303或2203）信号的能量是否超过了第二能量阈值Threshold_energ2（参见图3）。

·如果信号的能量超过了第二能量阈值Threshold_energ2，则使针对超过统计比较的第一声学阈值Threshold_ac_1和第二能量阈值Threshold_energ2二者的帧的第一连续帧计数器增加（图3中的2203A）。

·如果信号的能量没有超过第二能量阈值Threshold_energ2，则将所述第一连续帧计数器设置为零（图3中的2203B）。

iii）通过向声学分值累加器的值添加在统计比较中获得的声学分值参数的值来使声学分值累加器的值增加（2202）。

iv）检查声学分值累加器的值是否超过了第二累加的声学分值阈值Threshold_ac_2。

·如果声学分值累加器的值没有超过所述第二声学阈值Threshold_ac_2，则然后对来自本方法的第一阶段10的下一个信号帧进行处理。

·如果声学分值累加器的值超过了所述第二声学阈值Threshold_ac_2，则：

1）转到找到语音段状态230。

2）然后对来自本方法的第一阶段10的下一个信号帧进行处理。

*找到语音段状态230：将在统计比较中获得的声学分值参数与第一声学阈值Threshold_ac_1比较。

A）如果声学分值参数超过了所述第一声学阈值Threshold_ac_1，则进行以下动作：

i）将当前帧临时分类为语音（2301）。

ii）检查（2303）信号的能量是否超过了第二能量阈值Threshold_energ2（参见图3）。

B）在统计比较中获得的声学分值参数没有超过第一声学阈值Threshold_ac_1的情况下，进行以下动作：

i）将当前帧临时分类为噪音（2401）。

ii）转到语音段结束检查状态240。

iii）针对没有超过修改后的声学阈值的帧的第二连续帧数目计数器（最初声学分值参数必须在threshold_ac_1以下以启动计数器；在所修改（除以滞后因子）的阈值没有被超过的情况下随后进行计数器增加）以值1开始（2302）。

*语音段结束检查状态240：将在统计比较中获得的声学分值参数与从将第一声学阈值Threshold_ac_1除以滞后因子Hysteresis所得到的修改后的阈值比较。

A）如果声学分值参数超过了所述修改后的阈值Threshold_ac_1/Hysteresis，则进行以下动作：

i）将当前帧临时分类为语音。将临时分类为噪音的之前帧也临时分类为语音（2301）。

ii）检查（2203或2303）信号的能量是否超过了第二能量阈值Threshold_energ_2。

·如果信号的能量超过了第二能量阈值Threshold_energ_2，则使针对超过统计比较的修改后的阈值Threshold_ac_1／Hysteresis和第二能量阈值Threshold_energ2二者的帧的第一连续帧计数器增加（图3中的2203A）。

·如果信号的能量没有超过第二能量阈值Threshold_energ_2，则将所述第一连续帧计数器设置为零（图3中的2203B）。

iii）转到找到语音段状态230。

vi）然后对来自本方法的第一阶段10的下一个信号帧进行处理。

B）在统计比较中获得的声学分值参数没有超过修改后的阈值Threshold_ac_1／Hysteresis的情况下，进行以下动作：

i）将当前帧临时分类为噪音（2401）。

ii）使针对没有超过修改后的声学阈值的帧的第二连续帧数目计数器增加（2402）。

iii）检查针对没有超过修改后的声学阈值Threshold_ac_1/Hysteresis的帧的所述第二连续帧数目计数器是否大于话音脉冲搜索持续时间结束阈值Threshold_dur_end。如果所述第二连续帧数目计数器大于话音脉冲搜索持续时间结束阈值Threshold_dur_end，则转到本检测方法的第三阶段30。

否则，然后对来自本方法的第一阶段10的下一个信号帧进行处理。

在本发明的方法的第三阶段30中，使用持续时间标准来审查在第二阶段中进行的对信号帧的语音/噪音分类，以便由此最终检测语音段2。进行以下检查（参见图4）：

-如果在第二阶段20期间针对超过第一声学阈值Threshold_ac_1和第二能量阈值Threshold_energ_2二者的帧的第一连续帧计数器所达到的最大值小于（300A）第一持续时间阈值Threshold_dur1，则认为所检测的语音段为假（310）并且将所检测的语音段丢弃。因此，将符合该标准的被临时分类为语音和被临时分类为噪音的所有信号帧都确定地分类为噪音。

-如果在第二阶段20期间所述第一计数器达到的最大值大于等于（300B）所述第一持续时间阈值Threshold_dur_1，则检查（301）被临时分类为语音的所有帧的总数目是否超过了第二持续时间阈值Threshold_dur2。

·在所述总数目没有超过第二持续时间阈值Threshold_dur2的情况下（301A），认为所检测到的语音段为假（320），从而因此将符合该标准的被临时分类为语音和被临时分类为噪音的所有信号帧都确定地分类为噪音。

·如果该第二持续时间阈值Threshold_dur2被超过（301B），则将被临时分类为语音的帧确定地分类为语音（330），而将被临时分类为噪音的帧确定地分类为噪音。

在第三阶段中还进行了以下动作：

-更新在本方法的第一阶段10中使用的第一能量阈值Threshold_energ1，获得其当前值与当前帧的能量值之间（以记忆因子加权）的平均值。

-然后对来自本方法的第一阶段10的下一个信号帧进行处理。在所述帧转到本方法的第二阶段20的情况下，判定处理将从初始状态210开始。

已经根据本发明的优选实施方式描述了本发明，但是对本领域技术人员明显的是，在不超出要求保护的本发明的目标的情况下，可以将许多变化引入到所述优选的实施方式中。

Claims

1.一种用于检测数字音频输入信号中的噪音段和语音段（2）的方法，所述输入信号被分为多个帧（1），所述方法包括：

-第一阶段（10），其中，如果帧与之前N个帧的平均能量值不大于第一能量阈值（threshold_energ1），则进行将所述帧分类成噪音的第一分类，N为大于1的整数；

-第二阶段（20），其中，针对在所述第一阶段中没有被分类成噪音的每个帧，基于结合至少第一标准、第二标准和第三标准来判定将所述帧分类为噪音还是分类为语音，所述第一标准是关于帧与声学的噪音模型和语音模型的频谱相似性，所述第二标准是关于相对于第二能量阈值（threshold_energ2）对所述帧的能量的分析，而所述第三标准是关于持续时间，包括：使用状态机，用于根据对声学相似性大于第一声学阈值（threshold_ac1）的确定数目的连续帧的累加来检测段的开始，以及用于根据声学相似性小于所述第一声学阈值的另一确定数目的连续帧的累加来检测所述段的结束；

-第三阶段（30），其中，使用持续时间的标准来审查在所述第二阶段中进行的将所述信号帧分类成语音或分类成噪音的所述分类，将持续时间小于第一最小段持续时间阈值的语音段、以及不包括确定数目的同时超过所述声学阈值和所述第二能量阈值的连续帧的语音段分类成噪音。

2.根据权利要求1所述的方法，其中，在所述第三阶段中使用了两个持续时间阈值：

-第一最小段持续时间阈值（threshold_dur1），或者被分类成语音或被分类成噪音的连续帧的最小数目；

-在所述第二阶段中符合所述频谱相似性的标准和帧能量的分析的标准二者的连续帧的第二持续时间阈值（threshold_dur2）。

3.根据权利要求1至2中任一项所述的方法，其中，在所述第二阶段中使用的所述的频谱相似性的标准包括：将所述帧的频谱特性与之前建立的所述声学的噪音模型和语音模型的频谱特性进行比较分析。

4.根据权利要求3所述的方法，其中，使用Viterbi算法进行所述的对频谱特性的比较分析。

5.根据权利要求1至4中任一项所述的方法，其中，之前建立的所述声学的噪音模型和语音模型是通过借助于隐马尔可夫模型分别对两个声学的噪音单元和语音单元进行统计建模而获得的。

6.根据前述权利要求中任一项所述的方法，其中，所述状态机包括至少初始状态（210）、其中检查到语音段已经开始的状态（220）、其中检查到语音段持续的状态（230）以及其中检查到语音段已经结束的状态（240）。

7.根据前述权利要求中任一项所述的方法，其中，在所述第二阶段中，针对在所述第一阶段中没有被分类成噪音的每个帧：

-通过以下方式来计算帧是噪音帧的概率：将所述帧的频谱特性与被分类为噪音但不属于正被分析的信号的一组帧的相同的频谱特性进行比较；

-通过以下方式来计算帧是语音帧的概率：将所述帧的频谱特性与被分类为语音但不属于正被分析的信号的一组帧的相同的频谱特性进行比较；

-根据至少帧是语音帧的概率与帧是噪音帧的概率之间的比，以及所述状态机的当前状态，来计算所述状态机的下一状态。

8.在权利要求7引用权利要求6的情况下根据权利要求7所述的方法，其中，针对其中检查到语音段已经开始的状态（220）与其中检查到语音段持续出现的状态（230）之间的转变，需要如下的至少两个连续的帧：其中帧是语音帧的概率与帧是噪音帧的概率之间的比大于第一声学阈值。

9.在权利要求7从属于权利要求6的情况下根据权利要求7所述的方法或者根据权利要求8所述的方法，其中，为了使检查到语音段已经结束的状态（240）与所述初始状态（210）之间的转变发生，需要如下的至少两个连续的帧：其中帧是语音帧的概率与帧是噪音帧的概率之间的比小于第一声学阈值除以某一因子。

10.根据权利要求1至9中任一项所述的方法，其中，在所述第一阶段中使用的所述第一能量阈值以如下方式被动态地更新：对所述第一能量阈值的当前值以及在所述第二阶段和所述第三阶段中被分类为噪音的帧的能量值加权。

11.根据权利要求1至2所述的方法，其中，对帧的能量进行分析（2203，2303）的标准包括：超过通过将所述第一能量阈值乘以某一因子然后向其加上偏移量而计算的第二能量阈值。