CN1783211A

CN1783211A - 语音区别方法

Info

Publication number: CN1783211A
Application number: CNA200510128718XA
Authority: CN
Inventors: 金灿佑
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-11-25
Filing date: 2005-11-25
Publication date: 2006-06-07
Anticipated expiration: 2025-11-25
Also published as: JP2006154819A; KR20060058747A; US7761294B2; EP1662481A3; EP1662481A2; KR100631608B1; CN100585697C; US20060111900A1

Abstract

一种语音区别方法，它包括把输入话音信号划分多个帧；从划分的帧中获得参数；使用获得的参数，为每个帧建立状态j的特征矢量的概率密度函数模型；从所建的PDF模型和获得的参数获得相应帧将是噪声帧的概率P₀以及相应帧将是语音帧的概率P₁。进一步，使用获得的概率P₀和P₁，执行假设检验，以确定相应的帧是噪声帧还是语音帧。

Description

语音区别方法

技术领域

本发明涉及语音检测方法，并且更为具体地，涉及有效地确定包括语音和噪声数据的输入话音信号中的语音和非语音(例如，噪声)部分的语音区别方法。

背景技术

先前的研究指出，两个人之间的一般电话交谈大约包括40％的语音和60％的静音。而且，噪声数据可以比用舒适的噪声生成(CNG)技术的语音数据更低的比特率编码。以不同的编码率对输入话音信号(包括噪声和语音数据)进行编码称为可变速率编码。此外，可变速率语音编码通常用于无线电话通信中。为了有效地完成可变速率的语音编码，用话音活动检波器(VAD)来确定语音部分和噪声部分。

在国际电信联盟(ITU-T)的电信标准部分提出的G.729标准中，可以获得如线谱密度(LSF)、全频带能量(E_f)、低频带能量(E₁)、零点交叉速率(ZC)等的输入信号的参数。也可以获得该信号的频谱失真(ΔS)。然后，获得的值与先前由实验结果确定的特定常量进行比较，以确定输入的信号的特定部分是语音部分还是噪声部分。

此外，在GSM(全球移动通信系统)网络中，当输入话音信号(包括噪声和语音)时，估计噪声的频谱，使用估计的频谱构造噪声抑制滤波器，且该输入的话音信号穿越噪声抑制滤波器。然后，计算该信号的能量，并把计算出的能量与预设的阈值进行比较，以确定特定部分是语音部分还是噪声部分。

上述方法要求多个不同的参数，并基于先前确定的经验数据，即，过去的数据确定输入信号的该特殊部分是语音部分还是噪声部分。然而，语音的特性对每个特定的人来说是非常不同的。例如，不同年龄的人的语音的特性，无论是男性还是女性等等，会改变语音的特性。因此，因为VAD使用先前确定的经验数据，故VAD不提供最佳的语音分析性能。

改善经验主义方法的另一种语音分析方法使用概率理论来确定输入信号的特定部分是否为语音部分。然而，这种方法也是有缺点的，因为它不考虑基于任一特定谈话而具有各种频谱的噪声的不同特性。

发明内容

因此，本发明的一个目标是解决上述以及其他问题。

本发明的另一个目标是提供有效确定包括语音和噪声数据的输入话音信号中的语音和噪声部分的语音区别方法。

为了达到根据本发明的目的的这些以及其他优点，作为这里体现并广泛描述的，提供了一种语音区别方法。根据本发明的一个方面的语音检测方法包括把输入话音信号分为多个帧、从分开的帧中获得参数、使用获得的参数为每个帧在状态j下的特征矢量建立一概率密度函数模型、从所建的PDF模型和获得的参数中获得相应的帧为噪声帧的概率P₀和相应的帧为语音帧的概率P₁。而且，使用获得的概率P₀和P₁完成假设检验以确定相应的帧是噪声帧还是语音帧。

根据本发明的另一个方面，提供了一种用于执行计算机指令的计算机程序产品，该计算机指令包括配置成把输入话音信号分成多个帧的第一计算机代码、配置成获得为这些分开的帧的参数的第二计算机代码、配置成使用获得的参数为每个在状态j的特征矢量建立概率密度函数模型的第三计算机代码、以及配置成从所建的PDF模型和获得的参数中获得相应的帧为噪声帧的概率P₀和相应的帧为语音帧的概率P₁的第四计算机代码。该计算机指令也包括配置成使用获得的概率P₀和P₁执行假设检验以确定相应的帧是噪声帧还是语音帧的第五计算机代码。

从此后给出的详细描述中，本发明的适用性的又一个范围将变得明显。然而，应该理解，详细描述和特定的例子尽管指出了本发明优选的实施例，但仅是为了说明，因为从这种详细描述中的各种变化和修改都在本发明的精神和范围之内，这对本发明的技术人员来说是显而易见的。

附图说明

从下面给出的详细描述及相应的附图中，本发明将变得更能全面理解。详细描述和相应的附图仅是为了说明，因此并非是本发明的限制，并且其中：

图1是显示根据本发明的一个实施例的语音区别方法的流程图；以及

图2A和图2B是显示完成的试验结果以分别确定许多状态和混和物的图表。

具体实施方式

现在，将对本发明优选的实施例做详细描述，附图示出其例子。

根据本发明的一方面的语音区别方法的算法使用下面两个假设：

H₀：为只包括噪声数据的噪声部分。

H₁：为包括语音和噪声的语音部分。

为了检验以上假设，执行自反(reflexive)算法，将参考图1显示的流程图讨论该算法。

参考图1，输入话音信号被分为多个帧(S10)。在一个例子中，输入话音信号被分为10毫秒间隔的帧。进一步，当整个话音信号被分为10毫米间隔的帧时，每个帧的值被称为概率过程内的“状态”。

在输入信号被划分为多个帧后，从划分的帧(S20)中获得一组参数。这些参数包括，例如，从相应的帧中获得的语音特征矢量 0；在状态j的第k个混合物的特征的均值矢量m_jk；在状态j的第k个混合物的权值矢量c_jk；在状态j的第k个混合物的协方差矩阵C_jk；一帧将对应于静音帧或噪声帧的先验概率P(H₀)；一帧将对应于语音帧的的先验概率P(H₁)；假设该帧包括静音，当前状态将为静音帧或噪声帧的第j个状态的当前状态的先验概率P(H₀，_j|H₁)；以及假设该语音帧包括语音，当前状态将为语音帧的第j个状态的先验概率P(H₁，_j|H₁)。

可通过训练过程获得上述参数，其中记录实际话音和噪声并将其存储在语音数据库内。由相应的应用、参数文件的大小以及试验获得的许多状态和性能要求间的关系确定要被分配给语音和噪声的状态数量。类似地确定混合物的数量。

例如，图2A和图2B是示出用于确定状态和混合物数量的试验结果的图表。具体地，图2A和图2B是分别显示根据状态和混合物的数量的语音区别速率的图表。如图2A所示，当状态数量过小或过大时，语音区别率降低。类似地，如图2B所示，当混合物的数量过小或过大时，语音区别率降低。因此，使用试验过程来确定状态和混和物的数量。此外，可以使用各种参数估计技术来确定上述参数，如期望最大值算法(E-M算法)。

进一步，参考图1，在步骤(S20)提取参数后，由使用提取的参数的高斯混合物建立状态j的特征矢量的概率密度函数(PDF)模型(S30)。也可以使用log凹函数或椭圆对称函数来计算PDF。

L.R.Rabiner和B-H.HWANG所写的“Fundamentals of Speech Recoginition”(Englewood Cliffs，新泽西.Prentice Hall，1993)，以及由S.E.Levinson、L.R.Rabiner和M.M.Sondhi所写的“An introduction to the application of thetheory of probabilistic functions of a Markov process to automatic speechrecognition(贝尔系统技术.J，1983年4月)”中描述了使用高斯混合物的PDF方法，两者因此整体结合与此。因为该方法众所周知，故省略了详细描述。

此外，使用高斯混合物在状态j的特征矢量的PDF由下列等式表示：

b_{j} (\underline{o}) = Σ_{k = 1}^{N_{mix}} c_{jk} N (\underline{o}, {\underline{m}}_{jk}, C_{jk})

这里，N表示采样矢量的总数。

接着，使用计算出的PDF和其他参数获得概率P₀和P₁。具体地，从提取的参数中获得对应帧为静音帧或噪声帧的概率P₀(S40)，以及从提取的参数中获得对应帧为语音帧的概率P₁(S60)。进一步，计算概率P₀和P₁，因为并不知道该帧是语音帧还是噪声帧。

进一步，可使用下列等式计算概率P₀和P₁：

P_{0} = \max_{j} (b_{j} (\underline{o}) \cdot P (H_{0, j} {| H}_{0})) = \max_{j} (Σ_{k = 1}^{N_{mix}} c_{jk} N (\underline{o}, {\underline{m}}_{jk}, C_{jk}) \cdot P (H_{0, j} | H_{0}))

P_{1} = \max_{j} (b_{j} (\underline{o}) \cdot P (H_{1, j} | H_{1})) = \max_{j} (Σ_{k = 1}^{N_{miz}} c_{jk} N (\underline{o}, {\underline{m}}_{jk}, C_{jk}) \cdot P (H_{1, j} | H_{1}))

同样地，如图1所示，在计算概率P₁之前，在分开的帧上执行噪声频谱相减过程(S50)。相减技术使用先前获得的噪声频谱。

此外，在计算概率P₀和P₁后，执行假设检验(S70)。使用计算出的概率P₀和P₁及来自估计统计值标准的特定准则，用该假设检验来确定相应的帧是噪声帧还是语音帧。例如，该准则可能为由以下等式定义的MAP(最大后验)准则：

这里，

η = \frac{P (H_{1})}{P (H_{0})} .

也可以使用其他准则，如最大似然性(ML)极小极大准则、Neman-Pearson检验、CFAR(恒定虚警率)(Constant False Alarm Rate)检验等等。

然后，在假设检验后，应用延迟释放模式(Hang Over Scheme)(S80)。使用延迟释放模式来阻止低能量的声音，如“f”、“th”、“h”等等因其他高能量的声音被错误地确定为噪声，以及阻止中止声音，如“k”、“p”、“t”等等(开始为高能量后来为低能量的声音)在用低能量发音时被确定为静音。进一步，如果帧被确定为噪声帧，且该帧在被确定为语音帧的多个帧之间，则延迟释放模式任意决定该静音帧为语音帧，因为当考虑很小的10毫秒间隔的帧时，语音不会突然变为静音。

此外，如果应用延迟释放模式后，相应的帧被确定为噪声帧，则为确定的噪声帧计算噪声频谱。因此，根据本发明的一个实施例，可使用计算出的噪声频谱来升级步骤S50执行的噪声频谱相减过程(S90)。进一步，可有选择地执行分别在S80和S50的延迟释放模式和噪声频谱相减过程。即，这一个或两个步骤可省略。

正如迄今为止所述，在根据本发明的实施例的语音区别方法中，分别将语音和噪声(静音)部分作为状态处理，从而适合具有各种频谱的语音或噪声。同样，在数据库内集合的噪声数据上使用训练过程，以提供对不同类型噪声的有效响应。此外，在本发明中，因为由如E-M算法的方法可获得随机优化参数，故确定帧为语音帧还是噪声帧的过程得到改善。

进一步，也可通过在话音记录中只记录语音部分而不记录噪声部分，使用本发明来节省存储空间，或者本发明也可被用作有线或无线电话中为可变速率编码器的算法的一部分。

根据本发明的教义，使用传统的通用数字计算机或编程的微处理器可方便地实现本发明，这对本领域的技术人员而言是明显的。熟练的程序员根据本发明的教义，可轻易地进行适当的软件编码，这对本领域的技术人员而言是明显的。本发明也可准备用由此互联传统计算机电路的适当网络的应用专用集成电路来实现，这对本领域的技术人员而言是明显的。

在通用数字计算机或微处理器上实现的本发明的任何部分包括计算机程序产品，该产品是包括能被用于对计算机编程以执行本发明的过程的指令的存储介质。该存储介质包括但不限于，包括软盘、光盘、CD-ROM、以及磁性光盘、ROM、EEPROM、磁卡或光卡的任何类型的磁盘，或者适于存储电子指令的任何类型的介质。

本发明可以许多形式实现，而不会脱离其精神或基本特性，也应该理解，除非另外指明，上述实施例不作为前面详细描述的限制，但应宽泛地被认为处在附加的权利要求的精神和范围内，并且因此所有的变化和修改都落入权利要求的界限和范围内，或者因此附加的权利要求也意图包含这种界限和范围的等价物。

Claims

1.一种语音区别方法，该方法包含：

把输入话音信号划分为多个帧；

从划分的帧中获得参数；

使用获得的参数，为每个帧在状态j的特征矢量建立概率密度函数模型；

从所建的PDF模型和获得的参数中获得相应帧是噪声帧的概率P₀以及相应帧是语音帧的概率P₁；以及

使用获得的概率P₀和P₁，执行假设检验，以确定相应的帧为噪声帧还是语音帧。

2.如权利要求1所述的方法，其特征在于，所述参数包含：

从帧中获得的语音特征矢量 0；

在状态j下第k个混合物的特征的均值矢量m_jk；

在状态j下第k个混合物的权值矢量c_jk；

在状态j下第k个混合物的协方差矩阵C_jk；

一帧将是静音帧或噪声帧的的先验概率P(H₀)；

一帧将是语音帧的先验概率P(H₁)；

假设该帧是噪声帧，当前状态将是噪声帧的第j个状态的先验概率P(H_0，j|H₀)；以及

假设该帧是语音帧，当前状态将为语音帧的第j个状态的先验概率P(H_1，j|H₁)。

3.如权利要求2所述的方法，其特征在于，基于要求的性能、参数文件的大小以及实验获得的在状态和混合物的数量与所要求性能间的关系确定状态和混合物的数量。

4.如权利要求1所述的方法，其特征在于，使用包含收集并记录的实际语音和噪声的数据库来获得所述参数。

5.如权利要求1所述的方法，其特征在于，使用高斯混合物、log凹函数或椭圆对称函数来建立所述概率密度函数的模型。

6.如权利要求5所述的方法，其特征在于，使用所述高斯混合物的所述概率密度函数用下列等式表示：

b_{j} (\underset{&OverBar;}{o}) = Σ_{k = 1}^{N_{mix}} c_{jk} N (\underset{&OverBar;}{o}, {\underset{&OverBar;}{m}}_{jk}, C_{jk}) .

7.如权利要求1所述的方法，其特征在于，由下列等式获得所述帧将是噪声帧的概率P₀：

P_{0} = \max_{j} (b_{j} (\underset{&OverBar;}{o}) \cdot P (H_{0, j} | H_{0})) = \max_{j} (Σ_{k = 1}^{N_{mix}} c_{jk} N (\underset{&OverBar;}{o}, {\underset{&OverBar;}{m}}_{jk}, C_{jk}) \cdot P (H_{0, j} | H_{0})) .

8.如权利要求1所述的方法，其特征在于，由下列等式获得所述帧将是语音帧的概率P₁：

P_{1} = \max_{j} (b_{j} (\underset{&OverBar;}{o}) \cdot P (H_{1, j} | H_{1})) = \max_{j} (Σ_{k = 1}^{N_{mix}} c_{jk} N (\underset{&OverBar;}{o}, {\underset{&OverBar;}{m}}_{jk}, C_{jk}) \cdot P (H_{1, j} | H_{1})) .

9.如权利要求1所述的方法，其特征在于，使用概率P₀和P₁以及选择的准则，所述假设检验确定相应的帧是语音帧还是噪声帧。

10.如权利要求9所述的方法，其特征在于，所述准则是MAP(最大后验)准则、最大似然性(ML)极小极大准则、Neman-Pearson检验、恒定虚警率检验中之一种。

11.如权利要求10所述的方法，其特征在于，所述MAP准则由下列等式定义：

\begin{matrix} H_{0} \\ \frac{P_{0}}{P_{1}} \begin{matrix} > \\ < \end{matrix} η \\ H_{1}, & η = \frac{P (H_{1})}{P (H_{0})} . \end{matrix}

12.如权利要求1所述的方法，其特征在于，所述方法进一步包含：

使用在获得概率P₁前先前获得的噪声频谱结果，有选择地在相应的帧上执行噪声频谱相减过程。

13.如权利要求1所述的方法，其特征在于，所述方法进一步包含：

在执行假设检验后有选择地应用延迟释放模式。

14.如权利要求12所述的方法，其特征在于，

当相应的帧被确定为噪声帧时，用确定的噪声帧的当前噪声频谱来更新噪声频谱相减过程。

15.一种用于执行计算机指令的计算机程序产品，所述计算机指令包括：

配置成把输入话音信号划分成多个帧的第一计算机代码；

配置成为这些划分的帧获得参数的第二计算机代码；

配置成使用获得的参数为每个帧在状态j下建立特征矢量的概率密度函数模型的第三计算机代码；

配置成从所建的PDF模型和获得的参数获得相应的帧是噪声帧的概率P₀和相应的帧是语音帧的概率P₁的第四计算机代码；以及

配置成使用获得的概率P₀和P₁执行假设检验以确定相应的帧是噪声帧还是语音帧的第五计算机代码。

16.如权利要求15所述的计算机程序产品，其特征在于，所述参数包含：

从帧中获得的语音特征矢量 0；

在状态j下第k个混合物的特征的均值矢量m_jk；

在状态j下第k个混合物的权值矢量c_jk；

在状态j下第k个混合物的协方差矩阵C_jk；

一帧将是静音帧或噪声帧的的先验概率P(H₀)；

一帧将是语音帧的先验概率P(H₁)；

假设该帧是语音真，当前状态将是语音帧的第j个状态的先验概率P(H_1，j|H₁)。

17.如权利要求15所述的计算机程序产品，其特征在于，使用所述高斯混合物建立所述概率密度函数模型用下列等式表示：

b_{j} (\underset{&OverBar;}{o}) = Σ_{k = 1}^{N_{mix}} c_{jk} N (\underset{&OverBar;}{o}, {\underset{&OverBar;}{m}}_{jk}, C_{jk}) .

18.如权利要求15所述的计算机程序产品，其特征在于，由下列等式获得将所述帧是噪声帧的概率P₀：

P_{0} = \max_{j} (b_{j} (\underset{&OverBar;}{o}) \cdot P (H_{0, j} | H_{0})) = \max_{j} (Σ_{k = 1}^{N_{mix}} c_{jk} N (\underset{&OverBar;}{o}, {\underset{&OverBar;}{m}}_{jk}, C_{jk}) \cdot P (H_{0, j} | H_{0})) .

19.如权利要求15所述的计算机程序产品，其特征在于，由下列等式获得将所述帧是语音帧的概率P₁：

P_{1} = \max_{j} (b_{j} (\underset{&OverBar;}{o}) \cdot P (H_{1, j} | H_{1})) = \max_{j} (Σ_{k = 1}^{N_{mix}} c_{jk} N (\underset{&OverBar;}{o}, {\underset{&OverBar;}{m}}_{jk}, C_{jk}) \cdot P (H_{1, j} | H_{1})) .

20.如权利要求15所述的计算机程序产品，其特征在于，使用概率P₀和P₁以及一选择的准则，所述第五计算机代码确定相应的帧为语音帧还是噪声帧

21.如权利要求20所述的计算机程序产品，其特征在于，所述准则是MAP(最大后验)准则、最大似然性(ML)极小极大准则、Neman-Pearson检验、恒定虚警率检验中之一种。

22.如权利要求21所述的计算机程序产品，其特征在于，所述MAP准则由下列等式定义：

\begin{matrix} H_{0} \\ \frac{P_{0}}{P_{1}} \begin{matrix} > \\ < \end{matrix} η \\ H_{1}, & η = \frac{P (H_{1})}{P (H_{0})} . \end{matrix}

23.如权利要求15所述的计算机程序产品，其特征在于，所述计算机程序产品进一步包含：

第六计算机代码，配置成使用在获得概率P₁前先前获得的噪声频谱结果，有选择地在相应的帧上执行噪声频谱相减过程。

24.如权利要求23所述的计算机程序产品，其特征在于，所述计算机程序产品进一步包含：

配置成当相应的帧被确定为噪声帧时，用确定的噪声帧的当前噪声频谱来更新所述噪声频谱相减过程的第七计算机代码。