CN105825871B

CN105825871B - 一种无前导静音段语音的端点检测方法

Info

Publication number: CN105825871B
Application number: CN201610149314.7A
Authority: CN
Inventors: 董明; 张超
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2019-07-30
Anticipated expiration: 2036-03-16
Also published as: CN105825871A

Abstract

本发明属于语音信号处理技术领域，一种无前导静音段语音的端点检测方法，包括以下步骤：步骤1、采用LMS自适应算法对带噪语音滤波，步骤2、将去噪后的语音从时域变换到频域，步骤3、计算每一帧的MFCC参数，步骤4、分别计算每一帧的谱熵，步骤5、采用FCM对语音信号进行分类，步骤6、计算步骤5中每类的平均谱熵，并标记出语音信号和噪声信号。本发明方法无需设置阈值，因此不会出现因设置阈值错误而造成端点检测错误；与神经网络等有监督的聚类方法相比，本方法无需训练样本，计算简单，快速，有利于后续的实时语音识别系统的设计。

Description

一种无前导静音段语音的端点检测方法

技术领域

本发明涉及一种无前导静音段语音的端点检测方法，属于语音信号处理技术领域。

背景技术

随着人机信息交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测是语音识别中的关键技术之一。语音端点检测是指在有噪声的连续声音信号中找出语音部分的起始点和终止点。端点检测的准确与否，会直接影响到语音识别系统的性能。一种有效的端点检测方法不仅能够正确的检测出语音端点，而且能够减少数据处理时间、节省存储空间和提高效率。

由于需求的不同，比如计算精确性、算法复杂度、鲁棒性、响应时间等，不同的应用会选择不同的端点检测算法。传统的基于阈值的端点检测算法，首先需要设定一个阈值，然后提取每一帧语音信号的语音特征(比如短时能量、短时过零率等)与预先设定的阈值比较。如果该语音帧的语音特征值大于阈值，就认为该帧是语音帧，否则该帧是噪声帧。通常来说正常的语音信号中包含一些静音部分，一次双方通话中静音部分能够达到60％，在这种静音比较多的情况下，基于阈值的双门限算法有很好的性能。然而，当语音信号没有前导静音段时，双门限算法的性能下降地很快，因为基于阈值的方法，需先确定阈值，并假设开始几帧信号是不包含语音的噪声信号。由于在语音端点检测的过程中，可能会有一段语音没有前导静音段或者前导静音段比较短，那么语音阈值就会设置错误，所以如果语音信号不满足这个假设，预先定义的阈值将是不可用的，端点检测就会出错。

发明内容

为了克服现有技术中存在的不足，本发明目的是提供一种无前导静音段语音的端点检测方法。该方法首先采用LMS(Least Mean Square)自适应滤波法对语音信号进行降噪处理，然后将语音信号分帧，计算每一帧信号的MFCC(Mel Frequency CepstrumCoefficient)参数和谱熵，Mel是音高的单位，再用MFCC作为FCM(fuzzy C-means)聚类算法的输入参数进行分类，最后计算每一类的平均谱熵，来标记出语音类和噪声类，从而检测出语音端点。

为了实现上述发明目的，解决已有技术中所存在的问题，本发明采取的技术方案是：一种无前导静音段语音的端点检测方法，包括以下步骤：

步骤1、采用LMS自适应算法对带噪语音滤波，具体包括以下子步骤：

(a)、设有语音信号s(n)及噪声信号源v₀(n)，可以认为噪声信号源v₀(n)在传播到人耳过程中，经过了一个传递函数为H的滤波器，输出为v₁(n)的信号叠加在语音信号上，得到带噪语音d(n)，

d(n)＝s(n)+v₁(n) (1)

(b)、设有LMS自适应滤波器从另一个接近噪声信号源v₀(n)处对其滤波，得到滤波后的信号y(n)，该LMS自适应滤波器用于模拟子步骤(a)中的传递函数为H的滤波器；

(c)、去噪后的语音信号记为x(n)，则

x(n)＝d(n)-y(n) (2)

步骤2、将去噪后的语音从时域变换到频域，具体包括以下子步骤：

(a)、设置帧长和帧重叠长度，帧长的设置，由于语音信号是一个准平稳的信号，通过把它分成较短的帧，每帧可看作平稳信号，这样就可以用处理平稳信号的方法来处理，同时为了使一帧与另一帧信号之间的参数能较平稳的过度，在相邻两帧之间互相有部分重叠，还需设置帧重叠长度；

(b)、加窗处理，分帧，加窗函数的目的是减少频域中的泄漏，对每一帧的语音信号乘以汉明窗，去噪后的语音信号x(n)经过分帧和加窗处理后为x_i(m)，x_i(m)表示第i帧信号中的第m个分量值；

c)、采用FFT将语音信号的每一帧从时域变换到频域，对每一帧信号进行FFT变换，从时域变换为频域，其表达式为

X(i,k)＝FFT[x_i(m)] (3)

式中，X(i,k)表示第i帧信号中的第k条谱线；

步骤3、计算每一帧的MFCC参数，具体包括以下子步骤：

(a)、计算谱线能量，对每一帧FFT后的数据计算谱线的能量，其表达式为

E(i,k)＝[X(i,k)]² (4)

式中，E(i,k)表示第i帧信号中第k条谱线的能量；

(b)、计算通过Mel滤波器的能量，把求得的每帧谱线能量谱通过Mel滤波器，并乘以在该Mel滤波器中的能量，在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频率响应H_m(k)相乘并相加，其表达式为

式中，S(i,m)表示第i帧中第m个Mel滤波器的谱线能量，M表示Mel滤波器的个数，N表示每一帧序列长度；

(c)、计算MFCC参数，把Mel滤波器的能量取对数后计算DCT，其表达式为，

式中，mfcc(i,n)表示第i帧MFCC参数中的第n个分量；

步骤4、分别计算每一帧的谱熵，具体包括以下子步骤：

(a)、计算频谱分量的归一化概率密度，由步骤3子步骤(a)中可知，E(i,k)为第i帧信号第k条谱线的能量，则归一化概率密度为，

式中，p_i(k)为第i帧信号第k条谱线对应的概率密度，E(i,l)为第i帧信号第l条谱线的能量，0≤l≤N/2，N为FFT长度；

(b)、计算每一帧的谱熵，表达式为，

式中，h_i为第i帧的谱熵；

步骤5、采用FCM对语音信号进行分类，具体包括以下子步骤：

(a)、由步骤3子步骤(c)中，可设mfcc_k为第k帧信号的MFCC特征参数，以该参数作为FCM的输入参数，使目标函数

在条件下具有最小值，

式中，mfcc_k＝[mfcc_1k,mfcc_2k,…,mfcc_sk]^T表示目标数，mfcc_jk表示第k帧MFCC特征mfcc_k的第j个分量值，s表示每一帧特征的维数，V＝[v_ji]＝[v₁,v₂,…,v_c]òR^s×c表示包含聚类中心的矩阵，U＝[u_ik]∈R^c×n表示隶属度矩阵，m表示模糊系数，m∈(1,∞)，表示模糊程度，||·||₂表示欧式范数；由拉格朗日乘数法，得如下更新方程，

式中，i＝1,2,…,c

式中，

(b)、选择模糊系数m，m∈(1,∞)，聚类数c，2≤c≤s和ε，ε为很小的正常数；

(c)、设l为迭代次数，由公式U^(l-1)可以得到V^(l)，其中U^(l-1)为U的第l-1次迭代值，V^(l)为V的第l次迭代值；

(d)、采用式(11)、(12)和V^(l)更新隶属度矩阵U^(l)；

(e)、如果停止更新，否则设置l＝l+1并返回子步骤(c)，其中为u_ik的第l次迭代值；

步骤6、计算步骤5中每类的平均谱熵，并标记出语音信号和噪声信号，谱熵较大的是噪声，较小的是语音。

本发明有益效果是：一种无前导静音段语音的端点检测方法，包括以下步骤：步骤1、采用LMS自适应算法对带噪语音滤波，步骤2、将去噪后的语音从时域变换到频域，步骤3、计算每一帧的MFCC参数，步骤4、分别计算每一帧的谱熵，步骤5、采用FCM对语音信号进行分类，步骤6、计算步骤5中每类的平均谱熵，并标记出语音信号和噪声信号。与已有技术相比，本方法无需设置阈值，因此不会出现因设置阈值错误而造成端点检测错误；与神经网络等有监督的聚类方法相比，本方法无需训练样本，计算简单，快速，有利于后续的实时语音识别系统的设计。

附图说明

图1是本发明方法步骤流程图。

图2是采用本发明方法检测无前导静音段语音字母“A”端点的结果图。

图中：(a)是语音字母“A”的语音波形，(b)是本发明的端点检测结果，方形实点和圆形空点表示检测出来的两类，方形实点表示语音类，圆形空点表示非语音类；(a)和(b)中的实竖线是检测到的语音起始点，虚竖线是检测到的语音结束点。

图3为传统双门限法用不同的参数检测无前导静音段字母“F”端点与用本发明方法检测的结果对比图。

图中：(a)是语音字母“F”的语音波形，(b)是用能量作为双门限法的参数检测到的端点，(c)是用方差作为双门限法的参数检测到的端点，(d)是用谱熵作为双门限法的参数检测到的端点，(e)是本发明的端点检测结果，(b)、(c)、(d)、(e)中实竖线为检测到的起始点，虚竖线为检测到的结束点。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种无前导静音段语音的端点检测方法，包括以下步骤：

(a)、设有语音信号s(n)及噪声信号源v₀(n)，可以认为噪声源v₀(n)在传播到人耳过程中，经过了一个传递函数为H的滤波器，输出为v₁(n)的信号叠加在语音信号上，得到带噪语音d(n)，

d(n)＝s(n)+v₁(n) (1)

(b)、设有LMS自适应滤波器从另一个接近噪声信号源v₀(n)处对其滤波，得到滤波后的信号为y(n)，该LMS自适应滤波器用于模拟子步骤(a)中的传递函数为H的滤波器，LMS自适应滤波器的滤波阶数M＝32，收敛因子μ＝0.001；

(c)、去噪后的语音信号记为x(n)，则

x(n)＝d(n)-y(n) (2)

(a)、设置帧长和帧重叠长度，帧长的设置，由于语音信号是一个准平稳的信号，通过把它分成较短的帧，每帧可看作平稳信号，这样就可以用处理平稳信号的方法来处理，同时为了使一帧与另一帧信号之间的参数能较平稳的过度，在相邻两帧之间互相有部分重叠，还需设置帧重叠长度；设置分帧的参数，信号采样率fs＝16000Hz，设置帧长为12.5ms，即每帧有200个采样点，设置帧移为10ms，即帧移位160个采样点，帧重合部分为40个采样点。

(b)、加窗处理，分帧，加窗函数的目的是减少频域中的泄漏，对每一帧的语音信号乘以汉明窗，去噪后的语音信号x(n)经过分帧和加窗处理后为x_i(m)，x_i(m)表示第i帧信号中的第m个分量；用汉明窗加窗，窗长与帧长相同，对去噪后的语音信号x(n)进行分帧，分帧后的语音X∈R^200×54，此段语音有54帧，帧长为200。

(c)、采用FFT将语音信号的每一帧从时域变换到频域，对每一帧信号进行FFT变换，从时域变换为频域，其表达式为

X(i,k)＝FFT[x_i(m)] (3)

式中，X(i,k)表示第i帧信号中的第k条谱线。

步骤3、计算每一帧的MFCC参数，具体包括以下子步骤：

E(i,k)＝[X(i,k)]² (4)

式中，E(i,k)表示第i帧信号的第k条谱线的能量。

(b)、计算通过Mel滤波器的能量，把求得的每帧谱线能量谱通过Mel滤波器，并乘以在该Mel滤波器中的能量，在频域中相当于把每帧的能量谱E(i,k)与Mel滤波器的频率响应H_m(k)相乘并相加，其表达式为，

式中，S(i,m)表示第i帧中第m个Mel滤波器的谱线能量，M表示Mel滤波器的个数，N表示每一帧序列长度。

式中，mfcc(i,n)表示第i帧MFCC参数中的第n个分量，得到MFCC＝[mfcc_in]∈R^50×24特征参数，(MFCC原有54帧语音特征，去掉首尾各两帧后，为50帧语音信号特征)，取MFCC的前16个分量得到MFCC特征，即MFCC∈R^50×16，如表1所示，求得的每一行是相应语音帧的特征向量。

表1

步骤4、分别计算每一帧的谱熵，具体包括以下子步骤：

式中，p_i(k)为第i帧信号第k条谱线对应的概率密度，N为FFT长度；

(b)、计算每一帧的谱熵，表达式为，

式中，h_i为第i帧的谱熵，得到谱熵H＝[h_i]∈R^1×50，如表2所示。

表2

i	1	2	3	4	5	......	46	47	48	49	50
												h<sub>i</sub>	3.4707	2.9917	3.2804	3.027	3.0165	......	4.3249	4.1845	4.1625	4.1833	4.0619

步骤5、采用FCM对语音信号进行分类，具体包括以下子步骤：

在条件下具有最小值，

式中，mfcc_k＝[mfcc_1k,mfcc_2k,…,mfcc_sk]^T表示目标数，mfcc_jk表示第k帧MFCC特征mfcc_k的第j个分量，s表示每一帧特征的维数，V＝[v_ji]＝[v₁，v₂，…，v_c]òR^s×c表示包含聚类中心的矩阵，U＝[u_ik]∈R^c×n表示隶属度矩阵，表示模糊系数，m∈(1,∞)，表示模糊程度，||·||₂表示欧式范数；由拉格朗日乘数法，得如下更新方程，

式中，i＝1,2,…,c

式中，

(b)、选择模糊系数m，m∈(1,∞)，聚类数c，2≤c≤s和ε，ε为很小的正常数，这里选择模糊系数m＝2，聚类数c＝2和ε＝10^-6；

(c)、设l为迭代次数，由公式U^(l-1)可以得到V^(l)；

(d)、采用式(11)、(12)和V^(l)更新隶属度矩阵U^(l)；

(e)、如果停止更新，否则设置l＝l+1并返回子步骤(c)；最后得到的隶属度矩阵U＝[u_ik]∈R^2×50，u_ik表示第k帧隶属于第i类的概率，1≤i≤2,1≤k≤50,如表3所示，分类的结果如表4所示。

表3

u<sub>ik</sub>	1	2	3	4	5	......	46	47	48	49	50
												1	0.57226	0.66763	0.65264	0.52537	0.71013	......	0.31159	0.25405	0.35762	0.3147	0.31641
2	0.42774	0.33237	0.34736	0.47463	0.28987	......	0.68841	0.74595	0.64238	0.6853	0.68359

表4

帧数	1	2	3	......	38	39	40	......	48	49	50
												类别	1	1	1	1	1	2	2	2	2	2	2

步骤6、计算步骤5中每类的平均谱熵，并标记出语音信号和噪声信号，谱熵较大的是噪声，较小的是语音。通过计算得到类别1、类别2的平均谱熵分别为2.5776及3.5649，由于2.5776<3.5649,所以类别1是语音，类别2是噪声。为了进一步体现本发明方法检测无前导静音段语音端点方面的优势，做了更多的对比试验。图3为分别用能量、方差和谱熵作为双门限法的参数检测无前导静音段语音“F”所得的结果与本方法的结果的对比图，很明显，本发明方法更好。同时表5是对150个单词检测的结果，显然，传统的双门限端点检测方法在检测此类语音时已经失效，而本发明方法有很好的检测效果。

表5

本发明优点在于：一种无前导静音段语音的端点检测方法，无需设置阈值，避免了传统双门限端点检测方法因为阈值设置错误，而导致端点检测的错误，同时相对于神经网络方法中，需先训练样本，本方法为无监督的方法，无需训练样本，计算简单，快速，实时性好，为后续的实时语音识别系统的设计奠定了基础。

Claims

1.一种无前导静音段语音的端点检测方法，其特征在于包括以下步骤：

d(n)＝s(n)+v₁(n) (1)

(c)、去噪后的语音信号记为x(n)，则

x(n)＝d(n)-y(n) (2)

(a)、设置帧长和帧重叠长度；

(b)、加窗处理，分帧、加窗函数的目的是减少频域中的泄漏，对每一帧的语音信号乘以汉明窗，去噪后的语音信号x(n)经过分帧和加窗处理后为x_i(m)，x_i(m)表示第i帧信号中的第m个分量；

X(i,k)＝FFT[x_i(m)] (3)

式中，X(i,k)表示第i帧频谱中的第k条谱线；

步骤3、计算每一帧的MFCC参数，具体包括以下子步骤：

E(i,k)＝[X(i,k)]² (4)

式中，E(i,k)表示第i帧信号的第k条谱线的能量；

式中，mfcc(i,n)表示第i帧MFCC参数中的第n个分量；

步骤4、分别计算每一帧的谱熵，具体包括以下子步骤：

(b)、计算每一帧的谱熵，表达式为，

式中，h_i为第i帧的谱熵；

步骤5、采用FCM对语音信号进行分类，具体包括以下子步骤：

在for k＝1,2,…,n条件下具有最小值，

式中，mfcc_k＝[mfcc_1k,mfcc_2k,…,mfcc_sk]^T，mfcc_jk表示第k帧MFCC特征mfcc_k的第j个分量，s表示每一帧特征的维数，V＝[v_ji]＝[v₁,v₂,…,v_c]òR^s×c表示包含聚类中心的矩阵，U＝[u_ik]∈R^c×n表示隶属度矩阵，m表示模糊系数，m∈(1,∞)，表示模糊程度，||·||₂表示欧式范数；由拉格朗日乘数法，得如下更新方程，

式中，i＝1,2,…,c

式中，

(d)、采用式(11)、(12)和V^(l)更新隶属度矩阵U^(l)；