CN106875938A

CN106875938A - 一种改进的非线性自适应语音端点检测方法

Info

Publication number: CN106875938A
Application number: CN201710139880.4A
Authority: CN
Inventors: 赵益波; 蒋祎; 靳炜; 徐进
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Jiangsu Xinshiyun Science and Technology Co.,Ltd.
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2017-06-20
Anticipated expiration: 2037-03-10
Also published as: CN106875938B

Abstract

本发明提供了一种改进的非线性自适应语音端点检测方法，所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步，之后通过Legendre非线性滤波器把输入信号拓展为高维度函数，再通过回声消除NLMS算法进行降噪处理，所述回声消除NLMS算法中对迭代步长进行分段处理，再通过谱减法进行语音增强，最后通过能熵对语音端点检测，相较于传统的方法，此方法提高了整体系统的自适应性，能够很好地适应不同的语音对话环境，与此同时提高语音端点检测率和稳定性。

Description

一种改进的非线性自适应语音端点检测方法

技术领域

本发明属于电子、通讯、与信息工程领域，尤其涉及阵列信号处理、自适应滤波、语音信号识别与检测邻域，具体的是一种改进的非线性自适应语音端点检测方法。

背景技术

语音是人类相互交流和通信最便捷和高效的方式，如何有效地实现语音信号传输、存储或与机器进行语音人机交互，是语音信号处理领域中的重要研究课题。语音信号端点检测是语音分析、语音合成、语音编码等语音信号处理方式的重要环节。在语音信号检测过程中总会伴有背景噪音，如果信噪比较低，常用的语音端点检测方式在语音信号端点检测时识别率会降低。麦克风阵列自适应滤波与语音端点检测相结合的方式能改善检测效果，该检测方式能够提高语音端点检测端输入信号信噪比，从而提高语音端点识别率。而这种语音端点检测方法使用的一般是线性自适应滤波，要实现高信噪比，滤波算法本身需要较高的样本维度，才能更好地逼近理想值，但是由于实验本身实现的成本和难度，很多都是止步在理论阶段。为克服上述局限性，本发明实现了一种麦克风阵列非线性自适应滤波语音信号端点检测方法。该发明方法在达到同样的去噪效果的情况下使用的麦克风数量要少得多，检测的正确率也得到大幅度提高。

在麦克风阵列技术基础上引入自适应滤波可灵活地控制波束方向，实时跟踪目标语音信号。自适应滤波只需要很少的或根本不需要任何关于信号和噪声统计特性的先验知识，仅根据观测信息就能实时估计信号和噪声的统计特性。在自适应滤波算法中，最小均方算法(LMS)收敛速度慢于递归最小二乘法(RLS)，但该算法简单，便于实时实现。本发明使用归一化最小均方算法(NLMS)，不仅能实时实现而且收敛速度快。滤波后的语音信号还会伴有一些背景噪声或其它难以去除的噪声，这些噪声可以利用谱减法来进一步去除。谱减法作为一种常用的语音增强方法，具有简单方便，计算量小等优点。通过谱减之后更好的滤除了背景噪音，这也使得能熵比法在低信噪比环境下能更高准确率的定位语音段。

发明内容

针对上述缺点本发明提供了一种改进的非线性自适应语音端点检测方法，方案如下：

一种改进的非线性自适应语音端点检测方法，所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步，之后通过Legendre非线性滤波器把输入信号拓展为高维度函数，再通过回声消除NLMS算法进行降噪处理，在所述回声消除NLMS算法中对迭代步长进行分段处理，再通过谱减法进行语音增强，最后通过能熵对语音端点检测。进一步所述具体的检测方法如下：

步骤一，对麦克风阵列接收到的带噪语音信号X(n)＝A(q)S(n)+N(n)进行时延估计和时延补偿，使各个麦克风通道中的信号在时间上是一致的，对齐后的带噪语音信号X(n)＝[x₁(n),x₂(n)…x_d(n)]^T，其中，θ为目标信号的来波方向，A(θ)为目标信号的阵列流型，S(n)为目标语音信号，N(n)为方向性干扰噪声或是随机噪声；

步骤二，然后把输入信号通过反正切激活函数tanh(·)，使同步后的信号映射为(0,1)范围内的单值函数，这样能满足Legendre非线性滤波器的收敛条件，通过此函数之后的信号为

Z(n)＝[z₁(n)，z₂(n)…z_d(n)]^T＝[tanh(x₁(n))，tanh(x₂(n))…tanh(x_d(n))]^T；

步骤三，利用Legendre非线性滤波器对信号Z(n)进行扩展，输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为

X_M(n)＝[L₀(z₁(n))，L₀(z₂(n))…L₀(z_d(n))…L_i(z₁(n))，L_i(z₂(n))…L_M(z₁(n))…L_M(z_d(n))]^T

式中L_i(x)为第i阶Legendre非线性滤波器；由于L₀(x)＝1，所有的0阶扩展可合并为一个输入量如下式

X_M(n)＝[1…L_i(z₁(n))，L_i(z₂(n))…L_M(z₁(n))…L_M(z_d(n))]^T滤波器输出为

式中权值矢量定义为B(n)＝[b₀(n),b₁₁(n)…b_1d(n),…b_M1(n),…b_Md(n)]^T

b_ij(n)对应的是Legendre非线性滤波器L_i(z_j(n))的权值,i＝1,2,…M,j＝1,2,…d；

步骤四，采用回声消除NLMS算法对自适应滤波器权值进行更新，该算法中对迭代步长进行分段处理；

式中m_c是迭代步长，通过这种方式来提高整体算法的收敛速度，在200次迭代之后获得更加好的收敛精度，由此提高整个系统的收敛性和稳态失调噪声；由回声消除NLMS算法可导出滤波器权值系数递推公式为

式中误差估计e(n)＝d(n)-y₁(n)，其中d(n)为期望信号即纯净人声语音信号,X_M(n)为麦克风阵列瞬时接收到的语音信号，g是为了避免过小而设定的参数，通常情况下的取值范围是0和1之间；

步骤五，为了进一步去除可能存在的残余噪声，在输出信号y₁(n)后续衔接谱减法进行降噪处理；利用以下方法来估计噪声的功率：

其中0<σ<1，K是带噪语音总帧数，得到的每帧纯净语音功率为：

其中，α>1,β<<1，在噪声段保留一定的噪声可以取得较好的降噪及抑制纯音噪声的效果，降低“音乐”噪声的产生，改善听觉效果，经过谱减，平滑滤波之后的信号为y₂(n)；

步骤六，语音信号的时间序列为y₂(n)，加窗分帧后处理得到第i帧语音信号为y_2i(n),帧长为N，语音信号的每一帧能量可以表示为

所述能量关系表示为

LE_i＝log₁₀(1+A MP_i/a)

式中A MP_i是每一帧的能量，a是一个常数，由于有a的存在，当其取较大数值时，能幅值得以缓和，所以适当选择a的值能够更好地区分噪音和清音，能熵比则可表示为

之后通过能熵比算出经过谱减后y₂(n)的能熵比幅值图，通过计算出的值来设置对应的阈值T1和T2，T1为较高阈值，只要能熵比超过了此阈值就判定这段语音是人声点dst1，然后以这个点为中心向两边扩展搜索T1与此段语音的相交的两个点，粗判为此段语音的起止点，然后再想两边扩展搜索，知道检测到较低阈值T2与此段语音相交的两个点，由于考虑到发音时词与词之间的静音区会有一个最小长度表示发音间的停顿于是在满足T2较小阈值之后加上这个最小长度，最终判定为此段语音的起止点。

更进一步所述步骤三中的Legendre非线性滤波器中扩展的阶数为i＝4阶。

本发明提出的自适应语音端点检测方法，是在传统语音端点检测的基础上加入非线性自适应滤波，以及改进的谱减法和能熵比法，相较于传统的方法，此方法提高了整体系统的自适应性，能够很好地适应不同的语音对话环境，与此同时提高语音端点检测率和稳定性。

附图说明

图1、本发明采用的语音端点检测系统结构框图；

图2、传统语音端点检测系统框图；

图3、Legendre系统扩展；

图4、谱减法系统框图(图中实线框部分)；

图5、纯净语音信号(方向角度为10度)；

图6、方向性干扰信号(方向角度为30度)；

图7、麦克风阵列接收到的语音信号(带噪语音信号)；

图8、传统双门限语音端点检测处理后得到的语音信号；

图9、本发明方法处理后得到的语音信号；

图10、本发明方法处理后得到瞬时方差；

图11、本发明方法处理后得到的瞬时方差。

具体实施方式

实施例

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施方式，进一步阐明本发明。本发明提供的一种改进自适应语音端点检测方法，如图1所示，具体包括以下操作步骤：

步骤一：对麦克风阵列接收到的带噪语音信号X(n)＝A(q)S(n)+N(n)进行时延估计和补偿，使各个麦克风通道中的信号在时间上是一致的，图1中的X(n)＝[x₁(n),x₂(n)…x_d(n)]^T为对齐后的带噪语音信号，其中，θ为目标信号的来波方向，A(θ)为目标信号的阵列流型，S(n)为目标语音信号，N(n)为方向性干扰噪声或是随机噪声；

步骤二：然后将输入信号通过反正切激活函数，反正切激活函数tanh(·)的作用是将同步后的信号映射为(0,1)范围内的单值函数，这样能满足Legendre非线性滤波器的收敛条件，通过此函数之后的信号为

步骤三：利用Legendre扩展式(具体结构如图3所示)对信号Z(n)进行扩展，输入信号向量Z(n)经Legendre非线性滤波器非线性扩展为

式中L_i(x)为第i阶Legendre非线性滤波器。实际使用时，一般只用到4阶。由于L₀(x)＝1，所有的0阶扩展可合并为一个输入量如下式：

式中权值矢量定义为B(n)＝[b₀(n),b₁₁(n)…b_1d(n),…b_M1(n),…b_Md(n)]^T，b_ij(n)对应的是Legendre非线性滤波器L_i(z_j(n))的权值,i＝1,2,…M,j＝1,2,…d。

步骤四：采用一种改进的回声消除NLMS算法对自适应滤波器权值进行更新，该算法中对迭代步长进行分段处理；

式中m_c是指迭代步长，通过这种方式来提高整体算法的收敛速度，在200次迭代之后获得更加好的收敛精度，由此提高整个系统的收敛性和稳态失调噪声。由回声消除NLMS算法可导出滤波器权值系数递推公式为

式中误差估计e(n)＝d(n)-y₁(n)，其中d(n)为期望信号(纯净人声语音信号),X_M(n)为麦克风阵列瞬时接收到的语音信号，g是为了避免过小而设定的参数，通常情况下的取值范围是0和1之间。

步骤五：为了进一步去除可能存在的残余噪声，在输出信号y₁(n)后续接谱减法。谱减法是在短时平稳假定的基础上，对带噪语音信号进行傅里叶变换并进行重叠分帧处理，用每帧信号功率减去估计得到的噪声功率，并利用人耳对语音信号的幅度比较敏感，而对语音的相位不敏感这一特性，可以用含有噪声的语音信号的相位来代替纯净语音信号的相位，然后对其进行傅里叶逆变换即可得到增强后的语音信号，在利用谱减法对带噪语音信号进行去噪时，重要的是对每一帧中噪声功率的估计。利用以下方法来估计噪声的功率：

式中0<σ<1，K是带噪语音总帧数。得到的每帧纯净语音功率为：

式中，α>1,β<<1。在噪声段保留一定的噪声可以取得较好的降噪及抑制纯音噪声的效果，降低“音乐”噪声的产生，改善听觉效果，经过谱减，平滑滤波之后的信号为y₂(n)。

步骤六：语音信号的时间序列为y₂(n),加窗分帧后处理得到第i帧语音信号为y_2i(n),帧长为N。语音信号的每一帧能量可以表示为

本发明引入改进的能量关系

LE_i＝log₁₀(1+A MP_i/a)

式中A MP_i是每一帧的能量，a是一个常数。由于有a的存在，当其取较大数值时，能幅值得以缓和，所以适当选择a的值能够更好地区分噪音和清音。能熵比则可表示为

之后通过能熵比算出经过谱减后y₂(n)的能熵比幅值图，通过计算出的值来设置对应的阈值T1和T2，T1为较高阈值，只要能熵比超过了此阈值就判定这段语音是人声点dst1，然后以这个点为中心向两边扩展搜索T1与此段语音的相交的两个点，粗判为此段语音的起止点，然后再想两边扩展搜索，知道检测到较低阈值T2与此段语音相交的两个点，由于考虑到发音时词与词之间之间的静音区会有一个最小长度表示发音间的停顿于是在满足T2较小阈值之后加上这个最小长度，最终判定为此段语音的起止点。

实验结果如图5-11所示，麦克风阵列接受到的语音信号是带噪语音信号从图5和图7对比可以得出，图8为传统语音端点检测(具体结构框图如图2所示)处理后得到的语音信号对比与图9(本发明方法处理结果图)，可以明显看到本发明方法去除噪声的效果更好，图10，图11分别是传统方法和本发明方法的瞬时方差，通过这两张图可以看出整体语音带噪程度，传统的都是远超过幅值2的，而改进方法则基本在2以下，与此同时，对比图8和图9，途中实线表示一个词的开始端，虚线表示一个词的结束端，本段语音是“第一课认识新同学”，传统语音端点的检测方法，并没有检测到‘一’‘识’‘学’这三个字，其正确率只有62.5％，而自适应Legendre非线性滤波和语音端点检测相结合的方法则测出了8个字的对应端点位置，其准确率为100％，同时本发明的语音降噪后的信噪比相较于传统的算法提高了3.5dB，此算法不仅提高了准确率和自适应性，同时麦克风数量的减少，也使得实现本发明的成本降低，能实现的可能性也大大增加。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，依据本发明的技术实质，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种改进的非线性自适应语音端点检测方法，其特征在于，所述方法包括首先通过麦克风阵收集收集信号以及通过时延估计和时延补偿使输入信号同步，之后通过Legendre非线性滤波器把输入信号拓展为高维度函数，再通过回声消除NLMS算法进行降噪处理，所述回声消除NLMS算法中对迭代步长进行分段处理，再通过谱减法进行语音增强，最后通过能熵对语音端点检测。

2.根据权利要求1所述的改进的非线性自适应语音端点检测方法，其特征在于，具体步骤如下：

步骤二，把输入信号通过反正切激活函数tanh(·)，使同步后的信号映射为(0,1)范围内的单值函数，这样能满足Legendre非线性滤波器的收敛条件，通过此函数之后的信号为

L_i(x)为第i阶Legendre非线性滤波器；由于L₀(x)＝1，所有的0阶扩展可合并为一个输入量如下式

y_{a} (n) = Σ_{j = 1}^{d} b_{0 j} (n) + Σ_{i = 1}^{M} Σ_{j = 1}^{d} b_{i j} L_{i} (z_{j} (n)) = B {(n)}^{T} X_{M}

m_{c} = \{\begin{matrix} 0.9 (n < 200) \\ 0.8 (n &GreaterEqual; 200) \end{matrix}

B (n + 1) = B (n) + \frac{m_{c}}{g + X_{M}^{T} (n) X_{M} (n)} e (n) X_{M} (n)

| D_{i, ω} (ω) |^{2} = \{\begin{matrix} s | Y_{i, ω} (ω) |_{2} & i = 1 \\ | D_{i, ω} (ω) |^{2} + (1 - s) | Y_{i, ω} (ω) |^{2} & i = 2, 3 ... K \end{matrix}

{AMP}_{i} = Σ_{n = 1}^{N} y_{2 i}^{2} (n)

所述能量关系表示为

LE_i＝log₁₀(1+AMP_i/a)

其中AMP_i是每一帧的能量，a是一个常数，由于有a的存在，当其取较大数值时，能幅值得以缓和，所以适当选择a的值能够更好地区分噪音和清音，能熵比则可表示为

{EEF}_{i} = \sqrt{1 + | {EL}_{i} / H_{i} |}

3.根据权利要求1所述的改进的非线性自适应语音端点检测方法，其特征在于，所述步骤三中的Legendre非线性滤波器中扩展的阶数为i＝4阶。