CN109637554A

CN109637554A - 基于cdr的mclp语音去混响方法

Info

Publication number: CN109637554A
Application number: CN201910038726.7A
Authority: CN
Inventors: 周城旭; 王冬霞; 何冲
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology; Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2019-04-16

Abstract

本发明公开了基于CDR的MCLP语音去混响方法，包括：步骤一、在单声源的封闭声学环境中，建立多个全向麦克风的均匀线性阵列；计算第m个麦克风接收到的语音信号；并且对所述语音信号进行处理后得到处理后的语音信号；步骤二、在第m个麦克风接收到的语音中选择第i路信号作为参考信号，计算得到MCLP语音信号为；并且对所述MCLP语音进行代数换算后得到处理后的MCLP语音信号；并且对所述MCLP语音的初始化值进行确定。

Description

基于CDR的MCLP语音去混响方法

技术领域

本发明涉及语音信号处理领域，具体涉及基于CDR的MCLP语音去混响方法。

背景技术

在一些相对封闭的声学环境中使用免提电话、电话会议、助听器、语音控制系统等通信系统时，麦克风采集到的信号往往会受到混响的影响导致语音的清晰度、可读懂度等降低、进而影响通信系统的整体功能。因此研究如何去除语音混响即语音去混响也显得愈发重要。

经过多年的发展，人们提出了诸多去混响方法。主要包括基于多通道均衡的去混响方法、基于谱估计和空间滤波器相结合的去混响方法以及基于概率模型的去混响方法。在实际应用中，多通道均衡的去混响方法易受到房间冲激响应估计准确性等的影响，且计算量大；利用波束形成的单通道维纳滤波器去混响处理需要估计目标信号方向角等参数；多通道线性预测去混响方法会出现目标信号协方差等于零的情况，当情况严重时会导致输出信号失真。

谱减法自提出以来就获得了学者们的深入研究和广泛应用，在MCLP去混响方法中，目标信号谱方差的初始化严重影响去混响的优劣，因此如何对其进行初始化也变得愈发重要。

发明内容

本发明设计开发了基于CDR的MCLP语音去混响方法，本发明将基于相干扩散功率比(Coherent-to-Diffuse power Ratio，CDR)的双通道语音谱减法应用到多通道线性预测(MCLP)去混响中对目标信号进行初始化，从而解决提高语音去混响性能的问题。

本发明提供的技术方案为：

基于CDR的MCLP语音去混响方法，包括如下步骤：

步骤一、在单声源的封闭声学环境中，建立多个全向麦克风的均匀线性阵列；

计算第m个麦克风接收到的语音信号为

并且对所述语音信号进行处理后得到处理后的语音信号为

式中，d_m(k,n)为期望信号，b为离散时间，s(b)为时域内的纯净语音，v_m(b)为背景噪声，r_m(l)为声源与第m个麦克风之间的房间冲击响应，长度为L_r，R_m(k,l)为时频域内的房间冲激响应，L_h为帧数，n∈{1,...,N}为帧指数，k∈{1,...,K}为频带指数，τ为线性延迟；

步骤二、在第m个麦克风接收到的语音中选择第i路信号作为参考信号，计算得到MCLP语音信号为

并且对所述MCLP语音进行代数换算后得到处理后的MCLP语音信号为

其中，所述MCLP语音的初始化值为

式中，

优选的是，在所述步骤二中，所述代数换算包括：

x_i(k)＝[x_i(k,1),...,x_i(k,N)]^T；

d_i(k)＝[d_i(k,1),...,d_i(k,N)]^T；

g_m(k)＝[g_m(k,0),...,g_m(k,L_g-1)]^T；

优选的是，在所述步骤二中，

式中，α为平滑参数。

优选的是，在所述步骤二中，所述初始化值能够通过自回归系数g(k)计算得到：

优选的是，在所述步骤二中，目标信号为

优选的是，在所述步骤二中，目标信号协方差为

式中，尺度参数γ＞0，形状参数0＜P≤2。

本发明与现有技术相比较所具有的有益效果：

1、基于CDR的MCLP语音去混响方法既可以实现较好的去混响效果，也不需要估计任何参数；在中度、重度混响条件下，混响语音谱的谱分布布满整个时频域，稀疏性比较差。相对于麦克风阵列采集信号所对应的混响语音谱，SMCLP方法的去混响语音谱的谱分布稀疏性得到了明显的提高；

2、在各种混响条件下，相对于混响语音，无论是去混响参数FWSegSNR或PESQ，SMCLP方法性能参数提高明显优于经典算法，在一定程度上可以进一步提高语音的去混响性能；

3、要求的设备简单，只需4个全向麦克风，实现方便价格低廉；可以应用于电话会议、助听器等现实生活中。

附图说明

图1为本发明所述的T₆₀＝250ms语音信号谱。

图2为本发明所述的T₆₀＝500ms语音信号谱。

图3为本发明所述的T₆₀＝700ms语音信号谱。

图4为本发明所述的FWSegSNR曲线图。

图5为本发明所述的PESQ曲线图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

本发明提供了基于CDR的MCLP语音去混响方法，包括如下步骤：

步骤一、建立混响信号的声学模型

单声源的封闭声学环境中，由M个全向麦克风组成的均匀线性阵列，则第m个麦克风接收到的语音信号的表达式为

式中，b表示离散时间，s(b)表示时域内的纯净语音，v_m(b)表示背景噪声，r_m(l)表示声源与第m个麦克风之间的房间冲激响应(RIR)，长度为L_r；

故式(1)时频域表达式为

式中，n∈{1,...,N}表示帧指数，k∈{1,...,K}表示频带指数，e_m(k,n)表示模型误差，R_m(k,l)表示时频域内的房间冲激响应(RIR)，L_h为帧数；

仅考虑混响对语音信号的影响即假设e_m(k,n)＝0。令d_m(kn,)表示第m个麦克风直达波和早期反射波之和，则式(2)可以进一步表示为

式中，τ的表示线性延迟；

步骤二、建立MCLP去混响方法

在MCLP去混响方法中将d_m(k,n)作为期望信号并进行重构，选择一路信号作为参考信号如m＝i，g_m(k,l)表示长度为Lg的线性预测系数，等式右边的第二项为后期混响，则式(3)的MCLP表达式为

进行代数换算，令

x_i(k)＝[x_i(k,1),...,x_i(k,N)]^T

d_i(k)＝[d_i(k,1),...,d_i(k,N)]^T

g_m(k)＝[g_m(k,0),...,g_m(k,L_g-1)]^T

则(5)式的矩阵表达式为

令

X_τ(k)＝[X_1,τ(k),...,X_M,τ(k)]

则MCLP矩阵表达式为

x₁(k)＝d₁(k)+X_τ(k)g(k) (7)

步骤三、基于CDR的协方差初始化

假设麦克风阵列采集到的语音信号为

x_m(k,n)＝d_m(k,n)+r_m(k,n) (8)

式中，d_m(k,n)表示期望信号，r_m(k,n)表示后期混响部分并假设两者互不相干；

在理论上，各相干函数的值虽然为复数，但CDR仍然是为实值；在本实施例中，CDR(k,n)的求解方法如下：

T_x(k)可以写为：

在该方法式(10)中，信号自功率谱或者互功率谱均采用递归平均的方法来求即

式中，α为平滑参数；

对式(8)利用递归方法进行处理，即利用前一帧的信号和当前帧信号来求当前帧信号功率谱密度，则

由于d_m(k,n)和r_m(k,n)互不相干，故

所以

|x_m(k,n)|²＝|d_m(k,n)|²+|r(k,n)|² (13)

因此

目标信号的协方差采用递归平均方法得到，则

利用一种复广义高斯先验概率模型(CGG)，协方差为的超高斯先验模型即可以得到自回归系数g(k)的表达式，利用一种递归平均的方法来估计目标信号的协方差，作为MCLP语音去混响算法的初始化值。

对于自回归矢量的求解是最小二乘(LS)优化问题，具体如下所示：

λ(k)＝[λ(k,1),...,λ(k,N)]^T (18)

联合上式(7)和式(16)即可求得自回归矢量g(k)的优化解

假设第i+1次g(k)的迭代值也就是式(19)的结果为固定值，那么目标信号d₁(k)第i+1次的迭代值便可由上式(7)得到即

在CGG数学模型下，第i+1次的迭代优化协方差为

式中，尺度参数γ＞0，形状参数0＜P≤2。

根据式(21)可知，虽然协方差λ(k,n)的估计值仅仅依赖于尺度参数和形状参数，但是根据自回归矢量的估计表达式(19)和目标信号d₁(k)的估计表达式(20)可知，其相对于协方差具有尺度不变性，因此式(21)可以进一步表示为如下形式

将协方差写为向量的形式

实施例

仿真环境为阵列由M＝4路全向麦克风组成的均匀线阵。麦克风之间的间距为8cm，声源到阵列中心为2m，采样频率为16kHz。短时傅里叶变换的帧长为64ms，帧移为16ms，窗函数选择汉明窗；L_g＝8，τ＝2；实验选取了经典三种方法即MCLP和IRLS与SMCLP进行了性能比较和分析，图1、图2和图3分别是在轻度、中度和重度混响即混响时间T₆₀＝250ms、T₆₀＝500ms和T₆₀＝700ms时，麦克风接收信号和各算法去混响后信号的语谱图，图4和图5分别为各混响条件下的FWSegSNR和PESQ实验结果曲线图。结果表明，SMCLP方法性能参数提高明显优于IRLS、MCLP两种方法，SMCLP去混响方法在一定程度上可以进一步提高语音的去混响性能。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于CDR的MCLP语音去混响方法，其特征在于，包括如下步骤：

计算第m个麦克风接收到的语音信号为

并且对所述语音信号进行处理后得到处理后的语音信号为

其中，所述MCLP语音的初始化值为

式中，

2.如权利要求1所述的基于CDR的MCLP语音去混响方法，其特征在于，在所述步骤二中，所述代数换算包括：

x_i(k)＝[x_i(k,1),...,x_i(k,N)]^T；

d_i(k)＝[d_i(k,1),...,d_i(k,N)]^T；

g_m(k)＝[g_m(k,0),...,g_m(k,L_g-1)]^T；

3.如权利要求1所述的基于CDR的MCLP语音去混响方法，其特征在于，在所述步骤二中，

式中，α为平滑参数。

4.如权利要求1所述的基于CDR的MCLP语音去混响方法，其特征在于，在所述步骤二中，所述初始化值能够通过自回归系数g(k)计算得到：

5.如权利要求1所述的基于CDR的MCLP语音去混响方法，其特征在于，在所述步骤二中，目标信号为

6.如权利要求1所述的基于CDR的MCLP语音去混响方法，其特征在于，在所述步骤二中，目标信号协方差为

式中，尺度参数γ＞0，形状参数0＜P≤2。