CN115312073A

CN115312073A - 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法

Info

Publication number: CN115312073A
Application number: CN202210749234.0A
Authority: CN
Inventors: 周伟林; 黄乐凯; 蔡洪滨; 何昕
Original assignee: Shanghai Shenghan Information Technology Co ltd
Current assignee: Shanghai Shenghan Information Technology Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-11-08

Abstract

本发明公开了一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法。该方法包括：基于等效矩阵带宽尺度，将信号的线性频谱划分到多个子带进行处理；设计轻量级的DNN模型结构，并采用参考信号、滤波信号和误差信号等三路信号作为特征，预测残余回声在子带谱域的时频掩码；使用对数幅度谱估计器，考虑近端语音存在的不确定性，对子带谱域增益进行控制；基于三角滤波器组，实现从子带增益到全频带增益的映射，完成从子带频域到线性频域的转换。该方法将DNN优异的非线性处理能力和信号处理的可控性结合，达到良好的非线性残余回声消除效果，同时降低整个算法的计算复杂度。

Description

一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法

技术领域

本发明涉及电子信息技术领域，进一步说，尤其涉及一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法。

背景技术

原有的基于信号处理的方法通常基于计算参考信号、滤波信号和误差信号之间的相关性，并建立相关性和抑制残余回声的增益之间的映射，或是根据相关性估计出残余回声的功率谱，进而根据维纳滤波等降噪方法计算回声抑制增益。由于相关性难以表达原始信号之间的非线性关系，该方法难以达到优异的残余回声消除效果。由于DNN优异的非线性表达能力，其抑制回声效果明显优于传统信号处理方法。现有DNN模型网络结构复杂，并且消除结果表示近端语音失真度难以控制。因此，需要解决的问题主要包括两个方面，一方面，设计低复杂度的算法和模型，另一方面，利用传统信号处理的方法控制近端语音的失真。本发明采用信号处理和DNN模型相结合的方式，将DNN优异的非线性处理能力和信号处理的可控性结合，达到良好的非线性残余回声消除效果，同时降低整个算法的计算复杂度，并能根据声学环境控制近端语音的失真。

发明内容

本发明为解决上述技术问题而采用的技术方案是提供一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，目的是设计轻量级的DNN模型，并控制最终的近端语音失真度。

其中，具体技术方案为：

包括：

(1)使用基于NLMS算法的线性回声消除；

(2)线性谱域到子带谱域转换；

(3)DNN模型；

(4)增益控制；

(5)子带谱域到线性谱域转换。

上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其中，(1)包括：

将参考信号x(t)和麦克风信号d(t)作为输入，经过经典的基于NLMS的线性回声消除算法处理，得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号，而误差信号是麦克风信号和滤波信号之差。

上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其中，(2)包括：

步骤2)将参考信号、滤波信号和误差信号分别做分帧、加窗和快速傅里叶变换(FFT)处理，转换到线性频域，分别表示为X(k，l),Y(k，l),和E(k，l),其中(以X(k，l)为例)，

l是音频信号的时间帧索引，k是频率索引，k取1,2,...,N/2+1，N为FFT的长度，w是长度为N的分析窗(如汉宁窗)，T为帧移，通常取T＝N/2。

步骤3)使用等效矩阵带宽(ERB)尺度，将线性频域划分成多个子带，其转换方式为

erb(f)＝21.4log₁₀(1+0.00437f) (1)

f(erb)＝(10^erb/^21.4-1)/0.00437 (2)

子带划分分为以下三步：1)确定线性频域的频率范围[f_l，f_u]，在具体实施时，如对于采样率为16kHz的音频信号，其待划分的频率范围可为[100，8000]，通过公式(1)，将线性频率范围转换为ERB范围[erb_l，erb_u]；2)确定子带个数M，在具体实施时，可取M＝40，将ERB范围平均划分为M等份，则M+2个ERB频点可表示是为(erb_l，erb_l+Δ，…，erb_l+(M+1)Δ)，其中Δ＝(erb_u-erb_l)/M；3)根据等式(2)，将上述ERB频点转换到线性频点h(i)，根据公式f(i)＝floor((N+1)*h(i)/fs)，(其中，N表示FFT的长度，fs为采样率)，得到线性频点h(i)对应的频率索引f(i)。在具体实施中，对音频信号做N＝512点的FFT；

步骤4)使用三角滤波器组(如图3所示)，设计滤波器组w_m(k)，其中，m＝1，…，M，且

使用该三角滤波器组对步骤2)计算得到的频谱X(k，l)，Y(k，l)，和E(k，l)进行滤波，得到X_s(m，l)，Y_s(m，l)，和E_s(m，l)，其中(以X_s(m，l)为例)，

X_s(m，l)＝∑_kw_m(k)|X(k，l)|²，

即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时，对于N＝512点的FFT，该线性谱域的频带个数为257(即512/2+1)个，而经过ERB尺度的子带的转换，频带的个数减少为M＝40。使用上述子带域的能量谱作为DNN模型的输入特征，则相比使用线性谱域的能量谱作为特征，DNN模型的特征维度大幅减少。

上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其中，(3)包括：

步骤5)由步骤4)计算得到的子带能量谱X_s(m，l)，Y_s(m，l)，和E_s(m，l)，将其进行合并取对数运算结果，组成DNN模型的输入特征，

F(l)＝log10[concat(X_s(m，l)，Y_s(m，l)，E_s(m，l))]

特征的输入维度为3M。特征输入到DNN模型，推理得到输出子带时频掩蔽mask。在训练DNN模型时，其定义为

其中，E_c(m)表示干净近端语音信号在子带m的能量，其可从训练数据集中获取，E_n(m)表示误差语音信号在子带m的能量，m取1,2，...，M；具体地，将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后，并经过层归一化(iLN)处理，合并组成维度为120的特征向量，输入到两层128维的GRU模型中；在两次GRU之间添加Dropout层，防止训练过程中模型过拟合；假设经过层归一化处理后生成的特征在t时刻分别表示为X(t)，Y(t)，E(t)，则上述主要计算流程为

其中，[]表示向量连接，g(x)为GRU层计算函数。

最后，第二个GRU层输出的特征经过维度为40的全连接层(FC)和sigmoid层处理，输出40维度的子带时频掩蔽，其t时刻输出结果为：

其中，U，v分别为全连接层的权重矩阵和偏置向量。在线性频域全频带DNN模型中，该时频掩蔽mask的输出结果的维度为N/2+1，对于N＝512点的FFT，其维度为257，明显大于在子带的预测输出维度。因此，子带频域训练的DNN模型的的网络复杂度小于其在线性频域的复杂度。

上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其中，(4)包括：

步骤6)为处理DNN模型的过估计导致的近端语音失真现象，在模型估计的mask的基础上对子带增益进行控制。首先，残余回声能量谱估计为λ(m，l)，其中，λ(m，l)＝αλ(m，l-1)+(1-α)r(m，l)

m＝1,2,...,M.α是平滑因子，在实际实施中，取α＝0.95，则后验信噪比可估计为

步骤7)在近端语音存在不确定的条件下，我们使用决策导向的方法来估计先验信噪比

其中，β是平滑因子，在实际实施中，取β＝0.95，G_H1(m，l-1)表示在l-1时间帧近端语音存在的条件下的增益；

步骤8)考虑近端语音存在的不确定性，结合复高斯模型并应用贝叶斯规则，则近端语音存在概率的估计为，

其中，q(m，l)是先验的近端语音不存在概率，在实际实施时，取q(m，l)为一个固定的值，即q(m，l)＝q₀＝0.5；

ξ(m，l)为先验信噪比，γ(m，l)为后验信噪比；

步骤9)我们使用对数幅度谱估计器对子带增益进行估计。在近端语音不存在的情况下，设定一个阈值G_min，其指定最小底噪水平，通常可设为-10dB，则近端幅度A_s(m，l)估计为G_minE_s(m，l)；在近端语音存在的情况下，A_s(m，l)估计为G_H1(m，l)E_s(m，l),其中，G_H1(m，l)表示在l时间帧近端语音存在的条件下的增益，其表达式为

步骤10)最后，增益函数为G(m，l)＝{G_H1(m，l)}^p(m，l)G_min ^1-p(m，l)，其中，p(m，l)为近端语音存在概率。上述过程中，可通过参数G_min，q₀，和平滑因子等对增益进行调整，以达到根据具体应用的声学环境控制近端语音的失真情况的目的。

上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其中，(5)包括：

步骤11)由步骤4)的得到的三角滤波器组w_m(k)，将子带增益G(m，l)转换到全带增益G_f(k，l)＝∑_mw_m(k)G(m，l),其中，m取1,2，...，M，k取1,2,...,N/2+1。

步骤12)将全带增益G_f(k，l)应用到误差信号的复数谱上，则残余回声抑制之后的误差信号的复数谱

步骤13)复数谱

经过反傅里叶变换和加合成窗，最后经过重叠相加算法，得到残余回声抑制之后的误差时域信号

且

为与分析窗双正交的合成窗。

上述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其中，在DNN模型的训练中，需要准备的数据包括近端语音信号数据，回声信号数据和参考信号数据，以及混响数据，其中回声数据中需包含尽可能多的设备数据，即包含不同的非线性回声；

将回声数据和近端语音信号按照不同的信噪比进行混合，得到麦克风数据，将模拟的麦克风数据和参考数据经过步骤1)中的线性回声消除处理，得到滤波信号和误差信号；将其和参考信号一同送入线性谱域到子带谱域转换模块，得到上述所示的DNN模型特征，将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理，和子带误差能量谱进行计算，得到DNN模型的目标数据mask，使用均方误差损失函数作为模型的优化准则，基于深度学习训练框架，对DNN模型进行训练。

本发明相对于现有技术具有如下有益效果：

1.基于等效矩阵带宽(ERB)尺度，将信号的线性频谱划分到多个子带进行处理，并基于三角滤波器组实现从线性频域到子带频域的转换。该转换能明显降低算法和模型的复杂度。

2.采用参考信号、滤波信号和误差信号等三路信号作为特征，训练DNN模型，能够充分利用相关信息提取误差信号中的残余非线性回声。

3.设计轻量级的DNN网络结构，其具有处理的实时性和计算资源消耗小的特点。

4.使用对数幅度谱估计器，考虑近端语音存在的不确定性，对子带谱域增益进行控制。通过调节相关参数可对增益进行调整，进而达到根据具体应用的声学环境控制近端语音的失真情况的目的。

附图说明

图1为本发明的总体系统执行框图。

图2为线性回声消除的实施原理图。

图3为三角滤波器组示意图。

图4为DNN模型的网络结构示意图。

图5为子带谱增益计算流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

本发明的总体系统执行框图如图1所示。

具体操作流程描述如下：1，使用基于NLMS算法的线性回声消除。

步骤1)将参考信号x(t)和麦克风信号d(t)作为输入，经过经典的基于NLMS的线性回声消除算法处理，得到滤波信号y(t)和误差信号e(t),滤波信号是指参考信号经过滤波器处理之后的信号，而误差信号是麦克风信号和滤波信号之差。一种线性回声消除的实施原理如图2所示。

2，线性谱域到子带谱域转换。

erb(f)＝21.4log₁₀(1+0.00437f) (1)

f(erb)＝(10^erb/21.4-1)/0.00437 (2)

子带划分分为以下三步：1)确定线性频域的频率范围[f_l，f_u]，在具体实施时，如对于采样率为16kHz的音频信号，其待划分的频率范围可为[100，8000]，通过公式(1)，将线性频率范围转换为ERB范围[erb_l，erb_u]；2)确定子带个数M,在具体实施时,可取M＝40，将ERB范围平均划分为M等份，则M+2个ERB频点可表示是为(erb_l，erb_l+Δ，…，erb_l+(M+1)Δ)，其中Δ＝(erb_u-erb_l)/M；3)根据等式(2)，将上述ERB频点转换到线性频点h(i)，根据公式f(i)＝floor((N+1)*h(i)/fs)，(其中，N表示FFT的长度，fs为采样率)，得到线性频点h(i)对应的频率索引f(i)。在具体实施中，对音频信号做N＝512点的FFT。

使用该三角滤波器组对步骤2)计算得到的频谱X(k，l)，Y(k，l)，和E(k，l)进行滤波，得到X_s(m，l)，Y_s(m，l)，和E_s(m，l)，其中(以X_s(m，l)为例)，X_s(m，l)＝∑_kw_m(k)|X(k，l)|²，

即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时，对于N＝512点的FFT，该线性谱域的频带个数为257(即512/2+1)个，而经过ERB尺度的子带的转换，频带的个数减少为M＝40。

3，DNN模型

F(l)＝log10[concat(X_s(m，l)，Y_s(m，l)，E_s(m，l))]

其中，E_c(m)表示干净近端语音信号在子带m的能量，其可从训练数据集中获取，E_n(m)表示误差语音信号在子带m的能量，m取1,2，...，M。DNN模型的网络结构如图4所示。具体地，将维度为40的参考能量谱、滤波能量谱和误差能量谱分别取对数之后，并经过层归一化(iLN)处理，合并组成维度为120的特征向量，输入到两层128维的GRU模型中；在两次GRU之间添加Dropout层，防止训练过程中模型过拟合；假设经过层归一化处理后生成的特征在t时刻分别表示为X(t)，Y(t)，E(t)，则上述主要计算流程为

其中，[]表示向量连接，g(x)为GRU层计算函数。

在上述DNN模型的训练中，需要准备的数据包括近端语音信号数据，回声信号数据和参考信号数据，以及混响数据等，其中回声数据中需包含尽可能多的设备数据，即包含不同的非线性回声。将回声数据和近端语音信号按照不同的信噪比进行混合，得到麦克风数据。将模拟的麦克风数据和参考数据经过步骤1)中的线性回声处理，得到滤波信号和误差信号；将其和参考信号一同送入线性谱域到子带谱域转换模块，得到上述所示的DNN模型特征。将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理，和子带误差能量谱进行计算，得到DNN模型的目标数据mask。使用均方误差损失函数作为模型的优化准则，基于深度学习训练框架，对DNN模型进行训练。DNN模型的网络结构如图4所示。

4，增益控制

步骤6)为处理DNN模型的过估计导致的近端语音失真现象，在模型估计的mask的基础上对子带增益进行控制。首先，残余回声能量谱估计为λ(m，l)，其中，

λ(m，l)＝αλ(m，l-1)+(1-α)r(m，l)

其中，β是平滑因子，在实际实施中，取β＝0.95，G_H1(m，l-1)表示在l-1时间帧近端语音存在的条件下的增益。

其中，q(m，l)是先验的近端语音不存在概率，在实际实施时，取q(m，l)为一个固定的值，即q(m,l)＝q₀＝0.5；

ξ(m，l)为先验信噪比，γ(m，l)为后验信噪比。

步骤10)最后，增益函数为G(m，l)＝{G_H1(m，l)}^p(m，l)G_min ^1-p(m，l)，其中，p(m，l)为近端语音存在概率。上述过程中，可通过参数G_min，q₀，和平滑因子等对增益进行调整，以达到根据具体应用的声学环境控制近端语音的失真情况的目的。上述增益控制流程如图5所示。

5，子带谱域到线性谱域转换

步骤13)复数谱

且

为与分析窗双正交的合成窗。

Claims

1.一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其特征在于，包括：

(1)使用基于NLMS算法的线性回声消除；

(2)线性谱域到子带谱域转换；

(3)DNN模型；

(4)增益控制；

(5)子带谱域到线性谱域转换。

2.如权利要求1所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其特征在于，(1)包括：

3.如权利要求2所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其特征在于，(2)包括：

erb(f)＝21.4log₁₀(1+0.00437f) (1)

f(erb)＝(10^erb/21.4-1)/0.00437 (2)

子带划分分为以下三步：1)确定线性频域的频率范围[f₁，f_u]，在具体实施时，如对于采样率为16kHz的音频信号，其待划分的频率范围可为[100，8000]，通过公式(1)，将线性频率范围转换为ERB范围[erb_l，erb_u]；2)确定子带个数M,在具体实施时,可取M＝40，将ERB范围平均划分为M等份，则M+2个ERB频点可表示是为(erb_l，erb_l+Δ，…，erb_l+(M+1)Δ)，其中Δ＝(erb_u-erb_l)/M；3)根据等式(2)，将上述ERB频点转换到线性频点h(i),根据公式f(i)＝floor((N+1)*h(i)/fs)，(其中，N表示FFT的长度，fs为采样率)，得到线性频点h(i)对应的频率索引f(i)。在具体实施中，对音频信号做N＝512点的FFT；

使用该三角滤波器组对步骤2)计算得到的频谱X(k，l),Y(k，l),和E(k，l)进行滤波，得到X_s(m，l)，Y_s(m，l)，和E_s(m，l)，其中(以X_s(m，l)为例)，

X_s(m，l)＝∑_kw_m(k)|X(k，l)|²,

即得到子带频域的参考能量谱、滤波能量谱和误差能量谱。具体实施时，对于N＝512点的FFT，该线性谱域的频带个数为257(即512/2+1)个，而经过ERB尺度的子带的转换，频带的个数减少为M＝40，即参与后续DNN的计算量减少。

4.如权利要求1所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其特征在于，(3)包括：

F(l)＝log10[concat(X_s(m，l)，Y_s(m，l)，E_s(m，l))]

其中，[]表示向量连接，g(x)为GRU层计算函数。

5.如权利要求2所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其特征在于，(4)包括：

α是平滑因子，在实际实施中，取α＝0.95，则后验信噪比可估计为

ξ(m，l)为先验信噪比，γ(m，l)为后验信噪比；

6.如权利要求5所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其特征在于，(5)包括：

步骤13)复数谱

且

为与分析窗双正交的合成窗。

7.如权利要求6所述的一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法，其特征在于，在DNN模型的训练中，需要准备的数据包括近端语音信号数据，回声信号数据和参考信号数据，以及混响数据，其中回声数据中需包含尽可能多的设备数据，即包含不同的非线性回声；

将回声数据和近端语音信号按照不同的信噪比进行混合，得到麦克风数据，将模拟的麦克风数据和参考数据经过步骤1)中的线性回声处理，得到滤波信号和误差信号；将其和参考信号一同送入线性谱域到子带谱域转换模块，得到上述所示的DNN模型特征，将对应的近端语音数据同样经过线性谱域到子带谱域转换模块处理，和子带误差能量谱进行计算，得到DNN模型的目标数据mask，使用均方误差损失函数作为模型的优化准则，基于深度学习训练框架，对DNN模型进行训练。