CN114283830A

CN114283830A - 基于深度学习网络的麦克风信号回声消除模型构建方法

Info

Publication number: CN114283830A
Application number: CN202111554165.XA
Authority: CN
Inventors: 王青云; 梁瑞宇; 孙世若; 谢跃; 唐闺臣; 包永强
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-05

Abstract

本发明公开了基于深度学习网络的麦克风信号回声消除模型构建方法。本发明采用归一化最小均方算法消除由多路径和房间声学冲激响应引入的线性回声，然后利用残余回声信号和近端麦克风信号计算IRM作为训练目标，并将经过归一化最小均方算法处理的近端麦克风信号和远端参考信号作为输入，构建具有实时编码器‑解码器结构的CRN模型；最后，将预估残余信号从近端麦克风信号中减去重构语音，本发明联合归一化最小均方算法与基于CRN模型的深度学习网络实时回声消除算法，可以提高麦克风回声消除的性能，具有良好的应用前景。

Description

基于深度学习网络的麦克风信号回声消除模型构建方法

技术领域

本发明涉及麦克风回声消除技术领域，具体涉及基于深度学习网络的麦克风信号回声消除模型构建方法。

背景技术

语音是现代通信的重要载体，随着远程工作的日益普及，电话会议系统的使用也显著增加，回声引起的通话质量下降是语音和视频通话语音质量降低的主要原因之一，虽然基于数字信号处理的声学回AEC模型已经被用于在通话中，但在实验室仿真测试环境以外，它们的性能可能会降低，特别是针对部分双讲的场景下。

由于有一个代表回声源的远端参考信号，所以传统方法中，自适应滤波器是用于回声消除，常用的自适应滤波算法包括最小均方算法LMS、归一化最小均方算法等，然而，即便经过自适应滤波，通常仍然会有一些残余的回声，虽然在大多数情况下，它的能量比语音要小得多，但它也会被人耳所感知到，这些残余回声包括由于估计偏差而引入的线性残余，和由音频设备产生的非线性残余分量。对于线性残余，可以通过参数更多的滤波器进一步抑制，但对于非线性残余，传统的自适应方法很难有效处理。

发明内容

为解决上述问题，本发明联合归一化最小均方算法与基于CRN模型的深度学习网络实时回声消除算法，提出基于深度学习网络的麦克风信号回声消除模型构建方法。

为了达到上述目的，本发明所采用的技术方案是：

基于深度学习网络的麦克风信号回声消除模型构建方法，包括以下步骤：

步骤(A)，采用归一化最小均方算法，并利用代表回声源的远端参考信号对相应含有回声的近端麦克风信号进行线性回声消除，而未被消除的部分回声为残余回声信号；

步骤(B)，分别对残余回声信号、远端参考信号和相应的近端麦克风信号进行短时傅里叶变换处理；

步骤(C)，计算上述信号经短时傅里叶变换处理后相应的对数功率谱作为输入特征，再计算残余回声信号对数功率谱的理想比率掩模IRM作为训练目标，以IRM的均方误差MSE、对数功率谱的均方误差MSE以及加权源失真比率损失作为联合优化准则，并结合网络结构构建训练模型；

步骤(D)，将经过归一化最小均方算法处理的近端麦克风信号和远端参考信号作为输入，构建具有实时编码器-解码器结构的CRN模型作为残余回声消除模型；

步骤(E)，基于训练模型训练残余回声消除模型，并对残余回声消除模型的性能进行评测。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，步骤(A)中所述归一化最小均方算法权重的迭代更新计算方式如公式(1)所示：

公式(1)中，

为算法权重，e(n)为误差信号，即近端麦克风信号和算法输出之间的差值，x(n)为远端参考信号，x^T(n)的上标T表示转置，

表示n+1时刻估计的算法权重。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，步骤(C)中所述理想比率掩模IRM利用干净语音信号和干扰音信号幅值信息，计算干净语音信号和干扰信号之间的能量比，获得介于0到1之间的一个掩膜，用于反映各个时频单元上干净语音信号和干扰信号的比例。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，步骤(C)中所述加权源失真比率损失用于反映语音失真的带权重损失，且对不同尺度的语音幅度敏感。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，步骤(D)中所述CRN模型构成包括4层卷积解码器、4层反卷积解码器和1层门控循环单元网络构成。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，所述理想比率掩模IRM计算方式如公式(2)所示：

公式(2)中，S表示干净语音信号的幅值谱，N表示干扰信号的幅值谱，β为可调节尺度因子，β取值为0.5。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，所述加权源失真比率损失的计算方式如公式(3)、公式(4)所示：

公式(3)与公式(4)中，loss_SDR表示源失真比率损失函数，loss_wSDR表示加权源失真比率损失函数，y_clean表示残余回声信号，y_est表示预估残余回声信号，x表示原始输入信号，所述预估残余回声信号为IRM作用于近端麦克风信号获得。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，所述门控循环单元网络的输入维度为残余回声信号和远端参考信号的对数功率谱，输入维度为F×T×2；

其中F为频率维度，通过计算512点STFT得到F的值为257，T为时间维度，选取窗长为512点的hanning窗，重叠长度为256点。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，步骤(E)，训练残余回声消除模型，并对残余回声消除模型的性能进行评测，其中在残余回声消除模型的训练阶段，设置门控循环单元GRU网络D输入维度中T值为200帧，测试阶段使用完整音频的帧长，编码器通过设置卷积步长为2对频率维度下采样提取音频特征，其采样过程中，设置卷积核大小为3×1用于保证算法的实时性，每一层卷积层还包括一层LN层和ReLU非线性层，经过4层编码器，通道数由2逐层扩展至16、16、32、32，频率维度F由257逐层降至129、65、33、17，解码器通过与解码器相同的反卷积层使得频率维度F逐渐恢复，并将通道逐渐收缩，最终生成与输入近端麦克风信号对数谱维度相同的IRM，通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，融合浅层与深层的信息，由于IRM的值域为[0,1]，则最后一层的激活函数选择Sigmoid。

前述的基于深度学习网络的麦克风信号回声消除模型构建方法，步骤(E)，训练残余回声消除模型，并对残余回声消除模型的性能进行评测，其中在残余回声消除模型评测阶段，评测指标为评估PESQ和ERLE的数值，PESQ的得分范围为-0.5至4.5，PESQ的得分与语音质量成正比，ERLE为回声返回衰减增益用于在单讲条件下反映麦克风信号能量与回声消除后剩余能量的比值，ERLE值与回声消除效果成正比。

本发明的有益效果是：本发明采用归一化最小均方算法消除由多路径和房间声学冲激响应引入的线性回声，然后利用残余回声信号和近端麦克风信号计算IRM作为训练目标，并将经过归一化最小均方算法处理的近端麦克风信号和远端参考信号作为输入，构建具有实时编码器-解码器结构的CRN模型；最后，将预估残余信号从近端麦克风信号中减去重构语音，本发明联合归一化最小均方算法与基于CRN模型的深度学习网络实时回声消除算法，可以提高麦克风回声消除的性能，具有良好的应用前景。

附图说明

图1是本发明基于深度学习网络的麦克风信号回声消除模型构建方法的流程图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明基于深度学习网络的麦克风信号回声消除模型构建方法，包括以下步骤：

前述的步骤(A)中归一化最小均方算法权重的迭代更新计算方式如公式(1)所示：

公式(1)中，

表示n+1时刻估计的算法权重；

步骤(C)，计算上述信号经短时傅里叶变换处理后相应的对数功率谱作为输入特征，再计算残余回声信号对数功率谱的理想比率掩模IRM作为训练目标，以IRM的均方误差MSE、对数功率谱的均方误差MSE以及加权源失真比率损失作为联合优化准则，并结合网络结构构建训练模型，联合优化指联合多种损失函数对模型进行优化，利用多个学习准则提高模型性能；

前述的步骤(C)中理想比率掩模IRM利用干净语音信号和干扰音信号幅值信息，计算干净语音信号和干扰信号之间的能量比，获得介于0到1之间的一个掩膜，用于反映各个时频单元上干净语音信号和干扰信号的比例；

其中，理想比率掩模IRM计算方式如公式(2)所示：

公式(2)中，S表示干净语音信号的幅值谱，N表示干扰信号的幅值谱，β为可调节尺度因子，β取值为0.5；

前述的步骤(C)中加权源失真比率损失用于反映语音失真的带权重损失，且对不同尺度的语音幅度敏感加权源失真比率损失表示为Weighted-SDR Loss训练模型；

其中，加权源失真比率损失的计算方式如公式(3)、公式(4)所示：

公式(3)与公式(4)中，loss_SDR表示源失真比率损失函数，loss_wSDR表示加权源失真比率损失函数，y_clean表示残余回声信号，y_est表示预估残余回声信号，x表示原始输入信号，预估残余回声信号为IRM作用于近端麦克风信号获得，需要进行逆短时傅里叶变换得到最终的时域波形；

前述的步骤(D)中CRN模型构成包括4层卷积解码器、4层反卷积解码器和1层门控循环单元网络构成；

具体的，门控循环单元网络的输入维度为残余回声信号和远端参考信号的对数功率谱，输入维度为F×T×2；

其中F为频率维度，通过计算512点STFT得到F的值为257，T为时间维度，选取窗长为512点的hanning窗，重叠长度为256点；

步骤(E)，基于训练模型训练残余回声消除模型，并对残余回声消除模型的性能进行评测；

前述的步骤(E)中在残余回声消除模型的训练阶段，设置门控循环单元GRU网络D输入维度中T值为200帧，测试阶段使用完整音频的帧长，编码器通过设置卷积步长为2对频率维度下采样提取音频特征，其采样过程中，设置卷积核大小为3×1用于保证算法的实时性，每一层卷积层还包括一层LN层和ReLU非线性层，经过4层编码器，通道数由2逐层扩展至16、16、32、32，频率维度F由257逐层降至129、65、33、17，解码器通过与解码器相同的反卷积层使得频率维度F逐渐恢复，并将通道逐渐收缩，最终生成与输入近端麦克风信号对数谱维度相同的IRM，通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，融合浅层与深层的信息，由于IRM的值域为[0,1]，则最后一层的激活函数选择Sigmoid；

前述的步骤(E)中在残余回声消除模型评测阶段，评测指标为评估PESQ和ERLE的数值，PESQ的得分范围为-0.5至4.5，PESQ的得分与语音质量成正比，ERLE为回声返回衰减增益用于在单讲条件下反映麦克风信号能量与回声消除后剩余能量的比值，ERLE值与回声消除效果成正比。

为充分测试残余回声消除模型性能，实验设置在ICASSP 2021AEC CHALLENGE数据集上进行，训练数据集提供了10000条包含单讲、双讲以及多种非线性失真条件下的样本，每个样本包括远端语音、回声信号、近端语音和近端麦克风信号片段，其中，训练集选择9000条样本，测试集分别选择训练集中的500条双讲样本和500条单讲样本计算指标，数据集使用LibriVox数据集中提取的12000条100小时的音频语音，并生成远端和近端信号，回声信号随机选择不同的房间脉冲响应产生，部分样本中，远端信号会由一个非线性函数处理来模拟扬声器的失真，远端信号从-10dB到10dB均匀采样的信号/回声比与近端信号合成，如表1所示：

表1

其中，Single表示单讲样本，Double为双讲样本，Nearend Mic表示近端麦克风信号；

数据表示不同算法在单讲和双讲下的PESQ和ERLE数值，单讲的理想干净语音是静音，因而无法计算单讲PESQ，故采用/，另一方面，ERLE只适用于单讲条件，因而不计算双讲条件下的ERLE，故采用/；

根据表1中的数据，结合归一化最小均方算法与CRN模型进行回声消除，获得的PESQ和ERLE数值最高，则语音质量以及回声消除效果最好。

综上，本发明采用归一化最小均方算法消除由多路径和房间声学冲激响应引入的线性回声，然后利用残余回声信号和近端麦克风信号计算IRM作为训练目标，并将经过归一化最小均方算法处理的近端麦克风信号和远端参考信号作为输入，构建具有实时编码器-解码器结构的CRN模型；最后，将预估残余信号从近端麦克风信号中减去重构语音，本发明联合归一化最小均方算法与基于CRN模型的深度学习网络实时回声消除算法，可以提高麦克风回声消除的性能，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点，本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(A)中所述归一化最小均方算法权重的迭代更新计算方式如公式(1)所示：

公式(1)中，

表示n+1时刻估计的算法权重。

3.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(C)中所述理想比率掩模IRM利用干净语音信号和干扰音信号幅值信息，计算干净语音信号和干扰信号之间的能量比，获得介于0到1之间的一个掩膜，用于反映各个时频单元上干净语音信号和干扰信号的比例。

4.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(C)中所述加权源失真比率损失用于反映语音失真的带权重损失，且对不同尺度的语音幅度敏感。

5.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(D)中所述CRN模型构成包括4层卷积解码器、4层反卷积解码器和1层门控循环单元网络构成。

6.根据权利要求3所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：所述理想比率掩模IRM计算方式如公式(2)所示：

7.根据权利要求4所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：所述加权源失真比率损失的计算方式如公式(3)、公式(4)所示：

8.根据权利要求5所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：所述门控循环单元网络的输入维度为残余回声信号和远端参考信号的对数功率谱，输入维度为F×T×2；其中F为频率维度，通过计算512点STFT得到F的值为257，T为时间维度，选取窗长为512点的hanning窗，重叠长度为256点。

9.根据权利要求1-8任意一项所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(E)，训练残余回声消除模型，并对残余回声消除模型的性能进行评测，其中在残余回声消除模型的训练阶段，设置门控循环单元GRU网络D输入维度中T值为200帧，测试阶段使用完整音频的帧长，编码器通过设置卷积步长为2对频率维度下采样提取音频特征，其采样过程中，设置卷积核大小为3×1用于保证算法的实时性，每一层卷积层还包括一层LN层和ReLU非线性层，经过4层编码器，通道数由2逐层扩展至16、16、32、32，频率维度F由257逐层降至129、65、33、17，解码器通过与解码器相同的反卷积层使得频率维度F逐渐恢复，并将通道逐渐收缩，最终生成与输入近端麦克风信号对数谱维度相同的IRM，通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，融合浅层与深层的信息，由于IRM的值域为[0,1]，则最后一层的激活函数选择Sigmoid。

10.根据权利要求1所述的基于深度学习网络的麦克风信号回声消除模型构建方法，其特征在于：步骤(E)，训练残余回声消除模型，并对残余回声消除模型的性能进行评测，其中在残余回声消除模型评测阶段，评测指标为评估PESQ和ERLE的数值，PESQ的得分范围为-0.5至4.5，PESQ的得分与语音质量成正比，ERLE为回声返回衰减增益用于在单讲条件下反映麦克风信号能量与回声消除后剩余能量的比值，ERLE值与回声消除效果成正比。