CN117542342A

CN117542342A - 一种基于自适应滤波与神经网络的回声消除方法

Info

Publication number: CN117542342A
Application number: CN202311517595.3A
Authority: CN
Inventors: 徐诗韵; 王明江
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-09

Abstract

本发明涉及声音处理技术领域，尤其涉及一种基于自适应滤波与神经网络的回声消除方法。该模型由两部分组成：用于消除线性回声的Speex算法，以及进一步消除回声的多尺度时频UNet。主要优点如下：（1）在自适应滤波之前进行了时间对齐，弥补了回声信号的延迟，提升了自适应滤波器的回声消除效果；（2）以UNet为基础，构建了一个能多尺度地提取时频维度特征的神经网络；（3）该多级回声消除模型可以在复杂的噪声、混响环境下实现优越的回声消除效果。

Description

一种基于自适应滤波与神经网络的回声消除方法

技术领域

本发明涉及声音处理技术领域，尤其涉及一种基于自适应滤波与神经网络的回声消除方法。

背景技术

5G时代的来临，VoIP(Voice over Internet Protocol)通信技术更能够满足广大群众的需求，并且已经得到了广泛的应用。尽管VoIP通信非常方便，但在通话过程中，会存在回声，影响通话质量，给通话者带来困扰。目前已有的回声消除方案主要基于自适应滤波，但现实声学环境复杂多变，存在大量噪声与混响。传统的自适应滤波难以处理这种情况，无法实现良好的回声消除效果。

发明内容

针对现有技术中存在的缺陷或不足，本发明所要解决的技术问题是：提供一种基于自适应滤波器和深度神经网络的多级声学回声消除模型。该模型由两部分组成：用于消除线性回声的Speex算法，以及进一步消除回声的多尺度时频UNet。

为了实现上述目的，本发明采取的技术方案为提供一种基于自适应滤波与神经网络的回声消除方法，包括以下步骤：采用Speex算法作为自适应滤波器对线性回声进行消除，首先通过时间对齐模块对远端的参考语音信号x(n)和近端的麦克风d(n)进行延迟估计和补偿，从而得到x(n-Δ)，其中Δ代表估计的延迟值；将x(n-Δ)与d(n)输入到预先设定的自适应滤波器中，进行初步的回声消除，最后输出线性回声消除后的误差信号e(n)；

以UNet为基本框架，搭建了一个多尺度时频UNet对非线性回声进行消除，

作为本发明的进一步改进，最大化地利用音频数据，对x(n)、d(n)和e(n)执行了STFT处理，将这些信号从时域转化到时频域，从而获得了X(L,F)、D(L,F)和E(L,F)，这里的L和F分别代表复值频谱的时间帧和频率帧，将这三个时频域的复值频谱送入预建的深度神经网络进行训练和预测，输出预测的近端语音复值频谱通过iSTFT转换，将转回到估计的近端语音信号/>完成回声的多阶段消除。

作为本发明的进一步改进，所述自适应滤波器的滤波采用多延迟块滤波器，使用了INTERSPEECH 2021声学进行回声消除，使用了广义互相关相位变换算法对两个信号进行时间对齐。

作为本发明的进一步改进，所述多尺度时频UNet先通过相位编码器将复值频谱转为实值频谱，采用一个输入卷积层以提取特征并调整通道数量，构建了主网络，包含三个编码器，两个底层模块，以及三个解码器，利用一个输出卷积层，并应用相应的掩模，从而产生了回声消除后的预测语音频谱。

作为本发明的进一步改进，：在所述每个编码器中集成了频率下采样模块、时间频率卷积模块和改良的时频自注意力模块，时频自注意力模块在低计算复杂度的条件下有效地提取语音信息，主要包括两个关键因素：(1)时频自注意力模块将时频自注意力分为了时间自注意力和频率自注意力，时间自注意力和频率自注意力的计算复杂度分别为L²和F²，与简单的自注意相比，计算复杂度从L²×F²降低到L²+F²，(2)在生成自注意图之前集成了1×1点卷积和3×3深度卷积。

作为本发明的进一步改进，采用通道时频注意力来连接编码器与解码器，用于捕捉通道与时频维度的特征信息，在整个训练过程中，loss函数使用了复值均方误差(complex Mean Squared Error，cMSE)作为损失函数，其cMSE的具体计算过程如公式(1)所示：

式中，α和β的值分别是0.3和0.7，P_cRI和P_cMag的计算方式如下所示：

式中，S_cRI和S_cMag分别代表干净语音的复值压缩频谱和幅度压缩频谱，

表示估计的语音频谱，S_cRI和S_cMag的计算过程如下：

S_cMag＝|S_Mag|^c#(4)

式中，c是压缩系数，值为0.3。

本发明的有益效果是：本发明的主要优点如下：(1)在自适应滤波之前进行了时间对齐，弥补了回声信号的延迟，提升了自适应滤波器的回声消除效果；(2)以UNet为基础，构建了一个能多尺度地提取时频维度特征的神经网络；(3)该多级回声消除模型可以在复杂的噪声、混响环境下实现优越的回声消除效果。

附图说明

图1是本发明的多级回声消除模型结构示意图；

图2是本发明的MDF滤波器结构示意图；

图3是本发明的MSTFUNet整体框架示意图；

图4是本发明的ITFSA结构示意图；

图5是本发明的CTFA结构示意图；

图6是本发明的语谱图比较结果示意图。

具体实施方式

下面结合附图说明及具体实施方式对本发明进一步说明。

本发明基于自适应滤波器和深度神经网络，搭建了一个多级回声消除模型，实现了优越的回声消除效果。该多级回声消除模型结构如图1所示。

这个模型包括两个步骤，它们各自针对线性和非线性回声进行消除。在第一步中，首先通过时间对齐模块对远端的参考语音信号x(n)和近端的麦克风d(n)进行延迟估计和补偿，从而得到x(n-Δ)，其中Δ代表估计的延迟值。接下来，x(n-Δ)与d(n)输入到预先设定的自适应滤波器中，进行初步的回声消除，最后输出线性回声消除后的误差信号e(n)。

在模型的第二步中，为了最大化地利用音频数据，我们首先对x(n)、d(n)和e(n)执行了STFT处理，将这些信号从时域转化到时频域，从而获得了X(L,F)、D(L,F)和E(L,F)，这里的L和F分别代表复值频谱的时间帧和频率帧。随后，我们将这三个时频域的复值频谱送入预建的深度神经网络进行训练和预测，输出预测的近端语音复值频谱最终，通过iSTFT转换，我们将/>转回到估计的近端语音信号/>从而完成了回声的多阶段消除。

在这项发明中，我们选择了Speex算法作为自适应滤波器消除线性回声。Speex是一款开源的音频编解码算法，利用它实现的自适应滤波可以在低延迟下达到优秀的回声消除效果。其滤波组成部分主要采用多延迟块(Multi-Delay block Filter，MDF)滤波器，其结构如图2展示。

为了展示Speex算法在回声消除领域的表现，我们使用了INTERSPEECH 2021声学回声消除挑战赛的合成数据集进行实验。这个数据集含有10000个模拟场景，覆盖了如单端通话、双端通话、近端噪音、远端噪音及各类非线性失真的情境。此外，数据集内的语音片段长度为10秒，其中50％的数据包含0～40dB信噪比的噪声，还有-10～10dB信号-回声比的回声。基于这些数据，我们使用PESQ和STOI作为指标，对比了Speex算法和其他几种经典的自适应滤波器的效果，具体结果参见表1。

表1不同自适应滤波算法测试结果

从表1中我们可以观察到，经过LMS、NLMS、Kalman和PFDKF算法的处理后，测试集的PESQ和STOI指标并未显著改善，某些情况下，这些评估指标还出现了明显下滑。相比之下，Speex算法展示了更为出色的回声消除能力。经其处理后，PESQ增长了0.531，而STOI也提高了0.098。

在通话过程中，由于网络传输信号的速度有限且音频需要经过编解码过程，导致回声信号与远端音频信号之间存在一定延迟，影响回声消除性能。为此，我们使用了广义互相关相位变换(Generalized Cross Correlation PHAse Transformation，GCC-PHAT)算法对两个信号进行时间对齐。表2显示了时间对齐后的自适应滤波算法结果。可以看出时间对齐确实能够提升自适应滤波器的性能。

表2不同自适应滤波算法时间对齐测试结果

之后，我们以UNet为基本框架，搭建了一个多尺度时频UNet(Multi-Scale Time-Frequency UNet，MSTFUNet)用以消除难以消除的非线性回声。MSTFUNet的整体框架如图3所示。

在MSTFUNet模型中，首先通过相位编码器(Phase Encoder)将复值频谱转为实值频谱。接着，我们采用一个输入卷积层以提取特征并调整通道数量。在此基础上，我们构建了主网络，包含三个编码器，两个底层模块，以及三个解码器。

在每个编码器中，我们主要集成了频率下采样(FD)模块、时间频率卷积模块(TFCM)和改良的时频自注意力模块(ITFSA)。颈部模块则是由TFCM和ITFSA构成。解码器的构造与编码器类似，不同之处在于使用了频率上采样(FU)模块来替代FD模块。同时，我们采用通道时频注意力(CTFA)来连接编码器与解码器。最终，我们利用一个输出卷积层，并应用相应的掩模，从而产生了回声消除后的预测语音频谱。

ITFSA的结构如图4所示，是一种改进的自注意力模块。ITFSA在低计算复杂度的条件下有效地提取语音信息，主要是由于两个关键因素：(1)ITFSA将时频自注意里分为了时间自注意力和频率自注意力。时间自注意力和频率自注意力的计算复杂度分别为L²和F²。与简单的自注意相比，计算复杂度从L²×F²降低到L²+F²。(2)为了增强对局部信息的重视，我们在生成自注意图之前集成了1×1点卷积和3×3深度卷积。

图5显示了CTFA的具体结构。CTFA的使用主要是为了解决上采样与下采样过程在存在的信息丢失问题并进一步捕捉通道与时频维度的特征信息。

在整个训练过程中，为了更好地利用幅度信息与相位信息，我们的loss函数使用了复值均方误差(complex Mean Squared Error，cMSE)作为损失函数。cMSE的具体计算过程如公式(1)所示：

其中，α和β的值分别是0.3和0.7，P_cRI和P_cMag的计算方式如下所示：

其中，S_cRI和S_cMag分别代表干净语音的复值压缩频谱和幅度压缩频谱。表示估计的语音频谱。为了让公式显得简单，省略了时间帧L和频率帧F。S_cRI和S_cMag的计算过程如下：

S_cMag＝|S_Mag|^c#(4)

其中，c是压缩系数，值为0.3。

最后，我们使用了之前提及的数据集，并选取了PESQ、STOI与AECMOS指标，与目前一些先进的模型进行了比较，结果如表3所示。为了更直观地显示回声消除效果，图6显示了语谱图比较。由表3和图6可以看出，我们提出的多级回声消除模型展现出了优越的噪声消除、混响抑制和回声消除性能。

表3不同回声消除模型性能比较

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于自适应滤波与神经网络的回声消除方法，其特征在于，包括以下步骤：

采用Speex算法作为自适应滤波器对线性回声进行消除，首先通过时间对齐模块对远端的参考语音信号x(n)和近端的麦克风d(n)进行延迟估计和补偿，从而得到x(n-Δ)，其中Δ代表估计的延迟值；将x(n-Δ)与d(n)输入到预先设定的自适应滤波器中，进行初步的回声消除，最后输出线性回声消除后的误差信号e(n)；

以UNet为基本框架，搭建了一个多尺度时频UNet对非线性回声进行消除。

2.根据权利要求1所述的基于自适应滤波与神经网络的回声消除方法，其特征在于：最大化地利用音频数据，对x(n)、d(n)和e(n)执行了STFT处理，将这些信号从时域转化到时频域，从而获得了X(L,F)、D(L,F)和E(L,F)，这里的L和F分别代表复值频谱的时间帧和频率帧，将这三个时频域的复值频谱送入预建的深度神经网络进行训练和预测，输出预测的近端语音复值频谱通过iSTFT转换，将/>转回到估计的近端语音信号/>完成回声的多阶段消除。

3.根据权利要求1所述的基于自适应滤波与神经网络的回声消除方法，其特征在于：所述自适应滤波器的滤波采用多延迟块滤波器，使用了INTERSPEECH 2021声学进行回声消除，使用了广义互相关相位变换算法对两个信号进行时间对齐。

4.根据权利要求1所述的基于自适应滤波与神经网络的回声消除方法，其特征在于：所述多尺度时频UNet先通过相位编码器将复值频谱转为实值频谱，采用一个输入卷积层以提取特征并调整通道数量，构建了主网络，包含三个编码器，两个底层模块，以及三个解码器，利用一个输出卷积层，并应用相应的掩模，从而产生了回声消除后的预测语音频谱。

5.根据权利要求4所述的基于自适应滤波与神经网络的回声消除方法，其特征在于：在所述每个编码器中集成了频率

下采样模块、时间频率卷积模块和改良的时频自注意力模块，时频自注意力模块在低计算复杂度的条件下有效地提取语音信息，主要包括两个关键因素：(1)时频自注意力模块将时频自注意力分为了时间自注意力和频率自注意力，时间自注意力和频率自注意力的计算复杂度分别为L²和F²，与简单的自注意相比，计算复杂度从L²×F²降低到L²+F²，(2)在生成自注意图之前集成了1×1点卷积和3×3深度卷积。

6.根据权利要求4所述的基于自适应滤波与神经网络的回声消除方法，其特征在于：采用通道时频注意力来连接编码器与解码器，用于捕捉通道与时频维度的特征信息，在整个训练过程中，loss函数使用了复值均方误差(complex Mean Squared Error，cMSE)作为损失函数，其cMSE的具体计算过程如公式(1)所示：

式中，S_cRI和S_cMag分别代表干净语音的复值压缩频谱和幅度压缩频谱，表示估计的语音频谱，S_cRI和S_cMag的计算过程如下：

S_cMag＝|S_Mag|^c#(4)

式中，c是压缩系数，值为0.3。