CN117542342A - 一种基于自适应滤波与神经网络的回声消除方法 - Google Patents

一种基于自适应滤波与神经网络的回声消除方法 Download PDF

Info

Publication number
CN117542342A
CN117542342A CN202311517595.3A CN202311517595A CN117542342A CN 117542342 A CN117542342 A CN 117542342A CN 202311517595 A CN202311517595 A CN 202311517595A CN 117542342 A CN117542342 A CN 117542342A
Authority
CN
China
Prior art keywords
time
frequency
echo cancellation
self
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311517595.3A
Other languages
English (en)
Inventor
徐诗韵
王明江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202311517595.3A priority Critical patent/CN117542342A/zh
Publication of CN117542342A publication Critical patent/CN117542342A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

本发明涉及声音处理技术领域,尤其涉及一种基于自适应滤波与神经网络的回声消除方法。该模型由两部分组成:用于消除线性回声的Speex算法,以及进一步消除回声的多尺度时频UNet。主要优点如下:(1)在自适应滤波之前进行了时间对齐,弥补了回声信号的延迟,提升了自适应滤波器的回声消除效果;(2)以UNet为基础,构建了一个能多尺度地提取时频维度特征的神经网络;(3)该多级回声消除模型可以在复杂的噪声、混响环境下实现优越的回声消除效果。

Description

一种基于自适应滤波与神经网络的回声消除方法
技术领域
本发明涉及声音处理技术领域,尤其涉及一种基于自适应滤波与神经网络的回声消除方法。
背景技术
5G时代的来临,VoIP(Voice over Internet Protocol)通信技术更能够满足广大群众的需求,并且已经得到了广泛的应用。尽管VoIP通信非常方便,但在通话过程中,会存在回声,影响通话质量,给通话者带来困扰。目前已有的回声消除方案主要基于自适应滤波,但现实声学环境复杂多变,存在大量噪声与混响。传统的自适应滤波难以处理这种情况,无法实现良好的回声消除效果。
发明内容
针对现有技术中存在的缺陷或不足,本发明所要解决的技术问题是:提供一种基于自适应滤波器和深度神经网络的多级声学回声消除模型。该模型由两部分组成:用于消除线性回声的Speex算法,以及进一步消除回声的多尺度时频UNet。
为了实现上述目的,本发明采取的技术方案为提供一种基于自适应滤波与神经网络的回声消除方法,包括以下步骤:采用Speex算法作为自适应滤波器对线性回声进行消除,首先通过时间对齐模块对远端的参考语音信号x(n)和近端的麦克风d(n)进行延迟估计和补偿,从而得到x(n-Δ),其中Δ代表估计的延迟值;将x(n-Δ)与d(n)输入到预先设定的自适应滤波器中,进行初步的回声消除,最后输出线性回声消除后的误差信号e(n);
以UNet为基本框架,搭建了一个多尺度时频UNet对非线性回声进行消除,
作为本发明的进一步改进,最大化地利用音频数据,对x(n)、d(n)和e(n)执行了STFT处理,将这些信号从时域转化到时频域,从而获得了X(L,F)、D(L,F)和E(L,F),这里的L和F分别代表复值频谱的时间帧和频率帧,将这三个时频域的复值频谱送入预建的深度神经网络进行训练和预测,输出预测的近端语音复值频谱通过iSTFT转换,将转回到估计的近端语音信号/>完成回声的多阶段消除。
作为本发明的进一步改进,所述自适应滤波器的滤波采用多延迟块滤波器,使用了INTERSPEECH 2021声学进行回声消除,使用了广义互相关相位变换算法对两个信号进行时间对齐。
作为本发明的进一步改进,所述多尺度时频UNet先通过相位编码器将复值频谱转为实值频谱,采用一个输入卷积层以提取特征并调整通道数量,构建了主网络,包含三个编码器,两个底层模块,以及三个解码器,利用一个输出卷积层,并应用相应的掩模,从而产生了回声消除后的预测语音频谱。
作为本发明的进一步改进,:在所述每个编码器中集成了频率下采样模块、时间频率卷积模块和改良的时频自注意力模块,时频自注意力模块在低计算复杂度的条件下有效地提取语音信息,主要包括两个关键因素:(1)时频自注意力模块将时频自注意力分为了时间自注意力和频率自注意力,时间自注意力和频率自注意力的计算复杂度分别为L2和F2,与简单的自注意相比,计算复杂度从L2×F2降低到L2+F2,(2)在生成自注意图之前集成了1×1点卷积和3×3深度卷积。
作为本发明的进一步改进,采用通道时频注意力来连接编码器与解码器,用于捕捉通道与时频维度的特征信息,在整个训练过程中,loss函数使用了复值均方误差(complex Mean Squared Error,cMSE)作为损失函数,其cMSE的具体计算过程如公式(1)所示:
式中,α和β的值分别是0.3和0.7,PcRI和PcMag的计算方式如下所示:
式中,ScRI和ScMag分别代表干净语音的复值压缩频谱和幅度压缩频谱,
表示估计的语音频谱,ScRI和ScMag的计算过程如下:
ScMag=|SMag|c#(4)
式中,c是压缩系数,值为0.3。
本发明的有益效果是:本发明的主要优点如下:(1)在自适应滤波之前进行了时间对齐,弥补了回声信号的延迟,提升了自适应滤波器的回声消除效果;(2)以UNet为基础,构建了一个能多尺度地提取时频维度特征的神经网络;(3)该多级回声消除模型可以在复杂的噪声、混响环境下实现优越的回声消除效果。
附图说明
图1是本发明的多级回声消除模型结构示意图;
图2是本发明的MDF滤波器结构示意图;
图3是本发明的MSTFUNet整体框架示意图;
图4是本发明的ITFSA结构示意图;
图5是本发明的CTFA结构示意图;
图6是本发明的语谱图比较结果示意图。
具体实施方式
下面结合附图说明及具体实施方式对本发明进一步说明。
本发明基于自适应滤波器和深度神经网络,搭建了一个多级回声消除模型,实现了优越的回声消除效果。该多级回声消除模型结构如图1所示。
这个模型包括两个步骤,它们各自针对线性和非线性回声进行消除。在第一步中,首先通过时间对齐模块对远端的参考语音信号x(n)和近端的麦克风d(n)进行延迟估计和补偿,从而得到x(n-Δ),其中Δ代表估计的延迟值。接下来,x(n-Δ)与d(n)输入到预先设定的自适应滤波器中,进行初步的回声消除,最后输出线性回声消除后的误差信号e(n)。
在模型的第二步中,为了最大化地利用音频数据,我们首先对x(n)、d(n)和e(n)执行了STFT处理,将这些信号从时域转化到时频域,从而获得了X(L,F)、D(L,F)和E(L,F),这里的L和F分别代表复值频谱的时间帧和频率帧。随后,我们将这三个时频域的复值频谱送入预建的深度神经网络进行训练和预测,输出预测的近端语音复值频谱最终,通过iSTFT转换,我们将/>转回到估计的近端语音信号/>从而完成了回声的多阶段消除。
在这项发明中,我们选择了Speex算法作为自适应滤波器消除线性回声。Speex是一款开源的音频编解码算法,利用它实现的自适应滤波可以在低延迟下达到优秀的回声消除效果。其滤波组成部分主要采用多延迟块(Multi-Delay block Filter,MDF)滤波器,其结构如图2展示。
为了展示Speex算法在回声消除领域的表现,我们使用了INTERSPEECH 2021声学回声消除挑战赛的合成数据集进行实验。这个数据集含有10000个模拟场景,覆盖了如单端通话、双端通话、近端噪音、远端噪音及各类非线性失真的情境。此外,数据集内的语音片段长度为10秒,其中50%的数据包含0~40dB信噪比的噪声,还有-10~10dB信号-回声比的回声。基于这些数据,我们使用PESQ和STOI作为指标,对比了Speex算法和其他几种经典的自适应滤波器的效果,具体结果参见表1。
表1不同自适应滤波算法测试结果
从表1中我们可以观察到,经过LMS、NLMS、Kalman和PFDKF算法的处理后,测试集的PESQ和STOI指标并未显著改善,某些情况下,这些评估指标还出现了明显下滑。相比之下,Speex算法展示了更为出色的回声消除能力。经其处理后,PESQ增长了0.531,而STOI也提高了0.098。
在通话过程中,由于网络传输信号的速度有限且音频需要经过编解码过程,导致回声信号与远端音频信号之间存在一定延迟,影响回声消除性能。为此,我们使用了广义互相关相位变换(Generalized Cross Correlation PHAse Transformation,GCC-PHAT)算法对两个信号进行时间对齐。表2显示了时间对齐后的自适应滤波算法结果。可以看出时间对齐确实能够提升自适应滤波器的性能。
表2不同自适应滤波算法时间对齐测试结果
之后,我们以UNet为基本框架,搭建了一个多尺度时频UNet(Multi-Scale Time-Frequency UNet,MSTFUNet)用以消除难以消除的非线性回声。MSTFUNet的整体框架如图3所示。
在MSTFUNet模型中,首先通过相位编码器(Phase Encoder)将复值频谱转为实值频谱。接着,我们采用一个输入卷积层以提取特征并调整通道数量。在此基础上,我们构建了主网络,包含三个编码器,两个底层模块,以及三个解码器。
在每个编码器中,我们主要集成了频率下采样(FD)模块、时间频率卷积模块(TFCM)和改良的时频自注意力模块(ITFSA)。颈部模块则是由TFCM和ITFSA构成。解码器的构造与编码器类似,不同之处在于使用了频率上采样(FU)模块来替代FD模块。同时,我们采用通道时频注意力(CTFA)来连接编码器与解码器。最终,我们利用一个输出卷积层,并应用相应的掩模,从而产生了回声消除后的预测语音频谱。
ITFSA的结构如图4所示,是一种改进的自注意力模块。ITFSA在低计算复杂度的条件下有效地提取语音信息,主要是由于两个关键因素:(1)ITFSA将时频自注意里分为了时间自注意力和频率自注意力。时间自注意力和频率自注意力的计算复杂度分别为L2和F2。与简单的自注意相比,计算复杂度从L2×F2降低到L2+F2。(2)为了增强对局部信息的重视,我们在生成自注意图之前集成了1×1点卷积和3×3深度卷积。
图5显示了CTFA的具体结构。CTFA的使用主要是为了解决上采样与下采样过程在存在的信息丢失问题并进一步捕捉通道与时频维度的特征信息。
在整个训练过程中,为了更好地利用幅度信息与相位信息,我们的loss函数使用了复值均方误差(complex Mean Squared Error,cMSE)作为损失函数。cMSE的具体计算过程如公式(1)所示:
其中,α和β的值分别是0.3和0.7,PcRI和PcMag的计算方式如下所示:
其中,ScRI和ScMag分别代表干净语音的复值压缩频谱和幅度压缩频谱。表示估计的语音频谱。为了让公式显得简单,省略了时间帧L和频率帧F。ScRI和ScMag的计算过程如下:
ScMag=|SMag|c#(4)
其中,c是压缩系数,值为0.3。
最后,我们使用了之前提及的数据集,并选取了PESQ、STOI与AECMOS指标,与目前一些先进的模型进行了比较,结果如表3所示。为了更直观地显示回声消除效果,图6显示了语谱图比较。由表3和图6可以看出,我们提出的多级回声消除模型展现出了优越的噪声消除、混响抑制和回声消除性能。
表3不同回声消除模型性能比较
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (6)

1.一种基于自适应滤波与神经网络的回声消除方法,其特征在于,包括以下步骤:
采用Speex算法作为自适应滤波器对线性回声进行消除,首先通过时间对齐模块对远端的参考语音信号x(n)和近端的麦克风d(n)进行延迟估计和补偿,从而得到x(n-Δ),其中Δ代表估计的延迟值;将x(n-Δ)与d(n)输入到预先设定的自适应滤波器中,进行初步的回声消除,最后输出线性回声消除后的误差信号e(n);
以UNet为基本框架,搭建了一个多尺度时频UNet对非线性回声进行消除。
2.根据权利要求1所述的基于自适应滤波与神经网络的回声消除方法,其特征在于:最大化地利用音频数据,对x(n)、d(n)和e(n)执行了STFT处理,将这些信号从时域转化到时频域,从而获得了X(L,F)、D(L,F)和E(L,F),这里的L和F分别代表复值频谱的时间帧和频率帧,将这三个时频域的复值频谱送入预建的深度神经网络进行训练和预测,输出预测的近端语音复值频谱通过iSTFT转换,将/>转回到估计的近端语音信号/>完成回声的多阶段消除。
3.根据权利要求1所述的基于自适应滤波与神经网络的回声消除方法,其特征在于:所述自适应滤波器的滤波采用多延迟块滤波器,使用了INTERSPEECH 2021声学进行回声消除,使用了广义互相关相位变换算法对两个信号进行时间对齐。
4.根据权利要求1所述的基于自适应滤波与神经网络的回声消除方法,其特征在于:所述多尺度时频UNet先通过相位编码器将复值频谱转为实值频谱,采用一个输入卷积层以提取特征并调整通道数量,构建了主网络,包含三个编码器,两个底层模块,以及三个解码器,利用一个输出卷积层,并应用相应的掩模,从而产生了回声消除后的预测语音频谱。
5.根据权利要求4所述的基于自适应滤波与神经网络的回声消除方法,其特征在于:在所述每个编码器中集成了频率
下采样模块、时间频率卷积模块和改良的时频自注意力模块,时频自注意力模块在低计算复杂度的条件下有效地提取语音信息,主要包括两个关键因素:(1)时频自注意力模块将时频自注意力分为了时间自注意力和频率自注意力,时间自注意力和频率自注意力的计算复杂度分别为L2和F2,与简单的自注意相比,计算复杂度从L2×F2降低到L2+F2,(2)在生成自注意图之前集成了1×1点卷积和3×3深度卷积。
6.根据权利要求4所述的基于自适应滤波与神经网络的回声消除方法,其特征在于:采用通道时频注意力来连接编码器与解码器,用于捕捉通道与时频维度的特征信息,在整个训练过程中,loss函数使用了复值均方误差(complex Mean Squared Error,cMSE)作为损失函数,其cMSE的具体计算过程如公式(1)所示:
式中,α和β的值分别是0.3和0.7,PcRI和PcMag的计算方式如下所示:
式中,ScRI和ScMag分别代表干净语音的复值压缩频谱和幅度压缩频谱,表示估计的语音频谱,ScRI和ScMag的计算过程如下:
ScMag=|SMag|c#(4)
式中,c是压缩系数,值为0.3。
CN202311517595.3A 2023-11-15 2023-11-15 一种基于自适应滤波与神经网络的回声消除方法 Pending CN117542342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311517595.3A CN117542342A (zh) 2023-11-15 2023-11-15 一种基于自适应滤波与神经网络的回声消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311517595.3A CN117542342A (zh) 2023-11-15 2023-11-15 一种基于自适应滤波与神经网络的回声消除方法

Publications (1)

Publication Number Publication Date
CN117542342A true CN117542342A (zh) 2024-02-09

Family

ID=89785493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311517595.3A Pending CN117542342A (zh) 2023-11-15 2023-11-15 一种基于自适应滤波与神经网络的回声消除方法

Country Status (1)

Country Link
CN (1) CN117542342A (zh)

Similar Documents

Publication Publication Date Title
US6496795B1 (en) Modulated complex lapped transform for integrated signal enhancement and coding
WO2021147237A1 (zh) 语音信号处理方法、装置、电子设备及存储介质
US20080091415A1 (en) System and method for canceling acoustic echoes in audio-conference communication systems
CN101222555A (zh) 改善音频通话质量的系统及方法
KR101433833B1 (ko) 음향 신호에 확장된 대역폭을 제공하기 위한 방법 및시스템
WO2023044961A1 (zh) 基于自注意力变换网络的多特征融合回声消除方法及系统
Ma et al. Acoustic echo cancellation by combining adaptive digital filter and recurrent neural network
CN102377454B (zh) 一种回声消除的方法和装置
CN110867192A (zh) 基于门控循环编解码网络的语音增强方法
US6718036B1 (en) Linear predictive coding based acoustic echo cancellation
Peng et al. ICASSP 2021 acoustic echo cancellation challenge: Integrated adaptive echo cancellation with time alignment and deep learning-based residual echo plus noise suppression
WO2019024621A1 (zh) 一种声学回声抵消器输出语音信号的后处理方法及装置
CN114530160A (zh) 模型训练方法、回声消除方法、系统、设备及存储介质
Yang Multilayer adaptation based complex echo cancellation and voice enhancement
CN115579016B (zh) 一种声学回声消除的方法和系统
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN117542342A (zh) 一种基于自适应滤波与神经网络的回声消除方法
CN113936680B (zh) 基于多尺度信息感知卷积神经网络的单通道语音增强方法
CN101604527A (zh) VoIP环境下基于G.711编码隐藏传送宽频语音的方法
CN115273884A (zh) 基于频谱压缩和神经网络的多阶段全频带语音增强方法
CN205912127U (zh) 一种用于移动视频直播的回声消除装置
JP2024502287A (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
CN101930745B (zh) 一种在ip语音通信中消除回声的方法和设备
JP2000134138A (ja) 副帯エコ―を打ち消すための無遅延システム
Hamidia et al. Influence of noisy channel on acoustic echo cancellation in mobile communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination