CN116781829A

CN116781829A - 执行声学回声消除的设备及方法

Info

Publication number: CN116781829A
Application number: CN202210348089.5A
Authority: CN
Inventors: 于小汐; 黄瀚韬; 杨子昂; 杨佳兴; 郑力维
Original assignee: MediaTek Singapore Pte Ltd
Current assignee: MediaTek Singapore Pte Ltd
Priority date: 2022-03-07
Filing date: 2022-03-29
Publication date: 2023-09-19
Also published as: TW202336741A; TWI840775B; US20230282197A1; US11984110B2

Abstract

本发明提供执行声学回声消除的设备及方法，可产生高质量的回声抑制后的信号。本发明提供的一种用于执行声学回声消除的设备，可包括：扬声器，用于在设备上输出远端信号；麦克风，用于至少接收近端信号和来自该扬声器的远端信号以产生麦克风输出；人工智能(AI)加速器，用于根据第一神经网络模型和第二神经网络模型执行神经网络操作，以输出回声抑制后的信号；和数字信号处理(DSP)单元，用于：执行自适应滤波以从该麦克风输出中去除该远端信号的至少一部分，以产生滤波后的近端信号；和执行快速傅里叶变换(FFT)和逆向FFT(IFFT)以分别产生该第一神经网络模型的输入和该第二神经网络模型的输入。

Description

执行声学回声消除的设备及方法

技术领域

本发明的实施例涉及用于声学回声(acoustic echo)消除的异构计算系统(heterogeneous computing system)，其中该异构计算系统包括数字信号处理组件和人工智能(Artificial Intelligence，AI)组件。

背景技术

在音频或视频通话中，当远端人的语音传输到近端扬声器(loudspeaker)并被近端麦克风(microphone)拾取时会出现声学回声。扬声器和麦克风之间的耦合会显着降低语音通信的质量。减少声学回声可以提高语音清晰度和质量。

现代视频会议(teleconference)系统执行声学回声消除以抑制回声效应。传统的声学回声消除方法通常基于自适应有限脉冲响应(Finite Impulse Response，FIR)滤波器，该滤波器实时连续适应声学路径。从声学路径信号中减去该滤波器的输出以产生回声的线性部分基本被消除的信号输出。然而，FIR滤波器通常无法去除回声的非线性部分。

因此，需要可改进已有技术的声学回声消除机制以产生高质量的回声抑制后的信号。

发明内容

发明提供执行声学回声消除的设备及方法，可产生高质量的回声抑制后的信号。

本发明提供的一种用于执行声学回声消除的设备，可包括：扬声器，用于在设备上输出远端信号；麦克风，用于至少接收近端信号和来自该扬声器的远端信号以产生麦克风输出；人工智能(AI)加速器，用于根据第一神经网络模型和第二神经网络模型执行神经网络操作，以输出回声抑制后的信号；和数字信号处理(DSP)单元，用于：执行自适应滤波以从该麦克风输出中去除该远端信号的至少一部分，以产生滤波后的近端信号；和执行快速傅里叶变换(FFT)和逆向FFT(IFFT)以分别产生该第一神经网络模型的输入和该第二神经网络模型的输入。

本发明提供的一种包括多级流水线的设备，可包括：两个或更多个数字信号处理(DSP)级，用于执行自适应滤波、快速傅里叶变换(FFT)和逆向FFT(IFFT)；和两个或更多个神经网络级，用于根据第一神经网络模型和第二神经网络模型执行神经网络操作，其中该自适应滤波从麦克风输出中去除远端信号的至少一部分，以产生滤波后的近端信号作为FFT的输入，以及其中该第二神经网络模型接收该IFFT的输出并产生回声抑制后的信号。

本发明提供的一种用于声学回声消除的方法，可包括：由数字信号处理(DSP)单元执行自适应滤波，以从麦克风输出中去除远端信号的至少一部分，以产生滤波后的近端信号；由该DSP单元执行快速傅里叶变换(FFT)以计算该远端信号和该滤波后的近端信号的频谱以产生第一神经网络模型的输入；由人工智能(AI)加速器根据该第一神经网络模型对该频谱执行第一神经网络操作；由DSP单元对该第一神经网络模型的输出执行逆向FFT(IFFT)以产生时域信号作为该第二神经网络模型的输入；和由该AI加速器根据该第二神经网络模型进行第二神经网络操作，以输出回声抑制后的信号。

由上可知，本发明的声学回声消除方案包括自适应滤波、快速傅里叶变换(FFT)、逆向FFT(IFFT)以及神经网络操作，由此可产生高质量的回声抑制后的信号。

附图说明

图1图示了根据一个实施例可操作以执行混合声学回声消除(AEC)的系统。

图2图示了根据一个实施例的混合AEC操作。

图3是图示根据一个实施例的两个神经网络模型的图。

图4是图示根据一个实施例的用于混合AEC的方法的流程图。

图5是根据一个实施例的AEC流水线的示意图。

具体实施方式

在说明书及权利要求书当中使用了某些词汇来指称特定的组件。本领域技术人员应可理解，硬件制造商可能会用不同的名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。在通篇说明书及权利要求当中所提及的“包含”及“包括”为一开放式的用语，故应解释成“包含但不限定于”。“大体上”或“大约”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。此外，“耦接”或“耦合”一词在此包含任何直接及间接的电性连接手段。因此，若文中描述一第一装置耦接于一第二装置，则代表该第一装置可直接电性连接于该第二装置，或通过其它装置或连接手段间接地电性连接至该第二装置。以下所述为实施本发明的较佳方式，目的在于说明本发明的精神而非用以限定本发明的保护范围，本发明的保护范围当视权利要求书所界定者为准。

接下面的描述为本发明预期的最优实施例。这些描述用于阐述本发明的大致原则而不应用于限制本发明。本发明的保护范围应在参考本发明的权利要求书的基础上进行认定。

本发明的实施例提供了一种异构计算系统来执行混合(hybrid)声学回声消除(Acoustic Echo Cancellation，AEC)操作。该异构计算系统包括数字信号处理(DigitalSignal Processing，DSP)电路和神经网络电路。DSP电路和神经网络电路可以形成多级流水线(multi-stage pipeline)以有效地执行混合AEC操作。混合AEC操作包括DSP操作和神经网络操作。DSP操作可能包括自适应滤波、快速傅里叶变换(Fast Fourier Transform，FFT)、逆向FFT(IFFT)等。神经网络操作可能包括卷积、长短期记忆(Long Short-TermMemory，LSTM)网络、全连接(fully-connected)层、sigmoid激活和层归一化(layernormalization)等。本文公开的异构计算架构不仅提高了AEC操作的实时计算效率，而且提高了全双工语音通信系统的语音质量。

图1图示了根据一个实施例的可操作以执行混合AEC操作的系统100。系统100包括DSP单元110和人工智能(AI)加速器120。DSP单元110还可以包括模拟数字转换器(Analog-to-Digital Converter，ADC)111、数字模拟转换器(Digital-to-Analog Converter，DAC)112、DSP存储器113和DSP电路115。DSP单元110用于执行数字处理操作，例如自适应滤波、FFT、IFFT等。AI加速器120还可以包括神经网络(Neural Network，NN)电路125和NN存储器123。NN电路125用于执行神经网络操作，例如卷积、LSTM网络、全连接层、sigmoid激活和层归一化等。DSP电路115和NN电路125可以是可编程电路和/或固定功能电路。系统100可以是计算器、智能手机、音频系统、多媒体系统、视频会议系统或提供双向语音通信的任何设备或系统的一部分。

在一个实施例中，系统100包括主机130，其可以是控制器电路、处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)等)等，以指示DSP单元110和AI加速器120执行混合AEC操作。系统100还包括用于接收声音信号的麦克风140和用于产生声音信号的扬声器150(也称为喇叭)。系统100还包括系统存储器160；例如动态随机存取存储器(DRAM)，用于存储第一NN模型161、第二NN模型162、输入/输出(I/O)缓冲区163及其他信息。第一NN模型161和第二NN模型162已经被训练为包括用于进行回声消除的权重和参数。该训练可以在系统100中执行或将训练的模型161和162下载到系统100的服务器计算器上执行。I/O缓冲区163可以被DSP单元110和/或AI加速器120用来存储中间(intermediate)结果。

图2图示了根据一个实施例的由系统100执行的混合AEC操作。麦克风输出d(n)包括远端信号f(n)的回声z(n)、近端信号x(n)和背景噪声v(n)，可以表示为：

d(n)＝z(n)+x(n)+v(n) (1)

自适应滤波器210可以表示为应用于远端信号f(n)的滤波器响应函数h(n)。自适应滤波器210可以是最小均方(Least Mean Squares，LMS)滤波器、归一化LMS滤波器、自适应卡尔曼滤波器或任何其他自适应滤波器。滤波器输出z’(n)可以表示为：

z’(n)＝h(n)*f(n) (2)

其中*表示卷积操作。

滤波后的近端信号y(n)通过从麦克风输出d(n)中减去滤波器输出z’(n)来计算：

y(n)＝d(n)-z’(n) (3)

因此，自适应滤波器210从麦克风输出d(n)中去除远端信号f(n)的至少一部分以产生滤波后的近端信号y(n)。远端信号f(n)和滤波后的近端信号y(n)是后续操作的输入信号，后续操作包括：FFT 220、根据第一NN模型161的操作、IFFT 240以及根据第二NN模型162的操作。FFT220和第二NN模型162都接收远端信号f(n)作为输入。输出信号Xout(n)是回声抑制后的信号。

在一个实施例中，DSP单元110执行自适应滤波器210、FFT 220和IFFT 240。AI加速器120用于根据第一NN模型161和第二NN模型162执行NN操作。DSP单元110和AI加速器120可以包括可以加速这些操作的执行的专用电路和/或指令集架构。

图3是图示根据一个实施例的第一NN模型161和第二NN模型162的图。第一NN模型161和第二NN模型162一起形成双信号变换长短期记忆(LSTM)网络(DTLN)。

第一NN模型161包括第一核心网络330，其进一步包括两个LSTM层、全连接(FC)层和sigmoid激活。第一核心网络330接收两个输入信号的归一化和级联(concatenated)频谱，其中输入信号是滤波后的近端信号y(n)和远端信号f(n)。

每个输入信号的频谱通过短时傅里叶变换(Short-Time FourierTransformation，STFT)计算，该频谱包括输入信号的分段(segmentation)，随后执行FFT。在FFT之后，每个输入信号通过实时层归一化(instant Layer Normalization，iLN)单独归一化，并将iLN的输出级联起来。

第一核心网络330预测时频掩码，该时频掩码与滤波后的近端信号y(n)的STFT的非归一化幅度相乘。第一神经网络模型161的输出通过IFFT变换回时域信号y'(n)。

第二NN模型162包括第二核心网络350，其进一步包括两个LSTM层、全连接(FC)层和sigmoid激活。第二NN模型162接收分段的(segmented)远端信号f(n)和时域信号y'(n)，并使用各自的一维卷积层(1D convolution layer)创建两个信号的学习特征表示。在相应的1D卷积层中应用相同的权重，但使用iLN的归一化是单独执行的，以便为每个特征表示启用单独的缩放(scale)和偏移(bias)。第二核心网络350接收归一化和级联特征表示并产生预测掩码。第二核心网络350的预测掩码与1D卷积之后的未归一化特征表示y'(n)相乘。乘法输出通过一维卷积转换回时域。为了重构连续时间信号，可以使用重叠相加(overlap-add)过程。

图4是图示根据一个实施例的用于混合声学回声消除的方法400的流程图。方法400可由系统执行，例如图1中的系统100、图5中的系统5、或具有DSP和AI处理能力的任何系统。

在步骤410，系统中的DSP单元执行自适应滤波以从麦克风输出中去除远端信号的至少一部分，从而产生滤波后的近端信号。在步骤420，DSP单元执行FFT以计算远端信号和滤波后的近端信号的频谱，以产生用于第一神经网络(NN)模型的输入。在步骤430，系统中的AI加速器根据第一NN模型对频谱执行第一神经网络操作。在步骤440，DSP单元对第一NN模型的输出执行IFFT以产生时域信号作为第二NN模型的输入。在步骤450，AI加速器根据第二NN模型执行第二NN操作以产生回声抑制后的信号。

在一个实施例中，根据第一NN模型对与滤波后的近端信号的归一化频谱级联的远端信号的归一化频谱执行第一NN操作。根据第二NN模型对分段的远端信号和IFFT的输出执行第二NN操作。在一个实施例中，自适应滤波、FFT、第一NN模型、IFFT、第二NN模型在多级流水线中执行。在一个实施例中，FFT是短时傅里叶变换(STFT)。

图5是根据一个实施例的AEC流水线500的示意图。AEC流水线500可以是图1中系统100的一部分。AEC流水线500包括五级。级1是自适应滤波级，级2是FFT级，级3是第一NN模型级，级4是IFFT级，级5是第二NN模型级。级1、2和4是DSP级，级3和5是NN级。AEC流水线500包括用于每个流水线级的硬件电路，使得所有的流水线级可以并行(parallel)执行。

在另一个实施例中，一些级可以合并为一个级，或者一些级可以分成多个级。例如，AEC流水线可以包括两个或更多个数字信号处理级以执行自适应滤波、FFT和IFFT；两个或更多个神经网络级，用于根据第一神经网络模型和第二神经网络模型执行神经网络操作。自适应滤波从麦克风输出中去除远端信号的至少一部分，以产生滤波后的近端信号作为FFT的输入。FFT计算远端信号和滤波后的近端信号的频谱，以产生第一NN模型的输入。第一NN模型对与滤波后的近端信号的归一化频谱级联的远端信号的归一化频谱进行操作。IFFT对第一NN模型的输出进行操作以产生时域信号作为第二NN模型的输入。第二NN模型对分段的远端信号和IFFT的输出进行操作，以产生回声抑制后的信号。

本文已经描述了各种功能组件、单元或块。如所属技术领域具有通常知识者将理解的，功能块将优选地通过电路(专用电路或通用电路，其在一个或多个处理器和编码指令的控制下操作)实现，其通常包括晶体管，这些晶体管被配置为根据这里描述的功能和操作来控制电路的操作。

已经参照图1和5的示例性实施例描述了图4的流程图的操作。然而，应该理解的是，图4的流程图的操作可以由除了参考图1和5讨论的那些实施例之外的实施例来执行。参考图1和5讨论的实施例可以执行与参考流程图讨论的那些不同的操作。虽然图4的流程图示出了由本发明的某些实施例执行的操作的特定顺序，但是应该理解这种顺序是示例性的(例如，替代实施例可以以不同的顺序执行操作、组合某些操作、重叠某些操作等)。

本发明虽以较佳实施例揭露如上，然其并非用以限定本发明的范围，任何本领域技术人员，在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视权利要求所界定者为准。

Claims

1.一种用于执行声学回声消除的设备，其特征在于，包括：

扬声器，用于在设备上输出远端信号；

麦克风，用于至少接收近端信号和来自该扬声器的远端信号以产生麦克风输出；

人工智能加速器，用于根据第一神经网络模型和第二神经网络模型执行神经网络操作，以输出回声抑制后的信号；和

数字信号处理单元，用于：

执行自适应滤波以从该麦克风输出中去除该远端信号的至少一部分，以产生滤波后的近端信号；和

执行快速傅里叶变换和逆向快速傅里叶变换以分别产生该第一神经网络模型的输入和该第二神经网络模型的输入。

2.根据权利要求1所述的设备，其特征在于，在执行该快速傅里叶变换时该数字信号处理单元进一步用于：

计算该远端信号和该滤波后的近端信号的频谱，以产生该第一神经网络模型的输入。

3.根据权利要求1所述的设备，其特征在于，在执行该逆向快速傅里叶变换时该数字信号处理单元进一步用于：

对该第一神经网络模型的输出执行逆向快速傅里叶变换，以产生时域信号作为该第二神经网络模型的输入。

4.根据权利要求1所述的设备，其特征在于，该数字信号处理单元和该人工智能加速器形成流水线，该流水线包括：

两个或更多个数字信号处理级，由该数字信号处理单元执行该自适应滤波、该快速傅里叶变换和该逆向快速傅里叶变换；和

两个或更多个神经网络级，由该人工智能加速器根据该第一神经网络模型和该第二神经网络模型执行神经网络操作。

5.根据权利要求1所述的设备，其特征在于，该数字信号处理单元和该人工智能加速器形成5级流水线，该5级流水线包括：

第一数字信号处理电路，为该数字信号处理单元的第一部分，用于执行该自适应滤波；

第二数字信号处理电路，为该数字信号处理单元的第二部分，用于执行该快速傅里叶变换；

第一神经网络电路，为该人工智能加速器的第一部分，用于根据该第一神经网络模型操作；

第三数字信号处理电路，为该数字信号处理单元的第三部分，用于执行该逆向快速傅里叶变换；和

第二神经网络电路，为该人工智能加速器的第二部分，用于根据该第二神经网络模型操作。

6.根据权利要求1所述的设备，其特征在于，该远端信号被输入到该快速傅里叶变换和该第二神经网络模型。

7.根据权利要求1所述的设备，其特征在于，该人工智能加速器用于根据该第一神经网络模型对与该滤波后的近端信号的归一化频谱相级联的该远端信号的归一化频谱执行操作。

8.根据权利要求1所述的设备，其特征在于，该人工智能加速器用于根据该第二神经网络模型对分段的远端信号和该逆向快速傅里叶变换的输出执行操作。

9.根据权利要求1所述的设备，其特征在于，该快速傅里叶变换是短时傅里叶变换。

10.根据权利要求1所述的设备，其特征在于，该第一神经网络模型和该第二神经网络模型均包括两层长短期记忆、全连接层和sigmoid激活。

11.一种包括多级流水线的设备，其特征在于，包括：

两个或更多个数字信号处理级，用于执行自适应滤波、快速傅里叶变换和逆向快速傅里叶变换；和

两个或更多个神经网络级，用于根据第一神经网络模型和第二神经网络模型执行神经网络操作，

其中该自适应滤波从麦克风输出中去除远端信号的至少一部分，以产生滤波后的近端信号作为快速傅里叶变换的输入，以及

其中该第二神经网络模型接收该逆向快速傅里叶变换的输出并产生回声抑制后的信号。

12.根据权利要求11所述的设备，其特征在于，该多级流水线包括：

第一数字信号处理电路，用于执行该自适应滤波；

第二数字信号处理电路，用于执行该快速傅里叶变换以计算该远端信号和该滤波后的近端信号的频谱，以产生该第一神经网络模型的输入；

第一神经网络电路，用于根据该第一神经网络模型对该频谱执行操作；

第三数字信号处理电路，用于对该第一神经网络模型的输出执行逆向快速傅里叶变换以产生时域信号作为该第二神经网络模型的输入；和

第二神经网络电路，用于根据该第二神经网络模型操作。

13.根据权利要求11所述的设备，其特征在于，该神经网络级中的一个用于根据该第一神经网络模型对与该滤波后的近端信号的归一化频谱级联的该远端信号的归一化频谱进行操作。

14.根据权利要求11所述的设备，其特征在于，该神经网络级中的一个用于根据该第二神经网络模型对分段的远端信号和该逆向快速傅里叶变换的输出执行操作。

15.根据权利要求11所述的设备，其特征在于，该快速傅里叶变换是短时傅里叶变换。

16.根据权利要求11所述的设备，其特征在于，该第一神经网络模型和该第二神经网络模型均包括两层长短期记忆、全连接层和sigmoid激活。

17.一种用于声学回声消除的方法，其特征在于，包括：

由数字信号处理单元执行自适应滤波，以从麦克风输出中去除远端信号的至少一部分，以产生滤波后的近端信号；

由该数字信号处理单元执行快速傅里叶变换以计算该远端信号和该滤波后的近端信号的频谱以产生第一神经网络模型的输入；

由人工智能加速器根据该第一神经网络模型对该频谱执行第一神经网络操作；

由数字信号处理单元对该第一神经网络模型的输出执行逆向快速傅里叶变换以产生时域信号作为该第二神经网络模型的输入；和

由该人工智能加速器根据该第二神经网络模型进行第二神经网络操作，以输出回声抑制后的信号。

18.根据权利要求17所述的方法，其特征在于，执行该第一神经网络操作进一步包括：

根据该第一神经网络模型对与该滤波后的近端信号的归一化频谱级联的该远端信号的归一化频谱进行第一神经网络操作。

19.根据权利要求17所述的方法，其特征在于，执行该第二神经网络操作进一步包括：

根据该第二神经网络模型对分段的远端信号和该逆向快速傅里叶变换的输出执行第二神经网络操作。

20.根据权利要求17所述的方法，其特征在于，该自适应滤波、该快速傅里叶变换、该第一神经网络模型、该逆向快速傅里叶变换、该第二神经网络模型在多级流水线中执行。