CN113012709B

CN113012709B - 一种回声消除方法及装置

Info

Publication number: CN113012709B
Application number: CN201911330149.5A
Authority: CN
Inventors: 陈孝良; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-06-30
Anticipated expiration: 2039-12-20
Also published as: CN113012709A

Abstract

本申请提供一种回声消除方法及装置，通过深度学习模型拟合得到特定结构的电子设备的非线性函数，获取到参考信号后，将参考信号输入深度学习模型中，基于深度学习模型拟合得到的非线性函数对参考信号进行非线性变换，得到非线性变换后的音频信号，再对非线性变换后的信号进行回声消除，不仅实现了线性回声消除还实现了非线性回声消除，有效地完成了回声消除。而且相较于基于人为引入的非线性函数对待消除回声信号进行非线性变换，本申请基于深度学习模型拟合得到特定结构电子设备的非线性函数，并基于拟合得到的非线性函数对待消除回声信号进行非线性变换，对非线性变换后的信号进行回声消除，使得可以准确地将回声信号从音频信号中消除。

Description

一种回声消除方法及装置

技术领域

本申请属于回声消除技术领域，尤其涉及一种回声消除方法及装置。

背景技术

当电子设备通过音频输出装置(如扬声器)播放音频信号时，由于音频输出装置(如扬声器)和音频输入装置(如麦克风)之间的距离较近，因此麦克风会接收到扬声器播放的音频信号。以扬声器播放远端电子设备发送的音频信号为例，如果不进行回声消除，将导致电子设备不能准确检测或者识别到外界从麦克风输入的音频信号，或者，将导致远端电子设备又重新接收到了自身发送的音频信号。

对此，需要对扬声器播放的音频信号进行回声消除。但是采用现有的回声消除方式对音频信号进行回声消除后，仍然存在电子设备不能准确检测或者识别到外界从麦克风输入的音频信号，或者，远端电子设备又重新接收到了自身发送的音频信号的问题，导致回声消除效果不明显。

发明内容

有鉴于此，本申请的目的在于提供一种回声消除方法及装置，用于解决现有技术中回声消除效果不明显的问题。

技术方案如下：

本申请提供一种回声消除方法，应用于电子设备，包括：

获取到参考信号后，将所述参考信号输入预先建立的深度学习模型中，通过所述深度学习模型拟合得到的对应该电子设备的非线性函数对所述参考信号进行非线性变换，得到非线性变换后的音频信号；

对非线性变换后的音频信号进行回声消除。

优选地，所述深度学习模型采用如下方法建立得到：

通过电子设备的音频输入装置接收电子设备的音频输出装置输出的音频信号，得到接收信号；

计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应；

根据所述接收信号和所述冲击响应，计算所述参考信号非线性变换后的音频信号；

基于所述参考信号以及非线性变换后的音频信号，对神经网络进行训练得到深度学习模型。

优选地，所述计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应，包括：

基于误差信号计算公式，计算经过自适应滤波器的处理后输出的误差信号；所述自适应滤波器用于对所述参考信号进行回声消除；

计算所述参考信号的功率，并根据所述参考信号的功率调整自适应滤波器的步长；

根据所述参考信号的功率、所述误差信号以及所述参考信号，更新所述自适应滤波器的加权系数；

基于更新后的自适应滤波器进行回声消除，直至自适应滤波器收敛；

基于误差信号计算公式，计算得到冲击响应。

优选地，所述将所述参考信号输入预先建立的深度学习模型中，通过所述深度学习模型拟合得到的该电子设备的非线性函数对所述参考信号进行非线性变换，得到非线性变换后的音频信号，包括：

对所述参考信号进行傅里叶变换，得到各个频带上的实部和虚部；

依次将每个频带的实部和虚部输入预先建立的深度学习模型中，通过深度学习模型拟合得到的非线性函数的变换后，依次输出每个频带上的非线性变换后的实部和虚部；

分别对所述深度学习模型输出的每个频带上的实部和虚部进行反傅里叶变换，得到非线性变换后的音频信号。

优选地，所述神经网络为lstm神经网络。

本申请还提供了一种回声消除装置，应用于电子设备，包括：

变换单元，用于获取到参考信号后，将所述参考信号输入预先建立的深度学习模型中，通过所述深度学习模型拟合得到的对应该电子设备的非线性函数对所述参考信号进行非线性变换，得到非线性变换后的音频信号；

回声消除单元，用于对非线性变换后的音频信号进行回声消除。

优选地，还包括：

建立单元，用于通过电子设备的音频输入装置接收电子设备的音频输出装置输出的音频信号，得到接收信号；计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应；根据所述接收信号和所述冲击响应，计算所述参考信号非线性变换后的音频信号；基于所述参考信号以及非线性变换后的音频信号，对神经网络进行训练得到深度学习模型。

优选地，所述建立单元计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应，具体包括：

基于误差信号计算公式，计算经过自适应滤波器的处理后输出的误差信号；所述自适应滤波器用于对所述参考信号进行回声消除；计算所述参考信号的功率，并根据所述参考信号的功率调整自适应滤波器的步长；根据所述参考信号的功率、所述误差信号以及所述参考信号，更新所述自适应滤波器的加权系数；基于更新后的自适应滤波器进行回声消除，直至自适应滤波器收敛；基于误差信号计算公式，计算得到冲击响应。

优选地，所述变换单元包括：

第一变换子单元，用于对所述参考信号进行傅里叶变换，得到各个频带上的实部和虚部；

第二变换子单元，用于依次将每个频带的实部和虚部输入预先建立的深度学习模型中，通过深度学习模型拟合得到的非线性函数的变换后，依次输出每个频带上的非线性变换后的实部和虚部；

第三变换子单元，用于分别对所述深度学习模型输出的每个频带上的实部和虚部进行反傅里叶变换，得到非线性变换后的音频信号。

优选地，所述神经网络为lstm神经网络。

与现有技术相比，本申请提供的上述技术方案具有如下优点：

从上述技术方案可知，本申请提供的回声消除方法及回声消除装置，通过深度学习模型拟合得到特定结构的电子设备的非线性函数，获取到参考信号后，将参考信号输入深度学习模型中，基于深度学习模型拟合得到的非线性函数对参考信号进行非线性变换，得到非线性变换后的音频信号，再对非线性变换后的信号进行回声消除，不仅实现了线性回声消除还实现了非线性回声消除，有效地完成了回声消除，避免了近端电子设备不能准确检测或者识别到通过麦克风采集到的外界音频信号或者远端电子设备又重新接收到自身发送的音频信号的问题发生。而且相较于基于人为引入的非线性函数对待消除回声信号进行非线性变换，本申请基于深度学习模型拟合得到特定结构电子设备的非线性函数，并基于拟合得到的非线性函数对待消除回声信号进行非线性变换，进而在对非线性变换后的信号进行回声消除，使得可以准确地将回声信号从音频信号中消除。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请公开的一种回声消除方法的流程图；

图2是本申请公开的基于自适应滤波器进行回声消除的示意图；

图3是本申请公开的深度学习模型的建立方法的流程图；

图4是本申请公开的一种回声消除装置的结构示意图。

具体实施方式

现有技术中电子设备上具有音频输出装置(如扬声器)和音频输入装置(如麦克风)，扬声器播放音频信号，如播放音乐或者TTS。下面以扬声器播放远端电子设备发送的音频信号为例，麦克风会接收到扬声器播放的音频信号，如果不进行回声消除，将导致电子设备不能准确检测或者识别到外界从麦克风输入的音频信号，或者，将导致远端电子设备又重新接收到了自身发送的音频信号。

对此，需要对扬声器播放的音频信号进行回声消除。申请人发现，采用现有的回声消除方式对音频信号进行回声消除后，仍然存在电子设备不能准确检测或者识别到外界从麦克风输入的音频信号，或者，将导致远端电子设备又重新接收到了自身发送的音频信号的问题。

经过进一步研究发现，现有的回声消除方式仅能消除线性回声，而智能设备自身结构会引入非线性回声，因此利用现有的回声消除方式进行回声消除后仅消除了线性回声，而还存在非线性回声，进而导致电子设备不能准确检测或者识别到外界从麦克风输入的音频信号，或者，将导致远端电子设备又重新接收到了自身发送的音频信号的问题。

对此，在进行回声消除的过程中需要对音频信号进行线性回声消除和非线性回声消除。

通常非线性回声消除为基于人为引入的非线性函数对音频信号进行非线性变换，然后再执行回声消除操作，但是，由于人为引入的非线性函数与电子设备的非线性函数是不同的。因此基于人为引入的非线性函数对音频信号进行非线性变换后，再执行回声消除后的效果并不理想。

对此，本申请提供了一种回声消除方法，通过深度学习模型拟合得到特定结构的电子设备的非线性函数，获取到参考信号后，将参考信号输入深度学习模型中，基于深度学习模型拟合得到的非线性函数对参考信号进行非线性变换，得到非线性变换后的音频信号，再对非线性变换后的信号进行回声消除，不仅实现了线性回声消除还实现了非线性回声消除，有效地完成了回声消除，避免了近端电子设备不能准确检测或者识别到通过麦克风采集到的外界音频信号或者远端电子设备又重新接收到自身发送的音频信号的问题发生。而且相较于基于人为引入的非线性函数对待消除回声信号进行非线性变换，本申请基于深度学习模型拟合得到特定结构电子设备的非线性函数，并基于拟合得到的非线性函数对待消除回声信号进行非线性变换，进而在对非线性变换后的信号进行回声消除，使得可以准确地将回声信号从音频信号中消除。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种回声消除方法，应用于电子设备中，参见图1所示，可以包括以下步骤：

S101、获取到参考信号后，将所述参考信号输入预先建立的深度学习模型中，通过所述深度学习模型拟合得到的对应该电子设备的非线性函数对所述参考信号进行非线性变换，得到非线性变换后的音频信号。

电子设备具有音频输出装置(如扬声器)和音频输入装置(如麦克风)。一种应用场景下，该电子设备作为近端电子设备，可以接收远端电子设备发送的音频信号，如语音控制指令，此种场景下参考信号为语音控制指令。

获取到参考信号后，需要对参考信号进行回声消除，但是考虑到电子设备会引入非线性失真，因此在对参考信号进行回声消除之前先对参考信号进行非线性变换，然后对非线性变换后的音频信号进行回声消除。

其中，对参考信号进行非线性变换的方式为：将参考信号输入预先建立的深度学习模型中，该深度学习模型用于拟合得到对应该电子设备的非线性函数，其中，针对不同结构的电子设备拟合得到的非线性函数是不同的。对应电子设备的非线性函数指的是电子设备内的元件引入的非线性失真对应的函数。

通过非线性函数对输入到深度学习模型中的参考信号进行非线性变换，得到非线性变换后的音频信号。

S102、对非线性变换后的音频信号进行回声消除。

一种实现回声消除的方式为采用自适应滤波器进行回声消除。自适应滤波器是以输入信号和输出信号的统计特性的估计为依据，采取特定算法自动地调整滤波器的加权系数，使其达到最佳滤波特性的一种算法或装置。

参见图2所示，利用自适应滤波器进行线性回声消除时，参考信号x(n)为远端设备发送的语音控制指令。电子设备接收到的参考信号后通过自身内部的扬声器播放，自身内部的麦克风接收到扬声器播放的音频信号d(n)。利用自适应滤波器对x(n)(自适应滤波器的输入信号)进行处理后得到音频信号y(n)(自适应滤波器的输出信号)。计算d(n)与y(n)的差值e(n)，基于e(n)以及自适应算法调整自适应滤波器的加权系数，在e(n)满足预设条件后，确定自适应滤波器收敛。如麦克风接收到的音频信号仅包括扬声器播放的音频信号，那么，e(n)为0时自适应滤波器收敛。

本实施例中将非线性变换后的音频信号作为参考信号，基于图2所示的回声消除方式进行回声消除。

通过上述技术方案，本实施例提供的回声消除方法，通过深度学习模型拟合得到特定结构的电子设备的非线性函数，获取到参考信号后，将参考信号输入深度学习模型中，基于深度学习模型拟合得到的非线性函数对参考信号进行非线性变换，得到非线性变换后的音频信号，再对非线性变换后的信号进行回声消除，不仅实现了线性回声消除还实现了非线性回声消除，避免了近端电子设备不能准确检测或者识别到通过麦克风采集到的外界音频信号或者远端电子设备又重新接收到自身发送的音频信号的问题发生。而且相较于基于人为引入的非线性函数对待消除回声信号进行非线性变换，本申请基于深度学习模型拟合得到特定结构电子设备的非线性函数，并基于拟合得到的非线性函数对待消除回声信号进行非线性变换，进而在对非线性变换后的信号进行回声消除，使得可以准确地将回声信号从音频信号中消除。

在自适应滤波的基础上，下面详细介绍本申请中深度学习模型的建立过程。其中，深度学习模型用于拟合得到与特定结构的电子设备引入的非线性失真对应的非线性函数。

参见图3所示，建立深度学习模型的方法可以包括以下步骤：

S301、通过电子设备的音频输入装置接收电子设备的音频输出装置输出的音频信号，得到接收信号。

选取需要执行回声消除的电子设备，该电子设备具备扬声器和麦克风。将选取的电子设备放置在安静环境中，通过该电子设备的扬声器播放音频信号，其中，播放的音频信号可以为本地音乐或者TTS(Text To Speech，从文本到语音)。其中，本地音乐或者TTS为参考信号x(n)。

通过扬声器连续播放预定时间的音频信号，如100小时。

利用该电子设备的麦克风采集扬声器输出的音频信号，其中，可以按照一定的采样周期进行采集，得到接收信号d(n)。

S302、计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应。

由于电子设备所处的环境是固定的，且电子设备的结构也是固定的，因此该电子设备的扬声器和麦克风所在系统的冲击响应h(n)也可以认为是固定。

假设电子设备引入的非线性失真对应的非线性函数为f，则d(n)＝f(x(n))*h。(n)

其中，存在f以及h(n)这两个未知数。为了计算得到h(n)，可以先假定不存在非线性失真。

本实施例中根据NLMS算法，在不存在非线性失真的情况下计算h(n)。

具体地，y(n)＝h^T(n)x(n)；

其中h(n)＝[h(n),h(n-1),...,h(n-N)]^T,x(n)＝[x(n),x(n-1),...,x(n-N)]^T,其中N为冲击响应的长度。

通过公式e(n)＝d(n)-y(n)计算经过自适应滤波器的处理后输出的误差信号e(n)，其中，d(n)为麦克风在n时刻的接收信号，y(n)为经过自适应滤波器处理后的输出信号。

基于公式P_xx(n)＝x^T(n)x(n)计算参考信号的功率P_xx(n)。并根据参考信号的功率P_xx(n)调整自适应滤波器的步长。其中，自适应滤波器的步长对自适应滤波器的收敛速度以及最终结果均存在影响。

基于公式

更新自适应滤波器的加权系数。

其中，w(n)为更新前自适应滤波器的加权系数，w(n+1)为更新后的自适应滤波器的加权系数，ψ是一个很小的正值常数，μ∈(0，2)，以保证NLMS算法的收敛性。

基于更新后的自适应滤波器进行回声消除，直至自适应滤波器收敛。即误差信号满足预期值，仍然以麦克风接收到的音频信号仅包括扬声器输出的音频信号为例，理想的情况是自适应滤波器输出的音频信号与麦克风接收到的音频信号相同，此时误差信号为0。

在自适应滤波器收敛后，y(n)＝d(n)。并基于y(n)＝h^T(n)x(n)可知d(n)＝h^T(nx)(n。)由于x(n)和d(n)都是已知的，因此可以计算得到冲击响应h(n)。

S303、根据所述接收信号和所述冲击响应，计算所述参考信号非线性变换后的音频信号。

计算得到不存在非线性失真条件下的冲击响应h(n)后，根据公式d(n)＝f(x(n))*h(n)以及反卷积原理计算得到非线性变换后的音频信号f(x(n))。其中，f(x(n))是具体的数值，而并不是非线性函数。

S304、基于所述参考信号以及非线性变换后的音频信号，对神经网络进行训练得到深度学习模型。

可选地，本申请中神经网络为lstm神经网络。

在得到多组x(n)和f(x(n))后，可以拟合得到x(n)和f(x(n))之间的函数关系，即得到非线性函数f。

因此，利用多组x(n)和f(x(n))对lstm神经网络进行训练，调整lstm神经网络中的参数，训练结束后得到能够拟合出电子设备的非线性函数的深度学习模型。

使得将x(n)输入训练得到的深度学习模型后，可以得到基于非线性函数f对x(n)进行非线性变换后的f(x(n))。

在实际应用中，对参考信号x(n)进行傅里叶变换，得到各个频带上的实部和虚部；然后依次将每个频带上的实部和虚部输入训练得到的深度学习模型中，通过深度学习模型拟合得到的非线性函数的变换后，依次输出每个频带上的非线性变换后的实部和虚部。最后分别对每个频带上的实部和虚部进行反傅里叶变换，得到非线性变换后的音频信号。

对应上述实施例公开的回声消除方法，本申请实施例提供了一种回声消除装置，所述回声消除装置集成在电子设备中，其中，电子设备具有音频输出装置以及音频输入装置，参见图4所示，该回声消除装置包括：

变换单元401，用于获取到参考信号后，将所述参考信号输入预先建立的深度学习模型中，通过所述深度学习模型拟合得到的该电子设备的非线性函数对所述参考信号进行非线性变换，得到非线性变换后的音频信号；

回声消除单元402，用于对非线性变换后的音频信号进行回声消除。

在另一个实施例中，回声消除装置还包括建立单元403。

建立单元403，用于通过电子设备的音频输入装置接收电子设备的音频输出装置输出的音频信号，得到接收信号；计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应；根据所述接收信号和所述冲击响应，计算所述参考信号非线性变换后的音频信号；基于所述参考信号以及非线性变换后的音频信号，对神经网络进行训练得到深度学习模型。

可选地，建立单元403计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应的具体方式为：

在另一个实施例中，变换单元401包括：

第一变换子单元、第二变换子单元和第三变换子单元。

所述第一变换子单元，用于对所述参考信号进行傅里叶变换，得到各个频带上的实部和虚部；

所述第二变换子单元，用于依次将每个频带的实部和虚部输入预先建立的深度学习模型中，通过深度学习模型拟合得到的非线性函数的变换后，依次输出每个频带上的非线性变换后的实部和虚部；

所述第三变换子单元，用于分别对所述深度学习模型输出的每个频带上的实部和虚部进行反傅里叶变换，得到非线性变换后的音频信号。

可选地，神经网络为lstm神经网络。

通过上述技术方案，本实施例中的回声消除装置，通过深度学习模型拟合得到特定结构的电子设备的非线性函数，获取到参考信号后，将参考信号输入深度学习模型中，基于深度学习模型拟合得到的非线性函数对参考信号进行非线性变换，得到非线性变换后的音频信号，再对非线性变换后的信号进行回声消除，不仅实现了线性回声消除还实现了非线性回声消除，避免了近端电子设备不能准确检测或者识别到通过麦克风采集到的外界音频信号或者远端电子设备又重新接收到自身发送的音频信号的问题发生。而且相较于基于人为引入的非线性函数对待消除回声信号进行非线性变换，本申请基于深度学习模型拟合得到特定结构电子设备的非线性函数，并基于拟合得到的非线性函数对待消除回声信号进行非线性变换，进而在对非线性变换后的信号进行回声消除，使得可以准确地将回声信号从音频信号中消除。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种回声消除方法，其特征在于，应用于电子设备，包括：

对非线性变换后的音频信号进行回声消除；

其中，所述深度学习模型采用如下方法建立得到：

2.根据权利要求1所述的回声消除方法，其特征在于，所述计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应，包括：

基于误差信号计算公式，计算得到冲击响应。

3.根据权利要求1-2任意一项所述的回声消除方法，其特征在于，所述将所述参考信号输入预先建立的深度学习模型中，通过所述深度学习模型拟合得到的该电子设备的非线性函数对所述参考信号进行非线性变换，得到非线性变换后的音频信号，包括：

4.根据权利要求1所述的回声消除方法，其特征在于，所述神经网络为lstm神经网络。

5.一种回声消除装置，其特征在于，应用于电子设备，包括：

回声消除单元，用于对非线性变换后的音频信号进行回声消除；

6.根据权利要求5所述的回声消除装置，其特征在于，所述建立单元计算在所述参考信号不存在非线性失真的情况下音频输出装置和音频输入装置所在系统的冲击响应，具体包括：

7.根据权利要求5所述的回声消除装置，其特征在于，所述变换单元包括：

8.根据权利要求5所述的回声消除装置，其特征在于，所述神经网络为lstm神经网络。