CN113362843B

CN113362843B - 音频信号处理方法及装置

Info

Publication number: CN113362843B
Application number: CN202110739124.1A
Authority: CN
Inventors: 操陈斌; 步兵
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-02-17
Anticipated expiration: 2041-06-30
Also published as: CN113362843A

Abstract

本公开涉及语音通信技术领域，具体涉及一种音频信号处理方法及装置。一种音频信号处理方法，包括：获取第一麦克风拾取的第一音频信号和第二麦克风拾取的第二音频信号；其中，所述第一音频信号和所述第二音频信号均包括由扬声器播放参考信号所产生的回声信号；分别对所述第一音频信号和所述第二音频信号进行线性滤波处理，得到第一残差信号和第二残差信号；根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号。本公开方法可消除线性和非线性回声信号，提高回声消除效果，并且对近端语音信号近似无损，提高语音通信质量。

Description

音频信号处理方法及装置

技术领域

本公开涉及语音通信技术领域，具体涉及一种音频信号处理方法及装置。

背景技术

对于语音通信领域，在近端扬声器播放远端传输的声音后，近端麦克风会再次拾取声音并将该声音传输至远端，也即产生声学回声。回声会严重影响通话质量，因此回声消除是语音通信重要的研究方向。

发明内容

为解决语音通信时的回声消除问题，本公开实施方式提供了一种音频信号处理方法、装置、电子设备以及存储介质。

第一方面，本公开实施方式提供了一种音频信号处理方法，包括：

获取第一麦克风拾取的第一音频信号和第二麦克风拾取的第二音频信号；其中，所述第一音频信号和所述第二音频信号均包括由扬声器播放参考信号所产生的回声信号；

分别对所述第一音频信号和所述第二音频信号进行线性滤波处理，得到第一残差信号和第二残差信号；

根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号。

在一些实施方式中，所述分别对所述第一音频信号和所述第二音频信号进行线性滤波处理，得到第一残差信号和第二残差信号，包括：

根据所述参考信号对所述第一音频信号进行自适应滤波处理，得到所述第一残差信号；

根据所述参考信号对所述第二音频信号进行自适应滤波处理，得到所述第二残差信号。

在一些实施方式中，所述根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号，包括：

基于所述第一残差信号对所述第二残差信号进行回声估计，得到估计残差信号；

根据所述估计残差信号对所述第二残差信号进行滤波处理，得到所述目标语音信号。

所述根据所述第一残差信号对所述第二残差信号进行滤波处理，得到第三残差信号；

根据所述第三残差信号进行回声抑制，得到所述目标语音信号。

在一些实施方式中，所述根据所述第三残差信号进行回声抑制，得到所述目标语音信号，包括：

将所述参考信号和所述第三残差信号，输入预先训练的回声抑制网络，得到所述回声抑制网络预测输出的回声增益；

根据所述第三残差信号和所述回声增益，得到所述目标语音信号。

在一些实施方式中，所述根据所述第三残差信号和所述回声增益，得到所述目标语音信号，包括：

将所述第三残差信号由时域变换到频域，得到频域残差信号；

根据所述回声增益对所述频域残差信号进行融合处理，得到目标频域信号；

将所述目标频域信号由频域变换到时域，得到所述目标语音信号。

在一些实施方式中，还包括以下对所述回声抑制网络训练的过程：

获取包括参考信号的模拟样本信号；

将所述模拟样本信号输入待训练的回声抑制网络，得到所述回声抑制网络输出的预测增益；

根据所述预测增益与所述模拟样本信号的标注增益之间的差异，调整所述回声抑制网络的网络参数，直至满足收敛条件，得到训练后的回声抑制网络。

第二方面，本公开实施方式提供了一种音频信号处理装置，包括：

获取模块，被配置为获取第一麦克风拾取的第一音频信号和第二麦克风拾取的第二音频信号；其中，所述第一音频信号和所述第二音频信号均包括由扬声器播放参考信号所产生的回声信号；

第一滤波模块，被配置为分别对所述第一音频信号和所述第二音频信号进行线性滤波处理，得到第一残差信号和第二残差信号；

第二滤波模块，被配置为根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号。

在一些实施方式中，所述第一滤波模块具体被配置为：

在一些实施方式中，所述第二滤波模块具体被配置为：

第三方面，本公开实施方式提供了一种电子设备，包括：

语音通信系统，包括第一麦克风、第二麦克风以及扬声器；

处理器；以及

存储器，存储有计算机指令，所述计算机指令用于使处理器执行根据第一方面任一实施方式所述的方法。

第四方面，本公开实施方式提供了一种存储介质，存储有计算机指令，所述计算机指令用于使计算机执行根据第一方面任一实施方式所述的方法。

本公开实施方式的音频信号处理方法，包括获取第一麦克风拾取的第一音频信号和第二麦克风拾取的第二音频信号，分别对第一音频信号和第二音频信号进行线性滤波处理得到第一残差信号和第二残差信号，根据第一残差信号对第二残差信号进行非线性滤波处理，得到目标语音信号。本公开实施方式的音频信号处理方法，可消除线性和非线性回声信号，提高回声消除效果，并且对近端语音信号近似无损，提高语音通信质量。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一些实施方式中音频信号处理方法的流程图。

图2是根据本公开一些实施方式中语音通信系统的结构原理图。

图3是根据本公开一些实施方式中LEM系统的结构原理图。

图4是根据本公开一些实施方式中自适应滤波器的结构原理图。

图5是根据本公开一些实施方式中音频信号处理方法的流程图。

图6是根据本公开一些实施方式中音频信号处理方法的流程图。

图7是根据本公开一些实施方式中音频信号处理方法的流程图。

图8是根据本公开一些实施方式中回声抑制网络的结构示意图。

图9是根据本公开一些实施方式中音频信号处理方法的流程图。

图10是根据本公开一些实施方式中回声抑制模块的结构示意图。

图11是根据本公开一些实施方式中音频信号处理方法的流程图。

图12是根据本公开一些实施方式中音频信号处理装置的流程图。

图13适于实现本公开音频信号处理方法的电子设备结构框图。

具体实施方式

下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在语音通信LEM(Loudspeaker-Enclosure-Microphone,扬声器-场地-麦克风)系统中，由于扬声器与麦克风的耦合，从而由扬声器播放的远端信号会被麦克风接收并传给远端，形成声学回声。回声会严重影响语音通信的质量，同时也会降低人机交互的语音唤醒和语音识别，因此为了提高语音通信质量，需要对语音通信系统进行回声消除。

相关技术中，一般采用基于可变步长控制的自适应滤波技术来估计回声路径进行回声消除，例如NLMS(Normalized Least Mean Squares，归一化最小均方)方法，然后利用维纳滤波或基于高斯统计模型等方法来抑制残留回声。

但是，对于双讲(Double Talk)等声学环境复杂的场景，远端语音和近端语音同时讲话，由于系统无法准确估计是否存在本地语音，因此传统自适应滤波方法无法保证去除回声的同时近端语音无失真。并且，对于手机等小型设备的LEM系统，由于扬声器与麦克风之间的距离较近，麦克风拾取到的回声信号会远大于近端语音信号，导致上述问题表现的尤为明显。另外，传统的自适应滤波方法只能针对线性回声具有良好的效果，而在实际声学场景中，语音通信的回声是线性回声和非线性回声的叠加，传统的回声消除方法无法对非线性回声进行抑制或消除。因此，相关技术中的回声消除方法效果不佳。

基于上述相关技术中存在的缺陷，本公开实施方式提供了一种音频信号处理方法、装置、电子设备以及存储介质，旨在提高音频系统的回声消除效果。

第一方面，本公开实施方式提供了一种音频信号处理方法，该方法可以应用于具有语音通信系统的电子设备中，例如手机、平板电脑、笔记本电脑等，本公开对此不作限制。

如图1所示，在一些实施方式中，本公开示例的音频信号处理方法包括：

S110、获取第一麦克风拾取的第一音频信号和第二麦克风拾取的第二音频信号。

值得说明的是，本公开示例的语音通信系统包括两个麦克风，也即第一麦克风和第二麦克风。第一麦克风和第二麦克风可以分别设于电子设备的不同位置或相同位置。

在一个示例中，以智能手机为例，传统智能手机往往具有两个麦克风，例如设于手机底部的主麦克风和设于手机顶部/背部的副麦克风，主麦克风即为本公开示例的第一麦克风，副麦克风即为本公开示例的第二麦克风。

可以理解，在第一麦克风和第二麦克风设于电子设备的不同位置时，第一麦克风和第二麦克风与扬声器之间的距离也不相同，也即第一麦克风和第二麦克风在拾取扬声器回声时具有不同的回声路径。

对于双讲场景，第一麦克风拾取的第一音频信号可包括：扬声器播放参考信号所产生的回声信号、近端讲话人产生的近端语音信号以及近端的背景噪声信号。第二麦克风拾取的第二音频信号同样包括：扬声器播放参考信号所产生的回声信号、近端讲话人产生的近端语音信号以及近端的背景噪声信号。

参考信号指近端设备接收到远端设备发送的远端语音信号，扬声器播放该参考信号之后，参考信号经过声学环境的反射、直达、混响等之后到达麦克风，从而第一麦克风和第二麦克风可拾取到包含了反射声、直达声以及混响的回声信号。

S120、分别对第一音频信号和第二音频信号进行线性滤波处理，得到第一残差信号和第二残差信号。

可以理解，语音通信系统的回声信号包括线性回声和非线性回声的叠加，例如音频系统的功率放大器和扬声器声腔的振动会产生大量的非线性回声。

在本公开实施方式中，首先对第一麦克风和第二麦克风拾取的音频信号进行线性滤波处理，消除音频信号中的线性回声部分。

在一些实施方式中，对第一音频信号进行线性滤波处理，得到的第一残差信号中包括近端语音信号、噪声信号以及消除线性回声后的回声信号。同理，对第二音频信号进行线性滤波处理后，得到的第二残差信号中包括近端语音信号、噪声信号以及消除线性回声后的回声信号。

对于具体对第一音频信号和第二音频信号进行线性滤波处理的过程，本公开下述中进行具体说明，在此暂不详述。

S130、根据第一残差信号对第二残差信号进行非线性滤波处理，得到目标语音信号。

在对第一音频信号和第二音频信号进行线性滤波处理之后，本公开示例方法中进一步对音频信号中非线性回声进行消除。

本公开实施方式中，语音通信系统采用两个麦克风，第一麦克风距离扬声器的第一距离、和第二麦克风距离扬声器的第二距离是线性的关系，扬声器到两个麦克风的回声路径之间也是线性关系，从而可以通过相对声学传递函数来估计回声信号，也即估计去除线性回声后的非线性回声信号。

具体来说，可基于第一残差信号和声学传递函数来估计回声信号中去除线性成分后的非线性成本，而后基于估计的非线性成本对第二残差信号进行滤波处理，即可在去除线性回声后的第二残差信号的基础上，进一步消除非线性回声，实现线性和非线性的回声消除。本公开下述实施例中具体进行说明，在此暂不展开。

在一些实施方式中，在消除线性和非线性回声后，可进一步对噪声信号以及残留回声进行消除抑制，得到清晰的近端语音信号，也即目标语音信号。本公开下述实施例中进行具体说明，在此暂不展开。

值得说明的是，相关技术的回声消除方法，在基于自适应滤波对回声信号中的线性回声进行去除之后，往往采用维纳滤波或者高斯统计模型对非线性回声和残留的线性回声进行抑制。一方面无法准确估计非线性回声路径，导致残留较多非线性回声；另一方面，在抑制非线性回声时会损伤近端语音信号，导致近端语音失真。

而在本公开实施方式的方法中，基于第一麦克风拾取的去除线性回声后的第一残差信号，对第二残差信号中包含的非线性回声进行相对准确的估计，从而对第二残差信号进行滤波处理得到目标语音信号，在尽可能无损伤近端语音信号的基础上，相对准确地去除回声信号的线性和非线性回声。

通过上述可知，本公开实施方式的音频信号处理方法，不仅可以去除回声信号中的线性回声，还可以去除非线性回声，提高回声消除效果。并且基于第一残差信号对第二残差信号进行非线性回声估计的过程，对近端语音信号近似无损，因此可以很好的保证近端语音信号无失真，提高语音通信质量。

图2示出了本公开一些实施方式中语音通信系统的结构原理图，下面结合图2所示系统，对本公开示例的音频信号处理方法进行说明。

如图2所示，在一些实施方式中，本公开示例的语音通信系统包括LEM系统100、线性滤波模块200、非线性滤波模块300以及回声抑制模块400。

具体来说，LEM系统100包括扬声器、第一麦克风和第二麦克风。在一些实施方式中，第一麦克风和第二麦克风可设于系统中距离扬声器不同位置处。例如，以手机LEM系统为例，第一麦克风设于手机底部作为主麦克风，第二麦克风设于手机顶部或背部作为副麦克风，两个麦克风、扬声器以及手机壳体共同组成LEM(扬声器-壳体-麦克风)系统。

参考信号x(n)可以是手机通过无线通信网络接收到的远端语音信号，例如双讲场景下，远端讲话人说话所产生的语音信号发送至近端设备，近端设备的扬声器播放该远端语音信号，也即参考信号x(n)。

图3示出了本公开一些实施方式中LEM系统的结构以及原理示意图。如图3所示，在双讲场景下，麦克风拾取到的音频信号主要包括如下三个部分：

1)系统扬声器播放参考信号x(n)，从而麦克风拾取到的参考信号x(n)的直达声、反射声以及混响等组成的回声信号d(n)；

2)本地说话人讲话所产生的近端语音信号s(n)；

3)本地背景噪声b(n)。

也即麦克风拾取到的音频信号y(n)可表示为：

y(n)＝s(n)+b(n)+d(n) 式(1)

式(1)中，n是样本表示的时刻。

在一些实施方式中，回声信号d(n)可以使用时变的冲激响应h_i(n)来表示：

式(2)中，x(n)表示参考信号；h(n)是冲激响应的向量形式，h(n)＝[h(0),h(1),…,h(L-1)]^T；x(n)是参考信号的向量形式，

f(x(n))是非线性回声成分，其可以表示为远端信号和非线性函数f(·)的形式。

本公开实施方式中，第一麦克风拾取的第一音频信号表示为y1(n)，第二麦克风拾取的第二音频信号表示为y2(n)，第一音频信号和第二音频信号均包括上述三种声音信号。

线性滤波模块200包括第一滤波器h1和第二滤波器h2，第一滤波器h1和第二滤波器h2可以采用基于NLMS算法的自适应滤波器。第一滤波器h1用于对第一麦克风拾取的音频信号y1(n)进行线性滤波，第二滤波器h2用于对第二麦克风拾取的音频信号y2(n)进行线性滤波。第一滤波器h1和第二滤波器h2可以去除掉音频信号中的线性回声。

在一些实施方式中，线性滤波模块200分别对第一频率信号和第二音频信号进行线性滤波处理的过程可包括：

根据参考信号对第一音频信号进行自适应滤波处理，得到第一残差信号；根据参考信号对第二音频线信号进行自适应滤波处理，得到第二残差信号。

具体来说，图4示出了本公开一些实施方式中自适应滤波器的原理示意图。参见图4所示，自适应滤波器可基于参考信号x(n)自适应地估计线性回声信号

并将其从音频信号y(n)中去除，得到残差信号e(n)。

本公开实施方式中，第一滤波器h1对第一麦克风拾取的第一音频信号进行线性滤波的过程可表示为：

第二滤波器h2对第二麦克风拾取的第二音频信号进行线性滤波的过程可表示为：

在式(3)至式(8)中，

是第一音频信号的线性回声估计；

是第二音频信号的线性回声估计；x(n)是参考信号的向量形式；e_l1(n)是第一音频信号消除线性回声后得到的第一残差信号；e_l2(n)是第二音频信号消除线性回声后得到的第二残差信号；

是第一滤波器；

是第二滤波器；μ_l1是第一滤波器的自适应步长；μ_l2是第二滤波器的自适应步长；δ是一个正的防止除零的常数。

第一麦克风拾取的第一音频信号y1(n)，经过第一滤波器h1基于参考信号x(n)进行线性滤波处理，得到去除线性回声后的第一残差信号e_l1(n)。第二麦克风拾取的第二音频信号y2(n)，经过第二滤波器h2基于参考信号x(n)进行线性滤波处理，得到去除线性回声后的第二残差信号e_l2(n)。此时，第一残差信号e_l1(n)和第二残差信号e_l2(n)中包括近端语音信号、背景噪声信号以及残留非线性回声信号。

非线性滤波模块300包括第三滤波器h3，在一些实施方式中，第三滤波器h3同样可以采用基于NLMS算法的自适应滤波器。

如图5所示，在一些实施方式中，S130中对音频信号进行非线性滤波处理的过程，可包括：

S510、基于第一残差信号对第二残差信号进行回声估计，得到估计残差信号。

S520、根据估计残差信号对第二残差信号进行滤波处理，得到目标语音信号。

具体来说，第一残差信号e_l1(n)和第二残差信号e_l2(n)为消除线性回声后的信号，在本公开实施方式中，考虑到扬声器到第一麦克风和第二麦克风之间的回声路径是线性关系，从而可以基于第一残差信号和声学传递函数对第二残差信号的非线性回声进行估计，得到估计残差信号

可表示为：

式(9)中，e_l1(n)是第一残差信号，

是第三滤波器。在得到估计残差信号

之后，对第二残差信号进行非线性回声消除，表示为：

式(10)和式(11)中，e_nl(n)是第二残差信号消除非线性回声成分后的第三残差信号，μ_nl是非线性滤波器自适应步长，δ是一个正的防止除零的常数。

结合图2所示，通过式(9)至(11)过程，得到的第三残差信号e_nl(n)即为消除线性和非线性回声后的音频信号，其主要包括近端语音信号和背景噪声信号。

通过上述可知，本公开实施方式的音频信号处理方法，利用第一麦克风和第二麦克风进行非线性回声估计，不仅可以去除线性回声，还可以有效去除非线性回声，提高回声消除效果。并且基于第一残差信号对第二残差信号进行非线性回声估计的过程，对近端语音信号近似无损，因此可以很好的保证近端语音信号无失真，提高语音通信质量。

在本公开一些实施方式中，在得到第三残差信号e_nl(n)之后，可利用降噪算法对第三残差信号e_nl(n)中包括的背景噪声进行降噪处理，得到近端语音信号，提高语音通信质量。

在本公开另一些实施方式中，考虑到第三残差信号e_nl(n)中，除了近端语音信号和背景噪声信号之外，可能还会包括残留的回声信号，因此如图2中所示，本公开语音通信系统还包括回声抑制模块400，对残留回声信号进一步抑制消除，下面结合图6进行说明。

如图6所示，在一些实施方式中，S130中得到目标语音信号的过程可包括：

S610、根据第一残差信号对第二残差信号进行滤波处理，得到第三残差信号。

S620、根据第三残差信号进行回声抑制，得到目标语音信号。

具体来说，通过图5实施方式得到第三残差信号e_nl(n)之后，第三残差信号e_nl(n)包括残留的回声信号。回声抑制模块400对残留的回声信号进行抑制消除，输出目标语音信号o(n)。

在一些实施方式中，考虑到残留回声信号可以表示为参考信号x(n)的高次非线性函数，若直接构造这个高复杂函数非常困难，传统基于信号处理的方法难以准确描述残留信号的非线性特征。因此，在本公开实施方式中，采用基于深度神经网络(DNN，Deep NeuralNetwork)的回声抑制模块400来表示RES(Residual Echo Suppression，残留回声抑制)过程中复杂的非线性回归函数，以获得最优残留回声增益。

具体来说，如图7所示，在一些实施方式中，对残留回声抑制的过程可包括：

S710、将参考信号和第三残差信号输入预先训练的回声抑制网络，得到回声抑制网络预测输出的回声增益。

S720、根据第三残差信号和回声增益，得到目标语音信号。

具体来说，回声抑制网络为基于DNN的网络，图8示出了一些实施方式中回声抑制网络的网络结构，回声抑制网络包括输入层、输出层以及多个隐层。

在本公开实施方式中，可基于模拟样本信号预先对回声抑制网络进行训练，得到训练完成后的回声抑制网络。本公开下述实施方式中对网络训练过程进行具体说明，在此暂不详述。

回声抑制网络的输入包括第三残差信号e_nl(n)的对数幅度谱E(l,k)，以及参考信号x(n)的对数幅度谱X(l,k)，表示为：

E(l)＝log(abs(FFT{e(l).*win}))

X(l)＝log(abs(FFT{x(l).*win}))e(l)＝[e_nl(n),e_nl(n+1),…,e_nl(n+N-1)]^T

x(l)＝[x(n),x(n+1),…,x(n+N-1)]^T

其中，l是帧索引，k是频率索引，E(l)是对数幅度谱E(l,k)的向量形式，X(l)是对数幅度谱X(l,k)的向量形式，win为长度为N的短时分析窗和合成窗，表示为：

win＝[0；sqrt(hanning(N-1))]

hanning(N-1)是长度为N-1的汉宁窗。

可以理解，音频信号是一个连续时间信号，前后帧之间具有强连续性和相关性。回声抑制网络的输入是连续T帧的第三残差信号幅度谱和参考信号幅度谱，其维度可以是(N/2+1)*2*T。回声抑制网络基于输入的参考信号和第三残差信号的对数幅度谱，预测输出得到(N/2+1)维的RES增益向量，也即残留回声信号的回声增益。

在得到残留回声信号的回声增益之后，根据原始第三残差信号e_nl(n)以及该回声增益进行融合处理后，即可对残留回声信号进行抑制消除，得到目标语音信号o(n)。

如图9所示，在一些实施方式中，S720对残留回声信号进行抑制的过程可包括：

S910、将第三残差信号由时域变换到频域，得到频域残差信号。

S920、根据回声增益对频域残差信号进行融合处理，得到目标频域信号。

S930、将目标频域信号由频域变换到时域，得到目标语音信号。

具体来说，图10中示出了本公开一些实施方式中回声抑制模块400的结构。如图10所示，回声抑制网络的输入为第三残差信号e_nl(n)和参考信号x(n)的对数幅度谱，从而预测输出得到残留回声的回声增益。

第三残差信号e_nl(n)通过短时傅里叶变换(STFT)由时域信号变换到频域信号，得到频域残差信号。根据回声抑制网络输出的回声增益对频域残差信号进行融合处理，从而对残留回声信号进行抑制，得到目标频域信号。最后可通过短时傅里叶逆变换(ISTFT)将目标频域信号由频域变换到时域，得到目标语音信号o(n)。

通过上述可知，本公开实施方式的音频信号处理方法，基于DNN网络可以较为准确预测残留回声的最优回声增益，可以快速可靠地去除残留回声信号，进一步保证近端语音信号无失真，提高残留回声抑制效果。

在一些实施方式中，如图11所示，在前述图7实施方式的基础上，本公开示例的音频信号处理方法，还包括如下对回声抑制网络进行训练的过程：

S1110、获取包括参考信号的模拟样本信号。

S1120、将模拟样本信号输入待训练的回声抑制网络，得到回声抑制网络输出的预测增益。

S1130、根据预测增益与模拟样本信号的标注增益之间的差异，调整回声抑制网络的网络参数，直至满足收敛条件，得到训练后的回声抑制网络。

具体来说，可通过音频信号模拟方法来得到模拟样本信号，利用模拟样本信号作为训练数据对回声抑制网络进行训练。

在一些实施方式中，模拟样本信号中各个信号成分可以采用如下方式模拟生成：

1)按照随机的信噪比(SNR，SIGNAL-NOISE RATIO)从数据集中的随机抽取和拼接的语音信号和噪声信号进行混合，产生参考信号x(n)。

2)使用一系列非线性函数模型，将参考信号x(n)进行非线性变换，模拟产生非线性失真的回声信号。

3)仿真产生一系列不同混响条件RIR(Room Impulse Response，房间冲激响应)，用于模拟回声信号到麦克风输入信号之间冲激响应，并将其与参考信号进行卷积，模拟产生近端回声信号。

4)从语音数据集中的随机抽取和拼接语音数据，产生近端目标语音信号。

5)从噪声数据集中的随机抽取和拼接噪声数据，产生近端背景噪声信号。

6)按照随机的信回比(SER)和信噪比(SNR)，将近端目标语音信号和回声信号以及近端噪声信号进行混合，产生近端麦克风拾取的音频信号。

通过上述方式中的一种或多种组合，可得到例如参考信号、回声信号等的模拟样本信号，并且每个模拟样本信号对应有标注增益。标注增益标识模拟样本信号中残留回声信号的回声增益的真实值，该标注增益可以预先进行标注得到。

将模拟样本信号输入待训练的回声抑制网络，通过前述过程可以得到网络输出的预测增益。可通过预先构建的损失函数表示标注增益与预测增益之间的差异，从而根据该差异对回声抑制网络的网络参数进行反向传播优化，直至满足网络训练的收敛条件。

回声抑制网络的收敛条件可以根据具体的场景需要进行设置，例如网络训练过程可以包括多个轮次的训练，当训练轮次满足预设次数，确定回声抑制网络的训练满足收敛条件；又例如可设置预设损失阈值，直至预测增益与标注增益之间的差异满足预设损失阈值，确定回声抑制网络的训练满足收敛条件；等等。本公开对此不作限制。

通过上述可知，本公开实施方式中，利用信号模拟产生各种模拟样本信号，训练集样本中包括近端语音信号、近端背景噪声信号和残留回声信号等，提高网络训练效果，而且无需双讲检测器对双讲场景进行识别检测。

第二方面，本公开实施方式提供了一种音频信号处理装置，该装置可以应用于具有语音通信系统的电子设备中，例如手机、平板电脑、笔记本电脑等，本公开对此不作限制。

如图12所示，在一些实施方式中，本公开示例的音频信号处理装置包括：

获取模块101，被配置为获取第一麦克风拾取的第一音频信号和第二麦克风拾取的第二音频信号；其中，第一音频信号和第二音频信号均包括由扬声器播放参考信号所产生的回声信号；

第一滤波模块102，被配置为分别对第一音频信号和第二音频信号进行线性滤波处理，得到第一残差信号和第二残差信号；

第二滤波模块103，被配置为根据第一残差信号对第二残差信号进行非线性滤波处理，得到目标语音信号。

通过上述可知，本公开实施方式的音频信号处理装置，不仅可以去除回声信号中的线性回声，还可以去除非线性回声，提高回声消除效果。并且基于第一残差信号对第二残差信号进行非线性回声估计的过程，对近端语音信号近似无损，因此可以很好的保证近端语音信号无失真，提高语音通信质量。

在一些实施方式中，第一滤波模块102具体被配置为：

根据参考信号对第一音频信号进行自适应滤波处理，得到第一残差信号；

根据参考信号对第二音频信号进行自适应滤波处理，得到第二残差信号。

在一些实施方式中，第二滤波模块103具体被配置为：

基于第一残差信号对第二残差信号进行回声估计，得到估计残差信号；

根据估计残差信号对第二残差信号进行滤波处理，得到目标语音信号。

在一些实施方式中，第二滤波模块103具体被配置为：

根据第一残差信号对第二残差信号进行滤波处理，得到第三残差信号；

根据第三残差信号进行回声抑制，得到目标语音信号。

在一些实施方式中，第二滤波模块103具体被配置为：

将参考信号和第三残差信号，输入预先训练的回声抑制网络，得到回声抑制网络预测输出的回声增益；

根据第三残差信号和回声增益，得到目标语音信号。

第三方面，本公开实施方式提供了一种电子设备，包括：

语音通信系统，包括第一麦克风、第二麦克风以及扬声器；

处理器；以及

存储器，存储有计算机指令，计算机指令用于使处理器执行根据第一方面任一实施方式的方法。

第四方面，本公开实施方式提供了一种存储介质，存储有计算机指令，计算机指令用于使计算机执行根据第一方面任一实施方式的方法。

图13中示出了本公开一些实施方式中的电子设备的结构框图，下面结合图13对本公开一些实施方式的电子设备及存储介质相关原理进行说明。

参照图13，电子设备1800可以包括以下一个或多个组件：处理组件1802，存储器1804，电源组件1806，多媒体组件1808，音频组件1810，输入/输出(I/O)接口1812，传感器组件1816，以及通信组件1818。

处理组件1802通常控制电子设备1800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1802可以包括一个或多个处理器1820来执行指令。此外，处理组件1802可以包括一个或多个模块，便于处理组件1802和其他组件之间的交互。例如，处理组件1802可以包括多媒体模块，以方便多媒体组件1808和处理组件1802之间的交互。又如，处理组件1802可以从存储器读取可执行指令，以实现电子设备相关功能。

存储器1804被配置为存储各种类型的数据以支持在电子设备1800的操作。这些数据的示例包括用于在电子设备1800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1806为电子设备1800的各种组件提供电力。电源组件1806可以包括电源管理系统，一个或多个电源，及其他与为电子设备1800生成、管理和分配电力相关联的组件。

多媒体组件1808包括在所述电子设备1800和用户之间的提供一个输出接口的显示屏。在一些实施例中，多媒体组件1808包括一个前置摄像头和/或后置摄像头。当电子设备1800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1810被配置为输出和/或输入音频信号。例如，音频组件1810包括一个麦克风(MIC)，当电子设备1800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1804或经由通信组件1818发送。在一些实施例中，音频组件1810还包括一个扬声器，用于输出音频信号。

I/O接口1812为处理组件1802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1816包括一个或多个传感器，用于为电子设备1800提供各个方面的状态评估。例如，传感器组件1816可以检测到电子设备1800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1800的显示器和小键盘，传感器组件1816还可以检测电子设备1800或电子设备1800一个组件的位置改变，用户与电子设备1800接触的存在或不存在，电子设备1800方位或加速/减速和电子设备1800的温度变化。传感器组件1816可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1816还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1816还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1818被配置为便于电子设备1800和其他设备之间有线或无线方式的通信。电子设备1800可以接入基于通信标准的无线网络，如Wi-Fi，2G，3G，4G，5G或6G，或它们的组合。在一个示例性实施例中，通信组件1818经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1818还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

显然，上述实施方式仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。

Claims

1.一种音频信号处理方法，其特征在于，包括：

根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号；

所述根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号，包括：

2.根据权利要求1所述的方法，其特征在于，所述分别对所述第一音频信号和所述第二音频信号进行线性滤波处理，得到第一残差信号和第二残差信号，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号，包括：

4.根据权利要求1所述的方法，其特征在于，还包括以下对所述回声抑制网络训练的过程：

获取包括参考信号的模拟样本信号；

5.一种音频信号处理装置，其特征在于，包括：

第二滤波模块，被配置为根据所述第一残差信号对所述第二残差信号进行非线性滤波处理，得到目标语音信号；

所述第二滤波模块具体被配置为：

6.根据权利要求5所述的装置，其特征在于，所述第一滤波模块具体被配置为：

7.根据权利要求5或6所述的装置，其特征在于，所述第二滤波模块具体被配置为：

8.一种电子设备，其特征在于，包括：

语音通信系统，包括第一麦克风、第二麦克风以及扬声器；

处理器；以及

存储器，存储有计算机指令，所述计算机指令用于使处理器执行根据权利要求1至4任一项所述的方法。

9.一种存储介质，其特征在于，存储有计算机指令，所述计算机指令用于使计算机执行根据权利要求1至4任一项所述的方法。