CN114038476A

CN114038476A - 音频信号处理方法及装置

Info

Publication number: CN114038476A
Application number: CN202111433241.1A
Authority: CN
Inventors: 张旭; 郑羲光; 李楠; 韩润强; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-02-11
Also published as: WO2023092955A1

Abstract

本公开关于一种音频信号处理方法及装置，音频信号处理方法包括：获取近端采集音频信号、远端参考音频信号，以及对近端采集音频信号进行线性回声消除后得到的第一近端音频信号；对近端采集音频信号、远端参考音频信号和第一近端音频信号分别进行时频变换，得到频域近端采集音频信号、频域远端参考音频信号和第一频域近端音频信号；对第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号；基于频域远端参考音频信号、频域近端采集音频信号、第一频域近端音频信号和第二频域近端音频信号，对第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号；对频域近端音频增强信号进行时频逆变换，得到近端音频增强信号。

Description

音频信号处理方法及装置

技术领域

本公开涉及信号处理技术领域，更具体地说，涉及一种音频信号处理方法及装置。

背景技术

回声消除(Acoustic Echo Cancellation，AEC)是实时通讯中的重要技术之一，是保证音视频体验的关键点。回声消除技术是指将近端麦克风采集到的音频信号中的远端信号消除掉，只保留下近端信号，其中，近端麦克风采集到的音频信号包括近端信号及远端信号通过近端扬声器播放出来的信号。回声消除技术一般包括线性回声消除和非线性回声消除。

相关技术中，一般将回声消除和传统降噪如滤波进行结合，从而达到降噪和回声消除的效果，但是这种方法处理得到的音频信号存在回声消除和降噪效果较差，且音质不佳的问题。

发明内容

本公开提供一种音频信号处理方法及装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种音频信号处理方法，包括：获取近端采集音频信号、远端参考音频信号，以及对所述近端采集音频信号进行线性回声消除后得到的第一近端音频信号；对所述近端采集音频信号、所述远端参考音频信号和所述第一近端音频信号分别进行时频变换，得到频域近端采集音频信号、频域远端参考音频信号和第一频域近端音频信号；对所述第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号；基于所述频域远端参考音频信号、所述频域近端采集音频信号、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号；对所述频域近端音频增强信号进行时频逆变换，得到近端音频增强信号。

可选地，所述对所述第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号，包括：通过训练好的降噪神经网络模型，对所述第一频域近端音频信号的幅度进行深度学习降噪，得到所述第二频域近端音频信号的幅度；根据所述第二频域近端音频信号的幅度和所述第一频域近端音频信号的相位，得到所述第二频域近端音频信号。

可选地，所述通过训练好的降噪神经网络模型，对所述第一频域近端音频信号的幅度进行深度学习降噪，得到所述第二频域近端音频信号的幅度，包括：将所述第一频域近端音频信号的幅度输入所述训练好的降噪神经网络模型中，得到第一信号幅度比，其中，所述第一信号幅度比为所述第二频域近端音频信号的幅度和所述第一频域近端音频信号的幅度的比值的预测值；根据所述第一信号幅度比和所述第一频域近端音频信号的幅度，得到所述第二频域近端音频信号的幅度，其中，所述第二频域近端音频信号的幅度是所述第一信号幅度比和所述第一频域近端音频信号的幅度的乘积。

可选地，所述基于所述频域远端参考音频信号、所述频域近端采集音频信号、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号，包括：将所述频域远端参考音频信号分别与所述频域近端采集音频信号和第二频率近端音频信号在各个频带上进行求相关，得到各个频带的第二信号幅度比；根据所述第二信号幅度比、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号。

可选地，所述根据所述第二信号幅度比、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号，包括：获取所述第二信号幅度比和所述第一频域近端音频信号的幅度的乘积作为参考幅度；获取所述参考幅度和所述第二频域近端音频信号的幅度中的最小值，作为所述频域近端音频增强信号的幅度；根据所述频域近端音频增强信号的幅度和所述第一频域近端音频信号的相位，得到频域近端音频增强信号。

可选地，所述第二信号幅度比通过下式获取：

Mask(n,k)＝min{1-RCr(n,k),1-RY_pr(n,k)}；

其中，Mask(n,k)为所述第二信号幅度比，RCr(n,k)为所述频域远端参考音频信号和所述频域近端采集音频信号的互相关系数，RY_pr(n,k)为所述频域远端参考音频信号和所述第二频域近端音频信号的互相关系数，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

根据本公开实施例的第二方面，提供一种音频信号处理装置，包括：信号获取单元，被配置为：获取近端采集音频信号、远端参考音频信号，以及对所述近端采集音频信号进行线性回声消除后得到的第一近端音频信号；频域变换单元，被配置为：对所述近端采集音频信号、所述远端参考音频信号和所述第一近端音频信号分别进行时频变换，得到频域近端采集音频信号、频域远端参考音频信号和第一频域近端音频信号；深度降噪单元，被配置为：对所述第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号；非线性消除单元，被配置为：基于所述频域远端参考音频信号、所述频域近端采集音频信号、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号；时域变换单元，被配置为：对所述频域近端音频增强信号进行时频逆变换，得到近端音频增强信号。

可选地，深度降噪单元被配置为：通过训练好的降噪神经网络模型，对所述第一频域近端音频信号的幅度进行深度学习降噪，得到所述第二频域近端音频信号的幅度；根据所述第二频域近端音频信号的幅度和所述第一频域近端音频信号的相位，得到所述第二频域近端音频信号。

可选地，深度降噪单元被配置为：将所述第一频域近端音频信号的幅度输入所述训练好的降噪神经网络模型中，得到第一信号幅度比，其中，所述第一信号幅度比为所述第二频域近端音频信号的幅度和所述第一频域近端音频信号的幅度的比值的预测值；根据所述第一信号幅度比和所述第一频域近端音频信号的幅度，得到所述第二频域近端音频信号的幅度，其中，所述第二频域近端音频信号的幅度是所述第一信号幅度比和所述第一频域近端音频信号的幅度的乘积。

可选地，非线性消除单元被配置为：将所述频域远端参考音频信号分别与所述频域近端采集音频信号和第二频率近端音频信号在各个频带上进行求相关，得到各个频带的第二信号幅度比；根据所述第二信号幅度比、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号。

可选地，非线性消除单元被配置为：获取所述第二信号幅度比和所述第一频域近端音频信号的幅度的乘积作为参考幅度；获取所述参考幅度和所述第二频域近端音频信号的幅度中的最小值，作为所述频域近端音频增强信号的幅度；根据所述频域近端音频增强信号的幅度和所述第一频域近端音频信号的相位，得到频域近端音频增强信号。

可选地，所述第二信号幅度比通过下式获取：

Mask(n,k)＝min{1-RCr(n,k),1-RY_pr(n,k)}；

其中，Mask(n,k)为所述第二信号幅度比，RCr(n,j)为所述频域远端参考音频信号和所述频域近端采集音频信号的互相关系数，RY_pr(n,k)为所述频域远端参考音频信号和所述第二频域近端音频信号的互相关系数，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

根据本公开实施例的第三方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的音频信号处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的音频信号处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的音频信号处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的音频信号处理方法及装置，先对近端采集音频信号进行线性回声消除，接着对其进行深度学习降噪，然后进行非线性回声消除，通过线性回声消除和非线性回声消除对远端参考音频信号中的回声信号进行消除，获得最终的近端音频增强信号，将深度学习降噪和回声消除结合起来，充分利用了深度学习降噪的良好性能，相较于相关技术中所采用的传统降噪技术和回声消除的结合，能够得到更好的回声消除效果和降噪效果，带来音质的提升。

此外，根据本公开的音频信号处理方法及装置，可利用深度学习降噪处理传统降噪很难解决的情况，如类稳态或非稳态噪声的消除以及传统降噪消除噪声效果不好的问题。

此外，根据本公开的音频信号处理方法及装置，在非线性回声消除的过程中，通过基于互相关系数获取信号幅度比，最终获得频域近端音频增强信号，可达到同时消除回声和噪声的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开的示例性实施例的音频信号处理方法的整体框架图。

图2是根据本公开的示例性实施例的音频信号处理方法的流程图。

图3是根据本公开的示例性实施例的音频信号处理装置的框图。

图4是根据本公开的示例性实施例的电子设备400的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在实时通讯中，音频信号可能会包含噪声，也可能会包含回声，基于此，回声消除(Acoustic Echo Cancellation，AEC)成为了实时通讯中的重要技术之一，是保证音视频体验的关键点。回声消除技术是指将近端麦克风采集到的音频信号中的远端信号消除掉，只保留下近端信号，其中，近端麦克风采集到的音频信号可能包括近端信号及远端信号通过近端扬声器播放出来的音频信号。需要说明的是，近端可称为本端，远端可称为其他端。回声消除技术一般包括线性回声消除和非线性回声消除。

线性回声消除可以通过自适应滤波的方法消除远端信号，但是往往会有远端信号残留。线性回声消除与非线性回声消除相结合会提升远端信号的消除效果。但是通常情况下，近端采集的信号的信噪比会影响非线性回声消除的效果。相关技术中，将经过线性回声消除的音频信号利用传统方式如维纳滤波进行降噪，得到相对干净的音频信号，再进行非线性回声消除进行相关性处理。但是这种方法处理得到的音频信号受到传统降噪技术效果的限制，降噪效果不好，尤其在噪声为非稳态时，从而影响回声消除效果，造成音质不佳。

为了解决上述相关技术中存在的问题，本公开提出一种音频信号处理方法及装置，先对近端采集音频信号进行线性回声消除，接着对其进行深度学习降噪，然后进行非线性回声消除，获得最终的近端音频增强信号，将深度学习降噪和回声消除结合起来，相较于相关技术中所采用的传统降噪技术和回声消除的结合，能够得到更好的回声消除效果和降噪效果，带来音质的提升。

下面，将参照图1至图4来详细描述根据本公开的音频信号处理方法及装置。

图1是根据本公开的示例性实施例的音频信号处理方法的整体框架图。参照图1，可将近端采集音频信号进行线性回声消除，得到第一近端音频信号，可将第一频域近端音频信号进行深度学习降噪，得到第二频域近端音频信号，可对第二频域近端音频信号进行非线性回声消除处理，得到频域近端音频增强信号，需要说明的是，在这个过程中，可以通过线性回声消除和非线性回声消除对远端参考音频信号中的回声信号进行消除。

在得知本公开的示例性实施例的整体框架后，下面通过具体的方法步骤对于本公开的示例性实施例的音频信号处理方法进行说明。

参照图2，在步骤201，可获取近端采集音频信号、远端参考音频信号，以及对近端采集音频信号进行线性回声消除后得到的第一近端音频信号。

根据本公开的示例性实施例，近端采集音频信号为近端麦克风采集到的音频信号，远端参考音频信号为未经近端扬声器播放的远端传送的音频信号。

近端麦克风采集到的音频信号可包括，但不限于，近端麦克风采集到的近端的用户声音信号和近端麦克风采集到的远端通过网络链路传输过来并经过近端扬声器播放的音频信号。

在步骤202，可对近端采集音频信号、远端参考音频信号和第一近端音频信号分别进行时频变换，得到频域近端采集音频信号、频域远端参考音频信号和第一频域近端音频信号。

根据本公开的示例性实施例，时频变换可为，但不限于，短时傅里叶变换(Short-Time Fourier Transform，STFT)。下面以STFT为例进行描述。

根据本公开的示例性实施例，可将时间长度为T的近端采集音频信号、远端参考音频信号和第一近端音频信号在时域上分别表示为c(t)、rt)和y(t)，其中，t为时间，0t≤T。经过短时傅里叶变换之后，c(t)、rt)和y(t)在频域可通过下式(1)-(3)表示：

C(n,k)＝STFT(c(t))； (1)

R(n,k)＝STFT(r(t))； (2)

Y(n,k)＝STFT(y(t))； (3)

其中，c(t)为近端采集音频信号，rt)为远端参考音频信号，y(t)为第一近端音频信号，STFT(x)表示对x进行短时傅里叶变换，C(n,k)为频域近端采集音频信号，R(n,k)为频域远端参考音频信号，Y(n,k)为第一频域近端音频信号，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

在步骤203，可对第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号。

根据本公开的示例性实施例，深度学习降噪可通过神经网络模型进行降噪实现，在这种情况下：首先可通过训练好的降噪神经网络模型，对第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号的幅度。然后可根据第二频域近端音频信号的幅度和第一频域近端音频信号的相位，得到第二频域近端音频信号。

根据本公开的示例性实施例，首先可将第一频域近端音频信号的幅度输入训练好的降噪神经网络模型中，得到第一信号幅度比，其中，第一信号幅度比为第二频域近端音频信号的幅度和第一频域近端音频信号的幅度的比值的预测值。然后可根据第一信号幅度比和第一频域近端音频信号的幅度，得到第二频域近端音频信号的幅度，其中，第二频域近端音频信号的幅度是第一信号幅度比和第一频域近端音频信号的幅度的乘积。例如，训练好的降噪神经网络模型可以是基于深度学习(Deep Learning)的神经网络模型，包括，但不限于，卷积神经网络模型。

根据本公开的示例性实施例，待训练的降噪神经网络模型通过对训练数据集的训练，完成其训练，其中，训练数据集可包括带噪音频信号的幅度数据集。

根据本公开的示例性实施例，第二频域近端音频信号可通过下式(4)获取：

Y(n,k)_p＝Predict(MagY(n,k))*Phase(Y(n,k))； (4)

其中，Y(n,k)_p为第二频域近端音频信号，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数，Y(n,k)为第一频域近端音频信号，MagY(n,k)为第一频域近端音频信号的幅度， Predict(MagY(n,k))代表对第一频域近端音频信号的幅度进行深度学习降噪，Phase(Y(n,k))为第一频域近端音频信号的相位。

回到图2，在步骤204，可基于频域远端参考音频信号、频域近端采集音频信号、第一频域近端音频信号和第二频域近端音频信号，对第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号。

根据本公开的示例性实施例，首先可将频域远端参考音频信号分别与频域近端采集音频信号和第二频率近端音频信号在各个频带上进行求相关，得到各个频带的第二信号幅度比。然后可根据第二信号幅度比、第一频域近端音频信号和第二频域近端音频信号，对第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号。

根据本公开的示例性实施例，首先可获取频域远端参考音频信号和频域近端采集音频信号的互相关系数，以及，频域远端参考音频信号和第二频域近端音频信号的互相关系数。然后可基于这两个互相关系数得到各个频带的第二信号幅度比。

例如，可通过下式(5)获取频域远端参考音频信号和频域近端采集音频信号的互相关系数：

RCr(n,k)＝Xcorr(R(n,k),C(n,k))； (5)

其中，RCr(n,k)为频域远端参考音频信号和频域近端采集音频信号的互相关系数，Xcorr(a,b)代表通过互相关函数对a和b在各帧和各频带求互相关获得a和b在各个频带上的互相关系数，R(n,k)为频域远端参考音频信号， C(n,k)为频域近端采集音频信号，n为帧序列数，k为中心频率序列数， 0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

例如，可通过下式(6)获取频域远端参考音频信号和第二频域近端音频信号的互相关系数：

RY_pr(n,k)＝Xcorr(R(n,k),Y(n,k)_p)； (6)

其中，RY_pr(n,k)为频域远端参考音频信号和第二频域近端音频信号的互相关系数，Xcorr(a,b)代表通过互相关函数对a和b在各帧和各频带求互相关获得a和b在各个频带上的互相关系数，R(n,k)为频域远端参考音频信号， Y(n,k)_p为第二频域近端音频信号，n为帧序列数，k为中心频率序列数， 0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

例如，第二信号幅度比通过下式(7)获取：

Mask(n,k)＝min{1-RCr(n,k),1-RY_pr(n,k)}； (7)

其中，Mask(n,k)为第二信号幅度比，RCr(n,k)为频域远端参考音频信号和频域近端采集音频信号的互相关系数，RY_pr(n,k)为频域远端参考音频信号和第二频域近端音频信号的互相关系数，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

根据本公开的示例性实施例，首先可获取第二信号幅度比和第一频域近端音频信号的幅度的乘积作为参考幅度。然后可获取参考幅度和第二频域近端音频信号的幅度中的最小值，作为频域近端音频增强信号的幅度。最后可根据频域近端音频增强信号的幅度和第一频域近端音频信号的相位，得到频域近端音频增强信号。

例如，频域近端音频增强信号可通过下式(8)获取：

Y(n,k)_out＝min{MagY(n,k)*Mask(n,k),MagY(n,k)_p}*Phase(Y(n,k))；

(8)

其中，Y(n,k)_out为频域近端音频增强信号，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数，Y(n,k)为第一频域近端音频信号，MagY(n,k)为第一频域近端音频信号的幅度，Mask(n,k) 为第二信号幅度比，MagY(n,k)_p为第二频域近端音频信号的幅度，Y(n,k)_p为第二频域近端音频信号，Phase(Y(n,k))为第一频域近端音频信号的相位。

回到图2，在步骤205，可对频域近端音频增强信号进行时频逆变换，得到近端音频增强信号。

根据本公开的示例性实施例，时频逆变换可为，但不限于，短时反傅里叶变换(Inverse Short-Time Fourier Transform，ISTFT)。在这种情况下，近端音频增强信号可通过下式(9)获取：

y(t)_out＝ISTFT(Y(n,k)_out)； (9)

其中，y(t)_out为近端音频增强信号，ISTFT(x)表示对x进行短时反傅里叶变换，Y(n,k)_out为频域近端音频增强信号，t为时间，0＜t≤T，T为时间长度，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

图3是根据本公开的示例性实施例的音频信号处理装置的框图。参照图3，根据本公开的示例性实施例的音频信号处理装置300可包括信号获取单元301、频域变换单元302、深度降噪单元303、非线性消除单元304和时域变换单元305。

信号获取单元301可获取近端采集音频信号、远端参考音频信号，以及对近端采集音频信号进行线性回声消除后得到的第一近端音频信号。

频域变换单元302可对近端采集音频信号、远端参考音频信号和第一近端音频信号分别进行时频变换，得到频域近端采集音频信号、频域远端参考音频信号和第一频域近端音频信号。

根据本公开的示例性实施例，可将时间长度为T的近端采集音频信号、远端参考音频信号和第一近端音频信号在时域上分别表示为c(t)、r(t)和y(t)，其中，t为时间，0＜t≤T。经过短时傅里叶变换之后，c(t)、r(t)和y(t)在频域可通过上式(1)-(3)表示。

深度降噪单元303可对第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号。

根据本公开的示例性实施例，深度学习降噪可通过神经网络模型进行降噪实现，在这种情况下：深度降噪单元303首先可通过训练好的降噪神经网络模型，对第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号的幅度。深度降噪单元303然后可根据第二频域近端音频信号的幅度和第一频域近端音频信号的相位，得到第二频域近端音频信号。

根据本公开的示例性实施例，深度降噪单元303首先可将第一频域近端音频信号的幅度输入训练好的降噪神经网络模型中，得到第一信号幅度比，其中，第一信号幅度比为第二频域近端音频信号的幅度和第一频域近端音频信号的幅度的比值的预测值。深度降噪单元303然后可根据第一信号幅度比和第一频域近端音频信号的幅度，得到第二频域近端音频信号的幅度，其中，第二频域近端音频信号的幅度是第一信号幅度比和第一频域近端音频信号的幅度的乘积。例如，训练好的降噪神经网络模型可以是基于深度学习(DeepLearning)的神经网络模型，包括，但不限于，卷积神经网络模型。

根据本公开的示例性实施例，第二频域近端音频信号可通过上式(4)获取。

回到图3，非线性消除单元304可基于频域远端参考音频信号、频域近端采集音频信号、第一频域近端音频信号和第二频域近端音频信号，对第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号。

根据本公开的示例性实施例，非线性消除单元304首先可将频域远端参考音频信号分别与频域近端采集音频信号和第二频率近端音频信号在各个频带上进行求相关，得到各个频带的第二信号幅度比。非线性消除单元304然后可根据第二信号幅度比、第一频域近端音频信号和第二频域近端音频信号，对第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号。

根据本公开的示例性实施例，非线性消除单元304首先可获取频域远端参考音频信号和频域近端采集音频信号的互相关系数，以及，频域远端参考音频信号和第二频域近端音频信号的互相关系数。非线性消除单元304然后可基于这两个互相关系数得到各个频带的第二信号幅度比。

例如，可通过上式(5)获取频域远端参考音频信号和频域近端采集音频信号的互相关系数。

例如，可通过上式(6)获取频域远端参考音频信号和第二频域近端音频信号的互相关系数。

例如，第二信号幅度比通过上式(7)获取。根据本公开的示例性实施例，非线性消除单元304首先可获取第二信号幅度比和第一频域近端音频信号的幅度的乘积作为参考幅度。非线性消除单元304然后可获取参考幅度和第二频域近端音频信号的幅度中的最小值，作为频域近端音频增强信号的幅度。非线性消除单元304最后可根据频域近端音频增强信号的幅度和第一频域近端音频信号的相位，得到频域近端音频增强信号。

例如，频域近端音频增强信号可通过上式(8)获取。

回到图3，时域变换单元305可对频域近端音频增强信号进行时频逆变换，得到近端音频增强信号。

根据本公开的示例性实施例，时频逆变换可为，但不限于，短时反傅里叶变换(Inverse Short-Time Fourier Transform，ISTFT)。在这种情况下，近端音频增强信号可通过上式(9)获取。

图4是根据本公开的示例性实施例的电子设备400的框图。

参照图4，电子设备400包括至少一个存储器401和至少一个处理器402，所述至少一个存储器401中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器402执行时，执行根据本公开的示例性实施例的音频信号处理方法。

作为示例，电子设备400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备400并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备400中，处理器402可包括中央处理器(CPU)、图形处理器 (GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器402可运行存储在存储器401中的指令或代码，其中，存储器401 还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器401可与处理器402集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器401可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器401 和处理器402可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器402能够读取存储在存储器中的文件。

此外，电子设备400还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备400的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的音频信号处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、 DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、 BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成根据本公开的示例性实施例的音频信号处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，包括：

获取近端采集音频信号、远端参考音频信号，以及对所述近端采集音频信号进行线性回声消除后得到的第一近端音频信号；

对所述近端采集音频信号、所述远端参考音频信号和所述第一近端音频信号分别进行时频变换，得到频域近端采集音频信号、频域远端参考音频信号和第一频域近端音频信号；

对所述第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号；

基于所述频域远端参考音频信号、所述频域近端采集音频信号、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号；

对所述频域近端音频增强信号进行时频逆变换，得到近端音频增强信号。

2.如权利要求1所述的音频信号处理方法，其特征在于，所述对所述第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号，包括：

通过训练好的降噪神经网络模型，对所述第一频域近端音频信号的幅度进行深度学习降噪，得到所述第二频域近端音频信号的幅度；

根据所述第二频域近端音频信号的幅度和所述第一频域近端音频信号的相位，得到所述第二频域近端音频信号。

3.如权利要求2所述的音频信号处理方法，其特征在于，所述通过训练好的降噪神经网络模型，对所述第一频域近端音频信号的幅度进行深度学习降噪，得到所述第二频域近端音频信号的幅度，包括：

将所述第一频域近端音频信号的幅度输入所述训练好的降噪神经网络模型中，得到第一信号幅度比，其中，所述第一信号幅度比为所述第二频域近端音频信号的幅度和所述第一频域近端音频信号的幅度的比值的预测值；

根据所述第一信号幅度比和所述第一频域近端音频信号的幅度，得到所述第二频域近端音频信号的幅度，其中，所述第二频域近端音频信号的幅度是所述第一信号幅度比和所述第一频域近端音频信号的幅度的乘积。

4.如权利要求1所述的音频信号处理方法，其特征在于，所述基于所述频域远端参考音频信号、所述频域近端采集音频信号、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号，包括：

将所述频域远端参考音频信号分别与所述频域近端采集音频信号和第二频率近端音频信号在各个频带上进行求相关，得到各个频带的第二信号幅度比；

根据所述第二信号幅度比、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号。

5.如权利要求4所述的音频信号处理方法，其特征在于，所述根据所述第二信号幅度比、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号，包括：

获取所述第二信号幅度比和所述第一频域近端音频信号的幅度的乘积作为参考幅度；

获取所述参考幅度和所述第二频域近端音频信号的幅度中的最小值，作为所述频域近端音频增强信号的幅度；

根据所述频域近端音频增强信号的幅度和所述第一频域近端音频信号的相位，得到频域近端音频增强信号。

6.如权利要求4或5所述的音频信号处理方法，其特征在于，所述第二信号幅度比通过下式获取：

Mask(n，k)＝min{1-RCr(n，k)，1-RY_pr(n，k)}；

其中，Mask(n，k)为所述第二信号幅度比，RCr(n，k)为所述频域远端参考音频信号和所述频域近端采集音频信号的互相关系数，RY_pr(n，k)为所述频域远端参考音频信号和所述第二频域近端音频信号的互相关系数，n为帧序列数，k为中心频率序列数，0＜n≤N，0＜k≤K，N为总帧数，K为总频带数。

7.一种音频信号处理装置，其特征在于，包括：

信号获取单元，被配置为：获取近端采集音频信号、远端参考音频信号，以及对所述近端采集音频信号进行线性回声消除后得到的第一近端音频信号；

频域变换单元，被配置为：对所述近端采集音频信号、所述远端参考音频信号和所述第一近端音频信号分别进行时频变换，得到频域近端采集音频信号、频域远端参考音频信号和第一频域近端音频信号；

深度降噪单元，被配置为：对所述第一频域近端音频信号的幅度进行深度学习降噪，得到第二频域近端音频信号；

非线性消除单元，被配置为：基于所述频域远端参考音频信号、所述频域近端采集音频信号、所述第一频域近端音频信号和所述第二频域近端音频信号，对所述第二频域近端音频信号进行非线性回声消除，得到频域近端音频增强信号；

时域变换单元，被配置为：对所述频域近端音频增强信号进行时频逆变换，得到近端音频增强信号。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的音频信号处理方法。

9.一种计算机可读存储介质，其特征在于，当述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的音频信号处理方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1到6中的任一权利要求所述的音频信号处理方法。