CN113421579B

CN113421579B - 声音处理方法、装置、电子设备和存储介质

Info

Publication number: CN113421579B
Application number: CN202110739255.XA
Authority: CN
Inventors: 操陈斌; 何梦楠
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-06-07
Anticipated expiration: 2041-06-30
Also published as: CN113421579A

Abstract

本公开是关于一种声音处理方法、装置、电子设备和存储介质，所述方法包括：根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号；根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数；根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

Description

声音处理方法、装置、电子设备和存储介质

技术领域

本公开涉及回声消除技术领域，具体涉及一种声音处理方法、装置、电子设备和存储介质。

背景技术

手机等终端设备进行语音通信和人机语音交互时，当扬声器播放语音和用户对麦克风输入语音同时进行时，便会形成全双工现象，即扬声器播放的语音会随用户语音输入至麦克风中，从而形成回声。相关技术中使用自适应滤波器来消除上述回声，但是自适应滤波器对回声中的非线性回声消除效果较差，因此无法达到消除回声的目的。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种声音处理方法、装置、电子设备和存储介质，用以解决相关技术中的缺陷。

根据本公开实施例的第一方面，提供一种声音处理方法，应用于终端设备，包括：

根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号；

根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数；

根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

在一个实施例中，所述根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，包括：

获取回声信号和麦克风的输入信号组成的第一信号向量；

根据当前帧的第一信号向量和前一帧的分离向量确定第二残差信号的向量，其中，所述第二残差信号包括近端信号和第二残留回声信号；

根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量；

根据所述第一信号向量和所述当前帧的分离向量确定第一残差信号的向量以及第一回声估计信号的向量。

在一个实施例中，所述获取回声信号和麦克风的输入信号组成的第一信号向量，包括：

分别将所述输入信号的向量、所述线性回声信号的向量和所述非线性回声信号的向量由时域形式转换为频域形式；

将频域形式的所述输入信号的向量、频域形式的所述线性回声信号的向量和频域形式的所述非线性回声信号的向量按照预设方向排列，形成所述第一信号向量。

在一个实施例中，所述线性回声信号的向量为所述参考回声信号。

在一个实施例中，所述非线性回声信号包括多项回声子信号；所述回声子信号根据所述参考回声信号和非线性变换函数确定。

在一个实施例中，所述根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量，包括：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据前一帧的辅助变量、所述第一协方差矩阵、所述对比度函数和所述平滑参数，确定当前帧的辅助变量；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

在一个实施例中，所述根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数，包括：

根据所述第一残差信号的向量确定所述第一残差信号的特征，并根据所述第一回声估计信号的向量确定所述第一回声估计信号的特征；

将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数。

在一个实施例中，所述将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数，包括：

所述神经网络分别对所述第一残差信号的特征和所述第一回声估计信号的特征依次进行至少一级降维处理和时域整合；

将所述第一残差信号的特征、所述第一残差信号的特征的降维结果和时域整合结果，以及所述第一回声估计信号的特征、所述第一回声估计信号的特征的降维结果和时域整合结果输入所述神经网络的估计模块，以使所述估计模块输出所述残留回声估计信号；

将所述残留回声估计信号、所述第一残差信号的特征、所述第一残差信号的特征的时域整合结果和所述第一回声估计信号的特征的时域整合结果输入所述神经网络的抑制模块，以使所述抑制模块输出所述当前帧的增益函数。

在一个实施例中，还包括：

根据训练集中的回声参考训练信号对所述训练集中的近端语音训练信号、近端噪声训练信号和近端回声训练信号组成的混合信号进行回声消除，得到第三残差信号和第二回声估计信号，并根据所述训练集中的所述近端语音训练信号和所述第三残差信号确定增益函数的标签值；

根据所述第三残差信号的向量确定所述第三残差信号的特征，并根据所述第二回声估计信号的向量确定所述第二回声估计信号的特征；

将所述第三残差信号的特征和所述第二回声估计信号的特征输入所述神经网络，以使所述神经网络输出当前帧的增益函数的预测值；

根据所述增益函数的标签值和所述增益函数的预测值确定网络损失值，并根据所述网络损失值调节所述神经网络的网络参数。

在一个实施例中，还包括：

按照随机的信噪比，从所述数据集中随机抽取和拼接语音信号和噪声信号，形成回声参考训练信号，并根据所述回声参考训练信号生成所述近端回声训练信号；

从所述数据集中随机抽取和拼接语音信号，形成所述近端语音训练信号；

从所述数据集中随机抽取和拼接噪音信号，形成所述近端噪声训练信号；

根据所述回声参考训练信号、所述近端回声训练信号、所述近端语音训练信号和所述近端噪声训练信号，确定所述训练集。

在一个实施例中，所述根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号，包括：

将所述第一残差信号的向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的近端信号。

根据本公开实施例的第二方面，提供一种声音处理装置，应用于终端设备，包括：

残差回声模块，用于根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述回声信号包括线性回声信号和非线性回声信号，所述回声信号根据回声参考信号确定；

增益模块，用于根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数；

抑制模块，用于根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

在一个实施例中，所述残差回声模块具体用于：

获取回声信号和麦克风的输入信号组成的第一信号向量；

在一个实施例中，所述残差回声模块用于获取回声信号和麦克风的输入信号组成的第一信号向量时，具体用于：

在一个实施例中，所述残差回声模块用于根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量时，具体用于：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

在一个实施例中，所述增益模块具体用于：

在一个实施例中，所述增益模块用于将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数时，具体用于：

在一个实施例中，还包括训练模块，用于：

在一个实施例中，还包括训练集获取模块，用于：

在一个实施例中，所述抑制模块具体用于：

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于第一方面所述的声音处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开通过第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，并且根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数，最后根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。由于回声信号和输入信号所组成的第一信号向量被当做一个整体进行消除回声处理和回声估计处理，因此使用统一的框架联合处理线性回声和非线性回声消除问题，解决了相关技术在回声和近端信号同时存在的双讲期间，无法去除非线性回声的问题，而且使得残留回声的估计更加简单准确，提高了回声消除效果；再者利用利用神经网络，根据第一残差信号和第一回声估计信号进一步确定增益函数，以使残留回声得到抑制，进一步提高了回声消除效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开一示例性实施例示出的声音处理方法的流程图；

图2是本公开一示例性实施例示出的确定第一残差信号的向量以及回声估计信号的向量的流程图；

图3是本公开一示例性实施例示出的分析窗的示意图；

图4是本公开一示例性实施例示出的确定增益函数的流程图；

图5是本公开一示例性实施例示出的神经网络的结构示意图；

图6是本公开一示例性实施例示出的回声消除过程的示意图；

图7是本公开一示例性实施例示出的回声消除装置的结构示意图；

图8是本公开一示例性实施例示出的电子设备框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

对于全双工语音通信和人机语音交互领域，在上行和下行语音同时存在的双讲(Double Talk，DT)场景，由于存在本地语音和噪声成分的干扰，传统基于线性自适应滤波技术的方法无法准确控制滤波器的迭代更新。缓解这个问题的方法一般都是在双讲期间减小滤波器的自适应速率或者停止更新自适应滤波器。而这些方法并不能从根本上解决上述问题，并且在回声路径发生改变时，由于滤波器更新速率变慢或者停止更新，结果导致因无法准确估计线性回声和非线性回声成分而产生较多残留回声。

非线性声音处理方法中，基于Volterra滤波器或Power滤波器技术的一大类方法，由于要适应大量的滤波器参数，需要占用大量的存储空间，而且具有很高的计算复杂度，另外较长的滤波器阶数导致滤波器收敛速度很慢，这些缺陷使得它很少在实际应用中使用。另一大类基于自适应滤波技术的非线性声音处理方法，类似于自适应滤波线性回声消除，因为双讲期间近端信号被误当作非线性成分，从而严重干扰了非线性自适应滤波器的更新方向和收敛状态。

基于此，第一方面，本公开至少一个实施例提供了一种声音处理方法，请参照附图1，其示出了该方法的流程，包括步骤S101和步骤S104。

其中，该声音处理方法应用于终端设备，其中，终端设备可以是手机、平板电脑等具有通信功能和/或人机交互功能的终端设备。终端设备在通信过程中，麦克风的输入信号中包括近端信号，即用户输入的语音信号，同时还存在线性回声信号和非线性回声信号，该声音处理方法的目的就是从麦克风的输入信号中消除线性回声信号和非线性回声信号，从而得到相对纯净的近端信号。

其中，麦克风的输入信号由近端信号和回声信号组成：

d(n)＝s(n)+v(n)+y(n)

其中，近端用户语音信号s(n)和背景噪声v(n)组合成近端信号，y(n)是回声信号，包含线性回声信号y_L(n)和非线性回声信号y_NL(n)。回声信号可以根据回声参考信号x(n)确定。

线性回声信号可以使用回声参考信号和声学传递函数来表示：

其中，x(n)表示回声参考信号，x(n)是其向量形式，是扬声器到麦克风声学冲激响应(Acoustic Impulse Response，AIR)的向量形式。

扬声器及其功率放大器中存在主要的非线性成分，其表现为驱动扬声器的功率放大器或扬声器本身的饱和曲线，因此可以使用无记忆的高阶非线性模型来对其进行建模。

其中，是第i个非线性成分的声学冲激响应(AIR)，f_i(·)是第i个非线性成分的非线性变换函数，N是非线性成分个数。

上述线性回声和非线性回声模型可以综合表示为：

其中，线性回声信号的向量为所述参考回声信号，即线性回声信号的非线性变换函数为：

f₀(x(n))＝x(n)

非线性变换函数可以为下述函数中的任意一种：多项式函数、

例如，当非线性变化函数为多项式函数时，f_i(x(n))＝xⁱ(n)(i≥1)，其中i表示阶数，因为计算复杂度正比于多项式的阶数，优选1≤i≤7。

在步骤S101中，根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号。

其中，所述回声信号包括线性回声信号和非线性回声信号，所述回声信号根据回声参考信号确定。

本步骤中，可以按照如图2所示的方式确定第一残差信号的向量E₁(l，k)以及第一回声估计信号的向量Y(l，k)，包括子步骤S1011至子步骤S1013。

在子步骤1011中，获取回声信号和麦克风的输入信号组成的第一信号向量。

本步骤中，可以分别将所述输入信号的向量、所述线性回声信号的向量和所述非线性回声信号的向量由时域形式转换为频域形式，并将频域形式的所述输入信号的向量、频域形式的所述线性回声信号的向量和频域形式的所述非线性回声信号的向量按照预设方向排列，形成所述第一信号向量。

其中，根据上述回声模型可知，所述线性回声信号的向量为所述参考回声信号，而所述非线性回声信号包括多项回声子信号；所述回声子信号根据所述参考回声信号和非线性变换函数确定。

其中，由时域形式转换为频域形式，可以采用下述傅里叶变换(Short TimeFourier Transform，STFT)：

Xne＝fft(d.*win)

Xfe0＝fft(f₀(x).*win)＝fft(x.*win)

Xfe1＝fft(f₁(x).*win)＝fft(x¹.*win)

…

Xfen＝fft(f_n(x).*win)＝fft(xⁿ.*win)

其中，x是回声参考信号的向量形式，d是麦克风的输入信号的向量形式，win是如图3所示的短时分析窗，fft(·)是傅里叶变换。

win＝[0；sqrt(hanning(N-1))]

hanning(n)＝0.5*[1-cos(2π*n/N)]

其中N是分析帧长度，hanning(n)是长度为N-1的汉宁窗。

上述得到的各项可以组成第一信号向量：

X(l，k)＝[Xne(l，k)，Xfe0(l，k)，Xfe1(l，k)，…，Xfen(l，k)]

其中，其中l表示帧索引，k表示频率点。

在子步骤S1012中，根据当前帧的所述第一信号向量和前一帧的分离向量确定第二残差信号的向量，其中，所述第二残差信号包括近端信号和第二残留回声信号。

其中，针对每一帧的第一信号向量，均执行步骤S1012至步骤S1014，而每一帧的第一信号向量在步骤S1013所确定的该帧的分离向量，均用于下一帧的步骤S1012。另外，第一帧的第一信号向量无上一帧，因此针对第一帧执行步骤S1012时，前一帧的分离向量采用预设的初始值。

可以采用下述方式确定第二残差信号的向量：

其中，E₂(l,k)为第二残差信号，X_i(l,k)为Xne(l,k)、Xfe0(l,k)、Xfe1(l,k)…Xfen(l,k)中的一个，W_i(l-1,k)为前一帧的分离向量W(l-1,k)中对应X_i(l,k)的分量，N是包括麦克风输入信号、线性回声参考信号和所有非线性回声参考信号的所有信号个数。

在子步骤S1013中，根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量。

本步骤中，可以先根据每个频率点的所述第二残差信号的向量确定评价函数r：其中，K是频率点数；再根据所述评价函数确定对比度函数/> 再根据所述第一信号向量确定第一协方差矩阵：Xf(l,k)＝X(l,k)-X^H(l,k)，其中，(·)^H表示厄米特共轭转置；再根据前一帧的辅助变量、所述第一协方差矩阵、所述对比度函数和所述平滑参数，确定当前帧的辅助变量V(l,k)：其中，α为预先设置的平滑参数；最后根据所述当前帧的辅助变量确定所述当前帧的分离变量：V(l,k)＝V(l,k)^-1I，其中，I是单位向量，I＝[1,0,…,0]^T。

在子步骤S1014中，根据所述第一信号向量和所述当前帧的分离向量确定第一残差信号的向量以及回声估计信号的向量。

其中，确定第一残差信号可以采用和确定第二残差信号相同的方式，只是利用的分离向量为当前帧的分离向量，即采用下述方式确定第一残差信号的向量：

其中，X_i(l，k)为Xne(l，k)、Xfe0(l，k)、Xfe1(l，k)…Xfen(l，k)中的一个，W_i(l，k)为当前帧的分离向量W(l，k)中对应X_i(l，k)的分量。

其中，可以采用下述方式确定回声估计信号的向量：

其中，X_i(l，k)为Xfe0(l，k)、Xfe1(l，k)...Xfen(l，k)中的一个，W_i(l，k)为当前帧的分离向量W(l，k)中对应X_i(l，k)的分量。

在步骤S102中，根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数。

可以按照如图4所示的方式确定当前帧的增益函数G(l，k)，包括子步骤S1021至步骤S1022。

在步骤S1021中，根据所述第一残差信号的向量确定所述第一残差信号的特征，并根据所述第一回声估计信号的向量确定所述第一回声估计信号的特征。

本步骤中，可以分别将第一残差信号的向量和回声估计信号的向量作为目标向量，执行下述操作，以获得对应的特征：先将目标信号的向量均按照0、100、200、300、400、500、600、700、800、900、1000、1200、1400、1600、1800、2000、2200、2400、2600、2800、3000、3200、3400、3600、3800、4000、4400、4800、5200、5600、6000、6400、6800、7200、7600、8000这些频率点划分为36个子频带。

然后对当前帧目标信号向量和前一帧目标信号向量依次进行叠加、加窗和傅里叶变换，并根据每个频带的宽度计算每个频带的第一能量E_X，以及计算每个子频带的第一能量E_X的对数能量，并对其做离散余弦换，以确定倒谱系数BFCC。

再然后对当前帧信号和前三帧信号依次进行叠加和搜索基音信号F₀，并计算基因信号的每个频带的第二能量E_P，以及根据所述第一能量E_X和所述第二能量E_P，确定目标信号与基音信号间的归一化频带互相关性系数E_XP；

再然后确定所述倒谱系数BFCC的一阶差分和二阶差分，并确定当前帧的倒谱系数与前一帧的倒谱系数间的变化特征；

再然后对归一化频带互相关性E_XP执行离散余弦变换DCT，并取其前六个系数。

最后将基音信号F₀、倒谱系数BFCC、倒谱系数BFCC的一阶差分和二阶差分、归一化频带互相关性E_XP的离散余弦变换结果的前六个系数以及当前帧的倒谱系数与前一帧的倒谱系数间的变化特征等54个特征确定为目标向量的特征。

在步骤S1022中，将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数。

本步骤中，可以参照附图5，所述神经网络分别对所述第一残差信号的特征和所述第一回声估计信号的特征依次进行至少一级降维处理和时域整合，其中降维处理就是降低特征的维度，时域整合就是将时间上连续的语音信号建立一个时间维度的上下文依赖关系；然后将所述第一残差信号的特征、所述第一残差信号的特征的降维结果和时域整合结果，以及所述第一回声估计信号的特征、所述第一回声估计信号的特征的降维结果和时域整合结果输入所述神经网络的估计模块，以使所述估计模块输出所述残留回声估计信号；最后将所述残留回声估计信号、所述第一残差信号的特征、所述第一残差信号的特征的时域整合结果和所述第一回声估计信号的特征的时域整合结果输入所述神经网络的抑制模块，以使所述抑制模块输出所述当前帧的增益函数。

其中，可以按照下述方式预先对神经网络进行训练：首先，根据训练集中的回声参考训练信号对所述训练集中的近端语音训练信号、近端噪声训练信号和近端回声训练信号组成的混合信号进行回声消除，得到第三残差信号和第二回声估计信号，并根据所述训练集中的所述近端语音训练信号和所述第三残差信号确定增益函数的标签值；然后，根据所述第三残差信号的向量确定所述第三残差信号的特征，并根据所述第二回声估计信号的向量确定所述第二回声估计信号的特征；然后，将所述第三残差信号的特征和所述第二回声估计信号的特征输入所述神经网络，以使所述神经网络输出当前帧的增益函数的预测值；最后，根据所述增益函数的标签值和所述增益函数的预测值确定网络损失值，并根据所述网络损失值调节所述神经网络的网络参数。

其中，可以按照下述方式构建训练集：首先，按照随机的信噪比，从所述数据集中随机抽取和拼接语音信号和噪声信号，形成回声参考训练信号，并根据所述回声参考训练信号生成所述近端回声训练信号；然后，从所述数据集中随机抽取和拼接语音信号，形成所述近端语音训练信号；然后，从所述数据集中随机抽取和拼接噪音信号，形成所述近端噪声训练信号；最后，根据所述回声参考训练信号、所述近端回声训练信号、所述近端语音训练信号和所述近端噪声训练信号，确定所述训练集。

在步骤S103中，根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

本步骤中，可以将所述第一残差信号的向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的近端信号。例如可以采用下述逆傅里叶变换的形式，进行频域形式到时域形式的转换：

e＝ifft(Y(l).*G(l)).*win

其中，Y(l)和G(l)分别是Y(l，k)和G(l，k)的向量形式。e是消除线性回声和非线性回声的时域增强信号，ifft(·)是傅里叶逆变换。

另外，非线性变换函数不仅限于多项式函数，其它常用的非线性函数也可以和多项式函数一起联合使用，逼近真实的使用场景中的非线性回声。通过自适应的方式最优地消除回声，以达到残留回声最小的目标。这种消除非线性回声的方式，避免了滤波器收敛速度慢的问题，计算复杂度相对而言较低。

下面结合附图6对本申请提供的声音处理方法的完整过程进行介绍。首先，终端设备将接收到的参考信号x(n)输入至功率放大器，且功率放大器对参考信号的放大结果通过扬声器播放，麦克风同时输入扬声器播放的回声信号y(n)和近端用户语音信号s(n)、近端噪声信号v(n)组成的近端信号；参考信号x(n)在输入至功率放大器的同时，其中的线性回声信号直接通过傅里叶变换(STFT)转换为频域信号，而其中的多项分线性回声信号分别通过非线性变换后再通过傅里叶变换(STFT)转换为频域信号，然后再将各项回声信号的频率信号通过滤波得到滤波结果，即通过确定当前帧的分离向量以表征扬声器到麦克风的传递函数h；同时麦克风的多项输入信号分别通过傅里叶变换(STFT)转换为频域信号，再将麦克风的输入信号的频率信号减去回声信号的滤波结果，则可以得到消除回声的近端信号，并通过对神经网络完成对残留回声的抑制，最后将近端信号通过逆傅里叶变换(STFT)转换回时域信号，即得到消除线性回声和非线性回声的时域增强信号。

本实施例中，通过使用基于独立向量分析(Independent Vector Analysis，IVA)技术的半盲源分离算法，将回声消除问题转变为多通道语音分离问题，IVA技术彻底解决了ICA技术在频率上排列模糊的问题。将参考回声信号及其非线性变换信号作为多个参考通道，将麦克风输入的混合信号作为目标通道，因此解决了IVA盲源分离中目标通道选择的问题。另外，基于独立向量分析技术的半盲源分离是一个双工模型，解决了基于自适应滤波技术的非线性声学回声消除器(Acoustic Echo Canceller,AEC)在双讲期间滤波器自适应的问题。

另外，本实施例使用神经网络进行残留回声谱估计，相对于全盲的谱估计方式更加快速和准确。使用估计的残留回声谱作为后处理维纳滤波的噪声谱，可以更优的实现残留回声抑制。在残留回声谱估计的时候采用卡尔曼滤波，避免了其他自适应滤波器中自适应步长的控制问题，估计的回声谱更加贴合真实的残留回声谱。

根据本公开实施例的第二方面，提供一种声音处理装置，应用于终端设备，请参照附图7，包括：

残差回声模块701，用于根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述回声信号包括线性回声信号和非线性回声信号，所述回声信号根据回声参考信号确定；

增益模块702，用于根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数；

抑制模块703，用于根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

在本公开的一些实施例中，所述残差回声模块具体用于：

获取回声信号和麦克风的输入信号组成的第一信号向量；

在本公开的一些实施例中，所述残差回声模块用于获取回声信号和麦克风的输入信号组成的第一信号向量时，具体用于：

在本公开的一些实施例中，所述线性回声信号的向量为所述参考回声信号。

在本公开的一些实施例中，所述非线性回声信号包括多项回声子信号；所述回声子信号根据所述参考回声信号和非线性变换函数确定。

在本公开的一些实施例中，所述残差回声模块用于根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量时，具体用于：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

在本公开的一些实施例中，所述增益模块具体用于：

在本公开的一些实施例中，所述增益模块用于将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数时，具体用于：

在本公开的一些实施例中，还包括训练模块，用于：

在本公开的一些实施例中，还包括训练集获取模块，用于：

在本公开的一些实施例中，所述抑制模块具体用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在第一方面有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开实施例的第五方面，请参照附图8，其示例性的示出了一种电子设备的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件818发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814还可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，4G或5G或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述电子设备的供电方法。

第六方面，本公开在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述电子设备的供电方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种声音处理方法，其特征在于，应用于终端设备，包括：

根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述第一残差信号包括近端信号和第一残留回声信号，所述第一回声估计信号包括线性回声信号和非线性回声信号；

根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号；

所述根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，包括：

获取回声信号和麦克风的输入信号组成的第一信号向量；

根据所述第一信号向量和所述当前帧的分离向量确定第一残差信号的向量以及第一回声估计信号的向量；

所述根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量，包括：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据前一帧的辅助变量、所述第一协方差矩阵、所述对比度函数和所述平滑参数，确定当前帧的辅助变量，其中，同一帧的辅助变量和分离变量之间具有映射关系；

基于预设公式，根据所述当前帧的辅助变量确定所述当前帧的分离变量，其中，所述预设公式用于表征同一帧的辅助变量和分离变量之间具有映射关系。

2.根据权利要求1所述的声音处理方法，其特征在于，所述获取回声信号和麦克风的输入信号组成的第一信号向量，包括：

3.根据权利要求2所述的声音处理方法，其特征在于，所述线性回声信号的向量为参考回声信号。

4.根据权利要求2所述的声音处理方法，其特征在于，所述非线性回声信号包括多项回声子信号；所述回声子信号根据参考回声信号和非线性变换函数确定。

5.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一残差信号的向量和所述第一回声估计信号的向量，利用预先训练的神经网络确定当前帧的增益函数，包括：

6.根据权利要求5所述的声音处理方法，其特征在于，所述将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数，包括：

将所述第一残差信号的特征、所述第一残差信号的特征的降维结果和时域整合结果，以及所述第一回声估计信号的特征、所述第一回声估计信号的特征的降维结果和时域整合结果输入所述神经网络的估计模块，以使所述估计模块输出残留回声估计信号；

7.根据权利要求5所述的声音处理方法，其特征在于，还包括：

8.根据权利要求7所述的声音处理方法，其特征在于，还包括：

按照随机的信噪比，从数据集中随机抽取和拼接语音信号和噪声信号，形成回声参考训练信号，并根据所述回声参考训练信号生成所述近端回声训练信号；

9.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号，包括：

10.一种声音处理装置，其特征在于，应用于终端设备，包括：

残差回声模块，用于根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述第一残差信号包括近端信号和第一残留回声信号，所述第一回声估计信号包括线性回声信号和非线性回声信号；

抑制模块，用于根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号；

所述残差回声模块具体用于：

获取回声信号和麦克风的输入信号组成的第一信号向量；

所述残差回声模块用于根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量时，具体用于：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

11.根据权利要求10所述的声音处理装置，其特征在于，所述残差回声模块用于获取回声信号和麦克风的输入信号组成的第一信号向量时，具体用于：

12.根据权利要求11所述的声音处理装置，其特征在于，所述线性回声信号的向量为参考回声信号。

13.根据权利要求11所述的声音处理装置，其特征在于，所述非线性回声信号包括多项回声子信号；所述回声子信号根据参考回声信号和非线性变换函数确定。

14.根据权利要求10所述的声音处理装置，其特征在于，所述增益模块具体用于：

15.根据权利要求14所述的声音处理装置，其特征在于，所述增益模块用于将所述第一残差信号的特征和所述第一回声估计信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数时，具体用于：

16.根据权利要求14所述的声音处理装置，其特征在于，还包括训练模块，用于：

17.根据权利要求16所述的声音处理装置，其特征在于，还包括训练集获取模块，用于：

18.根据权利要求10所述的声音处理装置，其特征在于，所述抑制模块具体用于：

19.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于权利要求1至9中任一项所述的声音处理方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至9中任一项所述的方法。