CN113489855A

CN113489855A - 声音处理方法、装置、电子设备和存储介质

Info

Publication number: CN113489855A
Application number: CN202110736464.9A
Authority: CN
Inventors: 操陈斌; 何梦楠
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-08
Anticipated expiration: 2041-06-30
Also published as: CN113489855B

Abstract

本公开是关于一种声音处理方法、装置、电子设备和存储介质，所述方法包括：根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述第一残差信号包括近端信号和第一残留回声信号，所述回声估计信号包括线性回声信号和非线性回声信号；根据所述第一残差信号的向量和所述第一回声估计信号的向量，确定当前帧的增益函数；根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

Description

声音处理方法、装置、电子设备和存储介质

技术领域

本公开涉及回声消除技术领域，具体涉及一种声音处理方法、装置、电子设备和存储介质。

背景技术

手机等终端设备进行语音通信和人机语音交互时，当扬声器播放语音和用户对麦克风输入语音同时进行时，便会形成全双工现象，即扬声器播放的语音会随用户语音输入至麦克风中，从而形成回声。相关技术中使用自适应滤波器来消除上述回声，但是自适应滤波器对回声中的非线性回声消除效果较差，因此无法达到消除回声的目的。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种声音处理方法、装置、电子设备和存储介质，用以解决相关技术中的缺陷。

根据本公开实施例的第一方面，提供一种声音处理方法，应用于终端设备，包括：

根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述第一残差信号包括近端信号和第一残留回声信号，所述回声估计信号包括线性回声信号和非线性回声信号；

根据所述第一残差信号的向量和所述第一回声估计信号的向量，确定当前帧的增益函数；

根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

在一个实施例中，所述根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，包括：

获取回声信号和麦克风的输入信号组成的第一信号向量；

根据当前帧的第一信号向量和前一帧的分离向量确定第二残差信号的向量，其中，所述第二残差信号包括近端信号和第二残留回声信号；

根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量；

根据所述第一信号向量和所述当前帧的分离向量确定第一残差信号的向量以及回声估计信号的向量。

在一个实施例中，所述获取回声信号和麦克风的输入信号组成的第一信号向量，包括：

分别将所述输入信号的向量、所述线性回声信号的向量和所述非线性回声信号的向量由时域形式转换为频域形式；

将频域形式的所述输入信号的向量、频域形式的所述线性回声信号的向量和频域形式的所述非线性回声信号的向量按照预设方向排列，形成所述第一信号向量。

在一个实施例中，所述线性回声信号的向量为所述参考回声信号。

在一个实施例中，所述非线性回声信号包括多项回声子信号；所述回声子信号根据所述参考回声信号和非线性变换函数确定。

在一个实施例中，所述根据当前帧的所述第一信号向量、前一帧的分离向量和平滑参数，确定第一残差信号的向量以及回声估计信号的向量，包括：

在一个实施例中，所述根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量，包括：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据前一帧的辅助变量、所述第一协方差矩阵、所述对比度函数和所述平滑函数，确定当前帧的辅助变量；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

在一个实施例中，所述根据所述第一残差信号的向量和所述第一回声估计信号的向量，确定当前帧的增益函数，包括：

根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量；

根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数。

在一个实施例中，所述根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量，包括：

根据所述前一帧的后验状态误差协方差矩阵和所述过程噪声协方差矩阵，确定前一帧的先验状态误差协方差矩阵；

根据所述第一残差信号的向量、所述前一帧的第一传递函数和当前帧以及前L-1帧的所述回声估计信号的向量，确定前一帧的先验误差信号的向量以及前一帧的先验误差方差，其中，所述L为所述第一传递函数的长度；

根据所述前一帧的后验误差方差和所述前一帧的先验误差方差，确定当前帧的预测误差功率信号的向量；

根据所述前一帧的先验状态误差协方差矩阵、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述当前帧的预测误差功率信号的向量，确定卡尔曼增益；

根据所述卡尔曼增益、所述前一帧的先验误差信号的向量、所述前一帧的第一传递函数，确定当前帧的第一传递函数；

根据前一帧的预测误差功率信号的向量、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述当前帧的第一传递函数，确定残留回声估计信号的向量。

在一个实施例中，还包括：

根据所述卡尔曼增益、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述前一帧的先验状态误差协方差矩阵，确定当前帧的后验状态误差协方差矩阵；和/或，

根据所述第一残差信号的向量、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述前一帧的先验状态误差协方差矩阵，确定当前帧的后验误差方差。

在一个实施例中，所述根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数，包括：

根据所述前一帧的残差功率估计信号向量和所述第一残差信号的向量，确定当前帧的残差功率估计信号向量；

根据所述前一帧的近端功率估计信号的向量、所述第一残差信号的向量和所述前一帧的增益函数，确定当前帧的近端功率估计信号的向量；

根据所述当前帧的残差功率估计信号向量和所述当前帧的后验误差方差的向量，确定后验信干比；

根据所述当前帧的近端功率估计信号的向量、所述当前帧的后验误差方差的向量、所述后验信干比和所述最小先验信干比，确定所述当前帧的增益函数。

在一个实施例中，所述根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号，包括：

将所述第一残差信号的向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的近端信号。

根据本公开实施例的第二方面，提供一种声音处理装置，应用于终端设备，包括：

残差回声模块，用于根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述第一残差信号包括近端信号和第一残留回声信号，所述回声估计信号包括线性回声信号和非线性回声信号；

增益模块，用于根据所述第一残差信号的向量和所述第一回声估计信号的向量，确定当前帧的增益函数；

抑制模块，用于根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

在一个实施例中，所述残差回声模块具体用于：

获取回声信号和麦克风的输入信号组成的第一信号向量；

在一个实施例中，所述残差回声模块用于获取回声信号和麦克风的输入信号组成的第一信号向量，具体用于：

在一个实施例中，所述残差回声模块用于根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量时，具体用于：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

在一个实施例中，所述增益模块具体用于：

在一个实施例中，所述增益模块用于根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量时，具体用于：

在一个实施例中，所述残差回声估计模块还用于：

在一个实施例中，所述增益模块用于根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数时，具体用于：

在一个实施例中，所述抑制模块具体用于：

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于第一方面所述的声音处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开通过第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，并且根据所述第一残差信号的向量和所述第一回声估计信号的向量确定当前帧的增益函数，最后根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。由于回声信号和输入信号所组成的第一信号向量被当做一个整体进行消除回声处理和回声估计处理，因此使用统一的框架联合处理线性回声和非线性回声消除问题，解决了相关技术在回声和近端信号同时存在的双讲期间，无法去除非线性回声的问题，而且使得残留回声的估计更加简单准确，提高了回声消除效果；再者利用第一残差信号和回声估计信号进一步确定增益函数，以使残留回声得到抑制，进一步提高了回声消除效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开一示例性实施例示出的声音处理方法的流程图；

图2是本公开一示例性实施例示出的确定第一残差信号的向量以及回声估计信号的向量的流程图；

图3是本公开一示例性实施例示出的分析窗的示意图；

图4是本公开一示例性实施例示出的确定增益函数的流程图；

图5是本公开一示例性实施例示出的回声消除过程的示意图；

图6是本公开一示例性实施例示出的声音处理装置的结构示意图；

图7是本公开一示例性实施例示出的电子设备框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

对于全双工语音通信和人机语音交互领域，在上行和下行语音同时存在的双讲(Double Talk，DT)场景，由于存在本地语音和噪声成分的干扰，传统基于线性自适应滤波技术的方法无法准确控制滤波器的迭代更新。缓解这个问题的方法一般都是在双讲期间减小滤波器的自适应速率或者停止更新自适应滤波器。而这些方法并不能从根本上解决上述问题，并且在回声路径发生改变时，由于滤波器更新速率变慢或者停止更新，结果导致因无法准确估计线性回声和非线性回声成分而产生较多残留回声。

非线性声音处理方法中，基于Volterra滤波器或Power滤波器技术的一大类方法，由于要适应大量的滤波器参数，需要占用大量的存储空间，而且具有很高的计算复杂度，另外较长的滤波器阶数导致滤波器收敛速度很慢，这些缺陷使得它很少在实际应用中使用。另一大类基于自适应滤波技术的非线性声音处理方法，类似于自适应滤波线性回声消除，因为双讲期间近端信号被误当作非线性成分，从而严重干扰了非线性自适应滤波器的更新方向和收敛状态。

基于此，第一方面，本公开至少一个实施例提供了一种声音处理方法，请参照附图1，其示出了该方法的流程，包括步骤S101和步骤S104。

其中，该声音处理方法应用于终端设备，其中，终端设备可以是手机、平板电脑等具有通信功能和/或人机交互功能的终端设备。终端设备在通信过程中，麦克风的输入信号中包括近端信号，即用户输入的语音信号，同时还存在线性回声信号和非线性回声信号，该声音处理方法的目的就是从麦克风的输入信号中消除线性回声信号和非线性回声信号，从而得到相对纯净的近端信号。

其中，麦克风的输入信号由近端信号和回声信号组成：

d(n)＝s(n)+v(n)+y(n)

其中，近端用户语音信号s(n)和背景噪声v(n)组合成近端信号，y(n)是回声信号，包含线性回声信号y_L(n)和非线性回声信号y_NL(n)。回声信号可以根据回声参考信号x(n)确定。

线性回声信号可以使用回声参考信号和声学传递函数来表示：

其中，x(n)表示回声参考信号，x(n)是其向量形式，

是扬声器到麦克风声学冲激响应(Acoustic Impulse Response，AIR)的向量形式。

扬声器及其功率放大器中存在主要的非线性成分，其表现为驱动扬声器的功率放大器或扬声器本身的饱和曲线，因此可以使用无记忆的高阶非线性模型来对其进行建模。

其中，

是第i个非线性成分的声学冲激响应(AIR)，f_i(·)是第i个非线性成分的非线性变换函数，N是非线性成分个数。

上述线性回声和非线性回声模型可以综合表示为：

其中，线性回声信号的向量为所述参考回声信号，即线性回声信号的非线性变换函数为：

f₀(x(n))＝x(n)

非线性变换函数可以为下述函数中的任意一种：多项式函数、

例如，当非线性变化函数为多项式函数时，f_i(x(n))＝xⁱ(n)(i≥1)，其中i表示阶数，因为计算复杂度正比于多项式的阶数，优选1≤i≤7。

在步骤S101中，根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述第一残差信号包括近端信号和第一残留回声信号，所述回声估计信号包括线性回声信号和非线性回声信号。

其中，所述回声信号包括线性回声信号和非线性回声信号，所述回声信号根据回声参考信号确定。

本步骤中，可以按照如图2所示的方式确定第一残差信号的向量E₁(l，k)以及第一回声估计信号的向量Y(l，k)，包括子步骤S1011至子步骤S1014。

在子步骤1011中，获取回声信号和麦克风的输入信号组成的第一信号向量。

本步骤中，可以分别将所述输入信号的向量、所述线性回声信号的向量和所述非线性回声信号的向量由时域形式转换为频域形式，并将频域形式的所述输入信号的向量、频域形式的所述线性回声信号的向量和频域形式的所述非线性回声信号的向量按照预设方向排列，形成所述第一信号向量。

其中，根据上述回声模型可知，所述线性回声信号的向量为所述参考回声信号，而所述非线性回声信号包括多项回声子信号；所述回声子信号根据所述参考回声信号和非线性变换函数确定。

其中，由时域形式转换为频域形式，可以采用下述傅里叶变换(Short TimeFourier Transform,STFT)：

Xne＝fft(d.*win)

Xfe0＝fft(f₀(x).*win)＝fft(x.*win)

Xfe1＝fft(f₁(x).*win)＝fft(x¹.*win)

…

Xfen＝fft(f_n(x).*win)＝fft(xⁿ.*win)

其中，x是回声参考信号的向量形式，d是麦克风的输入信号的向量形式，win是如图3所示的短时分析窗，fft(·)是傅里叶变换。

win＝[0；sqrt(hanning(N-1))]

hanning(n)＝0.5*[1-cos(2π*n/N)]

其中N是分析帧长度，hanning(n)是长度为N-1的汉宁窗。

上述得到的各项可以组成第一信号向量：

X(l，k)＝[Xne(l，k)，Xfe0(l，k)，Xfe1(l，k)，…，Xfen(l，k)]

其中，其中l表示帧索引，k表示频率点。

在子步骤S1012中，根据当前帧的所述第一信号向量和前一帧的分离向量确定第二残差信号的向量，其中，所述第二残差信号包括近端信号和第二残留回声信号。

其中，针对每一帧的第一信号向量，均执行步骤S1012至步骤S1014，而每一帧的第一信号向量在步骤S1013所确定的该帧的分离向量，均用于下一帧的步骤S1012。另外，第一帧的第一信号向量无上一帧，因此针对第一帧执行步骤S1012时，前一帧的分离向量采用预设的初始值。

可以采用下述方式确定第二残差信号的向量：

其中，E₂(l，k)为第二残差信号，X_i(l，k)为Xne(l，k)、Xfe0(l，k)、Xfe1(l，k)…Xfen(l，k)中的一个，W_i(l-1，k)为前一帧的分离向量W(l-1，k)中对应X_i(l，k)的分量，N是包括麦克风输入信号、线性回声参考信号和所有非线性回声参考信号的所有信号个数。

在子步骤S1013中，根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量。

本步骤中，可以先根据每个频率点的所述第二残差信号的向量确定评价函数r：

其中，K是频率点数；再根据所述评价函数确定对比度函数

再根据所述第一信号向量确定第一协方差矩阵：Xf(l，k)＝X(l，k)*X^H(l，k)，其中，(·)^H表示厄米特共轭转置；再根据前一帧的辅助变量、所述第一协方差矩阵、所述对比度函数和所述平滑函数，确定当前帧的辅助变量V(l，k)：

其中，α为预先设置的平滑参数；最后根据所述当前帧的辅助变量确定所述当前帧的分离变量：W(l，k)＝V(l，k)^-1I，其中，I是单位向量，I＝[1，0，…，0]^T。

在子步骤S1014中，根据所述第一信号向量和所述当前帧的分离向量确定第一残差信号的向量以及回声估计信号的向量。

其中，确定第一残差信号可以采用和确定第二残差信号相同的方式，只是利用的分离向量为当前帧的分离向量，即采用下述方式确定第一残差信号的向量：

其中，X_i(l，k)为Xne(l，k)、Xfe0(l，k)、Xfe1(l，k)…Xfen(l，k)中的一个，W_i(l，k)为当前帧的分离向量W(l，k)中对应X_i(l，k)的分量。

其中，可以采用下述方式确定回声估计信号的向量：

其中，X_i(l，k)为Xfe0(l，k)、Xfe1(l，k)…Xfen(l，k)中的一个，W_i(l，k)为当前帧的分离向量W(l，k)中对应X_i(l，k)的分量。

在步骤S102中，根据所述第一残差信号的向量和所述第一回声估计信号的向量，确定当前帧的增益函数。

本步骤中可以按照附图4所示的方式确定当前帧的增益函数，包括子步骤S1021至子步骤S1022。

在子步骤S1021中，根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量。

本步骤中，可以先根据所述前一帧的后验状态误差协方差矩阵和所述过程噪声协方差矩阵，确定前一帧的先验状态误差协方差矩阵P(l|l-1，k)：

其中，

为前一帧的后验状态误差协方差矩阵，Φ_w(l，k)为过程噪声协方差矩阵，

是控制第一传递函数g(l，k)不确定度的参数，可以取值

I是单位矩阵。其中，当前帧为第一帧时，前一帧的后验状态误差协方差矩阵可以采用预设的初始值。

然后根据所述第一残差信号的向量、所述前一帧的第一传递函数和当前帧以及前L-1帧的所述回声估计信号的向量，确定前一帧的先验误差信号的向量以及前一帧的先验误差方差E(l|l-1，k)：

其中，Y₁(l，k)＝[Y(l，k)，Y(l-1，k)，…，Y(l-L+1，k)]^T，所述L为所述第一传递函数g(l，k)的长度，第一传递函数为回声估计与残留回声之间的传递函数。其中，当前帧为第一帧时，前一帧的第一传递函数可以采用预设的初始值，且当前帧以及前L-1帧的所述回声估计信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

然后根据所述前一帧的后验误差方差和所述前一帧的先验误差方差，确定当前帧的预测误差功率信号的向量

其中，

是后验误差方差，

是先验误差方差，

β是遗忘因子，0≤β≤1。其中，其中，当前帧为第一帧时，前一帧后验误差方差和前一帧的先验误差方差均可以采用预设的初始值。

然后根据所述前一帧的先验状态误差协方差矩阵、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述当前帧的预测误差功率信号的向量，确定卡尔曼增益K(l，k)：

其中，当前帧为第一帧时，前一帧的先验状态误差协方差矩阵可以采用预设的初始值，且当前帧以及前L-1帧的所述回声估计信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

然后根据所述卡尔曼增益、所述前一帧的先验误差信号的向量、所述前一帧的第一传递函数，确定当前帧的第一传递函数：

其中，当前帧为第一帧时，前一帧的第一传递函数可以采用预设的初始值。

最后根据前一帧的预测误差功率信号的向量、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述当前帧的第一传递函数，确定残留回声估计信号的向量

其中，λ是遗忘因子，0≤λ≤1。其中，当前帧为第一帧时，前一帧的预测误差功率信号的向量可以采用预设的初始值，且当前帧以及前L-1帧的所述回声估计信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

另外，还可以根据所述卡尔曼增益、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述前一帧的先验状态误差协方差矩阵，确定当前帧的后验状态误差协方差矩阵

还可以根据所述第一残差信号的向量、所述当前帧以及前L-1帧的所述回声估计信号的向量和所述前一帧的先验状态误差协方差矩阵，确定当前帧的后验误差方差

在子步骤S1022中，根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数。

本步骤中，可以先根据所述前一帧的残差功率估计信号向量和所述第一残差信号的向量，确定当前帧的残差功率估计信号向量

其中，当前帧为第一帧时，前一帧的残差功率估计信号向量可以采用预设的初始值。

然后根据所述前一帧的近端功率估计信号的向量、所述第一残差信号的向量和所述前一帧的增益函数，确定当前帧的近端功率估计信号的向量

其中，当前帧为第一帧时，前一帧的近端功率估计信号的向量可以采用预设的初始值。

然后根据所述当前帧的残差功率估计信号向量和所述当前帧的后验误差方差的向量，确定后验信干比γ(l，k)：

最后根据所述当前帧的近端功率估计信号的向量、所述当前帧的后验误差方差的向量、所述后验信干比和所述最小先验信干比，确定所述当前帧的增益函数G(l，k)：

其中，

其中，η是遗忘因子，ξ_min是最小先验信干比，用于控制残留回声抑制量和音乐噪声。

在步骤S103中，根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

本步骤中，可以将所述第一残差信号的向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的近端信号。例如可以采用下述逆傅里叶变换的形式，进行频域形式到时域形式的转换：

e＝ifft(Y(l).*G(l)).*win

其中，Y(l)和G(l)分别是Y(l，k)和G(l，k)的向量形式。e是消除线性回声和非线性回声的时域增强信号，ifft(·)是傅里叶逆变换。

本公开通过获取回声信号和麦克风的输入信号组成的第一信号向量，并根据当前帧的所述第一信号向量、前一帧的分离向量和平滑参数确定第一残差信号的向量以及回声估计信号的向量，以及根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量，再根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数，最后根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。由于前一帧的分离向量用于确定第一残差信号的向量以及回声估计信号的向量，而且回声信号和麦克风的输入信号组成第一信号向量，作为一个整体用于分离向量的更新以及近端信号的确定，因此使用统一的框架联合处理线性回声和非线性回声消除问题，解决了相关技术在回声和近端信号同时存在的双讲期间，无法去除非线性回声的问题，而且使得残留回声的估计更加简单准确，提高了回声消除效果；再者利用第一残差信号和回声估计信号进一步确定增益函数，以使残留回声得到抑制，进一步提高了回声消除效果。

另外，非线性变换函数不仅限于多项式函数，其它常用的非线性函数也可以和多项式函数一起联合使用，逼近真实的使用场景中的非线性回声。通过自适应的方式最优地消除回声，以达到残留回声最小的目标。这种消除非线性回声的方式，避免了滤波器收敛速度慢的问题，计算复杂度相对而言较低。

下面结合附图5对本申请提供的声音处理方法的完整过程进行介绍。首先，终端设备将接收到的参考信号x(n)输入至功率放大器，且功率放大器对参考信号的放大结果通过扬声器播放，麦克风同时输入扬声器播放的回声信号y(n)和近端用户语音信号s(n)、近端噪声信号v(n)组成的近端信号；参考信号x(n)在输入至功率放大器的同时，其中的线性回声信号直接通过傅里叶变换(STFT)转换为频域信号，而其中的多项分线性回声信号分别通过非线性变换后再通过傅里叶变换(STFT)转换为频域信号，然后再将各项回声信号的频率信号通过滤波得到滤波结果，即通过确定当前帧的分离向量以表征扬声器到麦克风的传递函数h；同时麦克风的多项输入信号分别通过傅里叶变换(STFT)转换为频域信号，再将麦克风的输入信号的频率信号减去回声信号的滤波结果，则可以得到消除回声的近端信号，并通过对残留回声估计完成对残留回声的抑制，最后将近端信号通过逆傅里叶变换(STFT)转换回时域信号，即得到消除线性回声和非线性回声的时域增强信号。

本实施例中，通过使用基于独立向量分析(Independent Vector Analysis，IVA)技术的半盲源分离算法，将回声消除问题转变为多通道语音分离问题，IVA技术彻底解决了ICA技术在频率上排列模糊的问题。将参考回声信号及其非线性变换信号作为多个参考通道，将麦克风输入的混合信号作为目标通道，因此解决了IVA盲源分离中目标通道选择的问题。另外，基于独立向量分析技术的半盲源分离是一个双工模型，解决了基于自适应滤波技术的非线性声学回声消除器(Acoustic Echo Canceller,AEC)在双讲期间滤波器自适应的问题。

另外，本实施例将估计的回声信号作为参考信号作用于残留回声谱估计，相对于全盲的谱估计方式更加快速和准确。使用估计的残留回声谱作为后处理维纳滤波的噪声谱，可以更优的实现残留回声抑制。在残留回声谱估计的时候采用卡尔曼滤波，避免了其他自适应滤波器中自适应步长的控制问题，估计的回声谱更加贴合真实的残留回声谱。

根据本公开实施例的第二方面，提供一种声音处理装置，应用于终端设备，请参照附图6，包括：

残差回声模块601，用于根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，其中，所述第一信号向量由回声信号和麦克风的输入信号组成，所述输入信号包括近端信号和回声信号，所述第一残差信号包括近端信号和第一残留回声信号，所述回声估计信号包括线性回声信号和非线性回声信号；

增益模块602，用于根据所述第一残差信号的向量和所述第一回声估计信号的向量，确定当前帧的增益函数；

抑制模块603，用于根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号。

在本公开的一些实施例中，所述残差回声模块具体用于：

获取回声信号和麦克风的输入信号组成的第一信号向量；

在本公开的一些实施例中，所述残差回声模块用于获取回声信号和麦克风的输入信号组成的第一信号向量，具体用于：

在本公开的一些实施例中，所述线性回声信号的向量为所述参考回声信号。

在本公开的一些实施例中，所述非线性回声信号包括多项回声子信号；所述回声子信号根据所述参考回声信号和非线性变换函数确定。

在本公开的一些实施例中，所述残差回声模块用于根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量时，具体用于：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

在本公开的一些实施例中，所述增益模块具体用于：

在本公开的一些实施例中，所述增益模块用于根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量时，具体用于：

根据所述第一残差信号的向量、所述前一帧的第一传递函数和当前帧以及前L-1帧的所述回声估计信号的向量，确定前一帧的先验误差信号的向量以及前一帧的先验误差方差；

在本公开的一些实施例中，所述增益模块还用于：

在本公开的一些实施例中，所述增益模块用于根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数时，具体用于：

在本公开的一些实施例中，所述抑制模块具体用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在第一方面有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开实施例的第五方面，请参照附图7，其示例性的示出了一种电子设备的框图。例如，装置700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，装置700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制装置700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件706为装置700的各种组件提供电力。电力组件706可以包括电源管理系统，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当装置700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为装置700提供各个方面的状态评估。例如，传感器组件714可以检测到装置700的打开/关闭状态，组件的相对定位，例如所述组件为装置700的显示器和小键盘，传感器组件714还可以检测装置700或装置700一个组件的位置改变，用户与装置700接触的存在或不存在，装置700方位或加速/减速和装置700的温度变化。传感器组件714还可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络，如WiFi，2G或3G，4G或5G或它们的组合。在一个示例性实施例中，通信部件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述电子设备的供电方法。

第六方面，本公开在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由装置700的处理器720执行以完成上述电子设备的供电方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种声音处理方法，其特征在于，应用于终端设备，包括：

2.根据权利要求1所述的声音处理方法，其特征在于，所述根据当前帧的第一信号向量和前一帧的分离向量，确定第一残差信号的向量以及第一回声估计信号的向量，包括：

获取回声信号和麦克风的输入信号组成的第一信号向量；

3.根据权利要求2所述的声音处理方法，其特征在于，所述获取回声信号和麦克风的输入信号组成的第一信号向量，包括：

4.根据权利要求3所述的声音处理方法，其特征在于，所述线性回声信号的向量为参考回声信号。

5.根据权利要求3所述的声音处理方法，其特征在于，所述非线性回声信号包括多项回声子信号；所述回声子信号根据参考回声信号和非线性变换函数确定。

6.根据权利要求2所述的声音处理方法，其特征在于，所述根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量，包括：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

7.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一残差信号的向量和所述第一回声估计信号的向量，确定当前帧的增益函数，包括：

8.根据权利要求7所述的声音处理方法，其特征在于，所述根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量，包括：

9.根据权利要求8所述的声音处理方法，其特征在于，还包括：

10.根据权利要求7所述的声音处理方法，其特征在于，所述根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数，包括：

11.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一残差信号的向量和所述当前帧的增益函数，确定当前帧的近端信号，包括：

12.一种声音处理装置，其特征在于，应用于终端设备，包括：

13.根据权利要求12所述的声音处理装置，其特征在于，所述残差回声模块具体用于：

获取回声信号和麦克风的输入信号组成的第一信号向量；

14.根据权利要求13所述的声音处理装置，其特征在于，所述残差回声模块用于获取回声信号和麦克风的输入信号组成的第一信号向量，具体用于：

15.根据权利要求14所述的声音处理装置，其特征在于，所述线性回声信号的向量为参考回声信号。

16.根据权利要求14所述的声音处理装置，其特征在于，所述非线性回声信号包括多项回声子信号；所述回声子信号根据参考回声信号和非线性变换函数确定。

17.根据权利要求13所述的声音处理装置，其特征在于，所述残差回声模块用于根据所述第二残差信号的向量、所述第一信号向量和平滑参数，确定当前帧的分离向量时，具体用于：

根据每个频率点的所述第二残差信号的向量确定评价函数；

根据所述评价函数确定对比度函数；

根据所述第一信号向量确定第一协方差矩阵；

根据所述当前帧的辅助变量确定所述当前帧的分离变量。

18.根据权利要求12所述的声音处理装置，其特征在于，所述增益模块具体用于：

19.根据权利要求18所述的声音处理装置，其特征在于，所述增益模块用于根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第一传递函数、第一残差信号的向量、包含当前帧的至少一帧回声估计信号和前一帧的后验误差方差，确定残留回声估计信号的向量时，具体用于：

20.根据权利要求19所述的声音处理装置，其特征在于，所述增益模块还用于：

21.根据权利要求12所述的声音处理装置，其特征在于，所述增益模块用于根据所述残留回声估计信号的向量、前一帧的残差功率估计信号的向量、前一帧的近端功率估计信号的向量、前一帧的增益函数、第一残差信号的向量和最小先验信干比，确定当前帧的增益函数时，具体用于：

22.根据权利要求12所述的声音处理装置，其特征在于，所述抑制模块具体用于：

23.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于权利要求1至11中任一项所述的声音处理方法。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至11中任一项所述的方法。