CN113470676B

CN113470676B - 声音处理方法、装置、电子设备和存储介质

Info

Publication number: CN113470676B
Application number: CN202110739195.1A
Authority: CN
Inventors: 操陈斌; 何梦楠
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-06-25
Anticipated expiration: 2041-06-30
Also published as: US11750974B2; EP4113515A1; US20230007393A1; CN113470676A

Abstract

本公开是关于一种声音处理方法、装置、电子设备和存储介质，所述方法应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述方法包括：根据第一信号向量和的第二信号向量，确定第一残差信号的向量，其中，所述第一信号向量包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号向量包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数；根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

Description

声音处理方法、装置、电子设备和存储介质

技术领域

本公开涉及声音处理技术领域，具体涉及一种声音处理方法、装置、电子设备和存储介质。

背景技术

手机等终端设备进行语音通信和人机语音交互时，当用户对麦克风输入语音时，噪声也会同步进入到麦克风中，从而形成语音信号和噪声信号混杂的输入信号。相关技术中使用自适应滤波器来消除上述噪声，但是自适应滤波器对噪声的消除效果较差，因此无法得到较为纯净的语音信号。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种声音处理方法、装置、电子设备和存储介质，用以解决相关技术中的缺陷。

根据本公开实施例的第一方面，提供一种声音处理方法，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述方法包括：

根据第一信号向量和的第二信号向量，确定第一残差信号的向量，其中，所述第一信号向量为第一麦克风的输入信号，包括第一语音信号和第一噪声信号，所述第二信号向量为第二麦克风的输入信号，包括第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数；

根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

在一个实施例中，所述根据第一信号向量和第二信号向量，确定第一残差信号的向量，包括：

获取所述第一信号向量和所述第二信号向量，其中，所述第一信号向量包括第一数量的样本点，所述第二信号向量包括第二数量的样本点；

根据所述第一信号向量和前一帧的第一传递函数，确定第二语音信号的傅里叶变换系数的向量；

根据所述第二信号向量和所述傅里叶变换系数的向量中第二数量的样本点，确定所述第一残差信号的向量。

在一个实施例中，还包括：

根据所述第一残差信号的向量、前一帧的残差信号协方差、前一帧的状态估计误差协方差、第一信号向量和平滑参数，确定第一卡尔曼增益系数；

根据所述第一卡尔曼增益系数和所述第一残差信号和前一帧的第一传递函数，确定当前帧的第一传递函数。

在一个实施例中，还包括：

根据所述当前帧的第一传递函数、前一帧的第一传递函数协方差、所述第一卡尔曼增益系数、前一帧的残差信号协方差、所述第一数量和所述第二数量，确定当前帧的残差信号协方差。

在一个实施例中，所述获取第一信号向量和所述第二信号向量，包括：

将所述第一麦克风的当前帧的输入信号和所述第一麦克风的前至少一帧的输入信号拼接，形成样本点的数量为所述第一数量的第一信号向量；

将所述第二麦克风的当前帧的输入信号，形成样本点的数量为所述第二数量的第二信号向量。

在一个实施例中，所述根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数，包括：

将所述第一残差信号的向量和所述第一信号的向量，分别由时域形式转换为频域形式；

根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第二传递函数、所述第一信号向量、包含当前帧的至少一帧第一残差信号和前一帧的后验误差方差，确定噪声估计信号的向量；

根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数。

在一个实施例中，所述根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第二传递函数、所述第一信号向量、包含当前帧的至少一帧第一残差信号和前一帧的后验误差方差，确定噪声估计信号的向量，包括：

根据所述前一帧的后验状态误差协方差矩阵和所述过程噪声协方差矩阵，确定前一帧的先验状态误差协方差矩阵；

根据所述第一信号向量、所述前一帧的第一传递函数和当前帧以及前L-1帧的所述第一残差信号的向量，确定前一帧的先验误差信号的向量以及前一帧的先验误差方差，其中，所述L为所述第二传递函数的长度；

根据所述前一帧的后验误差方差和所述前一帧的先验误差方差，确定当前帧的预测误差功率信号的向量；

根据所述前一帧的先验状态误差协方差矩阵、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述当前帧的预测误差功率信号的向量，确定第二卡尔曼增益系数；

根据所述第二卡尔曼增益系数、所述前一帧的先验误差信号的向量、所述前一帧的第二传递函数，确定当前帧的第二传递函数；

根据前一帧的预测误差功率信号的向量、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述当前帧的第二传递函数，确定噪声估计信号的向量。

在一个实施例中，还包括：

根据所述第二卡尔曼增益系数、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述前一帧的先验状态误差协方差矩阵，确定当前帧的后验状态误差协方差矩阵；和/或，

根据所述第一信号向量、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述当前帧的第二传递函数，确定当前帧的后验误差方差。

在一个实施例中，所述根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数，包括：

根据所述前一帧的第一估计信号向量和所述第一信号向量，确定当前帧的第一估计信号向量；

根据所述前一帧的语音功率估计信号的向量、所述第一信号向量和所述前一帧的增益函数，确定当前帧的语音功率估计信号的向量；

根据所述当前帧的第一估计信号向量和所述当前帧的噪声估计信号的向量，确定后验信干比；

根据所述当前帧的语音功率估计信号的向量、所述当前帧的噪声估计信号的向量、所述后验信干比和所述最小先验信干比，确定所述当前帧的增益函数。

在一个实施例中，所述根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的近端信号，包括：

将所述第一信号向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的第一语音信号。

根据本公开实施例的第一方面，提供一种声音处理装置，应用于终端设备，包括：

语音消除模块，用于根据第一信号向量和的第二信号向量，确定第一残差信号的向量，其中，所述第一信号向量为第一麦克风的输入信号，包括第一语音信号和第一噪声信号，所述第二信号向量为第二麦克风的输入信号，包括第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

增益模块，用于根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数；

抑制模块，用于根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

在一个实施例中，所述语音消除模块具体用于：

在一个实施例中，所述语音消除模块还用于：

在一个实施例中，所述语音消除模块用于获取第一信号向量和所述第二信号向量时，具体用于：

在一个实施例中，所述增益模块具体用于：

在一个实施例中，所述增益模块用于根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第二传递函数、所述第一信号向量、包含当前帧的至少一帧第一残差信号和前一帧的后验误差方差，确定噪声估计信号的向量时，具体用于：

在一个实施例中，所述增益模块还用于：

在一个实施例中，所述增益模块用于根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数时，具体用于：

在一个实施例中，所述抑制模块具体用于：

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于第一方面所述的声音处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开根据输入第一麦克风的第一语音信号和第一噪声信号组成的第一信号向量，和输入第二麦克风的第二语音信号和第二噪声信号组成的第二信号向量，确定包括第二噪声信号和残留语音信号的第一残差信号，然后根据第一残差信号的向量和第一信号向量，确定当前帧的增益函数，最后根据第一信号向量和上述当前帧的增益函数确定当前帧的第一语音信号。由于第一麦克风和第二麦克风的位置不同，因此其语音和噪声的比例呈相反趋势，因此第一信号向量和第二信号向量可以使用目标语音和干扰噪声对消的方法来进行噪声估计和抑制，从而提高了麦克风中噪声的消除效果，可以得到即为纯净的语音信号。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开一示例性实施例示出的声音处理方法的流程图；

图2是本公开一示例性实施例示出的确定第一残差信号的向量的流程图；

图3是本公开一示例性实施例示出的确定增益函数的向量的流程图；

图4是本公开一示例性实施例示出的分析窗的示意图；

图5是本公开一示例性实施例示出的声音处理装置的结构示意图；

图6是本公开一示例性实施例示出的电子设备框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

手机上传统的噪声抑制方法一般是基于自适应阻塞矩阵(BM)、自适应噪声消除器(ANC)和后滤波(PF)的结构。自适应阻塞矩阵消除辅助通道中的目标语音信号，为ANC提供一个噪声参考信号。自适应噪声消除器消除主通道中的相干噪声。后滤波通过估计ANC输出信号中的噪声信号，使用MMSE或维纳滤波等谱增强方法对噪声进一步抑制，从而得到一个信噪比(SNR)更高的增强信号。

传统BM和ANC一般使用NLMS或RLS自适应滤波器来实现。NLMS算法需要设计一个可变步长的机制来控制滤波器的自适应速率，以同时达到快速收敛和更小稳态误差的目标，但这个目标对于实际应用来说几乎是不可能实现的。RLS算法无需额外设计可变步长，但是它没有考虑过程噪声；而且手机在握持和移动等动作的影响下，两个麦克风通道之间的传递函数可能频繁发生变化，此时需要一个自适应滤波器的快速更新策略。RLS算法处理这两个问题都不是太鲁棒。ANC一般仅适用于处理相干噪声，即噪声源距离手机较近，且从噪声源到达麦克风的直达声占主要成分。手机语音通话所处的噪声环境一般为扩散场，即多个噪声源距离手机麦克风较远，且需要经过多次空间反射才到达手机。因此，ANC在实际应用中几乎无效。

基于此，第一方面，本公开至少一个实施例提供了一种声音处理方法，请参照附图1，其示出了该方法的流程，包括步骤S101和步骤S104。

其中，该声音处理方法应用于终端设备，其中，终端设备可以是手机、平板电脑等具有通信功能和/或人机交互功能的终端设备。所述终端设备包括第一麦克风和第二麦克风，第一麦克风位于手机的底部，作为主通道，主要用于采集目标说话人的语音信号，其信噪比(SNR)较高；第二麦克风位于手机的顶部，作为辅助通道，主要用于采集环境噪声信号，也包括部分目标说话人的语音信号，其信噪比较低。该声音处理方法的目的就是利用第二麦克风的输入信号，从第一麦克风的输入信号中消除噪声，从而得到较为纯净的语音信号。

其中，麦克风的输入信号由近端信号和立体声回声信号组成：

d₁(n)＝s₁(n)+v₁(n)+y₁(n)

d₂(n)＝s₂(n)+v₂(n)+y₂(n)

其中下标i＝{1，2}表示麦克风索引，1是主通道，2是辅助通道，d_i(n)是麦克风输入信号，近端说话人信号s_i(n)加上背景噪声v_i(n)构成近端信号，y_i(n)是回声信号。噪声消除和抑制一般都是在无回声期间或回声已经被消除情况下进行的，因此后续过程无需考虑回声信号的影响。

语音通话的使用场景一般都是近场，即目标说话人离手机麦克风的距离较近，两个麦克风拾取的目标说话人信号之间的关系可以通过声学冲激响应(AIR)来表示：

其中s₁(n)和s₂(n)分别表示主通道和辅助通道的目标说话人信号，h(n)是其之间的声学传递函数，h(n)＝[h₀，h₁，…，h_L-1]^T，L是该传递函数的长度，s₁(n)＝[s₁(n)，s₁(n-1)，…，s₁(n-L+1)]^T是主通道目标说话人信号的向量形式。

两个麦克风拾取的扩散场噪声信号，不能简单地通过声学冲激响应来表示二者之间的关系，但是两个麦克风的噪声功率谱具有高度相似性，因此可以使用长时谱回归方法进行建模。

其中V₁(n)和V₂(n)分别表示主通道和辅助通道的噪声功率谱，h_i,t(n)是其之间的相对卷积传递函数。

在步骤S101中，根据第一信号向量和的第二信号向量，确定第一残差信号的向量，其中，所述第一信号向量包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号向量包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号。

其中，第一麦克风和第二麦克风处于相同的环境中，因此第一语音信号的信号源和第二语音信号的信号源完全相同，但是由于该信号源与两个麦克风的距离差别造成第一语音信号和第二语音信号之间存在差异；同理，第一噪声信号和第二噪声信号的信号源完全相同，但是由于该信号源与两个麦克风的距离差别造成第一噪声信号和第二噪声信号之间存在差异。两个麦克风的输入信号可以通过对消的方式得到第一残差信号。第一残差信号近似辅助通道的噪声信号，即第二噪声信号。

在步骤S102中，根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数。

其中，增益函数用于对第一残差信号进行差异化增益，也就是对第一残差信号中的第一语音信号进行正向增益，对第一残差信号中的第二语音信号进行负向增益，从而使第一语音信号和第一噪声信号的强度差异增大，信噪比增加，从而在最大程度上得到纯净的第一语音信号。

在步骤S103中，根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

本步骤中，可以将所述第一信号向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的第一语音信号。例如可以采用下述逆傅里叶变换的形式，进行频域形式到时域形式的转换：

e＝ifft(D₁(l).*G(l)).*win

其中，D₁(l)和G(l)分别是D₁(l，k)和G(l，k)的向量形式。e是消除噪声的时域增强信号，ifft(·)是傅里叶逆变换。

本公开的一些实施例中，可以按照附图2所示的方式根据第一信号向量和第二信号向量，确定第一残差信号的向量，包括步骤S201至步骤S203。

在步骤S201中，获取所述第一信号向量和所述第二信号向量，其中，所述第一信号向量包括第一数量的样本点，所述第二信号向量包括第二数量的样本点。

本步骤中，可以将所述第一麦克风的当前帧的输入信号和所述第一麦克风的前至少一帧的输入信号拼接，形成样本点的数量为所述第一数量的第一信号向量。第一数量M可以表征拼接后的信号块长度。可选的，采用连续帧overlap的方式进行信号拼接，得到第一信号向量d₁(l)：

d₁(l)＝[d₁(n)，d₁(n-1)，…，d₁(n-M+1)]^T

其中，d₁(n)、d₁(n-1)…，d₁(n-M+1)为M个样本点，M可以是每帧信号的样本点数量R的整数倍。

本步骤中，将所述第二麦克风的当前帧的输入信号，形成样本点的数量为所述第二数量的第二信号向量。第二数量R可以表征每帧信号的长度。可选的，采用连续帧overlap的方式进行信号拼接，得到第二信号向量d₂(l)：

d₂(l)＝[d₂(n)，d₂(n-1)，…，d₂(n-R+1)]^T

其中，d₂(n)、d₂(n-1)…，d₂(n-R+1)为R个样本点。

在步骤S202中，根据所述第一信号向量和前一帧的第一传递函数，确定第二语音信号的傅里叶变换系数的向量。

本步骤中，可以先对d₁(l)进行时域至频域的转换，以得到主通道输入信号DFT系数D₁(l，k)：D₁(l)＝fft(d₁(l))；然后按照下述公式根据D₁(l，k)和前一帧的第一传递函数确定第二语音信号的傅里叶变换系数的向量/>

在步骤S203中，根据所述第二信号向量和所述傅里叶变换系数的向量中第二数量的样本点，确定所述第一残差信号的向量。

本步骤中，可以先将由频域转换为时域：/>再按照下述公式得到第一残差信号的向量v(l)：/>

另外，还可以在得到v(l)后，按照下述方式更新当前帧的第一传递函数：

首先，根据所述第一残差信号的向量v(l)、前一帧的残差信号协方差φ_V(l-1)、前一帧的状态估计误差协方差P_V(l-1)、第一信号向量D₁(l)和平滑参数α，确定第一卡尔曼增益系数K_S(l)。

可以依次按照下述公式得到第一卡尔曼增益系数K_S(l)：V(l)＝fft([0；v(l)])、φ_V(l)＝αφ_V(l-1)+(1-α)|V(l)|²、其中，A为转移概率，一般取值0＜＜A＜1。

然后根据所述第一卡尔曼增益系数K_S(l)和所述第一残差信号V(l)和前一帧的第一传递函数确定当前帧的第一传递函数/>

可以依次按照下述公式得到当前帧的第一传递函数：ΔW_SU＝K_S(l)V(l)、Δw_s＝ifft(ΔW_SU)、ΔW_SC＝fft([Δw_s(1：M-R)；0])、

通过更新当前帧的第一传递函数，能够在处理下一帧信号时利用，因为当前帧的第一传递函数相对于下一帧信号为前一帧的第一传递函数。需要注意的是，当处理的信号为第一帧时，前一帧的第一传递函数可以随机预设。

另外还可以在得到v(l)后，按照下述方式更新当前帧的残差信号协方差：根据所述当前帧的第一传递函数、前一帧的第一传递函数协方差、所述第一卡尔曼增益系数、前一帧的残差信号协方差、所述第一数量和所述第二数量，确定当前帧的残差信号协方差。

可以依次按照下述公式得到当前帧的残差信号协方差 φ_Δ(l)＝(1-A²)φ_WS(l)、/> 其中，φ_WS(l)是通道间语音相对传递函数的协方差，α是平滑参数，φ_Δ(l)是过程噪声协方差，P_V(l)是状态估计误差协方差，I＝[1，1，…1]^T是由1组成的向量。

通过更新当前帧的残差信号协方差，能够在处理下一帧信号时利用，因为当前帧的残差信号协方差相对于下一帧信号为前一帧的残差信号协方差。需要注意的是，当处理的信号为第一帧时，前一帧的残差信号协方差可以随机预设。

本公开的一些实施例中，可以按照附图3所示的方式根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数，包括步骤S301至步骤S303。

在步骤S301中，将所述第一残差信号的向量和所述第一信号的向量，分别由时域形式转换为频域形式。

可以按照下述傅里叶变换进行时域形式至频域形式的转换：

V₂(l)＝fft(v_2·*win)

D₁(l)＝fft(d_1·*win)

其中v₂(l)是包含N个样本点的第一残差信号，d₁(l)是主通道输入信号，即第一信号向量，win是短时分析窗，fft(·)是傅里叶变换。

v₂(l)＝[v(n)，v(n-1)，…，v(n-N+1)]^T

d₁(l)＝[d₁(n)，d₁(n-1)，…，d₁(n-N+1)]^T

win＝[0；sqrt(hanning(N-1))]

hanning(n)＝0.5*[1-cos(2π*n/N)]

其中N是分析帧长度，hanning(n)是长度为N-1的如图4所示的汉宁窗。

在步骤S302中，根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第二传递函数、所述第一信号向量、包含当前帧的至少一帧第一残差信号和前一帧的后验误差方差，确定噪声估计信号的向量。

本步骤中，可以先根据所述前一帧的后验状态误差协方差矩阵和所述过程噪声协方差矩阵，确定前一帧的先验状态误差协方差矩阵P(l|l-1，k)：其中，/>为前一帧的后验状态误差协方差矩阵，Φ_Δ(l，k)为过程噪声协方差矩阵，/>是控制第一传递函数g(l，k)不确定度的参数，可以取值/>I是单位矩阵。其中，当前帧为第一帧时，前一帧的后验状态误差协方差矩阵可以采用预设的初始值。

然后根据所述第一信号向量、所述前一帧的第二传递函数和当前帧以及前L-1帧的所述第一残差信号的向量，确定前一帧的先验误差信号E(l|l-1，k)的向量以及前一帧的先验误差方差其中，V₂(l，k)＝[V(l，k)，V(l-1，k)，...，V(l-L+1，k)]^T，所述L为所述第二传递函数g(l，k)的长度，第二传递函数为回声估计与残留回声之间的传递函数。其中，当前帧为第一帧时，前一帧的第二传递函数可以采用预设的初始值，且当前帧以及前L-1帧的所述第一残差信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

然后根据所述前一帧的后验误差方差和所述前一帧的先验误差方差，确定当前帧的预测误差功率信号的向量其中，/>是后验误差方差，/>是先验误差方差，/>β是遗忘因子，0≤β≤1。其中，其中，当前帧为第一帧时，前一帧后验误差方差和前一帧的先验误差方差均可以采用预设的初始值。

然后根据所述前一帧的先验状态误差协方差矩阵、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述当前帧的预测误差功率信号的向量，确定第二卡尔曼增益系数其中，当前帧为第一帧时，前一帧的先验状态误差协方差矩阵可以采用预设的初始值，且当前帧以及前L-1帧的所述第一残差信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

然后根据所述第二卡尔曼增益系数、所述前一帧的先验误差信号的向量、所述前一帧的第二传递函数，确定当前帧的第二传递函数：其中，当前帧为第一帧时，前一帧的第一传递函数可以采用预设的初始值。

最后根据前一帧的预测误差功率信号的向量、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述当前帧的第二传递函数，确定噪声估计信号的向量其中，λ是遗忘因子，0≤λ≤1。其中，当前帧为第一帧时，前一帧的预测误差功率信号的向量可以采用预设的初始值，且当前帧以及前L-1帧的所述第一残差信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

另外，还可以根据所述第二卡尔曼增益系数、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述前一帧的先验状态误差协方差矩阵，确定当前帧的后验状态误差协方差矩阵其中，当前帧为第一帧时，前一帧的先验状态误差协方差矩阵可以采用预设的初始值，且当前帧以及前L-1帧的所述第一残差信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

还可以根据所述第一信号向量、所述当前帧以及前L-1帧的所述第一残差信号的向量和所述前一帧的先验状态误差协方差矩阵，确定当前帧的后验误差方差其中，当前帧为第一帧时，前一帧的先验状态误差协方差矩阵可以采用预设的初始值，且当前帧以及前L-1帧的所述第一残差信号的向量中，如果当前帧之前不足L-1帧，则缺失的帧数可以采用预设的初始值。

在步骤S303中，根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数。

本步骤中，可以先根据所述前一帧的第一估计信号向量和所述第一信号向量，确定当前帧的第一估计信号向量其中，当前帧为第一帧时，前一帧的第一估计信号向量可以采用预设的初始值。

然后根据所述前一帧的语音估计信号的向量、所述第一信号向量和所述前一帧的增益函数，确定当前帧的语音估计信号的向量其中，当前帧为第一帧时，前一帧的语音估计信号的向量可以采用预设的初始值。

然后根据所述当前帧的第一估计信号向量和所述当前帧的噪声估计信号的向量，确定后验信干比

最后根据所述当前帧的语音估计信号的向量、所述当前帧的噪声估计信号的向量、所述后验信干比和所述最小先验信干比，确定所述当前帧的增益函数其中，/> 其中，η是遗忘因子，ξ_min是最小先验信干比，用于控制残留回声抑制量和音乐噪声。

手机使用的环境噪声是扩散场噪声，手机两个麦克风拾取的噪声信号之间相关性较低，而目标语音信号之间具有强相关性，因此可以使用线性自适应滤波器，通过主麦克风(第一麦克风)信号来估计参考麦克风(第二麦克风)信号中的目标语音成分，并将其从参考麦克风中去除，为语音谱增强阶段的噪声估计过程提供一个可靠的参考噪声信号。

卡尔曼自适应滤波器具有收敛速度快和滤波器失调小等特点，使用时域卡尔曼自适应滤波器的完全对角化快速频域实现方法来去除目标语音信号，包括滤波、计算误差、卡尔曼更新以及卡尔曼预测等几个过程。滤波的过程是通过估计的滤波器使用主麦克风的目标语音信号来估计参考麦克风中的目标语音成分，然后将其从参考麦克风信号中减去，计算得到误差信号，即参考噪声信号。卡尔曼更新包括计算卡尔曼增益和滤波器自适应,卡尔曼预测包括计算通道间相对传递函数协方差，过程噪声协方差和状态估计误差协方差。相对于传统NLMS等自适应滤波器，卡尔曼滤波器自适应过程简单、无需复杂的步长控制机制，完全对角化快速频域实现方法计算简单，更进一步降低了计算复杂度。

使用STFT域卡尔曼自适应滤波器来估计两个麦克风噪声谱之间的相对卷积传递函数，从而通过参考麦克风的参考噪声信号估计出主麦克风信号中的噪声谱，使用维纳滤波谱增强方法对噪声进行抑制，最后使用ISTFT方法合成增强语音信号。STFT域卡尔曼自适应滤波的实现过程与目标语音信号对消中卡尔曼自适应滤波器的完全对角化快速频域实现过程类似，不同点是前者在STFT域实现卡尔曼自适应滤波，而后者是时域卡尔曼自适应滤波器的完全对角化快速频域实现。

根据本公开实施例的第二方面，提供一种声音处理装置，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，请参照附图5，包括：

语音消除模块501，用于根据第一信号向量和的第二信号向量，确定第一残差信号的向量，其中，所述第一信号向量为第一麦克风的输入信号，包括第一语音信号和第一噪声信号，所述第二信号向量为第二麦克风的输入信号，包括第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

增益模块502，用于根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数；

抑制模块503，用于根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

在本公开的一些实施例中，所述语音消除模块具体用于：

在本公开的一些实施例中，所述语音消除模块还用于：

在本公开的一些实施例中，所述语音消除模块用于获取第一信号向量和所述第二信号向量时，具体用于：

在本公开的一些实施例中，所述增益模块具体用于：

在本公开的一些实施例中，所述增益模块用于根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第二传递函数、所述第一信号向量、包含当前帧的至少一帧第一残差信号和前一帧的后验误差方差，确定噪声估计信号的向量时，具体用于：

在本公开的一些实施例中，所述增益模块还用于：

在本公开的一些实施例中，所述增益模块用于根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数时，具体用于：

在本公开的一些实施例中，所述抑制模块具体用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在第一方面有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开实施例的第五方面，请参照附图6，其示例性的示出了一种电子设备的框图。例如，装置600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理系统，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到装置600的打开/关闭状态，组件的相对定位，例如所述组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614还可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，4G或5G或它们的组合。在一个示例性实施例中，通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述电子设备的供电方法。

第四方面，本公开在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述电子设备的供电方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种声音处理方法，其特征在于，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述方法包括：

根据第一信号向量和的第二信号向量，确定第一残差信号的向量，其中，所述第一信号向量包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号向量包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号；

所述根据所述第一残差信号的向量和所述第一信号向量，确定当前帧的增益函数，包括：

将所述第一残差信号的向量和所述第一信号向量，分别由时域形式转换为频域形式；

根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数，其中，每个帧的第一估计信号的向量由所述每个帧的前一帧的第一估计信号的向量和所述每个帧的第一信号向量确定，首个帧的第一估计信号的向量为预设值；

所述根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第二传递函数、所述第一信号向量、包含当前帧的至少一帧第一残差信号和前一帧的后验误差方差，确定噪声估计信号的向量，包括：

2.根据权利要求1所述的声音处理方法，其特征在于，所述根据第一信号向量和第二信号向量，确定第一残差信号的向量，包括：

3.根据权利要求2所述的声音处理方法，其特征在于，还包括：

4.根据权利要求3所述的声音处理方法，其特征在于，还包括：

5.根据权利要求2所述的声音处理方法，其特征在于，所述获取第一信号向量和所述第二信号向量，包括：

6.根据权利要求1所述的声音处理方法，其特征在于，还包括：

7.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数，包括：

根据所述前一帧的第一估计信号的向量和所述第一信号向量，确定当前帧的第一估计信号的向量；

根据所述当前帧的第一估计信号的向量和所述当前帧的噪声估计信号的向量，确定后验信干比；

8.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号，包括：

9.一种声音处理装置，其特征在于，应用于终端设备，包括：

抑制模块，用于根据所述第一信号向量和所述当前帧的增益函数，确定当前帧的第一语音信号；

所述增益模块具体用于：

所述增益模块用于根据前一帧的后验状态误差协方差矩阵、过程噪声协方差矩阵、前一帧的第二传递函数、所述第一信号向量、包含当前帧的至少一帧第一残差信号和前一帧的后验误差方差，确定噪声估计信号的向量时，具体用于：

10.根据权利要求9所述的声音处理装置，其特征在于，所述语音消除模块具体用于：

11.根据权利要求10所述的声音处理装置，其特征在于，所述语音消除模块还用于：

12.根据权利要求11所述的声音处理装置，其特征在于，所述语音消除模块还用于：

13.根据权利要求10所述的声音处理装置，其特征在于，所述语音消除模块用于获取第一信号向量和所述第二信号向量时，具体用于：

14.根据权利要求9所述的声音处理装置，其特征在于，所述增益模块还用于：

15.根据权利要求9所述的声音处理装置，其特征在于，所述增益模块用于根据所述噪声估计信号的向量、前一帧的第一估计信号的向量、前一帧的语音功率估计信号的向量、前一帧的增益函数、所述第一信号向量和最小先验信干比，确定当前帧的增益函数时，具体用于：

16.根据权利要求9所述的声音处理装置，其特征在于，所述抑制模块具体用于：

17.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于权利要求1至8中任一项所述的声音处理方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至8中任一项所述的方法。