CN113489854B

CN113489854B - 声音处理方法、装置、电子设备和存储介质

Info

Publication number: CN113489854B
Application number: CN202110736459.8A
Authority: CN
Inventors: 操陈斌
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-03-01
Anticipated expiration: 2041-06-30
Also published as: CN113489854A

Abstract

本公开是关于一种声音处理方法、装置、电子设备和存储介质，所述方法应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述方法包括：根据所述第一信号的向量和所述第二信号的向量，确定第一残差信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；根据所述第一残差信号的向量和所述第一信号的向量，利用预先训练的神经网络确定当前帧的增益函数；根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

Description

声音处理方法、装置、电子设备和存储介质

技术领域

本公开涉及声音处理技术领域，具体涉及一种声音处理方法、装置、电子设备和存储介质。

背景技术

手机等终端设备进行语音通信和人机语音交互时，当用户对麦克风输入语音时，噪声也会同步进入到麦克风中，从而形成语音信号和噪声信号混杂的输入信号。相关技术中使用自适应滤波器来消除上述噪声，但是自适应滤波器对噪声的消除效果较差，因此无法得到较为纯净的语音信号。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种声音处理方法、装置、电子设备和存储介质，用以解决相关技术中的缺陷。

根据本公开实施例的第一方面，提供一种声音处理方法，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述方法包括：

根据第一信号、第二信号和回声参考信号确定第一信号的向量和第二信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一输入信号和第一回声信号，所述第二信号包括输入所述第二麦克风的第二输入信号和第二回声信号，所述第一信号包括第一输入信号和残留回声信号，所述第二信号包括第二输入信号和残留回声信号，所述第一输入信号包括第一语音信号和第一噪声信号，所述第二输入信号包括第二语音信号和第二噪声信号；

根据所述第一信号的向量和所述第二信号的向量，确定第一残差信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

根据所述第一残差信号的向量、所述第一信号的向量和所述回声参考信号的向量，利用预先训练的神经网络确定当前帧的增益函数；

根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

在一个实施例中，还包括：

根据第三信号、第四信号和回声参考信号确定第一信号的向量和第二信号的向量，其中，所述第三信号包括输入所述第一麦克风的第一语音信号、第一噪声信号和第一回声信号，所述第四信号包括输入所述第二麦克风的第二语音信号、第二噪声信号和第二回声信号，所述第一信号还包括残留回声信号，所述第二信号还包括残留回声信号。

在一个实施例中，所述根据第一信号向量、第二信号向量和回声参考信号确定第一信号的向量和第二信号的向量，包括：

获取所述第一信号和所述回声参考信号组成的第一向量、所述第二信号和所述回声参考信号组成的第二向量；

根据当前帧的第一向量和前一帧的第一分离向量确定第二残差信号的向量，并根据当前帧的第二向量和前一帧的第二分离向量确定第三残差信号的向量；

根据所述第二残差信号的向量、所述第一向量和平滑参数，确定当前帧的第一分离向量，并根据所述第三残差信号的向量、所述第二向量和平滑参数，确定当前帧的第二分离向量；

根据所述第一向量和当前帧的第一分离向量确定第一信号的向量，并根据当前帧的第二向量和当前帧的第二分离向量确定第二信号的向量。

在一个实施例中，所述获取所述第一信号和所述回声参考信号组成的第一向量、所述第二信号和所述回声参考信号组成的第二向量，包括：

分别将所述第一信号的向量、所述第二信号的向量和所述回声参考信号的向量由时域形式转换为频域形式；

将频域形式的第一信号的向量和所述频域形式的回声参考信号的向量组成第一向量，并将频域形式的第二信号的向量和所述频域形式的回声参考信号的向量组成第二向量。

在一个实施例中，所述根据所述第一信号的向量和所述第二信号的向量，确定第一残差信号的向量，包括：

将所述第一信号的向量中的样本点的数量截取为第一数量，并将所述第二信号的向量中的样本点的数量截取为第二数量；

根据所述第一信号的向量和前一帧的第一传递函数，确定第二信号的傅里叶变换系数的向量；

根据所述第二信号的向量和所述傅里叶变换系数的向量中第二数量的样本点，确定所述第一残差信号的向量。

在一个实施例中，还包括：

根据所述第一残差信号的向量、前一帧的残差信号协方差、前一帧的状态估计误差协方差、第一信号的向量和平滑参数，确定第一卡尔曼增益系数；

根据所述第一卡尔曼增益系数和所述第一残差信号和前一帧的第一传递函数，确定当前帧的第一传递函数。

在一个实施例中，还包括：

根据所述当前帧的第一传递函数、前一帧的第一传递函数协方差、所述第一卡尔曼增益系数、前一帧的残差信号协方差、所述第一数量和所述第二数量，确定当前帧的残差信号协方差。

在一个实施例中，所述将所述第一信号的向量中的样本点的数量截取为第一数量，并将所述第二信号的向量中的样本点的数量截取为第二数量，包括：

将当前帧的第一信号和前至少一帧的第一信号拼接，形成样本点的数量为所述第一数量的第一信号的向量；

将所述当前帧的第二信号，形成样本点的数量为所述第二数量的第二信号的向量。

在一个实施例中，所述根据所述第一残差信号的向量和所述第一信号的向量，利用预先训练的神经网络确定当前帧的增益函数，包括：

将所述第一残差信号的向量、所述第一信号的向量和回声参考信号的向量，分别由时域形式转换为频域形式；

根据频域形式的所述第一残差信号的向量确定所述第一残差信号的特征，并根据频域形式的所述第一信号的向量确定所述第一信号的特征，以及根据频域形式的回声参考信号的向量确定所述回声参考信号的特征；

将所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数。

在一个实施例中，所述将所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数，包括：

所述神经网络分别对所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征依次进行至少一级降维处理和时域整合；

将所述第一残差信号的特征、所述第一残差信号的特征的降维结果和时域整合结果，所述第一信号的特征、所述第一信号的特征的降维结果和时域整合结果、以及所述回声参考信号的特征、所述回声参考信号的特征的降维结果和时域整合结果输入所述神经网络的估计模块，以使所述估计模块输出所述残留回声和噪声估计信号；

将所述残留回声和噪声估计信号、所述第一残差信号的特征、所述第一残差信号的特征的时域整合结果、所述第一信号的特征的时域整合结果以及回升参考信号的特征的时域整合结果输入所述神经网络的抑制模块，以使所述抑制模块输出所述当前帧的增益函数。

在一个实施例中，还包括：

根据训练集中的回声参考训练信号对所述训练集中的第一语音训练信号、第一噪声训练信号和第一回声训练信号组成的第一混合信号进行回声消除，得到第三残差信号的向量，并根据训练集中的回声参考训练信号对所述训练集中的第二语音训练信号、第二噪声训练信号和第二回声训练信号组成的第二混合信号进行回声消除，得到第四残差信号的向量，以及根据所述训练集中的所述第一语音训练信号和所述第三残差信号确定增益函数的标签值；

根据所述第三残差信号的向量和所述第四残差信号的向量，确定第五残差信号的向量，其中，所述第五残差信号包括第二噪声训练信号和残留语音信号；

根据所述第三残差信号的向量确定所述第三残差信号的特征，并根据所述第五残差信号的向量确定所述第五残差信号的特征，以及根据所述回声参考信号的向量确定所述回声参考信号的特征；

将所述第三残差信号的特征、所述第五残差信号的特征和所述回声参考信号的特征输入所述神经网络，以使所述神经网络输出当前帧的增益函数的预测值；

根据所述增益函数的标签值和所述增益函数的预测值确定网络损失值，并根据所述网络损失值调节所述神经网络的网络参数。

在一个实施例中，还包括：

按照随机的信噪比，从所述数据集中随机抽取和拼接语音信号和噪声信号，形成回声参考训练信号，并根据所述回声参考训练信号生成所述近端回声训练信号；

从所述数据集中随机抽取和拼接语音信号，形成所述近端语音训练信号；

从所述数据集中随机抽取和拼接噪声信号，形成所述近端噪声训练信号；

根据所述近端回声训练信号生成第一回声训练信号和第二回声训练信号，并根据所述近端语音训练信号生成第一语音训练信号和第二语音训练信号，以及根据所述近端噪声训练信号生成第一噪声训练信号和第二噪声训练信号；

根据所述第一回声训练信号、所述第二回声训练信号、所述第一语音训练信号、所述第二语音训练信号、所述第一噪声训练信号和所述第二噪声训练信号，确定所述训练集。

在一个实施例中，所述根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号，包括：

将所述第一信号的向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的第一语音信号。

根据本公开实施例的第二方面，提供一种声音处理装置，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述装置包括：

语音消除模块，用于根据所述第一信号的向量和所述第二信号的向量，确定第一残差信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

增益模块，用于根据所述第一残差信号的向量和所述第一信号的向量，利用预先训练的神经网络确定当前帧的增益函数；

抑制模块，用于根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

在一个实施例中，还包括回声消除模块，用于：

在一个实施例中，所述回声消除模块具体用于：

在一个实施例中，所述回声消除模块用于获取所述第一信号和所述回声参考信号组成的第一向量、所述第二信号和所述回声参考信号组成的第二向量时，具体用于：

在一个实施例中，所述语音消除模块具体用于：

在一个实施例中，所述语音消除模块还用于：

在一个实施例中，所述语音消除模块用于将所述第一信号的向量中的样本点的数量截取为第一数量，并将所述第二信号的向量中的样本点的数量截取为第二数量时，具体用于：

在一个实施例中，所述增益模块具体用于：

在一个实施例中，所述增益模块用于将所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数时，具体用于：

在一个实施例中，还包括训练模块，用于：

在一个实施例中，还包括训练集构建模块，用于：

在一个实施例中，所述抑制模块具体用于：

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于第一方面所述的声音处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开根据第一信号、第二信号和回声参考信号确定消除回声的第一信号的向量和第二信号的向量，进而根据第一信号的向量和第二信号的向量确定第一残差信号的向量，再根据第一残差信号的向量、第一信号的向量和回声参考信号的向量，利用预先训练的神经网络确定当前帧的增益函数，最后根据第一信号的向量和上述当前帧的增益函数确定当前帧的第一语音信号。由于第一麦克风和第二麦克风的位置不同，因此其语音和噪声的比例呈相反趋势，因此消除回声后的第一信号的向量和第二信号的向量可以使用目标语音和干扰噪声对消的方法来进行噪声估计和抑制，从而提高了麦克风中噪声的消除效果，可以得到即为纯净的语音信号。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本公开一示例性实施例示出的声音处理方法的流程图；

图2是本公开一示例性实施例示出的确定第一信号的向量和第二信号的向量的流程图；

图3是本公开一示例性实施例示出的分析窗的示意图；

图4是本公开一示例性实施例示出的确定第一残差信号的向量的流程图；

图5是本公开一示例性实施例示出的确定增益函数的向量的流程图；

图6是本公开一示例性实施例示出的神经网络的结构示意图；

图7是本公开一示例性实施例示出的声音处理装置的结构示意图；

图8是本公开一示例性实施例示出的电子设备框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

手机上传统的噪声抑制方法一般是基于自适应阻塞矩阵（BM）、自适应噪声消除器（ANC）和后滤波（PF）的结构。自适应阻塞矩阵消除辅助通道中的目标语音信号，为ANC提供一个噪声参考信号。自适应噪声消除器消除主通道中的相干噪声。后滤波通过估计ANC输出信号中的噪声信号，使用MMSE或维纳滤波等谱增强方法对噪声进一步抑制，从而得到一个信噪比（SNR）更高的增强信号。

传统BM和ANC一般使用NLMS或RLS自适应滤波器来实现。NLMS算法需要设计一个可变步长的机制来控制滤波器的自适应速率，以同时达到快速收敛和更小稳态误差的目标，但这个目标对于实际应用来说几乎是不可能实现的。RLS算法无需额外设计可变步长，但是它没有考虑过程噪声；而且手机在握持和移动等动作的影响下，两个麦克风通道之间的传递函数可能频繁发生变化，此时需要一个自适应滤波器的快速更新策略。RLS算法处理这两个问题都不是太鲁棒。ANC一般仅适用于处理相干噪声，即噪声源距离手机较近，且从噪声源到达麦克风的直达声占主要成分。手机语音通话所处的噪声环境一般为扩散场，即多个噪声源距离手机麦克风较远，且需要经过多次空间反射才到达手机。因此，ANC在实际应用中几乎无效。

基于此，第一方面，本公开至少一个实施例提供了一种声音处理方法，请参照附图1，其示出了该方法的流程，包括步骤S101和步骤S104。

其中，该声音处理方法应用于终端设备，其中，终端设备可以是手机、平板电脑等具有通信功能和/或人机交互功能的终端设备。所述终端设备包括第一麦克风和第二麦克风，第一麦克风位于手机的底部，作为主通道，主要用于采集目标说话人的语音信号，其信噪比（SNR）较高；第二麦克风位于手机的顶部，作为辅助通道，主要用于采集环境噪声信号，也包括部分目标说话人的语音信号，其信噪比较低。该声音处理方法的目的就是利用第二麦克风的输入信号，从第一麦克风的输入信号中消除噪声，从而得到较为纯净的语音信号。

其中，麦克风的输入信号由近端信号和立体声回声信号组成：

其中下标表示麦克风索引，1是主通道，2是辅助通道，/>是麦克风输入信号，近端说话人信号/>加上背景噪声/>构成近端信号，/>是回声信号。噪声消除和抑制一般都是在无回声期间或回声已经被消除情况下进行的，因此后续过程无需考虑回声信号的影响。

语音通话的使用场景一般都是近场，即目标说话人离手机麦克风的距离较近，两个麦克风拾取的目标说话人信号之间的关系可以通过声学冲激响应（AIR）来表示：

其中和/>分别表示主通道和辅助通道的目标说话人信号，/>是其之间的声学传递函数，/>，/>是该传递函数的长度，是主通道目标说话人信号的向量形式。

两个麦克风拾取的扩散场噪声信号，不能简单地通过声学冲激响应来表示二者之间的关系，但是两个麦克风的噪声功率谱具有高度相似性，因此可以使用长时谱回归方法进行建模。

其中和/>分别表示主通道和辅助通道的噪声功率谱，/>是其之间的相对卷积传递函数。

在步骤S101中，根据所述第一信号的向量和所述第二信号的向量，确定第一残差信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号。

其中，第一麦克风和第二麦克风处于相同的环境中，因此第一语音信号的信号源和第二语音信号的信号源完全相同，但是由于该信号源与两个麦克风的距离差别造成第一语音信号和第二语音信号之间存在差异；同理，第一噪声信号和第二噪声信号的信号源完全相同，但是由于该信号源与两个麦克风的距离差别造成第一噪声信号和第二噪声信号之间存在差异。两个麦克风的消除了回声的残差信号可以通过对消的方式得到第一残差信号。第一残差信号近似辅助通道的噪声信号，即第二噪声信号。

其中，第一信号可以是第三信号经过回声消除后得到的，因此第一信号还包括残留回声信号，而第二信号可以是第四信号经过回声消除后得到的，因此第二信号还包括残留回声信号。其中，所述第三信号包括输入所述第一麦克风的第一语音信号、第一噪声信号和第一回声信号，所述第四信号包括输入所述第二麦克风的第二语音信号、第二噪声信号和第二回声信号。可选的，根据根据第三信号、第四信号和回声参考信号确定第一信号的向量和第二信号的向量。

在步骤S102中，根据所述第一残差信号的向量和所述第一信号的向量和所述回声参考信号的向量，利用预先训练的神经网络确定当前帧的增益函数。

其中，神经网络经过预先训练，能够预测得到增益函数，增益函数用于对第一信号进行差异化增益，也就是对第一信号中的第一语音信号进行正向增益，对第一信号中的第二语音信号进行负向增益，从而使第一语音信号和第一噪声信号的强度差异增大，信噪比增加，从而在最大程度上得到纯净的第一语音信号。

在步骤S103中，根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

本步骤中，可以将所述第一信号的向量和所述当前帧的增益函数的乘积，由频域形式转换为时域形式，形成时域形式的当前帧的第一语音信号。例如可以采用下述逆傅里叶变换的形式，进行频域形式到时域形式的转换：

其中，和/>分别是/>和/>的向量形式。/>是消除噪声的时域增强信号，/>是傅里叶逆变换。

本公开的一些实施例中，可以按照附图2所示的方式根据第一信号、第二信号和回声参考信号确定第一信号的向量和第二信号的向量，包括步骤S201至步骤S204。

在步骤S201中，获取所述第一信号和所述回声参考信号组成的第一向量、所述第二信号和所述回声参考信号组成的第二向量。

本步骤中，可以分别将所述第一信号的向量、所述第二信号的向量和所述回声参考信号的向量由时域形式转换为频域形式；再将频域形式的第一信号的向量和所述频域形式的回声参考信号的向量组成第一向量，并将频域形式的第二信号的向量和所述频域形式的回声参考信号的向量组成第二向量。

在一个示例中，按照下述傅里叶变换完成时域形式向频域形式的转换：

其中，是所述回声参考信号的向量形式，/>是第一信号的向量形式，是第二信号的向量形式，/>是短时分析窗，/>是傅里叶变换，/>表示帧索引。

其中是分析帧长度，/>是长度为/>的如图3所示的汉宁窗。

再按照下式将频域形式的第一信号的向量和所述频域形式的回声参考信号的向量组成第一向量：

以及按照下式将频域形式的第二信号的向量和所述频域形式的回声参考信号的向量组成第二向量：

在步骤S202中，根据当前帧的第一向量和前一帧的第一分离向量确定第二残差信号的向量，并根据当前帧的第二向量和前一帧的第二分离向量确定第三残差信号的向量。

可以利用前一帧的第一分离向量，按照下式确定第二残差信号的向量/>：

利用前一帧的第二分离向量，按照下式确定第三残差信号的向量：

在步骤S203中，根据所述第二残差信号的向量、所述第一向量和平滑参数，确定当前帧的第一分离向量，并根据所述第三残差信号的向量、所述第二向量和平滑参数，确定当前帧的第二分离向量。

本步骤中，可以先根据每个频率点的所述第二残差信号的向量确定第一评价函数r₁：，其中，K是频率点数；再根据所述第一评价函数确定第一对比度函数/>：/>；再根据所述第一信号的向量确定第一协方差矩阵：，其中，/>表示厄米特共轭转置；再根据前一帧的第一辅助变量、所述第一协方差矩阵、所述第一对比度函数和所述平滑函数，确定当前帧的第一辅助变量/>：/>,其中，/>为预先设置的平滑参数；最后根据所述当前帧的第一辅助变量确定所述当前帧的第一分离变量：/>，其中，/>是单位向量，/>。

可以先根据每个频率点的所述第三残差信号的向量确定第二评价函数r₂：，其中，K是频率点数；再根据所述第二评价函数确定第二对比度函数/>：/>；再根据所述第二信号的向量确定第二协方差矩阵：，其中，/>表示厄米特共轭转置；再根据前一帧的第二辅助变量、所述第二协方差矩阵、所述第二对比度函数和所述平滑函数，确定当前帧的第二辅助变量/>：/>,其中，/>为预先设置的平滑参数；最后根据所述当前帧的第二辅助变量确定所述当前帧的第二分离变量：/>，其中，/>是单位向量，/>。

在步骤S204中，根据所述第一向量和当前帧的第一分离向量确定第一信号的向量，并根据当前帧的第二向量和当前帧的第二分离向量确定第二信号的向量。

可以利用当前帧的第一分离向量，按照下述公式确定第一信号的向量：

可以利用当前帧的第二分离向量，按照下述公式确定第二信号的向量：

另外，还可以按照下述傅里叶变化的方式，分别将第一信号和第二信号由频域形式转换为时域形式：

其中和/>分别是主通道和辅助通道消除回声的时域增强信号，/>是傅里叶逆变换。

本公开的一些实施例中，可以按照附图4所示的方式根据第一信号的向量和第二信号的向量，确定第一残差信号的向量，包括步骤S401至步骤S403。

在步骤S401中，将所述第一信号的向量中的样本点的数量截取为第一数量，并将所述第二信号的向量中的样本点的数量截取为第二数量。

本步骤中，可以将当前帧的第一信号和前至少一帧的第一信号拼接，形成样本点的数量为所述第一数量的第一信号的向量。第一数量M可以表征拼接后的信号块长度。可选的，采用连续帧overlap的方式进行信号拼接，得到第一信号的向量：

其中，、/>为M个样本点，M可以是每帧信号的样本点数量R的整数倍。

本步骤中，可以将所述当前帧的第二信号，形成样本点的数量为所述第二数量的第二信号的向量。第二数量R可以表征每帧信号的长度。可选的，采用连续帧overlap的方式进行信号拼接，得到第二信号向量：

其中，、/>为R个样本点。

在步骤S402中，根据所述第一信号向量和前一帧的第一传递函数，确定第二信号的傅里叶变换系数的向量。

本步骤中，可以先对进行时域至频域的转换，以得到主通道输入信号DFT系数：/>；然后按照下述公式根据/>和前一帧的第一传递函数/>，确定第二信号的傅里叶变换系数的向量/>：/>。

在步骤S403中，根据所述第二信号的向量和所述傅里叶变换系数的向量中第二数量的样本点，确定所述第一残差信号的向量。

本步骤中，可以先将由频域转换为时域：/>，再按照下述公式得到第一残差信号的向量/>：/>。

另外，还可以在得到后，按照下述方式更新当前帧的第一传递函数：

首先，根据所述第一残差信号的向量、前一帧的残差信号协方差/>、前一帧的状态估计误差协方差/>、第一信号的向量/>和平滑参数/>，确定第一卡尔曼增益系数/>。

可以依次按照下述公式得到第一卡尔曼增益系数：/>、、/>，其中，A为转移概率，一般取值/>。

然后根据所述第一卡尔曼增益系数和所述第一信号/>和前一帧的第一传递函数/>，确定当前帧的第一传递函数/>。

可以依次按照下述公式得到当前帧的第一传递函数：、、/>、/>。

通过更新当前帧的第一传递函数，能够在处理下一帧信号时利用，因为当前帧的第一传递函数相对于下一帧信号为前一帧的第一传递函数。需要注意的是，当处理的信号为第一帧时，前一帧的第一传递函数可以随机预设。

另外还可以在得到后，按照下述方式更新当前帧的残差信号协方差：根据所述当前帧的第一传递函数、前一帧的第一传递函数协方差、所述第一卡尔曼增益系数、前一帧的残差信号协方差、所述第一数量和所述第二数量，确定当前帧的残差信号协方差。

可以依次按照下述公式得到当前帧的残差信号协方差：

、/>、。其中，/>是通道间语音相对传递函数的协方差，/>是平滑参数，/>是过程噪声协方差，/>是状态估计误差协方差，/>是由1组成的向量。

通过更新当前帧的残差信号协方差，能够在处理下一帧信号时利用，因为当前帧的残差信号协方差相对于下一帧信号为前一帧的残差信号协方差。需要注意的是，当处理的信号为第一帧时，前一帧的残差信号协方差可以随机预设。

本公开的一些实施例中，可以按照下述如图5所示的方式根据所述第一残差信号的向量和所述第一信号的向量，利用预先训练的神经网络确定当前帧的增益函数，包括步骤S501至步骤S503。

在步骤S501中，将所述第一残差信号的向量、所述第一信号的向量和回声参考信号的向量，分别由时域形式转换为频域形式，例如，按照下述公式进行上述转换：

其中：

其中是分析帧长度，/>是长度为/>的如图3所示的汉宁窗。

在步骤S502中，根据频域形式的所述第一残差信号的向量确定所述第一残差信号的特征，并根据频域形式的所述第一信号的向量确定所述第一信号的特征，以及根据频域形式的回声参考信号的向量确定所述回声参考信号的特征。

可以分别将第一残差信号的向量、第一信号的向量和回声参考信号的向量作为目标向量，执行下述操作，以获得对应的特征：先将目标信号的向量均按照0、100、200、300、400、500、600、700、800、900、1000、1200、1400、1600、1800、2000、2200、2400、2600、2800、3000、3200、3400、3600、3800、4000、4400、4800、5200、5600、6000、6400、6800、7200、7600、8000这些频率点划分为36个子频带。

然后对当前帧目标信号向量和前一帧目标信号向量依次进行叠加、加窗和傅里叶变换，并根据每个频带的宽度计算每个频带的第一能量，以及计算每个子频带的第一能量/>的对数能量，并对其做离散余弦换，以确定倒谱系数BFCC。

再然后对当前帧信号和前三帧信号依次进行叠加和搜索基音信号，并计算基因信号的每个频带的第二能量/>，以及根据所述第一能量/>和所述第二能量/>，确定目标信号与基音信号间的归一化频带互相关性系数/>；

再然后确定所述倒谱系数BFCC的一阶差分和二阶差分，并确定当前帧的倒谱系数与前一帧的倒谱系数间的变化特征；

再然后对归一化频带互相关性执行离散余弦变换DCT，并取其前六个系数。

最后将基音信号、倒谱系数BFCC、倒谱系数BFCC的一阶差分和二阶差分、归一化频带互相关性/>的离散余弦变换结果的前六个系数以及当前帧的倒谱系数与前一帧的倒谱系数间的变化特征等54个特征确定为目标向量的特征。

在步骤S503中，将所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数。

可以参照附图6，首先，所述神经网络分别对所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征依次进行至少一级降维处理和时域整合；接下来，将所述第一残差信号的特征、所述第一残差信号的特征的降维结果和时域整合结果，所述第一信号的特征、所述第一信号的特征的降维结果和时域整合结果、以及所述回声参考信号的特征、所述回声参考信号的特征的降维结果和时域整合结果输入所述神经网络的估计模块，以使所述估计模块输出所述残留回声和噪声估计信号；最后，将所述残留回声和噪声估计信号、所述第一残差信号的特征、所述第一残差信号的特征的时域整合结果、所述第一信号的特征的时域整合结果以及回升参考信号的特征的时域整合结果输入所述神经网络的抑制模块，以使所述抑制模块输出所述当前帧的增益函数。

其中，可以按照下述方式预先对神经网络进行训练：首先，根据训练集中的回声参考训练信号对所述训练集中的第一语音训练信号、第一噪声训练信号和第一回声训练信号组成的第一混合信号进行回声消除，得到第三残差信号的向量，并根据训练集中的回声参考训练信号对所述训练集中的第二语音训练信号、第二噪声训练信号和第二回声训练信号组成的第二混合信号进行回声消除，得到第四残差信号的向量，以及根据所述训练集中的所述第一语音训练信号和所述第三残差信号确定增益函数的标签值；接下来，根据所述第三残差信号的向量和所述第四残差信号的向量，确定第五残差信号的向量，其中，所述第五残差信号包括第二噪声训练信号和残留语音信号；接下来，根据所述第三残差信号的向量确定所述第三残差信号的特征，并根据所述第五残差信号的向量确定所述第五残差信号的特征，以及根据所述回声参考信号的向量确定所述回声参考信号的特征；接下来，将所述第三残差信号的特征、所述第五残差信号的特征和所述回声参考信号的特征输入所述神经网络，以使所述神经网络输出当前帧的增益函数的预测值；最后，根据所述增益函数的标签值和所述增益函数的预测值确定网络损失值，并根据所述网络损失值调节所述神经网络的网络参数。

其中，可以按照下述方式构建训练集：首先，按照随机的信噪比，从所述数据集中随机抽取和拼接语音信号和噪声信号，形成回声参考训练信号，并根据所述回声参考训练信号生成所述近端回声训练信号；接下来，从所述数据集中随机抽取和拼接语音信号，形成所述近端语音训练信号；接下来，从所述数据集中随机抽取和拼接噪声信号，形成所述近端噪声训练信号；接下来，根据所述近端回声训练信号生成第一回声训练信号和第二回声训练信号，并根据所述近端语音训练信号生成第一语音训练信号和第二语音训练信号，以及根据所述近端噪声训练信号生成第一噪声训练信号和第二噪声训练信号；最后，根据所述第一回声训练信号、所述第二回声训练信号、所述第一语音训练信号、所述第二语音训练信号、所述第一噪声训练信号和所述第二噪声训练信号，确定所述训练集。

手机使用的环境噪声是扩散场噪声，手机两个麦克风拾取的噪声信号之间相关性较低，而目标语音信号之间具有强相关性，因此可以使用线性自适应滤波器,通过主麦克风（第一麦克风）信号来估计参考麦克风（第二麦克风）信号中的目标语音成分，并将其从参考麦克风中去除，为语音谱增强阶段的噪声估计过程提供一个可靠的参考噪声信号。

卡尔曼自适应滤波器具有收敛速度快和滤波器失调小等特点，使用时域卡尔曼自适应滤波器的完全对角化快速频域实现方法来去除目标语音信号，包括滤波、计算误差、卡尔曼更新以及卡尔曼预测等几个过程。滤波的过程是通过估计的滤波器使用主麦克风的目标语音信号来估计参考麦克风中的目标语音成分，然后将其从参考麦克风信号中减去，计算得到误差信号，即参考噪声信号。卡尔曼更新包括计算卡尔曼增益和滤波器自适应,卡尔曼预测包括计算通道间相对传递函数协方差，过程噪声协方差和状态估计误差协方差。相对于传统NLMS等自适应滤波器，卡尔曼滤波器自适应过程简单、无需复杂的步长控制机制，完全对角化快速频域实现方法计算简单，更进一步降低了计算复杂度。

通过使用基于独立向量分析的盲源分离技术，将回声消除问题转变为多通道盲源分离问题，解决了自适应滤波器在双讲期间工作不鲁棒的缺陷。另外，将参考回声信号作为多通道盲源分离其中的一个输入信号，将盲源分离问题转换为半盲源分离方法问题，解决了前者所固有的信号排列模糊的问题。

充分利用了手机两个麦克风信号，将传统噪声估计方法和深度学习噪声抑制方法想结合，首先去除参考麦克风中存在的目标语音信号，然后将输出的噪声信号送给深度神经网络作为辅助参考噪声，从而帮助神经网络更加快速和准确地估计主麦克风中的噪声信号并进行抑制，不仅解决了单通道神经网络降噪方法普遍存在的泛化问题，而且还提高了噪声抑制的能力。

将参考回声信号送给神经网络作为辅助参考输入，利用神经网络的非线性建模能力，可以更好的去除残留非线性回声。

根据本公开实施例的第二方面，提供一种声音处理装置，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，请参照附图7，其示出了该装置的结构示意图，所述装置包括：

语音消除模块701，用于根据所述第一信号的向量和所述第二信号的向量，确定第一残差信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

增益模块702，用于根据所述第一残差信号的向量和所述第一信号的向量，利用预先训练的神经网络确定当前帧的增益函数；

抑制模块703，用于根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号。

在本公开的一些实施例中，还包括回声消除模块，用于：

在本公开的一些实施例中，所述回声消除模块具体用于：

在本公开的一些实施例中，所述回声消除模块用于获取所述第一信号和所述回声参考信号组成的第一向量、所述第二信号和所述回声参考信号组成的第二向量时，具体用于：

在本公开的一些实施例中，所述语音消除模块具体用于：

在本公开的一些实施例中，所述语音消除模块还用于：

在本公开的一些实施例中，所述语音消除模块用于将所述第一信号的向量中的样本点的数量截取为第一数量，并将所述第二信号的向量中的样本点的数量截取为第二数量时，具体用于：

在本公开的一些实施例中，所述增益模块具体用于：

在本公开的一些实施例中，所述增益模块用于将所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数时，具体用于：

在本公开的一些实施例中，还包括训练模块，用于：

在本公开的一些实施例中，还包括训练集构建模块，用于：

在本公开的一些实施例中，所述抑制模块具体用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在第一方面有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本公开实施例的第三方面，请参照附图8，其示例性的示出了一种电子设备的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出（I/O）的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风（MIC），当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814还可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，4G或5G或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述电子设备的供电方法。

第四方面，本公开在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述电子设备的供电方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种声音处理方法，其特征在于，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述方法包括：

根据第一信号的向量和第二信号的向量，确定第一残差信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

根据所述第一残差信号的向量和所述第一信号的向量，利用预先训练的神经网络确定当前帧的增益函数；

根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号；

所述方法还包括：

根据第三信号、第四信号和回声参考信号确定第一信号的向量和第二信号的向量，其中，所述第三信号包括输入所述第一麦克风的第一语音信号、第一噪声信号和第一回声信号，所述第四信号包括输入所述第二麦克风的第二语音信号、第二噪声信号和第二回声信号，所述第一信号还包括残留回声信号，所述第二信号还包括残留回声信号；

所述根据第一信号向量、第二信号向量和回声参考信号确定第一信号的向量和第二信号的向量，包括：

2.根据权利要求1所述的声音处理方法，其特征在于，所述获取所述第一信号和所述回声参考信号组成的第一向量、所述第二信号和所述回声参考信号组成的第二向量，包括：

3.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一信号的向量和所述第二信号的向量，确定第一残差信号的向量，包括：

4.根据权利要求3所述的声音处理方法，其特征在于，还包括：

5.根据权利要求4所述的声音处理方法，其特征在于，还包括：

6.根据权利要求3所述的声音处理方法，其特征在于，所述将所述第一信号的向量中的样本点的数量截取为第一数量，并将所述第二信号的向量中的样本点的数量截取为第二数量，包括：

7.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一残差信号的向量和所述第一信号的向量，利用预先训练的神经网络确定当前帧的增益函数，包括：

将所述第一残差信号的向量、所述第一信号的向量和所述回声参考信号的向量，分别由时域形式转换为频域形式；

根据频域形式的所述第一残差信号的向量确定所述第一残差信号的特征，并根据频域形式的所述第一信号的向量确定所述第一信号的特征，以及根据频域形式的所述回声参考信号的向量确定所述回声参考信号的特征；

8.根据权利要求7所述的声音处理方法，其特征在于，所述将所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数，包括：

9.根据权利要求7所述的声音处理方法，其特征在于，还包括：

10.根据权利要求9所述的声音处理方法，其特征在于，还包括：

按照随机的信噪比，从数据集中随机抽取和拼接语音信号和噪声信号，形成回声参考训练信号，并根据所述回声参考训练信号生成近端回声训练信号；

从所述数据集中随机抽取和拼接语音信号，形成近端语音训练信号；

从所述数据集中随机抽取和拼接噪声信号，形成近端噪声训练信号；

根据所述近端回声训练信号生成所述第一回声训练信号和所述第二回声训练信号，并根据所述近端语音训练信号生成所述第一语音训练信号和所述第二语音训练信号，以及根据所述近端噪声训练信号生成所述第一噪声训练信号和所述第二噪声训练信号；

11.根据权利要求1所述的声音处理方法，其特征在于，所述根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号，包括：

12.一种声音处理装置，其特征在于，应用于终端设备，所述终端设备包括第一麦克风和第二麦克风，所述装置包括：

语音消除模块，用于根据第一信号的向量和第二信号的向量，确定第一残差信号的向量，其中，所述第一信号包括输入所述第一麦克风的第一语音信号和第一噪声信号，所述第二信号包括输入所述第二麦克风的第二语音信号和第二噪声信号，所述第一残差信号包括第二噪声信号和残留语音信号；

抑制模块，用于根据所述第一信号的向量和所述当前帧的增益函数，确定当前帧的第一语音信号；

所述装置还包括回声消除模块，用于：

所述回声消除模块具体用于：

13.根据权利要求12所述的声音处理装置，其特征在于，所述回声消除模块用于获取所述第一信号和所述回声参考信号组成的第一向量、所述第二信号和所述回声参考信号组成的第二向量时，具体用于：

14.根据权利要求12所述的声音处理装置，其特征在于，所述语音消除模块具体用于：

15.根据权利要求14所述的声音处理装置，其特征在于，所述语音消除模块还用于：

16.根据权利要求15所述的声音处理装置，其特征在于，所述语音消除模块还用于：

17.根据权利要求14所述的声音处理装置，其特征在于，所述语音消除模块用于将所述第一信号的向量中的样本点的数量截取为第一数量，并将所述第二信号的向量中的样本点的数量截取为第二数量时，具体用于：

18.根据权利要求12所述的声音处理装置，其特征在于，所述增益模块具体用于：

19.根据权利要求18所述的声音处理装置，其特征在于，所述增益模块用于将所述第一残差信号的特征、所述第一信号的特征和所述回声参考信号的特征输入所述预先训练的神经网络，以使所述神经网络输出当前帧的增益函数时，具体用于：

20.根据权利要求18所述的声音处理装置，其特征在于，还包括训练模块，用于：

21.根据权利要求20所述的声音处理装置，其特征在于，还包括训练集构建模块，用于：

22.根据权利要求12所述的声音处理装置，其特征在于，所述抑制模块具体用于：

23.一种电子设备，其特征在于，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时基于权利要求1至11中任一项所述的声音处理方法。

24.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至11中任一项所述的方法。