CN108022595A

CN108022595A - 一种语音信号降噪方法和用户终端

Info

Publication number: CN108022595A
Application number: CN201610965804.4A
Authority: CN
Inventors: 张金亮
Original assignee: China Academy of Telecommunications Technology CATT
Current assignee: China Academy of Telecommunications Technology CATT
Priority date: 2016-10-28
Filing date: 2016-10-28
Publication date: 2018-05-11

Abstract

本发明提供一种语音信号降噪方法和用户终端，该方法可包括：获取第一麦克风采集的第一当前音频信号帧；获取第二麦克风采集的第二当前音频信号帧；使用第一增益对所述第二当前音频信号帧进行增益调整，其中，所述第一增益为根据所述第一麦克风采集的噪声音频信号帧和所述第二麦克风采集的噪声音频信号帧的能量差异设置的第一增益；根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益；使用所述第二增益对所述第一当前音频信号帧进行增益调整，获取当前输出音频信号帧。本发明实施例可以提高噪声抑制能力。

Description

一种语音信号降噪方法和用户终端

技术领域

本发明涉及通信技术领域，尤其涉及一种语音信号降噪方法和用户终端。

背景技术

随着通信技术的发展，目前用户终端已经成为人们生活中不可或缺的一部分，例如：人们需要使用手机、平板电脑、平板电脑(Tablet Personal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digital assistant，简称PDA)、移动上网装置(Mobile Internet Device，MID)或可穿戴式设备(Wearable Device)等用户终端进行语音通信或者上网等等。然而，在用户终端进行语音信号录制时，外界经常会存在噪音，从而导致获得的语音信号中会存在噪音。但目前的用户终端主要是通过单个麦克风来实现降噪，而单个麦克风降噪的方案对噪声抑制能力差。可见，目前的用户终端存在噪声抑制能力差的问题。

发明内容

本发明的目的在于提供一种语音信号降噪方法和用户终端，解决了目前的用户终端存在噪声抑制能力差的问题。

为了达到上述目的，本发明实施例提供一种语音信号降噪方法，包括：

获取第一麦克风采集的第一当前音频信号帧；

获取第二麦克风采集的第二当前音频信号帧；

使用第一增益对所述第二当前音频信号帧进行增益调整，其中，所述第一增益为根据所述第一麦克风采集的噪声音频信号帧和所述第二麦克风采集的噪声音频信号帧的能量差异设置的第一增益；

根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益；

使用所述第二增益对所述第一当前音频信号帧进行增益调整，获取当前输出音频信号帧。

可选的，所述方法还包括：

对所述第一当前音频信号帧和所述第二当前音频信号帧进行语音检测，以判断当前是否为噪声段；

若判断当前为噪声段，根据所述第一当前音频信号帧和所述第二当前音频信号帧的能量差异设置所述第一增益；

若判断当前为语音段，则所述第一增益为根据所述第一麦克风在所述第一当前音频信号帧之前采集的噪声音频信号帧和所述第二麦克风在所述第二当前音频信号帧之前采集的噪声音频信号帧的能量差异设置的第一增益。

可选的，所述方法还包括：

将所述第一当前音频信号帧进行频域变换，得到第一当前频域信号；

将增益调整后的所述第二当前音频信号帧进行频域变换，得到第二当前频域信号；

所述根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益，包括：

根据所述第一当前频域号与所述第二当前频域信号的能量设置第二增益；

所述使用所述第二增益对所述第一当前音频信号帧进行增益调整，获取当前输出音频信号帧，包括：

使用所述第二增益对所述第一当前频域信号进行增益调整，并将调整后对所述第一当前频域信号进行时域变换，得到当前输出音频信号帧。

可选的，所述方法还包括：

在时域上对增益调整后的所述第二当前音频信号帧进行子带补偿；或者

在频域上对所述第二当前频域信号进行子带补偿。

可选的，所述根据所述第一当前频域号与所述第二当前频域信号的能量设置第二增益，包括：

计算所述第一当前频域信号中各频点的功率；

计算所述第二当前频域信号中各频点的功率；

计算所述第一当前频域信号中各频点与所述第二当前频域信号中对应频点的互相关功率；

根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，计算各频点的噪声估计；

根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，以及各频点的互相关功率和噪声估计，计算各频点的第二增益；

所述使用所述第二增益对所述第一当前频域信号进行增益调整，包括：

使用各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，所述根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，以及各频点的互相关功率和噪声估计，计算各频点的第二增益，包括：

通过如下公式计算各频点的第二增益：

且，G(f,m)＝max{G_min1,G(f,m)}

其中，

G(f,m)表示频点f的第二增益，f表示频点，G_min1为预设最大衰减增益，Φ_nn(f,m)为频点f的噪声估计，Φ_x1x1(f,m)为所述第一当前频域信号中频点f的功率，Φ_x2x2(f,m)为所述第二当前频域信号中频点f的功率，Φ_x1x2(f,m)为频点f的互相关功率，γ为经验常数，d为所述第一麦克风和所述第二麦克风之间的距离，c为声音在空气中的传播速度。

可选的，所述方法还包括：

对各频点的第二增益进行平滑处理；

所述使用各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整，包括：

使用平滑处理后的各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，所述方法还包括：

检测所述第一当前音频信号帧是否为语音帧；

所述使用各频点的第二增益对所述第一当前频域信号帧的相应频点进行增益调整，包括：

若所述第一当前音频信号帧为语音帧，使用各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整；或者

若所述第一当前音频信号帧为语音帧，使用预设第一平滑因子对各频点的第二增益进行平滑处理，并使用平滑处理后的各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，所述根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益，包括：

若根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定所述第一当前音频信号帧为噪声帧，则使用如下公式获取各频点的第二增益：

G(f,m)＝αG(f,m-1)+(1-α)G_min2

其中，G(f,m)表示频点f的第二增益，f表示频点，G_min2为预设衰减增益，G(f,m-1)上一帧频点f的第二增益，a为预设第二平滑因子；

或者，

若根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定当前场景为预设小噪声场景，则根据所述第一当前频域号与所述第二当前频域信号的能量计算第二增益，并对所述第二增益进行平滑处理。

本发明实施例还提供一种用户终端，包括：

第一获取模块，用于获取第一麦克风采集的第一当前音频信号帧；

第二获取模块，用于获取第二麦克风采集的第二当前音频信号帧；

第一调整模块，用于使用第一增益对所述第二当前音频信号帧进行增益调整，其中，所述第一增益为根据所述第一麦克风采集的噪声音频信号帧和所述第二麦克风采集的噪声音频信号帧的能量差异设置的第一增益；

第一设置模块，用于根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益；

第二调整模块，用于使用所述第二增益对所述第一当前音频信号帧进行增益调整，获取当前输出音频信号帧。

可选的，所述用户终端还包括：

第一检测模块，用于对所述第一当前音频信号帧和所述第二当前音频信号帧进行语音检测，以判断当前是否为噪声段；

第二设置模块，用于若判断当前为噪声段，根据所述第一当前音频信号帧和所述第二当前音频信号帧的能量差异设置所述第一增益；

可选的，所述用户终端还包括：

第一变换模块，用于将所述第一当前音频信号帧进行频域变换，得到第一当前频域信号；

第二变换模块，用于将增益调整后的所述第二当前音频信号帧进行频域变换，得到第二当前频域信号；

所述第一设置模块用于根据所述第一当前频域号与所述第二当前频域信号的能量设置第二增益；

所述第二调整模块用于使用所述第二增益对所述第一当前频域信号进行增益调整，并将调整后对所述第一当前频域信号进行时域变换，得到当前输出音频信号帧。

可选的，所述用户终端还包括：

第一补偿模块，用于在时域上对增益调整后的所述第二当前音频信号帧进行子带补偿；或者

第二补偿模块，用于在频域上对所述第二当前频域信号进行子带补偿。

可选的，所述第一设置模块包括：

第一计算单元，用于计算所述第一当前频域信号中各频点的功率；

第二计算单元，用于计算所述第二当前频域信号中各频点的功率；

第三计算单元，用于计算所述第一当前频域信号中各频点与所述第二当前频域信号中对应频点的互相关功率；

第四计算单元，用于根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，计算各频点的噪声估计；

第五计算单元，用于根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，以及各频点的互相关功率和噪声估计，计算各频点的第二增益；

所述第二调整模块用于使用各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，所述第五计算单元用于通过如下公式计算各频点的第二增益：

且，G(f,m)＝max{G_min1,G(f,m)}

其中，

可选的，所述用户终端还包括：

平滑处理模块，用于对各频点的第二增益进行平滑处理；

所述第二调整模块用于使用平滑处理后的各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，所述用户终端还包括：

第二检测模块，用于检测所述第一当前音频信号帧是否为语音帧；

所述第二调整模块用于若所述第一当前音频信号帧为语音帧，使用各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整；或者

所述调整模块用于若所述第一当前音频信号帧为语音帧，使用预设第一平滑因子对各频点的第二增益进行平滑处理，并使用平滑处理后的各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，所述第一设置模块用于若根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定所述第一当前音频信号帧为噪声帧，则使用如下公式获取各频点的第二增益：

G(f,m)＝αG(f,m-1)+(1-α)G_min2

或者，

所述第一设置模块用于若根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定当前场景为预设小噪声场景，则根据所述第一当前频域号与所述第二当前频域信号的能量计算第二增益，并对所述第二增益进行平滑处理。

本发明的上述技术方案至少具有如下有益效果：

本发明实施例，获取第一麦克风采集的第一当前音频信号帧；获取第二麦克风采集的第二当前音频信号帧；使用第一增益对所述第二当前音频信号帧进行增益调整，其中，所述第一增益为根据所述第一麦克风采集的噪声音频信号帧和所述第二麦克风采集的噪声音频信号帧的能量差异设置的第一增益；根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益；使用所述第二增益对所述第一当前音频信号帧进行增益调整，获取当前输出音频信号帧。这样可以实现通过双麦克风进行降噪，且对第二麦克风采集的当前音频信号帧进行增益调整，这样可以提高噪声抑制能力。

附图说明

图1为本发明实施例提供的一种语音信号降噪方法的流程示意图；

图2为本发明实施例提供的一种语音信号处理的示意图；

图3为本发明实施例提供的另一种语音信号处理的示意图；

图4为本发明实施例提供的音信号降噪方法的音源示意图；

图5为本发明实施例提供的音信号降噪方法的仿真效果示意图；

图6为本发明实施例提供的一种用户终端的结构示意图；

图7为本发明实施例提供的另一种用户终端的结构示意图；

图8为本发明实施例提供的另一种用户终端的结构示意图；

图9a为本发明实施例提供的另一种用户终端的结构示意图；

图9b为本发明实施例提供的另一种用户终端的结构示意图；

图10为本发明实施例提供的一种用户终端的第一设置模块的结构示意图；

图11为本发明实施例提供的另一种用户终端的结构示意图；

图12为本发明实施例提供的另一种用户终端的结构示意图；

图13为本发明实施例提供的另一种用户终端的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

参见图1，本发明实施例提供一种语音信号降噪方法，如图1所示，包括以下步骤：

101、获取第一麦克风采集的第一当前音频信号帧；

102、获取第二麦克风采集的第二当前音频信号帧；

103、使用第一增益对所述第二当前音频信号帧进行增益调整，其中，所述第一增益为根据所述第一麦克风采集的噪声音频信号帧和所述第二麦克风采集的噪声音频信号帧的能量差异设置的第一增益；

104、根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益；

105、使用所述第二增益对所述第一当前音频信号帧进行增益调整，获取当前输出音频信号帧。

本发明实施例中，上述第一麦克风可以是主麦克风，例如：针对于手机或平板电脑来说，上述第一麦克风可以是手机或平板电脑中下端设置的麦克风，即用户使用手机或者平板电脑通话时第一麦克风为靠近用户嘴巴的麦克风，主要采集用户讲话的语音信息。而上述第二麦克风可以是次麦克风，例如：针对于手机或平板电脑来说，上述第二麦克风可以是手机或平板电脑中上端设置的麦克风，即用户使用手机或者平板电脑通话时第二麦克风为远离用户嘴巴的麦克风，主要采集环境噪声信息。

上述第一当前音频信号帧可以理解为第一麦克风在音频采集过程中采集的当前帧，通过该帧表示第一麦克风采集的音频信号。同理，上述第二当前音频信号帧可以理解为第二麦克风在音频录制过程中采集的当前帧，通过该帧表示第二麦克风采集的音频信号。

上述使用第一增益对第二当前音频信号帧进行增益调整可以理解为，使用第一增益对第二音频信号帧进行增益补偿，该增益补偿可以是在时域上进行。另外，由于上述第二当前音频信号帧为第二麦克风采集的当前帧，从而通过上述步骤103可以实现对第二麦克风采集的任一帧进行增益调整。

本发明实施例中，由于上述第一增益是根据所述第一麦克风采集的噪声音频信号帧和所述第二麦克风采集的噪声音频信号帧的能量差异设置，这样使用第一增益对第二麦克风采集的音频信号帧进行增益调整，从而可以解决第一麦克风和第二麦克风之间灵敏度差异，以加大对噪声的抑制能力，提高降噪效果。因为在实际应用中两个麦克风可能会存在一致性差异，两个麦克风之间的灵敏度差异在3dB是比较常见的，这样通过上述第一增益对第二麦克风采集的音频信号帧进行增益调整，就可以避免灵敏差异带来的算法效果差异，进而加大对噪声的抑制能力，提高降噪效果。

另外，上述第一麦克风采集的噪声音频信号帧和第二麦克风采集的噪声音频信号帧可以是音频采集过程中在同一时间中第一麦克风采集的噪声音频信号帧和第二麦克风采集的噪声音频信号帧，即在噪声段采集的当前帧。例如：在音频采集过程判断当前为噪声段采集的当前帧。

且上述第一增益可以是第一麦克风采集的噪声音频信号帧和第二麦克风采集的噪声音频信号帧的能量比。例如：上述第一增益通过如下公式表示：

其中，G_comp(m)表示上述第一增益，和分别表示第一麦克风采集的噪声音频信号帧和第二麦克风采集的噪声音频信号帧的能量。

当然，本发明实施例中，并不限定上述第一增益为第一麦克风采集的噪声音频信号帧和第二麦克风采集的噪声音频信号帧的能量比，例如：上述第一增益还可以是根据这两路音频信号的能量差设置上述第一增益，如差值越大设置第一增益越大，反之越小。具体的，还可以预先设置能量差值与增益的对应关系，从而可以根据该对应关系设置上述第一增益。需要说明的是，本发明实施例中，对设置上述第一增益的设置方式并不作限定。

另外，上述第二增益可以理解为衰减增益，这样使用该衰减增益对上述第一当前音频信号帧进行增益调整，从而可以衰减第一当前音频信号帧中的噪声，以达到降噪的效果。且该增益调整可以是在频域上进行的，当然，本发明实施例对此并不作限定，例如：在一些场景中也可以在时域上使用上述第二增益对第一当前音频信号帧进行增益调整。

另外，上述设置第二增益可以是根据第一当前音频信号帧和增益调整后的第二当前音频信号帧之间的噪声估计设置，例如：采用预先设置的噪声估计与增益之间的计算公式计算得到上述第二增益。或者上述设置第二增益可以是根据第一当前音频信号帧和增益调整后的第二当前音频信号帧之间的能量差异设置，例如：预先获取有这两路音频信号帧的能量差异与增益的对应关系，再基于该对应关系设置上述第二增益。当然，本发明实施例中，并不限定设置第二增益的方式，例如：还可以基于第一当前音频信号帧和增益调整后的第二当前音频信号帧之间互相关功率，设置上述第二增益等等，对此本发明实施例不作限定。

需要说明的是，本发明实施例中，增益调整后的第二当前音频信号帧为使用上述第一增益进行增益调整后的第二当前音频信号帧。

本发明实施例中，通过上述步骤就可以实现加大对噪声段的抑制能力，以提高语音信号的效果。

可选的，上述方法还可以包括：

该实施方式中，可以实现若当前为噪声段，即上述第一当前音频信号帧和所述第二当前音频信号帧为噪声音频信号帧，则使用根据所述第一当前音频信号帧和所述第二当前音频信号帧的能量差异设置所述第一增益，并使用该增益对第二当前音频信号帧进行增益调整。这样可以实现第一增益是实时更新的，以保证第一增益的准确性。

若当前为语音段，即不为噪声段，则使用之前设置的第一增益对第二当前音频信号帧进行增益调整，例如：使用最近一次设置的第一增益，以提高第一增益的准确性。例如：本发明实施例中，每检测到一个噪声帧就设置上述第一增益，而检测为语音帧时，则使用最近一次设置的第一增益进行增益调整。

另外，对所述第一当前音频信号帧和所述第二当前音频信号帧进行语音检测可以是通过对麦克风采集的音频信号帧进行VAD检测，以确定是否为噪声段。

例如：如图2所示，第一麦克风采集的音频信号用x₁(n)表示，第二麦克风采集的音频信号用x₂(n)表示，分别对x₁(n)和x₂(n)进行VAD检测，假设第一麦克风采集的音频信号x₁(n)的VAD输出标示为flag₁，第二麦克风采集的音频信号x₂(n)的VAD输出标示为flag₂。当！(flag₁||flag₂)＝＝1时，当前为稳态噪声段。其中，！()为取反运算，例如：当flag₁为0表示噪声帧，且flag₂为0表示噪声帧时，则该公式为1，即当前为稳态噪声段，从而根据当前音频信号帧设置上述第一增益。

另外，在设置上述第一增益时，还可以是设置噪声门限THR_min和THR_max，当且时，

否则

其中，为第一麦克风采集的当前音频信号帧的功率，为第二麦克风采集的当前音频信号帧的功率，和分别表示上一帧中第一麦克风和第二麦克风采集的音频信号的噪声估计，平滑因子α可以取值大一点，可以选择0.9或0.95。

通过上述公式就可以计算出第一增益G_comp(m)。需要说明是，本发明实施例中，并不限定通过对第一麦克风采集的音频信号帧和第二麦克风采集的音频信号帧进行VAD检测，以确定噪声段。

另外，本发明实施例中，在音频采集过程并不限定每采集到噪声音频信号帧就设置一次第一增益，例如：在一些场景中可以是每采集到多个噪声音频信号帧才设置一次第一增益，或者平滑处理得到第一增益等等，对此本发明实施例不作限定。

可选的，所述方法还包括：

上述频域变换可以使用快速傅氏变换(Fast Fourier Transformation，FFT)进行变换，当然，也可以采用其他的频域变换方式进行变换，对此本发明实施例不作限定。同理，上述时域变换可以是使用快速傅氏逆变换(Inverse Fast Fourier Transform，IFFT)变换成时域信号，当然，也可以采用其他的时域变换方式进行变换。

另外，本发明实施例中，FFT长度可以根据用户终端编解码(codec)一帧的时长而设置，例如：用户终端codec一般都是20ms一帧，对于8KHz采样率信号，FFT长度可以采用256，每次混叠96个样点。另外，做FFT时的加窗w类型不做限制。例如：本发明实施例中，可以通过如下公式对第一当前音频信号帧和增益调整后的第二当前音频信号帧进行频域转换：

X₁(z)＝FFT(x₁(n)*w)

X₂(z)＝FFT(x₂(n)*w)

其中，X₁(z)表示上述第一当前频域信号，表示上述X₂(z)上述第二当前频域信号，x₁(n)表示第一当前音频信号帧，x₂(n)表示增益调整后的第二当前音频信号帧。

需要说明的是，本发明实施例中，第一当前频域信号需要理解为第一当前音频信号帧的频域信号，第二当前频域信号需要理解为增益调整后的第二当前音频信号帧的频域信号。

该实施方式中，通过上述步骤可以实现第二增益是根据两路信号中频域信号设置的，且是在频域上对第一麦克风采集的音频信号进行增益调整，这样可以实现对语音段波纹之间的噪声频点进行处理，以加大噪声抑制能力，提高降噪效果。优先的，可以是在频域中按子代或频点对语音段波纹之间的噪声频点处理。且该处理可以是衰减处理，即通过上述第二增益实现对语音段波纹之间的噪声频点进行衰减处理。

可选的，上述实施方式中，上述方法还包括：

在频域上对所述第二当前频域信号进行子带补偿。

其中，时域上的子带补偿可以是使用第一增益调整后，在频域变换之前对增益调整后的所述第二当前音频信号帧进行子带补偿。而频域上的子带补偿可以是在频域变换之后，在设置上述第二增益之前对第二当前频域信号进行子带补偿。

该实施方式中，通过上述子带补偿可以防止第一麦克风和第二麦克风采集音频信号差异不大导致的第一麦克风采集的语音信号受到损伤，进而提高语音信的质量。

且该实施方式中，上述子带补偿可以是对全部子带进行补偿，也可以是对部分子带进行补偿，例如：对第二麦克风采集的音频信号中影响音质的几个子带进行单独补偿。且可以采用固定增益补偿的方式，例如：采集大量语音数据，根据差异对第一次麦克信号影响音质的几个子带进行单独补偿，或者补偿增益可以预先设置的。例如：可以设置8个或10个子带，每个子带3个参数。分别表示子带起始频点f_start，结束频点f_end，和补偿增益G_band。根据参数对每个子带进行补偿，可以生成一个无限的脉冲响应(Infinite Impulse Response，IIR)滤波器实现增益补偿，也可以直接乘以增益，具体可以根据效果、代码空间和运算量等实际情况进行选择。且设置子带数也可以根据以根据效果、代码空间和运算量等实际情况进行设置。另外，如果是生成IIR滤波器(例如：peaking滤波器)，则可以直接在时域进行补偿，如果是直接乘以增益则可以在频域进行补偿。

可选的，上述实施方式中，上述根据所述第一当前频域号与所述第二当前频域信号的能量设置第二增益，包括：

计算所述第一当前频域信号中各频点的功率；

计算所述第二当前频域信号中各频点的功率；

该实施方式中，计算各频点的功率可以是根据频点的频域信号直接计算，也可以结合上一帧的功率和频点的频域信号计算。例如：通过如下公式计算第一当前频域信号各频点的功率、第二当前频域信号各频点的功率和各频点的互相关功率：

其中，表示第一当前频域信号中频点f的功率，表示第二当前频域信号中频点f的功率，表示频点f的互相关功率，和分别表示第一麦克风采集的上一帧的频点f的功率、第二麦克风采集的上一帧的频点f的功率和上一帧频域f的互相关功率，X₁(f,m)和X₂(f,m)分别表示第一当前频域信号中频点f的频域信号和第二当前频域信号中频点f的频域信号，和分别表示对X₁(f,m)和X₂(f,m)的共轭转置，α为平滑因子，可以为预设值。

另外，第一当前频域信号各频点的功率可以理解为第一当前频域信号各频点的自相关功率谱，第二当前频域信号各频点的功率可以理解为第二当前频域信号各频点的自相关功率谱，各频点的互相关功率可以理解为各频点的互相关功率谱。

各频点的噪声估计可以根据第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率直接计算得到，即不考虑上一帧的噪声估计。当然，也可以结合上一帧的噪声估计进行计算，例如：可以通过如下公式计算：

当Δ＜Thr1时，使用估计Φ_nn(f,m)

否则当Δ＜Thr2时，使用估计Φ_nn(f,m)

其中，

Φ_nn(f,m)表示频点f的噪声估计，Thr1和Thr2为预设值，且Thr1＜Thr2，α为平滑因子，Φ_nn(f,m-1)为上一帧频点f的噪声估计。

需要说明的是，本发明实施例中，f可以表示任一频点，从而可以计算得到各频点的相关信息。另外，m表示当前帧，而当前帧又可以理解为任一帧，即通过m可以表示所有帧，m-1表示当前帧的上一帧，即当前帧为帧m，上一帧为帧m-1。

该实施方式中，通过上述步骤可以对每个信号按频点设置第二增益，以及使用各频点的第二增益对相应频点进行增益调整，从而有效衰减各频点的噪声，进一步压加噪声抑制能力，提高降噪效果。

可选的，上述根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，以及各频点的互相关功率和噪声估计，计算各频点的第二增益，包括：

通过如下公式计算各频点的第二增益：

且，G(f,m)＝max{G_min1,G(f,m)}

其中，

G(f,m)表示频点f的第二增益，f表示频点，G_min1为预设最大衰减增益，Φ_nn(f,m)为频点f的噪声估计，为所述第一当前频域信号中频点f的功率，为所述第二当前频域信号中频点f的功率，为频点f的互相关功率，γ为经验常数，d为所述第一麦克风和所述第二麦克风之间的距离，c为声音在空气中的传播速度。

通过上述公式可以在有效计算各频点的第二增益，且通过上述G_min1可以限制最大衰减增益。

需要说明的是，本发明实施例中，并不限定计算各频点的第二增益的计算方式，即除了通过上述公式计算各频点的第二增益之外，还可以通过其他方式计算各频点的第二增益。例如：还可以通过如下方式计算各频点的第二增益：

比较所述第一当前频域信号和所述第二当前频域信号中各频点的能量差；

如果能量差小于预设第一门限(thr_min)，使用预设最小增益值(最大衰减增益)作为上述第二增益；

如果能量差小于预设第二门限(thr_max)，不对相应频点做衰减，即不使用第二增益对第一当前频域信号的相应频点增益调整；

如果能量差在所述预设第一门限(thr_min)和预设第二门限(thr_max)的中间，由根据能量差和所述第一当前频域信号和第二当前频域信号的各频点的相关性(例如：互相关功率)做加权计算第二增益。

其中，上述预设第一门限(thr_min)可以为预先设置为纯噪声门限，而上述预设第二门限(thr_max)为预先设置为纯语音门限。

可选的，上述方法还包括：

对各频点的第二增益进行平滑处理；

该实施方式中，可以实现对各频点的第二增益进行平滑处理，从而可以防止衰减增益变化剧烈造成的音乐噪声，达到提高音质的效果。另外，上述平滑处理可以通过如下公式实现：

G(f,m)＝αG(f,m-1)+(1-α)G(f,m)

其中，α为平滑因子，G(f,m-1)表示上一帧频点f的第二增益，其中，公式左边的G(f,m)表示平滑后的第二增益，公式右边的G(f,m)表示平滑前的第二增益。当然，本发明实施例中，对各频点的第二增益进行平滑处理并不限定通过上述公式进行平滑处理，通过其他平滑方式也是可以实现的，对此本发明实施例不作限定。

需要说明的是，本发明实施例中，α表示平滑因子，但在进行不同的计算时，α表示的平滑因子可以是不同的平滑因子，具体可以提前设置好。

可选的，上述方法还包括：

检测所述第一当前音频信号帧是否为语音帧；

该实施方式中，可以实现检测第一当前音频信号帧是否为语音帧，即检测第一麦克风采集的当前帧是否为语音帧。且通过检测的结果对第二增益进行修正。且为语音帧时，可以直接使用第二增益，而不作平滑处理；或者为语音帧时可以使用预设第一平滑因子对各频点的第二增益进行平滑处理。这两种情况可以视具体效果而定。以及在为噪声帧时，使用预设第二平滑因子对各频点的第二增益进行平滑处理。

其中，使用预设第一平滑因子对各频点的第二增益进行平滑处理可以通过如下公式实现：

G(f,m)＝α_minG(f,m-1)+(1-α_min)G(f,m)

其中，a_min为预设第一平滑因子。

通过上述公式可以实现计算的衰减增益G(f,m)与上一帧增益G(f,m-1)进行平滑。从而可以防止噪声段衰减增益过小，刚进入语音段因为平滑慢导致语音起始端音质损伤问题。另外，还可以对当前帧和上一帧进行判断，当上一帧为噪声帧，而当前帧为语音帧时，可以使用较小的平滑因子，使得衰减增益能够迅速的跟踪上来，极端的可以直接使用当前计算的增益不做平滑处理，视具体效果而定。

可选的，上述检测所述第一当前音频信号帧是否为语音帧，包括：

对所述第一当前频域信号和所述第二当前频域信号进行VAD检测，以检测所述第一当前音频信号帧是否为语音帧。

其中，VAD检测中可以是检测上述第一当前频域信号和第二当前频域信号的能量比(或者幅度差)，通过该能量比(或者幅度差)确定第一当前音频信号帧是否为语音帧。例如：对于近端有语音的场景，语音段第一麦克风采集的音频信号的能量比第二麦克风采集的音频信号能量大很多，而噪声段能量则差不多，即当第一当前频域信号比第二当前频域信号的大很多时，则确定第一当前音频信号帧为语音帧。

另外，检测第一当前频域信号和第二当前频域信号的能量比可以是，检测第一当前频域信号和第二当前频域信号长时能量平滑比R_21L和短时能量平滑比R₂₁，即检测第一麦克风采集的音频信号和第二麦克风采集的音频信号的长时能量平滑比R_21L和短时能量平滑比R₂₁。其中，长时能量平滑比R_21L可以是指平滑因子取值大时的能量平滑比，而短时能量平滑比是指平滑因子取值小时的能量平滑比。优先的，对于宽带信号，可以分别统计第一麦克风和第二麦克风采集的音频信号的低子带的长时能量平滑比R_21LBL和短时能量平滑比R_21LB。同时统计第一麦克风和第二麦克风采集的音频信号的高子带短时能量平滑比R_12HB。其中，低子带可以是低于某频点的子带，高子带由是高于该频点的子带，该频点可以是音频信号的中心频点，例如：以8K带宽为例，4K以下为低子带，4K以上为高子带。

通过上述短时能量平滑比可以保证语音起始端音质，而通过长时能量平滑比为了保证噪声段噪声的平稳。且对短时能量平滑和长时能量平滑比可以分别设置一个门限，用于判断当前帧是语音帧还是噪声帧。

另外，宽带使用高低子带的原因是语音能量主要集中在低频，使用低频能量更可靠一些，这样通过低子带的能量平滑比可以有效确定是否为语音帧。但同时语音的清音能量主要集中在高频，可以根据第一麦克风采集的音频信号与第二麦克风采集的音频信号的高频能量比进行判断。这里也设置一个高频能量比门限，当第一麦克风采集的音频信号与第二麦克风采集的音频信号的高频能量比大于此门限时，则认为第一当前音频信号帧(当前帧)为语音帧。另外，考虑到有时候敲击声的环境噪声会对清音判断有干扰，这里可以设置一个handover，当出现第一麦克风采集的音频信号与第二麦克风采集的音频信号的高频能量比高于所说门限连续超过handover帧后，则确定第一当前音频信号帧(当前帧)是清音帧，其中，handover可以理解为一阈值。

需要说明的是，本发明实施例中，检测语音帧并不限定通过上述VAD的方式检测，还可以是通过其他检测音频信号帧是否为语音帧的方式，对此本发明实施例不作限定。

可选的，上述根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益，包括：

G(f,m)＝αG(f,m-1)+(1-α)G_min2

或者，

该实施方式中，可以实现若所述第一当前音频信号帧为噪声帧，使用预设第二平滑因子对各频点的第二增益进行平滑处理，并使用平滑处理后的各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。另外，本发明实施例中，上述预设第一平滑因子小于所述预设第二平滑因子。当为噪声帧时，由于滑因子α应取相对大一些的值，使得噪声段抑制的比较平稳。且上述G_min2为预设衰减增益可以小于上面实施方式中提到的G_min1。

该实施方式中，通过上述预设第二平滑因子比预设第一平滑因子取值大一些，使得噪声段抑制的比较平稳。

其中，上述根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定当前场景为预设小噪声场景，可以是根据噪声状态判断当前场景是否为预设小噪声场景。例如：根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量进行VAD判断，若VAD判断为噪声状态，且噪声能量小于预设阈值，则确定当前场景为预设小噪声场景。即上述预设小噪声场景可以是噪声状态下噪声能量小于预设阈值的场景。例如：预设小噪声环境可以理解为比较安静的办公室环境或卧室环境等等场景。通过音频信号进行检测，根据小噪声能量门限判读当前环境比较安静时，会进一步严格噪声段的判断，甚至可以直接放弃G_min2的平滑，即通过根据所述第一当前频域号与所述第二当前频域信号的能量计算第二增益，并对所述第二增益进行平滑处理。因为这种环境噪声本身就很小，使用G(f,m)做一次衰减噪声基本就听不到了，没有必要加大抑制，造成噪声起伏的风险。另外，需要说明的是，当前场景为预设小噪声场景时，当前帧可能是语音帧，但此时也会按小噪声场景进行处理。

其中，该实施方式中，计算第二增益以及对第二增益进行平滑处理的实施方式，可以参见前面实施方式中的相应的说明，此处不作赘述。

需要说明的是，本发明实施例中，上述介绍的多种可选的实施方式中，可以相互结合实现，也可以单独实现。例如：如图3所示，第一麦克风和第二麦克风采集的音频信号分别为x₁(n)和x₂(n)。先根据噪声段两路信号的能量差异对x₂(n)做增益调整(即使用第一增益进行增益调整)，调整后仍记为x₂(n)。分别做FFT后变换到频域X₁(z)和X₂(z)，或者记为X₁(f,m)和X₂(f,m)。对于第二麦克风采集的音频信号X₂(f,m)按子带进行补偿，补偿后仍记为X₂(f,m)。计算衰减增益G(f,m)(第二增益)。根据两路信号幅度差增加VAD检测，根据检测结果对G(f,m)进一步修正，修正后增益也记为G(f,m)。X₁(f,m)乘以衰减增益G(f,m)后得到纯净的语音信号Y(f,m)或Y(z)。经过IFFT后得到输出的时域信号y(n)。

下面以图4和图5对本发明实施例提供的降噪方法进行仿真效果说明，其中，仿真音源为客观一致性测试的3quest音源，图4的上面为第一麦克风采集的音频信号，下面为第二麦克风采集的音频信号。图5的上面为经过本发明实施例提供的降噪方法处理后的第一麦克风采集的音频信号，下面为经过本发明实施例提供的降噪方法处理后的第二麦克风采集的音频信号。通过图4和图5可以得出本发明实施例提供的降噪方法可以有效地衰减噪声，提高音质。

需要说明的是，上述方法可以应用于任何具备两个或者两个以上的麦克风的用户终端，例如：具备两个或者两个以上的麦克风的手机、平板电脑(Tablet PersonalComputer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digitalassistant，简称PDA)、移动上网装置(Mobile Internet Device，MID)、车载设备或可穿戴式设备(Wearable Device)等终端设备，需要说明的是，在本发明实施例中并不限定用户终端的具体类型。

参见图6，本发明实施例提供一种用户终端，如图6所示，用户终端600，包括以下模块：

第一获取模块601，用于获取第一麦克风采集的第一当前音频信号帧；

第二获取模块602，用于获取第二麦克风采集的第二当前音频信号帧；

第一调整模块603，用于使用第一增益对所述第二当前音频信号帧进行增益调整，其中，所述第一增益为根据所述第一麦克风采集的噪声音频信号帧和所述第二麦克风采集的噪声音频信号帧的能量差异设置的第一增益；

第一设置模块604，用于根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益；

第二调整模块605，用于使用所述第二增益对所述第一当前音频信号帧进行增益调整，获取当前输出音频信号帧。

可选的，如图7所示，用户终端600还包括：

第一检测模块606，用于对所述第一当前音频信号帧和所述第二当前音频信号帧进行语音检测，以判断当前是否为噪声段；

第二设置模块607，用于若判断当前为噪声段，根据所述第一当前音频信号帧和所述第二当前音频信号帧的能量差异设置所述第一增益；

可选的，如图8所示，用户终端600还包括：

第一变换模块608，用于将所述第一当前音频信号帧进行频域变换，得到第一当前频域信号；

第二变换模块609，用于将增益调整后的所述第二当前音频信号帧进行频域变换，得到第二当前频域信号；

所述第一设置模块604用于根据所述第一当前频域号与所述第二当前频域信号的能量设置第二增益；

所述第二调整模块605用于使用所述第二增益对所述第一当前频域信号进行增益调整，并将调整后对所述第一当前频域信号进行时域变换，得到当前输出音频信号帧。

可选的，如图9a所示，用户终端600还包括：

第一补偿模块6010，用于在时域上对增益调整后的所述第二当前音频信号帧进行子带补偿；

或者，如图9a所示，用户终端600还包括：

第二补偿模块6011，用于在频域上对所述第二当前频域信号进行子带补偿。

可选的，如图10所示，第一设置模块604包括：

第一计算单元6041，用于计算所述第一当前频域信号中各频点的功率；

第二计算单元6042，用于计算所述第二当前频域信号中各频点的功率；

第三计算单元6043，用于计算所述第一当前频域信号中各频点与所述第二当前频域信号中对应频点的互相关功率；

第四计算单元6044，用于根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，计算各频点的噪声估计；

第五计算单元6045，用于根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，以及各频点的互相关功率和噪声估计，计算各频点的第二增益；

第二调整模块605用于使用各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，第五计算单元6045用于通过如下公式计算各频点的第二增益：

且，G(f,m)＝max{G_min1,G(f,m)}

其中，

可选的，如图11所示，用户终端600还包括：

平滑处理模块6012，用于对各频点的第二增益进行平滑处理；

所述第二调整模块605用于使用平滑处理后的各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，如图12所示，用户终端600还包括：

第二检测模块6013，用于检测所述第一当前音频信号帧是否为语音帧；

所述第二调整模块605用于若所述第一当前音频信号帧为语音帧，使用各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整；或者

所述调整模块605用于若所述第一当前音频信号帧为语音帧，使用预设第一平滑因子对各频点的第二增益进行平滑处理，并使用平滑处理后的各频点的第二增益对所述第一当前频域信号的相应频点进行增益调整。

可选的，第一设置模块604用于若根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定所述第一当前音频信号帧为噪声帧，则使用如下公式获取各频点的第二增益：

G(f,m)＝αG(f,m-1)+(1-α)G_min2

或者，

所述第一设置模块604用于若根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定当前场景为预设小噪声场景，则根据所述第一当前频域号与所述第二当前频域信号的能量计算第二增益，并对所述第二增益进行平滑处理。

需要说明的是，本实施例中上述用户终端600可以是与本发明实施例中方法实施例提供的语音信号降噪方法对应的用户终端，本发明实施例中方法实施例中的任意实施方式都可以被本实施例中的上述用户终端600所实现，以及达到相同的有益效果，此处不再赘述。

参见图13，本发明实施例提供另一种用户终端的结构，该用户终端包括：处理器1300、收发机1310、存储器1320、用户接口1330和总线接口，其中：

处理器1300，用于读取存储器1320中的程序，执行下列过程：

获取第一麦克风采集的第一当前音频信号帧；

获取第二麦克风采集的第二当前音频信号帧；

其中，第一麦克风和第二麦克风可以是用户接口1330中包括的两个麦克风，收发机1310，用于在处理器1300的控制下接收和发送数据。

在图13中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器1300代表的一个或多个处理器和存储器1320代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机1310可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口1330还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器1300负责管理总线架构和通常的处理，存储器1320可以存储处理器1300在执行操作时所使用的数据。

可选的，处理器1300还用于：

在频域上对所述第二当前频域信号进行子带补偿。

计算所述第一当前频域信号中各频点的功率；

计算所述第二当前频域信号中各频点的功率；

通过如下公式计算各频点的第二增益：

且，G(f,m)＝max{G_min1,G(f,m)}

其中，

可选的，处理器1300还用于：

对各频点的第二增益进行平滑处理；

可选的，处理器1300还用于：

检测所述第一当前音频信号帧是否为语音帧；

G(f,m)＝αG(f,m-1)+(1-α)G_min2

或者，

需要说明的是，本实施例中上述用户终端可以是与本发明实施例中方法实施例提供的语音信号降噪方法对应的用户终端，本发明实施例中方法实施例中的任意实施方式都可以被本实施例中的上述用户终端所实现，以及达到相同的有益效果，此处不再赘述

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音信号降噪方法，其特征在于，包括：

获取第一麦克风采集的第一当前音频信号帧；

获取第二麦克风采集的第二当前音频信号帧；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

在频域上对所述第二当前频域信号进行子带补偿。

5.如权利要求3所述的方法，其特征在于，所述根据所述第一当前频域号与所述第二当前频域信号的能量设置第二增益，包括：

计算所述第一当前频域信号中各频点的功率；

计算所述第二当前频域信号中各频点的功率；

6.如权利要求5所述的方法，其特征在于，所述根据所述第一当前频域信号中各频点的功率，以及所述第二当前频域信号中各频点的功率，以及各频点的互相关功率和噪声估计，计算各频点的第二增益，包括：

通过如下公式计算各频点的第二增益：

且，G(f,m)＝max{G_min1,G(f,m)}

其中，

<mrow> <msub> <mi>H</mi> <mn>12</mn> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Phi;</mi> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <msub> <mi>x</mi> <mn>2</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>&Gamma;</mi> <mrow> <msub> <mi>n</mi> <mn>1</mn> </msub> <msub> <mi>n</mi> <mn>2</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> <msub> <mi>&Phi;</mi> <mrow> <mi>n</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Phi;</mi> <mrow> <msub> <mi>x</mi> <mn>1</mn> </msub> <msub> <mi>x</mi> <mn>1</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>&Phi;</mi> <mrow> <mi>n</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>m</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

<mrow> <msub> <mi>&Gamma;</mi> <mrow> <msub> <mi>n</mi> <mn>1</mn> </msub> <msub> <mi>n</mi> <mn>2</mn> </msub> </mrow> </msub> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>sin</mi> <mi> </mi> <mi>c</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mn>2</mn> <mi>&pi;</mi> <mi>f</mi> <mi>d</mi> </mrow> <mi>c</mi> </mfrac> <mo>)</mo> </mrow> </mrow>

7.如权利要求5所述的方法，其特征在于，所述方法还包括：

对各频点的第二增益进行平滑处理；

8.如权利要求5所述的方法，其特征在于，所述方法还包括：

检测所述第一当前音频信号帧是否为语音帧；

9.如权利要求3所述的方法，其特征在于，所述根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量设置第二增益，包括：

G(f,m)＝αG(f,m-1)+(1-α)G_min2

或者，

10.一种用户终端，其特征在于，包括：

11.如权利要求10所述的用户终端，其特征在于，所述用户终端还包括：

12.如权利要求10或11所述的用户终端，其特征在于，所述用户终端还包括：

13.如权利要求12所述的用户终端，其特征在于，所述用户终端还包括：

14.如权利要求12所述的用户终端，其特征在于，所述第一设置模块包括：

15.如权利要求14所述的用户终端，其特征在于，所述第五计算单元用于通过如下公式计算各频点的第二增益：

且，G(f,m)＝max{G_min1,G(f,m)}

其中，

16.如权利要求14所述的用户终端，其特征在于，所述用户终端还包括：

平滑处理模块，用于对各频点的第二增益进行平滑处理；

17.如权利要求14所述的用户终端，其特征在于，所述用户终端还包括：

18.如权利要求12所述的用户终端，其特征在于，所述第一设置模块用于若根据所述第一当前音频信号帧与增益调整后的所述第二当前音频信号帧的能量确定所述第一当前音频信号帧为噪声帧，则使用如下公式获取各频点的第二增益：

G(f,m)＝αG(f,m-1)+(1-α)G_min2

或者，