CN105118522B

CN105118522B - 噪声检测方法及装置

Info

Publication number: CN105118522B
Application number: CN201510536867.3A
Authority: CN
Inventors: 侯震
Original assignee: Guangzhou Baiguoyuan Network Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2021-02-12
Anticipated expiration: 2035-08-27
Also published as: CN105118522A

Abstract

本发明公开了一种噪声检测方法及装置，属于网络通话领域。该方法包括：通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种，在检测到当前语音帧包含有短时冲击噪声时，记录与当前语音帧对应的噪声检测结果。本发明解决了由于时域能量分析对短时冲击噪声的分析能力较差，单独利用时域能量分析方法对短时冲击噪声进行分析的误检率很高的问题；达到了提高噪声检测结果的准确性的效果。

Description

噪声检测方法及装置

技术领域

本发明涉及网络通话领域，特别涉及一种噪声检测方法及装置。

背景技术

网络电话越来越受到用户青睐。

在使用网络电话进行通话的过程中，由键盘声、敲击声等环境因素产生的短时冲击噪声会对通话质量造成干扰。在现有技术中，通过对当前语音帧进行时域能量分析，判断该当前语音帧是否包含有短时冲击噪声；若包含有短时冲击噪声，则对该当前语音帧中的短时冲击噪声进行噪声抑制。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：由于时域能量分析对长时平稳噪声有较好的分析能力，对短时冲击噪声的分析能力较差，所以上述方法的误检率很高。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种噪声检测方法及装置，所述技术方案如下：

第一方面，提供了一种噪声检测方法，所述方法包括：

通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，所述至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种；

若所述至少两种检测方式的检测结果均为所述当前语音帧包含有所述短时冲击噪声，则确定所述当前语音帧包含有所述短时冲击噪声。

在一种可能的实施方式中，所述通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，所述至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种，包括：

通过所述时域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声；

若所述当前语音帧包含有所述短时冲击噪声，则通过所述频域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声；

若所述当前语音帧包含有所述短时冲击噪声，则通过所述模式识别检测方式检测所述当前语音帧是否包含有所述短时冲击噪声。

在一种可能的实施方式中，所述通过所述时域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声，包括：

获取所述当前语音帧的时域包络；检测所述时域包络是否在预定时长内存在上升沿突变波形和下降沿突变波形，且所述上升沿突变波形的上升幅度和所述下降沿突变波形的下降幅度均大于预设幅度；

或，

获取所述当前语音帧、所述当前语音帧的前一语音帧和所述当前语音帧的后一语音帧各自的时域能量；检测所述当前语音帧与所述前一语音帧之间的能量变化值和所述当前语音帧与所述后一语音帧之间的能量变化值是否均达到第一阈值；若两个所述能量变化值均达到所述第一阈值，则检测两个所述能量变化值之和是否达到第二阈值，所述第二阈值＞所述第一阈值*2。

在一种可能的实施方式中，所述通过所述频域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声，包括：

获取所述当前语音帧和相邻语音帧的频谱能量，所述频谱能量包括若干个频点所对应的能量，所述相邻语音帧包括所述当前语音帧的前一语音帧和/或所述当前语音帧的后一语音帧；

检测所述当前语音帧中预定频点的能量总和占所有频点的能量总和的比例是否达到第一百分比，所述预定频点是频率高于预定赫兹的频点；

若达到所述第一百分比，则检测所述当前语音帧中所述预定频点相对于所述相邻语音帧中的对应频点发生了能量变化的频点数量占所有频点数量的比例是否达到第二百分比。

在一种可能的实施方式中，所述通过所述模式识别检测方式检测所述当前语音帧是否包含有所述短时冲击噪声，包括：

获取所述当前语音帧和所述当前语音帧的关联语音帧，所述关联语音帧包括所述当前语音帧的前n个语音帧和后n个语音帧；

从所述当前语音帧和所述当前语音帧的关联语音帧提取音频特征，所述音频特征是梅尔频率倒谱系数MFCC特征、感知线性预测参数PLP特征、线性预测编码LPC特征和滤波器组Filter Bank特征中的至少一种的结合；

将所述音频特征输入预设模型，得到所述当前语音帧对应的音频类型，所述音频类型是包含有短时冲击噪声的语音帧、静音语音帧和包含人声信号的语音帧中的任意一种；

其中，所述预设模型是预先通过包含有短时冲击噪声的样本语音帧、静音样本语音帧和语音样本语音帧训练得到混合高斯模型或神经网络模型。

在一种可能的实施方式中，所述记录与所述当前语音帧对应的噪声检测结果之后，还包括：

对所述当前语音帧中的所述短时冲击噪声进行噪声抑制。

在一种可能的实施方式中，所述对所述当前语音帧中的所述短时冲击噪声进行噪声抑制，包括：

计算所述当前语音帧的前一语音帧和后一语音帧的时域能量的第一平均值；将所述当前语音帧的时域能量降低为所述第一平均值的预定比例；

或，

对于所述当前语音帧的频谱能量中的每一频点，若所述频点与所述前一语音帧中的对应频点或所述后一语音帧中的对应频点之间的能量变化达到第三阈值，则计算所述前一语音帧中的对应频点和所述后一语音帧中的对应频点的频谱能量的第二平均值；将所述频点的能量抑制到所述第二平均值的预定比例。

第二方面，提供了一种噪声检测装置，所述装置包括：

噪声检测模块，用于通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，所述至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种；

噪声确定模块，用于在所述至少两种检测方式的检测结果均为所述当前语音帧包含有所述短时冲击噪声时，确定所述当前语音帧包含有所述短时冲击噪声。

在一种可能的实施方式中，所述噪声检测模块包括：

时域检测单元，用于通过所述时域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声；

频域检测单元，用于在所述当前语音帧包含有所述短时冲击噪声时，通过所述频域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声；

模式识别单元，用于在所述当前语音帧包含有所述短时冲击噪声时，通过所述模式识别检测方式检测所述当前语音帧是否包含有所述短时冲击噪声。

在一种可能的实施方式中，

所述时域检测单元，用于获取所述当前语音帧的时域包络；检测所述时域包络是否在预定时长内存在上升沿突变波形和下降沿突变波形，且所述上升沿突变波形的上升幅度和所述下降沿突变波形的下降幅度均大于预设幅度；

或，

所述时域检测单元，用于获取所述当前语音帧、所述当前语音帧的前一语音帧和所述当前语音帧的后一语音帧各自的时域能量；检测所述当前语音帧与所述前一语音帧之间的能量变化值和所述当前语音帧与所述后一语音帧之间的能量变化值是否均达到第一阈值；若两个所述能量变化值均达到所述第一阈值，则检测两个所述能量变化值之和是否达到第二阈值，所述第二阈值＞所述第一阈值*2。

在一种可能的实施方式中，所述频域检测单元包括：

频谱获取子单元，用于获取所述当前语音帧和相邻语音帧的频谱能量，所述频谱能量包括若干个频点所对应的能量，所述相邻语音帧包括所述当前语音帧的前一语音帧和/或所述当前语音帧的后一语音帧；

能量检测子单元，用于检测所述当前语音帧中预定频点的能量总和占所有频点的能量总和的比例是否达到第一百分比，所述预定频点是频率高于预定赫兹的频点；

频段检测子单元，用于在所述当前语音帧中预定频点的能量总和占所有频点的能量总和的比例达到所述第一百分比时，检测所述当前语音帧中所述预定频点相对于所述相邻语音帧中的对应频点发生了能量变化的频点数量占所有频点数量的比例是否达到第二百分比。

在一种可能的实施方式中，所述模式识别单元包括：

语音帧获取子单元，用于获取所述当前语音帧和所述当前语音帧的关联语音帧，所述关联语音帧包括所述当前语音帧的前n个语音帧和后n个语音帧；

特征提取子单元，用于从所述当前语音帧和所述当前语音帧的关联语音帧提取音频特征，所述音频特征是梅尔频率倒谱系数MFCC特征、感知线性预测参数PLP特征、线性预测编码LPC特征和滤波器组Filter Bank特征中的至少一种的结合；

类型获取子单元，用于将所述音频特征输入预设模型，得到所述当前语音帧对应的音频类型，所述音频类型是包含有短时冲击噪声的语音帧、静音语音帧和包含人声信号的语音帧中的任意一种；

在一种可能的实施方式中，所述装置还包括：

噪声抑制模块，用于对所述当前语音帧中的所述短时冲击噪声进行噪声抑制。

在一种可能的实施方式中，

所述噪声抑制模块，用于计算所述当前语音帧的前一语音帧和后一语音帧的时域能量的第一平均值；将所述当前语音帧的时域能量降低为所述第一平均值的预定比例；

或，

所述噪声抑制模块，用于对于所述当前语音帧的频谱能量中的每一频点，若所述频点与所述前一语音帧中的对应频点或所述后一语音帧中的对应频点之间的能量变化达到第三阈值，则计算所述前一语音帧中的对应频点和所述后一语音帧中的对应频点的频谱能量的第二平均值；将所述频点的能量抑制到所述第二平均值的预定比例。

本发明实施例提供的技术方案带来的有益效果是：

通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种，在检测到当前语音帧包含有短时冲击噪声时，记录与当前语音帧对应的噪声检测结果；解决了由于时域能量分析对短时冲击噪声的分析能力较差，单独利用时域能量分析方法对短时冲击噪声进行分析的误检率很高的问题；达到了提高噪声检测结果的准确性的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的噪声检测方法的流程图；

图2是本发明另一个实施例提供的噪声检测方法的流程图；

图3是本发明另一个实施例提供的噪声检测方法中步骤202的流程图；

图4是本发明另一个实施例提供的噪声检测方法中步骤202的另一流程图；

图5是本发明另一个实施例提供的噪声检测方法中步骤203的流程图；

图6是本发明另一个实施例提供的噪声检测方法中步骤205的流程图；

图7是本发明另一个实施例提供的噪声检测方法中步骤207的流程图；

图8是本发明另一个实施例提供的噪声检测方法中步骤207的流程图；

图9是本发明一个实施例提供的噪声检测装置的结构方框图；

图10是本发明另一个实施例提供的噪声检测装置的结构方框图；

图11是本发明另一个实施例提供的噪声检测装置中噪声检测模块410的结构方框图；

图12是本发明另一个实施例提供的噪声检测模块中频域检测模块4104的结构方框图；

图13是本发明另一个实施例提供的噪声检测模块中模式识别模块4106的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参见图1，本发明的一个实施例提供了一种噪声检测方法的方法流程图，本实施例以该噪声抑制方法应用于手机、平板电脑、膝上便携式计算机或者台式计算机之类的电子设备中进行举例说明。该噪声检测方法包括：

步骤110，通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种。

由于仅仅使用时域检测方式对短时冲击噪声进行分析的误检率和漏检率都很高，无法有效对短时冲击噪声进行噪声抑制，所以本实施例中提出几种其它的检测方式，并且同时采用至少两种检测方式对当前语音帧进行检测，只有当所有检测方式检测的结果都为当前语音帧包含有短时冲击噪声，才判定为当前语音帧包含有短时冲击噪声。

通过此方法能够有效地提高噪声检测的准确性。

步骤120，若至少两种检测方式的检测结果均为当前语音帧包含有短时冲击噪声，则确定当前语音帧包含有短时冲击噪声。

综上所述，本发明实施例中提供的噪声检测方法，通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种，在检测到当前语音帧包含有短时冲击噪声时，记录与当前语音帧对应的噪声检测结果。解决了由于时域能量分析对短时冲击噪声的分析能力较差，单独利用时域能量分析方法对短时冲击噪声进行分析的误检率很高的问题；达到了提高噪声检测结果的准确性的效果。

上述三种检测方式可以两两组合实施，也可以三种组合实施。通常，时域检测方式的计算量小于频域检测方式的计算量，频域检测方式的计算量小于模式识别检测方式的计算量。所以，在组合过程中，每种检测方式被使用时的优先级可以是：时域检测方式＞频域检测方式＞模式识别检测方式。

下面实施例，以三种检测方式组合实施例来举例说明。

请参见图2，本发明另一个实施例提供了一种噪声检测方法的方法流程图，本实施例以该噪声抑制方法应用于手机、平板电脑、膝上便携式计算机或者台式计算机之类的电子设备中进行举例说明。该噪声检测方法包括：

步骤201，获取语音帧序列，语音帧序列包括若干语音帧。

电子设备通过麦克风采集模拟形式的语音信号，将模拟形式的语音信号通过模数转换转换成为数字形式的语音信号，将该数字形式的语音信号生成为一帧帧语音帧，也即语音帧序列。

每个语音帧还可以携带有自身的时间戳。该时间戳可以代表语音帧的生成时间。语音帧序列中的语音帧按照时间顺序由前至后排列。

可选地，电子设备还可以读取已有的音频文件，从已有的音频文件中获取语音帧序列。

步骤202，通过时域检测方式检测当前语音帧是否包含有短时冲击噪声；

电子设备按照时间顺序对语音帧序列中的语音帧进行逐帧处理。对于语音帧序列中的当前语音帧，电子设备首先通过时域检测方式检测当前语音帧是否包含有短时冲击噪声。

时域检测方式是采用当前语音帧的时域特征进行检测的检测方式。

若检测结果为包含有短时冲击噪声，则进入步骤203，也即下一层检测逻辑。

若检测结果为不包含有短时冲击噪声，则进入步骤204，中断检测过程。

步骤203，通过频域检测方式检测当前语音帧是否包含有短时冲击噪声；

频域检测方式是采用当前语音帧的频域特征进行检测的检测方式。

若检测结果为包含有短时冲击噪声，则进入步骤205，也即下一层检测逻辑。

步骤204，确定当前语音帧不包含短时冲击噪声。

步骤205，通过模式识别方式检测当前语音帧是否包含有短时冲击噪声；

模式识别检测方式是采用预先训练得到的识别模型对当前语音帧进行检测的检测方式。

若检测结果为包含有短时冲击噪声，则进入步骤206。

步骤206，确定当前语音帧包含短时冲击噪声。

也即，只有三种检测方式的检测结果均为当前语音帧包含短时冲击噪声时，才最终确定当前语音帧包含短时冲击噪声。

步骤207，对当前语音帧中的短时冲击噪声进行噪声抑制。

作为步骤202的一种可能的实现方式，步骤202可被替代的实现成为如下步骤202a和步骤202b，如图3所示：

步骤202a，获取当前语音帧的时域包络。

时域包络即表示当前语音帧所携带的语音信号的振幅随着时间变化的曲线。

该时域包络可以根据当前语音帧及当前语音帧的相邻语音帧生成，相邻语音帧是当前语音帧的前一帧语音帧和/或后一帧语音帧。

步骤202b，检测时域包络是否在预定时长内存在上升沿突变波形和下降沿突变波形，且所述上升沿突变波形的上升幅度和所述下降沿突变波形的下降幅度均大于预设幅度。

预定时长是根据短时冲击噪声的持续时长所设定的经验值。

时域包络在预定时长内存在两个突变波形，意味着当前语音帧所携带的语音信号的振幅存在突变。通常，两个突变波形包括：一个上升突变波形和一个下降突变波形。

在预设时长内当突变幅度大于预设幅度时，表明振幅变化较大，属于短时冲击噪声的波形类型，此时的检测结果为在当前语音帧检测到了短时冲击噪声，进入步骤203。

在预定时长内不存在两个突变波形，或者，存在两个突变波形但突变幅度小于预设幅度时，进入步骤204。

作为步骤202的另一种可能的实现方式，步骤202可被替代的实现成为如下步骤2021至步骤2023，如图4所示：

步骤2021，获取当前语音帧、当前语音帧的前一语音帧和当前语音帧的后一语音帧各自的时域能量；

步骤2022，检测当前语音帧与前一语音帧之间的能量变化值和当前语音帧与后一语音帧之间的能量变化值是否均达到第一阈值；

步骤2023，若两个能量变化值均达到第一阈值，则检测两个能量变化值之和是否达到第二阈值，第二阈值＞第一阈值*2。

语音帧的时域能量随着其振幅的增大而变大。

比如，设当前语音帧的时域能量为E_i、前一语音帧的时域能量为E_i-1和后一语音帧的时域能量为E_i+1。以第一阈值为15dB，第二阈值为40dB为例：

则如果E_i和E_i-1之间的能量变化值达到15dB，E_i和E_i+1之间的能量变化值也达到15dB，两个能量变化值之和达到40dB，则检测结果为当前语音帧中包含短时冲击噪声。

若两个能量变化值均达到第一阈值，且两个能量变化值之和达到第二阈值，则进入步骤203；

若存在一个能量变化值未达到第一阈值，或，两个能量能量值之和未达到第二阈值，则进入步骤204。

作为步骤203的一种可能的实现方式，步骤203可被替代的实现成为如下步骤203a至203c，如图5所示。

步骤203a，获取当前语音帧和相邻语音帧的频谱能量，该频谱能量包括若干个频点所对应的能量，相邻语音帧包括当前语音帧的前一语音帧和/或当前语音帧的后一语音帧。

电子设备获取当前语音帧、前一语音帧和后一语音帧的频谱能量。

每个语音帧的频域能量为对语音帧的时域能量进行傅里叶变换得到。频谱能量包括各个频点对应的能量。

步骤203b，检测当前语音帧中预定频点的能量总和占所有频点的能量总和的比例是否达到第一百分比，该预定频点是频率高于预定赫兹的频点。

以预定赫兹为2KHz，第一百分比为65％进行举例说明。

检测当前语音帧中频率高于2KHz的频点的能量总和占所有频点的能量总和的比例是否达到65％。

在当前语音帧中预定频点的能量总和占所有频点的能量总和的比例达到第一百分比时，进入步骤2104C。在没有达到第一百分比时，进入步骤步骤2104D。

步骤203c，在当前语音帧中预定频点的能量总和占所有频点的能量总和的比例达到第一百分比时，检测当前语音帧中预定频点相对于相邻语音帧中的对应频点发生了能量变化的频点数量占所有频点数量的比例是否达到第二百分比。

以第二百分比为80％进行举例说明。

如果当前语音帧中频率高于2KHz的频点的能量总和占所有频率点的能量总和的比例达到65％，则继续检测当前语音帧中频率高于2KHz的频点相对于前一语音帧或后一语音帧的对应频点发生了能量变化的频点数量占所有频点数量的比例是否达到80％。

也即，假设频率高于2KHz的频点有n个，对于每个频点，若当前语音帧的频点A相对于前一语音帧或后一语音帧中相同频率的频点A^’发生了能量变化，则计数加1。若n个频点中发生了能量变化的频点数量为m，且m/n得到了80％，则检测结果为当前语音帧存在短时冲击噪声，进入步骤205；否则，进入步骤204。

作为步骤205的一种可能的实现方式，步骤205可被替代的实现成为如下步骤205a至205c，如图6所示。

步骤205a，获取当前语音帧和当前语音帧的关联语音帧。

其中关联语音帧包括当前语音帧的前n个语音帧和后n个语音帧。

通常n取2-4，以n为2来举例说明，设当前语音帧为第i语音帧，则获取第i-2语音帧、第i-1语音帧、第i语音帧、第i+1语音帧、第i+2语音帧。

步骤205b，从当前语音帧和当前语音帧的关联语音帧提取音频特征。

其中音频特征是MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征、PLP(Perceptual Linear Predictive,感知线性预测系数)特征、LPC(LinearPredictive Coding，线性预测编码)特征和Filter Bank(滤波器组)特征中的至少一种的结合。

步骤205c，将音频特征输入预设模型，得到当前语音帧对应的音频类型。其中音频类型是包含有短时冲击噪声的语音帧、静音语音帧和包含人声信号的语音帧中的任意一种。

其中，预设模型是预先通过包含有短时冲击噪声的样本语音帧、静音样本语音帧和语音样本语音帧训练得到混合高斯模型或神经网络模型。

当预设模型为混合高斯模型时，混合高斯模型为三个，分别为对应短时冲击噪声的第一混合高斯模型、对应静音语音帧的第二混合高斯模型和对应普通包含人声信号的语音帧的第三混合高斯模型。将音频特征分别输入三个混合高斯模型后，每个混合高斯模型会输出一个概率值，其中概率值最大的一个混合高斯模型的音频类型即为当前语音帧的音频类型。

当预设模型为神经网络模型时，神经网络模型为一个，将音频特征输入神经网络模型后，神经网络模型的不同输出节点会输出三个概率值，其中概率值最大的一个输出节点的音频类型即为当前语音帧的音频类型。

在当前语音帧包含有短时冲击噪声时，进入步骤206。在当前语音帧没有包含有短时冲击噪声时，进入步骤204。

作为步骤207的一种可能的实现方式，步骤207可被替代的实现成为如下步骤207a至207b，如图7所示。

步骤207a，计算当前语音帧的前一语音帧和后一语音帧的时域能量的第一平均值。

步骤207b，将当前语音帧的时域能量降低为第一平均值的预定比例。

以预定比例为50％进行举例说明，计算前一语音帧和后一语音帧的时域能量的第一平均值，对当前语音帧的时域能量降低至第一平均值的50％。

作为步骤207的另一种可能的实现方式，步骤207可被替代的实现成为如下步骤2071至207b，如图8所示。

步骤2071，对于当前语音帧的频谱能量中的每一频点，若该频点与前一语音帧中的对应频点或后一语音帧中的对应频点之间的能量变化达到第三阈值，则计算前一语音帧中的对应频点和后一语音帧中的对应频点的频谱能量的第二平均值；

对应频点为与该频点具有相同频率的频点。

步骤2072，将该频点的能量抑制到第二平均值的预定比例。

以第三阈值为10dB，预定比例为1/1000(即-3dB)进行举例说明。

将当前语音帧中的每一个频点对应的能量与前一语音帧或后一语音帧中对应频点对应的能量进行比较，若该频点的能量变化达到10dB以上，则计算出前一语音帧和后一语音帧中对应的频点的能量的第二平均值，将当前语音帧中的该频点的能量抑制到第二平均值的-3dB。

上述预定比例的取值范围为(0,1)。

综上所述，本发明实施例通过提供两种时域检测方式、一种频域检测方式、两种模式识别检测方式，电子设备可以自由组合两种或三种不同类型的检测方式对当前语音帧中的短时冲击噪声进行准确检测，然后使用两种噪声抑制方式中的任意一种对短时冲击噪声进行抑制，能够准确消除短时冲击噪声对语音帧的影响。本发明实施例提供的噪声检测方法和噪声抑制方法可以应用于网络电话中。

请参见图9，本发明的一个实施例提供了一种噪声检测装置的结构方框图，本实施例以该噪声抑制装置应用于手机、平板电脑、膝上便携式计算机或者台式计算机之类的电子设备中进行举例说明。该噪声检测装置包括：

噪声检测模块30，用于通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种。

噪声确定模块320，用于在当前语音帧包含有短时冲击噪声时，记录与当前语音帧对应的噪声检测结果。

综上所述，本发明实施例中提供的噪声检测装置，通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种，在检测到当前语音帧包含有短时冲击噪声时，记录与当前语音帧对应的噪声检测结果。解决了由于时域能量分析对短时冲击噪声的分析能力较差，单独利用时域能量分析方法对短时冲击噪声进行分析的误检和漏检率都很高，无法有效对短时冲击噪声进行噪声抑制的问题。达到了提高噪声检测结果的准确性，能够有效地对短时冲击噪声进行噪声抑制，提升通话质量的技术效果。

请参见图10，本发明的另一个实施例提供了一种噪声检测装置的结构方框图，本实施例以该噪声抑制装置应用于手机、平板电脑、膝上便携式计算机或者台式计算机之类的电子设备中进行举例说明。该噪声检测装置包括：

噪声检测模块410、噪声确定模块420以及噪声抑制模块430。

噪声检测模块410，用于通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种。

请参见图11，噪声检测模块410包括：

时域检测单元4102、频域检测单元4104以及模式识别单元4106。

时域检测单元4102，用于通过时域检测方式检测当前语音帧是否包含有短时冲击噪声。

时域描述的是，信号的幅度、相位角与时间的关系。

该时域检测单元，

用于获取当前语音帧的时域包络。检测时域包络是否在预定时长内存在上升沿突变波形和下降沿突变波形，且所述上升沿突变波形的上升幅度和所述下降沿突变波形的下降幅度均大于预设幅度。

或，

用于获取当前语音帧、当前语音帧的前一语音帧和当前语音帧的后一语音帧各自的时域能量。检测当前语音帧与前一语音帧之间的能量变化值和当前语音帧与后一语音帧之间的能量变化值是否均达到第一阈值。若两个能量变化值均达到第一阈值，则检测两个能量变化值之和是否达到第二阈值，第二阈值＞第一阈值*2。

频域检测单元4104，用于在当前语音帧包含有短时冲击噪声时，通过频域检测方式检测当前语音帧是否包含有短时冲击噪声。

频域描述的是，信号的幅度、相位角与频率的关系。

请参见图12，频域检测单元4104包括：

频谱获取子单元4104A、能量检测子单元4104B及频段检测子单元4104C。

频谱获取子单元4104A，用于获取当前语音帧和相邻语音帧的频谱能量，频谱能量包括若干个频点所对应的能量，相邻语音帧包括当前语音帧的前一语音帧和/或当前语音帧的后一语音帧。

能量检测子单元4104B，用于检测当前语音帧中预定频点的能量总和占所有频点的能量总和的比例是否达到第一百分比，预定频点是频率高于预定赫兹的频点。

频段检测子单元4104C，用于在当前语音帧中预定频点的能量总和占所有频点的能量总和的比例达到第一百分比时，检测当前语音帧中预定频点相对于相邻语音帧中的对应频点发生了能量变化的频点数量占所有频点数量的比例是否达到第二百分比。

模式识别单元4106，用于在当前语音帧包含有短时冲击噪声时，通过模式识别检测方式检测当前语音帧是否包含有短时冲击噪声。

请参见图13，模式识别单元4106包括：

语音帧获取子单元4106A、特征提取子单元4106B及类型获取子单元4106C。

语音帧获取子单元4106A，用于获取当前语音帧和当前语音帧的关联语音帧，关联语音帧包括当前语音帧的前n个语音帧和后n个语音帧。

特征提取子单元4106B，用于根据当前语音帧和当前语音帧的关联语音帧提取音频特征，其中音频特征是MFCC特征、PLP特征、LPC特征和Filter Bank特征中的至少一种的结合。

类型获取子单元4106C，用于将音频特征输入预设模型，得到当前语音帧对应的音频类型，音频类型是包含有短时冲击噪声的语音帧、静音语音帧和包含人声信号的语音帧中的任意一种。

噪声确定模块420，用于在当前语音帧包含有短时冲击噪声时，记录与当前语音帧对应的噪声检测结果。

噪声抑制模块430，用于对当前语音帧中的短时冲击噪声进行噪声抑制。

噪声抑制模块

用于计算当前语音帧的前一语音帧和后一语音帧的时域能量的第一平均值。将当前语音帧的时域能量降低为第一平均值*n％，n％是预设的第三百分比。

或，

对于当前语音帧的频谱能量中的每一频点，若频点与前一语音帧中的对应频点或后一语音帧中的对应频点之间的能量变化达到第三阈值，则计算前一语音帧中的对应频点和后一语音帧中的对应频点的频谱能量的第二平均值。将频点的能量抑制到第二平均值的预定比例。

需要说明的是：上述实施例提供的噪声检测的装置在噪声检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的噪声检测的装置与噪声检测的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种噪声检测方法，其特征在于，所述方法包括：

若所述至少两种检测方式的检测结果均为所述当前语音帧包含有所述短时冲击噪声，则确定所述当前语音帧包含有所述短时冲击噪声；

对所述当前语音帧中的所述短时冲击噪声进行噪声抑制；

所述对所述当前语音帧中的所述短时冲击噪声进行噪声抑制，包括：

或，

2.根据权利要求1所述的方法，其特征在于，所述通过至少两种检测方式检测当前语音帧是否包含有短时冲击噪声，所述至少两种检测方式是时域检测方式、频域检测方式和模式识别检测方式中的至少两种，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过所述时域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声，包括：

或，

4.根据权利要求2所述的方法，其特征在于，所述通过所述频域检测方式检测所述当前语音帧是否包含有所述短时冲击噪声，包括：

5.根据权利要求2所述的方法，其特征在于，所述通过所述模式识别检测方式检测所述当前语音帧是否包含有所述短时冲击噪声，包括：

6.一种噪声检测装置，其特征在于，所述装置包括：

噪声确定模块，用于在所述至少两种检测方式的检测结果均为所述当前语音帧包含有所述短时冲击噪声时，确定所述当前语音帧包含有所述短时冲击噪声；

噪声抑制模块，用于对所述当前语音帧中的所述短时冲击噪声进行噪声抑制；

所述噪声抑制模块，还用于计算所述当前语音帧的前一语音帧和后一语音帧的时域能量的第一平均值；将所述当前语音帧的时域能量降低为所述第一平均值的预定比例；

或，

所述噪声抑制模块用于对于所述当前语音帧的频谱能量中的每一频点，若所述频点与所述前一语音帧中的对应频点或所述后一语音帧中的对应频点之间的能量变化达到第三阈值，则计算所述前一语音帧中的对应频点和所述后一语音帧中的对应频点的频谱能量的第二平均值；将所述频点的能量抑制到所述第二平均值的预定比例。

7.根据权利要求6所述的装置，其特征在于，所述噪声检测模块包括：

8.根据权利要求7所述的装置，其特征在于，

所述时域检测单元，用于获取所述当前语音帧的时域包络；检测所述时域包络是否在预定时长内存在一个上升沿和一个下降沿且所述上升沿的上升幅度和下降沿的下降幅度均大于预设幅度；

或，

9.根据权利要求7所述的装置，其特征在于，所述频域检测单元包括：

10.根据权利要求7所述的装置，其特征在于，所述模式识别单元包括：