CN112669877A

CN112669877A - 噪声检测及压制方法、装置、终端设备和系统、芯片

Info

Publication number: CN112669877A
Application number: CN202010938414.4A
Authority: CN
Inventors: 方桂萍; 肖全之
Original assignee: Zhuhai Jieli Technology Co Ltd
Current assignee: Zhuhai Jieli Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2021-04-16
Anticipated expiration: 2040-09-09
Also published as: CN112669877B

Abstract

本发明公开了一种噪声检测及压制方法、装置、终端设备和系统、芯片，噪声检测方法包括：步骤S100，将在时域上连续获取的若干帧原始音频信号转换为频域上的若干帧第一频域信号，原始音频信号包含噪声信号和语音信号；步骤S200，对若干帧第一频域信号分别进行子带划分得到子带能量谱；步骤S300，基于局部最小值的噪声估算法求取得到第一噪声；步骤S400，基于VAD的噪声估算法得到第二噪声；步骤S500，对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。一方面能够检测到平稳的噪声，另一方面又能抵抗噪声的变化，识别到变化的噪声。继而，提高噪声识别的准确性。

Description

噪声检测及压制方法、装置、终端设备和系统、芯片

技术领域

本发明涉及音频数据处理技术领域，具体涉及一种噪声检测及压制方法、装置、终端设备和系统、芯片。

背景技术

随着音频设备的普及，应用于直播、K歌、会议室等诸多环境，但麦克风不能主动识别并区分语音和噪声，通常，麦克风会同时采集到语音和外界噪声。如果未通过抑制处理或降噪处理，噪声通过扬声器放大，对语音的音频内容造成干扰，给用户带来了较差的体验。为了保证采集的语音尽量清晰就需要降噪，降噪的前提就需要检测噪声信号，从而保证降噪的同时不能损伤语音信号。

传统的方案中，设置能量阈值，通过计算能量、采用阈值的办法判断是否是语音。对于这种方案，需要根据适用场景不同来设置不同的阈值，定义的标准不同，只适用于噪声比较单一的环境，当环境比较嘈杂的时，整个信号的能量都会持续比较大。此时能量阈值的方法基本失效。

现有技术中，也存在采用局部最小值的噪声估算方法(以下简称最小值估算法)、基于语音活动检测(Voice Activity Detection,VAD)的噪声估计算法(以下简称基于VAD估算法)来实现噪声的检测。总体而言，最小值估算法能够比较好地区分平稳的噪声信号和语音信号；基于VAD估算法能够快速估算噪声。

经申请人研究发现，当噪声发生幅值变化时，最小值估算法则可能将该发生变化的噪声误认为是语音，也就是，最小值估算法无法抵抗幅度变化，容易出现漏检噪声的情况；而，基于VAD估算法，由于噪声估算的更新速度过快，容易导致误检噪声，也就是，将语音错误地估计为噪声，由此导致对语音等有用信号带来了损害。

因此，如何提高噪声识别的准确性成为亟待解决的第一技术问题。

此外，如何快速地对噪声进行压制，提升输出音频的音质成为亟待解决的第二技术问题。

发明内容

基于上述现状，本发明的主要目的在于提供一种噪声检测及压制方法、装置、终端设备和系统、芯片，以提高噪声识别的准确性。

为实现上述目的，本发明采用的技术方案如下：

第一方面，本发明实施例公开了一种噪声检测方法，包括：

步骤S100，将在时域上连续获取的若干帧原始音频信号转换为频域上的若干帧第一频域信号，原始音频信号包含噪声信号和语音信号；步骤S200，对若干帧第一频域信号分别进行子带划分得到子带能量谱；步骤S300，基于局部最小值的噪声估算法求取得到第一噪声；步骤S400，基于VAD的噪声估算法得到第二噪声；步骤S500，对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

可选地，步骤S300包括：确定当前子带能量和前次第一噪声中较小的信号；对较小的信号和当前子带能量进行加权得到当前第一噪声。

可选地，步骤S400包括：步骤S400-1，计算长时子带能量；步骤S400-2，基于长时子带能量和当前子带能量计算当前的语音概率，当前的语音概率表示当前信号属于语音信号的概率；

步骤S400-3，通过长时子带能量和语音概率得到当前第二噪声；在步骤S500中，基于语音概率对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

可选地，步骤S400-2包括：采用如下公式计算长时子带能量和当前子带能量的相关程度：cr＝sum(x2.*y2)/(sqrt(sum(x2.*x2)*sum(y2.*y2)))，其中，cr为相关程度，x2为长时子带能量的去均值，y2当前子带能量的去均值；sum()为求和，sqrt()为平方根计算；采用如下公式计算当前的语音概率：s_p＝1-cr*kr，其中，s_p为当前的语音概率，kr为常系数。

可选地，在计算相关程度和计算语音概率之间，还包括：判断相关程度是否小于第一阈值；如果相关程度小于第一阈值，则将第一阈值赋值于相关程度；判断相关程度是否大于第二阈值，第一阈值小于第二阈值；如果相关程度大于第二阈值，则将第二阈值赋值于相关程度。

可选地，在步骤S400-3中，采用如下公式计算得到当前第二噪声：es_n(i)＝((es_n(i-1)*s_p)+X_mean*(1-s_p))*k1+es_n(i-1)*(1-k1)，其中，es_n(i)为当前第二噪声，es_n(i-1)为前次第二噪声，X_mean为当前的长时子带能量，k1为常系数。

可选地，在步骤S500中，采用如下公式计算得到当前频域上的噪声信号：n_f(i)＝(B_n(i)*(1-k3(i))+es_n(i)*k3(i))*k2+(1-k2)*n_f(i-1)；其中，n_f(i)为当前频域上的噪声信号；n_f(i-1)为前次频域上的噪声信号；k2为0-1之间的常系数，k3(i)为与当前语音概率s_p(i)相关的系数。

可选地，在步骤S200之后，还包括：对当前子带能量进行归一化处理得到归一化后的当前子带能量；在步骤S300和步骤S400中，采用归一化的当前子带能量得到当前第一噪声和当前第二噪声。

第二方面，本发明实施例公开了一种噪声压制方法，包括：

B100，获取当前频域上的噪声信号，当前频域上的噪声信号采用第一方面公开的噪声检测方法检测得到；B200，在频域上，对若干帧第一频域信号进行压制得到压制噪声后的频域信号；B300，将压制噪声后的频域信号转化为时域信号得到降噪后的时域音频信号。

可选地，步骤B200包括：步骤B200-1，基于当前频域上的噪声信号得到当前的压制系数数组；步骤B200-2，在频域上，采用压制系数数组中的系数与若干帧第一频域信号的频谱进行相乘得到若干帧第二频域信号的频谱，第二频域信号为压制后的频域信号；步骤B200-3，对第二频域信号进行滤波处理，得到压制噪声后的频域信号。

可选地，步骤B200-1包括：根据第一频域信号和当前频域上的噪声信号得到当前第一频域信号在当前频域噪声谱上的投影信号；依据投影信号得到当前的压制系数数组。

第三方面，本发明实施例公开了一种噪声检测装置，包括：

第一转换模块用于将在时域上连续获取的若干帧原始音频信号转换为频域上的若干帧第一频域信号，原始音频信号包含噪声信号和语音信号；子带划分模块，用于对若干帧第一频域信号分别进行子带划分得到子带能量谱；第一噪声求取模块，用于基于局部最小值的噪声估算法求取得到第一噪声；第二噪声估算模块，用于基于VAD的噪声估算法得到当前第二噪声；当前噪声组合模块，用于对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

可选地，第一噪声求取模块包括：较小信号确定单元，用于确定当前子带能量和前次第一噪声中较小的信号；加权单元，用于对较小的信号和当前子带能量进行加权得到当前第一噪声。

可选地，第二噪声估算模块包括：长时计算单元，用于计算长时子带能量；概率计算单元，用于基于长时子带能量和当前子带能量计算当前的语音概率，当前的语音概率表示当前信号属于语音信号的概率；第二噪声计算单元，用于通过长时子带能量和语音概率得到当前第二噪声；在当前噪声组合模块中，基于语音概率对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

可选地，概率计算单元包括：采用如下公式计算长时子带能量和当前子带能量的相关程度：cr＝sum(x2.*y2)/(sqrt(sum(x2.*x2)*sum(y2.*y2)))，其中，cr为相关程度，x2为长时子带能量的去均值，y2当前子带能量的去均值；sum()为求和，sqrt()为平方根计算；采用如下公式计算当前的语音概率：s_p＝1-cr*kr，其中，s_p为当前的语音概率，kr为常系数。

可选地，还包括：第一判断单元，用于判断相关程度是否小于第一阈值；第一赋值单元，用于如果第一判断单元判断相关程度小于第一阈值，则将第一阈值赋值于相关程度；第二判断单元，用于判断相关程度是否大于第二阈值，第一阈值小于第二阈值；第二赋值单元，用于如果第二判断单元判断相关程度大于第二阈值，则将第二阈值赋值于相关程度。

可选地，在第二噪声计算单元中，采用如下公式计算得到当前第二噪声：es_n(i)＝((es_n(i-1)*s_p)+X_mean*(1-s_p))*k1+es_n(i-1)*(1-k1)，其中，es_n(i)为当前第二噪声，es_n(i-1)为前次第二噪声，X_mean为当前的长时子带能量，k1为常系数。

可选地，在当前噪声组合模块(500)中，采用如下公式计算得到当前频域上的噪声信号：n_f(i)＝(B_n(i)*(1-k3(i))+es_n(i)*k3(i))*k2+(1-k2)*n_f(i-1)；其中，n_f(i)为当前频域上的噪声信号；n_f(i-1)为前次频域上的噪声信号；k3(i)为与当前语音概率s_p(i)相关的系数。

可选地，还包括：归一化模块，用于对当前子带能量进行归一化处理得到归一化后的当前子带能量；在第一噪声求取模块和第二噪声估算模块中，采用归一化的当前子带能量得到当前第一噪声和当前第二噪声。

第四方面，公开了一种噪声压制装置，包括：噪声信号获取模块，用于获取当前频域上的噪声信号，前频域上的噪声信号采用上述第三方面公开的噪声检测装置检测得到；噪声压制模块，用于在频域上，若干帧第一频域信号进行压制得到压制噪声后的频域信号；第二转换模块，用于将压制噪声后的频域信号转化为时域信号得到降噪后的时域音频信号。

可选地，噪声压制模块包括：压制系数得到单元，用于基于当前频域上的噪声信号得到当前的压制系数数组；信号压制单元，用于在频域上，采用压制系数数组中的系数与若干帧第一频域信号的频谱进行相乘得到若干帧第二频域信号的频谱，第二频域信号为压制后的频域信号；滤波单元，用于对第二频域信号进行滤波处理，得到压制噪声后的频域信号。

可选地，压制系数得到单元具体用于：根据第一频域信号和前频域上的噪声信号得到当前第一频域信号在当前频域噪声谱上的投影信号；依据投影信号得到当前的压制系数数组。

第五方面，公开了一种终端设备，终端设备具有音频数据采集功能，包括：

处理器，用于实现上述第一方面公开的方法；或者，用于实现上述第二方面公开的方法。

第六方面，公开了一种音频信号处理系统，包括：第一设备和第二设备；第一设备用于采集音频数据得到原始音频信号，并发送给第二设备；第二设备用于实现上述第一方面公开的方法；或者，用于实现上述第二方面公开的方法。

第七方面，公开了一种计算机可读存储介质，其上存储有计算机程序，存储介质中存储的计算机程序用于被执行实现上述第一方面公开的方法；或者，用于被执行实现上述第二方面公开的方法。

第八方面，公开了一种音频设备的芯片，其上具有集成电路，集成电路被设计成用于实现上述第一方面公开的方法；或者，用于实现上述第二方面公开的方法。

【有益效果】

依据本发明实施例公开的一种噪声检测及压制方法、装置、终端设备和系统、芯片，对若干帧第一频域信号分别进行子带划分得到子带能量谱，而后分别基于局部最小值的噪声估算法求取得到当前第一噪声，基于VAD的噪声估算法估算得到当前第二噪声，并对当前第一噪声和第二噪声进行加权组合得到当前频域上的噪声信号。从而，使得进行噪声检测的过程中，能够通过基于局部最小值求取平稳的噪声，并且，由于引入基于VAD的噪声估算法估算得到当前第二噪声，因此，可以基于VAD噪声估算法的长时相关、短时相关特性来抵抗噪声的变化，从而弥补了基于局部最小值的噪声估算法抵抗变化噪声的不足，也就是，通过对当前第一噪声和第二噪声进行加权组合得到当前频域上的噪声信号，一方面能够检测到平稳的噪声，另一方面又能抵抗噪声的变化，识别到变化的噪声。继而，提高噪声识别的准确性。

本发明的其他有益效果，将在具体实施方式中通过具体技术特征和技术方案的介绍来阐述，本领域技术人员通过这些技术特征和技术方案的介绍，应能理解所述技术特征和技术方案带来的有益技术效果。

附图说明

以下将参照附图对根据本发明实施例进行描述。图中：

图1为本实施例公开的一种噪声检测方法流程图；

图2A、2B和2C为本实施例公开的一种子带划分过程示意图，其中，图2A为时域中原始音频信号示意图，图2B为图2A转换为频域信号后的示意图，图2C为子带划分后的能量谱示意图；

图3为本实施例公开的一种子带划分示意图；

图4为本实施例公开的一种估算得到当前第二噪声的流程图；

图5为本实施例公开的一种噪声压制方法流程图；

图6为本实施例公开的一种压制噪声方法流程图；

图7为本实施例公开的一种噪声检测装置结构示意图；

图8为本实施例公开的一种噪声压制装置结构示意图。

具体实施方式

为了提高噪声识别的准确性，本实施例公开了一种噪声检测方法，请参考图1，为本实施例公开的一种噪声检测方法流程图，该噪声检测方法包括：

步骤S100，将在时域上连续获取的若干帧原始音频信号转换为频域上的若干帧第一频域信号。本实施例中，所称原始音频信号包含噪声信号和语音信号，具体地，若干帧原始音频信号帧中，可以存在一些帧是纯粹的语音信号；也可以存在一些帧是纯粹的噪声信号；还可以存在一些帧中既包含了语音信号，也包含了噪声信号，也就是，噪声信号和语音信号同时存在于同一帧中。在具体实施过程中，获取的若干帧原始音频信号，可以是，获取一段原始音频信号，然后，再将该段原始音频信号划分为若干帧；也可以是，直接获取在时域上已经划分了若干帧的原始音频信号帧。

在具体实施例中，在时域上获取原始音频信号后，可以缓存原始音频信号，当原始音频信号缓存到一定数量帧后，将缓存的原始音频信号转换到频域上，得到若干帧第一频域信号。具体地，可以通过快速傅里叶变换(FFT)进行时频转换。

步骤S200，对若干帧第一频域信号分别进行子带划分得到子带能量谱。本实施例中，对第一频域信号做子带变换，得到每个子带幅度值。

具体地，以采样率为16000个点、缓存块为为512个点为例进行说明：

在做子带变换时，需要对512的数据做FFT，得到512个复数。在512个复数中，其中一个为直流信号，一个是最高频信号；剩下的(512-2)个复数具有对称性，因此，剩下的(512-2)个有效值为(512-2)/2，再加上直流信号和最高频信号，有效值为257个，具体地，257＝(512-2)/2+2；而后，对这些有效值进行子带划分加权得到子带能量谱。

请参考图2A、2B和2C，为本实施例公开的一种子带划分过程示意图，其中，图2A为时域中原始音频信号示意图，图2B为图2A转换为频域信号后的示意图，图2C为子带划分后的能量谱示意图。在对图2A所示意的时域中原始音频信号变换为图2B所示意的频域信号后；对图2B进行子带划分加权，得到子带能量谱，具体地，请参考图3，为本实施例公开的一种子带划分示意图，其中，纵轴为权重，横轴为频带索引，本实施例中，将图2B按图3所示的子带划分进行加权，得到图2C所示意的子带能量谱。

本实施例中，对频域信号进行子带划分，后续在子带上计算，可以降低数据量，从而可以降低运算量，而且更具有频域上的连续性，可以一定程度地避免音乐噪声的产生。

步骤S300，基于局部最小值的噪声估算法求取得到第一噪声。具体地，可以基于局部最小值的噪声估算法对当前子带能量和前次第一噪声求取得到当前第一噪声。本实施例中，通过局部最小值的噪声估算法可以识别平稳的噪声，具体而言，当噪声比较平稳时，表现在频域的能量为平稳的、幅度较小的信号，而语音信号是间隔的，因此，通过局部最小值的噪声估算法可以识别平稳的噪声。本实施例中，所称当前第一噪声是指基于局部最小值算法求取得到的噪声。

在可选的实施例中，在执行步骤S300时，可以包括：确定当前子带能量s_n(i)和前次第一噪声B_n(i-1)中较小的信号A(i)；对较小的信号A(i)和当前子带能量s_n(i)进行加权得到当前第一噪声B_n(i)。具体而言，在获得当前子带能量后，可以获取前次第一噪声信号B_n(i-1)，而后，确定当前子带能量s_n(i)和前次第一噪声B_n(i-1)中较小的信号A(i)，最后，加权得到当前第一噪声B_n(i)。具体地，可以采用如下两个公式对较小的信号A(i)和当前子带能量s_n(i)进行加权得到当前第一噪声B_n(i)：

A(i)＝min(B_n(i-1)，s_n(i))………公式1

B_n(i)＝a*A(i)+(1-a)*s_n(i)………公式2

其中，a为常系数，0≤a≤1，具体地，可以依据经验来确定a的数值。本实施例中，公式2表明，当前子带能量s_n(i)会一直影响局部最小值的噪声估计，但是这个是个长时间的积累过程，因此，a的取值可以是大于0.85，例如a＝0.99，以使得(1-a)的数值小于0.15。也就是，公式2表明，在正常的语音中，背景噪声中正常信号分量含量会很小。

步骤S400，基于VAD的噪声估算法得到第二噪声。

具体地，可以基于VAD的噪声估算法对当前子带能量进行估算得到当前第二噪声。本实施例中，所称第二噪声是基于VAD的噪声估算法估算得到噪声。大部分噪声的特征是音频信号的长时相关性往往较大，而且像风噪，幅度会忽大忽小，这也是基于局部最小值估算方法无法解决的一个问题。为了抵抗噪声的幅度变化，减小出现漏检噪声的情况，本实施例利用了基于VAD噪声估算法的长时相关和短时相关的特性来抵抗噪声的幅度变化。具体地，本实施例中，还基于VAD的噪声估算法对当前子带能量进行估算得到当前第二噪声，以抵抗噪声的幅度变化。具体地，可以提取常见噪声的特征值，例如风噪、马路噪声、白噪、粉噪等等；而后，通过低通因子来做长时平均得到当前长时平均子带能量，并基于长时平均子带能量得到当前第二噪声。具体地，请参见下文描述。

需要说明的是，本实施例中，并不限制步骤S300和步骤S400之间的执行先后顺序。

为了进一步抵抗噪声幅度变化所带来的影响，在可选的实施例中，在步骤S200之后，还包括：对当前子带能量进行归一化处理得到归一化后的当前子带能量；在步骤S300和步骤S400中，采用归一化的当前子带能量得到当前第一噪声和当前第二噪声。具体地，获取一个长时间低通的当前信号谱，赋予时间上同等的权重，得到归一化后的当前子带能量谱，具体地，可以采用公式3进行归一化处理：

x_norm＝normalize(x)………………………公式3

其中，x_norm是归一化后的当前子带能量，是一个0到1的值；normlize(x)代表的函数是，将输入的一维向量x中，取最大值，然后对这个向量中的元素都去除以这个最大值。

本实施例中，在步骤S200划分得到子带能量谱之后，可以进行归一化处理，使得在噪声频谱包络稳定时，幅值大的噪声和幅值小的噪声具有更相近的特征，由此，后续利用归一化的当前子带能量进行噪声检测，便于检测不同幅值的噪声。

步骤S500，对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。在具体实施例中，加权组合的加权系数可以依据当前信号属于语音信号的概率来确定。

本实施例中，通过对当前第一噪声和第二噪声进行加权组合得到当前频域上的噪声信号n_f，一方面能够检测到平稳的噪声，另一方面又能抵抗噪声的变化，识别到变化的噪声。继而，提高噪声识别的准确性。

为了有效地筛选出噪声信号n_f，在可选的实施例中，在执行步骤S500时，基于语音概率对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号n_f，具体地，请参见下文描述。请参考图4，为本实施例公开的一种估算得到当前第二噪声的流程图，在执行步骤S400时，包括：

步骤S400-1，计算长时子带能量。在具体实施例中，可以采用如下公式进行长时子带能量X_mean计算：

X_mean＝l_r*x_mean+(1-l_r)*x_norm……公式4

其中，X_mean为长时子带能量，l_r为滑窗长度，取值为0.6-1之间的小数，x_norm是归一化后的当前子带能量，是一个0到1的值，x_mean是归一化后的当前子带能量谱。

步骤S400-2，基于长时子带能量和当前子带能量计算当前的语音概率。本实施例中，当前的语音概率s_p表示当前信号属于语音信号的概率。

步骤S400-3，通过长时子带能量和语音概率得到当前第二噪声。在具体实施例中，当前第二噪声可以依据前次第二噪声计算得到，具体地，可以通过如下公式来计算当前第二噪声：

es_n(i)＝((es_n(i-1)*s_p(i))+X_mean(i)*(1-s_p(i)))*k1+es_n

(i-1)*(1-k1)…………公式5

其中，es_n(i)为当前第二噪声；es_n(i-1)为前次第二噪声；s_p(i)为当前的语音概率；X_mean(i)为当前的长时子带能量；k1为0-1之间的系数，该系数影响了当前第二噪声的更新速率，具体地，k1越接近1，则噪声更新速度越快，作为可选的实施例，k1可以取值例如0.8。

本实施例中，通过长时子带能量和语音概率得到当前第二噪声，可以通过语音概率来筛选出噪声，并且，当语音概率较高时，当前第二噪声的更新速率会放缓；反之，当语音概率较低时，当前第二噪声的更新速率会加快。也就是，可以通过语音概率来调节当前第二噪声的更新速率。

在具体实施过程中，语音概率与长时子带能量、当前子带能量的相关性有关，在可选的实施例中，在执行步骤S400-2时，可以计算长时子带能量和当前子带能量的相关程度，而后计算当前的语音概率。具体地，步骤S400-2包括如下(1)、(2)两步：

(1)采用如下公式计算长时子带能量和当前子带能量的相关程度：

cr＝sum(x2.*y2)/(sqrt(sum(x2.*x2)*sum(y2.*y2)))……公式6

其中，cr为长时子带能量和当前子带能量的相关程度，x2为长时子带能量的去均值，y2当前子带能量的去均值；sum()为求和，sqrt()为平方根计算。

在具体实施例中，x2＝X_mean-mean(X_mean)，其中，X_mean为当前的长时子带能量；mean(X_mean)为对历次得到的X_mean求平均。本实施例中，通过对长时子带能量谱X_mean进行去均值，得到的结果记为x2。

y2＝y-mean(y)，其中，y为当前子带能量，mean(x)为对历次得到的y求平均。本实施例中，通过对当前子带能量y进行去均值，得到的结果记为y2。

(2)采用如下公式计算当前的语音概率：

s_p＝1-cr*kr，其中，s_p为当前的语音概率，kr为常系数。

本实施例中，通过计算长时子带能量和当前子带能量的相关程度，而后通过相关程度计算当前的语音概率，从而，实现了根据长时子带能量来确定当前子带能量的语音概率，也就是，在计算当前的语音概率时，参考了与长时子带能量的相关度，从而提高了语音概率计算的准确性。

为了限制过高地估算语音概率，并且限制第二噪声频谱的更新速度，在可选的实施例中，在计算相关程度和计算语音概率之间，还包括：

判断相关程度cr是否小于第一阈值th_l；如果相关程度cr小于第一阈值th_l，则将第一阈值th_l赋值于相关程度cr；

判断相关程度cr是否大于第二阈值th_h，本实施例中，第一阈值th_l小于第二阈值th_h；如果相关程度cr大于第二阈值th_h，则将第二阈值th_h赋值于相关程度cr。

具体地，在采用公式6计算得到相关程度cr后，如果cr＜th_l，则令cr＝th_l；反之，如果cr＞th_h，则令cr＝th_h。

在具体实施例中，在利用公式s_p＝1-cr*kr计算当前的语音概率s_p时，可以令常系数kr＝1/th_h，由此，将语音概率s_p限制在0-1的范围内，以提高语音概率s_p的可靠性。

本实施例中，通过第一阈值th_l和第二阈值th_h对相关程度cr做一个范围限制，使得在计算语音概率时抵抗信号的干扰，即提高了语音概率计算的准确度。具体来说，因为实际信号是不断变化，并且不断被干扰，所以实际采集到的信号并不理想。具体来说，本实施例中：

通过第二阈值th_h来避免相关程度为100％的情形，即使2个向量(x2、y2)高度相关，它们的相关系数也不一定会是1，所以取了第二阈值th_h，取值范围可以是例如0.75到0.9，使得避免相关程度等于1，也就是，排除了cr＝100％的情形。

通过第一阈值th_l限制第二噪声的更新速度，由此来实现处理错检噪声的情况。具体来说，如果存在错捡的情况，更新噪声的速度过快，那就导致噪声估算突然出错了，也就会出现漏检噪声的情况，或者需要噪声重新收敛。本实施例中，通过第一阈值th_l来限制第二噪声的更新速度，使得即使出现某些时候算错语音概率，但只要不是连续出错，那么，第二噪声向量总体上是处于预设的范围内，也就是，避免了第二噪声向量因被信号干扰而导致的发散。

在可选的实施例中，在步骤S400-3中，采用如下公式计算得到当前第二噪声：

es_n(i)＝((es_n(i-1)*s_p)+X_mean*(1-s_p))*k1+es_n(i-1)*(1-k1)，其中，es_n(i)为当前第二噪声；es_n(i-1)为前次第二噪声；s_p为当前的语音概率，X_mean为当前的长时子带能量；k1为0-1之间的常系数，其影响的是当前第二噪声es_n(i)的更新速率，k1越接近1，则第二噪声es_n(i)的更新速率越快，本实施例中，k1的取值可以是例如0.6-0.9。由此可见，如果语音概率s_p高，则当前第二噪声es_n(i)不怎么更新，也就是，建立了当前第二噪声es_n(i)与语音概率s_p之间的关联性。

在具体实施例中，可以依据当前语音信号的概率来对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号，具体地，在步骤S500中，采用如下公式计算得到当前频域上的噪声信号：

n_f(i)＝(B_n(i)*(1-k3(i))+es_n(i)*k3(i))*k2+(1-k2)*n_f(i-1)。

其中，n_f(i)为当前频域上的噪声信号；n_f(i-1)为前次频域上的噪声信号；B_n(i)为当前第一噪声；es_n(i)为当前第二噪声；k2为0-1之间的常系数，k3(i)为与当前语音概率s_p(i)相关的系数，具体地，可以是当前的噪声信号更新速率，具体地，采用如下公式来确定当前噪声信号的更新速率系数k3(i)：

k3(i)＝k3(i-1)*(1-t_p)+s_p(i)*t_p，其中，k3(i)为当前的系数，k3(i-1)为前次系数；t_p为常系数。

本实施例中，引入常系数t_p和当前语音概率来确定当前噪声信号的更新速率系数k3(i)，是因为考虑到，正常语音中，每个音素的发音都是持续一段时长，也就是，帧跟帧之间语音概率是存在较强的相关性的。所以，最后噪声信号的更新速率k3由连续几帧的s_p共同决定，由此，将噪声信号的更新速率与连续若干帧的语音概率建立了联系，提高了噪声信号的更新速率的可靠性。

本实施例还公开了一种噪声压制方法，请参考图5，为本实施例公开的一种噪声压制方法流程图，该噪声压制方法包括：

B100，获取当前频域上的噪声信号。本实施例中，当前频域上的噪声信号采用上述实施例公开的噪声检测方法检测得到。

B200，在频域上，对若干帧第一频域信号进行压制得到压制噪声后的频域信号。在具体实施例中，在检测到当前频域上的噪声信号后，可以通过与噪声信号相关的压制系数与第一频域信号进行相乘，从而对第一频域信号进行噪声压制，得到噪声后的频域信号，简单地说，就是通过压制系数来减少噪声信号的影响。

B300，将压制噪声后的频域信号转化为时域信号得到降噪后的时域音频信号。在具体实施例中，可以通过傅里叶反变换将频域信号转化为时域信号。在具体实施过程中，在转化为时域信号后，即可输出给播放设备，通过播放设备来播放时域音频信号。

本实施例中，通过在频域上对第一频域信号进行压制，而后转化为时域信号，而在频域中只需进行简单的压制处理，由此可以减少运算量，提高降噪效率。

请参考图6，为本实施例公开的一种压制噪声方法流程图，在具体实施例中，在执行步骤B200时，压制噪声包括：

步骤B200-1，基于当前频域上的噪声信号得到当前的压制系数数组。本实施例中，压制系数组中包含多个压制系数。

为了快速得到压制系数，以便于快速地对噪声进行压制，达到更好的压制噪声的效果，在可选的实施例中，可以求取当前信号在噪声上的投影，通过投影来确定压制系数。具体地，步骤B200-1包括：根据第一频域信号和前频域上的噪声信号得到当前第一频域信号在当前频域噪声谱上的投影信号P；依据投影信号P得到当前的压制系数数组。具体地：

可以采用如下公式计算得到当前第一频域信号在当前频域噪声谱上的投影信号P：

P＝(signal(i)*Transpose(n_f(i)))/(noise(i))*Transpose(noise(i)))；

其中，signal(i)为当前第一频域信号；n_f(i)为当前频域噪声；Transpose()代表向量的转置。本实施例中，计算当前第一频域信号在当前频域噪声谱上的投影，可以确定该方向上的信号为噪声信号。

采用如下公式计算得到当前的压制系数数组：

sup＝1-k*(P*n_f(i))/signal(i)

其中，sup为当前的压制系数数组；signal(i)为当前第一频域信号；n_f(i)为当前频域噪声；k是一个可调整的系数，本实施例中，如果k越大则压制越多，噪声会消得越干净，但是也容易伤害到有用信号，一般k的取值范围是1到3之间。

本实施例中，通过在当前频域噪声谱上的投影信号来确定压制系数数组，相对于按照信号能量谱的计算方式，可以更快速地更新压制比例。

步骤B200-2，在频域上，采用压制系数数组中的系数与若干帧第一频域信号的频谱进行相乘得到若干帧第二频域信号的频谱。本实施例中，第二频域信号为压制后的频域信号。

具体地，在得到压制系数后，对压制系数做子带的反变换，例如，把64个子带的系数转换成257个压制系数。而后，对压制系数做帧间低通，将低通后的压制系数乘回到原来的数据帧对应的帧第一频域信号复数谱中，得到第二频域信号，第二频域信号构成的频谱作为降噪后的频谱。

步骤B200-3，对第二频域信号进行滤波处理，得到压制噪声后的频域信号。在具体实施过程中，可以采用多相滤波器进行滤波，具体地：

1)初始化混响参数。首先，计算混响系统的频响，保存一个长度为m*N的滤波器，其中，m是滤波器下采系数，N为一次分析块的长度。然后，对第二频域信号进行m*N抽取。作为示例，以m＝2为例，在一段6帧的音频信号中，包括1、2、3、4、5、6帧，被分成了1、3、5与2、4、6的两个组，分别记为fir0,跟fir1。

2)压制噪声后的频域信号Outdata＝fir0*x_last+fir1*x_now*expz.^n；其中，x_now为当前降噪后的频谱，也就是第二频域信号；x_last为前次的降噪后的频谱，也就是前次的第二频域信号；expz^n代表旋转因子。

需要说明的是，当m大于2时，表达式为：

Outdata＝fir0*x_last+fir1*x_now*expz.^n+...+firm*x_now*expz^(m*n)；

最后将压制噪声后的频域信号Outdata转换得到时域信号输出。

本实施例还公开了一种噪声检测装置，请参考图7，为本实施例公开的一种噪声检测装置结构示意图，该噪声检测装置包括：第一转换模块100、子带划分模块200、第一噪声求取模块300、第二噪声估算模块400和当前噪声组合模块500，其中：

第一转换模块100用于将在时域上连续获取的若干帧原始音频信号转换为频域上的若干帧第一频域信号，原始音频信号包含噪声信号和语音信号；子带划分模块200，用于对若干帧第一频域信号分别进行子带划分得到子带能量谱；第一噪声求取模块300，用于基于局部最小值的噪声估算法求取得到第一噪声；第二噪声估算模块400，用于基于VAD的噪声估算法得到第二噪声；当前噪声组合模块500，用于对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

在可选的实施例中，第一噪声求取模块300包括：较小信号确定单元，用于确定当前子带能量和前次第一噪声中较小的信号；加权单元，用于对较小的信号和当前子带能量进行加权得到当前第一噪声。

在可选的实施例中，第二噪声估算模块400包括：长时计算单元，用于计算长时子带能量；概率计算单元，用于基于长时子带能量和当前子带能量计算当前的语音概率，当前的语音概率表示当前信号属于语音信号的概率；第二噪声计算单元，用于通过长时子带能量和语音概率得到当前第二噪声；在当前噪声组合模块500中，基于语音概率对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

在可选的实施例中，概率计算单元包括：采用如下公式计算长时子带能量和当前子带能量的相关程度：cr＝sum(x2.*y2)/(sqrt(sum(x2.*x2)*sum(y2.*y2)))，其中，cr为相关程度，x2为长时子带能量的去均值，y2当前子带能量的去均值；采用如下公式计算当前的语音概率：s_p＝1-cr*kr，其中，s_p为当前的语音概率，kr为常系数。

在可选的实施例中，还包括：第一判断单元，用于判断相关程度是否小于第一阈值；第一赋值单元，用于如果第一判断单元判断相关程度小于第一阈值，则将第一阈值赋值于相关程度；第二判断单元，用于判断相关程度是否大于第二阈值，第一阈值小于第二阈值；第二赋值单元，用于如果第二判断单元判断相关程度大于第二阈值，则将第二阈值赋值于相关程度。

在可选的实施例中，在第二噪声计算单元中，采用如下公式计算得到当前第二噪声：es_n(i)＝((es_n(i-1)*s_p)+X_mean*(1-s_p))*k1+es_n(i-1)*(1-k1)，其中，es_n(i)为当前第二噪声，es_n(i-1)为前次第二噪声，X_mean为当前的长时子带能量，k1为常系数。

在可选的实施例中，在当前噪声组合模块500中，采用如下公式计算得到当前频域上的噪声信号：

n_f(i)＝(B_n(i)*(1-k3(i))+es_n(i)*k3(i))*k2+(1-k2)*n_f(i-1)；

其中，n_f(i)为当前频域上的噪声信号；n_f(i-1)为前次频域上的噪声信号；k3(i)为与当前语音概率s_p(i)相关的系数。

在可选的实施例中，还包括：归一化模块，用于对当前子带能量进行归一化处理得到归一化后的当前子带能量；在第一噪声求取模块300和第二噪声估算模块400中，采用归一化的当前子带能量得到当前第一噪声和当前第二噪声。

本实施例还公开了一种噪声压制装置，请参考图8，为本实施例公开的一种噪声压制装置结构示意图，该噪声压制装置包括：噪声信号获取模块10、噪声压制模块20和第二转换模块30，其中：

噪声信号获取模块10用于获取当前频域上的噪声信号，前频域上的噪声信号采用上述实施例公开的噪声检测装置检测得到；噪声压制模块20用于在频域上，若干帧第一频域信号进行压制得到压制噪声后的频域信号；第二转换模块30用于将压制噪声后的频域信号转化为时域信号得到降噪后的时域音频信号。

在可选的实施例中，噪声压制模块20包括：压制系数得到单元，用于基于当前频域上的噪声信号得到当前的压制系数数组；信号压制单元，用于在频域上，采用压制系数数组中的系数与若干帧第一频域信号的频谱进行相乘得到若干帧第二频域信号的频谱，第二频域信号为压制后的频域信号；滤波单元，用于对第二频域信号进行滤波处理，得到压制噪声后的频域信号。

在可选的实施例中，压制系数得到单元具体用于：根据第一频域信号和前频域上的噪声信号得到当前第一频域信号在当前频域噪声谱上的投影信号P；依据投影信号P得到当前的压制系数数组。

本实施例还公开了一种终端设备，终端设备具有音频数据采集功能，在具体实施例中，终端设备可以是例如耳机、智能穿戴设备、移动终端、k歌宝等等。本实施例中，终端设备包括：

处理器，用于实现上述实施例公开的噪声检测方法；或者，用于实现上述实施例公开的噪声压制方法。

本实施例还公开了一种音频信号处理系统，包括：第一设备和第二设备，其中，例如，第一设备为耳机，第二设备为移动终端；再如，第一设备为麦克风，第二设备为功放。本实施例中，第一设备用于采集音频数据得到原始音频信号，并发送给第二设备；第二设备用于实现上述实施例公开的噪声检测方法；或者，用于实现上述实施例公开的噪声压制方法。

本实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，存储介质中存储的计算机程序用于被执行实现上述实施例公开的噪声检测方法；或者，用于被执行实现上述实施例公开的噪声压制方法。

本实施例还公开了一种音频设备的芯片，其上具有集成电路，其特征在于，集成电路被设计成用于实现上述实施例公开的噪声检测方法；或者，用于实现上述实施例公开的噪声压制方法。

需要说明的是，本发明中采用步骤编号(字母或数字编号)来指代某些具体的方法步骤，仅仅是出于描述方便和简洁的目的，而绝不是用字母或数字来限制这些方法步骤的顺序。本领域的技术人员能够明了，相关方法步骤的顺序，应由技术本身决定，不应因步骤编号的存在而被不适当地限制。

本领域的技术人员能够理解的是，在不冲突的前提下，上述各优选方案可以自由地组合、叠加。

应当理解，上述的实施方式仅是示例性的，而非限制性的，在不偏离本发明的基本原理的情况下，本领域的技术人员可以针对上述细节做出的各种明显的或等同的修改或替换，都将包含于本发明的权利要求范围内。

Claims

1.一种噪声检测方法，其特征在于，包括：

步骤S100，将在时域上连续获取的若干帧原始音频信号转换为频域上的若干帧第一频域信号，所述原始音频信号包含噪声信号和语音信号；

步骤S200，对所述若干帧第一频域信号分别进行子带划分得到子带能量谱；

步骤S300，基于局部最小值的噪声估算法求取得到第一噪声；

步骤S400，基于VAD的噪声估算法得到第二噪声；

步骤S500，对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

2.如权利要求1所述的噪声检测方法，其特征在于，所述步骤S300包括：

确定所述当前子带能量和所述前次第一噪声中较小的信号；

对所述较小的信号和所述当前子带能量进行加权得到所述当前第一噪声。

3.如权利要求1所述的噪声检测方法，其特征在于，

所述步骤S400包括：

步骤S400-1，计算长时子带能量；

步骤S400-2，基于所述长时子带能量和当前子带能量计算当前的语音概率，所述当前的语音概率表示当前信号属于语音信号的概率；

步骤S400-3，通过所述长时子带能量和所述语音概率得到所述当前第二噪声；

在所述步骤S500中，基于所述语音概率对所述当前第一噪声和所述当前第二噪声进行加权组合得到当前频域上的噪声信号。

4.如权利要求3所述的噪声检测方法，其特征在于，所述步骤S400-2包括：

采用如下公式计算所述长时子带能量和所述当前子带能量的相关程度：

cr＝sum(x2.*y2)/(sqrt(sum(x2.*x2)*sum(y2.*y2)))，其中，cr为所述相关程度，x2为所述长时子带能量的去均值，y2所述当前子带能量的去均值；sum()为求和，sqrt()为平方根计算；

采用如下公式计算所述当前的语音概率：

s_p＝1-cr*kr，其中，s_p为所述当前的语音概率，kr为常系数。

5.如权利要求4所述的噪声检测方法，其特征在于，在计算所述相关程度和所述计算语音概率之间，还包括：

判断所述相关程度是否小于第一阈值；

如果所述相关程度小于所述第一阈值，则将所述第一阈值赋值于所述相关程度；

判断所述相关程度是否大于第二阈值，所述第一阈值小于所述第二阈值；

如果所述相关程度大于所述第二阈值，则将所述第二阈值赋值于所述相关程度。

6.如权利要求5所述的噪声检测方法，其特征在于，在所述步骤S400-3中，采用如下公式计算得到所述当前第二噪声：

es_n(i)＝((es_n(i-1)*s_p)+X_mean*(1-s_p))*k1+es_n(i-1)*(1-k1)，其中，es_n(i)为所述当前第二噪声，es_n(i-1)为前次第二噪声，X_mean为当前的长时子带能量，k1为常系数。

7.如权利要求4-6任意一项所述的噪声检测方法，其特征在于，在所述步骤S500中，采用如下公式计算得到所述当前频域上的噪声信号：

n_f(i)＝(B_n(i)*(1-k3(i))+es_n(i)*k3(i))*k2+(1-k2)*n_f(i-1)；

其中，n_f(i)为当前频域上的噪声信号；n_f(i-1)为前次频域上的噪声信号；k2为0-1之间的常系数，k3(i)为与当前语音概率s_p(i)相关的系数。

8.如权利要求1-3任意一项所述的噪声检测方法，其特征在于，在所述步骤S200之后，还包括：

对当前子带能量进行归一化处理得到归一化后的当前子带能量；

在所述步骤S300和所述步骤S400中，采用归一化的当前子带能量得到所述当前第一噪声和所述当前第二噪声。

9.一种噪声压制方法，其特征在于，包括：

B100，获取当前频域上的噪声信号，所述当前频域上的噪声信号采用如权利要求1-8任意一项所述的噪声检测方法检测得到；

B200，在频域上，对所述若干帧第一频域信号进行压制得到压制噪声后的频域信号；

B300，将所述压制噪声后的频域信号转化为时域信号得到降噪后的时域音频信号。

10.如权利要求9所述的噪声压制方法，其特征在于，所述步骤B200包括：

步骤B200-1，基于所述当前频域上的噪声信号得到当前的压制系数数组；

步骤B200-2，在频域上，采用所述压制系数数组中的系数与所述若干帧第一频域信号的频谱进行相乘得到若干帧第二频域信号的频谱，所述第二频域信号为压制后的频域信号；

步骤B200-3，对所述第二频域信号进行滤波处理，得到所述压制噪声后的频域信号。

11.如权利要求10所述的噪声压制方法，其特征在于，所述步骤B200-1包括：

根据所述第一频域信号和所述当前频域上的噪声信号得到当前所述第一频域信号在当前频域噪声谱上的投影信号(P)；

依据所述投影信号(P)得到所述当前的压制系数数组。

12.一种噪声检测装置，其特征在于，包括：

第一转换模块(100)，用于将在时域上连续获取的若干帧原始音频信号转换为频域上的若干帧第一频域信号，所述原始音频信号包含噪声信号和语音信号；

子带划分模块(200)，用于对所述若干帧第一频域信号分别进行子带划分得到子带能量谱；

第一噪声求取模块(300)，用于基于局部最小值的噪声估算法求取得到第一噪声；

第二噪声估算模块(400)，用于基于VAD的噪声估算法得到当前第二噪声；

当前噪声组合模块(500)，用于对当前第一噪声和当前第二噪声进行加权组合得到当前频域上的噪声信号。

13.如权利要求12所述的噪声检测装置，其特征在于，所述第一噪声求取模块(300)包括：

较小信号确定单元，用于确定所述当前子带能量和所述前次第一噪声中较小的信号；

加权单元，用于对所述较小的信号和所述当前子带能量进行加权得到所述当前第一噪声。

14.如权利要求12所述的噪声检测装置，其特征在于，

所述第二噪声估算模块(400)包括：

长时计算单元，用于计算长时子带能量；

概率计算单元，用于基于所述长时子带能量和当前子带能量计算当前的语音概率，所述当前的语音概率表示当前信号属于语音信号的概率；

第二噪声计算单元，用于通过所述长时子带能量和所述语音概率得到所述当前第二噪声；

在所述当前噪声组合模块(500)中，基于所述语音概率对所述当前第一噪声和所述当前第二噪声进行加权组合得到当前频域上的噪声信号。

15.如权利要求14所述的噪声检测装置，其特征在于，所述概率计算单元包括：

采用如下公式计算所述当前的语音概率：

s_p＝1-cr*kr，其中，s_p为所述当前的语音概率，kr为常系数。

16.如权利要求15所述的噪声检测装置，其特征在于，，还包括：

第一判断单元，用于判断所述相关程度是否小于第一阈值；

第一赋值单元，用于如果所述第一判断单元判断所述相关程度小于所述第一阈值，则将所述第一阈值赋值于所述相关程度；

第二判断单元，用于判断所述相关程度是否大于第二阈值，所述第一阈值小于所述第二阈值；

第二赋值单元，用于如果所述第二判断单元判断所述相关程度大于所述第二阈值，则将所述第二阈值赋值于所述相关程度。

17.如权利要求16所述的噪声检测装置，其特征在于，在所述第二噪声计算单元中，采用如下公式计算得到所述当前第二噪声：

18.如权利要求15-17任意一项所述的噪声检测装置，其特征在于，在所述当前噪声组合模块(500)中，采用如下公式计算得到所述当前频域上的噪声信号：

n_f(i)＝(B_n(i)*(1-k3(i))+es_n(i)*k3(i))*k2+(1-k2)*n_f(i-1)；

19.如权利要求12-14任意一项所述的噪声检测装置，其特征在于，还包括：

归一化模块，用于对当前子带能量进行归一化处理得到归一化后的当前子带能量；

在所述第一噪声求取模块(300)和所述第二噪声估算模块(400)中，采用归一化的当前子带能量得到所述当前第一噪声和所述当前第二噪声。

20.一种噪声压制装置，其特征在于，包括：

噪声信号获取模块(10)，用于获取当前频域上的噪声信号，所述前频域上的噪声信号采用如权利要求1-8任意一项所述的噪声检测装置检测得到；

噪声压制模块(20)，用于在频域上，所述若干帧第一频域信号进行压制得到压制噪声后的频域信号；

第二转换模块(30)，用于将所述压制噪声后的频域信号转化为时域信号得到降噪后的时域音频信号。

21.如权利要求20所述的噪声压制装置，其特征在于，所述噪声压制模块(20)包括：

压制系数得到单元，用于基于所述当前频域上的噪声信号得到当前的压制系数数组；

信号压制单元，用于在频域上，采用所述压制系数数组中的系数与所述若干帧第一频域信号的频谱进行相乘得到若干帧第二频域信号的频谱，所述第二频域信号为压制后的频域信号；

滤波单元，用于对所述第二频域信号进行滤波处理，得到所述压制噪声后的频域信号。

22.如权利要求21所述的噪声压制装置，其特征在于，所述压制系数得到单元具体用于：

根据所述第一频域信号和所述前频域上的噪声信号得到当前所述第一频域信号在当前频域噪声谱上的投影信号(P)；

依据所述投影信号(P)得到所述当前的压制系数数组。

23.一种终端设备，所述终端设备具有音频数据采集功能，其特征在于，包括：

处理器，用于实现如权利要求1-8任意一项所述的方法；或者，用于实现如权利要求9-11任意一项所述的方法。

24.一种音频信号处理系统，其特征在于，包括：第一设备和第二设备；

所述第一设备用于采集音频数据得到原始音频信号，并发送给所述第二设备；

所述第二设备用于实现如权利要求1-8任意一项所述的方法；或者，用于实现如权利要求9-11任意一项所述的方法。

25.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，存储介质中存储的计算机程序用于被执行实现如权利要求1-8任意一项所述的方法；或者，用于被执行实现如权利要求9-11任意一项所述的方法。

26.一种音频设备的芯片，其上具有集成电路，其特征在于，所述集成电路被设计成用于实现如权利要求1-8任意一项所述的方法；或者，用于实现如权利要求9-11任意一项所述的方法。