CN113470674B

CN113470674B - 语音降噪方法、装置、存储介质及计算机设备

Info

Publication number: CN113470674B
Application number: CN202010245145.3A
Authority: CN
Inventors: 祝榕; 陈彦宇; 马雅奇; 叶盛世; 张洋
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-06-16
Anticipated expiration: 2040-03-31
Also published as: CN113470674A

Abstract

本申请涉及一种语音降噪方法、装置、存储介质及计算机设备，该方法包括：获取带噪语音信号的功率谱，得到第一功率谱；获取第一功率谱中每个频点的语音存在概率；根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对疑似噪声所对应的频点进行时频平滑，得到第二功率谱；获取第二功率谱中每个频点的语音存在概率；根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子；根据每个频点的平滑因子确定每个频点的噪声估计值；根据每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。通过本申请实现了准确、快速地估计噪声并进行滤除，降噪效果显著提高，且降低了去噪的复杂度，提高了降噪效率。

Description

语音降噪方法、装置、存储介质及计算机设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音降噪方法、装置、存储介质及计算机设备。

背景技术

随着人工智能的不断发展，使用遥控器和机械按键等传统控制方式的家电已经逐渐被语音识别的智能家电所替代。在语音识别家电中最核心的技术就是对语音信号中的噪音进行滤除。智能家电通过语音模块采集的语音信号中包括稳态噪声和非稳态噪声，稳态噪声相对容易去除，而非稳态噪声则较难去除，而家电环境中的噪声大多为非稳态噪声，因此非稳态噪声大大影响语音模块的识别率。

现有技术一部分是通过训练音频神经网络，将混音信号送入音频神经网络后，针对不同的噪音进行多维的标记，然后将标记训练好的人工神经网络作为滤波器以滤除噪声。这种方法需要大量的语料对音频神经网络进行训练，而且运算量大，时效性低、去噪效果也不佳。另一部分则是通过噪声估计和谱增益估计结合的方法来实现对于语音的降噪，但是在噪声估计中存在延迟的缺陷，对波动较大的信号估计误差比较大，因此噪声去除效果不佳。

发明内容

为了解决现有技术中运算量大导致时效性低、去噪效果不佳，以及由于存在延迟导致噪声估计误差较大进而导致去噪效果不佳的技术问题，本申请实施例提供了一种语音降噪方法、装置、存储介质及计算机设备。

第一方面，本申请实施例提供了一种语音降噪方法，该方法包括：

获取带噪语音信号；

获取带噪语音信号的功率谱，得到第一功率谱；

获取第一功率谱中每个频点的语音存在概率；

根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对第一功率谱中疑似噪声所对应的频点进行时频平滑，得到第二功率谱；

获取第二功率谱中每个频点的语音存在概率；

根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子；

根据第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值；

根据第一功率谱中每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。

可选地，在获取带噪语音信号之前，该方法还包括：

对采集到的声源数据进行数字化处理，得到带噪语音信号；

获取带噪语音信号的功率谱，得到第一功率谱，包括：

对带噪语音信号进行频域变换，得到带噪语音信号的频域信号，

根据带噪语音信号的频域信号得到带噪语音信号对应的第一功率谱。

可选地，获取第一功率谱中每个频点的语音存在概率，包括：

对第一功率谱进行分帧处理，其中，每一帧包含多个频点；

对第一功率谱中每个频点进行平滑处理；

对平滑处理后的第一功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第一功率谱的最小值；

将第一功率谱的最小值与第一阈值对比得到第一对比结果；

分别将第一功率谱中每个频点的瞬时功率与第二阈值进行对比得到每个频点对应的第二对比结果；

根据第一对比结果、每个频点对应的第二对比结果，确定第一功率谱中每个频点的语音存在概率。

可选地，根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对疑似噪声所对应的频点进行时频平滑，得到第二功率谱，包括：

将语音存在概率为第一预设值的频点判定为存在语音信号；

将语音存在概率为第二预设值的频点判定为不存在语音信号；

将第一功率谱中语音存在概率为第二预设值的频点所对应的语音作为疑似噪声，对疑似噪声所对应的频点进行时频平滑，以得到第二功率谱。

可选地，获取第二功率谱中每个频点的语音存在概率，包括：

对第二功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第二功率谱的最小值；

将第二功率谱的最小值与第三阈值对比得到第三对比结果；

分别将第二功率谱中每个频点的瞬时功率与第四阈值进行对比得到每个频点对应的第四对比结果；

根据第三对比结果、每个频点对应的第四对比结果，确定第二功率谱中每个频点的语音存在概率。

可选地，对平滑处理后的第一功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第一功率谱的最小值，包括：

获取平滑处理后的第一功率谱中每一帧的最小功率谱值；

其中，第一功率谱中第一帧的最小值为第一帧对应的最小功率谱值；

将第一功率谱中的第二帧作为当前帧，第一帧作为第二帧的上一帧；

将当前帧的最小功率谱值与上一帧的最小值进行对比；

当当前帧的最小功率谱值小于上一帧的最小值，则将上一帧的最小值作为当前帧的最小值；

当当前帧的最小功率谱值大于等于上一帧的最小值，则将当前帧的最小功率谱值与上一帧的功率最小值进行加权平均，将加权平均的结果作为当前帧的最小值；

将第一功率谱中当前帧的下一帧作为当前帧，执行将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第一功率谱对应的最小值。

可选地，对第二功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第二功率谱的最小值，包括：

获取第二功率谱中每一帧的最小功率谱值；

其中，第二功率谱中第一帧的最小值为第一帧对应的最小功率谱值；

将第二功率谱中的第二帧作为当前帧，第一帧作为第二帧的上一帧；

将当前帧的最小功率谱值与上一帧的最小值进行对比；

将第二功率谱中当前帧的下一帧作为当前帧，执行将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第二功率谱对应的最小值。

第二方面，本申请实施例提供了一种语音降噪装置，该装置包括：

语音获取模块，用于获取带噪语音信号；

转换模块，用于获取带噪语音信号的功率谱，得到第一功率谱；

第一迭代模块，用于取第一功率谱中每个频点的语音存在概率；

平滑模块，用于根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对疑似噪声所对应的频点进行时频平滑，得到第二功率谱；

第二迭代模块，用于获取第二功率谱中每个频点的语音存在概率；

计算模块，用于根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子；

噪声估计模块，用于根据第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值；

噪声滤除模块，用于根据第一功率谱中每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。

第三方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如前面所述任一项的方法的步骤。

第四方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行如前面所述任一项的方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，通过应用本发明实施例提供的语音降噪方法，电子设备获取语音信号即声源数据，对语音信号进行模数转换得到带噪语音信号，对带噪语音信号进行频域变换后可以获取第一功率谱，对第一功率谱进行平滑处理后可以获取每个频点的语音存在概率，根据第一功率谱得到的语音存在概率对第一功率谱中的疑似噪声进行时频平滑得到第二功率谱，获取第二功率谱中每个频点的语音存在概率后可以得到每个频点的平滑因子，继而得到每个频点的噪声估计值，以便于根据噪声估计值对对应频点进行消噪处理。避免了现有技术中，由于存在延迟的缺陷，对波动较大的信号估计误差比较大，导致对噪声估计结果的不准确，对噪声估计的可靠性低，易产生对噪声的欠估或过估的问题，也避免了通过神经网络滤除噪声带来的运算量大、时效性低等问题，该方法与装置可以很好的应用于语音增强或降噪框架中去，提高对噪声估计的准确度，提高噪声估计的可靠性，以达到更好的语音增强或降噪效果。实现了准确、快速地估计噪声并进行滤除，降噪效果显著提高，且降低了去噪的复杂度，提高了降噪效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中一种语音降噪方法的流程示意图；

图2为一个实施例中一种语音降噪装置的结构框图；

图3为一个实施例中一种计算机设备的内部框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中一种语音降噪方法的流程示意图。参考图1，该方法包括以下步骤：

S100：获取带噪语音信号。

具体地，带语音识别功能的电子设备用于接收用户语音控制指令，并根据用户语音控制指令执行对应的操作，在执行对应的操作之前，带语音识别功能的电子设备需要对接收到的用户语音控制指令进行识别，因为周边环境或多或少会有噪音，因此用户语音控制指令可能混合有一些噪声且很多时候噪声比较高，要使语音识别更精确，需要进行去噪或降噪处理。带语音识别功能的电子设备接收到的用户语音控制指令为一种带噪语音信号。带语音识别功能的电子设备可以包括智能空调、智能电视机、智能冰箱、智能窗帘等等家居或办公等室内电子设备。

S200：获取带噪语音信号的功率谱，得到第一功率谱。

具体地，功率谱表征语音信号中频率与瞬时功率的关系。每个频率的瞬时功率在功率谱中都能得到体现。带噪语音信号为一种数字信号，且为时域信号，因此带噪语音信号需要经过信号处理，才能得到其功率谱。

S300：获取第一功率谱中每个频点的语音存在概率。

具体地，第一功率谱中每个频点对应自身的瞬时功率，语音存在概率用于初步判定频点对应的语音信号是噪声还是非噪声。

S400：根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对第一功率谱中疑似噪声所对应的频点进行时频平滑，得到第二功率谱。

具体地，通过第一功率谱可以初步判定哪些频点是比较有可能是噪声的频点，单独对第一功率谱中这些有可能是噪声的疑似噪声进行时频平滑，其他非疑似噪声不做平滑处理，得到第二功率谱。

时频平滑指对疑似噪声的功率谱分别做时域和频域两个维度上的平滑。时频平滑是根据第一功率谱中得出的初步语音存在概率，将带噪声的频点进行时频平滑。

S500：获取第二功率谱中每个频点的语音存在概率。

具体地，第二功率谱中每个频点对应自身更新的瞬时功率，语音存在概率用于再次判定频点对应的语音信号是噪声还是非噪声。

S600：根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子。

具体地，每个频点的平滑因子与其对应的语音存在概率成线性关系。可以理解，当前频点的平滑因子是上一个频点的平滑因子与当前频点的语音存在概率的加权。

S700：根据第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值。

具体地，每个频点噪声估计值与其对应的平滑因子成线性关系。可以理解，当前频点的噪声估计值由上一个频点的噪声估计值、当前频点的平滑因子确定。可以根据平滑因子通过递归平均来估计噪声，当信噪比大时，平滑因子趋向于1，倾向于使用前一帧的噪声来做当前噪声的估计；当信噪比小时，平滑因子趋向于0，表示可用当前帧的功率来做噪声估计。

S800：根据第一功率谱中每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。

具体地，可以通过谱减法进行语音增强，从而达到降噪的目的。

在一个实施例中，在步骤S100之前，该方法还包括以下步骤：

对采集到的声源数据进行数字化处理，得到带噪语音信号。

具体地，采集到的声源数据为语音智能设备的硬件电路采集的模拟语音信号，需要将模拟语音信号转换为数字语音信号，得到带噪语音信号，带噪语音信号为一种数字信号，且为时域信号。

在一个实施例中，步骤S200具体包括：

对带噪语音信号进行频域变换，得到带噪语音信号的频域信号，根据带噪语音信号的频域信号得到带噪语音信号对应的第一功率谱。

具体地，可以理解的是，对为时域信号的带噪语音信号进行傅里叶变换得到带噪语音信号的频域信号，根据带噪语音信号的频域信号可以获取到带噪语音信号的功率谱。

在一个实施例中，步骤S300具体包括：对第一功率谱进行分帧处理，其中，每一帧包含多个频点；对第一功率谱中每个频点进行平滑处理；对平滑处理后的第一功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第一功率谱的最小值；将第一功率谱的最小值与第一阈值对比得到第一对比结果；分别将第一功率谱中每个频点的瞬时功率与第二阈值进行对比得到每个频点对应的第二对比结果；根据第一对比结果、每个频点对应的第二对比结果，确定第一功率谱中每个频点的语音存在概率。

具体地，获取第一功率谱中每个频点的瞬时功率，对所有频点的瞬时功率进行平均处理，得到平均值；通过一阶递归的方法对得到的平均值进行递归计算得到每个频点更新的瞬时功率，每个频点更新的瞬时功率组成了平滑处理后的第一功率谱。

第一功率谱中每帧包含多个频点，可以获取到每帧里面对应的瞬时功率最小的频点，将这个最小瞬时功率作为该帧的功率最小值，将第一帧的最小值与第二帧的功率最小值进行比较，根据比较结果得到第二帧的最小值，其中，第一帧的最小值为其功率最小值，将第二帧的最小值与第三帧的功率最小值进行比较，根据比较结果得到第三帧的最小值，如此循环，逐帧比较，得到最后一帧的最小值作为该第一功率谱的最小值。

第一功率谱的最小值与第一阈值对比，每个频点的瞬时功率分别与第二阈值对比，当第一对比结果为第一功率谱的最小值小于第一阈值，且，第二对比结果为频点的瞬时功率小于第二阈值，则判定该频点的语音存在概率为0，否则，该频点的语音存在概率为1。

在一个实施例中，步骤S400具体包括：将语音存在概率为第一预设值的频点判定为存在语音信号；将语音存在概率为第二预设值的频点判定为不存在语音信号；将第一功率谱中语音存在概率为第二预设值的频点所对应的语音作为疑似噪声，对疑似噪声所对应的频点进行时频平滑，以得到第二功率谱。

可以理解的是，将语音存在概率为1的频点判定为存在语音信号，将语音存在概率为0的频点判定为不存在语音信号，不存在语音信号的频点所对应的语音作为疑似噪声，在第一功率谱中对疑似噪声所对应的频点进行时域和频域的平滑处理，将时频平滑后的第一功率谱作为第二功率谱。

在一个实施例中，步骤S500具体包括：

对第二功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第二功率谱的最小值；将第二功率谱的最小值与第三阈值对比得到第三对比结果；分别将第二功率谱中每个频点的瞬时功率与第四阈值进行对比得到每个频点对应的第四对比结果；根据第三对比结果、每个频点对应的第四对比结果，确定第二功率谱中每个频点的语音存在概率。

具体地，第二功率谱中每帧包含多个频点，可以获取到每帧里面对应的瞬时功率最小的频点，将这个最小瞬时功率作为该帧的功率最小值，将第一帧的最小值与第二帧的功率最小值进行比较，根据比较结果得到第二帧的最小值，其中，第一帧的最小值为其功率最小值，将第二帧的最小值与第三帧的功率最小值进行比较，根据比较结果得到第三帧的最小值，如此循环，逐帧比较，得到最后一帧的最小值作为该第二功率谱的最小值。

第二功率谱的最小值与第三阈值对比，第二功率谱每个频点的瞬时功率分别与第四阈值对比，当第三对比结果为第二功率谱的最小值小于第三阈值，且，第四对比结果为第二功率谱中的频点的瞬时功率小于第四阈值，则判定该频点的语音存在概率为0，否则，该频点的语音存在概率为1。

在一个实施例中，对平滑处理后的第一功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第一功率谱的最小值，具体包括：

获取平滑处理后的第一功率谱中每一帧的最小功率谱值；其中，第一功率谱中第一帧的最小值为第一帧对应的最小功率谱值；将第一功率谱中的第二帧作为当前帧，第一帧作为第二帧的上一帧；将当前帧的最小功率谱值与上一帧的最小值进行对比；当当前帧的最小功率谱值小于上一帧的最小值，则将上一帧的最小值作为当前帧的最小值；当当前帧的最小功率谱值大于等于上一帧的最小值，则将当前帧的最小功率谱值与上一帧的功率最小值进行加权平均，将加权平均的结果作为当前帧的最小值；将第一功率谱中当前帧的下一帧作为当前帧，执行将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第一功率谱对应的最小值。

具体地，第一功率谱的最小值是通过对平滑处理后的第一功率谱从第一帧开始相邻两帧两两对比，并根据对比结果确定每一帧的最小值，将最后一帧的最小值作为第一功率谱的最小值。当前帧的最小值由上一帧的最小值以及当前帧的最小功率谱值决定。每一帧的最小功率谱值是该帧多个频点中最小瞬时功率。

在一个实施例中，对第二功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第二功率谱的最小值，包括：

获取第二功率谱中每一帧的最小功率谱值；其中，第二功率谱中第一帧的最小值为第一帧对应的最小功率谱值；将第二功率谱中的第二帧作为当前帧，第一帧作为第二帧的上一帧；将当前帧的最小功率谱值与上一帧的最小值进行对比；当当前帧的最小功率谱值小于上一帧的最小值，则将上一帧的最小值作为当前帧的最小值；当当前帧的最小功率谱值大于等于上一帧的最小值，则将当前帧的最小功率谱值与上一帧的功率最小值进行加权平均，将加权平均的结果作为当前帧的最小值；将第二功率谱中当前帧的下一帧作为当前帧，执行将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第二功率谱对应的最小值。

具体地，第二功率谱的最小值是通过对第二功率谱从第一帧开始相邻两帧两两对比，并根据对比结果确定每一帧的最小值，将最后一帧的最小值作为第二功率谱的最小值。当前帧的最小值由上一帧的最小值以及当前帧的最小功率谱值决定。每一帧的最小功率谱值是该帧多个频点中最小瞬时功率。

因此，通过应用本发明实施例提供的语音降噪方法，电子设备获取语音信号即声源数据，对语音信号进行模数转换得到带噪语音信号，对带噪语音信号进行频域变换后可以获取第一功率谱，对第一功率谱进行平滑处理后可以获取每个频点的语音存在概率，根据第一功率谱得到的语音存在概率对第一功率谱中的疑似噪声进行时频平滑得到第二功率谱，获取第二功率谱中每个频点的语音存在概率后可以得到每个频点的平滑因子，继而得到每个频点的噪声估计值，以便于根据噪声估计值对对应频点进行消噪处理。避免了现有技术中，由于存在延迟的缺陷，对波动较大的信号估计误差比较大，导致对噪声估计结果的不准确，对噪声估计的可靠性低，易产生对噪声的欠估或过估的问题，也避免了通过神经网络滤除噪声带来的运算量大、时效性低等问题，该方法与装置可以很好的应用于语音增强或降噪中，提高对噪声估计的准确度，提高噪声估计的可靠性，以达到更好的语音增强或降噪效果。

本发明实现了针对特定环境中所独有的噪声(例如：在家居环境中，大多的噪音为人声，人声的信噪比低，滤除的难度大)进行估计。根据得到的噪音参数进行针对性的处理，大大提升了语音的识别率，完成对于噪声的抑制。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图2为一个实施例中一种语音降噪装置的结构框图。该装置包括：

语音获取模块100，用于获取带噪语音信号。

转换模块200，用于获取带噪语音信号的功率谱，得到第一功率谱。

第一迭代模块300，用于获取第一功率谱中每个频点的语音存在概率。

平滑模块400，用于根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对疑似噪声所对应的频点进行时频平滑，得到第二功率谱。

第二迭代模块500，用于获取第二功率谱中每个频点的语音存在概率。

计算模块600，用于根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子。

噪声估计模块700，用于根据第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值。

噪声滤除模块800，用于根据第一功率谱中每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。

在一个实施例中，该装置还包括：模数转换模块，用于对采集到的声源数据进行数字化处理，得到带噪语音信号。

在一个实施例中，转换模块200具体用于：对带噪语音信号进行频域变换，得到带噪语音信号的频域信号，根据带噪语音信号的频域信号得到带噪语音信号对应的第一功率谱。

在一个实施例中，第一迭代模块300具体包括：

分帧模块，用于对第一功率谱进行分帧处理，其中，每一帧包含多个频点。

子平滑模块，用于对第一功率谱中每个频点进行平滑处理。

第一最小值跟踪模块，用于对平滑处理后的第一功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第一功率谱的最小值。

第一比较模块，用于将第一功率谱的最小值与第一阈值对比得到第一对比结果。

第二比较模块，用于分别将第一功率谱中每个频点的瞬时功率与第二阈值进行对比得到每个频点对应的第二对比结果。

第一判定模块，用于根据第一对比结果、每个频点对应的第二对比结果，确定第一功率谱中每个频点的语音存在概率。

在一个实施例中，平滑模块400具体用于：将语音存在概率为第一预设值的频点判定为存在语音信号；将语音存在概率为第二预设值的频点判定为不存在语音信号；将第一功率谱中语音存在概率为第二预设值的频点所对应的语音作为疑似噪声，对疑似噪声所对应的频点进行时频平滑，以得到第二功率谱。

在一个实施例中，第二迭代模块500具体包括：

第二最小值跟踪模块，用于对第二功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第二功率谱的最小值；

第三比较模块，用于将第二功率谱的最小值与第三阈值对比得到第三对比结果；

第四比较模块，用于分别将第二功率谱中每个频点的瞬时功率与第四阈值进行对比得到每个频点对应的第四对比结果；

第二判定模块，用于根据第三对比结果、每个频点对应的第四对比结果，确定第二功率谱中每个频点的语音存在概率。

在一个实施例中，第一最小值跟踪模块具体用于：获取平滑处理后的第一功率谱中每一帧的最小功率谱值；其中，第一功率谱中第一帧的最小值为第一帧对应的最小功率谱值；将第一功率谱中的第二帧作为当前帧，第一帧作为第二帧的上一帧；将当前帧的最小功率谱值与上一帧的最小值进行对比；当当前帧的最小功率谱值小于上一帧的最小值，则将上一帧的最小值作为当前帧的最小值；当当前帧的最小功率谱值大于等于上一帧的最小值，则将当前帧的最小功率谱值与上一帧的功率最小值进行加权平均，将加权平均的结果作为当前帧的最小值；将第一功率谱中当前帧的下一帧作为当前帧，执行将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第一功率谱对应的最小值。

在一个实施例中，第二最小值跟踪模块具体用于：获取第二功率谱中每一帧的最小功率谱值；其中，第二功率谱中第一帧的最小值为第一帧对应的最小功率谱值；将第二功率谱中的第二帧作为当前帧，第一帧作为第二帧的上一帧；将当前帧的最小功率谱值与上一帧的最小值进行对比；当当前帧的最小功率谱值小于上一帧的最小值，则将上一帧的最小值作为当前帧的最小值；当当前帧的最小功率谱值大于等于上一帧的最小值，则将当前帧的最小功率谱值与上一帧的功率最小值进行加权平均，将加权平均的结果作为当前帧的最小值；将第二功率谱中当前帧的下一帧作为当前帧，执行将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第二功率谱对应的最小值。

图3为一个实施例中一种计算机设备的内部框图。该计算机设备具体可以置于带有语音识别功能的电子设备中。如图3所示，该计算机设备通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音降噪方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音降噪方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。计算机设备的语音装置用于采集语音信号。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音降噪装置可以实现为一种计算机程序的形式，计算机程序可在如图3所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音降噪装置的各个程序模块，比如，语音获取模块100、转换模块200、第一迭代模块300、平滑模块400、第二迭代模块500、计算模块600、噪声估计模块700、噪声滤除模块800。

例如，图3所示的计算机设备可以通过如图2所示的语音降噪装置中的语音获取模块100执行获取带噪语音信号。计算机设备可以通过转换模块200执行获取带噪语音信号的功率谱，得到第一功率谱。计算机设备可以通过第一迭代模块300执行获取第一功率谱中每个频点的语音存在概率。计算机设备可以通过平滑模块400执行根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对疑似噪声所对应的频点进行时频平滑，得到第二功率谱。计算机设备可以通过第二迭代模块500执行获取第二功率谱中每个频点的语音存在概率。计算机设备可以通过计算模块600执行根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子。计算机设备可以通过噪声估计模块700执行根据第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值。计算机设备可以通过噪声滤除模块800执行根据第一功率谱中每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取带噪语音信号；获取带噪语音信号的功率谱，得到第一功率谱；获取第一功率谱中每个频点的语音存在概率；根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对第一功率谱中疑似噪声所对应的频点进行时频平滑，得到第二功率谱；获取第二功率谱中每个频点的语音存在概率；根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子；根据第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值；根据第一功率谱中每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取带噪语音信号；获取带噪语音信号的功率谱，得到第一功率谱；获取第一功率谱中每个频点的语音存在概率；根据第一功率谱中每个频点的语音存在概率，确定疑似噪声，对第一功率谱中疑似噪声所对应的频点进行时频平滑，得到第二功率谱；获取第二功率谱中每个频点的语音存在概率；根据第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子；根据第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值；根据第一功率谱中每个频点的噪声估计值，对带噪语音信号中对应频点进行噪声滤除。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音降噪方法，其特征在于，所述方法包括：

获取带噪语音信号；

获取所述带噪语音信号的功率谱，得到第一功率谱；

获取所述第一功率谱中每个频点的语音存在概率；

根据所述第一功率谱中每个频点的语音存在概率，确定疑似噪声，对第一功率谱中所述疑似噪声所对应的频点进行时频平滑，得到第二功率谱；

获取所述第二功率谱中每个频点的语音存在概率；

根据所述第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子；

根据所述第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值；

根据所述第一功率谱中每个频点的噪声估计值，对所述带噪语音信号中对应频点进行噪声滤除。

2.根据权利要求1所述的方法，其特征在于，在所述获取带噪语音信号之前，所述方法还包括：

对采集到的声源数据进行数字化处理，得到带噪语音信号；

所述获取所述带噪语音信号的功率谱，得到第一功率谱，包括：

对所述带噪语音信号进行频域变换，得到所述带噪语音信号的频域信号，

根据所述带噪语音信号的频域信号得到带噪语音信号对应的第一功率谱。

3.根据权利要求1所述的方法，其特征在于，所述获取所述第一功率谱中每个频点的语音存在概率，包括：

对所述第一功率谱进行分帧处理，其中，每一帧包含多个频点；

对所述第一功率谱中每个频点进行平滑处理；

将所述第一功率谱的最小值与第一阈值对比得到第一对比结果；

分别将所述第一功率谱中每个频点的瞬时功率与第二阈值进行对比得到每个频点对应的第二对比结果；

根据所述第一对比结果、每个频点对应的第二对比结果，确定所述第一功率谱中每个频点的语音存在概率。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一功率谱中每个频点的语音存在概率，确定疑似噪声，对所述疑似噪声所对应的频点进行时频平滑，得到第二功率谱，包括：

将语音存在概率为第一预设值的频点判定为存在语音信号；

将所述第一功率谱中语音存在概率为第二预设值的频点所对应的语音作为疑似噪声，对所述疑似噪声所对应的频点进行时频平滑，以得到第二功率谱。

5.根据权利要求4所述的方法，其特征在于，所述获取所述第二功率谱中每个频点的语音存在概率，包括：

对所述第二功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第二功率谱的最小值；

将所述第二功率谱的最小值与第三阈值对比得到第三对比结果；

分别将所述第二功率谱中每个频点的瞬时功率与第四阈值进行对比得到每个频点对应的第四对比结果；

根据所述第三对比结果、每个频点对应的第四对比结果，确定所述第二功率谱中每个频点的语音存在概率。

6.根据权利要求3所述的方法，其特征在于，所述对平滑处理后的第一功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第一功率谱的最小值，包括：

获取平滑处理后的第一功率谱中每一帧的最小功率谱值；

其中，所述第一功率谱中第一帧的最小值为第一帧对应的最小功率谱值；

将当前帧的最小功率谱值与上一帧的最小值进行对比；

将所述第一功率谱中当前帧的下一帧作为当前帧，执行所述将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第一功率谱对应的最小值。

7.根据权利要求5所述的方法，其特征在于，所述对所述第二功率谱从第一帧开始至最后一帧逐帧进行最小值跟踪得到第二功率谱的最小值，包括：

获取第二功率谱中每一帧的最小功率谱值；

其中，所述第二功率谱中第一帧的最小值为第一帧对应的最小功率谱值；

将当前帧的最小功率谱值与上一帧的最小值进行对比；

将所述第二功率谱中当前帧的下一帧作为当前帧，执行所述将当前帧的最小功率谱值与上一帧的最小值进行对比，直至通过逐帧进行最小值跟踪得到最后一帧的最小值，将最后一帧的最小值作为第二功率谱对应的最小值。

8.一种语音降噪装置，其特征在于，所述装置包括：

语音获取模块，用于获取带噪语音信号；

转换模块，用于获取所述带噪语音信号的功率谱，得到第一功率谱；

第一迭代模块，用于获取所述第一功率谱中每个频点的语音存在概率；

平滑模块，用于根据所述第一功率谱中每个频点的语音存在概率，确定疑似噪声，对所述疑似噪声所对应的频点进行时频平滑，得到第二功率谱；

第二迭代模块，用于获取所述第二功率谱中每个频点的语音存在概率；

计算模块，用于根据所述第二功率谱中每个频点的语音存在概率，获取第二功率谱中每个频点的平滑因子；

噪声估计模块，用于根据所述第二功率谱中每个频点的平滑因子确定第一功率谱中每个频点的噪声估计值；

噪声滤除模块，用于根据所述第一功率谱中每个频点的噪声估计值，对所述带噪语音信号中对应频点进行噪声滤除。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-7任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-7任一项所述的方法的步骤。