CN111429930A

CN111429930A - 一种基于自适应采样率的降噪模型处理方法及系统

Info

Publication number: CN111429930A
Application number: CN202010182939.XA
Authority: CN
Inventors: 李庆龙; 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-17
Anticipated expiration: 2040-03-16
Also published as: CN111429930B

Abstract

本发明提供了一种基于自适应采样率的降噪模型处理方法及系统，其中方法包括：对第一采样率的训练语音进行第一特征提取；对第一采样频率的训练语音进行重采样处理，并对重采样处理后的训练语音进行第二特征提取；计算与训练语音对应的纯净语音的实际比值掩膜；将提取的第一特征和第二特征输入到降噪模型，获得预测比值掩膜；基于实际比值掩膜与预测比值掩膜之间的误差，对降噪模型进行训练，直到实际比值掩膜与预测比值掩膜之间的误差不再变化，获得最终降噪模型，并保存。可实现对不同采样率数据的有效处理，解决采样率不同导致的性能下降的问题。

Description

一种基于自适应采样率的降噪模型处理方法及系统

技术领域

本发明涉及语音处理技术领域，特别涉及一种基于自适应采样率的降噪模型处理方法及系统。

背景技术

语音降噪是将混合语音中的噪声和人声分离出来，在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量，使人或机器在嘈杂的环境下也能听到清晰、干净的语音。传统的降噪方法在非平稳噪声环境下很难取得很好的效果，尤其对于瞬态的噪声更是无能为力，当前基于深度学习技术的降噪方法可以有效的去除快变的噪声，也取得了好的语音降噪效果，而目前主流的基于深度学习技术的降噪方法表现良好，但基于深度学习的降噪方法对数据的依赖较为严重。目前语音通信中两种主流的音频采样率是8kHz和16kHz，用16kHz的数据训练的模型对8kHz的数据处理效果不理想，同时，8kHz的数据训练的模型对16kHz的数据处理效果也不理想，如果同时将16k和8k的模型集成到算法，则会使算法的空间占用率大幅上升，因此设置了一种基于自适应采样率的降噪模型处理方法。

发明内容

本发明提供一种基于自适应采样率的降噪模型处理方法，用以通过对第一采样频率进行直接特征提取和重采样特征提取，并通过比值掩膜误差对降噪模型进行训练，可实现对不同采样率数据的有效处理，解决采样率不同导致的性能下降的问题。

本发明实施例提供一种基于自适应采样率的降噪模型处理方法，包括：

对第一采样率的训练语音进行第一特征提取；

对第一采样频率的训练语音进行重采样处理，并对重采样处理后的训练语音进行第二特征提取；

计算与所述训练语音对应的纯净语音的实际比值掩膜；

将提取的第一特征和第二特征输入到降噪模型，获得预测比值掩膜；

基于所述实际比值掩膜与预测比值掩膜之间的误差，对所述降噪模型进行训练，直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化，获得最终降噪模型，并保存。

优选地，所述重采样处理包括：

第一采样频率的训练语音进行下采样处理，获得第二采样率的训练语音；

对所述第二采样率的训练语音进行上采样处理，获得第一采样率的最终语音；

其中，所述第一采样率的最终语音即为所述重采样处理后的训练语音。

优选地，基于所述实际比值掩膜与预测比值掩膜之间的误差，对所述降噪模型进行训练的过程中，还包括：

对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取；

若每次获取的误差都在误差范围内，则训练收敛所述降噪模型，获得最终降噪模型，并保存。

优选地，在获取最终降噪模型之后，还包括：

基于获得的最终降噪模型，并对预先获取的测试语音进行预处理，获得最终结果，并输出，其步骤包括：

判断所述预先获取的测试语音的采样率是否为第一采样率，若是，则不作重采样处理；

否则，判定所述预先获取的测试语音的采样率为第二采样率，并对第二采样率的测试语音进行升采样处理，获得相应的第一采样率的测试语音；

提取第一采样率对应的测试语音的第三特征；

将提取的第三特征输入到所述最终降噪模型中，获得测试比值掩膜；

将所述测试比值掩膜与第一采样率对应的测试语音进行融合处理，恢复所述测试语音的纯净语音；

如果所述预先获取的测试语音的采样率是第二采样率，则将恢复的纯净语音降采样到第二采样率后输出；

如果所述预先获取的测试语音的采样率是第一采样率，则不作处理，并直接输出。

优选地，所述第一采样率为16KHZ；

所述第二采样率为8KHZ。

本发明实施例提供一种基于自适应采样率的降噪模型处理系统，包括：

第一提取模块，用于对第一采样率的训练语音进行第一特征提取；

第二提取模块，用于对第一采样频率的训练语音进行重采样处理，并对重采样处理后的训练语音进行第二特征提取；

计算模块，用于计算与所述训练语音对应的纯净语音的实际比值掩膜；

输入模块，用于将所述第一提取模块提取的第一特征和第二提取模块提取的第二特征输入到降噪模型，获得预测比值掩膜；

第一训练模块，用于基于所述计算模块计算的所述实际比值掩膜与所述输入模块获得的预测比值掩膜之间的误差，对所述降噪模型进行训练，直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化，获得最终降噪模型，并保存。

优选地，所述第二提取模块包括：

第一处理单元，用于第一采样频率的训练语音进行下采样处理，获得第二采样率的训练语音；

第二处理单元，对所述第一处理单元获得的所述第二采样率的训练语音进行上采样处理，获得第一采样率的最终语音；

优选地，还包括：

获取模块，用于对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取；

第二训练模块，用于根据所述获取的获取结果，若每次获取的误差都在误差范围内，则训练收敛所述降噪模型，获得最终降噪模型，并保存。

优选地，还包括：

处理模块，用于基于获得的最终降噪模型，并对预先获取的测试语音进行预处理，获得最终结果，并输出，其中，所述处理模块包括：

判断单元，用于判断所述预先获取的测试语音的采样率是否为第一采样率，若是，则不作重采样处理；

提取单元，用于提取第一采样率对应的测试语音的第三特征；

获取单元，用于将所述提取单元提取的第三特征输入到所述最终降噪模型中，获得测试比值掩膜；

融合单元，用于将所述获取单元获得的测试比值掩膜与第一采样率对应的测试语音进行融合处理，恢复所述测试语音的纯净语音；

优选地，所述第一采样率为16KHZ；

所述第二采样率为8KHZ。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于自适应采样率的降噪模型处理方法的流程图；

图2为本发明实施例中获取最终降噪模型的另一流程图；

图3为本发明实施例中总流程框图；

图4为本发明实施例中一种基于自适应采样率的降噪模型处理系统的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

由于16kHz数据训练的模型对16kHz的数据处理效果较好，但对8kHz升采样后的数据处理效果较差，因为是模型训练时没有此类数据，因此，通过将16kHz的数据经过降采样到8kHz又升采样到8kHz后的数据也用来训练模型，得到的模型对这两种数据的处理效果都比较理想，所以用不同采样率的数据训练一个模型就可以解决采样率不同导致的性能下降的问题。

本发明实施例提供一种基于自适应采样率的降噪模型处理方法，如图1所示，包括：

步骤1：对第一采样率的训练语音进行第一特征提取；

步骤2：对第一采样频率的训练语音进行重采样处理，并对重采样处理后的训练语音进行第二特征提取；

步骤3：计算与所述训练语音对应的纯净语音的实际比值掩膜；

步骤4：将提取的第一特征和第二特征输入到降噪模型，获得预测比值掩膜；

步骤5：基于所述实际比值掩膜与预测比值掩膜之间的误差，对所述降噪模型进行训练，直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化，获得最终降噪模型，并保存。

上述第一采样率是针对的16KHZ采样率的训练语音，且训练语音是带有噪声的；

上述进行重采样处理，先进行下采样到8KHZ，在进行上采样到16KHZ；

上述获取的第一特征和第二特征是指训练语音中的带噪语音和其对应的纯净语音的语音特征，如信噪比、谐噪比、频率微扰等。

上述技术方案的有益效果是：通过对第一采样频率进行直接特征提取和重采样特征提取，且通过实际比值掩膜与预测比值掩膜之间的误差对降噪模型进行训练，可实现对不同采样率数据的有效处理，解决采样率不同导致的性能下降的问题。

在一个实施例中，所述重采样处理包括，

优选地，所述第一采样率为16KHZ；

所述第二采样率为8KHZ。

上述技术方案的有益效果是：通过下采样处理和上采样处理的重采样处理，为降噪模型训练提供数据基础。

在一个实施例中，对所述待调整降噪模型进行预调整，基于所述实际比值掩膜与预测比值掩膜之间的误差，对所述降噪模型进行训练的过程中，如图2所示，还包括：

步骤21：对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取；

步骤22：若每次获取的误差都在误差范围内，则训练收敛所述降噪模型，获得最终降噪模型，并保存。

上述比值掩膜，是用来对训练语音中的噪声分量和语音分量进行滤波，并计算得到对应的协方差等参数。

上述预测比值掩膜是基于训练语音和待调整降噪模型得到的，实际比值掩膜是直接基于训练语音获得的。

上述两者之间的误差，例如不同语音协方差之间的误差。

上述误差范围一般是接近于0的范围。

上述预设数目次一般为3～5次。

上述技术方案的有益效果是：通过确定误差的浮动变化，进而确定是否对降噪模型进行收敛训练，提高最终降噪模型的识别精度，避免不同采样率导致的性能下降。

在一个实施例中，在获取最终降噪模型之后，还包括：

基于获得的最终降噪模型，并对预先获取的测试语音进行预处理，获得最终结果，并输出，其步骤包括，

提取第一采样率对应的测试语音的第三特征；

对于该实施例，具体流程如图3所示，其中的待融合语音，是第一采样率对应的测试语音。

上述第一采样率为16KHZ，第二采样率为8KHZ；

上述第三特征是指测试语音中的带噪语音和其对应的纯净语音的语音特征。

例如，通过获得的测试比值掩膜，如获取的测试语音协方差和测试噪声协方差，通过测试语音协方差和测试噪声协方差对16KHZ的测试语音进行融合处理，获得该测试语音中的纯净语音部分，其中，测试语音是包括纯净语音部分和噪声部分。

上述技术方案的有益效果是：一是便于通过最终降噪模型对测试语音进行识别，获得纯净语音，二是为了通过测试语音对最终降噪模型进行测试。

本发明实施例提供一种基于自适应采样率的降噪模型处理系统，如图4所示，包括：

在一个实施例中，所述第二提取模块包括：

优选地，所述第一采样率为16KHZ；

所述第二采样率为8KHZ。

在一个实施例中，还包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于自适应采样率的降噪模型处理方法，其特征在于，包括：

对第一采样率的训练语音进行第一特征提取；

计算与所述训练语音对应的纯净语音的实际比值掩膜；

2.如权利要求1所述的降噪模型处理方法，其特征在于，所述重采样处理包括：

3.如权利要求1所述的降噪模型处理方法，其特征在于，基于所述实际比值掩膜与预测比值掩膜之间的误差，对所述降噪模型进行训练的过程中，还包括：

4.如权利要求1所述的降噪模型处理方法，其特征在于，在获得最终降噪模型之后，还包括：

提取第一采样率对应的测试语音的第三特征；

5.如权利要求2或4任一所述的降噪模型处理方法，其特征在于，

所述第一采样率为16KHZ；

所述第二采样率为8KHZ。

6.一种基于自适应采样率的降噪模型处理系统，其特征在于，包括：

7.如权利要求6所述的降噪模型处理系统，其特征在于，所述第二提取模块包括：

8.如权利要求6所述的降噪模型处理系统，其特征在于，还包括：

9.如权利要求6所述的降噪模型处理系统，其特征在于，还包括：

10.如权利要求7或9任一所述的降噪模型处理系统，其特征在于，

所述第一采样率为16KHZ；

所述第二采样率为8KHZ。