CN111429930A - 一种基于自适应采样率的降噪模型处理方法及系统 - Google Patents
一种基于自适应采样率的降噪模型处理方法及系统 Download PDFInfo
- Publication number
- CN111429930A CN111429930A CN202010182939.XA CN202010182939A CN111429930A CN 111429930 A CN111429930 A CN 111429930A CN 202010182939 A CN202010182939 A CN 202010182939A CN 111429930 A CN111429930 A CN 111429930A
- Authority
- CN
- China
- Prior art keywords
- sampling rate
- voice
- noise reduction
- reduction model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 183
- 230000009467 reduction Effects 0.000 title claims abstract description 109
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 230000003044 adaptive effect Effects 0.000 title claims description 7
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000012952 Resampling Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000008859 change Effects 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims description 94
- 238000012545 processing Methods 0.000 claims description 60
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供了一种基于自适应采样率的降噪模型处理方法及系统,其中方法包括:对第一采样率的训练语音进行第一特征提取;对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;计算与训练语音对应的纯净语音的实际比值掩膜;将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;基于实际比值掩膜与预测比值掩膜之间的误差,对降噪模型进行训练,直到实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。
Description
技术领域
本发明涉及语音处理技术领域,特别涉及一种基于自适应采样率的降噪模型处理方法及系统。
背景技术
语音降噪是将混合语音中的噪声和人声分离出来,在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量,使人或机器在嘈杂的环境下也能听到清晰、干净的语音。传统的降噪方法在非平稳噪声环境下很难取得很好的效果,尤其对于瞬态的噪声更是无能为力,当前基于深度学习技术的降噪方法可以有效的去除快变的噪声,也取得了好的语音降噪效果,而目前主流的基于深度学习技术的降噪方法表现良好,但基于深度学习的降噪方法对数据的依赖较为严重。目前语音通信中两种主流的音频采样率是8kHz和16kHz,用16kHz的数据训练的模型对8kHz的数据处理效果不理想,同时,8kHz的数据训练的模型对16kHz的数据处理效果也不理想,如果同时将16k和8k的模型集成到算法,则会使算法的空间占用率大幅上升,因此设置了一种基于自适应采样率的降噪模型处理方法。
发明内容
本发明提供一种基于自适应采样率的降噪模型处理方法,用以通过对第一采样频率进行直接特征提取和重采样特征提取,并通过比值掩膜误差对降噪模型进行训练,可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。
本发明实施例提供一种基于自适应采样率的降噪模型处理方法,包括:
对第一采样率的训练语音进行第一特征提取;
对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算与所述训练语音对应的纯净语音的实际比值掩膜;
将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;
基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
优选地,所述重采样处理包括:
第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
对所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练的过程中,还包括:
对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
优选地,在获取最终降噪模型之后,还包括:
基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其步骤包括:
判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取第一采样率对应的测试语音的第三特征;
将提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
将所述测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
本发明实施例提供一种基于自适应采样率的降噪模型处理系统,包括:
第一提取模块,用于对第一采样率的训练语音进行第一特征提取;
第二提取模块,用于对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算模块,用于计算与所述训练语音对应的纯净语音的实际比值掩膜;
输入模块,用于将所述第一提取模块提取的第一特征和第二提取模块提取的第二特征输入到降噪模型,获得预测比值掩膜;
第一训练模块,用于基于所述计算模块计算的所述实际比值掩膜与所述输入模块获得的预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
优选地,所述第二提取模块包括:
第一处理单元,用于第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
第二处理单元,对所述第一处理单元获得的所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,还包括:
获取模块,用于对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
第二训练模块,用于根据所述获取的获取结果,若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
优选地,还包括:
处理模块,用于基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其中,所述处理模块包括:
判断单元,用于判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取单元,用于提取第一采样率对应的测试语音的第三特征;
获取单元,用于将所述提取单元提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
融合单元,用于将所述获取单元获得的测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于自适应采样率的降噪模型处理方法的流程图;
图2为本发明实施例中获取最终降噪模型的另一流程图;
图3为本发明实施例中总流程框图;
图4为本发明实施例中一种基于自适应采样率的降噪模型处理系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
由于16kHz数据训练的模型对16kHz的数据处理效果较好,但对8kHz升采样后的数据处理效果较差,因为是模型训练时没有此类数据,因此,通过将16kHz的数据经过降采样到8kHz又升采样到8kHz后的数据也用来训练模型,得到的模型对这两种数据的处理效果都比较理想,所以用不同采样率的数据训练一个模型就可以解决采样率不同导致的性能下降的问题。
本发明实施例提供一种基于自适应采样率的降噪模型处理方法,如图1所示,包括:
步骤1:对第一采样率的训练语音进行第一特征提取;
步骤2:对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
步骤3:计算与所述训练语音对应的纯净语音的实际比值掩膜;
步骤4:将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;
步骤5:基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
上述第一采样率是针对的16KHZ采样率的训练语音,且训练语音是带有噪声的;
上述进行重采样处理,先进行下采样到8KHZ,在进行上采样到16KHZ;
上述获取的第一特征和第二特征是指训练语音中的带噪语音和其对应的纯净语音的语音特征,如信噪比、谐噪比、频率微扰等。
上述技术方案的有益效果是:通过对第一采样频率进行直接特征提取和重采样特征提取,且通过实际比值掩膜与预测比值掩膜之间的误差对降噪模型进行训练,可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。
在一个实施例中,所述重采样处理包括,
第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
对所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
上述技术方案的有益效果是:通过下采样处理和上采样处理的重采样处理,为降噪模型训练提供数据基础。
在一个实施例中,对所述待调整降噪模型进行预调整,基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练的过程中,如图2所示,还包括:
步骤21:对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
步骤22:若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
上述比值掩膜,是用来对训练语音中的噪声分量和语音分量进行滤波,并计算得到对应的协方差等参数。
上述预测比值掩膜是基于训练语音和待调整降噪模型得到的,实际比值掩膜是直接基于训练语音获得的。
上述两者之间的误差,例如不同语音协方差之间的误差。
上述误差范围一般是接近于0的范围。
上述预设数目次一般为3~5次。
上述技术方案的有益效果是:通过确定误差的浮动变化,进而确定是否对降噪模型进行收敛训练,提高最终降噪模型的识别精度,避免不同采样率导致的性能下降。
在一个实施例中,在获取最终降噪模型之后,还包括:
基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其步骤包括,
判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取第一采样率对应的测试语音的第三特征;
将提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
将所述测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
对于该实施例,具体流程如图3所示,其中的待融合语音,是第一采样率对应的测试语音。
上述第一采样率为16KHZ,第二采样率为8KHZ;
上述第三特征是指测试语音中的带噪语音和其对应的纯净语音的语音特征。
例如,通过获得的测试比值掩膜,如获取的测试语音协方差和测试噪声协方差,通过测试语音协方差和测试噪声协方差对16KHZ的测试语音进行融合处理,获得该测试语音中的纯净语音部分,其中,测试语音是包括纯净语音部分和噪声部分。
上述技术方案的有益效果是:一是便于通过最终降噪模型对测试语音进行识别,获得纯净语音,二是为了通过测试语音对最终降噪模型进行测试。
本发明实施例提供一种基于自适应采样率的降噪模型处理系统,如图4所示,包括:
第一提取模块,用于对第一采样率的训练语音进行第一特征提取;
第二提取模块,用于对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算模块,用于计算与所述训练语音对应的纯净语音的实际比值掩膜;
输入模块,用于将所述第一提取模块提取的第一特征和第二提取模块提取的第二特征输入到降噪模型,获得预测比值掩膜;
第一训练模块,用于基于所述计算模块计算的所述实际比值掩膜与所述输入模块获得的预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
上述技术方案的有益效果是:通过对第一采样频率进行直接特征提取和重采样特征提取,且通过实际比值掩膜与预测比值掩膜之间的误差对降噪模型进行训练,可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。
在一个实施例中,所述第二提取模块包括:
第一处理单元,用于第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
第二处理单元,对所述第一处理单元获得的所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
上述技术方案的有益效果是:通过下采样处理和上采样处理的重采样处理,为降噪模型训练提供数据基础。
在一个实施例中,还包括:
获取模块,用于对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
第二训练模块,用于根据所述获取的获取结果,若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
上述技术方案的有益效果是:通过确定误差的浮动变化,进而确定是否对降噪模型进行收敛训练,提高最终降噪模型的识别精度,避免不同采样率导致的性能下降。
在一个实施例中,还包括:
处理模块,用于基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其中,所述处理模块包括:
判断单元,用于判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取单元,用于提取第一采样率对应的测试语音的第三特征;
获取单元,用于将所述提取单元提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
融合单元,用于将所述获取单元获得的测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
上述技术方案的有益效果是:一是便于通过最终降噪模型对测试语音进行识别,获得纯净语音,二是为了通过测试语音对最终降噪模型进行测试。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于自适应采样率的降噪模型处理方法,其特征在于,包括:
对第一采样率的训练语音进行第一特征提取;
对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算与所述训练语音对应的纯净语音的实际比值掩膜;
将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;
基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
2.如权利要求1所述的降噪模型处理方法,其特征在于,所述重采样处理包括:
第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
对所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
3.如权利要求1所述的降噪模型处理方法,其特征在于,基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练的过程中,还包括:
对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
4.如权利要求1所述的降噪模型处理方法,其特征在于,在获得最终降噪模型之后,还包括:
基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其步骤包括:
判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取第一采样率对应的测试语音的第三特征;
将提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
将所述测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
5.如权利要求2或4任一所述的降噪模型处理方法,其特征在于,
所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
6.一种基于自适应采样率的降噪模型处理系统,其特征在于,包括:
第一提取模块,用于对第一采样率的训练语音进行第一特征提取;
第二提取模块,用于对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算模块,用于计算与所述训练语音对应的纯净语音的实际比值掩膜;
输入模块,用于将所述第一提取模块提取的第一特征和第二提取模块提取的第二特征输入到降噪模型,获得预测比值掩膜;
第一训练模块,用于基于所述计算模块计算的所述实际比值掩膜与所述输入模块获得的预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
7.如权利要求6所述的降噪模型处理系统,其特征在于,所述第二提取模块包括:
第一处理单元,用于第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
第二处理单元,对所述第一处理单元获得的所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
8.如权利要求6所述的降噪模型处理系统,其特征在于,还包括:
获取模块,用于对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
第二训练模块,用于根据所述获取的获取结果,若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
9.如权利要求6所述的降噪模型处理系统,其特征在于,还包括:
处理模块,用于基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其中,所述处理模块包括:
判断单元,用于判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取单元,用于提取第一采样率对应的测试语音的第三特征;
获取单元,用于将所述提取单元提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
融合单元,用于将所述获取单元获得的测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
10.如权利要求7或9任一所述的降噪模型处理系统,其特征在于,
所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182939.XA CN111429930B (zh) | 2020-03-16 | 2020-03-16 | 一种基于自适应采样率的降噪模型处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010182939.XA CN111429930B (zh) | 2020-03-16 | 2020-03-16 | 一种基于自适应采样率的降噪模型处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429930A true CN111429930A (zh) | 2020-07-17 |
CN111429930B CN111429930B (zh) | 2023-02-28 |
Family
ID=71546374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010182939.XA Active CN111429930B (zh) | 2020-03-16 | 2020-03-16 | 一种基于自适应采样率的降噪模型处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429930B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284507A (zh) * | 2021-05-14 | 2021-08-20 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
WO2022032608A1 (zh) * | 2020-08-11 | 2022-02-17 | 南京拓灵智能科技有限公司 | 一种音频降噪方法和装置 |
WO2024029771A1 (en) * | 2022-08-05 | 2024-02-08 | Samsung Electronics Co., Ltd. | Method, apparatus and computer readable medium for generating clean speech signal using speech denoising networks based on speech and noise modeling |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
MY121575A (en) * | 1995-02-17 | 2006-02-28 | Sony Corp | Method for noise reduction |
US20080144848A1 (en) * | 2006-12-18 | 2008-06-19 | Markus Buck | Low complexity echo compensation system |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
US8032388B1 (en) * | 2007-09-28 | 2011-10-04 | Adobe Systems Incorporated | Dynamic selection of supported audio sampling rates for playback |
CN106486131A (zh) * | 2016-10-14 | 2017-03-08 | 上海谦问万答吧云计算科技有限公司 | 一种语音去噪的方法及装置 |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US20180301158A1 (en) * | 2017-04-14 | 2018-10-18 | Baidu Online Network Technology (Beijing) Co., Ltd | Speech noise reduction method and device based on artificial intelligence and computer device |
CN109147806A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 基于深度学习的语音音质增强方法、装置和系统 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109817239A (zh) * | 2018-12-24 | 2019-05-28 | 龙马智芯(珠海横琴)科技有限公司 | 语音的降噪方法及装置 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN110634497A (zh) * | 2019-10-28 | 2019-12-31 | 普联技术有限公司 | 降噪方法、装置、终端设备及存储介质 |
CN110706686A (zh) * | 2019-12-13 | 2020-01-17 | 恒玄科技(北京)有限公司 | 降噪方法、自适应滤波器、入耳式耳机和半入耳式耳机 |
CN110797038A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-03-16 CN CN202010182939.XA patent/CN111429930B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY121575A (en) * | 1995-02-17 | 2006-02-28 | Sony Corp | Method for noise reduction |
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
US20080144848A1 (en) * | 2006-12-18 | 2008-06-19 | Markus Buck | Low complexity echo compensation system |
US8032388B1 (en) * | 2007-09-28 | 2011-10-04 | Adobe Systems Incorporated | Dynamic selection of supported audio sampling rates for playback |
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
CN106486131A (zh) * | 2016-10-14 | 2017-03-08 | 上海谦问万答吧云计算科技有限公司 | 一种语音去噪的方法及装置 |
US20180301158A1 (en) * | 2017-04-14 | 2018-10-18 | Baidu Online Network Technology (Beijing) Co., Ltd | Speech noise reduction method and device based on artificial intelligence and computer device |
CN107452389A (zh) * | 2017-07-20 | 2017-12-08 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
CN109147806A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 基于深度学习的语音音质增强方法、装置和系统 |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN109410976A (zh) * | 2018-11-01 | 2019-03-01 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN109817239A (zh) * | 2018-12-24 | 2019-05-28 | 龙马智芯(珠海横琴)科技有限公司 | 语音的降噪方法及装置 |
CN110491407A (zh) * | 2019-08-15 | 2019-11-22 | 广州华多网络科技有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN110634497A (zh) * | 2019-10-28 | 2019-12-31 | 普联技术有限公司 | 降噪方法、装置、终端设备及存储介质 |
CN110797038A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN110706686A (zh) * | 2019-12-13 | 2020-01-17 | 恒玄科技(北京)有限公司 | 降噪方法、自适应滤波器、入耳式耳机和半入耳式耳机 |
Non-Patent Citations (1)
Title |
---|
鲍长春等: "基于深度神经网络的单通道语音增强方法回顾", 《信号处理》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022032608A1 (zh) * | 2020-08-11 | 2022-02-17 | 南京拓灵智能科技有限公司 | 一种音频降噪方法和装置 |
CN113284507A (zh) * | 2021-05-14 | 2021-08-20 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113284507B (zh) * | 2021-05-14 | 2024-02-13 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
WO2024029771A1 (en) * | 2022-08-05 | 2024-02-08 | Samsung Electronics Co., Ltd. | Method, apparatus and computer readable medium for generating clean speech signal using speech denoising networks based on speech and noise modeling |
Also Published As
Publication number | Publication date |
---|---|
CN111429930B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429930B (zh) | 一种基于自适应采样率的降噪模型处理方法及系统 | |
US10997970B1 (en) | Methods and systems implementing language-trainable computer-assisted hearing aids | |
CN111862953B (zh) | 语音识别模型的训练方法、语音识别方法及装置 | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
Zahorian et al. | Spectral‐shape features versus formants as acoustic correlates for vowels | |
DK1760696T3 (en) | Method and apparatus for improved estimation of non-stationary noise to highlight speech | |
CN103578468B (zh) | 一种语音识别中置信度阈值的调整方法及电子设备 | |
CN105869626A (zh) | 一种语速自动调节的方法及终端 | |
CN101989424A (zh) | 语音处理设备和方法及程序 | |
Bulut et al. | Low-latency single channel speech enhancement using u-net convolutional neural networks | |
CN110189746B (zh) | 一种应用于地空通信的话音识别方法 | |
CN103177721A (zh) | 语音识别方法和系统 | |
Hermansky | Speech recognition from spectral dynamics | |
Latorre et al. | Continuous F0 in the source-excitation generation for HMM-based TTS: Do we need voiced/unvoiced classification? | |
EP1280137B1 (en) | Method for speaker identification | |
Garg et al. | A comparative study of noise reduction techniques for automatic speech recognition systems | |
CN113763966B (zh) | 一种端到端的文本无关声纹识别方法及系统 | |
CN108091323A (zh) | 用于自语音中识别情感的方法与装置 | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Hanson et al. | Subband or cepstral domain filtering for recognition of Lombard and channel-distorted speech | |
Agrawal et al. | Unsupervised Raw Waveform Representation Learning for ASR. | |
CN112825250A (zh) | 语音唤醒方法、设备、存储介质及程序产品 | |
CN110211598A (zh) | 智能语音降噪通信方法及装置 | |
Tomanek et al. | An analysis of degenerating speech due to progressive dysarthria on ASR performance | |
Balasubramanian et al. | Ideal ratio mask estimation based on cochleagram for audio-visual monaural speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |