CN111429930A - 一种基于自适应采样率的降噪模型处理方法及系统 - Google Patents

一种基于自适应采样率的降噪模型处理方法及系统 Download PDF

Info

Publication number
CN111429930A
CN111429930A CN202010182939.XA CN202010182939A CN111429930A CN 111429930 A CN111429930 A CN 111429930A CN 202010182939 A CN202010182939 A CN 202010182939A CN 111429930 A CN111429930 A CN 111429930A
Authority
CN
China
Prior art keywords
sampling rate
voice
noise reduction
reduction model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010182939.XA
Other languages
English (en)
Other versions
CN111429930B (zh
Inventor
李庆龙
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010182939.XA priority Critical patent/CN111429930B/zh
Publication of CN111429930A publication Critical patent/CN111429930A/zh
Application granted granted Critical
Publication of CN111429930B publication Critical patent/CN111429930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供了一种基于自适应采样率的降噪模型处理方法及系统,其中方法包括:对第一采样率的训练语音进行第一特征提取;对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;计算与训练语音对应的纯净语音的实际比值掩膜;将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;基于实际比值掩膜与预测比值掩膜之间的误差,对降噪模型进行训练,直到实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。

Description

一种基于自适应采样率的降噪模型处理方法及系统
技术领域
本发明涉及语音处理技术领域,特别涉及一种基于自适应采样率的降噪模型处理方法及系统。
背景技术
语音降噪是将混合语音中的噪声和人声分离出来,在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量,使人或机器在嘈杂的环境下也能听到清晰、干净的语音。传统的降噪方法在非平稳噪声环境下很难取得很好的效果,尤其对于瞬态的噪声更是无能为力,当前基于深度学习技术的降噪方法可以有效的去除快变的噪声,也取得了好的语音降噪效果,而目前主流的基于深度学习技术的降噪方法表现良好,但基于深度学习的降噪方法对数据的依赖较为严重。目前语音通信中两种主流的音频采样率是8kHz和16kHz,用16kHz的数据训练的模型对8kHz的数据处理效果不理想,同时,8kHz的数据训练的模型对16kHz的数据处理效果也不理想,如果同时将16k和8k的模型集成到算法,则会使算法的空间占用率大幅上升,因此设置了一种基于自适应采样率的降噪模型处理方法。
发明内容
本发明提供一种基于自适应采样率的降噪模型处理方法,用以通过对第一采样频率进行直接特征提取和重采样特征提取,并通过比值掩膜误差对降噪模型进行训练,可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。
本发明实施例提供一种基于自适应采样率的降噪模型处理方法,包括:
对第一采样率的训练语音进行第一特征提取;
对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算与所述训练语音对应的纯净语音的实际比值掩膜;
将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;
基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
优选地,所述重采样处理包括:
第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
对所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练的过程中,还包括:
对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
优选地,在获取最终降噪模型之后,还包括:
基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其步骤包括:
判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取第一采样率对应的测试语音的第三特征;
将提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
将所述测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
本发明实施例提供一种基于自适应采样率的降噪模型处理系统,包括:
第一提取模块,用于对第一采样率的训练语音进行第一特征提取;
第二提取模块,用于对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算模块,用于计算与所述训练语音对应的纯净语音的实际比值掩膜;
输入模块,用于将所述第一提取模块提取的第一特征和第二提取模块提取的第二特征输入到降噪模型,获得预测比值掩膜;
第一训练模块,用于基于所述计算模块计算的所述实际比值掩膜与所述输入模块获得的预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
优选地,所述第二提取模块包括:
第一处理单元,用于第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
第二处理单元,对所述第一处理单元获得的所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,还包括:
获取模块,用于对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
第二训练模块,用于根据所述获取的获取结果,若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
优选地,还包括:
处理模块,用于基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其中,所述处理模块包括:
判断单元,用于判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取单元,用于提取第一采样率对应的测试语音的第三特征;
获取单元,用于将所述提取单元提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
融合单元,用于将所述获取单元获得的测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于自适应采样率的降噪模型处理方法的流程图;
图2为本发明实施例中获取最终降噪模型的另一流程图;
图3为本发明实施例中总流程框图;
图4为本发明实施例中一种基于自适应采样率的降噪模型处理系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
由于16kHz数据训练的模型对16kHz的数据处理效果较好,但对8kHz升采样后的数据处理效果较差,因为是模型训练时没有此类数据,因此,通过将16kHz的数据经过降采样到8kHz又升采样到8kHz后的数据也用来训练模型,得到的模型对这两种数据的处理效果都比较理想,所以用不同采样率的数据训练一个模型就可以解决采样率不同导致的性能下降的问题。
本发明实施例提供一种基于自适应采样率的降噪模型处理方法,如图1所示,包括:
步骤1:对第一采样率的训练语音进行第一特征提取;
步骤2:对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
步骤3:计算与所述训练语音对应的纯净语音的实际比值掩膜;
步骤4:将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;
步骤5:基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
上述第一采样率是针对的16KHZ采样率的训练语音,且训练语音是带有噪声的;
上述进行重采样处理,先进行下采样到8KHZ,在进行上采样到16KHZ;
上述获取的第一特征和第二特征是指训练语音中的带噪语音和其对应的纯净语音的语音特征,如信噪比、谐噪比、频率微扰等。
上述技术方案的有益效果是:通过对第一采样频率进行直接特征提取和重采样特征提取,且通过实际比值掩膜与预测比值掩膜之间的误差对降噪模型进行训练,可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。
在一个实施例中,所述重采样处理包括,
第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
对所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
上述技术方案的有益效果是:通过下采样处理和上采样处理的重采样处理,为降噪模型训练提供数据基础。
在一个实施例中,对所述待调整降噪模型进行预调整,基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练的过程中,如图2所示,还包括:
步骤21:对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
步骤22:若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
上述比值掩膜,是用来对训练语音中的噪声分量和语音分量进行滤波,并计算得到对应的协方差等参数。
上述预测比值掩膜是基于训练语音和待调整降噪模型得到的,实际比值掩膜是直接基于训练语音获得的。
上述两者之间的误差,例如不同语音协方差之间的误差。
上述误差范围一般是接近于0的范围。
上述预设数目次一般为3~5次。
上述技术方案的有益效果是:通过确定误差的浮动变化,进而确定是否对降噪模型进行收敛训练,提高最终降噪模型的识别精度,避免不同采样率导致的性能下降。
在一个实施例中,在获取最终降噪模型之后,还包括:
基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其步骤包括,
判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取第一采样率对应的测试语音的第三特征;
将提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
将所述测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
对于该实施例,具体流程如图3所示,其中的待融合语音,是第一采样率对应的测试语音。
上述第一采样率为16KHZ,第二采样率为8KHZ;
上述第三特征是指测试语音中的带噪语音和其对应的纯净语音的语音特征。
例如,通过获得的测试比值掩膜,如获取的测试语音协方差和测试噪声协方差,通过测试语音协方差和测试噪声协方差对16KHZ的测试语音进行融合处理,获得该测试语音中的纯净语音部分,其中,测试语音是包括纯净语音部分和噪声部分。
上述技术方案的有益效果是:一是便于通过最终降噪模型对测试语音进行识别,获得纯净语音,二是为了通过测试语音对最终降噪模型进行测试。
本发明实施例提供一种基于自适应采样率的降噪模型处理系统,如图4所示,包括:
第一提取模块,用于对第一采样率的训练语音进行第一特征提取;
第二提取模块,用于对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算模块,用于计算与所述训练语音对应的纯净语音的实际比值掩膜;
输入模块,用于将所述第一提取模块提取的第一特征和第二提取模块提取的第二特征输入到降噪模型,获得预测比值掩膜;
第一训练模块,用于基于所述计算模块计算的所述实际比值掩膜与所述输入模块获得的预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
上述技术方案的有益效果是:通过对第一采样频率进行直接特征提取和重采样特征提取,且通过实际比值掩膜与预测比值掩膜之间的误差对降噪模型进行训练,可实现对不同采样率数据的有效处理,解决采样率不同导致的性能下降的问题。
在一个实施例中,所述第二提取模块包括:
第一处理单元,用于第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
第二处理单元,对所述第一处理单元获得的所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
优选地,所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
上述技术方案的有益效果是:通过下采样处理和上采样处理的重采样处理,为降噪模型训练提供数据基础。
在一个实施例中,还包括:
获取模块,用于对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
第二训练模块,用于根据所述获取的获取结果,若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
上述技术方案的有益效果是:通过确定误差的浮动变化,进而确定是否对降噪模型进行收敛训练,提高最终降噪模型的识别精度,避免不同采样率导致的性能下降。
在一个实施例中,还包括:
处理模块,用于基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其中,所述处理模块包括:
判断单元,用于判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取单元,用于提取第一采样率对应的测试语音的第三特征;
获取单元,用于将所述提取单元提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
融合单元,用于将所述获取单元获得的测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
上述技术方案的有益效果是:一是便于通过最终降噪模型对测试语音进行识别,获得纯净语音,二是为了通过测试语音对最终降噪模型进行测试。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于自适应采样率的降噪模型处理方法,其特征在于,包括:
对第一采样率的训练语音进行第一特征提取;
对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算与所述训练语音对应的纯净语音的实际比值掩膜;
将提取的第一特征和第二特征输入到降噪模型,获得预测比值掩膜;
基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
2.如权利要求1所述的降噪模型处理方法,其特征在于,所述重采样处理包括:
第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
对所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
3.如权利要求1所述的降噪模型处理方法,其特征在于,基于所述实际比值掩膜与预测比值掩膜之间的误差,对所述降噪模型进行训练的过程中,还包括:
对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
4.如权利要求1所述的降噪模型处理方法,其特征在于,在获得最终降噪模型之后,还包括:
基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其步骤包括:
判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取第一采样率对应的测试语音的第三特征;
将提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
将所述测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
5.如权利要求2或4任一所述的降噪模型处理方法,其特征在于,
所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
6.一种基于自适应采样率的降噪模型处理系统,其特征在于,包括:
第一提取模块,用于对第一采样率的训练语音进行第一特征提取;
第二提取模块,用于对第一采样频率的训练语音进行重采样处理,并对重采样处理后的训练语音进行第二特征提取;
计算模块,用于计算与所述训练语音对应的纯净语音的实际比值掩膜;
输入模块,用于将所述第一提取模块提取的第一特征和第二提取模块提取的第二特征输入到降噪模型,获得预测比值掩膜;
第一训练模块,用于基于所述计算模块计算的所述实际比值掩膜与所述输入模块获得的预测比值掩膜之间的误差,对所述降噪模型进行训练,直到所述实际比值掩膜与预测比值掩膜之间的误差不再变化,获得最终降噪模型,并保存。
7.如权利要求6所述的降噪模型处理系统,其特征在于,所述第二提取模块包括:
第一处理单元,用于第一采样频率的训练语音进行下采样处理,获得第二采样率的训练语音;
第二处理单元,对所述第一处理单元获得的所述第二采样率的训练语音进行上采样处理,获得第一采样率的最终语音;
其中,所述第一采样率的最终语音即为所述重采样处理后的训练语音。
8.如权利要求6所述的降噪模型处理系统,其特征在于,还包括:
获取模块,用于对所述实际比值掩膜与预测比值掩膜之间的误差进行预设数目次获取;
第二训练模块,用于根据所述获取的获取结果,若每次获取的误差都在误差范围内,则训练收敛所述降噪模型,获得最终降噪模型,并保存。
9.如权利要求6所述的降噪模型处理系统,其特征在于,还包括:
处理模块,用于基于获得的最终降噪模型,并对预先获取的测试语音进行预处理,获得最终结果,并输出,其中,所述处理模块包括:
判断单元,用于判断所述预先获取的测试语音的采样率是否为第一采样率,若是,则不作重采样处理;
否则,判定所述预先获取的测试语音的采样率为第二采样率,并对第二采样率的测试语音进行升采样处理,获得相应的第一采样率的测试语音;
提取单元,用于提取第一采样率对应的测试语音的第三特征;
获取单元,用于将所述提取单元提取的第三特征输入到所述最终降噪模型中,获得测试比值掩膜;
融合单元,用于将所述获取单元获得的测试比值掩膜与第一采样率对应的测试语音进行融合处理,恢复所述测试语音的纯净语音;
如果所述预先获取的测试语音的采样率是第二采样率,则将恢复的纯净语音降采样到第二采样率后输出;
如果所述预先获取的测试语音的采样率是第一采样率,则不作处理,并直接输出。
10.如权利要求7或9任一所述的降噪模型处理系统,其特征在于,
所述第一采样率为16KHZ;
所述第二采样率为8KHZ。
CN202010182939.XA 2020-03-16 2020-03-16 一种基于自适应采样率的降噪模型处理方法及系统 Active CN111429930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182939.XA CN111429930B (zh) 2020-03-16 2020-03-16 一种基于自适应采样率的降噪模型处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182939.XA CN111429930B (zh) 2020-03-16 2020-03-16 一种基于自适应采样率的降噪模型处理方法及系统

Publications (2)

Publication Number Publication Date
CN111429930A true CN111429930A (zh) 2020-07-17
CN111429930B CN111429930B (zh) 2023-02-28

Family

ID=71546374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182939.XA Active CN111429930B (zh) 2020-03-16 2020-03-16 一种基于自适应采样率的降噪模型处理方法及系统

Country Status (1)

Country Link
CN (1) CN111429930B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284507A (zh) * 2021-05-14 2021-08-20 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
WO2022032608A1 (zh) * 2020-08-11 2022-02-17 南京拓灵智能科技有限公司 一种音频降噪方法和装置
WO2024029771A1 (en) * 2022-08-05 2024-02-08 Samsung Electronics Co., Ltd. Method, apparatus and computer readable medium for generating clean speech signal using speech denoising networks based on speech and noise modeling

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
MY121575A (en) * 1995-02-17 2006-02-28 Sony Corp Method for noise reduction
US20080144848A1 (en) * 2006-12-18 2008-06-19 Markus Buck Low complexity echo compensation system
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
US8032388B1 (en) * 2007-09-28 2011-10-04 Adobe Systems Incorporated Dynamic selection of supported audio sampling rates for playback
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US20180301158A1 (en) * 2017-04-14 2018-10-18 Baidu Online Network Technology (Beijing) Co., Ltd Speech noise reduction method and device based on artificial intelligence and computer device
CN109147806A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109817239A (zh) * 2018-12-24 2019-05-28 龙马智芯(珠海横琴)科技有限公司 语音的降噪方法及装置
CN109841226A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN110491407A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110634497A (zh) * 2019-10-28 2019-12-31 普联技术有限公司 降噪方法、装置、终端设备及存储介质
CN110706686A (zh) * 2019-12-13 2020-01-17 恒玄科技(北京)有限公司 降噪方法、自适应滤波器、入耳式耳机和半入耳式耳机
CN110797038A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY121575A (en) * 1995-02-17 2006-02-28 Sony Corp Method for noise reduction
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US20080144848A1 (en) * 2006-12-18 2008-06-19 Markus Buck Low complexity echo compensation system
US8032388B1 (en) * 2007-09-28 2011-10-04 Adobe Systems Incorporated Dynamic selection of supported audio sampling rates for playback
CN102074245A (zh) * 2011-01-05 2011-05-25 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及语音增强方法
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
US20180301158A1 (en) * 2017-04-14 2018-10-18 Baidu Online Network Technology (Beijing) Co., Ltd Speech noise reduction method and device based on artificial intelligence and computer device
CN107452389A (zh) * 2017-07-20 2017-12-08 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN109147806A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和系统
CN109841226A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN109817239A (zh) * 2018-12-24 2019-05-28 龙马智芯(珠海横琴)科技有限公司 语音的降噪方法及装置
CN110491407A (zh) * 2019-08-15 2019-11-22 广州华多网络科技有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110634497A (zh) * 2019-10-28 2019-12-31 普联技术有限公司 降噪方法、装置、终端设备及存储介质
CN110797038A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
CN110706686A (zh) * 2019-12-13 2020-01-17 恒玄科技(北京)有限公司 降噪方法、自适应滤波器、入耳式耳机和半入耳式耳机

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鲍长春等: "基于深度神经网络的单通道语音增强方法回顾", 《信号处理》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022032608A1 (zh) * 2020-08-11 2022-02-17 南京拓灵智能科技有限公司 一种音频降噪方法和装置
CN113284507A (zh) * 2021-05-14 2021-08-20 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113284507B (zh) * 2021-05-14 2024-02-13 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
WO2024029771A1 (en) * 2022-08-05 2024-02-08 Samsung Electronics Co., Ltd. Method, apparatus and computer readable medium for generating clean speech signal using speech denoising networks based on speech and noise modeling

Also Published As

Publication number Publication date
CN111429930B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN111429930B (zh) 一种基于自适应采样率的降噪模型处理方法及系统
US10997970B1 (en) Methods and systems implementing language-trainable computer-assisted hearing aids
CN111862953B (zh) 语音识别模型的训练方法、语音识别方法及装置
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
Zahorian et al. Spectral‐shape features versus formants as acoustic correlates for vowels
DK1760696T3 (en) Method and apparatus for improved estimation of non-stationary noise to highlight speech
CN103578468B (zh) 一种语音识别中置信度阈值的调整方法及电子设备
CN105869626A (zh) 一种语速自动调节的方法及终端
CN101989424A (zh) 语音处理设备和方法及程序
Bulut et al. Low-latency single channel speech enhancement using u-net convolutional neural networks
CN110189746B (zh) 一种应用于地空通信的话音识别方法
CN103177721A (zh) 语音识别方法和系统
Hermansky Speech recognition from spectral dynamics
Latorre et al. Continuous F0 in the source-excitation generation for HMM-based TTS: Do we need voiced/unvoiced classification?
EP1280137B1 (en) Method for speaker identification
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
CN113763966B (zh) 一种端到端的文本无关声纹识别方法及系统
CN108091323A (zh) 用于自语音中识别情感的方法与装置
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Hanson et al. Subband or cepstral domain filtering for recognition of Lombard and channel-distorted speech
Agrawal et al. Unsupervised Raw Waveform Representation Learning for ASR.
CN112825250A (zh) 语音唤醒方法、设备、存储介质及程序产品
CN110211598A (zh) 智能语音降噪通信方法及装置
Tomanek et al. An analysis of degenerating speech due to progressive dysarthria on ASR performance
Balasubramanian et al. Ideal ratio mask estimation based on cochleagram for audio-visual monaural speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant