CN110491406A - 一种多模块抑制不同种类噪声的双噪声语音增强方法 - Google Patents
一种多模块抑制不同种类噪声的双噪声语音增强方法 Download PDFInfo
- Publication number
- CN110491406A CN110491406A CN201910914176.0A CN201910914176A CN110491406A CN 110491406 A CN110491406 A CN 110491406A CN 201910914176 A CN201910914176 A CN 201910914176A CN 110491406 A CN110491406 A CN 110491406A
- Authority
- CN
- China
- Prior art keywords
- noise
- stage
- speech
- module
- amplitude spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 230000001629 suppression Effects 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 230000002708 enhancing effect Effects 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 238000000465 moulding Methods 0.000 claims 1
- 210000004218 nerve net Anatomy 0.000 claims 1
- 230000005764 inhibitory process Effects 0.000 abstract description 3
- 230000000750 progressive effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 239000004568 cement Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开一种多模块抑制不同种类噪声的双噪声语音增强方法,包括以下步骤:S1:对多种类型的噪声进行分阶段建模,对于输入的带噪语音,在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征;其中,每个噪声抑制模块的损失函数均不相同;S2:过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络;本发明提出一种多模块分阶段抑制不同种类噪声的双噪声语音增强方法,每个模块分别抑制一种或几种不同类型的噪声,同时提高其在混合噪声环境和低信噪比环境的性能,再将增强结果集成到后一阶段,它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射,对特征进行提炼,得到更加纯净的幅度谱。
Description
技术领域
本发明属于语音增强技术领域,尤其涉及一种多模块抑制不同种类噪声的双噪声语音增强方法。
背景技术
语音增强算法是一项重要的语音处理技术,可为语音识别系统、听觉辅助设备和军事窃听装置提供支持。目前语音识别算法准确率已经达到较高水平,在一些公开数据集中甚至超过熟练的听写转录人员。然而由于噪声或混响干扰的存在,语音增强后语音识别算法才能达到理想的效果。现在的语音增强算法只对较高信噪比的含单种噪声的带噪语音有良好的表现。在会议环境、战场环境和街道环境等真实场景下,环境中会存在多种噪声而且信噪比有较大的变化范围。对于双噪声场景,一般算法不易表现出良好的泛化性。而在低信噪比环境下,由于音频中噪声能量占主导,语音增强算法性能会明显恶化。
发明内容
本发明提供一种多模块抑制不同种类噪声的双噪声语音增强方法,旨在解决上述存在的问题。
本发明是这样实现的,一种多模块抑制不同种类噪声的双噪声语音增强方法,包括以下步骤:
S1:对多种类型的噪声进行分阶段建模,对于输入的带噪语音,在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征;其中,每个噪声抑制模块的损失函数均不相同;
S2:过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络;
S3:使用神经网络学习带噪幅度谱到纯净幅度谱的映射,对特征进行提炼,得到纯净的幅度谱;
S4:中间噪声抑制模块损失函数的拟合目标为带噪语音,最终噪声抑制模块损失函数的拟合目标为纯净语音。
进一步的,所述带噪语音由以下公式表示:
式中X表示带噪语音,S表示纯净语音,Ni表示一种加性噪声,共有k种噪声。
进一步的,所述噪声抑制模块包含2层全连接层和2层LSTM,其执行基本的抑制带噪语音中某一种或多种噪声的任务,其功能由以下公式表示:
X′=f(X)
上式表示增强语音X′,其噪声数量少于降噪以前,f表示NRM网络。
进一步的,步骤S1中,包含两个阶段,所述第一阶段包含两个噪声抑制模块,其中,每个噪声抑制模块的输入都为含两种噪声的带噪语音,输出幅度谱的带噪语音中噪声种类少于输入。
进一步的,第一阶段得到2个含不同噪声类型的语音幅度谱,每个幅度谱含有不同的语音特征信息;两个噪声抑制模块及其损失函数分别由以下公式表示:
X21=f1l(X1)
X22=f12(X1)
式中,x1=5+N1+N2、X21=S+N1、x22=S+N2,X1表示含两种噪声的混合带噪语音,X21、X22表示含一种噪声的带噪语音,X21、X22含有噪声种类不同;li表示噪声抑制模块的损失函数,i=1,2。
进一步的,所述第二阶段只含一个噪声抑制模块,不限定过滤某种噪声,输入为第一阶段产生的含丰富语音特征信息的多个幅度谱,这些幅度谱被拼接送入一个噪声抑制模块,噪声抑制模块的输出为最终增强语音,表示为:
X2=[X1;X21;X22]
X3=f2(x2)
式中表示X2由X1、X21、X22拼接形成;
该噪声抑制模块的损失函数表示为:
进一步的,还包括以下步骤:对3个模块进行联合训练,最终的损失函数表示为:
loss=α1*l1+α2*l2+...+αm*lm
其中li表示每个模块的损失函数,αi表示每个模块的权重,共有m个模块。
与现有技术相比,本发明的有益效果是:本发明提出一种多模块分阶段抑制不同种类噪声的双噪声语音增强方法,每个模块分别抑制一种或几种不同类型的噪声,同时提高其在混合噪声环境和低信噪比环境的性能,再将增强结果集成到后一阶段,它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射,对特征进行提炼,得到更加纯净的幅度谱。
附图说明
图1为本发明中密集连接的三阶段渐进学习模型结构示意图;
图2为本发明中密集连接的双噪声抑制模型(Double Noise Speech EnhancementModel,DNSE)结构示意图;
图3为本发明中噪声抑制模块结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1-3,本发明提供一种技术方案:一种多模块抑制不同种类噪声的双噪声语音增强方法,包括以下步骤:
S1:对多种类型的噪声进行分阶段建模,对于输入的带噪语音,在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征;其中,每个噪声抑制模块的损失函数均不相同;
S2:过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络;
S3:使用神经网络学习带噪幅度谱到纯净幅度谱的映射,对特征进行提炼,得到纯净的幅度谱;
S4:中间噪声抑制模块损失函数的拟合目标为带噪语音,最终噪声抑制模块损失函数的拟合目标为纯净语音。
本发明借鉴了Gao等人的渐进学习模型,其渐进学习模型结构如图1所示。它在每个阶段使用神经网络学习带噪幅度谱到较纯净幅度谱的映射,对特征进行提炼,得到更加纯净的幅度谱。对于每一个阶段,每个批次的语音目标更加纯净,意味着每阶段提高一定程度的语音质量。
与上述模型不同的是,DNSE模型每个子目标为减少了噪声种类的带噪语音幅度谱。对一种带噪语音单独建模的方法在之前的研究中已经大量出现,其对已知噪声具有较强的降噪能力。根据这个特点,本模型被设计为对多种类型的噪声进行分阶段建模,对于输入的带混合噪声的语音,在每个阶段提取并过滤一种噪声特征。之后,过程中被抑制部分噪声的幅度谱被和原始带噪语音幅度谱拼接并输入最终的神经网络。本模型包括两个阶段,每阶段含不同数量相同结构的NRM。模型示意图参见图2。
本发明使用的含混合噪声的带噪语音可由以下公式表示:
式(1)中X表示带噪语音,S表示纯净语音,Ni表示一种加性噪声,共有k种噪声。
如图3所示,模型基本的语音增强模块含2层全连接层和2层LSTM,其执行基本的抑制带噪语音中某一种或多种噪声的任务,其功能可由以下公式表示:
X′=f(X) (2)
式(2)表示增强语音X′,其噪声数量少于降噪以前。f表示NRM网络。
具体地,第一阶段中包含两个噪声抑制模块,每个模块执行抑制不同简单噪声的任务。第一阶段中所有模块的输入都为含2种噪声的带噪语音,输出幅度谱的带噪语音中噪声种类少于输入。本阶段将得到2个含不同噪声类型的语音幅度谱,每个幅度谱含有不同的语音特征信息。两个模块及其损失函数可分别由以下公式表示:
X21=f11(X1) (3)
X22=f12(X1) (4)
式(3)和式(4)中,X1=S+N1+N2、X21=S+N1、X22=S+N2,x1表示含两种噪声的混合带噪语音,X21、X22表示含一种噪声的带噪语音,X21、X22含有噪声种类不同。式(5)表示NRM的损失函数,i=1,2。
其中,第二阶段只含一个NRM,不限定过滤某种噪声。输入为第一阶段产生的含丰富语音特征信息的多个幅度谱,这些幅度谱被拼接送入一个NRM,NRM的输出为最终增强语音。其可表示为:
X2=[X1;X21;X22] (6)
X3=f2(X2) (7)
式(6)表示X2由X1、X21、X22拼接形成。
该模块的损失函数可表示为:
作为优选的,双噪声模型的3个模块进行联合训练,最终的损失函数可表示为:
loss=α1*l1+α2*l2+...+αm*lm (9)
其中li表示每个模块的损失函数,αi表示每个模块的权重,共有m个模块。
试验例
噪声数据来自Noisex92数据集,取babble、destroyerops、m109、factory1、factory2、volvo共6种噪声作为噪声数据集。语音数据来自TIMIT数据集,从中抽取训练数据1984条和测试数据1280条,测试数据分与说话人身份相同或不同的数据集。双噪声实验将使用babble、factory1、factory2、volvo、babble、destroyerops、m109共6种非平稳噪声。factory1、factory2、volvo和babble、destroyerops、m109按主观感受分为相似的两组,每组分别取一种噪声产生混合噪声,共形成9种混合噪声。混合噪声与语音产生混合带噪语音。
实验分为双噪声模型实验、基线模型实验。基线模型包括Gao的渐进学习模型、LSTM模型和log-MMSE模型。双噪声模型和基线模型都在-10、-5、0、5dB的信噪比环境下进行训练,在对应的信噪比环境下测试。模型网络的输入为语音信号经短时傅里叶变换处理所得的幅度谱,窗长为512,滑动长度为256。幅度谱为(batch×time×frequency)的矩阵,其中batch为32,frequency为257,所有音频的采样频率为16000Hz。
双噪声模型中,输入6种噪声里的2种和语音混合产生带噪语音。NRM的每个全连接层的参数矩阵尺寸为(frequency×1024),LSTM层的尺寸为1024。第一阶段目标为对应的含单种噪声的带噪语音,第二阶段目标为对应的纯净语音。最终的损失函数中,第一阶段的2个损失值的权值为0.20,第二阶段的权值为1。三阶段渐进学习模型、4层LSTM模型和Log-MMSE模型被作为基线模型。渐进学习模型的输入为含混合噪声的带噪语音,每一阶段把较高信噪比的带噪语音作为目标,混合语音的噪声类型不变。例如,输入为0dB带噪语音,第一阶段目标为10dB带噪语音,第二阶段目标为20dB带噪语音,第三阶段目标为纯净语音。这里的10dB和20dB带噪语音都由之前已有的混合噪声和语音产生。每阶段损失值的权值与Gao论文中相同。为保证几个模型的模型复杂度接近,同时减少梯度消失现象的发生,LSTM基线模型由4层LSTM和两层全连接层
构成,每层LSTM的尺寸为1024。
表1列出了双噪声语音增强模型和基线模型在可见说话人带噪语音测试数据集上的实验结果。从3个指标总体来看,深度学习模型性能优于传统算法Log-MMSE;PL和DNSE模型优于LSTM模型。DNSE只在PESQ和SDR上优于PL,其STOI和PL较为接近。在-10、-5dB环境下,DNSE的SDR明显高于PL,分别提高了0.51和0.62;PESQ较PL分别提高了0.05和0.03。然而,较高信噪比环境下,SDR提升不明显。
表2列出了双噪声语音增强模型和基线模型在不可见说话人带噪语音测试数据集上的实验结果。总的来说,从表2与表1中可以发现相同的趋势。在-10、-5、0dB等较低信噪比环境下,DNSE模型较PL模型在PESQ、SDR上有所提高。SDR分别提高了0.58、0.65和0.25,PESQ分别提高了0.06、0.03和0.04。然而,在5dB环境下,它的PESQ、SDR都低于PL模型。
由于在低信噪比环境下,噪声能量占主导,神经网络难以捕获带噪语音特征到纯净语音特征的映射关系,单个学习器获取的语音特征信息有限。且用单个神经网络学习含多噪声的带噪语音特征易导致神经网络遗忘早期训练得到的信息。因此使用多个神经网络分别学习某一噪声特征可以提高语音增强模型在低信噪比环境下保存信息的能力,由此提高模型性能。
为了有效处理含多种噪声的低信噪比语音,本发明提出了一种双噪声模型。双噪声模型由多个NRM构成,每一个模块负责抑制一种或多种噪声。每个模块的损失函数设置不同,中间模块损失函数的拟合目标为带噪语音,最终模块损失函数的拟合目标为纯净语音。双噪声模型在已知说话人和未知说话人带噪语音数据集上的性能都超过基线模型,证明了在低信噪比环境下用多个神经网络对不同种噪声分别进行建模的方法好于单个神经网络对所有噪声建模。此外,不同带噪语音幅度谱含有丰富的特征信息也使得模型获得了更好的性能。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种多模块抑制不同种类噪声的双噪声语音增强方法,其特征在于,包括以下步骤:
S1:对多种类型的噪声进行分阶段建模,对于输入的带噪语音,在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征;其中,每个噪声抑制模块的损失函数均不相同;
S2:过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络;
S3:使用神经网络学习带噪幅度谱到纯净幅度谱的映射,对特征进行提炼,得到纯净的幅度谱;
S4:中间噪声抑制模块损失函数的拟合目标为带噪语音,最终噪声抑制模块损失函数的拟合目标为纯净语音。
2.根据权利要求1所述的双噪声语音增强方法,其特征在于:所述带噪语音由以下公式表示:
式中X表示带噪语音,S表示纯净语音,Ni表示一种加性噪声,共有k种噪声。
3.根据权利要求1所述的双噪声语音增强方法,其特征在于:所述噪声抑制模块包含2层全连接层和2层LSTM,其执行基本的抑制带噪语音中某一种或多种噪声的任务,其功能由以下公式表示:
X′=f(X)
上式表示增强语音X′,其噪声数量少于降噪以前,f表示噪声抑制模块(NoiseReduction Module,NRM)网络。
4.根据权利要求1所述的双噪声语音增强方法,其特征在于,步骤S1中,包含两个阶段,所述第一阶段包含两个噪声抑制模块,其中,每个噪声抑制模块的输入都为含两种噪声的带噪语音,输出幅度谱的带噪语音中噪声种类少于输入。
5.根据权利要求4所述的双噪声语音增强方法,其特征在于:第一阶段得到2个含不同类型噪声的语音幅度谱,每个幅度谱含有不同的语音特征信息;两个噪声抑制模块及其损失函数分别由以下公式表示:
X21=f11(X1)
X22=f12(X1)
式中,X1=S+N1+N2、X21=S+N1、X22=S+N2,X1表示含两种噪声的混合带噪语音,X21、X22表示含一种噪声的带噪语音,X21、X22含有噪声种类不同;li表示噪声抑制模块的损失函数,i=1,2。
6.根据权利要求5所述的双噪声语音增强方法,其特征在于:所述第二阶段只含一个噪声抑制模块,不限定过滤某种噪声,输入为第一阶段产生的含丰富语音特征信息的多个幅度谱,这些幅度谱被拼接送入一个噪声抑制模块,噪声抑制模块的输出为最终增强语音,表示为:
X2=[X1;X21;X22]
X3=f2(X2)
式中表示X2由X1、X21、X22拼接形成;
该噪声抑制模块的损失函数表示为:
7.根据权利要求6所述的双噪声语音增强方法,其特征在于,还包括以下步骤:对3个模块进行联合训练,最终的损失函数表示为:
loss=α1*l1+α2*l2+···+αm*lm
其中li表示每个模块的损失函数,αi表示每个模块的权重,共有m个模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914176.0A CN110491406B (zh) | 2019-09-25 | 2019-09-25 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910914176.0A CN110491406B (zh) | 2019-09-25 | 2019-09-25 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110491406A true CN110491406A (zh) | 2019-11-22 |
CN110491406B CN110491406B (zh) | 2020-07-31 |
Family
ID=68544328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910914176.0A Active CN110491406B (zh) | 2019-09-25 | 2019-09-25 | 一种多模块抑制不同种类噪声的双噪声语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110491406B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530460A (zh) * | 2020-11-30 | 2021-03-19 | 厦门亿联网络技术股份有限公司 | 语音增强质量评估方法、装置、终端及存储介质 |
CN113160839A (zh) * | 2021-04-16 | 2021-07-23 | 电子科技大学 | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 |
CN113345460A (zh) * | 2021-08-05 | 2021-09-03 | 北京世纪好未来教育科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN114299977A (zh) * | 2021-11-30 | 2022-04-08 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
CN114512140A (zh) * | 2020-10-29 | 2022-05-17 | 阿里巴巴集团控股有限公司 | 语音增强方法、装置及设备 |
CN117153178A (zh) * | 2023-10-26 | 2023-12-01 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备和存储介质 |
CN117642815A (zh) * | 2021-07-21 | 2024-03-01 | 高通股份有限公司 | 使用协作网络的噪声抑制 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
US20130196715A1 (en) * | 2012-01-30 | 2013-08-01 | Research In Motion Limited | Adjusted noise suppression and voice activity detection |
US20140301558A1 (en) * | 2013-03-13 | 2014-10-09 | Kopin Corporation | Dual stage noise reduction architecture for desired signal extraction |
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
US20160358602A1 (en) * | 2015-06-05 | 2016-12-08 | Apple Inc. | Robust speech recognition in the presence of echo and noise using multiple signals for discrimination |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
CN107547981A (zh) * | 2017-05-17 | 2018-01-05 | 宁波桑德纳电子科技有限公司 | 一种集音装置、监控装置及集音方法 |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN108877823A (zh) * | 2018-07-27 | 2018-11-23 | 三星电子(中国)研发中心 | 语音增强方法和装置 |
CN109215674A (zh) * | 2018-08-10 | 2019-01-15 | 上海大学 | 实时语音增强方法 |
-
2019
- 2019-09-25 CN CN201910914176.0A patent/CN110491406B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074245A (zh) * | 2011-01-05 | 2011-05-25 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及语音增强方法 |
US20130196715A1 (en) * | 2012-01-30 | 2013-08-01 | Research In Motion Limited | Adjusted noise suppression and voice activity detection |
US20140301558A1 (en) * | 2013-03-13 | 2014-10-09 | Kopin Corporation | Dual stage noise reduction architecture for desired signal extraction |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
US20160358602A1 (en) * | 2015-06-05 | 2016-12-08 | Apple Inc. | Robust speech recognition in the presence of echo and noise using multiple signals for discrimination |
US20170162194A1 (en) * | 2015-12-04 | 2017-06-08 | Conexant Systems, Inc. | Semi-supervised system for multichannel source enhancement through configurable adaptive transformations and deep neural network |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN107547981A (zh) * | 2017-05-17 | 2018-01-05 | 宁波桑德纳电子科技有限公司 | 一种集音装置、监控装置及集音方法 |
CN108877823A (zh) * | 2018-07-27 | 2018-11-23 | 三星电子(中国)研发中心 | 语音增强方法和装置 |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN109215674A (zh) * | 2018-08-10 | 2019-01-15 | 上海大学 | 实时语音增强方法 |
Non-Patent Citations (2)
Title |
---|
TIAN GAO ET AL.: "Densely connected progressive learning for lstm-based speech enhancement", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
袁文浩 等: "利用深度卷积神经网络提高未知噪声下的语音增强性能", 《自动化学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114512140A (zh) * | 2020-10-29 | 2022-05-17 | 阿里巴巴集团控股有限公司 | 语音增强方法、装置及设备 |
CN112530460A (zh) * | 2020-11-30 | 2021-03-19 | 厦门亿联网络技术股份有限公司 | 语音增强质量评估方法、装置、终端及存储介质 |
CN113160839A (zh) * | 2021-04-16 | 2021-07-23 | 电子科技大学 | 一种基于自适应注意力机制和渐进式学习的单声道语音增强方法 |
CN117642815A (zh) * | 2021-07-21 | 2024-03-01 | 高通股份有限公司 | 使用协作网络的噪声抑制 |
CN113345460A (zh) * | 2021-08-05 | 2021-09-03 | 北京世纪好未来教育科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN114299977A (zh) * | 2021-11-30 | 2022-04-08 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
CN114299977B (zh) * | 2021-11-30 | 2022-11-25 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
CN117153178A (zh) * | 2023-10-26 | 2023-12-01 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备和存储介质 |
CN117153178B (zh) * | 2023-10-26 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110491406B (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491406A (zh) | 一种多模块抑制不同种类噪声的双噪声语音增强方法 | |
Tak et al. | Rawboost: A raw data boosting and augmentation method applied to automatic speaker verification anti-spoofing | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
Fu et al. | End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks | |
Gabbay et al. | Seeing through noise: Visually driven speaker separation and enhancement | |
Pandey et al. | A New Framework for Supervised Speech Enhancement in the Time Domain. | |
Pandey et al. | On adversarial training and loss functions for speech enhancement | |
Lin et al. | Speech enhancement using multi-stage self-attentive temporal convolutional networks | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN109599109A (zh) | 针对白盒场景的对抗音频生成方法及系统 | |
CN106683666B (zh) | 一种基于深度神经网络的领域自适应方法 | |
WO2022134351A1 (zh) | 单声道语音降噪方法、系统、设备及可读存储介质 | |
CN113763977A (zh) | 消除回声信号的方法、装置、计算设备和存储介质 | |
Seidel et al. | Y $^ 2$-Net FCRN for Acoustic Echo and Noise Suppression | |
Tu et al. | A multi-target SNR-progressive learning approach to regression based speech enhancement | |
CN110176243A (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
Wang et al. | Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training | |
Watcharasupat et al. | End-to-end complex-valued multidilated convolutional neural network for joint acoustic echo cancellation and noise suppression | |
Wu et al. | Self-supervised speech denoising using only noisy audio signals | |
Liu et al. | A mask free neural network for monaural speech enhancement | |
Zhu et al. | A comparison of handcrafted, parameterized, and learnable features for speech separation | |
CN110619886B (zh) | 一种针对低资源土家语的端到端语音增强方法 | |
KR20030078218A (ko) | 음성신호에서 잡음을 제거하는 방법 및 장치 | |
CN116564329A (zh) | 实时通话声纹降噪方法及电子设备和存储介质 | |
Shao et al. | Sequential organization of speech in computational auditory scene analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |