CN111243617A - 一种基于深度学习降低mfcc特征失真的语音增强方法 - Google Patents

一种基于深度学习降低mfcc特征失真的语音增强方法 Download PDF

Info

Publication number
CN111243617A
CN111243617A CN202010033002.6A CN202010033002A CN111243617A CN 111243617 A CN111243617 A CN 111243617A CN 202010033002 A CN202010033002 A CN 202010033002A CN 111243617 A CN111243617 A CN 111243617A
Authority
CN
China
Prior art keywords
voice
speech
amplitude
enhanced
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010033002.6A
Other languages
English (en)
Other versions
CN111243617B (zh
Inventor
李军锋
尹路
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN202010033002.6A priority Critical patent/CN111243617B/zh
Publication of CN111243617A publication Critical patent/CN111243617A/zh
Application granted granted Critical
Publication of CN111243617B publication Critical patent/CN111243617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)

Abstract

本发明公开了一种基于深度学习降低MFCC特征失真的语音增强方法。通过处理混合语音得到其频谱,提取其频谱幅度;将频谱幅度输入神经网络得到目标语音理想幅度掩蔽估计值;将此估计值乘以混合信号的频谱幅度得到增强语音的频谱幅度;根据增强语音的频谱幅度得到增强语音的MFCC声学特征;处理目标语音得到其频谱,提取其频谱幅度;根据目标语音的频谱幅度得到目标语音的MFCC声学特征;将增强语音与目标语音的频谱幅度误差,以及增强语音与目标语音的MFCC声学特征误差按比例相加后作为损失函数训练神经网络。使用训练得到的神经网络实施语音增强方法。通过上述方法训练神经网络,减小MFCC声学特征失真。提高后续语音增强方法得到信号的识别准确性。

Description

一种基于深度学习降低MFCC特征失真的语音增强方法
技术领域
本发明涉及语音识别领域,特别涉及一种基于深度学习降低MFCC特征失真的语音增强方法。
背景技术
语音增强技术是从带有干扰噪声的混合语音信号中,提取出目标说话人的语音信号。该技术对目标说话人检测、语音识别等具有重要意义。
由于语音信号的复杂性和不稳定性,传统的分离方法达不到很好的增强效果,并且以往的基于深度学习的语音增强方法中只对目标信号的频谱幅度进行优化,导致增强后语音信号的梅尔倒谱系数MFCC(mel frequency cepstral coefficients)声学特征失真较大,影响了语音识别、目标说话人检测等任务的准确率。
发明内容
本发明实施例的目的在于解决现有技术存在的缺陷。
本发明实施例提供了一种基于深度学习降低MFCC特征失真的语音增强方法,通过下列步骤实现上述目的。
将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,提取混合语音信号的频谱幅度;待训练神经网络将混合语音信号的频谱幅度作为输入,输出目标语音理想幅度掩蔽估计值;将目标语音理想幅度掩蔽估计值乘以混合信号的频谱幅度,得到增强后语音的频谱幅度;对增强后语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换,得到增强语音的MFCC声学特征;对目标语音信号进行分帧、加窗、傅里叶变换,得到目标语音信号的频谱,提取目标语音的频谱幅度;对目标语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换,得到目标语音的MFCC声学特征;计算增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差,以及增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差;将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练;多次重复上述步骤对待训练神经网络进行训练,得到用于语音增强的神经网络。将带有干扰噪声的待增强混合语音信号频谱幅度输入所述用于语音增强的神经网络,由神经网络输出增强语音的理想幅度掩蔽估计值;使用增强语音的理想幅度掩蔽估计值和带有干扰噪声的待增强混合语音信号相乘,得到增强后的语音信号。
一个实例中,将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音频谱的步骤,具体为:取每32ms采样点为一帧信号;当采样率为8kHz时,则对应256个采样点;当采样频率为16kHz时,则对应为512个采样点;若长度不足32ms则将采样点补零到256或512个后对每一帧信号进行加窗;其中,加窗函数采用汉明窗或汉宁窗。
一个实例中,增强后语音的频谱幅度
Figure BDA0002365024290000021
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0002365024290000022
为目标语音理想幅度掩蔽估计值,|Y(k,l)|为带有干扰噪声的混合语音频谱幅度。
一个实例中,增强语音的MFCC声学特征
Figure BDA0002365024290000023
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0002365024290000024
为增强语音的频谱幅度,Mel为梅尔滤波器组,Log{}为对数运算,DCT为离散余弦变换矩阵,n为MFCC声学特征的阶数。
一个实例中,目标语音的MFCC声学特征MFCC(n,l)=DCT*Log{Mel*|S(k,l)|2};其中,|S(k,l)|为目标语音的频谱幅度,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,Mel为梅尔滤波器组,Log{}为对数运算,DCT为离散余弦变换变换。
一个实例中,增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差
Figure BDA0002365024290000025
一个实例中,增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差
Figure BDA0002365024290000026
一个实例中,将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练,具体为:
将频谱幅度误差与MFCC声学特征误差按比例相加得到损失函数loss=λ1loss1+λ2·loss2;其中,λ1为频谱幅度误差loss1的权重,λ2为MFCC声学特征误差loss2的权重;通过迭代,对损失函数进行最小化均方误差,使增强语音的频谱幅度逼近于目标语音的频谱幅度,使增强语音的MFCC声学特征逼近于目标语音的MFCC声学特征。
一个实例中,增强后的语音信号
Figure BDA0002365024290000031
其中,
Figure BDA0002365024290000032
为增强语音理想幅度掩蔽估计值,Y(k,l)为带有干扰噪声的混合语音,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引。
本发明实施例的优点在于:使用信号误差及MFCC声学特征误差对网络训练,网络的输出同时对语音信号的频谱幅度和语音信号的MFCC声学特征进行了优化,减小了增强后语音信号的MFCC声学特征失真。将采用该方法增强的语音信号用于语音识别和说话人识别时,提高了识别系统的准确性。
附图说明
图1为本发明实施例的一种基于深度学习降低MFCC特征失真的语音增强方法流程框图;
图2为本发明实施例中计算损失函数训练神经网络的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的一种基于深度学习降低MFCC特征失真的语音增强方法,将带有干扰噪声的混合语音信号的频谱幅度输入待训练神经网络,通过神经网络输出目标语音理想幅度掩蔽估计值,由目标语音理想幅度掩蔽估计值乘以混合语音的频谱幅度得到增强语音的频谱幅度,进而由增强语音的频谱幅度计算出增强语音的MFCC声学特征;通过增强语音的频谱幅度及增强语音的MFCC声学特征与目标语音的频谱幅度及目标语音的MFCC声学特征求出损失函数,进行反向传播算法迭代,进而最小化均方误差,以此对神经网络进行训练,使神经网络输出目标语音理想幅度掩蔽估计值逼近于目标语音理想幅度掩蔽的理论值。通过反复训练待训练神经网络得到用于语音增强的神经网络。将带有干扰噪声的待增强混合语音信号频谱幅度输入这一训练好的神经网络,由神经网络输出增强语音的理想幅度掩蔽估计值,进而得到增强后的语音信号。
上述过程中的目标语音理想幅度掩蔽的理论值
Figure BDA0002365024290000041
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,|X(k,l)|为目标语音频谱幅度理论值,|Y(k,l)|为混合语音信号的频谱幅度。
具体地语音增强方法,如图1所示,包括下列步骤:
步骤S101:将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,提取混合语音信号的频谱幅度。
例如,取每32ms采样点为一帧信号。若采样率为8kHz时,则对应256个采样点;若采样频率为16kHz时,则对应为512个采样点。若长度不足32ms则先将采样点补零到256或512个,然后对每一帧信号进行加窗;其中,加窗函数采用汉明窗或汉宁窗。
步骤S102:待训练神经网络将混合语音信号的频谱幅度作为输入,输出目标语音理想幅度掩蔽估计值。
步骤S103:将目标语音理想幅度掩蔽估计值乘以混合信号的频谱幅度,得到增强后语音的频谱幅度。
增强后语音的频谱幅度
Figure BDA0002365024290000042
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0002365024290000043
为目标语音理想幅度掩蔽估计值,|Y(k,l)|为带有干扰噪声的混合语音频谱幅度。
步骤S104:对增强后语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换,得到增强语音的MFCC声学特征。
增强语音的MFCC声学特征
Figure BDA0002365024290000044
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure BDA0002365024290000045
为增强语音的频谱幅度,Mel为梅尔滤波器组,Log{}为对数运算,DCT为离散余弦变换矩阵,n为MFCC声学特征的阶数。
步骤S105:对目标语音信号进行分帧、加窗、傅里叶变换,得到目标语音信号的频谱,提取目标语音的频谱幅度。
步骤S106:对目标语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换,得到目标语音的MFCC声学特征。
目标语音的MFCC声学特征MFCC(n,l)=DCT*Log{Mel*|S(k,l)|2};其中,|S(k,l)|为目标语音的频谱幅度,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,Mel为梅尔滤波器组,Log{}为对数运算,DCT为离散余弦变换矩阵。
需要说明,一方面,步骤S101~步骤S104具备顺序关系,步骤S105~步骤S106具备顺序关系。但是,步骤S101~步骤S104和步骤S105~步骤S106的两个顺序关系相互独立,并没有严格的顺序关系。即可以先进行步骤S101~步骤104,然后进行步骤S105~步骤S106;也可以先进行步骤S105~步骤S106,然后进行步骤S101~步骤S104;还可以在进行步骤S101~步骤S104的同时,进行步骤S105~步骤S106。
另一方面,步骤S103中得到的增强语音的频谱幅度、步骤S104中得到的增强语音的MFCC声学特征、步骤S105中得到的增强语音的MFCC声学特征和步骤S106中得到的目标语音的MFCC声学特征,将在步骤S107中进行使用。
步骤S107:计算增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差,以及增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差。
增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差
Figure BDA0002365024290000051
Figure BDA0002365024290000052
增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差
Figure BDA0002365024290000053
步骤S108:将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练,得到用于语音增强的神经网络。
具体地,步骤S108具体包括步骤S1081和步骤S1082,如图2所示。
步骤S1081:将频谱幅度误差与MFCC声学特征误差按比例相加得到损失函数loss=λ1·loss1+λ2·loss2;其中,λ1为频谱幅度误差loss1的权重,λ2为MFCC声学特征误差loss2的权重。
步骤S1082:通过迭代,对损失函数loss进行最小化均方误差,使损失函数loss的值减小。使增强语音的频谱幅度逼近于目标语音的频谱幅度,使增强语音的MFCC声学特征逼近于目标语音的MFCC声学特征。
通过多次重复步骤S101~步骤S108的过程,对待训练神经网络进行训练,能够得到可以有效减小增强语音的MFCC声学特征失真的神经网络,提高神经网络对于增强的语音信号的识别准确性。
步骤S109:将带有干扰噪声的待增强混合语音信号频谱幅度输入所述用于语音增强的神经网络,由神经网络输出增强语音的理想幅度掩蔽估计值。
步骤S110:使用增强语音的理想幅度掩蔽估计值和带有干扰噪声的待增强混合语音信号相乘,得到增强后的语音信号。
增强后的语音信号
Figure BDA0002365024290000061
其中,
Figure BDA0002365024290000062
为增强语音理想幅度掩蔽估计值,Y(k,l)为带有干扰噪声的混合语音,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引。
本发明实施例一种基于深度学习降低MFCC声学特征失真的模型训练方法和语音增强方法。使用信号误差及MFCC声学特征误差对网络训练,网络的输出同时对语音信号的频谱幅度和语音信号的MFCC声学特征进行了优化,减小了增强后语音信号的MFCC声学特征失真。该方法增强的语音信号用于语音识别和说话人识别时,提高了识别的准确性。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于深度学习降低MFCC特征失真的语音增强方法,其特征在于,包括步骤:
将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音信号的频谱,提取混合语音信号的频谱幅度;
将混合语音信号的频谱幅度作为待训练神经网络的输入,输出为目标语音理想幅度掩蔽估计值;
将目标语音理想幅度掩蔽估计值乘以混合信号的频谱幅度,得到增强后语音的频谱幅度;
对增强后语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换,得到增强语音的MFCC声学特征;
对目标语音信号进行分帧、加窗、傅里叶变换,得到目标语音信号的频谱,提取目标语音的频谱幅度;
对目标语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换,得到目标语音的MFCC声学特征;
计算增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差,以及增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差;
将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练,得到用于语音增强的神经网络;
将带有干扰噪声的待增强混合语音信号频谱幅度输入所述用于语音增强的神经网络,由神经网络输出增强语音的理想幅度掩蔽估计值;
使用所述增强语音的理想幅度掩蔽估计值和带有干扰噪声的待增强混合语音信号相乘,得到增强后的语音信号。
2.根据权利要求1所述的语音增强方法,其特征在于,所述将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换,得到混合语音频谱的步骤,具体为:
取每32ms采样点为一帧信号;当采样率为8kHz时,则对应256个采样点;当采样频率为16kHz时,则对应为512个采样点;若长度不足32ms则将采样点补零到256或512个后对每一帧信号进行加窗;其中,加窗函数采用汉明窗或汉宁窗。
3.根据权利要求1所述的语音增强方法,其特征在于,所述增强后语音的频谱幅度为:
Figure FDA0002365024280000021
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure FDA0002365024280000022
为目标语音理想幅度掩蔽估计值,|Y(k,l)|为带有干扰噪声的混合语音频谱幅度。
4.根据权利要求1所述的语音增强方法,其特征在于,所述增强语音的MFCC声学特征为:
Figure FDA0002365024280000023
其中,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,
Figure FDA0002365024280000024
为增强语音的频谱幅度,Mel为梅尔滤波器组,Log{}为对数运算,DCT为离散余弦变换矩阵,n为MFCC声学特征的阶数。
5.根据权利要求1所述的语音增强方法,其特征在于,所述目标语音的MFCC声学特征为:
MFCC(n,l)=DCT*Log{Mel*|S(k,l)|2}
其中,|S(k,l)|为目标语音的频谱幅度,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引,Mel为梅尔滤波器组,Log{}为对数运算,DCT为离散余弦变换矩阵。
6.根据权利要求1所述的语音增强方法,其特征在于,所述增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差为:
Figure FDA0002365024280000027
7.根据权利要求1所述的语音增强方法,其特征在于,所述增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差为:
Figure FDA0002365024280000025
Figure FDA0002365024280000026
8.根据权利要求1所述的语音增强方法,其特征在于,所述将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练,具体为:
将频谱幅度误差与MFCC声学特征误差按比例相加得到损失函数为:
loss=λ1·loss1+λ2·loss2
其中,λ1为频谱幅度误差loss1的权重,λ2为MFCC声学特征误差loss2的权重;
通过迭代,对损失函数进行最小化均方误差,使增强语音的频谱幅度逼近于目标语音的频谱幅度,使增强语音的MFCC声学特征逼近于目标语音的MFCC声学特征。
9.根据权利要求1所述的语音增强方法,其特征在于,所述增强后的语音信号为:
Figure FDA0002365024280000031
其中,
Figure FDA0002365024280000032
为增强语音理想幅度掩蔽估计值,Y(k,l)为带有干扰噪声的混合语音,k为信号频谱的频率帧索引,l为信号频谱的时间帧索引。
CN202010033002.6A 2020-01-13 2020-01-13 一种基于深度学习降低mfcc特征失真的语音增强方法 Active CN111243617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010033002.6A CN111243617B (zh) 2020-01-13 2020-01-13 一种基于深度学习降低mfcc特征失真的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010033002.6A CN111243617B (zh) 2020-01-13 2020-01-13 一种基于深度学习降低mfcc特征失真的语音增强方法

Publications (2)

Publication Number Publication Date
CN111243617A true CN111243617A (zh) 2020-06-05
CN111243617B CN111243617B (zh) 2022-11-18

Family

ID=70864786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010033002.6A Active CN111243617B (zh) 2020-01-13 2020-01-13 一种基于深度学习降低mfcc特征失真的语音增强方法

Country Status (1)

Country Link
CN (1) CN111243617B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755010A (zh) * 2020-07-07 2020-10-09 出门问问信息科技有限公司 一种结合语音增强和关键词识别的信号处理方法、装置
CN111833896A (zh) * 2020-07-24 2020-10-27 北京声加科技有限公司 融合反馈信号的语音增强方法、系统、装置和存储介质
CN113299302A (zh) * 2021-04-22 2021-08-24 维沃移动通信(杭州)有限公司 音频降噪方法、装置及电子设备
WO2023102930A1 (zh) * 2021-12-10 2023-06-15 清华大学深圳国际研究生院 语音增强方法、电子设备、程序产品及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN109767782A (zh) * 2018-12-28 2019-05-17 中国科学院声学研究所 一种提高dnn模型泛化性能的语音增强方法
CN110503972A (zh) * 2019-08-26 2019-11-26 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN107845389A (zh) * 2017-12-21 2018-03-27 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN109767782A (zh) * 2018-12-28 2019-05-17 中国科学院声学研究所 一种提高dnn模型泛化性能的语音增强方法
CN110503972A (zh) * 2019-08-26 2019-11-26 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755010A (zh) * 2020-07-07 2020-10-09 出门问问信息科技有限公司 一种结合语音增强和关键词识别的信号处理方法、装置
CN111833896A (zh) * 2020-07-24 2020-10-27 北京声加科技有限公司 融合反馈信号的语音增强方法、系统、装置和存储介质
CN111833896B (zh) * 2020-07-24 2023-08-01 北京声加科技有限公司 融合反馈信号的语音增强方法、系统、装置和存储介质
CN113299302A (zh) * 2021-04-22 2021-08-24 维沃移动通信(杭州)有限公司 音频降噪方法、装置及电子设备
WO2023102930A1 (zh) * 2021-12-10 2023-06-15 清华大学深圳国际研究生院 语音增强方法、电子设备、程序产品及存储介质

Also Published As

Publication number Publication date
CN111243617B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
CN111223493B (zh) 语音信号降噪处理方法、传声器和电子设备
CN110120227B (zh) 一种深度堆叠残差网络的语音分离方法
Shao et al. An auditory-based feature for robust speech recognition
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN109065067A (zh) 一种基于神经网络模型的会议终端语音降噪方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN106373559B (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN108922514B (zh) 一种基于低频对数谱的鲁棒特征提取方法
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
CN116312561A (zh) 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置
Le et al. Personalized speech enhancement combining band-split rnn and speaker attentive module
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
CN100495537C (zh) 强鲁棒性语音分离方法
CN114255780A (zh) 一种基于深度神经网络的噪声鲁棒盲混响时间估计方法
Piotrowski et al. Subscriber authentication using GMM and TMS320C6713DSP
KR101568282B1 (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
Wang et al. An ideal Wiener filter correction-based cIRM speech enhancement method using deep neural networks with skip connections
CN108053835B (zh) 一种基于通道泰勒级数的噪声估计方法
Liu et al. Review of the anti-noise method in the speech recognition technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant