CN114550739A - 语音增强方法、相关设备及可读存储介质 - Google Patents
语音增强方法、相关设备及可读存储介质 Download PDFInfo
- Publication number
- CN114550739A CN114550739A CN202210299432.1A CN202210299432A CN114550739A CN 114550739 A CN114550739 A CN 114550739A CN 202210299432 A CN202210299432 A CN 202210299432A CN 114550739 A CN114550739 A CN 114550739A
- Authority
- CN
- China
- Prior art keywords
- voice
- enhanced
- speech
- time
- enhancement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002708 enhancing effect Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 63
- 230000000873 masking effect Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 11
- 208000024875 Infantile dystonia-parkinsonism Diseases 0.000 claims description 9
- 208000001543 infantile parkinsonism-dystonia Diseases 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种语音增强方法、相关设备及可读存储介质,该方法在获取待增强语音之后,先基于波束成形对待增强语音进行预增强处理,得到待增强语音对应的预增强语音,再对预增强语音进行增强,得到所述待增强语音对应的增强后的语音。由于基于波束成形对待增强语音进行预增强处理得到的预增强语音中,在一定程度上抑制了人声干扰,和/或,噪声干扰,使得目标语音更为显著,因此,对预增强语音进行增强,具有更好的增强效果。
Description
技术领域
本申请涉及语音处理技术领域,更具体的说,是涉及一种语音增强方法、相关设备及可读存储介质。
背景技术
语音增强,旨在将目标说话人的干净语音从混合语音中提取出来。其作为智能设备的前端信号处理被广泛应用于语音相关任务,如语音识别、语音唤醒等。
但是,目前的语音增强方案的语音增强效果较差。
因此,如何提升语音增强效果,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种语音增强方法、相关设备及可读存储介质。具体方案如下:
一种语音增强方法,所述方法包括:
获取待增强语音,所述待增强语音为多通道语音;
基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,所述预增强语音为单通道语音;
对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
可选地,所述基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,包括:
对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值;
基于所述待增强语音的时频掩码值,计算波束成形系数;
基于所述波束成形系数对所述待增强语音进行增强处理,得到所述待增强语音对应的预增强语音。
可选地,所述对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值,包括:
确定所述待增强语音的语音特征;所述待增强语音的语音特征包括所述待增强语音中第一预设阵元接收的语音的对数功率谱LPS,以及所述第一预设阵元与第二预设阵元的通道间相位差IPD;
将所述待增强语音的语音特征输入第一语音增强模型,所述第一语音增强模型对所述待增强语音进行时频掩码估计,输出所述待增强语音的时频掩码值。
可选地,所述第一语音增强模型是以训练用语音的语音特征为训练样本,以训练用语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
可选地,所述对所述待增强语音对应的预增强语音进行增强,得到所述待增强语音对应的增强后的语音,包括:
对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值;
基于所述预增强语音的时频掩码值,对所述预增强语音进行后置滤波,得到所述待增强语音对应的增强后的语音。
可选地,所述对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值,包括:
确定所述预增强语音的语音特征;所述预增强语音的语音特征包括所述预增强语音的LPS以及所述待增强语音中第一预设阵元与第二预设阵元的IPD;
将所述预增强语音的语音特征,输入第二语音增强模型,所述第二语音增强模型对所述预增强语音的语音特征进行时频掩码估计,输出所述预增强语音的时频掩码值。
可选地,所述第二语音增强模型是以训练用预增强语音的语音特征为训练样本,以训练用预增强语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用预增强语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
一种语音增强装置,所述装置包括:
获取单元,用于获取待增强语音,所述待增强语音为多通道语音;
预增强单元,用于基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,所述预增强语音为单通道语音;
增强单元,用于对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
可选地,所述预增强单元,包括:
第一时频掩码估计子单元,用于对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值;
波束成形系数计算子单元,用于基于所述待增强语音的时频掩码值,计算波束成形系数;
预增强子单元,用于基于所述波束成形系数对所述待增强语音进行增强处理,得到所述待增强语音对应的预增强语音。
可选地,所述第一时频掩码估计子单元,包括:
第一语音特征确定模块,用于确定所述待增强语音的语音特征;所述待增强语音的语音特征包括所述待增强语音中第一预设阵元接收的语音的对数功率谱LPS,以及所述第一预设阵元与第二预设阵元的通道间相位差IPD;
第一语音增强模型应用模块,用于将所述待增强语音的语音特征输入第一语音增强模型,所述第一语音增强模型对所述待增强语音进行时频掩码估计,输出所述待增强语音的时频掩码值。
可选地,所述第一语音增强模型是以训练用语音的语音特征为训练样本,以训练用语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
可选地,所述增强单元,包括:
第二时频掩码估计子单元,用于对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值;
增强子单元,用于基于所述预增强语音的时频掩码值,对所述预增强语音进行后置滤波,得到所述待增强语音对应的增强后的语音。
可选地,所述第二时频掩码估计子单元,包括:
第二语音特征确定模块,用于确定所述预增强语音的语音特征;所述预增强语音的语音特征包括所述预增强语音的LPS以及所述待增强语音中第一预设阵元与第二预设阵元的IPD;
第二语音增强模型应用模块,用于将所述预增强语音的语音特征,输入第二语音增强模型,所述第二语音增强模型对所述预增强语音的语音特征进行时频掩码估计,输出所述预增强语音的时频掩码值。
可选地,所述第二语音增强模型是以训练用预增强语音的语音特征为训练样本,以训练用预增强语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用预增强语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
一种语音增强设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的语音增强方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音增强方法的各个步骤。
借由上述技术方案,本申请公开了一种语音增强方法、相关设备及可读存储介质。该方法在获取待增强语音之后,先基于波束成形对待增强语音进行预增强处理,得到待增强语音对应的预增强语音,再对预增强语音进行增强,得到所述待增强语音对应的增强后的语音。由于基于波束成形对待增强语音进行预增强处理得到的预增强语音中,在一定程度上抑制了人声干扰,和/或,噪声干扰,使得目标语音更为显著,因此,对预增强语音进行增强,具有更好的增强效果。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种语音增强方法的流程示意图;
图2为本申请实施例公开的一种CLDNN模型的结构示意图;
图3为本申请实施例公开的一种语音增强过程的示意图;
图4为本申请实施例公开的第一语音增强模型和第二语音增强模型的训练示意图;
图5为本申请实施例公开的一种语音增强装置的结构示意图;
图6为本申请实施例公开的一种语音增强设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
波束成形(beamforming),是一项传统信号处理领域的成熟技术。其通过设计滤波器系数加权阵列中各麦克风采集信号,保留目标方向的语音,并抑制非目标方向的语音或噪声。随着深度学习的快速发展,近些年基于神经网络的语音增强技术也取得了较好的语音增强效果。这两种技术各有优势,可以互相辅助,以达到最佳的语音增强效果。
目前,常用的联合神经网络和波束成形的语音增强方案是基于时频掩码(mask)估计的波束成形方案。该方案中,首先,获取待增强语音某个通道的语音特征,然后,将该语音特征输入语音增强模型,语音增强模型输出掩码值;再做基于掩码值的自适应波束成形,如最小方差无失真响应(minimum variance distortionless response,MVDR),进行空域信号增强;最终,可根据需要,选择性地进行后置滤波,获得干净目标语音输出。
但是,上述基于时频掩码估计的波束成形方案存在两个不足:1、输入语音增强模型的语音特征是基于某个通道的(mic上)的原始语音得到的,其中目标语音的特征不显著,影响语音增强的效果。2、基于掩码值的自适应波束成形的输出,会使得某个通道的语音缺失,后置滤波时,语音增强模型输出的掩码值与基于掩码值的自适应波束成形的输出相乘,存在一定的误匹配(mismatch),可能会使得增强后的语音存在失真问题或者存在残留噪声的问题,影响语音增强的效果。
为了解决上述问题,本案发明人进行了深入研究,最终提出了一种语音增强方法。接下来,通过下述实施例对本申请提供的语音增强方法进行介绍。
参照图1,图1为本申请实施例公开的一种语音增强方法的流程示意图,该方法可以包括:
步骤S101:获取待增强语音。
在本申请中,待增强语音为多通道语音。该语音可以由包含多个阵元的麦克风阵列采集得到的,每个阵元对应一个通道。
步骤S102:基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音。
在本申请中,可以采用多种波束成形方案对所述待增强语音进行预增强处理,比如MVDR(minimumvariance distortionless response,最小方差无失真响应),对此,本申请不进行任何限定。
需要说明的是,所述待增强语音对应的预增强语音为单通道语音。
步骤S103:对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
在本申请中,可以采用语音增强模型对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音,具体实现方式将通过后面的实施例详细说明,此处不再展开描述。
本实施例公开了一种语音增强方法,该方法在获取待增强语音之后,先基于波束成形对待增强语音进行预增强处理,得到待增强语音对应的预增强语音,再对预增强语音进行增强,得到所述待增强语音对应的增强后的语音。由于基于波束成形对待增强语音进行预增强处理得到的预增强语音中,在一定程度上抑制了人声干扰,和/或,噪声干扰,使得目标语音更为显著,因此,对预增强语音进行增强,具有更好的增强效果。
在本申请的另一个实施例中,对步骤S102基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音的具体实现方式进行说明,该方式可以包括以下步骤:
步骤S201:对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值。
在本申请中,可以基于语音增强模型对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值。
作为一种可实施方式,所述对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值,包括:
步骤S2011:确定所述待增强语音的语音特征。
作为一种可实施方式,所述确定所述待增强语音的语音特征,包括:
提取所述待增强语音中第一预设阵元接收的语音的LPS(Log Power Spectrum,对数功率谱),以及所述第一预设阵元与第二预设阵元的IPD(Inter-channe PhaseDifference,通道间相位差);所述待增强语音中第一预设阵元接收的语音的LPS以及所述第一预设阵元与第二预设阵元的IPD为所述待增强语音的语音特征。
在本申请中,可以对所述待增强语音中第一预设阵元接收的语音进行短时傅里叶变换(stft),并转换到filterbank域,然后求取其log梅尔频谱作为所述待增强语音中第一预设阵元接收的语音的LPS。再计算所述第一预设阵元与第二预设阵元之间的IPD。
为便于理解,假设第一预设阵元为m,第二预设阵元为n,具体地可以采用如下公式计算所述待增强语音中第一预设阵元接收的语音的LPS以及所述第一预设阵元与第二预设阵元的IPD:
Ym=stft(ym)
LPSm=log(Ym 2*T+1)
其中,第一预设阵元接收的语音为ym,对其进行短时傅里叶变换后得到Ym,第二预设阵元接收的语音为yn,对其进行短时傅里叶变换后得到Yn,T为频域到filterbank域的转换矩阵,LPSm为第一预设阵元m提取的log梅尔频谱特征,IPDmn为第一预设阵元m与第二预设阵元n之间的相位差IPD。
需要说明的是,第一预设阵元与第二预设阵元可以为麦克风阵列中的任意阵元,对此,本申请不进行任何限定。
步骤S2012:将所述待增强语音的语音特征输入第一语音增强模型,所述第一语音增强模型对所述待增强语音进行时频掩码估计,输出所述待增强语音的时频掩码值。
作为一种可实施方式,第一语音增强模型的结构可以采用CLDNN模型结构,参照图2,图2为本申请实施例公开的一种CLDNN模型的结构示意图,如图2所示,CLDNN模型是由CNN(Convolutional Neural Networks,卷积神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络)、DNN(Deep Neural Networks,深度神经网络)和mask层组成的。
步骤S202:基于所述待增强语音的时频掩码值,计算波束成形系数。
在本申请中,以MVDR波束成形方案为例,可以采用如下方式计算波束成形系数:
计算阵列测量值协方差矩阵中的噪声及干扰子空间Rnn和目标信号子空间Rxx:
波束成形系数为MVDR最优权矢量:
其中,r为Rxx的最大特征值对应的特征向量。
步骤S203:基于所述波束成形系数对所述待增强语音进行增强处理,得到所述待增强语音对应的预增强语音。
在本申请中,以MVDR波束成形方案为例,所述待增强语音对应的预增强语音为Ybeam=Y*wMVDR。
在本申请的另一个实施例中,对步骤S103对所述待增强语音对应的预增强语音进行增强,得到所述待增强语音对应的增强后的语音的具体实现方式进行详细说明,该方式可以包括以下步骤:
步骤S301:对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值。
在本申请中,可以基于语音增强模型对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值。
作为一种可实施方式,所述对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值,包括:
步骤S3011:确定所述预增强语音的语音特征。
作为一种可实施方式,所述确定所述预增强语音的语音特征,包括:
提取所述预增强语音的LPS;获取所述待增强语音中第一预设阵元与第二预设阵元的IPD;所述预增强语音的LPS以及所述待增强语音中第一预设阵元与第二预设阵元的IPD为所述预增强语音的语音特征。
以MVDR波束成形方案为例,所述待增强语音对应的预增强语音为Ybeam=Y*wMVDR。求取Ybeam的log梅尔频谱作为所述预增强语音的LPS,具体地:
Ybeam=stft(ybeam)
LPSbeam=log(Ybeam 2*T+14)
所述待增强语音中第一预设阵元与第二预设阵元的IPD,即为步骤S2011中计算得到的,在本步骤中直接取用即可。
步骤S3012:将所述预增强语音的语音特征,输入第二语音增强模型,所述第二语音增强模型对所述预增强语音的语音特征进行时频掩码估计,输出所述预增强语音的时频掩码值。
作为一种可实施方式,第二语音增强模型的结构也可以采用CLDNN模型结构。
步骤S302:基于所述预增强语音的时频掩码值,对所述预增强语音进行后置滤波,得到所述待增强语音对应的增强后的语音。
在本申请中,开展后置滤波的目的是进一步抑制残留噪声和干扰语音。因为波束成形方法虽然能够无失真地进行空域滤波,但是其降噪或分离效果是有限的。
具体地:以MVDR波束成形方案为例,maskbeam从filterbank域转到时频域后再经过反短时傅里叶变换(iSTFT),点乘在预增强语音Ybeam即可得到所述待增强语音对应的增强后的语音Yout。因为这里后置滤波时的maskbeam和Ybeam都是经过波束成形后的,所以不存在mismatch的问题。
为便于理解,参照图3,图3为本申请实施例公开的一种语音增强过程的示意图,如图3所示,整个语音增强过程包括预增强过程和增强过程。
预增强过程包括:先对待增强语音Y进行特征提取,得到第一预设阵元的语音的LPS(图3中由LPSmic表示)以及所述第一预设阵元与第二预设阵元的IPD(图3中由IPDmic表示),再将第一预设阵元的语音的LPS以及所述第一预设阵元与第二预设阵元的IPD输入第一语音增强模型,得到待增强语音的时频掩码值(图3中由maskmic表示),然后基于待增强语音的时频掩码值maskmic,计算波束成形系数MVDR,最后,利用波束成形系数MVDR对待增强语音Y进行增强处理,得到预增强语音Ybeam。
增强过程包括:
先对预增强语音Ybeam进行特征提取,得到预增强语音Ybeam的LPS(图3中由LPSbeam表示),并获取预增强过程中的IPDmic,再将预增强语音Ybeam的LPS以及预增强过程中的IPDmic,输入第二语音增强模型,得到预增强语音的时频掩码值(图3中由maskbeam表示),最后基于预增强语音的时频掩码值maskbeam,对预增强语音Ybeam进行后置滤波,得到所述待增强语音对应的增强后的语音。
在本申请的另一个实施例中,对第一语音增强模型和第二语音增强模型的训练过程进行详细介绍。
为便于理解,参照图4,图4为本申请实施例公开的第一语音增强模型和第二语音增强模型的训练示意图,如图4所示所述第一语音增强模型是以训练用语音的语音特征为训练样本,以训练用语音对应的理想比值掩蔽值IRMmic为样本标签,以输出的时频掩码值maskmic与所述训练用语音对应的理想比值掩蔽值IRMmic的均方误差(Mean Square Error,MSE)为损失函数,训练得到的。
所述第二语音增强模型是以训练用预增强语音的语音特征为训练样本,以训练用预增强语音对应的理想比值掩蔽值IRMbeam为样本标签,以输出的时频掩码值maskbeam与所述训练用预增强语音对应的理想比值掩蔽值IRMbeam的均方误差MSE为损失函数,训练得到的。
需要说明的是,在本申请中,可以利用训练用语音对应的理想比值掩蔽值IRMmic计算得到波束形成系数MVDR,利用MVDR对训练用语音进行预增强后得到的训练用语音对应的预增强语音,训练用语音对应的预增强语音即可作为训练用预增强语音。
需要说明的是,在本申请中,可以准备高保真语音作为目标语音t及干扰语音i,实际采集噪声及仿真散射噪声作为噪声n;将目标语音与干扰语音或噪声按照一定的信噪比/信干比在时域卷积冲击响应后进行叠加,构建麦克风阵列采集的混合语音作为训练用语音。阵元m在时域的测量信号为:
ym=xt*hsm+xi*him+nd*hnm+na,m=1,2,…,M
其中,xt为目标语音t的时域信号,xi为干扰语音i的时域信号,nd为方向性噪声,na为加性噪声;htm为目标声源t到阵元m的房间冲击响应,him为干扰声源i到阵元m的房间冲击响应,hnm为方向性噪声源n到阵元m的房间冲击响应;M为麦克风阵列中的阵元个数。
训练用语音的语音特征包括训练用语音中第一预设阵元接收的语音的LPS,以及所述第一预设阵元与第二预设阵元的IPD。其计算方式可参照步骤S2011中计算所述待增强语音中第一预设阵元接收的语音的LPS以及所述第一预设阵元与第二预设阵元的IPD的具体方式,此处不再赘述。
在本申请中,训练用语音对应的理想比值掩蔽值IRMmic的计算方式基于不同的场景有所不同,具体的,在单人语音分离(也称为语音降噪)任务中,其计算方式为:
在多人语音分离任务中,其计算公式为:
其中Xt,Xi和N分别代表指定阵元上filterbank域的目标语音成分、干扰语音成分和噪声成分。
训练用预增强语音的语音特征包括训练用预增强语音的LPS,以及训练用语音中第一预设阵元与第二预设阵元的IPD。其计算方式可参照步骤S2011与步骤S3011的相关描述,此处不再赘述。
在本申请中,训练用预增强语音对应的理想比值掩蔽值IRMbeam的计算方式基于不同的场景有所不同,具体的,单人语音分离(也称为语音降噪)任务中,其计算方式为:
在多人语音分离任务中,其计算公式为:
Nbeam=N*wMVDR
其中,Xt,Xi和N代表阵列接收信号中的filterbank域的目标语音成分、干扰语音成分和噪声成分。
N=[Nmic1,Nmic2,…,NmicM]
下面对本申请实施例公开的语音增强装置进行描述,下文描述的语音增强装置与上文描述的语音增强方法可相互对应参照。
参照图5,图5为本申请实施例公开的一种语音增强装置结构示意图。如图5所示,该语音增强装置可以包括:
获取单元11,用于获取待增强语音,所述待增强语音为多通道语音;
预增强单元12,用于基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,所述预增强语音为单通道语音;
增强单元13,用于对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
作为一种可实施方式,所述预增强单元,包括:
第一时频掩码估计子单元,用于对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值;
波束成形系数计算子单元,用于基于所述待增强语音的时频掩码值,计算波束成形系数;
预增强子单元,用于基于所述波束成形系数对所述待增强语音进行增强处理,得到所述待增强语音对应的预增强语音。
作为一种可实施方式,所述第一时频掩码估计子单元,包括:
第一语音特征确定模块,用于确定所述待增强语音的语音特征;所述待增强语音的语音特征包括所述待增强语音中第一预设阵元接收的语音的对数功率谱LPS,以及所述第一预设阵元与第二预设阵元的通道间相位差IPD;
第一语音增强模型应用模块,用于将所述待增强语音的语音特征输入第一语音增强模型,所述第一语音增强模型对所述待增强语音进行时频掩码估计,输出所述待增强语音的时频掩码值。
作为一种可实施方式,所述第一语音增强模型是以训练用语音的语音特征为训练样本,以训练用语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
作为一种可实施方式,所述增强单元,包括:
第二时频掩码估计子单元,用于对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值;
增强子单元,用于基于所述预增强语音的时频掩码值,对所述预增强语音进行后置滤波,得到所述待增强语音对应的增强后的语音。
作为一种可实施方式,所述第二时频掩码估计子单元,包括:
第二语音特征确定模块,用于确定所述预增强语音的语音特征;所述预增强语音的语音特征包括所述预增强语音的LPS以及所述待增强语音中第一预设阵元与第二预设阵元的IPD;
第二语音增强模型应用模块,用于将所述预增强语音的语音特征,输入第二语音增强模型,所述第二语音增强模型对所述预增强语音的语音特征进行时频掩码估计,输出所述预增强语音的时频掩码值。
作为一种可实施方式,所述第二语音增强模型是以训练用预增强语音的语音特征为训练样本,以训练用预增强语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用预增强语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
参照图6,图6为本申请实施例提供的语音增强设备的硬件结构框图,参照图6,语音增强设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待增强语音,所述待增强语音为多通道语音;
基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,所述预增强语音为单通道语音;
对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待增强语音,所述待增强语音为多通道语音;
基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,所述预增强语音为单通道语音;
对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音增强方法,其特征在于,所述方法包括:
获取待增强语音,所述待增强语音为多通道语音;
基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,所述预增强语音为单通道语音;
对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
2.根据权利要求1所述的方法,其特征在于,所述基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,包括:
对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值;
基于所述待增强语音的时频掩码值,计算波束成形系数;
基于所述波束成形系数对所述待增强语音进行增强处理,得到所述待增强语音对应的预增强语音。
3.根据权利要求2所述的方法,其特征在于,所述对所述待增强语音进行时频掩码估计,得到所述待增强语音的时频掩码值,包括:
确定所述待增强语音的语音特征;所述待增强语音的语音特征包括所述待增强语音中第一预设阵元接收的语音的对数功率谱LPS,以及所述第一预设阵元与第二预设阵元的通道间相位差IPD;
将所述待增强语音的语音特征输入第一语音增强模型,所述第一语音增强模型对所述待增强语音进行时频掩码估计,输出所述待增强语音的时频掩码值。
4.根据权利要求3所述的方法,其特征在于,所述第一语音增强模型是以训练用语音的语音特征为训练样本,以训练用语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述对所述待增强语音对应的预增强语音进行增强,得到所述待增强语音对应的增强后的语音,包括:
对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值;
基于所述预增强语音的时频掩码值,对所述预增强语音进行后置滤波,得到所述待增强语音对应的增强后的语音。
6.根据权利要求5所述的方法,其特征在于,所述对所述预增强语音进行时频掩码估计,得到所述预增强语音的时频掩码值,包括:
确定所述预增强语音的语音特征;所述预增强语音的语音特征包括所述预增强语音的LPS以及所述待增强语音中第一预设阵元与第二预设阵元的IPD;
将所述预增强语音的语音特征,输入第二语音增强模型,所述第二语音增强模型对所述预增强语音的语音特征进行时频掩码估计,输出所述预增强语音的时频掩码值。
7.根据权利要求6所述的方法,其特征在于,所述第二语音增强模型是以训练用预增强语音的语音特征为训练样本,以训练用预增强语音对应的理想比值掩蔽值为样本标签,以输出的时频掩码值与所述训练用预增强语音对应的理想比值掩蔽值的均方误差为损失函数,训练得到的。
8.一种语音增强装置,其特征在于,所述装置包括:
获取单元,用于获取待增强语音,所述待增强语音为多通道语音;
预增强单元,用于基于波束成形对所述待增强语音进行预增强处理,得到所述待增强语音对应的预增强语音,所述预增强语音为单通道语音;
增强单元,用于对所述预增强语音进行增强,得到所述待增强语音对应的增强后的语音。
9.一种语音增强设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的语音增强方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音增强方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299432.1A CN114550739A (zh) | 2022-03-25 | 2022-03-25 | 语音增强方法、相关设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210299432.1A CN114550739A (zh) | 2022-03-25 | 2022-03-25 | 语音增强方法、相关设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114550739A true CN114550739A (zh) | 2022-05-27 |
Family
ID=81665521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210299432.1A Pending CN114550739A (zh) | 2022-03-25 | 2022-03-25 | 语音增强方法、相关设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550739A (zh) |
-
2022
- 2022-03-25 CN CN202210299432.1A patent/CN114550739A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement | |
CN105788607B (zh) | 应用于双麦克风阵列的语音增强方法 | |
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
Delcroix et al. | Precise dereverberation using multichannel linear prediction | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
Krueger et al. | Model-based feature enhancement for reverberant speech recognition | |
Erdogan et al. | Deep recurrent networks for separation and recognition of single-channel speech in nonstationary background audio | |
Venkataramani et al. | Adaptive front-ends for end-to-end source separation | |
JP2003534570A (ja) | 適応ビームフォーマーにおいてノイズを抑制する方法 | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
CN112767963A (zh) | 一种语音增强方法、装置、系统及计算机可读存储介质 | |
KR100647286B1 (ko) | 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
Tu et al. | LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement | |
CN117219102A (zh) | 一种基于听觉感知的低复杂度语音增强方法 | |
Zheng et al. | Low-latency monaural speech enhancement with deep filter-bank equalizer | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
CN114550739A (zh) | 语音增强方法、相关设备及可读存储介质 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
CN108074580B (zh) | 一种噪声消除方法及装置 | |
WO2022215199A1 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
CN111009259A (zh) | 一种音频处理方法和装置 | |
WO2022247427A1 (zh) | 信号滤波方法及装置、存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |