CN112652321B - 一种基于深度学习相位更加友好的语音降噪系统及方法 - Google Patents
一种基于深度学习相位更加友好的语音降噪系统及方法 Download PDFInfo
- Publication number
- CN112652321B CN112652321B CN202011063354.2A CN202011063354A CN112652321B CN 112652321 B CN112652321 B CN 112652321B CN 202011063354 A CN202011063354 A CN 202011063354A CN 112652321 B CN112652321 B CN 112652321B
- Authority
- CN
- China
- Prior art keywords
- voice
- phase
- generator
- speech
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 91
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 22
- 230000008447 perception Effects 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 238000003491 array Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Monitoring And Testing Of Exchanges (AREA)
Abstract
本发明公开一种基于深度学习相位更加友好的语音降噪系统,属于基于深度学习的语音增强技术领域。包括:一个生成器和一个判别器。在对抗式训练中,将作为频域发生器的深度神经网络产生的估计的傅里叶频谱,用带噪语音相位的短时傅立叶反变换变换成估计波形,并利用时域鉴别器进行判断。在前向过程中,语音降噪系统仍然使用带噪声语音的相位作为处理后的语音频谱的相位,但语音降噪系统系统已经被训练得更适应带噪语音相位。本发明解决了现有技术中基于频谱降噪系统中相位不匹配的情况下,寻找处理后的频谱的幅值对应的相位比较耗时且直接用噪声相位会因为相位不匹配而导致的降噪效果不好的问题。
Description
技术领域
本发明属于基于深度学习的语音增强技术领域,尤其涉及一种基于深度学习相位更加友好的语音降噪系统及方法。
背景技术
语音增强是一种非常重要的语音处理方法,它可以通过去除噪音,从带噪语音中获得去噪后的语音。除了谱减法和维纳滤波等传统算法外,基于神经网络的方法由于其复杂的非线性网络能够有效降低非平稳噪声而日益流行。大多数基于神经网络的方法是使用基于傅里叶频谱的频域系统,而不是原始波形(时域)。
这些方法通过短时傅里叶变换(STFT)将输入的带噪语音波形转换成对应语音的傅里叶频谱,通过时频掩模对幅值谱进行修改,并通过短时傅里叶反变换(ISTFT)将增强后的频谱转换回对应的时域波形。在整个前馈过程中,之前的方案保持有噪声的相位谱不变。进一步的研究表明,通过修改相位谱,语音增强性能可以大大提高。但在实时频域语音增强中,精确的相位谱往往需要很长时间才能找到,这使得相位不匹配问题一直没有得到很好的解决。
发明内容
本发明的目的是提供一种基于深度学习相位更加友好的语音降噪系统及方法,以解决现有技术中找到精确的相位谱比较耗时,使得相位不匹配的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于深度学习相位更加友好的语音降噪系统,包括:
一个对抗网络,其包括一个生成器和一个判别器;
训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;
所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;
训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;
所述对抗网络能够接收一个真数据和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;
所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;
在相同的频谱图的幅值的情况下,Griffin-Lim算法无限迭代即时间代价很大的情况下,Griffin-Lim算法能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
通过ISTFT算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;同一频谱图经过两个算法得到分数的差值,表示相位对语音降噪系统的影响;所述分数的差值越小代表Griffin-Lim算法对相位失配的补偿越多,效果越好。
本发明还可以做如下改进:
进一步地,所述生成器包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络;
所述卷积网络、所述长短时记忆网络和所述第一层全连接神经网络的激活函数为Relu函数,所述第二层全连接神经网络的激活函数为sigmoid函数。
进一步地,所述ISTFT算法在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值;所述差值越小表示在不增加推理时间的情况下,所述差值越小所述语音降噪系统的降噪效果越好。
进一步地,当迭代次数无限时,最小均方差减小到0;
估计的去噪后的语音幅值谱增强,使x(n)是由增强幅值谱恢复的完美语音波形,x(n)的相位将是增强后频谱幅值对应的相位。
进一步地,将时频掩膜和对应的带噪语音时频谱相乘得到去噪后语音时频谱;
将去噪后语音时频谱和带噪语音相位做短时傅里叶反变换,转换为时域语音;将时域语音通过参数固定的鉴别器和生成器的损失函数更新生成器的参数,将生成器的模型前向作为语音增强模型。
进一步地,计算带噪语音分别与干净语音和去噪后语音的组合起来的数据,将所得数据分别输入到判别器;计算损失更新判别器的参数,之后固定判别器当前的参数。
进一步地,所述生成器前向过程中,将带噪语音相位和去噪后语音的频谱一起做istft生成时域语音;
所述生成器的训练损失函数如下:
其中,λ作为超参,λ是用于在不同的噪声环境或者数据集下的不同约束条件。
进一步地,将所述干净语音的数据集作为降噪的目标,获得一组包含各种类型噪声的作为噪声集;
将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音;真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。
一种基于深度学习相位更加友好的语音降噪方法,包括:
S101,一个对抗网络,其包括一个生成器和一个判别器;
S102,训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;
所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;
S103,训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;
所述对抗网络能够接收一个真数据和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;
S104,所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;
S105,Griffin-Lim算法在无限迭代的情况下,能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
S106,通过ISTFT算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;
ISTFT算法和Griffin-Lim算法的分数差值越小代表,所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪算法越好。
本发明具有如下优点:使用神经网络估计时频谱的掩码,通过训练一个频域生成器与一个时域鉴别器。在对抗式训练中,将作为频域发生器的深度神经网络产生的估计的傅里叶频谱,用带噪语音相位的短时傅立叶反变换变换成估计波形,并利用时域鉴别器进行判断。
在前向过程中,语音降噪系统仍然使用带噪声语音的相位作为处理后的语音频谱的相位,但语音降噪系统系统已经被训练得更适应带噪语音相位,使得带噪语音和干净语音之间的相位不匹配对系统的影响最小。
选择与ISTFT功能相似的标准Griffin-Lim算法,当迭代次数达到非常大的时,标准Griffin-Lim算法可以很好地恢复语音波形的幅值特征。ISTFT和Griffin-Lim算法将相同的时频谱图转换为时域波形。ISTFT和Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数之间的差值描述噪声相位对系统。解决了现有技术中基于频谱降噪系统中相位不匹配的情况下,寻找处理后的频谱的幅值对应的相位比较耗时且直接用噪声相位会因为相位不匹配而导致的降噪效果不好的问题。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语音降噪训练方法流程图。
图2为本发明语音降噪评估方法流程图。
图3为本发明语音语音降噪系统的工作原理图。
标号说明
带噪语音幅度谱10,生成器20,时频掩膜201,估计傅里叶频谱202,带噪语音相位30,短时傅里叶返变换40,估计波形401,噪声语音波形50,干净语音波形60,判别器70。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1-3所示,本发明实施方式提供了一种基于深度学习相位更加友好的语音降噪系统。包括:一个生成器20和一个判别器70。
通过时域和频域联合对抗网络训练方法,使得得到的降噪后的频谱图对于带噪语音的相位更加友好。
使用神经网络估计时频谱的掩码,通过训练一个频域生成器20与一个时域鉴别器。在对抗式训练中,将作为频域发生器的深度神经网络产生的估计的傅里叶频谱,用带噪语音相位30的短时傅立叶反变换变换成估计波形401,并利用时域鉴别器进行判断。
使用掩码,通过将非语音的部分掩码为0的方式,将语音的VAD(Voice ActivityDetection)信息包含在掩码中,使用预估掩码的方式比直接估计语音时频谱的效果要好。
在前向过程中,语音降噪系统仍然使用带噪声语音的相位作为处理后的语音频谱的相位,但语音降噪系统系统已经被训练得更适应带噪语音相位30,使得带噪语音和干净语音60之间的相位不匹配对系统的影响最小。
选择与ISTFT功能相似的标准Griffin-Lim算法,当迭代次数达到非常大的时,标准Griffin-Lim算法可以很好地恢复语音波形的幅值特征。ISTFT和Griffin-Lim算法将相同的时频谱图转换为时域波形。ISTFT和Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数之间的差值描述噪声相位对系统。解决了现有技术中找到精确的相位谱比较耗时,使得相位不匹配的问题。
一个对抗网络,其包括一个生成器20和一个判别器70。
训练生成器20,其能够接收短时傅里叶变换40转换来的带噪语音幅度谱10,生成器20能够将带噪语音幅度谱10转换为时频掩膜201。系统使用的数据集的输入数据是带噪语音时频谱,对应的目标输出就是对应的时频掩膜201。
生成器20通过神经网络的非线性映射的性质,在带噪声语音的频谱和干净语音的频谱之间通过损失函数的约束做非线性映射。生成器20通过神经网络估产生估计傅里叶频谱202,通过带噪语音相位30的短时傅立叶反变换将估计傅里叶频谱202转变为估计波形401。
训练判别器70,其与生成器20能够训练平衡。生成器20和判别器70之间使用短时傅立叶反变换做从频域转到时域的转换。
对抗网络能够接收一个真数据和一个假数据对。真数据对是干净语音波形60和噪声语音波形50的拼接,假数据对是降噪后语音波形和带噪语音波形的拼接。对于真数据对,判别器70输出为1,对于假数据对,判别器70输出为0。
首先获得干净语音的数据集作为降噪的目标,之后获得一组包含各种类型噪声的作为噪声集,将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音,真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。
假数据即生成器20生成的时域去噪后语音和带噪语音采样后数组连接起来的数组。
生成器20的目的是将带噪语音频谱和干净语音频谱之间做映射,鉴别器则是一个分类器,认为生成器20输出的频谱是假的,干净语音的频谱是真实的。在对抗的过程中,生成器20被更新来欺骗判别器70,使得判别器70认为其估计的频谱为真。而判别器70则被更新来更精准的分类干净语音和去噪声后语音的频谱。
生成器20进行更新的过程为:将带噪声语音的时频谱通过生成器20输出时频谱的掩膜,之后将掩膜和对应的带噪语音的时频谱相乘得到去噪后的语音时频谱,之后将去噪后的语音时频谱和带噪语音的相位一起做短时傅里叶反变换,转换为时域语音,再将时域语音通过参数固定的鉴别器,通过生成器20的损失函数更新生成器20的参数,将此生成器20的模型前向作为语音增强模型。
判别器70进行更新的过程为:计算带噪语音分别和干净语音和去噪后语音的组合起来的数据分别输入到判别器70,计算损失更新判别器70的参数,之后固定判别器70当前的参数。
生成器20的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位。
因为在生成器20的前向过程中,将带噪语音的相位和去噪后语音的频谱一起做ISTFT生成时域语音,因为是估计的去噪后语音的频谱幅值和带噪语音的相位之间存在失配,但是目标是为了生成更加干净的语音,而判别器70是在和干净语音之间判别,以及在前向过程中还是使用带噪语音的相位信息,这样可以满足在直接使用带噪语音的相位这样能满足速度,又通过后续的判别器70监督提高了精度。
Griffin-Lim算法在无限迭代的情况下,能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
通过ISTFT算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;同一频谱图经过两个算法得到分数的差值,表示相位对语音降噪系统的影响;所述分数的差值越小代表Griffin-Lim算法对相位失配的补偿越多,效果越好。
生成器20包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络。
卷积网络、长短时记忆网络和第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。
所述ISTFT算法在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值,所述差值越小表示在不增加推理时间的情况下,所述差值越小所述语音降噪系统的降噪效果越好。
Griffin-Lim算法能够通过反向传播的方法不断迭代信号的增强幅度谱和原始幅度谱之间的最小均方差,使得在每次迭代中两个频谱之间的差距最小。
当迭代次数无限时,最小均方差减小到0。
估计的去噪后的语音幅值谱增强,使x(n)是由增强幅值谱恢复的完美语音波形,x(n)的相位将是与增强后频谱幅值对应的相位。
将时频掩膜201和对应的带噪语音时频谱相乘得到去噪后语音时频谱。
将去噪后语音时频谱和带噪语音相位30做短时傅里叶反变换,转换为时域语音。将时域语音通过参数固定的鉴别器和生成器20的损失函数更新生成器20的参数,将生成器20的模型前向作为语音增强模型。
计算带噪语音分别与干净语音和去噪后语音的组合起来的数据,将所得数据分别输入到判别器70。计算损失更新判别器70的参数,之后固定判别器70当前的参数。
生成器20前向过程中,将带噪语音相位30和去噪后语音的频谱一起做istft生成时域语音。
生成器20的训练损失函数如下:
其中,λ作为超参,λ是用于在不同的噪声环境或者数据集下的不同约束条件。
将干净语音的数据集作为降噪的目标,获得一组包含各种类型噪声的作为噪声集。
将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音。真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。
一种基于深度学习相位更加友好的语音降噪方法,包括:
S101,配置一个对抗网络。
本步骤中,一个对抗网络,其包括一个生成器20和一个判别器70。
S102,训练生成器。
本步骤中,训练生成器20,其能够接收短时傅里叶变换40转换来的带噪语音幅度谱10,生成器20能够将带噪语音幅度谱10转换为时频掩膜201。
生成器20通过神经网络估产生估计傅里叶频谱202,通过带噪语音相位30的短时傅立叶反变换将估计傅里叶频谱202转变为估计波形401。
S103,训练判别器。
本步骤中,训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;
对抗网络能够接收一个真数据和一个假数据对。真数据对是干净语音波形60和噪声语音波形50的拼接,假数据对是降噪后语音波形和带噪语音波形的拼接。对于真数据对,判别器70输出为1,对于假数据对,判别器70输出为0。
S104,ISTFT算法使用带噪声语音的相位作为处理后的语音频谱的相位。
本步骤中,生成器20的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位。
S105,Griffin-Lim算法在无限迭代的情况下,能够得到最高分。
本步骤中,Griffin-Lim算法在无限迭代的情况下,能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
S106,ISTFT算法和Griffin-Lim算法的分数差值越小代表,所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪算法越好。
本步骤中,通过ISTFT算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;噪声相位之间的距离代表了相位对系统的影响,所述噪声相位之间的距离越小对语音降噪的影响越小。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制。尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。
Claims (8)
1.一种基于深度学习相位更加友好的语音降噪系统,其特征在于,包括:
一个对抗网络,其包括一个生成器和一个判别器;
训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;
所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;
训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;
所述对抗网络能够接收一个真数据对和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;
所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;
在相同的频谱图的幅值的情况下,Griffin-Lim算法无限迭代或时间代价很大的情况下,Griffin-Lim算法能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
通过ISTFT短时傅里叶变换算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;同一频谱图经过两个算法得到分数的差值,表示相位对语音降噪系统的影响;所述分数的差值越小代表Griffin-Lim算法对相位失配的补偿越多,效果越好;
通过ISTFT短时傅里叶变换算法和Griffin-Lim算法分别获取时域音频;
所述ISTFT短时傅里叶变换算法获取的时域音频在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin-Lim算法获取的时域音频在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值;所述差值越小表示在不增加推理时间的情况下,所述语音降噪系统的降噪效果越好。
2.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,所述生成器包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络;
所述卷积网络、所述长短时记忆网络和所述第一层全连接神经网络的激活函数为Relu函数,所述第二层全连接神经网络的激活函数为sigmoid函数。
3.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,当迭代次数无限时,最小均方差减小到0;
估计的去噪后的语音幅值谱增强,使x(n)是由增强幅值谱恢复的完美语音波形,x(n)的相位将是增强后频谱幅值对应的相位。
4.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,将时频掩膜和对应的带噪语音时频谱相乘得到去噪后语音时频谱;
将去噪后语音时频谱和带噪语音相位做短时傅里叶反变换,转换为时域语音;将时域语音通过参数固定的鉴别器和生成器的损失函数更新生成器的参数,将生成器的模型前向作为语音增强模型。
5.如权利要求4所述的基于深度学习相位更加友好的语音降噪系统,其特征是,计算带噪语音分别与干净语音和去噪后语音的组合起来的数据,将所得数据分别输入到判别器;计算损失更新判别器的参数,之后固定判别器当前的参数。
7.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统,其特征是,将所述干净语音的数据集作为降噪的目标,获得一组包含各种类型噪声的作为噪声集;
将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音;真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。
8.一种基于深度学习相位更加友好的语音降噪方法,其特征在于,包括:
S101,一个对抗网络,其包括一个生成器和一个判别器;
S102,训练所述生成器,其能够接收短时傅里叶变换转换来的带噪语音幅度谱,所述生成器能够将带噪语音幅度谱转换为时频掩膜;
所述生成器通过神经网络估产生估计傅里叶频谱,通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形;
S103,训练所述判别器,其与所述生成器能够训练平衡;所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换;
所述对抗网络能够接收一个真数据对和一个假数据对;所述真数据对是干净语音波形和噪声语音波形的拼接,所述假数据对是降噪后语音波形和带噪语音波形的拼接;对于所述真数据对,所述判别器输出为1,对于所述假数据对,所述判别器输出为0;
S104,所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位;
S105,Griffin-Lim算法在无限迭代的情况下,能够得到最高分;所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分;
S106,通过ISTFT算法和Griffin-Lim算法比较语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数;
ISTFT算法和Griffin-Lim算法的分数差值越小代表,所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪算法越好;
通过ISTFT短时傅里叶变换算法和Griffin-Lim算法分别获取时域音频;
所述ISTFT短时傅里叶变换算法获取的时域音频在所述客观可理解度和所述语音质量知觉评价所得分数,与所述Griffin-Lim算法获取的时域音频在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值;所述差值越小表示在不增加推理时间的情况下,所述语音降噪系统的降噪效果越好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063354.2A CN112652321B (zh) | 2020-09-30 | 2020-09-30 | 一种基于深度学习相位更加友好的语音降噪系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011063354.2A CN112652321B (zh) | 2020-09-30 | 2020-09-30 | 一种基于深度学习相位更加友好的语音降噪系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112652321A CN112652321A (zh) | 2021-04-13 |
CN112652321B true CN112652321B (zh) | 2023-05-02 |
Family
ID=75346557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011063354.2A Active CN112652321B (zh) | 2020-09-30 | 2020-09-30 | 一种基于深度学习相位更加友好的语音降噪系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112652321B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470684B (zh) * | 2021-07-23 | 2024-01-12 | 平安科技(深圳)有限公司 | 音频降噪方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119090A (zh) * | 2018-10-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN110111803A (zh) * | 2019-05-09 | 2019-08-09 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977555B2 (en) * | 2018-08-06 | 2021-04-13 | Spotify Ab | Automatic isolation of multiple instruments from musical mixtures |
-
2020
- 2020-09-30 CN CN202011063354.2A patent/CN112652321B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109119090A (zh) * | 2018-10-30 | 2019-01-01 | Oppo广东移动通信有限公司 | 语音处理方法、装置、存储介质及电子设备 |
CN110111803A (zh) * | 2019-05-09 | 2019-08-09 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110600017A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 语音处理模型的训练方法、语音识别方法、系统及装置 |
CN111081268A (zh) * | 2019-12-18 | 2020-04-28 | 浙江大学 | 一种相位相关的共享深度卷积神经网络语音增强方法 |
Non-Patent Citations (3)
Title |
---|
Signal Estimation from Modified Short-Time Fourier Transform.;Griffin、Daniel W.和Jae S.Lim;《IEEE Transactions on Acoustics,Speech,and Signal Processing》;19840430;236-243 * |
基于条件对抗生成时频分布的多分量信号瞬时频率估计;严秦梦颖等;《信号处理》;20191225(第12期);全文 * |
基于深度神经网络的单通道语音增强方法回顾;鲍长春等;《信号处理》;20191225(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112652321A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN110197670B (zh) | 音频降噪方法、装置及电子设备 | |
KR101934636B1 (ko) | 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Strake et al. | Separated noise suppression and speech restoration: LSTM-based speech enhancement in two stages | |
Pang | Spectrum energy based voice activity detection | |
CN112802491B (zh) | 一种基于时频域生成对抗网络的语音增强方法 | |
CN114863938B (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN115410589A (zh) | 一种基于联合感知损失的注意力生成对抗语音增强方法 | |
Do et al. | Speech Separation in the Frequency Domain with Autoencoder. | |
CN112652321B (zh) | 一种基于深度学习相位更加友好的语音降噪系统及方法 | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
CN111916060B (zh) | 一种基于谱减的深度学习语音端点检测方法和系统 | |
CN116682444A (zh) | 一种基于波形频谱融合网络的单通道语音增强方法 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN116665681A (zh) | 一种基于组合滤波的雷声识别方法 | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
Ondusko et al. | Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion | |
Xuhong et al. | Speech enhancement using convolution neural network-based spectrogram denoising | |
Wu et al. | Time-Domain Mapping with Convolution Networks for End-to-End Monaural Speech Separation | |
CN115985337B (zh) | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 | |
Yang et al. | DCCRN-SUBNET: A DCCRN and SUBNET Fusion Model for Speech Enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Peishuo Inventor after: OuYang Peng Inventor before: Li Peishuo Inventor before: OuYang Peng Inventor before: Yin Shouyi |
|
CB03 | Change of inventor or designer information |