CN110619885A - 基于深度完全卷积神经网络的生成对抗网络语音增强方法 - Google Patents
基于深度完全卷积神经网络的生成对抗网络语音增强方法 Download PDFInfo
- Publication number
- CN110619885A CN110619885A CN201910755047.1A CN201910755047A CN110619885A CN 110619885 A CN110619885 A CN 110619885A CN 201910755047 A CN201910755047 A CN 201910755047A CN 110619885 A CN110619885 A CN 110619885A
- Authority
- CN
- China
- Prior art keywords
- voice signal
- network
- discriminator
- signal
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims abstract description 3
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 241001014642 Rasta Species 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了基于深度完全卷积神经网络的生成对抗网络语音增强方法,解决了现有高噪声环境下语音信号质量差的问题。该方法包括以下步骤:步骤一、构建一个数据集,包含含噪语音信号和纯净语音信号;获得所述含噪语音信号的语谱图,将语谱图作为生成对抗网络中生成器G的输入;步骤二、生成器G对步骤一所生成的语谱图进行处理,将生成器构建为编码器‑译码器结构,通过编码器部分获得潜在向量z,然后潜在向量z经过译码器部分获得语音信号的输出信号;步骤三、设置判别器D的结构,然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
Description
【技术领域】
本发明属于语音识别技术领域,具体涉及基于深度完全卷积神经网络的生成对抗网络语音增强方法。
【背景技术】
在语音信号中,必然有混杂的各种干扰噪声,语音增强的目的就是最大化地去掉信号中含有的不需要的噪声,改善含噪语音的质量,使听者乐于接受,同时增加语音的可懂性,使听者易于理解。增强后的语音信号要尽可能的在波形上面无限地接近纯净的语音信号,方便后续的信号处理。现如今,语音增强的应用范围十分广泛,比如军事通信、窃听技术和语音识别等方面。然而,由于噪声具有随机性、多样性和不稳定性,找到适用于多种环境的语音增强技术是十分困难的。因此,如何提高模型的泛化能力,也是现如今的工作重点之一。
目前,关于语音增强方面的研究有了长足的进展。传统方法上,有谱减法、维纳滤波(WienerFiltering)、小波变换等,它们的大致思路是先对语音信号进行频域或者时域的变换,估算出噪声的能量信息,然后用含噪信号减去估算出来的噪声信号的信息,得到增强后的语音信号。这些方法在语音信号稳定时可以取得较好的结果。在机器学习得到迅猛发展后,深度神经网络、卷积神经网络、长短期记忆网络也被广泛的用于增强语音信号,并取得了令人满意的结果。
文献1“Enhancement of Speech Corrupted by Acoustic Noise[IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),1979].”中介绍了使用谱减法增强语音信号的方法,它是假设含噪语音信号中只有假性噪声,然后从含噪语音信号的功率谱中减去估计噪声的功率谱,从而得到纯净语音信号。
文献2“Evaluation of rasta approach with modified parameters forspeech enhancement in communication systems[in Computers&Informatics,Mar.2011,pp.159–162].”中评价了RASTA算法对白噪声和有色噪声抑制的性能,提出了对参数和滤波方法的改进,使其性能优于原RASTA算法。
文献3“Noise Reduction of Speech Signal Using Wavelet Transform withModified Universal Threshold[International Journal of Computer Applications,vol.20,no.5,pp.14-19,2011].”中根据有用信号与噪声信号对应的小波系数的不同来达到语音增强的目的。
生成式对抗网络是Ian Goodfellow于2016年在NIPS会议上面提出,最初被用于计算机视觉和图像领域,引起了巨大的反向。目前,生成对抗网络已经逐渐地被用于语音合成、增强、分离和识别等方面,均取得了不错的成就。条件生成对抗网络最早被提出用于语音领域,为模型加入监督信息,指导生成器生成数据,然后由于模型结构较为单一,存在训练困难的问题。Liu等人在生成对抗网络的基础上额外增加了声学模型构成的分类器,生成器、判别器和分类器构成深度联合对抗网络,以此来提高系统的鲁棒性。近年来,Santiago等人提出了语音增强生成对抗网络(Speech Enhancement Generative AdversarialNetworks,SEGAN),使用端到端的结构,不需要直接处理音频信号,但是在试验过程中,还是发现增强后的语音信号靠近纯净语音信号的能力很弱。
【发明内容】
本发明的目的是提供基于深度完全卷积神经网络的生成对抗网络语音增强方法,以解决现有高噪声环境下语音信号质量差的问题。
本发明采用以下技术方案:基于深度完全卷积神经网络的生成对抗网络语音增强方法,包括以下步骤:
步骤一、构建一个数据集,包含含噪语音信号,以及与所述含噪语音信号相对应的纯净语音信号;获得所述含噪语音信号的语谱图,将语谱图作为生成对抗网络中生成器G的输入;
步骤二、基于深度完全卷积神经网络的生成对抗网络模型的生成器G对步骤一所生成的语谱图进行处理,将生成器构建为编码器-译码器结构,通过编码器部分获得潜在向量z,然后潜在向量z经过译码器部分获得语音信号的输出信号;
步骤三、设置判别器D的结构,然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,判别器将结果反馈给生成器,根据系统目标函数,两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
进一步的,步骤一具体为:对于含噪语音信号进行处理,首先分帧,然后做傅里叶变换,得到语音频谱随时间变化的图形,即含噪语音的语谱图。
进一步的,步骤二具体为:
2.1、将深度完全卷积神经网络与生成对抗网络相结合,对生成对抗网络中生成器的结构进行改进。如附图2所示,生成器G网络是一种编码-译码器框架。首先是编码器部分,在编码阶段,将步骤一所得到的含噪语音信号的语谱图作为生成器的输入,然后通过组合许多卷积层和池化层,对语音信号自动进行特征提取来代替传统的人为提取语音特征方式。在多个卷积层之后添加池化层,累计大量的卷积-池化层对,通过一系列卷积层来压缩语音信息。每个卷积层使用小卷积核而不是大卷积核,并且使用均方根误差(Root MeanSquare prop,RMSprop)激活函数用于获得卷积结果,这时经过编码器部分,可以获得潜在向量z。
2.2、译码器阶段,潜在向量z作为译码器的输入,在多个卷积层之后添加转置卷积层,对应于编码器阶段。在非线性变换之后,输出生成的语音信号。
进一步的,步骤三具体为:
3.1、设置判别器D的结构:判别器D由卷积层实现,采用“same”零填充策略;使用带泄露修正线性单元,在所有卷积层和LeakyReLU激活层之间都有一个批处理规范化层;同时,为了确保后一层的输入数据,选择批量规范化层。
3.2、将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,判别器通过比较二者的特征分布,计算系统的目标函数:
其中,λE[||▽xD(x)||ρ-K2]这一项是惩罚项,并设置额外的损失以实现梯度和K间的连接,其中K设置为1,λ是惩罚参数,pdata(x)表示真实数据的概率分布,表示输入噪声变量的概率分布;
3.3、根据计算得到的目标函数损失值,判别器D得到判断结果,然后通过反向传播算法调整自身的网络参数,使得两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
本发明的有益效果是:提供一种在高噪声环境下基于深度全连接卷积神经网络和生成对抗网络框架的语音增强方法,从而达到语音降噪,增强语音信号的目的,减少高噪声环境对于语音信号的影响。
【附图说明】
图1为本发明基于生成对抗网路的语音增强的系统模型图;
图2为本发明基于深度完全卷积神经网络的生成对抗网络的模型生成器的结构图;
图3为不同语音增强方法的性能得分比较示意图。
【具体实施方式】
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供了基于深度完全卷积神经网络的生成对抗网络语音增强方法,如图1所示,具体实施方式如下:
步骤一、构建一个数据集,包含含噪语音信号,以及与所述含噪语音信号相对应的纯净语音信号;获得所述含噪语音信号的语谱图,将语谱图作为生成对抗网络中生成器G的输入。其中,获得语谱图的方法为:对于含噪语音信号进行处理,首先分帧,然后做傅里叶变换,得到语音频谱随时间变化的图形,也就是含噪语音的频谱图。
步骤二、基于深度完全卷积神经网络的生成对抗网络模型的生成器G对步骤一所生成的语谱图进行处理,将生成器构建为编码器-译码器结构,通过编码器部分获得潜在向量z,然后潜在向量z经过译码器部分获得语音信号的输出。
其具体实施过程为:
2.1、将深度完全卷积神经网络与生成对抗网络相结合,对生成对抗网络中生成器的结构进行改进。如附图2所示,生成器G网络是一种编码-译码器框架。首先是编码器部分,在编码阶段,将步骤一所得到的含噪语音信号的语谱图作为生成器的输入,然后通过组合许多卷积层和池化层,对语音信号自动进行特征提取来代替传统的人为提取语音特征方式。在多个卷积层之后添加池化层,累计大量的卷积-池化层对,通过一系列卷积层来压缩语音信息。每个卷积层使用小卷积核而不是大卷积核,并且使用均方根误差(Root MeanSquare prop,RMSprop)激活函数用于获得卷积结果,这时经过编码器部分,可以获得潜在向量z。
2.2、译码器阶段,潜在向量z作为译码器的输入,在多个卷积层之后添加转置卷积层,对应于编码器阶段。在非线性变换之后,输出生成的语音信号。
步骤三、设置判别器D的结构,然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,判别器将结果反馈给生成器,根据系统目标函数,两者不断交互对抗、训练,直至达到平衡,获得增强语音信号;
其具体实施过程为:
3.1首先,设置判别器D的结构。判别器D由卷积层实现,采用“same”零填充策略。为了激活所有的神经元,使用了带泄露修正线性单元(Leaky ReLU)。在所有卷积层和LeakyReLU激活层之间都有一个批处理规范化层。同时,为了确保后一层的输入数据,选择批量规范化层。
3.2、判别器的结构设置完成后,将步骤二生成的增强语音信号和纯净的语音信号作为判别器D的输入,判别器通过比较二者的特征分布,计算系统的目标函数:
其中,λE[||▽xD(x)||ρ-K2]这一项是惩罚项,并设置额外的损失以实现梯度和K间的连接,其中K设置为1,λ是惩罚参数。pdata(x)表示真实数据的概率分布,表示输入噪声变量的概率分布。
3.3、根据计算得到的目标函数损失值,判别器D得到判断结果,然后通过反向传播算法调整自身的网络参数,使得两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
【实施例】
以下实例中所提供的图示以及模型中的具体参数值的设定只是为了说明本发明的基本构想以及对本发明做仿真验证。
为了系统地评估所提模型的有效性,本发明选择开源数据集进行训练分析。数据集中有来自语音库的30名英语母语者,这些语音信号包含有多种类型噪音。语音库中测试集包含两个英语母语者,每人约有400句纯净和噪音测试语音信号,共有824个语音。训练集包括28名英语母语者,每人400句纯净和噪声训练语音信号,共计11572个语音。在噪声训练集中,有40种不同条件,包括10种噪声(2种人工噪声和8种来自需求数据集[18]的噪声,分别有4种不同的信噪比、15dB、10dB、5dB和0dB)。在测试集中,有20种不同的条件,包括5种类型的噪声(均来自需求数据库),其中有4种不同的信噪比(17.5dB、12.5dB、7.5dB和2.5dB)。
本发明模型采用均方根反向传播算法进行训练。学习率设置为0.0002,批次大小为256,经过86次遍历。为了满足波形产生的要求,对从48kHz到16kHz的原始声音进行了下采样。使用折扣因子为0.95进行预加重。
生成器网络是由卷积层和转置卷积层实现的编码器-解码器结构。为了在边界处得到卷积结果,选择了“same”填充方法。为了避免梯度消失,每个卷积层和反卷积层后面都有一个预激活函数。在编码器部分,每两个卷积层添加一个池化层,池窗口设置为2。在解码器部分,每两层添加一个反池化层,池窗口设置为2。
判别器D由卷积层实现,采用“same”零填充策略。为了激活所有的神经元,使用了带泄露修正线性单元(Leaky ReLU)。在所有卷积层和Leaky ReLU激活层之间都有一个批处理规范化层。同时,为了确保后一层的输入数据,选择批量规范化层。
为了全面系统评价增强后语音信号的效果,本发明将所提方法DFCNN-GAN与传统的生成对抗网络GAN、维纳滤波法Wiener、语音增强生成对抗网络方法SEGAN以及原始的含噪语音信号Noisy相比较,对比表现所提方法性能。为了评估增强语音的质量,本发明计算了以下参数。
(1)语音质量感知评价(Perceptual Evaluation ofSpeech Quality,PESQ):利用语音信号客观特性去模拟人主观意识,从而对语音质量进行感知评估,评分范围是[-0.5~4.5]。
(2)平均意见分(Mean Opinion Score,CMOS):对语音信号的主观感知根据评判标准来评分,是一种主观评价,也是使用最为广泛的一种语音质量评价方法。
(3)分段信噪比(Segmented Signal to Noise Ratio,SSNR):一种常用的语音信号质量的评判标准,反映了某一段范围内语音信号的信噪比,评分范围是[0~∞]。
附图3显示了不同语音增强方法的度量分数,可以得出基于深度全连接卷积生成对抗网络的语音增强方法具有更加优良的去噪效果。与Wiener滤波和SEGAN相比,DFCNN-GAN各项指标都有一定程度的改进。而且,SEGAN的PESQ指标较差,但DFCNN-GAN可以在一定程度上弥补其缺陷。
本发明背景技术中所描述的各项技术在语音信号稳定的情况下可以取得良好的效果,然而却都有着较大的局限性,如谱减法的残余噪声严重、维纳滤波法难以在实际中应用以及小波变换存在冗余大的缺点。此外,由于将生成对抗网络的技术应用于语音信号处理的时间短,因此上面提到的SEGAN等方法难以处理噪声信号复杂时的情形。当语音信号不稳定、噪声成分复杂时,上述方法均难以达到令人满意的效果,因此,本发明提出了基于深度全连接卷积神经网络和生成对抗网络框架的语音增强方法,从而解决此问题,增强语音信号。与上述技术相比,本发明的改进点在于:将深度完全卷积神经网络应用到生成对抗网络框架中做语音增强的工作,然后将生成器的结构分为编码器-译码器两部分,从而可以使神经网络更好的提取语音信号的特征;与其他技术不同,为了解决传统的生成对抗网络着梯度消失、训练困难的问题,本发明采用改进的Wasserstein生成对抗网络来代替传统生成对抗中的交叉熵损失,从而可以达到更好的训练效果。
生成器不仅仅使用卷积神经网络,而是用深度完全卷积神经网络结构替代它,提高了卷积神经网络的表达能力,由于不需要复杂的前段处理过程,直接是端到端处理,简化了训练过程。
将深度完全卷积神经网络应用到生成对抗网络框架中做语音增强的工作,同时与改进的Wasserstein生成对抗网络结合,使用了更为先进的损失函数。深度完全卷积神经网络,作为生成器的结构,相较于传统的生成对抗网络,训练起来更加稳定,同时能够提高系统的鲁棒性;本发明通过数值结果显示了该方法与其他方法确实有一定的改进作用。
Claims (4)
1.基于深度完全卷积神经网络的生成对抗网络语音增强方法,其特征在于,包括以下步骤:
步骤一、构建一个数据集,包含含噪语音信号,以及与所述含噪语音信号相对应的纯净语音信号;获得所述含噪语音信号的语谱图,将语谱图作为生成对抗网络中生成器G的输入;
步骤二、基于深度完全卷积神经网络的生成对抗网络模型的生成器G对步骤一所生成的语谱图进行处理,将生成器构建为编码器-译码器结构,通过编码器部分获得潜在向量z,然后潜在向量z经过译码器部分获得语音信号的输出信号;
步骤三、设置判别器D的结构,然后将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,判别器将结果反馈给生成器,根据系统目标函数,两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
2.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法,其特征在于,所述步骤一具体为:对于含噪语音信号进行处理,首先分帧,然后做傅里叶变换,得到语音频谱随时间变化的图形,即含噪语音的语谱图。
3.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法,其特征在于,所述步骤二具体为:
2.1、将深度完全卷积神经网络与生成对抗网络相结合,对生成对抗网络中生成器的结构进行改进。如附图2所示,生成器G网络是一种编码-译码器框架。首先是编码器部分,在编码阶段,将步骤一所得到的含噪语音信号的语谱图作为生成器的输入,然后通过组合许多卷积层和池化层,对语音信号自动进行特征提取来代替传统的人为提取语音特征方式。在多个卷积层之后添加池化层,累计大量的卷积-池化层对,通过一系列卷积层来压缩语音信息。每个卷积层使用小卷积核而不是大卷积核,并且使用均方根误差(Root Mean Squareprop,RMSprop)激活函数用于获得卷积结果,这时经过编码器部分,可以获得潜在向量z。
2.2、译码器阶段,潜在向量z作为译码器的输入,在多个卷积层之后添加转置卷积层,对应于编码器阶段。在非线性变换之后,输出生成的语音信号。
4.如权利要求1所述的基于深度完全卷积神经网络的生成对抗网络语音增强方法,其特征在于,所述步骤三具体为:
3.1、设置判别器D的结构:判别器D由卷积层实现,采用“same”零填充策略;使用带泄露修正线性单元,在所有卷积层和Leaky ReLU激活层之间都有一个批处理规范化层;同时,为了确保后一层的输入数据,选择批量规范化层。
3.2、将所述步骤二中的输出信号和所述步骤一中的纯净语音信号作为判别器D的输入,判别器通过比较二者的特征分布,计算系统的目标函数:
其中,这一项是惩罚项,并设置额外的损失以实现梯度和K间的连接,其中K设置为1,λ是惩罚参数,pdata(x)表示真实数据的概率分布,表示输入噪声变量的概率分布;
3.3、根据计算得到的目标函数损失值,判别器D得到判断结果,然后通过反向传播算法调整自身的网络参数,使得两者不断交互对抗、训练,直至达到平衡,获得增强语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910755047.1A CN110619885B (zh) | 2019-08-15 | 2019-08-15 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910755047.1A CN110619885B (zh) | 2019-08-15 | 2019-08-15 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619885A true CN110619885A (zh) | 2019-12-27 |
CN110619885B CN110619885B (zh) | 2022-02-11 |
Family
ID=68921189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910755047.1A Active CN110619885B (zh) | 2019-08-15 | 2019-08-15 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619885B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261177A (zh) * | 2020-01-19 | 2020-06-09 | 平安科技(深圳)有限公司 | 语音转换方法、电子装置及计算机可读存储介质 |
CN111276132A (zh) * | 2020-02-04 | 2020-06-12 | 北京声智科技有限公司 | 一种语音处理方法、电子设备及计算机可读存储介质 |
CN111785281A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于信道补偿的声纹识别方法及系统 |
CN111968666A (zh) * | 2020-08-20 | 2020-11-20 | 南京工程学院 | 基于深度域自适应网络的助听器语音增强方法 |
CN112364993A (zh) * | 2021-01-13 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 模型联合训练方法、装置、计算机设备和存储介质 |
CN112380939A (zh) * | 2020-11-05 | 2021-02-19 | 浙江工业大学 | 一种基于生成对抗网络的深度学习信号增强方法 |
CN112397057A (zh) * | 2020-12-01 | 2021-02-23 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN112562707A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 一种单信道目标语音增强方法 |
CN113066483A (zh) * | 2019-12-31 | 2021-07-02 | 南昌航空大学 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
CN113096673A (zh) * | 2021-03-30 | 2021-07-09 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音处理方法及系统 |
CN113111720A (zh) * | 2021-03-17 | 2021-07-13 | 浙江工业大学 | 一种基于深度学习的电磁调制信号去噪方法及系统 |
CN113314109A (zh) * | 2021-07-29 | 2021-08-27 | 南京烽火星空通信发展有限公司 | 一种基于循环生成网络的语音生成方法 |
CN113314136A (zh) * | 2021-05-27 | 2021-08-27 | 西安电子科技大学 | 基于定向降噪与干声提取技术的语音优化方法 |
CN113393854A (zh) * | 2021-05-19 | 2021-09-14 | 出门问问信息科技有限公司 | 一种语音处理方法、装置、电子设备和计算机存储介质 |
CN113593604A (zh) * | 2021-07-22 | 2021-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 检测音频质量方法、装置及存储介质 |
CN114265373A (zh) * | 2021-11-22 | 2022-04-01 | 煤炭科学研究总院 | 综采面一体式操控台控制系统 |
CN114898766A (zh) * | 2022-07-12 | 2022-08-12 | 四川高速公路建设开发集团有限公司 | 基于gan网络的分布式光纤语音增强方法及隧道救援系统 |
CN115050379A (zh) * | 2022-04-24 | 2022-09-13 | 华侨大学 | 一种基于fhgan的高保真语音增强模型及其应用 |
CN115376501A (zh) * | 2022-10-26 | 2022-11-22 | 深圳市北科瑞讯信息技术有限公司 | 语音增强方法及装置、存储介质、电子设备 |
CN115588436A (zh) * | 2022-09-29 | 2023-01-10 | 沈阳新松机器人自动化股份有限公司 | 基于变分自编码器生成对抗网络的语音增强方法 |
CN115668366A (zh) * | 2020-10-15 | 2023-01-31 | 北京嘀嘀无限科技发展有限公司 | 一种声学回声消除方法和系统 |
CN118098260A (zh) * | 2024-03-26 | 2024-05-28 | 荣耀终端有限公司 | 一种语音信号处理方法及相关设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130035933A1 (en) * | 2011-08-05 | 2013-02-07 | Makoto Hirohata | Audio signal processing apparatus and audio signal processing method |
KR20160102815A (ko) * | 2015-02-23 | 2016-08-31 | 한국전자통신연구원 | 잡음에 강인한 오디오 신호 처리 장치 및 방법 |
US20180261213A1 (en) * | 2017-03-13 | 2018-09-13 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
CN109065021A (zh) * | 2018-10-18 | 2018-12-21 | 江苏师范大学 | 基于条件深度卷积生成对抗网络的端到端方言辨识方法 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109492627A (zh) * | 2019-01-22 | 2019-03-19 | 华南理工大学 | 一种基于全卷积网络的深度模型的场景文本擦除方法 |
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
US20190130897A1 (en) * | 2017-10-27 | 2019-05-02 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
-
2019
- 2019-08-15 CN CN201910755047.1A patent/CN110619885B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130035933A1 (en) * | 2011-08-05 | 2013-02-07 | Makoto Hirohata | Audio signal processing apparatus and audio signal processing method |
KR20160102815A (ko) * | 2015-02-23 | 2016-08-31 | 한국전자통신연구원 | 잡음에 강인한 오디오 신호 처리 장치 및 방법 |
US20180261213A1 (en) * | 2017-03-13 | 2018-09-13 | Baidu Usa Llc | Convolutional recurrent neural networks for small-footprint keyword spotting |
US20190130903A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
US20190130897A1 (en) * | 2017-10-27 | 2019-05-02 | Salesforce.Com, Inc. | End-to-end speech recognition with policy learning |
CN109065021A (zh) * | 2018-10-18 | 2018-12-21 | 江苏师范大学 | 基于条件深度卷积生成对抗网络的端到端方言辨识方法 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109492627A (zh) * | 2019-01-22 | 2019-03-19 | 华南理工大学 | 一种基于全卷积网络的深度模型的场景文本擦除方法 |
Non-Patent Citations (3)
Title |
---|
SE RIM PARK ET AL.: "A Fully Convolutional Neural Network for Speech Enhancement", 《INTERSPEECH》 * |
SHUAISHUAI YE ET AL.: "Speech Enhancement Based on A New Architecture of Wasserstein Generative Adversarial Networks", 《ISCSLP》 * |
时文华 等: "利用深度全卷积编解码网络的单通道语音增强", 《信号处理》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066483A (zh) * | 2019-12-31 | 2021-07-02 | 南昌航空大学 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
CN113066483B (zh) * | 2019-12-31 | 2024-01-30 | 广州航海学院 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
CN111261177A (zh) * | 2020-01-19 | 2020-06-09 | 平安科技(深圳)有限公司 | 语音转换方法、电子装置及计算机可读存储介质 |
CN111276132A (zh) * | 2020-02-04 | 2020-06-12 | 北京声智科技有限公司 | 一种语音处理方法、电子设备及计算机可读存储介质 |
CN111785281A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种基于信道补偿的声纹识别方法及系统 |
CN111968666A (zh) * | 2020-08-20 | 2020-11-20 | 南京工程学院 | 基于深度域自适应网络的助听器语音增强方法 |
CN111968666B (zh) * | 2020-08-20 | 2022-02-01 | 南京工程学院 | 基于深度域自适应网络的助听器语音增强方法 |
CN115668366A (zh) * | 2020-10-15 | 2023-01-31 | 北京嘀嘀无限科技发展有限公司 | 一种声学回声消除方法和系统 |
CN112380939A (zh) * | 2020-11-05 | 2021-02-19 | 浙江工业大学 | 一种基于生成对抗网络的深度学习信号增强方法 |
CN112380939B (zh) * | 2020-11-05 | 2024-02-20 | 浙江工业大学 | 一种基于生成对抗网络的深度学习信号增强方法 |
CN112562707A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 一种单信道目标语音增强方法 |
CN112397057A (zh) * | 2020-12-01 | 2021-02-23 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN112364993B (zh) * | 2021-01-13 | 2021-04-30 | 深圳市友杰智新科技有限公司 | 模型联合训练方法、装置、计算机设备和存储介质 |
CN112364993A (zh) * | 2021-01-13 | 2021-02-12 | 深圳市友杰智新科技有限公司 | 模型联合训练方法、装置、计算机设备和存储介质 |
CN113111720A (zh) * | 2021-03-17 | 2021-07-13 | 浙江工业大学 | 一种基于深度学习的电磁调制信号去噪方法及系统 |
CN113096673B (zh) * | 2021-03-30 | 2022-09-30 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音处理方法及系统 |
CN113096673A (zh) * | 2021-03-30 | 2021-07-09 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音处理方法及系统 |
CN113393854A (zh) * | 2021-05-19 | 2021-09-14 | 出门问问信息科技有限公司 | 一种语音处理方法、装置、电子设备和计算机存储介质 |
CN113393854B (zh) * | 2021-05-19 | 2022-11-11 | 出门问问创新科技有限公司 | 一种语音处理方法、装置、电子设备和计算机存储介质 |
CN113314136A (zh) * | 2021-05-27 | 2021-08-27 | 西安电子科技大学 | 基于定向降噪与干声提取技术的语音优化方法 |
CN113593604A (zh) * | 2021-07-22 | 2021-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 检测音频质量方法、装置及存储介质 |
CN113314109A (zh) * | 2021-07-29 | 2021-08-27 | 南京烽火星空通信发展有限公司 | 一种基于循环生成网络的语音生成方法 |
CN113314109B (zh) * | 2021-07-29 | 2021-11-02 | 南京烽火星空通信发展有限公司 | 一种基于循环生成网络的语音生成方法 |
CN114265373A (zh) * | 2021-11-22 | 2022-04-01 | 煤炭科学研究总院 | 综采面一体式操控台控制系统 |
CN115050379A (zh) * | 2022-04-24 | 2022-09-13 | 华侨大学 | 一种基于fhgan的高保真语音增强模型及其应用 |
CN114898766A (zh) * | 2022-07-12 | 2022-08-12 | 四川高速公路建设开发集团有限公司 | 基于gan网络的分布式光纤语音增强方法及隧道救援系统 |
CN115588436A (zh) * | 2022-09-29 | 2023-01-10 | 沈阳新松机器人自动化股份有限公司 | 基于变分自编码器生成对抗网络的语音增强方法 |
CN115376501A (zh) * | 2022-10-26 | 2022-11-22 | 深圳市北科瑞讯信息技术有限公司 | 语音增强方法及装置、存储介质、电子设备 |
CN115376501B (zh) * | 2022-10-26 | 2023-02-14 | 深圳市北科瑞讯信息技术有限公司 | 语音增强方法及装置、存储介质、电子设备 |
CN118098260A (zh) * | 2024-03-26 | 2024-05-28 | 荣耀终端有限公司 | 一种语音信号处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110619885B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
Xia et al. | Speech enhancement with weighted denoising auto-encoder. | |
KR101807961B1 (ko) | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 | |
Ju et al. | Tea-pse: Tencent-ethereal-audio-lab personalized speech enhancement system for icassp 2022 dns challenge | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Yang et al. | Improving generative adversarial networks for speech enhancement through regularization of latent representations | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
CN114974280A (zh) | 音频降噪模型的训练方法、音频降噪的方法及装置 | |
CN114446314A (zh) | 一种深度生成对抗网络的语音增强方法 | |
Kothapally et al. | Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN114283829A (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
Zhou et al. | Speech Enhancement via Residual Dense Generative Adversarial Network. | |
CN103971697A (zh) | 基于非局部均值滤波的语音增强方法 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |