CN111564160A - 一种基于aewgan的语音降噪的方法 - Google Patents
一种基于aewgan的语音降噪的方法 Download PDFInfo
- Publication number
- CN111564160A CN111564160A CN202010316731.2A CN202010316731A CN111564160A CN 111564160 A CN111564160 A CN 111564160A CN 202010316731 A CN202010316731 A CN 202010316731A CN 111564160 A CN111564160 A CN 111564160A
- Authority
- CN
- China
- Prior art keywords
- network
- speech
- function
- aewgan
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000009467 reduction Effects 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 52
- 210000002569 neuron Anatomy 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 230000000694 effects Effects 0.000 claims description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000004083 survival effect Effects 0.000 claims 1
- 230000008034 disappearance Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229930186005 sigmoidin Natural products 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Filters That Use Time-Delay Elements (AREA)
Abstract
本发明请求保护一种基于AEWGAN的语音降噪方法,该方法包括步骤:S1,将时域语音信号做为AEWGAN的生成器的输入,使用无监督方式让生成器自动生成新的语音;S2,将纯净语音和生成语音做为判别器的输入,训练判别器对干净语音的判别能力;S4,同时,在模型训练的过程会各自更新自身的参数使得损失最小,通过不断迭代优化,最终达到一个纳什均衡,此时模型达到最优;该发明能够有效的去除带噪语音信号的噪声,为后续的语音识别模型提供干净的语音信号,且鲁棒性好。
Description
技术领域
本发明属于语音信号处理领域,特别是一种基于AEWGAN的语音降噪方法。
背景技术
语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在实际环境中,语音信号总是会受到外界环境噪声的干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、通信设备内部电噪声乃至其他说话人的干扰等等。这些干扰会使接收端的语音成为受噪声污染的语音,当噪声干扰严重时,语音将完全淹没到噪声中,使其无法分辨。语音增强是解决噪声污染的一种有效方法,它是从带噪语音信号中提取尽可能纯净的原始语音。总的来说语音增强的目标主要有:改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳;提高语音可懂度,方便听者理解。但由于噪声来源众多,随着应用场合不同,它们的特性也各不相同,即使在实验室室仿真条件下,也难以找到一种通用的语音增强算法,能适用于各种噪声环境,因此必须根据不同的噪音,采取特定的语音增强策略来降低噪音。
传统的语音增强算法都有各自缺点,维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。以均方误差或方差最小为准则,对噪声信号进行最优估计,然后从带噪语音中减去噪声达到降噪,提高信噪比,增强语音的目的。当输入信号的统计特性未知,或者输入信号的统计特性变化时,自适应滤波器能够自动地迭代调节自身的滤波器参,以满足某种准则的要求,从而实现最优滤波。因此,自适应滤波器具有“自我调节”和“跟踪”能力。此方法的关键是如何得到带噪语音中的噪声。在多声道采集系统中,两个话筒间要有一定的距离,因而实时采集的两路信号的噪声不同,而且还受到回声及其他可变衰减特性的影响。在用单声道系统来采集带噪语音时,必须在语音间歇期间利用采集到的噪声进行估值,如果噪声是非平稳的,会严重影响语音的增强效果,另一个缺点是增强后的语音中含有明显的“音乐噪声”。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于AEWGAN的语音降噪的方法。本发明的技术方案如下:
一种基于AEWGAN的语音降噪的方法,其包括以下步骤:
S1、测试阶段,获取一维的语音信号并转成一维离散语音信号,作为AEWGAN的输入;
S2、训练阶段,将一维离散语音信号输入AEWGAN的生成器中,利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积层生成新的语音信号;
S3、将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中,训练一个能够识别纯净语音信号的判别器,判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制;
S4、判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离;
S5、用训练集对模型进行训练,利用Adam算子优化目标函数;
S6、使用验证集对训练后的模型进项交叉验证,调整模型的超参数(迭代批次、批次大小和学习率,在训练过程中对超参数设定不同的值),得到最终网络模型,利用最终网络模型进行语音降噪。
进一步的,所述步骤S1获取一维的语音信号并转成一维离散语音信号,具体包括;
(输入约为1s的带噪语音,该语音的采样频率为8000Hz,为8192×1的一维向量。)
进一步的,所述步骤S2将带噪语音信号输入AEGAN的生成器中,利用卷积网络提取信号特征,接着再通过反卷积层生成新的语音信号,并在对应卷积和反卷积层引入U-Net结构,假设生成器网络总层数为n,使用跳跃连接技术通过对i层与n-i层相连接,该做法有效地将编码阶段的信息传递给解码阶段,使得网络梯度能更好地传播。U-Net结构的表达式为:
其中,xi,j表示输出,i沿编码器索引下采样层,j表沿着跳跃路径对稠密块进行索引的卷积层,H[·]函数为卷积运算,u[·]为上采样层,[·]为级联层。
进一步的,所述步骤S2利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积层生成新的语音信号;
语音信号和带噪语音信号的非线性表达式为:
y(t)=x(t)+z(t)
其中x(t)为干净语音,z(t)为噪声,y(t)为带噪语音。
生成器分为两个部分,编码和解码。编码部分由一维卷积组成,主要是对输入的带噪语音进行编码:
xi+1=ReLU(∑X·ωi+bi)
其中xi+1表示第i层卷积后的结果,ωi表示为第i层的权重参数,bi表示第i层的偏置值,ReLU为线性整流单元结构。
ReLU(x)=max(0,x)
而解码由反卷积构成,因此得到新的语音信号为:
进一步的,所述S3将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中,训练一个能够识别纯净语音信号的判别器,判别器的表达式:
z=∑wixi+b
xi+1=σ(z)
其中xi为输入语音信号,wi为权重参数,b为偏置值,σ(z)为Sigmoid激活函数。
判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制。
进一步的,所述判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制,具体包括:
在激活函数为sigmoid的情况下,当神经元输出接近1的时候被认为是激活状态,输出接近0的时候被认为处于抑制状态,所谓稀疏性限制,即神经元多数时间被限制为处于抑制状态的规则,用表示输入为x的情况下,隐藏神经元j的活跃度,将隐藏层神经元节点j的平均活跃度记为:
m为每层网络的神经元节点数,则稀疏性限制记为其中ρ为稀疏性参数,通常是一个接近于0的较小值,为了实现此限制需加入惩罚因子,对导致情况的活跃神经元进行惩罚,从而使神经元平均活跃度保持在较小范围内,惩罚因子式为:
其中:其中:S2表示隐藏层神经元数量、KL散度表达式为:
其中β为控制稀疏性惩罚因子的权重,W为权重参数、b为偏置值。
进一步的,所述步骤S4判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离,具体包括:
在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量,Wasserstein距离的定义如下:
其中inf(·)表示为·函数的下界,P1和P2为概率分布,γ为每一个可能的集合分布,x、y为样本值。E(x,y)~γ[||x-y||]表示为x与y的Wasserstein距离,Π(P1,P2)为P1和P2的联合分布集合,γ服从Π(P1,P2),在(x,y)~γ分布条件下,求得E(x,y)~γ[||x-y||],结果为x与y距离的期望,Wasserstein距离就是对该期望求其下界值,将上式转换为:
该式中sup(·)为函数·的上界,|f||L≤K定义为:
|f(x1)-f(x2)|≤K|x1-x2|
K为函数f(x)的Lipschitz常数,同时K也可以理解为梯度,即在神经网络f(x)中x的梯度绝对值小于K;
判别器用FDNN网络模拟的函数无限逼近于Wasserstein距离,从而计算出真实样本和生成样本之间的Wasserstein距离。
进一步的,判别器网络的优化目标函数为:
L(w)表示判别器的优化目标函数,表示为求x样本的均值,表示为求z样本均值,fw(x)表示判别器拟合的函数,fw(G(z))表示生成器生成的语音样本在判别器中值到的距离值,w为判别器网络中的权重参数,Pdata和Pz为真实样本和生成样本的分布,在本网络中由于K值不影响fw(x)的梯度方向,所以取为1,而生成器中为了让Wasserstein距离最小也需要进行优化,优化目标函数为:
其中L(G)表示生成器的优化目标函数,由于该式中和生成器网络无关,可以等价为:
另外在训练的过程中,必须满足条件|f||L≤K,所以在每次更新权重后对权重进行参数截断,把权重的值控制在[-c,c]。
进一步的,使用梯度惩罚来替换参数截断,通过额外设置的梯度惩罚项,实现满足条件|f||L≤K,最终生成器网络和判别器网络的目标函数如下:
进一步的,所述步骤S5用训练集对模型进行训练,利用Adam算子优化目标函数,Adam优化算法是随机梯度下降算法的优化,该算法是Momentum算法与RMSprop算法的结合。
其中Momentum算法过程为;
vdw=βvdw+(1-β)dW
vdb=βvdb+(1-β)db
W=W-αvdw
b=b-αvdb
其中vdw和vdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。dw和db分别是损失函数反向传播时候所求得的梯度,α是网络的学习率。
RMSprop算法过程:
sdw=βsdw+(1-β)dW2
sdb=βsdb+(1-β)db2
其中sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。ε来进行平滑,防止分母为0。
设在训练的第t轮训练中,我们首先可以计算得到Momentum和RMSProp的参数更新,由于移动指数平均在迭代开始的初期会导致和开始的值有较大的差异,所以我们需要偏差修正。因此求得在第t轮迭代过程中,参数梯度累积量的修正值,从而接下来就可以根据Momentum和RMSProp算法的结合来对权重和偏置进行更新。
上面的所有步骤就是Momentum算法和RMSProp算法结合起来从而形成Adam算法。其中β1的值为Momentum算法的β值,β2为RMSProp的β值。
本发明的优点及有益效果如下:
大多数的传统语音降噪算法都是基于统计学模型,先是对噪声分布进行建模,而后根据建模结果去除噪声,获得纯净语音。但是随着信噪比降低,传统的降噪算法会失效,造成大量噪声余留以及语音失真;其二,由于传统语音降噪算法附带一些不合理的假设,例如噪声信号与语音信号在统计上是相互独立的、噪声是平稳的等,导致无法在现实场景中应用。针对以上问题,本文提出了一种基于AEWGAN的语音降噪方法,训练AEWGAN的生成器和判别器参数后,生成器可以自动将去除带噪语音的噪声信号,且泛化性好、鲁棒性强。其二,AEWGAN可以训练各类噪声,因此只要在数据量足够的前提下,生成器在训练完成后,可以去除语音中的各类噪声,生成出去噪的干净语音。
附图说明
图1是本发明提供优选实施例AEWGAN中生成器模型结构;
图2为AEWGAN中判别器模型结构;
图3为本发明优选实施例发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明引入了深度学习理论中的对抗生成网络(GAN)用于语音降噪中,在GAN中的生成器网络中使用了自编码网络(AutoEncoder)结构,并且在对应卷积层和反卷积层引入了U-Net结构,然后在GAN中引入Wasserstein距离,改善普通GAN的梯度消失问题和模式崩溃问题以及传统语音降噪方法的缺点。并在判别器网络中,加入惩罚因子对神经元节点进行稀疏性限制。基于以上的改进,本发明提出了一种基于AEWGAN的语音降噪方法,技术方案如下:
基于以上结构,本发明对传统GAN结构提出了改进,针对传统GAN的梯度消失问题和模式崩溃问题,在生成器中使用卷积层和反卷积代替传统生成器中的DNN层,利用卷积提取语音信号特征,然后接入反卷积层生成去噪语音信号,并在对应卷积和反卷积层引入U-Net结构,如图1所示。由于传统的GAN使用的是JS和KL散度计算真实样本和生成样本分布之间的差异,但容易造成梯度消失、模式崩溃、自由不可控等问题。因此在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量,如图2所示。并在判别器中加入稀疏惩罚因子,解决判别器过拟合的问题,
本发明在传统GAN中的生成器中使用了自编码网络(AutoEncoder)结构,并且在对应卷积层和反卷积层引入了U-Net结构,并在判别器网络中,加入惩罚因子对神经元节点进行稀疏性限制,并使用Wasserstein距离对真实样本和生成样本的距离进行度量。。改善普通GAN的梯度消失问题和模式崩溃问题以及解决判别器过拟合的问题,在语音降噪的任务中优于传统降噪算法。
S1、将带噪语音信号输入AEGAN的生成器中,利用卷积网络提取信号特征,接着再通过反卷积层生成新的语音信号,并在对应卷积和反卷积层引入U-Net结构,这种结构相比普通的CNN网络具有局部感知能力,使得在深层的卷积中能够有浅层的简单特征,使得卷积的输入更加丰富,自然得到的结果也更加能够反映图像的原始信息,U-Net结构表达式为;
S2、将生成语音信号和干净语音信号输入AEGAN的判别器中,训练一个能够识别纯净语音信号的判别器。判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制;
在激活函数为sigmoid的情况下,当神经元输出接近1的时候被认为是激活状态,输出接近0的时候被认为处于抑制状态。所谓稀疏性限制,即神经元多数时间被限制为处于抑制状态的规则。用表示输入为x的情况下,隐藏神经元j的活跃度。将隐藏层神经元节点j的平均活跃度记为:
则稀疏性限制记为其中ρ为稀疏性参数,通常是一个接近于0的较小值(如ρ=0.05,表示神经元节点j的平均活跃度为0.05)。为了实现此限制需加入惩罚因子,对导致情况的活跃神经元进行惩罚,从而使神经元平均活跃度保持在较小范围内。惩罚因子式为:
其中:
其中β为控制稀疏性惩罚因子的权重。
S4,由于传统的GAN使用的是JS和KL散度计算真实样本和生成样本分布之间的差异,但容易造成梯度消失、模式崩溃、自由不可控等问题。因此在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量。Wasserstein距离的定义如下:
其中inf(·)表示为·函数的下界,Π(P1,P2)为P1和P2的联合分布集合,γ服从Π(P1,P2)。在(x,y)~γ分布条件下,求得E(x,y)~γ[||x-y||],结果为x与y距离的期望。Wasserstein距离就是对该期望求其下界值,但公式(3.20)无法直接求解,而是将该式转换为:
该式中sup(·)为函数·的上界,|f||L≤K定义为:
|f(x1)-f(x2)|≤K|x1-x2|
K为函数f(x)的Lipschitz常数,同时K也可以理解为梯度,即在神经网络f(x)中x的梯度绝对值小于K。
因此判别器用FDNN网络模拟的fw(x)函数可以无限逼近于公式(3.21)表示的Wasserstein距离,从而计算出真实样本和生成样本之间的Wasserstein距离。所以判别器网络的优化目标函数为:
w为判别器网络中的权重参数,Pdata和Pz为真实样本和生成样本的分布,在本网络中由于K值不影响fw(x)的梯度方向,所以取为1。而生成器中为了让Wasserstein距离最小也需要进行优化,优化目标函数为:
由于该式中和生成器网络无关,可以等价为:
另外在训练的过程中,必须满足条件|f||L≤K,所以在每次更新权重后对权重进行参数截断(Weight clipping),把权重的值控制在[-c,c](c是一个非常小的正数,例如0.01)。但这样做的结果会使得网络参数走极端,要么取最大值c,要么取最小值-c,导致判别器失效。为了进一步优化,使用梯度惩罚(Gradient penalty)来替换参数截断,通过额外设置的梯度惩罚项,实现满足条件|f||L≤K。最终生成器网络和判别器网络的目标函数如下:
S5、用训练集对模型进行训练,利用Adam算子优化目标函数;
S6、使用验证集对训练后的模型进项交叉验证,调整模型的超参数,得到最终网络模型;
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (10)
1.一种基于AEWGAN的语音降噪的方法,其特征在于,包括以下步骤:
S1、测试阶段,获取一维的语音信号并转成一维离散语音信号,作为AEWGAN自动编码对抗网络的输入;
S2、训练阶段,将一维离散语音信号输入AEWGAN的生成器中,利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积层生成新的语音信号;
S3、将纯净语音和步骤S2生成的语音信号输入AEWGAN的判别器中,训练一个能够识别纯净语音信号的判别器,判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制;
S4、判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离;
S5、用训练集对模型进行训练,利用Adam算子优化目标函数;
S6、使用验证集对训练后的模型进项交叉验证,调整模型的超参数,包括迭代批次、批次大小和学习率,在训练过程中对超参数设定不同的值,得到最终网络模型,利用最终网络模型进行语音降噪。
2.根据权利要求1所述的一种基于AEWGAN的语音降噪的方法,其特征在于,所述步骤S1获取一维的语音信号并转成一维离散语音信号,具体包括;
输入约为1s的带噪语音,该语音的采样频率为8000Hz,为8192×1的一维向量。
4.根据权利要求3所述的一种基于AEWGAN的语音降噪的方法,所述步骤S2利用卷积网络自动学习干净语音信号和带噪语音信号的非线性关系,接着再通过反卷积网络生成新的语音信号;
语音信号和带噪语音信号的非线性表达式为:
y(t)=x(t)+z(t)
其中x(t)为干净语音,z(t)为噪声,y(t)为带噪语音。
生成器分为两个部分,编码和解码。编码部分由一维卷积组成,主要是对输入的带噪语音进行编码:
xi+1=ReLU(∑X·ωi+bi)
其中xi+1表示第i层卷积后的结果,ωi表示为第i层的权重参数,bi表示第i层的偏置值,ReLU为线性整流单元结构;
ReLU(x)=max(0,x)
而解码由反卷积构成,因此得到新的语音信号为:
6.根据权利要求5所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
所述判别器中的DNN网络利用BP传播法对网络参数进行调整,利用惩罚因子对神经元节点进行稀疏性限制,具体包括:
在激活函数为sigmoid的情况下,当神经元输出接近1的时候被认为是激活状态,输出接近0的时候被认为处于抑制状态,所谓稀疏性限制,即神经元多数时间被限制为处于抑制状态的规则,用表示输入为x的情况下,隐藏神经元j的活跃度,将隐藏层神经元节点j的平均活跃度记为:
m为每层网络的神经元节点数,则稀疏性限制记为其中ρ为稀疏性参数,通常是一个接近于0的较小值,为了实现此限制需加入惩罚因子,对导致情况的活跃神经元进行惩罚,从而使神经元平均活跃度保持在较小范围内,惩罚因子式为:
其中:S2表示隐藏层神经元数量、KL散度表达式为:
其中β为控制稀疏性惩罚因子的权重,W为权重参数、b为偏置值。
7.根据权利要求6所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
所述步骤S4判别器拟合出一个复杂的函数,该函数用于判断真实样本与生成的样本之间的Wasserstein距离,具体包括:
在WGAN网络中使用Wasserstein距离对真实样本和生成样本的距离进行度量,Wasserstein距离的定义如下:
其中inf(·)表示为·函数的下界,P1和P2为概率分布,γ为每一个可能的集合分布,x、y为样本值。E(x,y)~γ[||x-y||]表示为x与y的Wasserstein距离,Π(P1,P2)为P1和P2的联合分布集合,γ服从Π(P1,P2),在(x,y)~γ分布条件下,求得E(x,y)~γ[||x-y||],结果为x与y距离的期望,Wasserstein距离就是对该期望求其下界值,将上式转换为:
该式中sup(·)为函数·的上界,|f||L≤K定义为:
|f(x1)-f(x2)|≤K|x1-x2|
K为函数f(x)的Lipschitz常数,同时K也可以理解为梯度,即在神经网络f(x)中x的梯度绝对值小于K;
判别器用FDNN网络模拟的fw(x)函数无限逼近于Wasserstein距离,从而计算出真实样本和生成样本之间的Wasserstein距离。
8.根据权利要求7所述的一种基于AEWGAN的语音降噪的方法,其特征在于,
判别器网络的优化目标函数为:
L(w)表示判别器的优化目标函数,表示为求x样本的均值,表示为求z样本均值,fw(x)表示判别器拟合的函数,fw(G(z))表示生成器生成的语音样本在判别器中值,w为判别器网络中的权重参数,Pdata和Pz为真实样本和生成样本的分布,在本网络中由于K值不影响fw(x)的梯度方向,所以取为1,而生成器中为了让Wasserstein距离最小也需要进行优化,优化目标函数为:
其中L(G)表示生成器的优化目标函数,由于该式中和生成器网络无关,可以等价为:
另外在训练的过程中,必须满足条件|f||L≤K,所以在每次更新权重后对权重进行参数截断,把权重的值控制在[-c,c]。
10.根据权利要求8所述的一种基于AEWGAN的语音降噪的方法,其特征在于,所述步骤S5用训练集对模型进行训练,利用Adam算子优化目标函数,Adam优化算法是随机梯度下降算法的优化,该算法是Momentum算法与RMSprop算法的结合;
其中Momentum算法过程为;
vdw=βvdw+(1-β)dW
vdb=βvdb+(1-β)db
W=W-αvdw
b=b-αvdb
其中vdw和vdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。dw和db分别是损失函数反向传播时候所求得的梯度,α是网络的学习率;
RMSprop算法过程:
sdw=βsdw+(1-β)dW2
sdb=βsdb+(1-β)db2
其中sdw和sdb分别是损失函数在前t-1轮迭代过程中累积的梯度动量,β是梯度累积的一个指数。ε来进行平滑,防止分母为0;
设在训练的第t轮训练中,首先可以计算得到Momentum和RMSProp的参数更新,由于移动指数平均在迭代开始的初期会导致和开始的值有较大的差异,所以我们需要偏差修正,因此求得在第t轮迭代过程中,参数梯度累积量的修正值,从而接下来就可以根据Momentum和RMSProp算法的结合来对权重和偏置进行更新。
上面的所有步骤就是Momentum算法和RMSProp算法结合起来从而形成Adam算法。其中β1的值为Momentum算法的β值,β2为RMSProp的β值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010316731.2A CN111564160B (zh) | 2020-04-21 | 2020-04-21 | 一种基于aewgan的语音降噪的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010316731.2A CN111564160B (zh) | 2020-04-21 | 2020-04-21 | 一种基于aewgan的语音降噪的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111564160A true CN111564160A (zh) | 2020-08-21 |
CN111564160B CN111564160B (zh) | 2022-10-18 |
Family
ID=72073100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010316731.2A Active CN111564160B (zh) | 2020-04-21 | 2020-04-21 | 一种基于aewgan的语音降噪的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111564160B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417911A (zh) * | 2020-11-19 | 2021-02-26 | 广东中世发智能科技股份有限公司 | 基于rfid智能优化群检方法 |
CN112420065A (zh) * | 2020-11-05 | 2021-02-26 | 北京中科思创云智能科技有限公司 | 音频降噪处理方法和装置及设备 |
CN112466320A (zh) * | 2020-12-12 | 2021-03-09 | 中国人民解放军战略支援部队信息工程大学 | 一种基于生成对抗网络的水声信号降噪方法 |
CN113095258A (zh) * | 2021-04-20 | 2021-07-09 | 深圳力维智联技术有限公司 | 定向信号提取方法、系统、装置及存储介质 |
CN113506581A (zh) * | 2021-07-08 | 2021-10-15 | 京东科技控股股份有限公司 | 一种语音增强方法和装置 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN113823298A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN114190886A (zh) * | 2020-09-18 | 2022-03-18 | 卡西欧计算机株式会社 | 噪声波形除去装置及方法、模型训练装置及方法、生成模型以及可穿戴设备 |
CN114283832A (zh) * | 2021-09-09 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 用于多通道音频信号的处理方法及装置 |
CN114689700A (zh) * | 2022-04-14 | 2022-07-01 | 电子科技大学 | 一种基于栈式自编码器的低功率emat信号降噪方法 |
WO2022142115A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于对抗学习的说话人语音转换方法及相关设备 |
CN115240708A (zh) * | 2021-09-30 | 2022-10-25 | 达闼科技(北京)有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
CN116250844A (zh) * | 2023-03-03 | 2023-06-13 | 山东大学 | 基于条件生成对抗网络的心电信号降噪优化方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765319A (zh) * | 2018-05-09 | 2018-11-06 | 大连理工大学 | 一种基于生成对抗网络的图像去噪方法 |
CN109447906A (zh) * | 2018-11-08 | 2019-03-08 | 北京印刷学院 | 一种基于生成对抗网络的图片合成方法 |
EP3477633A1 (en) * | 2017-10-27 | 2019-05-01 | Baidu USA LLC | Systems and methods for robust speech recognition using generative adversarial networks |
CN110211575A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | 用于数据增强的语音加噪方法及系统 |
WO2019202203A1 (en) * | 2018-04-18 | 2019-10-24 | Nokia Technologies Oy | Enabling in-ear voice capture using deep learning |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
US20190355347A1 (en) * | 2018-05-18 | 2019-11-21 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
CN110827216A (zh) * | 2019-10-23 | 2020-02-21 | 上海理工大学 | 图像去噪的多生成器生成对抗网络学习方法 |
-
2020
- 2020-04-21 CN CN202010316731.2A patent/CN111564160B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3477633A1 (en) * | 2017-10-27 | 2019-05-01 | Baidu USA LLC | Systems and methods for robust speech recognition using generative adversarial networks |
WO2019202203A1 (en) * | 2018-04-18 | 2019-10-24 | Nokia Technologies Oy | Enabling in-ear voice capture using deep learning |
CN108765319A (zh) * | 2018-05-09 | 2018-11-06 | 大连理工大学 | 一种基于生成对抗网络的图像去噪方法 |
US20190355347A1 (en) * | 2018-05-18 | 2019-11-21 | Baidu Usa Llc | Spectrogram to waveform synthesis using convolutional networks |
CN109447906A (zh) * | 2018-11-08 | 2019-03-08 | 北京印刷学院 | 一种基于生成对抗网络的图片合成方法 |
CN110211575A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | 用于数据增强的语音加噪方法及系统 |
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN110827216A (zh) * | 2019-10-23 | 2020-02-21 | 上海理工大学 | 图像去噪的多生成器生成对抗网络学习方法 |
Non-Patent Citations (3)
Title |
---|
ILYA TOLSTIKHIN: ""Wasserstein Auto-Encoders"", 《ICLA2018》 * |
RUICHEN ZHANG: ""Bathymetric data Processing based on denoising autoencoder wasserstein generative adversarial network"", 《GLOBAL INTELLIGENT INDUSTRY CONFERENCE》 * |
徐轩: ""基于ResNet-BLSTM的端到端语音识别"", 《计算机工程与应用》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7342827B2 (ja) | 2020-09-18 | 2023-09-12 | カシオ計算機株式会社 | ノイズ波形除去装置、モデル訓練装置、ノイズ波形除去方法、モデル訓練方法、及びウェアラブル機器 |
CN114190886A (zh) * | 2020-09-18 | 2022-03-18 | 卡西欧计算机株式会社 | 噪声波形除去装置及方法、模型训练装置及方法、生成模型以及可穿戴设备 |
JP2022051378A (ja) * | 2020-09-18 | 2022-03-31 | カシオ計算機株式会社 | ノイズ波形除去装置、モデル訓練装置、ノイズ波形除去方法、モデル訓練方法、生成モデル及びウェアラブル機器 |
CN114190886B (zh) * | 2020-09-18 | 2024-01-19 | 卡西欧计算机株式会社 | 噪声波形除去装置及方法、模型训练装置及方法、以及可穿戴设备 |
CN112420065A (zh) * | 2020-11-05 | 2021-02-26 | 北京中科思创云智能科技有限公司 | 音频降噪处理方法和装置及设备 |
CN112420065B (zh) * | 2020-11-05 | 2024-01-05 | 北京中科思创云智能科技有限公司 | 音频降噪处理方法和装置及设备 |
CN112417911A (zh) * | 2020-11-19 | 2021-02-26 | 广东中世发智能科技股份有限公司 | 基于rfid智能优化群检方法 |
CN112466320A (zh) * | 2020-12-12 | 2021-03-09 | 中国人民解放军战略支援部队信息工程大学 | 一种基于生成对抗网络的水声信号降噪方法 |
CN112466320B (zh) * | 2020-12-12 | 2023-11-10 | 中国人民解放军战略支援部队信息工程大学 | 一种基于生成对抗网络的水声信号降噪方法 |
WO2022142115A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于对抗学习的说话人语音转换方法及相关设备 |
CN113095258A (zh) * | 2021-04-20 | 2021-07-09 | 深圳力维智联技术有限公司 | 定向信号提取方法、系统、装置及存储介质 |
CN113823298A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113823298B (zh) * | 2021-06-15 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113506581B (zh) * | 2021-07-08 | 2024-04-05 | 京东科技控股股份有限公司 | 一种语音增强方法和装置 |
CN113506581A (zh) * | 2021-07-08 | 2021-10-15 | 京东科技控股股份有限公司 | 一种语音增强方法和装置 |
CN113555028A (zh) * | 2021-07-19 | 2021-10-26 | 首约科技(北京)有限公司 | 一种用于车联网语音降噪的处理方法 |
CN114283832A (zh) * | 2021-09-09 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 用于多通道音频信号的处理方法及装置 |
CN115240708A (zh) * | 2021-09-30 | 2022-10-25 | 达闼科技(北京)有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
CN114689700B (zh) * | 2022-04-14 | 2023-06-06 | 电子科技大学 | 一种基于栈式自编码器的低功率emat信号降噪方法 |
CN114689700A (zh) * | 2022-04-14 | 2022-07-01 | 电子科技大学 | 一种基于栈式自编码器的低功率emat信号降噪方法 |
CN116250844A (zh) * | 2023-03-03 | 2023-06-13 | 山东大学 | 基于条件生成对抗网络的心电信号降噪优化方法及系统 |
CN116250844B (zh) * | 2023-03-03 | 2024-04-26 | 山东大学 | 基于条件生成对抗网络的心电信号降噪优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111564160B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111564160B (zh) | 一种基于aewgan的语音降噪的方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN108682418B (zh) | 一种基于预训练和双向lstm的语音识别方法 | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
WO2020177371A1 (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN112581973B (zh) | 一种语音增强方法及系统 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
JP2763398B2 (ja) | パターン認識装置 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN114446314A (zh) | 一种深度生成对抗网络的语音增强方法 | |
CN114360567A (zh) | 一种基于深度复卷积网络的单通道语音增强方法 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
US5768474A (en) | Method and system for noise-robust speech processing with cochlea filters in an auditory model | |
CN112259117B (zh) | 一种目标声源锁定和提取的方法 | |
CN112289337A (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
Krishnakumar et al. | A comparison of boosted deep neural networks for voice activity detection | |
CN115440240A (zh) | 语音降噪的训练方法、语音降噪系统及语音降噪方法 | |
CN113763978B (zh) | 语音信号处理方法、装置、电子设备以及存储介质 | |
CN114283835A (zh) | 一种适用于实际通信条件下的语音增强与检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231225 Address after: 518000 1104, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province Patentee after: Shenzhen Hongyue Information Technology Co.,Ltd. Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS |
|
TR01 | Transfer of patent right |