CN110390950B - 一种基于生成对抗网络的端到端语音增强方法 - Google Patents

一种基于生成对抗网络的端到端语音增强方法 Download PDF

Info

Publication number
CN110390950B
CN110390950B CN201910761150.7A CN201910761150A CN110390950B CN 110390950 B CN110390950 B CN 110390950B CN 201910761150 A CN201910761150 A CN 201910761150A CN 110390950 B CN110390950 B CN 110390950B
Authority
CN
China
Prior art keywords
generator
training
speech
discriminator
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910761150.7A
Other languages
English (en)
Other versions
CN110390950A (zh
Inventor
吴建锋
秦会斌
徐敏
秦宏帅
王章权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shuren University
Original Assignee
Zhejiang Shuren University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shuren University filed Critical Zhejiang Shuren University
Priority to CN201910761150.7A priority Critical patent/CN110390950B/zh
Publication of CN110390950A publication Critical patent/CN110390950A/zh
Application granted granted Critical
Publication of CN110390950B publication Critical patent/CN110390950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于生成对抗网络的端到端语音增强方法,将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号;其中,深度神经网络通过以下步骤训练得到:步骤S1:初步训练生成对抗网络,其中,所述生成对抗网络包括两个深度神经网络:生成器G和判别器D;步骤S2:通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后,再次训练生成对抗网络;步骤S3:利用真实带噪语音对经上述步骤训练得到的生成器G进行微调;步骤S4:将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理。

Description

一种基于生成对抗网络的端到端语音增强方法
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于生成对抗网络的端到端语音增强方法。
背景技术
单通道语音增强已经研究数十年,但其在自动语音识别、助听设备及免提移动通信等各种应用系统中仍面临着极大的挑战。传统语音增强算法通常基于统计学方法,包括噪声估计和语音估计。由于传统语音增强算法基于对语音信号和噪声信号的统计学模型假设,其性能很大程度上依赖于噪声估计的准确性。
为了在语音和噪声信号处理过程避免使用特定失真度准则和模型假设,研究者们提出大量基于数据驱动的语音增强方法,其中,近年来,生成对抗网络(GAN)称为深度学习领域研究的新热点,其结构和训练方法与传统的深度神经网络有很大的区别。传统的深度神经网络(DNN)一般直接使用原始数据作为网络的学习目标,反向传播的误差一般是网络的输出与真实数据的欧式距离等函数。而GAN尝试隐式地使用神经网络去拟合高维度数据的分布,即该方法属于机器学习领域的生成式模型方法。生成对抗网络最大的特点是,使用竞争对抗的方式同时训练一对网络模型,而不是分别单独训练模型。用个通俗易懂的类比来说明:一个神经网络模型类似于艺术作品的仿冒者,另一个神经网络模型类似于艺术作品的鉴定者。这个仿冒者,即生成对抗网络的生成器G,试图创作仿冒的艺术作品,他的最终目的是创作出极度真实的图像作品。这个鉴定者,即生成对抗网络的判别器D,收到仿冒者创作的图片和真实的图片,并试图鉴别出这两幅图片。生成器G和判别器D是同时训练的,并且是以一种相互竞争的机制在同时进行训练。
有学者将GAN应用于语音增强领域提出SEGAN(Speech Enhancement GAN),实验结果显示在语音客观评测和主观评测方面取得了比传统算法更优的性能。然而,所有基于DNN的方法都是需要大量数据进行训练,获得的数据越多,就能获得更优的性能;当训练数据不是很充足时,学者们通常会用相同的数据训练多个不同的模型,然后平均它们的预测结果作为最终输出。很显然,训练多个不同模型的计算代价太大;同时,实际环境中的带噪语音,作为标注数据的纯净语音是无法获得的,因此,DNN往往在训练数据中表现优异,而在某些特定环境下的真实应用却性能一般。
故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。
发明内容
有鉴于此,确有必要提供一种基于生成对抗网络的端到端语音增强方法,在无法获得大量训练数据的情况下,能够进一步提高深度神经网络在语音增强应用中的泛化性能。
为了解决现有技术存在的技术问题,本发明的技术方案如下:
一种基于生成对抗网络的端到端语音增强方法,将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号;
其中,深度神经网络通过以下步骤训练得到:
步骤S1:初步训练生成对抗网络,其中,所述生成对抗网络包括两个深度神经网络:生成器G和判别器D,所述生成器G用于产生生成信号以逼近真实语音信号;所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’;
所述步骤S1进一步包括:
步骤S11:获取第一训练数据,其中,第一训练数据包括模拟带噪语音及其相对应的纯净语音,均从标准数据集中直接得到,以纯净语音作为标签数据;
步骤S12:将第一训练数据输入到生成对抗网络,并以对抗学习的方式训练生成对抗网络;
步骤S2:通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后,再次训练生成对抗网络,所述步骤S2进一步包括:
步骤S21:获取第二训练数据,其中,第二训练数据包括模拟带噪语音及该模拟带噪语音经过传统基于统计学语音增强算法处理后产生第一增强语音,以第一增强语音作为标签数据;
步骤S22:将第二训练数据输入到生成对抗网络,并以对抗学习的方式再次训练生成对抗网络;
步骤S3:利用真实带噪语音对经上述步骤训练得到的生成器G进行微调,所述步骤S3进一步包括:
步骤S31:获取第三训练数据,第三训练数据包括真实带噪语音及该真实带噪语音经过传统基于统计学语音增强算法处理后产生第二增强语音,以第二增强语音作为标签数据;
步骤S32:以真实带噪语音作为生成器G的输入数据,第二增强语音作为生成器G的目标输出,通过误差反向传播算法对生成器G进行训练;
步骤S4:将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理。
作为进一步的优选方案,所述以对抗学习的方式训练生成对抗网络进一步包括:
步骤S101:训练判别器D,将标签数据输给判别器D并以‘1’作为判别器D的目标输出,通过误差反向传播算法对判别器D进行训练使其学习纯净语音的数据分布;
步骤S102:通过训练数据同时训练生成器G和判别器D,其中,对生成器G的训练中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;
对判别器D的训练中,判别器D的输入数据为生成器G产生的生成信号,判别器D的的目标输出为‘0’;
通过反向误差传播对生成器G和判别器D进行同时训练,以使所述生成器G产生的生成信号逼近纯净语音,同时使所述判别器D的判别能力进一步提高;
步骤S103:冻结经上述步骤训练的判别器D参数,对生成器G进行再次训练;其中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;所述生成器G不断产生生成信号并通过判别器D对该生成信号进行判别,直至所述判别器D输出‘1’。
与现有技术相比较,本发明具有如下技术效果:
1、本发明基于生成对抗网络通过对抗学习以半监督的方式训练深度神经网络,能够以零和博弈的方式进行自我训练,从而降低对训练数据的需求;
2、本发明利用传统基于统计学语音增强算法对数据集进行知识蒸馏,达到数据扩增的目的,并作为新数据训练神经网络,进一步提高神经网络的泛化性能;
3、本发明通过真实带噪语音数据对训练得到的生成器G进行微调,从而提高深度神经网络对实际应用中特定环境的适应能力;用于微调的训练数据通过传统统计学语音增强算法估计得到。
附图说明
图1为本发明语音增强方法的原理框图。
图2为本发明中基于对抗学习的语音增强算法流程框图。
图3为基于统计学语音增强算法的原理框图。
图4为深度神经网络的结构示意图。
图5为各种方法在开发集和验证集下SDR得分结果。
图6为各种方法在开发集和验证集下STOI得分结果。
图7为各种方法在开发集和验证集下eSTOI得分结果。
如下具体实施例将结合上述附图进一步说明本发明。
具体实施方式
以下将结合附图对本发明提供的技术方案作进一步说明。
先简单介绍几个相关技术:
生成式对抗网络结构与传统的深度神经网络(DNN)有很大的区别。首先,网络结构上,生成器并没有直接连接真实数据样例而只通过判别器间接地与真实数据样例进行误差传递,判别器同时连接从生成器合成的数据样例和从真实数据采样得到的数据样例。其次,反向传播误差的计算方法上,生成式对抗网络的误差仅仅是二值判决信号,即判别器判断所得到的数据样例是真实的数据样例还是从生成器生成的数据样例。最后,训练方法上,从判别器得到的该误差信号反馈给生成器用于指导其下一步训练,使得生成器能产生出更接近真实数据的数据样例。
现有技术中,对深度神经网络(DNN)的训练通常采用有监督训练,也即通过有标记的训练数据训练DNN,也即,将训练数据输入DNN,并使DNN输出接近标签数据,这个过程通常采用误差反向传播算法。其中,标签数据作为DNN的目标输出,通过误差反向传播算法使反向传播的误差最小化,比如最小化网络的输出与标签数据的欧式距离等。
目前,将DNN应用于语音增强的主要挑战是如何获得更多的训练数据,尤其是在真实应用环境下,作为标签数据的纯净语音通常没办法直接获得。在训练数据不足的情况下,现有基于DNN的语音增强方法,通常在相同数据上训练多个不同模型然后平均其预测,或使用大量噪声类型来扩大模拟带噪语音的,训练多个模型极大提高了计算成本,同时,所模拟的带噪语音并不能涵盖所有真实案例。
为了解决现有技术存在的上述技术问题,本发明提出一种基于生成对抗网络的端到端语音增强方法,基于生成对抗网络,通过竞争对抗学习的方式预先训练一个端对端的深度神经网络,实际应用时,将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号。
参见图1,所示为本申请的原理框图,其中,深度神经网络通过以下步骤训练得到:
步骤S1:初步训练生成对抗网络,其中,生成对抗网络包括两个深度神经网络:生成器G和判别器D,所述生成器G用于产生生成信号以逼近真实语音信号;所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’;在训练中,生成器G学习训练数据分布的,判别器D学习到纯净语音的分布并以此判决样本来自训练数据或是生成器生成数据的概率。在SEGAN的结构中,G的输入是带噪声的语音,G的预期输出是纯净语音。因此,生成器G执行语音增强。
所述步骤S1进一步包括:
步骤S11:获取第一训练数据,其中,第一训练数据包括模拟带噪语音及其相对应的纯净语音,均从标准数据集中直接得到,以纯净语音作为标签数据;也就是说,第一训练数据中的模拟带噪语音及作为标签数据的纯净语音都是完全确定的。
步骤S12:将第一训练数据输入到生成对抗网络,并以对抗学习的方式训练生成对抗网络;
参见图2,所示为基于对抗学习的语音增强算法流程框图,类似与,生成器G和判别器D之间的零和博弈,首先,D先反向传播学习纯净语音,然后,D反向传播生成器G生成的语音并对其进行判别,此过程,同时训练G和D;最后,冻结D的参数,G反向传播直至D做出误判。具体过程包括如下步骤:
步骤S101:训练判别器D,将标签数据输给判别器D并以‘1’作为判别器D的目标输出,通过误差反向传播算法对判别器D进行训练使其学习纯净语音的数据分布;
步骤S102:通过训练数据同时训练生成器G和判别器D,其中,对生成器G的训练中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;
对判别器D的训练中,判别器D的输入数据为生成器G产生的生成信号,判别器D的的目标输出为‘0’;
通过反向误差传播对生成器G和判别器D进行同时训练,以使所述生成器G产生的生成信号逼近纯净语音,同时使所述判别器D的判别能力进一步提高;
步骤S103:冻结经上述步骤训练的判别器D参数,对生成器G进行再次训练;其中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;所述生成器G不断产生生成信号并通过判别器D对该生成信号进行判别,直至所述判别器D输出‘1’。
在上述训练过程中,G的训练输入是带噪语音信号
Figure BDA0002170348400000081
z为隐藏层表示参量,G的输出是增强后的语音
Figure BDA0002170348400000082
因此,理论上,G的训练过程可以阐述为最小化以下损失函数:
Figure BDA0002170348400000083
其中,附加了L1正则化项,其实最小化生成器G的生成信号和纯净语音x之间的欧氏距离,λ为权重参数。
通过步骤S1的训练,生成器G能够学习到从模拟带噪语音和纯净语音之间的映射关系。
为了进一步提高在步骤S1中训练的生成器G的泛化性能,申请人提出从传统基于统计学的语音增强算法中进行知识蒸馏,而不是像现有技术一样去构建更复杂的训练集。基于统计学的语音增强算法为现有技术普遍使用的传统语音增强方法,比如采用IMCRA-OMLSA算法,IMCRA最小控制迭代平均(Improved Minima Contrllled RecursiveAveraging)性能较佳的噪声估计方法之一,最优修正对数幅度估计OMLSA(OptimallyModifiled Log Spectral Amplitude)是性能较佳的传统基于统计学的方法之一。在知识蒸馏步骤中,重新步骤S1中使用过的模拟带噪语音输入到基于统计学的语音增强算法得到第一增强语音,然后,将模拟带噪语音和相对于的第一增强语音重新构成新的第二训练数据。在机器学习的观点中,获得新训练对的过程可以被认为是数据扩增。随后,我们用步骤S1得到的权重重新训练判别器D和生成器G。该过程中的知识蒸馏,可以理解为使用传统的基于统计学语音增强方法来获得增强语音,从而为DNN获得更多的训练对。也就是说,我们通过从传统的基于统计的方法中提取知识来训练基于DNN的模型。也可以理解为神经网络使用大模型(即教师)在没有更多训练数据的情况下教授小模型(即学生)。给定训练数据,教师模型可以产生更多“软目标”来教授学生模型。学生模型可以进一步了解教师模型“教授”的内容。在本发明中,基于统计学的语音增强算法是教师,DNN是学生。给定模拟的带噪语音,DNN可以学习基于统计学的方法的内在映射功能。具体训练过程参见步骤S2。
步骤S2:通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后,再次训练生成对抗网络,所述步骤S2进一步包括:
步骤S21:获取第二训练数据,其中,第二训练数据包括模拟带噪语音及该模拟带噪语音经过传统基于统计学语音增强算法处理后产生第一增强语音,以第一增强语音作为标签数据;
步骤S22:将第二训练数据输入到生成对抗网络,并以对抗学习的方式再次训练生成对抗网络,其中,对抗学习的方式再次训练生成对抗网络参见上述步骤S101-S103以及图2。
基于上述步骤,生成器网络G已经从模拟带噪语音中学习了纯净语音信号的高级特征。然而,所有先前步骤的明显缺点是模拟带噪语音不能覆盖所有实际情况,例如噪声类型,信噪比和加性噪声假设。
为了提高语音增强算法在特定应用场景下的泛化性能,本发明提出如下方式:
步骤S3:利用真实带噪语音对经上述步骤训练得到的生成器G进行微调,所述步骤S3进一步包括:
步骤S31:获取第三训练数据,第三训练数据包括真实带噪语音及该真实带噪语音经过传统基于统计学语音增强算法处理后产生第二增强语音,以第二增强语音作为标签数据;
步骤S32:以真实带噪语音作为生成器G的输入数据,第二增强语音作为生成器G的目标输出,通过误差反向传播算法对生成器G进行训练;
步骤S4:将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理。
在步骤S3中,使用真实带噪语音来微调在之前步骤中训练的生成器G,由于仅使用生成器G在增强阶段执行语音估计,判别器D不参与该训练步骤。然而,实际应用场景下,作为标签数据的纯净语音是无法获得的,本申请提出通过传统统计学语音增强算法(IMCRA-OMLSA)估计得到第二增强语音,并和真实带噪语音构成新的第三训练数据,通过微调实现针对实际应用的一些特定环境的适应过程。在机器学习的观点中,微调步骤是迁移学习过程。
综上所述,本发明提出了一种基于生成对抗网络的端到端语音增强方法,其主要创新在于,提出了一种基于语音增强的深度神经网络训练方法,从而能特定数据集下,获得更优的泛化性能,其原理是通过传统基于统计学的语音增强算法对数据集进行知识蒸馏,从而达到数据扩增的目的;同时,通过传统基于统计学的语音增强算法对真实带噪语音进行处理得到增强语音,并将其应用于神经网络训练,从而提高特定环境下语音增强的适应能力。具体流程参见步骤S1至S3以及步骤S101至步骤S103。
通过上述步骤训练的深度神经网络可以应用实际语音增强系统,端到端的语音增强系统在结构上较为简单,包括麦克风和语音增强单元,将通过上述步骤预先训练好的深度神经网络导入到语音增强单元,麦克风用于获取实际环境下的真实带噪语音,语音增强单元通过深度神经网络对真实带噪语音进行处理并输出增强后的语音。
上述中语音增强单元为具有一定计算和存储能力的装置,比如服务器、PC、移动终端等智能设备。
上述技术方案中,基于统计学语音增强算法是目前普遍的语音增强方法,其结构框图如图3所示,下面简述其原理:
其中,y(n)表示带噪语音的时域信号,基于加性噪声的假设:
y(n)=x(n)+d(n) (2.1)
其中,x(n)和d(n)分别表示纯净语音和噪声的时域信号,传统语音增强通常在频域进行信号处理,因此,要进行短时傅里叶变换(STFT,Short Time Fourier Transform),也即对y(n)进行加窗分帧并对每一帧信号分别进行傅里叶变换得到Ytk,其中,t和k分别表示时间上的帧和频域上的频带。对公式2.1进行STFT:
Ytk=Xtk+Dtk,t=1,2,......,T;k=1,2,......,K (2.2)
Xtk、Dtk分别表示纯净语音和噪声的频谱,T和K分别表示信号的总帧数和总频带数。
在语音增强中通常计算功率谱,对公式2.2两边进行平方操作,基于加性噪声和各频点独立分布的假设,可近似表示为:
Ytk 2=Xtk 2+Dtk 2 (2.3)
对Ytk在频域执行语音增强算法进行降噪处理得到估计的语音谱
Figure BDA0002170348400000111
再对
Figure BDA0002170348400000112
进行短时傅里叶逆变换获得增强后的语音信号
Figure BDA0002170348400000113
基于统计学框架下,频域语音增强任务可以阐述为从带噪语音谱中Ytk基于某种失真量度下估计得到纯净语音谱
Figure BDA0002170348400000121
Figure BDA0002170348400000122
表示失真量度,通过最小化
Figure BDA0002170348400000123
获得
Figure BDA0002170348400000124
的最优估计值。在传统语音估计算法中,最广泛使用的是最小均方误差准则(MMSE)。首先计算带噪语音的对数功率谱,然后对每一帧数据判断是语音帧还是噪声帧,或者其存在概率;如果判断为噪声帧,通过噪声估计算法估计噪声,如果是语音帧,在当前噪声估计的情况下,通过语音估计算法估计语音幅度谱,然后利用原有带噪语音的相位信息得到语音谱。由此可知,传统语音增强中最为关键的是噪声估计和语音估计这两个过程,现有技术中,IMCRA是最为优秀的噪声估计算法之一,OMLSA是最为优秀的语音估计算法。在本发明一种优选实施例中,基于统计学语音增强算法采用IMCRA-OMLSA算法。
上述技术方案中,生成对抗网络的生成器G和判别器D一般由多层的神经网络层组成,全连接层神经网络、自编码器或者卷积神经网络。
上述技术方案中,标准数据集采用CHiME4数据语料库,该语料库包括纯净语音和模拟带噪数据,从而不需要重新构建带噪语音。从5k WSJ0-Corpus中能够获取四种场景下不同类型噪声的,即巴士(BUS),咖啡厅(CAF),步行区(PED)和街口(STR)。共有8738条语音用于训练,3280条语音用于验证,以及2640条语音用于测试。
在一种优选实施方式中,生成对抗网络和训练参数的设置如下。参见图4,生成器G使用自动编码器架构,其具有从编码器到解码器的跳跃连接。编码器由22个滤波器宽度为31和步幅2的一维卷积层组成,解码器是具有相同参数集的编码器的镜像。判别器D遵循与G的编码器相同的一维卷积结构。所有层的权重由Xavier初始化器初始化,并且所有偏置用零初始化。采用RMSprop优化器来训练模型,学习率设置为固定值0.0002的。为了最小化生成的语音和真正干净的语音之间的距离,采用L1正则化,同时,权重参数λ设置为100。执行训练算法的工作站具有Intel Xeon E5-2630CPU和两个GTX1080ti GPU。
下面通过实验来验证本发明技术方案的技术效果。感知语音质量评分(PESQ,perceptual evaluation of speech quality)、信号失真比(SDR,signal to distortionratios,以dB为单位)、短时客观可懂度(STOI,short-time objective intelligibility)和和扩展短时客观可懂度(eSTOI,extended STOI)广泛用于评估增强语音信号的质量。对于模拟带噪语音数据,能够获得纯净语音作为标签数据,而对于真实带噪语音数据,作为标签数据的纯净语音是无法获得的。因此,我们使用近场(close-talking)麦克风录音作为纯净语音。实验中使用SEGAN和OMLSA与本发明进行比较。此外,还和带噪语音进行比较(由NONE表示)。
在开发集和验证集上进行语音质量测试,SDR,STOI和eSTOI得分如图5-7所示,其中dev和eval分别是开发和验证集的缩写。结果表明,采用模拟数据时,本发明的方法优于SEGAN和OMLSA,采用真实数据时,本发明的方法与OMLSA算法性能相当。例如,在开发集的模拟数据中,与SEGAN和OMLSA相比,在SDR指标中,本发明提出的方法实现了约26.01%和21.10%的相对增益提升。又比如,在验证集的真实数据中,本发明的方法的eSTOI得分为0.34,而SEGAN和OMLSA的eSTOI得分分别为0.28和0.31。
图5-7的实验结果是所有环境条件的平均得分,接下来再对比各种算法在不同环境类型下的性能表现,比如BUS,CAF,PED和STR等场景下。在本实验中,使用PESQ作为评估性能的标准。表1中的PESQ结果表明,对于真实数据,所有方法在PED中均获得最高分,同时在BUS中均获得最低分数。这是因为录制的音频中,公交车环境比步行区噪音大得多。从表1结果中可以得出结论,本发明所提出的方法对噪声类型不敏感,并且比SEGAN更稳健。
表1不同场景下算法性能比较
Figure BDA0002170348400000141
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (1)

1.一种基于生成对抗网络的端到端语音增强方法,其特征在于,将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号;
其中,深度神经网络通过以下步骤训练得到:
步骤S1:初步训练生成对抗网络,其中,所述生成对抗网络包括两个深度神经网络:生成器G和判别器D,所述生成器G用于产生生成信号以逼近真实语音信号;所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’;
所述步骤S1进一步包括:
步骤S11:获取第一训练数据,其中,第一训练数据包括模拟带噪语音及其相对应的纯净语音,均从标准数据集中直接得到,以纯净语音作为标签数据;
步骤S12:将第一训练数据输入到生成对抗网络,并以对抗学习的方式训练生成对抗网络;
步骤S2:通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后,再次训练生成对抗网络,所述步骤S2进一步包括:
步骤S21:获取第二训练数据,其中,第二训练数据包括模拟带噪语音及该模拟带噪语音经过传统基于统计学语音增强算法处理后产生第一增强语音,以第一增强语音作为标签数据;
步骤S22:将第二训练数据输入到生成对抗网络,并以对抗学习的方式再次训练生成对抗网络;
步骤S3:利用真实带噪语音对经上述步骤训练得到的生成器G进行微调,所述步骤S3进一步包括:
步骤S31:获取第三训练数据,第三训练数据包括真实带噪语音及该真实带噪语音经过传统基于统计学语音增强算法处理后产生第二增强语音,以第二增强语音作为标签数据;
步骤S32:以真实带噪语音作为生成器G的输入数据,第二增强语音作为生成器G的目标输出,通过误差反向传播算法对生成器G进行训练;
步骤S4:将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理;
所述以对抗学习的方式训练生成对抗网络进一步包括:
步骤S101:训练判别器D,将标签数据输给判别器D并以‘1’作为判别器D的目标输出,通过误差反向传播算法对判别器D进行训练使其学习纯净语音的数据分布;
步骤S102:通过训练数据同时训练生成器G和判别器D,其中,对生成器G的训练中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;
对判别器D的训练中,判别器D的输入数据为生成器G产生的生成信号,判别器D的的目标输出为‘0’;
通过反向误差传播对生成器G和判别器D进行同时训练,以使所述生成器G产生的生成信号逼近纯净语音,同时使所述判别器D的判别能力进一步提高;
步骤S103:冻结经上述步骤训练的判别器D参数,对生成器G进行再次训练;
其中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;所述生成器G不断产生生成信号并通过判别器D对该生成信号进行判别,直至所述判别器D输出‘1’。
CN201910761150.7A 2019-08-17 2019-08-17 一种基于生成对抗网络的端到端语音增强方法 Active CN110390950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910761150.7A CN110390950B (zh) 2019-08-17 2019-08-17 一种基于生成对抗网络的端到端语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910761150.7A CN110390950B (zh) 2019-08-17 2019-08-17 一种基于生成对抗网络的端到端语音增强方法

Publications (2)

Publication Number Publication Date
CN110390950A CN110390950A (zh) 2019-10-29
CN110390950B true CN110390950B (zh) 2021-04-09

Family

ID=68289027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910761150.7A Active CN110390950B (zh) 2019-08-17 2019-08-17 一种基于生成对抗网络的端到端语音增强方法

Country Status (1)

Country Link
CN (1) CN110390950B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081266B (zh) * 2019-12-18 2022-08-09 暗物智能科技(广州)有限公司 一种训练生成对抗网络、语音增强方法及系统
CN111145772A (zh) * 2019-12-28 2020-05-12 广州国音智能科技有限公司 一种语音增强方法、系统及设备
CN111179962B (zh) * 2020-01-02 2022-09-27 腾讯科技(深圳)有限公司 语音分离模型的训练方法、语音分离方法及装置
US11736899B2 (en) * 2020-01-14 2023-08-22 Nokia Technologies Oy Training in communication systems
CN111276132A (zh) * 2020-02-04 2020-06-12 北京声智科技有限公司 一种语音处理方法、电子设备及计算机可读存储介质
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN111354374A (zh) * 2020-03-13 2020-06-30 北京声智科技有限公司 语音处理方法、模型训练方法及电子设备
CN111599373B (zh) * 2020-04-07 2023-04-18 云知声智能科技股份有限公司 一种降噪模型的压缩方法
CN113516990B (zh) * 2020-04-10 2024-08-13 华为技术有限公司 一种语音增强方法、训练神经网络的方法以及相关设备
CN111564160B (zh) * 2020-04-21 2022-10-18 重庆邮电大学 一种基于aewgan的语音降噪的方法
CN111625858B (zh) * 2020-05-10 2023-04-07 武汉理工大学 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN111627429B (zh) * 2020-05-20 2022-10-14 浙江工业大学 一种基于CycleGAN的语音识别模型的防御方法及装置
CN112052948B (zh) * 2020-08-19 2023-11-14 腾讯科技(深圳)有限公司 一种网络模型压缩方法、装置、存储介质和电子设备
CN112037760B (zh) 2020-08-24 2022-01-07 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
WO2022077305A1 (en) * 2020-10-15 2022-04-21 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for acoustic echo cancellation
CN114512140A (zh) * 2020-10-29 2022-05-17 阿里巴巴集团控股有限公司 语音增强方法、装置及设备
CN112541060B (zh) * 2020-11-19 2021-08-13 中国科学院深圳先进技术研究院 一种基于对抗训练的端到端任务型对话学习框架和方法
CN112488294A (zh) * 2020-11-20 2021-03-12 北京邮电大学 一种基于生成对抗网络的数据增强系统、方法和介质
CN112562707A (zh) * 2020-11-30 2021-03-26 哈尔滨工程大学 一种单信道目标语音增强方法
CN112991330B (zh) * 2021-04-19 2021-08-13 征图新视(江苏)科技股份有限公司 基于知识蒸馏的正样本工业缺陷检测方法
CN113299300B (zh) * 2021-05-18 2023-09-26 广州大学 一种语音增强方法、装置及存储介质
CN113393854B (zh) * 2021-05-19 2022-11-11 出门问问创新科技有限公司 一种语音处理方法、装置、电子设备和计算机存储介质
CN113555028B (zh) * 2021-07-19 2024-08-02 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法
CN113380268A (zh) * 2021-08-12 2021-09-10 北京世纪好未来教育科技有限公司 模型训练的方法、装置和语音信号的处理方法、装置
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
CN114067819B (zh) * 2021-11-22 2024-06-21 南京工程学院 基于跨层相似性知识蒸馏的语音增强方法
CN114743557A (zh) * 2022-03-08 2022-07-12 三维通信股份有限公司 一种语音增强方法、系统及智能设备
CN115050379B (zh) * 2022-04-24 2024-08-06 华侨大学 一种基于fhgan的高保真语音增强模型及其应用
CN114822576B (zh) * 2022-04-30 2024-08-13 中国人民解放军总医院第一医学中心 基于磁共振脉冲序列噪声估计的通话系统语音增强方法
CN115588436A (zh) * 2022-09-29 2023-01-10 沈阳新松机器人自动化股份有限公司 基于变分自编码器生成对抗网络的语音增强方法
GB2623110A (en) * 2022-10-06 2024-04-10 Nokia Technologies Oy Apparatus, methods and computer programs for audio signal enhancement using a dataset
CN115376501B (zh) * 2022-10-26 2023-02-14 深圳市北科瑞讯信息技术有限公司 语音增强方法及装置、存储介质、电子设备
CN117765962B (zh) * 2023-09-28 2024-05-24 青岛科技大学 一种海洋哺乳动物叫声数据增强方法
CN117577124B (zh) * 2024-01-12 2024-04-16 京东城市(北京)数字科技有限公司 基于知识蒸馏的音频降噪模型的训练方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
WO2019004592A1 (ko) * 2017-06-27 2019-01-03 한양대학교 산학협력단 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN109308903A (zh) * 2018-08-02 2019-02-05 平安科技(深圳)有限公司 语音模仿方法、终端设备及计算机可读存储介质
US20190065853A1 (en) * 2017-08-31 2019-02-28 Nec Laboratories America, Inc. Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation
CN110059740A (zh) * 2019-04-12 2019-07-26 杭州电子科技大学 一种针对嵌入式移动端的深度学习语义分割模型压缩方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019004592A1 (ko) * 2017-06-27 2019-01-03 한양대학교 산학협력단 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
US20190065853A1 (en) * 2017-08-31 2019-02-28 Nec Laboratories America, Inc. Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation
CN108922518A (zh) * 2018-07-18 2018-11-30 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109308903A (zh) * 2018-08-02 2019-02-05 平安科技(深圳)有限公司 语音模仿方法、终端设备及计算机可读存储介质
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109147810A (zh) * 2018-09-30 2019-01-04 百度在线网络技术(北京)有限公司 建立语音增强网络的方法、装置、设备和计算机存储介质
CN110059740A (zh) * 2019-04-12 2019-07-26 杭州电子科技大学 一种针对嵌入式移动端的深度学习语义分割模型压缩方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A TRANSFER LEARNING AND PROGRESSIVE STACKING APPROACH TO REDUCING DEEP MODEL SIZES WITH AN APPLICATION TO SPEECH ENHANCEMENT";Sicheng Wang等;《2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20170619;全文 *
"SEGAN: Speech Enhancement Generative Adversarial Network";Santiago Pascual等;《arXiv:1703.09452v3 [cs.LG]》;20170609;全文 *
"生成式对抗网络在语音增强方面的研究";孙成立 等;《计算机技术与发展》;20190228;第29卷(第2期);全文 *

Also Published As

Publication number Publication date
CN110390950A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390950B (zh) 一种基于生成对抗网络的端到端语音增强方法
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
Su et al. HiFi-GAN: High-fidelity denoising and dereverberation based on speech deep features in adversarial networks
Ravanelli et al. Multi-task self-supervised learning for robust speech recognition
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
EP4006898A1 (en) Voice recognition method, device, and computer-readable storage medium
CN111653288B (zh) 基于条件变分自编码器的目标人语音增强方法
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN111968666B (zh) 基于深度域自适应网络的助听器语音增强方法
Qin et al. Far-Field End-to-End Text-Dependent Speaker Verification Based on Mixed Training Data with Transfer Learning and Enrollment Data Augmentation.
CN112581973B (zh) 一种语音增强方法及系统
CN109949821B (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
Wang et al. A universal VAD based on jointly trained deep neural networks.
Bagchi et al. Spectral feature mapping with mimic loss for robust speech recognition
CN112331232B (zh) 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN111862934A (zh) 语音合成模型的改进方法和语音合成方法及装置
CN112382301B (zh) 基于轻量级神经网络的含噪语音性别识别方法及系统
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
Bu et al. Modeling speech structure to improve TF masks for speech enhancement and recognition
Li et al. Generative adversarial networks for single channel separation of convolutive mixed speech signals
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、系统及设备
Chen et al. Leveraging heteroscedastic uncertainty in learning complex spectral mapping for single-channel speech enhancement
Li et al. Adaptive speech intelligibility enhancement for far-and-near-end noise environments based on self-attention stargan

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wu Jianfeng

Inventor after: Qin Huibin

Inventor after: Xu Min

Inventor after: Qin Hongshuai

Inventor after: Wang Zhangquan

Inventor before: Wu Jianfeng

Inventor before: Qin Huibin

Inventor before: Qin Hongshuai

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210309

Address after: 312000 no.2016 Jiangxia Road, Yangxunqiao Town, Keqiao District, Shaoxing City, Zhejiang Province

Applicant after: ZHEJIANG SHUREN College (ZHEJIANG SHUREN University)

Address before: Room 137, middle building, No.2 building, Hangzhou University of Electronic Science and technology college students entrepreneurship Park, Xiasha Higher Education Park, Hangzhou City, Zhejiang Province, 310018

Applicant before: HANGZHOU PIONEER ELECTRONIC TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant