CN114446314A - 一种深度生成对抗网络的语音增强方法 - Google Patents

一种深度生成对抗网络的语音增强方法 Download PDF

Info

Publication number
CN114446314A
CN114446314A CN202111676582.1A CN202111676582A CN114446314A CN 114446314 A CN114446314 A CN 114446314A CN 202111676582 A CN202111676582 A CN 202111676582A CN 114446314 A CN114446314 A CN 114446314A
Authority
CN
China
Prior art keywords
generator
training
enhancement
voice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111676582.1A
Other languages
English (en)
Inventor
张洪德
韩鑫怡
朱晓晶
马宝红
陈春明
刘博文
田田
赵芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN202111676582.1A priority Critical patent/CN114446314A/zh
Publication of CN114446314A publication Critical patent/CN114446314A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种深度生成对抗网络的语音增强方法,包括训练阶段和增强阶段。训练阶段将带噪语音信号输入生成器中输出生成语音信号,并作为输入信号输入到第二个生成器中,同时将生成语音信号连同原始带噪语音信号一起输入判别器中;判别器分别对生成的语音信号进行判别,并将反馈信息分别返回各自生成器中,整个深度生成对抗网络获得具有增强能力。增强阶段则将带噪语音信号输入第一个生成器中,通过整个已训练完毕的深度生成对抗网络模型处理,由最后一个生成器输出增强语音信号。使整个模型能够在更宽松的条件下稳定的向更优的方向训练,提高了深度生成对抗网络的增强效果,在不同噪声干扰条件下,提升了噪声适应性和增强效果。

Description

一种深度生成对抗网络的语音增强方法
技术领域
本发明涉及语音增强处理方法的技术领域,尤其涉及深度生成对抗网络的语音增强方 法的技术领域。
背景技术
语音增强的历史最早起源于上世纪初的贝尔实验室,研究人员为了改善电话的通信质 量,在信号的增强方向进行了大量研究,随后的几十年中,更多研究者对语音增强技术进 行了更深入的研究,根据增强模式的不同将语音增强大概分为两个阶段:无监督增强阶段 和有监督增强阶段。
无监督增强阶段,通常也称为传统语音增强阶段,所谓无监督是指处理过程无需使用 大数据预先进行有监督的离线训练。1979年Boll提出谱减法(SpectralSubtraction,SS,通 过假设语音与噪声相互独立,在频域减去噪声频谱实现增强。虽然谱减法的增强效果明显, 但需以平稳噪声为条件,若噪声估计不准确,则会出现明显的失真或产生容易引起听觉疲 劳的“音乐噪声”。同年Lim等提出维纳滤波法(Weiner Filter,WF),以波形在统计意义上的 最优线性估计为基本思想设计滤波器。维纳滤波法相比谱减法将“音乐噪声”转化为听者更 容易接受的类似于白噪声的残留噪声,但其依然存在与谱减法相同的缺点,即仅对平稳噪 声效果较好,在非平稳噪声条件下失真严重。1984年Ephraim等提出短时幅度谱估计法, 其基本思想是以最小均方误差(Minimum Mean SquareError,MMSE)准则对信号的幅度谱 进行非线性估计,次年Ephraim等又提出短时对数幅度谱估计法,使用更符合人耳听觉特 性的对数幅度谱替代短时幅度谱进行估计。虽然这两种方法在增强效果方面均相比维纳滤 波法有一定提升,但始终未克服处理非平稳噪声效果不理想这个缺陷。1994年Donoho 等提出小波变换法(Wavelet Transform,WT)将小波变换的思想引入语音增强研究中,其增 强原理是利用小波系数在不同尺度空间表现不同特征实现语音和噪声的分离。得益于小波 变换的多分辨率特性,其在非平稳噪声条件下的增强效果有显著提升。
虽然无监督增强方法在广大研究人员的努力下已获得不错的增强效果,但这类方法通 常需在语音和噪声信号之间进行某些不合理假设导致增强效果会受到影响,难以获得更优 的增强效果。伴随着计算机技术的飞速发展,计算机硬件水平和计算能力都有了质的飞跃, 基于深度学习的有监督增强方法逐渐成为语音增强研究的主流。所谓有监督增强是指通过 建立关于语音信号自身特性和模型参数的优化函数,通过对优化函数进行有监督学习训练 以实现增强的一类方法,这类方法打破了传统无监督语音增强方法始终依赖数字信号处理 技术的局限,从全新的角度对语音增强进行研究。2014年徐勇提出一种基于深度神经网 络(Deep Neural Network,DNN)的语音增强方法,通过训练使网络模型学习语音与噪音之 间的非线性关系,相比传统无监督增强方法,处理非平稳噪声信号效果更好,同时也具有 更强的系统鲁棒性和噪声适应性。后续研究中也有研究者将无监督和有监督两类方法结合 使用以达到更好的增强效果,2015年韩伟等提出一种将维纳滤波和深度神经网络相结合 的语音增强方法,将维纳滤波器添加在神经网络的输出层用于生成增强语音幅度谱,这种 方法的增强效果优于基于传统DNN的语音增强方法。
但无论使用无监督或者有监督语音增强方法,往往进行增强处理时通常只针对语音的 幅度谱进行处理,忽略了语音相位信息的变化,导致不能达到最理想的增强效果。2014 年Goodfellow等人基于零和博弈的思想提出生成对抗网络(GenerativeAdversarial Networks,GAN被广泛应用于图像处理、计算机视觉等领域。2017年Santiago等首先将 GAN应用到语音增强研究中,提出一种在时域进行处理的语音增强生成对抗网络(Speech Enhancement Generative Adversarial Networks,SEGAN),其基本原理是通过训练得到语音增 强生成对抗网络,将噪声通过网络后生成接近纯净语音的能力,从而实现语音增强。 SEGAN将语音信号整体在时域直接进行处理,尽可能的保留了更多的语音特征信息,因 此具有更好的增强效果。2019年叶帅帅在SEGAN的基础上进行改进,提出一种基于Wasserstein距离生成对抗网络的语音增强方法(Speech Enhancement WassersteinGenerative Adversarial Networks,SEWGAN),其基本思想是使用Wasserstein距离替代均方误差来更 准确的衡量语音数据间的分布,因此相比SEGAN,SEWGAN方法能够获得更好的增强 效果。
发明内容
本发明提供了一种深度生成对抗网络的语音增强方法,目的在于解决现有技术在低信 噪比环境下语音增强效果不理想的问题,针对不同类型噪声环境,能够保证语音增强工作 的稳定性。
一种深度生成对抗网络的语音增强方法,包括如下步骤:
步骤1:数据预处理:所有语音数据使用前均需要进行相应的预处理,分别是对语音 信号进行重采样、分帧和预加重;
步骤2:构建数据集:仿真实验的数据集由训练集和测试集两部分组成,训练集用于 SEWDGAN-div增强模型的训练,测试集用于验证SEWDGAN-div增强模型的实际增强效果;
步骤3:生成器模型构建:生成器结构采用U-NET网络的全卷积网络,分为编码和解码两个部分;
步骤4:判别器模型构建:判别器结构采用生成器的编码部分,除最后输出层为全连 接层以外,其他各层均为卷积层或卷积池化层;
步骤5:构建基于Wasserstein divergence的深度生成对抗网络模型:网络的总体结构 由n生成器和1个判别器组成,其中n个生成器分别以“串联”的方式进行连接,每个生成 器输出的生成信号一方面作为输入信号输入下个生成器,另一方面输入判别器中进行判别;
步骤6:模型训练:基于Wasserstein divergence的深度生成对抗网络模型的训练采用 分批次训练的方法,使用双时间尺度更新规则的训练方法,通过将判别器的学习率设置高 于生成器的学习率,以达到判别器的判别能力领先生成器的生成能力;
步骤7:使用训练好的模型进行语音增强处理:将带噪语音信号输入第一个生成器G1中,通过整个已训练完毕的深度生成对抗网络模型处理,最终由最后一个生成器Gn 输出增强语音信号。
优选的是,本发明步骤1的数据预处理,还包括:所有语音数据使用前均需要进行相 应的预处理,分别是对语音信号进行重采样、分帧和预加重;其中重采样是指以16kHz的采样率对所有语音信号进行重新采样,语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理,将所有语音信号按照每帧长度为8192个采样点进行分帧,并将训练 阶段的帧移设置为50%,而测试阶段帧移则设置为100%;在输入端加入预加重处理,并 在输出端进行对输出语音数据进行相对应的去加重处理,预加重和去加重系数均为0.95。
优选的是,本发明步骤2的构建数据集,还包括:实验训练集和测试集中所使用的标 准语音库和噪声库分别来自Valentini2016数据集、NOISEX-92数据集以及100Nonspeech Sounds数据集。
优选的是,本发明步骤3的生成器模型构建,还包括:加入跳跃链接,编码部分由卷积层和卷积池化层构成;解码部分是与编码部分相对应的反卷积和反卷积池化层;为增强模型鲁棒性,将感知向量添加随机噪声后输入解码部分。生成器各层卷积核个数分别为16,32,32,64,128,128,256,512,512,1024,512,512,256,128,128,64,32,32,16,1,激活函数除最后一 层使用Tanh函数外,其他各层均使用PReLU函数。
优选的是,本发明步骤4的判别器模型构建,还包括:使用层批量化(LayerNormalization,LN)替代BN,以加快网络模型收敛。判别器各层卷积核个数分别为 16,32,32,64,128,128,256,512,512,1024,1,激活函数均使用LeakyReLU函数。同时为防止训 练出现过拟合,在输入端添加高斯白噪声,在输出端设置一个dropout层。
优选的是,本发明步骤5的构建基于Wasserstein divergence的深度生成对抗网络模型, 还包括:各生成器的生成信号是以“并联”的方式输入判别器,同时反馈信息同样以“并联” 的方式返回各生成器中。
针对低信噪比噪声干扰条件下,传统增强方法在这种环境下表现不理想的问题,本发 明提出一种基于Wasserstein divergence的深度生成对抗网络的语音增强方法(SEWDGAN-div)。利用多个生成器“串联”组成深度生成对抗网络,使语音信号每通过一 个生成器即完成一次处理,凭借对语音信号进行多次增强处理,有效提高对抗网络模型在 复杂噪声干扰条件下的增强效果。与此同时将Wasserstein divergence引入深度对抗网络的训练中,利用Wasserstein divergence即能够保留Wasserstein距离的良好性质,又无需服从1-Lipschitz的约束这一特点,使整个模型能够在更宽松的条件下稳定的向更优的方向训练,提高了深度生成对抗网络的增强效果,在不同噪声干扰条件下,该方法相比于传统语音增强方法噪声适应性和增强效果都有明显提升。
附图说明
图1是本发明深度生成对抗网络模型的结构示意图。
图2是本发明生成器模型的结构示意图。
图3是本发明判别器模型的结构示意图。
具体实施方式
一种深度生成对抗网络的语音增强方法,包括如下步骤:
步骤1:数据预处理:所有语音数据使用前均需要进行相应的预处理,分别是对语音 信号进行重采样、分帧和预加重。其中重采样是指以16kHz的采样率对所有语音信号进行重新采样。语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理,因此将所有语音信号按照每帧长度为8192个采样点进行分帧,并将训练阶段的帧移设置为50%,而测试阶段帧移则设置为100%。由于语音信号的功率谱会随频率的增加而减小,能量大部分集中在低频部分,而能量在高频部分相对较小,为了提高语音信号高频部分的分辨率,在输入端加入预加重处理,并在输出端进行对输出语音数据进行相对应的去加重处理,预加重和去加重系数均为0.95。
步骤2:构建数据集:仿真实验的数据集由训练集和测试集两部分组成,训练集用于 SEWDGAN-div增强模型的训练,测试集用于验证SEWDGAN-div增强模型的实际增强效果。实验训练集和测试集中所使用的标准语音库和噪声库分别来自Valentini2016数据集、NOISEX-92数据集以及100 Nonspeech Sounds数据集。Valentini2016数据集是爱丁堡大学语音技术研究中心的公开语料库,由Valentini等人创建,采样频率为48KHz,包含30位 男女志愿者的声音,其中28位作为训练数据,共计11572条语音,2位作为测试数据, 共计824条语音。NOISEX-92数据集是由英国荷兰感知研究所语音研究部门创建,采样 频率为19.98KHz,包含白噪声、粉红噪声、工厂噪声等15种噪声。100 Nonspeech Sounds 数据集是由Hu等人创建的非语言环境噪声集,采样频率为16KHz,包含机器噪声、水声、 风声等100种不同类型的环境噪声。
步骤3:生成器模型构建:生成器结构类似U-NET网络的全卷积网络,分为编码和解码两个部分。为保留更多语音特征信息,提升模型增强效果,加入跳跃链接(Skip Connection)。编码部分由卷积层和卷积池化层构成,为了保留更多信号的细节信息,使用卷积池化层替代传统池化层;解码部分则是与编码部分相对应的反卷积和反卷积池化层;为增强模型鲁棒性,将感知向量C添加随机噪声Z后输入解码部分。生成器各层卷积核个 数分别为16,32,32,64,128,128,256,512,512,1024,512,512,256,128,128,64,32,32,16,1,激活函 数除最后一层使用Tanh函数外,其他各层均使用PReLU函数。
步骤4:判别器模型构建:判别器结构类似生成器的编码部分,除最后输出层为全连 接层以外,其他各层均为卷积层或卷积池化层。使用层批量化(Layer Normalization,LN) 替代BN,以加快网络模型收敛。判别器各层卷积核个数分别为 16,32,32,64,128,128,256,512,512,1024,1,激活函数均使用LeakyReLU函数。同时为防止训 练出现过拟合,在输入端添加高斯白噪声,在输出端设置一个dropout层。
步骤5:构建基于Wasserstein divergence的深度生成对抗网络模型:网络的总体结构 由n生成器和1个判别器组成,其中n个生成器分别以“串联”的方式进行连接,每个生成 器输出的生成信号一方面作为输入信号输入下个生成器,另一方面输入判别器中进行判别。 为保证各个判别器之间的参数相互独立互不影响,不同于生成器之间以“串联”的方式进行 数据流动,各生成器的生成信号是以“并联”的方式输入判别器,同时反馈信息同样以“并 联”的方式返回各生成器中。
步骤6:模型训练:基于Wasserstein divergence的深度生成对抗网络模型的训练采用 分批次训练的方法,单个批次大小为50,总计训练200轮。使用双时间尺度更新规则(Two Time-Scale Update Rule,TTUR)的训练方法,通过将判别器的学习率设置高于生成器的学 习率,以达到判别器的判别能力领先生成器的生成能力的效果。分别将生成器和判别器的 学习率设置为0.0001和0.0005,生成器与判别器更新比设置为1,使用参数为 β1=0,β2=0.9的Adam优化器进行网络参数更新。
步骤7:使用训练好的模型进行语音增强处理:只需要将带噪语音信号输入第一个生 成器G1中,通过整个已训练完毕的深度生成对抗网络模型处理,最终由最后一个生成器Gn输出增强语音信号。
为了更全面评估SEWDGAN-div的实际增强性能,分别谱减法(SESS)、维纳滤波法(SEWF)、标准语音增强生成对抗网络(SEGAN)和Wasserstein距离语音增强生成对抗网络(SEWGAN)四种方法进行对比分析。特别的,为保证实验的一致性,SEGAN和SEWGAN 均使用与本发明的方法相同的训练集和实验设置进行训练。分别选取SegSNR、PESQ分 数和SOTI分数为具体评价指标,其中本发明的SEDWGAN-div生成器数量设置为4个。 表1、表2和表3分别为5种增强方法在不同信噪比条件下的平均SegSNR、PESQ分数 和STOI分数。
从SegSNR的平均值来看,伴随着信噪比的降低,SEDWGAN-div-4与SEGAN和SEWGAN-GP在SegSNR方面的差距逐渐增大,在信噪比为-10dB的强噪声干扰条件下SE DWGAN-div-4相比SEGAN和SEWGAN-GP分别提高达到2.755dB和1.616dB,说明在 极低信噪比条件下SEDWGAN-div-4有着更好的降噪效果。
表1 5种增强方法不同信噪比条件下的平均SegSNR/dB
Figure BDA0003452131710000061
Figure BDA0003452131710000071
表2 5种增强方法不同信噪比条件下的平均PESQ分数
Figure BDA0003452131710000072
表3 5种增强方法不同信噪比条件下的平均STOI分数
Figure BDA0003452131710000073
对于PESQ分数方面,所有信噪比条件下PESQ分数的平均值SEDWGAN-div-4相比SEGAN和SEWGAN-GP分别提高7.4%和8.3%,而相比SESS和SEWF提高达到37.7% 和42.7%。说明在语音感知质量方面,SEDWGAN-div-4相比其他方法有着不同程度的提 升。
对于STOI分数方面。SEGAN、SEWGAN-GP和SEDWGAN-div-4在较高信噪比条 件下的平均值STOI分数差距不大,均能够一定程度的提升信号的STOI分数,但随着信 噪比的降低,SEGAN和SEWGAN-GP对于STOI分数的提升能力逐渐降低,在-10dB信 噪比时SEGAN的STOI分数甚至低于原始带噪信号的STOI分数,说明经过该方法处理 后的语音出现了明显的失真,导致信号可懂度降低,SEWGAN-GP在该信噪比条件下对 于STOI分数的提升几乎为0,相比之下SEDWGAN-div-4在-10dB信噪比条件下对STOI 分数的提升依旧能够达到6.3%。
综上所述,相比现有的增强方法,本发明提出的SEDWGAN-div方法在低信噪比条件下增强效果能优。
图1为基于Wasserstein divergence的深度生成对抗网络模型图,网络的总体结构由n 生成器和1个判别器组成,其中n个生成器分别以“串联”的方式进行连接,每个生成器输 出的生成信号一方面作为输入信号输入下个生成器,另一方面输入判别器中进行判别。为 保证各个判别器之间的参数相互独立互不影响,不同于生成器之间以“串联”的方式进行数 据流动,各生成器的生成信号是以“并联”的方式输入判别器,同时反馈信息同样以“并联” 的方式返回各生成器中。
生成器结构图2所示,整个生成器网络为类似U-NET网络的全卷积网络,总共20 层卷积层,大致分为编码和解码两个部分,且两个部分互为镜像关系,编码部分输入带噪 语音信号,解码部分输出增强语音信号。由于整个网络属于深度神经网络,随着层数的增 加,编解码过程中信息流经压缩瓶颈会丢失大量语音细节信息,从而导致重建语音信号时 的失真。为了解决这个问题,在编码层与解码层之间加入跳跃链接(Skip Connection),将 语音部分细节信息(如相位信息等)直接传递到镜像的解码层中,使更多语音细节信息被 保留下来,提升模型增强效果。编码部分由卷积层和卷积池化层构成,不同于一般的卷积 神经网络使用的“卷积层+池化层”结构,本发明使用“卷积层+卷积层+池化 层”(Convolutionconvolution pooling,CCP)的结构组成卷积神经网络,其优势在于将“1+1” 的模式改变为“2+1”的模式,即人为的减少了池化层的数量,尽可能的减少池化过程中造 成的语音信息丢失。常见的池化方式包括最大池化和均匀池化两种方式,但在语音增强任 务中,最大池化仅保留语音最大特征信息,会丢失掉语音部分细节信息,导致语音信号的 质量降低或者失真;而均匀池化则是将语音特征信息进行平均,造成了语音特征差异的丢 失,进而导致语音的舒适度和感知质量的降低,也不利于高频成分的恢复。因此为了保留 更多信号的语音细节信息,提升语音质量和舒适度,使用一种卷积池化代替传统池化,即 池化感受野中的每个样本点都具有权重参数,能够随着网络训练进行更新。编码部分的主 要任务是将输入的带噪语音信号进行分解,提取其特征信息,最终将带噪语音信号压缩为 一个感知向量C。解码部分和编码部分互为镜像关系,即编码部分使用的卷积层和卷积池 化层对应到解码部分则相应的变成反卷积和反卷积池化层,同样使用CCP结构。同时为 增强生成模型的鲁棒性,在进行解码处理之前,将编码部分获得的感知向量C添加随机 噪声Z组成一个新的感知向量CZ输入解码部分。解码部分的主要任务与编码部分相反, 即基于新的感知CZ进行语音生成,最终输出增强语音信号。
图3为判别器结构,与生成器的编码部分结构相同,同样使用CCP结构,由卷积层或卷积池化层组成,最后一层的输出层使用步长为1的一维卷积层替代全链接层,极大的减少参数数量。不同于生成器输入为一维的带噪语音信号,判别器网络借鉴条件生成对抗网络的思想,将原始带噪语音信号分别与生成语音信号和纯净语音信号组成二维混合信号输入判别器。整个判别器模型是深度非常深的网络模型,并且随着生成器个数的增加,整个网络深度也逐渐增加,网络的收敛速度也随之进一步降低,严重的情况下可能导致梯度消失,使网络无法收敛。然而常用的提高网络收敛速度的批归一化(Batch Normalization,BN) 方法与Wasserstein divergence之间并不能够兼容,主要原因是Wassersteindivergence所衡 量的是单个输入数据对应的生成数据与真实数据之间的距离,而BN的加入会将单个批量 中的所有样本进行归一化,导致判别器并不能正确的求出单个样本对应的梯度。本发明使 用层归一化(Layer Normalization,LN)替代BN,相对于BN需要大批量数据作为支撑,LN 是从层的角度进行计算,仅需对单个训练样本进行归一化处理,不依赖于其他数据,无需 大批量的数据支撑,适合小批量数据场景。因此在判别器的每个卷积层后,添加一个LN 层,以保证网络模型收敛。同时为了同时为防止判别器的训练出现过拟合,在其输入端添 加高斯白噪声,在输出端设置一个dropout层。
基于Wasserstein divergence的深度生成对抗网络的语音增强方法的工作过程分为两 个阶段:训练阶段和增强阶段。
训练阶段将带噪语音信号输入生成器G1中输出生成语音信号1,而后将生成语音信 号1作为输入信号输入到生成器G2中,同时将生成语音信号1连同原始带噪语音信号一起输入判别器中,以此类推,最后一个生成器Gn输出最终的生成语音信号n,并也连同 原始带噪语音信号一起输入判别器中。判别器D分别对各个生成器的生成语音信号进行 判别,并将反馈信息分别返回各自生成器中,各个生成器根据反馈信息向生成纯净语音信 号的方向独立调整网络参数。经过反复迭代训练,最终判别器D无法准确分辨最后一个 生成器Gn输出的生成语音信号n和纯净语音信号,即整个深度生成对抗网络获得具有增 强能力。
增强阶段则只需要将带噪语音信号输入第一个生成器G1中,通过整个已训练完毕的 深度生成对抗网络模型处理,最终由最后一个生成器Gn输出增强语音信号。
综上所述,SEWDGAN-div判别器和生成器的损失函数可以表示为:
Figure BDA0003452131710000101
Figure BDA0003452131710000102
式中,Gn(·)表示第n个生成器,N为生成器总个数,xn-1为Gn-1的输出,当n=1时,第1个生成器G1输入为原始带噪语音信号z,pz和pr分别表示带噪语音信号分布和纯净 语音信号分布,prz为真假数据之间随机插值所得到的分布,E[]表示求均值,
Figure BDA0003452131710000103
表示对生成器n的判别梯度。由于判别器D需要处理不平衡的数据,即相对于每个真实数 据,会生成N个生成数据,因此在每个生成器部分除以N,以抵消数据不平衡带来的惩 罚。同时在生成器损失函数中加入纯净语音信号与各生成语音信号差值的L1范数作为正 则项,防止训练过拟合,提升生成器性能,λ为正则项影响因子,系数k和p为常数。为 了保证整个深度生成对抗网络的连续学习性,使整个网络各个生成器的效果逐渐上升,需 控制前面的生成器的效果不需要达到最好,后续生成器对前面进行改进,以达到连续学习 的效果,因此设置正则项权重系数ωn=2n-N,深度生成对抗网络中位置越靠前的生成器权 重越小,正则项对其影响越小。
本发明所有仿真实验均在TensorFlow深度学习框架下完成,详细实验环境如表3-1 所示:
表3-1仿真实验环境
Figure BDA0003452131710000104
仿真实验的数据集由训练集和测试集两部分组成,训练集用于SEWDGAN-div增强模型的训练,测试集用于验证SEWDGAN-div增强模型的实际增强效果。实验训练集和 测试集中所使用的标准语音库和噪声库分别来自Valentini2016数据集、NOISEX-92数据 集以及100 Nonspeech Sounds数据集。Valentini2016数据集是爱丁堡大学语音技术研究中 心的公开语料库,由Valentini等人创建,采样频率为48KHz,包含30位男女志愿者的声 音,其中28位作为训练数据,共计11572条语音,2位作为测试数据,共计824条语音。 NOISEX-92数据集是由英国荷兰感知研究所语音研究部门创建,采样频率为19.98KHz, 包含白噪声、粉红噪声、工厂噪声等15种噪声。100 Nonspeech Sounds数据集是由Hu等 人创建的非语言环境噪声集,采样频率为16KHz,包含机器噪声、水声、风声等100种 不同类型的环境噪声。
训练集和基于标准语音库的测试集的构造均采用将纯净语音按照设定信噪比叠加噪 声生成带噪语音的方法。其中训练集的纯净语音使用Valentini2016数据集的训练数据集 语音,包含不同性别的28位说话人共计11572条语音。训练噪声使用100 NonspeechSounds 数据集的100种非语言环境噪声,同时为了提高SEWDGAN-div模型在实际通信侦察环 境下的工作能力,截取实际通信侦察信号中的10种背景噪声,连同100种非语言环境噪声,组成110种噪声集。为了模拟各种噪声的不同信噪比条件,按照5种不同信噪比(-10dB、-5dB、0dB、5dB、10dB)叠加噪声,构建一个550种不同噪声条件的训练集。
基于标准语音库的测试集的纯净语音使用Valentini2016数据集的测试数据集语音, 包含不同性别的2位说话人共计824条语音。测试噪声使用NOISEX-92数据集中的15 种不同类型噪声,同样按照5种不同信噪比(-10dB、-5dB、0dB、5dB、10dB)叠加噪声, 构建一个75种不同噪声条件的基于标准语音库的测试集。
实验所有语音数据再使用前均需要进行相应的预处理,分别是对语音信号进行重采样、 分帧和预加重。其中重采样是指以16kHz的采样率对所有语音信号进行重新采样。语音 信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理,因此将所有语音信号按照 每帧长度为8192个采样点进行分帧,并将训练阶段的帧移设置为50%,而测试阶段帧移 则设置为100%。由于语音信号的功率谱会随频率的增加而减小,能量大部分集中在低频 部分,而能量在高频部分相对较小,为了提高语音信号高频部分的分辨率,在输入端加入 预加重处理,并在输出端进行对输出语音数据进行相对应的去加重处理,预加重和去加重 系数均为0.95。
SEWDGAN-div模型的训练采用分批次训练的方法,单个批次大小为50,总计训练200轮。生成对抗网络常规的训练方法使用单时间尺度更新规则,即生成器与判别器的学习率相同,但实际训练中需要判别器的判别能力领先生成器的生成能力,因此每训练1 次生成器,判别器通常需要训练2次以上,而在传统WGAN的训练中判别器和生成器的 更新比通常设置为5,导致整个网络训练会耗费大量的时间。针对上述问题,使用一种双 时间尺度更新规则(Two Time-Scale Update Rule,TTUR)的训练方法,通过将判别器的学习 率设置高于生成器的学习率,以达到判别器的判别能力领先生成器的生成能力的效果。通 过实验证明使用TTUR方法能够大幅减少网络训练时间,并且训练效果也优于常规单时 间尺度更新的训练方法。本发明借鉴TTUR方法的思想,分别将生成器和判别器的学习 率设置为0.0001和0.0005,生成器与判别器更新比设置为1,使用参数为β1=0,β2=0.9的 Adam优化器进行网络参数更新。
其他的参数具体设置如下:除了判别器的输出层使用的宽度为1,步长为1的卷积核 以外,其他所有卷积核宽度均为13,步长为2。生成器总共20层,各层卷积核个数分别 为16,32,32,64,128,128,256,512,512,1024,512,512,256,128,128,64,32,32,16,1,激活函数除最 后一层使用Tanh函数外,其他各层均使用PReLU函数,生成器编码部分和解码部分中间 添加的随机噪声Z的均值为0方差为1。判别器总共11层,各层卷积核个数分别为 16,32,32,64,128,128,256,512,512,1024,1,激活函数均使用斜率为0.3的LeakyReLU函数,判别器输入端添加的高斯白噪声方差为0.5,输出端的dropout层的保留率设置为0.5。通过实验证明Wasserstein divergence的两个系数分别设置为k=2,p=6时效果最好,正则项 影响因子为λ=100。网络其余参数均使用方差为0.02,均值为0的截断正态分布进行初始 化。

Claims (6)

1.一种深度生成对抗网络的语音增强方法,其特征在于包括如下步骤:
步骤1:数据预处理:所有语音数据使用前均需要进行相应的预处理,分别是对语音信号进行重采样、分帧和预加重;
步骤2:构建数据集:仿真实验的数据集由训练集和测试集两部分组成,训练集用于SEWDGAN-div增强模型的训练,测试集用于验证SEWDGAN-div增强模型的实际增强效果;
步骤3:生成器模型构建:生成器结构采用U-NET网络的全卷积网络,分为编码和解码两个部分;
步骤4:判别器模型构建:判别器结构采用生成器的编码部分,除最后输出层为全连接层以外,其他各层均为卷积层或卷积池化层;
步骤5:构建基于Wasserstein divergence的深度生成对抗网络模型:网络的总体结构由n生成器和1个判别器组成,其中n个生成器分别以“串联”的方式进行连接,每个生成器输出的生成信号一方面作为输入信号输入下个生成器,另一方面输入判别器中进行判别;
步骤6:模型训练:基于Wasserstein divergence的深度生成对抗网络模型的训练采用分批次训练的方法,使用双时间尺度更新规则的训练方法,通过将判别器的学习率设置高于生成器的学习率,以达到判别器的判别能力领先生成器的生成能力;
步骤7:使用训练好的模型进行语音增强处理:将带噪语音信号输入第一个生成器G1中,通过整个已训练完毕的深度生成对抗网络模型处理,最终由最后一个生成器Gn输出增强语音信号。
2.根据权利要求1所述的深度生成对抗网络的语音增强方法,其特征在于上述步骤1的数据预处理,还包括:所有语音数据使用前均需要进行相应的预处理,分别是对语音信号进行重采样、分帧和预加重;其中重采样是指以16kHz的采样率对所有语音信号进行重新采样,语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理,将所有语音信号按照每帧长度为8192个采样点进行分帧,并将训练阶段的帧移设置为50%,而测试阶段帧移则设置为100%;在输入端加入预加重处理,并在输出端进行对输出语音数据进行相对应的去加重处理,预加重和去加重系数均为0.95。
3.根据权利要求1所述的深度生成对抗网络的语音增强方法,其特征在于上述步骤2的构建数据集,还包括:实验训练集和测试集中所使用的标准语音库和噪声库分别来自Valentini2016数据集、NOISEX-92数据集以及100Nonspeech Sounds数据集。
4.根据权利要求1所述的深度生成对抗网络的语音增强方法,其特征在于上述步骤3的生成器模型构建,还包括:加入跳跃链接,编码部分由卷积层和卷积池化层构成;解码部分是与编码部分相对应的反卷积和反卷积池化层;为增强模型鲁棒性,将感知向量添加随机噪声后输入解码部分。生成器各层卷积核个数分别为16,32,32,64,128,128,256,512,512,1024,512,512,256,128,128,64,32,32,16,1,激活函数除最后一层使用Tanh函数外,其他各层均使用PReLU函数。
5.根据权利要求1所述的深度生成对抗网络的语音增强方法,其特征在于上述步骤4的判别器模型构建,还包括:使用层批量化(Layer Normalization,LN)替代BN,以加快网络模型收敛。判别器各层卷积核个数分别为16,32,32,64,128,128,256,512,512,1024,1,激活函数均使用LeakyReLU函数。同时为防止训练出现过拟合,在输入端添加高斯白噪声,在输出端设置一个dropout层。
6.根据权利要求1所述的深度生成对抗网络的语音增强方法,其特征在于上述步骤5的构建基于Wasserstein divergence的深度生成对抗网络模型,还包括:各生成器的生成信号是以“并联”的方式输入判别器,同时反馈信息同样以“并联”的方式返回各生成器中。
CN202111676582.1A 2021-12-31 2021-12-31 一种深度生成对抗网络的语音增强方法 Pending CN114446314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111676582.1A CN114446314A (zh) 2021-12-31 2021-12-31 一种深度生成对抗网络的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111676582.1A CN114446314A (zh) 2021-12-31 2021-12-31 一种深度生成对抗网络的语音增强方法

Publications (1)

Publication Number Publication Date
CN114446314A true CN114446314A (zh) 2022-05-06

Family

ID=81365414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111676582.1A Pending CN114446314A (zh) 2021-12-31 2021-12-31 一种深度生成对抗网络的语音增强方法

Country Status (1)

Country Link
CN (1) CN114446314A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114609493A (zh) * 2022-05-09 2022-06-10 杭州兆华电子股份有限公司 一种信号数据增强的局部放电信号识别方法
CN114898766A (zh) * 2022-07-12 2022-08-12 四川高速公路建设开发集团有限公司 基于gan网络的分布式光纤语音增强方法及隧道救援系统
CN115442191A (zh) * 2022-11-08 2022-12-06 中国人民解放军战略支援部队航天工程大学 基于相对平均生成对抗网络的通信信号降噪方法及系统
CN115588436A (zh) * 2022-09-29 2023-01-10 沈阳新松机器人自动化股份有限公司 基于变分自编码器生成对抗网络的语音增强方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114609493A (zh) * 2022-05-09 2022-06-10 杭州兆华电子股份有限公司 一种信号数据增强的局部放电信号识别方法
CN114609493B (zh) * 2022-05-09 2022-08-12 杭州兆华电子股份有限公司 一种信号数据增强的局部放电信号识别方法
CN114898766A (zh) * 2022-07-12 2022-08-12 四川高速公路建设开发集团有限公司 基于gan网络的分布式光纤语音增强方法及隧道救援系统
CN115588436A (zh) * 2022-09-29 2023-01-10 沈阳新松机器人自动化股份有限公司 基于变分自编码器生成对抗网络的语音增强方法
CN115442191A (zh) * 2022-11-08 2022-12-06 中国人民解放军战略支援部队航天工程大学 基于相对平均生成对抗网络的通信信号降噪方法及系统
CN115442191B (zh) * 2022-11-08 2023-03-24 中国人民解放军战略支援部队航天工程大学 基于相对平均生成对抗网络的通信信号降噪方法及系统

Similar Documents

Publication Publication Date Title
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN114446314A (zh) 一种深度生成对抗网络的语音增强方法
CN111564160B (zh) 一种基于aewgan的语音降噪的方法
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN110634502B (zh) 基于深度神经网络的单通道语音分离算法
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN110718232B (zh) 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
CN111653289B (zh) 一种回放语音检测方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN112259119B (zh) 基于堆叠沙漏网络的音乐源分离方法
CN112133322A (zh) 一种基于噪声分类优化imcra算法的语音增强方法
CN104658543A (zh) 一种室内混响消除的方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN112885375A (zh) 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN113744749A (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
CN114283835A (zh) 一种适用于实际通信条件下的语音增强与检测方法
Xu et al. Selector-enhancer: learning dynamic selection of local and non-local attention operation for speech enhancement
CN114401168B (zh) 适用复杂强噪声环境下短波莫尔斯信号的语音增强方法
CN113066483B (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination