CN115035904A - 一种基于生成式对抗神经网络的高质量声码器模型 - Google Patents

一种基于生成式对抗神经网络的高质量声码器模型 Download PDF

Info

Publication number
CN115035904A
CN115035904A CN202210391848.6A CN202210391848A CN115035904A CN 115035904 A CN115035904 A CN 115035904A CN 202210391848 A CN202210391848 A CN 202210391848A CN 115035904 A CN115035904 A CN 115035904A
Authority
CN
China
Prior art keywords
discriminator
waveform
loss
spectrum
discriminators
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210391848.6A
Other languages
English (en)
Inventor
陈力军
刘佳
蒋松儒
陈星宇
鄢伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tuke Robot Co ltd
Nanjing University
Original Assignee
Jiangsu Tuke Robot Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Tuke Robot Co ltd, Nanjing University filed Critical Jiangsu Tuke Robot Co ltd
Priority to CN202210391848.6A priority Critical patent/CN115035904A/zh
Publication of CN115035904A publication Critical patent/CN115035904A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于生成式对抗神经网络的高质量声码器模型,该模型首先使用一个生成器模块进行从音频的Mel谱到波形形式的转换,其由含多视野融合块的Unet式沙漏形结构卷积神经网络搭建;使用一个声学特征提取器和多个鉴别器模块对生成的波形进行多重角度的优化;其中声学特征提取器使用传统信号处理方法构建,鉴别器模块由多尺度鉴别器、多周期鉴别器、多相位鉴别器三部分组成,基于卷积神经网络搭建。本发明大幅降低了神经网络的学习难度,节省训练时间和计算资源开销;利用了相位信息和时域上的自相似特征来对生成波形进行优化,获得更高音质的波形;使用了局部化训练策略,可以更自然流畅地合成任意长度的长音频序列。

Description

一种基于生成式对抗神经网络的高质量声码器模型
技术领域
本发明涉及一种声码器模型,特别是一种基于生成式对抗神经网络的高质量声码器模型。
背景技术
声码器(Vocoder)或声音合成器技术是针对音频波形数据进行编码和解码的数字信号处理技术。声码器技术目前已经得到了相当广泛的应用,包括信号数据压缩、语音及声纹识别、语音及歌声合成、音频编辑与效果器等。
在神经网络语音合成系统中,上游模型的输出通常是目标音频数据在该模型的某个隐空间中的编码,或是人为设计的某种更通用的频域音频编码,如:Mel谱、MFCC (Mel-Frequency Ceptral Coefficients,梅尔频率倒谱系数)特征等。但这些编码无法直接通过声学输出设备产生可由人耳收听的声波,而需要先使用声码器将这些编码数据解码成时域的音频波形才能经扬声器等设备播放出来。声码器因而是此类声音处理系统中不可或缺的组件。
目前基于数字信号处理方法的传统声码器音质不佳、可控度小,而基于神经网络的声码器训练开销很大,忽略了对于音频的频域相位和时域自相似等信息的有效利用,导致训练收敛缓慢、合成波形仍有细节瑕疵等结果。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于生成式对抗神经网络的高质量声码器模型。
为了解决上述技术问题,本发明公开了一种基于生成式对抗神经网络的高质量声码器模型,包括以下步骤:
步骤1,构建基于生成式对抗神经网络的高质量声码器模型,该模型包括:生成器、声学特征提取器、多尺度判别器、多周期判别器和多相位判别器;
步骤2,从数据集获取PCM编码的音频数据,得到真实波形;
步骤3,对步骤2中所得真实波形进行预处理,训练集与验证集划分,训练集的切片化,得到Mel谱和粗糙波形;
步骤4,将步骤3中所得的Mel谱和粗糙波形送入生成器得到生成波形;
步骤5,将步骤2中的真实波形与其对应的步骤4中的生成波形送入声学特征提取器及三个判别器,即多尺度判别器、多周期判别器和多相位判别器,得到声学特征、三个判别器的评分以及三个判别器的特征图,再代入判别器损失函数计算得到三个判别器损失值,优化判别器参数;
步骤6,将步骤5所述的声学特征、判别器的评分和特征图代入生成器损失函数计算得到生成器损失,优化生成器参数;重复步骤5和6的训练过程,直到声码器模型收敛;
步骤7,使用步骤3中所得验证集数据对进行模型性能评估,完成基于生成式对抗神经网络的高质量声码器模型的构建和训练。
本发明步骤2中,所述数据集不对音频数据内容是音乐、人声或噪声进行限制,音频数据为PCM编码的一组音频文件。
本发明步骤3中所述预处理包括:线性幅度谱、相位谱、Mel谱、粗糙波形和电平包络特征的提取,方法如下:
先将所有音频数据以统一的采样率进行重采样,然后提取音频特征,包括:通过短时傅里叶变换提取线性幅度谱和相位谱;再通过Mel滤波器组提取Mel谱,进而通过Griffin-Lim算法获取粗糙波形;通过MaxPooling池化层提取电平包络。
本发明步骤3中所述训练集与验证集划分包括:将数据划分为不相交的训练集和测试集。
本发明步骤3中所述训练集的切片化包括:对于训练集的数据再进行可重叠的、固定长度的切片,以实现局部化训练策略。
本发明步骤4中所述生成器为多视野融合与Unet式沙漏形结构的卷积神经网络;该网络以给定Mel谱为参照,将粗糙波形通过编码器缩短以及解码器拉伸的多步变换得到生成波形;该网络包括:
由Conv1D下采样层组成的编码器,将粗糙波形从时域空间转换到谱空间;
由ConvTransposed1D上采样层组成的解码器,将谱空间的隐层编码还原到时域空间;
编码器和解码器中包含的多个带残差的多视野融合块ResBlock,作为特征映射的主干网络;
采用解码器中包含的多个Conv1D拼接层,融合来自编码器中的对等层的隐层编码信息,得到生成波形。
本发明步骤5中,所述声学特征提取器为一个用于以提取相位谱的短时傅里叶变换过程;
所述三个判别器分别为:多尺度判别器、多周期判别器和多相位判别器;
其中,多尺度鉴别器使用Conv1D网络在三个不同波形尺度上鉴别生成波形的真伪,包括原波形、两倍降采样波形和四倍降采样波形;多周期判别器分别在分组周期为2、3、5、7和11这五种情况下,使用Conv2D网络鉴别分组化后的生成波形的真伪;多相位判别器在FFT点数分别为512、1024和2048这三套设置下,使用Conv2D 网络鉴别生成波形经过声学特征提取器所得相位谱的真伪;
所述判别器损失为三项判别器对抗损失之和,所用优化器为Adam。
本发明步骤5中,计算三个判别器损失值的方法包括:
每个判别器都有两个输出:判别器的评分Dx,判别器的特征图
Figure RE-GDA0003734765690000031
其中下标x取s、f和p以分别指代多尺度鉴别器、多周期鉴别器和多相位鉴别器;
所述判别器损失包含:来自三个判别器的评分所构成的判别器对抗损失,方法为:
lossd=ds+df+dp
其中,三个判别器对抗损失ds、df和dp分别为:
Figure RE-GDA0003734765690000032
Figure RE-GDA0003734765690000033
Figure RE-GDA0003734765690000034
其中,多尺度判别器的评分为Ds,多周期判别器的评分为Df,多相位判别器的评分为Dp,生成器为G,目标真实波形为y,待解码Mel谱为mel,待解码Mel谱的粗糙波形为wav;三个判别器评分上的短横线表示均值。
本发明步骤6中,所述声学特征提取器包含:一个用于以提取相位谱的短时傅里叶变换过程,一个用以提取波形实际电平包络的MaxPooling层;
所述判别器与优化器与步骤5中一致;
生成器损失lossg包括:三项生成器对抗损失,三项生成器特征图损失,多重谱幅度损失,电平包络损失,波形自相似损失,具体计算方法包括:
lossg=(gs+gf+gp)+α*(fms+fmf+fmp)+β*mstft+γ*dyn+δ*sm
三个生成器对抗损失gs、gf和gp为:
Figure RE-GDA0003734765690000041
Figure RE-GDA0003734765690000042
Figure RE-GDA0003734765690000043
三个特征图匹配损失fms、fmf和fmp为:
Figure RE-GDA0003734765690000044
Figure RE-GDA0003734765690000045
Figure RE-GDA0003734765690000046
多重谱幅度损失mstft为:
Figure RE-GDA0003734765690000047
电平包络损失dyn为:
dyn=|MaxPooling(y)-MaxPooling(G(mel,wav)))| +|MaxPooling(-y)-MaxPooling(-G(mel,wav)))|
波形自相似损失sm为:
sm=|yeven-yodd|
其中,多尺度判别器的特征图为
Figure RE-GDA0003734765690000048
多周期判别器的特征图为
Figure RE-GDA0003734765690000049
多相位判别器的特征图为
Figure RE-GDA00037347656900000410
第i套短时傅里叶变换所得对数尺度的幅度谱为stfti,yeven和yodd分别为原信号的偶数位和奇数位上的采样点,α、β、γ和δ为平衡因子常量;双竖线表示绝对值。
本发明步骤7中所述性能评估基于步骤3中的验证集数据得出,包含客观模型损失、泛化性评估和主观音质听觉评估。
有益效果:
本发明利用Unet式网络结构融合Mel谱和粗糙波形进行波形生成,同时采用了多种判别器和声学特征来对生成波形进行优化,提供了一种基于生成式对抗网络架构的高质量神经网络声码器模型。与现有的声码器模型相比,本发明最大的特点是利用了 Unet结构来融合粗糙波形的信息以大幅度降低神经网络学习难度,同时又有效利用了相位信息和时域上的电平包络和自相似特征来对生成波形进行优化,最终实现减少训练资源以及提升语音质量的双重目标。
通过本神经网络声码器模型实现了基于Mel谱的语音数据高质量解码。由于使用了目标真实波形的粗糙版本作为参照输入,大幅度降低了神经网络的学习难度,从而节省训练时间和计算资源开销。由于利用了相位信息和时域上的自相似特征来对生成波形进行优化,能获得更高音质的波形。由于使用了局部化训练策略,该声码器可以更自然流畅地合成任意长度的长音频序列。本发明将生成式对抗网络架构应用于神经网络声码器的构建,设计了上述模块以实现高质量的音频解码,训练开销低、音质好、可控度高,可作为各类音频处理系统的核心基础组件。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。
图1为本发明的架构示意图。
图2为本发明训练时的数据流图。
图3为本发明推断时的数据流图。
图4为采用本发明所生成的波形与原始波形的对比示意图。
图5为采用本发明所生成的波形对应频谱与原始波形对应频谱的对比示意图。
具体实施方式
如图1所示,一种基于生成式对抗神经网络的高质量声码器模型,包括以下步骤:
步骤1,构建基于生成式对抗神经网络的高质量声码器模型,该模型包括:生成器、声学特征提取器、多尺度判别器、多周期判别器和多相位判别器;
步骤2,从数据集获取PCM(Pulse Code Modulation)编码的音频数据,得到真实波形;其中,所述数据集不对音频数据内容是音乐、人声或噪声进行限制,音频数据为PCM编码的一组音频文件。
步骤3,对步骤2中所得真实波形进行预处理,训练集与验证集划分,训练集的切片化,得到Mel谱和粗糙波形;
其中,所述预处理包括:线性幅度谱、相位谱、Mel谱、粗糙波形和电平包络特征的提取,方法如下:
先将所有音频数据以统一的采样率进行重采样,然后提取音频特征,包括:通过短时傅里叶变换提取线性幅度谱和相位谱;再通过Mel滤波器组提取Mel谱,进而通过Griffin-Lim算法(参考文献:Griffin,Daniel,and Jae Lim.“Signal estimation frommodified short-time Fourier transform.”IEEE Transactions on Acoustics,Speech,and Signal Processing 32.2(1984):236-243.)获取粗糙波形;通过MaxPooling池化层提取电平包络。
所述训练集与验证集划分包括:将数据划分为不相交的训练集和测试集。
所述训练集的切片化包括:对于训练集的数据再进行可重叠的、固定长度的切片,以实现局部化训练策略。
步骤4,将步骤3中所得的Mel谱和粗糙波形送入生成器得到生成波形;其中,所述生成器为多视野融合与Unet(参考文献:U-Net模型,Ronneberger,O.,P.Fischer, andT.Brox."U-Net:Convolutional Networks for Biomedical Image Segmentation."Springer International Publishing(2015).)式沙漏形结构的卷积神经网络(Convolutional Neural Network,CNN);该网络以给定Mel谱为参照,将粗糙波形通过编码器缩短以及解码器拉伸的多步变换得到生成波形;该网络包括:
由Conv1D下采样层组成的编码器(可以是多个,一般为三个或四个。),将粗糙波形从时域空间转换到谱空间;
由ConvTransposed1D上采样层组成的解码器(可以是多个,与上述编码器数量一致即可),将谱空间的隐层编码还原到时域空间;
编码器和解码器中包含的多个带残差的多视野融合块ResBlock,作为特征映射的主干网络;
采用解码器中包含的多个Conv1D拼接层,融合来自编码器中的对等层的隐层编码信息,得到生成波形。
步骤5,将步骤2中的真实波形与其对应的步骤4中的生成波形送入声学特征提取器及三个判别器,即多尺度判别器、多周期判别器和多相位判别器,得到声学特征、三个判别器的评分以及三个判别器的特征图,再代入判别器损失函数计算得到三个判别器损失值,优化判别器参数;
其中,所述声学特征提取器为一个用于以提取相位谱的短时傅里叶变换过程;
所述三个判别器分别为:多尺度判别器、多周期判别器和多相位判别器;
其中,多尺度鉴别器使用Conv1D网络在三个不同波形尺度上鉴别生成波形的真伪,包括原波形、两倍降采样波形和四倍降采样波形;多周期判别器分别在分组周期为2、3、5、7和11这五种情况下,使用Conv2D网络鉴别分组化后的生成波形的真伪;多相位判别器在FFT点数分别为512、1024和2048这三套设置下,使用Conv2D 网络鉴别生成波形经过声学特征提取器所得相位谱的真伪;
所述判别器损失为三项判别器对抗损失之和,所用优化器为Adam(参考文献:Kingma,D.and J.Ba"Adam:A Method for Stochastic Optimization."Computer Science(2014).)。
计算三个判别器损失值的方法包括:
每个判别器都有两个输出:判别器的评分Dx,判别器的特征图
Figure RE-GDA0003734765690000071
其中下标x取s、f和p以分别指代多尺度鉴别器、多周期鉴别器和多相位鉴别器;
所述判别器损失包含:来自三个判别器的评分所构成的判别器对抗损失,方法为:
lossd=ds+df+dp
其中,三个判别器对抗损失ds、df和dp分别为:
Figure RE-GDA0003734765690000072
Figure RE-GDA0003734765690000073
Figure RE-GDA0003734765690000074
其中,多尺度判别器的评分为Ds,多周期判别器的评分为Df,多相位判别器的评分为Dp,生成器为G,目标真实波形为y,待解码Mel谱为mel,待解码Mel谱的粗糙波形为wav;三个判别器评分上的短横线表示均值。
步骤6,将步骤5所述的声学特征、判别器的评分和特征图代入生成器损失函数计算得到生成器损失,优化生成器参数;重复步骤5和6的训练过程,直到声码器模型收敛;
其中,所述声学特征提取器包含:一个用于以提取相位谱的短时傅里叶变换过程,一个用以提取波形实际电平包络的MaxPooling层;
所述判别器与优化器与步骤5中一致;
生成器损失lossg包括:三项生成器对抗损失,三项生成器特征图损失,多重谱幅度损失,电平包络损失,波形自相似损失,具体计算方法包括:
lossg=(gs+gf+gp)+α*(fms+fmf+fmp)+β*mstft+γ*dyn+δ*sm
三个生成器对抗损失gs、gf和gp为:
Figure RE-GDA0003734765690000081
Figure RE-GDA0003734765690000082
Figure RE-GDA0003734765690000083
三个特征图匹配损失fms、fmf和fmp为:
Figure RE-GDA0003734765690000084
Figure RE-GDA0003734765690000085
Figure RE-GDA0003734765690000086
多重谱幅度损失mstft为:
Figure RE-GDA0003734765690000087
电平包络损失dyn为:
dyn=|MaxPooling(y)-MaxPooling(G(mel,wav)))| +|MaxPooling(-y)-MaxPooling(-G(mel,wav)))|
波形自相似损失sm为:
sm=|yeven-yodd|
其中,多尺度判别器的特征图为
Figure RE-GDA0003734765690000091
多周期判别器的特征图为
Figure RE-GDA0003734765690000092
多相位判别器的特征图为
Figure RE-GDA0003734765690000093
第i套短时傅里叶变换所得对数尺度的幅度谱为stfti,yeven和yodd分别为原信号的偶数位和奇数位上的采样点,α、β、γ和δ为平衡因子常量;双竖线表示绝对值。
步骤7,使用步骤3中所得验证集数据对进行模型性能评估,完成基于生成式对抗神经网络的高质量声码器模型的构建和训练;其中,所述性能评估基于步骤3中的验证集数据得出,包含客观模型损失、泛化性评估和主观音质听觉评估。
下面结合附图及实施例对本发明做进一步说明。
实施例
本实施例提供了一种基于生成式对抗神经网络的神经网络声码器模型构建和训练方法,其模型结构如图1所示,训练过程如图2所示,详细过程如下:
1、构建基于生成式对抗神经网络的高质量声码器模型
本实施例中使用Python语言和PyTorch框架实现所述声码器模型。其由以下部分组成:1.一个由多视野融合块、Unet式沙漏形结构CNN(Convolutional Neural Network,卷积神经网络)搭建的生成器模块;2.一个由多种传统信号处理方法组成的声学特征提取器;3.三个由CNN分别搭建的鉴别器模块,即多尺度鉴别器、多周期鉴别器、多相位鉴别器;4.相对性对抗和特征图匹配损失,三项声学特征损失。各模块细节将在下述步骤中相关的地方予以给出。
2、从数据集获取音频数据
本实施例中使用的数据集为标贝(DataBaker)科技有限公司开源公布的中文女声语音数据集“Chinese Mandarin Female DB-1”,但也可以使用任何其他的音频数据集,例如:任意收集得到的一组PCM编码wav格式文件。
3、数据预处理
先将所有音频重采样到统一的采样率,如16kHz。而后对每个音频文件,依次经过短时傅里叶变换、Mel滤波器组、数值下截断、取对数等过程,得到125~7600Hz频段上的80段对数标度下的Mel谱。再基于所得Mel谱,依次通过逆Mel滤波器组、较少迭代次数的Griffin-Lim算法等过程,得到含有底噪的粗糙波形。然后将Mel谱与其对应粗糙波形两两配对为二元组data=(mel,wav)。
以恰当的比例将整个数据集切分为不相交的两个子集,即训练集和验证集。对于训练集,以固定的分段大小segment_size将每个二元组可重叠地切片、作长度对齐使得segment_size=length(wavi)=length(meli)×hop_length,其中hop_length为前述短时傅里叶变换所用的跳帧长度,如256;从而得到一组固定长度的数据对datai= (meli,wavi),用于模型训练时的输入。此局部化训练策略的训练技巧有助于提高长序列合成的质量。
4、经生成器得到生成波形
使用预处理所得的数据训练一个由多视野融合、Unet式沙漏形结构的CNN生成器模块。所述模块包含:1.由多个Conv1D下采样层组成的编码器,用以将时域空间转换到谱空间;2.包含由多个ConvTransposed1D上采样层组成的解码器,用以将谱空间还原到时域空间;3.编码器和解码器中包含额多个带残差的多视野融合块,用作特征映射的主干网络;4.解码器中包含多个Conv1D拼接层,用于融合来自编码器中的对等层的隐层编码信息。整体搭建形成Unet式沙漏形的对称结构,从而可以在对等层实现参数复用、节省接近一半的参数量。
具体数据流如下述。先将粗糙波形wav经过编码器转换为谱空间中的编码Ewav,在谱空间中使用一个拼接层以融合该编码与Mel谱形成的二元组(Ewav,mel)的信息。然后将信息融合后的编码经解码器还原到时域空间,得到生成波形,尤其注意在解码器的每一层都使用一个拼接层去融合来自于编码器对等层的中间输出信息。
5、计算得到判别器损失,优化判别器参数
将生成波形与目标真实波形送入所述声学特征提取器和三个判别器,得到判别器损失,进而使用Adam优化器优化判别器的参数。
所述声学特征提取器包含:一个短时傅里叶变换过程以提取相位谱。
所述三个判别器分别为:多尺度鉴别器、多周期鉴别器、多相位鉴别器。其中,多尺度鉴别器分别在生成波形的原波形、两倍降采样版本、四倍降采样版本这三个尺度上,使用Conv1D网络鉴别生成波形的真伪;多周期鉴别器分别在分组周期为2、3、5、7、11这五种情况下,使用Conv2D网络鉴别分组化后的生成波形的真伪;多相位鉴别器在FFT点数分别为512、1024、2048这三套设置下,使用Conv2D网络鉴别生成波形经过声学特征提取器所得相位谱的真伪。注意,每个判别器都有两个输出:判别器的评分Dx,判别器的特征图
Figure RE-GDA0003734765690000111
其中下标x取s、f、p以分别指代多尺度鉴别器、多周期鉴别器、多相位鉴别器。
所述判别器损失包含:来自三个判别器的评分所构成的判别器对抗损失,公式为:
lossd=ds+df+dp
判别器对抗损失:
Figure RE-GDA0003734765690000112
Figure RE-GDA0003734765690000113
Figure RE-GDA0003734765690000114
其中各符号分别为:多尺度判别器的评分Ds、多周期判别器的评分Df、多相位判别器的评分Dp,生成器G,目标真实波形y、待解码Mel谱mel、待解码Mel谱的粗糙波形wav;短横线表示均值。
6、计算得到生成器损失,优化生成器参数
将生成波形与目标真实波形送入所述声学特征提取器和三个判别器,得到生成器损失,进而使用Adam优化器优化生成器的参数。
所述声学特征提取器包含:一个短时傅里叶变换过程以提取相位谱,一个MaxPooling层以提取波形的实际电平包络。
所述三个判别器与步骤4中的描述一致。
所述生成器损失包含:来自三个判别器的评分所构成的生成器对抗损失,来自三个判别器的特征图所构成的特征图匹配损失,来自声学特征提取器的多重谱幅度损失、电平包络损失、波形自相似损失,公式为:
lossg=(gs+gf+gp)+α*(fms+fmf+fmp)+β*mstft+γ*dyn+δ*sm
生成器对抗损失:
Figure RE-GDA0003734765690000115
Figure RE-GDA0003734765690000121
Figure RE-GDA0003734765690000122
特征图匹配损失:
Figure RE-GDA0003734765690000123
Figure RE-GDA0003734765690000124
Figure RE-GDA0003734765690000125
多重谱幅度损失:
Figure RE-GDA0003734765690000126
电平包络损失:
dyn=|MaxPooling(y)-MaxPooling(G(mel,wav)))| +|MaxPooling(-y)-MaxPooling(-G(mel,wav)))|
波形自相似损失:
sm=|yeven-yodd|
其中各符号分别为:多尺度判别器的特征图
Figure RE-GDA0003734765690000127
多周期判别器的特征图
Figure RE-GDA0003734765690000128
多相位判别器的特征图
Figure RE-GDA0003734765690000129
第i套短时傅里叶变换所得对数尺度的幅度谱stfti,yeven和 yodd分别为原信号的偶数位和奇数位上的采样点,α、β、γ、δ为平衡因子常量;双竖线表示绝对值。其余符号与步骤4中描述一致。
尤其注意到,在声学特征损失中,多重谱幅度损失侧重于在频域方面粗粒度地约束生成波形的声学特征,而电平包络损失和波形自相似损失则侧重在时域方面对波形进行更为细粒度的约束;多方面的损失反馈能促使生成器产生更好的波形。
7、模型性能评估
使用验证集数据进行生成器损失的客观评估,以评价模型的泛化能力、检测过拟合风险。如图4、图5所示,波形相似、频谱损失小,展示了音频质量的保真性。同时,进行波形生成、人耳听觉实验的主观评估,以评价模型输出的音质。
本实施例提供了一种基于生成式对抗神经网络的神经网络声码器模型推断(使用) 方法,推断流程如图3所示,详细过程如下:
1、获取已训练好的所述声码器模型
本实施例中使用上文所述实施例中所训练好的声码器模型。
2、获取待解码的Mel谱
本实施例中使用的Mel谱为125~7600Hz频段上的80段对数标度下的Mel谱,由音频处理系统的上游模型预测得到,或由原始音频波形依次经过短时傅里叶变换、Mel 滤波器组、数值下截断、取对数等过程得到。
3、计算粗糙波形
对给定的Mel谱,先通过逆Mel滤波器组将其转化为线性谱,再使用较少迭代次数的Griffin-Lim算法得到含有底噪的粗糙波形。
4、经生成器得到生成波形
将给定的Mel谱及其对应的粗糙波形送入步骤1所述模型的生成器模块,计算即得到高音质的生成波形。
本发明提供了一种基于生成式对抗神经网络的高质量声码器模型的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,包括以下步骤:
步骤1,构建基于生成式对抗神经网络的高质量声码器模型,该模型包括:生成器、声学特征提取器、多尺度判别器、多周期判别器和多相位判别器;
步骤2,从数据集获取脉冲编码调制PCM编码的音频数据,得到真实波形;
步骤3,对步骤2中所得真实波形进行预处理,训练集与验证集划分,训练集的切片化,得到Mel谱和粗糙波形;
步骤4,将步骤3中所得的Mel谱和粗糙波形送入生成器得到生成波形;
步骤5,将步骤2中的真实波形与其对应的步骤4中的生成波形送入声学特征提取器及三个判别器,即多尺度判别器、多周期判别器和多相位判别器,得到声学特征、三个判别器的评分以及三个判别器的特征图,再代入判别器损失函数计算得到三个判别器损失值,优化判别器参数;
步骤6,将步骤5所述的声学特征、判别器的评分和特征图代入生成器损失函数计算得到生成器损失,优化生成器参数;重复步骤5和6的训练过程,直到声码器模型收敛;
步骤7,使用步骤3中所得验证集数据对进行模型性能评估,完成基于生成式对抗神经网络的高质量声码器模型的构建和训练。
2.根据权利要求1所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤2中,所述数据集不对音频数据内容是音乐、人声或噪声进行限制,音频数据为PCM编码的一组音频文件。
3.根据权利要求2所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤3中所述预处理包括:线性幅度谱、相位谱、Mel谱、粗糙波形和电平包络特征的提取,方法如下:
先将所有音频数据以统一的采样率进行重采样,然后提取音频特征,包括:通过短时傅里叶变换提取线性幅度谱和相位谱;再通过Mel滤波器组提取Mel谱,进而通过Griffin-Lim算法获取粗糙波形;通过最大池化层MaxPooling池化层提取电平包络。
4.根据权利要求3所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤3中所述训练集与验证集划分包括:将数据划分为不相交的训练集和测试集。
5.根据权利要求4所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤3中所述训练集的切片化包括:对于训练集的数据再进行可重叠的、固定长度的切片,以实现局部化训练策略。
6.根据权利要求5所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤4中所述生成器为多视野融合与Unet式沙漏形结构的卷积神经网络;该网络以给定Mel谱为参照,将粗糙波形通过编码器缩短以及解码器拉伸的多步变换得到生成波形;该网络包括:
由一维卷积Conv1D下采样层组成的编码器,将粗糙波形从时域空间转换到谱空间;
由一维转置卷积ConvTransposed1D上采样层组成的解码器,将谱空间的隐层编码还原到时域空间;
编码器和解码器中包含的多个带残差的多视野融合块ResBlock,作为特征映射的主干网络;
采用解码器中包含的多个Conv1D拼接层,融合来自编码器中的对等层的隐层编码信息,得到生成波形。
7.根据权利要求6所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤5中,所述声学特征提取器为一个用于以提取相位谱的短时傅里叶变换过程;
所述三个判别器分别为:多尺度判别器、多周期判别器和多相位判别器;
其中,多尺度鉴别器使用Conv1D网络在三个不同波形尺度上鉴别生成波形的真伪,包括原波形、两倍降采样波形和四倍降采样波形;多周期判别器分别在分组周期为2、3、5、7和11这五种情况下,使用二维卷积Conv2D网络鉴别分组化后的生成波形的真伪;多相位判别器在快速傅里叶变换点数FFT分别为512、1024和2048这三套设置下,使用Conv2D网络鉴别生成波形经过声学特征提取器所得相位谱的真伪;
所述判别器损失为三项判别器对抗损失之和,所用优化器为Adam优化器。
8.根据权利要求7所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤5中,计算三个判别器损失值的方法包括:
每个判别器都有两个输出:判别器的评分Dx,判别器的特征图
Figure FDA0003595924500000031
其中下标x取s、f和p以分别指代多尺度鉴别器、多周期鉴别器和多相位鉴别器;
所述判别器损失包含:来自三个判别器的评分所构成的判别器对抗损失,方法为:
lossd=ds+df+dp
其中,三个判别器对抗损失ds、df和dp分别为:
Figure FDA0003595924500000032
Figure FDA0003595924500000033
Figure FDA0003595924500000034
其中,多尺度判别器的评分为Ds,多周期判别器的评分为Df,多相位判别器的评分为Dp,生成器为G,目标真实波形为y,待解码Mel谱为mel,待解码Mel谱的粗糙波形为wav;三个判别器评分上的短横线表示均值。
9.根据权利要求8所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤6中,所述声学特征提取器包含:一个用于以提取相位谱的短时傅里叶变换过程,一个用以提取波形实际电平包络的MaxPooling层;
所述判别器与优化器与步骤5中一致;
生成器损失lossg包括:三项生成器对抗损失,三项生成器特征图损失,多重谱幅度损失,电平包络损失,波形自相似损失,具体计算方法包括:
lossg=(gs+gf+gp)+α*(fms+fmf+fmp)+β*mstft+γ*dyn+δ*sm
三个生成器对抗损失gs、gf和gp为:
Figure FDA0003595924500000035
Figure FDA0003595924500000036
Figure FDA0003595924500000037
三个特征图匹配损失fms、fmf和fmp为:
Figure FDA0003595924500000038
Figure FDA0003595924500000041
Figure FDA0003595924500000042
多重谱幅度损失mstft为:
Figure FDA0003595924500000043
电平包络损失dyn为:
dyn=|MaxPooling(y)-MaxPooling(G(mel,wav)))|+|MaxPooling(-y)-MaxPooling(-G(mel,wav)))|
波形自相似损失sm为:
sm=|yeven-yodd|
其中,多尺度判别器的特征图为
Figure FDA0003595924500000044
多周期判别器的特征图为
Figure FDA0003595924500000045
多相位判别器的特征图为
Figure FDA0003595924500000046
第i套短时傅里叶变换所得对数尺度的幅度谱为stfti,yeven和yodd分别为原信号的偶数位和奇数位上的采样点,α、β、γ和δ为平衡因子常量;双竖线表示绝对值。
10.根据权利要求9所述的一种基于生成式对抗神经网络的高质量声码器模型,其特征在于,步骤7中所述性能评估基于步骤3中的验证集数据得出,包含客观模型损失、泛化性评估和主观音质听觉评估。
CN202210391848.6A 2022-04-14 2022-04-14 一种基于生成式对抗神经网络的高质量声码器模型 Pending CN115035904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210391848.6A CN115035904A (zh) 2022-04-14 2022-04-14 一种基于生成式对抗神经网络的高质量声码器模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210391848.6A CN115035904A (zh) 2022-04-14 2022-04-14 一种基于生成式对抗神经网络的高质量声码器模型

Publications (1)

Publication Number Publication Date
CN115035904A true CN115035904A (zh) 2022-09-09

Family

ID=83119671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210391848.6A Pending CN115035904A (zh) 2022-04-14 2022-04-14 一种基于生成式对抗神经网络的高质量声码器模型

Country Status (1)

Country Link
CN (1) CN115035904A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152502A (zh) * 2023-04-17 2023-05-23 华南师范大学 一种基于解码层损失回召的医学影像分割方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152502A (zh) * 2023-04-17 2023-05-23 华南师范大学 一种基于解码层损失回召的医学影像分割方法及系统
CN116152502B (zh) * 2023-04-17 2023-09-01 华南师范大学 一种基于解码层损失回召的医学影像分割方法及系统

Similar Documents

Publication Publication Date Title
Botinhao et al. Speech enhancement for a noise-robust text-to-speech synthesis system using deep recurrent neural networks
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
Du et al. Speaker augmentation for low resource speech recognition
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN115294970B (zh) 针对病理嗓音的语音转换方法、装置和存储介质
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Rajesh Kumar et al. Optimization-enabled deep convolutional network for the generation of normal speech from non-audible murmur based on multi-kernel-based features
Singh et al. Spectral Modification Based Data Augmentation For Improving End-to-End ASR For Children's Speech
KR20200088263A (ko) 텍스트- 다중 음성 변환 방법 및 시스템
Hussain et al. Ace-vc: Adaptive and controllable voice conversion using explicitly disentangled self-supervised speech representations
Xie et al. Disentangled speech representation learning based on factorized hierarchical variational autoencoder with self-supervised objective
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Oura et al. Deep neural network based real-time speech vocoder with periodic and aperiodic inputs
Koizumi et al. Miipher: A robust speech restoration model integrating self-supervised speech and text representations
CN115035904A (zh) 一种基于生成式对抗神经网络的高质量声码器模型
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN117275498A (zh) 语音转换方法及语音转换模型的训练方法、电子设备和存储介质
KR20190135853A (ko) 텍스트- 다중 음성 변환 방법 및 시스템
Zhao et al. Research on voice cloning with a few samples
CN113066459B (zh) 基于旋律的歌曲信息合成方法、装置、设备及存储介质
Nazir et al. Deep learning end to end speech synthesis: A review
CN113345450A (zh) 语音转换方法、装置、设备及存储介质
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Liu et al. A New Speech Encoder Based on Dynamic Framing Approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination