CN113658583A - 一种基于生成对抗网络的耳语音转换方法、系统及其装置 - Google Patents
一种基于生成对抗网络的耳语音转换方法、系统及其装置 Download PDFInfo
- Publication number
- CN113658583A CN113658583A CN202110942909.9A CN202110942909A CN113658583A CN 113658583 A CN113658583 A CN 113658583A CN 202110942909 A CN202110942909 A CN 202110942909A CN 113658583 A CN113658583 A CN 113658583A
- Authority
- CN
- China
- Prior art keywords
- voice
- network
- conversion
- normal
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000006243 chemical reaction Methods 0.000 claims abstract description 158
- 238000001228 spectrum Methods 0.000 claims abstract description 108
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 7
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 35
- 238000013507 mapping Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 30
- 230000003595 spectral effect Effects 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000452 restraining effect Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims 2
- 230000036961 partial effect Effects 0.000 abstract description 3
- 238000009826 distribution Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 239000000203 mixture Substances 0.000 description 6
- 238000013441 quality evaluation Methods 0.000 description 5
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000010485 coping Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于语音信号处理领域,具体涉及一种基于生成对抗网络的耳语音转换方法、系统及其装置。该方法包括如下步骤:S1:构建基于生成对抗网络的耳语音转换网络;S2:获取用于进行训练的数据集;S3:对数据集进行预处理分别得到源耳语音和参考正常音的梅尔频谱特征及其子序列;S4:对耳语音转换网络进行模型训练;S5:对源耳语音信号进行预处理,然后将源耳语音子梅尔频谱序列转换为正常音的子梅尔频谱序列,再拼接成完整的梅尔频谱,并合成为正常音的时域波形,得到所需的音频信号。耳语音转换系统包括:音频获取模块、预处理模块、音频转换模型,以及音频合成模块。本发明解决了现有耳语音转化方法存在的语音帧不连续、部分音节转化失败问题。
Description
技术领域
本发明属于语音信号处理领域,具体涉及一种基于生成对抗网络的耳语音转换方法、系统及其装置。
背景技术
耳语音是一种有别于正常音的特殊发音方式,是图书馆、会议室等禁止喧哗的公共场所内人们主要采用的语音交流手段。与正常语音相比,耳语音有如下三个特点:(1)人发耳语音时声带不振动,其能量比正常语音约低20分贝。(2)由于发音时声带不振动,肺部需要呼出更多气流激励狭窄的半开声门,导致其发音速度相比正常音慢,音长较长。(3)耳语音的共振峰会相对正常语音的共振峰发生偏移,共振峰带宽较宽,频谱较平坦。耳语音转换有很多实际的应用场景:公共场合下的私密交流;图书馆、医院等禁止喧哗环境下的交谈。如果人的声带、喉或者其他与语音发声相关的关节部分受到损坏,其中一些人只能通过低声来交谈,失去自然的语言表达能力使这些人的生活陷入困境,因此,耳语音到正常音转换对于这些受损人群的日常沟通有重要意义。
耳语音转换首先需要进行语音特征提取和声学特征重建;在声学特征选定好后,需要根据耳语音的声学特征估计转换后语音的声学特征。在耳语音转换中,主要有两类估计方法,一类是基于规则的声学特征估计,另一类是基于统计模型的声学特征估计。其中,基于规则的估计方法假定耳语音和正常音的特征参数之间具有简单的线性关系,通过对耳语音和正常音的特征进行统计分析,利用分析获得的规则对耳语音声学特征进行修正,从而获得转换后语音的声学特征。此类方法本质上是利用一个简单的线性函数来描述修正规则,其优势是无须训练模型,直接根据分析结果建立一个显式的修正函数。然而研究表明,耳语音发声时声带半开,气管上部和口腔耦合,使得耳语音的声道传输函数和正常音有本质上的区别,耳语音的声学特征和正常音的声学特征之间并非是一种简单的线性关系。因此这类估计方法被逐渐淘汰。基于统计模型的特征估计方法在训练阶段利用样本建立耳语音和正常音特征之间的非线性映射模型。该方法克服了前者的弊端,因此受到本领域研究人员的关注。目前常用于耳语音转换的声学特征映射模型有高斯混合模型(GMM)和神经网络模型。
但是现有的各种基于统计模型的耳语音转换模型仍然存在不足。例如:高斯混合模型只适合对低维声学特征联合分布建模,且高斯混合模型基于分段线性模型来实现非线性关系建模,其非线性建模能力较弱,因而基于高斯混合模型法重建的转换语音存在过平滑现象,且转换后语音帧有不连续现象。而基于神经网络模型的耳语音语音转换方法必须使用动态时间归整算法(Dynamic Time Warping,DTW)将耳语音声学特征和正常音声学特征进行对齐。但是DTW是一种动态规划算法,仅利用特征之间的距离最小化作为特征对齐的优化目标,并没有考虑到耳语音类似噪声的这种特殊发音特性,转换后的正常语音不流畅,出现部分音节转换失败现象,会降低语音的听觉效果。
发明内容
为了解决现有的耳语音转化方法存在的语音帧不连续、部分音节转化失败问题,导致转化后的语音信号不流畅,听觉效果较差的情况,本发明提供的一种基于生成对抗网络的耳语音转换方法、系统及其装置。
本发明采用以下技术方案实现:
一种基于生成对抗网络的耳语音转换方法,该耳语音转换方法包括如下步骤:
S1:构建基于生成对抗网络的耳语音转换网络,耳语音转换网络用于将输入的耳语音的频谱特征转换为正常音的频谱特征后进行输出。其中,耳语音转换网络的构建方法具体包括如下过程:
S11:获取包含生成器和判别器的经典的生成对抗网络。
S12:在生成对抗网络的生成器中引入“编码-解码”结构,卷积编码器将源耳语音频谱特征编码成低维空间的隐含向量,然后反卷积解码器将隐含向量解码生成为正常音的频谱特征。判别器包括多层用于对语音参数进行特征提取和降维的卷积下采样模块,并在卷积下采样模块之后接入用于输出真假标签值的全连接层。
S13:在生成器的第一层引入自注意力模块。自注意力模块用于在生成对抗网络中处理语音参数内的局部重点特征,并自动分配各区域的权重系数,进而隐式地实现语音参数时间对齐。
S2:获取用于对耳语音转换网络进行训练的数据集,数据集中包含耳语音和对应的正常音数据的平行语料。
S3:对用于训练的数据集中的语音数据进行预处理;具体包括:对语音数据的每一帧提取128维的梅尔频谱参数,并将语音数据的每个连续的12帧的梅尔频谱参数组合为一个元数据。
S4:利用预处理后的数据集对耳语音转换网络进行模型训练,得到完成训练后的耳语音转换网络。在训练过程中,以元数据作为耳语音转换网络的输入。
S5:采用如步骤S3的方法对待转换的源耳语音信号进行预处理,然后利用完成训练的耳语音转换网络中的生成器将预处理的源耳语音信号转换为正常音的子梅尔频谱序列;再将正常音的子梅尔频谱序列拼接成完整的梅尔频谱,并将完整的正常音的梅尔频谱合成为时域波形,得到所需的音频信号。
本发明提供的一种基于生成对抗网络的耳语音转换方法,不同于现有的耳语音转正常音方法需要对训练数据集进行DTW处理,而是建立在帧级别的语音参数上。本发明提供的方法构建了一个融合自注意力模块的生成对抗网络作为耳语音转换网络模型;通过自注意力机制自适应地对模型训练过程中的耳语音和正常音进行时间对齐。在模型训练时还增加了恒等映射损失函数来实现源耳语音和转换后的正常音在语义上保持不变。区别于传统的以显式预测耳语音较正常音缺失的基频成分为导向的方法,本发明提出的方法和网络模型具备对耳语音所缺失的基频进行隐式生成的能力。
作为本发明进一步的改进,步骤S1中,构建的耳语音转换网络是一个融合注意力机制的改进型生成对抗网络。其中,耳语音转换网络包含具有“编码-解码”结构的多层卷积神经网络的生成器;生成器为耳语音频谱映射到正常音频谱的一个映射函数,生成器输出映射后的正常音频谱。耳语音转换网络中的判别器用于对生成器生成的正常音频谱和真实的正常音频谱进行真假判别;进而通过对抗策略在生成器和判别器之间交替更新网络权重,直至耳语音转换网络达到最优动态平衡状态。
作为本发明进一步的改进,步骤S4中,耳语音转换网络开始训练之前,先进行数据集准备和参数设置。并按照8:2的比例将数据集分为训练集和测试集,用于对网络模型进行训练和验证。网络模型训练过程中,使用训练集的数据来训练耳语音转换网络,并使用测试集对网络模型的训练效果进行验证;然后用测试集上得出的误差作为最终模型在应对现实场景中的泛化误差。参数设置过程中,将判别器端和生成器端的更新步的比率设置为1:3;训练过程的学习率设置在0.0001-0.0002之间;并使用Hingeloss函数作为损失函数。
作为本发明进一步的改进,还将孪生网络引入到音频转换模型的训练过程中,提升拼接后的梅尔频谱的连续性,进而使得合成的正常音的音频信号流畅自然;在孪生网络的约束状态下,对源耳语音数据的梅尔频谱和生成器生成的正常音梅尔频谱这两者经孪生网络投影到低维隐空间的差分变换向量进行距离度量的损失函数公式如下:
其中,
t12=S(a1)-S(a2)
t′12=S(G(a1))-S(G(a2))
上式中,L(G,S)表示源耳语音子梅尔频谱序列和所述生成器生成的正常音子梅尔频谱序列通过孪生网络投影到低维隐空间得到的差分变换向量的距离度量;表示从步骤S3得到的源耳语音子梅尔频谱序列集合A中重复随机选取任意两个不同的序列a1和a2;S表示孪生网络;G表示生成器;LS表示在与δ相减后的源耳语音差分变换向量和0之间选取两者中的较大值;δ是一个预定义的值,使得投影到低维隐空间后的向量之间的距离大于δ,这里δ取值为2.0。
作为本发明进一步的改进,步骤S4中对耳语音转换网络模型进行训练更新权重时,为了使得生成器生成的正常音在语义上同源耳语音保持一致,额外引入了恒等映射损失函数公式如下:
LG,id=Eb~B[||G(b)-b||1]
上式中,LG,id表示生成器的恒等映射损失,Eb~B表示从步骤S3得到的目标正常音子梅尔频谱序列集合B中重复随机选取任意一个序列b;G表示生成器。
作为本发明进一步的改进,步骤S5中,将完整的正常音的梅尔频谱合成为时域波形的过程通过Griffin-Lim算法实现。
作为本发明进一步的改进,完成步骤5的语音转换过程之后,还通过频谱图对转换效果进行展示,并通过语音客观质量单端评价标准P.563的指标对语音转换性能进行评价,检测语音转换性能的有效性。
本发明还包括一种基于生成对抗网络的耳语音转换系统,该系统采用如前述的基于生成对抗网络的耳语音转换方法,完成将耳语音的音频信号转换为正常音的音频信号的过程;耳语音转换系统包括:音频获取模块,预处理模块,音频转换模型,以及音频合成模块。
其中,音频获取模块用于获取待转换的耳语音的音频信号。
预处理模块用于对音频获取模块中获取的音频信号的每一帧进行特征提取,得到128维的梅尔频谱信号,并将每个连续的12帧的梅尔频谱信号进行组合,生成一个输入信号。
音频转换模型用于将预处理模块生成的输入信号转换为正常音的梅尔频谱子信号序列;音频转换模型为一个经过改进和数据集训练的生成对抗网络。音频转换模型包括:生成器、判别器、自注意力模块。生成器中还包括卷积编码器子单元和反卷积解码器子单元。卷积编码器子单元将源耳语音频谱特征编码成低维空间的隐含向量,反卷积解码器子单元将隐含向量解码生成为正常音的频谱特征。判别器中包括多层的卷积下采样模块,在卷积下采样模块后端还包括一个用于输出真假标签值的全连接层。生成器和判别器构成的生成对抗网络在经数据集训练后对自身的网络权重交替更新,从而达到最优的动态平衡状态;自注意力模块引入到生成器的第一层中;自注意力模块用于处理语音参数内的局部重点特征,并自动分配各区域的权重系数,进而隐式地实现语音参数间的时间对齐。
音频合成模块用于将音频转换模型输出的正常音的梅尔频谱子信号序列进行拼接,得到一个完整的正常音的梅尔频谱信号。然后通过Griffin-Lim算法将完整的梅尔频谱信号转化成时域波形,得到所需的转换后的正常音的音频信号。
作为本发明进一步的改进,耳语音转换系统在训练时引入孪生网络模型,用于对预处理后得到的源耳语音数据梅尔频谱和生成器生成的正常音梅尔频谱这两者经孪生网络投影到低维隐空间的差分变换向量进行约束,提升拼接后的梅尔频谱的连续性,进而使得合成的正常音的音频信号流畅自然;本发明在训练耳语音转换系统时还使用了恒等映射损失函数,所述恒等映射是通过对经所述生成器处理后的目标正常音子梅尔频谱序列与其自身进行约束,从而实现语音转换过程中的潜在语义不变性。
本发明还包括一种基于生成对抗网络的耳语音转换装置,该装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行程序时实现如前述的基于生成对抗网络的耳语音转换方法的步骤。
本发明提供的技术方案,具有如下有益效果:
1、本发明根据耳语音转换这一技术问题的特点设计了一种基于生成对抗网络的新型耳语音识别网络,设计的网络能够有效将耳语音的梅尔频谱转换成正常音的梅尔频谱;进而通过拼接和算法处理将正常音的梅尔频谱转换成所需的正常音的音频信号。该方法避免了耳语音识别网络在训练前对语音频谱信号做强制时间对齐处理,无需要对训练集应用DTW算法进行对齐,而在帧级别的语音参数上,通过在网络中引入自注意力机制实现模型训练过程中的耳语音和正常音的时间对齐。此外,本发明提供的网络在训练时还增加了恒等映射约束来实现源耳语音和转换后的正常音在语义上保持一致。
2、本发明提供的技术方案中,仅选用单一参数梅尔谱在耳语音和正常音间建立映射关系,在不降低耳语音转换效果的同时避免了多参数映射模型的复杂性。而且区别于传统的以显式预测耳语音较正常音缺失的基频成分为导向的方法,本发明提供的方法具备对耳语音所缺失的基频进行隐式生成的能力
3、本发明提供的方法可以在语音的帧级别上进行模型的训练,不再限定于特定时间范围内的语音,更加灵活适用于任意时间长度的耳语音转换任务,具有更好的实用性。本发明提供的方法还引入了孪生网络来对语音参数间的差分变换向量进行约束,进而保持转换后语音帧之间参数的连续性,对于不同长度的耳语音信号均可以转换成相对流畅的正常音信号。
附图说明
图1为本发明实施例1中提供的一种基于生成对抗网络的耳语音转换方法的流程图;
图2为本发明实施例1中加入“编码器-解码器”结构后的生成对抗网络的模型示意图;
图3为本发明实施例1的生成对抗网络中引入的自注意力模块的模块示意图;
图4为本发明实施例1中用于约束子梅尔频谱差分变换向量相等的孪生网络的结构示意图;
图5为本发明实施例1的语音质量评价试验中作为参考的正常音的F0曲线;
图6为本发明实施例1的语音质量评价试验中采用GMM方法生成的正常音的F0曲线;
图7为本发明实施例1的语音质量评价试验中采用BLSTM方法生成的正常音的F0曲线;
图8为本发明实施例1的语音质量评价试验中采用Cycle-GAN方法生成的正常音的F0曲线;
图9为本发明实施例1的语音质量评价试验中采用本发明提供的耳语音转换方法生成的正常音的F0曲线;
图10为本发明实施例1中本发明的方法中的网络模型和其它现有的网络模型在试验中的RMSE(F0)值的统计图;
图11为本发明实施例1中提供的一种基于生成对抗网络的耳语音转换系统的模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于生成对抗网络的耳语音转换方法,该耳语音转换方法包括如下步骤:
S1:构建基于生成对抗网络的耳语音转换网络,耳语音转换网络用于将输入的耳语音的频谱特征转换为正常音的频谱特征后进行输出。
其中,耳语音转换网络的构建方法具体包括如下过程:
S11:获取包含生成器和判别器的经典的生成对抗网络。生成对抗网络在模拟生成真实问题下的数据分布方面具有强大的能力,因此可以用于处理很多实际的问题,本实施例中考虑通过生成对抗网络来解决耳语音转换的问题。耳语音转换为正常音的问题可以看作是将耳语音的特征分布转化为正常音的特征分布问题。因此生成对抗网络可以适用于处理这一类问题。
但是典型的生成对抗网络基于随机向量向目标数据域转化,因此无法直接应用于耳语音的转换任务,这种经典的网络模型无法在特定的耳语音频谱特征和正常音频谱特征之间建立准确的映射关系。为了克服这一问题,还需要对生成对抗网络进行改进和调整。
S12:在生成对抗网络的生成器中引入“编码-解码”结构,卷积编码器将源耳语音频谱特征编码成低维空间的隐含向量,然后反卷积解码器将隐含向量解码生成为正常音的频谱特征。判别器包括多层用于对语音参数进行特征提取和降维的卷积下采样模块,并在卷积下采样模块之后接入用于输出真假标签值的全连接层。
本实施例中,为了使用处理耳语音转换的问题,在传统的生成对抗网络中加入“编码器-解码器”结构;改进之后的网络结构如图2所示。采用这种网络结构之后;假设源耳语音频谱特征为A,目标正常语音频谱特征为B,生成对抗网络中的生成器和判别器分别记作G和D;则G为分布A到分布B的一个映射函数;且B’=G(A)为生成器G生成的正常语音谱特征。
S13:在生成器的第一层引入自注意力模块。自注意力模块用于在生成对抗网络中处理语音参数内的局部重点特征,并自动分配各区域的权重系数,进而隐式地实现语音参数时间对齐。
考虑到与常规的正常音到正常音的语音转换方式不同,本实施例中的耳语音和正常音的发音速度差异较大,同一语料所需发音时长不同,因此无法采用传统的动态时间归整算法(Dynamic Time Warping,DTW)来对语音信号进行特征对齐,使用动态时间规整算法之后将会导致转换后的语音信号的流畅度变差。因此,本实施例在处理该问题时在改进后的生成对抗网络中进一步引入了自注意力模型,引入该模块之后,网络模型便可以实现语音特征参数时间对齐。具体地,自注意力模块的模块示意图如图3所示。
至此,本实施例构建的耳语音转换网络已经是一个融合注意力机制的改进型生成对抗网络。其中,耳语音转换网络包含具有“编码-解码”结构的多层卷积神经网络的生成器;生成器为耳语音频谱映射到正常音频谱的一个映射函数,生成器输出映射后的正常音频谱。耳语音转换网络中的判别器用于对生成器生成的正常音频谱和真实的正常音频谱进行真假判别;进而通过对抗策略在生成器和判别器之间交替更新网络权重,直至耳语音转换网络达到最优动态平衡状态。
S2:获取用于对耳语音转换网络进行训练的数据集,数据集中包含耳语音和对应的正常音数据的平行语料。
S3:对用于训练的数据集中的语音数据进行预处理;具体包括:对语音数据的每一帧提取128维的梅尔频谱参数,并将语音数据的每个连续的12帧的梅尔频谱参数组合为一个元数据。
本实施例在训练阶段,以及利用完成训练的耳语音转换网络进行语音转换的过程中,均对输入到网络模型中的音频信号进行预处理。这种预处理的作用在于:传统的耳语音转换方法对训练语料逐句对齐,并将处理后的帧用于模型训练,数据处理过程复杂,且逐句训练方式无法刻画语音前后帧之间的相关性。而本实施例中将提取到的梅尔频谱参数的每12帧作一个划分,并将得到子谱输入到模型中进行训练,通过帧级别上的模型训练很好地克服了现有的数据预处理和训练方法的缺陷。
S4:利用预处理后的数据集对耳语音转换网络进行模型训练,得到完成训练后的耳语音转换网络。在训练过程中,以元数据作为耳语音转换网络的输入。
本实施例的耳语音转换网络在开始训练之前,先进行训练数据集准备和参数设置。在本实施例中,按照8:2的比例将数据集分为训练集和测试集,用于对网络模型进行训练和验证。网络模型训练过程中,使用训练集的数据来训练耳语音转换网络,并使用测试集对网络模型的训练效果进行验证;然后用测试集上得出的误差作为最终模型在应对现实场景中的泛化误差。
S5:采用如步骤S3的方法对待转换的源耳语音信号进行预处理,然后利用完成训练的耳语音转换网络中的生成器将预处理的源耳语音子梅尔频谱序列转换为正常音的子梅尔频谱序列;再将正常音的子梅尔频谱序列拼接成完整的梅尔频谱,并将完整的正常音的梅尔频谱合成为时域波形,得到所需的音频信号。
其中,本实施例的步骤S5中,将完整的正常音的梅尔频谱合成为时域波形的过程通过Griffin-Lim算法实现。其它实施例中,在不影响合成效果的基础上,也可以其它具有相同作用的算法进行处理。
在为了验证本实施例提供的方法的有效性,本实施例还对构建的耳语音转换网络进行模型训练,使用训练后的网络模型进行耳语音转换试验,设计相应的性能评价试验对本实施提供的方法和网络模型进行性能评估。具体的模型训练阶段和性能评价阶段的过程入如下:
本实施例获取了包含耳语音和对应的正常音的数据集,数据集中包含了969对采样率为22050Hz的平行语料。在网络模型训练过程中,分别随机分配其中的800对平行语料的数据集为训练集,剩余的169对平行语料构成测试集。同时对测试集和训练集中的数据进行预处理,即:在语音的每一帧提取128维的梅尔频谱(Mel-spectrogram)的语音参数进行建模,并按照每12帧作为一个模型输入,进行帧级别的训练。
在生成器和判别器的对抗训练过程需要进行训练参数设置。本实施例中,使用Hingeloss函数作为损失函数。
Hingeloss损失函数的公式如下:
LD,adv=-Eb~B[min(0,-1+D(b))]-Ea~A[min(0,-1-D(G(a)))]
LG,adv=-Ea~AD(G(a))
上式中,LD,adv表示判别器在训练时的对抗损失,-Eb~B表示从步骤S3得到的目标正常音子梅尔频谱序列集合B中重复随机选取任意一个序列b;Ea~A表示从步骤S3得到的源耳语音子梅尔频谱序列集合A中重复随机选取任意一个序列a;G表示生成器;D表示判别器;LG,adv表示生成器在训练时的对抗损失。
网络训练采取交替迭代的方式:首先固定生成器,通过更新判别器的权重使得LD,adv对抗损失减小;然后固定判别器,通过更新生成器的权重使得LG,adv对抗损失减小;照此迭代更新最终使得网络达到最优动态平衡。
以上两式很好地说明了判别器如何迭代地学习更好的区分真实样本分布B和生成的样本分布B’。与此同时,生成器也迭代地学习如何改善自身的映射能力来混淆判别器。在这种交替迭代对抗训练的方式下,生成器生成的样本分布B’可以达到尽可能地与真实样本分布B逼近。进而达到对生成器的训练目标,并将训练完成的网络模型用于进行语音转换。
本实施例在耳语音转换网络的训练过程中,还引入了孪生网络模型用来提升拼接后的梅尔频谱的连续性,进而使得合成的正常音的音频信号流畅自然;在孪生网络的约束状态下,对源耳语音数据的梅尔频谱和生成器生成的正常音梅尔频谱这两者经孪生网络投影到低维隐空间的差分变换向量进行距离度量的损失函数公式如下:
其中,
t12=S(a1)-s(a2)
t′12=S(G(a1))-S(G(a2))
上式中,L(G,S)表示源耳语音子梅尔频谱序列和所述生成器生成的正常音子梅尔频谱序列通过所述孪生网络投影到低维隐空间得到的差分变换向量的距离度量;表示从步骤S3得到的源耳语音子梅尔频谱序列集合A中重复随机选取任意两个不同的序列a1和a2;S表示所述孪生网络;G表示所述生成器;LS表示在与δ相减后的源耳语音差分变换向量和0之间选取两者中的较大值;δ是一个预定义的值,使得投影到低维隐空间后的向量之间的距离大于δ,这里δ取值为2.0。
由于在生成对抗网络中只能实现生成的数据属于真实分布域的状况,而不能针对特定的数据信息产生约束,这就造成了传统的生成对抗网络用于耳语音转换后,会发生转换后的正常音丢失部分语音信息的问题。本实施例中,在步骤S4耳语音转换网络训练时引入恒等映射损失,对生成器进行语义约束;实现使得生成的正常音保留源耳语音的完整语义信息的目的。
LG,id=Eb~B[||G(b)-b||1]
上式中,LG,id表示所述生成器的恒等映射损失,Eb~B表示从步骤S3得到的目标正常音子梅尔频谱序列集合B中重复随机选取任意一个序列b;G表示所述生成器。
在实际训练耳语音转换网络模型的过程中,判别器端的一个更新步需对应着生成器段的多个更新步;二者更新步之间的比率与不同的生成任务有关,是需要人工设定的参数。本实施例中,根据具体的试验需要,将判别器端和生成器端的更新步的比率设置为1:3;进而实现加速网络模型收敛速度的效果。同时,在训练过程中,将学习率设置在0.0001-0.0002之间。
模型训练结束后,通过完成训练的耳语音转换网络将测试集中的耳语信号转换为正常音的子梅尔频谱序列,最后经拼接和Griffin-Lim算法处理后得到时域波形的语音信号。
耳语音转换完成后进行性能评估试验。在转换效果的评价方面,本实施例分别设计了主观评价和客观评价两个方面的内容。其中,主观评价采用频谱图的形式进行展现。客观指标方面则分别采用如下方法和指标:STOI(short-time objectiveintelligibility)、PESQ(perceptual evaluation of speechquality)、MCD(mel-cepstral distance)、LSD(log spectrum distance)、RMSE(root mean squared error)及P.563。
其中,STOI指标用于客观评估转换后语音可懂度,其取值范围在0-1之间,值越接近1表明转换语音的可懂度越高转换系统越好。PESQ用于客观评价转换语音的质量,它的取值范围在0.5-4.5之间,值越大意味着转换语音的质量越高并越接近于正常音。MCD和LSD是两种常用的计算转换后语音频谱性能的评测指标,取值越低代表生成后的正常音和参考音的谱相似度越高。由于耳语音较正常音的一个主要区别在于基频(F0)成分的缺失,而RMSE方法专门用来评估生成后的语音和参考正常音在基频上的差别,其值越低表明两者之间的一致性越高、转换系统越好。P.563不同于上述几个双端指标,它是一种单端评价手段,其在评价转换后的语音质量时无需纳入参考音进行计算,特种适合用于对语音时长未对齐的耳语音转正常音任务进行评价。
本实施例中,为了对本实施的技术方案的技术效果有更清晰的判断,还设计了对照试验,以传统的GMM、BLSTM、Cycle-GAN三种基线方法进行耳语音转正常音实验,与本实施的方案进行对比。上述三个基线方法的模型使用的训练集和测试集与本实施例的方法相同;并且在三个基线方法中,选择采用传统的DTW时间对齐处理方法对提取的语音参数进行处理。本实施例与对照组的方法在双端指标的性能测试中的客观评估结果如下表1所示:
表1:基于各对比模型生成正常音的客观评估结果(双端指标)
分析表1中的数据可以发现:本实施例提供的方法在上述四个指标中均取得了较佳的数据,这表明本案提供的方法不仅在语音可懂度、与正常音的近似度,以及在基频上的一致性均表现较好,而且在性能上也具有平衡和稳定性。
此外,也需要考虑到耳语音转正常音任务的特殊性。通常耳语音发音速度普遍较正常音慢,同一句语料在耳语音和正常音的波形时长上差距很大。以上几个双端评价指标在计算时需对两条语音在时间上强制对齐,从而造成了语音质量的失真。因此,以上几个双端评价指标对耳语音转正常音任务的评估值参考意义相对有限。
为了更准确地评估本实施例提供的耳语音转换方法的性能,本实施例继续采用单端语音评价指标P.563来对本实施例和对照组的方法进行衡量。P.563指标的测试方法无需对语音做时间对齐处理,保留了模型生成语音的真实客观质量,尤其适用于耳语音转正常音任务的客观评价。在单端指标的验证试验中,分别选择WHISPER(源耳语音)、GMM(高斯混合模型)、BLSTM(双向LSTM)模型、Cycle-GAN(循环一致生成对抗网络)模型、NORMAL(目标正常音)作为对照组进行性能对比。本实施例与对照组的方法的在单端指标的性能测试结果如表2所示。
表2:基于各对比模型生成正常音的客观评估结果(单端指标)
从表2中各模型的P.563指标值可以看出,本实施例提供的方法的指标值与参考目标正常音值(NORMAL值)最为接近。相较于传统的通过DTW算法进行语音对齐的各个耳语音转换模型,我们提出的基于自注意力机制进行语音对齐的方法具有明显优势。通常来说,经过DTW算法强制对齐的语音在听觉感知层面会有一定程度的下降,而本实施例提供的方法恰好完全克服了该缺陷。
传统的耳语音转正常音方法旨在显式地预测耳语音缺失的基频成分,为了对比本实施例提供的方法在隐式生成正常音基频方面的效果,本实施例绘制了参考正常音和由各种模型转换生成的正常音的F0曲线。分别如图5-9所示,其中图5为参考音频的F0曲线,图6-8分别为GMM、BLSTM和Cycle-GAN处理后得到的F0曲线,而图9为本实施例提供的方法得到F0曲线。结合五张曲线图的对比可以得出:本实施例提供的方法绘制的F0曲线和参考正常音具有很高的相似度,这表明该方法能够有效地生成耳语音所缺失的基频成分。
为了进一步对本实施例的方法和GMM、BLSTM和Cycle-GAN三种模型转换后的正常音基频进行客观评估,本实施例还使用RMSE(均方根误差)方法在169句测试集上计算了生成的正常音与参考正常音之间基频的差异值。
基频RMSE值通常有两种计算方式一种是对DTW对齐后语音的F0直接计算,本实施例中定义该值为F0_original;另一种是剔除了时间对齐过后语音的静音帧部分再进行计算,本实施例中定义该值为F0_processed。得出的两种值的计算结果如图10所示。结合图10中的数据,可以发现:本实施例提供的方法确实具备生成有效基频成分的能力。
实施例2
本实施提供一种基于生成对抗网络的耳语音转换系统,该系统采用如实施例1所述的基于生成对抗网络的耳语音转换方法,完成将耳语音的音频信号转换为正常音的音频信号的过程。如图11所示,该耳语音转换系统包括:音频获取模块,预处理模块,音频转换模型,以及音频合成模块。
其中,音频获取模块用于获取待转换的耳语音的音频信号。
预处理模块用于对音频获取模块中获取的音频信号的每一帧进行特征提取,得到128维的梅尔频谱信号,并将每个连续的12帧的梅尔频谱信号进行组合,生成一个输入信号。
音频转换模型用于将预处理模块生成的输入信号转换为正常音的梅尔频谱子信号序列。音频转换模型为一个经过改进和数据集训练的生成对抗网络。音频转换模型包括:生成器、判别器、自注意力模块。生成器中还包括卷积编码器子单元和反卷积解码器子单元,卷积编码器子单元将源耳语音频谱特征编码成低维空间的隐含向量,反卷积解码器子单元将隐含向量解码生成为正常音的频谱特征。判别器中包括多层的卷积下采样模块,在卷积下采样模块后端还包括一个用于输出真假标签值的全连接层。生成器和判别器构成的生成对抗网络在经数据集训练后对自身的网络权重交替更新,从而达到最优的动态平衡状态。自注意力模块引入到生成器的第一层中,自注意力模块用于处理语音参数内的局部重点特征,并自动分配各区域的权重系数,进而隐式地实现语音参数时间对齐。
音频合成模块用于将音频转换模型输出的正常音的梅尔频谱子信号序列进行拼接,得到一个完整的正常音的梅尔频谱信号。然后通过Griffin-Lim算法将完整的梅尔频谱信号转化成时域波形,得到所需的转换后的正常音的音频信号。
本实施例中,耳语音转换系统在训练时引入孪生网络模型,用于对预处理后得到的源耳语音数据梅尔频谱和生成器生成的正常音梅尔频谱这两者经孪生网络投影到低维隐空间的差分变换向量进行约束,提升拼接后的梅尔频谱的连续性,进而使得合成的正常音的音频信号流畅自然。此外,在训练耳语音转换系统时还使用了恒等映射损失函数,恒等映射是通过对经生成器处理后的目标正常音子梅尔频谱序列与其自身进行约束,从而实现语音转换过程中的潜在语义不变性。
实施例3
本发明还包括一种基于生成对抗网络的耳语音转换装置,该装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行程序时实现如前述的基于生成对抗网络的耳语音转换方法的步骤。
该计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器。
本实施例中,存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外,存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中,处理器用于运行存储器中存储的程序代码或者处理数据,以实现前述实施例的基于生成对抗网络的耳语音转换过程,将源耳语音数据转换为目标正常音数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于生成对抗网络的耳语音转换方法,其特征在于:所述耳语音转换方法包括如下步骤:
S1:构建基于生成对抗网络的耳语音转换网络,所述耳语音转换网络用于将输入的耳语音的频谱特征转换为正常音的频谱特征后进行输出;所述耳语音转换网络的构建方法如下:
S11:获取包含生成器和判别器的经典的生成对抗网络;
S12:在所述生成对抗网络的生成器中引入“编码-解码”结构,卷积编码器将源耳语音频谱特征编码成低维空间的隐含向量,然后反卷积解码器将隐含向量解码生成为正常音的频谱特征;所述判别器包括多层用于对语音参数进行特征提取和降维的卷积下采样模块,并在卷积下采样模块之后接入用于输出真假标签值的全连接层;
S13:在所述生成器的第一层引入自注意力模块,所述自注意力模块用于在所述生成对抗网络中处理语音参数内的局部重点特征,并自动分配各区域的权重系数,进而隐式地实现语音参数时间对齐;
S2:获取用于对所述耳语音转换网络进行训练的数据集,所述数据集中包含耳语音和对应的正常音数据的平行语料;
S3:对用于训练的数据集中的语音数据进行预处理,包括:对所述语音数据的每一帧提取128维的梅尔频谱参数,并将语音数据的每个连续的12帧的所述梅尔频谱参数组合为一个元数据;
S4:利用预处理后的数据集对所述耳语音转换网络进行模型训练,得到完成训练后的耳语音转换网络;训练过程中,以所述元数据作为所述耳语音转换网络的输入;
S5:采用如步骤S3的方法对待转换的源耳语音信号进行预处理,然后利用完成训练的所述耳语音转换网络中的生成器将预处理后的所述源耳语音信号转换为正常音的子梅尔频谱序列;再将所述正常音的子梅尔频谱序列拼接成完整的梅尔频谱,并将完整的正常音的梅尔频谱合成为时域波形,得到所需的音频信号。
2.如权利要求1所述的基于生成对抗网络的耳语音转换方法,其特征在于:步骤S1中,构建的所述耳语音转换网络是一个融合注意力机制的改进型生成对抗网络;所述耳语音转换网络包含具有“编码-解码”结构的多层卷积神经网络的生成器,生成器为耳语音频谱映射到正常音频谱的一个映射函数,输出映射后的正常音频谱;判别器用于对生成器生成的正常音频谱和真实的正常音频谱进行真假判别;进而通过对抗策略在生成器和判别器之间交替更新网络权重,直至所述耳语音转换网络达到最优动态平衡状态。
3.如权利要求1所述的基于生成对抗网络的耳语音转换方法,其特征在于:步骤S4中,所述耳语音转换网络开始训练之前,先进行数据集准备和参数设置;数据集分为训练集和测试集;参数设置过程中,将判别器端和生成器端的更新步的比率设置为1∶3;训练过程的学习率设置在0.0001-0.0002之间;并使用Hingeloss函数作为损失函数。
4.如权利要求1所述的基于生成对抗网络的耳语音转换方法,其特征在于:步骤S4中,所述耳语音转换网络训练时,引入孪生网络对源耳语音子梅尔频谱序列和生成的正常音子梅尔频谱序列进行约束;所述孪生神经网络在实际构造中为两个结构完全相同的浅层卷积神经网络,对预处理后得到的源耳语音子梅尔频谱序列和所述生成器生成的正常音子梅尔频谱序列这两者经孪生网络投影到低维隐空间得到的差分变换向量进行约束;其公式如下:
其中,
t12=S(a1)-S(a2)
t′12=S(G(a1))-S(G(a2))
5.如权利要求1所述的基于生成对抗网络的耳语音转换方法,其特征在于:步骤S4中,所述耳语音转换网络训练时,引入恒等映射损失函数对所述生成器进行语义级别上的约束,使得源耳语音和转换后的正常音在语义上保持一致;公式如下:
LG,id=Eb~B[||G(b)-b||1]
上式中,LG,id表示所述生成器的恒等映射损失,Eb~B表示从步骤S3得到的目标正常音子梅尔频谱序列集合B中重复随机选取任意一个序列b;G表示所述生成器。
6.如权利要求1所述的基于生成对抗网络的耳语音转换方法,其特征在于:步骤S5中,将完整的正常音的梅尔频谱合成为时域波形的过程通过Griffin-Lim算法实现。
7.一种基于生成对抗网络的耳语音转换方法,其特征在于:完成步骤5的语音转换过程之后,还通过频谱图对转换效果进行展示,并通过语音客观质量单端评价标准P.563的指标对语音转换性能进行评价,检测语音转换性能的有效性。
8.一种基于生成对抗网络的耳语音转换系统,其特征在于,其采用如权利要求1-7任意一项所述的基于生成对抗网络的耳语音转换方法,完成将耳语音的音频信号转换为正常音的音频信号的过程;所述耳语音转换系统包括:
音频获取模块,其用于获取待转换的耳语音的音频信号;
预处理模块,其用于对所述音频获取模块中获取的所述音频信号的每一帧进行特征提取,得到128维的梅尔频谱信号,并将每个连续的12帧的梅尔频谱信号进行组合,生成一个输入信号;
音频转换模型,其用于将所述预处理模块生成的所述输入信号转换为正常音的梅尔频谱子信号序列;所述音频转换模型为一个经过改进和数据集训练的生成对抗网络;所述音频转换模型包括:生成器、判别器、自注意力模块;所述生成器中还包括卷积编码器子单元和反卷积解码器子单元;所述卷积编码器子单元将源耳语音频谱特征编码成低维空间的隐含向量,所述反卷积解码器子单元将隐含向量解码生成为正常音的频谱特征;所述判别器中包括多层的卷积下采样模块,在卷积下采样模块后端还包括一个用于输出真假标签值的全连接层;所述生成器和判别器构成的生成对抗网络在经数据集训练后对自身的网络权重交替更新,从而达到最优的动态平衡状态;所述自注意力模块引入到所述生成器的第一层中,所述自注意力模块用于处理语音参数内的局部重点特征,并自动分配各区域的权重系数,进而隐式地实现语音参数间的时间对齐;以及
音频合成模块,其用于将所述音频转换模型输出的所述正常音的梅尔频谱子信号序列进行拼接,得到一个完整的正常音的梅尔频谱信号;然后通过Griffin-Lim算法将完整的梅尔频谱信号转化成时域波形,得到所需的转换后的正常音的音频信号。
9.如权利要求8所述的基于生成对抗网络的耳语音转换系统,其特征在于:所述耳语音转换系统在训练数据时引入孪生网络模型;所述孪生网络模型引入到所述音频转换模型中,用于对预处理后得到的源耳语音数据梅尔频谱和生成器生成的正常音梅尔频谱这两者经孪生网络投影到低维隐空间的差分变换向量进行约束,提升拼接后的梅尔频谱的连续性,进而使得合成的正常音的音频信号流畅自然;所述耳语音转换系统在训练时还使用了恒等映射损失函数,所述恒等映射是用过对经过所述生成器处理的目标正常音子梅尔频谱序列与其自身进行约束,从而实现语音转换过程中的潜在语义不变性。
10.一种基于生成对抗网络的耳语音转换装置,其包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任意一项所述的基于生成对抗网络的耳语音转换方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942909.9A CN113658583B (zh) | 2021-08-17 | 2021-08-17 | 一种基于生成对抗网络的耳语音转换方法、系统及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110942909.9A CN113658583B (zh) | 2021-08-17 | 2021-08-17 | 一种基于生成对抗网络的耳语音转换方法、系统及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113658583A true CN113658583A (zh) | 2021-11-16 |
CN113658583B CN113658583B (zh) | 2023-07-25 |
Family
ID=78480039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110942909.9A Active CN113658583B (zh) | 2021-08-17 | 2021-08-17 | 一种基于生成对抗网络的耳语音转换方法、系统及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658583B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863942A (zh) * | 2022-07-05 | 2022-08-05 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升语音音质的方法及装置 |
CN114882891A (zh) * | 2022-07-08 | 2022-08-09 | 杭州远传新业科技股份有限公司 | 一种应用于tts的语音转换方法、装置、设备及介质 |
CN115240680A (zh) * | 2022-08-05 | 2022-10-25 | 安徽大学 | 一种模糊耳语音的转换方法、系统及其装置 |
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
CN115856425A (zh) * | 2022-11-21 | 2023-03-28 | 中国人民解放军32802部队 | 一种基于隐空间概率预测的频谱异常检测方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019202203A1 (en) * | 2018-04-18 | 2019-10-24 | Nokia Technologies Oy | Enabling in-ear voice capture using deep learning |
CN111326170A (zh) * | 2020-02-20 | 2020-06-23 | 安徽大学 | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 |
WO2020232860A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
-
2021
- 2021-08-17 CN CN202110942909.9A patent/CN113658583B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019202203A1 (en) * | 2018-04-18 | 2019-10-24 | Nokia Technologies Oy | Enabling in-ear voice capture using deep learning |
WO2020232860A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN111326170A (zh) * | 2020-02-20 | 2020-06-23 | 安徽大学 | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 |
Non-Patent Citations (2)
Title |
---|
张筱;张巍;王文浩;万永菁;: "基于多谱特征生成对抗网络的语音转换算法", 计算机工程与科学, no. 05 * |
连海伦;周健;胡雨婷;郑文明;: "利用深度卷积神经网络将耳语转换为正常语音", 声学学报, no. 01 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863942A (zh) * | 2022-07-05 | 2022-08-05 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升语音音质的方法及装置 |
CN114863942B (zh) * | 2022-07-05 | 2022-10-21 | 北京百瑞互联技术有限公司 | 音质转换的模型训练方法、提升语音音质的方法及装置 |
CN114882891A (zh) * | 2022-07-08 | 2022-08-09 | 杭州远传新业科技股份有限公司 | 一种应用于tts的语音转换方法、装置、设备及介质 |
CN115240680A (zh) * | 2022-08-05 | 2022-10-25 | 安徽大学 | 一种模糊耳语音的转换方法、系统及其装置 |
CN115294970A (zh) * | 2022-10-09 | 2022-11-04 | 苏州大学 | 针对病理嗓音的语音转换方法、装置和存储介质 |
CN115856425A (zh) * | 2022-11-21 | 2023-03-28 | 中国人民解放军32802部队 | 一种基于隐空间概率预测的频谱异常检测方法及装置 |
CN115856425B (zh) * | 2022-11-21 | 2023-10-17 | 中国人民解放军32802部队 | 一种基于隐空间概率预测的频谱异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113658583B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113658583B (zh) | 一种基于生成对抗网络的耳语音转换方法、系统及其装置 | |
Zahorian et al. | A spectral/temporal method for robust fundamental frequency tracking | |
Vougioukas et al. | Video-driven speech reconstruction using generative adversarial networks | |
CN110600013B (zh) | 非平行语料声音转换数据增强模型训练方法及装置 | |
Huang et al. | Refined wavenet vocoder for variational autoencoder based voice conversion | |
McLoughlin et al. | Reconstruction of continuous voiced speech from whispers. | |
WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
CN111326170A (zh) | 联合时频域扩张卷积的耳语音向正常音转换方法及其装置 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
Narendra et al. | Estimation of the glottal source from coded telephone speech using deep neural networks | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Das et al. | Understanding the effect of voice quality and accent on talker similarity | |
CN113782032B (zh) | 一种声纹识别方法及相关装置 | |
Jokinen et al. | The Use of Read versus Conversational Lombard Speech in Spectral Tilt Modeling for Intelligibility Enhancement in Near-End Noise Conditions. | |
Jokinen et al. | Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network | |
CN116978409A (zh) | 基于语音信号的抑郁状态评估方法、装置、终端及介质 | |
Csapó et al. | Modeling irregular voice in statistical parametric speech synthesis with residual codebook based excitation | |
Akhter et al. | An analysis of performance evaluation metrics for voice conversion models | |
Gao et al. | Attention-guided generative adversarial network for whisper to normal speech conversion | |
Gao et al. | A novel attention-guided generative adversarial network for whisper-to-normal speech conversion | |
WO2023102932A1 (zh) | 音频转换方法、电子设备、程序产品及存储介质 | |
RU2754920C1 (ru) | Способ синтеза речи с передачей достоверного интонирования клонируемого образца | |
CN115359775A (zh) | 一种端到端的音色及情感迁移的中文语音克隆方法 | |
Wang et al. | Beijing opera synthesis based on straight algorithm and deep learning | |
Bous | A neural voice transformation framework for modification of pitch and intensity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |