CN111785261B - 基于解纠缠和解释性表征的跨语种语音转换方法及系统 - Google Patents
基于解纠缠和解释性表征的跨语种语音转换方法及系统 Download PDFInfo
- Publication number
- CN111785261B CN111785261B CN202010418684.2A CN202010418684A CN111785261B CN 111785261 B CN111785261 B CN 111785261B CN 202010418684 A CN202010418684 A CN 202010418684A CN 111785261 B CN111785261 B CN 111785261B
- Authority
- CN
- China
- Prior art keywords
- speaker
- conversion
- voice
- training
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012512 characterization method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000001228 spectrum Methods 0.000 claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 66
- 238000010606 normalization Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 45
- 238000010586 diagram Methods 0.000 description 13
- 238000011160 research Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了基于解纠缠和解释性表征的跨语种语音转换方法及系统,该方法包括训练阶段和转换阶段,训练阶段包括以下步骤:获取训练语料,训练语料由两种语言的多名说话人的语料组成,说话人包含源说话人和目标说话人;提取训练语料中的梅尔频谱特征,得到声学特征向量;将声学特征向量输入到转换网络中进行训练,训练网络包括内容编码器、说话人编码器和解码器;本发明通过学习解纠缠和解释性表征,将说话人语句中的内容信息和说话人个性信息进行解耦,然后将源说话人内容信息与目标说话人个性信息进行重构,实现高质量的跨语种语音转换,还可以转换不在训练集内的说话人的语音,解决了获取目标说话人训练语料困难的问题,扩展了该方法的应用范围。
Description
技术领域
本发明涉及语音转换技术领域,具体涉及一种基于解纠缠和解释性表征的跨语种语音转换方法及系统。
背景技术
语音转换是语音信号处理领域的重要研究分支,是在语音合成和说话人识别的研究基础上发展与延伸的。语音转换的任务是改变源说话人的语音个性特征,使之具有目标说话人的个性特征,同时保留源说话人的语义信息不变。简而言之就是使源说话人的语音经过转换后,保留原语义的同时听起来像是目标说话人的语音。
语音转换技术经过多年的研究,已经涌现了很多经典的转换方法,根据训练语料进行分类,语音转换可以分为平行文本条件下的转换方法和非平行文本条件下的转换方法。平行文本条件下的转换方法需要预先采集大量平行训练文本,但是在实际应用中,想要获取大量的平行训练文本往往较为困难,耗时耗力,尤其在跨语种语音转换和医疗辅助系统中,采集到平行的训练文本根本无法实现,因此,无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下的语音转换研究都具有更大的应用价值和现实意义。
在语音转换领域的研究中,现有的非平行文本条件下的语音转换方法取得了很大进展,主要包括基于循环一致对抗网络(Cycle-Consistent Adversarial Networks,Cycle-GAN)的方法、基于条件变分自编码器(Conditional Variational Auto-Encoder,C-VAE)的方法、基于星型生成对抗网络(Star Generative Adversarial Network,STARGAN)模型等。这些转换方法能够直接规避对平行文本的依赖,实现非平行文本下的转换,但是目前这些已有的语音转换研究的方法主要是在相同的语种上进行转换研究,跨语种条件下的语音转换研究仍是一个很大的挑战。
在跨语种语音转换的研究中,由于源说话人和目标说话人语音的语言系统是不同的,所以并不能使用平行文本进行训练,为了解决这一问题,传统的处理方法是寻找会两种语种或者会更多语种的背景说话人,采集这些说话人在不同语种下的平行文本数据集,通过这些平行文本来训练双语转换模型,以实现跨语种语音转换,包括:Masanobu Abe等人在《The Journal of the Acoustical Society of America》发表的“Statistical analysisof bilingual speaker's speech for cross-language voice conversion”、MikikoMashimo等人在《Information Processing Society of Japan》发表的“Cross-languagevoice conversion evaluation using bilingual databases”等。然而,平行文本数据集的获取本就困难,会双语甚至是多国语言的说话人的平行文本的获取并不现实。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于解纠缠和解释性表征的跨语种语音转换方法,该方法可以解决现有的语音转换技术只能在同一种语言中进行转换的问题,另一方面,本发明还提供基于解纠缠和解释性表征的跨语种语音转换系统。
技术方案:根据本发明的第一方面,提出基于解纠缠和解释性表征的跨语种语音转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
步骤1、获取训练语料,训练语料由两种语言的多名说话人的语料组成,所述说话人包含源说话人和目标说话人;
步骤2、提取所述训练语料的梅尔频谱特征,得到声学特征向量;
步骤3、将所述声学特征向量输入到转换网络中进行训练,所述训练网络包括内容编码器、说话人编码器和解码器;
其中,所述内容编码器用于对源说话人的语音进行解纠缠,从中获得语句的内容表征,所述说话人编码器用于对目标说话人的语音进行解纠缠,从中获得语句的说话人表征,所述解码器用于将获得的内容表征和说话人表征重构,生成重构语音;
步骤4、对所述转换网络训练过程中,使所述转换网络的重构损失函数和KL散度损失函数尽量小,设置所述转换网络的超参,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的所述转换网络;
所述转换阶段包括以下步骤:
步骤5、提取待转换语料的梅尔频谱特征,得到声学特征向量x';
步骤6、将所述声学特征向量x'输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
步骤7、采用Griffin_Lim算法,将获得的所述转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。
进一步的,包括:
所述说话人编码器包括多尺度卷积,所述多尺度卷积的输出连接有卷积模块,所述卷积模块的输出连接有第一池化层,最后连接有稠密层,所述多尺度卷积包括8个产生128个通道的一维卷积层,所述卷积模块包括依次连接的6组一维卷积块,每组一维卷积块中均有2个产生128个通道的一维卷积层,所述一维卷积块连接有第二池化层。
进一步的,包括:
所述内容编码器包括多尺度卷积,所述多尺度卷积的输出连接卷积模块,所述多尺度卷积包括8个产生128个通道的一维卷积层,所述卷积模块包括依次连接的6组一维卷积块,每组一维卷积块中均有2个产生128个通道的一维卷积层和多个实例归一化函数,所述一维卷积层和实例归一化函数交替放置,所述一维卷积块连接有池化层。
进一步的,包括:
所述实例归一化函数表示为:
其中,M'c为第c个信道的矩阵Mc实例归一化后的特征映射矩阵,Mc[ω]表示第c个信道的特征映射中的第ω个元素,μc为第c个信道的均值,σc为第c个信道的标准差。
进一步的,包括:
所述解码器包括卷积模块,所述卷积模块包括6组一维卷积块,每组一维卷积块包括2个产生128个通道的一维卷积层和多个自适应实例归一化函数,所述一维卷积层和自适应实例归一化函数交替放置,所述一维卷积块连接有上采样函数。
进一步的,包括:
所述自适应实例归一化函数表示为:
其中,M'c为第c个信道的矩阵Mc实例归一化后的特征映射矩阵,Mc[ω]表示第c个信道的特征映射中的第ω个元素,μc为第c个信道的均值,σc为第c个信道的标准差,γc和βc分别表示第c个信道中说话人编码器输出的线性变换系数。
进一步的,包括:
所述转换网络的目标函数表示为:
其中,λrec和λkl为超参数,分别是重构损失函数和KL散度的权重,Lrec为模型的重构损失函数,Lkl为模型的KL散度损失函数,为说话人编码器ES对应的参数,/>为内容编码器Ec对应的参数,θD为解码器D对应的参数;
进一步的,包括:
所述重构损失函数表示为:
其中,为重构频谱与输入频谱的损失期望,D(Es(x),zc)为解码器重构频谱,Es(·)为说话人编码器,x为输入的梅尔频谱特征,zc为内容表征,/>为说话人编码器ES对应的参数,/>为内容编码器Ec对应的参数,θD为解码器D对应的参数;
所述KL散度损失函数表示为:
其中,Ex~p(x)[·]为内容表征的期望,Ec(·)为内容编码器。
另一方面,本发明提供基于解纠缠和解释性表征的跨语种语音转换系统,包括训练阶段和转换阶段,所述训练阶段包括模块:
语料获取模块,用于获取训练语料,训练语料由两种语言的多名说话人的语料组成,所述说话人包含源说话人和目标说话人;
预处理模块,用于提取所述训练语料的梅尔频谱特征,得到声学特征向量;
网络训练模块,用于将所述声学特征向量输入到转换网络中进行训练,所述训练网络包括内容编码器、说话人编码器和解码器;
其中,所述内容编码器用于对源说话人的语音进行解纠缠,从中获得语句的内容表征,所述说话人编码器用于对目标说话人的语音进行解纠缠,从中获得语句的说话人表征,所述解码器用于将获得的内容信息和说话人信息重构,生成重构语音;
在训练过程中,使所述转换网络的重构损失函数和KL散度损失函数尽量小,设置所述转换网络的超参,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的所述转换网络;
所述转换阶段包括以下步骤:
频谱提取模块,用于提取待转换语料的梅尔频谱特征,得到声学特征向量x';
转换模块,用于将所述声学特征向量x'输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
语音合成模块,用于采用Griffin_Lim算法,将获得的所述转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。
再一方面,本发明公开一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现上述所述的基于解纠缠和解释性表征的跨语种语音转换方法。
有益效果:
1、本发明通过学习解纠缠表征来实现跨语种语音转换,在内容编码器中增加不进行仿射变换的实例归一化层,可以在保留内容信息的同时去除说话人信息;在说话人编码器中提取与说话人个性信息相关的说话人信息,尤其加入了平均池化层,进一步强化说话人编码器对于说话人信息的学习,提炼说话人信息;在解码器中增加进行了自适应实例归一化的说话人信息,加强生成的转换语句在个性特征上更像目标说话人,提高了跨语种语音转换的准确度和通用性,且该应用在电影配音,语言翻译,医疗辅助系统等丰富人机交互方面有广阔的市场前景。
2、本发明在训练阶段对于说话人个性信息的建模是通过说话人编码器实现,其提取与学习直接参与了模型的训练,与之前方法的预先提取存在本质的不同,能够有效提升转换语音的个性相似度。
3、本发明将内容编码器、说话人编码器以及解码器结合加入网络中,能够实现非平行文本条件下的语音转换,而且训练过程不需要任何对齐过程,提高了语音转换系统的通用性和实用性。
4、由于本发明对应模型在训练阶段训练了大量的背景说话人的语料,在转换阶段,可以转换不在训练集中的目标说话人的数据,解决了无法采集到目标说话人大量训练数据的问题,能够实现任意目标说话人直接进行语音转换的任务,将语音转换应用的适用范围从闭集拓展为开集,因此,本发明是具有高合成音质和个性相似度的跨语种多对多语音转换方法。
附图说明
图1是本发明实施例所述的模型的原理示意图;
图2是本发明实施例所述的模型中说话人编码器的网络结构图;
图3是本发明实施例所述的模型中内容编码器的网络结构图;
图4是本发明实施例所述的模型中解码器的网络结构图;
图5是本发明实施例所述的模型在中文转英文情形下语音的语谱图,其中,图5a为源语音的语谱图,图5b为合成语音的语谱图;
图6是本发明实施例所述的模型在中文转英文情形下语音的时域波形图,其中,图6a为源语音的时域波形图,图6b为合成语音的时域波形图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出基于解纠缠和解释性表征的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段用于得到语音转换所需的参数和转换网络,而转换部分用于实现源说话人语音转换为目标说话人语音。
如图1所示,训练阶段包括以下步骤:
步骤1、获取训练语料,训练语料由两种语言的多名说话人的语料组成,所述说话人包含源说话人和目标说话人;使用中英文两种语言的语料库作为训练语料,分别是Aishell中文语料库和CSTR VCTK英文语料库。
从获取的两种语言的语料库中,选取Aishell中文语料库中50名说话人,每人的语料有300句左右,每句时长2~10s不等;选取CSTR VCTK英文语料库中50名说话人,每人的语料有300句左右,每句时长1~8s不等。将选取出来的中文和英文两种语言的语句联合作为训练语料,可以使得转换网络充分学习到不同语种各自的发音特色和音素特征,进行模型的训练可以提升转换语音的质量。
步骤2、本实施例从训练语料中提取出梅尔频谱特征,构成声学特征向量x,其中,由于快速傅氏变换(Fast Fourier Transformation,FFT)长度设置为2048,因此,得到的频谱包络特征为2048/2+1=1025维,再从频谱包络特征中提取512维的梅尔频谱特征。
步骤3、将步骤2得到的声学特征向量x输入到转换网络中进行训练,本实例中的网络以VAE模型为基础,在VAE模型的基础上,额外增加了一个编码器,通过设置两个功能不同的编码器,对输入内容进行解纠缠,将输入语句中的说话人信息和内容信息进行解耦,从而实现跨语种语音转换。
该网络主要包括三部分:
(1)一个用来获取语句中的说话人表征的说话人编码器,其结构如图2所示,说话人编码器包括输入层输出层和多尺度卷积,图中表示为ConvBank,多尺度卷积的输出连接有卷积模块,卷积模块的输出连接有第一池化层,图中表示为AvgPool,最后连接有两层稠密层,图中为DENSE,用于根据获取结果特征的权重决定输入所属分类的概率,多尺度卷积包括8个产生128个通道的一维卷积层,图中表示为Conv,用于捕捉频谱特征中多尺度的信息,卷积模块包括依次连接的6组一维卷积块A,每组一维卷积块中均有2个产生128个通道的一维卷积层,其中,第一个一维卷积层包括图中的Conv1-1和Conv1-2,第二个一维卷积层包括图中的Conv2-1和Conv2-2,一维卷积块连接有第二池化层,图中表示为AvgPool,在两个一维卷积层之间设置有修正线性单元,图中为ReLu,本实施例中第一池化层和第二池化层均采用自适应平均池化层。
(2)一个用来获取语句中的内容表征的内容编码器,其结构如图3所示,内容编码器包括多尺度卷积,图中表示为ConvBank,多尺度卷积的输出连接卷积模块,多尺度卷积包括8个产生128个通道的一维卷积层,图中表示为Conv,卷积模块包括依次连接的6组一维卷积块A,每组一维卷积块中均有2个产生128个通道的一维卷积层和4个实例归一化函数,其中,第一个一维卷积层包括图中的Conv1-1和Conv1-2,第二个一维卷积层包括图中的Conv2-1和Conv2-2,分别在Conv1-1、Conv1-2、Conv2-1和Conv2-2后均设置有实例归一化函数,实例归一化函数图中表示为IN,一维卷积层和实例归一化函数交替放置,且每个一维卷积层和对应的实例归一化函数之间均设置有修正线性单元,图中为ReLu,一维卷积块连接有池化层,本实施例的池化层采用自适应平均池化层,用于强化说话人编码器对于说话人信息的学习,提炼说话人信息。
在内容编码器中,增加了不进行仿射变换的实例归一化层,可以在保留源说话人语句内容信息的同时删除源说话人的个性信息,由此分离语句中的说话人信息和内容信息,达到解纠缠效果。
不进行仿射变换的实例归一化公式为:
其中,M'c为第c个信道的矩阵Mc实例归一化后的特征映射矩阵,Mc[ω]表示第c个信道的特征映射中的第ω个元素,μc为第c个信道的均值,σc为第c个信道的标准差。
(3)一个用来生成转换语音的解码器,其结构如图4所示。解码器包括卷积模块,卷积模块包括6组一维卷积块A,每组一维卷积块包括2个产生128个通道的一维卷积层和4个自适应实例归一化函数,其中,第一个一维卷积层包括图中的Conv1-1和Conv1-2,第二个一维卷积层包括图中的Conv2-1和Conv2-2,分别在Conv1-1、Conv1-2、Conv2-1和Conv2-2后均设置有自适应实例归一化函数,自适应实例归一化函数表示为AdaIN,一维卷积层用于还原内容信息,自适应实例归一化层,用于向内容信息中融合目标说话人的个性特征,使得转换语句在相似度上更像目标说话人;一维卷积层和自适应实例归一化函数交替放置,且一维卷积层的单层和对应的自适应实例归一化函数之间均设置有修正线性单元,图中表示为ReLu,一维卷积块连接有上采样函数,图中表示为Upsample。
在解码器中,对说话人信息进行自适应实例归一化,以加强生成的转换语句在相似度上更像目标说话人,获得高相似度的转换合成语音。
自适应实例归一化公式为:
其中,M'c为第c个信道的矩阵Mc实例归一化后的特征映射矩阵,Mc[ω]表示第c个信道的特征映射中的第ω个元素,μc为第c个信道的均值,σc为第c个信道的标准差,γc和βc分别表示第c个信道中说话人编码器输出的线性变换系数。
整个转换网络的目标函数表示为:
其中,λrec和λkl为超参数,分别是重构损失函数和KL散度的权重,本实例中,设置λrec为10,λkl为0.01。Lrec为模型的重构损失函数,Lkl为模型的KL散度损失函数,为说话人编码器ES对应的参数,/>为内容编码器Ec对应的参数,θD为解码器D对应的参数;其中,KL散度即为相对熵,又被称为Kullback-Leibler散度。
上述的重构损失函数表示为:
其中,为重构频谱与输入频谱的损失期望,D(Es(x),zc)为解码器重构频谱,Es(·)为说话人编码器,x为输入的梅尔频谱特征,zc为内容表征,/>为说话人编码器ES对应的参数,/>为内容编码器Ec对应的参数,θD为解码器D对应的参数;
步骤3-1、将步骤2中提取的说话人声学特征向量x输入到说话人编码器中,经过编码器网络,生成说话人表征zs;
步骤3-2、将步骤2中提取的说话人声学特征x输入到内容编码器中,经过编码器网络,生成内容表征zc;在VAE模型中,为了使得后验概率分布向标准正态分布拟合,需要计算各分量独立的正态分布与标准正态分布的KL散度作为损失值,KL散度越小,分布距离越近,即越相似。在本模型中,对于提取到的内容表征,其KL散度要尽量小。
上述的KL散度损失函数表示为:
其中,Ex~p(x)[·]为内容表征的期望,Ec(·)为内容编码器,x为输入的梅尔频谱特征。
步骤3-3、将上述得到的说话人表征zs和内容表征zC一同输入到模型的解码器中,经过解码器网络,重构频谱特征x,在训练过程中,上述的重构损失函数越小,即表明重构的频谱与真实频谱越相似。
步骤4、重复步骤3-1至步骤3-3,直至达到设置的迭代次数,从而得到训练好的网络。由于神经网络具体设置不同以及实验设备性能不同,设置的迭代次数也各不相同。本实验中设置迭代次数为100000次。
转换阶段包括以下步骤:
步骤5、由于本发明针对跨语种语音转换进行研究,因此选取不同语种的语料作为待转换语料。分别提取待转换语料的梅尔频谱特征;
步骤6、将所述声学特征向量输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
步骤6-1、将步骤5中提取到的目标说话人的梅尔频谱特征输入到训练好的说话人编码器中,生成说话人表征zs。
步骤6-2、将步骤5中提取到的源说话人的梅尔频谱特征输入到训练好的内容编码器中,生成内容表征zc。
步骤6-3、将上述模型输出的目标说话人的说话人表征zs以及源说话人的内容表征zc输入到解码器中,重构出转换语句的梅尔频谱特征。
步骤7、采用Griffin_Lim算法,将步骤6-3中获得的转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。其中,G&L(Griffin-Lim)算法是一种已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形的方法。进一步的,如图5a为本实施例所述的中英文语料下的源语音的语谱图,横坐标为时间Time,单位为秒secs,纵坐标为频率Frequency,单位kHz。图5b为本实施例所述的合成语音的语谱图。图6a和图6b分别是中文转英文情形下源语音及合成语音的时域波形图。
本发明中,模型通过学习解纠缠和解释性表征,可以解耦语句中的说话人信息和内容信息,从而实现跨语种语音转换。说话人编码器被用来训练生成说话人表征zs,内容编码器被用来训练生成内容表征zc。在编码器部分,其关键点在于:在内容编码器中,增加了不进行仿射变换的实例归一化层,这一行为可以在保留源说话人语句内容信息的同时删除源说话人的个性信息,由此分离语句中的说话人信息和内容信息。在解码器部分,通过自适应实例归一化向解码器提供说话人信息,这样可以进一步加强目标说话人个性信息,使得转换语音听起来更像目标说话人。
本发明的转换合成语音的语谱图具有清晰的细节、完整的基音和谐波信息,因此合成的语音更加细腻真实,能够完整地表达源说话人语种的语义,具有很好的合成质量,同时在个性相似度方面也有较好的效果,很好地实现了跨语种语音转换任务。同时,本发明提出的方法还可以转换不在训练集内的说话人的语音,大大提高了语音转换在应用中的便捷性。
在基于解纠缠和解释性表征的跨语种语音转换方法的基础上,本发明还提供一种基于解纠缠和解释性表征的跨语种语音转换系统,包括训练阶段和转换阶段,所述训练阶段包括模块:
语料获取模块,用于获取训练语料,训练语料由两种语言的多名说话人的语料组成,所述说话人包含源说话人和目标说话人;
预处理模块,用于提取所述训练语料的梅尔频谱特征,得到声学特征向量;
网络训练模块,用于将所述声学特征向量输入到转换网络中进行训练,所述训练网络包括内容编码器、说话人编码器和解码器;
其中,所述内容编码器用于对源说话人的语音进行解纠缠,从中获得语句的内容表征,所述说话人编码器用于对目标说话人的语音进行解纠缠,从中获得语句的说话人表征,所述解码器用于将获得的内容信息和说话人信息重构,生成重构语音;
在训练过程中,使所述转换网络的重构损失函数和KL散度损失函数尽量小,设置所述转换网络的超参,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的所述转换网络;
所述转换阶段包括以下步骤:
频谱提取模块,用于提取待转换语料的梅尔频谱特征,得到声学特征向量x';
转换模块,用于将所述声学特征向量x'输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
语音合成模块,用于采用Griffin_Lim算法,将获得的所述转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。
对于方法实施例而言,由于其基本相似于系统实施例,所以描述的比较简单,相关之处参见系统实施例的部分说明即可。
本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实例不限制于任何特定的硬件和软件结合。
相应的,本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述基于解纠缠表征的中英跨语种语音转换方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
Claims (10)
1.一种基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:
步骤1、获取训练语料,训练语料由两种语言的多名说话人的语料组成,所述说话人包含源说话人和目标说话人;
步骤2、提取所述训练语料的梅尔频谱特征,得到声学特征向量;
步骤3、将所述声学特征向量输入到转换网络中进行训练,所述转换网络包括内容编码器、说话人编码器和解码器;
其中,所述内容编码器用于对源说话人的语音进行解纠缠,从中获得语句的内容表征,所述说话人编码器用于对目标说话人的语音进行解纠缠,从中获得语句的说话人表征,所述解码器用于将获得的内容表征和说话人表征重构,生成重构语音;
步骤4、对所述转换网络训练过程中,使所述转换网络的重构损失函数和KL散度损失函数尽量小,设置所述转换网络的超参,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的所述转换网络;
所述转换阶段包括以下步骤:
步骤5、提取待转换语料的梅尔频谱特征,得到声学特征向量x';
步骤6、将所述声学特征向量x'输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
步骤7、采用Griffin_Lim算法,将获得的所述转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。
2.根据权利要求1所述的基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,所述说话人编码器包括多尺度卷积,所述多尺度卷积的输出连接有卷积模块,所述卷积模块的输出连接有第一池化层,最后连接有稠密层,所述多尺度卷积包括8个产生128个通道的一维卷积层,所述卷积模块包括依次连接的6组一维卷积块,每组一维卷积块中均有2个产生128个通道的一维卷积层,所述一维卷积块连接有第二池化层。
3.根据权利要求1所述的基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,所述内容编码器包括多尺度卷积,所述多尺度卷积的输出连接卷积模块,所述多尺度卷积包括8个产生128个通道的一维卷积层,所述卷积模块包括依次连接的6组一维卷积块,每组一维卷积块中均有2个产生128个通道的一维卷积层和多个实例归一化函数,所述一维卷积层和实例归一化函数交替放置,所述一维卷积块连接有池化层。
4.根据权利要求3所述的基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,所述实例归一化函数表示为:
其中,M′c为第c个信道的矩阵Mc实例归一化后的特征映射矩阵,Mc[ω]表示第c个信道的特征映射中的第ω个元素,μc为第c个信道的均值,σc为第c个信道的标准差。
5.根据权利要求1所述的基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,所述解码器包括卷积模块,所述卷积模块包括6组一维卷积块,每组一维卷积块包括2个产生128个通道的一维卷积层和多个自适应实例归一化函数,所述一维卷积层和自适应实例归一化函数交替放置,所述一维卷积块连接有上采样函数。
6.根据权利要求5所述的基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,所述自适应实例归一化函数表示为:
其中,M′c为第c个信道的矩阵Mc实例归一化后的特征映射矩阵,Mc[ω]表示第c个信道的特征映射中的第ω个元素,μc为第c个信道的均值,σc为第c个信道的标准差,γc和βc分别表示第c个信道中说话人编码器输出的线性变换系数。
7.根据权利要求1所述的基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,所述转换网络的目标函数表示为:
其中,λrec和λkl为超参数,分别是重构损失函数和KL散度的权重,Lrec为模型的重构损失函数,Lkl为模型的KL散度损失函数,为说话人编码器ES对应的参数,/>为内容编码器Ec对应的参数,θD为解码器D对应的参数。
8.根据权利要求1所述的基于解纠缠和解释性表征的跨语种语音转换方法,其特征在于,所述重构损失函数表示为:
其中,为重构频谱与输入频谱的损失期望,D(Es(x),zc)为解码器重构频谱,Es(·)为说话人编码器,x为输入的梅尔频谱特征,zc为内容表征,/>为说话人编码器ES对应的参数,/>为内容编码器Ec对应的参数,θD为解码器D对应的参数;
所述KL散度损失函数表示为:
其中,Ex~p(x)[·]为内容表征的期望,Ec(·)为内容编码器,x为输入的梅尔频谱特征。
9.一种基于解纠缠和解释性表征的跨语种语音转换系统,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括模块:
语料获取模块,用于获取训练语料,训练语料由两种语言的多名说话人的语料组成,所述说话人包含源说话人和目标说话人;
预处理模块,用于提取所述训练语料的梅尔频谱特征,得到声学特征向量;
网络训练模块,用于将所述声学特征向量输入到转换网络中进行训练,所述转换网络包括内容编码器、说话人编码器和解码器;
其中,所述内容编码器用于对源说话人的语音进行解纠缠,从中获得语句的内容表征,所述说话人编码器用于对目标说话人的语音进行解纠缠,从中获得语句的说话人表征,所述解码器用于将获得的内容表征和说话人表征重构,生成重构语音;
在训练过程中,使所述转换网络的重构损失函数和KL散度损失函数尽量小,设置所述转换网络的超参,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的所述转换网络;
所述转换阶段包括以下步骤:
频谱提取模块,用于提取待转换语料的梅尔频谱特征,得到声学特征向量x';
转换模块,用于将所述声学特征向量x'输入到训练好的转换网络中,重构出转换语句的梅尔频谱特征;
语音合成模块,用于采用Griffin_Lim算法,将获得的所述转换语句的梅尔频谱特征转换为语音进行输出,进而获得跨语种语音转换的合成语音。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序在被计算机处理器执行时实现权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418684.2A CN111785261B (zh) | 2020-05-18 | 2020-05-18 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418684.2A CN111785261B (zh) | 2020-05-18 | 2020-05-18 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111785261A CN111785261A (zh) | 2020-10-16 |
CN111785261B true CN111785261B (zh) | 2023-07-21 |
Family
ID=72754128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010418684.2A Active CN111785261B (zh) | 2020-05-18 | 2020-05-18 | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785261B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289299B (zh) * | 2020-10-21 | 2024-05-14 | 北京大米科技有限公司 | 语音合成模型的训练方法、装置、存储介质以及电子设备 |
CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112382267A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于转换口音的方法、装置、设备以及存储介质 |
CN112466275B (zh) * | 2020-11-30 | 2023-09-22 | 北京百度网讯科技有限公司 | 语音转换及相应的模型训练方法、装置、设备及存储介质 |
CN112489629A (zh) * | 2020-12-02 | 2021-03-12 | 北京捷通华声科技股份有限公司 | 语音转写模型、方法、介质及电子设备 |
CN112712789B (zh) * | 2020-12-21 | 2024-05-03 | 深圳市优必选科技股份有限公司 | 跨语言音频转换方法、装置、计算机设备和存储介质 |
CN112287641B (zh) * | 2020-12-25 | 2021-03-09 | 上海旻浦科技有限公司 | 一种同义句生成方法、系统、终端及存储介质 |
WO2022140966A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 跨语言语音转换方法、计算机设备和存储介质 |
CN112767912A (zh) * | 2020-12-28 | 2021-05-07 | 深圳市优必选科技股份有限公司 | 跨语言语音转换方法、装置、计算机设备和存储介质 |
CN112863529B (zh) * | 2020-12-31 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于对抗学习的说话人语音转换方法及相关设备 |
CN112767958B (zh) * | 2021-02-26 | 2023-12-26 | 华南理工大学 | 一种基于零次学习的跨语种音色转换系统及方法 |
CN113052230A (zh) * | 2021-03-22 | 2021-06-29 | 浙江大学 | 一种基于解纠缠网络的服装图像生成系统和方法 |
CN113380264A (zh) * | 2021-05-21 | 2021-09-10 | 杭州电子科技大学 | 一种用于非对称语料的语音转换方法 |
CN113611283B (zh) * | 2021-08-11 | 2024-04-05 | 北京工业大学 | 一种语音合成方法、装置、电子设备及存储介质 |
CN113689868B (zh) * | 2021-08-18 | 2022-09-13 | 北京百度网讯科技有限公司 | 一种语音转换模型的训练方法、装置、电子设备及介质 |
CN113470622B (zh) * | 2021-09-06 | 2021-11-19 | 成都启英泰伦科技有限公司 | 一种可将任意语音转换成多个语音的转换方法及装置 |
CN113808570B (zh) * | 2021-09-09 | 2023-07-14 | 南京邮电大学 | 基于激活指导和内卷积的跨语种语音转换方法 |
CN114333865A (zh) * | 2021-12-22 | 2022-04-12 | 广州市百果园网络科技有限公司 | 一种模型训练以及音色转换方法、装置、设备及介质 |
CN116778937B (zh) * | 2023-03-28 | 2024-01-23 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
CN116312469B (zh) * | 2023-05-17 | 2023-08-11 | 天津大学 | 一种基于语音转换的病理嗓音修复方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896669B2 (en) * | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
-
2020
- 2020-05-18 CN CN202010418684.2A patent/CN111785261B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109377978A (zh) * | 2018-11-12 | 2019-02-22 | 南京邮电大学 | 非平行文本条件下基于i向量的多对多说话人转换方法 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
CN110223705A (zh) * | 2019-06-12 | 2019-09-10 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
Non-Patent Citations (1)
Title |
---|
增强变分自编码器做非平行语料语音转换;黄国捷;金慧;俞一彪;;信号处理(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111785261A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111785261B (zh) | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 | |
Nachmani et al. | Unsupervised singing voice conversion | |
Casanova et al. | SC-GlowTTS: An efficient zero-shot multi-speaker text-to-speech model | |
Zhou et al. | Transforming spectrum and prosody for emotional voice conversion with non-parallel training data | |
Huang et al. | Generspeech: Towards style transfer for generalizable out-of-domain text-to-speech | |
JP7152791B2 (ja) | クロスリンガル音声変換システムおよび方法 | |
Polyak et al. | Unsupervised cross-domain singing voice conversion | |
Luo et al. | Emotional voice conversion using neural networks with arbitrary scales F0 based on wavelet transform | |
CN111429893A (zh) | 基于Transitive STARGAN的多对多说话人转换方法 | |
An et al. | Disentangling style and speaker attributes for tts style transfer | |
Tobing et al. | Baseline system of Voice Conversion Challenge 2020 with cyclic variational autoencoder and Parallel WaveGAN | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Zhang et al. | AccentSpeech: learning accent from crowd-sourced data for target speaker TTS with accents | |
Kumar et al. | Towards building text-to-speech systems for the next billion users | |
CN114299989A (zh) | 一种语音过滤方法、装置、电子设备及存储介质 | |
Xie et al. | Pitch transformation in neural network based voice conversion | |
Reddy et al. | Improved HMM-based mixed-language (Telugu–Hindi) polyglot speech synthesis | |
Kuzmin et al. | Transfer learning for the Russian language speech synthesis | |
CN113808570B (zh) | 基于激活指导和内卷积的跨语种语音转换方法 | |
Banset et al. | Deep learning based voice conversion network | |
Chandra et al. | Towards The Development Of Accent Conversion Model For (L1) Bengali Speaker Using Cycle Consistent Adversarial Network (Cyclegan) | |
Yaroshchuk et al. | An Open Dataset of Synthetic Speech | |
Al-Radhi et al. | Nonparallel Expressive TTS for Unseen Target Speaker using Style-Controlled Adaptive Layer and Optimized Pitch Embedding | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |