CN115881084A - 基于韵律发音解耦的元学习多语种语音合成模型及方法 - Google Patents
基于韵律发音解耦的元学习多语种语音合成模型及方法 Download PDFInfo
- Publication number
- CN115881084A CN115881084A CN202211491405.0A CN202211491405A CN115881084A CN 115881084 A CN115881084 A CN 115881084A CN 202211491405 A CN202211491405 A CN 202211491405A CN 115881084 A CN115881084 A CN 115881084A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- prosody
- prosodic
- decoder
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 51
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 58
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 52
- 230000015654 memory Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000001308 synthesis method Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012076 audiometry Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种基于韵律发音解耦的元学习多语种语音合成模型及方法,属语音合成领域,该模型包括:由发音编码器、发音流参数生成器和发音解码器组成的发音流声学子模型;由韵律编码器、韵律流参数生成器和韵律解码器组成的韵律流声学子模型;预处理网络的输入前一帧的声学特征,输出连接注意力模块;注意力模块能将输入的发音编码器的输出和韵律编码器的输出拼接后形成上下文向量,并分别输出至发音解码器和韵律解码器,发音解码器能根据输入的上下文发音向量预测输出梅尔倒谱和停止标志;韵律解码器能根据输入的上下文韵律向量预测输出能量、基频和清浊音标志。该模型及方法,能对发音和韵律分别建模,有效提高多语言语音合成的可懂度和自然度。
Description
技术领域
本发明涉及语音信号处理领域,尤其涉及一种基于韵律发音解耦的元学习多语种语音合成模型及方法。
背景技术
随着神经网络在文本到语音(text-to-speech,TTS)合成的应用,合成语音的自然度显著的提高。其中声学模型是合成系统中的关键组件,它从输入文本中预测声学特征。随着国际交流的日渐紧密传统的单语种的声学模型已经难以满足人们的需求。为多语种的语音合成构建声学模型的一个挑战是难以为所有语言构建大规模语音语料库,特别是对于世界上许多小语种语言。因此,一些研究开始尝试使用统一的声学模型来联合训练多语种的数据,参见参考文献[1、2、3],并通过共享一些模型参数的方式共享语种之间的知识。
考虑到在不同语言的文本编码器之间共享知识的困难,一种基于元学习的多语种合成方法被提出,参见参考文献[4]。基于元学习方法的文本编码器中的参数不是针对不同语言单独训练的,而是由基于语言嵌入的参数生成器学习出来的,因此它可以更好地捕捉语言之间的共性。与为每种语言构建单个模型或者构建统一模型但为不同语言使用单独的编码器相比,这种方法获得了更好的性能。然而这种基于元学习的多语言语音合成方法的一个问题是编码器中只使用了一个参数生成器,并不能实现语音知识和韵律知识以不同的方式在语言之间共享。而发音和韵律是语言的两个重要特征。语言之间的发音差异可以通过它们不同有重叠的音素集来描述。一些研究表明,用音素代替字符作为输入可以显著提高多语言合成语音的发音准确性,参见参考文献[3、5、6]。另一方面,在构建多语言语音合成系统时,需要考虑不同语言的韵律特性。已经有一些工作在多语言任务中对普通话的声调、英语等重音语言的重音进行增强的方法,参见参考文献[7、8],但是这些针对单种语言的增强方法难以被扩展到其他语种上。
有鉴于此,特提出本发明。
参考文献:
[1]Y.Zhang,R.J.Weiss,H.Zen,Y.Wu,Z.Chen,R.Skerry-Ryan,Y.Jia,A.Rosenberg,and B.Ramabhadran,“Learning to Speak Fluently in a ForeignLanguage:Multilingual Speech Synthesis and Cross-Language Voice Cloning,”Proc.Interspeech 2019,pp.2080–2084,2019.
[2]S.Sitaram,S.K.Rallabandi,S.Rijhwani,and A.W.Black,“Experimentswith Cross-lingual Systems for Synthesis of Code-Mixed Text.”in SSW,2016,pp.76–81.
[3]L.Xue,W.Song,G.Xu,L.Xie,and Z.Wu,“Building a Mixed-Lingual NeuralTTS System with Only Monolingual Data,”Proc.Interspeech 2019,pp.2060–2064,2019.
[4]T.Nekvinda and O.Dusˇek,“One Model,Many Languages:Meta-Learningfor Multilingual Text-to-Speech,”Proc.Interspeech 2020,pp.2972–2976,2020.
[5]M.Chen,M.Chen,S.Liang,J.Ma,L.Chen,S.Wang,and J.Xiao,“Cross-lingual,multi-speaker text-to-speech synthesis using neural speakerembedding.”in Interspeech,2019,pp.2105–2109.
[6]Y.Cao,X.Wu,S.Liu,J.Yu,X.Li,Z.Wu,X.Liu,and H.Meng,“End-to-end code-switched TTS with mix of monolingual record-ings,”in ICASSP 2019-2019IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019,pp.6935–6939.
[7]R.Liu,X.Wen,C.Lu,and X.Chen,“Tone learning in Low-ResourceBilingual TTS.”in INTERSPEECH,2020,pp.2952–2956.
[8]H.Zhan,H.Zhang,W.Ou,and Y.Lin,“Improve Cross-Lingual Text-To-Speech Synthesis on Monolingual Corpora with Pitch Contour Information,”Proc.Interspeech 2021,pp.1599–1603,2021.
[9]H.Tachibana,K.Uenoyama,and S.Aihara,“Efficiently trainable text-to-speech system based on deep convolutional networks with guided attention,”in 2018IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2018,pp.4784–4788.
[10]J.Shen,R.Pang,R.J.Weiss,M.Schuster,N.Jaitly,Z.Yang,Z.Chen,Y.Zhang,Y.Wang,R.Skerrv-Ryan et al.,“Natural TTS synthesis by conditioningwavenet on mel spectrogram predictions,”in 2018IEEE international conferenceon acoustics,speech and signal processing(ICASSP).IEEE,2018,pp.4779–4783.
发明内容
本发明的目的是提供了一种基于韵律发音解耦的元学习多语种语音合成模型及方法,能对发音和韵律分别建模,有效提高多语言语音合成的可懂度和自然度,进而解决现有技术中存在的上述技术问题。
本发明的目的是通过以下技术方案实现的:
发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,
发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,
所述发音流声学子模型包括:发音流参数生成器、发音编码器和发音解码器;
所述发音流参数生成器设有接收语种ID的语种ID输入端,该发音流参数生成器的发音流参数输出端与所述发音编码器的发音流参数输入端相连;
所述发音编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该发音编码器的发音编码输出端连接所述注意力模块的拼接输入端;
所述韵律流声学子模型包括:韵律流参数生成器、韵律编码器和韵律解码器;
所述韵律流参数生成器设有接收语种ID的语种ID输入端,该韵律流参数生成器的韵律流参数输出端与所述韵律编码器的韵律流参数输入端相连;
所述韵律编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该韵律编码器的韵律编码输出端连接所述注意力模块的拼接输入端;
所述预处理网络的输入端,用于以自回归方式接收前一帧的梅尔倒谱、基频和能量,该预处理网络的输出端连接所述注意力模块;
所述注意力模块,能将由所述发音编码器输入的发音编码特征和所述韵律编码器输入的韵律编码特征拼接后,从预处理网络的输出、前一帧的上下文向量和拼接后的编码器输出中预测当前帧的上下文向量,再将当前帧的上下文向量根据所述发音编码器的输出维度和所述韵律编码器的输出维度拆分为上下文发音向量和上下文韵律向量;
所述注意力模块分别设有连接所述发音流声学子模型的发音解码器的上下文发音向量输出端和连接所述韵律流声学子模型的韵律解码器的上下文韵律向量输出端,能将拆分得出的上下文发音向量输出至所述发音解码器以及将拆分得出的上下文韵律向量输出至所述韵律解码器;
所述梯度反转层的输入端与所述注意力模块的发音韵律编码拼接输出端相连,该梯度反转层的输出端连接所述说话人分类器,该梯度反转层能反转说话人分类器在训练时回传的梯度,通过对抗训练的方式去除所述发音编码器和所述韵律编码器输出中的残余说话人信息;
所述说话人分类器模块用于在训练过程中,从所述发音编码器和所述韵律编码器拼接后的输出中预测说话人身份;
所述发音解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文发音向量预测输出梅尔倒谱和停止标志;
所述韵律解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文韵律向量预测输出能量、基频和清浊音标志。
一种基于韵律发音解耦的元学习多语种语音合成方法,采用本发明所述的基于韵律发音解耦的元学习多语种语音合成模型,按以下方式对该基于韵律发音解耦的元学习多语种语音合成模型进行训练,包括:
以多语种数据集作为训练样本集,按预设的训练批次联合对该基于韵律发音解耦的元学习多语种语音合成模型进行训练,最终训练损失表示为:
LossTotal=LossRec-λLossSpk;
其中,LossRec为重建声学特征的损失函数,其中,梅尔倒谱、能量和基频预测采用均方误差损失函数,清音浊音标志和停止标志预测采用二元交叉熵损失函数;LossSpk为说话人分类器的损失函数;λ设置为0.05;
训练过程的每一个训练批次中,B为批次大小,L为训练所用语种数量,B是L的整数倍,在训练批次B中,对于任意的j<L且i<B/L,则B中第j+iL个样本是相同的语种;
预设的超参数中,IPA音素嵌入的维度和韵律标签嵌入的维度分别为512和16;
所述韵律流声学子模型设置一半的初始学习率;
所述发音流声学子模型、注意力模块和预处理网络的初始学习率均设置为10-3,采用Adam优化器,学习速率为每15000步衰减一半;
待所述基于韵律发音解耦的元学习多语种语音合成模型训练完成后,用训练完成后的基于韵律发音解耦的元学习多语种语音合成模型对输入的多语种文本进行对应的语音合成,得出对应的语音音频。
与现有技术相比,本发明所提供的基于韵律发音解耦的元学习多语种语音合成模型及方法,其有益效果包括:
由于利用不同的声学特征来表示这两种类型的信息。通过分开设置的发音流声学子模型与韵律流声学子模型这种双流的编码器解码器组来同时分别学习语言的发音和韵律特征,解决了传统多语种语音合成模型使用梅尔频谱作为输出,梅尔频谱中混合了所有发音相关和韵律相关的信息,模型难以从中学习到不同语种之间差异化的发音和韵律表现的问题;本发明对于不同的语言能在共享语种间发音知识的情况下,能学习到每种语言独特的韵律风格,相比直接从字符序列或音素中预测梅尔谱的方法,可以提高多语种合成语音自然度和可懂度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于韵律发音解耦的元学习多语种语音合成模型的构成示意图。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
下面对本发明所提供的基于韵律发音解耦的元学习多语种语音合成模型及方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如图1所示,本发明实施例提供一种基于韵律发音解耦的元学习多语种语音合成模型,包括:
发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,
所述发音流声学子模型包括:发音流参数生成器、发音编码器和发音解码器;
所述发音流参数生成器设有接收语种ID的语种ID输入端,该发音流参数生成器的发音流参数输出端与所述发音编码器的发音流参数输入端相连;
所述发音编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该发音编码器的发音编码输出端连接所述注意力模块的拼接输入端;
所述韵律流声学子模型包括:韵律流参数生成器、韵律编码器和韵律解码器;
所述韵律流参数生成器设有接收语种ID的语种ID输入端,该韵律流参数生成器的韵律流参数输出端与所述韵律编码器的韵律流参数输入端相连;
所述韵律编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该韵律编码器的韵律编码输出端连接所述注意力模块的拼接输入端;
所述预处理网络的输入端,用于以自回归方式接收前一帧的梅尔倒谱、基频和能量,该预处理网络的输出端连接所述注意力模块;在训练过程中预处理网络接收真实语音的前一帧的梅尔倒谱、基频和能量,在合成过程中使用发音解码器和韵律解码器这两个解码器输出的前一帧的梅尔倒谱、基频和能量作为预处理网络的输入;
所述注意力模块,能将由所述发音编码器输入的发音编码特征和所述韵律编码器输入的韵律编码特征拼接后,从预处理网络的输出、前一帧的上下文向量和拼接后的编码器输出中预测当前帧的上下文向量,再将当前帧的上下文向量根据发音编码器的输出维度和韵律编码器的输出维度拆分为上下文发音向量和上下文韵律向量;其中,发音编码器的输出维度用Da表示,韵律编码器的输出维度用Dp表示;
所述注意力模块分别设有连接所述发音流声学子模型的发音解码器的上下文发音向量输出端和连接所述韵律流声学子模型的韵律解码器的上下文韵律向量输出端,能将上下文向量拆分为上下文发音向量与上下文韵律向量后,将上下文发音向量输出至所述发音解码器以及将上下文韵律向量输出至所述韵律解码器;
所述梯度反转层的输入端与所述注意力模块的发音韵律编码拼接输出端相连,该梯度反转层的输出端连接所述说话人分类器,该梯度反转层能反转说话人分类器在训练时回传的梯度,通过对抗训练的方式去除所述发音编码器和所述韵律编码器输出中的残余说话人信息;
所述说话人分类器模块用于在训练过程中,从所述发音编码器和所述韵律编码器拼接后的输出中预测说话人身份;
所述发音解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文发音向量预测输出梅尔倒谱和停止标志;
所述韵律解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文韵律向量预测输出能量、基频和清浊音标志。
上述模型中,所述发音流声学子模型的发音编码器采用DC-TTS编码器,包括:两个一维卷积层和十二个高速1D-Conv层,该发音编码器设有256个隐藏单元;
所述韵律流声学子模型的韵律编码器采用DC-TTS编码器,包括:两个一维卷积层和十二个高速1D-Conv层,该韵律编码器设有128个隐藏单元。
上述模型中,所述发音流声学子模型的发音解码器采用基于长短期记忆网络的解码器,该发音解码器的隐藏单元大小为1024;
所述韵律流声学子模型的韵律解码器采用基于长短期记忆网络的解码器,该韵律解码器的隐藏单元大小为256。
上述模型中,所述发音解码器包括:
第一查找表模块、第一长短期记忆网络、第一线性层和第一具有sigmoid激活层的线性层;其中,
所述第一查找表模块与所述长短期记忆网络相连,能将输入的说话人ID映射成说话人编码输出给所述长短期记忆网络;
所述第一长短期记忆网络的输入连接所述注意力模块的上下文发音向量输出端,该第一长短期记忆网络能从上下文发音向量和说话人编码中预测当前帧的解码发音特征,分别输出至第一线性层和第一具有sigmoid激活层的线性层;
所述第一线性层能对输入的当前帧的解码发音特征变换投影预测当前帧的梅尔倒谱向量;
所述第一具有sigmoid激活层的线性层,能将输入的当前帧的解码发音特征投影到标量中,预测停止标志。
上述模型中,所述韵律解码器包括:
第二查找表模块、第二长短期记忆网络、两个单独的第二线性层和第二具有sigmoid激活层的线性层;其中,
所述第二查找表模块与所述第二长短期记忆网络连接,能将输入的说话人ID映射成说话人编码输出给所述第二长短期记忆网络;
所述第二长短期记忆网络的输入连接所述注意力模块的上下文韵律向量输出端,该第二长短期记忆网络能从上下文韵律向量和说话人编码中预测当前帧的解码韵律特征,分别输出至两个单独的线性层和具有sigmoid激活层的线性层;
两个单独的第二线性层能对输入的当前帧的解码韵律特征变换投影,分别预测当前帧的能量和基频;
第二具有sigmoid激活层的线性层,能将输入的当前帧的解码韵律特征投影到标量中,预测当前帧的清音浊音标志。
上述模型中,所述发音解码器对梅尔倒谱的预测采用均方误差损失函数,该发音解码器对停止标志的预测采用二元交叉熵损失函数;
所述韵律解码器对能量和基频的预测采用均方误差损失函数,该韵律解码器对清音浊音标志的预测采用二元交叉熵损失函数。
本发明实施例还提供一种基于韵律发音解耦的元学习多语种语音合成方法,采用上述的基于韵律发音解耦的元学习多语种语音合成模型,按以下方式对该基于韵律发音解耦的元学习多语种语音合成模型进行训练,包括:
以多语种数据集作为训练样本集,按预设的训练批次联合对该基于韵律发音解耦的元学习多语种语音合成模型进行训练,最终训练损失表示为:
LossTotal=LossRec-λLossSpk;
其中,LossRec为重建声学特征的损失函数,其中,梅尔倒谱、能量和基频预测采用均方误差损失函数,清音浊音标志和停止标志预测采用二元交叉熵损失函数;LossSpk为说话人分类器的损失函数;λ设置为0.05;
训练过程的每一个训练批次中,B为批次大小,L为训练所用语种数量,B是L的整数倍,在训练批次B中,对于任意的j<L且i<B/L,则B中第j+iL个样本是相同的语种;
预设的超参数中,IPA音素嵌入的维度和韵律标签嵌入的维度分别为512和16。
所述韵律流声学子模型设置一半的初始学习率;
所述发音流声学子模型、注意力模块和预处理网络的初始学习率均设置为10-3,采用Adam优化器,学习速率为每15000步衰减一半;
待所述基于韵律发音解耦的元学习多语种语音合成模型训练完成后,用训练完成后的基于韵律发音解耦的元学习多语种语音合成模型对输入的多语种文本进行对应的语音合成,得出对应的语音音频。
上述方法中,所述多语种数据集中包括:与语种语言文本对应的IPA音素序列,IPA音素序列的每个单词边界处插入空格符作为标记,每个IPA音素分配一个描述音素的音调或重音特征的韵律标签;
所述韵律标签是一个具有M+N维的one-hot向量,其中,M对应于声调语言的声调数,N对应于非声调语言的重音类别数。
综上可见,本发明实施例的系统及方法,相比传统多语种语音合成模型使用梅尔频谱作为输出,梅尔频谱中混合了所有发音相关和韵律相关的信息,模型难以从中学习到不同语种之间差异化的发音和韵律表现。在本发明中,利用不同的声学特征来表示这两种类型的信息。通过双流的编码器解码器组来同时分别学习语言的发音和韵律特征。本发明对于不同的语言能在共享语种间发音知识的情况下,学习到每种语言独特的韵律风格。相比直接从字符序列或音素中预测梅尔谱的方法,本发明可以提高多语种合成语音自然度和可懂度。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的基于韵律发音解耦的元学习多语种语音合成模型及方法,进行详细描述。
实施例1
如图1所示,本发明实施例提供一种基于韵律发音解耦的元学习多语种语音合成模型,通过构建的一个双流的声学模型来解耦语言的韵律和发音,发音流声学子模型和韵律流声学子模型各自包含一组编码器-解码器来分别用于发音建模和韵律建模,为了在语种间知识共享的同时保留语种独特的发音和韵律特点,编码器包含一个基于元学习的参数生成器,发音流和韵律流的输入为国际音标(International Phonetic Alphabet,IPA)序列;发音流和韵律流的预测目标分别是谱特征(梅尔倒谱)和激励特征(能量、基频和浊音/清音标志);利用共享的注意力模块,保证两个流在合成过程中的同步输出,这样能提高多语种语音合成的可懂度和自然度。
如图1,本发明的基于韵律发音解耦的元学习多语种语音合成模型的架构遵循基于注意力的序列到序列(seq2seq)框架进行声学建模,并采用Tacotron2作为基础。它包含一个发音流和一个韵律流,这两个流分别包含单独的编码器,以语种为条件的参数生成器,以及用于预测不同声学特征的解码器,通过共享一个注意力模块来保持两个流之间的同步。每个编码器参考DCTTS[参见参考文献9]包括两个一维卷积(1D-Conv)层和十二个高速1D-Conv层。并且每个编码器都依赖于以语种ID作为输入的参数生成器来获得其网络的权重和偏差。发音编码器和韵律编码器的输出可以表示为和其中Da和Dp是发音编码器的输出维度与韵律编码器的输出维度,L是音素序列长度。然后将Xa和Xp按维度拼接起来得到用于注意力模块对齐。
前一帧的梅尔倒谱、基频和能量会以自回归的方式被传递到预处理网络,然后利用一个长短期记忆(LSTM)层从预处理网络的输出和前一帧的上下文向量中获取帧级上下文向量,之后将上下文向量根据Da和Dp维度进一步拆分为两部分,分别送入两个流的解码器。
每个解码器都包含一个查找表用以将说话人ID映射成话者编码。在韵律解码器中,说话人编码与上下文向量连接作为基于LSTM的解码器的输入。LSTM输出通过两个单独的线性变换投影,分别预测能量和基频。同时,输出也通过具有sigmoid激活层的线性层投影到标量中,以预测清音/浊音标志。在发音解码器中也使用相同的结构来分别预测梅尔倒谱向量和停止标志。
本发明还将具有梯度反转层的对抗性说话人分类器应用于编码器输出。它遵循域对抗训练的原理来去除编码器输出中的残余说话人信息。
为了验证本发明的系统及方法的有效性,设计了如下实验。
(1)实验设置
本发明的实验使用了多语言单说话人数据集CSS10的子集,并从多语言多说话人数据集Common Voice中选择清晰的说话人来增强CSS10。原始CSS10数据集中有10种语言,在本实施例的实验中使用了其中的5种语言,包括:普通话(ZH)、德语(DE)、法语(FR)、荷兰语(NL)和俄语(RU)。通过将最大和最小句子持续时间设置为10秒和1秒来删除数据集中过长和过短的句子。表1显示了用于实验的数据量。每种语言的数据以8:1:1的比例分成训练集、开发集和测试集。音频均以22.05kHz采样。将韵律发音解耦的声学模型与下面列出的三个模型进行了比较。
(1)Tacotron2:该模型遵循原始的Tacotron2架构,参见参考文献[10]。为了与多语言语音合成兼容,它有一个完全共享的编码器,其中字符和语种ID作为输入。添加了一个对抗性说话人分类器以去除编码器输出中包含的说话人信息,并将说话人嵌入连接到解码器层的长短时记忆网络输入。为了公平比较它的超参数与本发明的模型中的一致。
(2)Meta-char:该模型是按照基于基线元学习的多语言TTS方法构建的,参见参考文献[4]。为了公平比较,输出声学特征与本发明的模型中的相同。
(3)Meta-IPA:这个模型和Meta-char结构相同,唯一的区别是将数据集的文本转录为音素(IPA)序列和韵律标签被用作模型输入。Meta-IPA与本发明的模型之间的区别在于本发明的模型中采用了韵律发音解耦的双流建模方法。
使用客观指标和主观测听来评价本发明。对于客观实验,比较了合成的音频特征与真实特征的相似性。关于效果的客观指标包括:基频的相关性系数(记为F0-CORR)、基频的均方根误差(记为F0-RMSE)、能量的均方根误差(记为EN-RMSE)、清浊判决(记为清音/浊音-ERR)以及梅尔倒谱距离(记为MCD)。此外,通过将合成话语发送到谷歌云平台的语音识别引擎来评估合成话语的可理解性。以语音识别的字符错误率(CER)作为一种评价指标。
对于主观评测,进行了语言自然度的平均意见分(MOS)测听实验。评分范围从1(完全不自然)到5(完全自然)。其中对于普通话、俄语和荷兰语,线下分别招募了11、7和8名母语评分者。对于德语和法语,测试是通过众包的形式在公共众包平台Amazon MechanicalTurk上进行的,分别有14和10名母语评分者。他们被要求对不同模型的合成语音进行打分其中每种语言各有20句。
表1:实验中使用的训练数据
(2)实验结果
从表2中,可以看到两个基于元学习的基线比Tacotron2表现更好,并且Meta-IPA优于Meta-char。本发明的合成模型在所有语言的所有相似性指标上都取得了最佳性能,除了在俄语的MCD指标和荷兰语的EN-RMSE指标Meta-IPA略微优于本发明的合成模型。这些结果证明了本发明基于元学习的声学模型的有效性,组合IPA音素和韵律标签作为模型输入策略的可行,以及本发明的双流模型结构在提高声学特征预测准确性方面的作用。
同时,在识别错误率的对比中,可以看到Tacotron2的CER最高。Meta-IPA比Meta-char表现更好,本发明的合成模型在所有五种语言中实现了最低的CER。这表明,除了元学习和使用IPA之外,所提出的解耦发音和韵律建模方法也有利于合成语音的准确发音。
在表3中,可以看到主观评价结果与客观评价结果是一致的。Tacotron2模型的自然度得分最低,而Meta-IPA的表现优于Meta-char。本发明的合成模型在所有五种语言的四种模型中实现了最高的自然度。根据置信区间,除了本发明和Meta-IPA之间在荷兰语的表现之外,本发明和基线模型之间的MOS差异都是显着的。这证实了本发明的方法在提高多语言语音合成的自然度方面的有效性。
为了进一步对比多语种联合训练(记为多语建模)相比单语种分别训练的优势,在汉语、德语和法语上以双流模型结构为基础训练了单语种的模型(记为单语建模)。表4中可以看到,多语种混合训练比起单语种训练,在语音的可懂度和自然度上都有提升,尤其是当语种数据量不足时,多语种联合训练对改善低资源语言效果显着。
表2:客观实验结果
表3:不同模型在五个目标语种上的自然度MOS,置信区间为95%,其中GT为真实语音(表中的新方法指本发明合成模型的合成方法)
表3:单语建模和多语种建模结果对比
实施例2
本发明实施例提供一种基于韵律发音解耦的元学习多语种语音合成模型,包括:
(1)该模型输入与输出表征提取为:
首先将所有语音的文本转录使用开源工具Phonemizer转换为IPA音素序列。为了引入韵律描述,在音素序列的每个单词边界处插入一个特定的标记。此外,为每个音素分配一个韵律标签来描述音素的音调或重音特征。韵律标签是一个具有M+N维的one-hot向量,其中M对应于声调语言的声调数,N对应于非声调语言的重音类别数。本发明的实验在五种语言上进行,最终得到音素集合大小为173。对于韵律标签,根据普通话的五个声调,有M=5,根据非声调语言的重音类别,有N=3。在这里,重音类别包括主要重读元音、次要重读元音和非重读音素。
本发明使用STRAIGHT声码器从音频中提取实验所需的声学特征,其中包括40维梅尔倒谱、能量、基频和每帧的清音/浊音标志。声学特征的帧长为25ms,帧移位为10ms。这些总共43维的特征被用作模型的训练目标。
(2)该合成模型按以下方式训练:
所有模型参数都在多语种联合训练的情况下同时优化。训练损失由两部分组成。一部分是重建声学特征的损失(LossRec)。其中梅尔倒谱、能量和基频预测采用均方误差(MSE)损失函数,清音/浊音标志和停止标志预测采用二元交叉熵(BCE)损失函数。另一部分是说话人分类器损失(LossSpk)。最终训练损失可以表示为:
LossTotal=LossRec-λLossSpk(其中λ在实验中设置为0.05)
为了保持每个训练批次的语言平衡,对于每一个训练批次B,当语种数量为L时对于每个l<L和i<B/L都有批次内第(l+iL)个样本是相同的语种。IPA音素嵌入和韵律标签嵌入的维度分别为512和16。编码器的部分参考DCTTS的全一维卷积网络,参见参考文献[9],其中发音编码器模型有256个隐藏单元,而韵律编码器模型只有128个隐藏单元。发音解码器和韵律解码器的隐藏大小分别为1024和256。在韵律流中,我们使用一半的初始学习率来减少过拟合。剩余模型参数的学习率初始化为10-3,采用Adam优化器,学习速率每15000步衰减一半。此外,由于输出特征的深度足够低,我们没有使用Tacotron2模型的postnet模块。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
Claims (8)
1.一种基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,包括:
发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,
发音流声学子模型、韵律流声学子模型、预处理网络、注意力模块、梯度反转层和说话人分类器;;其中,
所述发音流声学子模型包括:发音流参数生成器、发音编码器和发音解码器;
所述发音流参数生成器设有接收语种ID的语种ID输入端,该发音流参数生成器的发音流参数输出端与所述发音编码器的发音流参数输入端相连;
所述发音编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该发音编码器的发音编码输出端连接所述注意力模块的拼接输入端;
所述韵律流声学子模型包括:韵律流参数生成器、韵律编码器和韵律解码器;
所述韵律流参数生成器设有接收语种ID的语种ID输入端,该韵律流参数生成器的韵律流参数输出端与所述韵律编码器的韵律流参数输入端相连;
所述韵律编码器设有接收IPA音素序列的IPA音素序列输入端和接收韵律标签的韵律标签输入端,该韵律编码器的韵律编码输出端连接所述注意力模块的拼接输入端;
所述预处理网络的输入端,用于以自回归方式接收前一帧的梅尔倒谱、基频和能量,该预处理网络的输出端连接所述注意力模块;
所述注意力模块,能将由所述发音编码器输入的发音编码特征和所述韵律编码器输入的韵律编码特征拼接后,从预处理网络的输出、前一帧的上下文向量和拼接后的编码器输出中预测当前帧的上下文向量,再将当前帧的上下文向量根据所述发音编码器的输出维度和所述韵律编码器的输出维度拆分为上下文发音向量和上下文韵律向量;
所述注意力模块分别设有连接所述发音流声学子模型的发音解码器的上下文发音向量输出端和连接所述韵律流声学子模型的韵律解码器的上下文韵律向量输出端,能将拆分得出的上下文发音向量输出至所述发音解码器以及将拆分得出的上下文韵律向量输出至所述韵律解码器;
所述梯度反转层的输入端与所述注意力模块的发音韵律编码拼接输出端相连,该梯度反转层的输出端连接所述说话人分类器,该梯度反转层能反转说话人分类器在训练时回传的梯度,通过对抗训练的方式去除所述发音编码器和所述韵律编码器输出中的残余说话人信息;
所述说话人分类器模块用于在训练过程中,从所述发音编码器和所述韵律编码器拼接后的输出中预测说话人身份;
所述发音解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文发音向量预测输出梅尔倒谱和停止标志;
所述韵律解码器设有接收说话人ID的说话人ID输入端,能根据说话人ID映射成的说话人编码和输入的上下文韵律向量预测输出能量、基频和清浊音标志。
2.根据权利要求1所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述发音流声学子模型的发音编码器采用DC-TTS编码器,包括:两个一维卷积层和十二个高速1D-Conv层,该发音编码器设有256个隐藏单元;
所述韵律流声学子模型的韵律编码器采用DC-TTS编码器,包括:两个一维卷积层和十二个高速1D-Conv层,该韵律编码器设有128个隐藏单元。
3.根据权利要求1或2所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述发音流声学子模型的发音解码器采用基于长短期记忆网络的解码器,该发音解码器的隐藏单元大小为1024;
所述韵律流声学子模型的韵律解码器采用基于长短期记忆网络的解码器,该韵律解码器的隐藏单元大小为256。
4.根据权利要求3所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述发音解码器包括:
第一查找表模块、第一长短期记忆网络、第一线性层和第一具有sigmoid激活层的线性层;其中,
所述第一查找表模块与所述长短期记忆网络相连,能将输入的说话人ID映射成说话人编码输出给所述长短期记忆网络;
所述第一长短期记忆网络的输入连接所述注意力模块的上下文发音向量输出端,该第一长短期记忆网络能从上下文发音向量和说话人编码中预测当前帧的解码发音特征,分别输出至第一线性层和第一具有sigmoid激活层的线性层;
所述第一线性层能对输入的当前帧的解码发音特征变换投影预测当前帧的梅尔倒谱向量;
所述第一具有sigmoid激活层的线性层,能将输入的当前帧的解码发音特征投影到标量中,预测停止标志。
5.根据权利要求3所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述韵律解码器包括:
第二查找表模块、第二长短期记忆网络、两个单独的第二线性层和第二具有sigmoid激活层的线性层;其中,
所述第二查找表模块与所述第二长短期记忆网络连接,能将输入的说话人ID映射成说话人编码输出给所述第二长短期记忆网络;
所述第二长短期记忆网络的输入连接所述注意力模块的上下文韵律向量输出端,该第二长短期记忆网络能从上下文韵律向量和说话人编码中预测当前帧的解码韵律特征,分别输出至两个单独的线性层和具有sigmoid激活层的线性层;
两个单独的第二线性层能对输入的当前帧的解码韵律特征变换投影,分别预测当前帧的能量和基频;
第二具有sigmoid激活层的线性层,能将输入的当前帧的解码韵律特征投影到标量中,预测当前帧的清音浊音标志。
6.根据权利要求3-5任一项所述的基于韵律发音解耦的元学习多语种语音合成模型,其特征在于,所述发音解码器对梅尔倒谱的预测采用均方误差损失函数,该发音解码器对停止标志的预测采用二元交叉熵损失函数;
所述韵律解码器对能量和基频的预测采用均方误差损失函数,该韵律解码器对清音浊音标志的预测采用二元交叉熵损失函数。
7.一种基于韵律发音解耦的元学习多语种语音合成方法,其特征在于,采用权利要求1-6任一项所述的基于韵律发音解耦的元学习多语种语音合成模型,按以下方式对该基于韵律发音解耦的元学习多语种语音合成模型进行训练,包括:
以多语种数据集作为训练样本集,按预设的训练批次联合对该基于韵律发音解耦的元学习多语种语音合成模型进行训练,最终训练损失表示为:
LossTotal=LossRec-λLossSpk;
其中,LossRec为重建声学特征的损失函数,其中,梅尔倒谱、能量和基频预测采用均方误差损失函数,清音浊音标志和停止标志预测采用二元交叉熵损失函数;LossSpk为说话人分类器的损失函数;λ设置为0.05;
训练过程的每一个训练批次中,B为批次大小,L为训练所用语种数量,B是L的整数倍,在训练批次B中,对于任意的j<L且i<B/L,则B中第j+iL个样本是相同的语种;
预设的超参数中,IPA音素嵌入的维度和韵律标签嵌入的维度分别为512和16;
所述韵律流声学子模型设置一半的初始学习率;
所述发音流声学子模型、注意力模块和预处理网络的初始学习率均设置为10-3,采用Adam优化器,学习速率为每15000步衰减一半;
待所述基于韵律发音解耦的元学习多语种语音合成模型训练完成后,用训练完成后的基于韵律发音解耦的元学习多语种语音合成模型对输入的多语种文本进行对应的语音合成,得出对应的语音音频。
8.根据权利要求7所述的基于韵律发音解耦的元学习多语种语音合成方法,其特征在于,所述多语种数据集中包括:与语种语言文本对应的IPA音素序列,IPA音素序列的每个单词边界处插入空格符作为标记,每个IPA音素分配一个描述音素的音调或重音特征的韵律标签;
所述韵律标签是一个具有M+N维的one-hot向量,其中,M对应于声调语言的声调数,N对应于非声调语言的重音类别数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211491405.0A CN115881084A (zh) | 2022-11-25 | 2022-11-25 | 基于韵律发音解耦的元学习多语种语音合成模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211491405.0A CN115881084A (zh) | 2022-11-25 | 2022-11-25 | 基于韵律发音解耦的元学习多语种语音合成模型及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115881084A true CN115881084A (zh) | 2023-03-31 |
Family
ID=85763968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211491405.0A Pending CN115881084A (zh) | 2022-11-25 | 2022-11-25 | 基于韵律发音解耦的元学习多语种语音合成模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115881084A (zh) |
-
2022
- 2022-11-25 CN CN202211491405.0A patent/CN115881084A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | A deep learning approaches in text-to-speech system: a systematic review and recent research perspective | |
Dutoit | High-quality text-to-speech synthesis: An overview | |
Yanagita et al. | Neural iTTS: Toward synthesizing speech in real-time with end-to-end neural text-to-speech framework | |
Dutoit | A short introduction to text-to-speech synthesis | |
Tahon et al. | Can we generate emotional pronunciations for expressive speech synthesis? | |
CN115547290A (zh) | 基于混合文本表示和说话人对抗的混读语音合成方法 | |
Nosek et al. | Cross-lingual neural network speech synthesis based on multiple embeddings | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
Tan et al. | A malay dialect translation and synthesis system: Proposal and preliminary system | |
Van Nguyen et al. | Development of Vietnamese speech synthesis system using deep neural networks | |
Pradhan et al. | Building speech synthesis systems for Indian languages | |
Ipsic et al. | Croatian HMM-based speech synthesis | |
Csapó et al. | Modeling irregular voice in statistical parametric speech synthesis with residual codebook based excitation | |
Peng et al. | Decoupled pronunciation and prosody modeling in meta-learning-based multilingual speech synthesis | |
Tóth et al. | Improvements of Hungarian hidden Markov model-based text-to-speech synthesis | |
Rafieee et al. | Considerations to spoken language recognition for text-to-speech applications | |
Xu et al. | End‐to‐End Speech Synthesis for Tibetan Multidialect | |
CN115881084A (zh) | 基于韵律发音解耦的元学习多语种语音合成模型及方法 | |
Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
Bonafonte et al. | The UPC TTS system description for the 2008 blizzard challenge | |
Janyoi et al. | An Isarn dialect HMM-based text-to-speech system | |
Dang-Khoa et al. | How to Make Text-to-Speech System Pronounce" Voldemort": an Experimental Approach of Foreign Word Phonemization in Vietnamese | |
Nguyen et al. | Learning vietnamese-english code-switching speech synthesis model under limited code-switched data scenario | |
Lobanov et al. | Development of multi-voice and multi-language TTS synthesizer (languages: Belarussian, Polish, Russian) | |
Nair et al. | Indian text to speech systems: A short survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |