CN113450761B - 一种基于变分自编码器的并行语音合成方法和装置 - Google Patents
一种基于变分自编码器的并行语音合成方法和装置 Download PDFInfo
- Publication number
- CN113450761B CN113450761B CN202110669900.5A CN202110669900A CN113450761B CN 113450761 B CN113450761 B CN 113450761B CN 202110669900 A CN202110669900 A CN 202110669900A CN 113450761 B CN113450761 B CN 113450761B
- Authority
- CN
- China
- Prior art keywords
- probability distribution
- features
- hidden variable
- linguistic
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 17
- 238000009826 distribution Methods 0.000 claims abstract description 135
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 35
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 9
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于变分自编码器的并行语音合成方法和装置,包括如下步骤:S1、接收输入文本,并进行字音转换,得到对应的发音序列;S2、对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;S3、根据所述语言学特征,预测对应的目标声学特征的帧数;S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;S5、将所述语言学特征对齐到所述隐变量上,从对齐的语言学特征中预测目标声学特征,再将所述目标声学特征转换为语音波形信号输出。
Description
技术领域
本发明涉及文本和语音处理技术领域,具体涉及一种基于变分自编码器的并行语音合成方法。
背景技术
语音合成是一种将文本转换成语音的技术,是人机语音交互中的关键技术。语音合成的音质和速度是语音合成技术在实际应用中的两项重要指标。在人机语音对话系统中,高音质的合成语音能够拉近人与机器之间的距离,而低时延的语音合成过程则能使用户能够得到迅速的反馈,两者都能改善用户在人机口语对话中的体验。
传统的语音合成模型主要存在以下几方面的问题:1)传统参数语音合成模型受限于模型的建模能力,合成语音音质和自然度较差;而基于拼接方法的语音合成模型虽然音质和自然度较高,但是依赖于庞大的语音数据库和详细的切分及标记;2)近年来提出的基于序列到序列神经网络模型的语音合成方法能够生成高音质的语音,但其采用自回归(串行)的方式进行声学特征的预测,合成速度慢,且容易导致合成误差的累积;3)针对自回归语音合成模型速度慢的问题,研究者提出非自回归(并行)语音合成模型,通过对音素级别的时长信息的建模来得到语言学特征和声学特征之间的对齐,进而实现并行地合成全部语音声学特征帧,然而,一方面音素级别时长信息的获取过程较为复杂,另一方面基于音素级别时长信息的对齐将语言学特征进行重复扩充,得到的对齐后的特征不平滑,这会影响合成语音的自然度。
发明内容
针对上述问题,本发明提出一种基于变分自编码器的并行语音合成方法,采用变分自编码器的神经网络模型对声学特征和语言学特征的对齐信息以及声学特征的重建过程进行建模,以实现并行的、高质量的语音合成。
一种基于变分自编码器的并行语音合成方法,包括如下步骤:S1、接收输入文本,并进行字音转换,得到对应的发音序列;S2、对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;S3、根据所述语言学特征,预测对应的目标声学特征的帧数;S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;S5、将所述语言学特征对齐到所述隐变量上,从对齐的语言学特征中预测目标声学特征,再将所述目标声学特征转换为语音波形信号输出。
进一步地,所述发音序列为音素序列或拼音序列,步骤S2具体包括:将所述音素序列输入基于自注意力机制的文本编码器,首先经过嵌入层查询每个音素对应的神经网络向量表示,再经多层一维卷积神经网络进行预处理以编码时序及上下文信息,然后经过多个自注意力机制模块实现基于语义的上下文信息编码。
进一步地,步骤S3具体包括:将所述语言学特征输入训练好的总时长预测器,经过两层全连接网络输出字符级别的时长信息,将各个字符对应的输出进行加和得到所述目标声学特征的帧数。
进一步地,步骤S4具体包括:S41、采样长度为所预测帧数的高斯噪声;S42、以所述语言学特征作为条件输入,利用训练好的隐变量先验概率分布编码器将采样的高斯噪声转换成隐变量先验概率分布;S43、基于所述语言学特征,从所述隐变量先验概率分布采样长度为步骤S3所预测帧数的隐变量。
进一步地,步骤S5具体包括:S51、利用训练好的声学解码器,以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,然后从对齐的语言学特征中预测得到所述目标声学特征;S52、利用声码器将所述目标声学特征转换为语音波形信号输出,实现语音合成。
进一步地,还包括引入隐变量后验概率分布编码器,对隐变量后验概率分布编码器、隐变量先验概率编码器、声学解码器和总时长预测器同时进行联合训练的过程;训练时,以语言学特征及声学特征为条件的隐变量后验概率分布输入声学解码器进行声学特征的预测,并通过拉近以语言学特征为条件的隐变量先验概率分布和以语言学特征及声学特征为条件的隐变量后验概率分布之间的KL散度来进行训练。
进一步地,训练集中的数据对包含训练文本及其对应的语音波形信号;训练时,将训练文本的语言学特征以及从训练文本的语音波形信号提取到的声学特征一同输入隐变量后验概率分布编码器,建模隐变量后验概率分布。
进一步地,在训练过程中,所述隐变量后验概率分布编码器将帧级别隐变量的单个时间步的向量的后验概率分布建模为一个各向同性的高斯分布,并预测各个分布的均值向量和方差向量,以得到所述隐变量后验概率分布。
进一步地,在训练过程中,所述隐变量后验概率分布编码器建模所述隐变量后验概率分布,具体包括:从训练文本的语音波形信号提取到的声学特征经过基于全连接网络的预处理模块进行稀疏化后作为查询特征,训练文本的语言学特征作为键特征,通过注意力机制进行查询特征与键特征对齐权重的计算;将训练文本的语言学特征作为值特征根据所述对齐权重进行加权,得到对应于每一帧声学特征的语言学上下文特征;以所述语言学上下文特征为输入,通过两个全连接网络模块分别进行均值和方差的预测,得到隐变量后验概率分布。
本发明上述提出的基于变分自编码器的并行语音合成方法,通过变分自编码器帧级别的隐变量对声学特征和语言学特征之间对齐信息的编码,可以将隐变量作为语音声学特征的占位符,通过注意力机制将语言学特征对齐到隐变量上,由于该占位符包含丰富的文本信息和对齐信息,从而可以更好地与语言学特征进行对齐,实现更加高质量的语音合成。隐变量的帧数可根据语言学特征通过神经网络进行有效的预测,对齐后的语言学特征可以通过神经网络被映射到声学特征,从而实现并行的语音合成。由于通过注意力机制得到的对齐的语言学特征是连续的,这有利于提高合成语音的自然度。
本发明中引入隐变量可以根据语言学特征从先验概率分布中采样得到,隐变量先验概率分布的学习过程使其包含了语言学特征和声学特征的对齐关系,这为语言学特征序列和隐变量序列的准确对齐提供了依据,从而在高效并行合成的基础上保证了合成语音的自然度,实现了并行的、高质量的语音合成。
另外,本发明的训练过程不需要音素级别的时长标签,因而可以实现更加简单的端到端训练;且语言学特征和声学特征之间的对齐方法采用基于注意力机制的软对齐,不会造成特征序列的不平滑问题,更有利于生成高自然度语音。
本发明另还提出一种基于变分自编码器的并行语音合成装置,包括:文本分析模块,文本编码模块,总时长预测器,隐变量先验概率分布编码器,声学解码器和声码器;所述文本分析模块接收输入文本并进行字音转换,得到对应的发音序列;所述文本编码模块连接于所述文本分析模块的输出端,用于对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;所述总时长预测器连接于所述文本编码模块的输出端,用于根据所述语言学特征,预测对应的目标声学特征的帧数;所述隐变量先验概率分布编码器连接于所述文本编码模块的输出端以及所述总时长预测器的输出端,用于基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;所述声学解码器连接于所述隐变量先验概率分布编码器的输出端,用于将所述语言学特征对齐到所述隐变量上,并从对齐的语言学特征中预测目标声学特征;所述声码器连接于所述声学解码器的输出端,用于将所述目标声学特征转换为语音波形信号输出。
进一步地,所述隐变量先验概率分布编码器根据所述语言学特征以及采样的高斯噪声,建模述隐变量先验概率分布,并从所述隐变量先验概率分布中采样长度为预测的帧数的隐变量。
进一步地,所述声学解码器以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,然后从对齐的语言学特征中预测得到所述目标声学特征。
附图说明
图1是本发明实施例基于变分自编码器的并行语音合成装置的原理图;
图2是本发明实施例基于变分自编码器的并行语音合成方法的流程图;
图3是本发明实施例基于变分自编码器的并行语音合成装置的架构图。
具体实施方式
首先,对本发明实施例所涉及的关键技术用语进行解释说明。
变分自编码器:一种基于隐变量的神经网络生成模型。其结构包括后验概率分布编码器、先验概率分布编码器和解码器。其中后验概率分布编码器基于输入特征和条件信息建模隐变量的后验概率分布,而先验概率分布编码器则基于条件信息建模隐变量的先验概率分布。解码器负责建模基于隐变量和条件信息恢复输入特征的过程。
注意力机制:根据输入查询特征,计算查询特征与键特征序列的相似度,并将相似度计算值特征的加权和作为输出。其本质是建模查询特征与键特征序列的内在对齐关系。
声学特征提取模块:接收原始语音波形信号作为输入,通过短时傅里叶变换将时域信号转换成时频声学特征,通常还会将线性频谱特征转换到非线性的梅尔刻度上。
字音转换模块:将文本转换成对应发音音素或者拼音序列的模块。
文本编码器:基于神经网络的方法对文本发音序列进行处理,输出包含文本上下文发音信息的文本编码,亦即语言学特征。
总时长预测器:基于输入的语言学特征预测句子级别的时长,即改句文本对应的声学特征的总帧数。
声码器:以语音声学特征为输入恢复语音波形信号的模块。
下面结合附图和具体的实施方式对本发明作进一步说明。
本发明实施例提出一种基于变分自编码器的并行语音合成装置,图1为该装置的原理图。如图1所示,该装置包括文本分析模块、文本编码模块、总时长预测器、隐变量先验概率分布编码器、声学解码器和声码器。文本分析模块接收输入文本并进行字音转换,得到对应的发音序列;文本编码模块连接于文本分析模块的输出端,用于对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;所述总时长预测器连接于所述文本编码模块的输出端,用于根据所述语言学特征,预测对应的目标声学特征的帧数;所述隐变量先验概率分布编码器连接于所述文本编码模块的输出端以及所述总时长预测器的输出端,用于基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;所述声学解码器连接于所述隐变量先验概率分布编码器的输出端,用于将所述语言学特征对齐到所述隐变量上,并从对齐的语言学特征中预测目标声学特征;所述声码器连接于所述声学解码器的输出端,用于将所述目标声学特征转换为语音波形信号输出。
在一些实施例中,文本分析模块可以通过一层全连接网络实现,包括文本正则化模块和字音转换模块。接收用户输入的文本后,先进行文本正则化,再利用字音转换模块将文本转换成对应的音素序列或拼音序列。
在一些实施例中,文本编码模块可以采用Transformer模型中的文本编码器,是一种基于自注意力机制的文本编码器。音素序列输入至该文本编码器之后,首先经过嵌入层查询每个音素对应的神经网络向量表示,再经多层一维卷积神经网络进行预处理以编码时序及上下文信息,然后经过多个自注意力机制模块实现基于语义的上下文信息编码。
在一些实施例中,总时长预测器可以采用两层全连接网络来实现,其作用是根据输入的语言学特征预测其对应的目标声学特征的帧数,目的是确定目标声学参数的长度以进行相应长度隐变量的采样。具体地,文本编码器输出的语言学特征经过两层全连接网络,得到的输出可认为是字符级别的时长信息,将各个字符对应的输出进行加和得到目标声学参数的总帧数。
在一些实施例中,隐变量先验概率分布编码器可以采用Glow结构来实现,Glow结构是一种神经网络生成模型,可以将简单的概率分布转换成复杂的概率分布。在本发明实施例中,利用Glow结构作为隐变量先验概率分布编码器,其作用是建模语言学特征为条件输入的隐变量先验概率分布,并进行隐变量采样。由于隐变量后验概率分布的预测需要参考声学特征,这在推理过程(实际使用过程)中是无法实现的,因此需要隐变量先验概率分布编码器实现在推理过程中基于文本中所提取的语言学特征进行隐变量先验概率分布的建模以及隐变量的采样。隐变量先验概率分布编码器通过Glow结构进行建模,Glow可以将随机噪声通过一系列可逆变换转换成目标分布。利用这一特性,本发明通过Glow建模以语言学特征为条件输入,将高斯噪声转换成隐变量先验概率分布的过程。具体地,本发明首先根据预测的目标声学特征的帧数,采样相同帧数长度的高斯噪声作为隐变量先验概率分布编码器的输入,并以语言学特征作为条件输入,通过Glow对该高斯噪声进行多次的转换,在转换过程中通过Glow中的耦合网络将语言学特征和隐变量中间特征进行对齐耦合,建模隐变量先验概率分布,最后再基于语言学特征,从所述隐变量先验概率分布采样长度为预测帧数的隐变量,也就是说采样的隐变量具有与目标声学特征相同的帧数。Glow中的耦合网络在本发明的具体实现中也采用了基于多抽头点积的注意力机制。经过多次Glow的转换得到的隐变量先验概率分布经训练过程,与隐变量后验概率分布的距离拉近,可得到较为精确的隐变量先验概率分布编码器。基于Glow结构,隐变量先验概率分布编码器可以方便地进行隐变量的采样、似然的计算,这为训练过程中损失的计算及推理过程中的隐变量的采样提供了便利。
声学解码器的主要作用是根据输入的特征预测目标声学特征。具体地,声学解码器将采样得到隐变量作为语音声学特征的占位符,将输入语言学特征通过注意力机制对齐到隐变量上,从而得到帧级别的对齐的语言学特征。声学解码器的注意力机制依然采用基于多抽头的点积注意力机制。基于对齐的语言学特征,声学解码器最后的模块—基于一维卷积的神经网络模块以帧对帧映射的方法由对齐的语言学特征映射得到目标声学特征。
如图3所示,在对前述的装置进行训练时,需要引入隐变量后验概率分布编码器,来同时进行隐变量后验概率分布编码器、对隐变量先验概率编码器、声学解码器和总时长预测器的联合训练。
继续参考图3,隐变量后验概率分布编码器的作用是根据语言学特征及其对应的声学特征的真实值(即从训练文本的真实语音波形信号中提取的声学特征)建模隐变量的后验概率分布。利用该隐变量后验概率分布编码器,帧级别隐变量的单个时间步的向量的后验概率分布被建模为一个各向同性的高斯分布,并预测各个分布的均值向量和方差向量。而单个时间步的隐变量后验概率分布则是以声学特征和语言学特征在相应时间步的对齐特征为条件。具体地,声学特征序列经过基于全连接网络的预处理模块进行稀疏化后作为查询特征,文本编码器输出的语言学特征序列作为键特征,通过注意力机制进行二者对齐权重的计算,进而语言学特征序列作为值特征根据该对齐权重进行加权,得到对应于每一帧声学特征的语言学上下文特征,然后以该语言学上下文特征为输入,通过两个全连接网络模块分别进行均值和方差的预测。至此,便可得到隐变量后验概率分布。
由于隐变量后验概率分布是基于声学特征和语言学特征的真实值的对齐得到,因此其更能准确地表达隐变量,因此可以作为隐变量先验概率分布编码器的训练参考目标。由隐变量后验概率分布编码器的输入特征和结构也可以得知隐变量所编码的信息应包括语言学信息、声学信息以及二者之间的对齐关系。此外,基于神经网络的隐变量后验概率分布编码器可以方便地进行隐变量的采样、似然值的估计。
在一些实施例中,隐变量后验概率分布编码器可以采用Transformer模型中的编码器结构。应当理解的是,文本编码器、隐变量先验概率分布编码器和隐变量后验概率分布编码器不限于采用前述所列举的结构,也可以采用其它带有注意力机制的网络结构。
本发明的另一实施例给出了基于变分自编码器的并行语音合成方法,图2为该方法的流程图。参考图2,该方法包括如下步骤S1~S5:
S1、接收输入文本,并进行字音转换,得到对应的发音序列。
具体而言,用户输入的文本先经过正则化,再进行字音转换。通过文本正则化将数字、符号等转换成读音对应的汉字,而字音转换则是将汉字转换成对应的发音序列,例如拼音序列或音素序列。其中,文本正则化的方法可以采用基于规则的文本匹配方法,以将数字、符号等转换成读音对应的汉字。字音转换是将汉字转换成对应的发音序列,例如拼音序列或音素序列。
S2、对步骤S1得到拼音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征。
具体而言,可将步骤S1得到的音素序列输入基于自注意力机制的文本编码器,首先经过嵌入层查询每个音素对应的神经网络向量表示,再经多层一维卷积神经网络进行预处理以编码时序及上下文信息,然后经过多个自注意力机制模块实现基于语义的上下文信息编码。一维卷积一般认为是对局部上下文信息的建模(如前后几个音素),而自注意力机制对全局和局部上下文信息都能较好的建模,一般被认为更能建模语义信息。应当理解的是,此处的上下文信息主要是指对于当前音素对应的声学特征预测有帮助的前后信息,具体可包括当前音素的前后音素以及在所在的音节、词或句子中的位置等。由于语音中协同发音的效应,某个音素的发音会受到前后音素发音的影响,这是建模上下文信息的依据。
S3、根据步骤S2得到的语言学特征,预测对应的目标声学特征的帧数。此步骤可采用前述实施例的总时长预测器来实现,具体过程不再赘述。
S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量。
步骤S4可包括如下的具体步骤S41~S43:
S41、采样长度为所预测帧数的高斯噪声。通过步骤S3,得到语言学特征的句子级别的时长信息,基于该句子级别的时长信息,采样长度与目标声学特征的帧数相同的高斯噪声。
S42、以所述语言学特征作为条件输入,而采样的高斯噪声作为隐变量先验概率分布编码器的输入,利用预先训练的隐变量先验概率分布编码器将采样的高斯噪声转换成隐变量先验概率分布。
S43、在步骤S3已预测得到目标声学特征的帧数的基础上,从所述隐变量先验概率分布采样同样帧数的隐变量。
步骤S42和S43利用隐变量先验概率分布编码器建模隐变量先验概率分布和采样隐变量的具体过程可参见前述实施例中关于隐变量先验概率分布编码器的描述内容,在此不再赘述。
S5、将所述语言学特征对齐到所述隐变量上,从对齐的语言学特征中预测目标声学特征,再将所述目标声学特征转换为语音波形信号输出。
步骤S5中,利用预先训练的声学解码器,以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,然后从对齐的语言学特征中预测得到所述目标声学特征;再利用声码器将所述目标声学特征转换为语音波形信号输出,最终实现语音合成。
本发明实施例的模型训练过程如下:
训练阶段主要通过三个损失函数来引导模型参数的学习:声学特征的重建损失函数(用于解码器的训练),隐变量先验概率分布和后验概率分布之间的KL散度(隐变量先验概率分布编码器和隐变量后验概率分布编码器的同时训练),声学特征帧数的预测损失函数(总时长预测器的训练)。
设为文本编码器输出的语言学特征序列,R代表实数域。其中,N为文本中字符的个数,也即语言学特征序列的序列长度;D1为语言学特征的特征维度。设/>为解码器预测的声学特征序列,其中,M为声学特征的帧数,也即总时长;D2为声学特征的特征维度。则声学特征的重建损失函数L1如下所示:
其中,t表示声学特征的帧编号,d表示声学特征的特征维度编号,Ytd表示预测得到的声学特征的第t帧中的第d维的数值,Ytd'表示实际声学特征的第t帧中的第d维的数值。
令Q(Zq|X,Y')和P(Zp|X)分别表示隐变量的先验概率分布和后验概率分布,其中和/>分别为从后验概率分布和从先验概率分布中采样得到的隐变量序列,Dz为隐变量序列的特征维度,即每一帧有Dz维。训练时取S个<文本-语音波形>数据对进行S个隐变量序列的采样,下式表达了后验概率分布和先验概率分布之间KL散度L2的计算方法:
其中,k表示采样的<文本-语音波形>数据对的编号,Xk、Yk'表示从数据集中采样的第k组<文本-语音波形>数据对,即Xk表示文本、Yk'表示对应的语音波形。设语音声学特征真实值有l'帧,而通过总时长预测器预测得到的总时长为l帧,则声学特征帧数的预测损失函数L3如下所示:
L3=(logl-logl')2 (3)
训练过程中隐变量从后验概率分布中进行采样并输入到声学解码器中进行声学特征的重建,一方面训练解码器,另一方面重建损失函数的梯度回传到隐变量后验概率分布编码器可以引导后验概率分布编码器的学习;隐变量先验概率分布的采样长度由真实声学特征的帧数确定。
训练时模型的参数设置简述如下:声学特征提取模块中时频分析设置窗长50毫秒,窗移12.5毫秒,快速傅里叶点数设置为2048,并将频率压缩至Mel尺度80维。文本编码器将文本音素、拼音或字母序列嵌入到512维的向量空间中,先通过预处理网络(包括3层一维卷积神经网络,卷积核大小为5,输出维度为512,每层一维卷积后面是修正线性激活单元和层标准化操作),然后经过一个Transformer编码器的结构(共包含4层多抽头自注意力机制),注意力机制的抽头数设置为4,输出维度设置为256,最后一层自注意力机制的输出即为文本编码器的输出。隐变量后验概率分布编码器包含依次连接的一个全连接预处理网络、2层Transformer中的解码器单元结构和两层全连接网络。隐变量的维度设置为128。隐变量后验概率分布编码器的全连接预处理网络包含两层由修正线性单元激活的全连接网络,其输出单元数设置为256;隐变量后验概率分布解码器的2层Transformer中的解码器单元结构,其中多抽头注意力机制的头数设置为4,输出维度设置为256;隐变量后验概率分布编码器的最后两层全连接网络进行隐变量均值向量和方差向量的预测,即输出维度为128。隐变量先验概率分布编码器包含一个Glow结构,该Glow结构包含6个Glow块,每个块包含一层激活标准化层(Actnorm layer)、一层可逆一维卷积层(invertible 1x1 convolution)和一层耦合转换层(coupling transform),其中耦合网络层中的转换网络为2层Transformer解码器单元结构,其中多抽头注意力机制的输出维度为256,抽头数为4。解码器包含4层Transformer解码器单元,与前面相同,多抽头注意力机制的输出维度为256,抽头数为4,解码器最后是一层全连接层,输出预测的声学特征,输出维度为80。总时长预测器包含2层全连接层,每层由修正线性单元激活,输出维度为1,而句子级别总时长则由各个单元输出加和得到。
模型的训练采用Adam优化器,学习率固定为1×10-5,模型的训练可在RTX2080 GPU计算平台上进行,其中每个训练步采样32个<文本-语音波形>数据对,训练过程读取整个数据集2000次进行梯度回传和参数更新后模型即可收敛。
经过前述的训练过程,利用前述的并行语音合成装置执行基于变分自编码器的并行语音合成方法,只需要基于给定的文本得到语言学特征,基于语言学特征从先验概率分布采样隐变量,采样的长度由总时长预测器预测得到的声学特征帧数决定;进而将语言学特征和隐变量作为解码器的输入进行声学特征的恢复,最终通过声码器将声学特征转换成语音波形信号输出,即完成了由文本到语音的合成。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于变分自编码器的并行语音合成方法,其特征在于,包括如下步骤:
S1、接收输入文本,并进行字音转换,得到对应的发音序列;
S2、对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;
S3、根据所述语言学特征,预测对应的目标声学特征的帧数;
S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;步骤S4具体包括:
S41、采样长度为所预测帧数的高斯噪声;
S42、通过Glow建模以所述语言学特征作为条件输入,利用训练好的隐变量先验概率分布编码器将采样的高斯噪声转换成隐变量先验概率分布;
S43、基于所述语言学特征,从所述隐变量先验概率分布采样长度为步骤S3所预测帧数的隐变量;
S5、将所述语言学特征对齐到所述隐变量上,从对齐的语言学特征中预测目标声学特征,再将所述目标声学特征转换为语音波形信号输出;步骤S5具体包括:
S51、利用训练好的声学解码器,以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,然后从对齐的语言学特征中预测得到所述目标声学特征;
S52、利用声码器将所述目标声学特征转换为语音波形信号输出,实现语音合成。
2.如权利要求1所述的基于变分自编码器的并行语音合成方法,其特征在于,所述发音序列为音素序列或拼音序列,步骤S2具体包括:
将所述音素序列输入基于自注意力机制的文本编码器,首先经过嵌入层查询每个音素对应的神经网络向量表示,再经多层一维卷积神经网络进行预处理以编码时序及上下文信息,然后经过多个自注意力机制模块实现基于语义的上下文信息编码。
3.如权利要求1所述的基于变分自编码器的并行语音合成方法,其特征在于,步骤S3具体包括:
将所述语言学特征输入训练好的总时长预测器,经过两层全连接网络输出字符级别的时长信息,将各个字符对应的输出进行加和得到所述目标声学特征的帧数。
4.如权利要求1所述的基于变分自编码器的并行语音合成方法,其特征在于,还包括引入隐变量后验概率分布编码器,对隐变量后验概率分布编码器、隐变量先验概率编码器、声学解码器和总时长预测器同时进行联合训练的过程;
训练时,以语言学特征及声学特征为条件的隐变量后验概率分布输入声学解码器进行声学特征的预测,并通过拉近以语言学特征为条件的隐变量先验概率分布和以语言学特征及声学特征为条件的隐变量后验概率分布之间的KL散度来进行训练。
5.如权利要求4所述的基于变分自编码器的并行语音合成方法,其特征在于,训练集中的数据对包含训练文本及其对应的语音波形信号;训练时,将训练文本的语言学特征以及从训练文本的语音波形信号提取到的声学特征一同输入隐变量后验概率分布编码器,建模隐变量后验概率分布。
6.如权利要求4所述的基于变分自编码器的并行语音合成方法,其特征在于,在训练过程中,所述隐变量后验概率分布编码器将帧级别隐变量的单个时间步的向量的后验概率分布建模为一个各向同性的高斯分布,并预测各个分布的均值向量和方差向量,以得到所述隐变量后验概率分布。
7.如权利要求6所述的基于变分自编码器的并行语音合成方法,其特征在于,在训练过程中,所述隐变量后验概率分布编码器建模所述隐变量后验概率分布,具体包括:
从训练文本的语音波形信号提取到的声学特征经过基于全连接网络的预处理模块进行稀疏化后作为查询特征,训练文本的语言学特征作为键特征,通过注意力机制进行查询特征与键特征对齐权重的计算;
将训练文本的语言学特征作为值特征根据所述对齐权重进行加权,得到对应于每一帧声学特征的语言学上下文特征;
以所述语言学上下文特征为输入,通过两个全连接网络模块分别进行均值和方差的预测,得到隐变量后验概率分布。
8.一种基于变分自编码器的并行语音合成装置,其特征在于,包括:文本分析模块,文本编码模块,总时长预测器,隐变量先验概率分布编码器,声学解码器和声码器;
所述文本分析模块接收输入文本并进行字音转换,得到对应的发音序列;
所述文本编码模块连接于所述文本分析模块的输出端,用于对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;
所述总时长预测器连接于所述文本编码模块的输出端,用于根据所述语言学特征,预测对应的目标声学特征的帧数;
所述隐变量先验概率分布编码器连接于所述文本编码模块的输出端以及所述总时长预测器的输出端,用于基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;所述隐变量先验概率分布编码器基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量的过程包括:采样长度为所预测帧数的高斯噪声;通过Glow建模以所述语言学特征作为条件输入,利用训练好的隐变量先验概率分布编码器将采样的高斯噪声转换成隐变量先验概率分布;基于所述语言学特征,从所述隐变量先验概率分布采样长度为所述总时长预测器所预测帧数的隐变量;
所述声学解码器连接于所述隐变量先验概率分布编码器的输出端,用于:利用训练好的声学解码器,以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,并从对齐的语言学特征中预测目标声学特征;
所述声码器连接于所述声学解码器的输出端,用于将所述目标声学特征转换为语音波形信号输出,实现语音合成。
9.如权利要求8所述的基于变分自编码器的并行语音合成装置,其特征在于,所述隐变量先验概率分布编码器根据所述语言学特征以及采样的高斯噪声,建模述隐变量先验概率分布,并从所述隐变量先验概率分布中采样长度为预测的帧数的隐变量。
10.如权利要求8所述的基于变分自编码器的并行语音合成装置,其特征在于,所述声学解码器以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,然后从对齐的语言学特征中预测得到所述目标声学特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110669900.5A CN113450761B (zh) | 2021-06-17 | 2021-06-17 | 一种基于变分自编码器的并行语音合成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110669900.5A CN113450761B (zh) | 2021-06-17 | 2021-06-17 | 一种基于变分自编码器的并行语音合成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113450761A CN113450761A (zh) | 2021-09-28 |
CN113450761B true CN113450761B (zh) | 2023-09-22 |
Family
ID=77811590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110669900.5A Active CN113450761B (zh) | 2021-06-17 | 2021-06-17 | 一种基于变分自编码器的并行语音合成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113450761B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114255737B (zh) * | 2022-02-28 | 2022-05-17 | 北京世纪好未来教育科技有限公司 | 语音生成方法、装置、电子设备 |
KR20230166536A (ko) * | 2022-05-31 | 2023-12-07 | 한양대학교 산학협력단 | 글로벌 스타일 토큰과 예측 모델로 생성한 화자 임베딩 기반의 화자 적응 방법 및 시스템 |
CN116072098B (zh) * | 2023-02-07 | 2023-11-14 | 北京百度网讯科技有限公司 | 音频信号生成方法、模型训练方法、装置、设备和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109306A (ja) * | 2017-12-15 | 2019-07-04 | 日本電信電話株式会社 | 音声変換装置、音声変換方法及びプログラム |
CN110753239A (zh) * | 2018-07-23 | 2020-02-04 | 深圳地平线机器人科技有限公司 | 视频预测方法、视频预测装置、电子设备和车辆 |
CN110827813A (zh) * | 2019-10-18 | 2020-02-21 | 清华大学深圳国际研究生院 | 一种基于多模态特征的重音检测方法及系统 |
CN110879940A (zh) * | 2019-11-21 | 2020-03-13 | 哈尔滨理工大学 | 一种基于深度神经网络的机器翻译方法及系统 |
CN111243578A (zh) * | 2020-01-10 | 2020-06-05 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN112289304A (zh) * | 2019-07-24 | 2021-01-29 | 中国科学院声学研究所 | 一种基于变分自编码器的多说话人语音合成方法 |
CN112786006A (zh) * | 2021-01-13 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、合成模型训练方法、装置、介质及设备 |
CN112837673A (zh) * | 2020-12-31 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的语音合成方法、装置、计算机设备和介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11017761B2 (en) * | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
JP6876641B2 (ja) * | 2018-02-20 | 2021-05-26 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
JP6973304B2 (ja) * | 2018-06-14 | 2021-11-24 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
-
2021
- 2021-06-17 CN CN202110669900.5A patent/CN113450761B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019109306A (ja) * | 2017-12-15 | 2019-07-04 | 日本電信電話株式会社 | 音声変換装置、音声変換方法及びプログラム |
CN110753239A (zh) * | 2018-07-23 | 2020-02-04 | 深圳地平线机器人科技有限公司 | 视频预测方法、视频预测装置、电子设备和车辆 |
CN112289304A (zh) * | 2019-07-24 | 2021-01-29 | 中国科学院声学研究所 | 一种基于变分自编码器的多说话人语音合成方法 |
CN110827813A (zh) * | 2019-10-18 | 2020-02-21 | 清华大学深圳国际研究生院 | 一种基于多模态特征的重音检测方法及系统 |
CN110879940A (zh) * | 2019-11-21 | 2020-03-13 | 哈尔滨理工大学 | 一种基于深度神经网络的机器翻译方法及系统 |
CN111243578A (zh) * | 2020-01-10 | 2020-06-05 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN112837673A (zh) * | 2020-12-31 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的语音合成方法、装置、计算机设备和介质 |
CN112786006A (zh) * | 2021-01-13 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、合成模型训练方法、装置、介质及设备 |
Non-Patent Citations (4)
Title |
---|
《End-to-End Text-to-Speech Using Latent Duration Based on VQ-VAE》;Y. Yasuda, X. Wang and J. Yamagishd;《 ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;5694-5698 * |
《基于深度学习的语音合成与转换技术综述》;潘孝勤, 芦天亮, 杜彦辉等.;《计算机科学》;第48卷(第08期);200-208 * |
Nugraha, Aditya Arie et,al..《A Flow-Based Deep Latent Variable Model for Speech Spectrogram Modeling and Enhancement》.《IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING》.2020,第28卷1104-1117. * |
Xuezhe Ma et,al..《Flowseq: Non-autoregressive conditional sequence generation with generative flow》.《2019 Conference on Empirical Methods in Natural Language Processing》.2019,1-15. * |
Also Published As
Publication number | Publication date |
---|---|
CN113450761A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN113450761B (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
US20210295858A1 (en) | Synthesizing speech from text using neural networks | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
CN110827801B (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
Zhang et al. | Joint training framework for text-to-speech and voice conversion using multi-source tacotron and wavenet | |
CN113409759B (zh) | 一种端到端实时语音合成方法 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
CN111640418B (zh) | 一种韵律短语识别方法、装置及电子设备 | |
CN111899716A (zh) | 一种语音合成方法和系统 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN113436612B (zh) | 基于语音数据的意图识别方法、装置、设备及存储介质 | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN113436607B (zh) | 一种快速语音克隆方法 | |
Zhao et al. | Research on voice cloning with a few samples | |
EP4177882B1 (en) | Methods and systems for synthesising speech from text | |
Mei et al. | A particular character speech synthesis system based on deep learning | |
Wang et al. | Learning explicit prosody models and deep speaker embeddings for atypical voice conversion | |
CN113593534B (zh) | 针对多口音语音识别的方法和装置 | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
JP7357518B2 (ja) | 音声合成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |