CN113409759A - 一种端到端实时语音合成方法 - Google Patents
一种端到端实时语音合成方法 Download PDFInfo
- Publication number
- CN113409759A CN113409759A CN202110767989.9A CN202110767989A CN113409759A CN 113409759 A CN113409759 A CN 113409759A CN 202110767989 A CN202110767989 A CN 202110767989A CN 113409759 A CN113409759 A CN 113409759A
- Authority
- CN
- China
- Prior art keywords
- audio
- voice
- spectrum
- layers
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 19
- 239000000203 mixture Substances 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000006798 recombination Effects 0.000 claims description 3
- 238000005215 recombination Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013210 evaluation model Methods 0.000 claims 1
- 238000013518 transcription Methods 0.000 claims 1
- 230000035897 transcription Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 14
- 238000003786 synthesis reaction Methods 0.000 abstract description 14
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种端到端实时语音合成方法,通过对音频和文本数据进行预处理,整理成平行语料,通过词嵌入转换成特征向量,输入到基于高斯混合模型注意力机制的序列到序列生成模型,以生成预测的梅尔谱;将梅尔谱进行归一化处理,输入到基于生成对抗网络的声码器后端,经过对抗训练来提升合成语音的质量,最后输出合成语音。本发明方法在保证合成语音的质量的同时,可以提高注意力机制的对齐速度,并且在长语音的合成中表现优秀;通过对音频进行分频带编码,可以提高模型的训练速度,降低语音生成时耗,同时使用多尺度短时傅里叶变换损失函数,提高合成语音的质量与实时率。
Description
技术领域
本发明属于语音合成和深度学习技术领域,涉及一种语音合成方法,尤其是一种基于神经网络的端到端实时语音合成方法。
背景技术
在语音合成技术发展的多年时间里,语音合成已经融入了人们生活的多个方面,如有声小说、智能音箱、语音助手、语音导航、AI播报、智能问答系统等人机对话场景,并且存在语言障碍的人可以通过语音合成来发出自己的声音,存在视力障碍和阅读障碍的人可以通过语音合成来获得文字载体的信息。随着人们生活模式的不断变化,用户对语音合成的速度与质量也提出了更高的要求,包括语音合成的实时性,语音的清晰度与自然度等各项指标。
但现阶段基于深度学习的语音合成方法也存在着一定的不足。首先,现在大部分神经网络声码器都是自回归(AR)的模型,例如WaveNet、WaveRNN、 SampleRNN等,AR模型本质上是串行的,依赖于先前的样本来生成当前样本,以此来对音频的长期依赖性进行建模。尽管AR模型可以产生非常贴近人耳感官的时域波形样本,但其生成效率相对较低,这限制了AR模型在对效率敏感的实时TTS应用中的实际效果。其次,并行式的神经网络声码器虽然可以通过一些技术手段使语音合成不再对样本点之间的依赖关系进行建模,并行输出整段语音,提高了生成效率,但是模型参数量大,算法复杂度高,过于依赖设备性能,训练速度慢。
发明内容
为了克服现有技术的不足,本发明提供了一种端到端实时语音合成方法,该方法在保证合成出高质量语音的前提下,提高语音合成的实时率。
为了解决上述技术问题本发明提供如下的技术方案:
一种端到端实时语音合成方法,包括基于高斯混合模型注意力机制的序列到序列生成模型的声谱预测网络和基于生成对抗网络的声码器,对数据集进行如下预处理:将文本进行正则化处理转换成声韵母分开的拼音注音序列,并添加停顿标注,对音频进行预加重,分帧加窗,短时傅里叶变换和梅尔偏置得到梅尔谱;通过预处理后的平行预料输入所述声谱预测网络中进行训练,得到预测梅尔谱,对其进行归一化,输入所述声码器,经过PQMF滤波器组进行分频和重组,进行对抗训练;通过主观评价方法对合成语音进行评价,通过计算实时率评价模型生成时耗。
进一步,所述声谱预测网络采用序列到序列生成模型,即使用基于高斯混合模型的注意力机制的编码器-解码器结构,所述注意力机制通过高斯混合模型计算注意力权重。该方案可以提高注意力对齐速度。
再进一步,所述声谱预测网络的输入为文本注音序列经词嵌入转换的特征向量,数据集录音时长12小时,录音语句10000,单声道,信噪比不低于35dB,采样率为48kHz、16bit,无压缩WAV格式,数据预处理包括如下步骤:
a)文字转拼音:采用将声韵母分开的处理方法,将汉字转换成汉语拼音,将汉语拼音的5种音调分别用数字1,2,3,4,5来代替,1代表阴平,2代表阳平,3代表上声,4代表去声,5代表轻声,将阿拉伯数字转换成汉字,然后针对数字在不同场景的读法不一样的情况进行不同的标注,对符号进行规范化操作,将中文标点符号转换成英文标点符号,删去一些没有意义的特殊符号;
b)停顿标注:将停顿分为四个等级,分别用#1,#2,#3和#4标注,#1是韵律词的边界,在听感上是很短暂的骤顿,在语音波形上则无明显的间断,#2是词与词之间的停顿,停顿事件比较短暂,#3是一个逗号的停顿,时间稍长一些,#4 是句号,表示这句话已经结束;
c)音频处理:读取语音文件,将语音文件开头和结束的静音部分进行剪切,保证神经网络模型能够准确地找到开始点和结束点,将原始音频信号通过一个高通滤波器得到预加重后的语音数据,采用公式(1):
H(Z)=1-μZ-1 (1)
其中Z为语音信号波形,μ取值范围在0.9到1之间;
对语音进行分帧加窗,窗函数使用汉宁窗,窗长为1024,帧移为256,汉宁窗为公式(2):
然后采用公式(3)对语音进行短时傅里叶变换,傅里叶点数为1024,得到语音的傅里叶谱;
其中x(τ)为源信号,h(τ-t)为分析窗函数;
将傅里叶谱去幅度,然后通过跨度为80到7600的80通道梅尔滤波器获得梅尔偏置,得到梅尔谱,如公式(4),然后对梅尔谱进行均值方差归一化;
更进一步,所述声谱预测网络的编码器由三层卷积神经网络层和一层双向 LSTM构成,每一个卷积层的卷积核个数为512,大小为5*1,使用ReLU非线性激活函数,对输入的注音序列进行上下文信息提取;最后一层卷积层的输出作为双向LSTM层的输入,该层有512维,每个方向256维,将注音序列转换成隐藏的特征表现状态信息。
所述注意力机制通过高斯混合模型计算注意力权重,如公式(5):
其中K是高斯混合模型分量,wi,Zi,Δi和σi是模型的相关系数,通过公式 (6)(7)(8)(9)得出:
通过公式(10)计算每个高斯分量的均值:
μi=μi-1+Δi (10)
通过公式(11)计算模型中间参数:
其中si为注意力机制的输入向量,W是一个权重矩阵,b为偏置,tanh是激活函数,V是一个没有激活的线性变换。
所述解码器由Pre-net、两层LSTM和两个线性投影层构成,Pre-net包含两个全连接层,每一层有256维的ReLU,并且设置0.5的Dropout,两层1024维的单向LSTM的输出与新的语境向量进行拼接,分别送入两个线性映射层,其中一个线性映射层将LSTM的输出转换成梅尔谱,另一个线性映射层通过softmax来计算停止符,在解码过程中自发打断生成过程。
解码过程结束后,会将预测的梅尔谱输入到Post-net中,Post-net是由五层卷积神经网络构成的,每一层卷积层的卷积核数量为512,大小为5*1,前四层都使用tanh非线性激活函数,最后一层使用linear激活函数。Post-net使用残差进行计算,如公式(12)(13)(14):
yfinal=y+yr# (12)
yr=Postnet(y)=Wpsfps+bps# (13)
fps=Fps,i*x# (14)
其中y为原始输入,yfinal为最终输出的梅尔谱,x为解码器的输出或上一个卷积层的输出,Wps和bps为待训练的参数,F为卷积。
所述声码器使用多频带MelGAN,模型分为生成器和判别器两部分,生成器的输入是梅尔谱,输出的是原始波形,通过三层由一维反卷积构成的上采样层,反卷积的卷积核大小为步长的两倍,上采样的倍数为200,三层上采样层的输出通道数分别为192,96和48;每一层上采样层后连接一个残差模块,残差模块由 4层扩张系数为1,3,9,27,卷积核大小为3的一维空洞卷积网络构成,起到扩大模型感受野的作用,然后通过一个一维卷积网络层,使用tanh非线性激活函数,输出通道为4,分别用来预测4个频带的音频。
所述判别器是一组多音频尺度的判别器模块,每一个音频尺度的判别器模块可以捕获到不同频率段的音频特征。判别器的输入由两部分组成,一个是真实语音的音频,另一个是生成器生成的语音音频。每个判别器模块由前后各一层的一维卷积层和下采样层构成,下采样层由3层跨步卷积构成,步长为4。判别器分为3个判别尺度,D1是原始音频频段,D2和D3分别是对原始音频进行采样系数为2和4的下采样的音频频段。判别器模块通过输入原始音频作为真音频,输入合成音频作为假音频,进行对抗训练。
所述声码器使用多尺度短时傅里叶变换损失,多尺度短时傅里叶变换损失分为Lsc和Lmag,前者考虑频谱的收敛性,后者考虑对数谱能量之间的关系。表达式如公式(15)(16):
其中‖·‖F和‖·‖1表示F范数和L1范数,x为真实音频,为预测音频,|STFT(·)|表示短时傅里叶变换,N为幅度谱的元素个数。使用不同STFT参数可以得到不同分辨率的STFT loss。使用M个不同分辨率的STFT loss将单个损失加权平均得到公式(17):
所述声码器使用PQMF滤波器组对音频进行分频段编码,滤波器组中的每一个滤波器使用不同的下采样率对信号进行编码,然后分别将子频带信号交付给解码器,在解码过程中将上采样的信号通过还原滤波器还原成语音波形。
本发明的有益效果表现在:采用本发明方法可以在保证合成高质量语音的同时,还可以通过基于高斯混合模型的注意力机制提高注意力对齐速度,通过PQMF 滤波器组对音频进行分频带编码,提高语音生成速度,使用多尺度短时傅里叶变换损失函数加快模型训练收敛速度,提高语音合成质量。
附图说明
图1是本发明方法中声谱预测网络的总体框架实例示意图;
图2是本发明方法中多频带MelGAN声码器网络的总体框架实例示意图;
图3本发明方法中解码器流程示意图;
图4本发明方法中PQMF滤波器组编解码流程示意图;
具体实施方式
下面对本发明的端到端实时语音合成方法做进一步的说明。
参照图1~图4,一种端到端实时语音合成方法,包括基于高斯混合模型注意力机制的序列到序列生成模型的声谱预测网络和基于生成对抗网络的声码器,对数据集进行如下预处理:将文本进行正则化处理转换成声韵母分开的拼音注音序列,并添加停顿标注,对音频进行预加重,分帧加窗,短时傅里叶变换和梅尔偏置得到梅尔谱;通过预处理后的平行预料输入所述声谱预测网络中进行训练,得到预测梅尔谱,对其进行归一化,输入所述声码器,经过PQMF滤波器组进行分频和重组,进行对抗训练;通过主观评价方法对合成语音进行评价,通过计算实时率评价模型生成时耗。
进一步,所述声谱预测网络采用序列到序列生成模型,即使用基于高斯混合模型的注意力机制的编码器-解码器结构,所述注意力机制通过高斯混合模型计算注意力权重。该方案可以提高注意力对齐速度。
再进一步,所述声谱预测网络的输入为文本注音序列经词嵌入转换的特征向量,数据集录音时长12小时,录音语句10000,单声道,信噪比不低于35dB,采样率为48kHz、16bit,无压缩WAV格式,数据预处理过程如下:
a)文字转拼音。采用将声韵母分开的处理方法,将汉字转换成汉语拼音,将汉语拼音的5种音调分别用数字1,2,3,4,5来代替,1代表阴平,2代表阳平,3代表上声,4代表去声,5代表轻声,将阿拉伯数字转换成汉字,然后针对数字在不同场景的读法不一样的情况进行不同的标注,对符号进行规范化操作,将中文标点符号转换成英文标点符号,删去一些没有意义的特殊符号。
b)停顿标注。将停顿分为四个等级,分别用#1,#2,#3和#4标注,#1是韵律词的边界,在听感上是很短暂的骤顿,在语音波形上则无明显的间断,#2是词与词之间的停顿,停顿事件比较短暂,#3是一个逗号的停顿,时间稍长一些,#4 是句号,表示这句话已经结束。
c)音频处理。读取语音文件,将语音文件开头和结束的静音部分进行剪切,保证神经网络模型能够准确地找到开始点和结束点,将原始音频信号通过一个高通滤波器得到预加重后的语音数据,采用公式(1):
H(Z)=1-μZ-1# (1)
其中Z为语音信号波形,μ取值范围在0.9到1之间。
对语音进行分帧加窗,窗函数使用汉宁窗,窗长为1024,帧移为256,汉宁窗为公式(2):
然后采用公式(3)对语音进行短时傅里叶变换,傅里叶点数为1024,得到语音的傅里叶谱。
其中x(τ)为源信号,h(τ-t)为分析窗函数。
将傅里叶谱去幅度,然后通过跨度为80到7600的80通道梅尔滤波器获得梅尔偏置,得到梅尔谱,如公式(4),然后对梅尔谱进行均值方差归一化。
将预处理后的文本和音频数据作为平行预料,通过词嵌入转换成特征向量,输入声谱预测网络。
本发明声谱预测网络总体模型结构如图1所示,所述编码器由三层卷积神经网络层和一层双向LSTM构成。每一个卷积层的卷积核个数为512,大小为5*1,使用ReLU非线性激活函数,对输入的注音序列进行上下文信息提取。最后一层卷积层的输出作为双向LSTM层的输入,该层有512维(每个方向256维),将注音序列转换成隐藏的特征表现状态信息。
本发明声谱预测网络注意力机制通过高斯混合模型计算注意力权重,如公式(5):
其中K是高斯混合模型分量,wi,Zi,Δi和σi是模型的相关系数,通过公式 (6)(7)(8)(9)得出。
通过公式(10)计算每个高斯分量的均值。
μi=μi-1+Δi# (10)
通过公式(11)计算模型中间参数。
其中si为注意力机制的输入向量,W是一个权重矩阵,b为偏置,tanh是激活函数,V是一个没有激活的线性变换。
本发明声谱预测网络解码器由Pre-net、两层LSTM和两个线性投影层构成。Pre-net包含两个全连接层,每一层有256维的ReLU,并且设置0.5的Dropout,两层1024维的单向LSTM的输出与新的语境向量进行拼接,分别送入两个线性映射层,其中一个线性映射层将LSTM的输出转换成梅尔谱,另一个线性映射层通过softmax来计算停止符,在解码过程中自发打断生成过程,阈值设置为0.5。解码流程如图3所示。
本发明解码过程结束后,会将预测的梅尔谱输入到Post-net中,Post-net是由五层卷积神经网络构成的,每一层卷积层的卷积核数量为512,大小为5*1,前四层都使用tanh非线性激活函数,最后一层使用linear激活函数。Post-net使用残差进行计算,如公式(12)(13)(14):
yfinal=y+yr# (12)
yr=Postnet(y)=Wpsfps+bps# (13)
fps=Fps,i*x# (14)
其中y为原始输入,yfinal为最终输出的梅尔谱,x为解码器的输出或上一个卷积层的输出,Wps和bps为待训练的参数,F为卷积。
本发明声谱预测网络使用的损失函数如下:
a)停止符交叉熵:
StopTokenLoss=-[y*log(p)+(1-y)*log(1-p)]# (15)
其中p是线性映射层输出的预测概率分布,y是停止符真实的概率分布。
b)Post-net前后均方误差:
其中n为batch中的样本数,yr是真实梅尔谱,yb是进入Post-net前解码器输出的预测梅尔谱,ya是进入Post-net后的预测梅尔谱。
c)L2正则化:
其中wk为模型参数,K为参数总数,不需要正则化偏置项。
本发明声码器为多频带MelGAN,模型分为生成器和判别器两部分,模型结构如图2所示。所述生成器的输入是梅尔谱,输出的是原始波形,通过三层由一维反卷积构成的上采样层,反卷积的卷积核大小为步长的两倍,上采样的倍数为200,三层上采样层的输出通道数分别为192,96和48。每一层上采样层后连接一个残差模块,残差模块由4层扩张系数为1,3,9,27,卷积核大小为3的一维空洞卷积网络构成,起到扩大模型感受野的作用,然后通过一个一维卷积网络层,使用tanh非线性激活函数,输出通道为4,分别用来预测4个频带的音频。判别器是一组多音频尺度的判别器模块,每一个音频尺度的判别器模块可以捕获到不同频率段的音频特征。判别器的输入由两部分组成,一个是真实语音的音频,另一个是生成器生成的语音音频。每个判别器模块由前后各一层的一维卷积层和下采样层构成,下采样层由3层跨步卷积构成,步长为4。判别器分为3个判别尺度,D1是原始音频频段,D2和D3分别是对原始音频进行采样系数为2和4的下采样的音频频段。判别器模块通过输入原始音频作为真音频,输入合成音频作为假音频,进行对抗训练。
本发明声码器使用PQMF滤波器组对音频进行分频带编码,流程如图4所示。滤波器组中的每一个滤波器使用不同的下采样率对信号进行编码,然后分别将子频带信号交付给解码器,在解码过程中将上采样的信号通过还原滤波器还原成语音波形。
对于通道数为K的PQMF滤波器组,形式如公式(18)(19)(20):
gk[n]=hk[N-1-n]# (19)
其中k=0,…,K-1,N为h[n]的长度,φk为相位,r为常数,原型滤波器表示如公式(21):
其中ωc为截止频率,N为阶数,将原型滤波器通过凯撒窗进行转化得到,如公式(22):
h(n)=fi(n)w(n)# (22)
其中凯撒窗形式如公式(23):
其中I0()为零阶修正贝塞尔函数,形式如公式(24):
其中β为常数,该函数的作用是控制主要频段宽窄。
通过人为设定截止频率、阶数和凯撒窗的参数即可确定。将音频通过该滤波器组进行子频带编码与解码,然后还原成语音,可以加快语音的合成速度。
本发明声码器使用多尺度短时傅里叶变换损失,多尺度短时傅里叶变换损失分为Lsc和Lmag,前者考虑频谱的收敛性,后者考虑对数谱能量之间的关系。表达式如公式(25)(26):
其中‖·‖F和‖·‖1表示F范数和L1范数,x为真实音频,为预测音频,|STFT(·)|表示短时傅里叶变换,N为幅度谱的元素个数。使用不同STFT参数可以得到不同分辨率的STFT loss。使用M个不同分辨率的STFT loss将单个损失加权平均得到公式(27):
本发明声码器在前200k步对生成器进行预训练,每100k步将所有模型的学习率减半,直到学习率降到0.000001。预训练可以避免判别器的训练效果比生成器好而造成的梯度无法更新的问题,而且可以提高模型训练收敛速度。生成器和判别器交替进行训练。首先初始化生成器和判别器的参数,对模型的权重矩阵进行谱归一化,预训练生成器,直到生成器收敛;然后迭代训练生成器和判别器,直到整个生成对抗网络模型收敛。判别器只在训练过程中使用,在波形生成阶段会被忽略。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (10)
1.一种端到端实时语音合成方法,其特征在于,采用基于高斯混合模型注意力机制的序列到序列生成模型的声谱预测网络和基于生成对抗网络的声码器,对数据集进行如下预处理:将文本进行正则化处理转换成声韵母分开的拼音注音序列,并添加停顿标注,对音频进行预加重,分帧加窗,短时傅里叶变换和梅尔偏置得到梅尔谱;通过预处理后的平行预料输入所述声谱预测网络中进行训练,得到预测梅尔谱,对其进行归一化,输入所述声码器,经过PQMF滤波器组进行分频和重组,进行对抗训练,通过主观评价方法对合成语音进行评价,通过计算实时率评价模型生成时耗。
2.根据权利要求1所的端到端实时语音合成方法,其特征在于,所述声谱预测网络采用序列到序列生成模型,即使用基于高斯混合模型的注意力机制的编码器-解码器结构,所述注意力机制通过高斯混合模型计算注意力权重。
3.根据权利要求1或2所述的端到端实时语音合成方法,其特征在于,所述声谱预测网络的输入为文本注音序列经词嵌入转换的特征向量,数据集录音时长12小时,录音语句10000,单声道,信噪比不低于35dB,采样率为48kHz、16bit,无压缩WAV格式,数据预处理包括如下步骤:
a)文字转拼音:采用将声韵母分开的处理方法,将汉字转换成汉语拼音,将汉语拼音的5种音调分别用数字1,2,3,4,5来代替,1代表阴平,2代表阳平,3代表上声,4代表去声,5代表轻声,将阿拉伯数字转换成汉字,然后针对数字在不同场景的读法不一样的情况进行不同的标注,对符号进行规范化操作,将中文标点符号转换成英文标点符号,删去一些没有意义的特殊符号;
b)停顿标注:将停顿分为四个等级,分别用#1,#2,#3和#4标注,#1是韵律词的边界,在听感上是很短暂的骤顿,在语音波形上则无明显的间断,#2是词与词之间的停顿,停顿事件比较短暂,#3是一个逗号的停顿,时间稍长一些,#4是句号,表示这句话已经结束;
c)音频处理:读取语音文件,将语音文件开头和结束的静音部分进行剪切,保证神经网络模型能够准确地找到开始点和结束点,将原始音频信号通过一个高通滤波器得到预加重后的语音数据,采用公式(1):
H(Z)=1-μZ-1 (1)
其中Z为语音信号波形,μ取值范围在0.9到1之间;
对语音进行分帧加窗,窗函数使用汉宁窗,窗长为1024,帧移为256,汉宁窗为公式(2):
然后采用公式(3)对语音进行短时傅里叶变换,傅里叶点数为1024,得到语音的傅里叶谱;
其中x(τ)为源信号,h(τ-t)为分析窗函数;
将傅里叶谱去幅度,然后通过跨度为80到7600的80通道梅尔滤波器获得梅尔偏置,得到梅尔谱,如公式(4),然后对梅尔谱进行均值方差归一化;
4.根据权利要求1或2所述的端到端实时语音合成方法,其特征在于,所述声谱预测网络的编码器由三层卷积神经网络层和一层双向LSTM构成,每一个卷积层的卷积核个数为512,大小为5*1,使用ReLU非线性激活函数,对输入的注音序列进行上下文信息提取;最后一层卷积层的输出作为双向LSTM层的输入,该层有512维,每个方向256维,将注音序列转换成隐藏的特征表现状态信息。
6.根据权利要求1或2所述的端到端实时语音合成方法,其特征在于,所述解码器由Pre-net、两层LSTM和两个线性投影层构成,Pre-net包含两个全连接层,每一层有256维的ReLU,并且设置0.5的Dropout,两层1024维的单向LSTM的输出与新的语境向量进行拼接,分别送入两个线性映射层,其中一个线性映射层将LSTM的输出转换成梅尔谱,另一个线性映射层通过softmax来计算停止符,在解码过程中自发打断生成过程。
7.根据权利要求1或2所述的端到端实时语音合成方法,其特征在于,解码过程结束后,会将预测的梅尔谱输入到Post-net中,Post-net是由五层卷积神经网络构成的,每一层卷积层的卷积核数量为512,大小为5*1,前四层都使用tanh非线性激活函数,最后一层使用linear激活函数,Post-net使用残差进行计算,如公式(12)(13)(14):
yfinal=y+yr (12)
yr=Postnet(y)=Wpsfps+bps (13)
fps=Fps,i*x (14)
其中y为原始输入,yfinal为最终输出的梅尔谱,x为解码器的输出或上一个卷积层的输出,Wps和bps为待训练的参数,F为卷积。
8.根据权利要求1或2所述的端到端实时语音合成方法,其特征在于,所述声码器使用多频带MelGAN,模型分为生成器和判别器两部分,生成器的输入是梅尔谱,输出的是原始波形,通过三层由一维反卷积构成的上采样层,反卷积的卷积核大小为步长的两倍,上采样的倍数为200,三层上采样层的输出通道数分别为192,96和48;每一层上采样层后连接一个残差模块,残差模块由4层扩张系数为1,3,9,27,卷积核大小为3的一维空洞卷积网络构成,起到扩大模型感受野的作用,然后通过一个一维卷积网络层,使用tanh非线性激活函数,输出通道为4,分别用来预测4个频带的音频。
9.根据权利要求1或2所述的端到端实时语音合成方法,其特征在于,所述判别器是一组多音频尺度的判别器模块,每一个音频尺度的判别器模块可以捕获到不同频率段的音频特征,判别器的输入由两部分组成,一个是真实语音的音频,另一个是生成器生成的语音音频,每个判别器模块由前后各一层的一维卷积层和下采样层构成,下采样层由3层跨步卷积构成,步长为4;判别器分为3个判别尺度,D1是原始音频频段,D2和D3分别是对原始音频进行采样系数为2和4的下采样的音频频段,判别器模块通过输入原始音频作为真音频,输入合成音频作为假音频,进行对抗训练。
10.根据权利要求1或2所述的端到端实时语音合成方法,其特征在于,所述声码器使用多尺度短时傅里叶变换损失,多尺度短时傅里叶变换损失分为Lsc和Lmag,前者考虑频谱的收敛性,后者考虑对数谱能量之间的关系,表达式如公式(15)(16):
其中‖·‖F和‖·‖1表示F范数和L1范数,x为真实音频,为预测音频,|STFT(·)|表示短时傅里叶变换,N为幅度谱的元素个数,使用不同STFT参数可以得到不同分辨率的STFTloss,使用M个不同分辨率的STFT loss将单个损失加权平均得到公式(17):
所述声码器使用PQMF滤波器组对音频进行分频段编码,滤波器组中的每一个滤波器使用不同的下采样率对信号进行编码,然后分别将子频带信号交付给解码器,在解码过程中将上采样的信号通过还原滤波器还原成语音波形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767989.9A CN113409759B (zh) | 2021-07-07 | 2021-07-07 | 一种端到端实时语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767989.9A CN113409759B (zh) | 2021-07-07 | 2021-07-07 | 一种端到端实时语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113409759A true CN113409759A (zh) | 2021-09-17 |
CN113409759B CN113409759B (zh) | 2023-04-07 |
Family
ID=77685411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110767989.9A Active CN113409759B (zh) | 2021-07-07 | 2021-07-07 | 一种端到端实时语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113409759B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN113744715A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 声码器语音合成方法、装置、计算机设备及存储介质 |
CN114169291A (zh) * | 2021-11-29 | 2022-03-11 | 天津大学 | 基于卷积神经和生成对抗网络的文本转语音方法及装置 |
CN114400012A (zh) * | 2022-01-26 | 2022-04-26 | 武汉大学 | 一种极低速率高质量语音编解码方法及装置 |
CN114882867A (zh) * | 2022-04-13 | 2022-08-09 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
CN114898766A (zh) * | 2022-07-12 | 2022-08-12 | 四川高速公路建设开发集团有限公司 | 基于gan网络的分布式光纤语音增强方法及隧道救援系统 |
CN114999447A (zh) * | 2022-07-20 | 2022-09-02 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及训练方法 |
CN115410550A (zh) * | 2022-06-02 | 2022-11-29 | 柯登峰 | 一种细粒度韵律可控的情感语音合成方法、系统及存储介质 |
CN115588437A (zh) * | 2022-12-13 | 2023-01-10 | 南方电网数字电网研究院有限公司 | 语音增强方法、装置、设备和存储介质 |
CN117290461A (zh) * | 2023-11-24 | 2023-12-26 | 湖南君安科技有限公司 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
CN114400012B (zh) * | 2022-01-26 | 2024-10-22 | 武汉大学 | 一种极低速率高质量语音编解码方法及装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008147649A1 (en) * | 2007-05-25 | 2008-12-04 | Motorola, Inc. | Method for synthesizing speech |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
US20190311708A1 (en) * | 2017-03-29 | 2019-10-10 | Google Llc | End-to-end text-to-speech conversion |
CN110600013A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 非平行语料声音转换数据增强模型训练方法及装置 |
US20200051583A1 (en) * | 2018-08-08 | 2020-02-13 | Google Llc | Synthesizing speech from text using neural networks |
CN111179905A (zh) * | 2020-01-10 | 2020-05-19 | 北京中科深智科技有限公司 | 一种快速配音生成方法及装置 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN111583900A (zh) * | 2020-04-27 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
CN111627418A (zh) * | 2020-05-27 | 2020-09-04 | 携程计算机技术(上海)有限公司 | 语音合成模型的训练方法、合成方法、系统、设备和介质 |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN112071325A (zh) * | 2020-09-04 | 2020-12-11 | 中山大学 | 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法 |
CN112489616A (zh) * | 2020-11-30 | 2021-03-12 | 国网重庆市电力公司物资分公司 | 一种语音合成方法 |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112786011A (zh) * | 2021-01-13 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、合成模型训练方法、装置、介质及设备 |
CN112837669A (zh) * | 2020-05-21 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置及服务器 |
-
2021
- 2021-07-07 CN CN202110767989.9A patent/CN113409759B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008147649A1 (en) * | 2007-05-25 | 2008-12-04 | Motorola, Inc. | Method for synthesizing speech |
US20190311708A1 (en) * | 2017-03-29 | 2019-10-10 | Google Llc | End-to-end text-to-speech conversion |
US20200051583A1 (en) * | 2018-08-08 | 2020-02-13 | Google Llc | Synthesizing speech from text using neural networks |
CN110136690A (zh) * | 2019-05-22 | 2019-08-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置及计算机可读存储介质 |
CN110600013A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 非平行语料声音转换数据增强模型训练方法及装置 |
CN111179905A (zh) * | 2020-01-10 | 2020-05-19 | 北京中科深智科技有限公司 | 一种快速配音生成方法及装置 |
CN111292720A (zh) * | 2020-02-07 | 2020-06-16 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN111583900A (zh) * | 2020-04-27 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 歌曲合成方法、装置、可读介质及电子设备 |
CN112837669A (zh) * | 2020-05-21 | 2021-05-25 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置及服务器 |
CN111627418A (zh) * | 2020-05-27 | 2020-09-04 | 携程计算机技术(上海)有限公司 | 语音合成模型的训练方法、合成方法、系统、设备和介质 |
CN111883102A (zh) * | 2020-07-14 | 2020-11-03 | 中国科学技术大学 | 一种双层自回归解码的序列到序列语音合成方法及系统 |
CN112071325A (zh) * | 2020-09-04 | 2020-12-11 | 中山大学 | 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法 |
CN112489616A (zh) * | 2020-11-30 | 2021-03-12 | 国网重庆市电力公司物资分公司 | 一种语音合成方法 |
CN112735373A (zh) * | 2020-12-31 | 2021-04-30 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN112786011A (zh) * | 2021-01-13 | 2021-05-11 | 北京有竹居网络技术有限公司 | 语音合成方法、合成模型训练方法、装置、介质及设备 |
Non-Patent Citations (3)
Title |
---|
LV, MINGQI ET AL.: "A hybrid deep convolutional and recurrent neural network for complex activity recognition using multimodal sensors", 《NEUROCOMPUTING》 * |
邱泽宇等: "基于WaveNet的端到端语音合成方法", 《计算机应用》 * |
陈小东等: "基于LPCNet的语音合成方法研究", 《计算机与数字工程》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744714B (zh) * | 2021-09-27 | 2024-04-05 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN113744715A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 声码器语音合成方法、装置、计算机设备及存储介质 |
CN113744714A (zh) * | 2021-09-27 | 2021-12-03 | 深圳市木愚科技有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN114169291A (zh) * | 2021-11-29 | 2022-03-11 | 天津大学 | 基于卷积神经和生成对抗网络的文本转语音方法及装置 |
CN114169291B (zh) * | 2021-11-29 | 2024-04-26 | 天津大学 | 基于卷积神经和生成对抗网络的文本转语音方法及装置 |
CN114400012A (zh) * | 2022-01-26 | 2022-04-26 | 武汉大学 | 一种极低速率高质量语音编解码方法及装置 |
CN114400012B (zh) * | 2022-01-26 | 2024-10-22 | 武汉大学 | 一种极低速率高质量语音编解码方法及装置 |
CN114882867A (zh) * | 2022-04-13 | 2022-08-09 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
CN114882867B (zh) * | 2022-04-13 | 2024-05-28 | 天津大学 | 基于滤波器组频率区分的深度网络波形合成方法及装置 |
CN115410550A (zh) * | 2022-06-02 | 2022-11-29 | 柯登峰 | 一种细粒度韵律可控的情感语音合成方法、系统及存储介质 |
CN115410550B (zh) * | 2022-06-02 | 2024-03-26 | 北京听见科技有限公司 | 一种细粒度韵律可控的情感语音合成方法、系统及存储介质 |
CN114898766A (zh) * | 2022-07-12 | 2022-08-12 | 四川高速公路建设开发集团有限公司 | 基于gan网络的分布式光纤语音增强方法及隧道救援系统 |
US11817079B1 (en) | 2022-07-20 | 2023-11-14 | Nanjing Silicon Intelligence Technology Co., Ltd. | GAN-based speech synthesis model and training method |
CN114999447B (zh) * | 2022-07-20 | 2022-10-25 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及语音合成方法 |
CN114999447A (zh) * | 2022-07-20 | 2022-09-02 | 南京硅基智能科技有限公司 | 一种基于对抗生成网络的语音合成模型及训练方法 |
CN115588437A (zh) * | 2022-12-13 | 2023-01-10 | 南方电网数字电网研究院有限公司 | 语音增强方法、装置、设备和存储介质 |
CN117290461A (zh) * | 2023-11-24 | 2023-12-26 | 湖南君安科技有限公司 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
CN117290461B (zh) * | 2023-11-24 | 2024-02-06 | 湖南君安科技有限公司 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113409759B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113409759B (zh) | 一种端到端实时语音合成方法 | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
Hayashi et al. | An investigation of multi-speaker training for WaveNet vocoder | |
US9837084B2 (en) | Streaming encoder, prosody information encoding device, prosody-analyzing device, and device and method for speech synthesizing | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
Wu et al. | Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
CN112071325A (zh) | 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法 | |
CN102201234B (zh) | 一种基于音调自动标注及预测的语音合成方法 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
CN111179905A (zh) | 一种快速配音生成方法及装置 | |
Ai et al. | A neural vocoder with hierarchical generation of amplitude and phase spectra for statistical parametric speech synthesis | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
CN113450761B (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
KR102401243B1 (ko) | 유사 발음열을 이용한 콜미 서비스의 음성 합성 장치 및 방법 | |
Guo et al. | MSMC-TTS: Multi-stage multi-codebook VQ-VAE based neural TTS | |
Choi et al. | A melody-unsupervision model for singing voice synthesis | |
Guo et al. | A multi-stage multi-codebook VQ-VAE approach to high-performance neural TTS | |
Rao et al. | SFNet: A computationally efficient source filter model based neural speech synthesis | |
Zhao et al. | Research on voice cloning with a few samples | |
Guo et al. | QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning | |
JPWO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
Levy-Leshem et al. | Taco-VC: A single speaker tacotron based voice conversion with limited data | |
KR20230094826A (ko) | 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |