CN113112985B - 一种基于深度学习的语音合成方法 - Google Patents
一种基于深度学习的语音合成方法 Download PDFInfo
- Publication number
- CN113112985B CN113112985B CN202110430708.0A CN202110430708A CN113112985B CN 113112985 B CN113112985 B CN 113112985B CN 202110430708 A CN202110430708 A CN 202110430708A CN 113112985 B CN113112985 B CN 113112985B
- Authority
- CN
- China
- Prior art keywords
- vector
- layer
- nth
- text
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 238000001308 synthesis method Methods 0.000 title claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 239000010410 layer Substances 0.000 claims description 134
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 12
- 238000012805 post-processing Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 239000002356 single layer Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000011541 reaction mixture Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 5
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的语音合成方法,包括:1、对输入文本进行标准化处理,去除无效字符;2、增加位置编码,使输入信号在前向和后向传播时任意位置间的间隔缩短;3、构建基于BERT的端到端神经网络模型,经过训练能快速的将输入的文本信息转化为梅尔频谱帧;4、使用预训练模型WaveGlow将生成的梅尔频谱帧转化为高质量的音频。本发明能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度,并能从输入序列中获取远距离信息,使其在长文本语音合成中效果跟好,进而在实际使用过程中能更好的满足高效、高质量的需求。
Description
技术领域
本发明属于自然语言处理,语音合成技术,深度学习技术领域,具体的说是一种基于深度学习的语音合成方法。
背景技术
语音合成作为实现人机语音交互系统的核心技术之一,是语音处理技术中一个重要的方向,其应用价值越来越受到重视。作为人机语音交互的出口,语音合成的效果直接影响到人机交互的体验。一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。
近年来,随着人工神经网络的迅速发展,端到端的语音合成模型取得了更好的效果,例如Tacotron以及Tacotron2等。它们直接从文本产生梅尔频谱图,然后再通过Griffin-Lim算法或者WaveNet的声码器合成音频结果。通过端到端的神经网络,合成的音频质量有了极大的提高,甚至可以与人类录音相媲美。
这些端到端模型多用RNN作为编码器和解码器。然而,RNN作为一种自回归模型,其第i步的输入包含了第i-1步输出的隐藏状态,这种时序结构限制了训练和预测过程中的并行计算能力。此外,这种结还会导致当输入序列过长时来自许多步骤之前的信息在传递过程中逐渐消失进而使生成的上下文信息存在偏差的问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的语音合成方法,以期能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度,并能从输入序列中获取远距离信息,使其在长文本语音合成中效果跟好,进而在实际使用过程中能更好的满足高效、高质量的需求。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的语音合成方法的特点是按如下步骤进行:
步骤1、建立文本数据库和音频数据库,所述文本数据库中的每个文本与所述音频数据库中的每个音频用编号相对应,从而得到N条原始数据,记为W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n条原始数据,且W(n)=<Audion,Textn>;Audion表示第n条音频,Textn表示第n个文本,n=1,2,…,N;
步骤2、对第n个文本Textn进行标准化处理,得到预处理后的第n个文本Textn′;
将所述预处理后的第n个文本Textn′中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为其中,表示第n个文本向量的第i个字符,i=1,2,…,m,m为字符串长度;
步骤3、利用梅尔频率倒谱系数对第n条音频Audion进行语音特征提取,得到第n条语音信息特征MFCCn,从而与所述向量化后的第n个文本向量Cn共同构成第n条训练数据W′(n)=<MFCCn,Cn>;
步骤4、构建基于BERT模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;所述多头注意力层是由h个点积注意力组成;所述双层全连接层、单层全连接层中设置有概率为p的Dropout函数以及神经元的激活函数tanh;
步骤4.2、将第n个文本向量Cn及其位置信息编码Ln在对应位置相加后得到第n个输入向量Xn;再将第n个输入向量Xn输入所述多头注意力层的每个点积注意力中,从而利用式(2)得出第j个点积注意力的输出αj:
式(2)中,表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WQ的映射后所得到的查询向量,表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WK的映射后所得到的关键字向量,dK表示Kj的维度,表示的转置,表示所述第n个输入向量Xn经过d×dV维的线性变换矩阵WV的映射后所得到的值向量,dV表示Vj的维度,softmax(·)表示归一化指数函数,j=1,2,...,h;
式(3)中,WO表示d×dK维的线性变换矩阵,Concat(·)表示拼接操作;
步骤4.4、将多头注意力的输出向量On与其第n个输入向量Xn经过残差连接与归一化层,从而利用式(4)得到输出向量Hn:
Hn=LayerNorm(Xn+On) (4)
式(4)中,LayerNorm(·)表示层归一化函数;
步骤4.5、将输出向量Hn输入所述双层全连接层中,从而利用式(5)得到相应层的输出In:
In=max(0,HnW1+b1)W2+b2 (5)
式(5)中,W1,W2表示维度为d×dff的两个待训练的参数矩阵,dff表示全连接层隐藏节点的个数即该层的输出维度,b1表示第一偏置矩阵,b2表示第二偏置矩阵,max(·)表示取最大值函数;
步骤4.6、将双层全连接层的输出In与输出向量Hn经过残差连接与归一化层,从而利用式(4)得到第n个文本向量Cn的上下文向量Un;
步骤4.7、所述上下文向量Un通过一层全连接层处理后得到所述编码器神经网络输出的维度为d×dff的缩放后的上下文向量U′n,并作为编码器的输出向量;
步骤5、构建解码器神经网络,包括:预处理网络、2个单向LSTM层、位置敏感注意力层、停止标记位预测层、Mel预测层以及后处理网络;所述预处理网络包含2个全连接层,每个全连接层均有dpre个ReLU隐藏单元;所述后处理网络r层卷积层,每层包含ddec个维度为k×1的卷积核;
步骤5.5、注意力向量Ft n经过所述Mel预测层的处理后输出Mel向量将Mel向量与注意力向量Ft n进行残差连接后再输入到所述后处理网络中,经过ddec个卷积层的处理后再进行batch归一化处理,且所述后处理网络除在最后一层卷积层之外的其他所有层上均用tanh激活函数,从而得到时刻t+1的输出
步骤5.6、将t+1赋值给t后,返回步骤5.2执行;
步骤6、将所述向量化后的第n个文本向量Cn及第n条语音信息特征MFCCn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练,从而获得训练后的梅尔频谱预测模型,用于将文本转换成梅尔频谱帧;
步骤7、使用WaveGlow模型作为声码器,并使用第n条语音信息特征MFCCn以及对应音频进行训练,从而获得训练后的WaveGlow模型,用于将梅尔频谱帧生成对应的音频;
步骤8、将训练后的梅尔频谱预测模型与WaveGlow模型组成为语音合成模型,从而对按照步骤2处理后的文本向量进行语音合成,并获得音频结果。
与现有技术相比,本发明的有益效果在于:
1、本发明通过采用预训练模型BERT作为编码器,基于在大数据集上经过训练的模型BERT通过微调额外的输出层来适配下游任务,使得待训练参数量更少,模型更容易收敛;从而使得模型训练过程大大加快,使用更少的时间就能得到训练好的语音合成模型。
2、本发明通过使用Self-Attention来代替RNN的方法,Self-Attention可以并行处理编码器的输入,不需要进行自回归计算从而大大减少计算时间,提升训练效率和预测过程。此外,Self-Attention机制可以同时从上下文中提取信息来建立长期依赖关系,从而避免了使用传统RNN带来的训练和预测缓慢、长距离信息丢失的问题。
3、本发明通过增加位置信息编码,使输入信号在前向和后向传播时任意位置之间的间隔缩短到1。这在神经网络TTS模型中有很大的帮助,比如合成波的韵律,它不仅取决于周围的几个单词,还取决于句子级别的语义。
附图说明
图1为本发明模型架构图。
具体实施方式
本实施例中,一种基于深度学习的端到端语音合成方法,是用于将所输入文本快速合成高质量的音频,如图1所示,步骤如下:
步骤1、建立文本数据库和音频数据库,文本数据库中的每个文本与音频数据库中的每个音频用编号相对应,从而得到N条原始数据,记为W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n条原始数据,且W(n)=<Audion,Textn>;Audion表示第n条音频,Textn表示第n个文本,n=1,2,…,N;本实施例中,利用公开的音频数据集LJSpeech-1.1作训练和测试,其中包含13100个单声道演讲者的短音频片段,即N=13100。这些片段来自7本非小说类书籍。该数据包含在家庭环境中使用内置麦克风在MacBookPro上记录的大约24小时的语音数据。
步骤2、根据维基百科所有文本数据建立字典,每一个字符或单词对应一个索引,形如<string,index>。对第n个文本Textn进行标准化处理:1)去除特殊字符;2)将缩写转换成全写,例如将‘mrs’改写成‘misess’;3)将数字转化成对应的英文文本,比如‘9’改成‘nine’,得到预处理后的第n个文本Textn′;
将预处理后的第n个文本Textn′中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为其中,表示第n个文本向量的第i个字符,i=1,2,…,m,m为字符串长度。字典中共30522个对象,即每个字符向量的维度为30522;
步骤3、利用梅尔频率倒谱系数对第n条音频Audion进行语音特征提取,得到第n条语音信息特征MFCCn,从而与向量化后的第n个文本向量Cn共同构成第n条训练数据W′(n)=<MFCCn,Cn>;
本实施例中,使用梅尔倒谱系数(MFCC)作为歌曲的第一语音特征。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,与频率f的关系可以表示式(1):
步骤3.1、利用式(2)所示的一阶激励响应高通滤波器对音频数据进行预处理,可以平缓语音信号过于起伏的部分,获得平滑的语音信号:
H(S)=1-μS-1 (2)
本实施例中,μ表示调整系数,且μ=0.97,S表示原始语音信号;
步骤3.2、对平滑的语音数据取k个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);分帧处理的参数选择与语音信号的采样频率有关,本文采样频率为22050Hz,一般人类语音信号在10ms-20ms为稳定,故去10-20ms为一帧,设置帧长为256个采样点取一帧。分帧后的语音信号为S(n)。为了避免窗边界对信号的遗漏,一般取帧长的一半作为帧移,即每次位移一帧的一半长度后再取下一帧,这样可以避免帧与帧之间的特性变化太大。
步骤3.3、对分帧后的语音信号利用式(3)和式(4)进行加窗处理,通过式(3)的海明窗进行加窗之后,能够减少语音信号吉布斯效应的影响,从而获得加窗后的语音信号S′(n):
S′(n)=S(n)+W(n) (3)
式(4)中,a为调整系数,a∈(0,1);本实施例中,a的取值为0.46;
步骤3.4、利用式(5)对加窗后的语音信号S′(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(k):
步骤3.5、利用梅尔滤波器组对倒谱的语音信号Xa(k)进行滤波,获得加卷的语音信号;
Mel滤波器组实质上是满足式(6)的一组三角滤波器:
Mel[f(m)]-Mel[f(m-1)]=Mel[f(m+1)]-Mel[f(m-1)] (6)
式(6)中,f(m)为三角滤波器的中心频率,各f(m)之间的间隔随着m值的减小而缩小,随着m值得增大而增宽。定义一个具有24个滤波器的滤波器组,因为每一个三角滤波器的覆盖范围都近似于人耳的一个临界带宽,因此可以来模拟人耳的掩蔽效应。24个滤波器形成满足式(7)的滤波器组,通过这个Mel滤波器组可以得到经过滤波后的Mel频率信号:
步骤3.6、利用离散余弦变换对加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;将步骤3.6中得到的信号H(k)通过式(8)进行离散余弦变换(DFT),得到需要的静态mfcc参数SMFCC(n):
式(8)中,L为mfcc的系数阶数,本实施例中,L取值为12。
步骤3.7、利用式(9)对静态的梅尔频谱率倒谱参数进行动态差分,获得一阶差分的梅尔频率倒谱参数;
式(9)中,dt表示第t个一阶差分,St表示第t个倒谱系数,p表示倒谱系数的阶数,k表示一阶导数的时间差。本实施例中,k取值为1.
步骤3.8、对一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC,即将步骤3.9中得到的一阶差分参数带入式(9)得到二阶差分参数。
步骤3.9、利用式(10)对静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合获得的MFCC既是音频的语音信息特征。
则通过步骤2和本步骤可以得到单条训练数据W(n)′=<MFCCn,Textn′>
步骤4、构建基于BERT模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;多头注意力层是由h个点积注意力组成;双层全连接层、单层全连接层中设置有概率为p的dropout函数以及神经元的激活函数tanh。本实施例中p=0.1;
式(11)中,t表示字符在向量化后的第n个文本向量Cn中的位置,f(t)i表示第i个字符在t位置的位置信息的计算函数,:=表示生成符号,δ表示缩放尺寸,在本实施例中为10000,d表示单个字符向量的维度,本实施例中为512;
步骤4.2、将第n个文本向量Cn及其位置信息编码Ln在对应位置相加后得到第n个输入向量Xn;再将第n个输入向量Xn输入多头注意力层的每个点积注意力中,从而利用式(12)得出第j个点积注意力的输出αj:
式(12)中,表示第n个输入向量Xn经过d×dK维的线性变换矩阵WQ的映射后所得到的查询向量,表示第n个输入向量Xn经过d×dK维的线性变换矩阵WK的映射后所得到的关键字向量,dK表示Kj的维度,表示的转置,表示第n个输入向量Xn经过d×dV维的线性变换矩阵WV的映射后所得到的值向量,dV表示Vj的维度,softmax(·)表示归一化指数函数,j=1,2,…,h。本实施例中dK=dV=64;
式(13)中,WO表示d×dK维的线性变换矩阵,Concat(·)表示拼接操作;
步骤4.4、将多头注意力的输出向量On与其第n个输入向量Xn经过残差连接与归一化层,从而利用式(14)得到输出向量Hn:
Hn=LayerNorm(Xn+On) (14)
式(14)中,LayerNorm(·)表示层归一化函数;
步骤4.5、将输出向量Hn输入双层全连接层中,从而利用式(15)得到相应层的输出In:
In=max(0,HnW1+b1)W2+b2 (15)
式(15)中,W1,W2表示维度为d×dff的两个待训练的参数矩阵,dff表示全连接层隐藏节点的个数即该层的输出维度,b1表示第一偏置矩阵,b2表示第二偏置矩阵,max(·)表示取最大值函数。本实施例中dff=1024;
步骤4.6、将双层全连接层的输出In与输出向量Hn经过残差连接与归一化层,从而利用式(4)得到第n个文本向量Cn的上下文向量Un;
步骤4.7、上下文向量Un通过一层全连接层处理后得到编码器神经网络输出的维度为d×dff的缩放后的上下文向量U′n,并作为编码器的输出向量;
步骤5、构建解码器神经网络,包括:预处理网络、2个单向LSTM层、位置敏感注意力层、停止标记位预测层、Mel预测层以及后处理网络;预处理网络包含2个全连接层,每个全连接层均有dpre个ReLU隐藏单元;后处理网络r层卷积层,每层包含ddec个维度为k×1的卷积核。本实施例中dpre=256,ddec=512,k=5;
步骤5.5、注意力向量Ft n经过Mel预测层的处理后输出Mel向量将Mel向量与注意力向量Ft n进行残差连接后再输入到后处理网络中,经过ddec个卷积层的处理后再进行batch归一化处理,且所述处理网络除了在最后一层卷积层之外的所有层上用tanh激活函数,从而得到时刻t+1的输出
步骤5.6、将t+1赋值给t后,返回步骤5.2执行;
步骤6、将向量化后的第n个文本向量Cn及第n条语音信息特征MFCCn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练,从而获得训练后的梅尔频谱预测模型,用于将文本转换成梅尔频谱帧;
步骤6.1、本实施例使用Adam优化器,其中β1=0.9,β2=0.999,ε=10-8,并且将学习率固定为10-3,且还应用权重为10-6的L2正则化。
步骤6.2、在实施例中定义本发明的神经网络的当前迭代次数为μ,并初始化μ=1;最大迭代次数为μmax=1000;定义batchsize大小为64;定义神经网络的期望输出为t,定义人工设定的熵损失值为h,对深度学习网络中各层的参数进行随机初始化;
步骤6.3、加载数据进行训练,训练过程中每个时间步对比预测值与实际值,计算均方损失函数如(16),并使用Adam优化器更新参数。
MSELoss(xi,yi)=(xi-yi)2 (16)
式(16)中,xi,yi分别为时刻i的预测值与实际值。
步骤7、使用WaveGlow模型作为声码器,并使用第n条语音信息特征MFCCn以及对应音频进行训练,从而获得训练后的WaveGlow模型,用于将梅尔频谱帧生成对应的音频;本实施例使用带有librosamel过滤器默认设置的80个bin的梅尔频谱图,即每个bin通过过滤器长度进行归一化,并且刻度与HTK相同。梅尔频谱图的参数是FFT大小1024,跳数256和窗口大小1024。
步骤8、将训练后的梅尔频谱预测模型与WaveGlow模型组成为语音合成模型,从而对按照步骤2处理后的文本向量进行语音合成,并获得音频结果。
基于BERT的端到端语音合成模型,能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度。并且,它能从输入序列中获取远距离信息,使其在长文本语音合成中效果很好。
Claims (1)
1.一种基于深度学习的语音合成方法,其特征是按如下步骤进行:
步骤1、建立文本数据库和音频数据库,所述文本数据库中的每个文本与所述音频数据库中的每个音频用编号相对应,从而得到N条原始数据,记为W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n条原始数据,且W(n)=<Audion,Textn>;Audion表示第n条音频,Textn表示第n个文本,n=1,2,…,N;
步骤2、对第n个文本Textn进行标准化处理,得到预处理后的第n个文本Textn′;
将所述预处理后的第n个文本Text′n中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为其中,表示第n个文本向量的第i个字符,i=1,2,…,m,m为字符串长度;
步骤3、利用梅尔频率倒谱系数对第n条音频Audion进行语音特征提取,得到第n条语音信息特征MFCCn,从而与所述向量化后的第n个文本向量Cn共同构成第n条训练数据W′(n)=<MFCCn,Cn>;
步骤4、构建基于BERT模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;所述多头注意力层是由h个点积注意力组成;所述双层全连接层、单层全连接层中设置有概率为p的Dropout函数以及神经元的激活函数tanh;
步骤4.2、将第n个文本向量Cn及其位置信息编码Ln在对应位置相加后得到第n个输入向量Xn;再将第n个输入向量Xn输入所述多头注意力层的每个点积注意力中,从而利用式(2)得出第j个点积注意力的输出αj:
式(2)中,表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WQ的映射后所得到的查询向量,表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WK的映射后所得到的关键字向量,dK表示Kj的维度,表示的转置,表示所述第n个输入向量Xn经过d×dV维的线性变换矩阵WV的映射后所得到的值向量,dV表示Vj的维度,softmax(·)表示归一化指数函数,j=1,2,…,h;
式(3)中,WO表示d×dK维的线性变换矩阵,Concat(·)表示拼接操作;
步骤4.4、将多头注意力的输出向量On与其第n个输入向量Xn经过残差连接与归一化层,从而利用式(4)得到输出向量Hn:
Hn=LayerNorm(Xn+On) (4)
式(4)中,LayerNorm(·)表示层归一化函数;
步骤4.5、将输出向量Hn输入所述双层全连接层中,从而利用式(5)得到相应层的输出In:
In=max(0,HnW1+b1)W2+b2 (5)
式(5)中,W1,W2表示维度为d×dff的两个待训练的参数矩阵,dff表示全连接层隐藏节点的个数即该层的输出维度,b1表示第一偏置矩阵,b2表示第二偏置矩阵,max(·)表示取最大值函数;
步骤4.6、将双层全连接层的输出In与输出向量Hn经过残差连接与归一化层,从而利用式(4)得到第n个文本向量Cn的上下文向量Un;
步骤4.7、所述上下文向量Un通过一层全连接层处理后得到所述编码器神经网络输出的维度为d×dff的缩放后的上下文向量U′n,并作为编码器的输出向量;
步骤5、构建解码器神经网络,包括:预处理网络、2个单向LSTM层、位置敏感注意力层、停止标记位预测层、Mel预测层以及后处理网络;所述预处理网络包含2个全连接层,每个全连接层均有dpre个ReLU隐藏单元;所述后处理网络r层卷积层,每层包含ddec个维度为k×1的卷积核;
步骤5.5、注意力向量Ft n经过所述Mel预测层的处理后输出Mel向量将Mel向量与注意力向量Ft n进行残差连接后再输入到所述后处理网络中,经过ddec个卷积层的处理后再进行batch归一化处理,且所述后处理网络除在最后一层卷积层之外的其他所有层上均用tanh激活函数,从而得到时刻t+1的输出
步骤5.6、将t+1赋值给t后,返回步骤5.2执行;
步骤6、将所述向量化后的第n个文本向量Cn及第n条语音信息特征MFCCn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练,从而获得训练后的梅尔频谱预测模型,用于将文本转换成梅尔频谱帧;
步骤7、使用WaveGlow模型作为声码器,并使用第n条语音信息特征MFCCn以及对应音频进行训练,从而获得训练后的WaveGlow模型,用于将梅尔频谱帧生成对应的音频;
步骤8、将训练后的梅尔频谱预测模型与WaveGlow模型组成为语音合成模型,从而对按照步骤2处理后的文本向量进行语音合成,并获得音频结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110430708.0A CN113112985B (zh) | 2021-04-21 | 2021-04-21 | 一种基于深度学习的语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110430708.0A CN113112985B (zh) | 2021-04-21 | 2021-04-21 | 一种基于深度学习的语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113112985A CN113112985A (zh) | 2021-07-13 |
CN113112985B true CN113112985B (zh) | 2022-01-18 |
Family
ID=76719347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110430708.0A Active CN113112985B (zh) | 2021-04-21 | 2021-04-21 | 一种基于深度学习的语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112985B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808573B (zh) * | 2021-08-06 | 2023-11-07 | 华南理工大学 | 基于混合域注意力与时序自注意力的方言分类方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111125356A (zh) * | 2019-11-29 | 2020-05-08 | 江苏艾佳家居用品有限公司 | 一种文本分类方法及系统 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN112086086A (zh) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112509554A (zh) * | 2020-12-11 | 2021-03-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
WO2021050134A1 (en) * | 2019-09-12 | 2021-03-18 | Microsoft Technology Licensing, Llc | Neural text-to-speech synthesis with multi-level context features |
-
2021
- 2021-04-21 CN CN202110430708.0A patent/CN113112985B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
WO2021050134A1 (en) * | 2019-09-12 | 2021-03-18 | Microsoft Technology Licensing, Llc | Neural text-to-speech synthesis with multi-level context features |
CN111125356A (zh) * | 2019-11-29 | 2020-05-08 | 江苏艾佳家居用品有限公司 | 一种文本分类方法及系统 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN112086086A (zh) * | 2020-10-22 | 2020-12-15 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及计算机可读存储介质 |
CN112509554A (zh) * | 2020-12-11 | 2021-03-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Downhole Track Detection via Multi-scale Conditional Generative Adversarial Nets;Xing wei et al.;《IEEE Access》;20161231;第1-11页 * |
Vocoder-free End-to-End Voice Conversion with Transformer Network;Kim, J. W. et al.;《arXiv》;20200229;全文 * |
基于Transformer的越南语连续语音识别;刘佳文 等;《信息工程大学学报》;20200430;第21卷(第02期);第129-133页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113112985A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Diffsinger: Singing voice synthesis via shallow diffusion mechanism | |
Yu et al. | Durian: Duration informed attention network for multimodal synthesis | |
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
Blaauw et al. | A neural parametric singing synthesizer | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
Zen | Acoustic modeling in statistical parametric speech synthesis-from HMM to LSTM-RNN | |
CN110534089A (zh) | 一种基于音素和韵律结构的中文语音合成方法 | |
CN113506562B (zh) | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 | |
Kaur et al. | Conventional and contemporary approaches used in text to speech synthesis: A review | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
Nakamura et al. | Fast and high-quality singing voice synthesis system based on convolutional neural networks | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
Fahmy et al. | A transfer learning end-to-end arabic text-to-speech (tts) deep architecture | |
Suyanto et al. | End-to-End speech recognition models for a low-resourced Indonesian Language | |
CN113345415A (zh) | 语音合成方法、装置、设备及存储介质 | |
Dua et al. | Spectral warping and data augmentation for low resource language ASR system under mismatched conditions | |
Kadyan et al. | Synthesis speech based data augmentation for low resource children ASR | |
CN113112985B (zh) | 一种基于深度学习的语音合成方法 | |
Hasija et al. | Out domain data augmentation on Punjabi children speech recognition using Tacotron | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
Ramos | Voice conversion with deep learning | |
Zhao et al. | Research on voice cloning with a few samples | |
Thalengala et al. | Study of sub-word acoustical models for Kannada isolated word recognition system | |
Guerid et al. | Recognition of isolated digits using DNN–HMM and harmonic noise model | |
Carlson et al. | Vowel classification based on analysis-by-synthesis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |