CN113112985B - 一种基于深度学习的语音合成方法 - Google Patents

一种基于深度学习的语音合成方法 Download PDF

Info

Publication number
CN113112985B
CN113112985B CN202110430708.0A CN202110430708A CN113112985B CN 113112985 B CN113112985 B CN 113112985B CN 202110430708 A CN202110430708 A CN 202110430708A CN 113112985 B CN113112985 B CN 113112985B
Authority
CN
China
Prior art keywords
vector
layer
nth
text
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110430708.0A
Other languages
English (en)
Other versions
CN113112985A (zh
Inventor
安鑫
代子彪
李阳
孙晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110430708.0A priority Critical patent/CN113112985B/zh
Publication of CN113112985A publication Critical patent/CN113112985A/zh
Application granted granted Critical
Publication of CN113112985B publication Critical patent/CN113112985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的语音合成方法,包括:1、对输入文本进行标准化处理,去除无效字符;2、增加位置编码,使输入信号在前向和后向传播时任意位置间的间隔缩短;3、构建基于BERT的端到端神经网络模型,经过训练能快速的将输入的文本信息转化为梅尔频谱帧;4、使用预训练模型WaveGlow将生成的梅尔频谱帧转化为高质量的音频。本发明能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度,并能从输入序列中获取远距离信息,使其在长文本语音合成中效果跟好,进而在实际使用过程中能更好的满足高效、高质量的需求。

Description

一种基于深度学习的语音合成方法
技术领域
本发明属于自然语言处理,语音合成技术,深度学习技术领域,具体的说是一种基于深度学习的语音合成方法。
背景技术
语音合成作为实现人机语音交互系统的核心技术之一,是语音处理技术中一个重要的方向,其应用价值越来越受到重视。作为人机语音交互的出口,语音合成的效果直接影响到人机交互的体验。一个高质量的、稳定的语音合成系统能够让机器更加地拟人化,使人机交互过程更加自然。
近年来,随着人工神经网络的迅速发展,端到端的语音合成模型取得了更好的效果,例如Tacotron以及Tacotron2等。它们直接从文本产生梅尔频谱图,然后再通过Griffin-Lim算法或者WaveNet的声码器合成音频结果。通过端到端的神经网络,合成的音频质量有了极大的提高,甚至可以与人类录音相媲美。
这些端到端模型多用RNN作为编码器和解码器。然而,RNN作为一种自回归模型,其第i步的输入包含了第i-1步输出的隐藏状态,这种时序结构限制了训练和预测过程中的并行计算能力。此外,这种结还会导致当输入序列过长时来自许多步骤之前的信息在传递过程中逐渐消失进而使生成的上下文信息存在偏差的问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度学习的语音合成方法,以期能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度,并能从输入序列中获取远距离信息,使其在长文本语音合成中效果跟好,进而在实际使用过程中能更好的满足高效、高质量的需求。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的语音合成方法的特点是按如下步骤进行:
步骤1、建立文本数据库和音频数据库,所述文本数据库中的每个文本与所述音频数据库中的每个音频用编号相对应,从而得到N条原始数据,记为W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n条原始数据,且W(n)=<Audion,Textn>;Audion表示第n条音频,Textn表示第n个文本,n=1,2,…,N;
步骤2、对第n个文本Textn进行标准化处理,得到预处理后的第n个文本Textn′;
将所述预处理后的第n个文本Textn′中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为
Figure BDA0003031357970000021
其中,
Figure BDA0003031357970000022
表示第n个文本向量的第i个字符,i=1,2,…,m,m为字符串长度;
步骤3、利用梅尔频率倒谱系数对第n条音频Audion进行语音特征提取,得到第n条语音信息特征MFCCn,从而与所述向量化后的第n个文本向量Cn共同构成第n条训练数据W′(n)=<MFCCn,Cn>;
步骤4、构建基于BERT模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;所述多头注意力层是由h个点积注意力组成;所述双层全连接层、单层全连接层中设置有概率为p的Dropout函数以及神经元的激活函数tanh;
步骤4.1、利用式(1)得到第n个文本向量Cn在t位置对应的位置信息编码
Figure BDA0003031357970000028
从而得到第n个文本向量Cn的位置信息编码
Figure BDA0003031357970000023
Figure BDA0003031357970000024
式(1)中,t表示字符在所述向量化后的第n个文本向量Cn中的位置,f(t)i表示第i个字符
Figure BDA0003031357970000025
在t位置的位置信息的计算函数,:=表示生成符号,δ表示缩放尺寸,d表示单个字符向量的维度;
步骤4.2、将第n个文本向量Cn及其位置信息编码Ln在对应位置相加后得到第n个输入向量Xn;再将第n个输入向量Xn输入所述多头注意力层的每个点积注意力中,从而利用式(2)得出第j个点积注意力的输出αj
Figure BDA0003031357970000026
式(2)中,
Figure BDA0003031357970000027
表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WQ的映射后所得到的查询向量,
Figure BDA0003031357970000031
表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WK的映射后所得到的关键字向量,dK表示Kj的维度,
Figure BDA0003031357970000032
表示
Figure BDA0003031357970000033
的转置,
Figure BDA0003031357970000034
表示所述第n个输入向量Xn经过d×dV维的线性变换矩阵WV的映射后所得到的值向量,dV表示Vj的维度,softmax(·)表示归一化指数函数,j=1,2,...,h;
步骤4.3、将h个点积注意力的输出
Figure BDA0003031357970000035
进行拼接,得到第n个向量矩阵αn,从而利用式(3)得到多头注意力层最终的输出向量On
Figure BDA0003031357970000036
式(3)中,WO表示d×dK维的线性变换矩阵,Concat(·)表示拼接操作;
步骤4.4、将多头注意力的输出向量On与其第n个输入向量Xn经过残差连接与归一化层,从而利用式(4)得到输出向量Hn
Hn=LayerNorm(Xn+On) (4)
式(4)中,LayerNorm(·)表示层归一化函数;
步骤4.5、将输出向量Hn输入所述双层全连接层中,从而利用式(5)得到相应层的输出In
In=max(0,HnW1+b1)W2+b2 (5)
式(5)中,W1,W2表示维度为d×dff的两个待训练的参数矩阵,dff表示全连接层隐藏节点的个数即该层的输出维度,b1表示第一偏置矩阵,b2表示第二偏置矩阵,max(·)表示取最大值函数;
步骤4.6、将双层全连接层的输出In与输出向量Hn经过残差连接与归一化层,从而利用式(4)得到第n个文本向量Cn的上下文向量Un
步骤4.7、所述上下文向量Un通过一层全连接层处理后得到所述编码器神经网络输出的维度为d×dff的缩放后的上下文向量U′n,并作为编码器的输出向量;
步骤5、构建解码器神经网络,包括:预处理网络、2个单向LSTM层、位置敏感注意力层、停止标记位预测层、Mel预测层以及后处理网络;所述预处理网络包含2个全连接层,每个全连接层均有dpre个ReLU隐藏单元;所述后处理网络r层卷积层,每层包含ddec个维度为k×1的卷积核;
步骤5.1、定义t时刻解码器神经网络的输出为
Figure BDA0003031357970000041
定义t时刻位置敏感注意力层的输出为
Figure BDA0003031357970000042
当t=0时,令解码器神经网络的输出
Figure BDA0003031357970000043
和位置敏感注意力层的输出
Figure BDA0003031357970000044
均为全0矩阵;
步骤5.2、所述t时刻解码器神经网络的输出
Figure BDA0003031357970000045
通过所述预处理网络后得到预处理层的输出向量
Figure BDA0003031357970000046
将预处理层的输出向量
Figure BDA0003031357970000047
与t时刻位置敏感注意力层的输出
Figure BDA0003031357970000048
连接后通过2个具有denc个隐藏单元的单向LSTM层,得到输出向量
Figure BDA0003031357970000049
步骤5.3、将t时刻单向LSTM层的输出向量
Figure BDA00030313579700000410
与编码器的输出向量U′n输入到位置敏感注意力层中得到该层输出的注意力向量Ft n
步骤5.4、将注意力向量Ft n通过维度为(m+ddec)×1的停止标记位预测层的处理后再经过sigmod函数激活处理后得到t时刻的停止标记值
Figure BDA00030313579700000411
Figure BDA00030313579700000412
时,表示预测结束,并将所有时刻解码器神经网络的输出
Figure BDA00030313579700000413
整合为第n个输入向量Xn最终的目标梅尔频谱帧向量Yn后,执行步骤6;
Figure BDA00030313579700000414
时,执行步骤5.5,其中,threshold表示停止阈值;
步骤5.5、注意力向量Ft n经过所述Mel预测层的处理后输出Mel向量
Figure BDA00030313579700000415
将Mel向量
Figure BDA00030313579700000416
与注意力向量Ft n进行残差连接后再输入到所述后处理网络中,经过ddec个卷积层的处理后再进行batch归一化处理,且所述后处理网络除在最后一层卷积层之外的其他所有层上均用tanh激活函数,从而得到时刻t+1的输出
Figure BDA00030313579700000417
步骤5.6、将t+1赋值给t后,返回步骤5.2执行;
步骤6、将所述向量化后的第n个文本向量Cn及第n条语音信息特征MFCCn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练,从而获得训练后的梅尔频谱预测模型,用于将文本转换成梅尔频谱帧;
步骤7、使用WaveGlow模型作为声码器,并使用第n条语音信息特征MFCCn以及对应音频进行训练,从而获得训练后的WaveGlow模型,用于将梅尔频谱帧生成对应的音频;
步骤8、将训练后的梅尔频谱预测模型与WaveGlow模型组成为语音合成模型,从而对按照步骤2处理后的文本向量进行语音合成,并获得音频结果。
与现有技术相比,本发明的有益效果在于:
1、本发明通过采用预训练模型BERT作为编码器,基于在大数据集上经过训练的模型BERT通过微调额外的输出层来适配下游任务,使得待训练参数量更少,模型更容易收敛;从而使得模型训练过程大大加快,使用更少的时间就能得到训练好的语音合成模型。
2、本发明通过使用Self-Attention来代替RNN的方法,Self-Attention可以并行处理编码器的输入,不需要进行自回归计算从而大大减少计算时间,提升训练效率和预测过程。此外,Self-Attention机制可以同时从上下文中提取信息来建立长期依赖关系,从而避免了使用传统RNN带来的训练和预测缓慢、长距离信息丢失的问题。
3、本发明通过增加位置信息编码,使输入信号在前向和后向传播时任意位置之间的间隔缩短到1。这在神经网络TTS模型中有很大的帮助,比如合成波的韵律,它不仅取决于周围的几个单词,还取决于句子级别的语义。
附图说明
图1为本发明模型架构图。
具体实施方式
本实施例中,一种基于深度学习的端到端语音合成方法,是用于将所输入文本快速合成高质量的音频,如图1所示,步骤如下:
步骤1、建立文本数据库和音频数据库,文本数据库中的每个文本与音频数据库中的每个音频用编号相对应,从而得到N条原始数据,记为W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n条原始数据,且W(n)=<Audion,Textn>;Audion表示第n条音频,Textn表示第n个文本,n=1,2,…,N;本实施例中,利用公开的音频数据集LJSpeech-1.1作训练和测试,其中包含13100个单声道演讲者的短音频片段,即N=13100。这些片段来自7本非小说类书籍。该数据包含在家庭环境中使用内置麦克风在MacBookPro上记录的大约24小时的语音数据。
步骤2、根据维基百科所有文本数据建立字典,每一个字符或单词对应一个索引,形如<string,index>。对第n个文本Textn进行标准化处理:1)去除特殊字符;2)将缩写转换成全写,例如将‘mrs’改写成‘misess’;3)将数字转化成对应的英文文本,比如‘9’改成‘nine’,得到预处理后的第n个文本Textn′;
将预处理后的第n个文本Textn′中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为
Figure BDA0003031357970000061
其中,
Figure BDA0003031357970000062
表示第n个文本向量的第i个字符,i=1,2,…,m,m为字符串长度。字典中共30522个对象,即每个字符向量的维度为30522;
步骤3、利用梅尔频率倒谱系数对第n条音频Audion进行语音特征提取,得到第n条语音信息特征MFCCn,从而与向量化后的第n个文本向量Cn共同构成第n条训练数据W′(n)=<MFCCn,Cn>;
本实施例中,使用梅尔倒谱系数(MFCC)作为歌曲的第一语音特征。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数,与频率f的关系可以表示式(1):
Figure BDA0003031357970000063
步骤3.1、利用式(2)所示的一阶激励响应高通滤波器对音频数据进行预处理,可以平缓语音信号过于起伏的部分,获得平滑的语音信号:
H(S)=1-μS-1 (2)
本实施例中,μ表示调整系数,且μ=0.97,S表示原始语音信号;
步骤3.2、对平滑的语音数据取k个采样点为一帧进行分帧处理,获得分帧后的语音信号S(n);分帧处理的参数选择与语音信号的采样频率有关,本文采样频率为22050Hz,一般人类语音信号在10ms-20ms为稳定,故去10-20ms为一帧,设置帧长为256个采样点取一帧。分帧后的语音信号为S(n)。为了避免窗边界对信号的遗漏,一般取帧长的一半作为帧移,即每次位移一帧的一半长度后再取下一帧,这样可以避免帧与帧之间的特性变化太大。
步骤3.3、对分帧后的语音信号利用式(3)和式(4)进行加窗处理,通过式(3)的海明窗进行加窗之后,能够减少语音信号吉布斯效应的影响,从而获得加窗后的语音信号S′(n):
S′(n)=S(n)+W(n) (3)
Figure BDA0003031357970000064
式(4)中,a为调整系数,a∈(0,1);本实施例中,a的取值为0.46;
步骤3.4、利用式(5)对加窗后的语音信号S′(n)进行快速傅里叶变换,获得倒谱的语音信号Xa(k):
Figure BDA0003031357970000071
步骤3.5、利用梅尔滤波器组对倒谱的语音信号Xa(k)进行滤波,获得加卷的语音信号;
Mel滤波器组实质上是满足式(6)的一组三角滤波器:
Mel[f(m)]-Mel[f(m-1)]=Mel[f(m+1)]-Mel[f(m-1)] (6)
式(6)中,f(m)为三角滤波器的中心频率,各f(m)之间的间隔随着m值的减小而缩小,随着m值得增大而增宽。定义一个具有24个滤波器的滤波器组,因为每一个三角滤波器的覆盖范围都近似于人耳的一个临界带宽,因此可以来模拟人耳的掩蔽效应。24个滤波器形成满足式(7)的滤波器组,通过这个Mel滤波器组可以得到经过滤波后的Mel频率信号:
Figure BDA0003031357970000072
步骤3.6、利用离散余弦变换对加卷的语音信号进行解卷,获得静态的梅尔频率倒谱参数SMFCC;将步骤3.6中得到的信号H(k)通过式(8)进行离散余弦变换(DFT),得到需要的静态mfcc参数SMFCC(n):
Figure BDA0003031357970000073
式(8)中,L为mfcc的系数阶数,本实施例中,L取值为12。
步骤3.7、利用式(9)对静态的梅尔频谱率倒谱参数进行动态差分,获得一阶差分的梅尔频率倒谱参数;
Figure BDA0003031357970000074
式(9)中,dt表示第t个一阶差分,St表示第t个倒谱系数,p表示倒谱系数的阶数,k表示一阶导数的时间差。本实施例中,k取值为1.
步骤3.8、对一阶差分的梅尔频率倒谱参数进行动态差分计算,获得二阶差分的梅尔频率倒谱参数d2MFCC,即将步骤3.9中得到的一阶差分参数带入式(9)得到二阶差分参数。
步骤3.9、利用式(10)对静态的梅尔频率倒谱参数、一阶差分的梅尔频率倒谱参数和二阶差分的梅尔频率倒谱参数进行结合获得的MFCC既是音频的语音信息特征。
Figure BDA0003031357970000081
则通过步骤2和本步骤可以得到单条训练数据W(n)′=<MFCCn,Textn′>
步骤4、构建基于BERT模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;多头注意力层是由h个点积注意力组成;双层全连接层、单层全连接层中设置有概率为p的dropout函数以及神经元的激活函数tanh。本实施例中p=0.1;
步骤4.1、利用式(11)得到第n个文本向量Cn在t位置对应的位置信息编码
Figure BDA0003031357970000082
从而得到第n个文本向量Cn的位置信息编码
Figure BDA0003031357970000083
Figure BDA0003031357970000084
式(11)中,t表示字符在向量化后的第n个文本向量Cn中的位置,f(t)i表示第i个字符
Figure BDA0003031357970000088
在t位置的位置信息的计算函数,:=表示生成符号,δ表示缩放尺寸,在本实施例中为10000,d表示单个字符向量的维度,本实施例中为512;
步骤4.2、将第n个文本向量Cn及其位置信息编码Ln在对应位置相加后得到第n个输入向量Xn;再将第n个输入向量Xn输入多头注意力层的每个点积注意力中,从而利用式(12)得出第j个点积注意力的输出αj
Figure BDA0003031357970000085
式(12)中,
Figure BDA0003031357970000086
表示第n个输入向量Xn经过d×dK维的线性变换矩阵WQ的映射后所得到的查询向量,
Figure BDA0003031357970000087
表示第n个输入向量Xn经过d×dK维的线性变换矩阵WK的映射后所得到的关键字向量,dK表示Kj的维度,
Figure BDA0003031357970000091
表示
Figure BDA0003031357970000092
的转置,
Figure BDA0003031357970000093
表示第n个输入向量Xn经过d×dV维的线性变换矩阵WV的映射后所得到的值向量,dV表示Vj的维度,softmax(·)表示归一化指数函数,j=1,2,…,h。本实施例中dK=dV=64;
步骤4.3、将h个点积注意力的输出
Figure BDA0003031357970000094
进行拼接,得到第n个向量矩阵αn,从而利用式(13)得到多头注意力层最终的输出向量On,本实施例中h=16;
Figure BDA0003031357970000095
式(13)中,WO表示d×dK维的线性变换矩阵,Concat(·)表示拼接操作;
步骤4.4、将多头注意力的输出向量On与其第n个输入向量Xn经过残差连接与归一化层,从而利用式(14)得到输出向量Hn
Hn=LayerNorm(Xn+On) (14)
式(14)中,LayerNorm(·)表示层归一化函数;
步骤4.5、将输出向量Hn输入双层全连接层中,从而利用式(15)得到相应层的输出In
In=max(0,HnW1+b1)W2+b2 (15)
式(15)中,W1,W2表示维度为d×dff的两个待训练的参数矩阵,dff表示全连接层隐藏节点的个数即该层的输出维度,b1表示第一偏置矩阵,b2表示第二偏置矩阵,max(·)表示取最大值函数。本实施例中dff=1024;
步骤4.6、将双层全连接层的输出In与输出向量Hn经过残差连接与归一化层,从而利用式(4)得到第n个文本向量Cn的上下文向量Un
步骤4.7、上下文向量Un通过一层全连接层处理后得到编码器神经网络输出的维度为d×dff的缩放后的上下文向量U′n,并作为编码器的输出向量;
步骤5、构建解码器神经网络,包括:预处理网络、2个单向LSTM层、位置敏感注意力层、停止标记位预测层、Mel预测层以及后处理网络;预处理网络包含2个全连接层,每个全连接层均有dpre个ReLU隐藏单元;后处理网络r层卷积层,每层包含ddec个维度为k×1的卷积核。本实施例中dpre=256,ddec=512,k=5;
步骤5.1、定义t时刻解码器神经网络的输出为
Figure BDA0003031357970000096
定义t时刻位置敏感注意力层的输出为
Figure BDA0003031357970000101
当t=0时,令解码器神经网络的输出
Figure BDA0003031357970000102
和位置敏感注意力层的输出
Figure BDA0003031357970000103
均为全0矩阵;
步骤5.2、t时刻解码器神经网络的输出
Figure BDA0003031357970000104
通过预处理网络后得到预处理层的输出向量
Figure BDA0003031357970000105
将预处理层的输出向量
Figure BDA0003031357970000106
与t时刻位置敏感注意力层的输出
Figure BDA0003031357970000107
连接后通过2个具有denc个隐藏单元的单向LSTM层,得到输出向量
Figure BDA0003031357970000108
步骤5.3、将t时刻单向LSTM层的输出向量
Figure BDA0003031357970000109
与编码器的输出向量U′n输入到位置敏感注意力层中得到该层输出的注意力向量Ft n
步骤5.4、将注意力向量Ft n通过维度为(d+ddec)×1的停止标记位预测层的处理后再经过sigmod函数激活处理后得到t时刻的停止标记值
Figure BDA00030313579700001010
Figure BDA00030313579700001011
时,表示预测结束,并将所有时刻解码器神经网络的输出
Figure BDA00030313579700001012
整合为第n个输入向量Xn最终的目标梅尔频谱帧向量Yn后,执行步骤6;
Figure BDA00030313579700001013
时,执行步骤5.5,其中,threshold表示停止阈值,在本实施例中threshold=0.5;
步骤5.5、注意力向量Ft n经过Mel预测层的处理后输出Mel向量
Figure BDA00030313579700001014
将Mel向量
Figure BDA00030313579700001015
与注意力向量Ft n进行残差连接后再输入到后处理网络中,经过ddec个卷积层的处理后再进行batch归一化处理,且所述处理网络除了在最后一层卷积层之外的所有层上用tanh激活函数,从而得到时刻t+1的输出
Figure BDA00030313579700001016
步骤5.6、将t+1赋值给t后,返回步骤5.2执行;
步骤6、将向量化后的第n个文本向量Cn及第n条语音信息特征MFCCn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练,从而获得训练后的梅尔频谱预测模型,用于将文本转换成梅尔频谱帧;
步骤6.1、本实施例使用Adam优化器,其中β1=0.9,β2=0.999,ε=10-8,并且将学习率固定为10-3,且还应用权重为10-6的L2正则化。
步骤6.2、在实施例中定义本发明的神经网络的当前迭代次数为μ,并初始化μ=1;最大迭代次数为μmax=1000;定义batchsize大小为64;定义神经网络的期望输出为t,定义人工设定的熵损失值为h,对深度学习网络中各层的参数进行随机初始化;
步骤6.3、加载数据进行训练,训练过程中每个时间步对比预测值与实际值,计算均方损失函数如(16),并使用Adam优化器更新参数。
MSELoss(xi,yi)=(xi-yi)2 (16)
式(16)中,xi,yi分别为时刻i的预测值与实际值。
步骤7、使用WaveGlow模型作为声码器,并使用第n条语音信息特征MFCCn以及对应音频进行训练,从而获得训练后的WaveGlow模型,用于将梅尔频谱帧生成对应的音频;本实施例使用带有librosamel过滤器默认设置的80个bin的梅尔频谱图,即每个bin通过过滤器长度进行归一化,并且刻度与HTK相同。梅尔频谱图的参数是FFT大小1024,跳数256和窗口大小1024。
步骤8、将训练后的梅尔频谱预测模型与WaveGlow模型组成为语音合成模型,从而对按照步骤2处理后的文本向量进行语音合成,并获得音频结果。
基于BERT的端到端语音合成模型,能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度。并且,它能从输入序列中获取远距离信息,使其在长文本语音合成中效果很好。

Claims (1)

1.一种基于深度学习的语音合成方法,其特征是按如下步骤进行:
步骤1、建立文本数据库和音频数据库,所述文本数据库中的每个文本与所述音频数据库中的每个音频用编号相对应,从而得到N条原始数据,记为W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n条原始数据,且W(n)=<Audion,Textn>;Audion表示第n条音频,Textn表示第n个文本,n=1,2,…,N;
步骤2、对第n个文本Textn进行标准化处理,得到预处理后的第n个文本Textn′;
将所述预处理后的第n个文本Text′n中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为
Figure FDA0003031357960000011
其中,
Figure FDA0003031357960000012
表示第n个文本向量的第i个字符,i=1,2,…,m,m为字符串长度;
步骤3、利用梅尔频率倒谱系数对第n条音频Audion进行语音特征提取,得到第n条语音信息特征MFCCn,从而与所述向量化后的第n个文本向量Cn共同构成第n条训练数据W′(n)=<MFCCn,Cn>;
步骤4、构建基于BERT模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;所述多头注意力层是由h个点积注意力组成;所述双层全连接层、单层全连接层中设置有概率为p的Dropout函数以及神经元的激活函数tanh;
步骤4.1、利用式(1)得到第n个文本向量Cn在t位置对应的位置信息编码
Figure FDA0003031357960000013
从而得到第n个文本向量Cn的位置信息编码
Figure FDA0003031357960000014
Figure FDA0003031357960000015
式(1)中,t表示字符在所述向量化后的第n个文本向量Cn中的位置,f(t)i表示第i个字符
Figure FDA0003031357960000016
在t位置的位置信息的计算函数,:=表示生成符号,δ表示缩放尺寸,d表示单个字符向量的维度;
步骤4.2、将第n个文本向量Cn及其位置信息编码Ln在对应位置相加后得到第n个输入向量Xn;再将第n个输入向量Xn输入所述多头注意力层的每个点积注意力中,从而利用式(2)得出第j个点积注意力的输出αj
Figure FDA0003031357960000021
式(2)中,
Figure FDA0003031357960000022
表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WQ的映射后所得到的查询向量,
Figure FDA0003031357960000023
表示所述第n个输入向量Xn经过d×dK维的线性变换矩阵WK的映射后所得到的关键字向量,dK表示Kj的维度,
Figure FDA0003031357960000024
表示
Figure FDA0003031357960000025
的转置,
Figure FDA0003031357960000026
表示所述第n个输入向量Xn经过d×dV维的线性变换矩阵WV的映射后所得到的值向量,dV表示Vj的维度,softmax(·)表示归一化指数函数,j=1,2,…,h;
步骤4.3、将h个点积注意力的输出
Figure FDA0003031357960000027
进行拼接,得到第n个向量矩阵αn,从而利用式(3)得到多头注意力层最终的输出向量On
Figure FDA0003031357960000028
式(3)中,WO表示d×dK维的线性变换矩阵,Concat(·)表示拼接操作;
步骤4.4、将多头注意力的输出向量On与其第n个输入向量Xn经过残差连接与归一化层,从而利用式(4)得到输出向量Hn
Hn=LayerNorm(Xn+On) (4)
式(4)中,LayerNorm(·)表示层归一化函数;
步骤4.5、将输出向量Hn输入所述双层全连接层中,从而利用式(5)得到相应层的输出In
In=max(0,HnW1+b1)W2+b2 (5)
式(5)中,W1,W2表示维度为d×dff的两个待训练的参数矩阵,dff表示全连接层隐藏节点的个数即该层的输出维度,b1表示第一偏置矩阵,b2表示第二偏置矩阵,max(·)表示取最大值函数;
步骤4.6、将双层全连接层的输出In与输出向量Hn经过残差连接与归一化层,从而利用式(4)得到第n个文本向量Cn的上下文向量Un
步骤4.7、所述上下文向量Un通过一层全连接层处理后得到所述编码器神经网络输出的维度为d×dff的缩放后的上下文向量U′n,并作为编码器的输出向量;
步骤5、构建解码器神经网络,包括:预处理网络、2个单向LSTM层、位置敏感注意力层、停止标记位预测层、Mel预测层以及后处理网络;所述预处理网络包含2个全连接层,每个全连接层均有dpre个ReLU隐藏单元;所述后处理网络r层卷积层,每层包含ddec个维度为k×1的卷积核;
步骤5.1、定义t时刻解码器神经网络的输出为
Figure FDA0003031357960000031
定义t时刻位置敏感注意力层的输出为
Figure FDA0003031357960000032
当t=0时,令解码器神经网络的输出
Figure FDA0003031357960000033
和位置敏感注意力层的输出
Figure FDA0003031357960000034
均为全0矩阵;
步骤5.2、所述t时刻解码器神经网络的输出
Figure FDA0003031357960000035
通过所述预处理网络后得到预处理层的输出向量
Figure FDA0003031357960000036
将预处理层的输出向量
Figure FDA0003031357960000037
与t时刻位置敏感注意力层的输出
Figure FDA0003031357960000038
连接后通过2个具有denc个隐藏单元的单向LSTM层,得到输出向量
Figure FDA0003031357960000039
步骤5.3、将t时刻单向LSTM层的输出向量
Figure FDA00030313579600000310
与编码器的输出向量U′n输入到位置敏感注意力层中得到该层输出的注意力向量Ft n
步骤5.4、将注意力向量Ft n通过维度为(m+ddec)×1的停止标记位预测层的处理后再经过sigmod函数激活处理后得到t时刻的停止标记值
Figure FDA00030313579600000311
Figure FDA00030313579600000312
时,表示预测结束,并将所有时刻解码器神经网络的输出
Figure FDA00030313579600000313
整合为第n个输入向量Xn最终的目标梅尔频谱帧向量Yn后,执行步骤6;
Figure FDA00030313579600000314
时,执行步骤5.5,其中,threshold表示停止阈值;
步骤5.5、注意力向量Ft n经过所述Mel预测层的处理后输出Mel向量
Figure FDA00030313579600000315
将Mel向量
Figure FDA00030313579600000316
与注意力向量Ft n进行残差连接后再输入到所述后处理网络中,经过ddec个卷积层的处理后再进行batch归一化处理,且所述后处理网络除在最后一层卷积层之外的其他所有层上均用tanh激活函数,从而得到时刻t+1的输出
Figure FDA00030313579600000317
步骤5.6、将t+1赋值给t后,返回步骤5.2执行;
步骤6、将所述向量化后的第n个文本向量Cn及第n条语音信息特征MFCCn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练,从而获得训练后的梅尔频谱预测模型,用于将文本转换成梅尔频谱帧;
步骤7、使用WaveGlow模型作为声码器,并使用第n条语音信息特征MFCCn以及对应音频进行训练,从而获得训练后的WaveGlow模型,用于将梅尔频谱帧生成对应的音频;
步骤8、将训练后的梅尔频谱预测模型与WaveGlow模型组成为语音合成模型,从而对按照步骤2处理后的文本向量进行语音合成,并获得音频结果。
CN202110430708.0A 2021-04-21 2021-04-21 一种基于深度学习的语音合成方法 Active CN113112985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110430708.0A CN113112985B (zh) 2021-04-21 2021-04-21 一种基于深度学习的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110430708.0A CN113112985B (zh) 2021-04-21 2021-04-21 一种基于深度学习的语音合成方法

Publications (2)

Publication Number Publication Date
CN113112985A CN113112985A (zh) 2021-07-13
CN113112985B true CN113112985B (zh) 2022-01-18

Family

ID=76719347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110430708.0A Active CN113112985B (zh) 2021-04-21 2021-04-21 一种基于深度学习的语音合成方法

Country Status (1)

Country Link
CN (1) CN113112985B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808573B (zh) * 2021-08-06 2023-11-07 华南理工大学 基于混合域注意力与时序自注意力的方言分类方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782870A (zh) * 2019-09-06 2020-02-11 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
CN111125356A (zh) * 2019-11-29 2020-05-08 江苏艾佳家居用品有限公司 一种文本分类方法及系统
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN112086086A (zh) * 2020-10-22 2020-12-15 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN112509554A (zh) * 2020-12-11 2021-03-16 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
WO2021050134A1 (en) * 2019-09-12 2021-03-18 Microsoft Technology Licensing, Llc Neural text-to-speech synthesis with multi-level context features

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782870A (zh) * 2019-09-06 2020-02-11 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
WO2021050134A1 (en) * 2019-09-12 2021-03-18 Microsoft Technology Licensing, Llc Neural text-to-speech synthesis with multi-level context features
CN111125356A (zh) * 2019-11-29 2020-05-08 江苏艾佳家居用品有限公司 一种文本分类方法及系统
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN112086086A (zh) * 2020-10-22 2020-12-15 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN112509554A (zh) * 2020-12-11 2021-03-16 平安科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Downhole Track Detection via Multi-scale Conditional Generative Adversarial Nets;Xing wei et al.;《IEEE Access》;20161231;第1-11页 *
Vocoder-free End-to-End Voice Conversion with Transformer Network;Kim, J. W. et al.;《arXiv》;20200229;全文 *
基于Transformer的越南语连续语音识别;刘佳文 等;《信息工程大学学报》;20200430;第21卷(第02期);第129-133页 *

Also Published As

Publication number Publication date
CN113112985A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Liu et al. Diffsinger: Singing voice synthesis via shallow diffusion mechanism
Yu et al. Durian: Duration informed attention network for multimodal synthesis
CN111754976B (zh) 一种韵律控制语音合成方法、系统及电子装置
Blaauw et al. A neural parametric singing synthesizer
CN112017644B (zh) 一种声音变换系统、方法及应用
Zen Acoustic modeling in statistical parametric speech synthesis-from HMM to LSTM-RNN
CN110534089A (zh) 一种基于音素和韵律结构的中文语音合成方法
CN113506562B (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
Kaur et al. Conventional and contemporary approaches used in text to speech synthesis: A review
CN114495969A (zh) 一种融合语音增强的语音识别方法
Nakamura et al. Fast and high-quality singing voice synthesis system based on convolutional neural networks
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
Fahmy et al. A transfer learning end-to-end arabic text-to-speech (tts) deep architecture
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
CN113345415A (zh) 语音合成方法、装置、设备及存储介质
Dua et al. Spectral warping and data augmentation for low resource language ASR system under mismatched conditions
Kadyan et al. Synthesis speech based data augmentation for low resource children ASR
CN113112985B (zh) 一种基于深度学习的语音合成方法
Hasija et al. Out domain data augmentation on Punjabi children speech recognition using Tacotron
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
Ramos Voice conversion with deep learning
Zhao et al. Research on voice cloning with a few samples
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
Guerid et al. Recognition of isolated digits using DNN–HMM and harmonic noise model
Carlson et al. Vowel classification based on analysis-by-synthesis.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant