CN111128114B - 一种语音合成的方法及装置 - Google Patents

一种语音合成的方法及装置 Download PDF

Info

Publication number
CN111128114B
CN111128114B CN201911095106.3A CN201911095106A CN111128114B CN 111128114 B CN111128114 B CN 111128114B CN 201911095106 A CN201911095106 A CN 201911095106A CN 111128114 B CN111128114 B CN 111128114B
Authority
CN
China
Prior art keywords
matrix
output
input
time
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911095106.3A
Other languages
English (en)
Other versions
CN111128114A (zh
Inventor
晋博琛
郑岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Daniel Technology Development Co ltd
Original Assignee
Beijing Daniel Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Daniel Technology Development Co ltd filed Critical Beijing Daniel Technology Development Co ltd
Priority to CN201911095106.3A priority Critical patent/CN111128114B/zh
Publication of CN111128114A publication Critical patent/CN111128114A/zh
Application granted granted Critical
Publication of CN111128114B publication Critical patent/CN111128114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种语音合成的方法及装置,所述方法包括:获取预训练的字符向量矩阵;获取待训练的字符向量矩阵;将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接;通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形;本发明的优点在于:模型收敛快,稳定性较强。

Description

一种语音合成的方法及装置
技术领域
本发明涉及语音合成领域,更具体涉及一种语音合成的方法及装置。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(Text ToSpeech,文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。采用世界领先的语音合成技术,研发出来的“语音合成助手”软件可以完美的完成语音合成工作。
现有的语音合成技术分为以下几种,如图1所示为波形拼接的方法实现语音合成,属于较早期的方式,效果欠佳,如图2为参数合成的方法实现语音合成,当前常用的方式,但效果有待进一步提高,由于训练过程是2阶段,较繁琐,且第二阶段声码器依靠参数进行波形重建,参数中有很多需要人工调整的地方,工作量很大且很难找到最优配置;两阶段神经网络实现语音合成,也是当前常用的方式,但效果有待进一步提高,由于训练过程是2阶段,较繁琐,且第一阶段通常使用注意力机制,模型收敛很慢,梅尔生成长度和停止位置预测不稳定,实际使用时会出现异常情况,稳定性不足;如图3所示为完全端到端波形生成神经网络实现语音合成,是最新的方式,但效果较参数合成的方法和两阶段神经网络的方法效果欠佳,内部也采用注意力机制,模型收敛很慢,波形生成长度和停止位置预测不稳定,实际使用时会出现异常情况,稳定性不足。
由于语音合成时,输入的是待合成的文本内容,输出的是音频波形,而文本长度和音频长度之间没有对应或换算关系,所以两阶段神经网络的方法和完全端到端波形生成神经网络实现语音合成中使用注意力机制进行序列到序列的预测,但模型收敛慢,预测稳定性不足,尤其是对于长句而言,全局注意力机制有效性不足。
发明内容
本发明所要解决的技术问题在于如何提供一种模型收敛较快,预测稳定性较强的语音合成方法及装置。
本发明通过以下技术手段实现解决上述技术问题的:一种语音合成的方法,所述方法包括:
通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;
通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;
将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;
通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;
通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;
将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;
再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;
将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。
本发明首先训练字符向量,得到预训练的字符向量矩阵,其次预测文本中每个字符的发音长度,从而得到文本与待合成波形间的映射关系,进而按照预测的发音长度等比例重采样得到与预测波形长度相近的重采样矩阵,整体通过多层一维卷积层和双向递归神经网络进行最终波形的预测,采用多层一维卷积层和神经网络,使得模型收敛快,稳定性强。
优选的,所述通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵,包括:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量。
优选的,所述通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵,包括:将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L。
优选的,所述将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵,包括:将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L。
优选的,所述通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵,包括:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式
Figure BDA0002268083700000031
对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,
Figure BDA0002268083700000041
是互相关运算符。
优选的,所述通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵,包括:将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout=Xin,Lout=Tin,通过一层双向递归神经网络
it=σ(Wiixt+bii+Whih(t-1)+bhi)
ft=σ(Wifxt+bif+Whfh(t-1)+bhf)
gt=tanh(Wigxt+big+Whgh(t-1)+bhg)
ot=σ(Wioxt+bio+Whoh(t-1)+bho)
ct=ft*c(t-1)+it*gt
ht=ot*tanh(ct)
对矩阵Xin×Tin继续编码,获得再编码矩阵Xout×Tout;其中,xt为t时刻的输入且t∈[0,Tin],Wii是当前时刻输入的输入门权重,bii是当前时刻输入的输入门偏置,Whi是上一时刻输出的输入门权重,bhi是上一时刻输出的输入门偏置;Wif是当前时刻输入的遗忘门权重,bif是当前时刻输入的遗忘门偏置,Whf是上一时刻输出的遗忘门权重,bhf是上一时刻输出的遗忘门偏置;Wig是当前时刻输入的细胞门权重,big是当前时刻输入的细胞门偏置,Whg是上一时刻输出的细胞门权重,bhg是上一时刻输出的细胞门偏置;Wio是当前时刻输入的输出门权重,bio是当前时刻输入的输出门偏置,Who是上一时刻输出的输出门权重,bho是上一时刻输出的输出门偏置;ht是t时刻的隐状态,h(t-1)是t-1时刻的隐状态,ct是t时刻的细胞状态,it是t时刻输入门的输出,ft是t时刻遗忘门的输出,gt是t时刻细胞门的输出,ot是t时刻输出门的输出。
优选的,所述将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵,包括:对再编码矩阵Xout×Tout通过全连接层Lt1=round(W*xt1+b)进行发音长度预测,xt1是t1时刻的输入且t1∈[0,Tout],W是全连接层的权重,b是全连接层的偏置,round是四舍五入取整函数,Lt1是t1时刻字符的预测发音长度,对所有时刻的字符预测发音长度以后,获得长度预测矩阵L1×Tout,L1是所有时刻的字符预测发音长度集合。
优选的,所述再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵,包括:根据每个时刻预测的发音长度,通过一个全连接层yt2=WL*xt2+bL对长度预测矩阵L1×Tout进行重采样,其中,xt2是t2时刻的输入且t2∈[0,Tout],WL是长度为Lt1的全连接层权重参数,bL是长度为Lt1的全连接层偏置参数,yt2是重采样后t2时刻的输出,得到每个时刻的输出结果以后,将每个时刻的输出结果y0,y1,y2...
Figure BDA0002268083700000051
进行拼接,获得重采样矩阵Y×Tout
本发明还提供一种语音合成的装置,所述装置包括:
预训练模块,用于通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;
待训练模块,用于通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;
拼接模块,用于将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;
编码模块,用于通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;
再编码模块,用于通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;
长度预测模块,用于将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;
重采样模块,用于再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;
解码模块,用于将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。
优选的,所述预训练模块,具体用于:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量。
优选的,所述待训练模块,具体用于:将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L。
优选的,所述拼接模块,具体用于:将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L。
优选的,所述编码模块,具体用于:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式
Figure BDA0002268083700000061
对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,
Figure BDA0002268083700000071
是互相关运算符。
优选的,所述再编码模块,具体用于:将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout=Xin,Lout=Tin,通过一层双向递归神经网络
it=σ(Wiixt+bii+Whih(t-1)+bhi)
ft=σ(Wifxt+bif+Whfh(t-1)+bhf)
gt=tanh(Wigxt+big+Whgh(t-1)+bhg)
ot=σ(Wioxt+bio+Whoh(t-1)+bho)
ct=ft*c(t-1)+it*gt
ht=ot*tanh(ct)
对矩阵Xin×Tin继续编码,获得再编码矩阵Xout×Tout;其中,xt为t时刻的输入且t∈[0,Tin],Wii是当前时刻输入的输入门权重,bii是当前时刻输入的输入门偏置,Whi是上一时刻输出的输入门权重,bhi是上一时刻输出的输入门偏置;Wif是当前时刻输入的遗忘门权重,bif是当前时刻输入的遗忘门偏置,Whf是上一时刻输出的遗忘门权重,bhf是上一时刻输出的遗忘门偏置;Wig是当前时刻输入的细胞门权重,big是当前时刻输入的细胞门偏置,Whg是上一时刻输出的细胞门权重,bhg是上一时刻输出的细胞门偏置;Wio是当前时刻输入的输出门权重,bio是当前时刻输入的输出门偏置,Who是上一时刻输出的输出门权重,bho是上一时刻输出的输出门偏置;ht是t时刻的隐状态,h(t-1)是t-1时刻的隐状态,ct是t时刻的细胞状态,it是t时刻输入门的输出,ft是t时刻遗忘门的输出,gt是t时刻细胞门的输出,ot是t时刻输出门的输出。
优选的,所述长度预测模块,具体用于:对再编码矩阵Xout×Tout通过全连接层Lt1=round(W*xt1+b)进行发音长度预测,xt1是t1时刻的输入且t1∈[0,Tout],W是全连接层的权重,b是全连接层的偏置,round是四舍五入取整函数,Lt1是t1时刻字符的预测发音长度,对所有时刻的字符预测发音长度以后,获得长度预测矩阵L1×Tout,L1是所有时刻的字符预测发音长度集合。
优选的,所述重采样模块,具体用于:根据每个时刻预测的发音长度,通过一个全连接层yt2=WL*xt2+bL对长度预测矩阵L1×Tout进行重采样,其中,xt2是t2时刻的输入且t2∈[0,Tout],WL是长度为Lt1的全连接层权重参数,bL是长度为Lt1的全连接层偏置参数,yt2是重采样后t2时刻的输出,得到每个时刻的输出结果以后,将每个时刻的输出结果y0,y1,y2...
Figure BDA0002268083700000081
进行拼接,获得重采样矩阵Y×Tout
本发明的优点在于:
(1)本发明首先训练字符向量,得到预训练的字符向量矩阵,其次预测文本中每个字符的发音长度,从而得到文本与待合成波形间的映射关系,进而按照预测的发音长度等比例重采样得到与预测波形长度相近的重采样矩阵,整体通过多层一维卷积层和双向递归神经网络进行最终波形的预测,采用多层一维卷积层和神经网络,使得模型收敛快,稳定性强。
(2)通过大量文本预训练含有语义信息的字符向量,在输入待训练的字符向量的同时,合并入参数冻结的预训练的字符向量,从而整体句子矩阵包含必要的语义信息,提高语音合成的自然度。
附图说明
图1为波形拼接的方法实现语音合成的示意图;
图2为参数合成的方法实现语音合成的示意图;
图3为完全端到端波形生成神经网络实现语音合成的示意图;
图4为本发明实施例1所公开的一种语音合成的方法的流程示意图;
图5为本发明实施例2所公开的一种语音合成的装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图4所示,一种语音合成的方法,所述方法包括:
首先通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵,具体过程为:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量。这里获取预训练的字符向量矩阵属于现有技术的CBOW(Continuous Bag-Of-Words,连续词袋模型)的方式,在此不做过多赘述。
然后,将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L。其中,每个字符在向量表格中对应有一个固定长度的向量,所以待训练的字符向量矩阵只需要查表即可,且向量表格属于现有技术的表格,本领域技术人员很容易获知,在此不做赘述。
接着,将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L,这一步骤的目的是,通过大量文本预训练含有语义信息的字符向量,在输入待训练的字符向量的同时,合并入参数冻结的预训练的字符向量,从而整体句子矩阵包含必要的语义信息,提高语音合成的自然度。
然后,通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵,具体过程为:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式
Figure BDA0002268083700000101
对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,
Figure BDA0002268083700000102
是互相关运算符。
接着,通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵,具体过程为:将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout=Xin,Lout=Tin,通过一层双向递归神经网络
it=σ(Wiixt+bii+Whih(t-1)+bhi)
ft=σ(Wifxt+bif+Whfh(t-1)+bhf)
gt=tanh(Wigxt+big+Whgh(t-1)+bhg)
ot=σ(Wioxt+bio+Whoh(t-1)+bho)
ct=ft*c(t-1)+it*gt
ht=ot*tanh(ct)
对矩阵Xin×Tin继续编码,获得再编码矩阵Xout×Tout;其中,xt为t时刻的输入且t∈[0,Tin],Wii是当前时刻输入的输入门权重,bii是当前时刻输入的输入门偏置,Whi是上一时刻输出的输入门权重,bhi是上一时刻输出的输入门偏置;Wif是当前时刻输入的遗忘门权重,bif是当前时刻输入的遗忘门偏置,Whf是上一时刻输出的遗忘门权重,bhf是上一时刻输出的遗忘门偏置;Wig是当前时刻输入的细胞门权重,big是当前时刻输入的细胞门偏置,Whg是上一时刻输出的细胞门权重,bhg是上一时刻输出的细胞门偏置;Wio是当前时刻输入的输出门权重,bio是当前时刻输入的输出门偏置,Who是上一时刻输出的输出门权重,bho是上一时刻输出的输出门偏置;ht是t时刻的隐状态,h(t-1)是t-1时刻的隐状态,ct是t时刻的细胞状态,it是t时刻输入门的输出,ft是t时刻遗忘门的输出,gt是t时刻细胞门的输出,ot是t时刻输出门的输出。
紧接着,将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵,具体过程为:对再编码矩阵Xout×Tout通过全连接层Lt1=round(W*xt1+b)进行发音长度预测,xt1是t1时刻的输入且t1∈[0,Tout],W是全连接层的权重,b是全连接层的偏置,round是四舍五入取整函数,Lt1是t1时刻字符的预测发音长度,对所有时刻的字符预测发音长度以后,获得长度预测矩阵L1×Tout,L1是所有时刻的字符预测发音长度集合。
然后,再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵,具体过程为:根据每个时刻预测的发音长度,通过一个全连接层yt2=WL*xt2+bL对长度预测矩阵L1×Tout进行重采样,其中,xt2是t2时刻的输入且t2∈[0,Tout],WL是长度为Lt1的全连接层权重参数,bL是长度为Lt1的全连接层偏置参数,yt2是重采样后t2时刻的输出,得到每个时刻的输出结果以后,将每个时刻的输出结果y0,y1,y2...
Figure BDA0002268083700000111
进行拼接,获得重采样矩阵Y×Tout
最后,将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。其中解码过程与前文对整体句子矩阵进行编码的过程类似,公式也相同,只是这里输入不同,输入的是重采样矩阵,再解码的过程与前文对编码矩阵继续编码的过程类似,公式相同,只是这里输入不同,输入的是经过解码以后的结果值,所以在此对解码和再解码的过程不做过多描述。另外,本发明得到再解码矩阵以后,将再解码矩阵首先通过tanh函数映射到映射到-1至1的区间,再整体乘以系数32768,将再解码矩阵映射到-32768到32767的16位宽的数值范围内,得到最终输出波形。
需要说明的是,图4中编码器相当于本发明的编码和再编码的过程,解码器和声码器相当于本发明的解码和再解码的过程。
通过以上技术方案,本发明提供的一种语音合成方法,首先训练字符向量,得到预训练的字符向量矩阵,其次预测文本中每个字符的发音长度,从而得到文本与待合成波形间的映射关系,进而按照预测的发音长度等比例重采样得到与预测波形长度相近的重采样矩阵,整体通过多层一维卷积层和双向递归神经网络进行最终波形的预测,采用多层一维卷积层和神经网络,使得模型收敛快,稳定性强。
实施例2
如图5所示,与本发明实施例1相对应的,本发明实施例2还提供一种语音合成的装置,所述装置包括:
预训练模块,用于通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;
待训练模块,用于通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;
拼接模块,用于将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;
编码模块,用于通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;
再编码模块,用于通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;
长度预测模块,用于将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;
重采样模块,用于再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;
解码模块,用于将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。
具体的,所述预训练模块,具体用于:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量。
具体的,所述待训练模块,具体用于:将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L。
具体的,所述拼接模块,具体用于:将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L。
具体的,所述编码模块,具体用于:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式
Figure BDA0002268083700000141
对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,
Figure BDA0002268083700000142
是互相关运算符。
具体的,所述再编码模块,具体用于:将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout=Xin,Lout=Tin,通过一层双向递归神经网络
it=σ(Wiixt+bii+Whih(t-1)+bhi)
ft=σ(Wifxt+bif+Whfh(t-1)+bhf)
gt=tanh(Wigxt+big+Whgh(t-1)+bhg)
ot=σ(Wioxt+bio+Whoh(t-1)+bho)
ct=ft*c(t-1)+it*gt
ht=ot*tanh(ct)
对矩阵Xin×Tin继续编码,获得再编码矩阵Xout×Tout;其中,xt为t时刻的输入且t∈[0,Tin],Wii是当前时刻输入的输入门权重,bii是当前时刻输入的输入门偏置,Whi是上一时刻输出的输入门权重,bhi是上一时刻输出的输入门偏置;Wif是当前时刻输入的遗忘门权重,bif是当前时刻输入的遗忘门偏置,Whf是上一时刻输出的遗忘门权重,bhf是上一时刻输出的遗忘门偏置;Wig是当前时刻输入的细胞门权重,big是当前时刻输入的细胞门偏置,Whg是上一时刻输出的细胞门权重,bhg是上一时刻输出的细胞门偏置;Wio是当前时刻输入的输出门权重,bio是当前时刻输入的输出门偏置,Who是上一时刻输出的输出门权重,bho是上一时刻输出的输出门偏置;ht是t时刻的隐状态,h(t-1)是t-1时刻的隐状态,ct是t时刻的细胞状态,it是t时刻输入门的输出,ft是t时刻遗忘门的输出,gt是t时刻细胞门的输出,ot是t时刻输出门的输出。
具体的,所述长度预测模块,具体用于:对再编码矩阵Xout×Tout通过全连接层Lt1=round(W*xt1+b)进行发音长度预测,xt1是t1时刻的输入且t1∈[0,Tout],W是全连接层的权重,b是全连接层的偏置,round是四舍五入取整函数,Lt1是t1时刻字符的预测发音长度,对所有时刻的字符预测发音长度以后,获得长度预测矩阵L1×Tout,L1是所有时刻的字符预测发音长度集合。
具体的,所述重采样模块,具体用于:根据每个时刻预测的发音长度,通过一个全连接层yt2=WL*xt2+bL对长度预测矩阵L1×Tout进行重采样,其中,xt2是t2时刻的输入且t2∈[0,Tout],WL是长度为Lt1的全连接层权重参数,bL是长度为Lt1的全连接层偏置参数,yt2是重采样后t2时刻的输出,得到每个时刻的输出结果以后,将每个时刻的输出结果y0,y1,y2...
Figure BDA0002268083700000151
进行拼接,获得重采样矩阵Y×Tout
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种语音合成的方法,其特征在于,所述方法包括:
通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;包括:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量;
通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;包括:将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L;
将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;包括:将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L;
通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;包括:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式
Figure FDA0003539158820000011
对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,
Figure FDA0003539158820000012
是互相关运算符;
通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;
将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;
再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;
将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。
2.根据权利要求1所述的一种语音合成的方法,其特征在于,所述通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵,包括:将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout=Xin,Lout=Tin,通过一层双向递归神经网络
it=σ(Wiixt+bii+Whih(t-1)+bhi)
ft=σ(Wifxt+bif+Whfh(t-1)+bhf)
gt=tanh(Wigxt+big+Whgh(t-1)+bhg)
ot=σ(Wioxt+bio+Whoh(t-1)+bho)
ct=ft*c(t-1)+it*gt
ht=ot*tanh(ct)
对矩阵Xin×Tin继续编码,获得再编码矩阵Xout×Tout;其中,xt为t时刻的输入且t∈[0,Tin],Wii是当前时刻输入的输入门权重,bii是当前时刻输入的输入门偏置,Whi是上一时刻输出的输入门权重,bhi是上一时刻输出的输入门偏置;Wif是当前时刻输入的遗忘门权重,bif是当前时刻输入的遗忘门偏置,Whf是上一时刻输出的遗忘门权重,bhf是上一时刻输出的遗忘门偏置;Wig是当前时刻输入的细胞门权重,big是当前时刻输入的细胞门偏置,Whg是上一时刻输出的细胞门权重,bhg是上一时刻输出的细胞门偏置;Wio是当前时刻输入的输出门权重,bio是当前时刻输入的输出门偏置,Who是上一时刻输出的输出门权重,bho是上一时刻输出的输出门偏置;ht是t时刻的隐状态,h(t-1)是t-1时刻的隐状态,ct是t时刻的细胞状态,it是t时刻输入门的输出,ft是t时刻遗忘门的输出,gt是t时刻细胞门的输出,ot是t时刻输出门的输出。
3.根据权利要求2所述的一种语音合成的方法,其特征在于,所述将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵,包括:对再编码矩阵Xout×Tout通过全连接层Lt1=round(W*xt1+b)进行发音长度预测,xt1是t1时刻的输入且t1∈[0,Tout],W是全连接层的权重,b是全连接层的偏置,round是四舍五入取整函数,Lt1是t1时刻字符的预测发音长度,对所有时刻的字符预测发音长度以后,获得长度预测矩阵L1×Tout,L1是所有时刻的字符预测发音长度集合。
4.根据权利要求3所述的一种语音合成的方法,其特征在于,所述再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵,包括:根据每个时刻预测的发音长度,通过一个全连接层yt2=WL*xt2+bL对长度预测矩阵L1×Tout进行重采样,其中,xt2是t2时刻的输入且t2∈[0,Tout],WL是长度为Lt1的全连接层权重参数,bL是长度为Lt1的全连接层偏置参数,yt2是重采样后t2时刻的输出,得到每个时刻的输出结果以后,将每个时刻的输出结果
Figure FDA0003539158820000031
进行拼接,获得重采样矩阵Y×Tout
5.一种语音合成的装置,其特征在于,所述装置包括:
预训练模块,用于通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;具体用于:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量;
待训练模块,用于通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;具体用于:将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L;
拼接模块,用于将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;具体用于:将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L;
编码模块,用于通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;包括:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式
Figure FDA0003539158820000041
对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,
Figure FDA0003539158820000042
是互相关运算符;
再编码模块,用于通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;
长度预测模块,用于将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;
重采样模块,用于再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;
解码模块,用于将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。
CN201911095106.3A 2019-11-11 2019-11-11 一种语音合成的方法及装置 Active CN111128114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911095106.3A CN111128114B (zh) 2019-11-11 2019-11-11 一种语音合成的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911095106.3A CN111128114B (zh) 2019-11-11 2019-11-11 一种语音合成的方法及装置

Publications (2)

Publication Number Publication Date
CN111128114A CN111128114A (zh) 2020-05-08
CN111128114B true CN111128114B (zh) 2022-04-22

Family

ID=70495221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911095106.3A Active CN111128114B (zh) 2019-11-11 2019-11-11 一种语音合成的方法及装置

Country Status (1)

Country Link
CN (1) CN111128114B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112767910B (zh) * 2020-05-13 2024-06-18 腾讯科技(深圳)有限公司 音频信息合成方法、装置、计算机可读介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020053496A (ko) * 2000-12-27 2002-07-05 김대중 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN109859736A (zh) * 2019-01-23 2019-06-07 北京光年无限科技有限公司 语音合成方法及系统
CN110288972A (zh) * 2019-08-07 2019-09-27 北京新唐思创教育科技有限公司 语音合成模型训练方法、语音合成方法及装置
EP3553773A1 (en) * 2018-04-12 2019-10-16 Spotify AB Training and testing utterance-based frameworks

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020053496A (ko) * 2000-12-27 2002-07-05 김대중 음성의 특징 벡터를 이용한 문자 음성 변환 장치 및 그 방법
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
EP3553773A1 (en) * 2018-04-12 2019-10-16 Spotify AB Training and testing utterance-based frameworks
CN109859736A (zh) * 2019-01-23 2019-06-07 北京光年无限科技有限公司 语音合成方法及系统
CN110288972A (zh) * 2019-08-07 2019-09-27 北京新唐思创教育科技有限公司 语音合成模型训练方法、语音合成方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于Tacotron 2的端到端中文语音合成方案;王国梁等;《华东师范大学学报(自然科学版)》;20190731(第4期);全文 *
基于WaveNet的端到端语音合成方法;邱泽宇等;《计算机应用》;20190121(第05期);全文 *
基于神经网络的藏语语音合成;都格草等;《中文信息学报》;20190228(第2期);全文 *

Also Published As

Publication number Publication date
CN111128114A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111798832B (zh) 语音合成方法、装置和计算机可读存储介质
CN107464559B (zh) 基于汉语韵律结构和重音的联合预测模型构建方法及系统
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
Yi et al. Efficiently fusing pretrained acoustic and linguistic encoders for low-resource speech recognition
Wang et al. A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis
TWI573129B (zh) 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
CN112133282A (zh) 轻量级多说话人语音合成系统及电子设备
CN110288972B (zh) 语音合成模型训练方法、语音合成方法及装置
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
CN113470622B (zh) 一种可将任意语音转换成多个语音的转换方法及装置
CN115620699B (zh) 语音合成方法、语音合成系统、语音合成设备及存储介质
CN112669809A (zh) 并行神经文本到语音转换
Fahmy et al. A transfer learning end-to-end arabic text-to-speech (tts) deep architecture
CN114464162B (zh) 语音合成方法、神经网络模型训练方法、和语音合成模型
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
KR102352986B1 (ko) 언어 특성 벡터를 이용한 콜미 서비스의 음성 합성 장치 및 방법
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
CN111128114B (zh) 一种语音合成的方法及装置
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
Holm et al. Learning the hidden structure of intonation: implementing various functions of prosody
Chen et al. A statistical model based fundamental frequency synthesizer for Mandarin speech
JP7357518B2 (ja) 音声合成装置及びプログラム
Liu et al. Pre-training Techniques for Improving Text-to-Speech Synthesis by Automatic Speech Recognition Based Data Enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant