CN112509554A - 语音合成方法、装置、电子设备及存储介质 - Google Patents
语音合成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112509554A CN112509554A CN202011452787.7A CN202011452787A CN112509554A CN 112509554 A CN112509554 A CN 112509554A CN 202011452787 A CN202011452787 A CN 202011452787A CN 112509554 A CN112509554 A CN 112509554A
- Authority
- CN
- China
- Prior art keywords
- character
- vector
- attention
- sequence
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 38
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 34
- 238000001308 synthesis method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 181
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 86
- 230000004913 activation Effects 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音合成技术,揭露一种语音合成方法,包括:获取字符向量,利用多头注意力网络对字符向量执行注意力计算,得到注意力向量;对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量;利用字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。本发明还揭露语音合成装置、电子设备以及存储介质。本发明可解决合成出的语音不够平滑及自然的问题。
Description
技术领域
本发明涉及语音合成领域,尤其涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。
背景技术
随着深度学习的迅速发展,基于深度学习网络的语音合成方法如雨后春笋般涌现,目前常用的语音合成方法包括LSTM合成法、BERT合成法等,虽然此类方法都可实现语音合成,但由于缺乏对语音自然度及流畅度的改善,导致出现所合成出的语音不够平滑及自然的问题。
发明内容
本发明提供一种语音合成方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决合成出的语音不够平滑及自然的问题。
为实现上述目的,本发明提供的一种语音合成方法,包括:
接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置;
对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络;
利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量;
对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量;
利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
可选地,所述利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列,包括:
对所述字符注意力向量执行归一化,得到字符归一化向量;
对所述归一化向量执行卷积操作,得到字符卷积向量;
对所述字符卷积向量与所述字符注意力向量执行残差连接,得到所述字符特征序列。
可选地,所述对所述归一化向量执行卷积操作,得到字符卷积向量,包括:
根据预设卷积核维度构建卷积核;
利用所述卷积核对所述归一化向量执行卷积操作,得到所述字符卷积向量。
可选地,所述将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列,包括:
将所述字符拼音进行词向量转化,得到拼音向量;
将所述拼音向量及所述字符向量输入至所述发音停顿预测模型,利用所述发音停顿预测模型对所述拼音向量及所述字符向量执行傅里叶变换,得到傅里叶变换序列;
对所述傅里叶变换序列执行发音停顿预测,得到所述发音停顿序列。
可选地,所述预训练完成的注意力特征模型,包括:
步骤A:构建包括所述多头注意力网络及所述字符特征提取网络的待训练注意力特征模型;
步骤B:接收训练文本集及训练标签集,将所述训练文本集输入至所述待训练注意力特征模型进行特征提取,得到特征序列训练集;
步骤C:构建多层线性激活层;
步骤D:利用所述多层线性激活层,对所述特征序列训练集执行激活操作,得到预测序列集;
步骤E:计算所述预测序列集与所述训练标签集的误差值,并判断所述误差值与预设的误差阈值的大小关系;
步骤F:若所述误差值大于所述误差阈值,调整所述待训练注意力特征模型的内部参数,并返回步骤B;
步骤G:若所述误差值小于或等于所述误差阈值,得到所述注意力特征模型。
可选地,所述将所述训练文本集输入至所述待训练注意力特征模型进行特征提取,得到特征序列训练集,包括:
将所述训练文本集进行拼音置换,得到拼音训练集;
计算所述拼音训练集在所述字母表的字符位置,得到位置训练集;
对所述拼音训练集及所述位置训练集执行编码操作,得到向量训练集;
利用所述多头注意力网络对所述向量训练集执行注意力计算,得到注意力向量集;
对所述注意力向量集及所述向量训练集执行残差连接,得到注意力向量训练集;
利用所述字符特征提取网络,对所述注意力向量训练集执行特征提取,得到所述特征序列训练集。
可选地,所述所述利用所述多层线性激活层,对所述特征序列训练集执行激活操作,得到预测序列集,包括:
对所述特征序列训练集执行归一化得到特征序列归一化集;
计算所述特征序列归一化集的高斯分布,根据所述高斯分布,计算得到所述预测序列集。
为了解决上述问题,本发明还提供一种语音合成装置,所述装置包括:
字符向量构建模块,用于接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置,对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
字符特征序列提取模块,用于将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络,利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量,对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量,利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
发音停顿序列提取模块,用于将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
语音合成模块,用于将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述中任意一项所述的语音合成方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现上述中任意一项所述的语音合成方法。
本发明实施例将语音合成分为两部分执行,首先利用预训练完成的注意力特征模型,对字符文本执行特征提取,得到字符特征序列,其次利用发音停顿预测模型,预测字符文本的发音停顿序列,最后将所述字符特征序列及所述发音停顿序列执行残差连接得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音,相比于背景技术中单纯使用LSTM、BERT等模型进行合成来说,本发明不仅预测出字符特征序列,同时也添加了发音停顿序列的预测过程,因此所合成出的语音在频率振幅等更加接近自然人声,因此本发明提出的语音合成方法、装置及计算机可读存储介质,可以解决合成出的语音不够平滑及自然的问题。
附图说明
图1为本发明一实施例提供的语音合成方法的流程示意图;
图2为本发明一实施例提供的语音合成方法中S6的详细流程示意图;
图3为本发明一实施例提供的语音合成装置的模块示意图;
图4为本发明一实施例提供的实现语音合成方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种语音合成方法,所述语音合成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述语音合成方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的语音合成方法的流程示意图。在本实施例中,所述语音合成方法包括:
S1、接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置。
本发明较佳实施例中,可接受用户输入的字符文本,如用户输入字符文本A:“你好,今天出行伴有暴雨狂风,请注意安全”。则对所述字符文本A进行拼音置换,得到字符拼音B:“nihao,jintianchuxingbanyoubaoyukuangfeng,qingzhuyianquan”,其中本发明实施例中,所述将所述字符文本进行拼音置换,得到字符拼音,包括:利用JAVA语言中的pinyin4j,构建拼音置换程序;利用所述拼音置换程序,将所述字符文本进行拼音置换,得到所述字符拼音。
其中pinyin4j在JAVA语言中处于net.sourceforge.pinyin4j,因此使用importnet.sourceforge.pinyin4j导入pinyin4j,得到所述拼音置换程序。
本发明实施例中,利用拼音构建得到所述字母表,如在所述字母表中,a对应1、b对应2、c对应3,则上述字符拼音B:“nihao,jintianchuxingbanyoubaoyukuangfeng,qingzhuyianquan”利用所述字母表构建得到包括数字的字符位置。
S2、对所述字符位置及所述字符拼音执行编码操作,得到字符向量。
详细地,本发明实施例采用one-hot编码方法,对所述字符位置及所述字符拼音执行编码操作,得到字符向量。
S3、将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络。
本发明实施例中,在执行所述S3之前,需训练所述注意力特征模型,详细地,所述训练所述注意力特征模型,包括:
步骤A:构建包括所述多头注意力网络及所述字符特征提取网络的待训练注意力特征模型。
详细地,所述步骤A包括:根据多头注意力机制构建所述多头注意力网络;根据卷积神经网络构建所述字符特征提取网络;组合所述多头注意力网络及所述字符特征提取网络,得到所述待训练注意力特征模型。
其中,所述根据多头注意力机制构建所述多头注意力网络,包括:接收已训练完成的Transform模型,从所述Transform模型中提取编码器,利用所述编码器内的多头注意力机制,构建得到所述多头注意力网络。
本发明实施例中,用户可提前训练完成Transform模型,所述Transform模型是一种可实现分类或拟合的深度学习模型,包括编码器、解码器,其中编码器中包括多头注意力机制,本发明实施例中,提取所述多头注意力机制所在的网络层,构建得到所述多头注意力网络。
进一步地,本发明实施例中,按照所述多头注意力网络在前,所述字符特征提取网络在后的原则,组合得到所述待训练注意力特征模型。
步骤B:接收训练文本集及训练标签集,将所述训练文本集输入至所述待训练注意力特征模型进行特征提取,得到特征序列训练集。
本发明实施例中,所述训练文本集是用户提前收集并整理出的文本集合,所述训练标签集是与所述训练文本集对应的语音集合,如所述训练文本集中有训练文本X1:“恶劣的环境,不适宜出门郊游”,则在所述训练标签集中对应存在语音Y1=(y1,y2,..,yn),其中yn表示语音Y1的语音序列。
进一步地,当获得所述训练文本集后,利用所述待训练注意力特征模型进行特征提取,详细地,所述将所述训练文本集输入至所述待训练注意力特征模型进行特征提取,得到特征序列训练集,包括:将所述训练文本集进行拼音置换,得到拼音训练集,计算所述拼音训练集在所述字母表的字符位置,得到位置训练集,对所述拼音训练集及所述位置训练集执行编码操作,得到向量训练集,利用所述多头注意力网络对所述向量训练集执行注意力计算,得到注意力向量集;对所述注意力向量集及所述向量训练集执行残差连接,得到注意力向量训练集;利用所述字符特征提取网络,对所述注意力向量训练集执行特征提取,得到所述特征序列训练集。
详细地,在对所述训练文本集执行拼音置换、字符位置计算及编码操作得到所述向量训练集的过程,与上述S1、S2类似,在此不再赘述。
本发明实施例中,根据上述Transform模型内编码器的多头注意力机制原理,对所述向量训练集执行注意力计算,得到所述注意力向量集。
进一步地,本发明利用如下公式,对所述注意力向量集及所述向量训练集执行残差连接:
resultattention=s+p
其中,resultattention表示所述注意力向量训练集,s表示所述注意力向量集,p表示所述向量训练集。
本发明实施例中,利用所述字符特征提取网络内的卷积操作,依次对所述注意力向量训练集中每个注意力向量执行特征提取,进而得到所述特征序列训练集。其中,所述卷积操作是一种基于卷积核进行卷积计算的操作,本发明设定卷积核大小为3*3,从而得到所述特征序列训练集。
步骤C:构建多层线性激活层。
在得到所述待训练注意力特征模型,并利用所述待训练注意力特征模型进行特征提取得到特征序列训练集后,本发明构建线性激活层帮助所述待训练注意力特征模型进行模型训练,其中所述线性激活层包括归一化和激活函数,所述激活函数可使用高斯分布函数。
步骤D:利用所述多层线性激活层,对所述特征序列训练集执行激活操作,得到预测序列集。
详细地,所述利用所述多层线性激活层,对所述特征序列训练集执行激活操作,得到预测序列集,包括:对所述特征序列训练集执行归一化得到特征序列归一化集,利用所述高斯分布函数,计算所述特征序列归一化集的高斯分布,根据所述高斯分布得到所述预测序列集。
详细地,所述归一化是将所述特征序列训练集内的数值映射至指定范围内的操作,如将所述特征序列训练集内的数值映射至[0,1]范围内,可有效缩小数值,减轻计算压力。
进一步地,所述利用所述高斯分布函数,计算所述特征序列归一化集的高斯分布,包括:利用所述高斯分布函数计算出所述特征序列归一化集的均值和方差,利用所述特征序列归一化集的均值和方差,求解出所述特征序列归一化集的高斯分布。
由于高斯分布是展现数据在指定范围内的概率分布,故本发明实施例中,从高斯分布中寻找出所述特征序列训练集的最大概率分布,即得到所述预测序列集。
步骤E:计算所述预测序列集与所述训练标签集的误差值,并判断所述误差值与预设的误差阈值的大小关系。
本发明实施例中,利于平方差公式计算所述预测序列集与所述训练标签集的误差值。
步骤F:若所述误差值大于所述误差阈值,调整所述待训练注意力特征模型的内部参数,并返回步骤B。
步骤G:若所述误差值小于或等于所述误差阈值,得到所述多头注意力网络及所述字符特征提取网络的注意力特征模型。
详细地,当所述误差值小于或等于所述误差阈值,表示所述待训练注意力特征模型具有较强的字符特征提取能力,则训练完成得到所述注意力特征模型。
本发明实施例中,当执行步骤A至步骤G得到训练完成的所述注意力特征模型,进一步地,可将所述字符向量输入至预训练完成的注意力特征模型中。
S4、利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量。
本发明实施例中,S4与S3中训练阶段相似,均利用Transform模型内编码器的多头注意力机制原理,执行注意力计算,得到所述注意力向量。
S5、对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量。
本发明实施例中,利用如下公式,对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量:
characterattention=m+u
其中,characterattention表示所述字符注意力向量,m表示所述注意力向量,u表示所述字符向量。
S6、利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列。
本发明实施例中,参阅图2所示,所述S6包括:
S61、对所述字符注意力向量执行归一化,得到字符归一化向量;
S62、对所述归一化向量执行卷积操作,得到字符卷积向量;
S63、对所述字符卷积向量与所述字符注意力向量执行残差连接,得到所述字符特征序列。
其中归一化如上所述,将所述字符注意力向量内的数值映射至指定范围内的操作,本发明实施例,将所述字符注意力向量内的数值映射至[0,1]范围内。
详细地,所述对所述归一化向量执行卷积操作,得到字符卷积向量,包括:根据预设卷积核维度构建卷积核;利用所述卷积核对所述归一化向量执行卷积操作,得到所述字符卷积向量。
进一步地,所述残差连接与上述相同,将所述字符卷积向量与所述字符注意力向量对应相加,得到所述字符特征序列。
S7、将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列。
详细地,所述发音停顿预测模型是基于多个快速傅里叶变换模块组建得到,本发明实施例中,利用10个快速傅里叶变换模块,组建得到所述发音停顿预测模型。
详细地,所述S7包括:将所述字符拼音进行词向量转化,得到拼音向量;将所述拼音向量及所述字符向量输入至所述发音停顿预测模型,利用所述发音停顿预测模型对所述拼音向量及所述字符向量执行傅里叶变换,得到傅里叶变换序列;对所述傅里叶变换序列执行发音停顿预测,得到所述发音停顿序列。
所述快速傅里叶变换是离散傅氏变换(DFT)的快速算法,可预测所述字符向量及所述拼音向量对应的傅里叶变换序列,其中所述傅里叶变换序列包括语音频率、振幅及相位,并通过所述傅里叶变换序列可得到所述发音停顿序列。
S8、将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
本发明实施例中,所述声码合成器是一种可实现语音合成的译码器,包括通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器等。本发明实施例中,将所述语音序列输入至所述声码合成器,即可得到所述字符文本的合成语音。
本发明实施例将语音合成分为两部分执行,首先利用预训练完成的注意力特征模型,对字符文本执行特征提取,得到字符特征序列,其次利用发音停顿预测模型,预测字符文本的发音停顿序列,最后将所述字符特征序列及所述发音停顿序列执行残差连接得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音,相比于背景技术中单纯使用LSTM、BERT等模型进行合成来说,本发明不仅预测出字符特征序列,同时也添加了发音停顿序列的预测过程,因此所合成出的语音在频率振幅等更加接近自然人声,因此本发明提出的语音合成方法、装置及计算机可读存储介质,可以解决合成出的语音不够平滑及自然的问题。
如图3所示,是本发明语音合成装置的模块示意图。
本发明所述语音合成装置100可以安装于电子设备中。根据实现的功能,所述语音合成装置可以包括字符向量构建模块101、字符特征序列提取模块102、发音停顿序列提取模块103及语音合成模块104。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述字符向量构建模块101,用于接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置,对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
所述字符特征序列提取模块102,用于将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络,利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量,对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量,利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
所述发音停顿序列提取模块103,用于将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
所述语音合成模块104,用于将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
本发明实施例所提供的语音合成装置100中的各个模块能够在使用时基于与上述的语音合成方法采用相同的手段,具体地实施步骤在此不再赘述,关于各模块/单元的功能所产生技术效果与上述的语音合成方法的技术效果相同,即解决合成出的语音不够平滑及自然的问题。
如图4所示,是本发明实现语音合成方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如语音合成程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如语音合成程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行语音合成程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的语音合成程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置;
对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络;
利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量;
对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量;
利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置;
对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络;
利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量;
对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量;
利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种语音合成方法,其特征在于,所述方法包括:
接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置;
对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络;
利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量;
对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量;
利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
2.如权利要求1所述的语音合成方法,其特征在于,所述利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列,包括:
对所述字符注意力向量执行归一化,得到字符归一化向量;
对所述归一化向量执行卷积操作,得到字符卷积向量;
对所述字符卷积向量与所述字符注意力向量执行残差连接,得到所述字符特征序列。
3.如权利要求2所述的语音合成方法,其特征在于,所述对所述归一化向量执行卷积操作,得到字符卷积向量,包括:
根据预设卷积核维度构建卷积核;
利用所述卷积核对所述归一化向量执行卷积操作,得到所述字符卷积向量。
4.如权利要求1所述的语音合成方法,其特征在于,所述将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列,包括:
将所述字符拼音进行词向量转化,得到拼音向量;
将所述拼音向量及所述字符向量输入至所述发音停顿预测模型,利用所述发音停顿预测模型对所述拼音向量及所述字符向量执行傅里叶变换,得到傅里叶变换序列;
对所述傅里叶变换序列执行发音停顿预测,得到所述发音停顿序列。
5.如权利要求1所述的语音合成方法,其特征在于,所述预训练完成的注意力特征模型,包括:
步骤A:构建包括所述多头注意力网络及所述字符特征提取网络的待训练注意力特征模型;
步骤B:接收训练文本集及训练标签集,将所述训练文本集输入至所述待训练注意力特征模型进行特征提取,得到特征序列训练集;
步骤C:构建多层线性激活层;
步骤D:利用所述多层线性激活层,对所述特征序列训练集执行激活操作,得到预测序列集;
步骤E:计算所述预测序列集与所述训练标签集的误差值,并判断所述误差值与预设的误差阈值的大小关系;
步骤F:若所述误差值大于所述误差阈值,调整所述待训练注意力特征模型的内部参数,并返回步骤B;
步骤G:若所述误差值小于或等于所述误差阈值,得到所述注意力特征模型。
6.如权利要求5所述的语音合成方法,其特征在于,所述将所述训练文本集输入至所述待训练注意力特征模型进行特征提取,得到特征序列训练集,包括:
将所述训练文本集进行拼音置换,得到拼音训练集;
计算所述拼音训练集在所述字母表的字符位置,得到位置训练集;
对所述拼音训练集及所述位置训练集执行编码操作,得到向量训练集;
利用所述多头注意力网络对所述向量训练集执行注意力计算,得到注意力向量集;
对所述注意力向量集及所述向量训练集执行残差连接,得到注意力向量训练集;
利用所述字符特征提取网络,对所述注意力向量训练集执行特征提取,得到所述特征序列训练集。
7.如权利要求1至6中任意一项所述的语音合成方法,其特征在于,所述利用所述多层线性激活层,对所述特征序列训练集执行激活操作,得到预测序列集,包括:
对所述特征序列训练集执行归一化得到特征序列归一化集;
计算所述特征序列归一化集的高斯分布,根据所述高斯分布,计算得到所述预测序列集。
8.一种语音合成装置,其特征在于,所述装置包括:
字符向量构建模块,用于接收字符文本,将所述字符文本进行拼音置换,得到字符拼音,利用预构建的字母表,计算所述字符拼音在所述字母表的字符位置,对所述字符位置及所述字符拼音执行编码操作,得到字符向量;
字符特征序列提取模块,用于将所述字符向量输入至预训练完成的注意力特征模型中,其中所述注意力特征模型包括多头注意力网络、字符特征提取网络,利用所述多头注意力网络对所述字符向量执行注意力计算,得到注意力向量,对所述注意力向量及所述字符向量执行残差连接,得到字符注意力向量,利用所述字符特征提取网络,对所述字符注意力向量执行特征提取,得到字符特征序列;
发音停顿序列提取模块,用于将所述字符向量输入至预构建的发音停顿预测模型,得到发音停顿序列;
语音合成模块,用于将所述字符特征序列及所述发音停顿序列执行残差连接,得到语音序列,利用预构建的声码合成器,对所述语音序列执行语音合成,得到所述字符文本的合成语音。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的语音合成方法。
10.一种计算机可读存储介质,包括存储数据区和存储程序区,其特征在于,所述存储数据区存储创建的数据,所述存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音合成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011452787.7A CN112509554A (zh) | 2020-12-11 | 2020-12-11 | 语音合成方法、装置、电子设备及存储介质 |
PCT/CN2021/083186 WO2022121158A1 (zh) | 2020-12-11 | 2021-03-26 | 语音合成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011452787.7A CN112509554A (zh) | 2020-12-11 | 2020-12-11 | 语音合成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112509554A true CN112509554A (zh) | 2021-03-16 |
Family
ID=74972920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011452787.7A Pending CN112509554A (zh) | 2020-12-11 | 2020-12-11 | 语音合成方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112509554A (zh) |
WO (1) | WO2022121158A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113112985A (zh) * | 2021-04-21 | 2021-07-13 | 合肥工业大学 | 一种基于深度学习的语音合成方法 |
WO2022121158A1 (zh) * | 2020-12-11 | 2022-06-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
WO2023071562A1 (zh) * | 2021-10-28 | 2023-05-04 | 北京搜狗科技发展有限公司 | 语音识别文本处理方法、装置、设备、存储介质及程序产品 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10418025B2 (en) * | 2017-12-06 | 2019-09-17 | International Business Machines Corporation | System and method for generating expressive prosody for speech synthesis |
CN110534089B (zh) * | 2019-07-10 | 2022-04-22 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN110782870B (zh) * | 2019-09-06 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN110808027B (zh) * | 2019-11-05 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置以及新闻播报方法、系统 |
CN111899716B (zh) * | 2020-08-03 | 2021-03-12 | 北京帝派智能科技有限公司 | 一种语音合成方法和系统 |
CN112509554A (zh) * | 2020-12-11 | 2021-03-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-11 CN CN202011452787.7A patent/CN112509554A/zh active Pending
-
2021
- 2021-03-26 WO PCT/CN2021/083186 patent/WO2022121158A1/zh active Application Filing
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022121158A1 (zh) * | 2020-12-11 | 2022-06-16 | 平安科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN113112985A (zh) * | 2021-04-21 | 2021-07-13 | 合肥工业大学 | 一种基于深度学习的语音合成方法 |
CN113112985B (zh) * | 2021-04-21 | 2022-01-18 | 合肥工业大学 | 一种基于深度学习的语音合成方法 |
WO2023071562A1 (zh) * | 2021-10-28 | 2023-05-04 | 北京搜狗科技发展有限公司 | 语音识别文本处理方法、装置、设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2022121158A1 (zh) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112509554A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN112667800A (zh) | 关键词生成方法、装置、电子设备及计算机存储介质 | |
CN112397047A (zh) | 语音合成方法、装置、电子设备及可读存储介质 | |
CN112820269B (zh) | 文本转语音方法、装置、电子设备及存储介质 | |
CN112951203B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN111681681A (zh) | 语音情绪识别方法、装置、电子设备及存储介质 | |
CN111862937A (zh) | 歌声合成方法、装置及计算机可读存储介质 | |
CN112466273A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN113064994A (zh) | 会议质量评估方法、装置、设备及存储介质 | |
CN112233700A (zh) | 基于音频的用户状态识别方法、装置及存储介质 | |
CN113205814A (zh) | 语音数据标注方法、装置、电子设备及存储介质 | |
CN115600644A (zh) | 多任务处理方法、装置、电子设备及存储介质 | |
CN114155832A (zh) | 基于深度学习的语音识别方法、装置、设备及介质 | |
CN112489628A (zh) | 语音数据选择方法、装置、电子设备及存储介质 | |
CN116564322A (zh) | 语音转换方法、装置、设备及存储介质 | |
CN113706019B (zh) | 基于多维数据的业务能力分析方法、装置、设备及介质 | |
CN113555026B (zh) | 语音转换方法、装置、电子设备及介质 | |
CN114548114A (zh) | 文本情绪识别方法、装置、设备及存储介质 | |
CN112712797A (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN114842880A (zh) | 智能客服语音节奏调节方法、装置、设备及存储介质 | |
CN112632260A (zh) | 智能问答方法、装置、电子设备及计算机可读存储介质 | |
CN112734205A (zh) | 模型置信度分析方法、装置、电子设备及计算机存储介质 | |
CN113160793A (zh) | 基于低资源语言的语音合成方法、装置、设备及存储介质 | |
CN111738005A (zh) | 命名实体对齐方法、装置、电子设备及可读存储介质 | |
CN112749264A (zh) | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |