CN110459201A - 一种产生新音色的语音合成方法 - Google Patents
一种产生新音色的语音合成方法 Download PDFInfo
- Publication number
- CN110459201A CN110459201A CN201910780718.XA CN201910780718A CN110459201A CN 110459201 A CN110459201 A CN 110459201A CN 201910780718 A CN201910780718 A CN 201910780718A CN 110459201 A CN110459201 A CN 110459201A
- Authority
- CN
- China
- Prior art keywords
- output
- neural network
- deep neural
- data
- sound library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000002194 synthesizing effect Effects 0.000 title abstract description 3
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 72
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 72
- 238000013528 artificial neural network Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims description 43
- 238000001228 spectrum Methods 0.000 claims description 28
- 230000005284 excitation Effects 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 3
- 238000001308 synthesis method Methods 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种产生新音色的语音合成方法,包括:利用多个音库数据对深度神经网络进行训练,形成第一合成模型;利用多个音库数据分别训练第一合成模型,形成与多个音库数据对应的多个第二合成模型;利用第一合成模型推理出第一输出参数;利用多个第二合成模型推理出与第二合成模型对应的多个第二输出参数,形成第二输出参数组;对第二输出参数组进行加权叠加形成声学参数;利用声码器重构声学参数形成合成语音。本发明提出的方法,能在不制作新音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。
Description
技术领域
本发明涉及语音合成领域,特别涉及一种产生新音色的语音合成方法。
背景技术
语音合成,又称文语转换(Text to Speech)技术,指的是将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。
随着语音合成技术的发展,用户对合成语音音色的多样化和差异化要求越来越高,现有产生新音色的方法一般是通过定制一个新的发音人音库来得到新的音色。但定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
发明内容
本发明提供了一种产生新音色的语音合成方法,用以解决定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
本发明提供的一种产生新音色的语音合成方法,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。
在本发明的一个实施例中,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
在本发明的一个实施例中,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
在本发明的一个实施例中,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
在本发明的一个实施例中,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字。
在本发明的一个实施例中,利用所述第一输入数据和所述第一输出数据训练深度神经网络,包括:
利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;
随机初始化所述深度神经网络的网络参数;
基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:
L(y,z)=‖y-z‖^2
其中,y是自然的目标参数,z是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y,z)最小。
在本发明的一个实施例中,利用所述多个音库数据分别训练所述第一合成模型,包括:
对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;
对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;
利用所述第二输入数据和所述第二输出数据对所述第一合成模型进行训练。
在本发明的一个实施例中,所述第一输出参数的表达式为:
h=g(WTx+b)
其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
在本发明的一个实施例中,所述第二输出参数组的表达式为:
yi=WTh+b
其中,yi表示第二输出参数组,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。
在本发明的一个实施例中,所述声学参数的表达式为:
其中,表示声学参数,ai表示叠加权重,yi表示第二输出参数。
本发明的一些有益效果可以包括:
本发明提供的一种产生新音色的语音合成方法,能在不制作新的发音人音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。
本发明的其它特征和优点将在随说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种产生新音色的语音合成方法的流程图;
图2为本发明实施例中一种产生新音色的语音合成方法中深度神经网络的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种产生新音色的语音合成方法的流程图。如图1所示,本发明提供的一种产生新音色的语音合成方法,包括:
S101、利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
具体地,为了解决现有产生新音色的语音合成方法存在的缺陷,本实施例首先选择现有的多个发音人录制音库数据,在训练模型时,将这些发音人音库数据混合在一起训练基于深度神经网络(Deep Neural Network,简称DNN)的合成模型,输入文本信息,输出为声学特征,得到的第一合成模型记为M_s。
采用多个发音人训练,会将单个发音人的缺点模糊掉,最终训练出的模型趋向于一种多发音人平均的方向,从而得到一个较稳定的模型。其次,每个发音人都有其各自的特点,通过混合训练,可将不同的优势特征组合。第三,真实发音人在参数特征达不到最优,采用多个发音人训练可使语音合成效果得到明显优化。
S102、利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
具体地,在得到第一合成模型M_s后,利用上述多个音库数据再分别对第一合成模型M_s进行训练,训练的规则是保证第一合成模型M_s的其他层权重参数不变,仅更新其最后一层权重参数,形成与所述多个音库数据对应的多个第二合成模型,记为M_ti,i=1,…,N。
深度神经网络的最后一层往往是全连接层+Softmax(分类网络),通常情况下,将深度神经网络最后一个全连接层的输入,视为深度神经网络从输入数据提取到的特征,具体到本实施例中即为从文本信息中提取的声学特征,经过全连接层,可以获得n个类别的分数,为了得到属于每个类别的概率,先将分数进行映射,然后再归一化到(0,1),便得到了每个类别的概率。
S103、利用所述第一合成模型推理出第一输出参数;
具体地,在推理时,通过除去最后一层的第一合成模型M_s进行推理,输入文本信息,得到第一合成模型的倒数第二层的输出参数,将该参数定义为第一输出参数。
S104、利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
具体地,再从多个第二合成模型M_ti中选取数量不超过第二合成模型数量总数的若干第二合成模型,将上述第一输出参数作为输入,利用
S105、对所述第二输出参数组进行加权叠加形成声学参数;
S106、利用声码器重构所述声学参数形成合成语音。
具体地,在获取了第二输出参数组后,对第二输出参数组进行加权叠加,形成对应的声学参数,通过上述得到的声学参数,如时长和基频/频谱参数,对于得到的基频/频谱参数,利用声码器重构所述声学参数形成合成语音。从而实现新音色语音的合成。
按照语音理论,在合成语音时,根据待合成的文本信息和参数库,规划出相应的合成参数,然后送入语音合成器合成,最终将语音波形生成出来。
在一个具体的实施方式中,所述音库数据包括:发音人语音的声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
具体地,选择要作为样本的录音语料,该录音语料要尽可能的覆盖所有音节、调联等情况,以及每个音节的各种发音情况,如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等情况。根据所选择作为样本的录音语料,请多位发音人进行录音,得到多组音库数据。从多组音库数据中提取出声音的参数信息,如基频(即音高)、谱、时长等参数。这些参数信息的提取通常是分帧处理,常见的是1ms或者5ms一帧,具体的提取方法与本领域技术人员熟知的参数提取方法一致,在此不再详述。
在一个具体的实施方式中,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
具体地,在利用多个音库数据对深度神经网络进行训练时,首先应当对音库数据中的文本信息进行编码得到深度神经网络的第一输入数据。具体的编码方法包括获取文本信息对应的音素和韵律等信息,并进行0\1编码,共得到1114维二值数字;同时,加入当前帧在当前音素中的相对位置信息(规整到0和1之间),包括前向位置和后向位置,共2维;音素\韵律等信息0\1编码和位置信息共1116维,作为深度神经网络的第一输入数据。再对音库数据中的声学特征进行建模得到深度神经网络的第一输出数据,包括频谱、能量、基频和时长等,这里将声学特征分成两类,分别进行建模,第一类:对频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行了考虑前面4帧和后面4帧的帧扩展,对频谱和能量参数考虑了其一阶差分和二阶差分信息,共133维;第二类,对时长进行建模,这里的时长为音素时长,即音素中含有的帧数,1维。在获取到第一输入数据和第一输出数据后,根据上述的第一输入数据和第一输出数据对深度神经网络进行训练,具体训练的步骤如下:
如图2所示,本实施例中使用经典的BP(Back Propagation)神经网络构建回归模型,隐层使用sigmoid激励函数,输出层使用linear激励函数,首先随机化网络参数作为初始参数,然后基于下面的MMSE准则进行模型训练:
L(y,z)=‖y-z‖^2
其中,y是自然的目标参数,z是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y,z)最小。
这里对上面提到的两类声学特征分别进行建模:
频谱、能量和基频,共133维,网络结构为:1116-1024-1024-1024-133,得到的模型记为MANS;
时长,共1维,这里网络输入不考虑帧在当前音素中相对位置信息,网络结构为:1114-1024-1024-1024-1,得到的模型记为MAND;
根据第一输入数据和第一输出数据训练得到最优的网络结构MANS和MAND。
在一个具体的实施方式中,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,并对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
具体地,在获取第一输入数据时,首先需要对文本信息中的音素信息和韵律信息,并对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;再加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;最后将上述1114维二值数字和上述2维二值数字叠加形成1116维二值数字,作为深度神经网络的第一输入数据。
在本发明的一个实施例中,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字。
具体地,在获取第一输出数据时,首先需要对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字;将上述两组二值数字分别作为深度神经网络的第一输出数据对深度神经网络进行训练。
在一个具体的实施方式中,利用所述第一输入数据和所述第一输出数据训练深度神经网络模型,包括:
利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;
随机初始化所述深度神经网络的网络参数;
基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:
L(y1,z1)=‖y1-z1‖^2
其中,y1是自然的目标参数,z1是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y1,z1)最小。
在一个具体的实施方式中,利用所述多个音库数据分别训练所述第一合成模型的最后一层权重参数,包括:
对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;
对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;
利用所述第二输入数据和所述第二输出数据对所述第一合成模型的最后一层权重参数进行训练。
具体地,在利用每个音库数据对第一合成模型进行训练时,首先应当对每个音库数据中的文本信息进行编码得到深度神经网络的第二输入数据组。具体的编码方法包括获取文本信息对应的音素和韵律等信息,并进行0\1编码,共得到1114维二值数字;同时,加入当前帧在当前音素中的相对位置信息(规整到0和1之间),包括前向位置和后向位置,共2维;音素\韵律等信息0\1编码和位置信息共1116维,作为第一合成模型的第二输入数据。再对音库数据中的声学特征进行建模得到第一合成模型的第二输出数据,包括频谱、能量、基频和时长等,这里将声学特征分成两类,分别进行建模,第一类:对频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行了考虑前面4帧和后面4帧的帧扩展,对频谱和能量参数考虑了其一阶差分和二阶差分信息,共133维;第二类,对时长进行建模,这里的时长为音素时长,即音素中含有的帧数,1维。在获取到第二输入数据和第二输出数据后,根据上述的第二输入数据和第二输出数据对第一合成进行训练,具体训练的步骤如下:
本实施例中同样使用经典的BP(Back Propagation)神经网络构建回归模型,隐层使用sigmoid激励函数,输出层使用linear激励函数,首先随机化网络参数作为初始参数,然后基于下面的MMSE准则进行模型训练:
L(y2,z2)=‖y2-z2‖^2
其中,y2是自然的目标参数,z2是第一合成模型预测的参数,训练的目标是更新第一合成模型,使得L2(y2,z2)最小。
这里对上面提到的两类声学特征分别进行建模:
对频谱、能量和基频建模,共133维,网络结构为:1116-1024-1024-1024-133,得到的模型记为MANS2;
对时长建模,共1维,这里第一合成模型的输入不需要考虑当前帧在当前音素中相对位置信息,网络结构为:1114-1024-1024-1024-1,得到的模型记为MAND2;
根据第二输入数据和第二输出数据训练得到第一合成模型最优的网络结构MANS2和MAND2。
在一个具体的实施方式中,所述第一输出参数的表达式为:
h=g(WTx+b)
其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
具体地,再得到训练好的第一合成模型和第二合成模型后,需要根据第一合成模型和第二合成模型推理出参数来合成新音色的语音。首先利用第一合成模型除去最后一层推理出第一输出参数,该参数的表达式为h=g(WTx+b)
其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
这里将文本信息经过编码后的数据作为输入参数,经过第一合成模型的推理,可以得到输入参数在第一合成模型内每一层输出参数,将倒数第二层的输出参数定义为第一输出参数。
在本发明的一个实施例中,所述第二输出参数组的表达式为:
yi=WTh+b
其中,yi表示第二输出参数组,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。
具体地,再获取了第一输出参数之后,通过多个第二合成模型对上述第一输出参数进行推理,得到多个第二合成模型最后一层的输出参数,定义为第二输出参数,组成第二输出参数组;第二输出参数组的表达式为
yi=WTh+b
其中,yi表示第二输出参数组,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。
在本发明的一个实施例中,所述声学参数的表达式为:
其中,表示声学参数,ai表示叠加权重,yi表示第二输出参数。
具体地,在获取了第二输出参数组后,对第二输出参数组进行加权叠加,形成对应的声学参数,声学参数的表达式为:
其中,表示声学参数,ai表示叠加权重,yi表示第二输出参数。
通过上述得到的声学参数,如时长和基频/频谱参数,对于得到的基频/频谱参数,利用声码器重构所述声学参数形成合成语音。从而实现新音色语音的合成。
本发明提供的一种产生新音色的语音合成方法,能在不制作新的发音人音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种产生新音色的语音合成方法,其特征在于,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。
2.根据权利要求1所述的方法,其特征在于,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
3.根据权利要求1所述的方法,其特征在于,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
4.根据权利要求3所述的方法,其特征在于,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
5.根据权利要求3所述的方法,其特征在于,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字。
6.根据权利要求3所述的方法,其特征在于,利用所述第一输入数据和所述第一输出数据训练深度神经网络,包括:
利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;
随机初始化所述深度神经网络的网络参数;
基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:
L(y,z)=‖y-z‖^2
其中,y是自然的目标参数,z是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y,z)最小。
7.根据权利要求1所述的方法,其特征在于,利用所述多个音库数据分别训练所述第一合成模型,包括:
对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;
对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;
利用所述第二输入数据和所述第二输出数据对所述第一合成模型进行训练。
8.根据权利要求1所述的方法,其特征在于,所述第一输出参数的表达式为:
h=g(WTx+b)
其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
9.根据权利要求1所述的方法,其特征在于,所述第二输出参数组的表达式为:
yi=WTh+b
其中,yi表示第i个第二输出参数,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。
10.根据权利要求1所述的方法,其特征在于,所述声学参数的表达式为:
其中,表示声学参数,ai表示第i个第二输出参数对应的叠加权重,yi表示第i个第二输出参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910780718.XA CN110459201B (zh) | 2019-08-22 | 2019-08-22 | 一种产生新音色的语音合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910780718.XA CN110459201B (zh) | 2019-08-22 | 2019-08-22 | 一种产生新音色的语音合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110459201A true CN110459201A (zh) | 2019-11-15 |
CN110459201B CN110459201B (zh) | 2022-01-07 |
Family
ID=68488675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910780718.XA Active CN110459201B (zh) | 2019-08-22 | 2019-08-22 | 一种产生新音色的语音合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110459201B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111435591A (zh) * | 2020-01-17 | 2020-07-21 | 珠海市杰理科技股份有限公司 | 声音合成方法及系统、音频处理芯片、电子设备 |
CN111613224A (zh) * | 2020-04-10 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种个性化语音合成方法及装置 |
CN112802447A (zh) * | 2021-03-19 | 2021-05-14 | 成都启英泰伦科技有限公司 | 一种语音合成播报方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104464716A (zh) * | 2014-11-20 | 2015-03-25 | 北京云知声信息技术有限公司 | 一种语音播报系统和方法 |
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105355194A (zh) * | 2015-10-22 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105845125A (zh) * | 2016-05-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
KR20170107683A (ko) * | 2016-03-16 | 2017-09-26 | 한국전자통신연구원 | 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법 |
JP2018097250A (ja) * | 2016-12-15 | 2018-06-21 | 株式会社ファニー | 言語学習装置 |
CN108847215A (zh) * | 2018-08-29 | 2018-11-20 | 北京云知声信息技术有限公司 | 基于用户音色进行语音合成的方法及装置 |
WO2018209556A1 (en) * | 2017-05-16 | 2018-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
-
2019
- 2019-08-22 CN CN201910780718.XA patent/CN110459201B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
CN104464716A (zh) * | 2014-11-20 | 2015-03-25 | 北京云知声信息技术有限公司 | 一种语音播报系统和方法 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105185372A (zh) * | 2015-10-20 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105355194A (zh) * | 2015-10-22 | 2016-02-24 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
KR20170107683A (ko) * | 2016-03-16 | 2017-09-26 | 한국전자통신연구원 | 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법 |
CN105845125A (zh) * | 2016-05-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
JP2018097250A (ja) * | 2016-12-15 | 2018-06-21 | 株式会社ファニー | 言語学習装置 |
WO2018209556A1 (en) * | 2017-05-16 | 2018-11-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for speech synthesis |
CN108847215A (zh) * | 2018-08-29 | 2018-11-20 | 北京云知声信息技术有限公司 | 基于用户音色进行语音合成的方法及装置 |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
HUNG-YAN GU: "An HNM-Based Speaker-Nonspecific Timbre Transformation Scheme for Speech Synthesis", 《2009 2ND INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING》 * |
张桂香: "个性化语音合成的研究与实现", 《中国优秀硕士学位论文全文数据库》 * |
高伟勋: "智能家居环境中个性化语音生成关键技术研究", 《中国博士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111435591A (zh) * | 2020-01-17 | 2020-07-21 | 珠海市杰理科技股份有限公司 | 声音合成方法及系统、音频处理芯片、电子设备 |
CN111613224A (zh) * | 2020-04-10 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种个性化语音合成方法及装置 |
CN112802447A (zh) * | 2021-03-19 | 2021-05-14 | 成都启英泰伦科技有限公司 | 一种语音合成播报方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110459201B (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106531150B (zh) | 一种基于深度神经网络模型的情感合成方法 | |
Gold et al. | Speech and audio signal processing: processing and perception of speech and music | |
CN106971703A (zh) | 一种基于hmm的歌曲合成方法及装置 | |
CN110459201B (zh) | 一种产生新音色的语音合成方法 | |
JP2018146803A (ja) | 音声合成装置及びプログラム | |
Malcangi | Text-driven avatars based on artificial neural networks and fuzzy logic | |
CN113539231A (zh) | 音频处理方法、声码器、装置、设备及存储介质 | |
Schröder et al. | Synthesis of emotional speech | |
Moon et al. | Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer | |
JPH0641557A (ja) | 音声合成のための方法および装置 | |
O'Connor et al. | Zero-shot singing technique conversion | |
JP6474518B1 (ja) | 簡易操作声質変換システム | |
CN115966197A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
Ronanki | Prosody generation for text-to-speech synthesis | |
JP2010224418A (ja) | 音声合成装置、方法およびプログラム | |
Bunnell | Speech synthesis: Toward a “Voice” for all | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
Thompson IV | Creating Musical Scores Inspired by the Intersection of Human Speech and Music Through Model-Based Cross Synthesis | |
Suzié et al. | DNN based expressive text-to-speech with limited training data | |
US20240347037A1 (en) | Method and apparatus for synthesizing unified voice wave based on self-supervised learning | |
Louw | Cross-lingual transfer using phonological features for resource-scarce text-to-speech | |
Chandna | Neural networks for singing voice extraction in monaural polyphonic music signals | |
이주헌 | Controllable Singing Voice Synthesis using Conditional Autoregressive Neural Network | |
JPS5880699A (ja) | 音声合成方式 | |
Jayasinghe | Machine Singing Generation Through Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |