CN110459201B - 一种产生新音色的语音合成方法 - Google Patents

一种产生新音色的语音合成方法 Download PDF

Info

Publication number
CN110459201B
CN110459201B CN201910780718.XA CN201910780718A CN110459201B CN 110459201 B CN110459201 B CN 110459201B CN 201910780718 A CN201910780718 A CN 201910780718A CN 110459201 B CN110459201 B CN 110459201B
Authority
CN
China
Prior art keywords
synthesis
output
neural network
sound library
deep neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910780718.XA
Other languages
English (en)
Other versions
CN110459201A (zh
Inventor
孙见青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201910780718.XA priority Critical patent/CN110459201B/zh
Publication of CN110459201A publication Critical patent/CN110459201A/zh
Application granted granted Critical
Publication of CN110459201B publication Critical patent/CN110459201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

本发明公开了一种产生新音色的语音合成方法,包括:利用多个音库数据对深度神经网络进行训练,形成第一合成模型;利用多个音库数据分别训练第一合成模型,形成与多个音库数据对应的多个第二合成模型;利用第一合成模型推理出第一输出参数;利用多个第二合成模型推理出与第二合成模型对应的多个第二输出参数,形成第二输出参数组;对第二输出参数组进行加权叠加形成声学参数;利用声码器重构声学参数形成合成语音。本发明提出的方法,能在不制作新音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。

Description

一种产生新音色的语音合成方法
技术领域
本发明涉及语音合成领域,特别涉及一种产生新音色的语音合成方法。
背景技术
语音合成,又称文语转换(Text to Speech)技术,指的是将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。
随着语音合成技术的发展,用户对合成语音音色的多样化和差异化要求越来越高,现有产生新音色的方法一般是通过定制一个新的发音人音库来得到新的音色。但定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
发明内容
本发明提供了一种产生新音色的语音合成方法,用以解决定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
本发明提供的一种产生新音色的语音合成方法,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。
在本发明的一个实施例中,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
在本发明的一个实施例中,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
在本发明的一个实施例中,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
在本发明的一个实施例中,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字。
在本发明的一个实施例中,利用所述第一输入数据和所述第一输出数据训练深度神经网络,包括:
利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;
随机初始化所述深度神经网络的网络参数;
基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:
L(y,z)=‖y-z‖^2
其中,y是自然的目标参数,z是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y,z)最小。
在本发明的一个实施例中,利用所述多个音库数据分别训练所述第一合成模型,包括:
对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;
对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;
利用所述第二输入数据和所述第二输出数据对所述第一合成模型进行训练。
在本发明的一个实施例中,所述第一输出参数的表达式为:
h=g(WTx+b)
其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
在本发明的一个实施例中,所述第二输出参数组的表达式为:
yi=WTh+b
其中,yi表示第二输出参数组,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。
在本发明的一个实施例中,所述声学参数的表达式为:
Figure BDA0002176492290000031
其中,
Figure BDA0002176492290000041
表示声学参数,ai表示叠加权重,yi表示第二输出参数。
本发明的一些有益效果可以包括:
本发明提供的一种产生新音色的语音合成方法,能在不制作新的发音人音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。
本发明的其它特征和优点将在随说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种产生新音色的语音合成方法的流程图;
图2为本发明实施例中一种产生新音色的语音合成方法中深度神经网络的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种产生新音色的语音合成方法的流程图。如图1所示,本发明提供的一种产生新音色的语音合成方法,包括:
S101、利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
具体地,为了解决现有产生新音色的语音合成方法存在的缺陷,本实施例首先选择现有的多个发音人录制音库数据,在训练模型时,将这些发音人音库数据混合在一起训练基于深度神经网络(Deep Neural Network,简称DNN)的合成模型,输入文本信息,输出为声学特征,得到的第一合成模型记为M_s。
采用多个发音人训练,会将单个发音人的缺点模糊掉,最终训练出的模型趋向于一种多发音人平均的方向,从而得到一个较稳定的模型。其次,每个发音人都有其各自的特点,通过混合训练,可将不同的优势特征组合。第三,真实发音人在参数特征达不到最优,采用多个发音人训练可使语音合成效果得到明显优化。
S102、利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
具体地,在得到第一合成模型M_s后,利用上述多个音库数据再分别对第一合成模型M_s进行训练,训练的规则是保证第一合成模型M_s的其他层权重参数不变,仅更新其最后一层权重参数,形成与所述多个音库数据对应的多个第二合成模型,记为M_ti,i=1,…,N。
深度神经网络的最后一层往往是全连接层+Softmax(分类网络),通常情况下,将深度神经网络最后一个全连接层的输入,视为深度神经网络从输入数据提取到的特征,具体到本实施例中即为从文本信息中提取的声学特征,经过全连接层,可以获得n个类别的分数,为了得到属于每个类别的概率,先将分数进行映射,然后再归一化到(0,1),便得到了每个类别的概率。
S103、利用所述第一合成模型推理出第一输出参数;
具体地,在推理时,通过除去最后一层的第一合成模型M_s进行推理,输入文本信息,得到第一合成模型的倒数第二层的输出参数,将该参数定义为第一输出参数。
S104、利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
具体地,再从多个第二合成模型M_ti中选取数量不超过第二合成模型数量总数的若干第二合成模型,将上述第一输出参数作为输入,利用
S105、对所述第二输出参数组进行加权叠加形成声学参数;
S106、利用声码器重构所述声学参数形成合成语音。
具体地,在获取了第二输出参数组后,对第二输出参数组进行加权叠加,形成对应的声学参数,通过上述得到的声学参数,如时长和基频/频谱参数,对于得到的基频/频谱参数,利用声码器重构所述声学参数形成合成语音。从而实现新音色语音的合成。
按照语音理论,在合成语音时,根据待合成的文本信息和参数库,规划出相应的合成参数,然后送入语音合成器合成,最终将语音波形生成出来。
在一个具体的实施方式中,所述音库数据包括:发音人语音的声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
具体地,选择要作为样本的录音语料,该录音语料要尽可能的覆盖所有音节、调联等情况,以及每个音节的各种发音情况,如在句首、句中、句末、韵首、韵中、韵末、词首、词中、词末等等情况。根据所选择作为样本的录音语料,请多位发音人进行录音,得到多组音库数据。从多组音库数据中提取出声音的参数信息,如基频(即音高)、谱、时长等参数。这些参数信息的提取通常是分帧处理,常见的是1ms或者5ms一帧,具体的提取方法与本领域技术人员熟知的参数提取方法一致,在此不再详述。
在一个具体的实施方式中,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
具体地,在利用多个音库数据对深度神经网络进行训练时,首先应当对音库数据中的文本信息进行编码得到深度神经网络的第一输入数据。具体的编码方法包括获取文本信息对应的音素和韵律等信息,并进行0\1编码,共得到1114维二值数字;同时,加入当前帧在当前音素中的相对位置信息(规整到0和1之间),包括前向位置和后向位置,共2维;音素\韵律等信息0\1编码和位置信息共1116维,作为深度神经网络的第一输入数据。再对音库数据中的声学特征进行建模得到深度神经网络的第一输出数据,包括频谱、能量、基频和时长等,这里将声学特征分成两类,分别进行建模,第一类:对频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行了考虑前面4帧和后面4帧的帧扩展,对频谱和能量参数考虑了其一阶差分和二阶差分信息,共133维;第二类,对时长进行建模,这里的时长为音素时长,即音素中含有的帧数,1维。在获取到第一输入数据和第一输出数据后,根据上述的第一输入数据和第一输出数据对深度神经网络进行训练,具体训练的步骤如下:
如图2所示,本实施例中使用经典的BP(Back Propagation)神经网络构建回归模型,隐层使用sigmoid激励函数,输出层使用linear激励函数,首先随机化网络参数作为初始参数,然后基于下面的MMSE准则进行模型训练:
L(y,z)=‖y-z‖^2
其中,y是自然的目标参数,z是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y,z)最小。
这里对上面提到的两类声学特征分别进行建模:
频谱、能量和基频,共133维,网络结构为:1116-1024-1024-1024-133,得到的模型记为MANS
时长,共1维,这里网络输入不考虑帧在当前音素中相对位置信息,网络结构为:1114-1024-1024-1024-1,得到的模型记为MAND
根据第一输入数据和第一输出数据训练得到最优的网络结构MANS和MAND
在一个具体的实施方式中,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,并对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
具体地,在获取第一输入数据时,首先需要对文本信息中的音素信息和韵律信息,并对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;再加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;最后将上述1114维二值数字和上述2维二值数字叠加形成1116维二值数字,作为深度神经网络的第一输入数据。
在本发明的一个实施例中,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字。
具体地,在获取第一输出数据时,首先需要对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字;将上述两组二值数字分别作为深度神经网络的第一输出数据对深度神经网络进行训练。
在一个具体的实施方式中,利用所述第一输入数据和所述第一输出数据训练深度神经网络模型,包括:
利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;
随机初始化所述深度神经网络的网络参数;
基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:
L(y1,z1)=‖y1-z1‖^2
其中,y1是自然的目标参数,z1是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(y1,z1)最小。
在一个具体的实施方式中,利用所述多个音库数据分别训练所述第一合成模型的最后一层权重参数,包括:
对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;
对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;
利用所述第二输入数据和所述第二输出数据对所述第一合成模型的最后一层权重参数进行训练。
具体地,在利用每个音库数据对第一合成模型进行训练时,首先应当对每个音库数据中的文本信息进行编码得到深度神经网络的第二输入数据组。具体的编码方法包括获取文本信息对应的音素和韵律等信息,并进行0\1编码,共得到1114维二值数字;同时,加入当前帧在当前音素中的相对位置信息(规整到0和1之间),包括前向位置和后向位置,共2维;音素\韵律等信息0\1编码和位置信息共1116维,作为第一合成模型的第二输入数据。再对音库数据中的声学特征进行建模得到第一合成模型的第二输出数据,包括频谱、能量、基频和时长等,这里将声学特征分成两类,分别进行建模,第一类:对频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行了考虑前面4帧和后面4帧的帧扩展,对频谱和能量参数考虑了其一阶差分和二阶差分信息,共133维;第二类,对时长进行建模,这里的时长为音素时长,即音素中含有的帧数,1维。在获取到第二输入数据和第二输出数据后,根据上述的第二输入数据和第二输出数据对第一合成进行训练,具体训练的步骤如下:
本实施例中同样使用经典的BP(Back Propagation)神经网络构建回归模型,隐层使用sigmoid激励函数,输出层使用linear激励函数,首先随机化网络参数作为初始参数,然后基于下面的MMSE准则进行模型训练:
L(y2,z2)=‖y2-z2‖^2
其中,y2是自然的目标参数,z2是第一合成模型预测的参数,训练的目标是更新第一合成模型,使得L2(y2,z2)最小。
这里对上面提到的两类声学特征分别进行建模:
对频谱、能量和基频建模,共133维,网络结构为:1116-1024-1024-1024-133,得到的模型记为MANS2
对时长建模,共1维,这里第一合成模型的输入不需要考虑当前帧在当前音素中相对位置信息,网络结构为:1114-1024-1024-1024-1,得到的模型记为MAND2
根据第二输入数据和第二输出数据训练得到第一合成模型最优的网络结构MANS2和MAND2
在一个具体的实施方式中,所述第一输出参数的表达式为:
h=g(WTx+b)
其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
具体地,再得到训练好的第一合成模型和第二合成模型后,需要根据第一合成模型和第二合成模型推理出参数来合成新音色的语音。首先利用第一合成模型除去最后一层推理出第一输出参数,该参数的表达式为h=g(WTx+b)
其中,h表示第一输出参数,g表示该层的激活函数,W和b表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
这里将文本信息经过编码后的数据作为输入参数,经过第一合成模型的推理,可以得到输入参数在第一合成模型内每一层输出参数,将倒数第二层的输出参数定义为第一输出参数。
在本发明的一个实施例中,所述第二输出参数组的表达式为:
yi=WTh+b
其中,yi表示第二输出参数组,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。
具体地,再获取了第一输出参数之后,通过多个第二合成模型对上述第一输出参数进行推理,得到多个第二合成模型最后一层的输出参数,定义为第二输出参数,组成第二输出参数组;第二输出参数组的表达式为
yi=WTh+b
其中,yi表示第二输出参数组,h表示第一输出参数,W和b表示第二合成模型最后一层的网络参数。
在本发明的一个实施例中,所述声学参数的表达式为:
Figure BDA0002176492290000111
其中,
Figure BDA0002176492290000112
表示声学参数,ai表示叠加权重,yi表示第二输出参数。
具体地,在获取了第二输出参数组后,对第二输出参数组进行加权叠加,形成对应的声学参数,声学参数的表达式为:
Figure BDA0002176492290000113
其中,
Figure BDA0002176492290000114
表示声学参数,ai表示叠加权重,yi表示第二输出参数。
通过上述得到的声学参数,如时长和基频/频谱参数,对于得到的基频/频谱参数,利用声码器重构所述声学参数形成合成语音。从而实现新音色语音的合成。
本发明提供的一种产生新音色的语音合成方法,能在不制作新的发音人音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种产生新音色的语音合成方法,其特征在于,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数,并将第一输出参数作为多个第二合成模型的输入;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。
2.根据权利要求1所述的方法,其特征在于,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
3.根据权利要求1所述的方法,其特征在于,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
4.根据权利要求3所述的方法,其特征在于,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
5.根据权利要求3所述的方法,其特征在于,对多个音库数据中的声学特征进行建模,包括:
对声学特征中的频谱、能量和基频进行建模,其中频谱40维、能量1维、基频1维、基频清浊标记1维,对基频进行考虑前面4帧和后面4帧的帧扩展,对频谱和能量考虑一阶差分信息和二阶差分信息,得到133维二值数字;
对声学特征中的时长进行建模,得到1维二值数字。
6.根据权利要求3所述的方法,其特征在于,利用所述第一输入数据和所述第一输出数据训练深度神经网络,包括:
利用深度神经网络构建回归模型,其中,所述深度神经网络的隐层使用sigmoid激励函数,所述深度神经网络的输出层使用linear激励函数;
随机初始化所述深度神经网络的网络参数;
基于MMSE准则利用所述第一输入数据和所述第一输出数据对所述深度神经网络模型进行训练,训练的表达式为:
Figure DEST_PATH_IMAGE001
其中,y是自然的目标参数,z是深度神经网络模型预测的参数,训练的目标是更新深度神经网络,使得L(yz)最小。
7.根据权利要求1所述的方法,其特征在于,利用所述多个音库数据分别训练所述第一合成模型,包括:
对每个音库数据中的文本信息进行编码,形成1116维二值数字作为第一合成模型的第二输入数据;
对每个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为第一合成模型的第二输出数据;
利用所述第二输入数据和所述第二输出数据对所述第一合成模型进行训练。
8.根据权利要求1所述的方法,其特征在于,所述第一输出参数的表达式为:
Figure DEST_PATH_IMAGE003
其中,h表示第一输出参数,g表示该层的激活函数,Wb表示该层的网络参数,x是前一层的输出,如果x是第一层,则对应输入参数。
9.根据权利要求1所述的方法,其特征在于,所述第二输出参数组的表达式为:
Figure DEST_PATH_IMAGE005
其中,
Figure 383465DEST_PATH_IMAGE006
表示第i个第二输出参数,h表示第一输出参数,Wb表示第二合成模型最后一 层的网络参数。
10.根据权利要求1所述的方法,其特征在于,所述声学参数的表达式为:
Figure 566185DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
表示声学参数,a i 表示第i个第二输出参数对应的叠加权重,y i 表示第i个第二输 出参数。
CN201910780718.XA 2019-08-22 2019-08-22 一种产生新音色的语音合成方法 Active CN110459201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910780718.XA CN110459201B (zh) 2019-08-22 2019-08-22 一种产生新音色的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910780718.XA CN110459201B (zh) 2019-08-22 2019-08-22 一种产生新音色的语音合成方法

Publications (2)

Publication Number Publication Date
CN110459201A CN110459201A (zh) 2019-11-15
CN110459201B true CN110459201B (zh) 2022-01-07

Family

ID=68488675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910780718.XA Active CN110459201B (zh) 2019-08-22 2019-08-22 一种产生新音色的语音合成方法

Country Status (1)

Country Link
CN (1) CN110459201B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111435591B (zh) * 2020-01-17 2023-06-20 珠海市杰理科技股份有限公司 声音合成方法及系统、音频处理芯片、电子设备
CN111613224A (zh) * 2020-04-10 2020-09-01 云知声智能科技股份有限公司 一种个性化语音合成方法及装置
CN112802447A (zh) * 2021-03-19 2021-05-14 成都启英泰伦科技有限公司 一种语音合成播报方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报系统和方法
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
CN105118498A (zh) * 2015-09-06 2015-12-02 百度在线网络技术(北京)有限公司 语音合成模型的训练方法及装置
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105355194A (zh) * 2015-10-22 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN105845125A (zh) * 2016-05-18 2016-08-10 百度在线网络技术(北京)有限公司 语音合成方法和语音合成装置
KR20170107683A (ko) * 2016-03-16 2017-09-26 한국전자통신연구원 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
JP2018097250A (ja) * 2016-12-15 2018-06-21 株式会社ファニー 言語学習装置
CN108847215A (zh) * 2018-08-29 2018-11-20 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
WO2018209556A1 (en) * 2017-05-16 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for speech synthesis
CN110136692A (zh) * 2019-04-30 2019-08-16 北京小米移动软件有限公司 语音合成方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766603A (zh) * 2014-01-06 2015-07-08 安徽科大讯飞信息科技股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
CN104464716A (zh) * 2014-11-20 2015-03-25 北京云知声信息技术有限公司 一种语音播报系统和方法
CN105118498A (zh) * 2015-09-06 2015-12-02 百度在线网络技术(北京)有限公司 语音合成模型的训练方法及装置
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105355194A (zh) * 2015-10-22 2016-02-24 百度在线网络技术(北京)有限公司 语音合成方法和装置
KR20170107683A (ko) * 2016-03-16 2017-09-26 한국전자통신연구원 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
CN105845125A (zh) * 2016-05-18 2016-08-10 百度在线网络技术(北京)有限公司 语音合成方法和语音合成装置
JP2018097250A (ja) * 2016-12-15 2018-06-21 株式会社ファニー 言語学習装置
WO2018209556A1 (en) * 2017-05-16 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for speech synthesis
CN108847215A (zh) * 2018-08-29 2018-11-20 北京云知声信息技术有限公司 基于用户音色进行语音合成的方法及装置
CN110136692A (zh) * 2019-04-30 2019-08-16 北京小米移动软件有限公司 语音合成方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An HNM-Based Speaker-Nonspecific Timbre Transformation Scheme for Speech Synthesis;Hung-Yan Gu;《2009 2nd International Congress on Image and Signal Processing》;20091030;全文 *
个性化语音合成的研究与实现;张桂香;《中国优秀硕士学位论文全文数据库》;20080531(第5期);I136-61 *
智能家居环境中个性化语音生成关键技术研究;高伟勋;《中国博士学位论文全文数据库》;20160731(第7期);C038-38 *

Also Published As

Publication number Publication date
CN110459201A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN106531150B (zh) 一种基于深度神经网络模型的情感合成方法
Gold et al. Speech and audio signal processing: processing and perception of speech and music
CN110459201B (zh) 一种产生新音色的语音合成方法
JP2005516262A (ja) 音声合成
JP2011028230A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2018146803A (ja) 音声合成装置及びプログラム
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
CN113539231A (zh) 音频处理方法、声码器、装置、设备及存储介质
Moon et al. Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer
JPH0641557A (ja) 音声合成のための方法および装置
O'Connor et al. Zero-shot singing technique conversion
JP6474518B1 (ja) 簡易操作声質変換システム
Morrison Encoding Post-Spectral Sound: Kaija Saariaho’s Early Electronic Works at IRCAM, 1982–87
KR102168529B1 (ko) 인공신경망을 이용한 가창음성 합성 방법 및 장치
Le et al. Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning.
Ronanki Prosody generation for text-to-speech synthesis
Bunnell Speech synthesis: Toward a “Voice” for all
Thompson IV Creating Musical Scores Inspired by the Intersection of Human Speech and Music Through Model-Based Cross Synthesis
Suzié et al. DNN based expressive text-to-speech with limited training data
Chandna Neural networks for singing voice extraction in monaural polyphonic music signals
Perera et al. A Comprehensive Review on Speech Synthesis Using Neural-Network Based Approaches
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP6552146B1 (ja) 音声処理装置、および音声処理方法
Lu et al. Unlocking the Potential: an evaluation of Text-to-Speech Models for the Bahnar Language
Lomax The Analysis and Synthesis of the Singing Voice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant