CN104538024B - 语音合成方法、装置及设备 - Google Patents
语音合成方法、装置及设备 Download PDFInfo
- Publication number
- CN104538024B CN104538024B CN201410720550.0A CN201410720550A CN104538024B CN 104538024 B CN104538024 B CN 104538024B CN 201410720550 A CN201410720550 A CN 201410720550A CN 104538024 B CN104538024 B CN 104538024B
- Authority
- CN
- China
- Prior art keywords
- duration
- spectrum
- text
- prediction model
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了语音合成方法、装置和设备。该方法包括:获取待处理文本的语境信息;根据所述语境信息利用时长预测模型确定语音时长,其中所述时长预测模型是基于深度神经网络训练得到;根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;根据所述谱和基频特征参数得到合成语音。本发明提供的语音合成方法能够提供高音质、自然流畅的语音。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种语音合成方法、装置及设备。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。目前的语音合成技术多是采用基于隐马尔科夫模型(以下简称HMM)的参数合成技术(以下简称HTS),该HTS语音合成技术在训练阶段,对训练数据进行决策树聚类和HMM建模,得到聚类HMM以及决策树。在语音合成阶段,利用决策树将待合成文本的语境信息进行决策,得到对应的声学信息,即谱和基频特征参数,包括谱和基频特征参数本身及其差分、二阶差分等动态特征,之后,根据声学信息的差分等动态特征生成平滑的特征参数序列,最后将生成的特征参数序列输入声码器获得合成语音。该HTS语音合成技术,其基于差分的动态特征生成动态参数过程,会为生成的特征参数序列带来过平滑现象,该过平滑现象导致所合成的语音音质低、节奏单调平淡。
发明内容
本发明解决的技术问题之一是提供语音合成方法、装置及设备,从而提供高音质、自然流畅的语音。
根据本发明一方面的一个实施例,提供了一种语音合成方法,其中,包括:
获取待处理文本的语境信息;
根据所述语境信息利用时长预测模型确定语音时长,所述时长预测模型是基于长短时记忆神经网络训练得到;
根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;
根据所述谱和基频特征参数得到合成语音。
可选地,获取待处理文本的语境信息具体包括:
获取待处理文本音子级语境信息。
可选地,还包括:
对获取的所述语境信息进行降维处理。
可选地,所述谱和基频预测模型是基于深度神经网络训练得到。
可选地,所述深度神经网络包括:长短时记忆神经网络。
根据本发明另一方面的一个实施例,提供了一种语音合成装置,包括:
用于获取待处理文本的语境信息的单元;
用于根据所述语境信息利用时长预测模型确定语音时长的单元,所述时长预测模型是基于长短时记忆神经网络训练得到;
用于根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数的单元;
用于根据所述谱和基频特征参数得到合成语音的单元。
可选地,用于获取待处理文本语境信息的单元具体用于:
获取待处理文本音子级语境信息。
可选地,还包括:
用于对获取的所述语境信息进行降维处理的单元。
可选地,所述谱和基频预测模型是基于深度神经网络训练得到。
可选地,所述深度神经网络包括:长短时记忆神经网络。
根据本发明的另一方面的一个实施例,还提供了一种计算机设备,包括前述语音合成装置。
由于本实施例中在获取待处理文本的语境信息后,利用基于长短时记忆神经网络训练得到的时长预测模型,确定出待处理文本的语音时长,并利用谱和基频预测模型确定出待处理文本的谱和基频,从而根据该确定的谱和基频得到合成的语音,本实施例简化了语音合成步骤,通过基于长短时记忆神经网络训练得到的时长预测模型可以避免动态参数生成环境带来的过平滑现象,从而提供合成高音质、自然流畅的语音。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明一个实施例的语音合成方法的流程图。
图2是根据本发明另一个实施例的语音合成方法的流程图。
图3是根据本发明一个实施例的语音合成装置的框图。
图4是根据本发明另一个实施例的语音合成装置的框图。
图5是根据本发明一个实施例的基于深度神经网络训练时长预测模型示意图。
图6是根据本发明一个实施例的基于深度神经网络训练谱和基频预测模型示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1是根据本发明一个实施例的语音合成方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为语音合成装置。该计算机设备包括但不限于以下中的至少一个:用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图1中所示,该语音合成方法主要包括如下步骤:
S100、获取待处理文本的语境信息;
获取待处理文本的语境信息,即为获取待合成语音的文本的语境信息,获取的语境信息包括但不限于:待处理文本中每个文字的声韵母、声调、停顿等等。
其中,与现有技术中只能处理状态级的语境信息相比,本申请实施例获取的该语境信息既可以为音子级,也可以为比音子级更小的状态级,所述音子级为所获取的语境信息最小级别为拼音的声韵母;所述比音子级更小的状态级为所获取的语境信息最小级为各声韵母的子片段,也就是,除包含拼音的声韵母外,还将整个拼音分为若干片段,确定每个声韵母所在的片段,例如,确定每个声韵母是位于头部或中部等等。
获取待处理文本的语境信息,可通过对待处理文本进行分析得到,具体分析方法本实施例对此不做具体限制。
S110、根据所述语境信息利用时长预测模型确定语音时长;
其中,所述时长预测模型是基于深度神经网络训练得到。所述深度神经网络包括但不限于:长短时记忆神经网络。如图5中所示为基于深度神经网络训练时长预测模型示意图,在训练时长预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立时长预测模型(以下简称建模),也就是在训练时长预测模型时,将训练数据的语境信息作为输入参数,将训练数据的时长作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的时长预测模型。
另外,使用长短时记忆神经网络训练时长预测模型与现有技术HTS的时长预测相比有以下区别:HTS中的时长预测只是对时长特征本身进行建模,而不能像HTS对谱和基频那样加入动态差分特征,这样预测得到的时长和前后输出的时长不具有相关性;而长短时记忆神经网络其自动使用前后输出的时长的建模特性,使得预测得到的时长和前后输入参数有相关性,反映到人的听感上就是合成语音更加流畅自然。
本实施例利用基于深度神经网络训练得到的时长预测模型,以待处理文本的语境信息作为该模型的输入参数,从而确定出待处理文本合成语音后的语音时长,即,确定待处理文本所持续的帧数,通常5毫秒为一帧。
S120、根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;
其中的谱和基频预测模型是基于深度神经网络训练得到。所述深度神经网络包括:长短时记忆神经网络。如图6中所示,为基于深度神经网络训练谱和基频预测模型示意图,在训练谱和基频预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立谱和基频预测模型(以下简称建模),其中,利用长短时记忆神经网络的可自动学习记忆历史语境信息的功能,对声学信息(即谱和基频特征参数)本身建立时长预测模型,其与现有技术的对声学特征和其差分等动态特征一起建模不同,本实施例的建模方式既可以提升建模精度,又可以跳过动态特征生成环节避免其带来的过平滑现象。
因此,本实施例在训练谱和基频预测模型时,将训练数据的语境信息和时长信息作为输入参数,将训练数据的谱和基频信息作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的谱和基频预测模型。
利用上述基于深度神经网络训练得到的谱和基频预测模型,输入步骤S100获取的语境信息以及步骤S110中确定的语音时长,最终可确定待处理文本的谱和基频特征参数,即,确定待处理文本的谱和基频的声学信息。
S130、根据所述谱和基频特征参数得到合成语音。
本步骤是利用步骤S120中确定的待处理文本的谱和基频特征参数得到合成语音,具体的,可以将谱和基频特征参数输入到声码器中,即可将谱和基频的声学参数合成语音信号,完成语音合成过程。
由于本实施例中在获取待处理文本的语境信息后,利用基于长短时记忆神经网络训练得到的时长预测模型,确定出待处理文本的语音时长,并利用谱和基频预测模型确定出待处理文本的谱和基频,从而根据该确定的谱和基频得到合成的语音,本实施例简化了语音合成步骤,通过基于长短时记忆神经网络训练得到的时长预测模型可以避免动态参数生成环境带来的过平滑现象,从而提供合成高音质、自然流畅的语音。
图2是根据本发明另一个实施例的语音合成方法的流程图,该语音合成方法主要包括如下步骤:
S200、获取待处理文本的语境信息;
获取待处理文本的语境信息,即为获取待合成语音的文本的语境信息,获取的语境信息包括但不限于:待处理文本中每个文字的拼音的声韵母、声调、停顿等等。
其中,与现有技术中只能处理状态级的语境信息相比,本申请实施例获取的该语境信息既可以为音子级,也可以为比音子级更小的状态级,所述音子级为所获取的语境信息最小级别为拼音的声韵母;所述比音子级更小的状态级为所获取的语境信息最小级为各声韵母的位置信息,也就是,除包含拼音的声韵母外,还将整个拼音分为若干部分,确定每个声韵母所在的部分,例如,确定每个声韵母是位于头部或中部等等。
获取待处理文本的语境信息,可通过对待处理文本进行分析得到,具体分析方法本实施例对此不做具体限制。
S210、对获取的所述语境信息进行降维处理。
由于步骤S200中对待处理文本进行分析获得的语境信息维度很高,例如,音子id特征,当前音子是否为a,当前音子是否ai等;声调特征,例如,当前韵母的声调是否阳平等;数值特征,例如,当前韵律短语的音子数目等。在后续的利用时长预测模型以及谱和基频预测模型合成语音的相关操作中,若输入各模型的语境信息维度高,则会导致难以实现模型参数调优。因此,本实施例对获取的语境信息进行降维处理,即根据语境信息各维的数据分布从高维空间自动映射到低维空间,具体到某个维度不是简单的保留或者删除,而是可能全部或者部分信息降维后得到保留。
其中,本实施例可采用基于时域卷积网络的特征降维方法,对语境信息进行降维,该方法通过在不同时间戳输入特征共享降维矩阵的方式,即,不同时间戳的语境信息共享降维矩阵,来实现时域上具有强相关特性的稀疏特征降维的能力。
S220、根据所述语境信息利用时长预测模型,确定语音时长;
其中,所述时长预测模型是基于深度神经网络训练得到。所述深度神经网络包括但不限于:长短时记忆神经网络。如图5中所示为基于深度神经网络训练时长预测模型示意图,在训练时长预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立时长预测模型(以下简称建模),也就是在训练时长预测模型时,将训练数据的语境信息作为输入参数,将训练数据的时长作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的时长预测模型。
另外,使用长短时记忆神经网络训练时长预测模型与现有技术HTS的时长预测相比有以下区别:HTS中的时长预测只是对时长特征本身进行建模,而不能像HTS对谱和基频那样加入动态差分特征,这样预测得到的时长和前后输出的时长不具有相关性;而长短时记忆神经网络其自动使用前后输出的时长的建模特性,使得预测得到的时长和前后输入参数有相关性,反映到人的听感上就是合成语音更加流畅自然。
本实施例利用基于深度神经网络训练得到的时长预测模型,以待处理文本的语境信息作为该模型的输入参数,从而确定出待处理文本合成语音后的语音时长,即,确定待处理文本所持续的帧数,通常5毫秒为一帧。
同样,在训练时长预测模型时,也可以对输入的语境信息进行降维处理,具体降维方法同上面所述。
S230、根据所述语境信息及所述语音时长利用谱和基频预测模型,确定谱和基频特征参数;
其中的谱和基频预测模型是基于深度神经网络训练得到。所述深度神经网络包括:长短时记忆神经网络。如图6中所示,为基于深度神经网络训练谱和基频预测模型示意图,在训练谱和基频预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立谱和基频预测模型(以下简称建模),其中,利用长短时记忆神经网络的可自动学习记忆历史语境信息的功能,对声学信息(即谱和基频特征参数)特征本身建立时长预测模型,其与现有技术的对声学特征和其差分等动态特征一起建模不同,这样本实施例的建模方式既可以提升建模精度,又可以跳过动态特征生成环节避免其带来的过平滑现象。
因此,本实施例在训练谱和基频预测模型时,将训练数据的语境信息和时长信息作为输入参数,将训练数据的谱和基频信息作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的谱和基频预测模型。
其中,在训练谱和基频预测模型时,也可对输入的语境信息进行降维处理,具体降维方法同上面所述,此处不再赘述。
利用上述基于深度神经网络训练得到的谱和基频预测模型,输入步骤S210中降维处理后的语境信息以及步骤S220中确定的语音时长,最终可确定待处理文本的谱和基频特征参数,即,确定待处理文本的谱和基频的声学信息。
S240、根据所述谱和基频特征参数得到合成语音。
本步骤是利用步骤S230中确定的待处理文本的谱和基频特征参数得到合成语音,具体的,可以将谱和基频特征参数输入到声码器中,即可将谱和基频的声学参数合成语音信号,完成语音合成过程。
由于本实施例中在获取待处理文本的语境信息后,利用基于长短时记忆神经网络训练得到的时长预测模型,确定出待处理文本的语音时长,并利用谱和基频预测模型确定出待处理文本的谱和基频,从而根据该确定的谱和基频得到合成的语音,本实施例简化了语音合成步骤,通过基于长短时记忆神经网络训练得到的时长预测模型可以避免动态参数生成环境带来的过平滑现象,从而提供合成高音质、自然流畅的语音。
另外,本实施例对训练阶段以及语音合成阶段的语境信息进行降维处理,保障了模型训练的训练效果以及语音合成阶段的参数调优。
基于上面实施例同样的思路,本申请实施例还提供一种语音合成装置,如图3中所示,为该装置结构示意图,该装置主要包括:
用于获取待处理文本的语境信息的单元300,以下简称获取单元300;
该获取单元300获取待处理文本的语境信息,即为获取待合成语音的文本的语境信息,获取的语境信息包括但不限于:待处理文本中每个文字的拼音的声韵母、声调、停顿等等。
其中,与现有技术中只能处理状态级的语境信息相比,本申请实施例获取的该语境信息既可以为音子级,也可以为比音子级更小的状态级,所述音子级为所获取的语境信息最小级别为拼音的声韵母;所述比音子级更小的状态级为所获取的语境信息最小级为各声韵母的位置信息,也就是,除包含拼音的声韵母外,还将整个拼音分为若干部分,确定每个声韵母所在的部分,例如,确定每个声韵母是位于头部或中部等等。
获取单元300获取待处理文本的语境信息,可通过对待处理文本进行分析得到,具体分析方法本实施例对此不做具体限制。
用于根据所述语境信息利用时长预测模型,确定语音时长的单元310,以下简称时长确定单元310;
其中,所述时长预测模型是基于深度神经网络训练得到。所述深度神经网络包括但不限于:长短时记忆神经网络。如图5中所示为基于深度神经网络训练时长预测模型示意图,在训练时长预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立时长预测模型(以下简称建模),也就是在训练时长预测模型时,将训练数据的语境信息作为输入参数,将训练数据的时长作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的时长预测模型。
另外,使用长短时记忆神经网络训练时长预测模型与现有技术HTS的时长预测相比有以下区别:HTS中的时长预测只是对时长特征本身进行建模,而不能像HTS对谱和基频那样加入动态差分特征,这样预测得到的时长和前后输出的时长不具有相关性;而长短时记忆神经网络其自动使用前后输出的时长的建模特性,使得预测得到的时长和前后输入参数有相关性,反映到人的听感上就是合成语音更加流畅自然。
本实施例时长确定单元310利用基于深度神经网络训练得到的时长预测模型,以待处理文本的语境信息作为该模型的输入参数,从而确定出待处理文本合成语音后的语音时长,即,确定待处理文本所持续的帧数,通常5毫秒为一帧。
用于根据所述语境信息及所述语音时长利用谱和基频预测模型,确定谱和基频特征参数的单元320,以下简称谱和基频特征参数确定单元320;
其中的谱和基频预测模型是基于深度神经网络训练得到。所述深度神经网络包括:长短时记忆神经网络。如图6中所示,为基于深度神经网络训练谱和基频预测模型示意图,在训练谱和基频预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立谱和基频预测模型(以下简称建模),其中,利用长短时记忆神经网络的可自动学习记忆历史语境信息的功能,对声学信息(即谱和基频特征参数)本身建立时长预测模型,其与现有技术的对声学特征和其差分等动态特征一起建模不同,本实施例的建模方式既可以提升建模精度,又可以跳过动态特征生成环节避免其带来的过平滑现象。
因此,本实施例在训练谱和基频预测模型时,将训练数据的语境信息和时长信息作为输入参数,将训练数据的谱和基频信息作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的谱和基频预测模型。
谱和基频特征参数确定单元320利用上述基于深度神经网络训练得到的谱和基频预测模型,输入获取单元300获取的语境信息以及时长确定单元310确定的语音时长,最终可确定待处理文本的谱和基频特征参数,即,确定待处理文本的谱和基频的声学信息。
用于根据所述谱和基频特征参数得到合成语音的单元330,以下简称语音合成单元330。
具体的,该语音合成单元330是利用谱和基频确定单元320中确定的待处理文本的谱和基频特征参数得到合成语音,该语音合成单元330可以为声码器,通过声码器将谱和基频的声学参数合成语音信号,完成语音合成过程。
本实施例的语音合成装置,在获取待处理文本的语境信息后,利用基于长短时记忆神经网络训练得到的时长预测模型,确定出待处理文本的语音时长,并利用谱和基频预测模型确定出待处理文本的谱和基频,从而根据该确定的谱和基频得到合成的语音,本实施例简化了语音合成步骤,通过基于长短时记忆神经网络训练得到的时长预测模型可以避免动态参数生成环境带来的过平滑现象,从而提供合成高音质、自然流畅的语音。
如图4中所示为根据本申请另一实施例的语音合成装置的结构示意图,该装置主要包括:
用于获取待处理文本的语境信息的单元400,以下简称获取单元400。
该获取单元400获取待处理文本的语境信息,即为获取待合成语音的文本的语境信息,获取的语境信息包括但不限于:待处理文本中每个文字的拼音的声韵母、声调、停顿等等。
其中,与现有技术中只能处理状态级的语境信息相比,本申请实施例获取的该语境信息既可以为音子级,也可以为比音子级更小的状态级,所述音子级为所获取的语境信息最小级别为拼音的声韵母;所述比音子级更小的状态级为所获取的语境信息最小级为各声韵母的位置信息,也就是,除包含拼音的声韵母外,还将整个拼音分为若干部分,确定每个声韵母所在的部分,例如,确定每个声韵母是位于头部或中部等等。
获取单元400获取待处理文本的语境信息,可通过对待处理文本进行分析得到,具体分析方法本实施例对此不做具体限制。
用于对获取的所述语境信息进行降维处理的单元440,以下简称降维单元440。
由于获取单元400对待处理文本进行分析获得的语境信息维度很高,例如,音子id特征,当前音子是否为a,当前音子是否ai等;声调特征,例如,当前韵母的声调是否阳平等;数值特征,例如,当前韵律短语的音子数目等。在后续的利用时长预测模型以及谱和基频预测模型合成语音的相关操作中,若输入各模型的语境信息维度高,则会导致难以实现模型参数调优。因此,本实施例对获取的语境信息进行降维处理,即根据语境信息各维的数据分布从高维空间自动映射到低维空间,具体到某个维度不是简单的保留或者删除,而是可能全部或者部分信息降维后得到保留。
其中,本实施例降维单元440可采用基于时域卷积网络的特征降维方法,对语境信息进行降维,该方法通过在不同时间戳输入特征共享降维矩阵的方式,即,不同时间戳的语境信息共享降维矩阵,来实现时域上具有强相关特性的稀疏特征降维的能力。
用于根据所述语境信息利用时长预测模型,确定语音时长的单元410,以下简称时长确定单元410。
其中,所述时长预测模型是基于深度神经网络训练得到。所述深度神经网络包括但不限于:长短时记忆神经网络。如图5中所示为基于深度神经网络训练时长预测模型示意图,在训练时长预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立时长预测模型(以下简称建模),也就是在训练时长预测模型时,将训练数据的语境信息作为输入参数,将训练数据的时长作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的时长预测模型。
另外,使用长短时记忆神经网络训练时长预测模型与现有技术HTS的时长预测相比有以下区别:HTS中的时长预测只是对时长特征本身进行建模,而不能像HTS对谱和基频那样加入动态差分特征,这样预测得到的时长和前后输出的时长不具有相关性;而长短时记忆神经网络其自动使用前后输出的时长的建模特性,使得预测得到的时长和前后输入参数有相关性,反映到人的听感上就是合成语音更加流畅自然。
本实施例时长确定单元410利用基于深度神经网络训练得到的时长预测模型,以待处理文本的语境信息作为该模型的输入参数,从而确定出待处理文本合成语音后的语音时长,即,确定待处理文本所持续的帧数,通常5毫秒为一帧。
用于根据所述语境信息及所述语音时长利用谱和基频预测模型,确定谱和基频特征参数的单元420,以下简称谱和基频特征参数确定单元420;
其中的谱和基频预测模型是基于深度神经网络训练得到。所述深度神经网络包括:长短时记忆神经网络。如图6中所示,为基于深度神经网络训练谱和基频预测模型示意图,在训练谱和基频预测模型时,使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立谱和基频预测模型(以下简称建模),其中,利用长短时记忆神经网络的可自动学习记忆历史语境信息的功能,对声学信息(即谱和基频特征参数)本身建立时长预测模型,其与现有技术的对声学特征和其差分等动态特征一起建模不同,本实施例的建模方式既可以提升建模精度,又可以跳过动态特征生成环节避免其带来的过平滑现象。
因此,本实施例在训练谱和基频预测模型时,将训练数据的语境信息和时长信息作为输入参数,将训练数据的谱和基频信息作为输出参数,利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系,例如异或关系等,从而可以训练得到具有较高精度的谱和基频预测模型。
同样,在训练谱和基频预测模型时,也可对输入的语境信息进行降维处理。
谱和基频特征参数确定单元420利用上述基于深度神经网络训练得到的谱和基频预测模型,输入降维单元440降维处理后的语境信息以及时长确定单元410确定的语音时长,最终可确定待处理文本的谱和基频特征参数,即,确定待处理文本的谱和基频的声学信息。
用于根据所述谱和基频特征参数得到合成语音的单元430,以下简称语音合成单元430。
具体的,该语音合成单元430是利用谱和基频确定单元420中确定的待处理文本的谱和基频特征参数得到合成语音,该语音合成单元430可以为声码器,通过声码器将谱和基频的声学参数合成语音信号,完成语音合成过程。
本实施例的语音合成装置,在获取待处理文本的语境信息后,利用基于长短时记忆神经网络训练得到的时长预测模型,确定出待处理文本的语音时长,并利用谱和基频预测模型确定出待处理文本的谱和基频,从而根据该确定的谱和基频得到合成的语音,本实施例简化了语音合成步骤,通过基于长短时记忆神经网络训练得到的时长预测模型可以避免动态参数生成环境带来的过平滑现象,从而提供合成高音质、自然流畅的语音。
另外,本实施例对训练阶段以及语音合成阶段的语境信息进行降维处理,保障了模型训练的训练效果以及语音合成阶段的参数调优,有效降低了建模的维度。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (11)
1.一种语音合成方法,其中,包括:
获取待处理文本的语境信息;
根据所述语境信息利用时长预测模型确定所述待处理文本合成语音后的语音时长,其中,所述待处理文本合成语音后的语音时长也即所述待处理文本所持续的帧数,其中,所述时长预测模型是基于长短时记忆神经网络训练得到,且由于长短时记忆神经网络自动使用前后输出的时长的建模特性,使得预测得到的语音时长和前后输入参数有相关性;
根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数;
根据所述谱和基频特征参数来合成语音。
2.根据权利要求1所述的方法,其中,获取待处理文本的语境信息具体包括:
获取待处理文本音子级语境信息。
3.根据权利要求1所述的方法,其中,还包括:
对获取的所述语境信息进行降维处理。
4.根据权利要求1所述的方法,其中,所述谱和基频预测模型是基于深度神经网络训练得到。
5.根据权利要求4所述的方法,其中,所述深度神经网络包括:长短时记忆神经网络。
6.一种语音合成装置,包括:
用于获取待处理文本的语境信息的单元;
用于根据所述语境信息利用时长预测模型确定所述待处理文本合成语音后的语音时长的单元,其中,所述待处理文本合成语音后的语音时长也即所述待处理文本所持续的帧数,其中,所述时长预测模型是基于长短时记忆神经网络训练得到,且由于长短时记忆神经网络自动使用前后输出的时长的建模特性,使得预测得到的语音时长和前后输入参数有相关性;
用于根据所述语境信息及所述语音时长,利用谱和基频预测模型确定谱和基频特征参数的单元;
用于根据所述谱和基频特征参数合成语音的单元。
7.根据权利要求6所述的装置,其中,用于获取待处理文本的语境信息的单元具体用于:
获取待处理文本音子级语境信息。
8.根据权利要求6所述的装置,其中,还包括:
用于对获取的所述语境信息进行降维处理的单元。
9.根据权利要求6所述的装置,其中,所述谱和基频预测模型是基于深度神经网络训练得到。
10.根据权利要求9所述的装置,其中,所述深度神经网络包括:长短时记忆神经网络。
11.一种语音合成设备,其中包括根据权利要求6-10中任一个的语音合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410720550.0A CN104538024B (zh) | 2014-12-01 | 2014-12-01 | 语音合成方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410720550.0A CN104538024B (zh) | 2014-12-01 | 2014-12-01 | 语音合成方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104538024A CN104538024A (zh) | 2015-04-22 |
CN104538024B true CN104538024B (zh) | 2019-03-08 |
Family
ID=52853540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410720550.0A Active CN104538024B (zh) | 2014-12-01 | 2014-12-01 | 语音合成方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104538024B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104867489B (zh) * | 2015-04-27 | 2019-04-26 | 苏州大学张家港工业技术研究院 | 一种模拟真人朗读发音的方法及系统 |
WO2016172871A1 (zh) * | 2015-04-29 | 2016-11-03 | 华侃如 | 基于循环神经网络的语音合成方法 |
CN104952448A (zh) * | 2015-05-04 | 2015-09-30 | 张爱英 | 一种双向长短时记忆递归神经网络的特征增强方法及系统 |
CN104934028B (zh) * | 2015-06-17 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 用于语音合成的深度神经网络模型的训练方法及装置 |
CN105096934B (zh) * | 2015-06-30 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 构建语音特征库的方法、语音合成方法、装置及设备 |
CN105118498B (zh) * | 2015-09-06 | 2018-07-31 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105244020B (zh) * | 2015-09-24 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 韵律层级模型训练方法、语音合成方法及装置 |
CN109524023A (zh) * | 2016-01-22 | 2019-03-26 | 大连民族大学 | 一种对基频估计实验验证的方法 |
CN106653056B (zh) * | 2016-11-16 | 2020-04-24 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
JP6846237B2 (ja) * | 2017-03-06 | 2021-03-24 | 日本放送協会 | 音声合成装置及びプログラム |
CN107564511B (zh) * | 2017-09-25 | 2018-09-11 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107705782B (zh) * | 2017-09-29 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 用于确定音素发音时长的方法和装置 |
CN108182936B (zh) * | 2018-03-14 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音信号生成方法和装置 |
CN108597492B (zh) * | 2018-05-02 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN108922516B (zh) * | 2018-06-29 | 2020-11-06 | 北京语言大学 | 检测调域值的方法和装置 |
CN109308892B (zh) | 2018-10-25 | 2020-09-01 | 百度在线网络技术(北京)有限公司 | 语音合成播报方法、装置、设备及计算机可读介质 |
CN109599092B (zh) * | 2018-12-21 | 2022-06-10 | 秒针信息技术有限公司 | 一种音频合成方法及装置 |
CN110047462B (zh) * | 2019-01-31 | 2021-08-13 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN110232908B (zh) * | 2019-07-30 | 2022-02-18 | 厦门钛尚人工智能科技有限公司 | 一种分布式语音合成系统 |
CN110808026B (zh) * | 2019-11-04 | 2022-08-23 | 金华航大北斗应用技术有限公司 | 一种基于lstm的电声门图语音转换方法 |
CN113299271B (zh) * | 2020-02-06 | 2023-12-15 | 菜鸟智能物流控股有限公司 | 语音合成方法、语音交互方法、装置及设备 |
CN111445892B (zh) * | 2020-03-23 | 2023-04-14 | 北京字节跳动网络技术有限公司 | 歌曲生成方法、装置、可读介质及电子设备 |
CN111599338B (zh) * | 2020-04-09 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种稳定可控的端到端语音合成方法及装置 |
CN112885367B (zh) * | 2021-01-19 | 2022-04-08 | 珠海市杰理科技股份有限公司 | 基频获取方法、装置、计算机设备和存储介质 |
CN113938749B (zh) | 2021-11-30 | 2023-05-05 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
CN102063897A (zh) * | 2010-12-09 | 2011-05-18 | 北京宇音天下科技有限公司 | 一种用于嵌入式语音合成系统的音库压缩及使用方法 |
CN104112444A (zh) * | 2014-07-28 | 2014-10-22 | 中国科学院自动化研究所 | 一种基于文本信息的波形拼接语音合成方法 |
-
2014
- 2014-12-01 CN CN201410720550.0A patent/CN104538024B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887719A (zh) * | 2010-06-30 | 2010-11-17 | 北京捷通华声语音技术有限公司 | 语音合成方法、系统及具有语音合成功能的移动终端设备 |
CN101894547A (zh) * | 2010-06-30 | 2010-11-24 | 北京捷通华声语音技术有限公司 | 一种语音合成方法和系统 |
CN102063897A (zh) * | 2010-12-09 | 2011-05-18 | 北京宇音天下科技有限公司 | 一种用于嵌入式语音合成系统的音库压缩及使用方法 |
CN104112444A (zh) * | 2014-07-28 | 2014-10-22 | 中国科学院自动化研究所 | 一种基于文本信息的波形拼接语音合成方法 |
Non-Patent Citations (1)
Title |
---|
TTS Synthesis with Bidirectional LSTM based Recurrent Neural Networks;Yuchen Fan;《INTERSPEECH 2014》;20140918;1964-1968 |
Also Published As
Publication number | Publication date |
---|---|
CN104538024A (zh) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104538024B (zh) | 语音合成方法、装置及设备 | |
CN108597492B (zh) | 语音合成方法和装置 | |
CN107680597B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN106469552B (zh) | 语音识别设备和方法 | |
CN105185372B (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
CN106688034B (zh) | 具有情感内容的文字至语音转换 | |
US9361722B2 (en) | Synthetic audiovisual storyteller | |
CN113711305A (zh) | 用于文本到语音转换分析的持续时间知悉网络 | |
CN108573693A (zh) | 使用自动编码器的文本到语音合成 | |
CN107408384A (zh) | 部署的端对端语音识别 | |
Shaw et al. | Stochastic time models of syllable structure | |
CN105206258A (zh) | 声学模型的生成方法和装置及语音合成方法和装置 | |
US8447603B2 (en) | Rating speech naturalness of speech utterances based on a plurality of human testers | |
US9324316B2 (en) | Prosody generator, speech synthesizer, prosody generating method and prosody generating program | |
CN104143342B (zh) | 一种清浊音判定方法、装置和语音合成系统 | |
DE102022125316A1 (de) | Unüberwachtes alignment für text-zu-sprache-synthese unter verwenden neuronaler netzwerke | |
KR20210078133A (ko) | 간투어 검출 모델을 훈련시키기 위한 훈련 데이터 생성 방법 및 장치 | |
CN106843523A (zh) | 基于人工智能的文字输入方法和装置 | |
KR102528019B1 (ko) | 인공지능 기술에 기반한 음성 합성 시스템 | |
WO2014176489A2 (en) | A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
Chaurasiya | Cognitive hexagon-controlled intelligent speech interaction system | |
US11670283B2 (en) | Duration informed attention network (DURIAN) for audio-visual synthesis | |
Schmidt-Barbo et al. | Using semantic embeddings for initiating and planning articulatory speech synthesis | |
CN103310272A (zh) | 基于声道动作知识库改进的diva神经网络模型发音方法 | |
KR102532253B1 (ko) | 스펙트로그램에 대응하는 어텐션 얼라인먼트의 디코더 스코어를 연산하는 방법 및 음성 합성 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |