CN104538024B

CN104538024B - 语音合成方法、装置及设备

Info

Publication number: CN104538024B
Application number: CN201410720550.0A
Authority: CN
Inventors: 康永国; 李威; 贾磊; 盖于涛; 邹赛赛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-01
Filing date: 2014-12-01
Publication date: 2019-03-08
Anticipated expiration: 2034-12-01
Also published as: CN104538024A

Abstract

本发明提供了语音合成方法、装置和设备。该方法包括：获取待处理文本的语境信息；根据所述语境信息利用时长预测模型确定语音时长，其中所述时长预测模型是基于深度神经网络训练得到；根据所述语境信息及所述语音时长，利用谱和基频预测模型确定谱和基频特征参数；根据所述谱和基频特征参数得到合成语音。本发明提供的语音合成方法能够提供高音质、自然流畅的语音。

Description

语音合成方法、装置及设备

技术领域

本发明涉及计算机领域，尤其涉及一种语音合成方法、装置及设备。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音输出的技术。目前的语音合成技术多是采用基于隐马尔科夫模型(以下简称HMM)的参数合成技术(以下简称HTS)，该HTS语音合成技术在训练阶段，对训练数据进行决策树聚类和HMM建模，得到聚类HMM以及决策树。在语音合成阶段，利用决策树将待合成文本的语境信息进行决策，得到对应的声学信息，即谱和基频特征参数，包括谱和基频特征参数本身及其差分、二阶差分等动态特征，之后，根据声学信息的差分等动态特征生成平滑的特征参数序列，最后将生成的特征参数序列输入声码器获得合成语音。该HTS语音合成技术，其基于差分的动态特征生成动态参数过程，会为生成的特征参数序列带来过平滑现象，该过平滑现象导致所合成的语音音质低、节奏单调平淡。

发明内容

本发明解决的技术问题之一是提供语音合成方法、装置及设备，从而提供高音质、自然流畅的语音。

根据本发明一方面的一个实施例，提供了一种语音合成方法，其中，包括：

获取待处理文本的语境信息；

根据所述语境信息利用时长预测模型确定语音时长，所述时长预测模型是基于长短时记忆神经网络训练得到；

根据所述语境信息及所述语音时长，利用谱和基频预测模型确定谱和基频特征参数；

根据所述谱和基频特征参数得到合成语音。

可选地，获取待处理文本的语境信息具体包括：

获取待处理文本音子级语境信息。

可选地，还包括：

对获取的所述语境信息进行降维处理。

可选地，所述谱和基频预测模型是基于深度神经网络训练得到。

可选地，所述深度神经网络包括：长短时记忆神经网络。

根据本发明另一方面的一个实施例，提供了一种语音合成装置，包括：

用于获取待处理文本的语境信息的单元；

用于根据所述语境信息利用时长预测模型确定语音时长的单元，所述时长预测模型是基于长短时记忆神经网络训练得到；

用于根据所述语境信息及所述语音时长，利用谱和基频预测模型确定谱和基频特征参数的单元；

用于根据所述谱和基频特征参数得到合成语音的单元。

可选地，用于获取待处理文本语境信息的单元具体用于：

获取待处理文本音子级语境信息。

可选地，还包括：

用于对获取的所述语境信息进行降维处理的单元。

可选地，所述深度神经网络包括：长短时记忆神经网络。

根据本发明的另一方面的一个实施例，还提供了一种计算机设备，包括前述语音合成装置。

由于本实施例中在获取待处理文本的语境信息后，利用基于长短时记忆神经网络训练得到的时长预测模型，确定出待处理文本的语音时长，并利用谱和基频预测模型确定出待处理文本的谱和基频，从而根据该确定的谱和基频得到合成的语音，本实施例简化了语音合成步骤，通过基于长短时记忆神经网络训练得到的时长预测模型可以避免动态参数生成环境带来的过平滑现象，从而提供合成高音质、自然流畅的语音。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明一个实施例的语音合成方法的流程图。

图2是根据本发明另一个实施例的语音合成方法的流程图。

图3是根据本发明一个实施例的语音合成装置的框图。

图4是根据本发明另一个实施例的语音合成装置的框图。

图5是根据本发明一个实施例的基于深度神经网络训练时长预测模型示意图。

图6是根据本发明一个实施例的基于深度神经网络训练谱和基频预测模型示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1是根据本发明一个实施例的语音合成方法的流程图。本发明中的方法主要通过计算机设备中的操作系统或处理控制器来完成。将操作系统或处理控制器称为语音合成装置。该计算机设备包括但不限于以下中的至少一个：用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

如图1中所示，该语音合成方法主要包括如下步骤：

S100、获取待处理文本的语境信息；

获取待处理文本的语境信息，即为获取待合成语音的文本的语境信息，获取的语境信息包括但不限于：待处理文本中每个文字的声韵母、声调、停顿等等。

其中，与现有技术中只能处理状态级的语境信息相比，本申请实施例获取的该语境信息既可以为音子级，也可以为比音子级更小的状态级，所述音子级为所获取的语境信息最小级别为拼音的声韵母；所述比音子级更小的状态级为所获取的语境信息最小级为各声韵母的子片段，也就是，除包含拼音的声韵母外，还将整个拼音分为若干片段，确定每个声韵母所在的片段，例如，确定每个声韵母是位于头部或中部等等。

获取待处理文本的语境信息，可通过对待处理文本进行分析得到，具体分析方法本实施例对此不做具体限制。

S110、根据所述语境信息利用时长预测模型确定语音时长；

其中，所述时长预测模型是基于深度神经网络训练得到。所述深度神经网络包括但不限于：长短时记忆神经网络。如图5中所示为基于深度神经网络训练时长预测模型示意图，在训练时长预测模型时，使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立时长预测模型(以下简称建模)，也就是在训练时长预测模型时，将训练数据的语境信息作为输入参数，将训练数据的时长作为输出参数，利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系，例如异或关系等，从而可以训练得到具有较高精度的时长预测模型。

另外，使用长短时记忆神经网络训练时长预测模型与现有技术HTS的时长预测相比有以下区别：HTS中的时长预测只是对时长特征本身进行建模，而不能像HTS对谱和基频那样加入动态差分特征，这样预测得到的时长和前后输出的时长不具有相关性；而长短时记忆神经网络其自动使用前后输出的时长的建模特性，使得预测得到的时长和前后输入参数有相关性，反映到人的听感上就是合成语音更加流畅自然。

本实施例利用基于深度神经网络训练得到的时长预测模型，以待处理文本的语境信息作为该模型的输入参数，从而确定出待处理文本合成语音后的语音时长，即，确定待处理文本所持续的帧数，通常5毫秒为一帧。

S120、根据所述语境信息及所述语音时长，利用谱和基频预测模型确定谱和基频特征参数；

其中的谱和基频预测模型是基于深度神经网络训练得到。所述深度神经网络包括：长短时记忆神经网络。如图6中所示，为基于深度神经网络训练谱和基频预测模型示意图，在训练谱和基频预测模型时，使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立谱和基频预测模型(以下简称建模)，其中，利用长短时记忆神经网络的可自动学习记忆历史语境信息的功能，对声学信息(即谱和基频特征参数)本身建立时长预测模型，其与现有技术的对声学特征和其差分等动态特征一起建模不同，本实施例的建模方式既可以提升建模精度，又可以跳过动态特征生成环节避免其带来的过平滑现象。

因此，本实施例在训练谱和基频预测模型时，将训练数据的语境信息和时长信息作为输入参数，将训练数据的谱和基频信息作为输出参数，利用深度神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系，例如异或关系等，从而可以训练得到具有较高精度的谱和基频预测模型。

利用上述基于深度神经网络训练得到的谱和基频预测模型，输入步骤S100获取的语境信息以及步骤S110中确定的语音时长，最终可确定待处理文本的谱和基频特征参数，即，确定待处理文本的谱和基频的声学信息。

S130、根据所述谱和基频特征参数得到合成语音。

本步骤是利用步骤S120中确定的待处理文本的谱和基频特征参数得到合成语音，具体的，可以将谱和基频特征参数输入到声码器中，即可将谱和基频的声学参数合成语音信号，完成语音合成过程。

图2是根据本发明另一个实施例的语音合成方法的流程图，该语音合成方法主要包括如下步骤：

S200、获取待处理文本的语境信息；

获取待处理文本的语境信息，即为获取待合成语音的文本的语境信息，获取的语境信息包括但不限于：待处理文本中每个文字的拼音的声韵母、声调、停顿等等。

其中，与现有技术中只能处理状态级的语境信息相比，本申请实施例获取的该语境信息既可以为音子级，也可以为比音子级更小的状态级，所述音子级为所获取的语境信息最小级别为拼音的声韵母；所述比音子级更小的状态级为所获取的语境信息最小级为各声韵母的位置信息，也就是，除包含拼音的声韵母外，还将整个拼音分为若干部分，确定每个声韵母所在的部分，例如，确定每个声韵母是位于头部或中部等等。

S210、对获取的所述语境信息进行降维处理。

由于步骤S200中对待处理文本进行分析获得的语境信息维度很高，例如，音子id特征，当前音子是否为a，当前音子是否ai等；声调特征，例如，当前韵母的声调是否阳平等；数值特征，例如，当前韵律短语的音子数目等。在后续的利用时长预测模型以及谱和基频预测模型合成语音的相关操作中，若输入各模型的语境信息维度高，则会导致难以实现模型参数调优。因此，本实施例对获取的语境信息进行降维处理，即根据语境信息各维的数据分布从高维空间自动映射到低维空间，具体到某个维度不是简单的保留或者删除，而是可能全部或者部分信息降维后得到保留。

其中，本实施例可采用基于时域卷积网络的特征降维方法，对语境信息进行降维，该方法通过在不同时间戳输入特征共享降维矩阵的方式，即，不同时间戳的语境信息共享降维矩阵，来实现时域上具有强相关特性的稀疏特征降维的能力。

S220、根据所述语境信息利用时长预测模型，确定语音时长；

同样，在训练时长预测模型时，也可以对输入的语境信息进行降维处理，具体降维方法同上面所述。

S230、根据所述语境信息及所述语音时长利用谱和基频预测模型，确定谱和基频特征参数；

其中的谱和基频预测模型是基于深度神经网络训练得到。所述深度神经网络包括：长短时记忆神经网络。如图6中所示，为基于深度神经网络训练谱和基频预测模型示意图，在训练谱和基频预测模型时，使用深度神经网络直接根据训练数据的语境信息和时长之间的映射关系建立谱和基频预测模型(以下简称建模)，其中，利用长短时记忆神经网络的可自动学习记忆历史语境信息的功能，对声学信息(即谱和基频特征参数)特征本身建立时长预测模型，其与现有技术的对声学特征和其差分等动态特征一起建模不同，这样本实施例的建模方式既可以提升建模精度，又可以跳过动态特征生成环节避免其带来的过平滑现象。

其中，在训练谱和基频预测模型时，也可对输入的语境信息进行降维处理，具体降维方法同上面所述，此处不再赘述。

利用上述基于深度神经网络训练得到的谱和基频预测模型，输入步骤S210中降维处理后的语境信息以及步骤S220中确定的语音时长，最终可确定待处理文本的谱和基频特征参数，即，确定待处理文本的谱和基频的声学信息。

S240、根据所述谱和基频特征参数得到合成语音。

本步骤是利用步骤S230中确定的待处理文本的谱和基频特征参数得到合成语音，具体的，可以将谱和基频特征参数输入到声码器中，即可将谱和基频的声学参数合成语音信号，完成语音合成过程。

另外，本实施例对训练阶段以及语音合成阶段的语境信息进行降维处理，保障了模型训练的训练效果以及语音合成阶段的参数调优。

基于上面实施例同样的思路，本申请实施例还提供一种语音合成装置，如图3中所示，为该装置结构示意图，该装置主要包括：

用于获取待处理文本的语境信息的单元300，以下简称获取单元300；

该获取单元300获取待处理文本的语境信息，即为获取待合成语音的文本的语境信息，获取的语境信息包括但不限于：待处理文本中每个文字的拼音的声韵母、声调、停顿等等。

获取单元300获取待处理文本的语境信息，可通过对待处理文本进行分析得到，具体分析方法本实施例对此不做具体限制。

用于根据所述语境信息利用时长预测模型，确定语音时长的单元310，以下简称时长确定单元310；

本实施例时长确定单元310利用基于深度神经网络训练得到的时长预测模型，以待处理文本的语境信息作为该模型的输入参数，从而确定出待处理文本合成语音后的语音时长，即，确定待处理文本所持续的帧数，通常5毫秒为一帧。

用于根据所述语境信息及所述语音时长利用谱和基频预测模型，确定谱和基频特征参数的单元320，以下简称谱和基频特征参数确定单元320；

谱和基频特征参数确定单元320利用上述基于深度神经网络训练得到的谱和基频预测模型，输入获取单元300获取的语境信息以及时长确定单元310确定的语音时长，最终可确定待处理文本的谱和基频特征参数，即，确定待处理文本的谱和基频的声学信息。

用于根据所述谱和基频特征参数得到合成语音的单元330，以下简称语音合成单元330。

具体的，该语音合成单元330是利用谱和基频确定单元320中确定的待处理文本的谱和基频特征参数得到合成语音，该语音合成单元330可以为声码器，通过声码器将谱和基频的声学参数合成语音信号，完成语音合成过程。

本实施例的语音合成装置，在获取待处理文本的语境信息后，利用基于长短时记忆神经网络训练得到的时长预测模型，确定出待处理文本的语音时长，并利用谱和基频预测模型确定出待处理文本的谱和基频，从而根据该确定的谱和基频得到合成的语音，本实施例简化了语音合成步骤，通过基于长短时记忆神经网络训练得到的时长预测模型可以避免动态参数生成环境带来的过平滑现象，从而提供合成高音质、自然流畅的语音。

如图4中所示为根据本申请另一实施例的语音合成装置的结构示意图，该装置主要包括：

用于获取待处理文本的语境信息的单元400，以下简称获取单元400。

该获取单元400获取待处理文本的语境信息，即为获取待合成语音的文本的语境信息，获取的语境信息包括但不限于：待处理文本中每个文字的拼音的声韵母、声调、停顿等等。

获取单元400获取待处理文本的语境信息，可通过对待处理文本进行分析得到，具体分析方法本实施例对此不做具体限制。

用于对获取的所述语境信息进行降维处理的单元440，以下简称降维单元440。

由于获取单元400对待处理文本进行分析获得的语境信息维度很高，例如，音子id特征，当前音子是否为a，当前音子是否ai等；声调特征，例如，当前韵母的声调是否阳平等；数值特征，例如，当前韵律短语的音子数目等。在后续的利用时长预测模型以及谱和基频预测模型合成语音的相关操作中，若输入各模型的语境信息维度高，则会导致难以实现模型参数调优。因此，本实施例对获取的语境信息进行降维处理，即根据语境信息各维的数据分布从高维空间自动映射到低维空间，具体到某个维度不是简单的保留或者删除，而是可能全部或者部分信息降维后得到保留。

其中，本实施例降维单元440可采用基于时域卷积网络的特征降维方法，对语境信息进行降维，该方法通过在不同时间戳输入特征共享降维矩阵的方式，即，不同时间戳的语境信息共享降维矩阵，来实现时域上具有强相关特性的稀疏特征降维的能力。

用于根据所述语境信息利用时长预测模型，确定语音时长的单元410，以下简称时长确定单元410。

本实施例时长确定单元410利用基于深度神经网络训练得到的时长预测模型，以待处理文本的语境信息作为该模型的输入参数，从而确定出待处理文本合成语音后的语音时长，即，确定待处理文本所持续的帧数，通常5毫秒为一帧。

用于根据所述语境信息及所述语音时长利用谱和基频预测模型，确定谱和基频特征参数的单元420，以下简称谱和基频特征参数确定单元420；

同样，在训练谱和基频预测模型时，也可对输入的语境信息进行降维处理。

谱和基频特征参数确定单元420利用上述基于深度神经网络训练得到的谱和基频预测模型，输入降维单元440降维处理后的语境信息以及时长确定单元410确定的语音时长，最终可确定待处理文本的谱和基频特征参数，即，确定待处理文本的谱和基频的声学信息。

用于根据所述谱和基频特征参数得到合成语音的单元430，以下简称语音合成单元430。

具体的，该语音合成单元430是利用谱和基频确定单元420中确定的待处理文本的谱和基频特征参数得到合成语音，该语音合成单元430可以为声码器，通过声码器将谱和基频的声学参数合成语音信号，完成语音合成过程。

另外，本实施例对训练阶段以及语音合成阶段的语境信息进行降维处理，保障了模型训练的训练效果以及语音合成阶段的参数调优，有效降低了建模的维度。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种语音合成方法，其中，包括：

获取待处理文本的语境信息；

根据所述语境信息利用时长预测模型确定所述待处理文本合成语音后的语音时长，其中，所述待处理文本合成语音后的语音时长也即所述待处理文本所持续的帧数，其中，所述时长预测模型是基于长短时记忆神经网络训练得到，且由于长短时记忆神经网络自动使用前后输出的时长的建模特性，使得预测得到的语音时长和前后输入参数有相关性；

根据所述谱和基频特征参数来合成语音。

2.根据权利要求1所述的方法，其中，获取待处理文本的语境信息具体包括：

获取待处理文本音子级语境信息。

3.根据权利要求1所述的方法，其中，还包括：

对获取的所述语境信息进行降维处理。

4.根据权利要求1所述的方法，其中，所述谱和基频预测模型是基于深度神经网络训练得到。

5.根据权利要求4所述的方法，其中，所述深度神经网络包括：长短时记忆神经网络。

6.一种语音合成装置，包括：

用于获取待处理文本的语境信息的单元；

用于根据所述语境信息利用时长预测模型确定所述待处理文本合成语音后的语音时长的单元，其中，所述待处理文本合成语音后的语音时长也即所述待处理文本所持续的帧数，其中，所述时长预测模型是基于长短时记忆神经网络训练得到，且由于长短时记忆神经网络自动使用前后输出的时长的建模特性，使得预测得到的语音时长和前后输入参数有相关性；

用于根据所述谱和基频特征参数合成语音的单元。

7.根据权利要求6所述的装置，其中，用于获取待处理文本的语境信息的单元具体用于：

获取待处理文本音子级语境信息。

8.根据权利要求6所述的装置，其中，还包括：

用于对获取的所述语境信息进行降维处理的单元。

9.根据权利要求6所述的装置，其中，所述谱和基频预测模型是基于深度神经网络训练得到。

10.根据权利要求9所述的装置，其中，所述深度神经网络包括：长短时记忆神经网络。

11.一种语音合成设备，其中包括根据权利要求6-10中任一个的语音合成装置。