CN112786001A

CN112786001A - 语音合成模型训练方法、语音合成方法和装置

Info

Publication number: CN112786001A
Application number: CN201911096995.5A
Authority: CN
Inventors: 胡大盟
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2021-05-11
Anticipated expiration: 2039-11-11
Also published as: CN112786001B

Abstract

本申请实施例公开了一种语音合成模型训练方法、语音合成方法、装置存储介质和电子设备，其中，语音合成模型训练方法包括：从音频库中提取音频文件的声学特征、音频波形点；对所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征分别进行编码，并对编码后的所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征进行拼接，得到拼接特征；将所述拼接特征输入到预设神经网络中进行训练；在训练过程中对所述预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型。采用语音合成模型训练方法训练得到的语音合成模型，其合成的语音发音更自然，与真实的人类语音更相近。

Description

语音合成模型训练方法、语音合成方法和装置

技术领域

本申请涉及语音技术，尤其涉及一种语音合成模型训练方法、语音合成方法和装置。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术。语音合成技术能够利用输入的文本信息，自动生成仿真的人类语音。

相关技术中，将文本信息转化为声学特征，再根据声学特征对真人发声进行近似模拟。采用这种方式合成的语音具有较重的机器感，与真实的人类语音相比，不够自然。

发明内容

目前传统的语音合成技术主要是将文本信息转化为声学特征，再根据声学特征对真人发声进行近似模拟，但这种方式合成的人类语音与真实的人类语音相比，具有较重的机器感，不够自然。

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种语音合成模型训练方法、装置、存储介质和电子设备。

本申请的实施例还提供了一种语音合成方法、装置、存储介质和电子设备。

第一方面，本申请实施例提供了一种语音合成模型训练方法，包括：

从音频库中提取音频文件的声学特征、音频波形点；

对所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征分别进行编码，并对编码后的所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征进行拼接，得到拼接特征；

将所述拼接特征输入到预设神经网络中进行训练；

在训练过程中对所述预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型。

第二方面，本申请实施例提供了一种语音合成模型训练装置，包括：

提取模块，用于从音频库中提取音频文件的声学特征、音频波形点；

拼接特征获取模块，用于对所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征分别进行编码，并对编码后的所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征进行拼接，得到拼接特征；

特征输入模块，用于将所述拼接特征输入到预设神经网络中进行训练；

模型获取模块，用于在训练过程中对所述预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型。

第三方面，本申请实施例提供了一种语音合成方法，包括：

获取目标声学特征；

将所述目标声学特征输入到语音合成模型中，得到目标语音编码，其中，所述语音合成模型是采用上述第一方面提供的语音合成模型训练方法得到的；

对所述目标语音编码进行解码，得到合成音频。

第四方面，本申请实施例提供了一种语音合成装置，包括：

特征获取模块，用于获取目标声学特征；

目标语音编码获取模型，用于将所述目标声学特征输入到语音合成模型中，得到目标语音编码，其中，所述语音合成模型是采用上述第一方面提供的语音合成模型训练方法得到的；

合成音频获取模型，用于对所述目标语音编码进行解码，得到合成音频。

第五方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面提供的语音合成模型训练方法，或者，所述计算机程序用于执行上述第三方面提供的语音合成方法。

第六方面，本申请实施例提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面语音合成模型训练方法，或者，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第三方面语音合成方法。

基于本申请上述实施例提供的一种语音合成模型训练方法、装置、存储介质和电子设备，首先从音频库中提取音频文件的声学特征、音频波形点，从声学特征和音频波形点出发，以使模型训练能够表达出两者间的深层关系；接着对音频文件的音频波形点、音频文件上采样后的声学特征分别进行编码，并对编码后的音频文件的音频波形点、音频文件上采样后的声学特征进行拼接，得到拼接特征，能够对声学特征和音频波形点进行编码，以进行更深层的特征提取，有助于提高训练得到的语音合成模型的准确度；最后将拼接特征输入到预设神经网络中进行训练；在训练过程中对预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型，通过深层的模型训练提取声学特征和音频波形点之间的深层特征，能够更好地表达出两者间的深层关系，以使语音合成模型能够根据输入的声学特征，便可输出精确度较高的编码后音频波形点，从而助于解码后得到发音准确、发音自然的合成音频。

基于本申请上述实施例提供的一种语音合成方法、装置、存储介质和电子设备，首先获取目标声学特征；将目标声学特征输入到语音合成模型中，得到目标语音编码，其中，语音合成模型是采用上述第一方面语音合成模型训练方法得到的，通过语音合成模型可以根据模型提取的深层特征进行映射转换，输出准确度较高的目标语音编码；然后对目标语音编码进行解码，得到合成音频，在基于语音合成模型提取的目标语音编码前提下，解码后得到的合成音频发音准确、且发音更自然，与真实的人类语音更相近。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1-a是本申请一示例性实施例提供的语音合成模型训练的系统框图。

图1-b是本申请一示例性实施例提供的语音合成的系统框图。

图2是本申请一示例性实施例提供的语音合成模型训练方法的流程示意图。

图3是本申请图2所示实施例中步骤201的流程示意图。

图4是本申请图2所示实施例中步骤202的流程示意图。

图5是本申请图2所示实施例中步骤204的流程示意图。

图6是本申请一示例性实施例提供的门控循环神经网络的隐藏层的示意图。

图7是本申请一示例性实施例提供的语音合成方法的流程示意图。

图8是本申请图7所示实施例中步骤203’的流程示意图。

图9是本申请另一示例性实施例提供的语音合成模型训练装置的结构示意图。

图10是本申请另一示例性实施例提供的语音合成模型训练装置的又一结构示意图。

图11是本申请另一示例性实施例提供的语音合成装置的结构示意图。

图12是本申请另一示例性实施例提供的语音合成装置的又一结构示意图。

图13是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

本领域技术人员可以理解，本申请实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本申请实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本申请实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本申请对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本申请的过程中，发明人发现，目前的语音合成处理，由于大多数是对真人发声的近似简化模拟，不能将人的发声原理完全参数化，因此合成的音频带有较重的机器感，发音不够自然。

对此，本申请针对现有技术存在的问题作出了改进，使得合成的音频更加自然，达到接近真人发声的效果。

示例性系统

图1-a示出本申请一示例性实施例提供的语音合成模型训练的系统框图。

从图1-a中可以看出，在本申请一示例性实施例中，首先，采用多发音人音频库作为语料库，从语料库中分别提取音频文件的声学特征以及音频文件的音频波形点；然后，对声学特征和音频波形点进行编码，以得到编码后的特征矩阵；接着，对编码后的声学特征以及编码后的音频波形点进行矩阵拼接，得到同时体现声学特征以及音频波形点的拼接矩阵，其中，语料库中每个音频文件对应的拼接矩阵作为语音合成模型的训练样本；最后，将每个得到的拼接矩阵输入到预设神经网络(其中，预设神经网络具体可以采用循环神经网络、长短时记忆神经网络等)中进行训练，通过训练过程中产生的损失更新预设神经网络的网络参数，在网络参数停止更新后，得到语音合成模型。

如图1-a所示的系统框图，通过将音频文件的声学特征和音频波形点在训练样本中体现出来，能够在神经网络训练的过程中学习深层的声学特征、深层的音频波形点的特征，以使训练得到的语音合成模型在合成语音时，能够根据输入的声学特征输出发音自然、准确的合成语音。

图1-b示出本申请一示例性实施例提供的语音合成的系统框图。

如图1-b所示，首先从文本中提取目标声学特征，再将目标声学特征输入到语音合成模型中，输出得到目标语音编码，最后对目标语音编码进行解码，得到合成音频。

示例性方法

图2是本申请一示例性实施例提供的语音合成模型训练方法的流程示意图。该语音合成模型训练方法可应用在语音合成模型训练设备上，在训练语音合成模型时可通过该语音合成模型训练设备实现。该语音合成模型训练设备具体可以为电子设备，其中，该电子设备具体可以是与用户进行人机交互的设备，包括但不限于计算机、服务器、智能手机和平板等设备。如图2所示，该语音合成模型训练方法包括如下步骤：

步骤201，从音频库中提取音频文件的声学特征、音频波形点。

其中，音频库包括多个音频文件。

在一实施例中，采用预先训练好的声学模型，从音频库中提取音频文件的声学特征，其中，声学模型可以通过隐马尔科夫模型进行建模得到。通过声学模型提取的声学特征能够体现音频文件的发音信息。对音频文件提取音频波形点，能够采用音频波形点的方式表示音频。

步骤202，对音频文件的音频波形点、音频文件上采样后的声学特征分别进行编码，并对编码后的音频文件的音频波形点、音频文件上采样后的声学特征进行拼接，得到拼接特征。

其中，拼接具体可以采用连接(concatenate)操作实现，本实施例通过采用连接操作可以将编码后的音频波形点、音频文件上采样后的声学特征(采用矩阵表示)进行拼接。

在一实施例中，为了对音频波形点、音频文件进行深层的特征提取，对音频文件的音频波形点、音频文件上采样后的声学特征分别进行编码，并在编码后将音频波形点、音频文件上采样后的声学特征进行拼接，使得在一个特征矩阵中便能够体现出音频文件中音频波形点和声学特征，在后续进行模型训练时，能够学习音频文件中深层的音频波形点的特征和声学特征，提高语音合成模型的准确率。

步骤203，将拼接特征输入到预设神经网络中进行训练。

可以理解地，预设神经网络具体可以是具有学习时序特征能力的神经网络，如循环神经网络或者长短时记忆神经网络等，(可以理解地，音频是一种与时序相关的信息)通过将拼接特征输入到预设神经网络中进行训练，能够进一步提取输入的拼接特征的深层特征(包括时序上的特征)，以更好地体现出音频文件中音频波形点和声学特征之间存在的联系。

在一实施例中，将拼接特征接入到预设神经网络，通过该预设神经网络对拼接特征进行训练，让预设神经网络能够学习音频文件中音频波形点和声学特征间的深层特征。

步骤204，在训练过程中对预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型。

在一实施例中，通过不断地训练，让预设神经网络中的网络参数进行迭代更新，使预设神经网络的特征表达能力越来越强，其输出越来越接近编码后的音频波形点。当网络参数的迭代终止后，也即表示网络参数能够较准确地表达音频文件中音频波形点和声学特征之间的联系。迭代终止后预设神经网络具有较好的语音合成效果，此时将预设神经网络作为语音合成模型。

基于本申请上述实施例提供的一种语音合成模型训练方法，从音频库中提取音频文件的声学特征、音频波形点，从声学特征和音频波形点出发，以使模型训练能够表达出两者间的深层关系；对音频文件的音频波形点、音频文件上采样后的声学特征分别进行编码，并对编码后的音频文件的音频波形点、音频文件上采样后的声学特征进行拼接，得到拼接特征，能够对声学特征和音频波形点进行编码，以进行更深层的特征提取，有助于提高训练得到的语音合成模型的准确度；将拼接特征输入到预设神经网络中进行训练；在训练过程中对预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型，通过深层的模型训练提取声学特征和音频波形点之间的深层特征，能够更好地表达出两者间的深层关系，以使语音合成模型能够根据输入的声学特征，便可输出精确度较高的编码后音频波形点，从而助于解码后得到发音准确、发音自然的合成音频。

如图3所示，在上述图2所示实施例的基础上，步骤201可包括如下步骤：

步骤2011，从音频库包括的音频文件中提取梅尔幅度谱系数作为音频文件的声学特征，其中，音频库中包括至少两个发音人的音频文件。

其中，梅尔幅度谱系数可以通过以下步骤得到：

对音频文件的音频信号进行预加重、分帧和加窗操作。

对每帧音频信号进行短时傅里叶变换，得到短时幅度谱。

将短时幅度谱通过梅尔滤波器组得到梅尔频谱。

将梅尔频谱转换为梅尔幅度谱。

在梅尔幅度谱的基础上取对数、做逆变换，其中，逆变换采用离散余弦变换实现，取逆变换后的系数作为梅尔幅度谱系数。

进一步地，梅尔幅度谱系数可以只取一部分，如取第2到第15个系数作为梅尔幅度谱系数。

其中，音频库包括多个发音人的音频文件，也即音频库的音频文件不局限与单个发音人。单个发音人可以包括多个音频文件，音频库中包括至少两个发音人的音频文件。

在一实施例中，提取并采用梅尔幅度谱系数作为音频文件的声学特征。可以理解地，梅尔幅度谱系数能够体现人类听觉特性，采用梅尔幅度谱系数有助于模型训练，提高模型的准确度。

步骤2012，去除音频文件的头信息，采用固定采样率获取音频波形点。

其中，音频文件的头信息中可能包括无用的音频信息或者干扰的音频信息(噪音)，对模型训练有影响，为了提高模型训练的效果，应当去除音频文件的头信息。

其中，采样率是指采样时间间隔，固定采用率是指在一采样时间段内，采用相同的采样率对音频文件进行采样。

可以理解地，音频文件中存储的音频信号是连续的，而计算机处理的是离散的数字信号，具体地，可以采用采样的方式获取音频波形点，使得计算机能够以音频波形点近似表示音频文件中的音频信号。

在一实施例中，首先去除音频文件的头信息，再通过固定采样率获取音频波形点，其中，固定采样率具体可以是44100Hz，采样该固定采样率能够保证采样的仿真效果。可以理解地，固定采样率的具体数值不作具体的限定，只要音频波形点的失真程度在期望范围内即可。

在一实施例中，从音频库包括的音频文件中提取梅尔幅度谱系数作为音频文件的声学特征能够利用梅尔幅度谱系数体现人类听觉特性的特点，提高模型训练效果。音频库包括至少两个发音人的音频文件能够使得模型训练过程中支持多发音人解码，支持多发音人语音合成。通过去除音频文件的头信息，能够将音频文件部分无用的音频信号或者干扰的音频信号去除，提高模型训练效果。通过采用固定采样率获取音频波形点的方式，能够使采样得到的音频波形点全面的体现出原音频文件所包含的信息。

如图4所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：

步骤2021，将音频文件上采样后的声学特征输入到第一预设编码层，得到第一编码，其中，音频文件上采样后的声学特征的长度与音频波形点的长度相等。

其中，第一预设编码层具体可以是Embedding(嵌入)层，采用Embedding层能够对上采样后的声学特征进行进一步编码，使上采样后的声学特征能够采用更简洁的特征矩阵将音频文件中包括的声学特征体现出来。

可以理解地，为了保证从音频文件中提取的声学特征与音频波形点在矩阵尺寸上相同，在本实施例中将声学特征是预先上采样处理过的，该上采样处理能够保证上采样后的声学特征与音频波形点的长度相等，从而便于进行后续的运算。

步骤2022，对音频波形点进行非均匀编码，得到第二编码。

其中，非均匀编码是在脉码调制中，根据已确定的代码，用一组不均匀量化样值来表示模拟信号的过程。其中，非均匀编码具体采用的可以是ulaw编码。

在一实施例中，具体可采用8位(bit)的ulaw编码，将音频波形点编码到范围0-255区间内，得到第二编码。采用非均匀编码能够改善信号较弱时的信号量噪比。在本实施例中能够进一步提高编码的质量，采用简洁的编码方式代表音频文件，还能够提高运算效率。

步骤2023，将第二编码输入到第二预设编码层，得到第三编码。

其中，第二预设编码层具体可以是Embedding层，采用Embedding层能够对第二编码进行进一步编码，使第二编码能够采用更简洁的特征矩阵表示，更进一步提取表示音频波形点的特征。

步骤2024，将第一编码和第三编码进行拼接，得到拼接特征。

在一实施例中，采用连接操作将表示第一编码的特征矩阵和表示第三编码的特征矩阵进行拼接，得到拼接矩阵，使得在一个特征矩阵中便能够体现出音频文件中音频波形点和声学特征，在后续进行模型训练时，能够学习音频文件中深层的音频波形点的特征和声学特征，提高语音合成模型的准确率。

在一实施例中，通过将音频文件上采样后的声学特征输入到第一预设编码层，得到第一编码，使上采样后的声学特征能够采用更简洁的特征矩阵将音频文件中包括的声学特征体现出来；通过对音频波形点进行非均匀编码，得到第二编码，能够进一步提高编码的质量，采用简洁的编码方式代表音频文件，还能够提高运算效率；通过将第二编码输入到第二预设编码层，得到第三编码使第二编码能够采用更简洁的特征矩阵表示，更进一步提取表示音频波形点的特征；通过将第一编码和第三编码进行拼接，得到拼接特征使得在一个特征矩阵中便能够体现出音频文件中音频波形点和声学特征，在后续进行模型训练时，能够学习音频文件中深层的音频波形点的特征和声学特征，提高语音合成模型的准确率。

如图5所示，在上述图2所示实施例的基础上，步骤204可包括如下步骤：

步骤2041，采用交叉熵损失函数，根据预设神经网络训练时每次输出的目标输出值，以及编码后的音频波形点计算得到交叉熵损失。

在一实施例中，预设神经网络的目标输出值的期望值为与编码后的音频波形点相同，若两者相同表示预设神经网络很好地学习了声学特征与音频波形点之间的关联，能够根据声学特征将对应的输出-编码后的音频波形点准确地映射出来，从而实现效果较佳的语音合成。可以理解地，初始的预设神经网络达不到这种效果，为了实现该映射效果，需要对模型进行迭代训练，该迭代训练具体采用的损失函数为交叉熵损失函数，本实施例中采用该交叉熵函数计算预设神经网络训练时每次输出的目标输出值，与编码后的音频波形点的损失值，以通过该损失值对预设神经网络的网络参数不断进行调整，使得输出的目标输出值尽可能地与音频文件对应的编码后的音频波形点相同，实现上述映射效果。

步骤2042，在每次得到交叉熵损失后进行梯度回传，对预设神经网络结构中的网络参数进行迭代更新，在达到最大迭代训练步数或者网络参数的变化值均小于预设阈值时，迭代终止，得到语音合成模型。

在一实施例中，网络参数的更新具体可以采用梯度下降法，根据损失函数计算得到的损失值进行梯度的回传更新，在预设神经网络中反向一层层地对网络参数进行更新，当在达到最大迭代训练步数(如10000步)或者网络参数的变化值均小于预设阈值、梯度不再下降的时候，迭代的过程终止，得到语音合成模型。

在一实施例中，通过采用该交叉熵函数计算预设神经网络训练时每次输出的目标输出值，与编码后的音频波形点的损失值，以通过该损失值对预设神经网络的网络参数不断进行调整，使得输出的目标输出值尽可能地与音频文件对应的编码后的音频波形点相同；通过具体采用梯度下降法对网络参数进行更新，在达到最大迭代训练步数或者网络参数的变化值均小于预设阈值、梯度不再下降的时候确定训练终止，得到语音合成模型。

在一实施例中，预设神经网络包括稀疏化的神经子网络，采用门控循环神经网络的网络结构，预设神经网络还包括循环神经子网络，循环神经子网络采用门控循环神经网络的网络结构，其中，循环神经子网络中的神经元个数少于稀疏化的神经子网络中的神经元个数。

其中，稀疏化的神经子网络采用计算量较小的门控循环神经网络，其网络结构具体可以采用24个神经元结构块，每个神经元结构块包括16个神经元。

其中，循环神经子网络采用门控循环神经网络的网络结构，循环神经子网络具体可以是包括16个神经元。

该门控循环神经网络的隐藏层如图6所示，可以理解地，门控循环神经网络的网络结构包括输入层、隐藏层和输出层，其中隐藏层是体现网络结构的关键神经层。隐藏层中神经元的结构如图6所示，其中，x_t表示当前输入的样本，也即拼接矩阵，h_t-1表示上一时刻上一神经层的输出，h_t表示当前隐藏层的输出，sigmoid和than为激活函数，符号“1-”表示算术上的1减操作，圆圈中带“×”表示矩阵相乘的操作，圆圈中带“+”表示矩阵相加的操作。该隐藏层中包括两个门控，分别为更新门和重置门，即图中经过sigmoid输出的z_t和r_t。更新门用于控制前一时刻的状态信息(包括当前输入的样本和上一神经层的输出的信息)被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。采用该门控循环神经网络的网络结构能够学习训练过程中有效的特征，将无效、干扰的特征过滤掉，从而提高语音合成模型的语音合成效果。

可以理解地，稀疏化的神经子网络以门控循环神经网络为基础架构，其网络结构具体采用24个神经元结构块，其中每个神经元结构块包括16个神经元，该神经元结构与图6所示的结构相同。

具体地，该稀疏化的神经子网络按照1(*16神经元)的结构块进行90％的稀疏化，其中，稀疏率并不是一开始就稀疏90％，而是随着训练步数的增加逐渐按照递增形式(可以以结构块的序列号为参考逐步递增稀疏率)达到90％的稀疏率。

在一实施例中，预设神经网络采用稀疏化的神经子网络，以及循环神经子网络，能够有效减少在神经网络训练过程中浮点计算的计算量，显著提高模型训练的训练效率。

在一实施例中，在步骤202之前，该语音合成模型训练方法还包括以下步骤：

将声学特征输入到上采样网络，以对声学特征进行上采样，其中，上采样网络包括一维卷积层，其中，在一维卷积层的层数大于2时，一维卷积层间设有残差连接模块。

在一实施例中，上采样网络的结构是基于一维卷积层实现上采样功能的。具体地，该上采样网络可以包括两层一维卷积层和两层全连接层，其中，该两层一维卷积层之间还是采用残差连接的方式连接，本实施例中，采用两层一维卷积层能够对矩阵进行尺寸大小的调整，将矩阵调整为任意合适尺寸的大小，其中，一维卷积层之间设有残差连接模块能够保持卷积过程中可能丢失的特征信息，有助于提高模型训练的准确度。

图7是本申请一示例性实施例提供的语音合成方法的流程示意图。如图7所示，该语音合成模型训练方法包括如下步骤：

步骤201’，获取目标声学特征。

其中，目标声学特征具体可以是根据目标文本得到的。根据文本获取对应的声学特征为成熟的技术，这里不再进行赘述。在一实施例中，目标声学特征不限于通过文本方式得到，其他获取目标声学特征的方式也是可以的。

步骤202’，将目标声学特征输入到语音合成模型中，得到目标语音编码，其中，语音合成模型是采用上述语音合成模型训练方法得到的。

在一实施例中，语音合成采用自回归的方式，将基于采用上述语音合成模型训练方法得到的语音合成模型，根据输入的目标声学特征在语音模型中映射后输出得到目标语音编码。其中，该语音合成模型初始的波形点赋值为0，然后才与输入的目标声学特征进行拼接，再进行输出。

步骤203’，对目标语音编码进行解码，得到合成音频。

在一实施例中，将目标语音编码进行解码，具体解码到0～1之间的浮点数值后，得到合成音频。

进一步地，以语音合成模型输出的值作为分布，并从分布中进行多项分布采样后得到目标语音编码。

在一实施例中，没有直接以softmax分类的结果作为编码后的音频波形点，而是以softmax的值(值的范围在(0,1)之间)作为分布，从该分布中进行多项式采样(multinomialresampling)，获得最终编码后的音频波形点，基于该处理方式得到的合成音频会更加清晰和自然。

如图8所示，在上述图7所示实施例的基础上，步骤203’可包括如下步骤：

步骤2031’，获取单指令多数据流目标指令。

步骤2032’，根据单指令多数据流目标指令同步获取解码计算过程中的目标操作数。

步骤2033’，根据目标操作数对目标语音编码进行解码，得到合成音频。

在一实施例中，在解码过程中，单指令多数据流目标指令将同步获取解码计算过程中的目标操作数，实现同步的数据处理方式。采用该单指令多数据流目标指令能够加速解码运算，显著提高音频合成的效率，使语音合成模型能够根据输入的目标声学特征近实时地输出合成语音。

基于本申请上述实施例提供的一种语音合成方法、装置、存储介质和电子设备，首先获取目标声学特征；将目标声学特征输入到语音合成模型中，得到目标语音编码，其中，语音合成模型是采用上述语音合成模型训练方法得到的，通过语音合成模型可以根据模型提取的深层特征进行映射转换，输出准确度较高的目标语音编码；然后对目标语音编码进行解码，得到合成音频，在基于语音合成模型提取的目标语音编码前提下，解码后得到的合成音频发音准确、且发音更自然，与真实的人类语音更相近。

示例性装置

图9示出与实施例中语音合成模型训练方法一一对应的语音合成模型训练装置的原理框图。如图9所示，该语音合成模型训练装置包括提取模块10、拼接特征获取模块20、特征输入模块30和模型获取模块40。其中，提取模块10、拼接特征获取模块20、特征输入模块30和模型获取模块40的实现功能与实施例中语音合成模型训练方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

图10示出与实施例中语音合成模型训练方法一一对应的语音合成模型训练装置的又一原理框图。

提取模块10，用于从音频库中提取音频文件的声学特征、音频波形点。

拼接特征获取模块20，用于对音频文件的音频波形点、音频文件上采样后的声学特征分别进行编码，并对编码后的音频文件的音频波形点、音频文件上采样后的声学特征进行拼接，得到拼接特征。

特征输入模块30，用于将拼接特征输入到预设神经网络中进行训练。

模型获取模块40，用于在训练过程中对预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型。

可选地，提取模块10包括：

提取单元，用于从音频库包括的音频文件中提取梅尔幅度谱系数作为音频文件的声学特征，其中，音频库中包括至少两个发音人的音频文件。

获取单元，用于去除音频文件的头信息，采用固定采样率获取音频波形点。

可选地，拼接特征获取模块20还包括：

第一编码获取单元，用于将音频文件上采样后的声学特征输入到第一预设编码层，得到第一编码，其中，音频文件上采样后的声学特征的长度与音频波形点的长度相等。

第二编码获取单元，用于对音频波形点进行非均匀编码，得到第二编码。

第三编码获取单元，用于将第二编码输入到第二预设编码层，得到第三编码。

拼接特征获取单元，用于将第一编码和第三编码进行拼接，得到拼接特征。

可选地，该语音合成模型训练装置还包括：

上采样单元，用于将声学特征输入到上采样网络，以对声学特征进行上采样，其中，上采样网络包括一维卷积层，其中，在一维卷积层的层数大于2时，一维卷积层间设有残差连接模块。

可选地，预设神经网络包括稀疏化的神经子网络，采用门控循环神经网络的网络结构，预设神经网络还包括循环神经子网络，循环神经子网络采用门控循环神经网络的网络结构，其中，循环神经子网络中的神经元个数少于稀疏化的神经子网络中的神经元个数。

可选地，模型获取模块40包括：

损失计算单元，用于采用交叉熵损失函数，根据预设神经网络训练时每次输出的目标输出值，以及编码后的音频波形点计算得到交叉熵损失。

模型获取单元，用于在每次得到交叉熵损失后进行梯度回传，对预设神经网络结构中的网络参数进行迭代更新，在达到最大迭代训练步数或者网络参数的变化值均小于预设阈值时，迭代终止，得到语音合成模型。

基于本申请上述实施例提供的一种语音合成模型训练装置，从音频库中提取音频文件的声学特征、音频波形点，从声学特征和音频波形点出发，以使模型训练能够表达出两者间的深层关系；对音频文件的音频波形点、音频文件上采样后的声学特征分别进行编码，并对编码后的音频文件的音频波形点、音频文件上采样后的声学特征进行拼接，得到拼接特征，能够对声学特征和音频波形点进行编码，以进行更深层的特征提取，有助于提高训练得到的语音合成模型的准确度；将拼接特征输入到预设神经网络中进行训练；在训练过程中对预设神经网络中的网络参数进行迭代更新，在迭代终止后得到语音合成模型，通过深层的模型训练提取声学特征和音频波形点之间的深层特征，能够更好地表达出两者间的深层关系，以使语音合成模型能够根据输入的声学特征，便可输出精确度较高的编码后音频波形点，从而助于解码后得到发音准确、发音自然的合成音频。

图11示出与实施例中语音合成方法一一对应的语音合成装置的原理框图。如图11所示，该语音合成装置包括特征获取模块50、目标语音编码获取模型60和合成音频获取模型70。其中，特征获取模块50、目标语音编码获取模型60和合成音频获取模型70的实现功能与实施例中语音合成方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

图12示出与实施例中语音合成方法一一对应的语音合成装置的又一原理框图。

特征获取模块50，用于获取目标声学特征。

目标语音编码获取模型60，用于将目标声学特征输入到语音合成模型中，得到目标语音编码，其中，语音合成模型是采用权利要求1-6任一项语音合成模型训练方法得到的。

合成音频获取模型70，用于对目标语音编码进行解码，得到合成音频。

可选地，该语音合成装置还包括：

多项式分布采样单元，用于以语音合成模型输出的值作为分布，并从分布中进行多项分布采样后得到目标语音编码。

可选地，合成音频获取模型70包括：

目标指令获取单元，用于获取单指令多数据流目标指令。

同步获取单元，用于根据单指令多数据流目标指令同步获取解码计算过程中的目标操作数。

合成音频获取单元，用于根据目标操作数对目标语音编码进行解码，得到合成音频。

基于本申请上述实施例提供的一种语音合成装置，获取目标声学特征；将目标声学特征输入到语音合成模型中，得到目标语音编码，其中，语音合成模型是采用上述语音合成模型训练方法得到的，通过语音合成模型可以根据模型提取的深层特征进行映射转换，输出准确度较高的目标语音编码；对目标语音编码进行解码，得到合成音频，在基于语音合成模型提取的目标语音编码前提下，解码后得到的合成音频发音准确、且发音更自然，与真实的人类语音更相近。

示例性电子设备

下面，参考图13来描述根据本申请实施例的电子设备。该电子设备可以是第一设备800和第二设备900中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图13图示了根据本申请实施例的电子设备的框图。

如图13所示，电子设备80包括一个或多个处理器81和存储器82。

处理器81可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备80中的其他组件以执行期望的功能。

存储器82可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器81可以运行所述程序指令，以实现上文所述的本申请的各个实施例的语音合成模型训练方法以及/或者其他期望的功能，或者，实现上文所述的本申请的各个实施例的语音合成方法以及/或者其他期望的功能。

在一个示例中，电子设备80还可以包括：输入装置83和输出装置84，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备800或第二设备900时，该输入装置83可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置83可以是通信网络连接器，用于从第一设备800和第二设备900接收所采集的输入信号。

此外，该输入设备83还可以包括例如键盘、鼠标等等。

该输出装置84可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图13中仅示出了该电子设备80中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音合成模型训练方法中的步骤，或者，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音合成方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音合成模型训练方法中的步骤，或者，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的语音合成方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音合成模型训练方法，包括：

从音频库中提取音频文件的声学特征、音频波形点；

将所述拼接特征输入到预设神经网络中进行训练；

2.根据权利要求1所述的方法，其中，所述从音频库中提取音频文件的声学特征、音频波形点，包括：

从音频库包括的所述音频文件中提取梅尔幅度谱系数作为所述音频文件的声学特征，其中，所述音频库中包括至少两个发音人的所述音频文件；

去除所述音频文件的头信息，采用固定采样率获取所述音频波形点。

3.根据权利要求1所述的方法，其中，所述对所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征分别进行编码，并对编码后的所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征进行拼接，得到拼接特征，包括：

将所述音频文件上采样后的所述声学特征输入到第一预设编码层，得到第一编码，其中，所述音频文件上采样后的所述声学特征的长度与所述音频波形点的长度相等；

对所述音频波形点进行非均匀编码，得到第二编码；

将所述第二编码输入到第二预设编码层，得到第三编码；

将所述第一编码和所述第三编码进行拼接，得到所述拼接特征。

4.根据权利要求1所述的方法，其中，在所述对所述音频文件的所述音频波形点、所述音频文件上采样后的所述声学特征分别进行编码之前，还包括：

将所述声学特征输入到上采样网络，以对所述声学特征进行上采样，其中，所述上采样网络包括一维卷积层，其中，在所述一维卷积层的层数大于2时，所述一维卷积层间设有残差连接模块。

5.根据权利要求1所述的方法，其中，所述预设神经网络包括稀疏化的神经子网络，采用门控循环神经网络的网络结构，所述预设神经网络还包括循环神经子网络，所述循环神经子网络采用门控循环神经网络的网络结构，其中，所述循环神经子网络中的神经元个数少于稀疏化的神经子网络中的神经元个数。

6.根据权利要求1-5任一项所述的方法，其中，所述在训练过程中对所述预设神经网络结构中的网络参数进行迭代更新，得到语音合成模型，包括：

采用交叉熵损失函数，根据所述预设神经网络训练时每次输出的目标输出值，以及编码后的音频波形点计算得到交叉熵损失；

在每次得到所述交叉熵损失后进行梯度回传，对所述预设神经网络结构中的网络参数进行迭代更新，在达到最大迭代训练步数或者网络参数的变化值均小于预设阈值时，迭代终止，得到所述语音合成模型。

7.一种语音合成方法，包括：

获取目标声学特征；

将所述目标声学特征输入到语音合成模型中，得到目标语音编码，其中，所述语音合成模型是采用权利要求1-6任一项所述语音合成模型训练方法得到的；

对所述目标语音编码进行解码，得到合成音频。

8.根据权利要求7所述的方法，其中，所述方法还包括：

以所述语音合成模型输出的值作为分布，并从所述分布中进行多项分布采样后得到目标语音编码。

9.根据权利要求7所述的方法，其中，所述对所述目标语音编码进行解码，得到合成音频，包括：

获取单指令多数据流目标指令；

根据所述单指令多数据流目标指令同步获取解码计算过程中的目标操作数；

根据所述目标操作数对所述目标语音编码进行解码，得到所述合成音频。

10.一种语音合成模型训练装置，包括：

11.一种语音合成装置，包括：

特征获取模块，用于获取目标声学特征；

目标语音编码获取模型，用于将所述目标声学特征输入到语音合成模型中，得到目标语音编码，其中，所述语音合成模型是采用权利要求1-6任一项所述语音合成模型训练方法得到的；

12.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的语音合成模型训练方法，或者，所述计算机程序用于执行上述权利要求7-9任一所述的语音合成方法。

13.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6任一所述的语音合成模型训练方法，或者，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求7-9任一所述的语音合成方法。