CN111402857B

CN111402857B - 语音合成模型训练方法和装置、电子设备及存储介质

Info

Publication number: CN111402857B
Application number: CN202010386294.1A
Authority: CN
Inventors: 周阳
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-11-21
Anticipated expiration: 2040-05-09
Also published as: CN111402857A

Abstract

本申请提供的语音合成模型训练方法和装置、电子设备及存储介质，涉及语音合成技术领域。在本申请中，首先，对获取的音频样本数据进行第一处理得到对应的自然度信息。其次，对音频样本数据进行第二处理得到对应的第一音素信息，并对该第一音素信息进行标识处理，得到对应的第二音素信息。然后，基于自然度信息和第二音素信息对预先构建的神经网络模型进行训练，得到语音合成模型，其中，该语音合成模型用于将输入的目标文本数据转换为目标音频数据。通过上述方法，可以改善现有的语音合成技术中由于合成准确度较低而使得合成音频存在不自然的问题。

Description

语音合成模型训练方法和装置、电子设备及存储介质

技术领域

本申请涉及语音合成技术领域，具体而言，涉及一种语音合成模型训练方法和装置、电子设备及存储介质。

背景技术

随着语音合成技术的不断发展，其应用范围也越来越广，使得用户对于合成的语音的要求也越来越高。但是，经发明人研究发现，由于训练得到的语音合成模型对数据的识别精度不高，使得在合成语音时，存在由于合成精度较低而使得合成的音频不够自然的问题。

发明内容

有鉴于此，本申请的目的在于提供一种语音合成模型训练方法和装置、电子设备及存储介质，以改善现有的语音合成技术中由于合成准确度较低而使得合成音频存在不自然的问题。

为实现上述目的，本申请实施例采用如下技术方案：

一种语音合成模型训练方法，包括：

对获取的音频样本数据进行第一处理得到对应的自然度信息；

对所述音频样本数据进行第二处理得到对应的第一音素信息，并对该第一音素信息进行标识处理，得到对应的第二音素信息；

基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练，得到语音合成模型，其中，该语音合成模型用于将输入的目标文本数据转换为目标音频数据。

在本申请实施例较佳的选择中，在上述语音合成模型训练方法中，所述对该第一音素信息进行标识处理的步骤，包括：

基于声音的连续性将所述第一音素信息进行分段处理，得到多段音素组，其中，每一段音素组包括至少一个音素；

在每一段音素组的最后一个音素之后设置静音标识信息，并在该静音标识信息之后设置结束标识信息，其中，该静音标识信息用于标识对应位置表示停顿预设时长，该结束标识信息用于标识对应音素组结束。

在本申请实施例较佳的选择中，在上述语音合成模型训练方法中，所述对该第一音素信息进行标识处理的步骤，还包括：

针对每一段音素组，在预设的多个预设时长中，确定该段音素组的静音标识信息对应的目标预设时长。

确定所述第一音素信息中每一个音素集是否包括属于声母的音素，其中，每一个音素集包括至少一个音素，用于构成一个发音；

针对不包括属于声母的音素的音素集，对该音素集设置一个预设配置的模糊标识信息，其中，该模糊标识信息为无发音的音素。

确定所述第一音素信息中相邻两个音素集包括的音素是否构成一个发音，其中，每一个音素集包括至少一个音素，用于构成一个发音；

针对包括的音素构成一个发音的相邻两个音素集，在该相邻两个音素集之间设置一个分隔标识信息，其中，该分隔标识信息为一个占位符。

在本申请实施例较佳的选择中，在上述语音合成模型训练方法中，所述对获取的音频样本数据进行第一处理得到对应的自然度信息的步骤，包括：

对获取的音频样本数据进行转换处理，得到对应的梅尔频谱信息；

基于预设的信息提取模型对所述梅尔频谱信息进行信息提取处理，得到对应的自然度信息。

在本申请实施例较佳的选择中，在上述语音合成模型训练方法中，所述基于预设的信息提取模型对所述梅尔频谱信息进行信息提取处理，得到对应的自然度信息的步骤，包括：

将所述梅尔频谱信息输入至预设的信息提取模型中的卷积网络层进行卷积处理，得到对应的卷积信息，其中，该卷积网络层为多层；

将所述卷积信息输入至所述信息提取模型中的GRU网络层进行循环更新处理，得到对应的更新信息；

将所述更新信息输入至所述信息提取模型中的密度网络层进行激活处理，得到对应的自然度信息。

本申请实施例还提供了一种语音合成模型训练装置，包括：

第一处理模块，用于对获取的音频样本数据进行第一处理得到对应的自然度信息；

第二处理模块，用于对所述音频样本数据进行第二处理得到对应的第一音素信息，并对该第一音素信息进行标识处理，得到对应的第二音素信息；

模型训练模块，用于基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练，得到语音合成模型，其中，该语音合成模型用于将输入的目标文本数据转换为目标音频数据。

在上述基础上，本申请实施例还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

与所述存储器连接的处理器，用于执行所述计算机程序，以实现上述的语音合成模型训练方法。

在上述基础上，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被执行时，实现上述的语音合成模型训练方法。

本申请提供的语音合成模型训练方法和装置、电子设备及存储介质，通过对音素信息进行标识处理，然后，再基于音素信息和自然度信息对神经网络模型进行训练，使得得到的语音合成模型可以在合成语音(将文本数据转换为音频数据)时，具有较高的合成精度，从而使得合成的语音具有较高的准确度，进而改善现有的语音合成技术中由于合成准确度较低而使得合成音频存在不自然的问题，具有较高的实用价值。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本申请实施例提供的电子设备的结构框图。

图2为本申请实施例提供的语音合成模型训练方法的流程示意图。

图3为图2中步骤S110包括的各步骤的流程示意图。

图4为图3中步骤S113包括的各步骤的流程示意图。

图5为本申请实施例提供的神经网络模型的网络架构示意图。

图6为本申请实施例提供的激活函数的输入、输出对应关系图。

图7为图2中步骤S120包括的各步骤的流程示意图。

图8为图2中步骤S120包括的其它各步骤的流程示意图。

图9为本申请实施例提供的语音合成模型训练装置包括的功能模块的方框示意图。

图标：10-电子设备；12-存储器；14-处理器；100-语音合成模型训练装置；110-第一处理模块；120-第二处理模块；130-模型训练模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本申请的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例提供了一种电子设备10。其中，该电子设备10可以包括存储器12、处理器14和语音合成模型训练装置100。

详细地，所述存储器12和处理器14之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述语音合成模型训练装置100可以包括，至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序，例如，所述语音合成模型训练装置100所包括的软件功能模块及计算机程序等，以实现本申请实施例提供的语音合成模型训练方法。

可选地，所述存储器12可以是，但不限于，随机存取存储器(Random AccessMemory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。

并且，所述处理器14可以是一种通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)、片上系统(System onChip，SoC)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图1所示的结构仅为示意，所述电子设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置，例如，还可以包括用于与其它设备进行信息交互的通信单元。

其中，所述电子设备10在实际应用中，可以是一种服务器。

结合图2，本申请实施例还提供一种语音合成模型训练方法，可应用于上述电子设备10。其中，所述语音合成模型训练方法有关的流程所定义的方法步骤可以由所述电子设备10实现。下面将对图2所示的具体流程，进行详细阐述。

步骤S110，对获取的音频样本数据进行第一处理得到对应的自然度信息。

在本实施例中，可以先获取用于进行训练的音频样本数据，然后，可以对该音频样本数据进行第一处理，以得到该音频样本数据对应的自然度信息，即该音频样本数据包含的自然度信息。

步骤S120，对所述音频样本数据进行第二处理得到对应的第一音素信息，并对该第一音素信息进行标识处理，得到对应的第二音素信息。

在本实施例中，在获取到用于进行训练的音频样本数据之后，可以先对该音频样本数据进行第二处理，以得到该音频样本数据对应的第一音素信息，即该音频样本数据包含的音素信息。然后，再对该第一音素信息进行标识处理，以得到对应的第二音素信息。

其中，所述第一音素信息包括所述第一音素信息和进行标识处理形成的标识信息。

步骤S130，基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练，得到语音合成模型。

在本实施例中，在基于步骤S110和步骤S120得到所述自然度信息和所述第二音素信息之后，可以基于该自然度信息和该第二音素信息对预先构建的神经网络模型进行训练，以得到语音合成模型。

其中，所述语音合成模型用于将输入的目标文本数据转换为目标音频数据，即实现语音合成的目的。

基于上述方法，由于在得到音频样本数据的音素信息之后，会对音素信息进行标识处理，使得基于音素信息和自然度信息对神经网络模型进行训练时，对音素信息的识别准确度更高，从而使得训练得到的语音合成模型具有较高的音素信息识别度，如此，在语音合成模型用于对目标文本数据进行转换时，可以使得转换精度更高，从而得到具有较高准确度的目标音频数据，使得合成的音频足够自然，与人的真实声音具有较高的相似度。

第一方面，对于步骤S110需要说明的是，基于第一处理得到自然度信息的具体方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以基于STRAIGHT(一种语音信号分析合成算法)对所述音频样本数据进行信息提取，从而得到包括该音频样本数据对应的自然度信息的声学特征序列。

又例如，在另一种可以替代的示例中，为了保证得到的自然度信息具有较高的精度，可以基于梅尔频谱信息(Mel Bank Features)得到所述音频样本数据对应的自然度信息。基于此，在本实施例中，结合图3，步骤S110可以包括步骤S111和步骤S113，具体内容如下所述。

步骤S111，对获取的音频样本数据进行转换处理，得到对应的梅尔频谱信息。

在本实施例中，在获取到音频样本数据之后，可以先对该音频样本数据进行转换处理，以得到该音频样本数据对应的梅尔频谱信息。

步骤S113，基于预设的信息提取模型对所述梅尔频谱信息进行信息提取处理，得到对应的自然度信息。

在本实施例中，在基于步骤S111得到所述梅尔频谱信息之后，可以基于预设的信息提取模型对该梅尔频谱信息进行信息提取，以得到该梅尔频谱信息对应的自然度信息。

其中，所述自然度信息可以包括，但不限于，所述梅尔频谱信息(所述音频样本数据)包含的韵律信息。

可选地，执行步骤S111对音频样本数据进行转换处理的具体方式不受限制，可以根据实际应用需求进行选择。

例如，在一种具体的应用示例中，可以先对获取的音频样本数据进行重采样处理，得到采样音频数据。其次，可以对该采样音频数据进行短时傅里叶变换(STFT，short-timeFourier transform)处理，以将时域信号转换为时频域信号，以得到对应的线性谱信息。然后，再将该线性谱信息进行增益增强处理，并基于梅尔标度滤波器组转换为对应的梅尔频谱信息。

可选地，执行步骤S113对梅尔频谱信息进行信息提取处理的具体方式也不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以直接基于TACOTRON模型(一种端到端的语音合成模型)对所述梅尔频谱信息进行信息提取处理，以得到对应的自然度信息。

也就是说，所述信息提取模型可以是上述的TACOTRON模型。

又例如，在另一种可以替代的示例中，为了提高提取的自然度信息的准确度，结合图4，步骤S113可以包括步骤S113a、步骤S113b和步骤S113c，具体内容如下所述。

步骤S113a，将所述梅尔频谱信息输入至预设的信息提取模型中的卷积网络层进行卷积处理，得到对应的卷积信息。

在本实施例中，在基于步骤S111得到梅尔频谱信息之后，可以将该梅尔频谱信息输入至预设的信息提取模型中，使得该信息提取模型中的多层卷积网络层依次对该梅尔频谱信息进行卷积处理，并输出对应的卷积信息(一种中间信息)。

步骤S113b，将所述卷积信息输入至所述信息提取模型中的GRU网络层进行循环更新处理，得到对应的更新信息。

在本实施例中，在基于步骤S113a得到所述卷积信息之后，可以将该卷积信息输入至所述信息提取模型中的GRU网络层(包括更新门和重置门)进行循环更新处理，并输出对应的更新信息(一种中间信息)。

步骤S113c，将所述更新信息输入至所述信息提取模型中的密度网络层进行激活处理，得到对应的自然度信息。

在本实施例中，在基于步骤S113b得到所述更新信息之后，可以将该更新信息输入至所述信息提取模型中的密度网络层进行激活处理，并输出对应的自然度信息。

可以理解的是，在上述示例中，信息提取模型包括各网络层的具体构成不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，结合图5，上述的信息提取模型可以包括6层卷积网络层、一层GRU网络层和一层密度网络层。

其中，6层卷积网络层的卷积核大小可以相同，且可以都为3*3。每层卷积网络层的通道数可以不同，如依次分别可以为32、32、64、64、128、128。GRU网络层的隐含单元数可以为128。密度网络层采用的激活函数可以为tanh激活函数(一种双曲正切函数，且输入与输出之间的关系可以如图6所示)，具体如下所示：

同样地，获取的样本音频数据的具体来源也不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以基于开源的语音数据库进行获取。其中，在一些示例中，为了使得训练得到的语音合成模型可以合成不同情感(如正常语气、兴奋语气等)的音频数据，可以在CASIA情感数据库获取语音数据。

第二方面，对于步骤S120需要说明的是，基于第二处理得到第一音素信息的具体方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以先将所述音频样本数据转换为音频文本数据(拼音音节)，然后，基于该音频文本数据得到对应的音素信息。该音素信息可以包括拼音文本信息(如音节、音调等)，且还可以包括韵律信息和停顿信息等。

并且，基于标识处理得到第二音素信息的具体方式也不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以先按照每间隔预设个拼音音节将第一音素信息分段为一个音素组，然后，再针对每个音素组进行标识处理(基于不同的需求，标识处理的具体内容可以不同)。

又例如，在另一种可以替代的示例中，为了使得基于训练得到的语音合成模型合成的语音具有较好的停顿感，结合图7，步骤S120可以包括步骤S121和步骤S123，具体内容如下所述。

步骤S121，基于声音的连续性将所述第一音素信息进行分段处理，得到多段音素组。

在本实施例中，在基于前述的步骤得到音频样本数据对应的第一音素信息之后，可以基于声音的连续性将该第一音素信息进行分段处理，以得到多段音素组，且每一段音素组可以包括至少一个音素。

例如，在一种具体的应用示例中，若音频样本数据为“今天的天气很好，适合出去走走”，对应的第一音素信息可以为“jintiandetianqihenhao，shihechuquzouzou”。如此，基于声音的连续性可以分为两段音素组，分别可以为“jintiandetianqihenhao”和“shihechuquzouzou”。

步骤S123，在每一段音素组的最后一个音素之后设置静音标识信息，并在该静音标识信息之后设置结束标识信息。

在本实施例中，在基于步骤S121得到多段音素组之后，可以针对每一段音素组，在该音素组的最后一个音素之后设置静音标识信息，并在该静音标识信息之后再设置结束标识信息。

其中，所述静音标识信息用于标识对应位置表示停顿预设时长(用于体现出停顿感)，该结束标识信息用于标识对应音素组结束(用于避免在训练的过程中将不同组的音素截取到一起，从而提高得到的语音合成模型的语音合成精度，例如，可以避免基于该语音合成模型进行语音合成时，由于不能准确识别到因素组结束而导致无法准确判断语音合成是否应该结束的问题，进而避免语音的合成会持续较长时间的问题，如在音频解码的步长为200步、每一步为160ms时，就会持续200*160ms)。

可选地，所述预设时长的具体时间长度不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以选择任意的时间长度作为所述预设时长，如50ms、80ms、90ms等。

又例如，在另一种可以替代的示例中，可以在预先配置的多个预设时长中，确定音素组对应的预设时长。基于此，在本实施例中，步骤S120还可以包括以下步骤：

也就是说，基于每一段音素组的具体内容不同，可以为该段音素组确定不同的预设时长，使得不同地方的停顿与对应的内容具有较高的匹配度。

其中，所述多个预设时长的具体数值不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以包括5个不同的预设时长，依次可以为20ms、40ms、60ms、80ms和100ms。

又例如，在另一种可以替代的示例中，经本申请的发明人的长期研究发现，为了使得停顿感能够被用户充分的识别，并考虑到在音频数据中一般一帧的时长为160ms，所述多个预设时长可以为12个，最小的一个预设时长为32ms，且相邻两个预设时长之间的差值可以为32ms。

进一步地，经过本申请的发明人的长期研究发现，对于一些不包括声母的拼音音节(如游泳“youyong”，“y”不构成发音)，在合成语音时容易出现发音模糊的问题。并且，经过长期的研究发现，提供了一种可以解决该问题的技术方案。

基于此，在一种可以替代的示例中，结合图8，步骤S120还可以包括步骤S125和步骤S127，具体内容如下所述。

步骤S125，确定所述第一音素信息中每一个音素集是否包括属于声母的音素。

在本实施例中，在得到所述第一音素信息之后，可以针对该第一音素信息中的每一个音素集，确定该音素集中是否包括属于声母的音素。

其中，每一个所述音素集包括至少一个音素，用于构成一个发音。例如，在上述的示例“shihechuquzouzou”中，可以包括6个音素集，依次可以分别为“shi”、“he”、“chu”、“qu”、“zou”、“zou”。

步骤S127，针对不包括属于声母的音素的音素集，对该音素集设置一个预设配置的模糊标识信息。

在本实施例中，在基于步骤S125确定部分音素集中不包括属于声母的音素之后，可以针对该部分音素集中的每一个音素集，对该音素集设置一个预设配置的模糊标识信息。

其中，所述模糊标识信息可以为无发音的音素。也就是说，针对不包括属于声母的音素的音素集(如“an”、“wan”、“yin”、“yuan”等，以及上述示例中的“you”、“yong”)，可以在该音素集中设置一个无发音的音素，如在第一个音素前设置一个无发音的音素。

进一步地，经过本申请的发明人的长期研究发现，基于现有的语音合成技术，在一些情况下，会使得相邻的多个(两个)音素集可以构成一个发音，从而使得语音合成的准确度不高的问题。

基于上述问题的发现，本申请的发明人经过长期的研究发现，出现上述问题的原因在于，模型难以对不同的音素集进行有效地识别。基于此，在本实施例中，步骤S120还可以包括以下步骤：

首先，确定所述第一音素信息中相邻两个音素集包括的音素是否构成一个发音。其次，针对包括的音素构成一个发音的相邻两个音素集，在该相邻两个音素集之间设置一个分隔标识信息。

其中，每一个所述音素集包括至少一个音素，用于构成一个发音。所述分隔标识信息可以为一个占位符(该占位符不添加任何内容)。

例如，针对文本数据“立案”，对应的音素集包括“li”和“an”。如此，若不对该两个音素集进行分隔，可能会出现发音拼接的问题，构成一个发音“lian”，如“练”。

第三方面，对于步骤S130需要说明的是，预先构建的神经网络模型的具体类型也不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，所述神经网络模型可以是，基于TensorFlow框架构建的网络模型。其中，基于TensorFlow框架的该网络模型，可以通过tf.add()的方式或tf.concat()的方式，将所述自然度信息和所述第二音素信息输入至该网络模型。

并且，在基于所述自然度信息和所述第二音素信息对神经网络模型进行训练时，为了进一步提高训练得到的语音合成模型的语音合成精度，使得合成的音频足够自然，在执行步骤S130时，还可以结合所述音频样本数据中携带的说话人音色信息、情感信息和韵律信息等，对所述神经网络模型进行训练。

可以理解的是，在上述示例中，描述的“多个”是指，两个及其以上。

结合图9，本申请实施例还提供一种语音合成模型训练装置100，可应用于上述电子设备10。其中，所述语音合成模型训练装置100可以包括第一处理模块110、第二处理模块120和模型训练模块130。

所述第一处理模块110，用于对获取的音频样本数据进行第一处理得到对应的自然度信息。在本实施例中，所述第一处理模块110可用于执行图2所示的步骤S110，关于所述第一处理模块110的相关内容可以参照前文对步骤S110的描述。

所述第二处理模块120，用于对所述音频样本数据进行第二处理得到对应的第一音素信息，并对该第一音素信息进行标识处理，得到对应的第二音素信息。在本实施例中，所述第二处理模块120可用于执行图2所示的步骤S120，关于所述第二处理模块120的相关内容可以参照前文对步骤S120的描述。

所述模型训练模块130，用于基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练，得到语音合成模型，其中，该语音合成模型用于将输入的目标文本数据转换为目标音频数据。在本实施例中，所述模型训练模块130可用于执行图2所示的步骤S130，关于所述模型训练模块130的相关内容可以参照前文对步骤S130的描述。

在本申请实施例中，对应于上述的语音合成模型训练方法，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序运行时执行上述语音合成模型训练方法的各个步骤。

其中，前述计算机程序运行时执行的各步骤，在此不再一一赘述，可参考前文对所述语音合成模型训练方法的解释说明。

综上所述，本申请提供的语音合成模型训练方法和装置、电子设备及存储介质，通过对音素信息进行标识处理，然后，再基于音素信息和自然度信息对神经网络模型进行训练，使得得到的语音合成模型可以在合成语音(将文本数据转换为音频数据)时，具有较高的合成精度，从而使得合成的语音具有较高的准确度，进而改善现有的语音合成技术中由于合成准确度较低而使得合成音频存在不自然的问题，具有较高的实用价值。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音合成模型训练方法，其特征在于，包括：

将所述更新信息输入至所述信息提取模型中的密度网络层进行激活处理，得到对应的自然度信息；所述自然度信息包含韵律信息；

基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练，得到语音合成模型，其中，该语音合成模型用于将输入的目标文本数据转换为目标音频数据；

所述对该第一音素信息进行标识处理的步骤，包括：

在每一段音素组的最后一个音素之后设置静音标识信息，并在该静音标识信息之后设置结束标识信息，其中，该静音标识信息用于标识对应位置表示停顿预设时长，该结束标识信息用于标识对应音素组结束；

或者，所述对该第一音素信息进行标识处理的步骤，包括：

2.根据权利要求1所述的语音合成模型训练方法，其特征在于，所述对该第一音素信息进行标识处理的步骤，还包括：

3.根据权利要求1所述的语音合成模型训练方法，其特征在于，所述对该第一音素信息进行标识处理的步骤，还包括：

4.一种语音合成模型训练装置，其特征在于，包括：

第一处理模块，用于对获取的音频样本数据进行转换处理，得到对应的梅尔频谱信息；将所述梅尔频谱信息输入至预设的信息提取模型中的卷积网络层进行卷积处理，得到对应的卷积信息，其中，该卷积网络层为多层；将所述卷积信息输入至所述信息提取模型中的GRU网络层进行循环更新处理，得到对应的更新信息；将所述更新信息输入至所述信息提取模型中的密度网络层进行激活处理，得到对应的自然度信息；所述自然度信息包含韵律信息；

模型训练模块，用于基于所述自然度信息和所述第二音素信息对预先构建的神经网络模型进行训练，得到语音合成模型，其中，该语音合成模型用于将输入的目标文本数据转换为目标音频数据；

所述第二处理模块还用于：基于声音的连续性将所述第一音素信息进行分段处理，得到多段音素组，其中，每一段音素组包括至少一个音素；在每一段音素组的最后一个音素之后设置静音标识信息，并在该静音标识信息之后设置结束标识信息，其中，该静音标识信息用于标识对应位置表示停顿预设时长，该结束标识信息用于标识对应音素组结束；

所述第二处理模块还用于：确定所述第一音素信息中相邻两个音素集包括的音素是否构成一个发音，其中，每一个音素集包括至少一个音素，用于构成一个发音；针对包括的音素构成一个发音的相邻两个音素集，在该相邻两个音素集之间设置一个分隔标识信息，其中，该分隔标识信息为一个占位符。

5.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

与所述存储器连接的处理器，用于执行所述计算机程序，以实现权利要求1-3任意一项所述的语音合成模型训练方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被执行时，实现权利要求1-3任意一项所述的语音合成模型训练方法。