CN112289299A

CN112289299A - 语音合成模型的训练方法、装置、存储介质以及电子设备

Info

Publication number: CN112289299A
Application number: CN202011135519.2A
Authority: CN
Inventors: 吴雨璇; 杨惠; 舒景辰; 梁光; 周鼎皓
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-01-29
Anticipated expiration: 2040-10-21
Also published as: CN112289299B

Abstract

本申请实施例公开了一种语音合成模型的训练方法，所述方法包括基于初始语音合成模型对文本数据进行语音合成处理得到合成语音，基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量，基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量，将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。通过情感识别网络对合成语音数据和真人语音数据进行情感识别，依据反馈结果更新初始语音合成模型的网路参数，完成初始语音合成模型的训练，得到目标语音合成模型，精准的实现了语音合成模型的训练。

Description

语音合成模型的训练方法、装置、存储介质以及电子设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音合成模型的训练方法、装置、存储介质以及电子设备。

背景技术

随着人工智能技术的发展，语音合成技术越来越受到人们的重视，合成语音被应用在各种场合中，比如：公共交通上的语音播报，在线教学课程中代替老师点名、读题目等，天气播报、新闻播报等与语音合成的相关场合中。但是发明人发现：通过语音合成模型得到的合成语音比较生硬，“机器人声音”痕迹明显，那么如何使得合成语音和真人语音更加相似是一个亟需解决的问题。

发明内容

本申请实施例提供了一种语音合成模型的训练方法、装置、计算机存储介质以及电子设备，旨在提升语音合成技术中合成语音的真实性的技术问题。所述技术方案如下：

第一方面，本申请实施例提供了一种语音合成模型的训练方法，所述方法包括：

基于初始语音合成模型对文本数据进行语音合成处理得到合成语音；

基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量；

基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量；

将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。

可选地，所述基于说话人分类网络对所述合成语音数据进行情感识别得到第一特征向量，包括：

获取所述合成语音的第一梅尔频谱；

基于所述说话人分类网路对所述第一梅尔频谱进行情感识别得到所述第一特征向量。

可选地，所述基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量，包括：

获取所述真人语音的第二梅尔频谱；

基于所述说话人分类网路对所述第二梅尔频谱进行情感识别得到所述第二特征向量。

可选地，所述基于语音合成模型对所述文本数据进行语音合成处理得到合成语音，包括：

将所述文本数据转换成至少一个音素序列；

基于初始语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱；

基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音。

可选地，所述初始语音合成模型的训练过程，包括：

获取样本文本数据和样本语音；

对所述样本文本数据进行解码编码处理得到所述样本文本数据对应的梅尔频谱；

计算所述样本文本数据对应的梅尔频谱与所述样本语音对应的梅尔频谱的损失值；

在所述损失值小于或等于预设阈值时生成所述初始语音合成模型。

可选地，所述对所述样本文本数据进行解码编码处理得到所述样本文本数据对应的梅尔频谱，包括：

对所述样本文本数据进行编码处理得到音素序列向量；

对所述音素序列向量进行时长提取处理得到音素对齐向量；

对所述音素对齐向量进行解码处理得到所述样本文本数据对应的梅尔频谱。

可选地，所述将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述语音合成模型的网络参数进行更新处理得到目标语音合成模型，包括：

计算所述第一特征向量和所述第二特征向量的相似度，计算损失值；

基于所述损失值以及反向传播算法更新所述语音合成模型的网络参数，网络参数更新后的语音合成模型为所述目标语音合成模型。

第二方面，本申请实施例提供了一种语音合成模型的训练装置，所述装置包括：

语音合成模块，用于基于初始语音合成模型对文本数据进行语音合成处理得到合成语音；

第一情感识别模块，用于基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量；

第二情感识别模块，用于基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量；

模型更新模块，用于将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供了一种电子设备，可包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述存储器加载并执行上述的方法步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例的方案在执行时，基于初始语音合成模型对文本数据进行语音合成处理得到合成语音，基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量，基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量，将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。通过情感识别网络对合成语音数据和真人语音数据进行情感识别，依据反馈结果更新初始语音合成模型的网路参数，完成初始语音合成模型的训练，得到目标语音合成模型，精准的实现了语音合成模型的训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请语音合成模型的训练方法的系统架构示意图；

图2是本申请实施例提供的一种语音合成模型的训练方法的流程示意图；

图3是本申请实施例提供的一种语音合成模型的原理示意图；

图4是本申请实施例提供的一种语音合成模型的训练方法的流程示意图；

图5是本申请实施例提供的一种语音合成模型的训练装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参见图1，其示出了可以应用本申请实施例的语音合成模型的训练方法或语音合成模型的训练装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

本申请中的终端设备101、102、103可以为提供各种服务的终端设备。例如用户通过终端设备103(也可以是终端设备101或102)基于初始语音合成模型对文本数据进行语音合成处理得到合成语音，基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量，基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量，将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。

在此需要说明的是，本申请实施例所提供的语音合成模型的训练方法可以由终端设备101、102、103中的一个或多个，和/或，服务器105执行，相应地，本申请实施例所提供的语音合成模型的训练装置一般设置于对应终端设备中，和/或，服务器105中，但本申请不限于此。

在下述方法实施例中，为了便于说明，仅以各步骤的执行主体为电子设备进行介绍说明。

请参见图2，为本申请实施例提供的一种语音合成模型的训练方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201，基于初始语音合成模型对文本数据进行语音合成处理得到合成语音。

其中，文本数据是不同真人的说话内容。初始语音合成模型是预先训练的一种能够将文本数据进行语音合成处理得到合成语音的模型。初始语音合成模型的训练过程为：收集样本文本数据和样本语音，对模型进行迭代训练，不断地将样本文本输入至模型中，经模型输出合成语音，将合成语音和样本语音进行对比，以监督学习的方式对模型进行训练。

一般的，上述采用的训练模型是FAST-speech模型，模型的结构图如图3所示，图3中包括编码器和解码器，图3的底部从下往上依次为：音素嵌入、位置编码、快速傅里叶变换模块、时长提取、位置编码、快速傅里叶变换模块和线性层。其中，前面的音素嵌入、位置编码和快速傅里叶变换模块为编码器部分，后面的位置编码、快速傅里叶变换模块和线性层为解码器部分。

可以理解的，以文本数据A为例，将语音合成模型的应用过程进行说明，具体处理过程为：首先对文本数据A进行编码处理，包括音素嵌入、位置编码、快速傅里叶变换模块。音素嵌入的过程为：基于文本数据A提取发音序列，例如：“今天你吃饭了吗？”，其中，每一个词对应一个音素序列，即1-n个音素，例如：“你”、“吃”等各自对应其音素序列，经过查询音素表，将文本数据转换成一个音素序列，用特征向量X表示，并对特征向量X进行转化，经过矩阵关系运算降维，转换成特征向量Y。然后是进行位置编码，基于向量计算，将文本数据的序列信息加入到特征向量Y中，以体现时间序列，得到特征向量Z。最后，经过快速傅里叶变换模块的处理，该模块是transformer前馈网络，包含attention机制(关注重要信息)、卷积层(需要训练参数的网络)，经过该模块的处理计算，由特征向量Z得到特征向量G。

除了对文本数据A进行编码处理之外，还要对文本数据A对应的真人语音B进行处理，提取真人语音B的音色，得到一个特征向量P，特征向量P与特征向量G进行拼接或乘法等，得到特征向量U，使得运算后的向量包含音色特征。

接下来是时长提取过程，现有技术中使用预训练好的模型提取音素序列中每个因素的时长信息，但效果并不好，是句子的对齐，并未实现音素到音素的对齐，在本申请中做了改进：使用统计模型(经典解码器)，实现了强制对齐，具体处理过程是：通过对每个单词进行发音时长的统计，对每个发音序列的时长进行概率评估，选择概率最大的序列作为输出结果，由此实现了音素到音素的对齐，进一步，基于得到的时长信息，对特征向量U进行运算，得到特征向量V。

进一步的，是解码阶段：首先进行位置编码，基于向量计算，把文本数据A的文本序列信息加入到特征向量V中，以体现时间序列，得到特征向量S；然后是快速傅里叶变换模块，经过该模块的处理计算，由特征向量S得到特征向量T；最后是经过线性层的处理，得到特征向量T对应的梅尔频谱。

最后，经过语音合成器，输出文本数据A的合成语音。

S202，基于说话人分类网络对合成语音进行情感识别得到第一特征向量。

一般的，基于说话人分类网络对合成语音进行情感识别，可以包括：对合成语音进行合成语音信号提取；进一步的，对合成语音信号进行分帧处理，将合成语音信号转换为频域信号；将频域信号经过语谱图处理，将经过语谱图处理的合成语音信号经过说话人分类网络，说话人分类网路可以是卷积神经网络；通过卷积神经网络提取该语音信号中的高层频率特征；进一步的，将提取得到的语音信号高层频率特征进一步提取该语音信号的语音特征，实际上是对该语音信号韵律特征进行提取。对该语音信号韵律特征进行提取可以利用PyAudioAnalysis工具提取出语音中的韵律学特征，可以提取语音信号的基频、声音概率，响度曲线等特征；将提取的语音信号韵律学特征以及语谱图中的频率特征进行转化得到相同维度的语音特征，即第一特征向量。

S203，基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量。

一般的，基于说话人分类网络对真人语音进行情感识别，可以包括：对真人语音进行真人语音信号提取；进一步的，对真人语音信号进行分帧处理，将真人语音信号转换为频域信号；将频域信号经过语谱图处理，将经过语谱图处理的真人语音信号经过说话人分类网络，说话人分类网路可以是卷积神经网络；通过卷积神经网络提取该真人语音信号中的高层频率特征；进一步的，将提取得到的真人语音信号高层频率特征进一步提取该真人语音信号的语音特征，实际上是对该真人语音信号韵律特征进行提取。对该真人语音信号韵律特征进行提取可以利用PyAudioAnalysis工具提取出真人语音中的韵律学特征，可以提取真人语音信号的基频、声音概率，响度曲线等特征；将提取的真人语音信号韵律学特征以及语谱图中的频率特征进行转化得到相同维度的语音特征，即第二特征向量。

S204，将第一特征向量和第二特征向量进行比较，基于比较结果对初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。

基于上述得到的合成语音的第一特征向量以及真人语音的第二特征向量，计算第一特征向量和第二特征向量的相似度，基于损失函数计算损失值，利用反向传播算法对初始语音合成模型中每层网络的权重进行更新，迭代上述过程，使得损失值不断下降，在损失值小于或等于预设损失值时，可以停止反向传播算法，得到目标语音合成模型。

请参见图4，为本申请实施例提供的一种语音合成模型的训练方法的流程示意图。如图4所示，本申请实施例的所述方法可以包括以下步骤：

S401，获取样本文本数据和样本语音。

S402，对样本文本数据进行解码编码处理得到样本文本数据对应的梅尔频谱。

S403，计算样本文本数据对应的梅尔频谱与样本语音对应的梅尔频谱的损失值。

S404，在损失值小于或等于预设阈值时生成初始语音合成模型。

在本申请实施例中，图4中的S401～S404是初始语音合成模型的训练过程，通过样本文本数据和样本语音进行训练。以样本文本数据C为例，对初始语音合成模型的训练过程进行说明：首先对样本文本数据C进行编码处理，包括音素嵌入、位置编码、快速傅里叶变换模块。音素嵌入的过程为：基于文本数据A提取发音序列，例如：“今天你吃饭了吗？”，其中，每一个词对应一个音素序列，即1-n个音素，例如：“你”、“吃”等各自对应其音素序列，经过查询音素表，将文本数据转换成一个音素序列，用特征向量X表示，并对特征向量X进行转化，经过矩阵关系运算降维，转换成特征向量Y。然后是进行位置编码，基于向量计算，将文本数据的序列信息加入到特征向量Y中，以体现时间序列，得到特征向量Z。最后，经过快速傅里叶变换模块的处理，该模块是transformer前馈网络，包含attention机制(关注重要信息)、卷积层(需要训练参数的网络)，经过该模块的处理计算，由特征向量Z得到特征向量G。

除了对样本文本数据A进行编码处理之外，还要对样本文本数据C对应的样本语音D进行处理，提取样本语音D的音色，得到一个特征向量P，特征向量P与特征向量G进行拼接或乘法等，得到特征向量U，使得运算后的向量包含音色特征。

进一步的，是解码阶段：首先进行位置编码，基于向量计算，把文本数据A的文本序列信息加入到特征向量V中，以体现时间序列，得到特征向量S；然后是快速傅里叶变换模块，经过该模块的处理计算，由特征向量S得到特征向量T；最后是经过线性层的处理，得到特征向量T对应的梅尔频谱α，与最初输入的样本语音D的梅尔频谱β进行比较，即将贝塔作为比较的标签，计算损失值，根据损失值不断迭代训练上述的编码器和解码器。在损失值小于或等于预设阈值时，生成初始语音合成模型。

S405，将文本数据转换成至少一个音素序列。

一般的，可以基于文本数据中的文本内容提取发音序列，例如：“今天你上课了吗？”，这句话中的每一个词对应一个音素序列，即1-n个因素，“你”、“上”等各自对应其因素序列，可以经过查询音素表，将文本“今天你上课了吗？”转换成一个音素序列。

S406，基于初始语音合成模型对至少一个音素序列进行语音合成处理得到文本数据对应的梅尔频谱。

一般的，基于S405的音素序列，通过初始语音合成模型对该音素序列进行语音合成处理，包括编码、时长提取以及解码等处理过程，可以得到文本数据对应的梅尔频谱。

初始语音合成模型的具体处理过程为：将音素序列用特征向量X表示，并对特征向量X进行转化，经过矩阵关系运算降维，转换成特征向量Y。进一步的，进行位置编码，基于向量计算，将文本数据的序列信息加入到特征向量Y中，以体现时间序列，得到特征向量Z。进一步的，经过快速傅里叶变换模块的处理，该模块是transformer前馈网络，包含attention机制(关注重要信息)、卷积层(需要训练参数的网络)，经过该模块的处理计算，由特征向量Z得到特征向量G。

除了对文本数据进行编码处理之外，还要对文本数据对应的真人语音进行处理，提取真人语音的音色，得到一个特征向量P，特征向量P与特征向量G进行拼接或乘法等，得到特征向量U，使得运算后的向量包含音色特征。

进一步的，是时长提取过程，现有技术中使用预训练好的模型提取音素序列中每个因素的时长信息，但效果并不好，是句子的对齐，并未实现音素到音素的对齐，在本申请中做了改进：使用统计模型(经典解码器)，实现了强制对齐，具体处理过程是：通过对每个单词进行发音时长的统计，对每个发音序列的时长进行概率评估，选择概率最大的序列作为输出结果，由此实现了音素到音素的对齐，进一步，基于得到的时长信息，对特征向量U进行运算，得到特征向量V。

进一步的，是解码阶段：首先进行位置编码，基于向量计算，把文本数据的文本序列信息加入到特征向量V中，以体现时间序列，得到特征向量S；然后是快速傅里叶变换模块，经过该模块的处理计算，由特征向量S得到特征向量T；最后是经过线性层的处理，得到特征向量T对应的梅尔频谱。

S407，基于文本数据对应的梅尔频谱得到文本数据对应的合成语音。

一般的，基于S406得到的文本数据梅尔频谱，经过一个语音合成器，输出合成语音。

S408，获取合成语音的第一梅尔频谱，基于说话人分类网路对所述第一梅尔频谱进行情感识别得到第一特征向量。

其中，第一梅尔频谱是指合成语音的声谱图通过梅尔标度滤波器组所变换成为的梅尔频谱。说话人分类又称为说话人分割，在语音信号处理的多种场景下均有应用需求，说话人分类方法可以分为两类，一是无监督方法，比如谱聚类以及K均值等；二是监督方法，神经网络，比如RNN等方法。

一般的，基于说话人分类网络对合成语音进行情感识别，可以包括：对合成语音进行合成语音信号提取；进一步的，对合成语音信号进行分帧处理，将合成语音信号转换为频域信号；将频域信号经过语谱图处理，将经过语谱图处理的合成语音信号经过说话人分类网络，说话人分类网路可以是卷积神经网络；通过卷积神经网络提取该合成语音信号中的高层频率特征；进一步的，将提取得到的合成语音信号高层频率特征进一步提取该合成语音信号的语音特征，实际上是对该合成语音信号韵律特征进行提取。对该合成语音信号韵律特征进行提取可以利用PyAudioAnalysis工具提取出合成语音中的韵律学特征，可以提取合成语音信号的基频、声音概率，响度曲线等特征；将提取的合成语音信号韵律学特征以及语谱图中的频率特征进行转化得到相同维度的语音特征，即第一特征向量。

S409，获取真人语音的第二梅尔频谱，基于说话人分类网络对第二梅尔频谱进行情感识别得到第二特征向量。

S410，计算第一特征向量和第二特征向量的相似度，计算损失值。

S411，基于损失值以及反向传播算法更新语音合成模型的网络参数，网络参数更新后的语音合成模型为目标语音合成模型。

对于上述步骤S410～S411，反向传播算法是误差反向传播算法的简称，反向传播算法是一个迭代算法，它的基本思想如下：一、将训练集数据输入到神经网络的输入层，经过隐藏层，最后达到输出层并输出结果，这就是前向传播过程；二、由于神经网络的输出结果与实际结果有误差，则计算估计值与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层；三、在反向传播的过程中，根据误差调整各种参数的值(相连神经元的权重)，使得总损失函数减小；四、迭代上述三个步骤(即对数据进行反复训练)，直到满足停止准则。第一特征向量为合成语音对应的情感特征向量，第二特征向量为真人语音对应的情感特征向量，由于合成语音和真人语音情感方面存在误差，通过计算第一特征向量和第二特征向量的相似度，计算他们之前的误差，也就是损失值，利用反向传播算法将损失值从输出值传入到输入层，在反向传播的过程中，根据损失值调整各层神经网络参数的权重，使得总损失函数较小，在损失值小于或等于预设阈值，停止反向传播算法，得到目标语音合成模型。

S412，获取待处理的文本数据，通过目标语音合成模型对待处理的文本数据进行语音合成处理，得到待处理的文本数据的合成语音。

可以理解的，该步骤为目标语音合成模型的应用过程，目标用户的文本数据经过目标语音合成模型的处理，可以得到更加真实的合成语音。

请参见图5，为本申请实施例提供的一种语音合成模型的训练装置的结构示意图。该语音合成模型的训练装置500可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。装置500包括：

语音合成模块510，用于基于初始语音合成模型对文本数据进行语音合成处理得到合成语音；

第一情感识别模块520，用于基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量；

第二情感识别模块530，用于基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量；

模型更新模块540，用于将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述初始语音合成模型的网络参数进行更新处理得到目标语音合成模型。

可选地，第一情感识别模块520包括：

第一频谱获取单元，用于获取所述合成语音的第一梅尔频谱；

第一特征向量获取单元，用于基于所述说话人分类网路对所述第一梅尔频谱进行情感识别得到所述第一特征向量。

可选地，第二情感识别模块530包括：

第二频谱获取单元，用于获取所述真人语音的第二梅尔频谱；

第二特征向量获取单元，用于基于所述说话人分类网路对所述第二梅尔频谱进行情感识别得到所述第二特征向量。

可选地，语音合成模块510包括：

第一处理单元，用于将所述文本数据转换成至少一个音素序列；

第二处理单元，用于基于初始语音合成模型对所述至少一个音素序列进行语音合成处理得到所述文本数据对应的梅尔频谱；

第三处理单元，用于基于所述文本数据对应的梅尔频谱得到所述文本数据对应的合成语音。

可选地，语音合成模块510还包括：

第一单元，用于获取样本文本数据和样本语音；

第二单元，用于对所述样本文本数据进行解码编码处理得到所述样本文本数据对应的梅尔频谱；

第三单元，用于计算所述样本文本数据对应的梅尔频谱与所述样本语音对应的梅尔频谱的损失值；

第四单元，用于在所述损失值小于或等于预设阈值时生成所述初始语音合成模型。

可选地，模型更新模块540包括：

第一计算单元，用于计算所述第一特征向量和所述第二特征向量的相似度，计算损失值；

第二计算单元，用于基于所述损失值以及反向传播算法更新所述语音合成模型的网络参数，网络参数更新后的语音合成模型为所述目标语音合成模型。

可选地，装置500还包括：

应用模块，用于获取待处理的文本数据，通过所述目标语音合成模型对所述待处理的文本数据进行语音合成处理，得到所述待处理的文本数据的合成语音。

请参见图6，其示出了本申请实施例所涉及的一种电子设备的结构示意图，该电子设备可以用于实施上述实施例中语音合成模型的训练方法。具体来讲：

存储器620可用于存储软件程序以及模块，处理器690通过运行存储在存储器620的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器620还可以包括存储器控制器，以提供处理器690和输入单元630对存储器620的访问。

输入单元630可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元630可包括触敏表面631(例如：触摸屏、触摸板或触摸框)。触敏表面631，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面631上或在触敏表面631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器690，并能接收处理器690发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面631。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元640可包括显示面板641，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板641。进一步的，触敏表面631可覆盖显示面板641，当触敏表面631检测到在其上或附近的触摸操作后，传送给处理器690以确定触摸事件的类型，随后处理器690根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触敏表面631与显示面板641是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面631与显示面板641集成而实现输入和输出功能。

处理器690是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器690可包括一个或多个处理核心；其中，处理器690可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器690中。

具体在本实施例中，电子设备的显示单元是触摸屏显示器，电子设备还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现语音合成模型的训练方法的步骤。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述的方法步骤，具体执行过程可以参见图2和图4所示实施例的具体说明，在此不进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于说话人分类网络对所述合成语音进行情感识别得到第一特征向量，包括：

获取所述合成语音的第一梅尔频谱；

3.根据权利要求1所述的方法，其特征在于，所述基于说话人分类网络对所述文本数据对应的真人语音进行情感识别得到第二特征向量，包括：

获取所述真人语音的第二梅尔频谱；

4.根据权利要求1所述的方法，其特征在于，所述基于语音合成模型对所述文本数据进行语音合成处理得到合成语音，包括：

将所述文本数据转换成至少一个音素序列；

5.根据权利要求4所述的方法，其特征在于，所述初始语音合成模型的训练过程，包括：

获取样本文本数据和样本语音；

6.根据权利要求1所述的方法，其特征在于，所述将所述第一特征向量和所述第二特征向量进行比较，基于比较结果对所述语音合成模型的网络参数进行更新处理得到目标语音合成模型，包括：

计算所述第一特征向量和所述第二特征向量的相似度；

基于所述相似度计算损失值；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待处理的文本数据，通过所述目标语音合成模型对所述待处理的文本数据进行语音合成处理，得到所述待处理的文本数据的合成语音。

8.一种语音合成模型的训练装置，其特征在于，所述装置包括：

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。