CN112309365B

CN112309365B - 语音合成模型的训练方法、装置、存储介质以及电子设备

Info

Publication number: CN112309365B
Application number: CN202011135518.8A
Authority: CN
Inventors: 吴雨璇; 舒景辰; 梁光; 周鼎皓; 杨惠
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2024-05-10
Anticipated expiration: 2040-10-21
Also published as: CN112309365A

Abstract

本申请实施例公开了一种语音合成模型的训练方法，所述方法包括：获取目标用户的第一语音数据，基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据，基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。本申请针对语音合成模型对新的目标用户进行训练时，通过在已有的语音数据集合中找到与目标用户说话风格最相似的语音数据对初始语音合成模型进行训练，得到目标语音合成模型，初始语音合成模型是多人语音合成模型，提升了多人语音合成模型的训练效率。

Description

语音合成模型的训练方法、装置、存储介质以及电子设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音合成模型的训练方法、装置、存储介质以及电子设备。

背景技术

随着人工智能技术的发展，语音合成技术越来越受到人们的重视，合成语音被应用在各种场合中，比如：公共交通上的语音播报，在线教学课程中代替老师点名、读题目等，天气播报、新闻播报等与语音合成的相关场合中。相关技术中，语音合成模型不仅可以用在单个说话人的应用场景下，还有可以用在多个说话人的应用场景，但是多人语音合成模型的训练过程较为繁琐，特别是在新增模拟对象时，由于数据不足等原因，影响了训练效率和模型的准确率。

发明内容

本申请实施例提供了一种语音合成模型的训练方法、装置、计算机存储介质以及电子终端，旨在提升相关技术中多人语音合成模型的训练效率的技术问题。所述技术方案如下：

第一方面，本申请实施例提供了一种语音合成模型的训练方法，所述方法包括：

获取目标用户的第一语音数据；

基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据；

基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。

可选地，所述基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最高的第二语音数据，包括：

基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量，确定所述多个第一特征向量的特征向量均值；

基于所述说话人分类网络计算所述语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值；

在多个第二特征向量均值中确定与所述特征向量均值相似度最大的第二特征向量均值；

将所述最大相似度值的第二特征向量均值对应的语音数据作为第二语音数据。

可选地，所述初始语音合成模型预先经过训练，其训练过程包括：

创建样本文本数据集合和样本语音数据集合；

对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱；

计算所述各个样本用户的样本文本数据对应的梅尔频谱与所述各个样本用户的样本语音数据对应的梅尔频谱的损失值；

在所述损失值小于或等于预设阈值时生成所述初始语音合成模型。

可选地，所述对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱，包括：

对所述多个样本用户的样本文本数据进行编码处理得到音素特征向量；

确定所述各个样本用户的语音数据对应的音色特征向量和情绪特征向量；

基于所述音素特征向量、音色特征向量和情绪特征向量，得到所述各个样本用户的样本文本数据对应的梅尔频谱。

可选地，所述确定所述各个样本用户的语音数据对应的情绪特征向量，包括：

对所述样本用户的语音数据进行情绪识别得到所述情绪特征向量；或

基于所述样本文本数据中的情绪标识确定所述目标情绪特征。

可选地，所述方法还包括：

获取目标用户的真人语音数据，基于所述目标语音合成模型对所述真人语音数据进行语音合成处理，得到所述目标用户的合成语音。

可选地，所述方法还包括：

基于语音信号参数对所述合成语音进行调整；其中，所述语音信号参数包括音量、语速以及背景噪声中的一种或多种。

第二方面，本申请实施例提供了一种语音合成模型的训练装置，所述装置包括：

第一语音获取模块，用于获取目标用户的第一语音数据；

第二语音获取模块，用于基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据；

语音合成模块，用于基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供了一种电子设备，可包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述存储器加载并执行上述的方法步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例的方案在执行时，获取目标用户的第一语音数据，基于说话人分类网络在语音数据集合中确定与第一语音数据相似度最大的第二语音数据，基于第二语音数据对初始语音合成模型进行调整得到目标语音合成模型。本申请针对语音合成模型对新的目标用户的进行训练时，通过在已有的语音数据集合中找到与目标用户说话风格最相似的语音数据对初始语音合成模型进行训练，得到目标语音合成模型，初始语音合成模型是多人语音合成模型，提升了多人语音合成模型的训练效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请语音合成模型的训练方法的系统架构示意图；

图2是本申请实施例提供的一种语音合成模型的训练方法的流程示意图；

图3是本申请实施例提供的一种语音合成模型的训练方法的流程示意图；

图4是本申请实施例提供的一种语音合成模型的训练装置的结构示意图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参见图1，其示出了可以应用本申请实施例的语音合成模型的训练方法或语音合成模型的训练装置的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

本申请中的终端设备101、102、103可以为提供各种服务的终端设备。例如用户通过终端设备103（也可以是终端设备101或102）获取目标用户的第一语音数据，基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据，基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。

在此需要说明的是，本申请实施例所提供的语音合成模型的训练方法可以由终端设备101、102、103中的一个或多个，和/或，服务器105执行，相应地，本申请实施例所提供的语音合成模型的训练装置一般设置于对应终端设备中，和/或，服务器105中，但本申请不限于此。

在下述方法实施例中，为了便于说明，仅以各步骤的执行主体为终端进行介绍说明。

请参见图2，为本申请实施例提供的一种语音合成模型的训练方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201，获取目标用户的第一语音数据。

其中，目标用户可以是任何一个说话人，第一语音数据是该说话人的真人语音的数据，第一语音数据中可以包括该说话人的多条语音数据。

S202，基于说话人分类网络在语音数据集合中确定与第一语音数据相似度最大的第二语音数据。

其中，语音数据集合中包括不同说话风格的说话人的语音数据，不同说话人的说话风格不同。

一般的，可以将第一语音数据经过说话人分类网络进行处理，得到多个特征向量，由于第一语音数据包括多条语音数据，说话人分类网络分别对多条语音数据进行处理，得到每条语音数据对应的特征向量，可以计算这些条语音数据对应的特征向量均值。由于语音数据集合中包括多种不同说话人风格的说话人语音数据，比如：语音数据集合中有100个说话人，每个说话人有20-30分钟的语音数据，说话人分类网络分别对100个说话人的语音数据进行处理，得到100个说话人各自对应的特征向量，计算每个说话人的特征向量均值，将目标用户的特征向量均值与100个说话人的特征向量均值进行相似度计算，确定最大相似度值，将最大相似度值对应的说话人的语音数据作为第二语音数据。

S203，基于第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。

其中，初始语音合成模型是一个多人语音合成模型，可以将多个说话人的真人语音数据同时进行语音合成处理，得到多个说话人的合成语音。初始语音合成模型的训练过程为：输入文本数据与文本数据对应的语音集合，语音集合中的语音来自于不同的真人，每个语音对应一个特征向量，例如文本“今天你吃饭了吗”、“吃了”，对应的语音“今天你吃饭了吗”是甲的声音，“吃了”时候乙的声音。可以理解的是，本申请实施例中对文本数据A，例如：“今天你吃饭了吗”对初始语音合成模型的处理过程进行说明，其他样本文本的处理过程也如此，在此不再赘述。首先，对文本数据A进行编码处理，包括音素嵌入、位置编码、快速傅里叶变换模块。音素嵌入的过程为：基于文本数据A提取发音序列，例如：“今天你吃饭了吗？”，其中，每一个词对应一个音素序列，即1-n个音素，例如：“你”、“吃”等各自对应其音素序列，经过查询音素表，将文本数据转换成一个音素序列，用过特征向量X表示，并对特征向量X进行转化，经过矩阵关系运算降维，转换成特征向量Y。然后是进行位置编码，基于向量计算，将文本数据的序列信息加入到特征向量Y中，以体现时间序列，得到特征向量Z。最后，经过快速傅里叶变换模块的处理，该模块是transformer前馈网络，包含attention机制（关注重要信息）、卷积层（需要训练参数的网络），经过该模块的处理计算，由特征向量Z得到特征向量G。

除了对文本数据A进行编码处理之外，还要对文本数据A对应的真人语音B进行处理，提取真人语音B的音色，得到一个特征向量P，另外，还有利用情绪提取网络，提取真人语音B的情绪特征F，将特征向量P、特征向量F与特征向量G同时进行拼接或乘法等，得到特征向量U，使得运算后的向量包含音色特征和情绪特征。

接下来是时长提取过程，现有技术中使用预训练好的模型提取音素序列中每个因素的时长信息，但效果并不好，是句子的对齐，并未实现音素到音素的对齐，在本申请中做了改进：使用统计模型（经典解码器），实现了强制对齐，具体处理过程是：通过对每个单词进行发音时长的统计，对每个发音序列的时长进行概率评估，选择概率最大的序列作为输出结果，由此实现了音素到音素的对齐，进一步，基于得到的时长信息，对特征向量U进行运算，得到特征向量V。

进一步的，是解码阶段：首先进行位置编码，基于向量计算，把文本数据A的文本序列信息加入到特征向量V中，以体现时间序列，得到特征向量S；然后是快速傅里叶变换模块，经过该模块的处理计算，由特征向量S得到特征向量T；最后是经过线性层的处理，得到特征向量T对应的梅尔频谱。

最后，经过语音合成器，输出文本数据A的合成语音。

需要说明的是，语音集合中的同一个说话人的语音数据和文本数据对应着该说话人的说话人标识。

一般的，基于S202得到的第二语音数据，由于每个语音数据对应一个说话人标识。在确定与目标用户说话风格最相似的第二语音数据之后，可以将第一语音数据对应的第一说话人标识更换为第二语音数据对应的第二说话人标识，基于更换说话人标识后的第一语音数据对初始语音合成模型进行训练，得到目标语音合成模型。

本申请实施例的方案在执行时，获取目标用户的第一语音数据，基于说话人分类网络在语音数据集合中确定与第一语音数据相似度最大的第二语音数据，基于第二语音数据对初始语音合成模型进行调整得到目标语音合成模型。本申请在对新的目标用户进行训练时，通过在已有的语音数据集合中找到与目标用户说话风格最相似的语音数据对初始语音合成模型进行训练，得到目标语音合成模型，初始语音合成模型是多人语音合成模型，提升了多人语音合成模型的训练效率。

请参见图3，为本申请实施例提供的一种语音合成模型的训练方法的流程示意图。如图3所示，本申请实施例的所述方法可以包括以下步骤：

S301，获取目标用户的第一语音数据。

S302，基于说话人分类网络将第一语音数据进行处理得到多个第一特征向量，确定多个第一特征向量的特征向量均值。

一般的，第一语音数据是一个说话人的多条语音数据，说话人分类网络对一个说话人的每条语音数据进行处理，得到每条语音数据的第一特征向量，确定上述各个第一特征向量的均值。在说话人分类网络对语音数据进行处理之前，将语音数据转换成数字信号，对数字信号形式的语音数据进行分帧处理，进一步的，将数字信号转换为频域信号，将频域信号经过频谱图处理，再将经过频谱图处理的信号输入至说话人分类网络进行处理。

S303，基于说话人分类网络计算语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值。

一般的，语音数据集合中包括不同说话风格的说话人的语音数据，每个说话人的语音数据又包括多条语音数据，说话人分类网络对每一个说话人的每条语音数据进行处理，得到每条语音数据的第二特征向量，计算各个第二特征向量的均值。在说话人分类网络对语音数据进行处理之前，将语音数据转换成数字信号，对数字信号形式的语音数据进行分帧处理，进一步的，将数字信号转换为频域信号，将频域信号经过频谱图处理，再将经过频谱图处理的信号输入至说话人分类网络进行处理。

S304，在多个第二特征向量均值中确定与特征向量均值相似度最大的第二特征向量均值，将最大相似度值的第二特征向量均值对应的语音数据作为第二语音数据。

一般的，计算各个第二特征向量均值与特征向量均值的相似度值，确定最大相似度值，即找到了与目标用户说话风格最相似的语音数据。进一步的，将最大相似度值的第二特征向量均值对应的说话人的语音数据作为第二语音数据。

S305，创建样本文本数据集合和样本语音数据集合。

S306，对多个样本用户的样本文本数据进行编码处理得到音素特征。

S307，确定各个样本用户的语音数据对应的音色特征和情绪特征。

S308，基于音素特征、音色特征和情绪特征，得到各个样本用户的样本文本数据对应的梅尔频谱。

S309，计算各个样本用户的样本文本数据对应的梅尔频谱与各个样本用户的样本语音数据对应的梅尔频谱的损失值。

S310，在损失值小于或等于预设阈值时生成初始语音合成模型。

一般的，步骤S305~S310为初始语音合成模型的训练过程，基于多个说话人的样本文本数据和样本语音数据集合，进行训练得到初始语音合成模型。具体训练过程以样本文本数据C为例进行说明，首先，对样本文本数据C进行编码处理，包括音素嵌入、位置编码、快速傅里叶变换模块。音素嵌入的过程为：基于样本文本数据C提取发音序列，例如：“今天你吃饭了吗？”，其中，每一个词对应一个音素序列，即1-n个音素，例如：“你”、“吃”等各自对应其音素序列，经过查询音素表，将文本数据转换成一个音素序列，用过特征向量X表示，并对特征向量X进行转化，经过矩阵关系运算降维，转换成特征向量Y。然后是进行位置编码，基于向量计算，将文本数据的序列信息加入到特征向量Y中，以体现时间序列，得到特征向量Z。最后，经过快速傅里叶变换模块的处理，该模块是transformer前馈网络，包含attention机制（关注重要信息）、卷积层（需要训练参数的网络），经过该模块的处理计算，由特征向量Z得到特征向量G。

除了对样本文本数据C进行编码处理之外，还要对样本文本数据C对应的真人语音D进行处理，提取真人语音D的音色，得到一个特征向量P，另外，还有利用情绪提取网络，提取真人语音D的特征向量F。将特征向量P、特征向量F与特征向量G同时进行拼接或乘法等，得到特征向量U，使得运算后的向量包含音色特征和情绪特征。

进一步的，是解码阶段：首先进行位置编码，基于向量计算，把文本数据A的文本序列信息加入到特征向量V中，以体现时间序列，得到特征向量S；然后是快速傅里叶变换模块，经过该模块的处理计算，由特征向量S得到特征向量T；最后是经过线性层的处理，得到特征向量T对应的梅尔频谱α，与最初输入的真人语音D的梅尔频谱β进行比较，即将β作为比较的标签，计算损失值，根据损失值不断迭代训练上述的编码器和解码器，在损失值小于或等于预设阈值时，得到初始语音合成模型。

S311，基于第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。

一般的，基于S04得到的第二语音数据，由于每个语音数据对应一个说话人标识。在确定与目标用户说话风格最相似的第二语音数据之后，可以将第一语音数据对应的第一说话人标识更换为第二语音数据对应的第二说话人标识，基于更换说话人标识后的第一语音数据对初始语音合成模型进行训练，得到目标语音合成模型。

S312，获取目标用户的真人语音数据，基于目标语音合成模型对真人语音数据进行语音合成处理，得到目标用户的合成语音。

可以理解的，该步骤为目标语音合成模型的应用过程，对说话人进行语音合成，得到说话人的合成语音，语音合成处理过程可参见S311，在此不再赘述。

S313，基于语音信号参数对合成语音进行调整。

其中，语音信号参数包括音量、语速以及背景噪声中的一种或多种。

在一种可能的实施方式中，对于S312中的目标语音合成模型，可以根据真人语音数据中的多个说话人的音量，对合成语音中分别对应的多个说话人的音量进行归一化调整，使合成语音更具真实感。

在一种可能的实施方式中，对于S312中的目标语音合成模型，可以根据真人语音数据中多个说话人的语速，对合成语音中分别对应的多个说话人的语速进行归一化调整，使合成语音更具真实感。

在一种可能的实施方式中，对于S312中的目标语音合成模型，可以根据真人语音数据中的多个说话人的背景噪声，在每个说话人的合成语音中添加对应比例的背景噪声，使合成语音更具真实感。

除了上述的实施方式，还有一种可能的实施方式，是对合成语音进行上述三种参数调整处理，包括音量、语速以及背景噪声，使得最终得到的合成语音更具真实感。

请参见图4，为本申请实施例提供的一种语音合成模型的训练装置的结构示意图。该语音合成模型的训练装置400可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。装置400包括：

第一语音获取模块410，用于获取目标用户的第一语音数据；

第二语音获取模块420，用于基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据；

语音合成模块430，用于基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型。

可选地，第二语音获取模块420包括：

第一处理单元，用于基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量，确定所述多个第一特征向量的特征向量均值；

第二处理单元，用于基于所述说话人分类网络计算所述语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值；

第三处理单元，用于在多个第二特征向量均值中确定与所述特征向量均值相似度最大的第二特征向量均值；

第四处理单元，用于将所述最大相似度值的第二特征向量均值对应的语音数据作为第二语音数据。

可选地，语音合成模块430包括：

样本创建单元，用于创建样本文本数据集合和样本语音数据集合；

编码解码单元，用于对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱；

比较单元，用于计算所述各个样本用户的样本文本数据对应的梅尔频谱与所述各个样本用户的样本语音数据对应的梅尔频谱的损失值；

模型生成单元，用于在所述损失值小于或等于预设阈值时生成所述初始语音合成模型。

可选地，编码解码单元包括：

音素确定单元，用于对所述多个样本用户的样本文本数据进行编码处理得到音素特征向量；

音色确定单元，用于确定所述各个样本用户的语音数据对应的音色特征向量和情绪特征向量；

梅尔频谱生成单元，用于基于所述音素特征向量、音色特征向量和情绪特征向量，得到所述各个样本用户的样本文本数据对应的梅尔频谱。

可选地，音色确定单元包括：

第一情绪确定单元，用于对所述样本用户的语音数据进行情绪识别得到所述情绪特征向量；或

第二情绪确定单元，用于对基于所述样本文本数据中的情绪标识确定所述目标情绪特征。

可选地，装置400还包括：

第二语音合成模块，用于获取目标用户的真人语音数据，基于所述目标语音合成模型对所述真人语音数据进行语音合成处理，得到所述目标用户的合成语音。

可选地，装置400还包括：

合成语音处理单元，用于基于语音信号参数对所述合成语音进行调整；其中，所述语音信号参数包括音量、语速以及背景噪声中的一种或多种。

请参见图5，其示出了本申请实施例所涉及的一种电子设备的结构示意图，该电子设备可以用于实施上述实施例中语音合成模型的训练方法。具体来讲：

存储器520可用于存储软件程序以及模块，处理器590通过运行存储在存储器520的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端设备的使用所创建的数据（比如音频数据、电话本等）等。此外，存储520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器520还可以包括存储器控制器，以提供处理器590和输入单元530对存储器520的访问。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元530可包括触敏表面531（例如：触摸屏、触摸板或触摸框）。触敏表面531，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器590，并能接收处理器590发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(LiquidCrystalDisplay，液晶显示器)、OLED(OrganicLight-EmittingDiode,有机发光二极管)等形式来配置显示面板541。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器590以确定触摸事件的类型，随后处理器590根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面531与显示面板541集成而实现输入和输出功能。

处理器590是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。可选的，处理器590可包括一个或多个处理核心；其中，处理器590可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器590中。

具体在本实施例中，终端设备的显示单元是触摸屏显示器，终端设备还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现语音合成模型的训练方法的步骤。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述的方法步骤，具体执行过程可以参见图2和图3所示实施例的具体说明，在此不进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音合成模型的训练方法，其特征在于，所述方法包括：

获取目标用户的第一语音数据；

基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型；

其中，所述基于说话人分类网络在语音数据集合中确定与所述第一语音数据相似度最大的第二语音数据，包括：基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量，确定所述多个第一特征向量的特征向量均值；基于所述说话人分类网络计算所述语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值；在多个第二特征向量均值中确定与所述多个第一特征向量的特征向量均值相似度最大的第二特征向量均值；将所述相似度最大的第二特征向量均值对应的语音数据作为第二语音数据；

所述初始语音合成模型预先经过训练，其训练过程包括：创建样本文本数据集合和样本语音数据集合；对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱；计算所述各个样本用户的样本文本数据对应的梅尔频谱与所述各个样本用户的样本语音数据对应的梅尔频谱的损失值；在所述损失值小于或等于预设阈值时生成所述初始语音合成模型；

所述对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱，包括：对所述多个样本用户的样本文本数据进行编码处理得到音素特征；确定所述各个样本用户的语音数据对应的音色特征和情绪特征；基于所述音素特征、所述音色特征和所述情绪特征，得到所述各个样本用户的样本文本数据对应的梅尔频谱。

2.根据权利要求1所述的方法，其特征在于，所述确定所述各个样本用户的语音数据对应的情绪特征，包括：

对所述样本用户的语音数据进行情绪识别得到所述情绪特征；或

基于所述样本文本数据中的情绪标识确定所述情绪特征。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于所述真人语音数据的语音信号参数对所述合成语音进行调整；其中，所述语音信号参数包括音量、语速以及背景噪声中的一种或多种。

5.一种语音合成模型的训练装置，其特征在于，所述装置包括：

第一语音获取模块，用于获取目标用户的第一语音数据；

语音合成模块，用于基于所述第二语音数据对初始语音合成模型进行训练得到目标语音合成模型；

其中，所述第二语音获取模块，具体用于：基于所述说话人分类网络将所述第一语音数据进行处理得到多个第一特征向量，确定所述多个第一特征向量的特征向量均值；基于所述说话人分类网络计算所述语音数据集合包括的多种不同说话风格的语音数据各自对应的第二特征向量均值；在多个第二特征向量均值中确定与所述多个第一特征向量的特征向量均值相似度最大的第二特征向量均值；将所述相似度最大的第二特征向量均值对应的语音数据作为第二语音数据；

所述对所述样本文本数据集合包括的多个样本用户的样本文本数据进行编码解码处理得到各个样本用户的样本文本数据对应的梅尔频谱，具体用于：对所述多个样本用户的样本文本数据进行编码处理得到音素特征；确定所述各个样本用户的语音数据对应的音色特征和情绪特征；基于所述音素特征、所述音色特征和所述情绪特征，得到所述各个样本用户的样本文本数据对应的梅尔频谱。

6.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1~4任意一项的方法步骤。

7.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1~4任意一项的方法步骤。