CN113707122B

CN113707122B - 一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置

Info

Publication number: CN113707122B
Application number: CN202110916739.7A
Authority: CN
Inventors: 王睿敏; 孟凡博; 刘恺; 王砚峰
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2024-04-05
Anticipated expiration: 2041-08-11
Also published as: CN113707122A

Abstract

本发明实施例提供了一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置。其中的方法包括：从多人语音数据中选取音素覆盖完全的数据子集；将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，利用所述训练数据对多人语音合成模型进行自适应训练，得到所述目标说话人的单人语音合成模型。本发明实施例可以弥补目标说话人的单人语音数据音素覆盖不完全的问题，进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。

Description

一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置

技术领域

本发明涉及输入法技术领域，尤其涉及一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置。

背景技术

随着深度学习的发展，语音合成技术进入到端到端的发展阶段。端到端的语音合成模型能够基于输入的文本，直接输出与该文本对应的语音。语音合成技术广泛应用在智能问答、语音播报等场景中。

目前，可以先使用大量说话人的语音数据训练语音合成模型，再在训练完成的语音合成模型的基础上使用单个说话人的语音数据进行自适应训练，得到目标说话人音色的语音合成模型。

然而，单个说话人的语音数据量较小，很难发音全覆盖，将导致合成的语音出现发音错误或者发音不准确的情况。

发明内容

本发明实施例提供一种语音合成模型的构建方法、装置和用于语音合成模型的构建装置，可以弥补目标说话人的单人语音数据音素覆盖不完全的问题，进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。

为了解决上述问题，本发明实施例公开了一种语音合成模型的构建方法，所述方法包括：

从多人语音数据中选取音素覆盖完全的数据子集；

将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，利用所述训练数据对多人语音合成模型进行自适应训练，得到所述目标说话人的单人语音合成模型。

可选地，所述方法还包括：

对所述多人语音数据进行标注，得到第一输入数据，所述第一输入数据包括所述多人语音数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

提取所述每条语音数据的声学特征；

根据所述第一输入数据和所述声学特征，训练多人语音合成模型。

可选地，所述对所述多人语音数据进行标注，包括：

对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注，将所述文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。

可选地，所述第一输入数据还包括所述音素序列对应的语种序列，所述方法还包括：

对所述多人语音数据中的每条语音数据对应的音素序列进行语种识别，确定所述音素序列中每个音素对应的语种，得到每个音素序列对应的语种序列。

可选地，所述多人语音数据中包含M种音素，所述从多人语音数据中选取音素覆盖完全的数据子集，包括：

对于所述M种音素中的每个音素，从所述多人语音数据任意选择N条包含所述音素的语音数据，得到M*N条语音数据作为数据子集，且所述M*N的数据量小于所述目标说话人的单人语音数据的数据量；其中，M和N分别为正整数。

可选地，所述利用所述训练数据对多人语音合成模型进行自适应训练，包括：

获取第二输入数据，所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

将所述第二输入数据输入初始的单人语音合成模型，所述初始的单人语音合成模型为训练完成的多人语音合成模型；

将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器；

根据所述判别器输出的判别结果，计算所述单人语音合成模型的模型误差；

在每一轮训练中，通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数，当模型误差小于预设阈值时得到训练完成的单人语音合成模型。

可选地，所述生成对抗网络包括至少两个判别器，每个判别器对应不同的预设频带；所述将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器，包括：

将所述单人语音合成模型输出的预测声学特征，和所述第二输入数据对应的真实声学特征按照预设频带进行划分，得到各预设频带对应的预测声学特征和真实声学特征；

将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判别器；

所述根据所述判别器输出的判别结果，计算所述单人语音合成模型的模型误差，包括：

根据所述预测声学特征和所述真实声学特征，计算声学特征的均方误差；

根据每个判别器的判别结果分别计算每个判别器产生的生成误差和判别误差；

根据所述声学特征的均方误差和各判别器产生的生成误差，计算模型误差；

所述在每一轮训练中，通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数，包括：

在每一轮训练中，根据所述模型误差迭代更新所述单人语音合成模型的参数，以及根据各判别器的判别误差更新各判别器的参数。

另一方面，本发明实施例公开了一种语音合成模型的构建装置，所述装置包括：

子集确定模块，用于从多人语音数据中选取音素覆盖完全的数据子集；

模型训练模块，用于将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，利用所述训练数据对多人语音合成模型进行自适应训练，得到所述目标说话人的单人语音合成模型。

可选地，所述装置还包括：

第一数据确定模块，用于对所述多人语音数据进行标注，得到第一输入数据，所述第一输入数据包括所述多人语音数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

特征提取模块，用于提取所述每条语音数据的声学特征；

第一训练模块，用于根据所述第一输入数据和所述声学特征，训练多人语音合成模型。

可选地，所述第一数据确定模块，具体用于对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注，将所述文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。

可选地，所述第一输入数据还包括所述音素序列对应的语种序列，所述装置还包括：

语种识别模块，用于对所述多人语音数据中的每条语音数据对应的音素序列进行语种识别，确定所述音素序列中每个音素对应的语种，得到每个音素序列对应的语种序列。

可选地，所述多人语音数据中包含M种音素，所述子集确定模块具体用于：对于所述M种音素中的每个音素，从所述多人语音数据任意选择N条包含所述音素的语音数据，得到M*N条语音数据作为数据子集，且所述M*N的数据量小于所述目标说话人的单人语音数据的数据量；其中，M和N分别为正整数。

可选地，所述模型训练模块，包括：

第二数据确定子模块，用于获取第二输入数据，所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

数据输入子模块，用于将所述第二输入数据输入初始的单人语音合成模型，所述初始的单人语音合成模型为训练完成的多人语音合成模型；

对抗训练子模块，用于将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器；

误差计算子模块，用于根据所述判别器输出的判别结果，计算所述单人语音合成模型的模型误差；

参数更新子模块，用于在每一轮训练中，通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数，当模型误差小于预设阈值时得到训练完成的单人语音合成模型。

可选地，所述生成对抗网络包括至少两个判别器，每个判别器对应不同的预设频带；所述对抗训练子模块，包括：

频带划分单元，用于将所述单人语音合成模型输出的预测声学特征，和所述第二输入数据对应的真实声学特征按照预设频带进行划分，得到各预设频带对应的预测声学特征和真实声学特征；

参数输入单元，用于将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判别器；

所述误差计算子模块，包括：

第一误差计算单元，用于根据所述预测声学特征和所述真实声学特征，计算声学特征的均方误差；

第二误差计算单元，用于根据每个判别器的判别结果分别计算每个判别器产生的生成误差和判别误差；

第三误差计算单元，用于根据所述声学特征的均方误差和各判别器产生的生成误差，计算模型误差；

所述参数更新子模块，具体用于在每一轮训练中，根据所述模型误差迭代更新所述单人语音合成模型的参数，以及根据各判别器的判别误差更新各判别器的参数。

再一方面，本发明实施例公开了用于语音合成模型的构建装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如前述一个或多个所述语音合成模型的构建方法的指令。

又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音合成模型的构建方法。

本发明实施例包括以下优点：

本发明实施例在预先训练的多人语音合成模型的基础上，自适应训练目标说话人的单人语音合成模型。可以通过目标说话人少量的单人语音数据，训练得到目标说话人的单人语音合成模型，可以提高训练单人语音合成模型的效率，以及降低获取单人语音数据的成本。此外，本发明实施例在训练目标说话人的单人语音合成模型时，在目标说话人的单人语音数据的基础上，补充音素覆盖完全的数据子集作为训练数据，利用目标说话人的单人语音数据和所述数据子集组成的混合数据训练目标说话人的单人语音合成模型。由此，可以弥补目标说话人的单人语音数据音素覆盖不完全的问题，进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种语音合成模型的构建方法实施例的步骤流程图；

图2是本发明的一种语音合成模型的构建装置实施例的结构框图；

图3是本发明的用于语音合成模型的构建装置800的框图；

图4是本发明的一些实施例中服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

参照图1，示出了本发明的一种语音合成模型的构建方法实施例的步骤流程图，所述方法具体可以包括如下步骤：

步骤101、从多人语音数据中选取音素覆盖完全的数据子集；

步骤102、将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，利用所述训练数据对多人语音合成模型进行自适应训练，得到所述目标说话人的单人语音合成模型。

本发明实施例提供的语音合成模型的构建方法可应用于电子设备，所述电子设备包括但不限于：服务器、耳机、录音笔、家居智能终端(包括：空调、冰箱、电饭煲、热水器等)，商务智能终端(包括：可视电话、会议桌面智能终端等)，可穿戴设备(包括智能手表、智能眼镜等)，金融智能终端机，以及智能手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、车载设备、计算机等。

所述多人语音数据指多个说话人的语音数据。多个说话人可以是预先设定的某几个说话人或者某些说话人，比如张三、李四和王五等。如多人语音数据中包括张三的语音数据、李四的语音数据、王五的语音数据等。

所述多人语音合成模型可以预先利用多人语音数据训练得到。多人语音合成模型可以采用现有技术中任何一种已有的多说话人的语音合成模型。多说话人中的每个说话人在该多人语音合成模型中有一个对应的说话人标识。例如，多人语音合成模型是根据包括说话人标识为ID1、ID2、ID3、ID4、以及ID5的多人语音数据训练得到的，则在多人语音合成模型训练完成之后，输入说话人标识ID1以及某个文本，即可通过该多人语音合成模型输出说话人标识ID1对应的声音。同理，输入说话人标识ID2以及某个文本，即可通过该多人语音合成模型输出说话人标识ID2对应的声音，等等。

本发明实施例利用已训练的多人语音合成模型，自适应训练目标说话人的单人语音合成模型，并且为了解决目标说话人发音覆盖不完全的问题，在利用多人语音合成模型自适应训练目标说话人的单人语音合成模型的过程中，在目标说话人的单人语音数据的基础上，还引入音素覆盖完全的数据子集作为训练数据，利用目标说话人的单人语音数据和所述数据子集组成的混合数据训练目标说话人的单人语音合成模型。由此，本发明实施例在目标说话人的单人语音数据的基础上，补充音素覆盖完全的数据子集作为训练数据，可以弥补目标说话人的单人语音数据音素覆盖不完全的问题，进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。

需要说明的是，所述数据子集可以包括所述目标说话人之外的其他说话人的语音数据，且所述数据子集可以包括一个以上的其他说话人的语音数据。

一个示例中，在多人语音合成模型训练完成之后，假设需要训练目标说话人A(假设说话人标识为ID6)的单人语音合成模型。目标说话人A不会说儿化音，导致目标说话人A的单人语音数据的音素覆盖不完全(不能覆盖儿化音)。如果利用目标说话人A的单人语音数据对多人语音合成模型进行自适应训练，得到目标说话人A的单人语音合成模型，则利用该目标说话人A的单人语音合成模型进行语音合成时，不能发出儿化音或者儿化音发音不准或者发音错误。例如，该单人语音合成模型对文本“水管儿”中的“管儿”合成输出的发音为(guǎn)，或者发音不准或者发音错误，也即不能输出准确发音(guǎnr)。

为解决该问题，本发明实施例在利用目标说话人A的单人语音数据对多人语音合成模型进行自适应训练的过程中，额外增加音素覆盖完全的数据子集，将目标说话人A的单人语音数据和该数据子集组成的混合数据作为训练数据。该数据子集的音素覆盖完全(可以覆盖儿化音)，因此，可以弥补目标说话人的单人语音数据不能覆盖儿化音的问题，使得最终训练得到的目标说话人A的单人语音合成模型可以合成儿化音，进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。例如，利用混合数据训练得到的目标说话人A的单人语音合成模型，对文本“水管儿”中的“管儿”合成输出的发音为(guǎnr)，且输出声音为目标说话人A的声音。

通过本发明实施例，可以解决目标说话人的单人语音数据音素覆盖不完全的问题。例如，目标说话人不会说儿化音，或者目标说话人不会说英文，或者目标说话人不会说方言等。可以理解的是，上述儿化音、英文、方言导致的音素覆盖不完全仅作为一种应用示例，本发明实施例可以解决任意类型的音素覆盖不完全的问题，可以提高目标说话人的单人语音合成模型的鲁棒性。

在本发明的一种可选实施例中，所述方法还可以包括：

步骤S11、对所述多人语音数据进行标注，得到第一输入数据，所述第一输入数据包括所述多人语音数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

步骤S12、提取所述每条语音数据的声学特征；

步骤S13、根据所述第一输入数据和所述声学特征，训练多人语音合成模型。

在本发明实施例中，不论是多人语音合成模型，还是单人语音合成模型，其类型可以是任何一种基于神经网络的语音合成模型(例如Neural TTS模型等)，或者其他类似的语音合成模型例如端到端(End to End)语音合成标注等，本发明实施例对此不做限定。

所述多人语音合成模型可以采用现有技术中任何一种已有的多说话人的语音合成模型。首先对多人语音合成模型的训练过程进行简单说明。

根据所述多人语音数据可以生成多说话人的训练数据集，多说话人的训练数据集中可以包含多个不同说话人的训练数据，每个说话人的训练数据可以包含该说话人的语音数据和对应的文本信息，以及该说话人的语音数据对应的音素序列和声学特征。

在训练多人语音合成模型时，每个说话人对应一个说话人标识，假设多说话人的训练数据集中包括ID1～ID5这5个说话人的训练数据。训练多人语音合成模型时，首先确定第一输入数据。所述第一输入数据为用于训练多人语音合成模型时的输入数据。例如，该第一输入数据包括ID1～ID5这5个说话人标识、这5个说话人的每条语音数据对应的文本信息、以及这5个说话人的每条语音数据对应的音素序列。将第一输入数据输入初始的多人语音合成模型，该多人语音合成模型输出是这个5个说话人的声学特征。训练过程可以采用例如反向传播(BP，Back Propagation)算法等神经网络的训练方法实现。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。

在本发明的一种可选实施例中，所述对所述多人语音数据进行标注，可以包括：对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注，将所述文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。

在实际应用中，儿化音覆盖不完全是中文发音中常见的问题，为了进一步提高合成儿化音的发音质量，本发明实施例在训练多人语音合成模型的过程中，对所述多人语音数据进行标注时，对儿化音字符串进行特殊处理，将儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。

一个示例中，对于文本“说话儿”，其中包含儿化音字符串“话儿”，如果将“话儿”标注为音素“uar”，由于uar是一个单独的音素，如果目标说话人不会说儿化音，则该目标说话人的单人语音数据无法覆盖该音素。本发明实施例对儿化音字符串进行拆分，标注为包括非儿化音音素和儿化音标记的组合。例如，对于文本“说话儿”中的儿化音字符串“话儿”，标注为包括非儿化音音素“ua”和儿化音标记“rr”的组合。也即，对于文本“说话儿”，本发明实施例标注后得到的音素序列为“sh uo1 h ua4 rr”，而非“sh uo1 h uar4”。其中，“uar4”为带声调的儿化音素，“ua4”为带声调的非儿化音素，“rr”为儿化音标记。

在训练多人语音合成模型时，每个儿化音字符串在音素序列中被标注为包括非儿化音音素和儿化音标记的组合，如儿化音字符串被标注为“ua+rr”。一个示例中，如果目标说话人A不会说儿化音，那么说话人A的单人语音数据中“说话儿”没有发出“儿”的音，对目标说话人A的单人语音数据进行标注时，应将文本“话儿”标注为非儿化音音素“ua”。在训练目标说话人A的单人语音合成模型时，引入音素覆盖完全的数据子集，假设该数据子集包括另一个人说话人B的语音数据，说话人B是会说儿化音的，那么对说话人B的语音数据进行标注时，应将文本“话儿”标注为非儿化音音素“ua”和儿化音标记“rr”的组合，如“ua rr”。由于音素“ua”和“rr”都是常见音素，因此在利用目标说话人A的单人语音数据以及数据子集对多人语音合成模型进行自适应训练时，模型可以基于说话人A的音素“ua”和说话人B的音素“uarr”合成出说话人A的音素“uarr”。但是如果将说话人B的“话儿”标注为“uar”，那么模型难以由说话人B的“uar”推断合成出说话人A的“uar”。

本发明实施例通过在训练过程中，将儿化音字符串标注为包括非儿化音音素和儿化音标记的组合，可以提升目标说话人的单人语音合成模型合成输出儿化音的发音准确性。

在本发明的一种可选实施例中，所述第一输入数据还可以包括所述音素序列对应的语种序列，所述方法还可以包括：对所述多人语音数据中的每条语音数据对应的音素序列进行语种识别，确定所述音素序列中每个音素对应的语种，得到每个音素序列对应的语种序列。

在实际应用中，可能会出现多种语言混合表达的情况。以中文和英文混合表达为例，在使用中文进行表达的过程中，可以穿插使用英文词句。例如，“我买了最新款的iPhone”、“来一首Yesterday once more”。为了使得最终训练得到的单人语音合成模型可以准确输出多种语言混合表达的声学特征，本发明实施例在对所述多人语音数据进行标注时，对所述多人语音数据中的每条语音数据对应的音素序列进行语种识别，确定所述音素序列中每个音素对应的语种，得到每个音素序列对应的语种序列。

在具体实施中，由于不同语种的音素集不同，因此，每个音素唯一对应一种语种。例如，在中英混合表达的语音中存在一句话中同时包含中文语种和英文语种的情况。本发明实施例在对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注，得到每条语音数据对应的音素序列之后，对每个音素序列中的每个音素进行语种识别，标注每个音素对应的语种，得到每个音素序列对应的语种序列。

在训练多人语音合成模型时，将每个音素序列对应的语种序列也作为第一输入数据参与多人语音合成模型的训练。也即，所述第一输入数据可以包括：所述多人语音数据中每条语音数据对应的说话人标识、文本信息、音素序列、以及每个音素序列对应的语种序列。一个音素序列中可以包括多种语种。

通过本发明实施例，由于在单人语音合成模型的自适应训练过程中加入了音素覆盖完全的数据子集(如覆盖英文音素)，并且在第一输入数据中增加了语种序列表示音素和语种之间的对应关系，因此，即使单人语音数据中只包含中文，训练得到的单人语音合成模型也可以对中英混合表达的文本进行语音合成。

当然，上述中文和英文的混合表达仅作为一种应用示例，本发明对混合表达的语种类型和语种数量不做限制。进一步地，混合表达还可以包括普通话与方言的混合表达。

在本发明的一种可选实施例中，所述多人语音数据中包含M种音素，所述从多人语音数据中选取音素覆盖完全的数据子集，可以包括：对于所述M种音素中的每个音素，从所述多人语音数据任意选择N条包含所述音素的语音数据，得到M*N条语音数据作为数据子集，且所述M*N的数据量小于所述目标说话人的单人语音数据的数据量；其中，M和N分别为正整数。

本发明实施例在从多人语音数据中选取音素覆盖完全的数据子集时，可以依据一定的选取规则。一个示例中，所述选取规则可以为：音素集中的每个音素在数据子集中的出现次数不少于N次，并尽量减少数据子集中语音数据的数据量。其中N为预设的经验值。所述音素集指包含所有训练数据中出现过的音素的集合。

在具体实施中，音素集中包含的音素是固定的，如果一个数据子集中包含音素集中所有的音素，那么该数据子集就是“音素覆盖完全的数据子集”。

本发明实施例在训练单人语音合成模型时，同时使用目标说话人的单人语音数据和音素覆盖完全的数据子集。根据目标说话人的单人语音数据的数据量确定N值，使得数据子集中语音数据的数据量少于目标说话人的单人语音数据的数据量。

一个示例中，假设所述多人语音数据中总共包含10万条语音数据，将其随机打乱，依次循环音素集中的每个音素，从10万条语音数据中任意挑选N条包含该音素的数据。假设音素集中总共有M种音素，那么从10万条语音数据中挑选出M*N条作为数据子集，这个数据子集则是音素覆盖完全的数据子集。

引入音素覆盖完全的数据子集，可以解决目标说话人的单人语音数据音素覆盖不完全的问题，但是，如果在自适应训练阶段加入过多的其他说话人的语音数据，将会影响最终单人语音合成模型合成语音的韵律表现。因此，本发明实施例根据目标说话人的单人语音数据的数据量确定数据子集中语音数据的数据量，保证数据子集中语音数据的数据量少于目标说话人的单人语音数据的数据量，使得单人语音合成模型合成的语音更加符合目标说话人声音的韵律特征。

在本发明的一种可选实施例中，所述利用所述训练数据对多人语音合成模型进行自适应训练，可以包括：

步骤S21、获取第二输入数据，所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

步骤S22、将所述第二输入数据输入初始的单人语音合成模型，所述初始的单人语音合成模型为训练完成的多人语音合成模型；

步骤S23、将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器；

步骤S24、根据所述判别器输出的判别结果，计算所述单人语音合成模型的模型误差；

步骤S25、在每一轮训练中，通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数，当模型误差小于预设阈值时得到训练完成的单人语音合成模型。

所述第二输入数据为用于自适应训练单人语音合成模型时的输入数据。所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列。也即，所述第二输入数据包括目标说话人的单人语音数据中每条语音数据对应的说话人标识、文本信息、以及音素序列，以及所述数据子集中每条语音数据对应的说话人标识、文本信息、以及音素序列。

需要说明的是，对混合数据进行标注得到第二输入数据的过程，与对多人语音数据进行标注得到第一输入数据的过程类似，此处不再进行赘述。

可以理解的是，在对混合数据进行标注时，同样地，可以将文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。进一步地，所述第二输入数据中还可以包括所述混合数据中每条语音数据对应音素序列的语种序列。

在多人语音合成模型训练完成之后，可以将训练完成的多人语音合成模型作为初始的目标说话人的单人语音合成模型，在该多人语音合成模型的基础上，自适应训练目标说话人的单人语音合成模型。由此，通过目标说话人少量的单人语音数据，即可训练得到目标说话人的单人语音合成模型，可以提高训练单人语音合成模型的效率，以及降低获取单人语音数据的成本。

然而，基于多人语音合成模型自适应训练单人语音合成模型，可能会出现单人语音合成模型存在过平滑现象，体现在预测的频谱更趋向于均值，频谱较模糊，导致合成语音听起来比较闷。

为解决上述问题，本发明实施例在自适应训练单人语音合成模型的过程中，引入生成对抗网络(GAN，Generative Adversarial Networks)，以增大频谱的方差，使其分布更接近真实频谱，提高合成语音的音质。

生成对抗网络包括生成器G和判别器D。在模型训练过程中，D会接收真数据和G产生的假数据，D的任务是判断G产生的数据是属于真数据还是假数据。根据D的判别结果，可以同时对G和D的参数进行调优。如果D判断正确，那就需要调整G的参数从而使得生成的假数据更为逼真；如果D判断错误，则需调节D的参数，避免下次类似判断出错。训练会一直持续到G和D两者进入到一个均衡和谐的状态。

在本发明实施例中，将待训练的单人语音合成模型作为所述生成对抗网络的生成器。在所述单人语音合成模型根据第二输入数据输出预测声学特征后，将该预测声学特征和预先提取的真实声学特征输入判别器。根据判别器输出的判别结果，计算所述单人语音合成模型的模型误差；在每一轮训练中，通过所述模型误差迭代更新所述单人语音合成模型的参数和所述判别器的参数，当模型误差小于预设阈值时得到训练完成的单人语音合成模型。

一个示例中，假设利用目标说话人A的单人语音数据和音素覆盖完全的数据子集对多人语音合成模型进行自适应训练，以训练得到目标说话人A的单人语音合成模型。其中，数据子集中包括说话人B的语音数据和说话人C的语音数据。例如，在一轮训练中，将目标说话人A的说话人标识、目标说话人A的某条语音数据对应的文本信息、音素序列、以及语种序列输入初始的单人语音合成模型，通过该单人语音合成模型输出预测声学特征。将该预测声学特征和目标说话人A的该条语音数据的真实声学特征输入生成对抗网络的判别器，根据判别器输出的判别结果，计算该单人语音合成模型的模型误差，并根据该模型误差更新该单人语音合成模型(生成器)的参数和判别器的参数。

又如，在另一轮训练中，将数据子集中说话人B的说话人标识、说话人B的某条语音数据对应的文本信息、音素序列、以及语种序列输入正在训练的目标说话人A的单人语音合成模型，通过该单人语音合成模型输出预测声学特征。将该预测声学特征和说话人B的该条语音数据的真实声学特征输入生成对抗网络的判别器，根据判别器输出的判别结果，计算该单人语音合成模型的模型误差，并根据该模型误差更新该单人语音合成模型(生成器)的参数和判别器的参数。

在实际应用中，由于生成对抗网络存在调参繁琐、训练不稳定的问题，使得对合成频谱的增强难以达到稳定实用的水平。因此，本发明实施例对引入自适应训练过程中的生成对抗网络进行改进，设置多频带判别器。也即，在本发明实施例中，在自适应训练目标说话人的单人语音合成模型的过程中引入的生成对抗网络可以包括至少两个判别器，且每个判别器对应不同的预设频带。在本发明的一种可选实施例中，所述将所述单人语音合成模型输出的预测声学特征和所述第二输入数据对应的真实声学特征输入生成对抗网络的判别器，可以包括：

步骤S31、将所述单人语音合成模型输出的预测声学特征，和所述第二输入数据对应的真实声学特征按照预设频带进行划分，得到各预设频带对应的预测声学特征和真实声学特征；

步骤S32、将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判别器。

本发明实施例在自适应训练目标说话人的单人语音合成模型的过程中引入生成对抗网络，所述生成对抗网络包括至少两个预设频带的判别器。

在将第二输入数据输入所述初始的单人语音合成模型之后，将所述单人语音合成模型输出的预测声学特征，和所述第二输入数据对应的真实声学特征按照预设频带进行划分，得到各预设频带对应的预测声学特征和真实声学特征。将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判别器。每个判别器负责处理不同频带的声学特征。

待训练的单人语音合成模型作为生成对抗网络中的生成器。在该单人语音合成模型预测声学特征后，将预测的声学特征和真实的声学特征按照预设频带输入生成对抗网络中的各判别器，得到各判别器的判别结果。根据各判别器的判别结果以及预测的声学特征和真实的声学特征之间的误差，可以计算模型误差，分别使用梯度回传的方法更新该单人语音合成模型(生成器)的参数和各判别器的参数。

一个示例中，假设声学特征采用80维的MEL特征，维度从低到高分别代表语音中从低到高的不同频带，假设使用3个判别器，第一个判别器负责处理频带为1-40维的声学特征，第二个判别器负责处理频带为21-60维的声学特征，第三个判别器负责处理频带为41-80维的声学特征。这3个判别器中的每个判别器输入进了不同频带范围的声学特征。每个判别器分别判断输入的预测声学特征是否为真实声学特征，根据判别结果计算模型误差，并分别使用梯度回传的方法更新生成器的参数和各判别器的参数。

进一步地，所述根据所述判别器输出的判别结果，计算所述单人语音合成模型的模型误差，可以包括：

其中，声学特征的均方误差指自适应训练个人语音合成模型时，个人语音合成模型输出的预测声学特征和预先提取的真实声学特征的均方误差。例如，声学特征的均方误差＝(预测声学特征-真实声学特征)²。所述声学特征的均方误差用于表示个人语音合成模型(生成器)预测声学特征的准确度。

在将个人语音合成模型输出的预测声学特征和提取的真实声学特征分别输入判别器之后，判别器可以判断输入的预测声学特征是真实值(1)还是虚假值(0)；还可以判断输入的真实声学特征是真实值(1)还是虚假值(0)。根据判别器的判别结果可以计算得到两个误差，一个是判别器产生的生成误差，一个是判别器的判别误差。其中，判别器产生的生成误差是判别器输入预测声学特征时判别结果到1的距离。判别器产生的生成误差用于更新生成器的参数。判别器的判别误差是：判别器输入预测声学特征时判别结果到0的距离+判别器输入真实声学特征时判别结果到1的距离。判别器的判别误差用于更新判别器的参数。

一个示例中，模型误差＝声学特征的均方误差+各判别器产生的生成误差的和。根据该式计算的模型误差可以计算个人语音合成模型的参数的更新梯度，并更新个人语音合成模型的参数，以监督个人语音合成模型生成的声学特征分布更接近真实特征。

在具体实施中，由于在使用个人语音合成模型进行语音合成的过程中，不需要使用判别器，因此，在个人语音合成模型训练完成之后，可以保存个人语音合成模型(生成器)的参数，而不用保存判别器的参数。

进一步地，在目标说话人的个人语音合成模型训练完成之后，将目标说话人的说话人标识、目标文本、目标文本对应的音素序列、以及音素序列对应的语种序列输入该个人语音合成模型，可以通过该个人语音合成模型输出该目标用户声音的声学特征，然后再将该声学特征输入至预先训练的声码器中，由该声码器合成最终的目标音频。该目标音频的发音为所有音素发音准确的发音。

综上，本发明实施例在预先训练的多人语音合成模型的基础上，自适应训练目标说话人的单人语音合成模型。可以通过目标说话人少量的单人语音数据，训练得到目标说话人的单人语音合成模型，可以提高训练单人语音合成模型的效率，以及降低获取单人语音数据的成本。此外，本发明实施例在训练目标说话人的单人语音合成模型时，在目标说话人的单人语音数据的基础上，补充音素覆盖完全的数据子集作为训练数据，利用目标说话人的单人语音数据和所述数据子集组成的混合数据训练目标说话人的单人语音合成模型。由此，可以弥补目标说话人的单人语音数据音素覆盖不完全的问题，进而可以提高最终训练得到的目标说话人的单人语音合成模型的发音准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

装置实施例

参照图2，示出了本发明的一种语音合成模型的构建装置实施例的结构框图，所述装置可以包括：

子集确定模块201，用于从多人语音数据中选取音素覆盖完全的数据子集；

模型训练模块202，用于将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，利用所述训练数据对多人语音合成模型进行自适应训练，得到所述目标说话人的单人语音合成模型。

可选地，所述装置还包括：

特征提取模块，用于提取所述每条语音数据的声学特征；

可选地，所述模型训练模块，包括：

所述误差计算子模块，包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例提供了用于语音合成模型的构建装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：从多人语音数据中选取音素覆盖完全的数据子集；将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，利用所述训练数据对多人语音合成模型进行自适应训练，得到所述目标说话人的单人语音合成模型。

可选地，所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

提取所述每条语音数据的声学特征；

可选地，所述对所述多人语音数据进行标注，包括：

图3是根据一示例性实施例示出的用于语音合成模型的构建装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音信息处理模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以语音合成模型的构建装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频信息处理(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音合成模型的构建方法。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音合成模型的构建方法，所述方法包括：从多人语音数据中选取音素覆盖完全的数据子集；将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，利用所述训练数据对多人语音合成模型进行自适应训练，得到所述目标说话人的单人语音合成模型。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上对本发明所提供的一种语音合成模型的构建方法、一种语音合成模型的构建装置和用于语音合成模型的构建装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音合成模型的构建方法，其特征在于，所述方法包括：

从多人语音数据中选取音素覆盖完全的数据子集；

将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，获取第二输入数据，所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判别器；其中，所述判别器为至少两个且对应不同的预设频带；

根据所述预测声学特征和所述真实声学特征，计算声学特征的均方误差；根据每个判别器的判别结果分别计算每个判别器产生的生成误差和判别误差；根据所述声学特征的均方误差和各判别器产生的生成误差，计算模型误差；其中，所述判别器产生的生成误差用于更新生成器的参数，所述判别器的判别误差用于更新判别器的参数；

在每一轮训练中，根据所述模型误差迭代更新所述单人语音合成模型的参数，以及根据各判别器的判别误差更新各判别器的参数，当模型误差小于预设阈值时得到训练完成的所述目标说话人的单人语音合成模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述每条语音数据的声学特征；

3.根据权利要求2所述的方法，其特征在于，所述对所述多人语音数据进行标注，包括：

4.根据权利要求2所述的方法，其特征在于，所述第一输入数据还包括所述音素序列对应的语种序列，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述多人语音数据中包含M种音素，所述从多人语音数据中选取音素覆盖完全的数据子集，包括：

6.一种语音合成模型的构建装置，其特征在于，所述装置包括：

模型训练模块，用于将目标说话人的单人语音数据和所述数据子集组成的混合数据作为训练数据，获取第二输入数据，所述第二输入数据包括所述混合数据中每条语音数据对应的说话人标识、文本信息、以及音素序列；

参数输入单元，用于将所述各预设频带对应的预测声学特征和真实声学特征输入相应预设频带对应的判别器；其中，所述判别器为至少两个且对应不同的预设频带；

误差计算子模块，包括：

第三误差计算单元，用于根据所述声学特征的均方误差和各判别器产生的生成误差，计算模型误差；其中，所述判别器产生的生成误差用于更新生成器的参数，所述判别器的判别误差用于更新判别器的参数；

参数更新子模块，具体用于在每一轮训练中，根据所述模型误差迭代更新所述单人语音合成模型的参数，以及根据各判别器的判别误差更新各判别器的参数，当模型误差小于预设阈值时得到训练完成的所述目标说话人的单人语音合成模型。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

特征提取模块，用于提取所述每条语音数据的声学特征；

8.根据权利要求7所述的装置，其特征在于，所述第一数据确定模块，具体用于对所述多人语音数据中的每条语音数据对应的文本信息进行音素标注，将所述文本信息中的儿化音字符串标注为包括非儿化音音素和儿化音标记的组合。

9.根据权利要求7所述的装置，其特征在于，所述第一输入数据还包括所述音素序列对应的语种序列，所述装置还包括：

10.用于语音合成模型的构建装置，其特征在于，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1至5中任一所述的语音合成模型的构建方法的指令。

11.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至5中任一所述的语音合成模型的构建方法。