CN110288972B

CN110288972B - 语音合成模型训练方法、语音合成方法及装置

Info

Publication number: CN110288972B
Application number: CN201910723498.7A
Authority: CN
Inventors: 智鹏鹏; 杨嵩; 杨非; 刘子韬
Original assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Current assignee: Beijing Xintang Sichuang Educational Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2021-08-13
Anticipated expiration: 2039-08-07
Also published as: CN110288972A

Abstract

本发明实施例提供了一种语音合成模型训练方法、语音合成方法及装置，语音合成模型训练方法包括：获取对应于编码训练的汉字语句的第一字向量序列；利用编码模块对第一字向量序列进行编码，得到第一语言学编码特征；利用语言学特征解码模块对第一语言学编码特征进行语言学特征解码，获取语言学解码特征；根据语言学解码特征与参照语言学解码特征之间的语言学特征损失，调整语音合成模型的编码模块的模型参数，直至语言学特征损失满足语言学特征损失阈值，得到语音合成模型的训练后的编码模块。本发明实施例所提供的语音合成模型训练方法、语音合成方法及相关装置，可以降低语音合成的复杂性，同时提高编码器的训练准确度，进而保证合成的语音的效果。

Description

语音合成模型训练方法、语音合成方法及装置

技术领域

本发明实施例涉及计算机领域，尤其涉及一种语音合成模型训练方法、装置、设备及存储介质，以及一种语音合成方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，语音合成技术越来越受到人们的重视，利用语音合成技术和语音识别技术，一方面，计算机等设备可以生成人听得懂的口语，另一方面，可以听懂人说的话，从而可以实现人机语音通信。

为了实现语音合成，可以采用传统的参数语音合成方法，分为语言学特征预测、时长预测、声学特征预测等多个部分，需要对各个部分进行模型构建和训练，实现语音合成。

可以看出，上述方法，由于需要设计和训练多个模型，因此训练过程非常复杂，并且所得到的合成语音的效果也并不理想，音质平淡。

因此，如何降低语音合成的复杂性，同时提高编码器的准确度，进而保证合成的语音的效果，成为亟需解决的技术问题。

发明内容

本发明实施例解决的技术问题是提供一种语音合成模型训练方法、装置、设备及存储介质，以及一种语音合成方法、装置、设备及存储介质，以降低语音合成的复杂性，同时提高编码器的准确度，进而保证合成的语音的效果。

为解决上述问题，本发明实施例提供一种语音合成模型训练方法，包括：

获取对应于编码训练的汉字语句的第一字向量序列，所述第一字向量序列用于对所述语音合成模型的编码模块进行训练；

利用所述编码模块对所述第一字向量序列进行编码，得到第一语言学编码特征；

利用语言学特征解码模块对所述第一语言学编码特征进行语言学特征解码，获取语言学解码特征；

根据所述语言学解码特征与参照语言学解码特征之间的语言学特征损失，调整所述语音合成模型的编码模块的模型参数，直至所述语言学特征损失满足语言学特征损失阈值，得到所述语音合成模型的训练后的编码模块，其中，所述参照语言学解码特征与所述编码训练的汉字语句相对应

为解决上述问题，本发明实施例还提供一种语音合成方法，包括：

获取待语音合成的汉字语句的第三字向量序列；

利用如前述的语音合成模型训练方法得到的训练后的编码模块对所述第三字向量序列进行编码，得到第三语言学编码特征；

利用如前述的语音合成模型训练方法得到的训练后的语音特征解码模块对所述第三语言学编码特征进行解码，得到第三语音特征。

为解决上述问题，本发明实施例还提供一种语音合成模型训练装置，包括：

第一字向量序列获取单元，适于获取对应于编码训练的汉字语句的第一字向量序列，所述第一字向量序列用于对所述语音合成模型的编码模块进行训练；

第一语言学编码特征获取单元，适于利用所述编码模块对所述第一字向量序列进行编码，得到第一语言学编码特征；

语言学解码特征获取单元，适于利用语言学特征解码模块对所述第一语言学编码特征进行语言学特征解码，获取语言学解码特征；

训练后的编码模块获取单元，适于根据所述语言学解码特征与参照语言学解码特征之间的语言学特征损失，调整所述语音合成模型的编码模块的模型参数，直至所述语言学特征损失满足语言学特征损失阈值，得到所述语音合成模型的训练后的编码模块。

为解决上述问题，本发明实施例还提供一种语音合成装置，包括：

第三字向量序列获取单元，适于获取待语音合成的汉字语句的第三字向量序列；

第三语言学编码特征获取单元，适于利用如前述的语音合成模型训练方法得到的训练后的编码模块对所述第三字向量序列进行编码，得到第三语言学编码特征；

第三语音特征获取单元，适于利用如前述的语音合成模型训练方法得到的训练语音特征解码模块对所述第三语言学编码特征进行解码，得到第三语音特征。

为解决上述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述的语音合成模型训练方法。

为解决上述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于语音合成模型训练的程序，以实现如前述的语音合成模型训练方法。

为解决上述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述的语音合成方法。

为解决上述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于语音合成的程序，以实现如前述的语音合成方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的语音合成模型训练方法，根据训练的需要，基于汉字语句获取第一字向量序列，然后，利用待训练的语音合成模型的编码模块，对第一字向量序列进行编码，获取第一语言学编码特征，并对第一语言学编码特征进行语言学特征解码，获取语言学解码特征，利用语言学解码特征和参考语言学解码特征计算语言学特征损失，根据所述语言学特征损失调整所述编码模块的模型参数，当所得到的语言学特征损失满足语言学特征损失阈值时，从而可以得到语音合成模型的训练后的编码模块。这样，本发明实施例所提供的语音合成模型训练方法，在对语音合成模型的编码模块进行训练时，通过语言学特征解码模块进行了语言学特征解码，并参考语言学特征损失进行编码模块的模型参数调整，从而将汉语的语言学特征纳入到编码模块的训练中，使得训练后的编码模块在进行汉字语句的编码时，充分关注汉语的语言学特征，从而为后续的语音合成模型的语音特征解码模块的训练提供具有更充分的辨别力的汉字语句的语言学编码，进而也可以提高语音特征解码模块训练的准确性，并最终保证训练完成后的语音合成模型进行语音合成时的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，从而提高汉字语音合成的效果。

本发明实施例所提供的语音合成方法，利用经过本发明实施例所提供的语音合成模型训练方法训练后的编码模块对待语音合成的汉字语句的第三字向量序列进行编码，并利用经过本发明实施例所提供的语音合成模型训练方法训练后的语音特征解码模块对编码得到的第三语言学编码特征进行解码，得到第三语音特征，由于编码模块的训练过程充分利用了汉语的语言学特征，使得经编码模块编码的第三语言学编码特征中包含汉语的语言学特征，而语音特征解码模块的训练过程是基于经过训练的编码模块生成的数据，从而本发明实施例所提供的语音生成方法，可以保证语音合成的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，提高汉字语音合成的效果。

附图说明

图1是本发明实施例所提供的语音合成模型训练方法的编码模块训练的一流程示意图；

图2是本发明实施例所提供的语音合成模型训练方法的获取对应于编码训练的汉字语句的第一字向量序列步骤的一流程示意图；

图3是本发明实施例所提供的语音合成模型训练方法的语音特征解码模块训练的一流程示意图；

图4是本发明实施例所提供的语音合成方法的一种流程示意图；

图5是本发明实施例所提供的语音合成模型训练装置的一框图；

图6是本发明实施例所提供的语音合成模型训练装置的另一框图；

图7是本发明实施例所提供的语音合成装置的一框图；

图8示出了本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中，为了获得合成语音，需要构建并训练多个模型，语音合成的复杂性较高，并且合成的语音的效果较差。

在一种方法中，为了提高语音合成的效果，利用编码器-解码器模型构建端到端的语音合成模型，该模型能够实现端到端的语音合成，同时所得到的语音也更接近人声，有较好的合成效果。

然而，上述端到端的语音合成模型在进行汉语的合成时，由于汉语的特点和语言学结构的复杂性，导致所获得的合成汉语语音的效果较差。

为了在保证较低的语音合成的复杂性的基础上，提高合成的语音的效果，本发明实施例提供了一种语音合成模型训练方法、装置、设备及存储介质，以及一种语音合成方法、装置、设备及存储介质。

本发明实施例提供了一种语音合成模型训练方法，包括：获取对应于编码训练的汉字语句的第一字向量序列，所述第一字向量序列用于对所述语音合成模型的编码模块进行训练；利用所述编码模块对所述第一字向量序列进行编码，得到第一语言学编码特征；利用语言学特征解码模块对所述第一语言学编码特征进行语言学特征解码，获取语言学解码特征；根据所述语言学解码特征与参照语言学解码特征之间的语言学特征损失，调整所述语音合成模型的编码模块的模型参数，直至所述语言学特征损失满足语言学特征损失阈值，得到所述语音合成模型的训练后的编码模块，其中，所述参照语言学解码特征与所述编码训练的汉字语句相对应。

这样，本发明实施例所提供的语音合成模型训练方法，根据训练的需要，基于汉字语句获取第一字向量序列，然后，利用待训练的语音合成模型的编码模块，对第一字向量序列进行编码，获取第一语言学编码特征，并对第一语言学编码特征进行语言学特征解码，获取语言学解码特征，利用语言学解码特征和参考语言学解码特征计算语言学特征损失，根据所述语言学特征损失调整所述编码模块的模型参数，当所得到的语言学特征损失满足语言学特征损失阈值时，从而可以得到语音合成模型的训练后的编码模块。

从而，本发明实施例所提供的语音合成模型训练方法，在对语音合成模型的编码模块进行训练时，通过语言学特征解码模块进行了语言学特征解码，并参考语言学特征损失进行编码模块的模型参数调整，从而将汉语的语言学特征纳入到编码模块的训练中，使得训练后的编码模块在进行汉字语句的编码时，充分关注汉语的语言学特征，从而为后续的语音合成模型的语音特征解码模块的训练提供具有更充分的辨别力的汉字语句的语言学编码，进而也可以提高语音特征解码模块训练的准确性，并最终保证训练完成后的语音合成模型进行语音合成时的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，从而提高汉字语音合成的效果。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可以理解的是，本发明实施例所提供的语音合成模型训练方法包括对于语音合成模型的编码模块训练和语音特征解码模块训练，请参考图1，图1是本发明实施例所提供的语音合成模型训练方法的编码模块训练的一流程示意图。

如图中所示，本发明实施例所提供的语音合成模型训练方法包括以下步骤：

步骤S10：获取对应于编码训练的汉字语句的第一字向量序列，所述第一字向量序列用于对所述语音合成模型的编码模块进行训练。

为了进行语音合成模型的训练，需要获取汉字语句，然后将汉字语句输入至本发明实施例所提供语音合成模型训练方法所要训练的语音合成模型，利用语音合成模型对所述汉字语句进行处理，获取第一字向量序列，为后续的训练做好准备。

在一种具体实施方式中，所述第一字向量序列为对应汉字语句的各个汉字的向量序列，字向量是一个one-hot向量，为方便理解，以下以“我今天坐公交车”为例进行说明：比如，每个字向量为一个512维的向量，那么对应“我今天坐公交车”这一汉字语句的字向量序列即为7个512维的向量序列。

当然，所得到的第一字向量序列用于对所述语音合成模型的编码模块进行训练。

具体地，请参考图2，本发明实施例还提供了一种第一字向量序列的流程，图2是本发明实施例所提供的语音合成模型训练方法的获取对应于编码训练的汉字语句的第一字向量序列步骤的一流程示意图。

步骤100：获取对应于编码训练的汉字语句的第一汉字序列。

为了实现语音合成，在语音合成前，首先构建与汉字对应的汉字特征库，构建完成的汉字特征库就像字典一样，在进行语音合成或者语音合成模型的训练时，获得汉字语句后，可以从汉字特征库中查找出对应的汉字特征，在一种具体实施方式中，汉字特征库可以对应4600个汉字，则每个汉字所对应的汉字特征为4600维的向量，具体地，汉字特征也可以为one-hot向量。

第一汉字序列即为按照汉字的顺序依次排列的与汉字个数相同的4600维向量。

那么，对应于“我今天坐公交车”这一汉字语句的第一汉字序列即为7个依次排列的4600维的向量序列。

步骤S101：对所述第一汉字序列进行字符嵌入，得到所述第一字向量序列。

得到第一汉字序列后，再对第一汉字序列进行字符嵌入，通过字嵌入算法可以对第一汉字序列进行降维，进而得到第一字向量序列。

这样，一方面可以减小对汉字进行特征表示所占用的空间，降低成本；另一方面，还可以对语音信息进行进一步的加工，为后续的处理做好准备。

得到第一字向量序列后，进一步对其进行处理：

步骤S11：利用所述编码模块对所述第一字向量序列进行编码，得到第一语言学编码特征。

可以理解的是，编码模块可以为U-Net卷积神经网络的encoder-decoder模型(编码器-解码器结构)的encoder模块，在一种具体实施例中，encoder模块可以包含3层卷积层和1层LSTM层(Long Short-Term Memory；长短期记忆网络)，以满足对第一字向量序列的编码要求。

其中，LSTM是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，从而可以更好地关注上下文的信息，保证编码的准确性。

第一语言学编码特征中包含对于汉字的发音、词性、停顿、断句等相关信息，为后续的解码提供基础。

步骤S12：利用语言学特征解码模块对所述第一语言学编码特征进行语言学特征解码，获取语言学解码特征。

得到第一语言学编码特征后，为了对编码模块进行训练，本发明实施例而专门设置的语言学特征解码模块，进行语言学特征解码，利用该语言学特征解码模块对第一语言学编码特征进而得到语言学解码特征。

具体地，为了保证对于汉语语音合成后的发音正确性、停顿正确性以及结束的及时性，在对第一语言学编码特征进行语言学特征解码时，获得的语言学解码特征包括音素向量序列、分词标记向量序列和停止标记向量。

其中，音素向量序列也是一个由多个one-hot向量组成的向量序列，具体one-hot向量包括表示每个音素的向量，表示不同汉字间隔的字间隔标记向量、表示不同词语间隔的词间隔标记向量以及表示不同标点符号的标点标记向量。比如：“我们。”这句话用音素向量序列表示即为：“w”的字母向量、“o3”的音素向量(3表示声调为3声)、字间隔标记向量、“m”的字母向量、“en5”的字母向量(5表示声调为轻声)以及“。”的标点标记向量，从而通过音素向量序列，就可以知道字的发音、词的间隔以及不同标点(标点的不同会对应不同的停顿时间)。

分词标记向量序列也是一个由多个one-hot向量组成的向量序列，具体one-hot向量包括表示一个词语的开始的B(begin)向量、表示一个词语的中间的M(middle)向量、表示一个词语的结束的E(end)向量、以及表示一个词语为单字词语的S(single)向量。比如，“我今天坐公交车”用分词标记向量序列表示，则为S向量、B向量、E向量、S向量、B向量、M向量和E向量，所反映的分词结果是“我|今天|坐|公交车”。通过分词标记向量序列，可以使得对于句子的分词更为准确，提高合成语音的韵律准确性。

停止标记向量则是一个01向量，在一种具体实施方式中，如果一句话未结束用0表示，则从结束的位置开始则用1表示，在其他实施方式中，也可以一句话未结束用1表示，从结束的位置开始用0表示。这样，停止标记向量可以避免在一句话结束后长时间的处于无声音的状态。

可见，当语言学解码特征包括音素向量序列、分词标记向量序列和停止标记向量时，可以充分地获取经过编码所得到的第一语言学编码特征对于音素、分词以及停止标记等方面的编码信息，而在后续的解码过程中以及参数调整过程中，是基于音素向量序列、分词标记向量序列和停止标记向量进行联合训练调参，充分保证编码模块对于上述信息的编码的准确性。

为了进一步提高对编码模块训练的准确性，并保证最终语音合成的效果，在另一种具体实施方式中，所述语言学解码特征还可以包括词性标记向量序列，在训练过程中，基于音素向量序列、分词标记向量序列、停止标记向量以及词性标记向量序列联合训练调参。

其中，词性标记向量序列也是一个由多个one-hot向量组成的向量序列，主要用于标识汉语语句中不同词的词性，即：名词、动词、形容词、代词等等，其中词性标记向量序列中所包含的词性标记向量的数量与汉字的数量相同，位于同一个词中的不同字用相同的词性标记向量标识，从而辅助进行分词，进而辅助对于编码模块的训练，也进一步提高合成后语音韵律的正确性。例如，“我|今天|坐|公交车”中的“公交车”是一个名词，在词性标记向量序列中，针对“公”这个字用名词词性标记向量标识，“交”和“车”可以直接复制“公”这个字的名词词性标识向量，使得词性标记向量的数量与汉字的数量相同。

当然，在另一种具体实施方式中，所述语言学解码特征还可以包括词向量序列，词向量也是one-hot向量，将属于同一个词的不同字用同一个词向量进行标识，从而可以从另一个角度保证分词的准确性，并提高对于编码模块训练的准确性，标识方式类似于上述词性标记向量的标识方式。

当然，为了保证解码的准确性，所述语言学特征解码模块为具有位置敏感注意力机制的解码器，提高对关键信息的关注度。

步骤S13：根据所述语言学解码特征和参照语言学解码特征计算语言学特征损失。

得到各语言学解码特征后，利用最小化全局损失的原则，对语音合成模型的编码模块进行训练，可以理解的是，全局损失为前述各个语言学解码特征与对应的参照语言学解码特征的损失的加权和。

其中，音素向量序列、分词标记向量序列、停止标记向量和词性标记向量序列的损失可以通过交叉熵损失函数进行获取；词向量序列的损失可以通过均方误差损失函数进行获取。

另外，参照语言学解码特征可以利用前述的对应于编码训练的汉字语句的现有语料标注。

具体地，对于音素向量序列、分词标记向量序列和词性标记向量序列各自的参照语言学解码特征，可以通过各自不同的线性变换投影，然后进行softmax函数(归一化指数函数)激活获取。

对于词向量序列的参照语言学解码特征，可以通过线性变换投影，然后进行线性激活的方式获取。

而对于停止标记向量的参照语言学解码特征，可以通过将LSTM输出和注意上下文向量串联向下投影到标量，然后通过Sigmoid函数(被用作神经网络的阈值函数，将变量映射到0,1之间)激活，利用Tacotron2中使用的相同架构进行获取。

在一种具体实施方式中，各个语言学解码特征与对应的参照语言学解码特征的损失的权重可以相等。

通过计算各个语言学解码特征与对应的参照语言学解码特征的损失的加权和，得到语言学特征损失。

步骤S14：判断所述语言学特征损失是否满足语言学特征损失阈值，其中，所述参照语言学解码特征与所述编码训练的汉字语句相对应，若满足，则执行步骤S15，若不满足，则执行步骤S16。

得到语言学特征损失后，将语言学特征损失与语言学特征损失阈值进行比较，判断是否满足语言学特征损失阈值。

步骤S15：得到所述语音合成模型的训练后的编码模块。

如果语言学特征损失满足语言学特征损失阈值，经过编码模块和语言学特征解码模块所得到的各个语言学解码特征的准确度满足要求，即编码模块的编码准确度也满足要求，从而得到训练后的编码模块。

步骤S16：根据所述语言学特征损失调整所述语音合成模型的编码模块的模型参数，得到模型参数调整后的编码模块。

如果语言学特征损失不满足语言学特征损失阈值，则需要对语音合成模型的编码模块的模型参数进行调整，得到模型参数调整后的编码模块，然后继续利用模型参数调整后的编码模块再次进行编码，执行步骤S11-步骤S14，直至语言学特征损失满足语言学特征损失阈值。

可以看出，本发明实施例所提供的语音合成模型训练方法，在对语音合成模型的编码模块进行训练时，通过语言学特征解码模块进行了语言学特征解码，并参考语言学特征损失进行编码模块的模型参数调整，从而将汉语的语言学特征纳入到编码模块的训练中，使得训练后的编码模块在进行汉字语句的编码时，充分关注汉语的语言学特征，从而为后续的语音合成模型的语音特征解码模块的训练提供具有更充分的辨别力的汉字语句的语言学编码，进而也可以提高语音特征解码模块训练的准确性，并最终保证训练完成后的语音合成模型进行语音合成时的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，从而提高汉字语音合成的效果。

当然，为了保证汉字语音合成的效果，在一种具体实施方式中，在得到训练好的编码模块后，还需要进一步对语音合成模型的语音特征解码模块进行训练，请参考图3，图3是本发明实施例所提供的语音合成模型训练方法的语音特征解码模块训练的一流程示意图。

步骤S20：获取对应于解码训练的汉字语句的第二字向量序列，所述第二字向量序列用于对所述语音合成模块的语音特征解码模块进行训练。

可以理解的是，对应于解码训练的汉字语句的第二字向量序列可以与前述的第一字向量序列相同，而为了提高训练的精度，也可以使第二字向量序列与第一字向量序列不同。

步骤S20的具体内容可以参考图1的步骤S10，在此不再赘述。

步骤S21：利用所述训练后的编码模块对所述第二字向量序列进行编码，得到第二语言学编码特征。

得到第二字向量序列后，利用已经训练后的编码模块对其进行编码，以获取得二语音学编码特征。

步骤S21的具体内容可以参考图1的步骤S11，在此不再赘述。

步骤S22：利用所述语音特征解码模块对所述第二语言学编码特征进行解码，得到语音特征。

利用语音合成模型的语音特征解码模块，对第二语言学编码特征进行解码，以便后续通过对解码得到的语音特征的损失计算对语音特征解码模块进行训练。

当然语音特征解码模块可以为U-Net结构的encoder-decoder模型的decoder模块，在一种具体实施例中，语音特征解码模块也可以为具有位置敏感注意力机制的语音特征解码器，主要分为三部分：pre-net、Attention-RNN、Decoder-RNN。

步骤S23：根据所述语音特征和参照语音特征计算语音损失。

通过解码得到语音特征后，利用参照语音特征获取解码所得的语音特征的语音损失，以了解解码得到的语音特征的准确性。

在一种具体实施方式中，所述语音特征可以为梅尔频谱。

步骤S24：判断所述语音损失是否满足语音损失阈值，若是，则执行步骤S25，若否，则执行步骤S26；其中，所述参照语音特征与所述解码训练的汉字语句相对应。

步骤S25：得到所述语音合成模型的训练后的语音特征解码模块。

由于经过对于编码模块的训练，编码模块的准确度已经训练好，如果得到的语音损失满足语音损失阈值，那么说明语音特征解码模块的准确度也已经满足要求，从而得到训练后的语音特征解码模块。

步骤S26：根据所述语音损失调整所述语音合成模型的语音特征解码模块的模型参数，得到模型参数调整后的语音特征解码模块。

如果语音损失不满足语言损失阈值，则需要对语音合成模型的语音特征解码模块的模型参数进行调整，得到模型参数调整后的语音特征解码模块，然后继续利用模型参数调整后的语音特征解码模块再次进行解码，执行步骤S21-步骤S24，直至语音损失满足语音损失阈值。

这样，本发明实施例所提供的语音合成模型的训练方法，通过语言学特征解码模块进行了语言学特征解码，从而将汉语的语言学特征纳入到编码模块的训练中，使得训练后的编码模块在进行汉字语句的编码时，充分关注汉语的语言学特征，而在对语音合成模型的语音特征解码模块的训练时，基于已经训练后的编码模块，提供具有更充分的辨别力的汉字语句的语言学编码，可以提高语音特征解码模块训练的准确性，从而保证训练完成后的语音合成模型进行语音合成时的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，提高汉字语音合成的效果。

为了解决前述问题，本发明实施例还提供一种语音合成方法，以实现编码准确性、解码准确性以及汉字语音合成的效果，具体请参考图4，图4是本发明实施例所提供的语音合成方法的一种流程示意图。

如图中所示，本发明实施例所提供的语音合成方法，包括：

步骤S30：获取待语音合成的汉字语句的第三字向量序列。

步骤S30的具体内容可以参考图1的步骤S10，在此不再赘述。

步骤S31：利用训练后的编码模块对所述第三字向量序列进行编码，得到第三语言学编码特征。

得到第三字向量序列后，利用已经训练后的编码模块对其进行编码，以获取得三语音学编码特征。

步骤S31的具体内容可以参考图1的步骤S11，在此不再赘述。

步骤S32：利用训练后的语音特征解码模块对所述第三语言学编码特征进行解码，得到第三语音特征。

得到第三语言学编码特征后，利用已经训练后的语音特征解码模块对其进行解码，得到第三语音特征。

步骤S32的具体内容可以参考图3的步骤S22，在此不再赘述。

利用经过本发明实施例所提供的语音合成模型训练方法训练后的编码模块对待语音合成的汉字语句的第三字向量序列进行编码，并利用经过本发明实施例所提供的语音合成模型训练方法训练后的语音特征解码模块对编码得到的第三语言学编码特征进行解码，得到第三语音特征，由于编码模块的训练过程充分利用了汉语的语言学特征，使得经编码模块编码的第三语言学编码特征中包含汉语的语言学特征，而语音特征解码模块的训练过程是基于经过训练的编码模块生成的数据，从而本发明实施例所提供的语音生成方法，可以保证语音合成的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，提高汉字语音合成的效果。

进一步地，为了使第三语音特征最终转化为语音，在一种具体实施方式中，本发明实施例所提供的语音合成方法，还包括：

步骤S33：对所述第三语音特征进行音频合成，得到与所述待语音合成的汉字语句对应的所述语音。

具体地，可以利用griffin-lim或wavnet声码器对所述第三语音特征进行音频合成，最终得到合成后的语音。

下面对本发明实施例提供的语音合成模型训练装置和语音合成装置进行介绍，下文描述的语音合成模型训练装置和语音合成装置可以认为是，电子设备(如：PC)为分别实现本发明实施例提供的语音合成模型训练方法和语音合成方法所需设置的功能模块架构。下文描述的语音合成模型训练装置和语音合成装置的内容，可分别与上文描述的语音合成模型训练方法和语音合成方法的内容相互对应参照。

图5是本发明实施例所提供的语音合成模型训练装置的一框图，该语音合成模型训练装置即可应用于客户端，也可应用于服务器端，参考图5，该语音合成模型训练装置可以包括：

第一字向量序列获取单元100，适于获取对应于编码训练的汉字语句的第一字向量序列，所述第一字向量序列用于对所述语音合成模型的编码模块进行训练；

第一语言学编码特征获取单元110，适于利用所述编码模块对所述第一字向量序列进行编码，得到第一语言学编码特征；

语言学解码特征获取单元120，适于利用语言学特征解码模块对所述第一语言学编码特征进行语言学特征解码，获取语言学解码特征；

训练后的编码模块获取单元130，适于根据所述语言学解码特征与参照语言学解码特征之间的语言学特征损失，调整所述语音合成模型的编码模块的模型参数，直至所述语言学特征损失满足语言学特征损失阈值，得到所述语音合成模型的训练后的编码模块。

为了进行语音合成模型的训练，需要获取汉字语句，然后将汉字语句输入至本发明实施例所提供语音合成模型训练装置所要训练的语音合成模型，利用语音合成模型对所述汉字语句进行处理，获取第一字向量序列，为后续的训练做好准备。

第一字向量序列获取单元100，适于获取对应于编码训练的汉字语句的第一字向量序列，所述第一字向量序列用于对所述语音合成模型的编码模块进行训练，具体包括：获取对应于编码训练的汉字语句的第一汉字序列；对所述第一汉字序列进行字符嵌入，得到所述第一字向量序列。

第一字向量序列获取单元100得到第一汉字序列后，再对第一汉字序列进行字符嵌入，通过字嵌入算法可以对第一汉字序列进行降维，进而得到第一字向量序列。

第一语言学编码特征获取单元110得到第一语言学编码特征后，语言学解码特征获取单元120利用为了进行编码模块训练而专门设置的语言学特征解码模块，进行语言学特征解码，进而得到语言学解码特征。

具体地，为了保证对于汉语语音合成后的发音正确性、停顿正确性以及结束的及时性，在对第一语言学编码特征进行语言学特征解码时，可以获取音素向量序列、分词标记向量序列和停止标记向量。

其中，音素向量序列也是一个由多个one-hot向量组成的向量序列，具体one-hot向量包括表示每个音素的向量，表示不同汉字间隔的字间隔标记向量、表示不同词语间隔的词间隔标记向量以及表示不同标点符号的标点标记向量。比如：“我们。”这句话用音素向量序列表示即为：“w”的字母向量、“o3”的音素向量(3表示声调为3声)、字间隔标记向量、“m”的字母向量、“en5”的字母向量(5表示声调为轻声)以及“。”的标点标记向量，从而通过音素向量序列，就可以知道字的发音、词的间隔以及不同标点(标点的不同会对应不同的停顿时间)。分词标记向量序列也是一个由多个one-hot向量组成的向量序列，具体one-hot向量包括表示一个词语的开始的B(begin)向量、表示一个词语的中间的M(middle)向量、表示一个词语的结束的E(end)向量、以及表示一个词语为单字词语的S(single)向量。比如，“我今天坐公交车”用分词标记向量序列表示，则为S向量、B向量、E向量、S向量、B向量、M向量和E向量，所反映的分词结果是“我|今天|坐|公交车”。通过分词标记向量序列，可以使得对于句子的分词更为准确，提高合成语音的韵律准确性。

得到各语言学解码特征后，训练后的编码模块获取单元130利用最小化全局损失的原则，对语音合成模型的编码模块进行训练，可以理解的是，全局损失为前述各个语言学解码特征与对应的参照语言学解码特征的损失的加权和。

具体地，对于音素向量序列、分词标记向量序列和词性标记向量序列各自的参照语言学解码特征，

可以通过各自不同的线性变换投影，然后进行softmax函数(归一化指数函数)激活获取。

然后，训练后的编码模块获取单元130判断所述语言学特征损失是否满足语言学特征损失阈值，其中，所述参照语言学解码特征与所述编码训练的汉字语句相对应，若满足，得到所述语音合成模型的训练后的编码模块；若不满足，则根据所述语言学特征损失调整所述语音合成模型的编码模块的模型参数，得到模型参数调整后的编码模块。

如果语言学特征损失不满足语言学特征损失阈值，则需要对语音合成模型的编码模块的模型参数进行调整，直至语言学特征损失满足语言学特征损失阈值。

可以看出，本发明实施例所提供的语音合成模型训练装置，在对语音合成模型的编码模块进行训练时，通过语言学特征解码模块进行了语言学特征解码，并参考语言学特征损失进行编码模块的模型参数调整，从而将汉语的语言学特征纳入到编码模块的训练中，使得训练后的编码模块在进行汉字语句的编码时，充分关注汉语的语言学特征，从而为后续的语音合成模型的语音特征解码模块的训练提供具有更充分的辨别力的汉字语句的语言学编码，进而也可以提高语音特征解码模块训练的准确性，并最终保证训练完成后的语音合成模型进行语音合成时的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，从而提高汉字语音合成的效果。

为了实现对于语音合成模型的语音特征解码模块的训练，在另一种具体实施方式中，请参考图6，图6是本发明实施例所提供的语音合成模型训练装置的另一框图；本发明实施例所提供的语音合成模型训练装置还包括：

第二字向量序列获取单元200，适于获取对应于解码训练的汉字语句的第二字向量序列，所述第二字向量序列用于对所述语音合成模块的语音特征解码模块进行训练；

第二语言学编码特征获取单元210，适于利用所述训练后的编码模块对所述第二字向量序列进行编码，得到第二语言学编码特征；

语音特征获取单元220，适于利用所述语音特征解码模块对所述第二语言学编码特征进行解码，得到语音特征；

训练后的语音特征解码模块获取单元230，适于根据所述语音特征与参照语音特征之间的语音损失，调整所述语音合成模型的语音特征解码模块的模型参数，直至所述语音损失满足语音损失阈值，得到所述语音合成模型的训练后的语音特征解码模块，其中，所述参照语音特征与所述解码训练的汉字语句相对应。

从而，本发明实施例所提供的语音合成模型的训练装置，通过语言学特征解码模块进行了语言学特征解码，从而将汉语的语言学特征纳入到编码模块的训练中，使得训练后的编码模块在进行汉字语句的编码时，充分关注汉语的语言学特征，而在对语音合成模型的语音特征解码模块的训练时，基于已经训练后的编码模块，提供具有更充分的辨别力的汉字语句的语言学编码，可以提高语音特征解码模块训练的准确性，从而保证训练完成后的语音合成模型进行语音合成时的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，提高汉字语音合成的效果。

当然，本发明实施例还提供一种语音合成装置，请参考图7，图7是本发明实施例所提供的语音合成装置的一框图，包括：

第三字向量序列获取单元300，适于获取待语音合成的汉字语句的第三字向量序列；

第三语言学编码特征获取单元310，适于利用前述的语音合成模型训练方法得到的训练后的编码模块对所述第三字向量序列进行编码，得到第三语言学编码特征；

第三语音特征获取单元320，适于利用前述的语音合成模型训练方法得到的训练后的语音特征解码模块对所述第三语言学编码特征进行解码，得到第三语音特征。

在另一种具体实施方式中，还可以包括：音频合成单元，适于对所述第三语音特征进行音频合成，得到与所述待语音合成的汉字语句对应的所述语音。

本发明实施例所提供的语音合成装置，利用经过本发明实施例所提供的语音合成模型训练方法训练后的编码模块对待语音合成的汉字语句的第三字向量序列进行编码，并利用经过本发明实施例所提供的语音合成模型训练方法训练后的语音特征解码模块对编码得到的第三语言学编码特征进行解码，得到第三语音特征，由于编码模块的训练过程充分利用了汉语的语言学特征，使得经编码模块编码的第三语言学编码特征中包含汉语的语言学特征，而语音特征解码模块的训练过程是基于经过训练的编码模块生成的数据，从而本发明实施例所提供的语音生成方法，可以保证语音合成的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，提高汉字语音合成的效果。

当然，本发明实施例还提供一种装备，本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的语音合成模型训练方法或者语音合成方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图8示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的语音合成模型训练方法或者语音合成方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的语音合成模型训练方法或者语音合成方法。

本发明实施例中，电子设备可以是能够进行语音合成模型训练的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图8所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需，本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，当该指令被处理器执行时可以实现如上所述语音合成模型训练方法或者语音合成方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令，当实现语音合成模型训练方法时，通过语言学特征解码模块进行了语言学特征解码，并参考语言学特征损失进行编码模块的模型参数调整，从而将汉语的语言学特征纳入到编码模块的训练中，使得训练后的编码模块在进行汉字语句的编码时，充分关注汉语的语言学特征，从而为后续的语音合成模型的语音特征解码模块的训练提供具有更充分的辨别力的汉字语句的语言学编码，进而也可以提高语音特征解码模块训练的准确性，并最终保证训练完成后的语音合成模型进行语音合成时的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，从而提高汉字语音合成的效果。

本发明实施例所提供的存储介质所存储的计算机可执行指令，当实现语音合成方法时，利用经过本发明实施例所提供的语音合成模型训练方法训练后的编码模块对待语音合成的汉字语句的第三字向量序列进行编码，并利用经过本发明实施例所提供的语音合成模型训练方法训练后的语音特征解码模块对编码得到的第三语言学编码特征进行解码，得到第三语音特征，由于编码模块的训练过程充分利用了汉语的语言学特征，使得经编码模块编码的第三语言学编码特征中包含汉语的语言学特征，而语音特征解码模块的训练过程是基于经过训练的编码模块生成的数据，从而本发明实施例所提供的语音生成方法，可以保证语音合成的正确率，减少发音错误、停顿错误以及声调错误等等错误现象发生的概率，提高汉字语音合成的效果。

上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及，否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外，本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中，并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是，所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式，或者可在提交本申请之后的修改中作为新的权利要求包括。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音合成模型训练方法，其特征在于，包括：

利用语言学特征解码模块对所述第一语言学编码特征进行语言学特征解码，获取语言学解码特征，所述语言学解码特征包括音素向量序列、分词标记向量序列和停止标记向量；

根据所述语言学解码特征与参照语言学解码特征之间的语言学特征损失，调整所述语音合成模型的编码模块的模型参数，直至所述语言学特征损失满足语言学特征损失阈值，得到所述语音合成模型的训练后的编码模块，其中，所述参照语言学解码特征与所述编码训练的汉字语句相对应。

2.如权利要求1所述的语音合成模型训练方法，其特征在于，还包括：

获取对应于解码训练的汉字语句的第二字向量序列，所述第二字向量序列用于对所述语音合成模块的语音特征解码模块进行训练；

利用所述训练后的编码模块对所述第二字向量序列进行编码，得到第二语言学编码特征；

利用所述语音特征解码模块对所述第二语言学编码特征进行解码，得到语音特征；

根据所述语音特征与参照语音特征之间的语音损失，调整所述语音合成模型的语音特征解码模块的模型参数，直至所述语音损失满足语音损失阈值，得到所述语音合成模型的训练后的语音特征解码模块，其中，所述参照语音特征与所述解码训练的汉字语句相对应。

3.如权利要求2所述的语音合成模型训练方法，其特征在于，所述语言学解码特征还包括词性标记向量序列和/或词向量序列。

4.如权利要求1-3任一项所述的语音合成模型训练方法，其特征在于，所述语言学特征解码模块为具有位置敏感注意力机制的语言学特征解码器。

5.如权利要求1-3任一项所述的语音合成模型训练方法，其特征在于，所述获取对应于编码训练的汉字语句的第一字向量序列的步骤包括：

获取对应于编码训练的汉字语句的第一汉字序列；

对所述第一汉字序列进行字符嵌入，得到所述第一字向量序列。

6.一种语音合成方法，其特征在于，包括：

获取待语音合成的汉字语句的第三字向量序列；

利用如权利要求1-5任一项所述的语音合成模型训练方法得到的训练后的编码模块对所述第三字向量序列进行编码，得到第三语言学编码特征；

利用如权利要求2-5任一项所述的语音合成模型训练方法得到的训练后的语音特征解码模块对所述第三语言学编码特征进行解码，得到第三语音特征。

7.如权利要求6所述的语音合成方法，其特征在于，还包括：

对所述第三语音特征进行音频合成，得到与所述待语音合成的汉字语句对应的语音。

8.一种语音合成模型训练装置，其特征在于，包括：

9.如权利要求8所述的语音合成模型训练装置，其特征在于，还包括：

第二字向量序列获取单元，适于获取对应于解码训练的汉字语句的第二字向量序列，所述第二字向量序列用于对所述语音合成模块的语音特征解码模块进行训练；

第二语言学编码特征获取单元，适于利用所述训练后的编码模块对所述第二字向量序列进行编码，得到第二语言学编码特征；

语音特征获取单元，适于利用所述语音特征解码模块对所述第二语言学编码特征进行解码，得到语音特征；

训练后的语音特征解码模块获取单元，适于根据所述语音特征与参照语音特征之间的语音损失，调整所述语音合成模型的语音特征解码模块的模型参数，直至所述语音损失满足语音损失阈值，得到所述语音合成模型的训练后的语音特征解码模块，其中，所述参照语音特征与所述解码训练的汉字语句相对应。

10.一种语音合成装置，其特征在于，包括：

第三语言学编码特征获取单元，适于利用如权利要求1-5任一项所述的语音合成模型训练方法得到的训练后的编码模块对所述第三字向量序列进行编码，得到第三语言学编码特征；

第三语音特征获取单元，适于利用如权利要求2-5任一项所述的语音合成模型训练方法得到的训练后的语音特征解码模块对所述第三语言学编码特征进行解码，得到第三语音特征。

11.一种存储介质，其特征在于，所述存储介质存储有适于语音合成模型训练的程序，以实现如权利要求1-5任一项述的语音合成模型训练方法。

12.一种设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-5任一项所述的语音合成模型训练方法。

13.一种存储介质，其特征在于，所述存储介质存储有适于语音合成的程序，以实现如权利要求6或7所述的语音合成方法。

14.一种设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求6或7所述的语音合成方法。