CN111583913B

CN111583913B - 语音识别和语音合成的模型训练方法、装置和计算机设备

Info

Publication number: CN111583913B
Application number: CN202010543542.9A
Authority: CN
Inventors: 徐泓洋; 太荣鹏; 温平
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-11-03
Anticipated expiration: 2040-06-15
Also published as: CN111583913A

Abstract

本申请涉及的语音识别和语音合成的模型训练方法，包括：获取音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量，获取文本处理网络处理第一数据对的文本数据输出的第二高维向量；通过损失函数在训练集上训练音频处理网络和文本处理网络至训练收敛；训练收敛后，固定音频处理网络对应的第一参量集合以及文本处理网络对应的第二参量集合；第一参量集合和第二参量集合下，训练文本恢复网络和音频恢复网络至收敛；将音频处理网络和文本恢复网络，依次组合连接得到语音识别的声学预训练模型，将文本处理网络和音频恢复网络，依次组合连接得到语音合成的声学预训练模型。节省模型构建、训练成本。

Description

语音识别和语音合成的模型训练方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到语音识别和语音合成的模型训练方法、装置和计算机设备。

背景技术

“语音识别”和“语音合成”是成对偶关系的两个“序列到序列”的预测任务，可采用encoder-decoder框架来建模。由于“语音识别”和“语音合成”的训练数据不通用，现有的语音识别系统只是做到了将语音信息对齐到文本信息的单向映射，语音合成也是只做到了将文本信息对齐到语音信息的单向映射。由于序列的多样性，每一个单向映射系统规模都非常大，且训练系统时所需的数据量也非常大，因此每个单向映射系统的构建和训练成本都非常高，不利于“语音识别”和“语音合成”系统的普遍推广使用。

发明内容

本申请的主要目的为提供语音识别和语音合成的模型训练方法，旨在解决现有单向映射系统的构建和训练成本都非常高，不利于“语音识别”和“语音合成”系统的普遍推广使用的技术问题。

本申请提出一种语音识别和语音合成的模型训练方法，所述模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述方法包括：

获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量，获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述第一数据对为训练集中的任意数据对；

通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

训练收敛后，固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合；

将所述音频处理网络和所述音频恢复网络组合成处理音频的网络，将所述文本处理网络和所述文本恢复网络组合成处理文本的网络；

在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络至收敛，以获取所述音频恢复网络对应的第三参量集合，在固定所述第二参量集合的状态下，通过所述损失函数训练所述处理文本的网络至收敛，以获取所述文本恢复网络对应的第四参量集合；

将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型，将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型。

优选地，所述音频处理网络包括依次连接的第一CNN-RNN计算层以及第一全连接层，所述获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量的步骤，包括：

从所述语音数据中提取声学特征得到声学特征矩阵，从所述语音数据中提取声纹信息；

将所述声学特征矩阵输入所述第一CNN-RNN计算层，得到所述语音数据对应的第一计算结果；

从所述第一计算结果中去除掉所述声纹信息，得到所述语音数据对应的第二计算结果；

将所述第二计算结果输入所述第一全连接层，得到所述第一全连接层输出的第一高维向量。

优选地，所述文本处理网络包括依次连接的第二CNN-RNN计算层以及第二全连接层，所述获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量的步骤，包括：

从所述文本数据中提取语音学特征，得到所述文本数据对应的特征矩阵；

将所述文本数据对应的特征矩阵输入所述第二CNN-RNN计算层，得到所述文本数据对应的第三计算结果；

将所述第三计算结果输入所述第二全连接层，得到所述第二全连接层输出的第二高维向量。

优选地，所述通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛的步骤，包括：

通过所述训练数据集最小化所述损失函数；

判断所述损失函数的函数值的变化趋势是否不再继续下降；

若是，则判定所述损失函数达最小值，判定所述第一高维向量和第二高维向量在高维空间的对齐。

优选地，所述文本恢复网络包括依次连接的第三全连接层和第一RNN-DECNN计算层，所述将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型的步骤之后，包括：

在所述第一RNN-DECNN计算层的输出端连接第一分类器，组成自动语音识别系统；

获取所述自动语音识别系统当前待执行的第一任务的任务场景特征；

根据所述第一任务的任务场景特征，选择与所述第一任务的任务场景特征匹配的指定数据集；

通过在所述指定数据集上对所述自动语音识别系统进行再训练至收敛，得到所述自动语音识别系统调整后的参数集合；

通过调整参数集合后的所述自动语音识别系统，执行所述第一任务。

优选地，所述音频恢复网络包括依次连接的第四全连接层和第二RNN-DECNN计算层，所述将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型的步骤之后，包括：

在所述第二RNN-DECNN计算层的输出端，依次连接第二分类器和声码器，组成语音合成系统；

获取所述语音合成系统当前待执行的第二任务的任务场景特征；

根据所述第二任务的任务场景特征，选择与所述第二任务的任务场景特征匹配的特定数据集；

通过在所述特定数据集上对所述语音合成系统进行再训练至收敛，得到所述语音合成系统调整后的参数集合；

通过调整参数集合后的所述语音合成系统，执行所述第二任务。

优选地，所述第二任务包括拟合特定用户的声纹信息，所述通过调整参数集合后的所述语音合成系统，执行所述第二任务的步骤，包括：

获取所述第二任务对应的指定文本序列；

将所述指定文本序列输入调整参数集合后的所述语音合成系统，得到所述指定文本序列对应的指定音频序列；

从声纹信息数据库调取与所述特定用户的声纹信息；

将所述指定音频序列与所述特定用户的声纹信息进行声音合成，得到所述指定文本序列对应于所述特定用户的语音。

本申请还提供了一种语音识别和语音合成的模型训练装置，所述模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述装置包括：

第一获取模块，用于获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量，获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述第一数据对为训练集中的任意数据对；

第一训练模块，用于通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

固定模块，用于训练收敛后，固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合；

第一组合模块，用于将所述音频处理网络和所述音频恢复网络组合成处理音频的网络，将所述文本处理网络和所述文本恢复网络组合成处理文本的网络；

第二训练模块，用于在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络至收敛，以获取所述音频恢复网络对应的第三参量集合，在固定所述第二参量集合的状态下，通过所述损失函数训练所述处理文本的网络至收敛，以获取所述文本恢复网络对应的第四参量集合；

第二组合模块，用于将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型，将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过使用的是“由已推已”的训练思路，预训练形成的双向对齐模型，双向推导出对偶任务语音识别和语音合成中的原始数据，建立执行对偶任务语音识别和语音合成的网络模型系统，节省了语音识别和语音合成的网络模型系统的构建和训练成本，模型训练效果也得到提升。

附图说明

图1本申请一实施例的语音识别和语音合成的模型训练方法流程示意图；

图2本申请一实施例的语音识别和语音合成的模型结构示意图；

图3本申请一实施例的语音识别和语音合成的模型训练装置结构示意图；

图4本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的语音识别和语音合成的模型训练方法，所述模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述方法包括：

S1：获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量，获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述第一数据对为训练集中的任意数据对；

S2：通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

S3：训练收敛后，固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合；

S4：将所述音频处理网络和所述音频恢复网络组合成处理音频的网络，将所述文本处理网络和所述文本恢复网络组合成处理文本的网络；

S5：在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络至收敛，以获取所述音频恢复网络对应的第三参量集合，在固定所述第二参量集合的状态下，通过所述损失函数训练所述处理文本的网络至收敛，以获取所述文本恢复网络对应的第四参量集合；

S6：将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型，将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型。

本申请的语音识别和语音合成的模型网络，包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，训练时分两个阶段进行，先通过标注的“语音-文本”数据对组成的训练集，训练音频处理网络和文本处理网络通过“语音-文本”的向量距离作为损失函数建立联络的预训练网络结构，使同一数据对的语音和文本在高维空间实现向量对齐。然后确定此时的音频处理网络和文本处理网络分别对应的参量集合，并在此参量集合的前提下，通过音频处理网络和音频恢复网络组成处理音频的网络，文本处理网络和文本恢复网络组合成处理文本的网络。处理音频的网络和处理文本的网络也同在“语音-文本”的向量距离作为损失函数下进行训练，因为损失函数相同，可同步进行训练，以分别确定音频恢复网络和文本恢复网络的参量集合。上述的音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，均已训练好后，可将训练好的音频处理网络和文本恢复网络依次组合，形成语音识别的声学预训练模型，将文本处理网络和音频恢复网络，依次组合连接得到语音合成的声学预训练模型，实现一个大的网络结构中同时实现语音识别和语音合成，节约网络构建成本。

本申请为实现上述“由己推己”的解码思路下共存的语音识别和语音合成系统，为每一部分的功能网络设计了网络结构。上述功能网络包括“音频处理网络”、“文本处理网络”、“音频恢复网络”和“文本恢复网络”，每个部分的功能网络采用C-RNN的结构实现数据处理，结构如图2所示。图中的左上的黑色矩形框组成的网络为“音频处理网络”，右上白色矩形框组成的网络为“文本处理网络”，左下白色矩形框组成的网络为“音频恢复网络”，右下黑色矩形框组成的网络为“文本恢复网络”。整个大网络的训练分两步进行，训练输入的数据是经过前端模块处理后的“音频-文本”数据对，本申请不对前端模块作任何限定，根据实际需要进行选择和匹配，能获得满足训练需求的数据对即可。

训练处理音频的网络和处理文本的网络时，由于音频处理网络和文本处理网络的参数集合固定，本阶段的训练主要是调整音频恢复网络和文本恢复网络的参量集合。处理文本的网络，其输入、输出都为文本数据；处理音频的网络，其输入、输出都为语音数据，损失函数依然均是“语音-文本”的向量距离作为损失函数。由于处理文本的网络和处理音频的网络，其损失函数一致，故两个网络可同步训练，以节约训练时间成本，训练收敛后即获得音频恢复网络和文本恢复网络的参量集合。

本申请的网络训练过程中，使用的是“由已推已”的训练思路，预训练形成的双向对齐模型，双向推导出对偶任务语音识别和语音合成中的原始数据，建立执行对偶任务语音识别和语音合成的网络模型系统，节省了语音识别和语音合成的网络模型系统的构建和训练成本，模型训练效果也得到提升。预训练可基于大量的训练数据得到参数集合，但预训练的训练数据与实际任务的训练数据相似但不要求完全一致。上述音频处理网络和文本处理网络通过“语音-文本”的向量距离作为损失函数建立联络的预训练网络结构，即为双向对齐模型。通过将对偶任务的双向输入数据在高维空间进行向量对齐，确定双向输入数据在双向对齐模型的关联在一起的存在状态。本申请编码器输出的高维向量为一种中间状态向量，实现输入数据投射到高维空间的过程，然后由恢复网络从高维空间上恢复出输入数据，实现“由己推己”的解码思路，节省模型构建与模型训练成本。本申请将成对偶关系的两个任务各自的中间状态向量在高维空间上进行对齐，即输入数据投射到高维空间上的同一个向量或相似的两个向量，然后通过上述的同一个向量或相似的两个向量，搭建起两种输入数据之间的关联关系。再分别基于中间状态向量构建逆向的恢复网络，包括音频恢复网络和文本恢复网络，以实现双向的推导，将传统的“由彼推己”的解码思路换成“由己推己”的解码思路，对执行对偶任务的网络模型系统的训练效果更好，对于数据量不足的部分预测效果也会得到改善。

因为传统的“由彼推己”的解码思路中，是强制建立数据之间的关系，需要数据量必须大，对于数据量不足的部分，其解码效果往往很有限；即使数据量足够，由于是强制建立的对应关系，中间会有信息不匹配和信息丢失的情况，解码效果本身就存在上限。而且单向模型只实现单个方向的映射关系，构建单向Sequence-2-Sequence模型，网络复杂且参数的数量大，训练需要的训练集的数据量也大。比如在机器翻译中，需要大量的双语对照训练数据，在构建中英互转模型时，首先用数据训练一个中文到英文的模型，然后再训练一个英文到中文的模型，训练数据可以复用，但是需要训练两个模型。但一个任务的数据无法直接在对偶任务中使用时，几乎要花同等的代价去构建其对偶的模型。比如语音识别和语音合成。由于训练数据的不通用，需要收集两套训练数据来分别训练语音识别模型和语音合成模型，成本更高。即便将两个对偶的网络模型联合起来用一套训练数据同时训练，比如通过合并成对偶关系的两个任务的损失函数，添加对偶约束条件，将两个网络联合起来训练，但也只对数据类型通用的对偶任务有效，且训练时消耗的资源更多，训练速度也较慢，耗时长，效果也不佳。

进一步地，所述音频处理网络包括依次连接的第一CNN-RNN计算层以及第一全连接层，所述获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量的步骤S1，包括：

S11：从所述语音数据中提取声学特征得到声学特征矩阵，从所述语音数据中提取声纹信息；

S12：将所述声学特征矩阵输入所述第一CNN-RNN计算层，得到所述语音数据对应的第一计算结果；

S13：从所述第一计算结果中去除掉所述声纹信息，得到所述语音数据对应的第二计算结果；

S14：将所述第二计算结果输入所述第一全连接层，得到所述第一全连接层输出的第一高维向量。

本申请的音频处理网络输入的是语音数据对应的特征矩阵或特征序列，输出的为高维空间的特征向量。首先从语音数据中提取声学特征，包括但不限于频谱特征、FBank特征或者MFCC特征等，将语音数据转化为特征矩阵，得到声学特征矩阵audio_feature。在音频处理网络的输入端输入声学特征矩阵，经过音频处理网络的CNN-RNN的网络计算，然后从计算结果中再减去声纹信息，经由全连接层输出代表“中间状态”的高维特征向量Vector1。上述声纹信息可通过声纹提取网络预先提取得到。

进一步地，所述文本处理网络包括依次连接的第二CNN-RNN计算层以及第二全连接层，所述获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量的步骤S1，包括：

S101：从所述文本数据中提取语音学特征，得到所述文本数据对应的特征矩阵；

S102：将所述文本数据对应的特征矩阵输入所述第二CNN-RNN计算层，得到所述文本数据对应的第三计算结果；

S103：将所述第三计算结果输入所述第二全连接层，得到所述第二全连接层输出的第二高维向量。

本申请的文本处理网络输入的是文本数据对应的特征矩阵或特征序列，输出的为高维空间的特征向量。首先从文本数据中提取语音学特征，也就是将文本数据中的字符通过向量表达，将文本数据转化为特征矩阵，得到文本特征矩阵text_feature。文本处理网络输入文本特征矩阵，经过文本处理网络的CNN-RNN的网络计算，经由全连接层输出代表“中间状态”的高维特征向量Vector2。

进一步地，所述通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛的步骤S2，包括：

S21：通过所述训练数据集最小化所述损失函数；

S22：判断所述损失函数的函数值的变化趋势是否不再继续下降；

S23：若是，则判定所述损失函数达最小值，判定所述第一高维向量和第二高维向量在高维空间的对齐。

本申请训练音频处理网络和文本处理网络组成的网络结构的阶段中，输入数据为标注的“语音-文本”数据对。如图，左侧音频处理网络输入语音数据对应的特征矩阵或特征序列，右侧文本处理网络输入文本数据对应的特征矩阵或特征序列，左侧音频处理网络和右侧文本处理网络分别输出的“中间状态”一一对应为Vector1和Vector2, 训练过程的损失函数为Vector1和Vector2的距离MSE，通过训练时在训练集上逐步最小化距离MSE，损失函数的函数值不再继续下降，指稳定于趋近于零的某一较小值，使模型训练收敛，即有:audio_net(audio_feature)≈txt_net(txt_feature)，其中，audio_net为处理音频的网络，txt_net为处理文本的网络，两者输出一致或近似相等时，则认为上述两个高维向量在高维空间实现对齐。然后固定音频处理网络和文本处理网络的参量集合，以固定映射中的关联关系，确保可从“中间状态”的对齐向量恢复至原始数据，即语音数据和文本数据的特征矩阵或特征序列。

进一步地，所述文本恢复网络包括依次连接的第三全连接层和第一RNN-DECNN计算层，所述将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型的步骤S6之后，包括：

S601：在所述第一RNN-DECNN计算层的输出端连接第一分类器，组成自动语音识别系统；

S602：获取所述自动语音识别系统当前待执行的第一任务的任务场景特征；

S603：根据所述第一任务的任务场景特征，选择与所述第一任务的任务场景特征匹配的指定数据集；

S604：通过在所述指定数据集上对所述自动语音识别系统进行再训练至收敛，得到所述自动语音识别系统调整后的参数集合；

S605：通过调整参数集合后的所述自动语音识别系统，执行所述第一任务。

本申请的文本恢复网络包括依次连接的全连接层和RNN-DECNN计算层。训练过程中，与文本处理网络相连，实现从“中间状态”的对齐向量，经文本恢复网络全连接层处理，再经由RNN-DECNN恢复文本数据的特征，即可实现从“中间状态”的对齐向量恢复至原始数据，即文本数据的特征矩阵或特征序列，实现“由己推己”的解码思路，提高网络训练效果。

在模型应用过程中，将图2中黑色矩形框从左到右，按照箭头方向（包括虚线箭头）依次组合，得到语音识别系统的声学预训练模型，然后在声学预训练模型的最后输出端加上ctc或者普通分类器，组成一个完整的ASR系统 (Automatic Speech Recognition,自动语音识别)。通过使用具体应用场景的专属数据集，即上述指定数据集对上述声学预训练模型进行fine_tune，当ASR系统在指定数据集上训练收敛后，即可得到应用于上述具体应用场景的ASR系统。本申请的解码端的训练方法，是先将文本数据的特征编码到高维空间，再从高维空间恢复出来文本数据的特征，“由己推己”，相较于单向模型的“由彼推己”的方法，更加合理，所以模型效果更好。

上述fine_tune指微调自动语音识别系统，使得自动语音识别系统更适合执行具体应用场景的任务。微调时，可通过较少得数据量实现，相比于预训练过程，训练集的数据特征更集中，数据集的数量也要远小于预训练数据。本申请基于预训练的双向对齐模型，使用少量具体应用场景的数据进行fine-tune，即可获得执行该具体应用场景的自动语音识别系统，极大地节约了模型训练的成本，且提高了训练模型的执行效果。

进一步地，所述音频恢复网络包括依次连接的第四全连接层和第二RNN-DECNN计算层，所述将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型的步骤S6之后，包括：

S61：在所述第二RNN-DECNN计算层的输出端，依次连接第二分类器和声码器，组成语音合成系统；

S62：获取所述语音合成系统当前待执行的第二任务的任务场景特征；

S63：根据所述第二任务的任务场景特征，选择与所述第二任务的任务场景特征匹配的特定数据集；

S64：通过在所述特定数据集上对所述语音合成系统进行再训练至收敛，得到所述语音合成系统调整后的参数集合；

S65：通过调整参数集合后的所述语音合成系统，执行所述第二任务。

本申请的音频恢复网络包括依次连接的全连接层和RNN-DECNN计算层。训练过程中，与音频处理网络相连，实现从“中间状态”的对齐向量，经音频恢复网络全连接层处理，加上声纹信息，再经由RNN-DECNN恢复语音数据的声学特征，即可实现从“中间状态”的对齐向量恢复至原始数据，即语音数据的特征矩阵或特征序列，实现“由己推己”的解码思路，提高网络训练效果。

在模型应用过程中，将图2中白色矩形框从左到右，按照箭头方向（包括虚线箭头）依次组合，得到语音合成系统的声学预训练模型，然后在声学预训练模型的最后输出端加上分类器和声码器，就组成一个完整TTS（Text To Speech,语音合成）系统，使机器可模仿某个人物说话。通过使用具体应用场景的专属数据集，即上述特定数据集对上述声学预训练模型进行fine_tune，当TTS系统在特定数据集上训练收敛后，即可得到应用于上述具体应用场景的TTS系统。本申请的解码端的训练方法，是先将语音数据的特征编码到高维空间，再从高维空间恢复出来语音数据的特征，“由己推己”，相较于单向模型的“由彼推己”的方法，更加合理，所以模型效果更好。上述fine_tune指微调语音合成系统，过程和效果同微调自动语音识别系统，不赘述。

进一步地，所述第二任务包括拟合特定用户的声纹信息，所述通过调整参数集合后的所述语音合成系统，执行所述第二任务的步骤S65，包括：

S651：获取所述第二任务对应的指定文本序列；

S652：将所述指定文本序列输入调整参数集合后的所述语音合成系统，得到所述指定文本序列对应的指定音频序列；

S653：从声纹信息数据库调取与所述特定用户的声纹信息；

S654：将所述指定音频序列与所述特定用户的声纹信息进行声音合成，得到所述指定文本序列对应于所述特定用户的语音。

本申请的语音合成系统，可实现根据获取的声纹信息进行不同的变声处理，使语音处理功能更丰富。本申请的语音合成系统需要模仿某个特定用户说话时，需要先录几段改特定用户的说话声音，以通过声纹提取网络提取其声纹信息，以便在合成语音的时候将该声纹信息加入，使输出的语音贴近于该特定用户。本申请的声纹信息可通过关联的声纹信息数据库获取。上述声纹信息数据库，通过分别采集多个指定用户发出的多句语音信息，并从多句语音信息中提取出多个指定用户声纹信息组成。将指定用户的声纹信息，根据指定用户身份信息和对应的声纹信息关联编码后，存储于声纹信息数据库。

本申请不仅可以同时获得分别用于语音识别和语音合成的声学预训练模型，使模型系统的功能更强大；而且由于在本申请的语音识别和语音合成的模型系统中，添加了声纹提取网络（voiceprint_net），使语音合成系统和语音识别系统的训练数据可以通用，节约训练数据成本。

参照图3，本申请一实施例还提供了语音识别和语音合成的模型训练装置，所述模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述装置包括：

第一获取模块1，用于获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量，获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述第一数据对为训练集中的任意数据对；

第一训练模块2，用于通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

固定模块3，用于训练收敛后，固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合；

第一组合模块4，用于将所述音频处理网络和所述音频恢复网络组合成处理音频的网络，将所述文本处理网络和所述文本恢复网络组合成处理文本的网络；

第二训练模块5，用于在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络至收敛，以获取所述音频恢复网络对应的第三参量集合，在固定所述第二参量集合的状态下，通过所述损失函数训练所述处理文本的网络至收敛，以获取所述文本恢复网络对应的第四参量集合；

第二组合模块6，用于将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型，将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型。

进一步地，所述音频处理网络包括依次连接的第一CNN-RNN计算层以及第一全连接层，第一获取模块1，包括：

第一提取单元，用于从所述语音数据中提取声学特征得到声学特征矩阵，从所述语音数据中提取声纹信息；

第一输入单元，用于将所述声学特征矩阵输入所述第一CNN-RNN计算层，得到所述语音数据对应的第一计算结果；

去除单元，用于从所述第一计算结果中去除掉所述声纹信息，得到所述语音数据对应的第二计算结果；

第二输入单元，用于将所述第二计算结果输入所述第一全连接层，得到所述第一全连接层输出的第一高维向量。

进一步地，所述文本处理网络包括依次连接的第二CNN-RNN计算层以及第二全连接层，第一获取模块1，包括：

第二提取单元，用于从所述文本数据中提取语音学特征，得到所述文本数据对应的特征矩阵；

第三输入单元，用于将所述文本数据对应的特征矩阵输入所述第二CNN-RNN计算层，得到所述文本数据对应的第三计算结果；

第四输入单元，用于将所述第三计算结果输入所述第二全连接层，得到所述第二全连接层输出的第二高维向量。

进一步地，第一训练模块2，包括：

最小化单元，用于通过所述训练数据集最小化所述损失函数；

判断单元，用于判断所述损失函数的函数值的变化趋势是否不再继续下降；

判定单元，用于若不再继续下降，则判定所述损失函数达最小值，判定所述第一高维向量和第二高维向量在高维空间的对齐。

进一步地，所述文本恢复网络包括依次连接的第三全连接层和第一RNN-DECNN计算层，语音识别和语音合成的模型训练装置，包括：

第一组成模块，用于在所述第一RNN-DECNN计算层的输出端连接第一分类器，组成自动语音识别系统；

第二获取模块，用于获取所述自动语音识别系统当前待执行的第一任务的任务场景特征；

第一选择模块，用于根据所述第一任务的任务场景特征，选择与所述第一任务的任务场景特征匹配的指定数据集；

第一得到模块，用于通过在所述指定数据集上对所述自动语音识别系统进行再训练至收敛，得到所述自动语音识别系统调整后的参数集合；

第一执行模块，用于通过调整参数集合后的所述自动语音识别系统，执行所述第一任务。

进一步地，所述音频恢复网络包括依次连接的第四全连接层和第二RNN-DECNN计算层，语音识别和语音合成的模型训练装置，，包括：

第二组成模块，用于在所述第二RNN-DECNN计算层的输出端，依次连接第二分类器和声码器，组成语音合成系统；

第三获取模块，用于获取所述语音合成系统当前待执行的第二任务的任务场景特征；

第二选择模块，用于根据所述第二任务的任务场景特征，选择与所述第二任务的任务场景特征匹配的特定数据集；

第二得到模块，用于通过在所述特定数据集上对所述语音合成系统进行再训练至收敛，得到所述语音合成系统调整后的参数集合；

第二执行模块，用于通过调整参数集合后的所述语音合成系统，执行所述第二任务。

进一步地，第二执行模块，包括：

获取单元，用于获取所述第二任务对应的指定文本序列；

得到单元，用于将所述指定文本序列输入调整参数集合后的所述语音合成系统，得到所述指定文本序列对应的指定音频序列；

调取单元，用于从声纹信息数据库调取与所述特定用户的声纹信息；

合成单元，用于将所述指定音频序列与所述特定用户的声纹信息进行声音合成，得到所述指定文本序列对应于所述特定用户的语音。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别和语音合成的模型训练过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现语音识别和语音合成的模型训练方法。

上述处理器执行上述语音识别和语音合成的模型训练方法，模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述方法包括：获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量，获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述第一数据对为训练集中的任意数据对；通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；训练收敛后，固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合；将所述音频处理网络和所述音频恢复网络组合成处理音频的网络，将所述文本处理网络和所述文本恢复网络组合成处理文本的网络；在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络至收敛，以获取所述音频恢复网络对应的第三参量集合，在固定所述第二参量集合的状态下，通过所述损失函数训练所述处理文本的网络至收敛，以获取所述文本恢复网络对应的第四参量集合；将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型，将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型。

上述计算机设备，通过使用的是“由已推已”的训练思路，预训练形成的双向对齐模型，双向推导出对偶任务语音识别和语音合成中的原始数据，建立执行对偶任务语音识别和语音合成的网络模型系统，节省了语音识别和语音合成的网络模型系统的构建和训练成本，模型训练效果也得到提升。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现语音识别和语音合成的模型训练方法，模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述方法包括：获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量，获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述第一数据对为训练集中的任意数据对；通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；训练收敛后，固定所述音频处理网络对应的第一参量集合以及所述文本处理网络对应的第二参量集合；将所述音频处理网络和所述音频恢复网络组合成处理音频的网络，将所述文本处理网络和所述文本恢复网络组合成处理文本的网络；在固定所述第一参量集合的状态下，通过所述损失函数训练所述处理音频的网络至收敛，以获取所述音频恢复网络对应的第三参量集合，在固定所述第二参量集合的状态下，通过所述损失函数训练所述处理文本的网络至收敛，以获取所述文本恢复网络对应的第四参量集合；将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型，将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型。

上述计算机可读存储介质，通过使用的是“由已推已”的训练思路，预训练形成的双向对齐模型，双向推导出对偶任务语音识别和语音合成中的原始数据，建立执行对偶任务语音识别和语音合成的网络模型系统，节省了语音识别和语音合成的网络模型系统的构建和训练成本，模型训练效果也得到提升。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别和语音合成的模型训练方法，其特征在于，所述模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述方法包括：

2.根据权利要求1所述的语音识别和语音合成的模型训练方法，其特征在于，所述音频处理网络包括依次连接的第一CNN-RNN计算层以及第一全连接层，所述获取所述音频处理网络处理训练集中的第一数据对的语音数据后输出的第一高维向量的步骤，包括：

3.根据权利要求2所述的语音识别和语音合成的模型训练方法，其特征在于，所述文本处理网络包括依次连接的第二CNN-RNN计算层以及第二全连接层，所述获取所述文本处理网络处理所述第一数据对的文本数据输出的第二高维向量的步骤，包括：

4.根据权利要求1所述的语音识别和语音合成的模型训练方法，其特征在于，所述通过损失函数在所述训练集上训练所述音频处理网络和所述文本处理网络，至所述损失函数达最小值时训练收敛的步骤，包括：

通过所述训练集最小化所述损失函数；

判断所述损失函数的函数值的变化趋势是否不再继续下降；

5.根据权利要求1所述的语音识别和语音合成的模型训练方法，其特征在于，所述文本恢复网络包括依次连接的第三全连接层和第一RNN-DECNN计算层，所述将所述第一参量集合的所述音频处理网络和所述第四参量集合的所述文本恢复网络，依次组合连接得到语音识别的声学预训练模型的步骤之后，包括：

6.根据权利要求1所述的语音识别和语音合成的模型训练方法，其特征在于，所述音频恢复网络包括依次连接的第四全连接层和第二RNN-DECNN计算层，所述将所述第二参量集合的所述文本处理网络和所述第三参量集合的所述音频恢复网络，依次组合连接得到语音合成的声学预训练模型的步骤之后，包括：

7.根据权利要求6所述的语音识别和语音合成的模型训练方法，其特征在于，所述第二任务包括拟合特定用户的声纹信息，所述通过调整参数集合后的所述语音合成系统，执行所述第二任务的步骤，包括：

获取所述第二任务对应的指定文本序列；

从声纹信息数据库调取与所述特定用户的声纹信息；

8.一种语音识别和语音合成的模型训练装置，其特征在于，所述模型包括音频处理网络、音频恢复网络、文本处理网络和文本恢复网络，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。