CN111428867A

CN111428867A - 基于可逆分离卷积的模型训练方法、装置和计算机设备

Info

Publication number: CN111428867A
Application number: CN202010543541.4A
Authority: CN
Inventors: 徐泓洋; 太荣鹏; 温平
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-07-17
Anticipated expiration: 2040-06-15
Also published as: CN111428867B

Abstract

本申请涉及基于可逆分离卷积的模型训练方法，模型包括处理音频的网络、处理文本的网络，处理音频的网络和处理文本的网络均包括可逆分离卷积层，方法包括：获取处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量，获取处理文本的网络计算指定数据对的文本数据，得到的第二高维向量，其中训练集由语音数据和文本数据形成的数据对组成，指定数据对为训练集中的任意数据对；通过损失函数在训练集上训练处理音频的网络和处理文本的网络，损失函数为第一高维向量和第二高维向量的空间距离；判断损失函数是否达到最小值；若是则判定训练收敛，得到由处理音频的网络和处理文本的网络组成的孪生网络结构。节省模型构建、训练成本。

Description

基于可逆分离卷积的模型训练方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到基于可逆分离卷积的模型训练方法、装置和计算机设备。

背景技术

“语音识别”和“语音合成”是成对偶关系的两个“序列到序列”的预测任务，可采用encoder-decoder框架来建模。由于“语音识别”和“语音合成”的训练数据不通用，现有的语音识别系统只是做到了将语音信息对齐到文本信息的单向映射，语音合成也是只做到了将文本信息对齐到语音信息的单向映射。由于序列的多样性，每一个单向映射系统规模都非常大，且训练系统时所需的数据量也非常大，因此每个单向映射系统的构建和训练成本都非常高，不利于“语音识别”和“语音合成”系统的普遍推广使用。

发明内容

本申请的主要目的为提供基于可逆分离卷积的模型训练方法，旨在解决现有单向映射系统的构建和训练成本都非常高，不利于“语音识别”和“语音合成”系统的普遍推广使用的技术问题。

本申请提供了基于可逆分离卷积的模型训练方法，所述模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述方法包括：

获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量，获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述指定数据对为训练集中的任意数据对；

通过损失函数在所述训练集上训练所述处理音频的网络和所述处理文本的网络，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

判断所述损失函数是否达到最小值；

若是，则判定训练收敛，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构。

优选地，所述模型还包括声纹提取网络，所述处理音频的网络包括串联连接的第一可逆分离卷积层、第一可逆循环神经网络层和第一全连接层，所述获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量的步骤，包括：

从所述语音数据中提取声学特征得到声学特征矩阵；

将所述声学特征矩阵输入所述第一可逆分离卷积层进行前向编码运算，得到第一计算结果；

将所述第一计算结果输入所述第一可逆循环神经网络层进行前向编码运算，得到第二计算结果；

获取所述声纹提取网络从所述语音数据中提取声纹信息，并从所述第二计算结果中去除掉所述声纹信息，得到所述语音数据对应的第三计算结果；

将所述第三计算结果输入所述第一全连接层，由所述第一全连接层输出所述第一高维向量。

优选地，所述第一计算结果包括并存的第一结果和第二结果，所述第一结果为所述声学特征矩阵的特征信息，所述第二结果为恢复所述声学特征矩阵的保留信息，将所述声学特征矩阵输入所述第一可逆分离卷积层进行前向编码运算，得到第一计算结果的步骤，包括：

将所述声学特征矩阵按照预设分配方式分成第一数据和第二数据；

获取所述第一数据经由深度卷积得到的第一卷积结果，获取所述第二数据经由逐点卷积得到的第二卷积结果；

将所述第一数据与所述第二卷积结果叠加，得到所述第一结果，将所述第二数据与所述第一卷积结果叠加，得到所述第二结果。

优选地，所述处理文本的网络包括串联连接的第二可逆分离卷积层和第二可逆循环神经网络层，所述获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量的步骤，包括：

从所述文本数据中提取语音学特征，得到所述文本数据对应的特征矩阵；

将所述文本数据对应的特征矩阵输入所述第二可逆分离卷积层进行前向编码运算，得到第四计算结果；

将所述第四计算结果输入所述第二可逆循环神经网络层进行前向编码运算，得到第五计算结果；

将所述第五计算结果输入第二全连接层，由所述第二全连接层输出所述第二高维向量。

优选地，所述判断所述损失函数是否达到最小值的步骤，包括：

通过所述训练数据集最小化所述损失函数；

判断所述损失函数的函数值的变化趋势是否不再继续下降；

若是，则判定所述损失函数达最小值，判定所述第一高维向量和第二高维向量在高维空间的对齐。

优选地，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构的步骤之后，包括：

以所述处理音频的网络为输入端，以所述处理文本的网络为输出端时，在所述处理文本的网络的输出端连接分类器，组成自动语音识别系统；

获取所述自动语音识别系统当前待执行的第一任务的任务场景特征；

根据所述第一任务的任务场景特征，选择与所述第一任务的任务场景特征匹配的指定数据集；

通过在所述指定数据集上对所述自动语音识别系统进行再训练至收敛，得到所述自动语音识别系统调整后的参数集合；

通过调整参数集合后的所述自动语音识别系统，执行所述第一任务。

以所述处理文本的网络为输入端，以所述处理音频的网络为输出端时，在所述处理音频的网络的输出端连接声码器，组成语音合成系统；

获取所述语音合成系统当前待执行的第二任务的任务场景特征；

根据所述第二任务的任务场景特征，选择与所述第二任务的任务场景特征匹配的特定数据集；

通过在所述特定数据集上对所述语音合成系统进行再训练至收敛，得到所述语音合成系统调整后的参数集合；

通过调整参数集合后的所述语音合成系统，执行所述第二任务。

本申请还提供了一种基于可逆分离卷积的模型训练装置，所述模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述装置包括：

第一获取模块，用于获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量，获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述指定数据对为训练集中的任意数据对；

训练模块，用于通过损失函数在所述训练集上训练所述处理音频的网络和所述处理文本的网络，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

判断模块，用于判断所述损失函数是否达到最小值；

判定模块，用于若达到最小值，则判定训练收敛，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构，基于可逆分离卷积的数据处理思维构建，处理音频的网络和处理文本的网络均包括可逆分离卷积层，使处理音频的网络和处理文本的网络具有可逆的特性，通过一次训练可同时得到前向和逆向双方向的可逆计算网络，不仅实现一个大的网络结构中同时实现语音识别和语音合成，且实现一次训练可得到两种计算效果的网络，使语音识别和语音合成的过程合理地组合为一体，且大幅降低模型训练和应用过程的计算量、训练数据成本以及网络构建成本，模型训练效果也得到提升。

附图说明

图1本申请一实施例的基于可逆分离卷积的模型训练方法流程示意图；

图2本申请一实施例的语音识别和语音合成孪生网络结构的结构示意图；

图3本申请一实施例的RS-CNN的计算过程示意图；

图4本申请一实施例的基于可逆分离卷积的模型训练装置结构示意图；

图5本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的基于可逆分离卷积的模型训练方法，所述模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述方法包括：

S1：获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量，获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述指定数据对为训练集中的任意数据对；

S2：通过损失函数在所述训练集上训练所述处理音频的网络和所述处理文本的网络，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

S3：判断所述损失函数是否达到最小值；

S4：若是，则判定训练收敛，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构。

本申请的由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构，可同时实现语音识别和语音合成。上述孪生网络结构训练时，通过标注的“语音数据-文本数据”数据作为训练集，以“语音数据-文本数据”在高维空间的向量距离作为损失函数，经过训练使同一数据对的语音和文本，经过孪生网络结构处理后在高维空间实现向量对齐。本申请由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构，基于可逆分离卷积的数据处理思维构建，处理音频的网络和处理文本的网络均包括可逆分离卷积层，使处理音频的网络和处理文本的网络具有可逆的特性，通过一次训练可同时得到前向和逆向双方向的可逆计算网络。采用对偶任务联合训练的方法，同时获得两个任务的模型，不仅实现一个大的网络结构中同时实现语音识别和语音合成，且实现一次训练可得到两种计算效果的网络，使语音识别和语音合成的过程合理地组合为一体，且大幅降低模型训练和应用过程的计算量、训练数据成本以及网络构建成本，模型训练效果也得到提升。

本申请基于可逆分离卷积的数据处理思维构建，处理音频的网络和处理文本的网络均包括可逆分离卷积层，实现“由己推己”的解码思路，且已逆向计算代替普通的解码器，降低计算量。本申请的孪生网络结构如图2所示，包括处理音频的网络Audio-Net和处理文本的网络Text-Net，均分别由多个可逆分离卷积层RS_CNN以及多个可逆循环神经网络层REV_RNN串联组成，使处理音频的网络和处理文本的网络均具有可逆计算的能力，包括前向计算和逆向计算。由于网络可逆，所以Audio-Net和Text-Net即可以做前向计算的编码，也可以做逆向计算的解码恢复，组成孪生网络结构，只需训练一次实现双向计算能力，网络计算量降低，内存占用空间减小。其损失函数为Vector1和Vector2的距离MSE（mean squareerror），训练时通过在训练集上最小化这个距离MSE，使训练收敛，同时使Vector1和Vector2在高维空间对齐。上述训练过程中，输入的数据是经过前端模块处理后的“语音数据-文本数据”数据对，本申请不对前端模块作任何限定，根据实际需要进行选择和匹配，能获得满足训练需求的数据对即可。

本申请的网络训练过程中，使用的是“由已推已”的训练思路，预训练形成的双向对齐模型，双向推导出对偶任务语音识别和语音合成中的原始输入数据，建立执行对偶任务语音识别和语音合成的网络模型系统，节省了语音识别和语音合成的网络模型系统的构建和训练成本，模型训练效果也得到提升。预训练可基于大量的训练数据得到参数集合，但预训练的训练数据与实际任务的训练数据相似但不要求完全一致。通过“语音数据-文本数据”的向量距离作为损失函数建立联络的孪生网络结构，即为双向对齐模型。通过将对偶任务的双向输入数据在高维空间进行向量对齐，确定双向输入数据在双向对齐模型的关联在一起的存在状态。本申请通过输出的高维向量为一种中间状态向量，通过前向计算输入数据投射到高维空间的过程，然后由逆向计算从高维空间上恢复出输入数据，实现“由己推己”的解码思路，节省模型构建与模型训练成本。本申请将成对偶关系的两个任务各自的中间状态向量在高维空间上进行对齐，即输入数据投射到高维空间上的同一个向量或相似的两个向量，然后通过上述的同一个向量或相似的两个向量，搭建起两种输入数据之间的关联关系，上述两种输入数据指同一数据对中，在前向计算的数据传输方向上，从处理音频的网络输入端输入的语音数据，以从处理文本的网络输入端输入的同一数据对的文本数据。再分别基于中间状态向量通过逆向计算的数据传输方向上，恢复到数据对输入前的本身状态，仅仅输入端和输出端的数据形式互换，即文本数据转换为语音数据，语音数据转换为文本数据，以实现双向的推导，将传统的“由彼推己”的解码思路换成“由己推己”的解码思路，对执行对偶任务的网络模型系统的训练效果更好，对于数据量不足的部分预测效果也会得到改善。

因为传统的“由彼推己”的解码思路中，是强制建立数据之间的关系，需要数据量必须大，对于数据量不足的部分，其解码效果往往很有限；即使数据量足够，由于是强制建立的对应关系，中间会有信息不匹配和信息丢失的情况，解码效果本身就存在上限。而且单向模型只实现单个方向的映射关系，构建单向Sequence-2-Sequence模型，网络复杂且参数的数量大，训练需要的训练集的数据量也大。比如在机器翻译中，需要大量的双语对照训练数据，在构建中英互转模型时，首先用数据训练一个中文到英文的模型，然后再训练一个英文到中文的模型，训练数据可以复用，但是需要训练两个模型。但一个任务的数据无法直接在对偶任务中使用时，几乎要花同等的代价去构建其对偶的模型。比如语音识别和语音合成。由于训练数据的不通用，需要收集两套训练数据来分别训练语音识别模型和语音合成模型，成本更高。即便将两个对偶的网络模型联合起来用一套训练数据同时训练，比如通过合并成对偶关系的两个任务的损失函数，添加对偶约束条件，将两个网络联合起来训练，但也只对数据类型通用的对偶任务有效，且训练时消耗的资源更多，训练速度也较慢，耗时长，效果也不佳。

进一步地，所述模型还包括声纹提取网络，所述处理音频的网络包括串联连接的第一可逆分离卷积层、第一可逆循环神经网络层和第一全连接层，所述获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量的步骤S1，包括：

S11：从所述语音数据中提取声学特征得到声学特征矩阵；

S12：将所述声学特征矩阵输入所述第一可逆分离卷积层进行前向编码运算，得到第一计算结果；

S13：将所述第一计算结果输入所述第一可逆循环神经网络层进行前向编码运算，得到第二计算结果；

S14:获取所述声纹提取网络从所述语音数据中提取声纹信息，并从所述第二计算结果中去除掉所述声纹信息，得到所述语音数据对应的第三计算结果；

S15:将所述第三计算结果输入所述第一全连接层，由所述第一全连接层输出所述第一高维向量。

本申请处理音频的网络Audio-Net的前向编码运算中，输入数据是语音数据对应的特征矩阵或特征序列，输出的为高维空间的特征向量。首先从语音数据中提取声学特征，包括但不限于频谱特征、FBank特征或者MFCC特征等，将语音数据转化为特征矩阵，得到声学特征矩阵audio_feature。将前述特征矩阵输入到处理音频的网络和声纹提取网络中，经过处理音频的网络中的串联连接的第一可逆分离卷积层RS_CNN、第一可逆循环神经网络层REV_RNN的网络计算，再减去声纹网络提取的信息，经由全连接层输出代表“中间状态”的高维特征向量Vector1。上述声纹信息可通过声纹提取网络预先提取得到。Audio-Net的逆向计算即为音频恢复过程，即为输入为高维特征向量，输出为声学特征的过程。本实施例的前向编码运算指网络Audio-Net的前向编码运算，为以Audio-Net的输入端输入语音数据对应的特征矩阵或特征序列为起点，由语音数据到文本数据的数据转化过程的运算。Audio-Net的逆向计算，则为以Text-Net的输入端输入文本数据对应的特征矩阵或特征序列为起点，由文本数据到语音数据的数据转化过程的运算。上述可逆循环神经网络REV_RNN（Reversible RNN）计算思路与可逆分离卷积层RS_CNN的计算思路一致，均为将输入数据分为两部分，输出数据也是两部分。两部分数据中，一部分为学习与目标任务相关的特征数据，一部分为保留的与目标无关的特征数据。

进一步地，所述第一计算结果包括并存的第一结果和第二结果，所述第一结果为所述声学特征矩阵的特征信息，所述第二结果为恢复所述声学特征矩阵的保留信息，将所述声学特征矩阵输入所述第一可逆分离卷积层进行前向编码运算，得到第一计算结果的步骤S12，包括：

S121：将所述声学特征矩阵按照预设分配方式分成第一数据和第二数据；

S122：获取所述第一数据经由深度卷积得到的第一卷积结果，获取所述第二数据经由逐点卷积得到的第二卷积结果；

S123：将所述第一数据与所述第二卷积结果叠加，得到所述第一结果，将所述第二数据与所述第一卷积结果叠加，得到所述第二结果。

如图3所示，本申请实施例通过把卷积计算过程分为两个阶段进行，包括深度卷积dw（Depth-wise convolution）和逐点卷积pw（Point-wise convolution）。为匹配上述两个卷积过程，将输入数据声学特征矩阵X分为两部分数据，包括第一数据x₁和第二数据x₂，以分别输入到上述两个卷积过程进行卷积运算。上述两部分数据中，一部分为学习与目标任务相关的特征数据，一部分为保留的与目标任务无关的特征数据，可根据目标任务的任务属性进行拆分两部分数据。网络Audio-Net的前向编码运算过程如下，先计算dw,后计算pw，r然后通过数据叠加输出y₁和y₂两部分，y₁为提取的特征信息，y₂为保留的用于恢复的保留信息，与特征信息无关的信息，其中，y₂=x₂+dw(x₁),y₁=x₁+dw(x₂)。Audio-Net的逆向计算过程中先计算pw，再计算dw，输入为y₁和y₂两部分，输出为x₁和x₂两部分，其中，x₂= y₂-dw(x₁),x₁=y₁-dw(x₂)。

进一步地，所述处理文本的网络包括串联连接的第二可逆分离卷积层和第二可逆循环神经网络层，所述获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量的步骤S1，包括：

S101：从所述文本数据中提取语音学特征，得到所述文本数据对应的特征矩阵；

S102：将所述文本数据对应的特征矩阵输入所述第二可逆分离卷积层进行前向编码运算，得到第四计算结果；

S103：将所述第四计算结果输入所述第二可逆循环神经网络层进行前向编码运算，得到第五计算结果；

S104：将所述第五计算结果输入第二全连接层，由所述第二全连接层输出所述第二高维向量。

本申请处理文本的网络Text-Net的前向编码运算中，输入的是文本数据对应的特征矩阵或特征序列，输出的为高维空间的特征向量。首先从文本数据中提取语音学特征，也就是将文本数据中的字符通过向量表达，将文本数据转化为特征矩阵，得到文本特征矩阵text_feature。将文本特征矩阵text_feature输入Text-Net，经过Text-Net中的串联连接的第二可逆分离卷积层RS_CNN、第二可逆循环神经网络层REV_RNN的网络计算，由全连接层输出代表“中间状态”的高维特征向量Vector2。Text-Net的逆向计算即为文本恢复过程，即为输入为高维特征向量，输出为文本特征的过程。本实施例的前向编码运算指网络Text-Net的前向编码运算，为以Text-Net的输入端输入文本数据对应的特征矩阵或特征序列为起点，由文本数据到语音数据的数据转化过程的运算。Text-Net的逆向计算，则为以Audio-Net的输入端输入语音数据对应的特征矩阵或特征序列为起点，由语音数据到文本数据的数据转化过程的运算。由于网络可逆，所以其逆向计算过程就是“由己推己”的解码过程，不用再去单独构建解码器，大大的减小了模型的复杂度。本申请的语音识别和语音合成的孪生网络结构，采用可逆网络结构，减少训练次数有效降低对内存空间的占用；且通过可逆可分离卷积（Reversible and Separable Convolution Neural Network），有效降低计算量；同时训练过程中采用对偶任务联合训练的方法，同时获得语音识别和语音合成两个任务模型，节省数据成本，同时提升各任务模型的预测效果。

进一步地，所述判断所述损失函数是否达到最小值的步骤S3，包括：

S31：通过所述训练数据集最小化所述损失函数；

S32：判断所述损失函数的函数值的变化趋势是否不再继续下降；

S33：若是，则判定所述损失函数达最小值，判定所述第一高维向量和第二高维向量在高维空间的对齐。

本申请训练上述孪生网络结构阶段中，输入数据为标注的“语音数据-文本数据”数据对。如图，针对同一数据对，处理音频的网络输入的是语音数据对应的特征矩阵，输出的“中间状态”Vector1；处理文本的网络输入的是文本数据对应的特征矩阵，输出的“中间状态”Vector2, 训练过程的损失函数为Vector1和Vector2的距离MSE，通过训练时在训练集上逐步最小化距离MSE，损失函数的函数值不再继续下降，指稳定于趋近于零的某一较小值，使模型训练收敛，即有:audio_net(audio_feature)≈txt_net(txt_feature)，其中，audio_net为，txt_net为处理文本的网络。两者输出一致或近似相等时，则认为上述两个高维向量Vector1和Vector2，在高维空间实现对齐。然后固定处理音频的网络和处理文本的网络的参量集合，以固定映射中的关联关系，确保可从“中间状态”的对齐向量恢复至原始数据，上述原始数据即语音数据和文本数据的特征矩阵或特征序列。

进一步地，所述得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构的步骤S4之后，包括：

S401：以所述处理音频的网络为输入端，以所述处理文本的网络为输出端时，在所述处理文本的网络的输出端连接分类器，组成自动语音识别系统；

S402：获取所述自动语音识别系统当前待执行的第一任务的任务场景特征；

S403：根据所述第一任务的任务场景特征，选择与所述第一任务的任务场景特征匹配的指定数据集；

S404：通过在所述指定数据集上对所述自动语音识别系统进行再训练至收敛，得到所述自动语音识别系统调整后的参数集合；

S405：通过调整参数集合后的所述自动语音识别系统，执行所述第一任务。

本申请的孪生网络结构在应用过程中，单独输入语音数据的特征时，经Audio-Net网络的前向编码计算，减去声纹信息后得到与语音内容相关的特征，然后输入到 Text-Net网络，Text-Net网络逆向计算，生成语音数据对应的文本特征，最后输出端加上ctc或者普通分类器，组成一个完整的ASR系统 (Automatic Speech Recognition,自动语音识别)。通过使用具体应用场景的专属数据集，即上述指定数据集对上述孪生网络结构进行fine_tune，当ASR系统在指定数据集上训练收敛后，即可得到应用于上述具体应用场景的ASR系统。本申请的解码过程，通过逆向计算将文本数据的特征编码到高维空间，再从高维空间恢复出来文本数据的特征，“由己推己”，相较于单向模型的“由彼推己”的方法，更加合理，所以模型效果更好。

上述fine_tune指微调自动语音识别系统，使得自动语音识别系统更适合执行具体应用场景的任务。微调时，可通过较少得数据量实现，相比于预训练过程，训练集的数据特征更集中，指定数据集的数据量也要远小于预训练数据。本申请基于预训练的双向对齐模型，使用少量具体应用场景的数据进行fine-tune，即可获得执行该具体应用场景的自动语音识别系统，极大地节约了模型训练的成本，且提高了训练模型的执行效果。

S41：以所述处理文本的网络为输入端，以所述处理音频的网络为输出端时，在所述处理音频的网络的输出端连接声码器，组成语音合成系统；

S42：获取所述语音合成系统当前待执行的第二任务的任务场景特征；

S43：根据所述第二任务的任务场景特征，选择与所述第二任务的任务场景特征匹配的特定数据集；

S44：通过在所述特定数据集上对所述语音合成系统进行再训练至收敛，得到所述语音合成系统调整后的参数集合；

S45：通过调整参数集合后的所述语音合成系统，执行所述第二任务。

本申请的孪生网络结构在应用过程中，单独输入文本数据的特征时，经Text-Net网络的前向编码计算，加上声纹信息后输入到Audio-Net网络，Audio-Net网络逆向计算，生成文本数据对应的语音特征，最后输出端加上声码器，根据上述语音特征合成波形，就组成一个完整TTS（Text To Speech,语音合成）系统，使机器可模仿某个特定用户说话。通过使用具体应用场景的专属数据集，即上述特定数据集对上述声学预训练模型进行fine_tune，当TTS系统在特定数据集上训练收敛后，即可得到应用于上述具体应用场景的TTS系统。本申请的解码端，通过Audio-Net网络逆向计算代替普通解码器，将语音数据的特征编码到高维空间，再从高维空间恢复出来语音数据的特征，“由己推己”，相较于单向模型的“由彼推己”的方法，更加合理，所以模型效果更好。上述fine_tune指微调语音合成系统，过程和效果同微调自动语音识别系统，不赘述。

进一步地，所述第二任务包括拟合特定用户的声纹信息，所述通过调整参数集合后的所述语音合成系统，执行所述第二任务的步骤S45，包括：

S451：获取所述第二任务对应的指定文本序列；

S452：将所述指定文本序列输入调整参数集合后的所述语音合成系统，得到所述指定文本序列对应的指定音频序列；

S453：从声纹信息数据库调取与所述特定用户的声纹信息；

S454：将所述指定音频序列与所述特定用户的声纹信息进行声音合成，得到所述指定文本序列对应于所述特定用户的语音。

本申请的语音合成系统，可实现根据获取的声纹信息进行不同的变声处理，使语音处理功能更丰富。本申请的语音合成系统需要模仿某个特定用户说话时，需要先录几段改特定用户的说话声音，以通过声纹提取网络提取其声纹信息，以便在合成语音的时候将该声纹信息加入，使输出的语音贴近于该特定用户。本申请的声纹信息可通过关联的声纹信息数据库获取。上述声纹信息数据库，通过分别采集多个指定用户发出的多句语音信息，并从多句语音信息中提取出多个指定用户声纹信息组成。将指定用户的声纹信息，根据指定用户身份信息和对应的声纹信息关联编码后，存储于声纹信息数据库。

本申请不仅可以同时获得分别用于语音识别和语音合成的声学预训练模型，使模型系统的功能更强大；而且由于在本申请的语音识别和语音合成的模型系统中，添加了声纹提取网络（voiceprint_net），使语音合成系统和语音识别系统的训练数据可以通用，节约训练数据成本。

参照图4，本申请一实施例的基于可逆分离卷积的模型训练装置，所述模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述装置包括：

第一获取模块1，用于获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量，获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述指定数据对为训练集中的任意数据对；

训练模块2，用于通过损失函数在所述训练集上训练所述处理音频的网络和所述处理文本的网络，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；

判断模块3，用于判断所述损失函数是否达到最小值；

判定模块4，用于若达到最小值，则判定训练收敛，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构。

进一步地，所述模型还包括声纹提取网络，所述处理音频的网络包括串联连接的第一可逆分离卷积层、第一可逆循环神经网络层和第一全连接层，第一获取模块1，包括：

第一提取单元，用于从所述语音数据中提取声学特征得到声学特征矩阵；

第一运算单元，用于将所述声学特征矩阵输入所述第一可逆分离卷积层进行前向编码运算，得到第一计算结果；

第二运算单元，用于将所述第一计算结果输入所述第一可逆循环神经网络层进行前向编码运算，得到第二计算结果；

去除单元，用于获取所述声纹提取网络从所述语音数据中提取声纹信息，并从所述第二计算结果中去除掉所述声纹信息，得到所述语音数据对应的第三计算结果；

第一输入单元，用于将所述第三计算结果输入所述第一全连接层，由所述第一全连接层输出所述第一高维向量。

进一步地，所述第一计算结果包括并存的第一结果和第二结果，所述第一结果为所述声学特征矩阵的特征信息，所述第二结果为恢复所述声学特征矩阵的保留信息，第一运算单元，包括：

分配子单元，用于将所述声学特征矩阵按照预设分配方式分成第一数据和第二数据；

获取子单元，用于获取所述第一数据经由深度卷积得到的第一卷积结果，获取所述第二数据经由逐点卷积得到的第二卷积结果；

叠加子单元，用于将所述第一数据与所述第二卷积结果叠加，得到所述第一结果，将所述第二数据与所述第一卷积结果叠加，得到所述第二结果。

进一步地，所述处理文本的网络包括串联连接的第二可逆分离卷积层和第二可逆循环神经网络层，第一获取模块1，包括：

第二提取单元，用于从所述文本数据中提取语音学特征，得到所述文本数据对应的特征矩阵；

第三运算单元，用于将所述文本数据对应的特征矩阵输入所述第二可逆分离卷积层进行前向编码运算，得到第四计算结果；

第四运算单元，用于将所述第四计算结果输入所述第二可逆循环神经网络层进行前向编码运算，得到第五计算结果；

第二输入单元，用于将所述第五计算结果输入第二全连接层，由所述第二全连接层输出所述第二高维向量。

进一步地，所述判断模块3，包括：

最小化单元，用于通过所述训练数据集最小化所述损失函数；

判断单元，用于判断所述损失函数的函数值的变化趋势是否不再继续下降；

判定单元，用于若不再继续下降，则判定所述损失函数达最小值，判定所述第一高维向量和第二高维向量在高维空间的对齐。

进一步地，基于可逆分离卷积的模型训练装置，包括：

第一连接模块，用于以所述处理音频的网络为输入端，以所述处理文本的网络为输出端时，在所述处理文本的网络的输出端连接分类器，组成自动语音识别系统；

第二获取模块，用于获取所述自动语音识别系统当前待执行的第一任务的任务场景特征；

第一选择模块，用于根据所述第一任务的任务场景特征，选择与所述第一任务的任务场景特征匹配的指定数据集；

第一得到模块，用于通过在所述指定数据集上对所述自动语音识别系统进行再训练至收敛，得到所述自动语音识别系统调整后的参数集合；

第一执行模块，用于通过调整参数集合后的所述自动语音识别系统，执行所述第一任务。

进一步地，基于可逆分离卷积的模型训练装置，包括：

第二连接模块，用于以所述处理文本的网络为输入端，以所述处理音频的网络为输出端时，在所述处理音频的网络的输出端连接声码器，组成语音合成系统；

第三获取模块，用于获取所述语音合成系统当前待执行的第二任务的任务场景特征；

第二选择模块，用于根据所述第二任务的任务场景特征，选择与所述第二任务的任务场景特征匹配的特定数据集；

第二得到模块，用于通过在所述特定数据集上对所述语音合成系统进行再训练至收敛，得到所述语音合成系统调整后的参数集合；

第二执行模块，用于通过调整参数集合后的所述语音合成系统，执行所述第二任务。

进一步地，所述第二任务包括拟合特定用户的声纹信息，第二执行模块，包括：

获取单元，用于获取所述第二任务对应的指定文本序列；

第三输入单元，用于将所述指定文本序列输入调整参数集合后的所述语音合成系统，得到所述指定文本序列对应的指定音频序列；

调取单元，用于从声纹信息数据库调取与所述特定用户的声纹信息；

合成单元，用于将所述指定音频序列与所述特定用户的声纹信息进行声音合成，得到所述指定文本序列对应于所述特定用户的语音。

参照图5，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于可逆分离卷积的模型训练过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于可逆分离卷积的模型训练方法。

上述处理器执行上述基于可逆分离卷积的模型训练方法，模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述方法包括：获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量，获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述指定数据对为训练集中的任意数据对；通过损失函数在所述训练集上训练所述处理音频的网络和所述处理文本的网络，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；判断所述损失函数是否达到最小值；若是，则判定训练收敛，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构。

上述计算机设备，由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构，基于可逆分离卷积的数据处理思维构建，处理音频的网络和处理文本的网络均包括可逆分离卷积层，使处理音频的网络和处理文本的网络具有可逆的特性，通过一次训练可同时得到前向和逆向双方向的可逆计算网络，不仅实现一个大的网络结构中同时实现语音识别和语音合成，且实现一次训练可得到两种计算效果的网络，使语音识别和语音合成的过程合理地组合为一体，且大幅降低模型训练和应用过程的计算量、训练数据成本以及网络构建成本，模型训练效果也得到提升。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于可逆分离卷积的模型训练方法，模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述方法包括：获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量，获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量，其中，所述训练集由语音数据和文本数据形成的数据对组成，所述指定数据对为训练集中的任意数据对；通过损失函数在所述训练集上训练所述处理音频的网络和所述处理文本的网络，其中，所述损失函数为所述第一高维向量和第二高维向量的空间距离；判断所述损失函数是否达到最小值；若是，则判定训练收敛，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构。

上述计算机可读存储介质，由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构，基于可逆分离卷积的数据处理思维构建，处理音频的网络和处理文本的网络均包括可逆分离卷积层，使处理音频的网络和处理文本的网络具有可逆的特性，通过一次训练可同时得到前向和逆向双方向的可逆计算网络，不仅实现一个大的网络结构中同时实现语音识别和语音合成，且实现一次训练可得到两种计算效果的网络，使语音识别和语音合成的过程合理地组合为一体，且大幅降低模型训练和应用过程的计算量、训练数据成本以及网络构建成本，模型训练效果也得到提升。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于可逆分离卷积的模型训练方法，其特征在于，所述模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述方法包括：

判断所述损失函数是否达到最小值；

2.根据权利要求1所述的基于可逆分离卷积的模型训练方法，其特征在于，所述模型还包括声纹提取网络，所述处理音频的网络包括串联连接的第一可逆分离卷积层、第一可逆循环神经网络层和第一全连接层，所述获取所述处理音频的网络计算训练集中的指定数据对的语音数据，得到的第一高维向量的步骤，包括：

从所述语音数据中提取声学特征得到声学特征矩阵；

3.根据权利要求2所述的基于可逆分离卷积的模型训练方法，其特征在于，所述第一计算结果包括并存的第一结果和第二结果，所述第一结果为所述声学特征矩阵的特征信息，所述第二结果为恢复所述声学特征矩阵的保留信息，将所述声学特征矩阵输入所述第一可逆分离卷积层进行前向编码运算，得到第一计算结果的步骤，包括：

4.根据权利要求2所述的基于可逆分离卷积的模型训练方法，其特征在于，所述处理文本的网络包括串联连接的第二可逆分离卷积层和第二可逆循环神经网络层，所述获取所述处理文本的网络计算所述指定数据对的文本数据，得到的第二高维向量的步骤，包括：

5.根据权利要求1所述的基于可逆分离卷积的模型训练方法，其特征在于，所述判断所述损失函数是否达到最小值的步骤，包括：

通过所述训练数据集最小化所述损失函数；

判断所述损失函数的函数值的变化趋势是否不再继续下降；

6.根据权利要求1所述的基于可逆分离卷积的模型训练方法，其特征在于，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构的步骤之后，包括：

7.根据权利要求1所述的基于可逆分离卷积的模型训练方法，其特征在于，得到由所述处理音频的网络和所述处理文本的网络组成的孪生网络结构的步骤之后，包括：

8.一种基于可逆分离卷积的模型训练装置，其特征在于，所述模型包括处理音频的网络、处理文本的网络，所述处理音频的网络和所述处理文本的网络均包括可逆分离卷积层，所述装置包括：

判断模块，用于判断所述损失函数是否达到最小值；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。