CN113223494A

CN113223494A - 梅尔频谱的预测方法、装置、设备及存储介质

Info

Publication number: CN113223494A
Application number: CN202110605309.3A
Authority: CN
Inventors: 刘正晨; 缪陈峰; 朱清影; 陈闽川; 马骏; 王少军; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-06
Anticipated expiration: 2041-05-31
Also published as: CN113223494B

Abstract

本申请涉及人工智能技术领域，揭示了一种梅尔频谱的预测方法、装置、设备及存储介质，其中方法包括：将待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；通过目标声学模块的对齐位置预测器，对目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；通过目标声学模块的对齐图重建器，根据目标文本编码特征数据和目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；通过目标声学模块的解码器，对目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。实现采用输入‑输出特征对齐策略将时长建模隐式地集成在目标声学模块中，无需额外的时长模型。本申请还涉及区块链技术。

Description

梅尔频谱的预测方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种梅尔频谱的预测方法、装置、设备及存储介质。

背景技术

歌唱合成是将歌词、乐谱等信息转化成歌声音频的技术。随着移动互联网的普及和人们对娱乐生活品质要求的不断提高，歌唱合成技术已经逐渐在电子游戏、短视频应用、虚拟歌手等领域崭露头角。

现有的歌唱合成方法，在进行梅尔频谱预测时，需通过人工标注或机器自动标注获取音素/音符时长信息，并据此额外训练一个时长模型，甚至还可能需要对时长模型预测的时长进行后处理，导致模型训练步骤繁冗复杂。

发明内容

本申请的主要目的为提供一种梅尔频谱的预测方法、装置、设备及存储介质，旨在解决现有技术的歌唱合成方法，在进行梅尔频谱预测时需要额外训练一个时长模型，导致模型训练步骤繁冗复杂的技术问题。

为了实现上述发明目的，本申请提出一种梅尔频谱的预测方法，所述方法包括：

获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列；

将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；

通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；

通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；

通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。

进一步的，所述将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据的步骤之前，还包括：

获取多个训练样本，所述多个训练样本中的每个训练样本包括：文本序列样本和梅尔频谱标定数据；

从所述多个训练样本中获取一个所述训练样本，作为目标训练样本；

将所述目标训练样本的所述文本序列样本输入初始声学模块的所述文本编码器进行特征提取，得到文本编码特征预测数据；

将所述文本编码特征预测数据输入所述初始声学模块的所述对齐位置预测器进行对齐位置预测，得到对齐位置预测数据；

采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器，根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算，得到目标索引映射矢量；

将所述文本编码特征预测数据和所述目标索引映射矢量输入所述初始声学模块的所述对齐图重建器进行时间对齐特征计算和对齐位置提取，得到时间对齐特征预测值和对齐位置提取数据；

将所述时间对齐特征预测值输入所述初始声学模块的所述解码器进行梅尔频谱计算，得到梅尔频谱预测数据；

根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算，得到目标损失值，根据所述目标损失值更新所述初始声学模块的参数，将更新后的所述初始声学模块用于下一次计算所述对齐位置预测数据、所述对齐位置提取数据和所述梅尔频谱预测数据；

重复执行所述从所述多个训练样本中获取一个所述训练样本，作为目标训练样本的步骤，直至达到训练收敛条件。

进一步的，所述采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器，根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算，得到目标索引映射矢量的步骤，包括：

将所述目标训练样本的所述梅尔频谱标定数据输入所述初始声学模块的所述梅尔频谱编码器进行特征提取，得到梅尔频谱编码特征数据；

将所述文本编码特征预测数据和所述梅尔频谱编码特征数据，输入所述初始声学模块的所述索引映射矢量生成器进行索引映射矢量计算，得到所述目标索引映射矢量。

进一步的，所述根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算，得到目标损失值的步骤，包括：

将所述对齐位置预测数据和所述对齐位置提取数据输入对齐位置损失函数进行损失值计算，得到第一损失值；

将所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据输入梅尔频谱损失函数进行损失值计算，得到第二损失值；

将所述第一损失值和所述第二损失值进行加权求和，得到所述目标损失值；

其中，所述对齐位置损失函数的计算公式

为：

所述梅尔频谱损失函数的计算公式

为：

所述目标损失值的计算公式

为：

是所述对齐位置预测数据，Δe是所述对齐位置提取数据，∈是用于防止数值溢出的常数，‖‖₁是L1范数，log()是对数函数，

是所述梅尔频谱预测数据的第i维的数据，mel_i是所述目标训练样本的所述梅尔频谱标定数据的第i维的数据，N是所述目标训练样本的所述梅尔频谱标定数据的总维数，λ是常数

进一步的，所述获取多个训练样本的步骤，包括：

获取多个曲谱数据；

从所述多个曲谱数据中提取一个曲谱数据作为目标曲谱数据；

根据所述目标曲谱数据进行歌词提取及编码生成，得到歌词编码数据；

根据所述目标曲谱数据进行音高提取及编码生成，得到音高编码数据；

根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理，得到目标音符时长数据；

根据所述歌词编码数据、所述音高编码数据和所述目标音符时长数据进行按音符对齐处理及多维向量拼接，得到曲谱特征数据；

获取所述目标曲谱数据对应的梅尔频谱数据，得到目标梅尔频谱数据；

根据所述曲谱特征数据和所述目标梅尔频谱数据生成所述目标曲谱数据对应的所述训练样本；

重复执行所述从所述多个曲谱数据中提取一个曲谱数据作为目标曲谱数据的步骤，直至完成述多个曲谱数据中的所述曲谱数据的提取。

进一步的，所述根据所述目标曲谱数据进行歌词提取及编码生成，得到歌词编码数据的步骤，包括：

根据所述目标曲谱数据进行歌词提取，得到待处理的歌词数据；

分别在所述待处理的歌词数据中的每个句子的句首及句末添加句子分隔符，得到添加句子分隔符后的歌词数据；

对所述添加句子分隔符后的歌词数据进行标点符号删除处理，得到标点符号删除后的歌词数据；

在所述标点符号删除后的歌词数据进行相邻汉字之间添加字符分隔符处理，得到添加字符分隔符后的歌词数据；

对所述添加字符分隔符后的歌词数据进行汉字转换拼音处理，得到转换拼音后的歌词数据；

对所述转换拼音后的歌词数据进行声调删除处理，得到声调删除后的歌词数据；

对所述声调删除后的歌词数据进行独热编码，得到所述歌词编码数据。

进一步的，所述根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理，得到目标音符时长数据的步骤，包括：

根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取，得到待换算的音符时长数据；

采用预设时间单位，对所述待换算的音符时长数据进行换算处理，得到换算后的音符时长数据；

从所述换算后的音符时长数据中提取最小的音符时长，得到最小音符时长；

从所述换算后的音符时长数据中提取最大的音符时长，得到最大音符时长；

根据所述换算后的音符时长数据、所述最小音符时长及所述最大音符时长进行量化处理，得到所述目标音符时长数据；

其中，将所述目标音符时长数据中的任一个音符时长作为待计算的音符时长，所述待计算的音符时长的计算公式dur_q为：

int()是向下取整数，lndur是所述待计算的音符时长对应的音符在所述换算后的音符时长数据中对应的音符时长，lndur_min是所述最小音符时长，lndur_max是所述最大音符时长。

本申请还提出了一种梅尔频谱的预测装置，所述装置包括：

数据获取模块，用于获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列；

目标文本编码特征数据确定模块，用于将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；

目标对齐位置数据确定模块，用于通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；

目标时间对齐特征值确定模块，用于通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；

目标梅尔频谱数据确定模块，用于通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的梅尔频谱的预测方法、装置、设备及存储介质，通过获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列，将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据，从而实现采用输入-输出特征对齐策略将时长建模隐式地集成在目标声学模块中，无需额外的时长模型，使目标声学模块更简洁紧凑。

附图说明

图1为本申请一实施例的梅尔频谱的预测方法的流程示意图；

图2为本申请一实施例的梅尔频谱的预测装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术的歌唱合成方法，在进行梅尔频谱预测时需要额外训练一个时长模型，导致模型训练步骤繁冗复杂的技术问题，本申请提出了一种梅尔频谱的预测方法，所述方法应用于人工智能技术领域，所述方法进一步应用于人工智能的神经网络技术领域。所述方法的执行主体为能够实现梅尔频谱的预测方法的设备，该设备与包括但不限于终端和服务器。其中，终端包括台式终端和移动终端，台式终端包括但不限于台式电脑、工控机、车载电脑，移动终端包括但不限于手机、平板电脑、笔记本电脑、智能手表和其他穿戴设备；服务器包括高性能计算机和高性能计算机集群。

参照图1，本申请实施例中提供一种梅尔频谱的预测方法，所述方法包括：

S1：获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列；

S2：将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；

S3：通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；

S4：通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；

S5：通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。

本实施例通过获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列，将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据，从而实现采用输入-输出特征对齐策略将时长建模隐式地集成在目标声学模块中，无需额外的时长模型，使目标声学模块更简洁紧凑。

对于S1，可以获取用户输入的待预测的文本序列，也可以从数据库中获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列，还可以从第三方应用系统中获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列。

待预测的文本序列，是需要进行梅尔频谱预测的数据。待预测的文本序列是根据曲谱数据得到的文本序列，用于表述歌词、音高和时长的特征。

对于S2至S5，所述目标声学模块是基于初始声学模块训练得到的模块。在所述初始声学模块中，文本编码器、对齐位置预测器依次连接，梅尔频谱编码器、索引映射矢量生成器、对齐图重建器、编码器依次连接，对齐图重建器与所述对齐位置预测器依次连接。

所述文本编码器包括一个嵌入层和若干前馈转换器块，每个前馈转换器包括一个自注意力层和一个一维卷积层。可以理解的是，所述文本编码器中还可以包括残差连接、归一化和Dropout(随机丢弃)。

所述对齐位置预测器包括若干卷积层。可以理解的是，所述对齐位置预测器中还包括：归一化和ReLU激活函数。

所述解码器包括：若干卷积层和一个线性层。可以理解的是，所述解码器还包括：权值归一化、Leaky ReLU激活函数和残差连接。

所述梅尔频谱编码器包括一个线性层和若干卷积层。可以理解的是，所述梅尔频谱编码器还包括：残差连接、权值归一化和线性整流激活函数(ReLU)。

可选的，所述索引映射矢量生成器和所述对齐图重建器的推导原理如下：记

为输入序列

和输出序列

之间的对齐关系矩阵，那么IMV(索引映射矢量)中的第j个数据的计算公式π_j为：

其中，p＝[0,1,…,T₁-1]，

在对所述初始声学模块进行训练时，所述索引映射矢量生成器计算IMV的过程如下：

其中，k是所述文本编码器的输出，r是所述梅尔频谱编码器的输出，D是所述文本编码器的输出和所述梅尔频谱编码器的输出的维数，exp()是以自然常数e为底的指数函数；

接下来这里设计一个双向累积和操作来生成IMV，首先从对齐关系矩阵α计算出π′，进而有：

Δπ′_j＝π′_j-π′_j-1,0<j≤T₂-1，

Δπ_j＝ReLU(Δπ′_j)，0<j≤T₂-1，

其中，ReLU()是ReLU激活函数；

对于第j个时间步，对Δπ在正向和反向两个方向进行累加，其中，f是正向，b是反向；

最后，IMV中的第j个数据下式计算得到：

在推断阶段(也就是目标声学模块的实际应用阶段)，直接从文本序列数据(文本序列数据的提取方法和文本序列样本的提取方法相同，文本序列数据是输入目标声学模块的所述文本编码器的数据)出发预测IMV将会十分困难；因此在训练阶段，将这里修改为预测每个输入令牌(也就是文本序列样本)的对齐位置(aligned position)，e定义m()为π到q的映射π＝m(q)，由于m()是单调函数，e可由下式计算：

e＝m^-1(p),p＝[0,1,…,T₁-1].

记q＝[0,1,…,T₂-1]，因此有：

其中

在实际中，为了实现并行计算，这里使用相对位置Δe(Δe_i＝e_i-ei_-1,1≤i≤T1-1取代e作为学习目标；于是对齐位置损失函数定义为：

其中，

是对齐位置预测数据，Δe是对齐位置提取数据(也就是真实值)，∈是一个用于防止数值溢出的常数，‖‖₁是L1范数。可以理解的是，∈是一个非常小的数字。

可选的，所述通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据的步骤之后，还包括：将目标梅尔频谱数据输入目标声码器模块进行歌唱合成，得到目标歌唱音频数据。

所述目标声码器模块，是采用HiFi-GAN声码器训练得到的模块。HiFi-GAN声码器是基于HiFi-GAN模型训练得到的模型。HiFi-GAN模型，能够有效生成高保真语音的基于GAN(生成式对抗网络)的模型。

需要强调的是，为进一步保证上述目标梅尔频谱数据的私密和安全性，上述目标梅尔频谱数据还可以存储至区块链系统的区块链上。

所述区块链，是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

在一个实施例中，上述将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据的步骤之前，还包括：

S21：获取多个训练样本，所述多个训练样本中的每个训练样本包括：文本序列样本和梅尔频谱标定数据；

S22：从所述多个训练样本中获取一个所述训练样本，作为目标训练样本；

S23：将所述目标训练样本的所述文本序列样本输入初始声学模块的所述文本编码器进行特征提取，得到文本编码特征预测数据；

S24：将所述文本编码特征预测数据输入所述初始声学模块的所述对齐位置预测器进行对齐位置预测，得到对齐位置预测数据；

S25：采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器，根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算，得到目标索引映射矢量；

S26：将所述文本编码特征预测数据和所述目标索引映射矢量输入所述初始声学模块的所述对齐图重建器进行时间对齐特征计算和对齐位置提取，得到时间对齐特征预测值和对齐位置提取数据；

S27：将所述时间对齐特征预测值输入所述初始声学模块的所述解码器进行梅尔频谱计算，得到梅尔频谱预测数据；

S28：根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算，得到目标损失值，根据所述目标损失值更新所述初始声学模块的参数，将更新后的所述初始声学模块用于下一次计算所述对齐位置预测数据、所述对齐位置提取数据和所述梅尔频谱预测数据；

S29：重复执行所述从所述多个训练样本中获取一个所述训练样本，作为目标训练样本的步骤，直至达到训练收敛条件，将达到所述训练收敛条件的所述初始声学模块作为所述目标声学模块。

本实施例通过采用所述多个训练样本对所述初始声学模块的文本编码器、对齐位置预测器、梅尔频谱编码器、索引映射矢量生成器、对齐图重建器和解码器进行训练，实现采用输入-输出特征对齐策略将时长建模隐式地集成在初始声学模块中，无需额外的时长模型，使初始声学模块更简洁紧凑。

对于S21，可以获取用户输入的多个训练样本，也可以从数据库中获取多个训练样本，还可以从第三方应用系统中获取多个训练样本。

每个训练样本包括一个文本序列样本和一个梅尔频谱标定数据。

文本序列样本，表述的是一首歌的曲谱的歌词特征、音高特征和音符时长特征。

在同一个训练样本中，梅尔频谱标定数据是对文本序列样本的梅尔频谱的标定数据。

对于S22，依次从所述多个训练样本中获取一个所述训练样本，将获取的所述训练样本作为目标训练样本。

对于S23，将所述目标训练样本的所述文本序列样本输入所述初始声学模块的所述文本编码器进行特征提取，将提取的所有特征作为文本编码特征预测数据，从而实现了对所述目标训练样本的所述文本序列样本的隐式表征。

对于S24，将所述文本编码特征预测数据输入所述初始声学模块的所述对齐位置预测器进行音符级别的对齐位置预测，将预测得到的所有数据作为对齐位置预测数据。

对于S25，采用所述初始声学模块的所述梅尔频谱编码器对所述目标训练样本的所述梅尔频谱标定数据进行隐式表征，然后将隐式表征得到的数据和所述文本编码特征预测数据同时输入所述初始声学模块的所述索引映射矢量生成器进行索引映射矢量生成，将生成的索引映射矢量作为目标索引映射矢量。

对于S26，将所述文本编码特征预测数据和所述目标索引映射矢量同时输入所述初始声学模块的所述对齐图重建器进行时间对齐特征计算和对齐位置提取，将计算的时间对齐特征作为时间对齐特征预测值，将计算得到的对齐位置数据作为对齐位置提取数据。

时间对齐特征是一个矩阵，描述了两个序列之间的单调对齐关系。比如，对于“今天是星期六”，“今天是星期六”对应的语音音频是第一序列，“今天是星期六”对应的文字是第二序列，第一序列和第二序列是两个序列的单调对齐的关系，在此举例不做具体限定。

对于S27，将所述时间对齐特征预测值输入所述初始声学模块的所述解码器进行梅尔频谱计算，将计算得到的梅尔频谱作为所述梅尔频谱预测数据。

对于S28，将所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据输入损失函数进行损失值计算，将计算得到的损失值作为目标损失值。

根据所述目标损失值更新所述初始声学模块的参数的具体步骤在此不做赘述。

对于S29，重复执行步骤S22至步骤S29，直至达到训练收敛条件。

训练收敛条件包括：所述目标损失值达到第一收敛条件或迭代次数达到第二收敛条件。

所述第一收敛条件是指相邻两次计算的所述目标损失值的大小满足lipschitz条件(利普希茨连续条件)。

所述迭代次数达到第二收敛条件是指所述初始声学模块被训练的次数，也就是说，所述初始声学模块被训练一次，迭代次数增加1。

对训练结束的所述初始声学模块进行调整的方法为：丢弃训练结束的所述初始声学模块的梅尔频谱编码器、索引映射矢量生成器，然后将训练结束的所述初始声学模块的所述文本编码器、所述对齐位置预测器、所述对齐图重建器和所述解码器进行依次连接，将训练结束的所述初始声学模块的所述文本编码器与所述对齐图重建器依次连接，将训练结束的所述初始声学模块完成调整后作为目标声学模块。

因初始声学模块以卷积层为主，因此目标声学模块也以卷积层为主，目标声学模块可以实现全并行快速推断，提高了目标声学模块的推断速度。

在一个实施例中，上述采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器，根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算，得到目标索引映射矢量的步骤，包括：

S251：将所述目标训练样本的所述梅尔频谱标定数据输入所述初始声学模块的所述梅尔频谱编码器进行特征提取，得到梅尔频谱编码特征数据；

S252：将所述文本编码特征预测数据和所述梅尔频谱编码特征数据，输入所述初始声学模块的所述索引映射矢量生成器进行索引映射矢量计算，得到所述目标索引映射矢量。

本实施例实现了采用所述初始声学模块的所述梅尔频谱编码器及所述索引映射矢量生成器，根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算，为对齐图重建器构建对齐图提供了支持。

对于S251，将所述目标训练样本的所述梅尔频谱标定数据输入所述初始声学模块的所述梅尔频谱编码器进行特征提取，将提取得到的所有特征作为梅尔频谱编码特征数据，从而实现了对所述目标训练样本的所述梅尔频谱标定数据的隐式表征。

对于S252，将所述文本编码特征预测数据和所述梅尔频谱编码特征数据，输入所述初始声学模块的所述索引映射矢量生成器进行索引映射矢量计算，将计算得到的索引映射矢量作为所述目标索引映射矢量。

在一个实施例中，上述根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算，得到目标损失值的步骤，包括：

S281：将所述对齐位置预测数据和所述对齐位置提取数据输入对齐位置损失函数进行损失值计算，得到第一损失值；

S282：将所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据输入梅尔频谱损失函数进行损失值计算，得到第二损失值；

S283：将所述第一损失值和所述第二损失值进行加权求和，得到所述目标损失值；

其中，所述对齐位置损失函数的计算公式

为：

所述梅尔频谱损失函数的计算公式

为：

所述目标损失值的计算公式

为：

是所述梅尔频谱预测数据的第i维的数据，mel_i是所述目标训练样本的所述梅尔频谱标定数据的第i维的数据，N是所述目标训练样本的所述梅尔频谱标定数据的总维数，λ是常数。

本实施例实现了根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据进行损失值计算，实现了对对齐位置预测器和整个所述初始声学模块的训练，从而实现采用输入-输出特征对齐策略将时长建模隐式地集成在初始声学模块中。

对于S281，将所述对齐位置预测数据和所述对齐位置提取数据输入对齐位置损失函数进行损失值计算，将计算得到的损失值作为第一损失值。

对于S282，将所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据输入梅尔频谱损失函数进行损失值计算，将计算得到的损失值作为第二损失值。

对于S283，将所述第一损失值和所述第二损失值进行加权求和，将计算得到的损失值作为所述目标损失值。

在一个实施例中，上述获取多个训练样本的步骤，包括：

S21：获取多个曲谱数据；

S22：从所述多个曲谱数据中提取一个曲谱数据作为目标曲谱数据；

S23：根据所述目标曲谱数据进行歌词提取及编码生成，得到歌词编码数据；

S24：根据所述目标曲谱数据进行音高提取及编码生成，得到音高编码数据；

S25：根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理，得到目标音符时长数据；

S26：根据所述歌词编码数据、所述音高编码数据和所述目标音符时长数据进行按音符对齐处理及多维向量拼接，得到曲谱特征数据；

S27：获取所述目标曲谱数据对应的梅尔频谱数据，得到目标梅尔频谱数据；

S28：根据所述曲谱特征数据和所述目标梅尔频谱数据生成所述目标曲谱数据对应的所述训练样本；

S29：重复执行所述从所述多个曲谱数据中提取一个曲谱数据作为目标曲谱数据的步骤，直至完成述多个曲谱数据中的所述曲谱数据的提取。

本实施例实现了从曲谱数据中提取歌词特征、音高特征和音符时长特征作为训练样本的文本序列样本，为实现采用输入-输出特征对齐策略将时长建模隐式地集成在初始声学模块中提供了支持。

对于S21，可以获取用户输入的多个曲谱数据，也可以从数据库中获取多个曲谱数据，还可以从第三方应用系统中获取多个曲谱数据。

对于S22，依次从所述多个曲谱数据中提取一个曲谱数据，将提取的曲谱数据作为目标曲谱数据。

对于S23，从所述目标曲谱数据提取歌词，根据提取的歌词进行编码，将编码得到的数据作为歌词编码数据。

对于S24，从所述目标曲谱数据提取音高，采用独热编码方式，对提取的音高进行编码，将编码得到的数据作为音高编码数据。

音高，是指各种音调高低不同的声音，即音的高度，音的基本特征的一种。

对于S25，根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取，根据提取的音符时长进行量化处理，将量化处理得到的数据作为目标音符时长数据。

对于S26，根据所述歌词编码数据、所述音高编码数据和所述目标音符时长数据进行按音符对齐处理及多维向量拼接，将拼接得到的向量作为曲谱特征数据。

也就是说，将所述歌词编码数据作为向量的第一维，将所述音高编码数据作为向量的第二维，将所述目标音符时长数据作为向量的第三维，并且使向量的每列表征的是同一个音符的数据，将该向量作为曲谱特征数据。

对于S27，获取所述目标曲谱数据对应的梅尔频谱数据，将获取的梅尔频谱数据作为目标梅尔频谱数据。

对于S28，将所述曲谱特征数据作为所述目标曲谱数据对应的所述训练样本的文本序列样本，将所述目标梅尔频谱数据作为作为所述目标曲谱数据对应的所述训练样本的梅尔频谱标定数据。

对于S29，重复执行步骤S22至步骤S29，直至完成述多个曲谱数据中的所述曲谱数据的提取。

在一个实施例中，上述根据所述目标曲谱数据进行歌词提取及编码生成，得到歌词编码数据的步骤，包括：

S231：根据所述目标曲谱数据进行歌词提取，得到待处理的歌词数据；

S232：分别在所述待处理的歌词数据中的每个句子的句首及句末添加句子分隔符，得到添加句子分隔符后的歌词数据；

S233：对所述添加句子分隔符后的歌词数据进行标点符号删除处理，得到标点符号删除后的歌词数据；

S234：在所述标点符号删除后的歌词数据进行相邻汉字之间添加字符分隔符处理，得到添加字符分隔符后的歌词数据；

S235：对所述添加字符分隔符后的歌词数据进行汉字转换拼音处理，得到转换拼音后的歌词数据；

S236：对所述转换拼音后的歌词数据进行声调删除处理，得到声调删除后的歌词数据；

S237：对所述声调删除后的歌词数据进行独热编码，得到所述歌词编码数据。

本实施例实现了对提取的歌词依次进行句首及句末添加句子分隔符、标点符号删除处理、相邻汉字之间添加字符分隔符处理、汉字转换拼音处理、声调删除处理、独热编码，从而提高了确定的歌词编码数据的准确性，提高了对初始声学模块进行训练的准确性。

对于S231，根据所述目标曲谱数据进行歌词提取，将提取的歌词作为待处理的歌词数据。

可选的，所述根据所述目标曲谱数据进行歌词提取，得到待处理的歌词数据的步骤，包括：根据所述目标曲谱数据进行歌词提取，得到待切分的歌词数据；对所述待切分的歌词数据按休止符进行切分，得到休止符切分后的歌词数据；对所述休止符切分后的歌词数据进行语义切分，得到所述待处理的歌词数据，从而使所述待处理的歌词数据中的每个短句表述的是完整的语义，从而有利于进一步提高确定的歌词编码数据的准确性。

比如，“乘着风游荡在蓝天边一片云掉落在我面前捏成你的形状/随风跟着我……”，采用休止符“/”进行切分，得到““①乘着风游荡在蓝天边一片云掉落在我面前捏成你的形状②随风跟着我……”，对““①乘着风游荡在蓝天边一片云掉落在我面前捏成你的形状②随风跟着我……”进行语义切分，得到“①乘着风游荡在蓝天边②一片云掉落在我面前③捏成你的形状④随风跟着我……”，在此举例不做具体限定。

对于S232，分别在所述待处理的歌词数据中的每个句子的句首及句末添加句子分隔符，可以理解的是，相邻两个句子之间只需要添加一个句子分隔符。

比如，句子分隔符采用“～”，在此举例不做具体限定。

对于S233，对所述添加句子分隔符后的歌词数据进行标点符号删除处理，从而避免标点符号对影响歌词编码数据的准确性。

对于S234，比如，字符分隔符采用“<s>”，在此举例不做具体限定。

对于S235，对所述添加字符分隔符后的歌词数据进行汉字转换拼音处理，也就是对所述添加字符分隔符后的歌词数据中的汉字采用声母和韵母来表述。

对于S237，采用独热编码方法，对所述声调删除后的歌词数据进行独热编码，将编码得到的数据作为所述歌词编码数据。

在一个实施例中，上述根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理，得到目标音符时长数据的步骤，包括：

S251：根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取，得到待换算的音符时长数据；

S252：采用预设时间单位，对所述待换算的音符时长数据进行换算处理，得到换算后的音符时长数据；

S253：从所述换算后的音符时长数据中提取最小的音符时长，得到最小音符时长；

S254：从所述换算后的音符时长数据中提取最大的音符时长，得到最大音符时长；

S255：根据所述换算后的音符时长数据、所述最小音符时长及所述最大音符时长进行量化处理，得到所述目标音符时长数据；

本实施例根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理，为实现采用输入-输出特征对齐策略将时长建模隐式地集成在初始声学模块中提供了支持。

对于S251，根据所述目标曲谱数据的音符数据及节拍数据，分别所述目标曲谱数据中的每个音符进行音符时长提取，将提取得到的所有音符时长作为待换算的音符时长数据。

对于S252，分别将所述待换算的音符时长数据中的每个音符时长进行换算成采用预设时间单位的浮点数，将换算得到的所有数据作为换算后的音符时长数据。也就是说，换算后的音符时长数据是采用预设时间单位的浮点数。

可选的，所述预设时间单位设置为1秒。

对于S253，从所述换算后的音符时长数据中提取最小的音符时长，将提取得到的最小的音符时长作为最小音符时长。

对于S254，从所述换算后的音符时长数据中提取最大的音符时长，将提取得到的最大的音符时长作为最大音符时长。

对于S255，根据所述换算后的音符时长数据、所述最小音符时长及所述最大音符时长，分别对所述换算后的音符时长数据中的每个音符时长进行量化处理，将量化处理后的所有数据作为所述目标音符时长数据。

参照图2，本申请还提出了一种梅尔频谱的预测装置，所述装置包括：

数据获取模块100，用于获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列；

目标文本编码特征数据确定模块200，用于将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；

目标对齐位置数据确定模块300，用于通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；

目标时间对齐特征值确定模块400，用于通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；

目标梅尔频谱数据确定模块500，用于通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存梅尔频谱的预测方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种梅尔频谱的预测方法。所述梅尔频谱的预测方法，包括：获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列；将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种梅尔频谱的预测方法，包括步骤：获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列；将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。

上述执行的梅尔频谱的预测方法，通过获取待预测的文本序列，所述待预测的文本序列是根据曲谱数据提取得到的文本序列，将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据；通过所述目标声学模块的对齐位置预测器，对所述目标文本编码特征数据进行对齐位置预测，得到目标对齐位置数据；通过所述目标声学模块的对齐图重建器，根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算，得到目标时间对齐特征值；通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据，从而实现采用输入-输出特征对齐策略将时长建模隐式地集成在目标声学模块中，无需额外的时长模型，使目标声学模块更简洁紧凑。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种梅尔频谱的预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的梅尔频谱的预测方法，其特征在于，所述将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取，得到目标文本编码特征数据的步骤之前，还包括：

重复执行所述从所述多个训练样本中获取一个所述训练样本，作为目标训练样本的步骤，直至达到训练收敛条件，将达到所述训练收敛条件的所述初始声学模块作为所述目标声学模块。

3.根据权利要求2所述的梅尔频谱的预测方法，其特征在于，所述采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器，根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算，得到目标索引映射矢量的步骤，包括：

4.根据权利要求2所述的梅尔频谱的预测方法，其特征在于，所述根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算，得到目标损失值的步骤，包括：

其中，所述对齐位置损失函数的计算公式

为：

所述梅尔频谱损失函数的计算公式

为：

所述目标损失值的计算公式

为：

是所述对齐位置预测数据，Δe是所述对齐位置提取数据，∈是用于防止数值溢出的常数，||||₁是L1范数，log()是对数函数，

是所述梅尔频谱预测数据的第i维的数据，mel_i是所述目标训练样本的所述梅尔频谱标定数据的第i维的数据，N是所述目标训练样本的所述梅尔频谱标定数据总维数，λ是常数。

5.根据权利要求2所述的梅尔频谱的预测方法，其特征在于，所述获取多个训练样本的步骤，包括：

获取多个曲谱数据；

6.根据权利要求5所述的梅尔频谱的预测方法，其特征在于，所述根据所述目标曲谱数据进行歌词提取及编码生成，得到歌词编码数据的步骤，包括：

7.根据权利要求5所述的梅尔频谱的预测方法，其特征在于，所述根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理，得到目标音符时长数据的步骤，包括：

int()是向下取整数，ln d ur是所述待计算的音符时长对应的音符在所述换算后的音符时长数据中对应的音符时长，ln d ur_min是所述最小音符时长，ln d ur_max是所述最大音符时长。

8.一种梅尔频谱的预测装置，其特征在于，所述装置包括：

目标梅尔频谱数据确定模块，用于通过所述目标声学模块的解码器，对所述目标时间对齐特征值进行梅尔频谱计算，得到目标梅尔频谱数据。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。