CN117059122A

CN117059122A - 模型训练方法、装置、电子设备和可读存储介质

Info

Publication number: CN117059122A
Application number: CN202311130396.7A
Authority: CN
Inventors: 冯萌
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-11-14

Abstract

本申请公开了一种模型训练方法、装置、电子设备和可读存储介质，属于人工智能技术领域。所述方法包括：获取语音训练集和音素序列训练集，其中，所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列；将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型，并输出语音合成集，其中，所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量；根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练。

Description

模型训练方法、装置、电子设备和可读存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种模型训练方法、装置、电子设备和可读存储介质。

背景技术

目前，随着人们的生活节奏变快，在电子设备中播放语音时，正常的语速已经无法满足人们的需求，二倍速、三倍速、四倍速等高倍速已成为越来越多人选择的语音播放语速。

在现有技术中，为了满足用户需求，在基于不同的语速合成语音的过程中，采取强制调整语音时长的方式，从而导致语音的时长与语音特征不对应，最终导致合成的语音中出现破音等现象。

发明内容

本申请实施例的目的是提供一种模型训练方法，能够解决在现有技术中合成的语音中出现破音等现象的问题。

第一方面，本申请实施例提供了一种模型训练方法，该方法包括：获取语音训练集和音素序列训练集，其中，所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列；将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型，并输出语音合成集，其中，所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量；根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练。

第二方面，本申请实施例提供了一种模型训练装置，该装置包括：获取模块，用于获取语音训练集和音素序列训练集，其中，所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列；第一输出模块，用于将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型，并输出语音合成集，其中，所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量；训练模块，用于根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

这样，在本申请的实施例中，收集语音训练集，语音训练集包括大量语音对应的第一语音特征向量，以及每个语音对应的语速；同时，获取与语音训练集中每个语音对应的音素序列，形成音素序列训练集。进一步地，将训练集中的音素序列与其对应语音的语速输入至第一模型，从而由第一模型预测出对应的第二语音特征向量，第二语音特征向量用于合成语音，进而基于预测出来的大量第二语音特征向量与对应的训练集中的第一语音特征向量，对第一模型进行训练，以使得预测出来的第二语音特征向量尽可能地接近第一语音特征向量。可见，基于本申请的实施例训练的模型，可用于针对不同语速输出语音，不需要强制调整语音时长，从而确保语音中不会出现破音等现象。

附图说明

图1是本申请实施例的模型训练方法的流程图；

图2是本申请实施例的电子设备的显示示意图之一；

图3是本申请实施例的模型训练方法的说明示意图之一；

图4是本申请实施例的模型训练方法的说明示意图之二；

图5是本申请实施例的模型训练方法的说明示意图之三；

图6是本申请实施例的模型训练方法的说明示意图之四；

图7是本申请实施例的模型训练方法的说明示意图之五；

图8是本申请实施例的模型训练方法的说明示意图之六；

图9是本申请实施例的模型训练方法的说明示意图之七；

图10是本申请实施例的模型训练方法的说明示意图之八；

图11是本申请实施例的电子设备的显示示意图之二；

图12是本申请实施例的模型训练装置的框图；

图13是本申请实施例的电子设备的硬件结构示意图之一；

图14是本申请实施例的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的模型训练方法，其执行主体可以是本申请实施例提供的模型训练装置，或者集成了该模型训练装置的电子设备，其中该模型训练装置可以采用硬件或软件的方式实现。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的模型训练方法进行详细地说明。

图1示出了本申请一个实施例的模型训练方法的流程图，以该方法应用于电子设备进行举例，该方法包括：

步骤110：获取语音训练集和音素序列训练集，其中，语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，音素序列训练集包括与语音训练集中每一个语音对应的音素序列。

可选地，参见图2，在用户触发屏幕朗读功能时，可选择任意语速，从而电子设备基于选择的语速将屏幕显示的文字内容播报出来。基于上述历史场景，可以收集不同语速的语音数据，用作语音训练集，而每个语音数据对应的音素序列，可形成音素序列训练集。

其中，本实施例的语速即单位时间内所呈现的词汇速度，语速可以是具体的数值，如“0.5”、“1.0”、“1.5”。

例如，同一句话“她也想换床位呢”的不同语速的语音数据的音频波形图不同。

可选地，在上述历史场景中，在基于文本内容合成语音数据后，可调整语音时长，以生成不同语速的语音数据，基于这种生成方式，改变了最终语音时长，但生成语音数据的耗时没有变化，因此语速对应的倍数越大，实时率也会相应增加，但不会出现破音现象，可用于本申请的模型训练中。

其中，实时率＝语音合成耗时÷合成语音时长，实时率越小说明合成效率越高。

可选地，对语音训练集中的语音数据进行预加重、分帧、加窗等处理，然后对每帧的信号作短时傅立叶变换操作，得到短时幅度谱，伽马酮(Gammatone)滤波器组将幅度谱转化为梅尔(Mel)频率谱，即Mel特征。从而，得到各个语音数据的第一语音特征向量。

其中，预加重即将信号沿时间轴方向进行微分，然后将微分后的信号乘以一个高通滤波器的增益，从而实现高频放大低频衰减的效果；分帧即将语音信号转化为短时语音信号，使得每个帧内的语音信号具备平稳性和短时可靠性，以便于后续信号处理；加窗主要是为了使信号似乎更好地满足快速傅里叶变换处理的周期性要求，减少泄漏；短时傅里叶变换(Short-Time Fourier Transform，STFT)将每个帧内的语音信号分解为多个不同频率的正弦波，每个分量的强度对应于该频率下的声音的强度。

步骤120：将语音训练集包括的各个语速和音素序列训练集输入至第一模型，并输出语音合成集，其中，语音合成集包括由第一模型合成的各个语音的第二语音特征向量。

步骤130：根据语音训练集中的各个第一语音特征向量和语音合成集中的各个第二语音特征向量，对第一模型进行训练。

在本实施例中，以语音训练集中的一个语音的特征向量、该语音对应的语速和该语音对应的音素序列，作为一个训练样本，将语速和音素序列输入至第一模型后，可以得到预测出来的该语速对应的语音特征向量，结合训练集中对应的语音特征向量，对第一模型进行训练。基于多个样本迭代训练，可以完成对第一模型的训练。

其中，第一语音特征向量用于表示真实的特征向量，第二语音特征向量用于表示预测的特征向量，二者均用于合成完整的语音。

在本申请另一个实施例的模型训练方法中，以一个样本为例进行说明，语音训练集包括第一语音的第一语音特征向量，第一语音对应第一语速，音素序列训练集包括与第一语音对应第一音素序列。

第一模型包括编码器、基频预测器、语速模块、时长预测器、扩展器和解码器。

在本实施例的流程中，步骤120，包括：

子步骤A1：将第一音素序列输入至编码器，并输出第一音素特征向量。

在该步骤中，参见图3，将第一音素序列中的各个音素输入至编码器，输出音素特征，其中，多个音素特征组合在一起，形成第一音素特征向量。

子步骤A2：将第一音素特征向量输入至基频预测器，并输出第一基频特征向量。

在该步骤中，参见图3，将各音素特征输入至基频预测器，输出各个音素的基频特征，多个音素的基频特征组合在一起，形成第一基频特征向量。

子步骤A3：将第一语速输入至语速模块，并输出第一语速特征向量。

在该步骤中，参见图3，语速模块由一个全连接层(Linera)+一个卷积核为“3”的一维卷积层(图中的Conv1D)构成，可将输入的第一语速由“1”维特征转成“256”维特征。

例如，第一语速为“1.5”，经语速模块，转换形式为：[1.5]→[0.37，-0.93，0.44，…0.77]。具体地，全连接层权重w为一个“1x256”的矩阵[w₁，w₂，…w₂₅₆]，偏置b为“256”的向量[b₁，b₂，…b₂₅₆]；将语速“1.5”与w的每一维相乘，得到一个“256”维的向量，再与b的对应维相加，得到中间语速特征。再将中间语速特征送到卷积层进行计算，卷积计算如图4所示：从输入特征起始位置，选取卷积核大小个特征，与卷积核进行对应位相乘，再相加，得到卷积计算结果。

其中，语速模块输出语速特征向量集合表示为S＝[s₁，s₂，…s_n]，其中的任一项表示为一个语速对应的语速特征向量。对应地，第一语速特征向量为s₁，s₂，…s_n中的其中一个。

子步骤A4：将第一语速特征向量和第一音素特征向量进行相加，得到第一特征向量。

在该步骤中，将第一语速特征向量与第一音素特征向量相加，如第一语速特征向量[0.45，1.48，-0.32…]，第一音素特征向量中的一个音素特征为[0.33，0.17，1.11…]，相加后，得到第一特征向量中的一项为[0.78，1.63，0.79]。

在该步骤中，给音素特征赋予了语速信息。

子步骤A5：将第一特征向量输入至时长预测器，并输出第一时长特征向量。

参见图3，在该步骤中，将第一特征向量输入至时长预测器，得到每个音素出现的时长，多个音素的时长组合在一起，形成第一时长特征向量。

可选地，为了方便后续为扩展器所用，对时长进行了取整处理，如预测各音素时长为[8.6，5.1，11.4，9.7]，取整后为[8，5，11，9]。

子步骤A6：将第一基频特征向量和第一音素特征向量进行相加，得到第二特征向量。

在该步骤中，第一基频特征向量和第一音素特征向量进行相加，给音素特征向量赋予基频信息，得到第二特征向量。

子步骤A7：将第二特征向量和第一时长特征向量输入至扩展器，并输出第一音素扩展特征向量。

在该步骤中，参见图3，结合第二特征向量和第一时长特征向量，进行音素扩展。

其中，对于第二特征向量中的任意一个音素，根据该音素在第一时长特征向量中对应的特征数，扩展与特征数相同数量的音素。

例如，第二特征向量为[p₁，p₂，p₃]，其中的各项p_*用于表示单个音素的特征，对应的第一时长特征向量为[3，4，5]，则第一音素扩展特征向量为[p₁，p₁，p₁，p₂，p₂，p₂，p₂，p₃，p₃，p₃，p₃，p₃]。此时，对应的第二语音特征向量Mel＝[m₁，m₂，m₃，m₄，m₅，m₆，m₇，m₈，m₉，m₁₀，m₁₁，m₁₂]。

子步骤A8：将第一音素扩展特征向量和第一语速特征向量进行相加，得到第三特征向量。

在该步骤中，将第一语速特征向量与第一音素扩展特征向量中的各项逐一相加。

在该步骤，给扩展后的音素特征赋予语速信息。

例如，第一音素扩展特征向量为[p₁，p₁，p₁，p₂，p₂，p₂，p₂，p₃，p₃，p₃，p₃，p₃]，第一语速特征向量s₁，相加后，第三特征向量为[p₁+s₁，p₁+s₁，p₁+s₁，p₂+s₁，p₂+s₁，p₂+s₁，p₂+s₁，p₃+s₁，p₃+s₁，p₃+s₁，p₃+s₁，p₃+s₁]。

在该步骤中，可使得相同音素序列在赋予不同语速后，与不同语速的语音形成了一一对应关系。例如：音素序列[n，i]，“1.0”倍语速下，时长特征向量为[2，4]，音素扩展特征向量为[p₁，p₁，p₂，p₂，p₂，p₂]，语音特征向量为Mel1＝[m₁，m₂，m₃，m₄，m₅，m₆]，语速特征向量s₁，赋予语速信息后的音素扩展特征向量为[p₁+s₁，p₁+s₁，p₂+s₁，p₂+s₁，p₂+s₁，p₂+s₁]；“2.0”倍语速下，时长特征向量为[1，2]，音素扩展特征向量为[p₁，p₂，p₂]，语音特征向量为Mel2＝[n1，n2，n3]，语速特征向量s₂，赋予语速信息后的音素扩展特征向量为[p₁+s₂，p₂+s₂，p₂+s₂]。

子步骤A9：将第三特征向量流式输入至解码器，并输出第二语音特征向量。

在该步骤中，为了实现流式合成语音，即随着音素序列的输入，实时合成语音数据的特征向量。

具体地，将第三特征向量中的各项(p_*+s_*)逐一输入到解码器，即可输出Mel特征，无需一次性输入多个(p_*+s_*)才能得到Mel特征。

其中，输出的各Mel特征组成在一起，形成第二语音特征向量。

可参考地，循环神经网络(Recurrent Neural Network，RNN)对序列数据具有记忆性，它可以通过循环层自适应地更新隐藏状态并将之前的信息传递到当前时刻，从而实现对序列数据的记忆。如图5所示，输入x1，网络输出o1，同时输出隐藏状态state；当输入x2，隐藏状态state也输入到网络，网络输出o2，同时输出state，此时state隐含x1，x2的信息。因此，本实施例使用多层RNN模块作为解码器的主要结构，如图6所示。第三特征向量中的各项，经过Linear1层进行线性变换，再输入到RNNs，这里的RNNs是连续的四层长短时记忆网络(Long Short-Term Memory，LSTM)，再输入到Linear2，进行维度变换，将“256”维的解码特征映射成“80”维的Mel特征。

在本实施例中，提供一种第一模型输出第二语音特征向量的过程，在此过程中，针对于音素序列，在其特征中赋予了基频信息、语速信息、时长信息，进一步地，根据音素出现的时长，对音素特征进行扩展，再对扩展后的音素特征赋予语速信息，从而学习不同语速下的音素特征，以确保输出的语音特征向量是充分综合了语速和音素特征的，进而确保不会因语速的变化，使得最终合成的语音中出现破音等现象。

在本申请另一个实施例的模型训练方法的流程中，步骤130，包括：

子步骤B1：根据第一语音的第一语音特征向量中的各项和第二语音特征向量中的对应项，对第一模型进行训练。

可选地，结合上一个实施例，在第三特征向量中，基于一个(p_*+s_*)，输出Mel特征，与真实的Mel特征之间计算回归损失函数(L2-Loss)，使得预测的Mel特征逼近真实的Mel特征。

其中，

在本实施例中，提供了一种基于音素的预测特征与真实的特征之间进行损失函数计算的训练方法，以使得第一模型预测的音素特征无限接近真实特征。

在本申请另一个实施例的模型训练方法的流程中，在步骤A1之前，该方法还包括：

步骤C1：将与第一语音对应的第一文本，转换为第一拼音序列和与第一拼音序列对应的第一声调序列，其中，由多音字预测模型输出第一拼音序列中的多音字声调，获得第一声调序列，第一声调序列包括第一拼音序列的各拼音的声调。

可选地，使用开源工具(如pypinyin)实现转换。

在本实施例中，建立一个字典库，对于每个字都给定一个拼音，如：“国guo2”、“好hao3”，其中数字表示声调，数字“1～4”代表四个声调，“5”代表轻声。另外，对于文本中出现的英文，转换为拼音后，英文辅音声调为“6”，元音及其次重音、重音声调为“7～9”。对于不包含多音字的文本，经过字典库得到相应的拼音和声调；对于包含多音字的文本，经过多音字预测模型，得到正确的拼音和声调。

可参考地，多音字预测模型如图7所示。

例如，首先对文本进行分析，文本中第三个字“种”为多音字，即“position＝3”，同时，属于分类器“1”的类别，即“index＝1”；然后使用开源的字向量模型(word2vec)，得到每个字的字向量，即得到文本特征向量，将文本特征向量依次经过线性层linear1、双向长短时记忆网络(biLSTM)，经过网络层的向量计算，得到编码处理后的特征向量。由于biLSTM网络层的性质，每个字都综合了上下文的特征属性，因此能综合上下文信息来判断多音字的发音；linear2为残差结构，作用是加速模型收敛。

得到biLSTM输出(Output)之后，根据“position＝3”，获取结果中的第三个向量；根据“index＝1”，找到分类器“1”；将该结果送到分类器“1”中，进行二分类发音预测，得到的结果为发音“zhong3”、“zhong4”的概率，概率大即为正确的拼音和声调。

其中，第一拼音序列包括文本对应的各个拼音，第一声调序列包括各个拼音对应的声调。

步骤C2：将第一文本输入至韵律预测模型，并输出与第一文本对应的韵律信息。

在该步骤中，为了使语音有更好的自然度，语音中需要在合适的位置出现或长或短的停顿。如：“祖父XX县XX楼大祠堂捐献给中小学校用。”，没有停顿的话，听起来会非常的不舒适。为了解决这个问题，利用韵律预测模型，预测文本中每个字后是否有停顿以及停顿类型。

可参考地，韵律预测模型如图8所示。

韵律预测模型与多音字预测模型结构相似，区别在于分类阶段，韵律模型会预测的停顿类型，类别为“0～4”，“0”表示没有停顿；“1～4”表示不同的停顿级别。

例如，首先使用开源的字向量模型(word2vec)，得到每个字的字向量，即得到文本特征向量，将文本特征向量依次经过线性层linear1、biLSTM，经过网络层的向量计算，得到编码处理后的特征向量。由于biLSTM网络层的性质，从前往后对文本进行了一次编码，又从后往前对文本进行一次编码，对于每个字而言，都综合了上下文的信息。linear2为残差结构，作用是加速模型收敛。韵律分类器接收biLSTM输出(Output)，对每个字的编码向量进行分类。这里的分类器是一个线性层，输入为“128”维的编码向量，输出为一个“5”维的向量，对应分类类别“0～4”；激活函数为Softmax，这里N＝“5”，对应五分类。

其中，

经过Softmax后，五维输出向量转成五个概率，如：输入[0.33，0.32，0.55，0.34，0.28]，经过Softmax得到结果[0.1924，0.1905，0.2397，0.1943，0.1830]，取结果中最大值的索引为分类类别，该样例分类类别为“2”。

对模型分类结果做如下处理：用#号+数字在文本中进行标识，如：“祖父#1在#1XX县的#1XX楼#1大祠堂#3捐献给#1中小#1学校用#4”；其中“#号+数字”表示该位置有停顿，数字大小表示停顿级别，越大停顿越久。

另外，在文本的开始和结尾处分别标记sil，表示静音段。

从而，在该步骤中，得到与第一文本对应的韵律信息，即穿插在第一文本中的#号+数字。

步骤C3：组合由第一拼音序列转换的各个音素和由韵律信息转换的各个音素。

其中，音素为语音合成系统中的最小输入，即中文系统中的声母、韵母，英文系统中的元音、辅音。

可选地，建立一个拼音转音素的字典，如：“zhong1→zh ong1”、“guo2→g uo2”，将得到的拼音转换成音素。

进一步地，将韵律信息插入各个音素当中。可选地，将#号+数字如其中，“#1～#4”使用转换为“sp1～sp4”，从而将韵律信息转换音素符号，以标记在音素当中音素符号“sp1～sp4”标记。

步骤C4：根据由韵律信息转换的各个音素的声调，更新第一声调序列，其中，由韵律信息转换的各个音素的声调由第一规则设定。

第一规则如：音素sp*和音素sil用于表示音律信息，将音律信息的声调设定为“0”。

步骤C5：根据组合的各个音素和第一声调序列，得到第一音素序列。

例如，参见图9，第一文本：“像猫王elvis那种”，第一拼音序列为“xiang4mao1wang2 EH1 L.W IH0 S na4 zhong3”，标记韵律信息后为“xiang4 mao1wang2#2elvis#1na4zhong3#4”。将第一拼音序列对应的各个音素和韵律信息对应的各音素组合在一起，为图中输出结果“音素”，第一声调序列为图中输出结果“声调”，“音素”和“声调”组合成一个二元组，即：(sil，0)(x，0)(iang，4)…(sil，0)，该二元组即训练集的音素序列。

在本实施例中，提供了一种用于将第一文本转换为第一音素序列的方法，使得第一音素序列包括：由文本的拼音转换而来的音素、由韵律信息转换而来的音素，还包括音素的声调特征，使得基于第一音素序列得到的音素特征较为全面，在后续的处理步骤中，可充分利用音素特征。

在本申请另一个实施例的模型训练方法的流程中，在步骤A2之后，步骤130，包括：

子步骤D1：根据第一语音的第二基频特征向量和第一基频特征向量，对编码器和基频预测器的参数进行更新。

可选地，第一语音的第二基频特征向量的获取方式如下：

通常，一个语音的帧数，和其音素序列中的音素个数成倍数关系。如语音时长为“1.95”秒，按“10”毫秒一帧进行分帧，该语音共由“195”帧；其音素序列为：“sil t a zeroie x iang sp1 h uan ch uang zero ei n e sil”，共十七个音素。在语音合成的过程中，需要将各音素准确地与语音数据对齐，才能保证合成正确完整的语音。

可选地，首先使用开源工具(如：Kaldi工具箱)的自动对齐功能，将各个音素与语音数据进行强制对齐，得到每个音素在语音中的位置及持续时长。如图10所示，音素“x”起始于语音的“0.59”秒，即第“59”帧；持续时长为“0.11”秒，即“11”帧。

进一步地，用swipe算法提取该时间段内每一帧语音数据的基频，求取平均值，即得到一个音素的基频特征。从而，可以得到包括多个音素的基频特征的第二基频特征向量。

其中，第一基频特征向量为预测的基频特征向量，第二基频特征向量为真实的基频特征向量。

可选地，基于第一基频特征向量和第二基频特征向量之间计算绝对损失函数(L1_loss)，以针对在输出第一基频特征向量过程中，涉及到的编码器和基频预测器的参数进行更新，以使得预测的基频特征向量更加接近真实的基频特征向量，从而达到训练模型的目的。

其中，

具体地，基于第一基频特征向量中的一项和第二基频特征向量中的对应项之间计算绝对损失函数；重复多次，直至完成所有项之间的计算。

在本实施例中，基于对基频特征的预测，在训练过程针对涉及预测环节的各结构进行参数的更新，使得第一模型预测出来的基频特征较为准确，可以很好地保证发音的稳定性。

在本申请另一个实施例的模型训练方法的流程中，在步骤A5之后，步骤130，包括：

子步骤E1：根据第一语音的第二时长特征向量和第一时长特征向量，对编码器、基频预测器、语速模块和时长预测器的参数进行更新。

其中，第一时长特征向量为预测的时长特征向量，第二时长特征向量为真实的时长特征向量。

时长特征向量的各个项分别用于表示对应音素出现在语音中的时长。

可选地，基于第一时长特征向量和第二时长特征向量做L2_loss，以针对输出第一时长特征向量过程中，涉及到的对编码器、基频预测器、语速模块和时长预测器的参数进行更新，以使得预测的时长特征向量更加接近真实的时长特征向量，以达到训练模型的目的。

具体地，基于第一时长特征向量中的一项和第二时长特征向量中的对应项之间计算绝对损失函数；重复多次，直至完成所有项之间的计算。

在本实施例中，基于对音素出现时长的预测，在训练过程针对涉及预测环节的各结构进行参数的更新，使得第一模型预测出来的时长较为准确。

在本申请实施例训练好的第一模型的使用场景中，参见图11，基于屏幕显示的文本内容和用户输入的语速，可以输出Mel特征数据，使用HiFiGAN声码器将Mel特征数据转换成最后的语音。

综上，本申请通过了一种类FastSpeech2的声学模型(即第一模型)，并增加了一个语速模块，在模型训练阶段加入倍速语音数据，通过语速模块，让模型自身学习倍速信息，另外将语速信息应用到时长预测器以及解码器，使得模型具有合成不同语速语音的能力，且避免破音现象的出现。同时，在高倍速场景下，不影响语音合成的实时率。

本申请实施例提供的模型训练方法，执行主体可以为模型训练装置。本申请实施例中以模型训练装置执行模型训练方法为例，说明本申请实施例提供的模型训练装置。

图12示出了本申请一个实施例的模型训练装置的框图，该装置包括：

获取模块10，用于获取语音训练集和音素序列训练集，其中，语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，音素序列训练集包括与语音训练集中每一个语音对应的音素序列；

第一输出模块20，用于将语音训练集包括的各个语速和音素序列训练集输入至第一模型，并输出语音合成集，其中，语音合成集包括由第一模型合成的各个语音的第二语音特征向量；

训练模块30，用于根据语音训练集中的各个第一语音特征向量和语音合成集中的各个第二语音特征向量，对第一模型进行训练。

可选地，语音训练集包括第一语音的第一语音特征向量，第一语音对应第一语速，音素序列训练集包括与第一语音对应第一音素序列；第一模型包括编码器、基频预测器、语速模块、时长预测器、扩展器和解码器；

第一输出模块20，包括：

第一输出单元，用于将第一音素序列输入至编码器，并输出第一音素特征向量；

第二输出单元，用于将第一音素特征向量输入至基频预测器，并输出第一基频特征向量；

第三输出单元，用于将第一语速输入至语速模块，并输出第一语速特征向量；

第一相加单元，用于将第一语速特征向量和第一音素特征向量进行相加，得到第一特征向量；

第四输出单元，用于将第一特征向量输入至时长预测器，并输出第一时长特征向量；

第二相加单元，用于将第一基频特征向量和第一音素特征向量进行相加，得到第二特征向量；

第五输出单元，用于将第二特征向量和第一时长特征向量输入至扩展器，并输出第一音素扩展特征向量；

第三相加单元，用于将第一音素扩展特征向量和第一语速特征向量进行相加，得到第三特征向量；

第六输出单元，用于将第三特征向量流式输入至解码器，并输出第二语音特征向量。

可选地，该装置还包括：

转换模块，用于将与第一语音对应的第一文本，转换为第一拼音序列和与第一拼音序列对应的第一声调序列，其中，由多音字预测模型输出第一拼音序列中的多音字声调，获得第一声调序列，第一声调序列包括第一拼音序列的各拼音的声调；

第二输出模块，用于将第一文本输入至韵律预测模型，并输出与第一文本对应的韵律信息；

组合模块，用于组合由第一拼音序列转换的各个音素和由韵律信息转换的各个音素；

更新模块，用于根据由韵律信息转换的各个音素的声调，更新第一声调序列，其中，由韵律信息转换的各个音素的声调由第一规则设定；

获得模块，用于根据组合的各个音素和第一声调序列，得到第一音素序列。

可选地，训练模块30，包括：

第一更新单元，用于根据第一语音的第二基频特征向量和第一基频特征向量，对编码器和基频预测器的参数进行更新。

可选地，训练模块30，包括：

第二更新单元，用于根据第一语音的第二时长特征向量和第一时长特征向量，对编码器、基频预测器、语速模块和时长预测器的参数进行更新。

本申请实施例中的模型训练装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例的模型训练装置可以为具有动作系统的装置。该动作系统可以为安卓(Android)动作系统，可以为iOS动作系统，还可以为其他可能的动作系统，本申请实施例不作具体限定。

本申请实施例提供的模型训练装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图13所示，本申请实施例还提供一种电子设备100，包括处理器101，存储器102，存储在存储器102上并可在处理器101上运行的程序或指令，该程序或指令被处理器101执行时实现上述任一模型训练方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例的电子设备包括上述的移动电子设备和非移动电子设备。

图14为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、处理器1010、摄像头1011等部件。

本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图14中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器1010，用于获取语音训练集和音素序列训练集，其中，所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列；将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型，并输出语音合成集，其中，所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量；根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练。

可选地，所述语音训练集包括第一语音的第一语音特征向量，所述第一语音对应第一语速，所述音素序列训练集包括与所述第一语音对应第一音素序列；所述第一模型包括编码器、基频预测器、语速模块、时长预测器、扩展器和解码器；处理器1010，还用于将所述第一音素序列输入至所述编码器，并输出第一音素特征向量；将所述第一音素特征向量输入至所述基频预测器，并输出第一基频特征向量；将所述第一语速输入至所述语速模块，并输出第一语速特征向量；将所述第一语速特征向量和所述第一音素特征向量进行相加，得到第一特征向量；将所述第一特征向量输入至所述时长预测器，并输出第一时长特征向量；将所述第一基频特征向量和所述第一音素特征向量进行相加，得到第二特征向量；将所述第二特征向量和所述第一时长特征向量输入至所述扩展器，并输出第一音素扩展特征向量；将所述第一音素扩展特征向量和所述第一语速特征向量进行相加，得到第三特征向量；将所述第三特征向量流式输入至所述解码器，并输出第二语音特征向量。

可选地，处理器1010，还用于将与所述第一语音对应的第一文本，转换为第一拼音序列和与所述第一拼音序列对应的第一声调序列，其中，由多音字预测模型输出所述第一拼音序列中的多音字声调，获得所述第一声调序列，所述第一声调序列包括所述第一拼音序列的各拼音的声调；将所述第一文本输入至韵律预测模型，并输出与第一文本对应的韵律信息；组合由所述第一拼音序列转换的各个音素和由所述韵律信息转换的各个音素；根据由所述韵律信息转换的各个音素的声调，更新所述第一声调序列，其中，由所述韵律信息转换的各个音素的声调由第一规则设定；根据组合的各个音素和所述第一声调序列，得到第一音素序列。

可选地，处理器1010，还用于根据所述第一语音的第二基频特征向量和所述第一基频特征向量，对所述编码器和所述基频预测器的参数进行更新。

可选地，处理器1010，还用于根据所述第一语音的第二时长特征向量和所述第一时长特征向量，对所述编码器、所述基频预测器、所述语速模块和所述时长预测器的参数进行更新。

应理解的是，本申请实施例中，输入单元1004可以包括图形处理器(GraphicsProcessing Unit，GPU)10041和麦克风10042，图形处理器10041对在视频图像捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频图像的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和动作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理动作系统、用户页面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器1009可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。

处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取语音训练集和音素序列训练集，其中，所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列；

将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型，并输出语音合成集，其中，所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量；

根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述语音训练集包括第一语音的第一语音特征向量，所述第一语音对应第一语速，所述音素序列训练集包括与所述第一语音对应第一音素序列；所述第一模型包括编码器、基频预测器、语速模块、时长预测器、扩展器和解码器；

所述将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型，并输出语音合成集，包括：

将所述第一音素序列输入至所述编码器，并输出第一音素特征向量；

将所述第一音素特征向量输入至所述基频预测器，并输出第一基频特征向量；

将所述第一语速输入至所述语速模块，并输出第一语速特征向量；

将所述第一语速特征向量和所述第一音素特征向量进行相加，得到第一特征向量；

将所述第一特征向量输入至所述时长预测器，并输出第一时长特征向量；

将所述第一基频特征向量和所述第一音素特征向量进行相加，得到第二特征向量；

将所述第二特征向量和所述第一时长特征向量输入至所述扩展器，并输出第一音素扩展特征向量；

将所述第一音素扩展特征向量和所述第一语速特征向量进行相加，得到第三特征向量；

将所述第三特征向量流式输入至所述解码器，并输出第二语音特征向量。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一音素序列输入至所述编码器，并输出第一音素特征向量之前，所述方法还包括：

将与所述第一语音对应的第一文本，转换为第一拼音序列和与所述第一拼音序列对应的第一声调序列，其中，由多音字预测模型输出所述第一拼音序列中的多音字声调，获得所述第一声调序列，所述第一声调序列包括所述第一拼音序列的各拼音的声调；

将所述第一文本输入至韵律预测模型，并输出与第一文本对应的韵律信息；

组合由所述第一拼音序列转换的各个音素和由所述韵律信息转换的各个音素；

根据由所述韵律信息转换的各个音素的声调，更新所述第一声调序列，其中，由所述韵律信息转换的各个音素的声调由第一规则设定；

根据组合的各个音素和所述第一声调序列，得到第一音素序列。

4.根据权利要求2所述的方法，其特征在于，所述将所述第一音素特征向量输入至所述基频预测器，并输出第一基频特征向量之后，所述根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练，包括：

根据所述第一语音的第二基频特征向量和所述第一基频特征向量，对所述编码器和所述基频预测器的参数进行更新。

5.根据权利要求2所述的方法，其特征在于，所述将所述第一特征向量输入至所述时长预测器，并输出第一时长特征向量之后，所述根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练，包括：

根据所述第一语音的第二时长特征向量和所述第一时长特征向量，对所述编码器、所述基频预测器、所述语速模块和所述时长预测器的参数进行更新。

6.一种模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取语音训练集和音素序列训练集，其中，所述语音训练集包括至少一个语音的第一语音特征向量和每个语音对应的语速，所述音素序列训练集包括与所述语音训练集中每一个语音对应的音素序列；

第一输出模块，用于将所述语音训练集包括的各个语速和所述音素序列训练集输入至第一模型，并输出语音合成集，其中，所述语音合成集包括由所述第一模型合成的各个语音的第二语音特征向量；

训练模块，用于根据所述语音训练集中的各个第一语音特征向量和所述语音合成集中的各个第二语音特征向量，对所述第一模型进行训练。

7.根据权利要求6所述的装置，其特征在于，所述语音训练集包括第一语音的第一语音特征向量，所述第一语音对应第一语速，所述音素序列训练集包括与所述第一语音对应第一音素序列；所述第一模型包括编码器、基频预测器、语速模块、时长预测器、扩展器和解码器；

所述第一输出模块，包括：

第一输出单元，用于将所述第一音素序列输入至所述编码器，并输出第一音素特征向量；

第二输出单元，用于将所述第一音素特征向量输入至所述基频预测器，并输出第一基频特征向量；

第三输出单元，用于将所述第一语速输入至所述语速模块，并输出第一语速特征向量；

第一相加单元，用于将所述第一语速特征向量和所述第一音素特征向量进行相加，得到第一特征向量；

第四输出单元，用于将所述第一特征向量输入至所述时长预测器，并输出第一时长特征向量；

第二相加单元，用于将所述第一基频特征向量和所述第一音素特征向量进行相加，得到第二特征向量；

第五输出单元，用于将所述第二特征向量和所述第一时长特征向量输入至所述扩展器，并输出第一音素扩展特征向量；

第三相加单元，用于将所述第一音素扩展特征向量和所述第一语速特征向量进行相加，得到第三特征向量；

第六输出单元，用于将所述第三特征向量流式输入至所述解码器，并输出第二语音特征向量。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

转换模块，用于将与所述第一语音对应的第一文本，转换为第一拼音序列和与所述第一拼音序列对应的第一声调序列，其中，由多音字预测模型输出所述第一拼音序列中的多音字声调，获得所述第一声调序列，所述第一声调序列包括所述第一拼音序列的各拼音的声调；

第二输出模块，用于将所述第一文本输入至韵律预测模型，并输出与第一文本对应的韵律信息；

组合模块，用于组合由所述第一拼音序列转换的各个音素和由所述韵律信息转换的各个音素；

更新模块，用于根据由所述韵律信息转换的各个音素的声调，更新所述第一声调序列，其中，由所述韵律信息转换的各个音素的声调由第一规则设定；

获得模块，用于根据组合的各个音素和所述第一声调序列，得到第一音素序列。

9.根据权利要求7所述的装置，其特征在于，所述训练模块，包括：

第一更新单元，用于根据所述第一语音的第二基频特征向量和所述第一基频特征向量，对所述编码器和所述基频预测器的参数进行更新。

10.根据权利要求7所述的装置，其特征在于，所述训练模块，包括：

第二更新单元，用于根据所述第一语音的第二时长特征向量和所述第一时长特征向量，对所述编码器、所述基频预测器、所述语速模块和所述时长预测器的参数进行更新。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1～5任一项所述的模型训练方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1～5任一项所述的模型训练方法的步骤。