CN115206284A

CN115206284A - 一种模型训练方法、装置、服务器和介质

Info

Publication number: CN115206284A
Application number: CN202211138904.1A
Authority: CN
Inventors: 林诗伦; 苏文超; 蒙力
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-10-18
Anticipated expiration: 2042-09-19
Also published as: CN115206284B

Abstract

本申请实施例公开了一种模型训练方法、装置、服务器和介质，该方法包括：获取目标文本，调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到预测发音时长；获取目标文本的标注音频数据，采用注意力机制对文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到参考发音时长；调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理，得到预测声学特征，基于预测声学特征合成预测音频数据；基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练，可提高模型训练效率，提升音频合成质量。

Description

一种模型训练方法、装置、服务器和介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型训练方法、装置、服务器和介质。

背景技术

随着人工智能技术和各种智能化设备的发展，各种深度学习方法在语音处理领域不断取得突破，语音交互技术也得以广泛地应用在各种智能化设备中。语音合成是语音交互技术中的重要环节，通过语音合成可以将文本内容转换为相应的语音数据。语音合成技术可应用在譬如客服机器人等人机交互场景，也可应用在有声书播放等自然语言输出的场景。在语音合成领域中通常是基于相应的语音处理模型来达到语音合成的效果。然而，经研究表明，目前绝大多数用于实现语音合成的语音处理模型的训练存在训练效率不高的问题，由此可见，如何有效提升语音合成类模型的训练效率，成为了当前的研究热点。

发明内容

本申请实施例提供一种模型训练方法、装置、服务器和介质，可简化模型训练流程，实现端到端训练，从而提高模型训练效率，提升音频合成质量。

一方面，本申请实施例提供了一种模型训练方法，包括：

获取目标文本，并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到目标文本的预测发音时长；

获取目标文本的标注音频数据，并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长；

调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，并基于预测声学特征合成目标文本的预测音频数据；

基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，以及标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练；训练完成的语音处理模型用于预测待处理文本对应的音频数据。

一方面，本申请实施例提供了一种模型训练装置，包括：

处理模块，用于获取目标文本，并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到目标文本的预测发音时长；

处理模块，还用于获取目标文本的标注音频数据，并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长；

处理模块，还用于调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，并基于预测声学特征合成目标文本的预测音频数据；

训练模块，用于基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，以及标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练；训练完成的语音处理模型用于预测待处理文本对应的音频数据。

相应地，本申请实施例提供了一种服务器，包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中模型训练方法。

相应地，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例的模型训练方法。

在本申请实施例中，可获取目标文本和目标文本的标注音频数据，调用语音处理模型对目标文本的文本特征进行发音时长预测处理，得到目标文本的预测发音时长，以及采用注意力机制对文本特征和标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长，接着，可调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理，得到预测声学特征，进而基于该预测声学特征合成预测音频数据，进一步地，基于预测发音时长和参考发音时长之间的差异、预测声学特征和标注声学特征之间的差异、标注音频数据和预测音频数据之间的差异可对语音处理模型进行训练，得到训练完成的语音处理模型。可见，语音处理模型的训练是完全端到端的训练，即通过目标文本和标注音频数据的输入，可以输出预测音频数据，并基于各个调用语音处理模型的环节预测得到的预测数据（包括预测发音时长、预测声学特征和预测音频数据）与相应标签数据（包括参考发音时长、标注声学特征以及标注音频数据）之间的差异，融合训练语音处理模型，整个模型训练流程并不是割裂而是一体化的，基于各种差异一并训练语音处理模型，模型训练更加简单高效。并且端到端的训练可以使得语音处理模型学习到文本到音频之间的最佳映射关系，能够提升训练效果，训练完成的语音处理模型是符合预期的语音处理模型，进而在使用训练完成的语音处理模型预测待处理文本对应的音频数据时，能够得到高质量的音频数据，提升语音合成效果。

附图说明

图1a是本申请实施例提供的一种模型训练系统的架构图；

图1b是本申请实施例提供的一种私有化应用场景的示意图；

图2是本申请实施例提供的一种模型训练方法的流程示意图；

图3是本申请实施例提供的一种音频分帧的效果示意图；

图4为本申请实施例提供的另一种模型训练方法的流程示意图；

图5a为本申请实施例提供的一种中间声学特征的生成示意图；

图5b为本申请实施例提供的一种特征对齐矩阵的示意图；

图5c为本申请实施例提供的一种注意力网络的处理原理示意图；

图5d为本申请实施例提供的一种对文本特征进行上采样处理的示意图；

图6a为本申请实施例提供的一种语音合成系统的结构示意图；

图6b为本申请实施例提供的一种实时神经网络声码器的网络结构示意图；

图6c为本申请实施例提供的一种多频带多时间实时神经网络声码器的网络结构示意图；

图6d为本申请实施例提供的一种语音处理模型的结构示意图；

图6e为本申请实施例提供的一种训练完成的语音处理模型的结构示意图；

图7是本申请实施例提供的一种模型训练装置的结构示意图；

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请提供了一种模型训练方案，服务器可获取目标文本，并调用语音处理模型对目标文本进行编码处理，得到目标文本的文本特征，再对文本特征进行发音时长预测处理，得到目标文本的预测发音时长；服务器还可获取目标文本的标注音频数据，对标注音频数据进行声学特征提取处理，得到该标注音频数据对应的标注声学特征，进而采用注意力机制对文本特征和标注声学特征进行时长预测处理，得到目标文本的参考发音时长，通过注意力机制可以使得模型学习到文本特征和标注声学特征之间的关键信息，有利于参考发音时长的准确提取，进一步地，服务器可调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理，得到预测声学特征，实现文本特征至声学特征的转换，进而基于声学特征合成目标文本对应的预测音频数据，至此，在语音处理模型的处理下，完成目标文本到预测音频数据的合成。接着，服务器可基于预测发音时长和参考发音时长之间的差异、预测声学特征和标注声学特征之间的差异、标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练，使得语音处理模型在发音时长预测处理、声学特征预测处理、以及音频数据合成处理这几个处理阶段能够更加贴近于预期数据，这些处理阶段产生的数据是承接而非割裂的，具体包括在发音时长预测处理得到的参考发音时长可用于声学特征预测处理，而声学特征预测处理得到的预测声学特征又可用于合成预测音频数据，这样，训练流程中每个步骤之间的衔接就能够保证训练流程的一体化，模型训练更加简单高效，这种端到端的一体化训练，基于各个环节预测得到的预测数据与真实数据之间的差异，融合训练语音处理模型，充分地发挥融合训练的优势，可以使得语音处理模型学习到文本到音频之间的最佳映射关系，提升训练效果。训练完成的语音处理模型用于实现语音合成，即将文本转语音（Text to Speech, TTS），其作用是将计算机设备自己产生的或外部输入的文字信息转变为可以听得懂的、流利的语音并朗读出来。本申请中服务器通过调用训练完成的语音处理模型能够将待处理文本转换为高质量的音频数据，提升语音合成效果。

人工智能（Artificial Intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的模型训练方案涉及人工智能中的语音技术（SpeechTechnology）以及机器学习/深度学习技术。

其中，让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。机器学习（Machine Learning, ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请具体涉及语音技术中的语音合成技术TTS，可以将文本转换为音频。本申请中的语音处理模型可以包括神经网络，对于语音处理模型的训练具体涉及各种结构的神经网络的训练。

基于上述介绍的模型训练方案，可提供如图1a所示的模型训练系统的架构图。该模型训练系统包括数据库101和服务器102，数据库101可以和服务器102之间通过有线或无线的方式建立通信连接。其中，数据库101可以是云数据库或者是本地数据库，也可以是私有数据库（即私有化环境中的数据库）或者公有数据库（即公有化环境中的数据库）。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。对于服务器的数量，本申请不做限制。

数据库101可用于存储文本和音频数据，该文本和音频数据可以是终端设备产生并上传的，也可以是标准的文本-语音训练样本集。文本所涉及的语言类型可包含多种，例如中文文本、英文文本或者中英文混合的文本，在此不做限制，音频数据所涉及的音色也可以包含多种，例如说话人A的音色、说话人B的音色等等。在一个实施例中，数据库101可以是私有数据库，可用于存储私有数据，该私有数据是需提供语音合成服务的对象所拥有的数据，包括音频和音频对应的文本，服务器102（具体为私有服务器）在训练语音处理模型时可以从私有数据库中获取相应的文本和音频来训练语音处理模型，实现语音处理模型在私有化环境中的训练和快速部署，同时私有数据不会经过第三方，可保证私有数据的安全性。

服务器102中可部署训练语音处理模型的逻辑代码，当服务器102接收到相应的训练指令时，例如对象在可视化部署界面中点击运行按钮，便可执行该功能代码，并按照前述模型训练方案中介绍的流程对语音处理模型进行训练。其中，服务器102从数据库101中获取的文本和相应的音频数据可分别作为目标文本以及目标文本的标注音频数据，训练完成的语音处理模型可部署在该服务器102中，并为相应对象提供语音合成服务，当接收到待处理文本时，可以调用训练完成的语音处理模型合成待处理文本的音频数据。

语音处理模型支持在公有化环境中进行训练并部署，此时服务器102为公有服务器（即公有化环境中的服务器），数据库101为公有数据库，语音处理模型也支持在私有化环境中进行训练并部署，此时服务器102为私有服务器（即私有化环境中的服务器）时，数据库101为私有数据库。

如图1b所示的私有化应用场景示意图。本申请提供的模型训练方案的逻辑代码可存放在云服务器上，并作为一种基础技术赋能于使用该云服务器的对象，该云服务器可以是私有云服务器，支持为对象提供私有化部署服务。具体地，私有云服务器只需获取模型训练方案的逻辑代码，整个语音处理模型的训练便可基于如图1a所示的模型训练系统来实现，此时图1a所示的数据库101为私有数据库，服务器102为私有云服务器，即语音处理模型可在私有云服务器上快速训练和部署，同时自身数据和敏感信息无需经过第三方，从而可保证数据的安全性。此时语音处理模型是在私有化环境中进行训练和部署，私有云服务器可以从私有数据库中获取私有数据进行训练，由于语音处理模型的训练是端到端的一体化训练，因此，目标对象（使用私有化部署服务的对象）可使用自己拥有的私有数据（包括音频和音频对应的文本）在私有云服务器上一键训练，便可得到输入音频对应音色的语音处理模型，训练完成的语音处理模型可以被部署在私有云服务器上，为目标对象所服务的对象提供语音合成的私有服务。各种智能设备（如智能机器人，智能手机）均可接入到其私有服务上，智能设备接入后可以将需要合成的文本发送至私有云服务器，私有云服务器调用训练完成的语音处理模型进行快速合成后，可通过流式或整句返回的形式，向智能设备发送对应的合成音频。

由于语音处理模型是完全端到端的一体化训练，可以保证模型前向计算效率，同时由于一步端到端即可训练，可以极大地减少训练所需的步骤，并且训练时关注一个输入（即文本-音频）和一个输出（即音频），而无需专业人员验证语音处理模型中间处理过程是否准确，通过简单地比较输出的音频是否和输入的音频贴近，便可得知模型训练效果，从而使得该语音处理模型在私有化环境下的训练和部署更加高效、简单。

基于上述有关模型训练方案、模型训练系统以及应用场景的介绍，本申请实施例提出一种模型训练方法，如图2所示的模型训练方法的流程示意图，该模型训练方法可由上述服务器执行，模型训练方法包括以下步骤S201-S204：

S201，获取目标文本，并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到目标文本的预测发音时长。

目标文本是需合成音频的文本，用于训练语音处理模型。按照文本所属的来源划分，目标文本可以是私有数据中的文本，也可以是开源数据中的文本；按照文本所属的语言划分，目标文本可以是中文文本，也可以是英文文本，或者是其他语言的文本，或者是多种语言混合的文本；按照文本的形式划分，目标文本还可以是拼音和音调构成的字符序列，也可以是由单个字构成的字符序列。例如目标文本为“我喜欢吃苹果”，也可以为“wo3xi3huan1chi1ping2guo3”。其中，数字表示音调，1、2、3、4、5可分别表示一声、二声、三声、四声和轻声，其余字母构成的是汉字对应的拼音。

调用语音处理模型可先对目标文本进行编码处理，得到文本特征，再对文本特征进行发音时长预测处理，得到目标文本的预测发音时长。通常目标文本采用文字的形式进行记录，而文本常常带有简略词、日期、号码等文本信息，例如目标文本中包含汉字和罗马数字，这两种文字是不同形式的，后续处理起来可能会不够便捷和高效，为此，在对目标文本进行编码处理之前，可对目标文本进行规整化处理，得到文本表征。规整化处理是通过对上下文进行文本分析，结合上下文环境将非标准文本转换为对应标准字符的过程，这样可以使得文本在形式和格式上的统一性，提升处理效率。其中，规整化处理可包括以下一种或多种：规整文本的句式结构、停用词规范、将文字转换为音素或拼音、对文本进行清洗等等。举例来说，假设目标文本为：“我是智能客服A，工号1001，很高兴为您服务”，规整化处理可以是将这句文本中的所有中文字符以及数字转换为拼音，并将英文字符对应的音标标记出来，此时该文本表征是规整的文本字符序列中的每个字符。接着服务器可调用语音处理模型对文本表征进行编码处理，将文本表征层层抽象为隐藏文本编码表征，该隐藏文本编码表征可用于表示目标文本的语义信息、音调信息、韵律信息等中的一种或多种文本属性信息，服务器可将一个个隐藏文本编码表征作为文本特征以供后续处理使用。

由于目标文本需转换为相应的音频，对于目标文本中每个字符的发音在音频中都会持续一定的时间，而文本特征代表目标文本，因此可调用语音处理模型对目标文本的文本特征进行发音时长预测处理，得到目标文本的预测发音时长。该预测发音时长是对目标文本中各个文本字符的发音时间长度的预估数据。举例来说，目标文本为：我喜欢吃苹果。通过编码处理得到的文本特征为H=[h1，h2，h3，h4，h5，h6]，文本特征H包含每个文本字符对应的字符特征，一个字符特征具体为一个文本编码向量，对文本特征进行发音时长预测处理，具体是对文本特征中每个字符特征的发音时长进行预测，得到每个文本字符的预测发音时长，进而得到目标文本的预测发音时长T=[1，0.8，0.8，1，1.2，1.2]，单位为秒。

S202，获取目标文本的标注音频数据，并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长。

目标文本的标注音频数据是目标文本对应的真实音频数据，在语音处理模型的训练阶段可作为标签数据，用于评估语音处理模型输出的目标文本对应的预测音频数据的准确度。注意力机制是一种用于自动学习输入数据对输出数据的贡献大小的结构，常见的注意力机制有基于内容的注意力机制、基于位置的注意力机制（Location SensitiveAttention，LSA）、混合注意力机制、基于高斯混合模型的注意力机制（GMM-basedattention）等等，本申请对注意力机制的类型不做限制，在语音处理模型的训练阶段，该注意力机制可辅助语音处理模型进行训练。

在采用注意力机制进行时长预测处理之前，服务器还可以：对标注音频数据进行声学特征提取处理，得到标注音频数据对应的标注声学特征。该标注声学特征是真实声学特征，属于一种语音特征参数，标注声学特征可以是以下任一种：梅尔频率倒谱系数（MelFrequency Cepstral Coefficient，MFCC）组成的梅尔频率倒谱、巴克频率倒谱系数（BarkFrequency Cepstral Coefficient，BFCC）对应的BFCC向量和声调（pitch）向量、FBank（即不做离散余弦变换的MFCC）、PLP（提取自线性预测系数）等等，在此对标注声学特征的类型不做限制。在一种实现方式中，对标注音频数据进行声学特征提取处理的具体步骤可以包括：对标注音频数据进行分帧处理，得到至少两帧音频帧；对各帧音频帧进行变换处理，得到每帧音频帧对应的频谱信息；根据频谱信息确定标注声学特征。具体地，由于音频数据通常是非平稳信号，但在短时间内可认为信号是平稳的，因此对于标注音频数据可以通过加窗并滑动窗口，实现对标注音频数据的分帧处理，标注音频数据中加窗的音频数据为一帧音频帧，音频帧的秒数为帧长，相邻两帧左边界的距离为帧移，所使用的窗可以是汉明窗，对此不做限制。在得到至少两帧音频帧之后，可对各帧音频帧进行离散傅里叶变换处理，提取到离散频段的频谱信息，频谱信息包含频谱（Spectrograms），频谱指一个时域的信号在频域下的表示方式，可以针对信号进行傅里叶变换而得，所得的结果是分别以幅度及相位为纵轴，频率为横轴的两张图，在语音合成技术应用中通常会省略相位的信息，只保留不同频率下对应的幅度信息。

为了在提取声学特征时模拟人耳听觉，进一步提高对声学特征的识别性能，可以对频谱信息进行滤波处理，例如利用梅尔滤波器将频谱信息对应到梅尔刻度上，从而得到滤波后的频谱信息，并直接将滤波后的频谱信息作为标注声学特征，在另一种方式中，也可以获取频谱信息对应的倒谱信息，并将倒谱信息作为标注声学特征。最终得到的标注音频数据对应的标注声学特征不仅可用于此处的时长预测处理，还可以作为标签数据对语音处理模型的声学特征预测处理结果的准确度进行评估，具体可参见下述S204。

通常目标文本和音频数据之间存在相应的对齐关系，即目标文本中一个字符的发音可对应音频数据中一定时长的音频片段。例如音频数据是8s，第1s音频对应发音的是“我”字。又例如音频数据被划分为80帧，“我爱吃梨”4个文本字符，平均分帧后每个文本字符为20帧，即“我”对应第0~19帧，“爱”对应20到39帧，依次分配，如图3所示，一个文本字符可对应多个音频帧。

对目标文本中各个文本字符进行编码处理可得到相应的字符特征并构成完整的文本特征，而音频数据中每个音频帧均可提取出对应的声学特征帧并构成标注声学特征，每个文本字符的发音时长可能不同，所对应的声学特征帧的数量也可能不同，即目标文本对应的文本特征和声学特征之间是存在长度差异的，因此，需要预测每一个字符特征所对应的声学特征帧的数量，以便将文本特征和声学特征对齐，即代表字符与相应音频帧之间的对齐。

为了确定出文本特征与声学特征之间的长度差异，可采用注意力机制对目标文本的文本特征以及标注音频数据对应的标注声学特征进行时长预测处理，判断出文本特征需要关注的声学特征帧，或者说声学特征帧对应需关注的字符特征，得到目标文本的参考发音时长。在一种方式中，参考发音时长信息可以包括目标文本中各个文本字符的字符特征分别对应的声学特征帧的数量，在另一种方式中，参考发音时长信息也可以包括目标文本中各个文本字符对应的发音时间长度。

S203，调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，并基于预测声学特征合成目标文本的预测音频数据。

在一种实现方式中，由于参考发音时长可用于指示文本特征包含的字符特征对应的声学特征帧的帧数，基于参考发音时长可对齐文本特征和声学特征，服务器在调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理的阶段，可先基于参考发音时长扩展文本特征，进而对扩展的文本特征进行声学特征预测处理，扩展的文本特征中的一个字符特征经过声学特征预测处理，可得到一个预测声学特征帧，服务器可将各个字符特征并行地进行声学特征预测处理，得到包含多个预测声学特征帧的预测声学特征，通过并行预测可有效提高预测声学特征的生成效率。

预测声学特征可用于反映声音信号的一些关键信息，通过对预测声学特征进行特征反变换处理，得到相应的声音波形，依次拼接各个声音波形便可得到目标文本的预测音频数据，从而将预测声学特征中的关键信息还原为全量信息。预测声学特征和标注声学特征是相同类型的声学特征，如预测声学特征和标注声学特征均为MFCC向量或者是BFCC向量。由于训练阶段的语音处理模型存在一定预测误差，因此，预测声学特征和标注声学特征的具体数值可能是有一定差别的，同理，预测音频数据和标注音频数据存在一定的差异。

S204，基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，以及标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练。

在时长预测处理过程中，采用注意力机制且结合了标注声学特征这一特征信息，在语音处理模型的训练阶段，相比于预测发音时长，参考发音时长是更加准确的时长信息。因此，服务器可基于参考发音时长评估预测发音时长的准确度。通过以上步骤的处理，得到各个预测处理阶段的预测数据（包括预测发音时长、预测声学特征以及预测音频数据），服务器可计算预测数据和对应的标签数据（包括参考发音时长、标注声学特征以及标注音频数据）之间的差异，预测数据与标签数据之间的差异可用于指示当前模型参数下的语音处理模型与符合期望的语音模型之间的差距，因此，基于各个差异可以对语音处理模型的模型参数进行统一调整，从而实现对语音处理模型的端到端的一体化训练。其中，预测数据和标签数据之间的差异可采用相应的损失函数度量。

可以理解的是，对于语音处理模型的每一次训练均可按照上述S201~S204的内容执行，在训练后的语音处理模型满足收敛条件之前，可以不断重复以上S201~S204的内容对语音处理模型进行迭代训练，服务器调用语音处理模型对目标文本进行处理得到的预测音频数据是实际输出的音频数据，在对语音处理模型的模型参数进行不断调整之后，实际输出的音频数据和预计输出结果（即标注音频数据）之间的差距不断缩小，从而语音处理模型的预测准确度也越来越高。当训练后的语音处理模型满足收敛条件时，可将当前最新调整的语音处理模型作为训练完成的语音处理模型，并将训练完成的语音处理模型用于实际的语音合成处理中。其中，收敛条件可以是迭代次数达到预设次数阈值，也可以是各个差异在差异数据的误差范围之内，如标注音频数据和预测音频数据之间的差异小于预设音频差异阈值，预测发音时长与参考发音时长之间的差异小于时长差异阈值，预测声学特征与标注声学特征之间的差异小于特征差异阈值。

训练完成的语音处理模型用于预测待处理文本对应的音频数据。待处理文本可以是其他设备向服务器发送的待合成音频的文本，或者是服务器自己产生的文本信息，服务器可调用训练完成的语音处理模型处理该待处理文本，合成待处理文本对应的音频数据。例如智能设备向服务器发送文本，服务器接收到文本之后可调用训练完成的语音处理模型合成对应的音频数据，并将合成好的音频数据发送给该智能设备。

本申请实施例提供的模型训练方法，可以获取目标文本和目标文本的标注音频数据，调用语音处理模型对目标文本的文本特征进行预测处理，得到目标文本的预测发音时长，以及采用注意力机制对文本特征和标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长，通过注意力机制可以使得模型学习到文本特征和标注声学特征之间的关键信息，有利于参考发音时长的准确提取，进一步地，服务器可调用语音处理模型基于参考发音时长对文本特征进行声学特征预测处理，得到预测声学特征，实现文本特征至声学特征的转换，进而基于声学特征合成目标文本对应的预测音频数据，接着，服务器可基于预测发音时长和参考发音时长之间的差异、预测声学特征和标注声学特征之间的差异、标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练，使得语音处理模型在发音时长预测处理、声学特征预测处理、以及音频数据合成处理这几个处理阶段能够更加贴近于预期数据，这些处理阶段产生的数据依次承接而非割裂的，训练流程中每个步骤之间衔接紧密，基于各个环节预测得到的预测数据与标签数据之间的差异，可融合训练语音处理模型，实现一步端到端即可训练语音处理模型，从而简化训练流程，提升模型训练的效率，也充分地发挥了融合训练的优势，使得训练完成的语音处理模型学习到文本到音频之间的最佳映射关系，提升语音合成的效果，从而能够使用训练完成的语音处理模型合成高质量的音频数据。

请参见图4，图4为本申请实施例提供的另一种模型训练方法的流程示意图，该模型训练方法由上述服务器执行，包括以下步骤S401-S406：

S401，获取目标文本，并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到目标文本的预测发音时长。

在一个实施例中，目标文本包含多个文本字符，文本特征包含多个字符特征，且一个字符特征与一个文本字符相对应。目标文本包含的文本字符是目标文本的处理单位，具体可以是音素、拼音、词、字中的任一种，例如目标文本为“我喜欢吃苹果”，文本字符为字，那么文本字符分别为：“我”、“喜”、“欢”、“吃”、“苹”、“果”。服务器可对每个文本字符进行编码处理，得到各个文本字符对应的字符特征，各个字符特征可组合字符特征序列，并将该字符特征序列作为目标文本的文本特征。

在一种实现方式中，语音处理模型包括文本编码器，该文本编码器的具体结构可以是基于RNN（Recurrent Neural Network，循环神经网络）的CBHG（一种用来从序列中提取高层次特征的模块）编码器或基于Transformer block（一种语言表示模型的模块）的编码器，其中，循环神经网络RNN是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（Recursive NeuralNetwork）。由于目标文本是一种时序数据，并且不同目标文本的数据长度是不固定的，通过循环神经网络RNN的短期记忆能力，能够处理任意长度的目标文本。服务器可以将目标文本对应的字符序列输入文本编码器中进行编码处理，得到文本特征。在一种方式中，文本特征可由如下式（1）所示。

（1）

其中，

表示文本特征，即字符特征序列，其中

表示目标文本中第i个字符特征，

表示目标文本对应的字符序列，

表示字符序列中第i个字符，i表示在相应序列中的顺序，L为序列长度，Encoder表示对目标文本对应的字符序列进行编码处理。

采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长的具体实现方式，可以包括以下S402-S404所介绍的内容。

S402，获取目标文本的标注音频数据，并根据标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征。

服务器在获取到目标文本的标注音频数据之后，可对标注音频数据进行声学特征提取处理，得到该标注音频数据对应的标注声学特征，进而根据标注声学特征进行特征转换处理，得到中间声学特征，此处特征转换处理是指由标注声学特征预测中间声学特征。

在一种实现方式中，标注音频数据对应的标注声学特征包含多个声学特征帧。一个声学特征帧是对一帧音频帧进行声学特征提取处理得到的，在分帧时不同音频帧由于帧移存在重叠部分且音频是一种时序数据，提取得到标注声学特征属于一种序列信息，标注声学特征包含的相邻的声学特征帧之间是存在关联的，因此通过前一个位置的声学特征帧可以预测当前位置的声学特征帧，进而可得到中间声学特征。

根据标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征，具体可包括以下内容：从标注声学特征包含的多个声学特征帧中，依次选取一个声学特征帧作为参考声学特征帧，并基于参考声学特征帧进行特征预测处理，得到参考声学特征帧对应的初始声学特征帧；基于每个参考声学特征帧的选取顺序，对相应的初始声学特征帧进行排序，得到初始声学特征帧序列，并将初始声学特征帧序列作为中间声学特征。

目标文本的文本特征和标准声学特征均是时序数据对应的特征序列，标注声学特征包含的多个声学特征帧是按照音频帧的位置顺序排列的，例如按照时间顺序第一个音频帧对应的声学特征帧排列在第二个音频帧对应的声学特征帧之前。服务器可以按照排列顺序从标注声学特征包含的多个声学特征帧中选取第一个声学特征帧作为参考声学特征帧，并基于参考声学特征进行特征预测处理，得到当前时刻的初始声学特征帧，当前时刻的初始声学特征帧可理解为标注音频数据中第二个音频帧对应预测的声学特征帧。接着，可以从标注声学特征中选取第二个声学特征帧，并将参考声学特征帧更新为该第二个声学特征帧，并预测得到新的初始声学特征帧，如此循环，不断更新参考声学特征，以基于新的前一个时刻的声学特征帧，便可预测得到新的初始声学特征帧，再将得到的各个初始声学特征帧进行排序，得到初始声学特征帧序列，并将该初始声学特征帧序列作为中间声学特征。

为了更好地处理序列的信息，本申请可采用注意力循环神经网络RNN进行特征转换处理，得到中间声学特征，由于字符特征是在注意力分数计算中发挥相应作用的，因此服务器可以将各个字符特征并行地输入到循环神经网络中，而标注声学特征作为中间声学特征的预测依据，服务器可以将标注声学特征中包含的各声学特征帧按照不同时刻输入到注意力循环神经网络RNN中，通过前一个时刻的隐藏状态和当前时刻的输入，便可预测当前时刻的初始声学特征帧，以得到中间声学特征。示例性地，如图5a所示的中间声学特征的生成示意图，为更好地理解中间声学特征的生成过程，如图5a中的（1）示出了一种简单的循环神经网络RNN，X表示输入的一个向量，S表示隐藏层的一个向量，U为输入层到隐藏层的权重矩阵，O为输出层的一个向量，V为隐藏层到输出层的权重矩阵，由于循环神经网络隐藏层的值不仅取决与当前次的输入X，还取决于上一次隐藏层的值S，因此，权重矩阵W即隐藏层上一次的值作为当前次的输入的权重。结合图5a中的（1）中示出的内容，可得到图5a中的（2）所示的处理示意图。首先可将一个随机初始化的声学特征帧输入循环神经网络，通过循环神经网络的处理可以得到第1个时间步的初始声学特征帧M1，然后再将标注声学特征Sf中的声学特征帧S1输入循环神经网络，循环神经网络的隐层状态会基于当前时刻的输入和上一时刻的隐层状态进行更新，从而通过循环神经网络RNN具备的当前时刻的隐藏状态预测得到第2个时间步的初始声学特征帧M2，依次循环处理，得到多个初始声学特征帧，并可将其组合为中间声学特征。如图5a中的（2）所示的各个注意力循环神经网络是不同隐层状态的RNN网络，一个隐层状态不仅和当前时刻输入的声学特征帧有关，还与上一时刻的隐层状态有关。

S403，采用注意力机制，计算中间声学特征在文本特征中的各字符特征下对应的注意力分数。

按照前述处理，中间声学特征包括的初始声学特征帧的数量可以与标注声学特征包含的声学特征帧的数量相同或不同。对于中间声学特征包含的一个初始声学特征帧，服务器可采用注意力机制计算该初始声学特征帧与各个字符特征之间的注意力分数，每个初始声学特征帧均存在与不同字符特征对应的注意力分数，举例来说，中间声学特征M=[M1，M2，M3，M4]，文本特征H=[h1，h2，h3]，那么中间声学特征在文本特征中的各个字符特征下对应的注意力分数包括M1分别与h1、h2、h3之间的3个注意力分数，M2分别与h1、h2、h3之间的3个注意力分数，M3分别与h1、h2、h3之间的3个注意力分数，以及M4分别与h1、h2、h3之间的3个注意力分数，共计12个注意力分数。

一个初始声学特征帧与一个字符特征之间的注意力分数用于表示该字符特征与初始声学特征帧之间的关联度，可以理解为字符特征对应的文本字符的发音为该初始声学特征帧对应的音频帧的可能性。由于初始声学特征帧是基于标注声学特征包含的声学特征帧预测得到的，两者可相差一个时间步，因此初始声学特征在不同字符特征下对应的注意力分数，可代表对应声学特征帧在不同字符特征下对应的注意力分数，例如前述初始声学特征帧M2在不同字符特征下对应的注意力分数，可代表声学特征帧S2在不同字符特征下对应的注意力分数，中间声学特征在各字符特征下对应的注意力分数包括：各声学特征帧在不同字符特征下对应的注意力分数。此处声学特征帧可以理解为标注声学特征中的声学特征帧或是初始声学特征帧。

S404，根据任一字符特征对应的注意力分数，预测任一字符特征对应文本字符的发音时长，并将每个文本字符的发音时长整合为目标文本的参考发音时长。

文本特征中的每个字符特征都对应有注意力分数，一个字符特征对应的注意力分数包括该字符特征在各个声学特征帧下的注意力分数，根据该注意力分数可以确定一个字符特征对应具备关联关系的声学特征帧的数量。因此对于任一个字符特征来说，可根据任一字符对应的注意力分数来预测该任一字符特征对应文本字符的发音时长，各个文本字符的发音时长可以组合为目标文本的参考发音时长，如5个文本字符的发音时长为1，1，2，1，1，0.5（单位为秒），那么可得到目标文本的参考发音时长T’=[1，1，2，1，1，0.5]。

在一个实施例中，根据任一字符特征对应的注意力分数，预测任一字符特征对应文本字符的发音时长的实现方式可以包括以下步骤（1）-（2）。

（1）从各声学特征帧在不同字符特征下对应的注意力分数中，确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量。

由于初始声学特征帧和标注声学特征之间相差一个时间步，中间声学特征在各个字符特征下的注意力分数可包括：各声学特征帧在不同字符特征下对应的注意力分数。举例来说，中间声学特征包括100个声学特征帧，文本特征包含4个字符特征，那么注意力分数即包括100×4=400个注意力分数。该注意力分数可以是小于等于1且大于等于0的数，也可以是十分制的数，还可以是百分制的数，在此不做限制。以字符特征为查询维度，针对任一字符特征，可以从各声学特征帧在该任一字符特征下对应的注意力分数中，确定出注意力分数大于分数阈值的目标注意力分数，并将该目标注意力分数对应的声学特征帧作为与该任一字符特征关联的声学特征帧，然后统计出所有与该任一字符关联的声学特征帧的数量。其中，分数阈值可以设置为0或者其他大于0小于1的数值（如0.8），或者是十分制的数值，具体可与注意力分数的形式统一，在此不做限制。举例来说，字符特征h1对应的注意力分数包括100个声学特征帧在该字符特征h1下的注意力分数，即该字符特征h1对应100个注意力分数，且这100个注意力分数中大于分数阈值的注意力分数有20个，对应第1至20帧声学特征帧，因此可以确定该字符特征h1下的声学特征帧数量为20。

在一种实现方式中，为确定任一字符特征下的注意力分数大于分数阈值的声学特征帧数量，可以采用以下方式实现：根据各声学特征帧与相应字符特征之间的注意力分数，构建特征对齐矩阵；从特征对齐矩阵中选取出任一列，并从选取出的任一列包含的注意力分数中，确定出对应注意力分数大于分数阈值的目标数量；将目标数量，作为各声学特征帧在任一列对应字符特征下的注意力分数大于分数阈值的声学特征帧数量。

特征对齐矩阵包含多个分别与相应字符特征对应的列，且处于一列的注意力分数包括相应字符特征与各声学特征帧之间的注意力分数。特征对齐矩阵的不同列代表不同字符特征，不同行代表不同声学特征帧，特征对齐矩阵中包含的元素为注意力分数，处于一列的注意力分数包括同一个字符特征与不同声学特征帧之间的注意力分数，处于一行的注意力分数包括不同字符特征与同一声学特征之间的注意力分数。示例性地，如图5b中的（1）所示的特征对齐矩阵，是一个100×4大小的特征对齐矩阵，其中包括100个声学特征帧与4个字符特征之间的注意力分数。注意力分数为0表示字符特征对应的文本字符为对应声学特征帧对应的音频帧之间无关联，不为0表示字符特征对应的文本字符为对应声学特征帧对应的音频帧之间存在关联。一个字符特征通常会与连续的声学特征帧之间关联，代表在该声学特征帧对应的多个音频帧对应持续发音内容为该字符特征对应的文本字符，如字符特征h1和声学特征帧B1至B25之间的注意力分数不为0，表示声学特征帧B1至B25对应的音频帧，发音为字符特征h1对应的文本字符的可能性比较大。此外，各个字符特征所关联的声学特征帧之间通常不会重复，如图5b中的（2）所示，为另一种特征对齐矩阵的表现形式，一列中的阴影部分表示大于分数阈值的注意力分数，即一个字符特征所关联的声学特征帧，不同列的阴影部分不存在重叠，即不同字符特征所关联的声学特征帧不重复。

由于相应字符特征对应列，便可从特征对齐矩阵中选取出任一列，并将该任一列包含的注意力分数中大于分数阈值的注意力分数确定为目标注意力分数，进而得到目标数量的目标注意力分数，将该目标数量作为被选取的任一列对应字符特征下的注意力分数大于分数阈值的声学特征帧数量。

可以理解的是，不同字符特征对应的目标数量可能是相同或者不同的，即不同字符特征对应的声学特征帧数量可能相同或不同。此外，在另一种实现方式中，根据各声学特征帧与相应字符特征之间的注意力分数，也可以构建出对应列代表声学特征帧，对应行代表字符特征的特征对齐矩阵。即处于一行的注意力分数包括相应字符特征与各声学特征帧之间的注意力分数。这样，特征对齐矩阵以行为单位进行选取并执行上述内容。而无论是行还是列，均是从字符特征的维度出发，通过特征对齐矩阵对注意力分数进行整理，便可快捷地确定出字符特征相应的声学特征帧数量，以便于后续统计字符特征对应文本字符的发音时长，实现将文本-声学的特征对齐矩阵转化为每个文本字符对应的发音时长。

（2）基于确定出的声学特征帧数量，得到任一字符特征对应预测的发音时长。

确定出的声学特征帧数量是注意力分数大于分数阈值所对应的声学特征帧的数量，由于字符特征和文本字符之间的一一对应关系，可基于该声学特征帧数量，可得到该任一字符特征对应预测的发音时长，即确定该任一字符特征对应文本字符的发音时长，从而对于文本特征中的每个字符特征，均按照上述步骤来确定出每个文本字符的发音时长，以便于整合得到包含各个文本字符的发音时长的参考发音时长。

在一种可行的方式中，基于确定出的声学特征帧数量，得到任一字符特征对应文本字符的发音时长的实现方式可以包括以下任一种：①将确定出的声学特征帧数量，作为任一字符特征对应预测的发音时长。②获取每个声学特征帧对应的时长，并将每个声学特征帧对应的时长和确定出的声学特征帧数量之间的乘积，作为任一字符特征对应预测的发音时长。

具体地，对于方式①，任一字符特征对应文本字符的发音时长即为确定出的声学特征帧数量，可以理解的是，声学特征帧数量为整数，这样便于使用相应发音时长将字符特征和声学特征帧直接对齐，参考发音时长无需经过额外的转换后再使用，节约处理资源。对于方式②，任一字符特征对应的文本字符的发音时长是确定出的声学特征帧数量和时长的乘积，此时发音时长通常以秒为单位。在一种实现方式中，由于每个声学特征帧对应相应的音频帧，一帧音频帧对应的帧长即可对应作为该声学特征帧对应的时长，音频帧通常是等分得到的，各个声学特征帧的时长相同，进而能够直接将声学特征帧数量和对应时长相乘的结果，作为任一字符特征对应文本字符的发音时长。例如，声学特征帧对应的时长为25毫秒（ms），字符特征h1对应的声学特征帧数量为20，那么可以得到字符特征h1对应的文本字符的发音时长为20×25ms=500ms，即0.5秒。通过这样的方式，可以得知每个文本字符的发音时长，从而能够直观地确定在音频中持续发音的时长信息。当将该发音时长应用于对字符特征与声学特征帧之间的对齐时，需将发音时长转换为声学特征帧数量，以便于对字符特征进行上采样到相应的声学特征帧数量，消除文本特征与声学特征之间的长度差异。

在一个实施例中，参考发音时长是基于注意力网络中包含的注意力机制进行预测得到的，预测发音时长是由语音处理模型中的时长预测网络进行预测得到的。注意力网络对应网络结构的复杂度大于时长预测网络对应网络结构的复杂度，以使由注意力网络预测得到的参考发音时长的预测准确度，高于由时长预测网络预测得到的预测发音时长的预测准确度。

具体地，注意力机制可包含注意力循环神经网络（Attention-RNN）和注意力分数计算模块，服务器可以将文本特征和标注声学特征输入该注意力网络中，先调用注意力循环网络基于上一个时间步的标注声学特征预测得到当前时间步的初始声学特征帧，然后调用注意力分数计算模块计算当前时间步的初始声学特征帧和各个字符特征之间的注意力分数，该注意力分数用于表示当前时间步的初始声学特征帧对各个字符特征的关注度，此处的关注度可理解为该初始声学特征帧对应的音频中发音的内容为字符特征对应文本字符的可能性。基于注意力分数可构建文本特征和声学特征之间的特征对齐矩阵，进而将特征对齐矩阵转换为相应的参考发音时长。由于注意力网络仅在训练过程中使用，且主要功能是确定文本特征中各字符特征对应文本字符的时长信息，此处确定出的时长信息一方面可作为训练时长预测网络的时长标签，将注意力网络所学习到的预测发音时长的能力转移给时长预测器，另一方面，可以将参考发音时长输入至其他模块用于对齐文本特征和声学特征。可以理解的是，注意力分数计算模块是使用相应的计算公式进行注意力分数计算的模块，在训练阶段无需调整。

时长预测网络可以是卷积神经网络（Convolutional Neural Network，CNN），也可以是CNN和RNN结合的网络，其中，卷积神经网络（Convolutional Neural Network）是一种前馈神经网络，其神经元可对感受野内的单元进行响应。CNN通常由多个卷积层和顶端的全连接层组成，其通过共享参数降低模型的参数量，使之在语音识别方面得到广泛应用。其中，RNN网络也可替换为另一种循环神经网络，如长短时记忆网络（Long Short-TermMemory，LSTM），它在算法中加入了一个判断信息有用与否的Cell（细胞单元）。一个Cell中放置了输入门、遗忘门和输出门。信息进入LSTM后，根据规则来判断是否有用。符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。该网络适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。或者是循环门单元（Gate Recurrent Unit，GRU），和LSTM一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出的。与LSTM相比，GRU（Gate Recurrent Unit，循环门单元）内部少了一个“门控”，参数比LSTM少，在多数情况下能够达到与LSTM相当的效果并有效降低计算耗时。预测发音时长是服务器调用语音处理模型中的时长预测网络对文本特征进行时长预测处理得到的。基于上述网络结构的设计，服务器调用注意力网络对标注声学特征中的各声学特征帧进行串行化处理，而时长预测网络能够支持并行化处理文本特征，在网络结构的复杂度方面，注意力网络是高于时长预测网络的，因此，注意力网络对发音时长的预测效率并不是很高，但发音时长的预测准确度会比时长预测网络更高，而时长预测网络支持快速得到各个文本字符的发音时长，可有效提高时长预测效率。

服务器在训练阶段可借助注意力网络辅助训练时长预测网络，在训练过程中，可以将注意力网络所学习到的预测发音时长的能力转移给时长预测器（即注意力蒸馏），通过注意力蒸馏可以使得训练完成的时长预测网络在更简单的网络结构下，具备和注意力网络同等的时长预测能力，即注意力网络学习到的文本特征到发音时长的最佳映射关系可迁移给时长预测网络，进而在实际应用时使用应用网络结构更简单的时长预测网络而非注意力网络，可以在保证预测准确度的前提下更加快速地得到发音时长，有效提高实际语音合成处理中的发音时长的预测效率，进而使得整个语音处理模型高效地进行语音合成处理。

注意力网络还包括辅助解码器，该辅助解码器可以是两层RNN结构的循环神经网络，用于处理注意力循环神经网络输出的中间声学特征。在一个可行的实施例中，为了使得注意力网络对文本字符的发音时长的预测更加准确，可以借助辅助解码器训练注意力网络，由此还可以包括以下内容：获取根据标注声学特征进行特征转换处理得到的中间声学特征，并采用辅助解码器对中间声学特征进行特征提纯处理，得到目标声学特征；根据目标声学特征与标注声学特征之间的特征差异，对注意力网络进行训练，以得到训练完成的注意力网络。

中间声学特征包括的初始声学特征帧是由注意力机制粗测出来的声学特征帧，服务器可以调用注意力网络中包含的辅助解码器对该中间声学特征帧进行特征提纯处理，将粗测的声学特征帧进一步精细化，从而得到与标注声学特征更贴近的目标声学特征，之后，服务器可计算目标声学特征与标注声学特征之间的特征差异，并利用计算出来的特征差异训练注意力网络，具体包括辅助解码器和注意力机制中的注意力循环神经网络，具体地，特征差异可以通过损失值来表示，服务器可将损失值可反向传播至辅助解码器以及注意力循环神经网络中，并依据该损失值调整辅助解码器的网络参数以及注意力循环神经网络的网络参数。需要说明的是，注意力网络的训练和时长预测网络的训练是同步进行的，在注意力网络满足收敛条件，如迭代次数达到次数阈值或者是特征差异小于预设差异阈值，则可以得到训练完成的注意力网络，当注意力网络训练完成之后，时长预测网络也可以同步或者是随后训练完成，从而完成注意网络所学习到的预测发音时长的能力转移至时长预测网络。

综合以上注意力网络的相关内容，如图5c示出了一种注意力网络的处理原理示意图。注意力网络包括注意力机制和辅助解码器，注意力机制用于处理文本特征和标注声学特征，其中包含注意力循环神经网络RNN和注意力分数计算模块，注意力循环神经网络可基于标注声学特征预测中间声学特征，注意力分数计算模块可得到特征对齐矩阵，并对特征对齐矩阵进行转换得到参考发音时长，同时，注意力循环神经网络处理得到的中间声学特征可输入至辅助解码器中，该辅助解码器为循环神经网络RNN，由辅助解码器对中间声学特征进行特征提纯处理，可以得到精度更高的目标声学特征，从而利用目标声学特征和标注声学特征之间的特征差异来训练辅助解码器包含的循环神经网络和注意力机制中包含的注意力循环神经网络RNN。

综上，采用注意力机制对文本特征和标注声学特征的时长预测处理，具体可使用注意力机制计算注意力分数，并由表征字符特征和声学特征帧之间关联度的注意力分数来得到各个文本字符的发音时长，具体地，可基于注意力分数构建文本特征和声学特征之间的特征对齐矩阵，从而便捷地确定出声学特征帧数量，进而得到参考发音时长。以上内容可由包含注意力机制的注意力网络来实现，通过注意力网络辅助语音处理模型的训练，且该注意力网络在训练阶段也同步训练，在迭代训练的过程中得到预测准确度更高的参考发音时长，从而更好地辅助语音处理模型中的时长预测网络进行训练。

S405，调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，并基于预测声学特征合成目标文本的预测音频数据。

在一种实现方式中，调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，包括：调用语音处理模型根据参考发音时长确定待生成的预测声学特征对应的特征帧总数；调用语音处理模型根据参考发音时长对文本特征进行上采样处理，得到与特征帧总数相等数量的目标文本特征；调用语音处理模型对目标文本特征进行声学特征预测处理，得到与特征帧总数相等数量的预测声学特征帧，并将各个预测声学特征帧组合为目标文本的预测声学特征。

具体地，参考发音时长包括各个字符特征对应文本字符的发音时长，若参考发音时长包括的各个发音时长为声学特征维度的声学特征帧数量，那么服务器可将参考发音时长包括的各个发音时长的求和结果确定为待生成的预测声学特征对应的特征帧总数；若参考发音时长包括的各个发音时长为时间维度的实际时间长度，即声学特征帧数量和声学特征帧对应时长的乘积结果，那么服务器可基于声学特征帧对应的时长将参考发音时长包括的各个发音时长转换为声学特征帧数量，进而将各个声学特征帧数量之和确定为待生成的预测声学特征对应的特征帧总数。

然后，服务器可调用语音处理模型按照参考发音时长对文本特征进行上采样处理，由于文本特征包括各个文本字符对应的字符特征，参考发音时长包括各个字符特征对应文本字符的发音时长，因此，可以根据参考发音时长中对应文本字符的发音时长，对文本特征中相应的字符特征进行上采样处理。具体是将字符特征扩展到该发音时长对应指示的声学特征帧的帧数。举例来说，若某个字符特征对应文本字符的发音时长为5，那么服务器可以复制该字符特征5次，并复制得到的5个相同的字符特征作为上采样后的字符特征。若某个字符特征对应文本字符的发音时长为75毫秒，那么服务器可以将按照声学特征帧对应的时长该发音时长转换为帧数，如时长为25毫秒，那么可得到帧数为3，进而可以将该字符特征复制3次，得到3个相同的字符特征，并将其作为上采样后的字符特征。对于文本特征中的每一个字符特征均按照相应的发音时长进行上采样处理，从而可以得到目标文本特征，该目标文本特征中包括的字符特征的数量与特征帧总数相等。可选地，上采样处理可采用上采样模块实现，该上采样模块的处理逻辑可按照此处介绍的逻辑执行。示例性地，请参见图5d所示的对文本特征进行上采样处理示意图。文本特征H=[h1，h2，h3，h4]，按照参考发音时长包含的各个发音时长T=[1，2，2，1]对相应字符特征复制之后，可将复制得到的字符特征组合为目标文本特征H’=[h1，h2，h2，h3，h3，h4]。

最后，服务器可调用语音处理模型对目标文本特征中的所有字符特征进行声学特征预测处理，通过声学特征预测处理可以将每个字符特征转换为对应的预测声学特征帧，进而可以得到与特征帧总数相等数量的预测声学特征帧，并可以将各个预测声学特征帧组合为目标文本的预测声学特征。可选地，此步骤可采用并行解码器并行地对各个字符特征进行声学特征预测处理，从而快捷地得到预测声学特征，该并行解码器可以是纯CNN（Convolutional Neural Network，卷积神经网络）结构或transformer（一种神经网络，用于通过跟进序列数据中的关系来学习上下文）结构。

通过上采样处理可以对齐文本特征和声学特征，这样在生成声学特征（例如梅尔频谱图）时可以极大地减少字符跳过和重复的问题，提高声学特征的生成质量，且文本特征和字符特征之间的对齐即可代表输入的文本序列和输出的音频序列之间的对齐，使用高质量的声学特征也有利于提高预测音频的合成质量。

S406，基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，以及标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练。

在一个实施例中，语音处理模型包含时长预测网络、语音处理网络、以及语音生成网络。时长预测网络用于对文本特征进行发音时长预测处理，得到目标文本的预测发音时长，语音处理网络用于对文本进行编码处理，得到文本特征；以及对文本特征进行声学特征预测处理，得到目标文本的预测声学特征。语音生成网络用于基于预测声学特征合成目标文本的预测音频数据。

可选地，语音处理网络包括文本解码器、上采样模块和并行解码器，其中，文本编码器用于对目标文本进行编码处理，得到目标文本的文本特征；上采样模块用于对文本特征进行上采样处理，得到目标文本特征，目标文本特征包含的字符特征的数量与参考发音时长所指示的待生成的预测声学特征对应的特征帧总数相等；并行解码器用于对目标文本特征进行声学特征预测处理，得到预测声学特征，预测声学特征包含与特征帧总数相等数量的预测声学特征帧。

具体地，文本编码器的具体结构可以是基于RNN的CBHG（一种用来从序列中提取高层次特征的模块）编码器或基于Transformer block（一种语言表示模型的模块）的编码器，或其他编码器，在此不做限制。上采样模块可用于：根据发音时长信息将文本特征中各个字符特征扩展到对应的帧数，在语音处理模型的训练阶段，发音时长信息是指注意力网络预测得到的参考时长信息，文本特征具体是指目标文本的文本特征，在语音处理模型的应用阶段，发音时长信息是指时长预测网络预测出来的预测发音时长，文本特征具体是指待处理文本的文本特征。并行解码器可以是transformer（一种神经网络，用于通过跟进序列数据中的关系来学习上下文）结构也可以是纯CNN（Convolutional Neural Network，卷积神经网络）结构，服务器可将上采样模块输出的目标文本特征输入至并行解码器中，通过多次非线性变换处理可以得到待合成音频的文本对应的声学特征。语音生成网络即声码器，声码器（Vocoder）源自人声编码器（Voice Encoder）的缩写，又称语音信号分析合成系统，其作用是将声学特征转换为声音。可选地，语音生成网络可以是以下任一种：LPCNet（一种实时神经网络声码器，Realtime Neural Vocoder）、改进的LPCNet（如多频带多时间（multi-band multi-time）LPCNet）、Waveglow声码器（一种神经网络的声码器）等等，在此不做限制。

结合上述描述，可参见图6a所示的语音合成系统的示意图，该语音合成系统包括训练阶段相关模型结构、处理步骤以及处理结果，总体可包括语音处理模型和注意力网络，语音处理模型具体又包括语音处理网络、时长预测网络以及语音生成网络。其中，语音处理网络可称为可并行声学模型，注意力网络可称为时长提取器，时长预测网络可称为时长预测器，整个语音合成系统包括：时长提取器、时长预测器、可并行声学模型以及声码器。相比于传统的语音合成系统，本申请中语音合成系统引入了注意力蒸馏模块，并且将时长提取器、时长预测器以及可并行声学模型融为一体，并将可并行声学模型输出的预测声学特征直接用于声码器的训练，从而使得整个语音合成系统实现端到端的一体化训练，在保证模型前向计算效率的前提下，简化了训练流程，同时提升了语音合成的效果。该语音合成系统的一体化训练大致流程如下：首先通过训练注意力网络（即含注意力机制的解码器）获得文本-声学特征对齐矩阵，并将其转化为每个输入文本字符的对应发音时长（如声学特征帧数），然后用得到的发音时长对文本编码器的输出进行上采样后输入到可并行解码器中。与此同时，利用注意力网络预测的发音时长训练一个时长预测器，将注意力机制的发音时长预测能力蒸馏到时长预测器上，从而使得网络结构更简单的时长预测器具备和包含注意力机制的注意力网络同等的发音时长预测能力，以便语音合成时的处理更加高效。这样就实现了声学模型部分的一体化训练。接着，可通过对可并行声学模型输出的声学特征进行随机采样后直接用于声码器（例如多频带多时间LPCNet）的训练，使得整个语音合成系统（包括声学模型和声码器）实现完全端到端一体化训练。

本申请中以语音生成网络为多频带多时间LPCNet为例，对语音生成网络的处理原理进行简单的说明。为便于理解，先结合图6b对基本的LPCNet的网络结构和处理原理进行简要说明。

如图6b所示，原始LPCNet主要由两个部分组成：帧率网络（Frame Rate Network，FRN）和采样率网络（Sample Rate Network，SRN）。调用并行解码器预测得到的声学特征可输入帧率网络进行处理，例如声学特征包含的18 维BFCC特征（Bark-Frequency CepstralCoefficients）加上2维声调（Pitch）相关特征作为输入，然后经过多层卷积的处理提取高层语音特征作为后续帧率网络的条件特征f。采样率网络以当前时刻的粗测值p_t（线性预测编码的输出），上一时刻的预测值s_t-1，上一时刻的预测误差e_t-1以及帧率网络输出的条件特征f作为输入，输出当前时刻的预测误差e_t。当前时刻的粗测值p_t加上采样率网络输出的当前时刻的预测误差e_t，得到当前时刻的预测值s_t，即音频采样点的采样值。通过SRN（SampleRate Network，采样率网络）不断循环运行，最终得到整个合成音频的所有采样点的采样值。由于音频采样点数量较多，以采样率为16千赫兹（Khz）为例，10毫秒（ms）的音频包含160个采样点，因此，合成10毫秒（ms）音频SRN需要循环160次，整体计算量还是存在很大的优化空间。

由此可使用多频带多时间LPCNet来降低循环次数，提升整体的处理速度。首先可通过一组滤波器（例如伪方镜滤波器组Pseudo Quadratue Mirror Filter Bank，Pseudo-QMF）将当前帧声学特征帧（代表原始信号）划分为多个声学特征子帧（下述称为子带信号），这样，采样率网络SNR可以依次预测多个子带信号的激励e，即预测误差。然后对声学特征子帧进行降采样处理，缩短该声学特征子帧在时域的长度。由于时域长度减小，采样率网络SNR所需的循环次数变少，这样，从时域和频域进行处理，可以使得整体的处理速度得到明显提升。与此同时，各个子带信号相邻时间内的激励可同时被预测，这样进一步可减少SNR所需的循环次数。如图6c所示，多频带多时间LPCNet的采样率网络SRN中，除了FC层（fullyconnected layer，全连接层）外，SRN中的所有结构都是共享的，SRN依旧以自递归的模型运转，以上一轮所有子带信号的预测误差和预测值，以及上一个时刻及当前时刻的所有子带粗测值作为SRN中门控循环单元-A（即GRU-A）的输入，即向GRU-A输入：当前时刻的所有子带粗测值

、上一个时刻的所有子带粗测值

、上一轮所有子带信号的预测值

和

、上一轮所有子带信号的预测误差

和

，以及条件特征f，依次通过门控循环单元-A和门控循环单元-B的处理之后，SRN中GRU-B的输出分别送到N个独立的FC层以预测相邻时刻各子带信号的激励值，此处FC层的数量与子带信号的划分有关，举例来说，每个原始信号被划分为4个子带信号，时间相邻的两个原始信号为一组，因此每组预测共有8个子带信号，对应的FC层即包括8个，用于并行地计算各个子带信号。经过SNR中的层层处理，最终采样后输出当前轮的预测误差：包括当前时刻预测误差

和下一个时刻的预测误差

，进一步地，当前时刻的预测误差

和当前时刻的子带粗测值

相加可得到当前时刻的预测值

，进而基于

计算得到下一个时刻的子带粗测值

，并将

和下一个时刻的预测误差

求和，得到下一个时刻的预测值

，再利用

更新

，这样便可更新LPC队列以准备下一轮的LPC预测，其中，LPC队列中包含本轮所有子带信号的预测误差和预测值，以及当前时刻及下一个时刻的所有子带粗测值。经实验证明，在原始信号划分为4个子带信号时，多频带多时间LPCNet将SRN所需的循环次数减少了8倍，总体速度提升约3倍，对语音合成质量的降低约为3%。因此，基于多频带多时间LPCNet可在保证语音合成质量的前提下，有效提升语音合成效率。需要说明的是，为进一步提升语音合成效率，也可以在每一次训练中抽取预测声学特征中的部分连续声学特征作为多频带多时间LPCNet帧率网络的输入，具体可参见下述相关内容介绍。

在一种实现方式中，基于语音处理模型所包含的各个网络，对语音处理模型的训练具体包括以下内容：将参考发音时长作为时长标签，并基于预测发音时长与时长标签之间的时长预测差异，对语音处理模型包含的时长预测网络进行训练；在训练时长预测网络的同时，基于预测声学特征与标注声学特征之间的特征预测差异，对语音处理模型包含的语音处理网络进行训练；以及，在训练语音处理网络的同时，基于标注音频数据和预测音频数据之间的音频预测差异，对语音处理模型包含的语音生成网络进行训练。

由于参考发音时长是基于网络结构更复杂的注意力网络，对文本特征和标注声学特征进行处理得到的，参考发音时长是比时长预测网络预测得到的预测发音时长更准确的时长信息，因此服务器可将参考发音时长作为时长标签，并确定预测发音时长和时长标签之间的时长预测差异，该时长预测差异用于反映预测发音时长和时长标签之间的时间长度或者声学特征帧数量的差距，再基于预测发音时长和该时长标签之间的时长预测差异，调整时长预测网络的网络参数，实现对时长预测网络的训练。与此同时，标注声学特征作为声学特征标签，语音处理网络可用于输出目标文本对应的预测声学特征，基于预测声学特征与标注声学特征之间的特征预测差异，可对语音处理模型中的语音处理网络的网络参数进行调整，从而训练该语音处理网络，进一步地，由于预测声学特征可被直接输入语音生成网络，合成对应的预测音频，因此，在训练语音处理网络的同时，还可以训练语音生成网络，目标文本的标注音频数据作为音频标签，可与经过语音生成网络处理得到的预测音频数据之间计算音频预测差异，并基于该音频预测差异调整语音生成网络的网络参数。这样对语音处理模型包括的时长预测网络、语音处理网络以及语音生成网络的训练几乎是同步进行的，基于时长预测差异、特征预测差异以及音频预测差异，对语音处理模型中相应的网络进行训练，从而能够实现语音处理模型端到端的一体化训练，训练流程是统一而非割裂的，当语音处理模型中各个网络训练完成时，能够得到训练好的语音处理模型。

在一种实现方式中，为了进一步提高训练效率，还可以对语音生成网络的输入进行优化之后进行训练。服务器基于标注音频数据和预测音频数据之间的音频预测差异，对语音处理模型包含的语音生成网络进行训练，具体包括以下内容：

首先，服务器可从预测声学特征中采样得到目标数量的连续预测声学特征帧，并调用语音处理模型包含的语音生成网络对连续预测声学特征帧的各预测声学特征帧进行特征反变换处理，得到目标文本的预测音频数据；然后，服务器可从标注音频数据中选取出预测音频数据匹配的标注音频片段，并基于标注音频片段与预测音频数据之间的音频预测差异，对语音处理模型包含的语音生成网络进行训练。

具体地，预测声学特征包含多个预测声学特征帧，在训练的每一次前向处理时，可从预测声学特征包含的多个预测声学特征帧中随机抽取目标数量的连续预测声学特征帧，并将其作为语音生成网络的输入。举例来说，可以从并行解码器所预测得到的100个预测声学特征帧中随机抽取第20个至第45个预测声学特征帧，这15个连续预测声学特征帧可被输入语音生成网络中进行语音重建处理。服务器可调用语音生成网络对这些预测声学特征帧进行特征反变换处理，例如对预测声学特征帧进行傅里叶反变换处理，得到目标文本的预测音频数据。需要说明的是，语音生成网络处理的是部分预测声学特征帧，所生成的预测音频数据中发音的内容对应涉及目标文本中的部分内容，例如目标文本为“我喜欢吃苹果”，最终合成的预测音频数据仅包含“喜欢”这两个字的语音内容。

通常一个声学特征帧对应的音频采样点为160个，若对预测得到的所有预测声学特征帧进行特征反变换处理，这样给设备带来的处理压力是巨大的，因此，本申请通过从所有预测声学特征帧中抽取部分预测声学特征帧，并对其进行特征反变换处理，可以极大地降低语音生成阶段所需的处理资源和处理压力，并且也能够达到同样的训练效果，进而在保证训练效果的同时可进一步提升训练效率。

预测音频数据与标注音频片段匹配具体是指用于生成预测音频数据的连续预测声学特征帧和标注音频片段所对应的连续声学特征帧的序列位置是相同的。由于标注声学特征和预测声学特征可以视为一种特征序列，其中包含的声学特征帧具备顺序关系，例如从按序排列的100个预测声学特征帧中随机抽取第20个至第45个连续的预测声学特征帧，那么标注音频片段对应的也应是标注声学特征中第20个至第45个连续的声学特征帧。这样，该标注音频片段对应的是目标文本中的部分文本字符的语音内容，标注音频片段和预测音频数据之间是相近的语音内容。服务器可基于预测音频数据和标注音频片段之间的音频预测差异，即部分真实音频数据和预测得到的音频数据之间的差异，来调整语音生成网络的网络参数，实现对语音生成网络的训练。

可以理解的是，上述从所有声学特征中抽取部分声学特征帧进行处理的内容，主要是为了提高训练效率而设计的。当语音处理模型训练完成之后，该语音处理模型中的语音生成网络支持合成待处理文本的完整音频，因此，在语音处理模型的应用阶段，语音生成网络会处理并行解码器预测得到的所有声学特征帧，并基于所有声学特征帧得到待处理文本对应的音频数据。

结合上述对语音处理模型的训练的内容，可提供如图6d所示的语音处理模型的训练示意图。其中，语音处理模型训练过程中各个处理阶段的差异可反向传播至相应网络，各个网络的网络参数可基于相应差异被调整，从而实现语音处理模型的端到端训练。需要说明的是，由于注意力网络在语音处理模型的训练阶段使用，因此，文本编码器可基于训练注意力网络时反向传播的特征差异以及预测声学特征和标注声学特征之间的特征预测差异进行参数调整，并行解码器则基于特征预测差异进行参数调整，声码器（即语音生成网络）基于预测音频数据和标注音频数据之间的音频预测差异进行调整。可见，对于语音处理模型的各个模块是统一训练的，这样端到端的训练可以使得合成的音频自然度更高，并且训练流程中各个步骤是相互联系起来融合训练的，这样在私有化环境中训练语音处理模型时只需关注文本和对应音频的输入，预测音频的输出，而无需关注语音合成的中间流程，从而有利于在私有化环境中部署。当语音处理模型训练完成之后，可得到如图6e所示的训练完成的语音处理模型，对比可知，该训练完成的语音处理模型在应用阶段并不包含注意力网络以及标注音频数据的输入，而是直接输入待处理文本，即可输出音频数据。另外，在中间处理过程中，直接使用的是能够预测网络预测出的发音时长信息，对文本编码器的输出（即文本特征）进行上采样处理。本申请提供的模型训练方法属于一体化可并行语音合成方案，这体现在：文本特征中各字符特征可被并行处理，以快速转换为声学特征，调用时长预测网络可并行处理文本特征中各字符特征得到预测发音时长。

本申请实施例提供的模型训练方法，实现了一种一体化语音合成系统，该语音合成系统包含语音处理模型和注意力网络，通过注意力网络和语音处理模型中的时长预测网络之间的蒸馏，在迭代训练的过程中可将注意力网络的时长预测能力迁移给时长预测网络，且注意力网络和语音处理模型可融合为一体进行训练。同时，通过对语音处理模型中的语音处理网络输出的预测声学特征进行采样得到连续预测声学特征帧，并将其直接用于语音处理模型中的语音生成网络，这样使得语音处理网络和语音生成网络进行联合训练，使得整个语音合成系统可以完全端到端一体化训练。可见，语音合成系统中各个模块的训练不是独立的，即每个模块不是单独训练，注意力网络的训练以及语音处理模型的训练是统一步调的联合训练，这样就使得整个语音合成系统变得一体化，在保证了模型前向效率的同时，只需一步端到端即可训练，减少了训练所需的步骤，并且任何环境中语音处理模型训练和部署均变得更加简单高效。

请参见图7，图7是本申请实施例提供的一种模型训练装置的结构示意图。上述模型训练装置可以是运行于服务器中的一个计算机程序（包括程序代码），例如该模型训练装置为一个应用软件；该模型训练装置可以用于执行本申请实施例提供的模型训练方法中的相应步骤。如图7所示，该模型训练装置700可以包括以下至少一种：处理模块701和训练模块702。

处理模块701，用于获取目标文本，并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到目标文本的预测发音时长；

处理模块701，还用于获取目标文本的标注音频数据，并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长；

处理模块701，还用于调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，并基于预测声学特征合成目标文本的预测音频数据；

训练模块702，用于基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，以及标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练；训练完成的语音处理模型用于预测待处理文本对应的音频数据。

在一个实施例中，目标文本包含多个文本字符，文本特征包含多个字符特征，且一个字符特征与一个文本字符相对应；处理模块701，具体用于：根据标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征；采用注意力机制，计算中间声学特征在文本特征中的各字符特征下对应的注意力分数；根据任一字符特征对应的注意力分数，预测任一字符特征对应文本字符的发音时长，并将每个文本字符的发音时长整合为目标文本的参考发音时长。

在一个实施例中，标注声学特征包含多个声学特征帧；处理模块701，具体用于：从标注声学特征包含的多个声学特征帧中，依次选取一个声学特征帧作为参考声学特征帧，并基于参考声学特征帧进行特征预测处理，得到参考声学特征帧对应的初始声学特征帧；基于每个参考声学特征帧的选取顺序，对相应的初始声学特征帧进行排序，得到初始声学特征帧序列，并将初始声学特征帧序列作为中间声学特征。

在一个实施例中，标注声学特征包含多个声学特征帧，中间声学特征在各字符特征下对应的注意力分数包括：各声学特征帧在不同字符特征下对应的注意力分数；处理模块701，具体用于：从各声学特征帧在不同字符特征下对应的注意力分数中，确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量；基于确定出的声学特征帧数量，得到任一字符特征对应预测的发音时长。

在一个实施例中，处理模块701，具体还用于：根据各声学特征帧与相应字符特征之间的注意力分数，构建特征对齐矩阵；特征对齐矩阵包含多个分别与相应字符特征对应的列，且处于一列的注意力分数包括相应字符特征与各声学特征帧之间的注意力分数；从特征对齐矩阵中选取出任一列，并从选取出的任一列包含的注意力分数中，确定出对应注意力分数大于分数阈值的目标数量；将目标数量，作为各声学特征帧在任一列对应字符特征下的注意力分数大于分数阈值的声学特征帧数量。

在一个实施例中，处理模块701，具体还用于：将确定出的声学特征帧数量，作为任一字符特征对应预测的发音时长；或者，获取每个声学特征帧对应的时长，并将每个声学特征帧对应的时长和确定出的声学特征帧数量之间的乘积，作为任一字符特征对应预测的发音时长。

在一个实施例中，参考发音时长是基于注意力网络中包含的注意力机制进行预测得到的，预测发音时长是由语音处理模型中的时长预测网络进行预测得到的；其中，注意力网络对应网络结构的复杂度大于时长预测网络对应网络结构的复杂度，以使由注意力网络预测得到的参考发音时长的预测准确度，高于由时长预测网络预测得到的预测发音时长的预测准确度。

在一个实施例中，注意力网络还包括辅助解码器；处理模块701，还用于：获取根据标注声学特征进行特征转换处理得到的中间声学特征，并采用辅助解码器对中间声学特征进行特征提纯处理，得到目标声学特征；根据目标声学特征与标注声学特征之间的特征差异，对注意力网络进行训练，以得到训练完成的注意力网络。

在一个实施例中，处理模块701，具体用于：调用语音处理模型根据参考发音时长确定待生成的预测声学特征对应的特征帧总数；调用语音处理模型根据特征帧总数，对文本特征进行上采样处理，得到与特征帧总数相等数量的目标文本特征；调用语音处理模型对目标文本特征进行特征转换处理，得到与特征帧总数相等数量的预测声学特征帧，并将各个预测声学特征帧组合为目标文本的预测声学特征。

在一个实施例中，语音处理模型包含时长预测网络、语音处理网络、以及语音生成网络；训练模块702，具体用于：将参考发音时长作为时长标签，并基于预测发音时长与时长标签之间的时长预测差异，对语音处理模型包含的时长预测网络进行训练；在训练时长预测网络的同时，基于预测声学特征与标注声学特征之间的特征预测差异，对语音处理模型包含的语音处理网络进行训练；以及，在训练语音处理网络的同时，基于标注音频数据和预测音频数据之间的音频预测差异，对语音处理模型包含的语音生成网络进行训练。

在一个实施例中，语音处理网络包含：文本编码器、上采样模块和并行解码器；文本编码器用于对目标文本进行编码处理，得到目标文本的文本特征；上采样模块用于对文本特征进行上采样处理，得到目标文本特征，目标文本特征包含的字符特征的数量与参考发音时长所指示的待生成的预测声学特征对应的特征帧总数相等；并行解码器用于对目标文本特征进行声学特征预测处理，得到预测声学特征，预测声学特征包含与特征帧总数相等数量的预测声学特征帧。

在一个实施例中，训练模块702，具体用于：从预测声学特征中采样得到目标数量的连续预测声学特征帧，并调用语音处理模型包含的语音生成网络对连续预测声学特征帧的各预测声学特征帧进行特征反变换处理，得到目标文本的预测音频数据；从标注音频数据中选取出预测音频数据匹配的标注音频片段，并基于标注音频片段与预测音频数据之间的音频预测差异，对语音处理模型包含的语音生成网络进行训练。

可以理解的是，本申请实施例所描述的模型训练装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图8，图8是本申请实施例提供的一种服务器的结构示意图。该服务器800可以包含独立设备（例如节点、终端等等中的一个或者多个），也可以包含独立设备内部的部件（例如芯片、软件模块或者硬件模块等）。该服务器800可以包括至少一个处理器801和网络接口802，进一步可选地，服务器800还可以包括至少一个存储器803和总线804。其中，处理器801、网络接口802和存储器803通过总线804相连。

其中，处理器801是进行算术运算和/或逻辑运算的模块，具体可以是中央处理器（central processing unit，CPU）、图片处理器（graphics processing unit，GPU）、微处理器（microprocessor unit，MPU）、专用集成电路（Application SpecificIntegratedCircuit，ASIC）、现场可编程逻辑门阵列（Field Programmable Gate Array，FPGA）、复杂可编程逻辑器件（Complex programmable logic device，CPLD）、协处理器（协助中央处理器完成相应处理和应用）、微控制单元（Microcontroller Unit，MCU）等处理模块中的一种或者多种的组合。

网络接口802可以用于为至少一个处理器提供信息输入或者输出。和/或，网络接口802可以用于接收外部发送的数据和/或向外部发送数据，可以为包括诸如以太网电缆等的有线链路接口，也可以是无线链路（Wi-Fi、蓝牙、通用无线传输、车载短距通信技术以及其他短距无线通信技术等）接口。网络接口802可以作为网络接口。

存储器803用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器803可以是随机存储记忆体（random access memory，RAM）、只读存储器（read-only memory，ROM）、可擦除可编程只读存储器（erasable programmable read onlymemory，EPROM）、或便携式只读存储器（compact disc read-only memory，CD-ROM）等等中的一种或者多种的组合。

该服务器800中的至少一个处理器801用于调用至少一个存储器803中存储的计算机程序，用于执行本申请所示的实施例所描述的模型训练方法。

在一种可能的实施方式中，该服务器800中的处理器801用于调用至少一个存储器803中存储的计算机程序，用于执行以下操作：获取目标文本，并调用语音处理模型对目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到目标文本的预测发音时长；获取目标文本的标注音频数据，并采用注意力机制对目标文本进行编码处理后得到的文本特征及标注音频数据对应的标注声学特征进行时长预测处理，得到目标文本的参考发音时长；调用语音处理模型基于参考发音时长，对文本特征进行声学特征预测处理，得到目标文本的预测声学特征，并基于预测声学特征合成目标文本的预测音频数据；基于预测发音时长与参考发音时长之间的差异，预测声学特征与标注声学特征之间的差异，以及标注音频数据和预测音频数据之间的差异，对语音处理模型进行训练；训练完成的语音处理模型用于预测待处理文本对应的音频数据。

在一个实施例中，目标文本包含多个文本字符，文本特征包含多个字符特征，且一个字符特征与一个文本字符相对应；处理器801，具体用于：根据标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征；采用注意力机制，计算中间声学特征在文本特征中的各字符特征下对应的注意力分数；根据任一字符特征对应的注意力分数，预测任一字符特征对应文本字符的发音时长，并将每个文本字符的发音时长整合为目标文本的参考发音时长。

在一个实施例中，标注声学特征包含多个声学特征帧；处理器801，具体用于：从标注声学特征包含的多个声学特征帧中，依次选取一个声学特征帧作为参考声学特征帧，并基于参考声学特征帧进行特征预测处理，得到参考声学特征帧对应的初始声学特征帧；基于每个参考声学特征帧的选取顺序，对相应的初始声学特征帧进行排序，得到初始声学特征帧序列，并将初始声学特征帧序列作为中间声学特征。

在一个实施例中，标注声学特征包含多个声学特征帧，中间声学特征在各字符特征下对应的注意力分数包括：各声学特征帧在不同字符特征下对应的注意力分数；处理器801，具体用于：从各声学特征帧在不同字符特征下对应的注意力分数中，确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量；基于确定出的声学特征帧数量，得到任一字符特征对应预测的发音时长。

在一个实施例中，处理器801，具体还用于：根据各声学特征帧与相应字符特征之间的注意力分数，构建特征对齐矩阵；特征对齐矩阵包含多个分别与相应字符特征对应的列，且处于一列的注意力分数包括相应字符特征与各声学特征帧之间的注意力分数；从特征对齐矩阵中选取出任一列，并从选取出的任一列包含的注意力分数中，确定出对应注意力分数大于分数阈值的目标数量；将目标数量，作为各声学特征帧在任一列对应字符特征下的注意力分数大于分数阈值的声学特征帧数量。

在一个实施例中，处理器801，具体还用于：将确定出的声学特征帧数量，作为任一字符特征对应预测的发音时长；或者，获取每个声学特征帧对应的时长，并将每个声学特征帧对应的时长和确定出的声学特征帧数量之间的乘积，作为任一字符特征对应预测的发音时长。

在一个实施例中，注意力网络还包括辅助解码器；处理器801，还用于：获取根据标注声学特征进行特征转换处理得到的中间声学特征，并采用辅助解码器对中间声学特征进行特征提纯处理，得到目标声学特征；根据目标声学特征与标注声学特征之间的特征差异，对注意力网络进行训练，以得到训练完成的注意力网络。

在一个实施例中，处理器801，具体用于：调用语音处理模型根据参考发音时长确定待生成的预测声学特征对应的特征帧总数；调用语音处理模型根据特征帧总数，对文本特征进行上采样处理，得到与特征帧总数相等数量的目标文本特征；调用语音处理模型对目标文本特征进行特征转换处理，得到与特征帧总数相等数量的预测声学特征帧，并将各个预测声学特征帧组合为目标文本的预测声学特征。

在一个实施例中，语音处理模型包含时长预测网络、语音处理网络、以及语音生成网络；处理器801，具体用于：将参考发音时长作为时长标签，并基于预测发音时长与时长标签之间的时长预测差异，对语音处理模型包含的时长预测网络进行训练；在训练时长预测网络的同时，基于预测声学特征与标注声学特征之间的特征预测差异，对语音处理模型包含的语音处理网络进行训练；以及，在训练语音处理网络的同时，基于标注音频数据和预测音频数据之间的音频预测差异，对语音处理模型包含的语音生成网络进行训练。

在一个实施例中，处理器801，具体用于：从预测声学特征中采样得到目标数量的连续预测声学特征帧，并调用语音处理模型包含的语音生成网络对连续预测声学特征帧的各预测声学特征帧进行特征反变换处理，得到目标文本的预测音频数据；从标注音频数据中选取出预测音频数据匹配的标注音频片段，并基于标注音频片段与预测音频数据之间的音频预测差异，对语音处理模型包含的语音生成网络进行训练。

应当理解，本申请实施例中所描述的服务器800可执行前文所对应实施例中对该模型训练方法的描述，也可执行前文图7所对应实施例中对该模型训练装置700的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，还应指出，本申请一个示例性实施例还提供了一种存储介质，该存储介质中存储了前述模型训练方法的计算机程序，该计算机程序包括程序指令，当一个或多个处理器加载并执行该程序指令，可以实现实施例中对模型训练方法的描述，这里不再赘述，对采用相同方法的有益效果描述，也在此不再赘述。可以理解的是，程序指令可以被部署在一个或能够互相通信的多个服务器上执行。

上述计算机可读存储介质可以是前述任一实施例提供的模型训练装置或者上述服务器的内部存储单元，例如服务器的硬盘或内存。该计算机可读存储介质也可以是该服务器的外部存储设备，例如该服务器上配备的插接式硬盘，智能存储卡（smart mediacard，SMC），安全数字（secure digital，SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该服务器的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该服务器所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。服务器的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该服务器执行本申请实施例中一方面提供的方法。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取目标文本，并调用语音处理模型对所述目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到所述目标文本的预测发音时长；

获取所述目标文本的标注音频数据，并采用注意力机制对所述目标文本进行编码处理后得到的文本特征及所述标注音频数据对应的标注声学特征进行时长预测处理，得到所述目标文本的参考发音时长；

调用所述语音处理模型基于所述参考发音时长，对所述文本特征进行声学特征预测处理，得到所述目标文本的预测声学特征，并基于所述预测声学特征合成所述目标文本的预测音频数据；

基于所述预测发音时长与所述参考发音时长之间的差异，所述预测声学特征与所述标注声学特征之间的差异，以及所述标注音频数据和所述预测音频数据之间的差异，对所述语音处理模型进行训练；训练完成的语音处理模型用于预测待处理文本对应的音频数据。

2.如权利要求1所述的方法，其特征在于，所述目标文本包含多个文本字符，所述文本特征包含多个字符特征，且一个字符特征与一个文本字符相对应；所述采用注意力机制对所述目标文本进行编码处理后得到的文本特征及所述标注音频数据对应的标注声学特征进行时长预测处理，得到所述目标文本的参考发音时长，包括：

根据所述标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征；

采用注意力机制，计算所述中间声学特征在所述文本特征中的各字符特征下对应的注意力分数；

根据任一字符特征对应的注意力分数，预测所述任一字符特征对应文本字符的发音时长，并将每个文本字符的发音时长整合为所述目标文本的参考发音时长。

3.如权利要求2所述的方法，其特征在于，所述标注声学特征包含多个声学特征帧；所述根据所述标注音频数据对应的标注声学特征进行特征转换处理，得到中间声学特征，包括：

从所述标注声学特征包含的多个声学特征帧中，依次选取一个声学特征帧作为参考声学特征帧，并基于所述参考声学特征帧进行特征预测处理，得到所述参考声学特征帧对应的初始声学特征帧；

基于每个参考声学特征帧的选取顺序，对相应的初始声学特征帧进行排序，得到初始声学特征帧序列，并将所述初始声学特征帧序列作为中间声学特征。

4.如权利要求2所述的方法，其特征在于，所述标注声学特征包含多个声学特征帧，所述中间声学特征在各字符特征下对应的注意力分数包括：各声学特征帧在不同字符特征下对应的注意力分数；所述根据任一字符特征对应的注意力分数，预测所述任一字符特征对应文本字符的发音时长，包括：

从各声学特征帧在不同字符特征下对应的注意力分数中，确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量；

基于确定出的所述声学特征帧数量，得到所述任一字符特征对应预测的发音时长。

5.如权利要求4所述的方法，其特征在于，所述从各声学特征帧在不同字符特征下对应的注意力分数中，确定出任一字符特征下的注意力分数大于分数阈值的声学特征帧数量，包括：

根据各声学特征帧与相应字符特征之间的注意力分数，构建特征对齐矩阵；所述特征对齐矩阵包含多个分别与相应字符特征对应的列，且处于一列的注意力分数包括相应字符特征与各声学特征帧之间的注意力分数；

从所述特征对齐矩阵中选取出任一列，并从选取出的任一列包含的注意力分数中，确定出对应注意力分数大于分数阈值的目标数量；

将所述目标数量，作为各声学特征帧在任一列对应字符特征下的注意力分数大于分数阈值的声学特征帧数量。

6.如权利要求4所述的方法，其特征在于，所述基于确定出的所述声学特征帧数量，得到所述任一字符特征对应预测的发音时长，包括：

将确定出的所述声学特征帧数量，作为所述任一字符特征对应预测的发音时长；或者，

获取每个声学特征帧对应的时长，并将每个声学特征帧对应的时长和确定出的声学特征帧数量之间的乘积，作为所述任一字符特征对应预测的发音时长。

7.如权利要求1所述的方法，其特征在于，所述参考发音时长是基于注意力网络中包含的注意力机制进行预测得到的，所述预测发音时长是由所述语音处理模型中的时长预测网络进行预测得到的；

其中，所述注意力网络对应网络结构的复杂度大于所述时长预测网络对应网络结构的复杂度，以使由所述注意力网络预测得到的参考发音时长的预测准确度，高于由所述时长预测网络预测得到的预测发音时长的预测准确度。

8.如权利要求7所述的方法，其特征在于，所述注意力网络还包括辅助解码器；所述方法还包括：

获取根据所述标注声学特征进行特征转换处理得到的中间声学特征，并采用所述辅助解码器对所述中间声学特征进行特征提纯处理，得到目标声学特征；

根据所述目标声学特征与所述标注声学特征之间的特征差异，对所述注意力网络进行训练，以得到训练完成的注意力网络。

9.如权利要求1所述的方法，其特征在于，所述调用所述语音处理模型基于所述参考发音时长，对所述文本特征进行声学特征预测处理，得到所述目标文本的预测声学特征，包括：

调用所述语音处理模型根据所述参考发音时长确定待生成的预测声学特征对应的特征帧总数；

调用所述语音处理模型根据所述特征帧总数，对所述文本特征进行上采样处理，得到与所述特征帧总数相等数量的目标文本特征；

调用所述语音处理模型对所述目标文本特征进行声学特征预测处理，得到与所述特征帧总数相等数量的预测声学特征帧，并将各个预测声学特征帧组合为所述目标文本的预测声学特征。

10.如权利要求1-9任一项所述的方法，其特征在于，所述语音处理模型包含时长预测网络、语音处理网络、以及语音生成网络；所述基于所述预测发音时长与所述参考发音时长之间的差异，所述预测声学特征与所述标注声学特征之间的差异，以及所述标注音频数据和所述预测音频数据之间的差异，对所述语音处理模型进行训练，包括：

将所述参考发音时长作为时长标签，并基于所述预测发音时长与所述时长标签之间的时长预测差异，对所述语音处理模型包含的时长预测网络进行训练；

在训练所述时长预测网络的同时，基于所述预测声学特征与所述标注声学特征之间的特征预测差异，对所述语音处理模型包含的语音处理网络进行训练；以及，

在训练所述语音处理网络的同时，基于所述标注音频数据和所述预测音频数据之间的音频预测差异，对所述语音处理模型包含的语音生成网络进行训练。

11.如权利要求10所述的方法，其特征在于，所述语音处理网络包含：文本编码器、上采样模块和并行解码器；

所述文本编码器用于对所述目标文本进行编码处理，得到所述目标文本的文本特征；

所述上采样模块用于对所述文本特征进行上采样处理，得到目标文本特征，所述目标文本特征包含的字符特征的数量与所述参考发音时长所指示的待生成的预测声学特征对应的特征帧总数相等；

所述并行解码器用于对所述目标文本特征进行声学特征预测处理，得到预测声学特征，所述预测声学特征包含与所述特征帧总数相等数量的预测声学特征帧。

12.如权利要求10所述的方法，其特征在于，所述基于所述标注音频数据和所述预测音频数据之间的音频预测差异，对所述语音处理模型包含的语音生成网络进行训练，包括：

从所述预测声学特征中采样得到目标数量的连续预测声学特征帧，并调用所述语音处理模型包含的语音生成网络对所述连续预测声学特征帧的各预测声学特征帧进行特征反变换处理，得到所述目标文本的预测音频数据；

从所述标注音频数据中选取出所述预测音频数据匹配的标注音频片段，并基于所述标注音频片段与所述预测音频数据之间的音频预测差异，对所述语音处理模型包含的语音生成网络进行训练。

13.一种模型训练装置，其特征在于，包括：

处理模块，用于获取目标文本，并调用语音处理模型对所述目标文本进行编码处理后得到的文本特征进行发音时长预测处理，得到所述目标文本的预测发音时长；

所述处理模块，还用于获取所述目标文本的标注音频数据，并采用注意力机制对所述目标文本进行编码处理后得到的文本特征及所述标注音频数据对应的标注声学特征进行时长预测处理，得到所述目标文本的参考发音时长；

所述处理模块，还用于调用所述语音处理模型基于所述参考发音时长，对所述文本特征进行声学特征预测处理，得到所述目标文本的预测声学特征，并基于所述预测声学特征合成所述目标文本的预测音频数据；

训练模块，用于基于所述预测发音时长与所述参考发音时长之间的差异，所述预测声学特征与所述标注声学特征之间的差异，以及所述标注音频数据和所述预测音频数据之间的差异，对所述语音处理模型进行训练；训练完成的语音处理模型用于预测待处理文本对应的音频数据。

14.一种服务器，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-12中任一项所述的模型训练方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1-12中任一项所述的模型训练方法。