CN113838443A

CN113838443A - 音频合成方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN113838443A
Application number: CN202110815643.1A
Authority: CN
Inventors: 张泽旺; 李新辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-12-24

Abstract

本申请公开了一种音频合成方法、装置、计算机可读存储介质及电子设备，涉及人工智能领域，该方法包括：获取目标歌词的文本特征以及目标乐谱的乐谱特征；基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长；根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码；采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱；基于所述目标梅尔频谱生成所述目标歌词及所述目标乐谱对应的合成歌声音频。本申请有效提升合成歌声音频的自然度，同时兼顾发音稳定性和表现力。

Description

音频合成方法、装置、计算机可读存储介质及电子设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种音频合成方法、装置、计算机可读存储介质及电子设备。

背景技术

音频合成即将歌词和乐谱转换成歌声音频的技术，随着智慧生活需求的发展，音频合成对很多智慧生活场景的落地具有极为重要的推动作用。

目前，相关技术中存在通过歌词和乐谱提取歌声参数，基于歌声参数合成歌声音频的方案，相关技术中，提取歌声参数过程的稳定性较低，提取的歌声参数自然度较低，且会提取较多的导致噪声的歌声参数，导致合成的歌声自然度较差，难以兼顾发音稳定性和表现力。

发明内容

本申请实施例提供一种音频合成方法及相关装置，可以有效提升合成歌声音频自然度，同时兼顾发音稳定性和表现力。

为解决上述技术问题，本申请实施例提供以下技术方案：

根据本申请的一个实施例，一种音频合成方法，该方法包括：获取目标歌词的文本特征以及目标乐谱的乐谱特征；基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长；根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码；采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱；基于所述目标梅尔频谱生成所述目标歌词及所述目标乐谱对应的合成歌声音频。

根据本申请的一个实施例，一种音频合成装置，其包括：获取模块，用于获取目标歌词的文本特征以及目标乐谱的乐谱特征；时长预测模块，用于基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长；声学编码模块，用于根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码；级联解码模块，用于采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱；合成模块，用于基于所述目标梅尔频谱生成所述目标歌词及所述目标乐谱对应的合成歌声音频。

在本申请的一些实施例中，所述获取模块，包括：第一转换单元，用于将所述目标歌词中的音素及音素类型信息进行特征转换处理，生成所述文本特征；第二转换单元，用于将所述目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成所述乐谱特征。

在本申请的一些实施例中，所述第一转换单元，用于：将所述目标歌词中的每个音素及每个音素对应的音素类型信息进行特征转换处理，以生成每个音素的音素特征；从目标歌词中的所有音素中，确定音素类型为韵母及单韵母的待延音音素；对所述待延音音素的音素特征进行延音处理，得到延音音素特征；基于所述延音音素特征及每个所述音素的音素特征，生成所述文本特征。

在本申请的一些实施例中，所述第二转换单元，用于：确定所述目标歌词内每个音节对应的音符及音素个数；根据每个音节对应的音符的音符时值，确定每个音节的音节时长；按照每个音节对应的音素个数对每个音节的音节时长进行平均分配，以获得所述目标歌词中每个音素的音素时值；将所述目标乐谱中的音符、每个音素的音素时值及连音线进行特征转换处理，生成所述乐谱特征。

在本申请的一些实施例中，所述时长预测模块，包括：第一对齐单元，用于将所述文本特征及所述乐谱特征中的特征，按照所述目标歌词中的音素顺序进行对齐处理，得到所述目标歌词中每个音素对应的词曲特征；双向编码单元，用于将所述目标歌词中每个音素对应的词曲特征进行双向长短时记忆编码处理，得到长短期记忆特征；时长预测单元，用于基于所述长短期记忆特征进行时长预测处理，得到所述目标歌词中每个音素的预测音素时长。

在本申请的一些实施例中，所述时长预测单元，用于：采用训练后时长模型，基于所述长短期记忆特征进行时长预测处理，得到所述目标文本中每个音素的预测音素时长；所述装置还包括第一训练单元，用于：采用预测音素时长的第一目标函数及预测音节时长的第二目标函数，对预设时长模型进行联合训练得到所述训练后时长模型。

在本申请的一些实施例中，所述声学编码模块，包括：第二对应单元，用于将所述文本特征及所述乐谱特征中的特征，按照所述目标歌词中的音素顺序进行对齐处理，得到所述目标歌词中每个音素对应的词曲特征；自注意力编码单元，用于基于所述目标歌词中每个音素对应的词曲特征进行自注意力编码处理，得到自注意力编码；扩展处理单元，用于根据所述预测音素时长对所述自注意力编码进行扩展处理，得到所述声学编码。

在本申请的一些实施例中，所述自注意力编码中包括所述目标歌词中每个音素对应的子注意力编码；所述扩展处理单元，包括：复制子单元，用于根据每个音素对应的预测音素时长对每个音素对应的子注意力编码进行特征复制处理，得到每个音素对应的复制编码；组合子单元，用于基于每个音素对应的子注意力编码及复制编码，生成所述声学编码。

在本申请的一些实施例中，所述复制子单元，用于：确定所述目标歌词中每个音节的音节时长及每个音节对应的音素；根据每个音节的音节时长对每个音节对应的音素的预测音素时长进行缩放处理，得到每个音素对应的缩放音素时长，其中，音素类型为声母的音素对应的缩放音素时长小于预定时长；基于每个音素对应的缩放音素时长对每个音素对应的子注意力编码进行特征复制处理。

在本申请的一些实施例中，所述级联解码模块，包括：自注意力级联解码单元，用于采用分层渐进训练的至少两层级联的自注意力解码网络，对所述声学编码依次进行自注意力解码处理，得到解码出的梅尔频谱；目标梅尔频谱生成单元，用于基于解码出的梅尔频谱生成所述目标梅尔频谱。

在本申请的一些实施例中，所述目标梅尔频谱生成单元，用于：对解码出的梅尔频谱对应的输入特征序列进行卷积处理，得到卷积特征序列；将所述输入特征序列及所述卷积特征序列拼接后进行全连接运算处理，得到全连接特征序列；对所述全连接特征序列进行双向递归特征提取处理，得到平滑后频谱特征序列，以生成所述目标梅尔频谱。

在本申请的一些实施例中，所述装置还包括第二训练单元，用于：对至少两层级联的自注意力解码网络中每层自注意力解码网络添加预测目标梅尔频谱的损失函数；基于添加的损失函数，对所述至少两层级联的自注意力解码网络进行分层渐进训练。

根据本申请的另一实施例，一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行本申请实施例所述的方法。

根据本申请的另一实施例，一种电子设备，包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行本申请实施例所述的方法。

根据本申请的另一实施例，一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。

本申请实施例中，获取目标歌词的文本特征以及目标乐谱的乐谱特征；基于文本特征及乐谱特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长；根据预测音素时长对文本特征及乐谱特征进行声学编码处理，生成声学编码；采用分层渐进训练的至少两层级联的解码网络，对声学编码进行渐进解码处理，得到目标梅尔频谱；基于目标梅尔频谱生成目标歌词及目标乐谱对应的合成歌声音频。

以这种方式，在音频合成时，基于文本特征及乐谱特征进行相对于声学编码的独立地时长预测，可以稳定地获得高准确性预测音素时长，进而，根据预测音素时长对文本特征及乐谱特征进行的声学编码处理，获得可以高准确性表征歌声节奏的声学编码，进一步的，采用分层渐进训练的至少两层级联的解码网络对声学编码进行渐进解码处理，可以得到高自然度的目标梅尔频谱，进而仅通过目标梅尔频谱这一歌声参数可以生成高自然度的合成歌声音频，歌声噪声有效降低，同时歌声发音稳定且具有极优秀的表现力。进而有效提升合成歌声音频的自然度，同时兼顾发音稳定性和表现力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的系统的示意图。

图2示出了可以应用本申请实施例的另一个系统的示意图。

图3示出了根据本申请的一个实施例的音频合成方法的流程图。

图4示出了根据本申请的一个实施例的特征获取方法的流程图。

图5示出了根据本申请的一个实施例的预测音素时长的流程图。

图6示出了根据本申请的一个实施例的声学编码处理的流程图。

图7示出了应用本申请实施例的一种音频合成系统的架构图。

图8示出了根据本申请的一个实施例的音频合成装置的框图。

图9示出了根据本申请的一个实施例的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了可以应用本申请实施例的系统100的示意图。如图1所示，系统100可以包括服务器101及终端102。服务器101及终端102可以通过无线通信方式进行直接或间接地连接，本申请在此不做特殊限制。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本示例的一种实施方式中，服务器101为云服务器，服务器101可以提供人工智能云服务，例如提供音频合成的人工智能云服务。所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

终端102可以是任意的设备，终端102包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、VR/AR设备、智能手表以及计算机等等。

本示例的一种实施方式中，服务器101可以获取目标歌词的文本特征以及目标乐谱的乐谱特征；基于文本特征及乐谱特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长；根据预测音素时长对文本特征及乐谱特征进行声学编码处理，生成声学编码；采用分层渐进训练的至少两层级联的解码网络，对声学编码进行渐进解码处理，得到目标梅尔频谱；基于目标梅尔频谱生成目标歌词及目标乐谱对应的合成歌声音频。

其中，服务器101可以从终端102获取包含目标歌词及目标乐谱的曲谱信息。

图2示出了可以应用本申请实施例的另一种系统200的示意图。如图2所示，系统200可以是由客户端201、多个节点202通过网络通信的形式连接形成的分布式系统。

以分布式系统为区块链系统为例，参见图2，图2是本申请实施例提供的分布式系统200应用于区块链系统的一个可选的结构示意图，由多个节点202和客户端201形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器都可以加入而成为节点202(每个节点202可以是如图1中的服务器101)，节点202中可以提供音频合成服务，节点包括硬件层、中间层、操作系统层和应用层。

参见图2示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

本示例的一种实施方式中，节点202可以获取目标歌词的文本特征以及目标乐谱的乐谱特征；基于文本特征及乐谱特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长；根据预测音素时长对文本特征及乐谱特征进行声学编码处理，生成声学编码；采用分层渐进训练的至少两层级联的解码网络，对声学编码进行渐进解码处理，得到目标梅尔频谱；基于目标梅尔频谱生成目标歌词及目标乐谱对应的合成歌声音频。

其中，客户端201可以向节点202发送包含目标歌词及目标乐谱的曲谱信息。

图3示意性示出了根据本申请的一个实施例的音频合成方法的流程图。该音频合成方法的执行主体可以是任意的终端，例如图1所示的服务器101、终端102或者如图2所示的节点202或客户端201对应的终端。

如图3所示，该音频合成方法可以包括步骤S310至步骤S350。

步骤S310，获取目标歌词的文本特征以及目标乐谱的乐谱特征；

步骤S320，基于文本特征及乐谱特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长；

步骤S330，根据预测音素时长对文本特征及乐谱特征进行声学编码处理，生成声学编码；

步骤S340，采用分层渐进训练的至少两层级联的解码网络，对声学编码进行渐进解码处理，得到目标梅尔频谱；

步骤S350，基于目标梅尔频谱生成目标歌词及目标乐谱对应的合成歌声音频。

下面描述进行音频合成时，所进行的各步骤的具体过程。

在步骤S310中，获取目标歌词的文本特征以及目标乐谱的乐谱特征。

本示例的实施方式中，文本特征即歌曲中的歌词信息的特征，例如目标歌词转换后的音素序列。乐谱特征即歌曲中的旋律信息的特征，例如音符、音符时值、节拍、连音、延音等信息。目标歌词可以是待合成歌声音频对应的歌词，目标乐谱可以是待合成歌声音频对应的乐谱，目标歌词和目标文本可以包含于待合成歌声音频对应的曲谱。

针对目标歌词可以根据目标歌词中每个字的发音提取音素信息(例如音素即音素类型等)，然后对音素信息进行特征转换得到文本特征；针对目标乐谱可以提取目标乐谱中针对目标歌词中每个字标注的音符、音符时值及连音线等乐谱信息，然后，对乐谱信息进行特征转换得到乐谱特征。

一种实施例中，参阅图4，步骤S310，获取目标歌词的文本特征以及目标乐谱的乐谱特征，包括：

步骤S410，将目标歌词中的音素及音素类型信息进行特征转换处理，生成文本特征；步骤S420，将目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成乐谱特征。

音素即最小的语音单位，例如h等。音素类型信息可以包括声母及韵母等，一种示例中，音素类型信息包括声母、韵母及单韵母。音符即音乐符号，可以包括在乐谱里常用的符号，音符可以表达声音的不同特性，例如如音高及音量等。连音线(即圆滑线)表示演奏信息，连音线可以把几个不同音高的音符连在一起，表示这几个音符要演奏得连贯、圆滑。音符时值即音符的演奏时长。

特征转换处理可以通过查找向量字典的方式，将每个音素、音符等转换为对应的唯一特征向量，进而生成文本特征及乐谱特征。

通过对目标歌词中的音素及音素类型信息进行特征转换构造文本特征，对目标乐谱中的音符、音符时值及连音线进行特征转换构造乐谱特征，可以对乐谱特征(即音乐特征)和文本特征(即中文拼音特征)进行精细化构造，使得合成歌声音频的发音稳定性、歌唱声调稳定性进一步提升。其中，使用连音线信息、音素类型信息相较于不使用的情况可以使得合成歌声音频的发音稳定性、歌唱声调稳定性进一步提升。

一种实施例中，步骤S410，将目标歌词中的音素及音素类型信息进行特征转换处理，生成所述文本特征，包括：

将目标歌词中的每个音素及每个音素对应的音素类型信息进行特征转换处理，以生成每个音素的音素特征；从目标歌词中的所有音素中，确定音素类型为韵母及单韵母的待延音音素；对待延音音素的音素特征进行延音处理，得到延音音素特征；基于延音音素特征及每个音素的音素特征，生成文本特征。

将目标歌词中的每个音素及每个音素对应的音素类型信息进行特征转换处理，例如，将音素A及音素A的音素类型信息进行特征转换，得到音素A对应特征向量A1，音素A的音素类型信息对应的特征向量A2，A1及A2即音素A的音素特征。

待延音音素可以根据目标乐谱中针对目标歌词中的字对应的音符标注的延音记号确定，延音记号例如延音线也称等音连线(很多时候简称连线)，是指在相邻的同样音高的音符间添加的连接弧线。某个字的音符标注延音记号，该字对应的音素即待延音音素，需要根据延音记号对应的延音时长进行延音。

对待延音音素的音素特征进行延音处理，即将待延音音素的音素特征根据延音记号对应的延音时长进行特征复制，得到复制的延音音素特征。最后，将延音音素特征及每个音素的音素特征按照目标歌词中的音素顺序排列(即待延音音素的音素特征可以包括初始的音素特征及延音音素特征)，得到文本特征。

以这种方式，通过仅对韵母及单韵母进行延音的方式，而不对声母进行延音，申请人发现得到的文本特征可以进一步提升合成歌声音频的发音稳定性、歌唱声调稳定性。

一种实施例中，步骤S420，将目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成乐谱特征，包括：

确定目标歌词内每个音节对应的音符及音素个数；根据每个音节对应的音符的音符时值，确定每个音节的音节时长；按照每个音节对应的音素个数对每个音节的音节时长进行平均分配，以获得目标歌词中每个音素的音素时值；将目标乐谱中的音符、每个音素的音素时值及连音线进行特征转换处理，生成乐谱特征。

每个音节可以对应一个字，每个音节的音节时长即每个音节对应的音符的音符时值之和，每个音节可以对应多个音素。针对每个音节，将音节的音节时长除以音节对应的音素个数进行平均分配，得到音节对应的每个音素的音素时值，进而获得目标歌词中每个音素的音素时值。

最后，将目标乐谱中的音符、每个音素的音素时值及连音线进行特征转换处理，例如将音素A对应的音符、音素时值及连音线进行特征转换，得到音符对应特征向量A3，音素时值对应的特征向量A4，连音线对应的特征向量A5，A3、A4及A5即音素A的旋律特征，所有旋律特征的集合即乐谱特征。

以这种方式，在构造乐谱特征时，通过平均分配的方式，可以使得乐谱特征进一步提升合成歌声音频的发音稳定性、歌唱声调稳定性。

在步骤S320中，基于文本特征及乐谱特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长。

本示例的实施方式中，预测音素时长是针对每个音素预测的在演唱时的参考演唱时长。针对文本特征及乐谱特征进行特征编码得到编码后特征，可以基于编码后特征进行时长预测，得到每个音素对应的预测音素时长。基于文本特征及乐谱特征进行独立的时长预测处理，没有采取与后续的声学编码共享特征及共享编码器的方式进行时长预测，可以稳定地获得高准确性的预测音素时长。一个示例中，可以采用预先训练的独立的时长模型，基于文本特征及乐谱特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长，时长模型例如图7所示的双向长短时记忆(BLSTM)模型。

一种实施例中，参阅图5，步骤S320，基于文本特征及乐谱特征进行时长预测处理，得到目标歌词中每个音素对应的预测音素时长，包括：

步骤S510，将文本特征及乐谱特征中的特征，按照目标歌词中的音素顺序进行对齐处理，得到目标歌词中每个音素对应的词曲特征；步骤S520，将目标歌词中每个音素对应的词曲特征进行双向长短时记忆编码处理，得到长短期记忆特征；步骤S530，基于长短期记忆特征进行时长预测处理，得到目标歌词中每个音素的预测音素时长。

文本特征中可以包括每个音素对应的音素特征，乐谱特征中可以包括每个音素对应的旋律特征，将音素对应的音素特征及旋律特征对齐，即得到音素对应的词曲特征。

针对所有音素对应的词曲特征序列通过双向长短时记忆编码处理，得到长短期记忆特征，然后，基于长短期记忆特征进行分类预测，例如基于长短期记忆特征进行全连接运算后进行分类，得到每个音素对应的预测音素时长及置信度，可以稳定地获得高准确性的预测音素时长。

一个示例中，可以将目标歌词中每个音素对应的词曲特征输入预先训练的独立双向长短时记忆(BLSTM)模型，利用双向长短时记忆模型中的双向长短时记忆网络，将目标歌词中每个音素对应的词曲特征进行双向长短时记忆编码处理，得到长短期记忆特征；利用全连接网络及分类器，基于长短期记忆特征进行时长预测处理，得到目标歌词中每个音素的预测音素时长。

一种实施例中，步骤S530，基于长短期记忆特征进行时长预测处理，得到目标文本中每个音素的预测音素时长，包括：

采用训练后时长模型，基于长短期记忆特征进行时长预测处理，得到目标文本中每个音素的预测音素时长；以及对时长模型进行训练包括：采用预测音素时长的第一目标函数及预测音节时长的第二目标函数，对预设时长模型进行联合训练得到训练后时长模型。

训练后时长模型例如图7所示预先训练的独立双向长短时记忆(BLSTM)模型701，采用训练后时长模型，可以将目标歌词中每个音素对应的词曲特征进行双向长短时记忆编码处理，得到长短期记忆特征；基于长短期记忆特征进行时长预测处理，得到目标歌词中每个音素的预测音素时长。

其中，参阅图7，对于时长模型的训练时：引入预测音素时长的第一目标函数703及预测音节时长的第二目标函数702，对预设时长模型进行联合训练，第一目标函数及第二目标函数可以是平均平方差误差函数(MSE：Mean Squared Error)。

具体地，可以采用时长模型预测训练样本中每个音素的目标音素时长，然后，基于将训练样本中每个音节对应的音素的目标音素时长拼接，得到音节的目标音节时长。然后，基于第一目标函数确定时长模型的预测的目标音素时长与训练样本中音素标定的真实音素时长的第一预测误差(例如平方差)，基于第二目标函数确定时长模型的预测的目标音节时长及训练样本中音节标定的真实音节时长的第二预测误差(例如平方差)，将第一预测误差及第二预测误差同时作为时长模型的优化目标，调整时长模型中的参数，直到第一预测误差及第二预测误差同时符合要求(例如小于预定阈值)得的训练后的时长模型。

以这种方式，同时引入预测音素时长的第一目标函数及预测音节时长的第二目标函数，对预设时长模型进行联合训练，采用训练后时长模型获得预测音素时长，在后续步骤中根据预测音素时长对文本特征及乐谱特征进行声学编码处理生成的声学编码，就会具备基于音素级别及音节级别的不同尺度的节奏变换，可以有效增强歌声中音节或整句的连贯性，进一步提高歌声节奏的自然度。

在步骤S330中，根据预测音素时长对文本特征及乐谱特征进行声学编码处理，生成声学编码。

本示例的实施方式中，基于文本特征及乐谱特征进行特征声学编码，并基于预测音素时长对于特征声学编码后输出的特征编码(例如自注意力编码)进行节奏的扩展处理，得到完整节奏的声学编码，进而根据预测音素时长对文本特征及乐谱特征进行的声学编码处理，获得可以高准确性表征歌声节奏的声学编码。

其中，可以采用预先训练的声学模型(Acoustic model)，根据预测音素时长对文本特征及乐谱特征进行声学编码处理，生成声学编码，具体可以基于如图7所示的声学模型中的自注意力机制编码器704(SAEncoder)进行特征声学编码处理，基于声学模型中的上采样网络705(upsampling)进行扩展处理。

一种实施例中，参阅图6，步骤S330，根据预测音素时长对文本特征及乐谱特征进行声学编码处理，生成声学编码，包括：

步骤S610，将文本特征及乐谱特征中的特征，按照目标歌词中的音素顺序进行对齐处理，得到目标歌词中每个音素对应的词曲特征；步骤S620，基于目标歌词中每个音素对应的词曲特征进行自注意力编码处理，得到自注意力编码；步骤S630，根据预测音素时长对自注意力编码进行扩展处理，得到声学编码。

针对所有音素对应的词曲特征序列自注意力编码处理，得到自注意力编码，自注意力编码中可以包括每个音素对应的子注意力编码，然后，可以根据预测音素时长对自注意力编码每个音素对应的子注意力编码进行扩展处理，得到完整节奏的声学编码。

其中，根据预测音素时长对自注意力编码每个音素对应的子注意力编码进行扩展处理，得到每个音素对应的子声学编码，其中，扩展处理过程例如，音素A对应子注意力编码a，音素A对应的预测音素时长为3，此时，可以将子注意力编码a扩展为3份得到aaa，aaa即音素A对应的子声学编码。进一步的，扩展的份数可以根据预定的系数进行调整，例如预定系数为2，则时长为2*3等于6，则音素A扩展为6份得到aaaaaa，aaaaaa即音素A对应的子声学编码。最后，所有音素的子声学编码的集合即获得的声学编码。

其中，参阅图7，可以采用预先训练的声学模型中的自注意力机制编码器704(SAEncoder)，基于目标歌词中每个音素对应的词曲特征进行自注意力编码处理，得到自注意力编码；然后，采用声学模型中的上采样网络705(upsampling)根据预测音素时长对自注意力编码进行扩展处理，得到声学编码。

一种实施例中，自注意力编码中包括目标歌词中每个音素对应的子注意力编码；步骤S630，根据预测音素时长对自注意力编码进行扩展处理，得到声学编码，包括：

根据每个音素对应的预测音素时长对每个音素对应的子注意力编码进行特征复制处理，得到每个音素对应的复制编码；基于每个音素对应的子注意力编码及复制编码，生成声学编码。

扩展处理通过特征复制处理实现，例如，音素A对应子注意力编码a，音素A对应的预测音素时长为3，此时，可以将子注意力编码a进行特征复制2份得到复制编码aa，子注意力编码及复制编码的集合aaa即音素A对应的子声学编码。进一步的，复制的份数可以根据预定的系数进行调整，例如预定系数为2，则时长为2*3等于6，则音素A复制5份得到aaaaa，子注意力编码及复制编码的集合aaaaaa即音素A对应的子声学编码。最后，所有音素的子声学编码的集合即获得的声学编码。

一种实施例中，根据每个音素对应的预测音素时长对每个音素对应的子注意力编码进行特征复制处理，包括：

确定目标歌词中每个音节的音节时长及每个音节对应的音素；根据每个音节的音节时长对每个音节对应的音素的预测音素时长进行缩放处理，得到每个音素对应的缩放音素时长，其中，音素类型为声母的音素对应的缩放音素时长小于预定时长；基于每个音素对应的缩放音素时长对每个音素对应的子注意力编码进行特征复制处理。

每个音节的音节时长即目标乐谱中针对每个音节标定的音节时长。根据每个音节的音节时长对每个音节对应的音素的预测音素时长进行缩放处理，例如，音节M对应的音节时长200，音节M对应的音素例如A,及B，A对应的预测音素时长为70，B对应的预测音素时长为120，此时，200/(70+120)＝1.05，进而可以将1.05作为缩放比例(其中，缩放比例可以根据实际情况进行调整)则可以将A对应的预测音素时长70缩放处理为70*1.05等于73.5(即缩放音素时长)，B对应的预测音素时长120缩放处理为120*1.05等于126(即缩放音素时长)，其中，如果B的音素类型为声母时，如果预定时长为125，则限制B对应的缩放音素时长为预定时长125。

进而，基于每个音素对应的缩放音素时长对每个音素对应的子注意力编码进行特征复制处理，可以使得合成的歌声能够与相应的伴奏进行精准对齐，同时，为了防止声母缩放后时长过长，对声母的最大缩放音素时长进行了限制，例如限制为125毫秒，这样可以保证在时值较长的音符上声母听起来更加自然。

在步骤S340中，采用分层渐进训练的至少两层级联的解码网络，对声学编码进行渐进解码处理，得到目标梅尔频谱。

本示例的实施方式中，分层渐进训练即对至少两层级联的解码网络中每层解码网络添加预测目标梅尔频谱的损失函数(即对每层解码网络都与训练样本的真实梅尔频谱之间添加一个损失函数)，对解码网络形成渐进式损失函数(iterative loss)，可以对至少两层级联的解码网络进行分层渐进训练，得到分层渐进训练的至少两层级联的解码网络，至少两层级联的解码网络的收敛速度快且可以解码出自然度有效提升的梅尔频谱。

每层解码网络添加的损失函数可以是平均绝对值误差函数(MAE：Mean AbsoluteError)，使得每层解码网络输出的梅尔频谱与真实梅尔频谱之间的误差绝对值作为优化的目标，误差绝对值越小，说明解码出的梅尔频谱越精确。

其中，分层渐进训练的至少两层级联的解码网络可以位于声学模型中，作为声学模型中的解码器。

一种实施例中，步骤S340，采用分层渐进训练的至少两层级联的解码网络，对声学编码进行渐进解码处理，得到目标梅尔频谱，包括：

采用分层渐进训练的至少两层级联的自注意力解码网络，对声学编码依次进行自注意力解码处理，得到解码出的梅尔频谱；基于解码出的梅尔频谱生成目标梅尔频谱。

解码网络采用自注意力解码网络，可以对声学编码基于自注意力机制依次进行自注意力解码处理，最后一层自注意力解码网络输出的梅尔频谱即解码出的梅尔频谱，解码出的梅尔频谱的质量高。其中，参阅图7，分层渐进训练的至少两层级联的自注意力解码网络可以位于声学模型(Acoustic model)中，至少两层级联的自注意力解码网络形成声学模型中的自注意力机制解码器706(SADecoder)。一个示例中，自注意力解码网络包括3层。

一种实施例中，基于解码出的梅尔频谱生成目标梅尔频谱，包括：

对解码出的梅尔频谱对应的输入特征序列进行卷积处理，得到卷积特征序列；将输入特征序列及卷积特征序列拼接后进行全连接运算处理，得到全连接特征序列；对全连接特征序列进行双向递归特征提取处理，得到平滑后频谱特征序列，以生成目标梅尔频谱。

在解码出梅尔频谱后，对解码出的梅尔频谱进行平滑处理生成目标梅尔频谱，使得目标梅尔频谱更加平滑，质量更好。其中，平滑处理过程可以梅尔谱后处理网络进行平滑处理，后处理网络可由CBHG(Convolution Bank+Highway network+bidirectional GatedRecurrent Unit)模块构成，该模块中可以包括卷积层(Convolution Bank)、高速网络(Highway network)以及双向递归神经网络(bidirectional Gated Recurrent Unit)，可以基于卷积层对解码出的梅尔频谱对应的输入特征序列进行卷积处理，得到卷积特征序列；将输入特征序列及卷积特征序列拼接后，基于高速网络进行全连接运算处理，得到全连接特征序列；最后，基于双向递归神经网络对全连接特征序列进行双向递归特征提取处理，得到平滑后频谱特征序列，平滑后频谱特征序列即目标梅尔频谱对应的频谱特征序列。参阅图7，后处理网络707可以位于声学模型(Acoustic model)中，后处理网络输出的目标梅尔频谱即声学模型最终输出的梅尔频谱，在训练声学模型时可以针对训练样本输出的目标梅尔频谱(mel spectrogram)与训练样本对应的真实梅尔频谱(GT mel spectrogram)之间添加输出损失函数708进行训练。

以这种方式，可以获得更加平滑，质量更好的目标梅尔频谱，相较于使用深度卷积网络简单平滑效果有效提升。

一种实施例中，还包括对对至少两层级联的自注意力解码网络进行分层渐进训练，包括：对至少两层级联的自注意力解码网络中每层自注意力解码网络添加预测目标梅尔频谱的损失函数；基于添加的损失函数，对至少两层级联的自注意力解码网络进行分层渐进训练。

分层渐进训练即对至少两层级联的自注意力解码网络中每层自注意力解码网络添加预测目标梅尔频谱的损失函数(即对每层自注意力解码网络都与训练样本的真实梅尔频谱之间添加一个损失函数)，对自注意力解码网络形成如图7所示的渐进式损失函数709(iterative loss)，可以对至少两层级联的自注意力解码网络进行分层渐进训练，得到分层渐进训练的至少两层级联的自注意力解码网络，至少两层级联的自注意力解码网络的收敛速度快且可以解码出自然度有效提升的梅尔频谱。

在步骤S350中，基于目标梅尔频谱生成目标歌词及目标乐谱对应的合成歌声音频。

本示例的实施方式中，基于前述步骤获得高自然度的目标梅尔频谱，将目标梅尔频谱可以直接转化为合成歌声音频的歌声波形(可以基于MelGAN模型等声码器将目标梅尔频谱转换为相应的歌声波形)，进而仅通过目标梅尔频谱这一歌声参数可以生成高自然度的合成歌声音频，歌声噪声有效降低，同时歌声发音稳定且具有极优秀的表现力。相较于相关技术中需要获取梅尔频谱以及基频(F0)等较多的声学参数，合成歌声音频要么对表现力没有明显提升，要么存在少量的清浊音误判或者发音不清晰的问题。

以这种方式，基于步骤S310至步骤S350，在音频合成时，基于文本特征及乐谱特征进行相对于声学编码的独立地时长预测，可以稳定地获得高准确性预测音素时长，进而，根据预测音素时长对文本特征及乐谱特征进行的声学编码处理，获得可以高准确性表征歌声节奏的声学编码，进一步的，采用分层渐进训练的至少两层级联的解码网络对声学编码进行渐进解码处理，可以得到高自然度的目标梅尔频谱，进而仅通过目标梅尔频谱这一歌声参数可以生成高自然度的合成歌声音频，歌声噪声有效降低，同时歌声发音稳定且具有极优秀的表现力。进而有效提升合成歌声音频的自然度，同时兼顾发音稳定性和表现力。

为便于更好的实施本申请实施例提供的音频合成方法，本申请实施例还提供一种基于上述音频合成方法的音频合成装置。其中名词的含义与上述音频合成方法中相同，具体实现细节可以参考方法实施例中的说明。图8示出了根据本申请的一个实施例的音频合成装置的框图。图8示出了根据本申请的另一个实施例的音频合成装置的框图。

如图8所示，音频合成装置800中可以包括获取模块810、时长预测模块820、声学编码模块830、级联解码模块840及合成模块850。

获取模块810可以用于获取目标歌词的文本特征以及目标乐谱的乐谱特征；时长预测模块820可以用于基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长；声学编码模块830可以用于根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码；级联解码模块840可以用于采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱；合成模块850可以用于基于所述目标梅尔频谱生成所述目标歌词及所述目标乐谱对应的合成歌声音频。

在本申请的一些实施例中，所述获取模块810，包括：第一转换单元，用于将所述目标歌词中的音素及音素类型信息进行特征转换处理，生成所述文本特征；第二转换单元，用于将所述目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成所述乐谱特征。

在本申请的一些实施例中，所述时长预测模块820，包括：第一对齐单元，用于将所述文本特征及所述乐谱特征中的特征，按照所述目标歌词中的音素顺序进行对齐处理，得到所述目标歌词中每个音素对应的词曲特征；双向编码单元，用于将所述目标歌词中每个音素对应的词曲特征进行双向长短时记忆编码处理，得到长短期记忆特征；时长预测单元，用于基于所述长短期记忆特征进行时长预测处理，得到所述目标歌词中每个音素的预测音素时长。

在本申请的一些实施例中，所述声学编码模块830，包括：第二对应单元，用于将所述文本特征及所述乐谱特征中的特征，按照所述目标歌词中的音素顺序进行对齐处理，得到所述目标歌词中每个音素对应的词曲特征；自注意力编码单元，用于基于所述目标歌词中每个音素对应的词曲特征进行自注意力编码处理，得到自注意力编码；扩展处理单元，用于根据所述预测音素时长对所述自注意力编码进行扩展处理，得到所述声学编码。

在本申请的一些实施例中，所述级联解码模块840，包括：自注意力级联解码单元，用于采用分层渐进训练的至少两层级联的自注意力解码网络，对所述声学编码依次进行自注意力解码处理，得到解码出的梅尔频谱；目标梅尔频谱生成单元，用于基于解码出的梅尔频谱生成所述目标梅尔频谱。

以这种方式，基于音频合成装置800，可以在音频合成时，基于文本特征及乐谱特征进行相对于声学编码的独立地时长预测，可以稳定地获得高准确性预测音素时长，进而，根据预测音素时长对文本特征及乐谱特征进行的声学编码处理，获得可以高准确性表征歌声节奏的声学编码，进一步的，采用分层渐进训练的至少两层级联的解码网络对声学编码进行渐进解码处理，可以得到高自然度的目标梅尔频谱，进而仅通过目标梅尔频谱这一歌声参数可以生成高自然度的合成歌声音频，歌声噪声有效降低，同时歌声发音稳定且具有极优秀的表现力。进而有效提升合成歌声音频的自然度，同时兼顾发音稳定性和表现力。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，本申请实施例还提供一种电子设备，该电子设备可以为终端或者服务器，如图9所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器901、一个或一个以上计算机可读存储介质的存储器902、电源903和输入单元904等部件。本领域技术人员可以理解，图9中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器901是该电子设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器902内的软件程序和/或模块，以及调用存储在存储器902内的数据，执行计算机设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器901可包括一个或多个处理核心；优选的，处理器901可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器901中。

存储器902可用于存储软件程序以及模块，处理器901通过运行存储在存储器902的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器902还可以包括存储器控制器，以提供处理器901对存储器902的访问。

电子设备还包括给各个部件供电的电源903，优选的，电源903可以通过电源管理系统与处理器901逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源903还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元904，该输入单元904可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器901会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器902中，并由处理器901来运行存储在存储器902中的计算机程序，从而实现各种功能，如处理器901可以执行：

获取目标歌词的文本特征以及目标乐谱的乐谱特征；基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长；根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码；采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱；基于所述目标梅尔频谱生成所述目标歌词及所述目标乐谱对应的合成歌声音频。

一种实施例中，所述获取目标歌词的文本特征以及所述目标乐谱的乐谱特征时，处理器901可以执行：将所述目标歌词中的音素及音素类型信息进行特征转换处理，生成所述文本特征；将所述目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成所述乐谱特征。

一种实施例中，所述将所述目标歌词中的音素及音素类型信息进行特征转换处理，生成所述文本特征时，处理器901可以执行：将所述目标歌词中的每个音素及每个音素对应的音素类型信息进行特征转换处理，以生成每个音素的音素特征；从目标歌词中的所有音素中，确定音素类型为韵母及单韵母的待延音音素；对所述待延音音素的音素特征进行延音处理，得到延音音素特征；基于所述延音音素特征及每个所述音素的音素特征，生成所述文本特征。

一种实施例中，所述将所述目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成所述乐谱特征时，处理器901可以执行：确定所述目标歌词内每个音节对应的音符及音素个数；根据每个音节对应的音符的音符时值，确定每个音节的音节时长；按照每个音节对应的音素个数对每个音节的音节时长进行平均分配，以获得所述目标歌词中每个音素的音素时值；将所述目标歌词中的音符、每个音素的音素时值及连音线进行特征转换处理，生成所述乐谱特征。

一种实施例中，所述基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长时，处理器901可以执行：将所述文本特征及所述乐谱特征中的特征，按照所述目标歌词中的音素顺序进行对齐处理，得到所述目标歌词中每个音素对应的词曲特征；将所述目标歌词中每个音素对应的词曲特征进行双向长短时记忆编码处理，得到长短期记忆特征；基于所述长短期记忆特征进行时长预测处理，得到所述目标歌词中每个音素的预测音素时长。

一种实施例中，所述基于所述长短期记忆特征进行时长预测处理，得到所述目标文本中每个音素的预测音素时长时，处理器901可以执行：采用训练后时长模型，基于所述长短期记忆特征进行时长预测处理，得到所述目标文本中每个音素的预测音素时长；所述处理器901还可以执行：采用预测音素时长的第一目标函数及预测音节时长的第二目标函数，对预设时长模型进行联合训练得到所述训练后时长模型。

一种实施例中，所述根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码时，处理器901可以执行：将所述文本特征及所述乐谱特征中的特征，按照所述目标歌词中的音素顺序进行对齐处理，得到所述目标歌词中每个音素对应的词曲特征；基于所述目标歌词中每个音素对应的词曲特征进行自注意力编码处理，得到自注意力编码；根据所述预测音素时长对所述自注意力编码进行扩展处理，得到所述声学编码。

一种实施例中，所述自注意力编码中包括所述目标歌词中每个音素对应的子注意力编码；所述根据所述预测音素时长对所述自注意力编码进行扩展处理，得到所述声学编码时，处理器901可以执行：根据每个音素对应的预测音素时长对每个音素对应的子注意力编码进行特征复制处理，得到每个音素对应的复制编码；基于每个音素对应的子注意力编码及复制编码，生成所述声学编码。

一种实施例中，所述根据每个音素对应的预测音素时长对每个音素对应的子注意力编码进行特征复制处理时，处理器901可以执行：确定所述目标歌词中每个音节的音节时长及每个音节对应的音素；根据每个音节的音节时长对每个音节对应的音素的预测音素时长进行缩放处理，得到每个音素对应的缩放音素时长，其中，音素类型为声母的音素对应的缩放音素时长小于预定时长；基于每个音素对应的缩放音素时长对每个音素对应的子注意力编码进行特征复制处理。

一种实施例中，所述采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱时，处理器901可以执行：采用分层渐进训练的至少两层级联的自注意力解码网络，对所述声学编码依次进行自注意力解码处理，得到解码出的梅尔频谱；基于解码出的梅尔频谱生成所述目标梅尔频谱。

一种实施例中，所述基于解码出的梅尔频谱生成所述目标梅尔频谱时，处理器901可以执行：对解码出的梅尔频谱对应的输入特征序列进行卷积处理，得到卷积特征序列；将所述输入特征序列及所述卷积特征序列拼接后进行全连接运算处理，得到全连接特征序列；对所述全连接特征序列进行双向递归特征提取处理，得到平滑后频谱特征序列，以生成所述目标梅尔频谱。

一种实施例中，所述处理器901还可以执行：对至少两层级联的自注意力解码网络中每层自注意力解码网络添加预测目标梅尔频谱的损失函数；基于添加的损失函数，对所述至少两层级联的自注意力解码网络进行分层渐进训练。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种方法中的步骤。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请上述实施例中各种可选实现方式中提供的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的实施例，而可以在不脱离其范围的情况下进行各种修改和改变。

Claims

1.一种音频合成方法，其特征在于，包括：

获取目标歌词的文本特征以及目标乐谱的乐谱特征；

基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长；

根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码；

采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱；

基于所述目标梅尔频谱生成所述目标歌词及所述目标乐谱对应的合成歌声音频。

2.根据权利要求1所述的方法，其特征在于，所述获取目标歌词的文本特征以及所述目标乐谱的乐谱特征，包括：

将所述目标歌词中的音素及音素类型信息进行特征转换处理，生成所述文本特征；

将所述目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成所述乐谱特征。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标歌词中的音素及音素类型信息进行特征转换处理，生成所述文本特征，包括：

将所述目标歌词中的每个音素及每个音素对应的音素类型信息进行特征转换处理，以生成每个音素的音素特征；

从目标歌词中的所有音素中，确定音素类型为韵母及单韵母的待延音音素；

对所述待延音音素的音素特征进行延音处理，得到延音音素特征；

基于所述延音音素特征及每个所述音素的音素特征，生成所述文本特征。

4.根据权利要求2所述的方法，其特征在于，所述将所述目标乐谱中的音符、音符时值及连音线进行特征转换处理，生成所述乐谱特征，包括：

确定所述目标歌词内每个音节对应的音符及音素个数；

根据每个音节对应的音符的音符时值，确定每个音节的音节时长；

按照每个音节对应的音素个数对每个音节的音节时长进行平均分配，以获得所述目标歌词中每个音素的音素时值；

将所述目标歌词中的音符、每个音素的音素时值及连音线进行特征转换处理，生成所述乐谱特征。

5.根据权利要求1所述的方法，其特征在于，所述基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长，包括：

将所述文本特征及所述乐谱特征中的特征，按照所述目标歌词中的音素顺序进行对齐处理，得到所述目标歌词中每个音素对应的词曲特征；

将所述目标歌词中每个音素对应的词曲特征进行双向长短时记忆编码处理，得到长短期记忆特征；

基于所述长短期记忆特征进行时长预测处理，得到所述目标歌词中每个音素的预测音素时长。

6.根据权利要求5所述的方法，其特征在于，所述基于所述长短期记忆特征进行时长预测处理，得到所述目标文本中每个音素的预测音素时长，包括：

采用训练后时长模型，基于所述长短期记忆特征进行时长预测处理，得到所述目标文本中每个音素的预测音素时长；

所述方法还包括：

采用预测音素时长的第一目标函数及预测音节时长的第二目标函数，对预设时长模型进行联合训练得到所述训练后时长模型。

7.根据权利要求1所述的方法，其特征在于，所述根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码，包括：

基于所述目标歌词中每个音素对应的词曲特征进行自注意力编码处理，得到自注意力编码；

根据所述预测音素时长对所述自注意力编码进行扩展处理，得到所述声学编码。

8.根据权利要求7所述的方法，其特征在于，所述自注意力编码中包括所述目标歌词中每个音素对应的子注意力编码；

所述根据所述预测音素时长对所述自注意力编码进行扩展处理，得到所述声学编码，包括：

根据每个音素对应的预测音素时长对每个音素对应的子注意力编码进行特征复制处理，得到每个音素对应的复制编码；

基于每个音素对应的子注意力编码及复制编码，生成所述声学编码。

9.根据权利要求8所述的方法，其特征在于，所述根据每个音素对应的预测音素时长对每个音素对应的子注意力编码进行特征复制处理，包括：

确定所述目标歌词中每个音节的音节时长及每个音节对应的音素；

根据每个音节的音节时长对每个音节对应的音素的预测音素时长进行缩放处理，得到每个音素对应的缩放音素时长，其中，音素类型为声母的音素对应的缩放音素时长小于预定时长；

基于每个音素对应的缩放音素时长对每个音素对应的子注意力编码进行特征复制处理。

10.根据权利要求1所述的方法，其特征在于，所述采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱，包括：

采用分层渐进训练的至少两层级联的自注意力解码网络，对所述声学编码依次进行自注意力解码处理，得到解码出的梅尔频谱；

基于解码出的梅尔频谱生成所述目标梅尔频谱。

11.根据权利要求10所述的方法，其特征在于，所述基于解码出的梅尔频谱生成所述目标梅尔频谱，包括：

对解码出的梅尔频谱对应的输入特征序列进行卷积处理，得到卷积特征序列；

将所述输入特征序列及所述卷积特征序列拼接后进行全连接运算处理，得到全连接特征序列；

对所述全连接特征序列进行双向递归特征提取处理，得到平滑后频谱特征序列，以生成所述目标梅尔频谱。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

对至少两层级联的自注意力解码网络中每层自注意力解码网络添加预测目标梅尔频谱的损失函数；

基于添加的损失函数，对所述至少两层级联的自注意力解码网络进行分层渐进训练。

13.一种音频合成装置，其特征在于，包括：

获取模块，用于获取目标歌词的文本特征以及目标乐谱的乐谱特征；

时长预测模块，用于基于所述文本特征及乐谱特征进行时长预测处理，得到所述目标歌词中每个音素对应的预测音素时长；

声学编码模块，用于根据所述预测音素时长对所述文本特征及所述乐谱特征进行声学编码处理，生成声学编码；

级联解码模块，用于采用分层渐进训练的至少两层级联的解码网络，对所述声学编码进行渐进解码处理，得到目标梅尔频谱；

合成模块，用于基于所述目标梅尔频谱生成所述目标歌词及所述目标乐谱对应的合成歌声音频。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至12任一项所述的方法。

15.一种电子设备，其特征在于，包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行权利要求1至12任一项所述的方法。