CN114360492A

CN114360492A - 音频合成方法、装置、计算机设备和存储介质

Info

Publication number: CN114360492A
Application number: CN202111249621.XA
Authority: CN
Inventors: 张泽旺; 李新辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-04-15

Abstract

本申请涉及一种音频合成方法、装置、计算机设备和存储介质。所述方法包括：对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列；对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列；基于所述音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列；基于所述音符编码特征序列和目标对象的所述声音特征，解码得到音符解码特征序列；将所述音素解码特征序列和所述音符解码特征序列融合，得到目标声谱图；基于目标声谱图，生成包括所述声音特征的目标音频；所述目标音频的歌词和曲谱分别为所述目标歌词和所述目标曲谱。采用本方法能够提高音频合成的准确度。

Description

音频合成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频合成方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了歌唱合成技术，歌唱合成技术是用于将歌词和曲谱转化成音频的技术，随着歌唱合成技术的应用，出现了歌唱合成的方法，例如出现了基于波形拼接和参数合成的歌唱合成方法。

然而，目前的歌唱合成方法合成的音频与所期望的音频具有较大的区别，导致合成的音频的准确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高合成的音频的准确度的音频合成方法、装置、计算机设备和存储介质。

一种音频合成方法，所述方法包括：对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列；对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列；基于所述音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列；基于所述音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列；将所述音素解码特征序列和所述音符解码特征序列融合，得到目标声谱图；基于目标声谱图，生成包括所述声音特征的目标音频；所述目标音频的歌词和曲谱分别为所述目标歌词和所述目标曲谱。

一种音频合成装置，所述装置包括：音素编码特征序列得到模块，用于对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列；音符编码特征序列得到模块，用于对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列；音素解码特征序列得到模块，用于基于所述音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列；音符解码特征序列得到模块，用于基于所述音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列；目标声谱图得到模块，用于将所述音素解码特征序列和所述音符解码特征序列融合，得到目标声谱图；目标音频生成模块，用于基于目标声谱图，生成包括所述声音特征的目标音频；所述目标音频的歌词和曲谱分别为所述目标歌词和所述目标曲谱。

在一些实施例中，所述音素编码特征序列是由已训练的音频合成模型编码生成的；所述装置还包括音频合成模型训练模块，所述音频合成模型训练模块包括：特征序列获取单元，用于获取样本歌词对应的样本音素特征序列以及样本曲谱对应的样本音符特征序列，所述样本歌词为样本音频的歌词，所述样本曲谱为所述样本音频的曲谱，所述样本音频为样本对象所演唱的音频；音频合成模型获取单元，用于获取待训练的音频合成模型，所述音频合成模型包括第一编码器以及第二编码器，利用所述第一编码器对所述样本音素特征序列进行编码，得到样本音素编码特征序列，利用所述第二编码器对所述样本音符特征序列进行编码，得到样本音符编码特征序列；预测声谱图生成单元，用于基于所述样本音素编码特征序列以及所述样本音符编码特征序列，生成预测声谱图；声谱图差异确定单元，用于确定所述预测声谱图与所述样本音频对应的标准声谱图之间的声谱图差异；音频合成模型得到单元，用于基于所述声谱图差异调整所述音频合成模型的模型参数，以继续训练直至训练结束，得到所述已训练的音频合成模型。

在一些实施例中，所述待训练的音频合成模型中还包括当前待训练的特征生成网络；所述预测声谱图生成单元，还用于在使用每个样本对象的样本音频进行模型训练时，获取所述样本对象对应的当前第一声音特征；所述当前第一声音特征，是基于所述当前待训练的特征生成网络，针对所述样本对象生成的声音特征；将所述当前第一声音特征与所述样本音素编码特征序列进行特征融合，得到第一样本融合特征序列；基于所述第一样本融合特征序列以及所述样本音符编码特征序列，生成预测声谱图。

在一些实施例中，所述目标对象的声音特征包括目标对象的第一声音特征；所述第一声音特征是基于已训练的音频合成模型中的特征生成网络，针对所述目标对象生成的声音特征。

在一些实施例中，所述预测声谱图生成单元，还用于获取所述样本对象的当前第二声音特征；所述当前第二声音特征，是从所述样本对象演唱的样本参考音频中提取的；将所述当前第一声音特征、当前第二声音特征和所述样本音素编码特征序列进行特征融合，得到第一样本融合特征序列。

在一些实施例中，所述目标对象的声音特征包括所述目标对象的第二声音特征；所述第二声音特征，是基于从所述目标对象所演唱的目标参考音频中提取的声音特征确定的。

在一些实施例中，所述音素解码特征序列得到模块包括：参考音素时长序列获取单元，用于获取参考音素时长序列；扩展音素编码特征序列得到单元，用于基于所述参考音素时长序列对所述音素编码特征序列进行扩展，得到扩展音素编码特征序列；音素解码特征序列得到单元，用于基于所述扩展音素编码特征序列以及目标对象的声音特征，解码得到音素解码特征序列。

在一些实施例中，所述参考音素时长序列获取单元，还用于将所述音素特征序列与所述音符特征序列进行拼接，得到目标拼接特征序列；基于所述目标拼接特征序列进行音素时长的预测，得到参考音素时长序列。

在一些实施例中，所述参考音素时长序列是由已训练的时长预测模型预测得到的；所述装置还包括时长预测模型训练模块，所述时长预测模型训练模块包括：样本获取单元，用于获取样本歌词对应的样本音素特征序列以及样本曲谱对应的样本音符特征序列，所述样本歌词为样本音频的歌词，所述样本曲谱为所述样本音频的曲谱，所述样本音频为样本对象所演唱的音频；样本拼接特征序列得到单元，用于将所述样本音素特征序列与所述样本音符特征序列进行拼接，得到样本拼接特征序列；预测音素时长序列得到单元，用于将所述样本拼接特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；音素时长差异得到单元，用于基于所述预测音素时长序列与所述样本音频对应的标准音素时长序列之间的音素时长差异，调整所述时长预测模型的模型参数并继续训练直至训练结束，得到所述已训练的时长预测模型。

在一些实施例中，所述预测音素时长序列得到单元，还用于获取所述样本对象对应的样本当前声音特征；所述样本当前声音特征，是基于当前待训练的声音特征生成网络，针对所述样本对象生成的声音特征；将所述样本对象的样本当前声音特征与所述样本拼接特征序列进行特征融合，得到第二样本融合特征序列；将所述第二样本融合特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；所述装置还用于基于所述音素时长差异，调整所述当前待训练的声音特征生成网络的模型参数以继续训练直至训练结束，得到已训练的声音特征生成网络。

在一些实施例中，所述参考音素时长序列获取单元，还用于获取基于所述已训练的声音特征生成网络生成的、且与所述目标对象对应的时长预测声音特征；将所述时长预测声音特征与所述目标拼接特征序列进行特征融合，得到目标融合特征序列；将所述目标融合特征序列输入到所述已训练的时长预测模型中进行音素时长的预测，得到参考音素时长序列。

在一些实施例中，所述扩展音素编码特征序列得到单元，还用于基于音频帧时长以及所述参考音素时长序列，确定所述音素编码特征序列中各个音素编码特征分别对应的音素特征数量；基于所述音素编码特征对应的音素特征数量，对所述音素编码特征序列中的音频编码特征进行扩展，得到扩展音素编码特征序列。一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述音频合成方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音频合成方法的步骤。

一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述音频合成方法的步骤。

上述音频合成方法、装置、计算机设备和存储介质，对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列，对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列，基于音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列，基于音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列，从而实现了分别对目标歌词以及目标曲谱进行编解码，将音素解码特征序列和音符解码特征序列融合，得到目标声谱图，基于目标声谱图，生成包括声音特征的目标音频，从而实现了将编解码得到的音素解码特征序列和音符解码特征序列进行融合得到目标音频，由于目标歌词与目标曲谱是分别进行编解码的，从而提高了生成的目标音频的准确度。

附图说明

图1为一些实施例中音频合成方法的应用环境图；

图2为一些实施例中音频合成方法的流程示意图；

图3为一些实施例中音频合成模型的架构图；

图4为一些实施例中训练音频合成模型的原理图；

图5为一些实施例中声音特征提取网络的架构图；

图6为一些实施例中训练音频合成模型的原理图；

图7为一些实施例中生成声谱图的原理图；

图8为一些实施例中训练时长预测模型的原理图；

图9为一些实施例中利用参考音素时长序列进行扩展的原理图；

图10为一些实施例中音频合成装置的结构框图；

图11为一些实施例中计算机设备的内部结构图；

图12为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。ASR(Automatic Speech Recognition，自动语音识别技术)用于将语音转换成文本。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：

本申请提供的音频合成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104具有合成音频的功能，终端102可以向服务器104发送音频合成请求，音频合成请求中可以包括目标歌词以及目标曲谱，服务器104可以将目标歌词以及目标曲谱生成目标音频；生成的目标音频中的歌词为目标歌词，生成的目标音频中的曲谱为目标曲谱。例如，服务器104可以利用SVS(Singing Voice Synthesis，歌声合成)生成的目标音频，歌声合成技术是指将歌词和曲谱转换成音频的技术，即根据歌词和乐谱信息合成歌唱。歌声合成技术也可以称为歌唱合成技术。

具体地，服务器104可以对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列，对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列，基于音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列，基于音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列，将音素解码特征序列和音符解码特征序列融合，得到目标声谱图，基于目标声谱图，生成包括声音特征的目标音频。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

可以理解，上述应用场景仅是一种示例，并不构成对本申请实施例提供的音频合成方法的限定，本申请实施例提供的方法还可以应用在其他应用场景中，例如本申请提供的音频合成方法可以是由终端102执行的，终端102可以将得到的生成的目标音频上传至服务器104，服务器104可以存储目标音频，也可以将目标音频转发至其他终端设备。

在一些实施例中，如图2所示，提供了一种音频合成方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

S202，对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列。

其中，目标歌词可以是任意的文本内容，目标歌词用于合成目标音频。音素(phoneme)是指目标歌词中的文字对应的音素。音素特征包括对音素进行特征提取所得到的特征，音素特征序列中各个音素特征按照文字在歌词中的位置进行排列。文字在歌词中的位置越靠前，则文字的音素特征在音素特征序列中的排序越靠前。

文字对应有音节，一个音节对应一个文字，例如一个音节对应一个汉字，音素是构成音节的最小单位，一个音节可以包括至少一个音素。音素的类型包括元音和辅音。例如，汉字“我”的音节为“wo”，音节“wo”中包括音素“w”和音素“o”。音素编码特征是对音素特征进行编码所得到的特征。音素特征还可以包括对音素类型进行特征提取得到的特征，其中，进行特征提取例如为进行编码。

具体地，服务器可以获取目标歌词中各个文字分别对应的音素，按照文字在目标歌词中的位置，将各个文字的音素进行排列，得到目标歌词对应的音素序列，文字在目标歌词的位置越靠前，则文字的音素在音素序列中的排序越靠前。服务器可以对音素序列中的各个音素进行特征提取，得到各个音素分别对应的音素特征，按照音素在音素序列中的排序，将各个音素特征进行排列，得到音素特征序列。服务器可以对音素特征序列中的各个音素特征分别进行编码，得到各个音素特征分别对应的音素编码特征，按照音素特征在音素特征序列的排序，对各个音素编码特征进行排列，得到音素编码特征序列。

S204，对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列。

其中，目标曲谱可以是任意的曲谱，例如可以是五线谱或简谱中的任意一种，目标曲谱用于合成目标音频。曲谱中包括多个音符，曲谱中的音符有序排列。音符是指音乐符号。音符特征包括对音符进行特征提取所得到的特征。音符特征序列中的音符特征按照音符在曲谱中的排序进行排列，音符在曲谱中的排序越靠前，则音符特征在音符特征序列中的排序越靠前。音符编码特征是对音符特征进行编码所得到的特征。音符特征还可以包括对音符时值、连音符进行特征提取(例如编码)所得到的特征。

具体地，服务器可以对音符特征序列中的各个音符特征分别进行编码，得到各个音符特征分别对应的音符编码特征，按照音符特征在音符特征序列中的排序，对各个音符编码特征进行排列得到音符编码特征序列。音符特征在音符特征序列的排序越靠前，则音符特征对应的音符编码特征在音符编码特征序列中的排序越靠前。

在一些实施例中，服务器可以利用第一编码器对音素特征序列进行编码，得到音素编码特征序列，利用第二编码器对音符特征序列进行编码，得到音符编码特征序列。其中，第一编码器以及第二编码器可以是神经网络。例如，服务器可以获取已训练的音频合成模型，音频合成模型用于将歌词和曲谱生成具有对象的声音特征的音频，音频合成模型可以是神经网络模型，音频合成模型中可以包括第一编码器以及第二编码器，第一编码器用于对音素特征进行编码，第二编码器用于对音符特征进行编码，服务器可以利用已训练的音频合成模型中的第一编码器对音素特征序列进行编码，得到音素编码特征序列，可以利用已训练的音频合成模型中的第二编码器对音符特征序列进行编码，得到音符编码特征序列。音频合成模型也可以称为歌声合成模型。

S206，基于音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列。

其中，目标对象可以是自然人，目标对象也可以称为说话人。声音特征也可以称为说话人特征(Speaker Embedding)，可以利用声音特征区分说话人的身份。目标对象的声音特征可以是预先存储的，也可以是根据目标对象的声音数据生成的，目标对象的声音数据可以是任意的包括目标对象的声音的数据，例如目标对象的声音数据可以包括目标对象演唱的歌曲、目标对象朗诵的录音或目标对象日常说话的录音等中的至少一个。目标对象的声音特征可以包括对目标对象的声音数据进行声音特征的提取所得到的特征，还可以包括利用目标对象的声音数据对音频合成模型进行训练时针对目标对象生成的声音特征。

具体地，服务器可以基于音素编码特征序列以及目标对象的声音特征进行特征融合，得到目标音素融合特征序列，对目标音素融合特征序列中的音素融合特征进行解码，得到音素融合特征对应的音素解码特征，按照音素融合特征在目标音素融合特征序列中的排序，对各个音素解码特征进行排列，将排列得到的序列作为音素解码特征序列。其中，音素融合特征是将音素编码特征与目标对象的声音特征进行特征融合所得到的特征。音素解码特征是对音素融合特征进行解码所得到的特征。其中，特征融合可以包括特征相加、相乘或拼接中的至少一个。例如，服务器可以将音素编码特征与目标对象的声音特征进行相加，将相加的结果作为音素融合特征，当特征为向量时，相加是指将向量的相同位置的数值进行相加，例如，音素编码特征为[0.1,0.2,0.3]，目标对象的声音特征为[0.3,0.4,0.5]，则音素融合特征为[0.4,0.6,0.8]。

在一些实施例中，服务器可以将目标对象的声音特征分别与音素编码特征序列中的音素编码特征进行特征融合，得到各个音素编码特征分别对应的音素融合特征，按照音素编码特征在音素编码特征序列中的排序，对各个音素融合特征进行排列，得到目标音素融合特征序列。

在一些实施例中，服务器可以对音素编码特征序列进行扩展处理，将扩展处理的结果作为扩展音素编码特征序列，扩展处理是指对音素编码特征序列中的各个音素编码特征的数量进行增多的处理，具体地，服务器可以确定音素编码特征序列中各个音素编码特征分别对应的扩展倍数，按照扩展倍数对音素编码特征序列中的音素编码特征的数量进行扩展，得到扩展音素编码特征序列。其中，各个音素编码特征对应的扩展倍数可以相同也可以不同，扩展倍数可以是预设的也可以是预测得到的。例如，音素编码特征序列为[A,B,C]，A,B以及C分别为音素编码特征，如果在扩展处理中，将A的数量变为原来的3倍，将B的数量变为原来的2倍，将C的数量变为原来的2倍，则扩展音素编码特征序列为[A,A,A,B,B,C,C]。其中，当扩展倍数为1时，保持音素编码特征的数量不变。其中，音频合成模块中还可以包括特征扩展模块，服务器可以利用特征扩展模块对音素编码特征序列进行扩展处理，得到扩展音素编码特征序列。

在一些实施例中，服务器可以将目标对象的声音特征分别与扩展音素编码特征序列中的音素编码特征进行融合，得到各个音素编码特征分别对应的音素融合特征，按照音素编码特征在扩展音素编码特征序列中的排序，对各个音素融合特征进行排列，得到目标音素融合特征序列。

S208，基于音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列。

具体地，服务器可以基于音符编码特征序列以及目标对象的声音特征进行特征融合，得到目标音符融合特征序列，对目标音符融合特征序列中的音符融合特征进行解码，得到音符融合特征对应的音符解码特征，按照音符融合特征在目标音符融合特征序列中的排序，对各个音符解码特征进行排列，将排列得到的序列作为音符解码特征序列。其中，音符融合特征是将音符编码特征与目标对象的声音特征进行特征融合所得到的特征。音符解码特征是对音符融合特征进行解码所得到的特征。其中，特征融合可以包括特征相加、相乘或拼接中的至少一个。例如，服务器可以将音符编码特征与目标对象的声音特征进行相加，将相加的结果作为音符融合特征，当特征为向量时，相加是指将向量的相同位置的数值进行相加。需要说明的是，得到音素解码特征序列时所使用的声音特征与得到音符解码特征序列时所使用的声音特征可以是同一声音特征也可以是不同的声音特征。需要说明的是，步骤S208中的目标对象的声音特征与步骤S206中的目标对象的声音特征可以是相同的也可以是不同的。

在一些实施例中，服务器可以将目标对象的声音特征分别与音符编码特征序列中的音符编码特征进行特征融合，得到各个音符编码特征分别对应的音符融合特征，按照音符编码特征在音符编码特征序列中的排序，对各个音符融合特征进行排列，得到目标音符融合特征序列。

在一些实施例中，服务器可以对音符编码特征序列进行扩展处理，将扩展处理的结果作为扩展音符编码特征序列，扩展处理是指对音符编码特征序列中的各个音符编码特征的数量进行增多的处理，具体地，服务器可以确定音符编码特征序列中各个音符编码特征分别对应的扩展倍数，按照扩展倍数对音符编码特征序列中的音符编码特征的数量进行扩展，得到扩展音符编码特征序列。其中，各个音符编码特征对应的扩展倍数可以相同也可以不同，扩展倍数可以是预设的也可以是预测得到的。

在一些实施例中，服务器可以将目标对象的声音特征分别与扩展音符编码特征序列中的音符编码特征进行融合，得到各个音符编码特征分别对应的音符融合特征，按照音符编码特征在扩展音符编码特征序列中的排序，对各个音符融合特征进行排列，得到目标音符融合特征序列。

在一些实施例中，服务器可以利用第一解码器对目标音素融合特征序列进行解码，得到音素解码特征序列，利用第二解码器对目标音符融合特征序列进行解码，得到音符解码特征序列。其中，第一解码器以及第二解码器可以是神经网络，例如，已训练的音频合成模型中可以包括第一解码器以及第二解码器，第一解码器用于对音素融合特征进行解码，第二解码器用于对音符融合特征进行解码。服务器可以利用已训练的音频合成模型中的第一解码器对目标音素融合特征序列进行解码，得到音素解码特征序列，利用已训练的音频合成模型中的第二解码器对目标音符融合特征序列进行解码，得到音符解码特征序列。第一编码器以及第二编码器可以是自注意力编码器(SA Encoder)，其中，SA为self-attention(自注意力)的缩写。自注意力编码器是由Transformer中的自注意力机制构成的编码器。第一解码器以及第二解码器可以是自注意力解码器(SA Decoder)。自注意力解码器是由Transformer中的自注意力机制构成的解码器。

S210，将音素解码特征序列和音符解码特征序列融合，得到目标声谱图。

其中，目标声谱图是目标音频对应的声谱图。得到的目标声谱图可以是梅尔谱(mel spectrogram)，梅尔谱是指通过对声学信号进行傅立叶变换以后，再经过梅尔尺度进行变换得到的频谱。

具体地，服务器可以将音素解码特征序列与音符解码特征序列中相同位置的数值进行相乘，得到各个位置对应的相乘结果，按照位置对各个相乘结果进行排列，将排列得到的序列作为目标声谱图。例如，音素解码特征序列为[0.2,0.1,0.3]，音符解码特征序列为[0.7,0.4,0.3]，目标声谱图可以为[0.2×0.7,0.1×0.4,0.3×0.3]。

在一些实施例中，已训练的音频合成模型中还可以包括已训练的声谱图优化网络，具体地，服务器可以将音素解码特征序列和音符解码特征序列融合，将融合的结果作为目标声谱图，服务器可以将目标声谱图输入到声谱图优化网络中进行优化，得到优化后的声谱图，基于优化后的声谱图生成目标音频。其中，声谱图优化网络例如可以是CBHGPostnet，CBHG的英文为“Convolution Bank+Highway network+bidirectionalGatedRecurrent Unit”，中文为“卷积层+高速网络+双向递归神经网络”。CBHG Postnet是由CBHG模块构成的梅尔谱后处理网络。通过CBHG Postnet对自注意力解码器预测的梅尔谱进行后处理，用于提高梅尔谱的平滑度以及质量。声谱图优化网络也可以称为后处理网络。如图3所示，展示了一个音频合成模型，音频合成模型包括第一编码器、第二编码器、特征扩展模块、第一解码器、第二解码器以及声谱图优化网络，其中，虽然声音特征是在特征扩展模块处加入的，但并不代表声音特征必须在特征扩展模块处加入，还可以在第一解码器或者第二解码器处加入声音特征，可以在特征扩展模块、第一解码器、第二解码器中的至少一个部分加入目标对象的声音特征，这3个部分加入的目标对象的声音特征可以相同也可以不同。

S212，基于目标声谱图，生成包括声音特征的目标音频；目标音频的歌词和曲谱分别为目标歌词和目标曲谱。

具体地，服务器可以将目标声谱图输入到声码器中，利用声码器对目标声谱图进行处理生成目标音频。其中，声码器可以是任意的声码器，例如可以是LPCNet(LinearPredictive Coding network，线性预测编码网络)，线性预测编码是指基于线性模型来表示数字信号。LPCNet的采样率为24KHz(千赫兹)，相比于其他声码器LPCNet具有较高的稳定性和清晰度。LPCNet具备轻量级和高音质的特点。

上述音频合成方法中，对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列，对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列，基于音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列，基于音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列，从而实现了分别对目标歌词以及目标曲谱进行编解码，将音素解码特征序列和音符解码特征序列融合，得到目标声谱图，基于目标声谱图，生成包括声音特征的目标音频，从而实现了将编解码得到的音素解码特征序列和音符解码特征序列进行融合得到目标音频，由于目标歌词与目标曲谱是分别进行编解码的，从而提高了生成的目标音频的准确度。

本申请提供的音频合成方法，旨在完成给定歌词、曲谱和歌唱者身份信息即可生成歌声的任务，属于从特征到模型再到实际应用的整体解决方案，兼具稳定性、表现力和实用性，并且可以实现基于少量歌曲数据而进行任意人的音色定制。本发明可以应用到具有语音合成能力的产品中，包括但不限于智能音箱、有屏音箱、智能手表、智能手机、智能家居、智能汽车等智能设备，智能机器人、虚拟主播、虚拟助教、AI(ArtificialIntelligence，人工智能)客服、TTS(Text To Speech，语音合成技术)云服务等等，其使用方案都可以通过本文提出的歌声合成模型来大大增强AI产品的技能，并提供广阔的娱乐应用效果，因其娱乐效应较为明显，若打造成虚拟偶像则也具备可观的商业变现能力。其中，语音合成技术是指将文本转换为语音的技术。

本申请提供的音频合成方法，由于歌词和曲谱是分别进行编解码的，故可以称为一种双流歌声合成模型，该模型采用两个独立的编解码模型来分别对歌词和曲谱进行建模，最终通过乘法算子来对它们进行组合，这种解耦的建模算法很好地减少了歌词与曲谱之间的相互影响。

在一些实施例中，音素编码特征序列是由已训练的音频合成模型编码生成的；得到已训练的音频合成模型的步骤包括：获取样本歌词对应的样本音素特征序列以及样本曲谱对应的样本音符特征序列，样本歌词为样本音频的歌词，样本曲谱为样本音频的曲谱，样本音频为样本对象所演唱的音频；获取待训练的音频合成模型，音频合成模型包括第一编码器以及第二编码器，利用第一编码器对样本音素特征序列进行编码，得到样本音素编码特征序列，利用第二编码器对样本音符特征序列进行编码，得到样本音符编码特征序列，基于样本音素编码特征序列以及样本音符编码特征序列，生成预测声谱图；确定预测声谱图与样本音频对应的标准声谱图之间的声谱图差异；基于声谱图差异调整音频合成模型的模型参数，以继续训练直至训练结束，得到已训练的音频合成模型。

其中，音素编码特征序列以及音符编码特征序列可以是由已训练的音频合成模型编码生成的。样本音频、样本歌词以及样本曲谱用于对音频合成模型进行训练。样本对象可以有多个，样本歌词可以有多个，样本对象与目标对象可以为同一对象也可以为不同的对象。

得到样本音素特征序列的方法可以参考得到目标歌词对应的音素特征序列的方法，得到样本音符特征序列的方法可以参考得到目标曲谱对应的音符特征序列的方法，这里不再赘述。

样本音频对应的标准声谱图是对样本音频进行傅里叶计算所得到的声谱图，例如当标准声谱图为梅尔频谱时，可以通过对样本音频进行傅里叶变换再经过梅尔尺度进行变化得到标准声谱图。标准声谱图也可以称为GT mel(Ground mel，真实梅尔频谱)。

具体地，服务器可以利用第一编码器对样本音素特征序列中的各个音素特征分别进行编码，得到各个音素特征对应的音素编码特征，将各个音素编码特征进行排列得到样本音素编码特征序列。服务器可以利用第二编码器对样本音符特征序列中的各个音符特征进行编码，得到各个音符特征对应的音符编码特征，将各个音符编码特征进行排列得到样本音符编码特征序列。

在一些实施例中，服务器可以获取样本对象的声音特征，基于样本对象的声音特征以及样本音素编码特征序列进行特征融合，得到第一样本融合特征序列，基于样本对象的声音特征以及样本音符编码特征序列进行特征融合，得到第三样本融合特征序列。音频合成模型中还可以包括第一解码器以及第二解码器，服务器可以利用第一解码器对第一样本融合特征序列进行解码，得到样本音素解码特征序列，利用第二解码器对第三样本融合特征序列进行解码，得到样本音符解码特征序列，基于样本音素解码特征序列以及样本音符解码特征序列生成预测声谱图，例如，可以将样本音素解码特征序列与样本音符解码特征序列中的相同位置处的数值进行相乘，将各个位置的相乘结果按照位置排列得到预测声谱图。

在一些实施例中，服务器可以计算预测声谱图与标准声谱图之间的差异，将计算得到的差异作为声谱图差异。例如，服务器可以计算预测声谱图与标准声谱图之间的平均绝对值误差(MAE，Mean Absolute Error)，将平均绝对值误差作为声谱图差异。声谱图差异越小，说明音频合成模型预测的声谱图(例如梅尔谱)越精确。

在一些实施例中，第一解码器包括多层，每层对应一个解码单元，不同的解码单元处于不同的层，在利用第一解码器对第一样本融合特征序列中的音素融合特征进行解码时，利用第一解码器中的解码单元对音素融合特征进行逐层的解码，得到样本音素解码特征序列中的音素解码特征，例如，第一解码器包括1-3层，利用第1层的解码单元对音素融合特征进行解码，将第1层的解码结果输入到第2层的解码单元进行解码，将第2层的解码结果输入到第3层的解码单元进行解码，将第3层的解码结果作为音素解码特征。同样的，第二解码器也可以是多层的，每层对应一个解码单元，不同的解码单元处于不同的层。在利用第二解码器对第三样本融合特征序列中的音符融合特征进行解码时，利用第二解码器中的解码单元对音符融合特征进行逐层的解码，得到样本音符解码特征序列中的音符解码特征。服务器可以将第一解码器和第二解码器的同一层的解码结果进行融合，例如，将第一解码器的第1层输出的解码结果与第二解码器的第1层输出的解码结果进行融合，将融合的结果作为该层对应的层预测声谱图，其中，融合例如可以是将相同位置的数值进行相乘。

在一些实施例中，服务器可以对标准声谱图进行尺度变换，得到解码器的各个层分别对应的层标准声谱图，同一层的层标准声谱图和层预测声谱图的维度一致。服务器可以计算同一层的层预测声谱图和层标准声谱图之间的差异，得到层声谱图差异，声谱图差异可以包括各个层对应的层声谱图差异，例如当有3层时，声谱图差异可以包括3层分别对应的层声谱图差异。其中，在计算层声谱图差异时，服务器可以计算层预测声谱图与层标准声谱图之间的平均绝对值误差，将平均绝对值误差作为层声谱图差异，这种做法可以称为计算Iterative MAE(渐进式MAE)。渐进式MAE是指对自注意力解码器的每一个模块都与目标梅尔谱之间设置一个MAE loss(MAE损失)，这样使得效果更加自然。

在一些实施例中，音频合成模型的模型参数包括第一编码器的参数以及第二编码器的参数，服务器可以利用声谱图差异调整第一编码器以及第二编码器的参数，以对第一编码器以及第二编码器进行训练直到训练结束，得到已训练的第一编码器以及已训练的第二编码器。

在一些实施例中，服务器可以基于样本音素编码特征序列进行对象识别，得到样本对象的第一对象识别结果，获取样本对象的真实身份，基于真实身份生成标准对象识别结果，其中，标准对象识别结果是根据样本对象的真实身份生成的识别结果，通过标准对象识别结果可以确定样本对象的身份为该样本对应的真实身份。基于第一对象识别结果以及标准对象识别结果生成第一身份损失值，第一身份损失值越大，则第一对象识别结果越不准确，第一身份损失值越小，则第一对象识别结果越准确，基于第一身份损失值生成第一反向损失值，第一反向损失值与第一身份损失值成负相关关系，服务器可以利用第一反向损失值调整第一编码器的参数，由于第一反向损失值与第一身份损失值成负相关关系，因此，当朝着第一反向损失值减小的方向调整第一编码器的参数时，可以使得第一身份损失值朝着变大的方向调整，从而使得第一编码器的输出结果并不能预测对象的身份，即使得第一编码器所编码得到的特征与对象的身份无关，从而提高了第一编码器的编码准确度。其中，负相关关系指的是：在其他条件不变的情况下，两个变量变动方向相反，一个变量由大到小变化时，另一个变量由小到大变化。可以理解的是，这里的负相关关系是指变化的方向是相反的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。

例如，服务器可以获取第一梯度反转模块以及第一对象分类网络，将样本音素编码特征序列输入到第一梯度反转模块中，通过第一梯度反转模块将样本音素编码特征序列输入到第一对象分类网络中进行对象识别，对象分类网络用于识别对象的身份，服务器可以获取第一对象分类网络对样本音素编码特征序列进行对象识别所得到的第一对象识别结果，基于第一对象识别结果以及标准对象识别结果生成第一身份损失值，在得到第一身份损失值后，服务器可以根据第一身份损失值生成第一反向损失值。例如，服务器可以将第一身份损失值反向传递到第一梯度反转模块中，利用第一梯度反转模块生成第一反向损失值。梯度反转模块也可以称为梯度反转层(Gradient Reversal Layer)，梯度反转层，即通过对梯度乘以一个负数，以实现对编码器的反向作用。

同样的，服务器可以基于样本音符编码特征序列进行对象识别，得到样本对象的第二对象识别结果，基于第二对象识别结果以及标准对象识别结果生成第二身份损失值，第二身份损失值越大，则第二对象识别结果越不准确，第二身份损失值越小，则第二对象识别结果越准确，基于第二身份损失值生成第二反向损失值，第二反向损失值与第二身份损失值成负相关关系，服务器可以利用第二反向损失值调整第二编码器的参数，从而使得第二编码器所编码得到的特征与对象的身份无关，从而提高了第二编码器的编码准确度。其中，服务器可以获取第二梯度反转网络以及第二对象分类网络，将样本音符编码特征序列输入到第二梯度反转网络中，通过第二梯度反转网络将样本音符编码特征序列传输到第二对象分类网络中进行对象识别，得到第二对象识别结果。服务器可以将第二身份损失值反向传递到第二梯度反转模块中，利用第二梯度反转模块生成第二反向损失值。其中，对象分类网络也可以称为说话人分类器(Speaker Classifier)。梯度反转网络(GRL，gradientreversal layer)也称为梯度反转层。对歌词编码器(即第一编码器)和曲谱编码器(即第二编码器)都增加了说话人分类器，分类器的训练是通过梯度反转层来传达到编码器中的，说话人分类器通过训练多分类交叉熵目标函数并将梯度反转，从而实现了让编码器的输出能够达到说话人无关的目的。

在一些实施例中，服务器可以对样本音素特征序列进行归一化处理，将归一化处理后的对样本音素特征序列输入到第一编码器中，利用第一编码器对归一化处理后的样本音素特征序列进行编码，得到样本音素编码特征序列。例如，音频合成模型中还可以包括第一归一化层，服务器可以将样本音素特征序列输入到第一归一化层中，得到归一化处理后的对样本音素特征序列。同样的，服务器可以对样本音符特征序列进行归一化处理，将归一化处理后的对样本音符特征序列输入到第二编码器中，利用第二编码器对归一化处理后的样本音符特征序列进行编码，得到样本音符编码特征序列。例如，音频合成模型中还可以包括第二归一化层，服务器可以将样本音符特征序列输入到第二归一化层中，得到归一化处理后的对样本音符特征序列。归一化层用于进行层归一化(Layer Normalization)，例如用于对同一层的权重进行一个均值方差归一化。

本实施例中，利用样本歌词以及样本曲谱训练得到音频合成模型，由于音频合成模型中分别利用第一编码器以及第二编码器对样本音素特征序列以及样本音符特征序列进行编码，从而使得音素的编码和音符的编码是分开的，从而提高了训练好的第一编码器对音素编码的准确度，以及训练好的第二编码器对音符编码的准确度。本实施例中，分别对歌词编码器和曲谱编码器各自应用一个说话人分类器，提高了音频合成模型对多样性输入的预测稳定性。

在一些实施例中，待训练的音频合成模型中还包括当前待训练的特征生成网络；基于样本音素编码特征序列以及样本音符编码特征序列，生成预测声谱图包括：在使用每个样本对象的样本音频进行模型训练时，获取样本对象对应的当前第一声音特征；当前第一声音特征，是基于当前待训练的特征生成网络，针对样本对象生成的声音特征；将当前第一声音特征与样本音素编码特征序列进行特征融合，得到第一样本融合特征序列；基于第一样本融合特征序列以及样本音符编码特征序列，生成预测声谱图。

其中，特征生成网络用于生成样本对象的第一声音特征，当前第一声音特征是指当前的训练过程中特征生成网络生成的第一声音特征，由于在训练过程中会对特征生成网络的参数进行调整，因此训练过程中的不同时刻的特征生成网络生成针对样本对象生成的第一声音特征可能不同也可能相同。

具体地，服务器可以为不同的样本对象设置不同的身份标签，身份标签用于标识对象的身份，不同的对象的身份标签不同，身份标签可以根据需要设置，例如样本对象有3个，则3个样本对象的身份标签可以分别为1,2和3。特征生成网络可以基于样本对象的身份标签生成样本对象的第一声音特征，例如可以将身份标签输入到特征生成网络中，将特征生成网络的输出作为样本对象的第一声音特征。

在一些实施例中，在当前时间对应的训练过程中，服务器可以将当前第一声音特征与样本音素编码特征序列中的各个音素编码特征分别进行特征融合，这里的特征融合可以是相加运算，例如，将当前第一声音特征与音素编码特征进行相加，将相加的结果作为该音素编码特征对应的音素融合特征，按照音素编码特征在样本音素编码特征序列中的排序，对音素编码特征对应的音素融合特征进行排列，得到第一样本融合特征序列。同样的，服务器可以将当前第一声音特征与样本音符编码特征序列中的各个音符编码特征分别进行特征融合，得到第三样本融合特征序列。

在一些实施例中，当前待训练的特征生成网络包括第一特征生成网络以及第二特征生成网络，第一特征生成网络用于生成用于与音素编码特征进行融合的第一声音特征，第二特征生成网络用于生成用于与音符编码特征进行融合的第一声音特征。服务器可以第一特征生成网络生成的当前第一声音特征，与样本音素编码特征序列中的各个音素编码特征分别进行特征融合，得到第一样本融合特征序列，将第二特征生成网络生成的当前第一声音特征，与样本音符编码特征序列中的各个音符编码特征分别进行特征融合，得到第三样本融合特征序列。

在一些实施例中，服务器可以基于第一样本融合特征序列以及第三样本融合特征序列，生成预测声谱图。具体地，待训练的音频合成模型中包括第一解码器以及第二解码器，服务器可以利用第一解码器对第一样本融合特征序列进行解码，得到样本音素解码特征序列，利用第二解码器对第三样本融合特征序列进行解码，得到样本音符解码特征序列，服务器可以利用样本音素解码特征序列以及样本音符解码特征序列，生成预测声谱图，例如，服务器可以将样本音素解码特征序列与样本音符解码特征序列中相同位置的数值进行相乘，得到各个位置的相乘结果，按照位置对各个相乘结果进行排列，生成预测声谱图。

在一些实施例中，待训练的音频合成模型中还包括声谱图优化网络，如图4所示，展示了一个音频合成模型，服务器可以利用样本音素解码特征序列以及样本音符解码特征序列，得到预测声谱图，利用声谱图优化网络对预测声谱图进行优化，得到优化后的预测声谱图。服务器可以计算优化后的预测声谱图与标准声谱图之间的差异，得到优化声谱图差异。服务器可以基于优化声谱图差异以及预测声谱图与标准声谱图之间的声谱图差异，调整音频合成模型的参数，例如调整第一编码器、第二编码器、第一解码器、第二解码器、第一特征生成网络、第二特征生成网络或声谱图优化网络中的至少一个的参数，得到已训练的音频合成模型。

本实施例中，将当前第一声音特征与样本音素编码特征序列进行特征融合，得到第一样本融合特征序列，从而使得第一样本融合特征序列中包含了样本对象的声音特征，从而使得生成的预测声谱图可以反映样本对象的声音特征，从而提高了预测声谱图的准确度。

在一些实施例中，目标对象的声音特征包括目标对象的第一声音特征；第一声音特征是基于已训练的音频合成模型中的特征生成网络，针对目标对象生成的声音特征。

具体地，服务器可以将目标歌词对应的音素特征序列、目标曲谱对应的音符特征序列、目标对象的身份标签输入到已训练的音频合成模型中，利用音频合成模型中的第一编码器对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列，利用音频合成模型中的第二编码器对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列，基于目标对象的身份标签从第一特征生成网络获取目标对象的用于与音素编码特征进行融合的第一声音特征，基于目标对象的身份标签从第二特征生成网络获取目标对象的用于与音符编码特征进行融合的第一声音特征，基于音符编码特征序列以及目标对象的第一声音特征得到第一样本融合特征序列，利用第一解码器对第一样本融合特征序列进行解码，得到音素解码特征序列，基于音符编码特征序列以及目标对象的用于与音符编码特征进行融合的第一声音特征得到第三样本融合特征序列，利用第二解码器对第三样本融合特征序列进行解码，得到音符解码特征序列。

本实施例中，利用已训练的音频合成模型中的特征生成网络，生成目标对象的第一声音特征，从而在使用音频合成模型合成音频时，可以使得合成的音频中包括目标对象的声音特征，从而使得合成的音频的效果与目标对象演唱的音频的效果具有较高的相似度，提高了音频合成的准确度。

在一些实施例中，将当前第一声音特征与样本音素编码特征序列进行特征融合，得到第一样本融合特征序列包括：获取样本对象的当前第二声音特征；当前第二声音特征，是从样本对象演唱的样本参考音频中提取的；将当前第一声音特征、当前第二声音特征和样本音素编码特征序列进行特征融合，得到第一样本融合特征序列。

其中，样本对象演唱的样本参考音频与样本对象的样本音频不同。第二声音特征可以是利用声音特征提取网络从样本对象演唱的样本参考音频中提取的，声音特征提取网络与音频合成网络可以是联合训练的。声音特征提取网络可以是经过训练并需要进一步训练的网络，也可以是未经过训练的网络。声音特征提取网络用于从音频中提取得到对象的语音特征。声音特征提取网络可以根据需要设置，例如可以是基于注意力机制的神经网络，如图5所示，展示了一个声音特征提取网络，声音特征提取网络包括音频特征提取网络以及多头注意力网络(Multi-head Attention)，将随机音频输入到声音特征提取网络中进行提取，得到提取出的语音特征，随机音频可以是任意的音频。当前第二声音特征是当前时间对应的训练阶段中声音特征提取网络从样本参考音频中提取得到的第二声音特征。图5中，Residual Encoder是特指基于音频的一种对歌唱者身份的表征，是对除了speakerembedding之外的一种身份信息补偿。音频特征提取网络也可以称为频谱编码器(Reference Encoder)。声音特征提取网络用于从声学特征中提取歌唱者信息，在对声音特征提取网络在训练过程中，可以随机地截取该歌唱者的任意音频的固定长度的片段作为输入，经由多头注意力机制得到一个固定长度的表征向量，将该特征加入到编码器的输出作为speaker embedding之外的一种歌唱者全局语音特征信息，从而可以使得音频合成模型可以更好地实现多人歌声合成以及少语料歌声定制。

具体地，服务器可以将样本对象的当前第二声音特征与样本音素编码特征序列中的各个音素编码特征分别进行特征融合，例如将当前第二声音特征分别与各个音素编码特征进行相加，将相加的结果作为各个音素编码特征分别对应的音素声音融合特征，将样本对象的当前第一声音特征与音素声音融合特征进行相加，将相加的结果作为音素编码特征的音素融合特征，按照音素编码特征在样本音素编码特征序列中的排序，将各个音素编码特征的音素融合特征排列得到第一样本融合特征序列。由于当前第一声音特征是从音频中提取的特征，因此当前第一声音特征所代表的声音特征具有较高的丰富度，在使用了当前第二声音特征的基础上再利用当前第一声音特征，可以进一步的提升音素融合特征中所包括的生音特征的丰富程度，从而提高了音频合成的准确度。

在一些实施例中，服务器可以将样本对象演唱的样本参考音频输入到声音特征提取网络中进行语音特征的提取，将提取得到的语音特征作为样本对象的当前第二声音特征。服务器可以将声音特征提取网络以及音频合成网络进行联合训练，例如，服务器可以利用预测声谱图调整声音特征提取网络的参数，得到已训练的声音特征提取网络。

在一些实施例中，服务器获取样本音频对应的标准音素时长序列，样本音频对应的标准音素时长序列是对样本音频进行音素时长的划分所得到的音素时长排列成的序列。服务器可以从标准音素时长序列中，获取样本音素编码特征序列中的音素编码特征对应的音素的音素时长，获取样本音频的音频帧的时长，基于音素时长以及音频帧的时长对该音素编码特征进行扩展处理，对于样本音素编码特征序列中的每个音素编码特征，按照同样的方法进行扩展处理，得到扩展后的样本音素编码特征序列，利用当前第二声音特征与扩展后的样本音素编码特征序列中的各个音素编码特征分别进行特征融合，得到第一样本融合特征序列。图6所示，服务器利用声音特征提取网络对样本参考音频进行特征提取，得到当前第二声音特征，图6中，A、B、C以及D分别为多头注意力网络中的设置的特征，声音特征提取网络基于样本参考音频确定与A、B、C以及D这4个特征分别对应的权重值，如图6所示，A、B、C以及D的权重值分别为0.2、0.3、0.4以及0.1，利用权重值与各个特征进行加权计算，将加权计算的特征作为当前第二声音特征，虽然图中只画出了4个特征，但并不是说明只能有4个特征，这里不对特征的数量进行限定。服务器将当前第二声音特征、标准音素时长序列(即图中的音素级别的真实时长)以及编码器的输出共同作为特征扩展模块的输入，特征扩展模块可以对编码器输出的特征进行扩展并将当前第二声音特征与编码器输出的特征进行融合。

在一些实施例中，服务器将样本对象的当前第二声音特征与样本音符编码特征序列中的各个音符编码特征分别进行特征融合，例如将当前第二声音特征分别与各个音符编码特征进行相加，将相加的结果作为各个音符编码特征的音符声音融合特征，将样本对象的当前第一声音特征与音符声音融合特征进行相加，将相加的结果作为音符编码特征的音符融合特征，按照音符编码特征在样本音符编码特征序列中的排序，将各个音符编码特征的音符融合特征排列得到第三样本融合特征序列。

本实施例中，将当前第一声音特征、当前第二声音特征和样本音素编码特征序列进行特征融合，得到第一样本融合特征序列，由于第二声音特征是从样本对象演唱的样本参考音频中提取的语音特征，因此第二声音特征反映了一种歌唱者全局语音特征信息，从而提高了第一样本融合特征序列中的样本对象的声音特征的丰富度，从而提高了音频合成模型生成的音频的准确度。而本申请中，频谱编码器以属于同一歌唱者的随机频谱作为输入，然后通过多头注意力机制来生成一个反映说话人身份信息的向量，从而增加了一个随机频谱编码器作为身份信息的补充，提高了音频合成模型预测的稳定性。

在一些实施例中，目标对象的声音特征包括目标对象的第二声音特征；第二声音特征，是基于从目标对象所演唱的目标参考音频中提取的声音特征确定的。

其中，目标参考音频可以是目标对象演唱的任意的音频，可以有多个目标参考音频。

具体地，服务器可以利用已训练的声音特征提取网络对目标参考音频进行语音特征的提取，将提取的特征作为目标参考音频对应的目标语音特征，当有多个目标参考音频时，服务器可以基于该多个目标参考音频分别对应的目标语音特征确定目标对象的第二声音特征，例如，服务器可以将该多个目标参考音频对应的目标语音特征中的任意一个作为目标对象的第二声音特征，或者，服务器可以对该多个目标参考音频的目标语音特征进行均值运算，将均值运算的结果作为目标对象的第二声音特征。采用同样的方法，服务器可以利用已训练的声音特征提取网络，得到多个对象分别对应的第二声音特征，将第二声音特征与对象的身份标签建立对应关系，从而可以根据身份标签确定对象的第二声音特征。

在一些实施例中，服务器可以基于目标对象的用于与音素编码特征进行融合的第一声音特征、目标对象的第二声音特征以及音素编码特征序列进行融合得到目标音素融合特征序列，基于目标对象的用于与音符编码特征进行融合的第一声音特征、目标对象的第二声音特征以及音符编码特征序列进行融合得到目标音符融合特征序列。如图7所示，服务器可以根据目标对象的身份标签，从多个对象的第二声音特征中选取得到目标对象的第二声音特征，根据目标对象的身份标签从第一特征生成网络得到目标对象的用于与音素编码特征进行融合的第一声音特征，从第二特征生成网络得到目标对象的用于与音符编码特征进行融合的第一声音特征，第一声音特征可以是one-hot(独热编码)的特征。从而，对于歌词部分，用音素、音素类型作为输入，经过层归一化后输入到基于自注意力机制的编码器中，随后基于时长来对编码器的输出进行扩展，扩展后的状态序列作为基于多头注意力的解码器的输入，并将代表歌唱者身份的one-hot向量也输送到解码器中。对于曲谱部分，用音符、音符时值、连音符作为输入，类似的，经过层归一化后输入到基于自注意力机制的编码器中，随后基于时长来对编码器的输出进行扩展，扩展后的状态序列作为基于多头注意力的解码器的输入，并将代表歌唱者身份的one-hot向量也输送到解码器中。将歌词解码器的输出与曲谱解码器的输出进行逐元素相乘，得到最终的粗粒度的频谱，粗粒度的频谱经过由CBHG构成的后处理网络进一步得到细粒度的频谱。

本实施例中，由于第二声音特征，是基于从目标对象所演唱的目标参考音频中提取的声音特征确定的，因此，第二声音特征反映了一种歌唱者全局语音特征信息，从而提高了目标声谱图中包含的目标对象的声音特征的丰富度，从而提高了生成的目标音频的准确度。

在一些实施例中，基于音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列包括：获取参考音素时长序列；基于参考音素时长序列对音素编码特征序列进行扩展，得到扩展音素编码特征序列；基于扩展音素编码特征序列以及目标对象的声音特征，解码得到音素解码特征序列。

其中，参考音素时长序列中包括音素特征序列中各个音素特征分别对应的音素时长，音素时长是指音素在音频中所占用的时间长度。参考音素时长序列可以是根据需要预先设置的，当目标对象基于目标歌词以及目标曲谱进行演唱，得到目标歌曲时，参考音素时长序列也可以是对目标歌曲进行音素时长的划分得到的。当需要生成的目标音频是用于有伴奏(accompany)的场景中时，可以选择对目标歌曲进行音素时长的划分得到参考音素时长序列。

具体地，服务器可以基于参考音素时长序列，确定音素编码特征序列中各个音素编码特征分别对应的扩展倍数，按照扩展倍数对音素编码特征序列中的音素编码特征进行扩展处理，得到扩展音素编码特征序列。扩展处理是指增加音素编码特征的数量。对于音素编码特征序列中的每个音素编码特征，服务器可以从参考音素时长序列中获取该音素编码特征对应的音素时长，基于该音素编码特征对应的音素时长确定该音素编码特征对应的扩展倍数，扩展倍数与音素时长成正相关关系。例如，可以基于音素时长以及目标音频中音频帧的时长计算得到扩展倍数，扩展倍数与目标音频中音频帧的时长成负相关关系。其中，目标音频中的音频帧的时长可以是根据需要预先设置的。

其中，正相关关系指的是：在其他条件不变的情况下，两个变量变动方向相同，一个变量由大到小变化时，另一个变量也由大到小变化。可以理解的是，这里的正相关关系是指变化的方向是一致的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。例如，可以设置当变量a为10至20时，变量b为100，当变量a为20至30时，变量b为120。这样，a与b的变化方向都是当a变大时，b也变大。但在a为10至20的范围内时，b可以是没有变化的。

在一些实施例中，服务器可以将目标对象的声音特征与扩展音素编码特征序列中的各个音素编码特征进行特征融合，例如可以将目标对象的声音特征与音素编码特征进行相加，得到音素编码特征对应的音素融合特征，按照音素编码特征在扩展音素编码特征序列中的排序，对各个音素编码特征的音素融合特征进行排列，将排列得到的序列作为目标音素融合特征序列，服务器可以对目标音素融合特征序列进行解码，得到音素解码特征序列。

在一些实施例中，已训练的音频合成模型中还包括特征扩展模块，服务器可以将参考音素时长序列以及音素编码特征序列输入到特征扩展模块中，利用特征扩展模块对参考音素时长序列进行扩展倍数的计算，得到各个音素编码特征分别对应的扩展倍数，并基于扩展倍数对音频编码特征序列中的各个音频编码特征进行扩展，得到扩展音素编码特征序列。音素特征对应的音素时长即为该音素特征对应的音素所对应的音素时长。

在一些实施例中，得到音符解码特征序列的步骤包括：基于参考音素时长序列对音符编码特征序列进行扩展，得到扩展音符编码特征序列，基于扩展音符编码特征序列以及目标对象的声音特征，解码得到音符解码特征序列。

本实施例中，基于参考音素时长序列对音素编码特征序列进行扩展，得到扩展音素编码特征序列，从而使得扩展音素编码特征序列中的音素编码特征与时长匹配，从而使得合成的音频中的各个音素的时长符合需求，提高了生成的音频的准确度。

在一些实施例中，获取参考音频时长序列包括：将音素特征序列与音符特征序列进行拼接，得到目标拼接特征序列；基于目标拼接特征序列进行音素时长的预测，得到参考音素时长序列。

具体地，服务器可以将音素特征序列与音符特征序列进行拼接，将拼接得到的序列作为目标拼接特征序列。服务器可以获取已训练的时长预测模型，时长预测模型用于对音素的时长进行预测，将目标拼接特征序列输入到已训练的时长预测模型预测中进行音素时长的预测，得到参考音素时长序列。其中，训练时长预测模型的样本可以与训练音频合成模型的样本相同也可以不同，例如可以利用样本音频对应的样本歌词以及样本曲谱对时长预测模型进行训练。

本实施例中，基于音素特征序列以及音符特征序列进行时长预测，可以使得预测出的音素时长与目标歌词以及目标曲谱向匹配，提高生成的目标音频的节奏以及协调性。

在一些实施例中，参考音素时长序列是由已训练的时长预测模型预测得到的；得到已训练的时长预测模型的步骤包括：获取样本歌词对应的样本音素特征序列以及样本曲谱对应的样本音符特征序列，样本歌词为样本音频的歌词，样本曲谱为样本音频的曲谱，样本音频为样本对象所演唱的音频；将样本音素特征序列与样本音符特征序列进行拼接，得到样本拼接特征序列；将样本拼接特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；基于预测音素时长序列与样本音频对应的标准音素时长序列之间的音素时长差异，调整时长预测模型的模型参数并继续训练直至训练结束，得到已训练的时长预测模型。

其中，时长预测模型可以是神经网络模型，例如可以为Deep BLSTM(Bidirectional Long Short-Term Memory，双向长短时记忆网络)。样本音频对应的标准音素时长序列是对样本音频进行音素时长的划分所得到的音素时长排列成的序列。当需要生成的目标音频是用于无伴奏(Acappella)的场景中时，可以选择利用已训练的时长预测模型预测得到参考音素时长序列，也可以对目标歌曲进行音素时长的划分得到参考音素时长序列。

具体地，服务器可以计算预测音素时长序列与标准音素时长序列之间的平均平方差误差(Mean Squared Error，MSE)，将计算得到的平均平方差误差作为音素时长差异。

在一些实施例中，服务器可以基于预测音素时长序列计算得到预测音节时长序列，例如，当歌词为中文时，一个中文对应一个音节，一个音节包括至少一个音素，服务器对预测音素时长序列中属于同一个音节的音素对应的音素时长进行加和计算，将加和的结果作为该音节的音节时长，将各个音节时长按照音节对应的文字在歌词中排列顺序进行排列，将排列得到的序列作为预测音节时长序列。

在一些实施例中，服务器可以基于样本音频对应的标准音素时长序列计算得到标准音节时长序列，计算预测音节时长序列与标准音节时长序列之间的差异，得到音节时长差异，基于音素时长差异以及音节时长差异，调整时长预测模型的模型参数，直到模型收敛，得到已训练的时长预测模型。其中，服务器可以计算预测音节时长序列与标准音节时长序列之间的平均平方差误差(Mean Squared Error，MSE)，将计算得到的平均平方差误差作为音节时长差异。音素时长差异越小，则说明时长预测模型预测出的时长越精确，音节时长差异越小，则说明时长预测模型预测出的时长越精确。其中，标准音素时长可以称为音素级别(phone-level)的真实时长(GT duration)，其中，GT是Ground Truth的缩写。标准音节时长可以称为字级别(syllable-level)的真实时长(GT duration)。其中，时长预测模型输出的时长可以是音素时长或者音素时长的对数形式。

本实施例中，通过样本对象的样本音频对时长预测模型进行训练，得到已训练的时长预测模型，从而可以利用时长预测模型对音素时长进行预测，从而使得在没有真实的时长的情况下，可以利用已训练的时长预测模型进行音素时长的预测。

在一些实施例中，将样本拼接特征序列输入到待训练的时长预测模型中，得到预测音素时长序列包括：获取样本对象对应的样本当前声音特征；样本当前声音特征，是基于当前待训练的声音特征生成网络，针对样本对象生成的声音特征；将样本对象的样本当前声音特征与样本拼接特征序列进行特征融合，得到第二样本融合特征序列；将第二样本融合特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；方法还包括：基于音素时长差异，调整当前待训练的声音特征生成网络的模型参数以继续训练直至训练结束，得到已训练的声音特征生成网络。

其中，声音特征生成网络可以是与时长预测模型联合训练的。声音特征生成网络用于根据对像的身份标签生成对象的声音特征。由于训练声音特征生成网络的过程中会调整声音特征生成网络的参数，从而不同时刻的声音特征生成网络生成的声音特征可能不同，样本当前声音特征是指当前时刻的训练阶段中声音特征生成网络生成的声音特征。

具体地，服务器可以获取样本对象的对象标签，声音特征生成网络可以生成与样本对象的对象标签所对应的声音特征。服务器可以将样本当前声音特征与样本拼接特征序列中的各个特征分别进行相加，得到样本拼接特征序列中各个特征分别对应的相加结果，按照特征在样本拼接特征序列中的顺序，对各个特征的相加结果进行排列，将排列得到的序列作为第二样本融合特征序列。

在一些实施例中，服务器可以基于音素时长差异或者音节时长差异中的至少一个，调整声音特征生成网络以及时长预测模型的模型参数，得到已训练的声音特征生成网络以及已训练的时长预测模型。如图8所示，展示了一个训练时长预测模型的原理图。

本实施例中，将样本对象的样本当前声音特征与样本拼接特征序列进行特征融合，得到第二样本融合特征序列，从而使得第二样本融合特征序列中的特征融合了样本对象的声音特征，从而提高了时长预测模型预测出的音素时长的准确度。

在一些实施例中，基于目标拼接特征序列进行音素时长的预测，得到参考音素时长序列包括：获取基于已训练的声音特征生成网络生成的、且与目标对象对应的时长预测声音特征；将时长预测声音特征与目标拼接特征序列进行特征融合，得到目标融合特征序列；将目标融合特征序列输入到已训练的时长预测模型中进行音素时长的预测，得到参考音素时长序列。

其中，目标对象对应的时长预测声音特征是用于预测音素时长时所使用的声音特征。目标对象对应的时长预测声音特征是由已训练的声音特征生成网络生成的。已训练的声音特征生成网络可以生成各个对象标签分别对应的时长预测声音特征。在对时长预测模型训练时，输入特征可以包含音素、音素类型、音符、音符时值、连音符以及歌唱者身份，其中音素、音素类型、音符、音符时值、连音符会以embedding的形式拼接后作为模型的输入。

具体地，服务器可以获取目标对象的身份标签，基于已训练的声音特征生成网络得到目标对象的身份标签所对应的时长预测声音特征，将该时长预测声音特征与目标拼接特征序列中的各个特征分别进行相加，得到目标融合特征序列。其中，在将时长预测声音特征与目标拼接特征序列进行特征融合之前可以先对目标拼接特征序列中的数值进行归一化处理。

在一些实施例中，特征扩展模块获取各个音素分别对应的音素时长范围，从参考音素时长序列中获取音素编码特征序列中的每个音素编码特征分别对应的参考音素时长，对于每一个音素编码特征，当确定该音素编码特征的参考音素时长不属于该音素编码特征对应的音素的音素时长范围时，基于音素时长范围确定新的音素时长，利用新的音素时长对参考音素时长序列中的音素时长进行更新，得到更新后的参考音素时长序列，基于更新后的参考音素时长序列对音素编码特征序列进行扩展，得到扩展音素编码特征序列。其中，不同的音素所对应的音素时长范围可以相同也可以不同。例如，参考音素时长序列中某个音素特征的音素时长为1秒，而该音素特征对应的音素时长范围为2-3秒，则可以将该音素特征的音素时长更新为属于2-3秒这个范围的时长，例如更新为2.5秒。如图9所示，利用已训练的时长预测模型得到参考音素时长序列，并将参考音素时长序列经过时长矫正模块输入到特征扩展模块中，其中，时长矫正模块用于将不符合音素时长范围的音素时长进行更新，得到更新后的参考音素时长序列，将更新后的参考音素时长序列输入到特征扩展模块中。

本实施例中，由于目标融合特征序列中融合了目标对象的声音特征，因此使得已训练的时长预测模型在预测时长时，受到目标对象的声音特征的影响，从而使得预测出的参考音素时长序列符合目标对象的声音特征，提高了时长预测的准确度。

在一些实施例中，基于参考音素时长序列对音素编码特征序列进行扩展，得到扩展音素编码特征序列包括：基于音频帧时长以及参考音素时长序列，确定音素编码特征序列中各个音素编码特征分别对应的音素特征数量；基于音素编码特征对应的音素特征数量，对音素编码特征序列中的音频编码特征进行扩展，得到扩展音素编码特征序列。

其中，音频帧时长指的是目标音频中的音频帧的时长，音频帧时长可以是根据需要预先设置的。

具体地，对于音素编码特征序列中的每个音素编码特征，服务器可以从参考音素时长序列中，获取该音素编码特征对应的音素时长，计算音素时长与音频帧时长的比值，将计算得到的比值作为该音素编码特征对应的音素特征数量，例如，音素时长为3秒，音频帧时长为1秒，则音素特征数量为3÷1＝3。

在一些实施例中，服务器将音素编码特征的数量扩展到与音素特征数量一致，得到扩展音素编码特征序列，其中，当音素特征数量为1时，保持音素编码特征的数量不变。例如，例如，音素编码特征序列为[A,B,C]，A,B以及C分别为音素编码特征，如果A的音素特征数量为3，B的音素特征数量为1，C的音素特征数量为2，则扩展音素编码特征序列为[A,A,A,B,C,C]。

本实施例中，基于目标音频的音频帧时长确定音素特征数量，从而基于音素特征数量对音素编码特征进行扩展，使得扩展音素编码特征序列符合目标音频的音频帧的时长，提高了生成的音频的准确度。

本申请还提供一种应用场景，该应用场景应用上述的音频合成方法。具体地，该音频合成方法在该应用场景的应用如下：

1、获取样本对象集合，样本对象集合中包括多个样本对象，获取各个样本对象分别对应的样本音频集合，样本对象的样本音频集合中的样本音频是由该样本对象演唱的音频，样本对象集合中的各个样本对象对应有身份标签。

2、对于每个样本对象的每个样本音频，获取样本音频对应的歌词，作为样本歌词，获取样本音频的曲谱，作为样本曲谱，获取样本歌词对应的样本音素特征序列，获取样本曲谱对应的样本音符特征序列。

3、获取待训练的音频合成模型，该音频合成模型包括第一编码器、第二编码器、第一归一化层、第二归一化层、特征扩展模块、第一解码器、第二解码器、第一特征生成网络、第二特征生成网络以及声谱图优化网络。

如图10所示，展示了待训练的音频合成模型。

4、利用第一归一化层对样本音素特征序列进行归一化处理，得到归一化后的样本音素特征序列，利用第二归一化层对样本音符特征序列进行归一化处理，得到归一化后的样本音符特征序列。

5、利用第一编码器对归一化后的样本音素特征序列进行编码，得到样本音素编码特征序列，

利用第二编码器对归一化后的样本音符特征序列进行编码，得到样本音符编码特征序列。

6、获取样本对象的样本参考音频，将样本参考音频输入到待训练的声音特征提取网络中，得到样本对象的当前第二声音特征。

步骤6中的样本参考音频可以是从样本对象的样本音频集合中获取的，并且步骤6中的样本参考音频与步骤2中的样本音频不同。

7、基于样本音频进行音素时长的划分，得到标准音素时长序列，将标准音素时长序列、样本音素编码特征序列、样本音符编码特征序列以及样本对象的当前第二声音特征输入到特征扩展模块中进行扩展处理以及特征融合，得到样本音素融合特征序列以及样本音符融合特征序列。

8、将样本对象的身份标签输入到第一特征生成网络中，得到当前第一声音特征，将样本对象的身份标签输入到第二特征生成网络中，得到当前第三声音特征，将当前第一声音特征与样本音素融合特征序列进行特征融合，得到第一样本融合特征序列，将当前第三声音特征与样本音符融合特征序列进行特征融合，得到第三样本融合特征序列。

其中，当前第三声音特征指的是上述的用于与音符的特征(例如音符编码特征)进行融合的当前第一声音特征。

9、利用第一解码器对第一样本融合特征序列解码，得到样本音素解码特征序列，利用第二解码器对中第三样本融合特征序列进行解码，得到样本音符解码特征序列。

10、将样本音素编码特征序列通过第一梯度反转模块输入到说话人分类器中，基于说话人分类器的识别结果生成第一反向损失值，将样本音符编码特征序列通过第二梯度反转模块输入到说话人分类器中，基于说话人分类器的识别结果生成第二反向损失值。

11、基于样本音素解码特征序列以及样本音符解码特征序列生成预测声谱图，利用声谱图优化网络对预测声谱图进行优化，得到优化后的预测声谱图。

12、利用第一反向损失值调整第一编码器的模型参数，利用第二反向损失值调整第二编码器的模型参数，以及利用优化后的预测声谱图与样本音频的标准声谱图之间的差异，调整音频合成模型的模型参数以及声音特征提取网络的模型参数，不断的训练直到模型收敛，得到已训练的音频合成模型以及已训练的声音特征提取网络。

13、对于每个样本对象，将样本对象的各个样本音频输入到已训练的声音特征提取网络中，得到对各个样本音频分别提取得到的声音特征，对该各个声音特征进行均值计算，将计算的结果作为样本对象的第二声音特征，将各个样本对象的第二声音特征与样本对应的身份标签对应存储到第二声音特征集合中。

14、接收音频合成请求，音频合成请求中携带目标歌词、目标曲谱以及目标对象的身份标签，响应于音频合成请求，对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列，对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列。

15、将音素编码特征序列、音符编码特征序列以及目标对象的身份标签的输入到已训练的音频合成模型中，以基于目标对象的身份标签从第二声音特征集合中，获取得到该身份标签对应的第二声音特征，作为目标对象的第二声音特征，并基于已训练的音频合成模型中的第一特征生成网络，得到目标对象的第一声音特征。

16、获取参考音素时长序列，将音素编码特征序列、音符编码特征序列、参考音素时长序列输入到已训练的音频合成模型中的特征扩展模块中进行扩展处理和特征融合，得到目标音素融合特征序列以及目标音符融合特征序列。

17、利用已训练的音频合成模型中的第一解码器对目标音素融合特征序列进行解码，得到音素解码特征序列。

利用已训练的音频合成模型中的第二解码器对目标音符融合特征序列进行解码，得到音符解码特征序列。

18、将音素解码特征序列与音符解码特征序列进行融合生成目标声谱图，利用已训练的音频合成模型中的声谱图优化网络对目标声谱图进行优化，得到优化后的目标声谱图，利用声码器将优化后的目标声谱图转化为目标音频。

本申请提供的音频合成方法，可以实现一个多人中文歌声合成系统，可用于基于少量歌曲数据而进行的音色定制歌声合成任务，具有较好的稳定性。采用了两个编解码器来对歌词部分和曲谱部分进行建模，并采用乘法算子将二者结合并预测粗粒度的频谱，进一步的通过后处理网络对粗粒度频谱进行平滑处理得到细粒度频谱，提高了发音清晰度，提升了音高稳定性。其中，音高(Pitch)是特征情感和韵律的重要特征。

在双编解码器上采用了对抗式的说话人分类器消除音素特征或乐谱特征与说话人身份之间的依赖性，提高了模型对不同输入的鲁棒性。在传统的说话人身份的标签基础上，提出了一个随机的反映身份信息的频谱编码器，提升了模型的稳定性。在申请中将发音部分和音调部分各自使用一个编解码器进行建模，随后通过乘法算子将二者组合起来再预测频谱，故本申请中的音频合成模型可以称为是双流系统(Double Stream)。本申请提供的歌声合成模型中，还可以基于Dynamic Time Warping(DTW，动态时间归整)技术来对梅尔谱进行端对端建模，提高歌声合成的精确度。过多人的歌声数据集，实现了一个非常稳定的多人歌声合成系统。可以基于有限量的歌声数据，根据集外歌唱者的一小段歌声音频，来进行定制该歌唱者的音色，从而合成该集外歌唱者的任意词曲的歌声。

本申请所提出的歌声合成模型可以用于现有TTS服务中，扩展其除了常规朗读以外的歌曲演唱的功能。另外，本申请所提出的歌声合成模型可以基于用户已有的一小段歌声来进行他的音色定制，这样可以赋予他更全面的歌唱能力。同时，随着Z世代、虚拟世界浪潮的兴起，本申请所提出的歌声合成模型也可以用于培养虚拟偶像，可以24小时不间断地为粉丝提供能歌善舞的娱乐观赏价值。

应该理解的是，虽然图2-图9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图10所示，提供了一种音频合成装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：音素编码特征序列得到模块1002、音符编码特征序列得到模块1004、音素解码特征序列得到模块1006、音符解码特征序列得到模块1008、目标声谱图得到模块1010和目标音频生成模块1012，其中：

音素编码特征序列得到模块1002，用于对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列；

音符编码特征序列得到模块1004，用于对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列；

音素解码特征序列得到模块1006，用于基于音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列；

音符解码特征序列得到模块1008，用于基于音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列；

目标声谱图得到模块1010，用于将音素解码特征序列和音符解码特征序列融合，得到目标声谱图；

目标音频生成模块1012，用于基于目标声谱图，生成包括声音特征的目标音频；目标音频的歌词和曲谱分别为目标歌词和目标曲谱。

在一些实施例中，音素编码特征序列是由已训练的音频合成模型编码生成的；装置还包括音频合成模型训练模块，音频合成模型训练模块包括：特征序列获取单元，用于获取样本歌词对应的样本音素特征序列以及样本曲谱对应的样本音符特征序列，样本歌词为样本音频的歌词，样本曲谱为样本音频的曲谱，样本音频为样本对象所演唱的音频；音频合成模型获取单元，用于获取待训练的音频合成模型，音频合成模型包括第一编码器以及第二编码器，利用第一编码器对样本音素特征序列进行编码，得到样本音素编码特征序列，利用第二编码器对样本音符特征序列进行编码，得到样本音符编码特征序列；预测声谱图生成单元，用于基于样本音素编码特征序列以及样本音符编码特征序列，生成预测声谱图；声谱图差异确定单元，用于确定预测声谱图与样本音频对应的标准声谱图之间的声谱图差异；音频合成模型得到单元，用于基于声谱图差异调整音频合成模型的模型参数，以继续训练直至训练结束，得到已训练的音频合成模型。

在一些实施例中，待训练的音频合成模型中还包括当前待训练的特征生成网络；预测声谱图生成单元，还用于在使用每个样本对象的样本音频进行模型训练时，获取样本对象对应的当前第一声音特征；当前第一声音特征，是基于当前待训练的特征生成网络，针对样本对象生成的声音特征；将当前第一声音特征与样本音素编码特征序列进行特征融合，得到第一样本融合特征序列；基于第一样本融合特征序列以及样本音符编码特征序列，生成预测声谱图。

在一些实施例中，预测声谱图生成单元，还用于获取样本对象的当前第二声音特征；当前第二声音特征，是从样本对象演唱的样本参考音频中提取的；将当前第一声音特征、当前第二声音特征和样本音素编码特征序列进行特征融合，得到第一样本融合特征序列。

在一些实施例中，音素解码特征序列得到模块包括：参考音素时长序列获取单元，用于获取参考音素时长序列；扩展音素编码特征序列得到单元，用于基于参考音素时长序列对音素编码特征序列进行扩展，得到扩展音素编码特征序列；音素解码特征序列得到单元，用于基于扩展音素编码特征序列以及目标对象的声音特征，解码得到音素解码特征序列。

在一些实施例中，参考音素时长序列获取单元，还用于将音素特征序列与音符特征序列进行拼接，得到目标拼接特征序列；基于目标拼接特征序列进行音素时长的预测，得到参考音素时长序列。

在一些实施例中，参考音素时长序列是由已训练的时长预测模型预测得到的；装置还包括时长预测模型训练模块，时长预测模型训练模块包括：样本获取单元，用于获取样本歌词对应的样本音素特征序列以及样本曲谱对应的样本音符特征序列，样本歌词为样本音频的歌词，样本曲谱为样本音频的曲谱，样本音频为样本对象所演唱的音频；样本拼接特征序列得到单元，用于将样本音素特征序列与样本音符特征序列进行拼接，得到样本拼接特征序列；预测音素时长序列得到单元，用于将样本拼接特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；音素时长差异得到单元，用于基于预测音素时长序列与样本音频对应的标准音素时长序列之间的音素时长差异，调整时长预测模型的模型参数并继续训练直至训练结束，得到已训练的时长预测模型。

在一些实施例中，预测音素时长序列得到单元，还用于获取样本对象对应的样本当前声音特征；样本当前声音特征，是基于当前待训练的声音特征生成网络，针对样本对象生成的声音特征；将样本对象的样本当前声音特征与样本拼接特征序列进行特征融合，得到第二样本融合特征序列；将第二样本融合特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；装置还用于基于音素时长差异，调整当前待训练的声音特征生成网络的模型参数以继续训练直至训练结束，得到已训练的声音特征生成网络。

在一些实施例中，参考音素时长序列获取单元，还用于获取基于已训练的声音特征生成网络生成的、且与目标对象对应的时长预测声音特征；将时长预测声音特征与目标拼接特征序列进行特征融合，得到目标融合特征序列；将目标融合特征序列输入到已训练的时长预测模型中进行音素时长的预测，得到参考音素时长序列。

在一些实施例中，扩展音素编码特征序列得到单元，还用于基于音频帧时长以及参考音素时长序列，确定音素编码特征序列中各个音素编码特征分别对应的音素特征数量；基于音素编码特征对应的音素特征数量，对音素编码特征序列中的音频编码特征进行扩展，得到扩展音素编码特征序列。

关于音频合成装置的具体限定可以参见上文中对于音频合成方法的限定，在此不再赘述。上述音频合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音频合成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频合成方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频合成方法。

本领域技术人员可以理解，图11和12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种音频合成方法，其特征在于，所述方法包括：

对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列；

对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列；

基于所述音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列；

基于所述音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列；

将所述音素解码特征序列和所述音符解码特征序列融合，得到目标声谱图；

基于目标声谱图，生成包括所述声音特征的目标音频；所述目标音频的歌词和曲谱分别为所述目标歌词和所述目标曲谱。

2.根据权利要求1所述的方法，其特征在于，所述音素编码特征序列是由已训练的音频合成模型编码生成的；得到所述已训练的音频合成模型的步骤包括：

获取样本歌词对应的样本音素特征序列以及样本曲谱对应的样本音符特征序列，所述样本歌词为样本音频的歌词，所述样本曲谱为所述样本音频的曲谱，所述样本音频为样本对象所演唱的音频；

获取待训练的音频合成模型，所述音频合成模型包括第一编码器以及第二编码器，利用所述第一编码器对所述样本音素特征序列进行编码，得到样本音素编码特征序列，利用所述第二编码器对所述样本音符特征序列进行编码，得到样本音符编码特征序列；

基于所述样本音素编码特征序列以及所述样本音符编码特征序列，生成预测声谱图；

确定所述预测声谱图与所述样本音频对应的标准声谱图之间的声谱图差异；

基于所述声谱图差异调整所述音频合成模型的模型参数，以继续训练直至训练结束，得到所述已训练的音频合成模型。

3.根据权利要求2所述的方法，其特征在于，所述待训练的音频合成模型中还包括当前待训练的特征生成网络；所述基于所述样本音素编码特征序列以及所述样本音符编码特征序列，生成预测声谱图包括：

在使用每个样本对象的样本音频进行模型训练时，获取所述样本对象对应的当前第一声音特征；所述当前第一声音特征，是基于所述当前待训练的特征生成网络，针对所述样本对象生成的声音特征；

将所述当前第一声音特征与所述样本音素编码特征序列进行特征融合，得到第一样本融合特征序列；

基于所述第一样本融合特征序列以及所述样本音符编码特征序列，生成预测声谱图。

4.根据权利要求3所述的方法，其特征在于，所述目标对象的声音特征包括目标对象的第一声音特征；所述第一声音特征是基于已训练的音频合成模型中的特征生成网络，针对所述目标对象生成的声音特征。

5.根据权利要求3所述的方法，其特征在于，所述将所述当前第一声音特征与所述样本音素编码特征序列进行特征融合，得到第一样本融合特征序列包括：

获取所述样本对象的当前第二声音特征；所述当前第二声音特征，是从所述样本对象演唱的样本参考音频中提取的；

将所述当前第一声音特征、当前第二声音特征和所述样本音素编码特征序列进行特征融合，得到第一样本融合特征序列。

6.根据权利要求5所述的方法，其特征在于，所述目标对象的声音特征包括所述目标对象的第二声音特征；所述第二声音特征，是基于从所述目标对象所演唱的目标参考音频中提取的声音特征确定的。

7.根据权利要求1所述的方法，其特征在于，所述基于所述音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列包括：

获取参考音素时长序列；

基于所述参考音素时长序列对所述音素编码特征序列进行扩展，得到扩展音素编码特征序列；

基于所述扩展音素编码特征序列以及目标对象的声音特征，解码得到音素解码特征序列。

8.根据权利要求7所述的方法，其特征在于，所述获取参考音频时长序列包括：

将所述音素特征序列与所述音符特征序列进行拼接，得到目标拼接特征序列；

基于所述目标拼接特征序列进行音素时长的预测，得到参考音素时长序列。

9.根据权利要求8所述的方法，其特征在于，所述参考音素时长序列是由已训练的时长预测模型预测得到的；得到所述已训练的时长预测模型的步骤包括：

将所述样本音素特征序列与所述样本音符特征序列进行拼接，得到样本拼接特征序列；

将所述样本拼接特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；

基于所述预测音素时长序列与所述样本音频对应的标准音素时长序列之间的音素时长差异，调整所述时长预测模型的模型参数并继续训练直至训练结束，得到所述已训练的时长预测模型。

10.根据权利要求9所述的方法，其特征在于，所述将所述样本拼接特征序列输入到待训练的时长预测模型中，得到预测音素时长序列包括：

获取所述样本对象对应的样本当前声音特征；所述样本当前声音特征，是基于当前待训练的声音特征生成网络，针对所述样本对象生成的声音特征；

将所述样本对象的样本当前声音特征与所述样本拼接特征序列进行特征融合，得到第二样本融合特征序列；

将所述第二样本融合特征序列输入到待训练的时长预测模型中，得到预测音素时长序列；

所述方法还包括：

基于所述音素时长差异，调整所述当前待训练的声音特征生成网络的模型参数以继续训练直至训练结束，得到已训练的声音特征生成网络。

11.根据权利要求10所述的方法，其特征在于，所述基于所述目标拼接特征序列进行音素时长的预测，得到参考音素时长序列包括：

获取基于所述已训练的第二特征生成网络生成的、且与所述目标对象对应的时长预测声音特征；

将所述时长预测声音特征与所述目标拼接特征序列进行特征融合，得到目标融合特征序列；

将所述目标融合特征序列输入到所述已训练的时长预测模型中进行音素时长的预测，得到参考音素时长序列。

12.根据权利要求7所述的方法，其特征在于，所述基于所述参考音素时长序列对所述音素编码特征序列进行扩展，得到扩展音素编码特征序列包括：

基于音频帧时长以及所述参考音素时长序列，确定所述音素编码特征序列中各个音素编码特征分别对应的音素特征数量；

基于所述音素编码特征对应的音素特征数量，对所述音素编码特征序列中的音频编码特征进行扩展，得到扩展音素编码特征序列。

13.一种音频合成装置，其特征在于，所述装置包括：

音素编码特征序列得到模块，用于对目标歌词对应的音素特征序列进行编码，得到音素编码特征序列；

音符编码特征序列得到模块，用于对目标曲谱对应的音符特征序列进行编码，得到音符编码特征序列；

音素解码特征序列得到模块，用于基于所述音素编码特征序列和目标对象的声音特征，解码得到音素解码特征序列；

音符解码特征序列得到模块，用于基于所述音符编码特征序列和目标对象的声音特征，解码得到音符解码特征序列；

目标声谱图得到模块，用于将所述音素解码特征序列和所述音符解码特征序列融合，得到目标声谱图；

目标音频生成模块，用于基于目标声谱图，生成包括所述声音特征的目标音频；所述目标音频的歌词和曲谱分别为所述目标歌词和所述目标曲谱。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。