CN115101043A

CN115101043A - 音频合成方法、装置、设备及存储介质

Info

Publication number: CN115101043A
Application number: CN202210683406.9A
Authority: CN
Inventors: 马丹
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-23

Abstract

本申请公开了一种音频合成方法、装置、设备及存储介质，属于人工智能技术领域。本申请方法包括：获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征；将所述目标对象的语音音频特征、所述目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频；其中，所述音频合成模型基于特征迁移模型和组合模型构建而成。即在本申请中，不需要采集目标对象的歌唱音频数据，降低了输入数据的采集难度，提高了音频合成效率。

Description

音频合成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种音频合成方法、装置、设备及存储介质。

背景技术

目前基于深度学习合成音频的方法包括：采集大量的曲谱/歌词数据以及相匹配的歌唱音频数据作为训练数据，训练得到音频合成模型，输入曲谱/歌词数据和目标对象的歌唱音频数据至训练得到的音频合成模型，合成歌唱音频。上述基于深度学习合成音频的方法将歌唱音频数据作为输入数据之一，但是歌唱音频数据是通过专业歌手在专业的录音棚录制，且对录制得到的音频进行标注得到的，即歌唱音频数据的获取难度较大，降低了音频合成效率。

发明内容

本申请的主要目的在于提供一种音频合成方法、装置、设备及存储介质，旨在解决现有音频合成方法的音频合成效率低的技术问题。

为实现上述目的，本申请提供一种音频合成方法，所述音频合成方法包括以下步骤：

获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征；

将所述目标对象的语音音频特征、目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频；

其中，所述音频合成模型基于特征迁移模型和组合模型构建而成。

可选地，所述将所述目标对象的语音音频特征、目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频的步骤，包括：

将所述目标对象的语音音频特征输入到特征迁移模型中进行特征迁移，输出歌唱音频特征；

将所述歌唱音频特征和所述声音属性特征进行合并，得到合并特征；

将所述合并特征和所述曲谱特征输入到组合模型中进行音频合成，输出目标音频。

可选地，所述特征迁移模型为多层卷积神经网络模型，所述将所述目标对象的语音音频特征输入到特征迁移模型中进行特征迁移，输出歌唱音频特征的步骤，包括：

将所述目标对象的语音音频特征输入到特征迁移模型中进行处理，将所述特征迁移模型中全连接层的权重矩阵参数抽取形成歌唱音频特征。

可选地，所述音频合成方法还包括音频合成模型训练过程，所述音频合成模型训练过程包括：

获取第一训练数据和第二训练数据，其中，所述第一训练数据包括语音音频特征和歌唱音频特征，所述第二训练数据包括声音属性特征和曲谱特征；

利用所述第一训练数据训练第一预设模型，得到特征迁移模型；

利用所述特征迁移模型输出的第一输出数据和所述第二训练数据训练第二预设模型，得到组合模型；

基于所述特征迁移模型和所述组合模型构建音频合成模型。

可选地，所述利用所述第一训练数据训练第一预设模型，得到特征迁移模型的步骤，包括：

将所述语音音频特征输入至所述第一预设模型，获得所述第一预设模型输出的第一输出数据；

基于所述歌唱音频特征和所述第一输出数据，确定所述第一预设模型对应损失函数的损失值；

当所述损失值超过预设的第一损失值阈值时，按照预设修正方式修正所述第一预设模型的各项参数，直至所述损失值小于所述第一损失值阈值时停止训练，得到所述特征迁移模型。

可选地，所述第一预设模型为多层卷积神经网络模型，所述将所述语音音频特征输入至所述第一预设模型，获得所述第一预设模型输出的第一输出数据的步骤，包括：

将所述语音音频特征输入至多层卷积神经网络模型，以对所述多层卷积神经网络模型进行训练；

获取所述多层卷积神经网络模型的全连接层的权重矩阵参数作为第一输出数据。

可选地，所述利用所述特征迁移模型输出的第一输出数据和第二训练数据训练第二预设模型，得到组合模型的步骤，包括：

将所述第一输出数据和所述声音属性特征进行合并，得到第一合并特征；

将所述第一合并特征和所述曲谱特征输入至所述第二预设模型，对所述第二预设模型进行迭代训练，得到组合模型。

此外，为实现上述目的，本申请还提供一种音频合成装置，所述音频合成装置包括：

特征获取模块，用于获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征；

音频合成模型，用于将所述目标对象的语音音频特征、目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频；

此外，为实现上述目的，本申请还提供一种音频合成设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频合成程序，所述音频合成程序配置为实现如上所述的音频合成方法的步骤。

此外，为实现上述目的，本申请还提供一种存储介质，所述存储介质上存储有音频合成程序，所述音频合成程序被处理器执行时实现如上所述的音频合成方法的步骤。

本申请公开了一种音频合成方法、装置、设备及存储介质，与现有技术中，音频合成效率低相比，本申请获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征；将所述目标对象的语音音频特征、目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频；其中，所述音频合成模型基于特征迁移模型和组合模型构建而成。即在本申请中，不需要采集目标对象的歌唱音频数据，降低了输入数据的采集难度，提高了音频合成效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例方案涉及的硬件运行环境的音频合成设备的结构示意图；

图2为本申请音频合成方法第一实施例的流程示意图；

图3为本申请音频合成方法第二实施例的流程示意图；

图4为本申请音频合成装置第一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的音频合成设备结构示意图。

如图1所示，该音频合成设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)存储器，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对音频合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及音频合成程序。其中，操作系统是管理和控制音频合成设备硬件和软件资源的程序，支持音频合成程序以及其它软件或程序的运行。

在图1所示的音频合成设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本申请音频合成设备通过处理器1001调用存储器1005中存储的音频合成程序，并执行本申请实施例提供的音频合成方法。

本申请实施例提供了一种音频合成方法，参照图2，图2为本申请音频合成方法第一实施例的流程示意图。

本实施例中，所述音频合成方法包括以下步骤：

步骤S10、获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征。

本实施例获取目标对象的语音音频数据，基于目标对象的语音音频数据，获取目标对象的语音音频特征以及目标对象的声音属性特征。获取的目标对象的语音音频数据中的文本信息可以是任意文本。

在本实施例中，目标对象的语音音频特征可以为目标对象的语音音频梅尔谱。目标对象的语音音频梅尔谱的获取过程包括：

其中，语音音频梅尔频谱的获取方法可以为：将目标对象的语音音频数据利用梅尔滤波器转换为目标对象的语音音频梅尔频谱。

目标对象的语音音频梅尔频谱的获取方法还可以为：

将样本数据输入至待训练的声学模型中，得到样本数据对应的预测梅尔频谱；将预测梅尔频谱与该样本数据对应的实际梅尔频谱进行比对，并根据比对结果反向更新该声学模型；

将语音音频数据输入至训练结束的声学模型中，得到语音音频梅尔频谱。

需要说明的是，样本数据为已知梅尔频谱的语音音频数据，其来源不作具体限制，可以是广播信息中的一段语音音频数据，可以是电视/电影中的一段语音音频数据，还可以是通过录音装置录取的一段语音音频数据。

需要说明的是，声学模型包括隐马尔科夫模型(HMM)和ChariNet模型、Tacotron2模型中的一种。

在本实施例中，目标对象的声音属性特征可以为目标对象的音色特征或音素特征。

目标对象的音色特征(音素特征)的获取方法如下：

将样本数据输入至待训练的编码器中，得到样本数据对应的预测音色特征(音素特征)；将预测音色特征(音素特征)与该样本数据对应的实际音色特征(音素特征)进行比对，并根据比对结果反向更新该编码器；

将目标对象的语音音频数据输入至训练结束的编码器中，得到目标对象的音色特征(音素特征)。

需要说明的是，样本数据为已知对应音色特征(音素特征)的语音音频数据。语音音频数据其来源不作具体限制，可以是广播信息中的一段语音音频数据，可以是电视/电影中的一段语音音频数据，还可以是通过录音装置录取的一段语音音频数据。

需要说明的是，待训练的编码器包括tactron模型中的编码器，fastspeech模型中的编码器和deepVoice模型中的编码器中的一种。

在本实施例中，目标曲目的曲谱特征包括歌词信息特征和旋律特征。其中，歌词信息特征的获取方法如下：

根据所述目标曲目的歌词中每个字的发音提取每个字对应的音素信息；

对所述音素信息进行特征转换，生成歌词信息特征。

音素，是根据语音的自然属性划分出来的最小语音单位，例如，汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素。

对所述音素信息进行特征转换，可以通过查询预设的特征元素-音素信息映射表，获取所述音素信息对应的特征向量，基于各音素信息对应的特征向量，生成歌词信息特征。

其中，旋律特征的获取方法如下：

提取所述目标曲的乐谱中的音符、音符时值、节拍、连音以及延音；

对所述音符、所述音符时值、所述节拍、所述连音以及所述延音进行特征转换，生成旋律特征。

对所述音符、所述音符时值、所述节拍、所述连音以及所述延音进行特征转换，可以通过查询对应的预设的特征向量映射表，获取所述音符、所述音符时值、所述节拍、所述连音以及所述延音各自对应的特征向量，基于所述音符、所述音符时值、所述节拍、所述连音以及所述延音各自对应的特征向量，生成旋律特征信息。例如，音符对应预设的特征元素-音符映射表，音符时值对应预设的特征元素-音符时值映射表等。

步骤S20、将所述目标对象的语音音频特征、所述目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频，其中，所述音频合成模型基于特征迁移模型和组合模型构建而成。

具体地，将所述目标对象的语音音频特征、所述目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频的步骤，包括：

步骤S21、将所述目标对象的语音音频特征输入到特征迁移模型中进行特征迁移，输出歌唱音频特征。

特征迁移模型可以为多层卷积神经网络模型，当特征迁移模型为多层卷积神经网络模型时，特征迁移模型由一个多层卷积子模块和一个全连接层组成。

当特征迁移模型为多层卷积神经网络模型时，将所述目标对象的语音音频特征输入到特征迁移模型中进行特征迁移，输出歌唱音频特征的步骤，包括：

例如，将所述目标对象的语音音频特征(语音音频梅尔谱)输入到特征迁移模型中进行卷积处理后，抽取特征迁移模型的全连接层的权重矩阵参数，得到歌唱音频特征。歌唱音频特征可以以n维向量的形式进行表征，n可依据具体应用情况进行设置，默认可为256。

步骤S22、将所述歌唱音频特征和所述目标对象的声音属性特征进行合并，得到合并特征。

需要说明的是，在本实施例中，歌唱音频特征以n维向量的形式进行表征，为了简化歌唱音频特征和声音属性特征的合并计算，在本实施例中，声音属性特征的表征形式也为n维向量。则将歌唱音频特征和声音属性特征进行合并即为两个n维向量相加。

步骤S23、将所述合并特征和所述目标曲目的曲谱特征输入到组合模型中进行音频合成，输出目标音频。

与现有技术中，音频合成效率低相比，本申请获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征；将所述目标对象的语音音频特征、所述目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频；其中，所述音频合成模型基于特征迁移模型和组合模型构建而成。即在本申请中，不需要采集目标对象的歌唱音频数据，降低了输入数据的采集难度，提高了音频合成效率。

进一步地，若需要采用背景技术中基于深度学习合成音频的方法合成用户A的歌唱音频，则训练数据中的歌唱音频数据为用户A的歌唱音频数据，且基于用户A的歌唱音频数据训练得到的音频合成模型至能应用于用户A，并不能应用于其余用户，音频模型的通用性较差。因此，本申请的音频合成只需获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征，并输入至音频合成模型中，即可得到目标对象的目标音频，并不局限于单一目标对象，提高了音频合成模型的通用性。

参照图3，图3为本申请音频合成方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述音频合成方法还包括音频合成模型训练过程，所述音频合成模型训练过程包括：

步骤A10、获取第一训练数据和第二训练数据，其中，所述第一训练数据包括语音音频特征和歌唱音频特征，所述第二训练数据包括声音属性特征和曲谱特征。

需要说明的是，在本实施例中，语音音频特征为语音音频梅尔频谱，歌唱音频特征为歌唱音频梅尔频谱。

其中，语音音频梅尔频谱的获取方法可以为：将语音音频数据利用梅尔滤波器转换为语音音频梅尔频谱。语音音频数据的来源不作具体限制，可以是广播信息中的一段语音音频数据，可以是电视/电影中的一段语音音频数据，还可以是通过录音装置录取的一段语音音频数据。

语音音频梅尔频谱的获取方法还可以为：

需要说明的是，样本数据为已知梅尔频谱的语音音频数据。

同样的，歌唱音频梅尔频谱的获取方法可以为：将歌唱音频数据利用梅尔滤波器转换为歌唱音频梅尔频谱。歌唱音频数据的来源不作具体限制，可以是广播信息中的一段歌唱音频数据，可以是电视/电影中的一段歌唱音频数据，还可以是通过录音装置录取的一段歌唱音频数据。

歌唱音频梅尔频谱的获取方法还可以为：

将歌唱音频数据输入至训练结束的声学模型中，得到歌唱音频梅尔频谱。

需要说明的是，样本数据为已知梅尔频谱的歌唱音频数据。

需要说明的是，在本实施例中，声音属性特征可以为音色特征或音素特征。

音色特征(音素特征)的获取方法与步骤S10中的目标对象的音色特征(音素特征)的获取方法相同，在此不再赘述。

需要说明的是，在本实施例中，曲目的曲谱特征包括歌词信息特征和旋律特征。歌词信息特征和旋律特征的获取方法均与步骤S10中的歌词信息特征和旋律特征的获取方法相同，在此不再赘述。

步骤A20、利用所述第一训练数据训练第一预设模型，得到特征迁移模型。

具体地，利用所述第一训练数据训练第一预设模型，得到特征迁移模型的步骤，包括：

步骤A21、将所述语音音频特征输入至所述第一预设模型，获得所述第一预设模型输出的第一输出数据。

当第一预设模型为多层卷积神经网络模型时，将所述语音音频特征输入至多层卷积神经网络模型中，以对所述多层卷积神经网络模型进行训练；获取所述多层卷积神经网络模型的全连接层的权重矩阵参数作为第一输出数据。

需要说明的是，在本实施例中，所述权重矩阵参数以n维向量的形式进行表征。其中，n可依据具体应用情况进行设置，默认可为256。

步骤A22、基于所述歌唱音频特征和所述第一输出数据，确定所述第一预设模型对应损失函数的损失值。

需要说明的是，在本实施例中，损失函数为交叉熵损失函数。

步骤A23、当所述损失值超过预设的第一损失值阈值时，按照预设修正方式修正所述第一预设模型的各项参数，直至所述损失值小于所述第一损失值阈值时停止训练，得到所述特征迁移模型。

需要说明的是，在本实施例中，当第一预设模型为多层卷积神经网络模型时，训练结束后得到的特征迁移模型也为多层卷积神经网络模型。

步骤A30、利用所述特征迁移模型输出的第一输出数据和第二训练数据训练第二预设模型，得到组合模型。

具体地，利用所述特征迁移模型输出的第一输出数据和第二训练数据训练第二预设模型，得到组合模型的步骤，包括：

步骤A31、将所述第一输出数据和所述声音属性特征进行合并，得到第一合并特征。

需要说明的是，当第一预设模型为多层卷积神经网络模型时，训练结束后得到的特征迁移模型也为多层卷积神经网络模型，则特征迁移模型输出的第一输出数据为n维向量。

为了简化第一输出数据和声音属性特征的合并计算，在本实施例中，声音属性特征的表征形式也为n维向量。则将所述第一输出数据和所述声音属性特征进行合并即为两个n维向量相加。

步骤A32、将所述第一合并特征和所述曲谱特征输入至所述第二预设模型，对所述第二预设模型进行迭代训练，得到组合模型。

需要说明的是，在本实施例中，第二预设模型可以是tactron模型、fastspeech模型或deepVoice模型中的一种，上述第二预设模型均包括编码模块和译码模块。

步骤A40、基于所述特征迁移模型和所述组合模型构建音频合成模型。

需要说明的是，在本实施例中，特征迁移模型和组合模型是同时进行训练的。

本申请实施例还提供了一种音频合成装置，参照图4，图4为本申请音频合成装置第一实施例的功能模块示意图。

在本实施例中，所述音频合成装置包括：

特征获取模块10，用于获取目标对象的语音音频特征、目标对象的声音属性特征以及目标曲目的曲谱特征；

音频合成模型20，用于将所述目标对象的语音音频特征、所述目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频；

可选地，所述音频合成模型包括：

歌唱音频特征生成子单元，用于将所述目标对象的语音音频特征输入到特征迁移模型中进行特征迁移，输出歌唱音频特征；

特征合并子单元，用于将所述歌唱音频特征和所述目标对象的声音属性特征进行合并，得到合并特征；

音频合成子单元，用于将所述合并特征和所述目标曲目的曲谱特征输入到组合模型中进行音频合成，输出目标音频。

可选地，所述特征迁移模型为多层卷积神经网络模型，所述歌唱音频特征生成子单元用于实现：

可选地，所述音频合成装置还包括模型训练模块，所述模型训练模块包括：

训练数据获取单元，用于获取第一训练数据和第二训练数据，其中，所述第一训练数据包括语音音频特征和歌唱音频特征，所述第二训练数据包括声音属性特征和曲谱特征；

第一模型训练单元，用于利用所述第一训练数据训练第一预设模型，得到特征迁移模型；

第二模型训练单元，用于利用所述特征迁移模型输出的第一输出数据和第二训练数据训练第二预设模型，得到组合模型；

模型构建单元，用于基于所述特征迁移模型和所述组合模型构建音频合成模型。

可选地，所述第一模型训练单元用于实现：

可选地，所述第一预设模型为多层卷积神经网络模型，所述第一模型训练单元还用于实现：

可选地，所述第二模型训练单元用于实现：将所述第一输出数据和所述声音属性特征进行合并，得到第一合并特征；

本申请音频合成装置具体实施方式与上述音频合成方法各实施例基本相同，在此不再赘述。

本申请实施例还提供了一种存储介质，所述存储介质上存储有音频合成程序，所述音频合成程序被处理器执行时实现如上所述的音频合成方法的步骤。

本申请存储介质具体实施方式与上述音频合成方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种音频合成方法，其特征在于，所述音频合成方法包括以下步骤：

2.如权利要求1所述的音频合成方法，其特征在于，所述将所述目标对象的语音音频特征、目标对象的声音属性特征以及所述目标曲目的曲谱特征输入到预设的音频合成模型进行音频合成，输出目标音频的步骤，包括：

3.如权利要求2所述的音频合成方法，其特征在于，所述特征迁移模型为多层卷积神经网络模型，所述将所述目标对象的语音音频特征输入到特征迁移模型中进行特征迁移，输出歌唱音频特征的步骤，包括：

4.如权利要求1所述的音频合成方法，其特征在于，所述音频合成方法还包括音频合成模型训练过程，所述音频合成模型训练过程包括：

基于所述特征迁移模型和所述组合模型构建音频合成模型。

5.如权利要求4所述的音频合成方法，其特征在于，所述利用所述第一训练数据训练第一预设模型，得到特征迁移模型的步骤，包括：

6.如权利要求5所述的音频合成方法，其特征在于，所述第一预设模型为多层卷积神经网络模型，所述将所述语音音频特征输入至所述第一预设模型，获得所述第一预设模型输出的第一输出数据的步骤，包括：

7.如权利要求4所述的音频合成方法，其特征在于，所述利用所述特征迁移模型输出的第一输出数据和第二训练数据训练第二预设模型，得到组合模型的步骤，包括：

8.一种音频合成装置，其特征在于，所述音频合成装置包括：

9.一种音频合成设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频合成程序，所述音频合成程序配置为实现如权利要求1至7中任一项所述的音频合成方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有音频合成程序，所述音频合成程序被处理器执行时实现如权利要求1至7任一项所述的音频合成方法的步骤。