CN116524883B

CN116524883B - 音频合成方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN116524883B
Application number: CN202310801911.3A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2024-01-05
Anticipated expiration: 2043-07-03
Also published as: CN116524883A

Abstract

本申请实施例公开了一种音频合成方法、装置、电子设备和计算机可读存储介质；本申请实施例在获取目标音乐对应的至少两个原始音频数据后，对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征，然后，计算对象音轨特征之间的特征相关度，基于特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征，然后，将对齐后的对象音轨特征与伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据；该方案可以提升音频合成的准确度。

Description

音频合成方法、装置、电子设备和计算机可读存储介质

技术领域

本发明涉及音频处理领域，具体涉及一种音频合成方法、装置、电子设备和计算机可读存储介质。

背景技术

近年来，随着互联网技术的飞速发展，音频处理的方式也越来越多样化。比如，可以将同一首音乐的不同版本的音频数据进行合成，从而得到这首音乐的合唱版本的音频数据。现有的音乐合成方法可以采用人工合成的方式，或者，将不同的音频数据进行对齐，从而得到合成的音频数据。

在对相关技术的研究和实践过程中，本申请的发明人发现采用人工合成的方式太过于依赖人工对于歌曲或者歌曲中人声音轨的细微差别的感知度，可能存在主观上的差异，而直接将音频数据进行对齐的话，往往会受到伴奏的干扰，影响音频数据的对齐效果，因此，导致音频合成的准确度较低。

发明内容

本发明实施例提供一种音频合成方法、装置、电子设备和计算机可读存储介质，可以提高音频合成的准确度。

一种音频合成方法，包括：

获取目标音乐对应的至少两个原始音频数据；

对所述原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征；

计算所述对象音轨特征之间的特征相关度，所述特征相关度表征不同对象音轨特征对应的对象音轨中不同时间点之间的关联程度；

基于所述特征相关度，对所述对象音轨特征进行特征对齐，得到对齐后的对象音轨特征；

将所述对齐后的对象音轨特征与所述伴奏音轨特征进行融合，得到所述目标音乐对应的合成音频数据。

相应的，本发明实施例提供一种音频合成装置，包括：

获取单元，用于获取目标音乐对应的至少两个原始音频数据；

分离单元，用于对所述原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征；

计算单元，用于计算所述对象音轨特征之间的特征相关度，所述特征相关度表征不同对象音轨特征对应的对象音轨中不同时间点之间的关联程度；

对齐单元，用于基于所述特征相关度，对所述对象音轨特征进行特征对齐，得到对齐后的对象音轨特征；

融合单元，用于将所述对齐后的对象音轨特征与所述伴奏音轨特征进行融合，得到所述目标音乐对应的合成音频数据。

在一些实施例中，所述计算单元，具体可以用于确定不同原始音频数据的所述伴奏音轨特征之间的特征相似度；当所述特征相似度大于或等于预设相似度阈值时，计算所述对象音轨特征之间的特征相关度；当所述特征相似度小于所述预设相似度阈值时，将所述伴奏音轨特征进行对齐，将对齐后的伴奏音轨特征作为所述伴奏音轨特征，并计算所述对象音轨特征之间的特征相关度。

在一些实施例中，所述计算单元，具体可以用于在所述对象音轨特征中确定出目标对象音轨特征；构建至少一个目标特征对，所述目标特征对包括所述目标对象音轨特征和所述对象音轨特征中除所述目标对象音轨特征以外的对象音轨特征；计算所述目标特征对中的对象音轨特征之间的特征相关度。

在一些实施例中，所述计算单元，具体可以用于在所述目标特征对中提取出每一对象音轨特征的关联特征；根据所述关联特征，确定所述目标特征对中每一对象音轨特征的注意力权重；基于所述注意力权重，生成所述目标特征对对应的特征相关度。

在一些实施例中，所述计算单元，具体可以用于基于所述注意力权重，确定所述目标特征对中不同对象音轨特征的对象音轨子特征之间的特征距离；将所述特征距离作为所述目标特征对中不同对象音轨特征的对象音轨子特征之间的初始特征相关度；将所述初始特征相关度进行组合，得到所述目标特征对对应的特征相关度。

在一些实施例中，所述对齐单元，具体可以用于在所述目标特征对的对象音轨特征中筛选出符合静音条件的对象音轨子特征，得到静音特征；基于所述静音特征对所述特征相关度进行修正，得到目标特征相关度；根据所述目标特征相关度，对所述目标特征对中的对象音轨特征进行对齐，得到对齐后的对象音轨特征。

在一些实施例中，所述对齐单元，具体可以用于在所述特征相关度中筛选出所述静音特征对应的初始特征相关度，得到候选特征相关度；在所述特征相关度中剔除所述候选特征相关度，得到目标特征相关度。

在一些实施例中，所述对齐单元，具体可以用于在所述目标特征对中提取出所述目标对象音轨特征以外的对象音轨特征，得到当前对象音轨特征；基于所述目标特征相关度，对所述当前对象音轨特征进行调整，得到调整后对象音轨特征，所述调整后对象音轨特征与所述目标对象音轨特征对齐；将所述调整后对象音轨特征和所述目标对象音轨特征作为对齐后的对象音轨特征。

在一些实施例中，所述对齐单元，具体可以用于基于所述目标特征相关度，在当前对象音轨特征中筛选出所述目标对象音轨特征中每一对象音轨子特征对应的目标对象音轨子特征；在所述目标特征相关度中提取出所述目标对象音轨子特征对应的初始特征相关度，得到当前特征相关度；根据所述当前特征相关度，确定所述目标对象音轨子特征对应的调整参数，并将所述调整参数与所述目标对象音轨子特征进行融合，得到调整后对象音轨特征。

在一些实施例中，所述融合单元，具体可以用于将所述对齐后的对象音轨特征进行特征放大，得到候选对象音轨特征；将所述候选对象音轨特征中多个放大后的对象音轨特征进行拼接，以得到合成对象音轨特征；在所述伴奏音轨特征中筛选出目标对象音轨特征对应的目标伴奏音轨特征；将所述目标伴奏音轨特征和所述合成对象音轨特征进行拼接，得到目标音频特征，并基于目标音频特征，生成所述目标音乐对应的合成音频数据。

在一些实施例中，所述融合单元，具体可以用于将所述放大后的对象音轨特征在特征通道上进行拼接，得到多个特征通道上的拼接后对象音轨特征；在所述拼接后对象音频特征中筛选出不同特征通道的同一位置上的对象音轨特征，得到目标对象音轨特征集合；将所述目标对象音轨特征集合中的对象音轨特征进行融合，得到合成对象音轨特征。

在一些实施例中，所述分离单元，具体可以用于在所述原始音频数据中提取出基础时域特征和基础频域特征；将所述基础时域特征和所述基础频域特征进行融合，得到融合音频特征；根据所述融合音频特征，将所述基础时域特征转换为对象音轨特征，并将所述基础频域特征转换为伴奏音轨特征。

在一些实施例中，所述分离单元，具体可以用于对所述基础时域特征进行一维卷积处理，得到当前时域特征，并对所述当前时域特征进行空间变换，得到变换后时域特征；对所述基础频域特征进行二维卷积处理，得到当前频域特征；将所述变换后时域特征与所述当前频域特征进行拼接，得到初始融合音频特征，并对所述初始融合音频特征进行二维卷积处理，得到融合音频特征。

在一些实施例中，所述分离单元，具体可以用于将所述融合音频特征、当前时域特征和基础时域特征进行融合，以得到初始对象音轨特征；将所述融合音频特征、当前频域特征和基础频域特征进行拼接，以得到初始伴奏音轨特征；对所述初始对象音轨特征进行特征分离，得到对象音轨特征，并对所述初始伴奏音轨特征进行特征分离，得到伴奏音轨特征。

在一些实施例中，所述分离单元，具体可以用于将所述融合音频特征与所述当前时域特征进行拼接，得到拼接后时域特征；对所述拼接后时域特征进行一维卷积处理，得到高层时域特征；将所述高层时域特征与所述基础时域特征进行拼接，得到全局时域特征，并对所述全局时域特征进行空间转换，得到初始对象音轨特征。

在一些实施例中，所述分离单元，具体可以用于基于所述初始伴奏音轨特征，对所述初始对象音轨特征进行特征分离，得到当前对象音轨特征；根据所述初始对象音轨特征，对所述初始伴奏音轨特征进行特征分离，得到当前伴奏音轨特征；将所述当前伴奏音轨特征作为所述初始伴奏音轨特征，并将所述当前对象音轨特征作为所述初始对象音轨特征；返回执行所述基于所述初始伴奏音轨特征，对所述初始对象音轨特征进行特征分离的步骤，直至达到预设迭代次数为止，得到对象音轨特征和伴奏音轨特征。

此外，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序实现本发明实施例提供的音频合成方法。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行本发明实施例所提供的任一种音频合成方法中的步骤。

此外，本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的音频合成方法中的步骤。

本申请实施例在获取目标音乐对应的至少两个原始音频数据后，对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征，然后，计算对象音轨特征之间的特征相关度，基于特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征，然后，将对齐后的对象音轨特征与伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据；由于该方案可以直接在原始音频数据中分离出对象音轨特征和伴奏音轨特征，并基于对象音轨特征之间的特征相关度，将对象音轨特征进行对齐，从而使得不同原始音频数据中同一时间的发声一致，而且还可以降低同一时间的发声音量之间的差异，因此，可以提升音频合成的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的音频合成方法的场景示意图；

图2是本发明实施例提供的音频合成方法的流程示意图；

图3是本发明实施例提供的信源分离网络的网络结构示意图；

图4是本发明实施例提供的目标特征对对应的特征相关度的示意图；

图5是本发明实施例提供的对特征相关度进行修正后的目标特征相关度的示意图；

图6是本发明实施例提供的目标特征相关度中目标对象音轨特征与当前对象音轨特征之间的初始特征相关度的示意图；

图7是本发明实施例提供的对目标对象音轨子特征进行调整的示意图；

图8是本发明实施例提供的人声音乐场景下对vocal特征进行对齐的流程示意图；

图9是本发明实施例提供的将对齐后的对象音轨特征与伴奏音轨特征进行多层次融合的流程示意图；

图10是本发明实施例提供的将两个不同歌手的音频数据进行合成的整体流程示意图；

图11是本发明实施例提供的音频合成方法的另一流程示意图；

图12是本发明实施例提供的音频合成装置的结构示意图；

图13是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种音频合成方法、装置、电子设备和计算机可读存储介质。其中，该音频合成装置可以集成在电子设备中，该电子设备可以是服务器，也可以是终端等设备。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

例如，参见图1，电子设备可以在获取目标音乐对应的至少两个原始音频数据后，对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征，然后，计算对象音轨特征之间的特征相关度，基于特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征，然后，将对齐后的对象音轨特征与伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据，进而提升音频合成的准确度。

其中，可以理解的是，在本申请的具体实施方式中，涉及到目标音乐的原始音频数据等相关数据，当本申请以下实施例运用到具体产品或技术中时，需要获得许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下分别进行详细说明。需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

一种音频合成方法，可以由电子设备执行，包括：

获取目标音乐对应的至少两个原始音频数据，对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征，计算对象音轨特征之间的特征相关度，该特征相关度表征不同对象音轨特征对应的对象音轨中不同时间点之间的关联程度，基于所述特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征，将对齐后的对象音轨特征与所述伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据。

如图2所示，电子设备执行该音频合成方法的具体流程可以如下：

101、获取目标音乐对应的至少两个原始音频数据。

其中，目标音乐为包含伴奏和对象发声的音乐。所谓对象发声可以理解为具备发声功能的发声对象按照特定的节奏、旋律或文本发出声音。发声对象的类型可以有多种，比如，可以包括具有生物特征的人、动物、其他可以发声的生物或者虚拟生物实体（利用AI技术生成的人），等等。以发声对象为人为例，则目标音乐就可以为人声音乐，伴奏就可以为人声以外的部分。

其中，原始音频数据可以为演奏或演唱目标音乐后的音频数据。比如，以目标音乐为某个歌曲为例，则原始音频数据就可以为该歌曲对应的演唱数据或者音频数据。不同原始音频数据可以理解为目标音乐的不同版本的音频数据，所谓的不同版本的音频数据可以理解为不同的演唱者演奏或者演唱同一首目标音乐时的音频数据，也可以理解为同一演唱者多次演唱或演奏同一首目标音乐。针对同一首目标音乐不同的原始音频数据，原始音频数据中的伴奏可以相同，也可以不同。

其中，获取目标音乐对应的至少两个原始音频数据的方式可以有多种，具体可以如下：

例如，可以接收终端或客户端上传的目标音乐对应的至少两个原始音频数据，或者，可以通过音频采集设备采集不同对象（至少两个对象）演唱或者演奏目标歌曲的音频数据，得到目标音乐对应的至少两个原始音频数据，或者，还可以通过音频采集设备采集同一对象多次演唱或演奏目标音乐的音频数据，得到目标音乐对应的至少两个原始音频数据，或者，可以在音频数据库中筛选出目标音乐对应的至少两个版本的音频数据，得到目标音乐对应的至少两个原始音频数据，或者，当目标音乐的原始音频数据的内存较大或者数量较多时，还可以接收音频合成请求，该音频合成请求携带原始音频数据的存储地址，基于存储地址，获取目标音乐对应的至少两个原始音频数据，等等。

102、对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征。

其中，信源分离可以理解为将原始音频数据中的多种混合音频进行分离，比如，在一整条音频中，可能会掺杂着多种音频信号，所以整条音频是由多种音频混合生成，而信源分离就是通过信号处理或者其他算法将这种混合音频信号进行分离，从混合信号中提取出指定种类的音频信号序列，最终生成单独的音频文件。

其中，对象音轨特征可以为表征对象音轨的特征信息。以目标音乐为人声音乐为例，则对象音轨就可以为人声音轨（Vocal），代表人声部分的音轨，也就是歌曲抽离伴奏之后的歌手清唱发声信号，是从整条歌曲音乐音频中进行信源分离后的产物，但是仍然保留有原有数据的时间长度，非歌手发声区间为静音区间。

其中，伴奏音轨特征可以表征伴奏音轨的特征信息。以目标音乐为人声音乐为例，则伴奏音轨（Bgm）代表的是背景音部分的音轨，也就是歌手歌曲音乐中的背景伴奏音频信号，是从整条混合音频进行信源分离之后的单独音轨特征，然后该Bgm的时间长度与原有的数据时间长度相同，最终会参与最后的歌曲合成。

其中，对原始音频数据进行信源分离的方式可以有多种，具体可以如下：

例如，可以在原始音频数据中提取出基础时域特征和基础频域特征，将基础时域特征和基础频域特征进行融合，得到融合音频特征，根据融合音频特征，将基础时域特征转换为对象音轨特征，并将基础频域特征转换为伴奏音轨特征。

其中，基础时域特征可以为在原始音频数据中提取出的底层的时域特征。基础频域特征可以为在原始音频数据中提取出的底层的频域特征。在原始音频数据中提取出基础时域特征和基础频域特征的方式可以有多种，比如，可以在原始音频数据中提取出时域特征，得到基础时域特征，在原始音频数据中识别出音高频率，得到音频频率信息，在音高频率信息中提取出频域特征，得到基础频域特征。

其中，在原始音频数据中提取出基础时域特征的方式可以有多种，比如，可以在原始音频数据中提取出时域信号信息，采用一维卷积层对时域信号信息进行一维卷积处理，得到初始时域特征，并采用池化层对初始时域特征进行池化处理，得到基础时域特征。

其中，音高频率，也可以称之为Mel频率，一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度，在音频处理领域，有很多基础音频特征是通过Mel频率来进行计算的。音高频率信息就可以理解为包含Mel频率的特征信息。在音高频率信息中提取出频域特征的方式可以有多种，比如，可以在音频频率信息中提取出特征图谱，从而得到基础频域特征。

在提取出基础时域特征和基础频域特征之后，便可以将基础时域特征和基础频域特征进行融合，从而得到融合音频特征。将基础时域特征和基础频域特征进行融合的方式可以有多种，比如，可以对基础时域特征进行一维卷积处理，得到当前时域特征，并对当前时域特征进行空间变换，得到变换后时域特征，对基础频域特征进行二维卷积处理，得到当前频域特征，将变换后时域特征与当前频域特征进行拼接，得到初始融合音频特征，并对初始融合音频特征进行二维卷积处理，得到融合音频特征。

其中，对当前时域特征进行空间变换的方式可以有多种，比如，可以采用多层感知机（Multi-Layer Perceptron，MLP）对当前时域特征进行特征融合，并对融合后的时域特征进行空间变换，得到变换后时域特征。

其中，对基础频域特征进行二维卷积处理的方式可以有多种，比如，可以采用至少一个二维卷积网络对基础频域特征进行二维卷积处理，从而得到当前频域特征。二维卷积网络可以包括二维卷积层和池化层（pooling），当存在多个二维卷积网络时，前一个二维卷积网络的输出为下一个二维卷积网络的输入。

在对当前时域特征进行空间变换和对基础频域特征进行二维卷积处理之后，便可以将变换后时域特征和当前频域特征进行拼接，从而得到初始融合后音频特征，并对初始融合音频特征进行二维卷积处理，得到融合音频特征。

其中，在时域特征和频域特征这两条支路中，通过将变换后时域特征和当前频域特征进行拼接和二维卷积处理，使得两条支路之间的信息进行充分融合，以此来互相进行信息补充，从而提升两条支路中特征分离的准确性。

在将基础时域特征和基础频域特征进行融合之后，便可以基于融合后得到的融合音频特征，将基础时域特征转换为对象音轨特征，并将基础频域特征转换为伴奏音轨特征。将基础时域特征转换为对象音轨特征以及将基础频域特征转换为伴奏音轨特征的方式可以有多种，比如，可以将融合音频特征、当前时域特征和基础时域特征进行融合，以得到初始对象音轨特征，将融合音频特征、当前频域特征和基础频域特征进行拼接，以得到初始伴奏音轨特征，对初始对象音轨特征进行特征分离，得到对象音轨特征，并对初始伴奏音轨特征进行特征分离，得到伴奏音轨特征。

其中，将融合音频特征、当前时域特征和基础时域特征进行融合的方式可以有多种，比如，可以将融合音频特征与当前时域特征进行拼接，得到拼接后时域特征，对拼接后时域特征进行一维卷积处理，得到高层时域特征，将高层时域特征与基础时域特征进行拼接，得到全局时域特征，并对全局时域特征进行空间转换，得到初始对象音轨特征。

其中，高层时域特征可以理解为高层网络感知的时域特征。全局时域特征可以包含高层网络感知出的高层时域特征和底层网络感知出的基础时域特征。

其中，将融合音频特征、当前频域特征和基础频域特征进行拼接的方式可以与将融合音频特征、当前时域特征和基础时域特征进行融合的方式类似，详见上文所述，在此就不在一一赘述。

其中，需要说明的是，将高层时域特征与基础时域特征进行拼接、以及将高层频域特征与基础频域特征进行拼接，主要是为了能够让高层网络感知到底层网络输出的基础音频特征（基础时域特征和基础频域特征），也是为了能够提升最后在特征分离的过程中，使得分离出的vocal特征和bgm特征能够包含完整的音频特征信息，不存在信息的缺失。

在得到初始对象音轨特征和初始伴奏音轨特征之后，便可以对初始对象音轨特征和初始伴奏音轨特征进行特征分离，从而得到对象音轨特征和伴奏音轨特征。对初始对象音轨特征和初始伴奏音轨特征进行特征分离的方式可以有多种，比如，可以基于初始伴奏音轨特征，对初始对象音轨特征进行特征分离，得到当前对象音轨特征，根据初始对象音轨特征，对初始伴奏音轨特征进行特征分离，得到当前伴奏音轨特征，将当前伴奏音轨特征作为初始伴奏音轨特征，并将当前对象音轨特征作为初始对象音轨特征，返回执行基于初始伴奏音轨特征，对初始对象音轨特征进行特征分离的步骤，直至达到预设迭代次数为止，得到对象音轨特征和伴奏音轨特征。

其中，基于初始伴奏音轨特征，对初始对象音轨特征进行特征分离的方式可以有多种，比如，可以基于初始伴奏音轨特征，对初始对象音轨特征进行二维卷积处理，得到候选对象音轨特征，对候选对象音轨特征进行池化处理，得到当前对象音轨特征。

其中，对初始伴奏音轨特征进行特征分离的方式与对初始对象音轨特征进行特征分离的方式类似，详见上文所述，在此就不再一一赘述。

在对初始对象音轨特征和初始伴奏音轨特征进行分离之后，便可以将当前伴奏音轨特征作为初始伴奏音轨特征，并将当前对象音轨特征作为初始对象音轨特征。然后，返回执行基于初始伴奏音轨特征，对初始对象音轨特征进行特征分离的步骤，直至达到预设迭代次数为止，从而得到每一原始音频数据的对象音轨特征和伴奏音轨特征。

其中，预设迭代次数为预先设定的迭代次数，即在对初始对象音轨特征和初始伴奏音轨特征进行预设次数的特征分离。预设迭代次数可以为任意大于0 的整数，比如，可以包括1、2、3、4或者其他大于0的整数，等等。

其中，需要说明的是，采用两条支路分别对初始对象音轨特征和初始伴奏音轨特征在进行特征分离时，两条支路中间存在至少一条链接，即初始对象音轨特征参与对初始伴奏音轨特征的特征分离，初始伴奏音轨特征参与对初始对象音轨特征的分离特征，从而可以使得两条支路可以互相感知两条支路当前时刻分离出的信息，进而能够让互相感知两个支路分离的效果，互相提升分离的纯净性，避免互相交叉后分离。

其中，以对象音轨特征为vocal特征，伴奏音轨特征为bgm特征，预设迭代次数为2为例，可以采用信源分离网络（模型）对原始音频数据进行信源分离，从而得到分离后的vocal特征和bgm特征，信源分离网络的网络结构可以如图3所示，该结构由两个支路组成，分别是左支路和右支路。首先是左支路的结构，左支路的底层是基于时域进行构建的，其输入是原始歌曲的一维音频采样点序列。然后左支路中存在着大量的一维卷积和pooling，因为整个支路的处理都是在时域中进行的。而右支路的底层是基于频域进行构建的，其输入时原始歌曲的音频经过计算后求得的mel（音高频率）特征图谱，因为输入的是二维的特征图谱，所以右支路中存在着大量的二维卷积和pooling（池化层）。然后由图3中所示，中部存在着两个支路之间的信息交流，也就是左右支路通过变换之后，能够在特征通道上进行拼接，然后使用二维卷积来对两个支路的信息进行充分融合，以此来互相补充信息。经过融合之后，再分别进行两个支路的输入，从当前结构开始，两个支路从时域和频域逐渐变成vocal支路和bgm支路。左右支路的两边能够看出，都是从底层网络连接到高层网络中一条路线，该路线是为了能够让高层网络感知到底层网络输出的基础音频特性，也是为了能够提升最后在分离的过程中的分离效果，分离出来的vocal特征和bgm特征能够包含完整的音频特征信息，不存在信息的缺失。由图3中可以看出，在网络的高层模块中，存在着两条两个支路之间的链接，该链接是为了能够让两个支路之间互相感知两个支路当前时刻分离出来的信息，也就是vocal支路感知到bgm支路当前分离出来的特征，从而能够在vocal分离的时候避免计算保留bgm已经分离出来的信息，bgm支路也是同样的进行感知。这种机制能够让两个支路互相感知两个支路分离的效果，从而互相提升分离的纯净性，避免互相交叉后分离。

其中，对于原始音频数据的信源分离，本方案可以将时域和频域两个领域支路之间建立联系，两条支路在进行处理的后期，逐渐由时域和频域变为vocal特征分离和bgm特征分离两个支路。同时添加了底层网络和高层网络之间的联系，让底层特征的基础音频特性来弥补高层的基础特征特性缺失，从而能够提升分离后的音轨信息丰富度，让分离出来的vocal和bgm两个音轨不存在音频特征缺失。

103、计算对象音轨特征之间的特征相关度。

其中，特征相关度表征不同对象音轨特征对应的对象音轨中不同时间点之间的关联程度。不同时间点之间的关联程度可以理解为不同时间点下的发音差别以及音量差别。

其中，计算对象音轨之间的特征相关度的方式可以有多种，具体可以如下：

例如，可以确定不同原始音频数据的伴奏音轨特征之间的特征相似度，当特征相似度大于或等于预设相似度阈值时，计算对象音轨特征之间的特征相关度，当特征相似度小于预设相似度阈值时，将伴奏音轨特征进行对齐，将对齐后的伴奏音轨特征作为伴奏音轨特征，并计算对象音轨特征之间的特征相关度。

其中，特征相似度可以表征不同原始音频数据的伴奏音轨特征之间的相似程度。确定不同原始音频数据的伴奏音轨特征之间的特征相似度的方式可以有多种，比如，可以计算不同原始音频数据的伴奏音轨特征之间的余弦相似度，从而得到特征相似度，或者，还可以计算不同原始音频数据的伴奏音轨特征之间的特征距离，并将特征距离作为特征相似度，等等。特征距离的类型可以有多种，比如，可以包括L1/L2距离、欧式距离或者其他各种类型的特征距离，等等。

当特征相似度大于或等于预设相似度阈值时，可以直接计算对象音轨特征之间的特征相关度。计算特征相关度的方式可以有多种，比如，可以在对象音轨特征中确定出目标对象音轨，构建至少一个目标特征对，计算目标特征对中的对象音轨特征之间的特征相关度。

其中，在对象音轨特征中确定出目标对象音轨特征的方式可以有多种，比如，可以在对象音轨特征中随机筛选出一个对象音轨特征作为目标对象音轨特征，或者，可以对原始音频数据进行质量评分，在原始音频数据中筛选出质量分最高的目标原始音频数据，并将目标原始音频数据的对象音轨特征作为目标对象音轨特征，或者，还可以获取目标音乐的参考音频数据，将计算每一原始音频数据与参考音频数据的相似度，在原始音频数据中筛选出相似度最高的目标原始音频数据，将目标原始音频数据对应的对象音轨特征作为目标对象音轨特征，等等。

其中，以目标音乐为人声音乐为例，参考音频数据可以理解为人声音乐中原唱的演唱或演奏的音频数据。

在确定出目标对象音轨特征之后，便可以构建至少一个目标特征对。目标特征对可以包括目标对象音轨特征和对象音轨特征中除目标对象音轨特征以外的对象音轨特征。比如，以对象音轨特征可以包括目标音轨对象特征、对象音轨特征A和B为例，目标特征对就可以包括目标对象音轨特征和对象音轨特征A，或者，可以包括目标对象音轨特征和对象音轨特征B，等等。由此发现，每一个目标特征对中都可以包括目标对象音轨特征。

在构建出至少一个目标特征对之后，便可以计算目标特征对中的对象音轨特征之间的特征相关度。以目标特征对包括目标对象音轨特征和对象音轨特征A为例，此时，就可以计算目标对象音轨特征与对象音轨特征A之间的特征相关度。计算目标特征对中的对象音轨特征之间的特征相关度的方式可以有多种，比如，在目标特征对中提取出每一对象音轨特征的关联特征，根据关联特征，确定目标特征对中每一对象音轨特征的注意力权重，基于注意力权重，生成目标特征对对应的特征相关度。

其中，对象音轨特征包括至少一个对象音轨子特征，即对象音轨特征可以为包含至少一个对象音轨子特征的特征序列。注意力权重可以理解为目标特征对中不同对象音轨子特征的对象音轨子特征相当于其他对象音轨子特征的注意力得分进行归一化后的权重。在目标特征对中提取出每一对象音轨特征的关联特征，并根据关联特征，确定目标特征对中每一对象音轨特征的注意力权重的方式可以有多种，比如，可以采用attention（注意力机制）网络在目标特征对中提取出每一对象音轨特征的关联特征，并根据关联特征，计算出每一对象音轨特征的注意力权重。

其中，attention机制可以理解为模仿人类注意力而提出的一种解决问题的办法，简单地说就是从大量信息中快速筛选出高价值信息。主要用于解决模型输入序列较长的时候很难获得最终合理的向量表示问题，做法是保留模型的中间结果，用新的模型对其进行学习，并将其与输出进行关联，从而达到信息筛选的目的。

在确定出目标特征对中每一对象音轨特征的注意力权重之后，便可以基于注意力权重，生成目标特征对对应的特征相关度。基于注意力权重，生成目标特征对对应的特征相关度的方式可以有多种，比如，可以基于注意力权重，确定目标特征对中不同对象音轨特征的对象音轨子特征之间的特征距离，将特征距离作为目标特征对中不同对象音轨特征的对象音轨子特征之间的初始特征相关度，将初始特征相关度进行组合，得到目标特征对对应的特征相关度。

其中，对象音轨子特征可以包括发音特征和音量特征。基于注意力权重，确定目标特征对中不同对象音轨特征的对象音轨子特征之间的特征距离的方式可以有多种，比如，可以在注意力权重中筛选出发音特征对应的发音权重和音量特征对应的音量权重，基于发音权重，在目标特征对中确定出不同对象音轨特征的发音特征之间的特征距离，得到发音特征距离，根据音量权重，在目标特征对中确定出不同对象音轨特征的音量特征之间的特征距离，得到音量特征距离，将发音特征距离和音量特征距离作为目标特征对中不同对象音轨特征的对象音轨子特征之间的特征距离。

其中，基于发音权重，在目标特征对中确定出不同对象音轨特征的发音特征之间的特征距离的方式可以有多种，比如，可以在发音权重中筛选出每一发音特征相对于其他对象音轨特征中的发音特征之间的目标发音权重，将目标发音权重作为该发音特征与其他对象音轨特征中的发音特征之间的特征距离，从而得到发音特征距离。

其中，在目标特征对中确定出不同对象音轨特征的音量特征之间的特征距离的方式与在目标特征对中确定出不同对象音轨特征的发音特征之间的特征距离的方式类似，详见上文所述，在此就不再一一赘述。

在确定出发音特征距离和音量特征距离之后，便可以将将发音特征距离和音量特征距离作为目标特征对中不同对象音轨特征的对象音轨子特征之间的特征距离。

在确定出目标特征对中不同对象音轨特征的对象音轨子特征之间的特征距离之后，便可以将特征距离作为目标特征对中不同对象音轨特征的对象音轨子特征之间的初始特征相关度。将初始特征相关度进行组合，得到目标特征对对应的特征相关度。将初始特征相关度进行组合的方式可以有多种，比如，可以对目标特征对中的对象音轨特征的对象音轨子特征进行排序，基于排序结果，将初始特征相关度作为元素，生成特征相关度矩阵，将特征相关度矩阵作为目标特征对对应的特征相关度。

其中，目标特征对中的对象音轨特征可以为一个序列特征（特征序列），特征相关度就可以理解为包含两个特征序列之间的所有特征（特征向量）之间的空间距离（特征距离）的空间距离矩阵，可以如图4所示，每个元素可以代表两个音轨子特征（特征向量）之间的空间距离。以目标音乐为人声音乐为例，该空间距离也就可以代表vocal发音的差别以及音量的差别。这里的空间距离又可以称作空间相似度。以空间相似度为余弦相似度为例，空间相似度就可以为通过测量两个向量的夹角的余弦值来度量它们之间的相似性。空间0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量在空间上的相似性，也就是两个向量的空间夹角和方向重合度。两个向量有相同的指向相似度高时，余弦相似度的值为1；两个向量空间夹角为90°相似度低时，余弦相似度的值为0；两个向量指向完全相反的方向完全不相似时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。

当特征相似度小于预设相似度阈值时，可以将伴奏音轨特征进行对齐，将对齐后的伴奏音轨特征作为伴奏音轨特征，并计算对象音轨特征之间的特征相关度。

其中，将伴奏音轨特征进行对齐的方式可以有多种，比如，可以计算伴奏音轨特征之间的特征相关度，得到伴奏特征相关度，基于伴奏特征相关度，对伴奏音轨特征进行特征对齐。

其中，计算伴奏音轨特征之间的特征相关度与计算对象音轨特征之间的特征相关度的方式类似，详见上文所述，在此就不再一一赘述。在计算出伴奏特征相关度之后，便可以基于伴奏特征相关度，对伴奏音轨特征进行特征对齐。对伴奏音轨特征进行特征对齐的方式与对对象音轨特征进行特征对齐的方式类似，详见下文所述。

在将伴奏音轨特征进行对齐之后，便可以将对齐后的伴奏音轨特征作为伴奏音轨特征，然后，计算对象音轨特征之间的特征相关度。计算对象音轨特征之间的特征相关度的方式可以参见上文所述，在此就不再一一赘述。

104、基于特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征。

例如，可以在目标特征对的对象音轨特征中筛选出符合静音条件的对象音轨子特征，得到静音特征，基于静音特征对特征相关度进行修正，得到目标特征相关度，根据目标特征相关度，对目标特征对中的对象音轨特征进行对齐，得到对齐后的对象音轨特征，具体可以如下：

S1、在目标特征对的对象音轨特征中筛选出符合静音条件的对象音轨子特征，得到静音特征。

其中，静音特征可以为原始音频数据中剥离了伴奏之后剩余的静音片段对应的特征信息。

其中，在目标特征对的对象音轨特征中筛选出符合静音条件的对象音轨子特征的方式可以有多种，具体可以如下：

例如，可以在目标特征对的每一对象音轨特征的对象音轨子特征中提取出音量特征，计算预设静音特征与音量特征之间的相似度，在对象音轨子特征中筛选出相似度大于预设相似度阈值的至少一个对象音轨子特征，得到静音特征，或者，还可以在目标特征对的每一对象音轨特征的对象音轨子特征中提取出音量特征，基于音量特征，确定对象音轨子特征对应的目标音量，当目标音量小于预设静音阈值时，确定对象音轨子特征为静音特征，等等。

S2、基于静音特征对特征相关度进行修正，得到目标特征相关度。

例如，可以在特征相关度中筛选出静音特征对应的初始特征相关度，得到候选特征相关度，在特征相关度中剔除候选特征相关度，得到目标特征相关度。

其中，候选特征相关度可以为静音特征对应的初始特征相关度，这里的静音特征可以包括目标对象音轨特征中的对象音轨子特征，也可以包括目标特征对中除目标对象音轨特征以外的对象音轨特征中的对象音轨子特征。在特征相关度这个矩阵中，候选特征相关度就可以为这个矩阵中静音特征对应的元素。

在筛选出候选特征相关度之后，便可以在特征相关度中剔除候选特征相关度，从而得到目标特征相关度。在特征相关度中剔除候选特征相关度的方式可以有多种，比如，可以在特征相关度中删除候选特征相关度，并将候选特征相关度对应的位置填充预设相关度，从而得到目标特征相关度，或者，还可以在特征相关度中将候选特征相关度替换为预设相关度，从而得到目标特征相关度，等等。

其中，预设相关度可以为预先设置的表征静音片段的相关度。预设相关度可以为0或者其他可以表征静音片段的相关度。以预设相关度为0，特征相关度如图4所示为例，基于静音特征对特征相关度进行修正后得到的目标特征相关度可以如图5所示。

其中，需要说明的是，以目标音乐为人声音乐为例，对象音轨特征可以为分离出来的纯人声vocal，所以除了人声之外其余的伴奏都已经进行剔除。所以在特征序列中存在着大量的静音片段，在计算特征相关度时，由于静音片段和静音片段之间的距离是最短的，静音片段就会干扰最终的特征相关度选择，使得计算出的特征相关度存在误差，因此，就需要将静音片段对应的初始特征相关度进行剔除，从而得到目标特征相关度。

S3、根据目标特征相关度，对目标特征对中的对象音轨特征进行对齐，得到对齐后的对象音轨特征。

例如，可以在目标特征对中提取出目标对象音轨特征以外的对象音轨特征，得到当前对象音轨特征，基于目标特征相关度，对当前对象音轨特征进行调整，得到调整后对象音轨特征，将调整后对象音轨特征和目标对象音轨特征作为对齐后的对象音轨特征。

其中，调整后对象音轨特征与目标对象音轨特征对齐。基于目标特征相关度，对当前对象音轨特征进行对齐的方式可以有多种，比如，基于目标特征相关度，在当前音轨特征中筛选出目标对象音轨特征中每一对象音轨子特征对应的目标对象音轨子特征，在目标特征相关度中提取出目标对象音轨子特征对应的初始特征相关度，得到当前特征相关度，根据当前特征相关度，确定目标对象音轨子特征对应的调整参数，并将调整参数与目标对象音轨子特征进行融合，得到调整后对象音轨子特征。

其中，基于目标特征相关度，在当前对象音轨特征中筛选出目标对象音轨特征中每一对象音轨子特征对应的目标对象音轨子特征的方式可以有多种，比如，可以基于目标特征相关度，在当前对象音轨特征中筛选出与目标对象音轨特征的每一对象音轨子特征的初始特征相关度最大的对象音轨子特征，得到候选对象音轨子特征，当候选对象音轨子特征为1个时，将该候选对象音轨子特征作为目标对象音轨子特征，当候选对象音轨子特征为多个时，将候选对象音轨子特征的特征标识与对应的目标对象音轨特征的对象音轨子特征进行匹配，将匹配成功的候选对象音轨特征作为目标对象音轨子特征。譬如，以目标对象音轨特征包括三个对象音轨子特征（vocal1_1、vocal1_2、vocal1_3），当前对象音轨特征包括三个对象音轨子特征（vocal2_1、vocal2_2、vocal2_3），目标特征相关度中目标对象音轨特征与当前对象音轨特征之间的初始特征相关度可以如图6所示，对于vocal1_1，vocal1_1与vocal2_1的初始特征相关度最高，则vocal1_1对应的目标对象音轨子特征就可以为vocal2_1；对于vocal1_2，vocal1_2与vocal2_2和vocal2_3初始特征相关度最高，均为0.6，vocal1_2与vocal2_2的特征标识匹配，则vocal1_2对应的目标对象音轨子特征为vocal2_2，对于vocal1_3，vocal1_3与vocal2_3的初始特征相关度为0.5，vocal1_3与vocal2_2的初始特征相关度为0.6，此时，就说明vocal2_3的时延和节奏与vocal1_3不匹配，反而vocal2_2的时延和节奏与vocal1_3更匹配，则vocal1_3对应的目标对象音轨子特征为vocal2_2。

在当前对象音轨特征中筛选出目标对象音轨特征中每一对象音轨子特征对应的目标对象音轨子特征之后，便可以在目标特征相关度中提取出目标对象音轨子特征对应的初始特征相关度，得到当前特征相关度。然后，根据当前特征相关度，确定目标对象音轨子特征对应的调整参数。调整参数可以理解为对目标音轨子特征进行对齐调整的参数，确定调整参数的方式可以有多种，比如，可以将计算当前特征相关度的倒数，并将当前特征相关度的倒数作为目标对象音轨子特征对应的调整参数，譬如，以当前特征相关度为0.6为例，则调整参数就可以为1/0.6。

在确定出目标对象音轨子特征对应的调整参数之后，便可以将调整参数与目标对象音轨子特征进行融合，得到调整后对象音轨特征。融合的方式可以有多种，比如，可以直接将调整参数与对应的目标对象音轨子特征相乘，从而得到调整后对象音轨特征，譬如，以目标对象音轨子特征为vocal2_1、vocal2_2和vocal2_2，分别对应的当前特征相关度为0.8、0.6和0.6为例，对目标对象音轨子特征进行调整过程可以如图7所示，从而可以得到与目标对象音轨特征中每一对象音轨子特征对齐的调整后对象音轨特征。

在对当前对象音轨特征进行调整之后，便可以将调整后对象音轨特征和目标对象音轨特征作为对齐后的对象音轨特征。

其中，以目标音乐为人声音乐，对象音轨特征为人声音轨vocal特征为例，对vocal特征进行对齐的方式可以如图8所示，目标特征对可以包括vocal1特征序列（目标对象音轨特征）和vocal2特征序列（当前对象音轨特征），采用attention相关度计算，能够将两个特征序列之间所有特征向量的空间距离计算出来，生成一个空间距离矩阵，将该空间特征矩阵作为目标特征对的特征相关度，然后，在vocal1特征序列和vocal2特征序列中提取出静音片段，得到静音特征，在特征相关度中剔除静音片段对应的空间距离，从而得到目标特征相关度。基于目标特征相关度对vocal2特征序列中的特征向量进行调整，使得vocal2特征序列中的特征向量与vocal1特征序列中的特征向量对齐，得到对齐后的人声特征vocal，从而实现vocal2中的所有人声都能够与vocal1中的人声对齐。

其中，以目标音乐为人声音乐，对象音轨特征为人声音轨vocal特征为例，本方案中对输入的两个纯净分离产生的vocal特征，然后对两个vocal特征分块进行相关的计算，就能够得到两个音轨的不同时间点之间的关联性，从而能够定位到两个vocal特征对应的vocal之间的时间差异以及音量的差异，然后利用计算出来的attention相关度值，对vocal进行时延或者改变节奏，同时对音量进行调整，从而能够达到让两个vocal特征之间进行对齐，达到最终合唱同步的目的。

105、将对齐后的对象音轨特征与伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据。

例如，可以将对齐后的对象音轨特征进行特征放大，得到候选对象音轨特征，将候选对象音轨特征中多个放大后的对象音轨特征进行拼接，以得到合成对象音轨特征，在伴奏音轨特征中筛选出目标对象音轨特征对应的目标伴奏音轨特征，将目标伴奏音轨特征和合成对象音轨特征进行拼接，得到目标音频特征，并基于目标音频特征，生成目标音乐对应的合成音频数据。

其中，将对齐后的对象音轨特征进行特征放大的方式可以有多种，比如，可以将对齐后的对象音轨特征（尺寸为t×m）通过1×1×n的卷积核进行处理，从而得到多个尺寸为（t×m×n）的放大后的对象音轨特征，将多个放大后的对象音轨特征作为候选对象音轨特征，此时，候选对象音轨特征的特征通道就可以为n。

其中，n为大于1的整数，比如，可以为3或者其他任意大于1的整数。以n为3为例，候选对象音轨特征中每一个放大后的对象音轨特征的特征通道（channel）为3。通过1×1×n的卷积核对对齐后的对象音轨特征的所有细节进行放大，主要用于满足后面融合的时候细节的补充。

将对齐后的对象音轨特征进行特征放大之后，便可以将候选对象音轨特征中多个放大后的对象音轨特征进行拼接，以得到合成对象音轨特征。合成对象音轨特征可以为将不同原始音频数据中的对象音轨特征进行对齐后合成的对象音轨特征。合成对象音轨特征也可以理解为目标音乐的合唱版本的音频数据中的对象音轨对应的特征信息。放大后的对象音轨特征包括多个特征通道，将候选对象音轨特征中多个放大后的对象音轨特征进行拼接的方式可以有多种，比如，可以将放大后对象音轨特征在特征通道上进行拼接，得到多个特征通道上的拼接后对象音轨特征，在拼接后对象音频特征中筛选出不同特征通道的同一位置上的对象音轨特征，得到目标对象音轨特征集合，将目标对象音轨特征集合中的对象音轨特征进行融合，得到合成对象音轨特征。

其中，以放大后的对象音轨特征包含n个特征通道为例，将放大后的对象音轨特征在特征通道上进行拼接的方式可以有多种，比如，可以直接在2n个特征通道上对放大后的对象音轨特征进行拼接，从而得到具有2n个特征通道的拼接后对象音轨特征，譬如，以n为3为例，拼接后对象音轨特征就可以为特征通道为6的放大后的对象音轨特征。

在将放大后的对象音轨特征在特征通道上进行拼接之后，便可以在拼接后对象音轨特征中筛选出不同特征通道的同一位置上的对象音轨特征，得到目标音轨特征集合，将目标对象音轨特征集合中的对象音轨特征进行融合，从而得到合成对象音轨特征。将目标对象音轨特征集合中的对象音轨特征进行融合的方式可以有多种，比如，可以采用1×1×2n的卷积核，将不同特征通道（channel）的相同位置的对象音轨特征进行融合，从而得到一个特征通道为1的合成对象音轨特征。以目标音乐为人声音乐为例，此时的合成对象音轨特征就可以为人声合唱特征（特征图）。

其中，以n为3为例，则卷积核的尺寸就可以为1×1×6，就可以将特征通道为6的拼接后对象音轨特征在不同特征通道的同一位置上进行融合，从而得到特征通道为1的合成对象音轨特征。

其中，目标伴奏音轨特征可以为目标对象音轨特征对应的原始音频数据中分离出的伴奏音轨特征。将目标伴奏音轨特征和合成对象音轨特征进行拼接的方式可以有多种，比如，可以分别对合成对象音轨特征和目标伴奏音轨特征进行特征放大，将放大后的伴奏音轨特征与放大后的合成对象音轨特征进行拼接，从而得到目标音频特征。

其中，将放大后的伴奏音轨特征与放大后的合成对象音轨特征进行拼接的方式可以与将候选对象音轨特征中的多个放大后的对象音轨特征进行拼接的方式类似，详见上文所述，在此就不再一一赘述。

其中，以对齐后的对象音轨特征包括目标音轨特征（vocal1）和调整后音轨特征（vocal2），目标伴奏音轨特征为bgm1，n为3为例，可以采用卷积融合网络（conv concat）的多层次融合方式将对齐后的对象音轨特征与伴奏音轨特征进行融合，具体的多次层融合方式可以如图9所示，使用输入的是vocal1和调整后的vocal2，然后经过1×1×3的卷积核，分别将两个vocal都处理成为特征通道（channel）等于3的对象音轨特征（vocal map）。然后将两个channel等于3的vocal map在channel上进行拼接，生成一个channel等于6的vocalmap。最后使用一个1×1×6的卷积核，将不同channel中的相同位置进行融合，最终生成一个channel等于1的人声合唱特征图（合成对象音轨特征）。接下来就是人声合唱特征图与bgm1进行合成，其步骤与上述的人声合唱特征图的合成方式相同，这里使用bgm1是因为bgm1与vocal1匹配的，其中第二个模块中vocal2是按照vocal1的发声节奏进行的调整，所以这里相当于vocal2已经与bgm1进行了适配，从而得到目标音频特征。通过conv concat的多层次融合，可以减少不同原始音频数据最终合成的违和感，进而提升音频合成的合成效果。

其中，conv concat的核心为卷积神经网络（Convolutional Neural Network,CNN），它是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。

在将目标伴奏音轨特征和合成对象音轨特征进行拼接之后，便可以基于拼接后的目标音频特征，生成目标音乐对应的合成音频数据。生成目标音乐对应的合成音频数据的方式可以有多种，比如，可以采用解码网络对目标音频特征进行特征解码，从而得到目标音乐的合成音频数据，或者，还可以采用音频生成网络，基于目标音频特征，生成目标音乐对应的合成音频数据，等等。

其中，以目标音乐为人声音乐为例，本方案针对人声音轨特征（vocal）和伴奏音轨特征（bgm）的特征融合，可以针对利用多层次的1×1卷积核，对输入的不同音频特征图（对齐后的对象音轨特征）进行融合，使用channel融合的性质，直接将不同channel的相同位置进行融合，整个模块首先是对人声vocal特征进行融合，生成vocal的合唱特征（合成对象音轨特征），然后利用bgm和合唱特征融合生成最后的合唱歌曲的目标音频特征，然后，生成目标音乐对应的合唱歌曲。

其中，人声音乐的合唱（合成）场景下，本方案可以以原始音频数据分别对应歌手1和歌手2演唱或演奏的人声音乐的音乐数据为例，将两个不同歌手的音频数据进行合成的整体流程可以如图10所示，主要包括三个模块，第一个模块可以为信源分离模块，vocal特征调整模块和特征融合模块，具体可以如下：

（1）信源分离模块：对输入的不同歌手所演唱的歌曲进行人声vocal和背景伴奏bgm分离。在分离过程中，使用了基于时域和频域之间的结合，能够让时域特性的前后时许关联以及频域的不同频带特性表达相互的弥补，能够增强在不同领域分离时的信息交互，从而比对出差异，提升分离效果。同时系统添加了高层和低层网络之间的链接，让底层网络的特征特性来补充高层网络的特征缺失，提升高层网络输出特征的丰富度，从而能够提升分离的性能，然后将人声vocal和bgm进行纯净的分离。

（2）vocal特征调整模块：对输入的两个纯净分离产生的vocal特征，然后对两个vocal特征分块进行相关的计算，就能够得到两个音轨的不同时间点之间的关联性，从而能够定位到两个vocal之间的时间差异以及音量的差异，然后利用计算出来的attention相关度值，对vocal进行时延或者改变节奏，同时对音量进行调整，从而能够达到让两个vocal特征之间进行对齐，达到最终合唱同步的目的。

（3）特征融合模块：针对利用多层次的1×1卷积核，进行对输入的不同音频特征图（对齐后的对象音轨特征）进行融合，使用channel融合的性质，直接将不同channel的相同位置进行融合，整个模块首先是对人声vocal特征进行融合，生成vocal的合唱特征（合成对象音轨特征），然后利用bgm和合唱特征融合生成最后的合唱歌曲的目标音频特征，然后，生成目标音乐对应的合唱歌曲。

其中，在人声音乐的合唱（合成）场景下，本方案可以根据输入的不同歌手的演唱的同一首歌曲音频，进行自动化的对齐调整音量并融合，合成最终的不同歌手合唱歌曲。彻底摆脱了人工的依赖，不需要人工的标注和操作，能够节省了大量的时间和成本，同时本方案是标准化的合成方法，不会存在由于人主观上产生的差异，不会受到因为人工的影响。

由以上可知，本申请实施例在获取目标音乐对应的至少两个原始音频数据后，对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征，然后，计算对象音轨特征之间的特征相关度，基于特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征，然后，将对齐后的对象音轨特征与伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据；由于该方案可以直接在原始音频数据中分离出对象音轨特征和伴奏音轨特征，并基于对象音轨特征之间的特征相关度，将对象音轨特征进行对齐，从而使得不同原始音频数据中同一时间的发声一致，而且还可以降低同一时间的发声音量之间的差异，因此，可以提升音频合成的准确度。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以电子设备为服务器，目标音乐为目标人声音乐，对象音轨特征可以vocal（人声音轨）特征，伴奏音轨特征为bgm特征，原始音频数据为不同歌手演唱或演奏的人声音乐的音频数据，音高频率为Mel频率为例进行说明。

如图11所示，一种音频合成方法，具体流程如下：

201、服务器获取目标人声音乐对应的至少两个原始音频数据。

例如，服务器可以接收终端或客户端上传的目标人声音乐对应的至少两个原始音频数据，或者，可以通过音频采集设备采集不同歌手（至少两个歌手）演唱或者演奏目标歌曲的音频数据，得到目标人声音乐对应的至少两个原始音频数据，或者，还可以通过音频采集设备采集同一对象多次演唱或演奏目标人声音乐的音频数据，得到目标人声音乐对应的至少两个原始音频数据，或者，可以在音频数据库中筛选出目标人声音乐对应的至少两个版本的音频数据，得到目标人声音乐对应的至少两个原始音频数据，或者，当目标人声音乐的原始音频数据的内存较大或者数量较多时，还可以接收音频合成请求，该音频合成请求携带原始音频数据的存储地址，基于存储地址，获取目标人声音乐对应的至少两个原始音频数据，等等。

202、服务器对原始音频数据进行信源分离，得到每一原始音频数据的vocal特征和bgm特征。

例如，服务器可以在原始音频数据中提取出时域特征，得到基础时域特征，在原始音频数据中识别出Mel频率，得到音高频率信息，在Mel频率信息中提取出频域特征，得到基础频域特征。

服务器在原始音频数据中提取出时域信号信息，采用一维卷积层对时域信号信息进行一维卷积处理，得到初始时域特征，并采用池化层对初始时域特征进行池化处理，得到基础时域特征。

服务器对基础时域特征进行一维卷积处理，得到当前时域特征，并可以采用MLP对当前时域特征进行特征融合，并对融合后的时域特征进行空间变换，得到变换后时域特征。采用至少一个二维卷积网络对基础频域特征进行二维卷积处理，从而得到当前频域特征。将变换后时域特征和当前频域特征进行拼接，从而得到初始融合后音频特征，并对初始融合音频特征进行二维卷积处理，得到融合音频特征。

服务器可以将融合音频特征与当前时域特征进行拼接，得到拼接后时域特征，对拼接后时域特征进行一维卷积处理，得到高层时域特征，将高层时域特征与基础时域特征进行拼接，得到全局时域特征，并对全局时域特征进行空间转换，得到初始vocal特征。将融合音频特征、当前频域特征和基础频域特征进行拼接，以得到初始bgm特征。

服务器基于初始bgm特征，对初始vocal特征进行二维卷积处理，得到候选vocal特征，对候选vocal特征进行池化处理，得到当前vocal特征。根据初始vocal特征，对初始bgm特征进行特征分离，得到当前bgm特征，将当前bgm特征作为初始bgm特征，并将当前vocal特征作为初始vocal特征，返回执行基于初始bgm特征，对初始vocal特征进行特征分离的步骤，直至达到预设迭代次数（2次或者其他大于1的次数）为止，得到vocal特征和bgm特征。

203、服务器计算vocal特征之间的特征相关度。

例如，服务器可以计算不同原始音频数据的bgm特征之间的余弦相似度，从而得到特征相似度，或者，还可以计算不同原始音频数据的bgm特征之间的特征距离，并将特征距离作为特征相似度，等等。

当特征相似度大于或等于预设相似度阈值时，服务器可以在vocal特征中随机筛选出一个vocal特征作为目标vocal特征，或者，可以对原始音频数据进行质量评分，在原始音频数据中筛选出质量分最高的目标原始音频数据，并将目标原始音频数据的vocal特征作为目标vocal特征，或者，还可以获取目标人声音乐的参考音频数据，将计算每一原始音频数据与参考音频数据的相似度，在原始音频数据中筛选出相似度最高的目标原始音频数据，将目标原始音频数据对应的vocal特征作为目标vocal特征，等等。构建至少一个目标特征对。目标特征对可以包括目标vocal特征和vocal特征中除目标vocal特征以外的vocal特征。

服务器可以采用attention网络在目标特征对中提取出每一vocal特征的关联特征，并根据关联特征，计算出每一vocal特征的注意力权重。在注意力权重中筛选出发音特征对应的发音权重和音量特征对应的音量权重。在发音权重中筛选出每一发音特征相对于其他vocal特征中的发音特征之间的目标发音权重，将目标发音权重作为该发音特征与其他vocal特征中的发音特征之间的特征距离，从而得到发音特征距离。根据音量权重，在目标特征对中确定出不同vocal特征的音量特征之间的特征距离，得到音量特征距离，将发音特征距离和音量特征距离作为目标特征对中不同vocal特征的vocal子特征之间的特征距离。将特征距离作为目标特征对中不同vocal特征的vocal子特征之间的初始特征相关度。对目标特征对中的vocal特征的vocal子特征进行排序，基于排序结果，将初始特征相关度作为元素，生成特征相关度矩阵，将特征相关度矩阵作为目标特征对对应的特征相关度。

服务器当特征相似度小于预设相似度阈值时，可以将bgm特征进行对齐，将对齐后的bgm特征作为bgm特征，并计算vocal特征之间的特征相关度，具体可以参见上文所述，在此就不再一一赘述。

204、服务器在目标特征对的vocal特征中筛选出符合静音条件的vocal子特征，得到静音特征。

例如，服务器可以在目标特征对的每一vocal特征的vocal子特征中提取出音量特征，计算预设静音特征与音量特征之间的相似度，在vocal子特征中筛选出相似度大于预设相似度阈值的至少一个vocal子特征，得到静音特征，或者，还可以在目标特征对的每一vocal特征的vocal子特征中提取出音量特征，基于音量特征，确定vocal子特征对应的目标音量，当目标音量小于预设静音阈值时，确定vocal子特征为静音特征，等等。

205、服务器基于静音特征对特征相关度进行修正，得到目标特征相关度。

例如，服务器可以在特征相关度中筛选出静音特征对应的初始特征相关度，得到候选特征相关度。

服务器在特征相关度中删除候选特征相关度，并将候选特征相关度对应的位置填充0，从而得到目标特征相关度，或者，还可以在特征相关度中将候选特征相关度替换为0，从而得到目标特征相关度，等等。

206、服务器根据目标特征相关度，对目标特征对中的vocal特征进行对齐，得到对齐后的vocal特征。

例如，服务器可以在目标特征对中提取出目标vocal特征以外的vocal特征，得到当前vocal特征。基于目标特征相关度，在当前vocal特征中筛选出与目标vocal特征的每一vocal子特征的初始特征相关度最大的vocal子特征，得到候选vocal子特征，当候选vocal子特征为1个时，将该候选vocal子特征作为目标vocal子特征，当候选vocal子特征为多个时，将候选vocal子特征的特征标识与对应的目标vocal特征的vocal子特征进行匹配，将匹配成功的候选vocal特征作为目标vocal子特征。

服务器在目标特征相关度中提取出目标vocal子特征对应的初始特征相关度，得到当前特征相关度。将计算当前特征相关度的倒数，并将当前特征相关度的倒数作为目标vocal子特征对应的调整参数。将调整参数与对应的目标vocal子特征相乘，从而得到调整后vocal特征。将调整后vocal特征和目标vocal特征作为对齐后的vocal特征。

207、服务器将对齐后的vocal特征与bgm特征进行融合，得到目标人声音乐对应的合成音频数据。

例如，服务器将对齐后的vocal特征（尺寸为t×m）通过1×1×3的卷积核进行处理，从而得到多个尺寸为（t×m×3）的放大后的vocal特征，将多个放大后的vocal特征作为候选vocal特征，此时，候选vocal特征的特征通道就可以为3。

对于两个放大后的vocal特征而言，服务器在6（3+3）个特征通道上对这两个放大后的vocal特征进行拼接，从而得到具有6个特征通道的拼接后vocal特征。采用1×1×6的卷积核，将不同特征通道（channel）的相同位置的vocal特征进行融合，从而得到一个特征通道为1的合成vocal特征。

服务器可以分别对合成vocal特征和目标bgm特征进行特征放大，将放大后的bgm特征与放大后的合成vocal特征进行拼接，从而得到目标音频特征，详见上文所述，在此就不再一一赘述。

服务器可以采用解码网络对目标音频特征进行特征解码，从而得到目标人声音乐的合成音频数据，或者，还可以采用音频生成网络，基于目标音频特征，生成目标人声音乐对应的合成音频数据，等等。

其中，本方案针对目标人声音乐的多个原始音频数据进行音频合成的应用场景可以有多种，比如，影视剧后期制作场景、短视频平台的二次创作、音乐平台上的音乐创作或者其他可以进行音频合成的场景等等，具体可以如下：

（1）影视剧后期制作场景：很多影视剧中的主题曲以及背景音乐和片头曲片尾曲，制作方都会邀请在剧中的主要演员进行演唱或者合唱。但是由于一些演员的个人原因或者档期的安排，在合唱歌曲时可能会凑不齐主要的演唱者，所以本方案可以帮助影视剧后期制作方，根据同一首伴奏，分别在不同的时间对不同的演员进行录制，然后通过此方案可以将录制的不同演员的歌曲（原始音频数据）进行合成，最终组合成为一首合唱的主题曲。

（2）短视频平台的二次创作：很多短视频二创平台上都有自己录制歌曲mv（音乐短片）的功能，up主（短视频平台中的内容发布者）或者用户可以选定歌曲之后，使用其伴奏进行自己演唱。本方案能够让up主在进行演唱完之后，使用自己延长后的歌曲与原音乐进行合唱处理，能够合成诸如我和XX歌手合唱同一首歌这种的玩法，提升整个平台多样性。

（3）音乐平台上的音乐创作：用户或者音乐创作着可以将创作的音频数据上传至音乐平台，音乐平台将该音频数据进行无损的信源分离，将分离出的歌唱vocal特征以及bgm特征进行音乐平台上进行存储，其他用户可以在音乐平台上基于分离出的vocal特征以及bgm特征进行二次创作或者其他方式进行音频合成，等等。

由以上可知，本实施例服务器在在获取目标人声音乐对应的至少两个原始音频数据后，对原始音频数据进行信源分离，得到每一原始音频数据的vocal特征和bgm特征，然后，计算vocal特征之间的特征相关度，基于特征相关度，对vocal特征进行特征对齐，得到对齐后的vocal特征，然后，将对齐后的vocal特征与bgm特征进行融合，得到目标人声音乐对应的合成音频数据；由于该方案可以直接在原始音频数据中分离出vocal特征和bgm特征，并基于vocal特征之间的特征相关度，将vocal特征进行对齐，从而使得不同原始音频数据中同一时间的发声一致，而且还可以降低同一时间的发声音量之间的差异，因此，可以提升音频合成的准确度。

为了更好地实施以上方法，本发明实施例还提供一种音频合成装置，如图12所示，该音频合成装置可以包括获取单元301、分离单元302、计算单元303、对齐单元304和融合单元305，如下：

（1）获取单元301；

获取单元301，用于获取目标音乐对应的至少两个原始音频数据。

例如，获取单元301，具体可以用于可以接收终端或客户端上传的目标音乐对应的至少两个原始音频数据，或者，可以通过音频采集设备采集不同对象（至少两个对象）演唱或者演奏目标歌曲的音频数据，得到目标音乐对应的至少两个原始音频数据，或者，还可以通过音频采集设备采集同一对象多次演唱或演奏目标音乐的音频数据，得到目标音乐对应的至少两个原始音频数据，或者，可以在音频数据库中筛选出目标音乐对应的至少两个版本的音频数据，得到目标音乐对应的至少两个原始音频数据，或者，当目标音乐的原始音频数据的内存较大或者数量较多时，还可以接收音频合成请求，该音频合成请求携带原始音频数据的存储地址，基于存储地址，获取目标音乐对应的至少两个原始音频数据，等等。

（2）分离单元302；

分离单元302，用于对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征。

例如，分离单元302，具体可以用于在原始音频数据中提取出基础时域特征和基础频域特征，将基础时域特征和基础频域特征进行融合，得到融合音频特征，根据融合音频特征，将基础时域特征转换为对象音轨特征，并将基础频域特征转换为伴奏音轨特征。

（3）计算单元303；

计算单元303，用于计算对象音轨特征之间的特征相关度，该特征相关度表征不同对象音轨特征对应的对象音轨中不同时间点之间的关联程度。

例如，计算单元303，具体可以用于确定不同原始音频数据的伴奏音轨特征之间的特征相似度，当特征相似度大于或等于预设相似度阈值时，在对象音轨特征中确定出目标对象音轨，构建至少一个目标特征对，在目标特征对中提取出每一对象音轨特征的关联特征，根据关联特征，确定目标特征对中每一对象音轨特征的注意力权重，基于注意力权重，生成目标特征对对应的特征相关度；当特征相似度小于预设相似度阈值时，将伴奏音轨特征进行对齐，将对齐后的伴奏音轨特征作为伴奏音轨特征，并计算对象音轨特征之间的特征相关度。

（4）对齐单元304；

对齐单元304，用于基于特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征。

例如，对齐单元304，具体可以用于在目标特征对的对象音轨特征中筛选出符合静音条件的对象音轨子特征，得到静音特征，基于静音特征对特征相关度进行修正，得到目标特征相关度，根据目标特征相关度，在目标特征对中提取出目标对象音轨特征以外的对象音轨特征，得到当前对象音轨特征，基于目标特征相关度，对当前对象音轨特征进行调整，得到调整后对象音轨特征，将调整后对象音轨特征和目标对象音轨特征作为对齐后的对象音轨特征。

（5）融合单元305；

融合单元305，用于将对齐后的对象音轨特征与伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据。

例如，融合单元305，具体可以用于将对齐后的对象音轨特征进行特征放大，得到候选对象音轨特征，将候选对象音轨特征中多个放大后的对象音轨特征进行拼接，以得到合成对象音轨特征，在伴奏音轨特征中筛选出目标对象音轨特征对应的目标伴奏音轨特征，将目标伴奏音轨特征和合成对象音轨特征进行拼接，得到目标音频特征，并基于目标音频特征，生成目标音乐对应的合成音频数据。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由以上可知，本实施例在获取单元301获取目标音乐对应的至少两个原始音频数据后，分离单元302对原始音频数据进行信源分离，得到每一原始音频数据的对象音轨特征和伴奏音轨特征，然后，计算单元303计算对象音轨特征之间的特征相关度，对齐单元304基于特征相关度，对对象音轨特征进行特征对齐，得到对齐后的对象音轨特征，然后，融合单元305将对齐后的对象音轨特征与伴奏音轨特征进行融合，得到目标音乐对应的合成音频数据；由于该方案可以直接在原始音频数据中分离出对象音轨特征和伴奏音轨特征，并基于对象音轨特征之间的特征相关度，将对象音轨特征进行对齐，从而使得不同原始音频数据中同一时间的发声一致，而且还可以降低同一时间的发声音量之间的差异，因此，可以提升音频合成的准确度。

本发明实施例还提供一种电子设备，如图13所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图13中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的计算机程序，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的计算机程序，从而实现各种功能，如下：

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本发明实施例所提供的任一种音频合成方法中的步骤。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本发明实施例所提供的任一种音频合成方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频合成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

其中，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序，该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该电子设备执行上述音频合成方面或者合唱歌曲生成方面的各种可选实现方式中提供的方法。

以上对本发明实施例所提供的一种音频合成方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频合成方法，其特征在于，包括：

获取目标音乐对应的至少两个原始音频数据；

在所述原始音频数据中提取出基础时域特征和基础频域特征；

将所述基础时域特征和所述基础频域特征进行融合，得到融合音频特征；

根据所述融合音频特征，将所述基础时域特征转换为对象音轨特征，并将所述基础频域特征转换为伴奏音轨特征；

2.根据权利要求1所述的音频合成方法，其特征在于，所述计算所述对象音轨特征之间的特征相关度，包括：

确定不同原始音频数据的所述伴奏音轨特征之间的特征相似度；

当所述特征相似度大于或等于预设相似度阈值时，计算所述对象音轨特征之间的特征相关度；

当所述特征相似度小于所述预设相似度阈值时，将所述伴奏音轨特征进行对齐，将对齐后的伴奏音轨特征作为所述伴奏音轨特征，并计算所述对象音轨特征之间的特征相关度。

3.根据权利要求2所述的音频合成方法，其特征在于，所述计算所述对象音轨特征之间的特征相关度，包括：

在所述对象音轨特征中确定出目标对象音轨特征；

构建至少一个目标特征对，所述目标特征对包括所述目标对象音轨特征和所述对象音轨特征中除所述目标对象音轨特征以外的对象音轨特征；

计算所述目标特征对中的对象音轨特征之间的特征相关度。

4.根据权利要求3所述的音频合成方法，其特征在于，所述计算所述目标特征对中的对象音轨特征之间的特征相关度，包括：

在所述目标特征对中提取出每一对象音轨特征的关联特征；

根据所述关联特征，确定所述目标特征对中每一对象音轨特征的注意力权重；

基于所述注意力权重，生成所述目标特征对对应的特征相关度。

5.根据权利要求4所述音频合成方法，其特征在于，所述对象音轨特征包括至少一个对象音轨子特征，所述基于所述注意力权重，生成所述目标特征对对应的特征相关度，包括：

基于所述注意力权重，确定所述目标特征对中不同对象音轨特征的对象音轨子特征之间的特征距离；

将所述特征距离作为所述目标特征对中不同对象音轨特征的对象音轨子特征之间的初始特征相关度；

将所述初始特征相关度进行组合，得到所述目标特征对对应的特征相关度。

6.根据权利要求3所述的音频合成方法，其特征在于，所述基于所述特征相关度，对所述对象音轨特征进行特征对齐，得到对齐后的对象音轨特征，包括：

在所述目标特征对的对象音轨特征中筛选出符合静音条件的对象音轨子特征，得到静音特征；

基于所述静音特征对所述特征相关度进行修正，得到目标特征相关度；

根据所述目标特征相关度，对所述目标特征对中的对象音轨特征进行对齐，得到对齐后的对象音轨特征。

7.根据权利要求6所述的音频合成方法，其特征在于，所述基于所述静音特征对所述特征相关度进行修正，得到目标特征相关度，包括：

在所述特征相关度中筛选出所述静音特征对应的初始特征相关度，得到候选特征相关度；

在所述特征相关度中剔除所述候选特征相关度，得到目标特征相关度。

8.根据权利要求6所述的音频合成方法，其特征在于，所述根据所述目标特征相关度，对所述目标特征对中的对象音轨特征进行对齐，得到对齐后的对象音轨特征，包括：

在所述目标特征对中提取出所述目标对象音轨特征以外的对象音轨特征，得到当前对象音轨特征；

基于所述目标特征相关度，对所述当前对象音轨特征进行调整，得到调整后对象音轨特征，所述调整后对象音轨特征与所述目标对象音轨特征对齐；

将所述调整后对象音轨特征和所述目标对象音轨特征作为对齐后的对象音轨特征。

9.根据权利要求8所述的音频合成方法，其特征在于，所述基于所述目标特征相关度，对所述当前对象音轨特征进行调整，得到调整后对象音轨特征，包括：

基于所述目标特征相关度，在当前对象音轨特征中筛选出所述目标对象音轨特征中每一对象音轨子特征对应的目标对象音轨子特征；

在所述目标特征相关度中提取出所述目标对象音轨子特征对应的初始特征相关度，得到当前特征相关度；

根据所述当前特征相关度，确定所述目标对象音轨子特征对应的调整参数，并将所述调整参数与所述目标对象音轨子特征进行融合，得到调整后对象音轨特征。

10.根据权利要求1所述的音频合成方法，其特征在于，所述将所述对齐后的对象音轨特征与所述伴奏音轨特征进行融合，得到所述目标音乐对应的合成音频数据，包括：

将所述对齐后的对象音轨特征进行特征放大，得到候选对象音轨特征；

将所述候选对象音轨特征中多个放大后的对象音轨特征进行拼接，以得到合成对象音轨特征；

在所述伴奏音轨特征中筛选出目标对象音轨特征对应的目标伴奏音轨特征；

将所述目标伴奏音轨特征和所述合成对象音轨特征进行拼接，得到目标音频特征，并基于目标音频特征，生成所述目标音乐对应的合成音频数据。

11.根据权利要求10所述的音频合成方法，其特征在于，所述放大后的对象音轨特征包括多个特征通道，所述将所述候选对象音轨特征中多个放大后的对象音轨特征进行拼接，以得到合成对象音轨特征，包括：

将所述放大后的对象音轨特征在特征通道上进行拼接，得到多个特征通道上的拼接后对象音轨特征；

在所述拼接后对象音轨特征中筛选出不同特征通道的同一位置上的对象音轨特征，得到目标对象音轨特征集合；

将所述目标对象音轨特征集合中的对象音轨特征进行融合，得到合成对象音轨特征。

12.根据权利要求1所述的音频合成方法，其特在于，所述将所述基础时域特征和所述基础频域特征进行融合，得到融合音频特征，包括：

对所述基础时域特征进行一维卷积处理，得到当前时域特征，并对所述当前时域特征进行空间变换，得到变换后时域特征；

对所述基础频域特征进行二维卷积处理，得到当前频域特征；

将所述变换后时域特征与所述当前频域特征进行拼接，得到初始融合音频特征，并对所述初始融合音频特征进行二维卷积处理，得到融合音频特征。

13.根据权利要求12所述的音频合成方法，其特征在于，所述根据所述融合音频特征，将所述基础时域特征转换为对象音轨特征，并将所述基础频域特征转换为伴奏音轨特征，包括：

将所述融合音频特征、当前时域特征和基础时域特征进行融合，以得到初始对象音轨特征；

将所述融合音频特征、当前频域特征和基础频域特征进行拼接，以得到初始伴奏音轨特征；

对所述初始对象音轨特征进行特征分离，得到对象音轨特征，并对所述初始伴奏音轨特征进行特征分离，得到伴奏音轨特征。

14.根据权利要求13所述的音频合成方法，其特征在于，所述将所述融合音频特征、当前时域特征和基础时域特征进行融合，以得到初始对象音轨特征，包括：

将所述融合音频特征与所述当前时域特征进行拼接，得到拼接后时域特征；

对所述拼接后时域特征进行一维卷积处理，得到高层时域特征；

将所述高层时域特征与所述基础时域特征进行拼接，得到全局时域特征，并对所述全局时域特征进行空间转换，得到初始对象音轨特征。

15.根据权利要求13所述的音频合成方法，其特征在于，所述对所述初始对象音轨特征进行特征分离，得到对象音轨特征，并对所述伴奏音轨特征进行特征分离，得到伴奏音轨特征，包括：

基于所述初始伴奏音轨特征，对所述初始对象音轨特征进行特征分离，得到当前对象音轨特征；

根据所述初始对象音轨特征，对所述初始伴奏音轨特征进行特征分离，得到当前伴奏音轨特征；

将所述当前伴奏音轨特征作为所述初始伴奏音轨特征，并将所述当前对象音轨特征作为所述初始对象音轨特征；

返回执行所述基于所述初始伴奏音轨特征，对所述初始对象音轨特征进行特征分离的步骤，直至达到预设迭代次数为止，得到对象音轨特征和伴奏音轨特征。

16.一种音频合成装置，其特征在于，包括：

分离单元，用于在所述原始音频数据中提取出基础时域特征和基础频域特征；将所述基础时域特征和所述基础频域特征进行融合，得到融合音频特征；根据所述融合音频特征，将所述基础时域特征转换为对象音轨特征，并将所述基础频域特征转换为伴奏音轨特征；

17.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行权利要求1至15任一项所述的音频合成方法中的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行权利要求1至15任一项所述的音频合成方法中的步骤。