CN115033734A

CN115033734A - 一种音频数据处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN115033734A
Application number: CN202210958071.7A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-09-09
Anticipated expiration: 2042-08-11
Also published as: CN115033734B

Abstract

本申请实施例提供了一种音频数据处理方法、装置、计算机设备以及存储介质，该方法可以应用于云技术、人工智能、智慧交通、音频等各种场景，方法包括：对目标音频数据进行信源分离，得到S个声源类型分别对应的子音频数据；获取S个子音频数据分别对应的初始频谱特征序列，对S个初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列；对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到目标音频数据中的每个音频帧分别对应的融合频谱特征；根据每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段。采用本申请，可以提高副歌定位的效率和准确性。

Description

一种音频数据处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频数据处理方法、装置、计算机设备以及存储介质。

背景技术

目前，在对音乐（例如，目标音频数据）中的副歌片段进行识别时，需要雇佣大量的标注人员，通过标注人员在收听目标音频数据的过程中，手动标注主歌和副歌的分界线，从而得到目标音频数据中的副歌片段。

然而，标注人员在进行手动标注的过程中，需要对目标音频数据收听至少一遍，才能做出标注，如果要提高标注的精度，那么标注人员需要收听更多遍目标音频数据，这样会明显降低进行副歌定位的效率。此外，受人耳主观感受的影响，不同标注人员对目标音频数据的副歌片段的理解具有一定的偏差，导致不同标注人员针对目标音频数据所识别到的副歌片段是不同的，从而降低了进行副歌定位的准确性。

发明内容

本申请实施例提供一种音频数据处理方法、装置、计算机设备以及存储介质，可以提高副歌定位的效率和准确性。

本申请实施例一方面提供了一种音频数据处理方法，包括：

对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据；S为正整数；

获取S个子音频数据分别对应的初始频谱特征序列，对S个初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列；

对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到目标音频数据中的每个音频帧分别对应的融合频谱特征；

根据目标音频数据中的每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段。

本申请实施例一方面提供了一种音频数据处理装置，包括：

信源分离模块，用于对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据；S为正整数；

注意力学习模块，用于获取S个子音频数据分别对应的初始频谱特征序列，对S个初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列；

特征融合模块，用于对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到目标音频数据中的每个音频帧分别对应的融合频谱特征；

副歌识别模块，用于根据目标音频数据中的每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段。

其中，信源分离模块包括：

特征输入单元，用于获取目标音频数据对应的幅度谱特征，将幅度谱特征输入至信源分离模型；信源分离模型包括S个声源类型分别对应的声源子网络；

特征提取单元，用于通过S个声源子网络分别对幅度谱特征进行特征提取，得到每个声源子网络分别输出的子音频候选特征；

特征拼接单元，用于对S个子音频候选特征进行拼接处理，得到子音频拼接特征；

特征拼接单元，用于根据子音频拼接特征和幅度谱特征，生成每个声源类型分别对应的子音频数据。

其中，特征输入单元，具体用于对目标音频数据进行频谱转换，得到目标音频数据对应的目标频谱数据；目标频谱数据包括相位信息和幅度信息；

特征输入单元，具体用于对相位信息进行消除，生成与幅度信息相关联的幅度谱特征。

其中，S个声源子网络包括声源子网络P_i，i为小于或等于S的正整数；声源子网络P_i包括N个编码网络层、卷积网络层和N个解码网络层；N为正整数；

特征提取单元包括：

编码子单元，用于在声源子网络P_i的N个编码网络层中，基于幅度谱特征生成N个编码网络层分别对应的编码幅度谱特征；

第一卷积子单元，用于在声源子网络P_i的卷积网络层中，对N个编码幅度谱特征中的目标编码幅度谱特征进行下采样处理，得到初始幅度谱特征，对初始幅度谱特征进行卷积操作，得到卷积网络层输出的目标幅度谱特征；目标编码幅度谱特征为N个编码网络层中的最后一个编码网络层所输出的编码幅度谱特征；

解码子单元，用于在声源子网络P_i的N个解码网络层中，基于N个编码幅度谱特征和目标幅度谱特征，生成N个解码网络层分别对应的解码幅度谱特征；

第二卷积子单元，用于对N个解码幅度谱特征中的目标解码幅度谱特征进行卷积操作，得到声源子网络P_i输出的子音频候选特征；目标解码幅度谱特征为N个解码网络层中的最后一个解码网络层所输出的解码幅度谱特征。

其中，N个编码网络层包括编码网络层M_c，c为小于或等于N的正整数；

编码子单元，具体用于若编码网络层M_c为N个编码网络层中的第一个编码网络层，则在编码网络层M_c中，对幅度谱特征进行卷积操作，得到编码网络层M_c对应的编码幅度谱特征；

编码子单元，具体用于若编码网络层M_c不为N个编码网络层中的第一个编码网络层，则在编码网络层M_c中，对编码网络层M_c-1对应的编码幅度谱特征进行下采样处理，得到编码网络层M_c对应的下采样幅度谱特征，对编码网络层M_c对应的下采样幅度谱特征进行卷积操作，得到编码网络层M_c对应的编码幅度谱特征；编码网络层M_c-1为编码网络层M_c的上一个编码网络层。

其中，N个解码网络层包括解码网络层H_e，e为小于或等于N的正整数；

解码子单元，具体用于若解码网络层H_e为N个解码网络层中的第一个解码网络层，则在解码网络层H_e中，对目标幅度谱特征进行上采样处理，得到解码网络层H_e对应的上采样幅度谱特征，对解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到解码网络层H_e对应的候选幅度谱特征，对解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到解码网络层H_e对应的解码幅度谱特征；编码网络层M_N-e+1为N个编码网络层中的第(N-e+1)个编码网络层；

解码子单元，具体用于若解码网络层H_e不为N个解码网络层中的第一个解码网络层，则在解码网络层H_e中，对解码网络层H_e-1对应的解码幅度谱特征进行上采样处理，得到解码网络层H_e对应的上采样幅度谱特征，对解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到解码网络层H_e对应的候选幅度谱特征，对解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到解码网络层H_e对应的解码幅度谱特征；解码网络层H_e-1为解码网络层H_e的上一个解码网络层。

其中，特征拼接单元，具体用于根据子音频拼接特征中的S个子音频候选特征，生成每个声源类型分别对应的能量比例；

特征拼接单元，具体用于根据幅度谱特征和每个声源类型分别对应的能量比例，生成每个声源类型分别对应的子音频幅度谱特征；

特征拼接单元，具体用于对每个声源类型分别对应的子音频幅度谱特征进行频谱反变换，得到每个声源类型分别对应的子音频数据。

其中，S个子音频数据包括子音频数据G_j，j为小于或等于S的正整数；

注意力学习模块包括：

预处理单元，用于对子音频数据G_j进行分帧处理，得到与子音频数据G_j相关联的至少两个音频帧；

预处理单元，用于对至少两个音频帧分别进行加窗处理，得到至少两个音频帧分别对应的加窗音频帧；

预处理单元，用于对至少两个加窗音频帧分别进行频谱转换，得到至少两个音频帧分别对应音频帧频谱数据；

预处理单元，用于对至少两个音频帧频谱数据分别进行过滤处理，得到至少两个音频帧分别对应的初始频谱特征；

预处理单元，用于将至少两个初始频谱特征确定为子音频数据G_j对应的初始频谱特征序列。

其中，S个初始频谱特征序列包括初始频谱特征序列D_z，z为小于或等于S的正整数；

注意力学习模块包括：

注意力学习单元，用于通过多流式注意力模型对初始频谱特征序列D_z分别和L个初始频谱特征序列进行注意力学习，得到初始频谱特征序列D_z分别针对L个初始频谱特征序列的辅助频谱特征序列；多流式注意力模型包括特征融合子网络；L个初始频谱特征序列是指S个初始频谱特征序列中除初始频谱特征序列D_z之外的(S-1)个初始频谱特征序列；

特征融合单元，用于通过特征融合子网络对L个辅助频谱特征序列进行融合，得到子音频数据G_z对应的目标频谱特征序列；子音频数据G_z为初始频谱特征序列D_z对应的子音频数据。

其中，L个初始频谱特征序列包括初始频谱特征序列D_a，a为小于或等于S的正整数，a不等于z；多流式注意力模型还包括注意力学习子网络和加权子网络；

注意力学习单元包括：

注意力学习子单元，用于通过注意力学习子网络对初始频谱特征序列D_z中的初始频谱特征和初始频谱特征序列D_a中的初始频谱特征进行注意力学习，得到初始频谱特征序列D_z中的初始频谱特征针对初始频谱特征序列D_a中的初始频谱特征的频谱权重；

加权处理子单元，用于在加权子网络中，对初始频谱特征序列D_z中的初始频谱特征针对初始频谱特征序列D_a中的初始频谱特征的频谱权重，以及初始频谱特征序列D_a中的初始频谱特征进行加权处理，生成初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征；

特征融合子单元，用于对初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征进行融合，得到初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征；

特征融合子单元，用于将初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征，确定为初始频谱特征序列D_z针对初始频谱特征序列D_a的辅助频谱特征序列。

其中，初始频谱特征序列D_z中的初始频谱特征的数量为至少两个，初始频谱特征序列D_z中的至少两个初始频谱特征包括初始频谱特征Q_b，b为正整数；注意力学习子网络包括第一全连接网络层、第二全连接网络层和相似度网络层；

注意力学习子单元，具体用于通过第一全连接网络层对初始频谱特征Q_b进行全连接处理，得到初始频谱特征Q_b对应的全连接频谱特征；

注意力学习子单元，具体用于通过第二全连接网络层对初始频谱特征序列D_a中的初始频谱特征进行全连接处理，得到初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征；

注意力学习子单元，具体用于通过相似度网络层确定初始频谱特征Q_b对应的全连接频谱特征，以及初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征之间的空间相似度，将空间相似度确定为初始频谱特征Q_b针对初始频谱特征序列D_a中的初始频谱特征的频谱权重。

其中，特征融合模块包括：

序列输入单元，用于将S个目标频谱特征序列分别输入至融合网络模型；融合网络模型包括K个融合子网络；K为大于1的正整数；

第一融合单元，用于通过K个融合子网络分别对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到每个融合子网络分别输出的音频帧频谱特征；

第二融合单元，用于对K个融合子网络分别输出的音频帧频谱特征中，属于相同音频帧时间的音频帧频谱特征进行融合，得到每个音频帧时间分别对应的融合频谱特征；

特征确定单元，用于将每个音频帧时间分别对应的融合频谱特征确定为目标音频数据中的每个音频帧分别对应的融合频谱特征；每个音频帧分别对应一个音频帧时间。

其中，副歌识别模块包括：

置信度生成单元，用于根据目标音频数据中的每个音频帧分别对应的融合频谱特征，生成每个音频帧分别对应的辅助置信度；

平滑处理单元，用于对每个音频帧分别对应的辅助置信度进行平滑处理，得到每个音频帧分别对应的副歌置信度；

片段识别单元，用于根据每个音频帧分别对应的副歌置信度，确定目标音频数据中的副歌片段。

其中，平滑处理单元，具体用于根据每个音频帧的音频帧帧长，在目标音频数据中确定至少两个音频检测时间段；每个音频检测时间段包括至少两个音频帧；

平滑处理单元，具体用于对每个音频检测时间段内的至少两个音频帧分别对应的辅助置信度进行运算处理，得到每个音频检测时间段分别对应的候选置信度；

平滑处理单元，具体用于根据每个音频检测时间段分别对应的候选置信度，对每个音频检测时间段内的至少两个音频帧分别对应的辅助置信度进行调整，得到每个音频帧分别对应的副歌置信度。

其中，装置还包括：

时长获取模块，用于获取用于进行音视频融合的目标视频数据的第一播放时长，获取副歌片段的第二播放时长；

第一比较模块，用于若第一播放时长和第二播放时长不相同，则根据第一播放时长对副歌片段进行缩放处理，得到缩放处理后的副歌片段，将缩放处理后的副歌片段和目标视频数据进行音视频融合，得到第一多媒体数据；

第二比较模块，用于若第一播放时长和第二播放时长相同，则将副歌片段和目标视频数据进行音视频融合，得到第二多媒体数据。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，计算机设备可以对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据。其中，这里的S可以为正整数。进一步地，计算机设备可以获取S个子音频数据分别对应的初始频谱特征序列，对S个初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列，进而对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到目标音频数据中的每个音频帧分别对应的融合频谱特征。可以理解的是，计算机设备可以根据目标音频数据中的每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段。由此可见，本申请实施例可以使用S个目标频谱特征序列中的目标频谱特征来作为副歌定位的基础特征，通过该基础特征能够分析S个子音频数据分别在副歌片段上的表现，从不同的声源类型上学习到副歌片段的信息。此外，目标频谱特征是对S个初始频谱特征序列中的初始频谱特征进行注意力学习所得到的，进行注意力学习可以涉及注意力机制，该注意力机制可以利用子音频数据中不同音频帧的前后关联关系，且利用不同声源类型之间的乐理联系，从而实现自动化对目标音频数据进行标准化地副歌识别，可以在节约成本的同时，提高副歌定位的效率和准确性。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种进行数据交互的场景示意图；

图3是本申请实施例提供的一种音频数据处理方法的流程示意图；

图4是本申请实施例提供的一种短时傅里叶变换的流程示意图；

图5是本申请实施例提供的一种进行过滤处理的场景示意图；

图6是本申请实施例提供的一种进行特征融合的流程示意图；

图7是本申请实施例提供的一种进行副歌识别的流程示意图；

图8是本申请实施例提供的一种进行副歌识别的场景示意图；

图9是本申请实施例提供的一种音频数据处理方法的流程示意图；

图10是本申请实施例提供的一种声源子网络的结构示意图；

图11是本申请实施例提供的一种进行信源分离的流程示意图；

图12是本申请实施例提供的一种音频数据处理方法的流程示意图；

图13是本申请实施例提供的一种进行注意力学习的场景示意图；

图14是本申请实施例提供的一种音频数据处理装置的结构示意图；

图15是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，人工智能（Artificial Intelligence，简称AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，本申请实施例所提供的方案主要涉及人工智能的语音技术（SpeechTechnology，简称ST）和机器学习（Machine Learning，简称ML）等。

其中，语音技术的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体的，请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器2000和终端设备集群。其中，终端设备集群具体可以包括一个或者多个终端设备，这里将不对终端设备集群中的终端设备的数量进行限定。如图1所示，多个终端设备具体可以包括终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n；终端设备3000a、终端设备3000b、终端设备3000c、…、终端设备3000n可以分别与服务器2000通过有线或无线通信方式进行直接或间接地网络连接，以便于每个终端设备可以通过该网络连接与服务器2000之间进行数据交互。

其中，终端设备集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能家电（例如，智能电视）、可穿戴设备、车载终端等具有音频数据处理功能的智能终端。为便于理解，本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如，本申请实施例可以将图1所示的终端设备3000a作为目标终端设备。

其中，服务器2000可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

应当理解，上述网络框架可以适用于副歌识别领域，该副歌识别领域的业务场景具体可以包括：音频定位场景、视频定位场景、音视频融合场景等，这里将不对具体的业务场景进行一一列举。其中，副歌（即副歌片段）通常是指歌曲（即目标音频数据）中一段重复的音乐段落（或一句重复的歌词），是整首歌曲中最精彩的部分。副歌片段通常出现在几段正歌（正歌惯称为主歌）之间，即由第一节正歌唱到副歌后，连接第二节正歌再返回副歌，如此类推。有些副歌在重复时，每段（或每句）的歌词完全相同，但是也有一些歌曲在副歌的重复部分中，会对歌词做出一定的改动。

比如，在音频定位场景下：音乐在线平台中可以存在着大量的版权音乐和用户上传UGC（User Generated Content，用户生成内容）音乐，通过对音乐歌曲中的副歌段落进行定位，然后在进行歌曲播放时，通过拉取播放进度条可以跳转至副歌片段。又比如，在视频定位场景下：长短视频平台中可以存在着大量的发行歌曲MV（Music Video，音乐短片），通过对整个MV的歌曲中的副歌片段进行定位，然后对MV播放时可以提供直接跳转到副歌片段的服务，从而可以直接观看MV中的精彩片段。又比如，在音视频融合场景下：短视频平台中可以存在着大量的UGC用户个人制作视频，当个人自媒体进行相关视频制作时，往往都会给短视频进行配乐，当挑选完音乐后，需要让歌曲适应视频的长度，通常是选取歌曲副歌作为整个视频的配乐，即直接定位截取副歌，让用户在配乐阶段直接使用副歌片段。

可以理解的是，本申请实施例可以提供副歌定位系统来自动化、快速识别定位到目标音频数据中的副歌片段，该副歌定位系统可以包括两个部分：基于信源分离模型的频谱分离模块和基于多流式注意力模型的副歌定位模块。其中，频谱分离模块可以用于对目标音频数据进行信源分离，得到不同乐器种类的分离音轨（即子音频数据），进而计算所有音轨的基础音频特征（即初始频谱特征），得到每种乐器对应的音频基础特征序列（即初始频谱特征序列）；副歌定位模块可以用于通过注意力机制（即Attention机制）对初始频谱特征序列互相计算相关度权重，然后进行加权得到每种乐器对应的目标频谱特征序列，进而对每种乐器对应的目标频谱特征序列进行融合，生成最终的融合频谱特征序列（即融合频谱特征所构成的序列）。可以理解的是，基于融合频谱特征序列可以构建置信度曲线，该置信度曲线可以用于表示目标音频数据的副歌位置。

信源分离：在一整条音频（即目标音频数据）中，可能会掺杂着多种音频信号，所以整条音频是由多种音频混合生成，而信源分离就是通过信号处理或者其他算法将这种混合音频信号进行分离，从混合信号中提取出指定种类（即声源类型）的音频信号序列，最终生成单独的音频文件（即子音频数据）。

注意力机制：模仿人类注意力而提出的一种解决问题的办法，简单地说就是从大量信息中快速筛选出高价值信息。注意力机制主要用于解决时序模型输入序列较长的时候很难获得最终合理的向量表示问题，做法是保留时序模型的中间结果，用新的模型对其进行学习，并将其与输出进行关联，从而达到信息筛选的目的。

为便于理解，本申请实施例可以将声源类型（即乐器种类）的数量划分为S个，这里的S可以为正整数，S个声源类型可以对应于S种乐器，本申请不对S的具体取值进行限定。比如，本申请实施例可以将乐器划分为六大类（即S等于6）：弦乐器、木管乐器、铜管乐器、打击乐器、键盘乐器和电声乐器。其中，弦乐器可以包括拉弦乐器与钹弹乐器，拉弦乐器最大的特点是能与人声像融合、音色协和统一，钹弹乐器又称为弹拨乐器，弹拨乐器是用手指或拨子拨弦、及用琴竹击弦而发音的乐器总称，例如，拉弦乐器可以包括小提琴、中提琴、大提琴、低音提琴、二胡、中胡、高胡等，钹弹乐器可以包括古琴、琵琶、筝等。其中，木管乐器又可以称之为吹管乐器，由于他们的大多数是用特殊坚实的木材制成，故而总称为木管乐器，例如，木管乐器可以包括唢呐、箫、长笛、双簧管、单簧管和大管等。其中，铜管乐器俗称铜管，是交响乐队中发音最具有威力、最为响亮的一组乐器，例如，铜管乐器可以包括圆号、萨卡斯、小号、大号等。其中，打击乐器可以包括有固定音高的打击乐器和没有固定音高的打击乐器，例如，有固定音高的打击乐器可以包括定音鼓、钟琴、木琴等，没有固定音高的打击乐器可以包括三角铁、铃鼓、小鼓、钹、大鼓和锣等。其中，键盘乐器是有排列琴键的乐器总称，例如，键盘乐器可以包括钢琴、管风琴、手风琴、电子琴等。其中，电声乐器可以包括电子乐器和电扩声乐器，电子乐器表示音频发生、音色形成、包络模仿、音频放大等全部系统均由电子元件来实现，电扩声乐器表示将普通乐器与音频放大器结合在一起的乐器，例如，电子乐器可以包括电风琴、电子音乐合成器、鼓机等，电扩声乐器可以包括电吉他、电贝司、电扩音鼓等。

为便于理解，进一步地，请参见图2，图2是本申请实施例提供的一种进行数据交互的场景示意图。如图2所示的服务器20a可以为上述图1所对应实施例中的服务器2000，如图2所示的终端设备20b可以为上述图1所对应实施例中的目标终端设备。为便于理解，本申请实施例可以将目标终端设备对应的用户称之为对象，其中，终端设备20b可以用于播放目标音频数据，终端设备20b对应的用户可以为对象20c。

如图2所示，服务器20a在需要进行副歌识别时，可以从多媒体数据库22a中获取目标音频数据，进而对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段，该副歌片段是由时间点标签所表示的，时间点标签可以表示副歌片段的起始时间点和终止时间点。其中，多媒体数据库22a可以单独设置，也可以集成在服务器20a上，或者集成在其他设备或云上，这里不做限定。

其中，多媒体数据库22a中可以包括多个数据库，多个数据库具体可以包括：数据库21a，数据库21b，…，数据库21c；数据库21a，数据库21b，…，数据库21c可以用于存储与音频相关联的数据，例如，数据库21a可以用于存储音频数据，数据库21b可以用于存储时间点标签，数据库21c可以用于存储视频数据。因此，服务器20a可以将目标音频数据存储至数据库21a中，将目标音频数据对应的时间点标签存储至数据库21b中。

如图2所示，服务器20a可以对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据，这里的S可以为正整数，S个子音频数据可以为S个子音频数据22b，S个子音频数据22b可以包括子音频数据23a、子音频数据23b、…、子音频数据23c。进一步地，服务器20a可以获取S个子音频数据22b分别对应的初始频谱特征序列，其中，子音频数据23a对应的初始频谱特征序列可以为初始频谱特征序列24a、子音频数据23b对应的初始频谱特征序列可以为初始频谱特征序列24b、…、子音频数据23c对应的初始频谱特征序列可以为初始频谱特征序列24c。

如图2所示，服务器20a可以对初始频谱特征序列24a、初始频谱特征序列24b、…、初始频谱特征序列24c进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列，其中，子音频数据23a对应的目标频谱特征序列可以为目标频谱特征序列25a（即初始频谱特征序列24a对应的目标频谱特征序列），子音频数据23b对应的目标频谱特征序列可以为目标频谱特征序列25b（即初始频谱特征序列24b对应的目标频谱特征序列），…，子音频数据23c对应的目标频谱特征序列可以为目标频谱特征序列25c（即初始频谱特征序列24c对应的目标频谱特征序列）。换言之，目标频谱特征序列25a是以初始频谱特征序列24a为基础，分别针对初始频谱特征序列24b、…、初始频谱特征序列24c进行注意力学习所得到的；目标频谱特征序列25b和目标频谱特征序列25c同理。

其中，目标频谱特征序列25a、目标频谱特征序列25b、…、目标频谱特征序列25c分别可以用于存储音频帧对应的目标频谱特征，其中，目标频谱特征序列25a可以用于存储子音频数据23a中的音频帧对应的目标频谱特征，目标频谱特征序列25b可以用于存储子音频数据23b中的音频帧对应的目标频谱特征，…，目标频谱特征序列25c可以用于存储子音频数据23c中的音频帧对应的目标频谱特征，子音频数据23a中的音频帧、子音频数据23b中的音频帧、…、子音频数据23c中的音频帧可以对应于相同的音频帧时间。如图2所示，服务器20a可以对目标频谱特征序列25a、目标频谱特征序列25b、…、目标频谱特征序列25c中属于相同音频帧时间的目标频谱特征进行融合，得到目标频谱特征序列25a、目标频谱特征序列25b、…、目标频谱特征序列25c中，每个音频帧时间点分别对应的融合频谱特征，即目标音频数据中每个音频帧分别对应的融合频谱特征。其中，一个音频帧时间用于表征目标音频数据中的一个音频帧，一个音频帧时间可以用于表征子音频数据23a中的一个音频帧，一个音频帧时间可以用于表征子音频数据23b中的一个音频帧，…，一个音频帧时间可以用于表征子音频数据23c中的一个音频帧。

进一步地，如图2所示，服务器20a可以根据目标音频数据中每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段对应的时间点标签，进而将副歌片段对应的时间点标签存储至数据库21b。其中，目标音频数据中的副歌片段的数量可以为一个或多个，本申请实施例不对目标音频数据中的副歌片段的数量进行限定。

其中，可以理解的是，在音频定位场景下，终端设备20b可以获取服务器20a发送的目标音频数据和目标音频数据对应的时间点标签，这样，终端设备20b可以在对目标音频数据进行播放时，基于时间点标签对目标音频数据的播放进度进行切换，使得可以直接在终端设备20b中播放目标音频数据中的副歌片段，即将目标音频数据的播放进度跳转至副歌片段的起始位置。

可选的，可以理解的是，在视频定位场景下，终端设备20b可以获取服务器20a发送的多媒体数据（该多媒体数据还可以称之为视频数据）、以及多媒体数据中的目标音频数据对应的时间点标签，这样，终端设备20b可以基于时间点标签对多媒体数据的播放进度进行切换，使得可以直接在终端设备20b中播放多媒体数据中的精彩片段，该精彩片段在目标音频数据中所对应的音频数据为时间点标签所指示的副歌片段。

可选的，可以理解的是，在音视频融合场景下，终端设备20b可以获取服务器20a发送的目标音频数据和目标音频数据对应的时间点标签，进而根据时间点标签从目标音频数据中确定副歌片段，将副歌片段与对象20c所上传的目标视频数据进行音视频融合，得到用于上传至短视频平台中的个人制作视频（又称为多媒体数据）。

由此可见，本申请实施例可以对目标音频数据中不同声源类型的乐器频谱进行纯净分离，然后利用纯净分离后的多个乐器频谱作为特征（即初始频谱特征序列中的初始频谱特征），进而利用基于空间相似度构建的注意力机制相互学习多个乐器频谱之间的依赖关系，得到不同声源类型的目标频谱特征序列。可以理解的是，不同声源类型的目标频谱特征序列可以用于生成音频帧级别的输出（即融合频谱特征），融合频谱特征可以用于对目标音频数据中的音频帧进行分类，从而得到目标音频数据中的副歌片段，进而可以提高副歌定位的效率和准确性。

进一步地，请参见图3，图3是本申请实施例提供的一种音频数据处理方法的流程示意图。该方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备共同执行，该服务器可以为上述图2所对应实施例中的服务器20a，该终端设备可以为上述图2所对应实施例的终端设备20b。为便于理解，本申请实施例以该方法由服务器执行为例进行说明。其中，该音频数据处理方法可以包括以下步骤S101-步骤S104：

步骤S101，对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据；

具体的，服务器可以获取目标音频数据对应的幅度谱特征，将幅度谱特征输入至信源分离模型。其中，信源分离模型包括S个声源类型分别对应的声源子网络，这里的S可以为正整数。进一步地，服务器可以通过S个声源子网络分别对幅度谱特征进行特征提取，得到每个声源子网络分别输出的子音频候选特征。进一步地，服务器可以对S个子音频候选特征进行拼接处理，得到子音频拼接特征。进一步地，服务器可以根据子音频拼接特征和幅度谱特征，生成每个声源类型分别对应的子音频数据。其中，S个子音频数据包括子音频数据G_j，j为小于或等于S的正整数。其中，一个声源类型可以对应一个子音频数据，因此，对目标音频数据进行信源分离，可以得到S个子音频数据。

应当理解，信源分离模型可以对音频频谱（即幅度谱特征）进行计算，将目标音频数据的音轨分离成为多个声源类型的音轨，即将输入音轨中的不同声源类型的音频信号进行分离开，成为S条单独的音轨（即S个子音频数据）。其中，信源分离模型的主要基础网络是声源子网络，信源分离模型可以包括S个声源类型分别对应的声源子网络，一个声源类型可以对应一个声源子网络。

其中，S条音轨中的每条音轨都只包含一种乐器的音频信号，S种音频信号包含的乐器种类有：弦乐器、木管乐器、铜管乐器、打击乐器和键盘乐器，S种乐器中的每种乐器中均可以包括多个乐器。S种乐器在频谱上的表现是较为容易能够区分的，尤其是在音色的辨认上能够让人从主观上进行感受。

应当理解，本申请实施例中的声源子网络可以为U-Net（UNetwork，U形网络）模型，U-Net是使用全卷积网络的算法，使用包含压缩路径和扩展路径的对称U形结构。可选的，本申请实施例还可以将pspnet（Pyramid Scene Parseing Network，金字塔场景分析网络）模型作为声源子网络，本申请实施例不对声源子网络的模型类型进行限定。

步骤S102，获取S个子音频数据分别对应的初始频谱特征序列，对S个初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列；

具体的，服务器可以对子音频数据G_j进行分帧处理，得到与子音频数据G_j相关联的至少两个音频帧。进一步地，服务器可以对至少两个音频帧分别进行加窗处理，得到至少两个音频帧分别对应的加窗音频帧。进一步地，服务器可以对至少两个加窗音频帧分别进行频谱转换，得到至少两个音频帧分别对应音频帧频谱数据。进一步地，服务器可以对至少两个音频帧频谱数据分别进行过滤处理，得到至少两个音频帧分别对应的初始频谱特征。进一步地，服务器可以将至少两个初始频谱特征确定为子音频数据G_j对应的初始频谱特征序列。进一步地，服务器在获取S个子音频数据分别对应的初始频谱特征序列之后，可以对S个初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列。其中，一个初始频谱特征序列可以对应一个目标频谱特征序列，因此，对S个初始频谱特征序列进行注意力学习，可以得到S个目标频谱特征序列。

应当理解，服务器可以分别对S个乐器音轨的音频信号（即子音频数据）计算出音频的初始频谱特征，然后将S个初始频谱特征序列输入到多流式注意力模型中，通过多流式注意力模型对S个初始频谱特征序列进行注意力学习。其中，多流式注意力模型的基础是注意力机制，注意力机制可以互相计算注意力相关度权重，然后根据注意力相关度权重来加权计算音轨特征（即初始频谱特征）生成新的S个频谱特征序列（即目标频谱特征序列），S个目标频谱特征序列代表着S个乐器音轨经过互相的关联乐理信息计算后生成的高度表征的语义特征序列。

其中，初始频谱特征可以用于反映子音频数据的频谱特征，该频谱特征包括能量参数（或幅度参数）和频率参数，能量参数与子音频数据的响度相关，频率参数与子音频数据的音调相关。此外，初始频谱特征还可以用于表示音频帧的能量谱曲线，该能量谱曲线用于反映音频帧的频率参数与能量参数之间的关系。

可以理解的是，分帧处理、加窗处理和频谱转换的具体过程可以称之为stft（short-time Fourier transform，短时傅里叶变换），音频帧频谱数据可以理解为音频求取的stft能量谱。为便于理解，基于子音频数据生成音频帧频谱数据的具体过程可以参见图4，图4是本申请实施例提供的一种短时傅里叶变换的流程示意图。如图4所示，服务器可以根据帧长和帧移对子音频数据进行分帧处理，得到子音频数据中的至少两个音频帧，本申请实施例不对帧长和帧移的具体取值进行限定。由于帧长和帧移的取值可以为毫秒级别的取值（例如，帧长可以为20毫秒，帧移可以为5毫秒），本申请实施例所生成的副歌片段的粒度能够达到毫秒级别。

如图4所示，服务器可以通过窗函数（例如，汉明窗）对子音频数据中的至少两个音频帧进行加窗处理，得到至少两个音频帧分别对应的加窗音频帧，通过加窗处理的过程可以避免在后续进行频谱转换时造成频谱泄露，应当理解，不同的窗函数对频谱泄露的缓解程度不同，本申请实施例不对窗函数的具体类型进行限定。

如图4所示，服务器可以对至少两个音频帧分别对应的加窗音频帧进行频谱转化（即傅里叶变换），得到至少两个音频帧分别对应音频帧频谱数据，音频帧频谱数据包括幅频（即幅度谱，又称为幅度）和相频（即相位谱，又称为相位）两部分，幅频描述信号幅度和频率的关系，相频描述信号相位和频率的关系。

应当理解，本申请实施例中的过滤处理可以为梅尔滤波（即mel滤波），通过对音频帧频谱数据进行mel滤波，可以得到注意力机制所需要的初始频谱特征（即梅尔频谱特征），换言之，mel频谱（即梅尔频谱特征）是在音频stft（即音频帧频谱数据）的基础上进行的mel滤波。通过对至少两个音频帧频谱数据进行过滤处理，可以避免噪声干扰，提高识别副歌片段的准确度，同时，避免后续对无效的噪声处理，可节省服务器的处理资源。

其中，梅尔滤波器可以包括mel刻度（即梅尔刻度），梅尔刻度是一种基于人耳对等距的音高（pitch）变化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度。梅尔刻度与Hz频率成非线性对应关系。

为便于理解，基于音频帧频谱数据生成初始频谱特征的具体过程可以参见图5，图5是本申请实施例提供的一种进行过滤处理的场景示意图。如图5所示，服务器可以根据梅尔滤波器50b对音频帧频谱数据50a进行过滤处理，音频帧频谱数据50a可以用于反映音频帧的频率参数和能量参数之间的关系，梅尔滤波器50b可以将频率属于滤波器以内的音频帧的能量信息保留，过滤掉频率属于滤波器以外的音频帧的能量信息。其中，梅尔滤波器50b相当于一个三角带滤波器组，可以用于对音频帧频谱数据50a进行梅尔滤波。

步骤S103，对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到目标音频数据中的每个音频帧分别对应的融合频谱特征；

具体的，服务器可以将S个目标频谱特征序列分别输入至融合网络模型。其中，融合网络模型包括K个融合子网络，这里的K可以为大于1的正整数。进一步地，服务器可以通过K个融合子网络分别对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到每个融合子网络分别输出的音频帧频谱特征。进一步地，服务器可以对K个融合子网络分别输出的音频帧频谱特征中，属于相同音频帧时间的音频帧频谱特征进行融合，得到每个音频帧时间分别对应的融合频谱特征。进一步地，服务器可以将每个音频帧时间分别对应的融合频谱特征确定为目标音频数据中的每个音频帧分别对应的融合频谱特征。其中，每个音频帧分别对应一个音频帧时间，即一个音频帧时间可以用于确定一个音频帧。

可以理解的是，本申请实施例可以创建基于多个pooling（池化）函数的特征向量融合机制，该机制可以使用多个pooling函数（即K个融合子网络）对多条语义特征向量序列（即S个目标频谱特征序列）进行融合加权，即将通过多流式注意力模型生产的多个乐器音频特征序列融合成为一个表征性更强的特征序列（即融合频谱特征所构成的融合频谱特征序列），该融合机制能够让同一音频帧时间的目标频谱特征来进行融合，使得融合频谱特征序列包含更高层的语义特征信息，融合频谱特征可以代表音频帧时间的信息，这样能够提升步骤S104中整体的副歌定位性能和准确率，且提高针对目标频谱特征的利用率。

应当理解，K个融合子网络可以为K个池化函数，本申请实施例不对K个池化函数的具体类型进行限定。例如，K个池化函数可以为maxpooling（最大池化）函数、avgpooling（平均池化）函数和exppooling（幂池化）函数，maxpooling可以用于对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征求取最大值，avgpooling可以用于对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征求取平均，exppooling可以用于通过幂函数对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征求取幂平均。

应当理解，K个融合子网络可以分别针对每个音频帧时间输出音频帧频谱特征，通过对K个融合子网络针对每个音频帧时间输出音频帧频谱特征进行融合，可以得到每个音频帧时间分别对应的融合频谱特征，这里对K个融合子网络针对每个音频帧时间输出的音频帧频谱特征进行融合的方式可以为向量拼接的方式，也可以为加权平均的方式等，本申请对此不进行限定。其中，一个融合子网络可以针对一个音频帧时间输出一个音频帧频谱特征，K个融合子网络可以针对一个音频帧时间输出K个音频帧频谱特征，换言之，对于一个音频帧时间而言，一个融合子网络可以对应一个音频帧频谱特征。

可选的，融合网络模型还可以包括1个融合子网络，即K等于1，该融合子网络可以为任意一个池化函数，例如，该融合子网络可以为平均池化函数。此时，服务器可以通过融合子网络（例如，平均池化函数）对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到该融合子网络输出的音频帧频谱特征，进而将该融合子网络输出的音频帧频谱特征作为每个音频帧时间分别对应的融合频谱特征。其中，该融合子网络可以针对每个音频帧时间输出一个音频帧频谱特征。

为便于理解，请参见图6，图6是本申请实施例提供的一种进行特征融合的流程示意图。如图6所示的多条序列的相同时刻的目标频谱特征（即目标频谱特征F₁、…、目标频谱特征F_S）可以为S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征，这里以目标频谱特征F₁、…、目标频谱特征F_S为S个目标频谱特征序列中首个音频帧时间的目标频谱特征为例进行说明。

如图6所示，融合网络模型中的K个融合子网络可以为融合子网络1、…、融合子网络K，服务器可以将目标频谱特征F₁、…、目标频谱特征F_S分别输入至K个融合子网络，即通过融合子网络1对目标频谱特征F₁、…、目标频谱特征F_S进行融合，得到融合子网络1输出的音频帧频谱特征O₁，…，通过融合子网络K对目标频谱特征F₁、…、目标频谱特征F_S进行融合，得到融合子网络K输出的音频帧频谱特征O_K。

如图6所示，服务器可以对音频帧频谱特征O₁、…、音频帧频谱特征O_K进行融合（例如，拼接），得到首个音频帧时间对应的融合频谱特征，即目标音频数据中的首个音频帧对应的融合频谱特征。其中，音频帧频谱特征O₁、…、音频帧频谱特征O_K均为首个音频帧时间的音频帧频谱特征，首个音频帧对应的音频帧时间为首个音频帧时间。进一步地，服务器可以生成除首个音频帧时间之外的其他音频帧时间对应的融合频谱特征，进而将每个音频帧时间对应的融合频谱特征作为融合频谱特征序列。

步骤S104，根据目标音频数据中的每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段。

具体的，服务器可以根据目标音频数据中的每个音频帧分别对应的融合频谱特征，生成每个音频帧分别对应的辅助置信度。进一步地，服务器可以对每个音频帧分别对应的辅助置信度进行平滑处理，得到每个音频帧分别对应的副歌置信度。进一步地，服务器可以根据每个音频帧分别对应的副歌置信度，确定目标音频数据中的副歌片段。

可以理解的是，服务器可以将该融合频谱特征序列中的每一个融合频谱特征输入到softmax函数（即归一化指数函数）中进行对副歌判断的置信度计算，得到每个音频帧时间针对副歌的置信度（即辅助置信度），然后根据辅助置信度能够得到融合频谱特征序列对应的置信度曲线。进一步地，对置信度曲线经过平滑阈值筛选之后，可以根据平滑所得到的副歌置信度确定副歌段落的时间位置。其中，副歌置信度可以用于反映音频帧时间对应的音频帧属于副歌片段中的音频帧的概率，即副歌置信度越高，表明音频帧属于副歌片段的概率越高；反之，副歌置信度越低，表明音频帧属于副歌片段的概率越低。

应当理解，服务器对每个音频帧分别对应的辅助置信度进行平滑处理的具体过程可以描述为：服务器可以根据每个音频帧的音频帧帧长，在目标音频数据中确定至少两个音频检测时间段。其中，每个音频检测时间段包括至少两个音频帧。进一步地，服务器可以对每个音频检测时间段内的至少两个音频帧分别对应的辅助置信度进行运算处理，得到每个音频检测时间段分别对应的候选置信度。其中，候选置信度可以为音频检测时间段内的总置信度（即音频检测时间段内的音频帧的辅助置信度之和），也可以为音频检测时间段内的平均置信度（即总置信度除以音频检测时间段内的音频帧的数量）。进一步地，服务器可以根据每个音频检测时间段分别对应的候选置信度，对每个音频检测时间段内的至少两个音频帧分别对应的辅助置信度进行调整，得到每个音频帧分别对应的副歌置信度。

其中，这里以一个音频检测时间段为例进行说明，若该音频检测时间段对应的候选置信度大于置信度阈值，则服务器可以将该音频检测时间段内的至少两个音频帧分别对应的辅助置信度调整为第一副歌置信度；可选的，若该音频检测时间段对应的候选置信度小于或等于置信度阈值，则服务器可以将该音频检测时间段内的至少两个音频帧分别对应的辅助置信度调整为第二副歌置信度。其中，第一副歌置信度和第二副歌置信度可以统称为副歌置信度，本申请实施例不对第一副歌置信度、第二副歌置信度以及置信度阈值的具体取值进行限定，例如，第一副歌置信度可以等于1，第二副歌置信度可以等于0。

可选的，服务器可以在生成每个音频帧分别对应的辅助置信度之后，获取辅助置信度大于置信度阈值的候选音频帧，确定候选音频帧在目标音频数据中的位置关系，根据候选音频帧中具有连续相邻位置关系的候选音频帧，确定目标音频数据中的副歌片段。其中，位置关系包括连续相邻位置关系和非连续相邻位置关系，连续相邻位置关系是指音频帧帧数大于帧数阈值的音频帧之间的位置关系，非连续相邻位置关系是指音频帧帧数小于帧数阈值的音频之间的位置关系、或者音频帧之间的位置不相邻。

为便于理解，对目标音频数据进行副歌识别的具体过程可以参见图7，图7是本申请实施例提供的一种进行副歌识别的流程示意图。如图7所示，服务器可以获取目标音频数据对应的音频幅度谱（即幅度谱特征），将音频幅度谱输入至信源分离模型70a，通过信源分离模型70a输出S个子音轨。其中，目标音频数据可以为版权音乐、也可以为用户上传的自制音乐。

其中，如图7所示，服务器可以将音频幅度谱输入至信源分离模型70a中的S个声源子网络，得到每个声源子网络分别输出的子音频候选特征，进而根据S个声源子网络分别输出的子音频候选特征，得到S个声源类型分别对应子音频数据（即子音轨）。其中，S个声源子网络可以为声源子网络P₁、…、声源子网络P_S，S个子音轨可以为子音频G₁、…、子音频G_S，其中，子音频G₁可以为声源子网络P₁所确定的子音轨，…，子音频G_S可以为声源子网络P_S所确定的子音轨。

如图7所示，服务器可以获取S个子音频数据分别对应的初始频谱特征序列，通过多流式注意力模型70b对S个子音频数据分别对应的初始频谱特征序列进行多流式注意力学习，得到S子音频数据分别对应的目标频谱特征序列。其中，S个目标频谱特征序列具体可以包括目标频谱特征序列T₁、…、目标频谱特征序列T_S，其中，目标频谱特征序列T₁可以为子音频G₁对应的目标频谱特征序列，…，目标频谱特征序列T_S可以为子音频G_S对应的目标频谱特征序列。

如图7所示，服务器可以通过融合网络模型70c对S个目标频谱特征序列进行融合，得到每个音频帧分别对应的融合频谱特征。其中，服务器可以将S个目标频谱特征序列分别输入至融合网络模型70c中的K个融合子网络，进而基于每个融合子网络所输出的音频帧频谱特征得到每个音频帧分别对应的融合频谱特征。其中，K个融合子网络具体可以包括融合子网络1、…、融合子网络K。进一步地，服务器可以根据目标音频数据中的每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段。

为便于理解，请参见图8，图8是本申请实施例提供的一种进行副歌识别的场景示意图。如图8所示为目标音频数据的原始音轨80a和目标音频数据对应的幅度谱特征80b，基于上述图7所对应实施例的流程可以确定目标音频数据中的副歌片段，这里以目标音频数据中的副歌片段的数量为3个为例进行说明。

其中，目标音频数据中的3个副歌片段可以包括副歌片段81a、副歌片段81b和副歌片段81c。如图8所示，目标音频数据的副歌片段与目标音频数据的主歌片段之间的差异比较大，例如，目标音频数据的副歌片段的频率、能量均比较高，而目标音频数据的主歌片段的频率、能量均比较低。

如图8所示，基于目标音频数据中的每个音频帧分别对应的辅助置信度所构建的置信度曲线可以为置信度曲线80c，副歌片段81a、副歌片段81b和副歌片段81c在置信度曲线80c中具有明显的特征，例如，组成副歌片段81a的音频帧对应的辅助置信度较高，而组成副歌片段81a的音频帧之前的音频帧对应的辅助置信度较低。

应当理解，服务器可以获取用于进行音视频融合的目标视频数据的第一播放时长，获取副歌片段的第二播放时长。其中，目标视频数据可以为自制的视频数据。进一步地，若第一播放时长和第二播放时长不相同，则服务器可以根据第一播放时长对副歌片段进行缩放处理，得到缩放处理后的副歌片段，将缩放处理后的副歌片段和目标视频数据进行音视频融合，得到第一多媒体数据。可选的，若第一播放时长和第二播放时长相同，则服务器可以将副歌片段和目标视频数据进行音视频融合，得到第二多媒体数据。其中，第一多媒体数据或第二多媒体数据可以用于上传至短视频平台。

其中，若第一播放时长大于第二播放时长，则服务器可以对副歌片段进行扩展处理，得到扩展处理后的副歌片段；可选的，若第一播放时长小于第二播放时长，则服务器可以对副歌片段进行切割处理，得到切割处理后的副歌片段。应当理解，扩展处理后的副歌片段和切割处理后的副歌片段可以统称为缩放处理后的副歌片段，本申请实施例不对切割处理和扩展处理的具体方式进行限定。例如，切割处理可以以副歌片段的开始时间为起点，切割出播放长度为第一播放时长的副歌子片段，将该播放长度为第一播放时长的副歌子片段作为切割处理后的副歌片段。例如，扩展处理可以以副歌片段的开始时间为起点，切割出播放长度为第三播放时长的副歌子片段，将该播放长度为第三播放时长的副歌子片段拼接至副歌片段之后，第一播放时长等于第二播放时长加第三播放时长，将拼接有播放长度为第三播放时长的副歌子片段的副歌片段作为扩展处理后的副歌片段。

由此可见，本申请实施例可以使用S个目标频谱特征序列中的目标频谱特征来作为副歌定位的基础特征，通过该基础特征能够分析S个子音频数据分别在副歌片段上的表现，从不同的声源类型上学习到副歌片段的信息。此外，目标频谱特征是对S个初始频谱特征序列中的初始频谱特征进行注意力学习所得到的，进行注意力学习可以涉及注意力机制，该注意力机制可以利用子音频数据中不同音频帧的前后关联关系，且利用不同声源类型之间的乐理联系，从而实现自动化对目标音频数据进行标准化地副歌识别，可以在节约成本的同时，提高副歌定位的效率和准确性。

进一步地，请参见图9，图9是本申请实施例提供的一种音频数据处理方法的流程示意图。该音频数据处理方法可以包括以下步骤S1011-步骤S1014，且步骤S1011-步骤S1014为图3所对应实施例中步骤S101的一个具体实施例。

步骤S1011，获取目标音频数据对应的幅度谱特征，将幅度谱特征输入至信源分离模型；

具体的，服务器可以对目标音频数据进行频谱转换，得到目标音频数据对应的目标频谱数据。其中，目标频谱数据包括相位信息和幅度信息。进一步地，服务器可以对相位信息进行消除，生成与幅度信息相关联的幅度谱特征。进一步地，服务器可以将幅度谱特征输入至信源分离模型。其中，信源分离模型包括S个声源类型分别对应的声源子网络，服务器可以将幅度谱特征分别输入S个声源子网络。

可以理解的是，目标音频数据属于时域信号，时域信号比较复杂，频域信号比较简单。因此，服务器可以对目标音频数据进行频域转换，得到目标音频数据的频域信息（即目标频谱数据），频域信息可以用于反映目标音频数据的幅度参数以及频率参数。

其中，S个声源子网络可以包括声源子网络P_i，这里的i可以为小于或等于S的正整数。其中，步骤S1012以声源子网络P_i为例进行说明，声源子网络P_i可以包括N个编码网络层、卷积网络层和N个解码网络层，这里的N可以为正整数。

步骤S1012，通过S个声源子网络分别对幅度谱特征进行特征提取，得到每个声源子网络分别输出的子音频候选特征；

具体的，服务器可以在声源子网络P_i的N个编码网络层中，基于幅度谱特征生成N个编码网络层分别对应的编码幅度谱特征。进一步地，服务器可以在声源子网络P_i的卷积网络层中，对N个编码幅度谱特征中的目标编码幅度谱特征进行下采样处理，得到初始幅度谱特征，对初始幅度谱特征进行卷积操作，得到卷积网络层输出的目标幅度谱特征。其中，目标编码幅度谱特征为N个编码网络层中的最后一个编码网络层所输出的编码幅度谱特征。进一步地，服务器可以在声源子网络P_i的N个解码网络层中，基于N个编码幅度谱特征和目标幅度谱特征，生成N个解码网络层分别对应的解码幅度谱特征。进一步地，服务器可以对N个解码幅度谱特征中的目标解码幅度谱特征进行卷积操作，得到声源子网络P_i输出的子音频候选特征。其中，目标解码幅度谱特征为N个解码网络层中的最后一个解码网络层所输出的解码幅度谱特征。

其中，N个编码网络层包括编码网络层M_c，这里的c可以为小于或等于N的正整数。应当理解，服务器通过N个编码网络层生成N个编码网络层分别对应的编码幅度谱特征的具体过程可以描述为：若编码网络层M_c为N个编码网络层中的第一个编码网络层，则服务器可以在编码网络层M_c中，对幅度谱特征进行卷积操作，得到编码网络层M_c对应的编码幅度谱特征。可选的，若编码网络层M_c不为N个编码网络层中的第一个编码网络层，则服务器可以在编码网络层M_c中，对编码网络层M_c-1对应的编码幅度谱特征进行下采样处理，得到编码网络层M_c对应的下采样幅度谱特征，对编码网络层M_c对应的下采样幅度谱特征进行卷积操作，得到编码网络层M_c对应的编码幅度谱特征。其中，编码网络层M_c-1为编码网络层M_c的上一个编码网络层。

其中，N个解码网络层包括解码网络层H_e，这里的e可以为小于或等于N的正整数。应当理解，服务器通过N个解码网络层生成N个解码网络层分别对应的解码幅度谱特征的具体过程可以描述为：若解码网络层H_e为N个解码网络层中的第一个解码网络层，则服务器可以在解码网络层H_e中，对目标幅度谱特征进行上采样处理，得到解码网络层H_e对应的上采样幅度谱特征，对解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到解码网络层H_e对应的候选幅度谱特征，对解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到解码网络层H_e对应的解码幅度谱特征。其中，编码网络层M_N-e+1为N个编码网络层中的第(N-e+1)个编码网络层。可选的，若解码网络层H_e不为N个解码网络层中的第一个解码网络层，则服务器可以在解码网络层H_e中，对解码网络层H_e-1对应的解码幅度谱特征进行上采样处理，得到解码网络层H_e对应的上采样幅度谱特征，对解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到解码网络层H_e对应的候选幅度谱特征，对解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到解码网络层H_e对应的解码幅度谱特征。其中，解码网络层H_e-1为解码网络层H_e的上一个解码网络层。其中，可以理解的是，服务器在进行上采样处理时，还需要额外进行卷积操作，以得到上采样幅度谱特征。

为便于理解，请参见图10，图10是本申请实施例提供的一种声源子网络的结构示意图。如图10所示的声源子网络可以为U-Net网络，U-net网络的整体架构是U型对称结构，左侧是卷积层（convolutional layer），右侧是上采样层（up sampling layer），该网络中大量的使用卷积（Conv）和池化（pooling，这里的池化可以理解为下采样处理）。为便于理解，这里以N等于4为例进行说明。

其中，如图10所示，U-net网络可以包括包含4个卷积层（即编码网络层）、4个上采样层（即解码网络层）和1个卷积网络层。4个卷积层具体可以包括卷积层100a、卷积层100b、卷积层100c和卷积层100d，卷积层100a可以为4个卷积层中的第一个卷积层，卷积层100d可以为4个卷积层中的最后一个卷积层；4个上采样层具体可以包括上采样层101a、上采样层101b、上采样层101c和上采样层101d，上采样层101a可以为4个上采样层中的第一个上采样层，上采样层101d可以为4个上采样层中的最后一个上采样层；1个卷积网络层具体可以包括卷积网络层102a。

如图10所示，服务器可以在卷积层100a中，对幅度谱特征102b进行卷积操作，得到卷积层100a对应的编码幅度谱特征103a；进一步地，服务器可以在卷积层100b中，对编码幅度谱特征103a进行下采样处理，得到卷积层100b对应的下采样幅度谱特征103b，进而对下采样幅度谱特征103b进行卷积操作，得到卷积层100b对应的编码幅度谱特征103c；进一步地，服务器可以在卷积层100c中，对编码幅度谱特征103c进行下采样处理，得到卷积层100c对应的下采样幅度谱特征103d，进而对下采样幅度谱特征103d进行卷积操作，得到卷积层100c对应的编码幅度谱特征103e；进一步地，服务器可以在卷积层100d中，对编码幅度谱特征103e进行下采样处理，得到卷积层100d对应的下采样幅度谱特征103f，进而对下采样幅度谱特征103f进行卷积操作，得到卷积层100d对应的编码幅度谱特征103g。

如图10所示，服务器可以在卷积网络层102a中，对编码幅度谱特征103g（即目标编码幅度谱特征）进行下采样处理，得到初始幅度谱特征104a，进而对初始幅度谱特征104a进行卷积操作，得到卷积网络层102a对应的目标幅度谱特征104b。

如图10所示，服务器可以在上采样层101a中，对目标幅度谱特征104b进行上采样处理，得到上采样层101a对应的上采样幅度谱特征105a，进而对上采样幅度谱特征105a和编码幅度谱特征103g进行融合，得到上采样层101a对应的候选幅度谱特征，进而对上采样层101a对应的候选幅度谱特征进行卷积操作，得到上采样层101a对应的解码幅度谱特征105b；进一步地，服务器可以在上采样层101b中，对解码幅度谱特征105b进行上采样处理，得到上采样层101b对应的上采样幅度谱特征105c，进而对上采样幅度谱特征105c和编码幅度谱特征103e进行融合，得到上采样层101b对应的候选幅度谱特征，进而对上采样层101b对应的候选幅度谱特征进行卷积操作，得到上采样层101b对应的解码幅度谱特征105d；进一步地，服务器可以在上采样层101c中，对解码幅度谱特征105d进行上采样处理，得到上采样层101c对应的上采样幅度谱特征105e，进而对上采样幅度谱特征105e和编码幅度谱特征103c进行融合，得到上采样层101c对应的候选幅度谱特征，进而对上采样层101c对应的候选幅度谱特征进行卷积操作，得到上采样层101c对应的解码幅度谱特征105f；进一步地，服务器可以在上采样层101d中，对解码幅度谱特征105f进行上采样处理，得到上采样层101d对应的上采样幅度谱特征105g，进而对上采样幅度谱特征105g和编码幅度谱特征103a进行融合，得到上采样层101d对应的候选幅度谱特征，进而对上采样层101d对应的候选幅度谱特征进行卷积操作，得到上采样层101d对应的解码幅度谱特征105h。

其中，可以理解的是，U-net网络的每个卷积层得到的特征图（即编码幅度谱特征）都会连接到对应的上采样层（例如，对上采样层101d对应的上采样幅度谱特征105g和卷积层100a对应的编码幅度谱特征103a进行融合），从而实现对每层特征图都有效使用到后续计算中，该步骤可以称之为skip-connection。这样，U-net避免了直接在高级特征图中进行监督和损失计算，而是结合了低级特征图（即编码幅度谱特征）中的特征，从而可以使得最终所得到的特征图中既包含了高级别的特征，也包含很多的低级别的特征，实现了不同规模下特征的融合，提高模型的结果精确度。

如图10所示，服务器可以对解码幅度谱特征105h（即目标解码幅度谱特征）进行卷积操作，得到子音频候选特征102c，子音频候选特征102c为图10所示的U-net网络所输出的子音频候选特征。

步骤S1013，对S个子音频候选特征进行拼接处理，得到子音频拼接特征；

步骤S1014，根据子音频拼接特征和幅度谱特征，生成每个声源类型分别对应的子音频数据。

具体的，服务器可以根据子音频拼接特征中的S个子音频候选特征，生成每个声源类型分别对应的能量比例（即掩码）。进一步地，服务器可以根据幅度谱特征和每个声源类型分别对应的能量比例，生成每个声源类型分别对应的子音频幅度谱特征。其中，服务器可以将每个声源类型分别对应的能量比例乘以幅度谱特征，生成每个声源类型分别对应的子音频幅度谱特征。进一步地，服务器可以对每个声源类型分别对应的子音频幅度谱特征进行频谱反变换，得到每个声源类型分别对应的子音频数据。

其中，可以理解的是，服务器可以根据子音频拼接特征中的S个子音频候选特征，生成每个子音频候选特征分别对应的能量参数。例如，服务器可以将子音频候选特征的平方作为子音频候选特征对应的能量参数。进一步地，服务器可以根据S个能量参数，生成能量值。进一步地，服务器可以根据能量值和S个能量参数，生成每个声源类型分别对应的能量比例。例如，服务器可以将能量参数和能量值的比值作为声源类型分别对应的能量比例。

其中，服务器可以将每个声源类型分别对应的子音频幅度谱特征转换为子音频频谱数据，进而将子音频频谱数据转换为子音频数据，这里的子音频数据可以表示时域信号，这里的子音频频谱数据可以表示频域信号。

为便于理解，请参见图11，图11是本申请实施例提供的一种进行信源分离的流程示意图。如图11所示为信源分离模型的架构图，服务器可以获取目标音频数据对应的幅度谱特征（即音频幅度谱），将幅度谱特征分别输入至S个声源子网络，得到每个声源子网络分别输出的子音频候选特征，进而对S个子音频候选特征进行拼接处理，得到子音频拼接特征，合并之后的子音频拼接特征可以用于进行掩码计算。其中，S个声源子网络具体可以包括声源子网络P₁、…、声源子网络P_S。其中，目标音频数据的音轨提出来之后，计算出其音轨的频谱，然后消除特征的相位可以生成音轨的频谱幅度谱（即幅度谱特征）。

如图11所示，服务器可以对子音频拼接特征进行掩码计算，得到每个声源类型分别对应的能量比例（即子音轨的掩码），进而根据能量比例和幅度谱特征进行对应位置计算，可以生成每个声源类型分别对应的子音频幅度谱特征。可以理解的是，对每个声源类型分别对应的子音频幅度谱特征进行频谱反变换，可以得到每个声源类型分别对应的子音频数据（即子音轨）。其中，声源子网络P₁对应的子音轨可以为子音轨G₁、…、声源子网络P_S对应的子音轨可以为子音轨G_S。

应当理解，信源分离模型（即目标信源分离模型）是对初始信源分离模型进行训练所得到的，初始信源分离模型和目标信源分离模型属于同一网络模型在不同时刻的名称，在训练阶段可以称之为初始信源分离模型，在预测阶段可以称之为目标信源分离模型。

其中，服务器可以获取样本音频数据和样本音频数据针对S个声源类型的标准子音频幅度谱特征。进一步地，服务器可以获取样本音频数据对应的样本幅度谱特征，将样本幅度谱特征输入至初始信源分离模型。其中，初始信源分离模型包括S个声源类型分别对应的初始声源子网络。进一步地，服务器可以通过S个初始声源子网络分别对样本幅度谱特征进行特征提取，得到每个初始声源子网络分别输出的初始子音频候选特征。进一步地，服务器可以根据S个初始声源子网络分别输出的初始子音频候选特征和S个声源类型分别对应的标准子音频幅度谱特征，确定S个初始声源子网络分别对应的子网络损失值。进一步地，服务器可以根据S个初始声源子网络分别对应的子网络损失值，确定初始信源分离模型的总损失值。其中，服务器可以将S个初始声源子网络分别对应的子网络损失值的平均值作为初始信源分离模型的总损失值。进一步地，服务器可以根据总损失值对初始信源分离模型中的模型参数进行调整，当调整后的初始信源分离模型满足模型收敛条件时，将调整后的初始信源分离模型确定为目标信源分离模型。

其中，S个初始声源子网络可以包括初始声源子网络P_i，服务器可以根据初始声源子网络P_i输出的初始子音频候选特征和初始声源子网络P_i的标准子音频幅度谱特征（即初始声源子网络P_i对应声源类型的标准子音频幅度谱特征），确定初始声源子网络P_i对应的子网络损失值。

其中，当初始信源分离模型的总损失值不满足模型收敛条件时，服务器可以基于不满足模型收敛条件的总损失值对初始信源分离模型中的模型参数进行调整。进一步地，服务器可以将调整模型参数后的初始信源分离模型确定为过渡信源分离模型，对过渡信源分离模型进行迭代训练，直到迭代训练后的过渡信源分离模型的总损失值满足模型收敛条件时，将满足模型收敛条件的过渡信源分离模型作为目标信源分离模型。

可以理解的是，在对初始信源分离模型进行迭代训练的过程中，服务器可以从头实现初始声源子网络并进行权重的初始化，然后进行初始信源分离模型的训练；可选的，服务器也可以借用现有一些网络的卷积层结构和对应的已训练好的权重文件对初始声源子网络中的N个初始编码网络层进行初始化，再加上后面的初始声源子网络中的N个初始解码网络层进行训练计算，比如，这里可以借用resnet（Residual Network，深度残差网络）模型、vgg（Visual Geometry Group）模型等的权重对N个初始编码网络层进行初始化。这样，通过使用已有的权重模型文件，可以大大加快初始信源分离模型的训练速度。

由此可见，本申请实施例可以基于信源分离模型来对目标音频数据进行不同乐器种类的音轨分离，按照S个不同特色的乐器音色将目标音频数据分离称为S个乐器音轨（即S个子音频数据）。因此，本申请实施例可以单独对不同的乐器音轨进行处理和分析，学习到不同乐器在副歌片段的表现以及不同乐器之间的乐理联系，该方法能够更符合乐理创作特性，能够让整体对音频信号副歌分析更为贴合音乐创作时的乐理规律，且能够副歌定位的效率和准确性。

进一步地，请参见图12，图12是本申请实施例提供的一种音频数据处理方法的流程示意图。该音频数据处理方法可以包括以下步骤S1021-步骤S1023，且步骤S1021-步骤S1023为图3所对应实施例中步骤S102的一个具体实施例。

步骤S1021，获取S个子音频数据分别对应的初始频谱特征序列；

其中，S个初始频谱特征序列包括初始频谱特征序列D_z，这里的z可以为小于或等于S的正整数，S个初始频谱特征序列还包括L个初始频谱特征序列，L个初始频谱特征序列是指S个初始频谱特征序列中除初始频谱特征序列D_z之外的(S-1)个初始频谱特征序列。其中，L等于(S-1)，L个初始频谱特征序列包括初始频谱特征序列D_a，这里的a可以为小于或等于S的正整数，且a不等于z。

步骤S1022，通过多流式注意力模型对初始频谱特征序列D_z分别和L个初始频谱特征序列进行注意力学习，得到初始频谱特征序列D_z分别针对L个初始频谱特征序列的辅助频谱特征序列；

应当理解，多流式注意力模型（即目标多流式注意力模型）是对初始多流式注意力模型进行训练所得到的，初始多流式注意力模型和目标多流式注意力模型属于同一网络模型在不同时刻的名称，在训练阶段可以称之为初始多流式注意力模型，在预测阶段可以称之为目标多流式注意力模型。其中，多流式注意力模型包括注意力学习子网络、加权子网络和特征融合子网络，服务器可以通过注意力学习子网络和加权子网络，对初始频谱特征序列D_z分别和L个初始频谱特征序列进行注意力学习，服务器可以通过特征融合子网络执行下述步骤S1023。

应当理解，服务器可以通过注意力学习子网络对初始频谱特征序列D_z中的初始频谱特征和初始频谱特征序列D_a中的初始频谱特征进行注意力学习，得到初始频谱特征序列D_z中的初始频谱特征针对初始频谱特征序列D_a中的初始频谱特征的频谱权重。进一步地，服务器可以在加权子网络中，对初始频谱特征序列D_z中的初始频谱特征针对初始频谱特征序列D_a中的初始频谱特征的频谱权重，以及初始频谱特征序列D_a中的初始频谱特征进行加权处理，生成初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征。进一步地，服务器可以对初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征进行融合，得到初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征，进而将初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征，确定为初始频谱特征序列D_z针对初始频谱特征序列D_a的辅助频谱特征序列。

其中，初始频谱特征序列D_z中的初始频谱特征的数量为至少两个，初始频谱特征序列D_z中的至少两个初始频谱特征包括初始频谱特征Q_b，这里的b可以为正整数。其中，注意力学习子网络包括第一全连接网络层、第二全连接网络层和相似度网络层，第一全连接网络层和第二全连接网络层可以为同一个全连接层、也可以为不同全连接层。应当理解，服务器可以通过第一全连接网络层对初始频谱特征Q_b进行全连接处理，得到初始频谱特征Q_b对应的全连接频谱特征；服务器可以通过第二全连接网络层对初始频谱特征序列D_a中的初始频谱特征进行全连接处理，得到初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征。进一步地，服务器可以通过相似度网络层确定初始频谱特征Q_b对应的全连接频谱特征，以及初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征之间的空间相似度，将空间相似度确定为初始频谱特征Q_b针对初始频谱特征序列D_a中的初始频谱特征的频谱权重。

其中，初始频谱特征序列D_a中的初始频谱特征的数量为至少两个，初始频谱特征序列D_a中的至少两个初始频谱特征包括初始频谱特征R_u，这里的u可以为正整数。应当理解，服务器可以通过第二全连接网络层对初始频谱特征序列D_a中的初始频谱特征R_u进行全连接处理，得到初始频谱特征R_u对应的全连接频谱特征。进一步地，服务器可以通过相似度网络层确定初始频谱特征Q_b对应的全连接频谱特征，以及初始频谱特征R_u对应的全连接频谱特征之间的空间相似度，将初始频谱特征Q_b和初始频谱特征R_u之间的空间相似度确定为初始频谱特征Q_b针对初始频谱特征R_u的频谱权重。

其中，可以理解的是，空间相似度（即空间距离）可以为余弦相似度，余弦相似度是通过测量两个向量的夹角的余弦值来度量它们之间的相似性，余弦相似度与向量的长度无关的，仅仅与向量的指向方向相关。空间0度角的余弦值是1，而其他任何角度的余弦值都不大于1，并且其最小值是-1。因此，两个向量之间的角度的余弦值确定两个向量在空间上的相似性，可以表示两个向量的空间夹角和方向重合度。可以理解的是，两个向量有相同的指向（即相似度高）时，余弦相似度的值为1；两个向量空间夹角为90°（即相似度低）时，余弦相似度的值为0；两个向量指向完全相反的方向（即完全不相似）时，余弦相似度的值为-1。此外，余弦相似度通常用于正空间，因此余弦相似度的值为0到1之间。

应当理解，服务器可以在加权子网络中，对初始频谱特征Q_b针对初始频谱特征R_u的频谱权重，以及初始频谱特征R_u进行加权处理，生成初始频谱特征序列D_a中的初始频谱特征Q_b对应的候选频谱特征，即初始频谱特征Q_b针对初始频谱特征R_u的候选频谱特征。进一步地，服务器可以对初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征（即初始频谱特征Q_b针对初始频谱特征序列D_a的初始频谱特征的候选频谱特征）进行融合，得到初始频谱特征序列D_z中的初始频谱特征Q_b对应的辅助频谱特征，即初始频谱特征Q_b针对初始频谱特征序列D_a的辅助频谱特征。进一步地，服务器可以将初始频谱特征序列D_z中的初始频谱特征（初始频谱特征序列D_z中的初始频谱特征包括初始频谱特征Q_b）对应的辅助频谱特征，确定为初始频谱特征序列D_z针对初始频谱特征序列D_a的辅助频谱特征序列。

步骤S1023，通过特征融合子网络对L个辅助频谱特征序列进行融合，得到子音频数据G_z对应的目标频谱特征序列；

其中，L个辅助频谱特征序列表示初始频谱特征序列D_z分别针对L个初始频谱特征序列的辅助频谱特征序列，子音频数据G_z为初始频谱特征序列D_z对应的子音频数据。其中，针对初始频谱特征序列D_z而言，L个初始频谱特征序列中的一个初始频谱特征序列对应一个辅助频谱特征序列。

应当理解，服务器对L个辅助频谱特征序列进行融合的方式可以为向量拼接的方式，也可以为加权平均的方式等，本申请对此不进行限定。

为便于理解，请参见图13，图13是本申请实施例提供的一种进行注意力学习的场景示意图。如图13所示的初始频谱特征序列130a可以为上述初始频谱特征序列D_z，如图13所示的初始频谱特征序列130b可以为上述初始频谱特征序列D_a。其中，初始频谱特征序列130a中可以包括初始频谱特征W₁、初始频谱特征W₂、…、初始频谱特征W₄，这里不对初始频谱特征序列130a中初始频谱特征的数量进行限定，初始频谱特征W₁可以为上述初始频谱特征Q_b；初始频谱特征序列130b中可以包括初始频谱特征V₁、初始频谱特征V₂、…、初始频谱特征V₄，这里不对初始频谱特征序列130b中初始频谱特征的数量进行限定，初始频谱特征V₁可以为上述初始频谱特征R_u。

如图13所示，服务器可以对两个初始频谱特征序列的每两个节点（即初始频谱特征）之间进行权重相关度计算，该权重相关度计算可以将两个向量（即初始频谱特征）输入至全连接层，映射到同维度向量（即全连接频谱特征），再计算两个向量（即全连接频谱特征）之间的空间相似度（例如，余弦距离score11），该空间相似度的得分就代表着两个节点之间的相关度（即频谱权重）。

其中，可以理解的是，服务器可以将初始频谱特征W₁输入至第一全连接网络层（即第一全连接层），得到初始频谱特征W₁对应的全连接频谱特征；服务器可以将初始频谱特征V₁输入至第二全连接网络层（即第二全连接层），得到初始频谱特征V₁对应的全连接频谱特征。进一步地，服务器可以确定初始频谱特征W₁对应的全连接频谱特征，以及初始频谱特征V₁对应的全连接频谱特征之间的空间相似度，这里的空间相似度可以为空间相似度11（即score11）。以此类推，服务器可以确定初始频谱特征W₁对应的全连接频谱特征，以及初始频谱特征V₂对应的全连接频谱特征之间的空间相似度12；…；服务器可以确定初始频谱特征W₁对应的全连接频谱特征，以及初始频谱特征V₄对应的全连接频谱特征之间的空间相似度14。

如图13所示，初始频谱特征序列130a可以根据对初始频谱特征序列130b的相关度，计算出初始频谱特征序列130a对应的新的特征序列（即辅助频谱特征序列），新的特征序列中的每个节点是通过计算注意力得到。其中，初始频谱特征序列130a对应的辅助频谱特征序列的第一个节点为初始频谱特征序列的第一个节点与初始频谱特征序列130b的所有节点进行上述相关度计算，然后根据相关度与初始频谱特征序列130b的所有节点进行加权计算。

其中，可以理解的是，服务器可以对空间相似度11和初始频谱特征V₁进行加权处理，生成初始频谱特征W₁针对初始频谱特征V₁的候选频谱特征；服务器可以对空间相似度12和初始频谱特征V₂进行加权处理，生成初始频谱特征W₁针对初始频谱特征V₂的候选频谱特征；…；服务器可以对空间相似度14和初始频谱特征V₄进行加权处理，生成初始频谱特征W₁针对初始频谱特征V₄的候选频谱特征。进一步地，服务器可以对初始频谱特征W₁针对初始频谱特征V₁的候选频谱特征、初始频谱特征W₁针对初始频谱特征V₂的候选频谱特征、…、初始频谱特征W₁针对初始频谱特征V₄的候选频谱特征进行融合，得到初始频谱特征W₁针对初始频谱特征序列130b的辅助频谱特征C₁。以此类推，服务器可以确定初始频谱特征W₂针对初始频谱特征序列130b的辅助频谱特征C₂；…；服务器可以确定初始频谱特征W₄针对初始频谱特征序列130b的辅助频谱特征C₄。其中，辅助频谱特征C₁、辅助频谱特征C₂、…、辅助频谱特征C₄可以构成初始频谱特征序列130a针对初始频谱特征序列130b的辅助频谱特征序列。

如图13所示，服务器可以按照上述方法生成初始频谱特征序列130a针对L个初始频谱特征序列的L个辅助频谱特征序列，进而对L个辅助频谱特征序列进行融合（例如，加权平均），得到初始频谱特征序列130a对应的目标频谱特征序列130d（即子音频数据G_z对应的目标频谱特征序列），子音频数据G_z为初始频谱特征序列130a对应的子音频数据。其中，初始频谱特征序列130a对应的目标频谱特征序列130d是高度表征特征序列，该高度表征特征序列包含了初始频谱特征序列130a对应的声源类型（例如，管乐器音轨）与其他L条音轨的相关性乐理。

其中，可以理解的是，L个初始频谱特征序列还可以包括初始频谱特征序列130c，辅助频谱特征Z₁、辅助频谱特征Z₂、…、辅助频谱特征Z₄可以构成初始频谱特征序列130a针对初始频谱特征序列130c的辅助频谱特征序列。进一步地，服务器可以对L个辅助频谱特征序列进行求和，得到融合辅助频谱特征序列，进而对融合辅助频谱特征序列进行平均处理，得到目标频谱特征序列130d。其中，服务器可以对辅助频谱特征C₁、…、辅助频谱特征Z₁进行求和，得到与辅助频谱特征C₁、…、辅助频谱特征Z₁相关联的融合辅助频谱特征，进而对该融合辅助频谱特征进行平均处理，得到目标频谱特征U₁；服务器可以对辅助频谱特征C₂、…、辅助频谱特征Z₂进行求和，得到与辅助频谱特征C₂、…、辅助频谱特征Z₂相关联的融合辅助频谱特征，进而对该融合辅助频谱特征进行平均处理，得到目标频谱特征U₂；…；服务器可以对辅助频谱特征C₄、…、辅助频谱特征Z₄进行求和，得到与辅助频谱特征C₄、…、辅助频谱特征Z₄相关联的融合辅助频谱特征，进而对该融合辅助频谱特征进行平均处理，得到目标频谱特征U₄。其中，目标频谱特征U₁、目标频谱特征U₂、…、目标频谱特征U₄可以构成目标频谱特征序列130d。

由此可见，本申请实施例可以基于多流式注意力模型来对不同乐器音轨信号之间的依赖关系进行学习，多流式注意力模型的输入为S个声源类型分别对应的初始频谱特征序列，然后根据S个初始频谱特征序列计算出的权重比例（即频谱权重）来加权生成最终的分类语义特征（即目标频谱特征），分类语义特征用于构成S个计算相关度后的音轨特征序列（即目标频谱特征序列）。因此，本申请实施例可以清晰各种乐器之间的演奏配合关系，能够得到更为全面的乐理表达，同时能够更清楚的学习到副歌片段中的各乐器之间关系与其他段落的异同，使用得到的新音轨特征序列来作为副歌定位的基础特征，能够提高副歌定位的效率和准确性。

进一步地，请参见图14，图14是本申请实施例提供的一种音频数据处理装置的结构示意图，该音频数据处理装置1可以包括：信源分离模块11，注意力学习模块12，特征融合模块13，副歌识别模块14；进一步地，该音频数据处理装置1还可以包括：时长获取模块15，第一比较模块16，第二比较模块17；

信源分离模块11，用于对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据；S为正整数；

其中，信源分离模块11包括：特征输入单元111，特征提取单元112，特征拼接单元113；

特征输入单元111，用于获取目标音频数据对应的幅度谱特征，将幅度谱特征输入至信源分离模型；信源分离模型包括S个声源类型分别对应的声源子网络；

其中，特征输入单元111，具体用于对目标音频数据进行频谱转换，得到目标音频数据对应的目标频谱数据；目标频谱数据包括相位信息和幅度信息；

特征输入单元111，具体用于对相位信息进行消除，生成与幅度信息相关联的幅度谱特征。

特征提取单元112，用于通过S个声源子网络分别对幅度谱特征进行特征提取，得到每个声源子网络分别输出的子音频候选特征；

特征提取单元112包括：编码子单元1121，第一卷积子单元1122，解码子单元1123，第二卷积子单元1124；

编码子单元1121，用于在声源子网络P_i的N个编码网络层中，基于幅度谱特征生成N个编码网络层分别对应的编码幅度谱特征；

编码子单元1121，具体用于若编码网络层M_c为N个编码网络层中的第一个编码网络层，则在编码网络层M_c中，对幅度谱特征进行卷积操作，得到编码网络层M_c对应的编码幅度谱特征；

编码子单元1121，具体用于若编码网络层M_c不为N个编码网络层中的第一个编码网络层，则在编码网络层M_c中，对编码网络层M_c-1对应的编码幅度谱特征进行下采样处理，得到编码网络层M_c对应的下采样幅度谱特征，对编码网络层M_c对应的下采样幅度谱特征进行卷积操作，得到编码网络层M_c对应的编码幅度谱特征；编码网络层M_c-1为编码网络层M_c的上一个编码网络层。

第一卷积子单元1122，用于在声源子网络P_i的卷积网络层中，对N个编码幅度谱特征中的目标编码幅度谱特征进行下采样处理，得到初始幅度谱特征，对初始幅度谱特征进行卷积操作，得到卷积网络层输出的目标幅度谱特征；目标编码幅度谱特征为N个编码网络层中的最后一个编码网络层所输出的编码幅度谱特征；

解码子单元1123，用于在声源子网络P_i的N个解码网络层中，基于N个编码幅度谱特征和目标幅度谱特征，生成N个解码网络层分别对应的解码幅度谱特征；

解码子单元1123，具体用于若解码网络层H_e为N个解码网络层中的第一个解码网络层，则在解码网络层H_e中，对目标幅度谱特征进行上采样处理，得到解码网络层H_e对应的上采样幅度谱特征，对解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到解码网络层H_e对应的候选幅度谱特征，对解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到解码网络层H_e对应的解码幅度谱特征；编码网络层M_N-e+1为N个编码网络层中的第(N-e+1)个编码网络层；

解码子单元1123，具体用于若解码网络层H_e不为N个解码网络层中的第一个解码网络层，则在解码网络层H_e中，对解码网络层H_e-1对应的解码幅度谱特征进行上采样处理，得到解码网络层H_e对应的上采样幅度谱特征，对解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到解码网络层H_e对应的候选幅度谱特征，对解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到解码网络层H_e对应的解码幅度谱特征；解码网络层H_e-1为解码网络层H_e的上一个解码网络层。

第二卷积子单元1124，用于对N个解码幅度谱特征中的目标解码幅度谱特征进行卷积操作，得到声源子网络P_i输出的子音频候选特征；目标解码幅度谱特征为N个解码网络层中的最后一个解码网络层所输出的解码幅度谱特征。

其中，编码子单元1121，第一卷积子单元1122，解码子单元1123和第二卷积子单元1124的具体实现方式，可以参见上述图9所对应实施例中对步骤S1012的描述，这里将不再进行赘述。

特征拼接单元113，用于对S个子音频候选特征进行拼接处理，得到子音频拼接特征；

特征拼接单元113，用于根据子音频拼接特征和幅度谱特征，生成每个声源类型分别对应的子音频数据。

其中，特征拼接单元113，具体用于根据子音频拼接特征中的S个子音频候选特征，生成每个声源类型分别对应的能量比例；

特征拼接单元113，具体用于根据幅度谱特征和每个声源类型分别对应的能量比例，生成每个声源类型分别对应的子音频幅度谱特征；

特征拼接单元113，具体用于对每个声源类型分别对应的子音频幅度谱特征进行频谱反变换，得到每个声源类型分别对应的子音频数据。

其中，特征输入单元111，特征提取单元112和特征拼接单元113的具体实现方式，可以参见上述图3所对应实施例中对步骤S101、以及图9所对应实施例中对步骤S1011-步骤S1014的描述，这里将不再进行赘述。

注意力学习模块12，用于获取S个子音频数据分别对应的初始频谱特征序列，对S个初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列；

其中，S个子音频数据包括子音频数据G_j，j为小于或等于S的正整数；S个初始频谱特征序列包括初始频谱特征序列D_z，z为小于或等于S的正整数；

注意力学习模块12包括：预处理单元121，注意力学习单元122，特征融合单元123；

预处理单元121，用于对子音频数据G_j进行分帧处理，得到与子音频数据G_j相关联的至少两个音频帧；

预处理单元121，用于对至少两个音频帧分别进行加窗处理，得到至少两个音频帧分别对应的加窗音频帧；

预处理单元121，用于对至少两个加窗音频帧分别进行频谱转换，得到至少两个音频帧分别对应音频帧频谱数据；

预处理单元121，用于对至少两个音频帧频谱数据分别进行过滤处理，得到至少两个音频帧分别对应的初始频谱特征；

预处理单元121，用于将至少两个初始频谱特征确定为子音频数据G_j对应的初始频谱特征序列。

注意力学习单元122，用于通过多流式注意力模型对初始频谱特征序列D_z分别和L个初始频谱特征序列进行注意力学习，得到初始频谱特征序列D_z分别针对L个初始频谱特征序列的辅助频谱特征序列；多流式注意力模型包括特征融合子网络；L个初始频谱特征序列是指S个初始频谱特征序列中除初始频谱特征序列D_z之外的(S-1)个初始频谱特征序列；

注意力学习单元122包括：注意力学习子单元1221，加权处理子单元1222，特征融合子单元1223；

注意力学习子单元1221，用于通过注意力学习子网络对初始频谱特征序列D_z中的初始频谱特征和初始频谱特征序列D_a中的初始频谱特征进行注意力学习，得到初始频谱特征序列D_z中的初始频谱特征针对初始频谱特征序列D_a中的初始频谱特征的频谱权重；

注意力学习子单元1221，具体用于通过第一全连接网络层对初始频谱特征Q_b进行全连接处理，得到初始频谱特征Q_b对应的全连接频谱特征；

注意力学习子单元1221，具体用于通过第二全连接网络层对初始频谱特征序列D_a中的初始频谱特征进行全连接处理，得到初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征；

注意力学习子单元1221，具体用于通过相似度网络层确定初始频谱特征Q_b对应的全连接频谱特征，以及初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征之间的空间相似度，将空间相似度确定为初始频谱特征Q_b针对初始频谱特征序列D_a中的初始频谱特征的频谱权重。

加权处理子单元1222，用于在加权子网络中，对初始频谱特征序列D_z中的初始频谱特征针对初始频谱特征序列D_a中的初始频谱特征的频谱权重，以及初始频谱特征序列D_a中的初始频谱特征进行加权处理，生成初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征；

特征融合子单元1223，用于对初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征进行融合，得到初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征；

特征融合子单元1223，用于将初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征，确定为初始频谱特征序列D_z针对初始频谱特征序列D_a的辅助频谱特征序列。

其中，注意力学习子单元1221，加权处理子单元1222和特征融合子单元1223的具体实现方式，可以参见上述图12所对应实施例中对步骤S1022的描述，这里将不再进行赘述。

特征融合单元123，用于通过特征融合子网络对L个辅助频谱特征序列进行融合，得到子音频数据G_z对应的目标频谱特征序列；子音频数据G_z为初始频谱特征序列D_z对应的子音频数据。

其中，预处理单元121，注意力学习单元122和特征融合单元123的具体实现方式，可以参见上述图3所对应实施例中对步骤S102、以及图12所对应实施例中对步骤S1021-步骤S1023的描述，这里将不再进行赘述。

特征融合模块13，用于对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到目标音频数据中的每个音频帧分别对应的融合频谱特征；

其中，特征融合模块13包括：序列输入单元131，第一融合单元132，第二融合单元133，特征确定单元134；

序列输入单元131，用于将S个目标频谱特征序列分别输入至融合网络模型；融合网络模型包括K个融合子网络；K为大于1的正整数；

第一融合单元132，用于通过K个融合子网络分别对S个目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到每个融合子网络分别输出的音频帧频谱特征；

第二融合单元133，用于对K个融合子网络分别输出的音频帧频谱特征中，属于相同音频帧时间的音频帧频谱特征进行融合，得到每个音频帧时间分别对应的融合频谱特征；

特征确定单元134，用于将每个音频帧时间分别对应的融合频谱特征确定为目标音频数据中的每个音频帧分别对应的融合频谱特征；每个音频帧分别对应一个音频帧时间。

其中，序列输入单元131，第一融合单元132，第二融合单元133和特征确定单元134的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

副歌识别模块14，用于根据目标音频数据中的每个音频帧分别对应的融合频谱特征，对目标音频数据进行副歌识别，得到目标音频数据中的副歌片段。

其中，副歌识别模块14包括：置信度生成单元141，平滑处理单元142，片段识别单元143；

置信度生成单元141，用于根据目标音频数据中的每个音频帧分别对应的融合频谱特征，生成每个音频帧分别对应的辅助置信度；

平滑处理单元142，用于对每个音频帧分别对应的辅助置信度进行平滑处理，得到每个音频帧分别对应的副歌置信度；

片段识别单元143，用于根据每个音频帧分别对应的副歌置信度，确定目标音频数据中的副歌片段。

其中，置信度生成单元141，平滑处理单元142和片段识别单元143的具体实现方式，可以参见上述图3所对应实施例中对步骤S104的描述，这里将不再进行赘述。

可选的，时长获取模块15，用于获取用于进行音视频融合的目标视频数据的第一播放时长，获取副歌片段的第二播放时长；

第一比较模块16，用于若第一播放时长和第二播放时长不相同，则根据第一播放时长对副歌片段进行缩放处理，得到缩放处理后的副歌片段，将缩放处理后的副歌片段和目标视频数据进行音视频融合，得到第一多媒体数据；

第二比较模块17，用于若第一播放时长和第二播放时长相同，则将副歌片段和目标视频数据进行音视频融合，得到第二多媒体数据。

其中，信源分离模块11，注意力学习模块12，特征融合模块13和副歌识别模块14的具体实现方式，可以参见上述图3所对应实施例中对步骤S101-步骤S104、图9所对应实施例中对步骤S1011-步骤S1014、以及图12所对应实施例中对步骤S1021-步骤S1023的描述，这里将不再进行赘述。其中，时长获取模块15，第一比较模块16和第二比较模块17的具体实现方式，可以参见上述图3所对应实施例中对步骤S104的描述，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图15，图15是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备可以是终端设备或服务器。如图15所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，在一些实施例中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。可选的，网络接口1004可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。可选的，存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图15所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3、图9或图12所对应实施例中对音频数据处理方法的描述，也可执行前文图14所对应实施例中对音频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的音频数据处理装置1所执行的计算机程序，当处理器执行计算机程序时，能够执行前文图3、图9或图12所对应实施例中对音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品，该计算机程序产品可以包括计算机程序，该计算机程序可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器可以执行该计算机程序，使得该计算机设备执行前文图3、图9或图12所对应实施例中对音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据；所述S为正整数；

获取S个所述子音频数据分别对应的初始频谱特征序列，对S个所述初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列；

对S个所述目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到所述目标音频数据中的每个音频帧分别对应的融合频谱特征；

根据所述目标音频数据中的每个音频帧分别对应的融合频谱特征，对所述目标音频数据进行副歌识别，得到所述目标音频数据中的副歌片段。

2.根据权利要求1所述的方法，其特征在于，所述对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据，包括：

获取目标音频数据对应的幅度谱特征，将所述幅度谱特征输入至信源分离模型；所述信源分离模型包括S个声源类型分别对应的声源子网络；

通过S个所述声源子网络分别对所述幅度谱特征进行特征提取，得到每个声源子网络分别输出的子音频候选特征；

对S个所述子音频候选特征进行拼接处理，得到子音频拼接特征；

根据所述子音频拼接特征和所述幅度谱特征，生成所述每个声源类型分别对应的子音频数据。

3.根据权利要求2所述的方法，其特征在于，所述获取目标音频数据对应的幅度谱特征，包括：

对目标音频数据进行频谱转换，得到所述目标音频数据对应的目标频谱数据；所述目标频谱数据包括相位信息和幅度信息；

对所述相位信息进行消除，生成与所述幅度信息相关联的幅度谱特征。

4.根据权利要求2所述的方法，其特征在于，S个所述声源子网络包括声源子网络P_i，所述i为小于或等于所述S的正整数；所述声源子网络P_i包括N个编码网络层、卷积网络层和N个解码网络层；所述N为正整数；

所述通过S个所述声源子网络分别对所述幅度谱特征进行特征提取，得到每个声源子网络分别输出的子音频候选特征，包括：

在所述声源子网络P_i的N个所述编码网络层中，基于所述幅度谱特征生成N个所述编码网络层分别对应的编码幅度谱特征；

在所述声源子网络P_i的所述卷积网络层中，对N个所述编码幅度谱特征中的目标编码幅度谱特征进行下采样处理，得到初始幅度谱特征，对所述初始幅度谱特征进行卷积操作，得到所述卷积网络层输出的目标幅度谱特征；所述目标编码幅度谱特征为N个所述编码网络层中的最后一个编码网络层所输出的编码幅度谱特征；

在所述声源子网络P_i的N个所述解码网络层中，基于N个所述编码幅度谱特征和所述目标幅度谱特征，生成N个所述解码网络层分别对应的解码幅度谱特征；

对N个所述解码幅度谱特征中的目标解码幅度谱特征进行卷积操作，得到所述声源子网络P_i输出的子音频候选特征；所述目标解码幅度谱特征为N个所述解码网络层中的最后一个解码网络层所输出的解码幅度谱特征。

5.根据权利要求4所述的方法，其特征在于，N个所述编码网络层包括编码网络层M_c，所述c为小于或等于所述N的正整数；

所述在所述声源子网络P_i的N个所述编码网络层中，基于所述幅度谱特征生成N个所述编码网络层分别对应的编码幅度谱特征，包括：

若所述编码网络层M_c为N个所述编码网络层中的第一个编码网络层，则在所述编码网络层M_c中，对所述幅度谱特征进行卷积操作，得到所述编码网络层M_c对应的编码幅度谱特征；

若所述编码网络层M_c不为N个所述编码网络层中的第一个编码网络层，则在所述编码网络层M_c中，对编码网络层M_c-1对应的编码幅度谱特征进行下采样处理，得到所述编码网络层M_c对应的下采样幅度谱特征，对所述编码网络层M_c对应的下采样幅度谱特征进行卷积操作，得到所述编码网络层M_c对应的编码幅度谱特征；所述编码网络层M_c-1为所述编码网络层M_c的上一个编码网络层。

6.根据权利要求5所述的方法，其特征在于，N个所述解码网络层包括解码网络层H_e，所述e为小于或等于所述N的正整数；

所述在所述声源子网络P_i的N个所述解码网络层中，基于N个所述编码幅度谱特征和所述目标幅度谱特征，生成N个所述解码网络层分别对应的解码幅度谱特征，包括：

若所述解码网络层H_e为N个所述解码网络层中的第一个解码网络层，则在所述解码网络层H_e中，对所述目标幅度谱特征进行上采样处理，得到所述解码网络层H_e对应的上采样幅度谱特征，对所述解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到所述解码网络层H_e对应的候选幅度谱特征，对所述解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到所述解码网络层H_e对应的解码幅度谱特征；所述编码网络层M_N-e+1为N个所述编码网络层中的第(N-e+1)个编码网络层；

若所述解码网络层H_e不为N个所述解码网络层中的第一个解码网络层，则在所述解码网络层H_e中，对解码网络层H_e-1对应的解码幅度谱特征进行上采样处理，得到所述解码网络层H_e对应的上采样幅度谱特征，对所述解码网络层H_e对应的上采样幅度谱特征和编码网络层M_N-e+1对应的编码幅度谱特征进行融合，得到所述解码网络层H_e对应的候选幅度谱特征，对所述解码网络层H_e对应的候选幅度谱特征进行卷积操作，得到所述解码网络层H_e对应的解码幅度谱特征；所述解码网络层H_e-1为所述解码网络层H_e的上一个解码网络层。

7.根据权利要求2所述的方法，其特征在于，所述根据所述子音频拼接特征和所述幅度谱特征，生成所述每个声源类型分别对应的子音频数据，包括：

根据所述子音频拼接特征中的S个所述子音频候选特征，生成所述每个声源类型分别对应的能量比例；

根据所述幅度谱特征和所述每个声源类型分别对应的能量比例，生成所述每个声源类型分别对应的子音频幅度谱特征；

对所述每个声源类型分别对应的子音频幅度谱特征进行频谱反变换，得到所述每个声源类型分别对应的子音频数据。

8.根据权利要求1所述的方法，其特征在于，S个所述子音频数据包括子音频数据G_j，所述j为小于或等于所述S的正整数；

所述获取S个所述子音频数据分别对应的初始频谱特征序列，包括：

对所述子音频数据G_j进行分帧处理，得到与所述子音频数据G_j相关联的至少两个音频帧；

对所述至少两个音频帧分别进行加窗处理，得到所述至少两个音频帧分别对应的加窗音频帧；

对至少两个加窗音频帧分别进行频谱转换，得到所述至少两个音频帧分别对应音频帧频谱数据；

对至少两个音频帧频谱数据分别进行过滤处理，得到所述至少两个音频帧分别对应的初始频谱特征；

将至少两个初始频谱特征确定为所述子音频数据G_j对应的初始频谱特征序列。

9.根据权利要求1所述的方法，其特征在于，S个所述初始频谱特征序列包括初始频谱特征序列D_z，所述z为小于或等于所述S的正整数；

所述对S个所述初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列，包括：

通过多流式注意力模型对所述初始频谱特征序列D_z分别和L个所述初始频谱特征序列进行注意力学习，得到所述初始频谱特征序列D_z分别针对L个所述初始频谱特征序列的辅助频谱特征序列；所述多流式注意力模型包括特征融合子网络；L个所述初始频谱特征序列是指S个所述初始频谱特征序列中除所述初始频谱特征序列D_z之外的(S-1)个初始频谱特征序列；

通过所述特征融合子网络对L个辅助频谱特征序列进行融合，得到子音频数据G_z对应的目标频谱特征序列；所述子音频数据G_z为所述初始频谱特征序列D_z对应的子音频数据。

10.根据权利要求9所述的方法，其特征在于，L所述个初始频谱特征序列包括初始频谱特征序列D_a，所述a为小于或等于所述S的正整数，所述a不等于所述z；所述多流式注意力模型还包括注意力学习子网络和加权子网络；

所述通过多流式注意力模型对所述初始频谱特征序列D_z分别和L个初始频谱特征序列进行注意力学习，得到所述初始频谱特征序列D_z分别针对L个初始频谱特征序列的辅助频谱特征序列，包括：

通过所述注意力学习子网络对所述初始频谱特征序列D_z中的初始频谱特征和所述初始频谱特征序列D_a中的初始频谱特征进行注意力学习，得到所述初始频谱特征序列D_z中的初始频谱特征针对所述初始频谱特征序列D_a中的初始频谱特征的频谱权重；

在所述加权子网络中，对所述初始频谱特征序列D_z中的初始频谱特征针对所述初始频谱特征序列D_a中的初始频谱特征的频谱权重，以及所述初始频谱特征序列D_a中的初始频谱特征进行加权处理，生成所述初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征；

对所述初始频谱特征序列D_a中的初始频谱特征对应的候选频谱特征进行融合，得到所述初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征；

将所述初始频谱特征序列D_z中的初始频谱特征对应的辅助频谱特征，确定为所述初始频谱特征序列D_z针对所述初始频谱特征序列D_a的辅助频谱特征序列。

11.根据权利要求10所述的方法，其特征在于，所述初始频谱特征序列D_z中的初始频谱特征的数量为至少两个，所述初始频谱特征序列D_z中的至少两个初始频谱特征包括初始频谱特征Q_b，所述b为正整数；所述注意力学习子网络包括第一全连接网络层、第二全连接网络层和相似度网络层；

所述通过所述注意力学习子网络对所述初始频谱特征序列D_z中的初始频谱特征和所述初始频谱特征序列D_a中的初始频谱特征进行注意力学习，得到所述初始频谱特征序列D_z中的初始频谱特征针对所述初始频谱特征序列D_a中的初始频谱特征的频谱权重，包括：

通过所述第一全连接网络层对所述初始频谱特征Q_b进行全连接处理，得到所述初始频谱特征Q_b对应的全连接频谱特征；

通过所述第二全连接网络层对所述初始频谱特征序列D_a中的初始频谱特征进行全连接处理，得到所述初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征；

通过所述相似度网络层确定所述初始频谱特征Q_b对应的全连接频谱特征，以及所述初始频谱特征序列D_a中的初始频谱特征对应的全连接频谱特征之间的空间相似度，将所述空间相似度确定为所述初始频谱特征Q_b针对所述初始频谱特征序列D_a中的初始频谱特征的频谱权重。

12.根据权利要求1所述的方法，其特征在于，所述对S个所述目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到所述目标音频数据中的每个音频帧分别对应的融合频谱特征，包括：

将S个所述目标频谱特征序列分别输入至融合网络模型；所述融合网络模型包括K个融合子网络；所述K为大于1的正整数；

通过K个所述融合子网络分别对S个所述目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到每个融合子网络分别输出的音频帧频谱特征；

对K个所述融合子网络分别输出的音频帧频谱特征中，属于相同音频帧时间的音频帧频谱特征进行融合，得到每个音频帧时间分别对应的融合频谱特征；

将所述每个音频帧时间分别对应的融合频谱特征确定为所述目标音频数据中的每个音频帧分别对应的融合频谱特征；所述每个音频帧分别对应一个音频帧时间。

13.根据权利要求1所述的方法，其特征在于，所述根据所述目标音频数据中的每个音频帧分别对应的融合频谱特征，对所述目标音频数据进行副歌识别，得到所述目标音频数据中的副歌片段，包括：

根据所述目标音频数据中的每个音频帧分别对应的融合频谱特征，生成所述每个音频帧分别对应的辅助置信度；

对所述每个音频帧分别对应的辅助置信度进行平滑处理，得到所述每个音频帧分别对应的副歌置信度；

根据所述每个音频帧分别对应的副歌置信度，确定所述目标音频数据中的副歌片段。

14.根据权利要求13所述的方法，其特征在于，所述对所述每个音频帧分别对应的辅助置信度进行平滑处理，得到所述每个音频帧分别对应的副歌置信度，包括：

根据所述每个音频帧的音频帧帧长，在所述目标音频数据中确定至少两个音频检测时间段；每个音频检测时间段包括至少两个音频帧；

对所述每个音频检测时间段内的至少两个音频帧分别对应的辅助置信度进行运算处理，得到所述每个音频检测时间段分别对应的候选置信度；

根据所述每个音频检测时间段分别对应的候选置信度，对所述每个音频检测时间段内的至少两个音频帧分别对应的辅助置信度进行调整，得到所述每个音频帧分别对应的副歌置信度。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于进行音视频融合的目标视频数据的第一播放时长，获取所述副歌片段的第二播放时长；

若所述第一播放时长和所述第二播放时长不相同，则根据所述第一播放时长对所述副歌片段进行缩放处理，得到缩放处理后的副歌片段，将所述缩放处理后的副歌片段和所述目标视频数据进行音视频融合，得到第一多媒体数据；

若所述第一播放时长和所述第二播放时长相同，则将所述副歌片段和所述目标视频数据进行音视频融合，得到第二多媒体数据。

16.一种音频数据处理装置，其特征在于，包括：

信源分离模块，用于对目标音频数据进行信源分离，得到S个声源类型中每个声源类型分别对应的子音频数据；所述S为正整数；

注意力学习模块，用于获取S个所述子音频数据分别对应的初始频谱特征序列，对S个所述初始频谱特征序列进行注意力学习，得到每个子音频数据分别对应的目标频谱特征序列；

特征融合模块，用于对S个所述目标频谱特征序列中属于相同音频帧时间的目标频谱特征进行融合，得到所述目标音频数据中的每个音频帧分别对应的融合频谱特征；

副歌识别模块，用于根据所述目标音频数据中的每个音频帧分别对应的融合频谱特征，对所述目标音频数据进行副歌识别，得到所述目标音频数据中的副歌片段。

17.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-15任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-15任一项所述的方法。