CN115083435B

CN115083435B - 音频数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN115083435B
Application number: CN202210895424.3A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-04
Anticipated expiration: 2042-07-28
Also published as: WO2024021882A1; CN115083435A

Abstract

本申请涉及一种音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括：将待处理音频数据划分，得到各个子音频；对各个子音频进行时域特征和频域特征提取，得到各个子音频对应的时域特征和频域特征；基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；基于目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，基于音频语义特征进行音乐分类，得到各个子音频对应的音乐可能性；基于音乐可能性确定各个音乐片段的音乐语义特征；基于音乐语义特征进行音乐片段分类，得到同类音乐片段集。采用本方法提高了同类音乐片段集的准确性。

Description

音频数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着音视频平台的发展，出现了音视频拆分集锦技术，音视频拆分集锦通常是通过对长视频中同类的音频片段进行识别，然后将同类音频片段对应的音视频从长视频中拆分后进行合并，得到集锦的同类音视频。比如，对节日晚会长视频中的同一歌手的多个演唱节目进行拆分集锦。目前，对同类的音频片段进行识别，通常是将长视频音频输入到音频编码网络中，然后输出对整条音频的编码特征向量序列，然后对整条音频的编码特征向量序列进行聚类，将相似的音频特征向量聚类成为簇，从而确定同类音频片段，然后进行拆分集锦。然而，对整条音频进行编码得到的特征准确性低，从而降低了同类音频片段识别的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高特征提取准确性，进而提高同类音频识别准确性的音频数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种音频数据处理方法。所述方法包括：

获取待处理音频数据，将待处理音频数据进行划分，得到各个子音频；

对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征；

对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征；

基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；

基于各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性；

基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征；

基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。

第二方面，本申请还提供了一种音频数据处理装置。装置包括：

数据获取模块，用于获取待处理音频数据，将待处理音频数据进行划分，得到各个子音频；

时域特征提取模块，用于对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征；

频域特征提取模块，用于对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征；

特征交互模块，用于基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；

音乐识别模块，用于基于各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性；

特征确定模块，用于基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征；

同类片段识别模块，用于基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述音频数据处理方法、装置、计算机设备、存储介质和计算机程序产品，通过将待处理音频数据进行划分，得到各个子音频。对各个子音频分别进行时域特征提取，得到中间时域特征和目标时域特征，并对各个子音频分别进行频域特征提取，得到中间频域特征和目标频域特征。然后使用各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特，通过特征交互不但能够使得到的目标交互特征具备时域和频域之间的互补信息，而且能够使目标交互特征具备底层特征的信息。然后使用各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，从而使提取的音频语义特征不仅能够顾到时域信息和频域信息，同时能够使提取得到音频语义特征能够极大的保留音频原始特性。然后基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性，从而能够提高音乐分类识别的准确性。然后基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征；基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集，从而提高了进行音乐片段分类识别的准确性，提高了得到的同类音乐片段集的准确性。

附图说明

图1为一个实施例中音频数据处理方法的应用环境图；

图2为一个实施例中音频数据处理方法的流程示意图；

图3为一个实施例中得到同类音乐片段集的流程示意图；

图4为一个具体实施例中序列转换模型的网络架构示意图；

图5为一个具体实施例中分类聚合的示意图；

图6为一个具体实施例中空间相似性计算的示意图；

图7为一个实施例中得到目标交互特征的流程示意图；

图8为一个实施例中得到音乐可能性的流程示意图；

图9为另一个实施例中得到音乐可能性的流程示意图；

图10为又一个实施例中得到音乐可能性的流程示意图；

图11为一个具体实施例中音乐分类识别模型的网络架构示意图；

图12为一个实施例中音乐分类识别模型训练的流程示意图；

图13为一个具体实施例中音频数据处理方法的流程示意图；

图14为一个具体实施例中音频数据处理的应用场景示意图；

图15为一个具体实施例中同类节目集锦的效果示意图；

图16为一个实施例中音频数据处理装置的结构框图；

图17为一个实施例中计算机设备的内部结构图；

图18为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请实施例提供的方案涉及人工智能的语音识别、视频处理等技术，具体通过如下实施例进行说明:

本申请实施例提供的音频数据处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。服务器104可以从数据存储系统中获取待处理音频数据，将待处理音频数据进行划分，得到各个子音频；服务器104对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征；服务器104对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征；服务器104基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；基于各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性；服务器104基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征；服务器104基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。服务器104可以将同类音乐片段集发送到终端102中进行展示。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。

在一个实施例中，如图2所示，提供了一种音频数据处理方法，以该方法应用于图1中的服务器为例进行说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤202，获取待处理音频数据，将待处理音频数据进行划分，得到各个子音频。

其中，待处理音频数据是指需要拆分同类音频的音频数据，该待处理音频数据可以是音频信号的原始序列，比如，是可以是音频采样点序列。子音频是指待处理音频数据中的音频段，比如，子音频可以是音频帧。

具体地，服务器可以从数据库中获取到待处理音频数据。服务器可以是从终端中获取到上传的待处理音频数据。服务器也可以是从业务服务方获取到待处理音频数据。服务器还可以是从提供数据服务的服务方获取到待处理音频数据。然后，将待处理音频数据进行划分，得到各个子音频，其中，可以将待处理音频数据进行分帧，可以按照预先设置好的时间段或者采样数进行分段，得到各个视频帧，将各个视频帧作为各个子音频。

步骤204，对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征。

其中，时域特征是指用于表征子音频时域信息的语义特征。中间时域特征是指在进行目标时域特征提取过程中的提取得到的语义特征。目标时域特征是指最终提取得到的子音频对应的时域特征。

具体地，服务器可以子音频进行多次卷积运算，每次卷积运算输出中间时域特征，并将中间时域特征作为下一次卷积运算的输入，直达卷积运算完成时，将最后一次卷积运算的结果作为目标时域特征。服务器依次遍历每个子音频，集对每个子音频都进行时域特征提取，得到每个子音频对分别对应的中间时域特征和目标时域特征。

步骤206，对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征。

其中，频域特征是指用于表征子音频的频域信息的语义特征。中间频域特征是指在进行目标频域特征提取过程中的提取得到的语义特征。目标频域特征是指最终提取得到的子音频对应的频域的语义特征。

具体地，服务器可以子音频进行多次卷积运算，每次卷积运算输出中间频域特征，并将中间频域特征作为下一次卷积运算的输入，直达卷积运算完成时，将最后一次卷积运算的结果作为目标频域特征。服务器依次遍历每个子音频，集对每个子音频都进行频域特征提取，得到每个子音频对分别对应的中间频域特征和目标频域特征。

步骤208，基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征。

其中，特征交互用于使中间时域特征与对应的中间频域特征进行音频信息的交流，提高音频识别的鲁棒性，能够提取出更高级的语义信息特征。目标交互特征是指将音频时域语义信息和音频频域语义信息进行交互后得到的语义特征。

具体地，服务器使用子音频对应的中间时域特征和中间频域特征进行合并融合计算，得到该子音频对应的目标交互特征，服务器对每个子音频对应的中间时域特征和中间频域特征都进行合并融合计算，得到每个子音频对应的目标交互特征。

步骤210，基于各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性。

其中，音频语义特征是指将时域语义信息、频域语义信息以及交互信息进行聚合后得到的语义特征。每个子音频都有对应的音频语义特征。该音频语义特征具备更多的语义信息。音乐分类识别是指对音频进行是否为音乐音频的二分类识别，包括音乐音频和非音乐音频，其中，音乐音频是指音乐对应的音频，非音乐音频是指除音乐以外的音频。音乐可能性用于标注对应子音频为音乐音频的可能性，该音乐可能性越高，对应子音频为音乐音频的可能性就越高，当音乐可能性越低，对应子音频为非音乐音频的可能性就越高。

具体地，服务器使用每个子音频对应的目标时域特征、目标频域特征和目标交互特征进行音频语义特征聚合运算，得到聚合语义信息后的特征，即得到每个子音频对应的音频语义特征。然后，服务器使用音频语义特征进行音乐二分类识别，识别该子音频是否为音乐音频或者为非音乐音频，得到每个子音频对应的音乐可能性。

步骤212，基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征。

其中，音乐片段是指由各个相连的音乐音频进行合并得到的音频片段。该音乐音频是音乐可能性超过预设音乐可能性阈值的子音频。预设音乐可能性阈值是指预先设置好的子音频为音乐音频时的可能性阈值。音乐语义特征用于表征音乐片段的语义信息，是根据各个音乐音频对应的音频语义特征合并得到的。

具体地，服务器将每个子音频对应的音乐可能性与预设音乐可能性阈值进行比较，当音乐可能性超过预设音乐可能性阈值时，该音乐可能性对应的子音频为音乐音频。然后按照时间顺序将待处理音频数据中能够连接起来的音乐音频合并为音乐片段，得到各个音乐片段。然后将音乐片段中每个音乐音频对应的音频语义特征进行合并，得到音乐片段对应的音乐语义特征，遍历音乐片段得到每个音乐片段对应的音乐语义特征。

步骤214，基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。

其中，音乐片段分类识别用于识别音乐片段是否为同类音乐片段。同类音乐片段集中包括各个同类音乐片段，同类音乐片段是指相似度超过预设相似阈值的音乐片段，比如，相似度超过预设相似阈值的各个音乐片段时，可以是同一个人的不同歌唱音频片段。或者相似度超过预设相似阈值的各个音乐片段时，可以是同类型节目的音乐片段。

具体地，服务器使用各个音乐片段对应的音乐语义特征对各个音乐片段进行聚类，得到至少一个同类音乐片段集，其中，可以通过计算音乐语义特征的相似度来对各个音乐片段进行聚类。

上述音频数据处理方法，通过将待处理音频数据进行划分，得到各个子音频。对各个子音频分别进行时域特征提取，得到中间时域特征和目标时域特征，并对各个子音频分别进行频域特征提取，得到中间频域特征和目标频域特征。然后使用各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特，通过特征交互不但能够使得到的目标交互特征具备时域和频域之间的互补信息，而且能够使目标交互特征具备底层特征的信息。然后使用各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，从而使提取的音频语义特征不仅能够顾到时域信息和频域信息，同时能够使提取得到音频语义特征能够极大的保留音频原始特性。然后基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性，从而能够提高音乐分类识别的准确性。然后基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征；基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集，从而提高了进行音乐片段分类识别的准确性，提高了得到的同类音乐片段集的准确性。

在一个实施例中，如图3所示，步骤214，即基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集，包括：

步骤302，基于各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征。

其中，序列转换编码是指通过序列转换模型中的编码神经网络进行编码。序列转换模型可以是在transformer（从序列到序列的转换模型）模型网络架构基础上建立得到的。聚合编码特征是指进行序列转换编码后得到的聚合语义信息的编码特征。

具体地，服务器预先建立初始序列转换模型，然后对初始序列转换模型中的初始序列转换参数进行训练，当训练完成时，得到序列转换模型，其中，可以从提供数据服务的服务方获取到训练数据集，该训练数据集中包括训练输入数据和训练标签数据，训练输入数据是转换前的特征向量序列，训练标签数据是转换后的特征向量序列，将转换前的特征向量序列输入到初始序列转换模型中得到输出的初始转换特征向量序列，然后计算初始转换特征向量序列与训练标签数据之间的误差，基于该误差反向更新初始序列转换模型中的参数，得到更新后的序列转换模型，并不断进行训练迭代，直到达到最大迭代次数或者模型误差小于预设阈值时，得到训练完成的序列转换模型。在一个具体的实施例中，服务器也可以直接获取到开源的模型参数，得到序列转换模型。

服务器依次对每个音乐片段对应的音乐语义特征进行序列转换，得到每个音乐片段对应的目标音乐语义特征。其中，服务器将当前要进行序列转换的当前音乐片段对应的音乐语义特征，该音乐语义特征是一个具备时间序列信息的特征，将当前音乐片段对应的音乐语义特征序列转换模型中先通过解码神经网络进行编码，得到输出的聚合编码特征，然后遍历每个音乐片段对应的音乐语义特征，得到每个音乐片段对应的聚合编码特征。

步骤304，使用聚合编码特征和各个子音频对应的音乐可能性进行序列转换解码，得到各个音乐片段对应的目标音乐语义特征。

其中，序列转换解码是指通过序列转换模型中的解码神经网络进行解码。

具体地，服务器从各个子音频对应的音乐可能性中获取到当前音乐片段对应的子音频的音乐可能性。然后将当前音乐片段对应的聚合编码特征和当前音乐片段对应的子音频的音乐可能性作为一个特征向量序列输入到序列转换模型的解码神经网络中进行解码，得到输出的当前音乐片段对应的目标音乐语义特征。服务器依次遍历每个音乐片段，得到所有音乐片段对应的目标音乐语义特征。

步骤306，基于各个音乐片段对应的目标音乐语义特征对各个音乐片段进行分类识别，得到同类音乐片段集。

具体地，服务器可以使用聚类算法对各个音乐片段对应的目标音乐语义特征进行聚类，得到各个聚类后的音乐片段，将每一个类别的音乐片段作为同类音乐片段，得到该类别的音乐片段集。其中，聚类算法可以是基于原型的聚类算法、基于密度的聚类算法、基于层次的聚类算法和基于神经网络模型的聚类算法等。

在一个具体的实施例中，如图4所示，提供一种序列转换模型的网络架构示意图，其中，该序列转换模型包括编码网络和解码网络，该编码网络中包括6个编码器，该解码网络中包括6个解码器。编码器包括多头注意力网络和前馈神经网络，解码器包括遮盖多头注意力网络、多头注意力网络和前馈神经网络，神经网络之间通过残差和归一化进行连接。通过将各个音乐片段对应的音乐语义特征输入到编码网络中进行编码，得到输出的各个音乐片段对应的聚合编码特征，然后将各个音乐片段对应的聚合编码特征以及各个子音频对应的音乐可能性输入到解码网络中进行解码，得到各个音乐片段对应的目标音乐语义特征。即通过使用各个子音频对应的音乐可能性作为解码网络共同的输入，能够之间学习到音乐分类结果的信息，从而提升序列转换模型输出特征向量的语义表征，能够加大不同音乐片段之间的空间距离。

在一个实施例中，步骤302，基于各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征，包括步骤：

提取各个子音频分别对应的基础音频特征，从各个子音频分别对应的基础音频特征中确定各个音乐片段对应的音乐片段基础特征；将各个音乐片段对应的音乐片段基础特征分别与对应的音乐语义特征进行合并，得到各个音乐片段对应的目标融合特征；将各个音乐片段对应的目标融合特征输入到序列转换模型的编码网络中进行编码，得到输出的目标聚合编码特征。

其中，基础音频特征是指音频基础的特征，可以是通过mel（梅尔）频率进行计算得到的频域频谱。mel频率是指一种基于人耳对等距的音高(pitch)变化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度。音乐片段基础特征是指音乐片段对应的基础音频特征，是将音乐片段对应的各个子音频的基础音频特征进行合并得到的。目标融合特征是指融合了基础信息后的特征。特征可以是以向量序列的形式表示。目标聚合编码特征是指融合了基础信息后的聚合编码特征。

具体地，服务器提取各个子音频分别对应的基础音频特征，然后将每个音乐片段对应的子音频的基础音频特征进行合并，得到每个音乐片段对应的音乐片段基础特征，其中，可以是将每个音乐片段对应的子音频的基础音频特征进行首尾拼接。然后再将每个音乐片段对应的音乐片段基础特征分别与每个音乐片段对应的音乐语义特征进行首尾拼接，得到每个音乐片段对应的目标融合特征，最后将每个音乐片段对应的目标融合特征依次输入到序列转换模型的编码网络中参数进行编码，得到输出的目标聚合编码特征。

在上述实施例中，通过将音乐片段基础特征分别与对应的音乐语义特征进行合并后进行编码，能够进一步提升输出的目标聚合编码特征的准确性，进而提高了得到的目标音乐语义特征的准确性。

在一个实施例中，步骤306，基于各个音乐片段对应的目标音乐语义特征对各个音乐片段进行分类识别，得到同类音乐片段集，包括步骤：

使用各个音乐片段对应的目标音乐语义特征计算各个音乐片段之间的空间相似性；基于各个音乐片段之间的空间相似性进行分类聚合，得到同类音乐片段集。

其中，空间相似性又称空间距离，空间相似性是通过测量两个向量的夹角的余弦值来度量它们之间的相似性。空间0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量在空间上的相似性，也就是两个向量的空间夹角和方向重合度。两个向量有相同的指向，相似度高时，余弦相似度的值为1；两个向量空间夹角为90°相似度低时，余弦相似度的值为0；两个向量指向完全相反的方向完全不相似时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。

具体地，服务器使用每个音乐片段对应的目标音乐语义特征进行两两计算，即从各个音乐片段对应的目标音乐语义特征不放回选取第一目标音乐语义特征和第二目标音乐语义特征，然后计算第一目标音乐语义特征和第二目标音乐语义特征之间的空间相似性，服务器遍历计算所有的目标音乐语义特征之间的空间相似性，然后将所有的空间相似性进行分类聚合，将空间相似性超过预先阈值的目标音乐语义特征对应的音乐片段聚合为同类音乐片段集。

在一个具体的实施例中，如图5所示，为通过空间相似性进行分类聚合的示意图，其中，获取到n（正整数）个音乐片段对应的n个目标音乐语义特征对应的特征向量，然后两两计算空间相似性，如图6所示，为空间相似性计算的示意图，通过该示意图，能够看到两个目标音乐语义特征向量在空间上的方向是否为一致，能够通过计算余弦夹角来对两个向量进行空间上的相似性衡量。其中，可以使用公式（1）来计算空间相似性。

公式（1）

其中，A表示目标音乐语义特征向量，B表示另一个目标音乐语义特征向量。dist （A，B）表示计算A与B的空间相似性，

表示A的模长，

表示B的模长。

然后根据预先设置好的空间相似性阈值进行筛选，从而能够据相似性来对所有的目标音乐语义特征向量进行分类聚合，从而对不同音乐片段进行分属归类，得到各个同类音乐片段集。

在上述实施例中，通过计算空间相似性进行分类聚合，摆脱对聚类中簇心数量设定的依赖，从而能够提高得到的同类音乐片段集的效率和准确性。

在一个实施例中，步骤204，对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征，包括步骤：

对各个子音频分别进行时域卷积运算，得到各个子音频对应的至少两个中间卷积特征和最终卷积特征；将至少两个中间卷积特征进行频域维度转换，得到各个子音频对应的至少两个中间时域特征；将最终卷积特征进行频域维度转换，得到各个子音频对应的目标时域特征。

其中，时域卷积运算是指用于学习音频时域信息的卷积运算。最终卷积特征是指最后一次卷积运算得到的卷积特征。中间卷积特征是指除最后一次卷积运算之外的其它卷积运算得到的卷积特征。比如，有两次时域卷积运算时，第一次时域卷积运算得到中间卷积特征，然后使用中间卷积特征进行第二次卷积运算，得到的是最终卷积特征。频域维度转换是指将时域特征转换为与频域特征相同维度的过程。

具体地，服务器对每个子音频分别进行时域卷积运算，得到每个子音频对应的至少两个中间卷积特征和最后一次卷积运算得到的最终卷积特征。然后将每个中间卷积特征进行频域维度转换，得到各个子音频对应的至少两个中间时域特征，同时将最终卷积特征进行频域维度转换，得到各个子音频对应的目标时域特征。

在一个具体的实施例中，服务器将各个子音频依次输入到大量的一维卷积层中进行卷积运算，不同的卷积层有不同的卷积参数，得到输出的一维的卷积特征序列，然后将一维的卷积特征序列转换为二维图谱，得到目标时域特征，同时，获取到每一个卷积层输出的一维中间卷积特征，将一维中间卷积特征转换为二维图谱，得到各个中间时域特征。比如，一维的卷积特征序列为[1,2,3,4,5,6,7,8,9]，然后进行转换为二维图谱，如果频域特征的维度为3X3的二维图谱，则准会得到的目标时域特征为[[1,2,3],[4,5,6],[7,8,9]]，即为一个3X3的二维图谱，该转换过程可以表征为从时域到频域的变换。其中，通过在时域信号中使用大量的卷积层直接学习到音频信号的时域特性，包括音频响度和采样点幅度的信息。然后再把生成的一维序列resize成为一个二维图谱，从而可以将时域特征能够频域特征进行相结合。

在一个实施例中，步骤206，对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征，包括：

提取各个子音频分别对应的基础音频特征；对各个子音频分别对应的基础音频特征进行频域卷积运算，得到各个子音频对应的至少两个中间频域特征和目标频域特征。

其中，频域卷积运算是指用于学习音频频域信息的卷积运算

具体地，服务器提取到每个子音频分别对应的基础音频特征，然后对每个基础音频特征分别进行多次的频域卷积运算，可以使用卷积神经网络进行卷积运算，其中，频域卷积运算的次数和时域卷积运算的次数相同，即每个时域卷积特征都有对应的频域卷积特征。最后一次频域卷积运算得到目标频域特征，其它的频域卷积运算得到中间频域特征，最终得到各个子音频对应的至少两个中间频域特征和目标频域特征。

在一个具体的实施例中，服务器获取到每个子音频信号，然后计算每个子音频信号对应的频域频谱，可以是log-mel（对数梅尔）频谱，采用的是梅尔频率。然后将频域频谱输入到多个二维卷积层中，输出得到与时域特征同维度的频域特征图。

在上述实施例中，通过提取各个子音频分别对应的基础音频特征；然后基础音频特征进行频域卷积运算，得到各个子音频对应的至少两个中间频域特征和目标频域特征，提高了得到的频域特征的准确性。

在一个实施例中，中间时域特征包括至少两个，中间频域特征包括至少两个；

如图7所示，步骤208，基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征，包括：

步骤702，将至少两个中间时域特征中第一中间时域特征与至少两个中间频域特征中对应的第一中间频域特征进行合并，得到第一合并特征，基于第一合并特征进行卷积运算，得到第一交互特征。

其中，合并特征是指将特征按照在通道或特征维度上进行拼接后得到的特征。交互特征是指进行特征交互之后得到的特征。

具体地，服务器获取到第一中间时域特征和对应的第一中间频域特征，该第一中间时域特征和对应的第一中间频域特征，都是通过第一个卷积层卷积运算得到的。然后将第一中间时域特征和对应的第一中间频域特征在通道或特征维度上进行拼接，得到第一合并特征。然后对第一合并特征使用卷积参数进行卷积运算，得到输出的第一交互特征。

步骤704，将第一交互特征、至少两个中间时域特征中第二中间时域特征与至少两个中间频域特征中对应的第二中间频域特征进行合并，得到第二合并特征，基于第二合并特征进行卷积运算，得到第二交互特征。

具体地，服务器在进行下一次的中间时域特征和中间频域特征的合并时，将上一次得到的第一交互特征一起进行合并，得到第二合并特征。然后对第二合并特征使用卷积参数进行卷积运算，得到第二交互特征。

步骤706，遍历至少两个中间时域特征和至少两个中间频域特征完成时，得到目标交互特征。

具体地，服务器依次对每个中间时域特征和对应的中间频域特征进行特征交互，即获取到上一次的交互特征，将上一次的交互特征与当前的中间时域特征和中间频域特征进行合并，然后使用卷积参数对合并特征进行卷积运算，得到当前的交互特征。直到最后一次进行特征交互时，将一次的交互特征与最后的中间时域特征和最后的中间频域特征进行合并，得到最后的合并特征，将最后的合并特征使用卷积参数进行卷积运算，得到输出的目标合并特征。

在上述实施例中，通过将中间时域特征和对应的中间频域特征进行特征交互，能够让时域和频域保持信息上的互补，同时还能够让高层网络感知到底层网络信息，从而使得到的目标合并特征能够更加的精确。

在一个实施例中，如图8所示，步骤210，基于各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性，包括：

步骤802，将各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行合并，得到各个子音频对应的目标合并特征。

步骤804，基于各个子音频对应的目标合并特征进行卷积运算，得到各个子音频对应的目标卷积特征。

其中，目标合并特征是指将目标时域特征、目标频域特征和目标交互特征进行合并后得到的特征。目标卷积特征是指对目标合并特征进行卷积运算得到的特征。

具体地，服务器依次将每个子音频对应的目标时域特征、目标频域特征和目标交互特征按照通道或特征维度进行拼接后得到每个子音频对应的目标合并特征。将每个子音频对应的目标合并特征输入到卷积神经网络即卷积层中使用卷积参数进行卷积运算，输出每个子音频对应的目标卷积特征。

步骤806，基于各个子音频对应的目标卷积特征计算目标卷积特征中每个特征维度对应的最大特征值和平均特征值。

步骤808，计算最大特征值与平均特征值的和，得到目标卷积特征中每个特征维度对应的语义提取特征值，基于目标卷积特征中每个特征维度对应的语义提取特征值，得到各个子音频对应的语义提取特征。

其中，最大特征值是指该特征维度对应的所有特征值中的最大特征值。平均特征值是指该特征维度对应的所有特征值的平均。语义提取特征值是指提取得到的用于表征音频语义信息的特征值。

具体地，服务器依次计算每个子音频对应的语义提取特征。获取当前要计算的子音频对应的目标卷积特征，然后确定该目标卷积特征中每个特征维度对应的最大特征值和平均特征值，即计算每个特征维度对应的所有特征值的平均特征值和最大特征值。然后计算最大特征值与平均特征值的和，得到目标卷积特征中每个特征维度对应的语义提取特征值，将每个特征维度对应的语义提取特征值作为当前子音频对应的语义提取特征。在一个具体的实施例中，目标卷积特征可以是 [[1,2,3],[3,4,5]]，然后计算每个特征维度的最大值，得到[3,4,5]，再计算每个特征维度的平均值得到[2,3,4]，最后将每个特征维度的最大值和平均值相加，得到语义提取特征[5,7,9]。

步骤810，将各个子音频对应的语义提取特征进行线性激活，得到各个子音频对应的音频语义特征。

步骤812，使用各个子音频对应的音频语义特征进行音乐音频和非音乐音频的二分类识别，得到各个子音频对应的音乐可能性。

具体地，服务器依次将每个子音频对应的语义提取特征使用线性激活函数进行线性激活，得到各个子音频对应的音频语义特征，然后使用音频语义特征通过分类函数进行音乐音频和非音乐音频的二分类识别，得到各个子音频对应的音乐可能性。比如，可以使用RELU（Linear rectification function，线性整流函数）线性激活函数进行线性激活，然后再使用softmax（softmax用于分类过程中，将神经元的输出，映射到(0,1)区间内）进行音乐音频和非音乐音频的二分类识别，得到输出的子音频为音乐类别的概率，得到该子音频为音乐音频的可能性。

在上述实施例中，通过计算最大特征值与平均特征值，使用最大特征值与平均特征值得到语义提取特征。由于最大特征值能够表示最有表征性的信息，平均特征值能够保持整个图层的信息，从而能够使提取得到的音频语义特征提高的准确性，然后使用音频语义特征进行二分类识别，从而提高了得到的音乐可能性的准确性。

在一个实施例中，如图9所示，音频数据处理方法，还包括：

步骤902，将待处理音频数据输入到音乐分类识别模型中，通过音乐分类识别模型将待处理音频数据进行划分，得到各个子音频；

步骤904，通过音乐分类识别模型对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征；对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征；

步骤906，通过音乐分类识别模型对各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；

步骤908，通过音乐分类识别模型对各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性。

其中，音乐分类识别模型用于对音频数据进行是否为音乐和非音乐的二分类识别。该音乐分类识别模型是预先使用交叉熵损失函数进行训练得到的，该音乐分类识别模型是使用神经网络建立的，该神经网络可以是卷积神经网络或者全连接神经网络或者循环神经网络等。该音乐分类识别模型可以是使用训练音频数据和对应的训练标签进行训练的。

具体地，服务器预先训练好音乐分类识别模型，然后将音乐分类识别模型进行部署并使用。当需要使用时，调用音乐分类识别模型对音频数据进行音乐分类识别。即获取到待处理音频数据，将待处理音频数据输入到音乐分类识别模型中，该音乐分类识别模型是一个双分支的神经网络，即音乐分类识别模型通过该双分同时提取待处理音频数据对应的目标频域特征和目标时域特征，同时进行特征交互，即使提取得到的中间频域特征和中间时域特征进行特征交互，得到目标交互特征，然后根据得到的目标频域特征、目标时域特征和目标交互特征进一步提取语义特征，最后根据提取得到的语义特征进行音乐分类识别。

在上述实施例中，通过使用音乐分类识别模型来进行音乐分类识别，得到各个子音频对应的音乐可能性，能够提高音乐分类识别的效率。

在一个实施例中，音乐分类识别模型包括时域特征提取分支网络、频域特征提取分支网络、特征交互网络、音频语义特征提取网络和分类识别网络；如图10所示，音频数据处理方法，还包括：

步骤1002，将待处理音频数据输入到音乐分类识别模型中，通过音乐分类识别模型将待处理音频数据进行划分，得到各个子音频；

步骤1004，将各个子音频输入到时域特征提取分支网络中进行时域特征提取，得到输出的中间时域特征和目标时域特征；

步骤1006，并将各个子音频输入到频域特征提取分支网络中进行频域特征提取，得到输出的中间频域特征和目标频域特征；

步骤1008，并将各个子音频对应的中间时域特征和中间频域特征输入到特征交互网络中进行特征交互，得到各个子音频对应的目标交互特征；

步骤1010，将各个子音频对应的目标时域特征、目标频域特征和目标交互特征输入到音频语义特征提取网络进行语义特征提取，得到各个子音频对应的音频语义特征，并将音频语义特征输入到分类识别网络进行音乐分类识别，得到各个子音频对应的音乐可能性。

其中，时域特征提取分支网络是用于对音频的时域特征进行提取的神经网络。频域特征提取分支网络是用于对音频的频域特征进行提取的神经网络。特征交互网络是指对中间频域特征和中间时域特征进行特征交互的神经网络。音频语义特征提取网络是用于提取音频的语义特征的神经网络。分类识别网络是用于进行音乐和非音乐二分类的神经网络。

具体地，服务器将各个子音频输入到时域特征提取分支网络中进行时域特征提取，即通过时域特征提取分支网络中的卷积层输出时域特征，其中，通过最后一个卷积层输出目标时域特征，通过其它卷积层输出中间时域特征。同时将各个子音频输入到频域特征提取分支网络中进行频域特征提取，即通过频域特征提取分支网络中的卷积层输出频域特征，其中，通过最后一个卷积层输出目标频域特征，通过其它卷积层输出中间频域特征。时域特征提取分支网络和频域特征提取分支网络中卷积层的数量相同。通过特征交互网络对中间时域特征和中间频域特征进行特征交互，得到目标交互特征，然后通过音频语义特征提取网络进行音频语义特征提取后再通过分类识别网络进行音乐分类识别，得到各个子音频对应的音乐可能性。

在一个具体的实施例中，如图11所示，提供一种音乐分类识别模型的网络架构示意图，该音乐分类识别模型使用的是一个双流型的网络架构，具体来说：该音乐分类识别模型分类两个支路，获取待处理音频数据，即原始音频采样点序列，计算原始音频采样点序列对应的频域频谱，可以是梅尔频谱。然后将原始音频采样点序列输入到左侧时域卷积神经网络支路中，同时将梅尔频谱输入到右侧频域卷积神经网络支路中。其中，左侧时域卷积神经网络支路中使用了大量的一维卷积层，经过大量的一维卷积层，每个一维卷积层中通过一维卷积块进行一维卷积运算，并进行步幅为4（S=4）的一维最大池化，得到最终输出的一维卷积特征，然后将最终输出的一维卷积特征转换成为一个二维图谱wavegram，得到目标时域特征，该目标时域特征是一个二维图谱。其中，可以使用reshape函数进行转换。reshape函数是将指定的矩阵变换成特定维数矩阵一种函数。右侧频域卷积神经网络支路中使用了大量的二维卷积层，经过大量的二维卷积层，每个二维卷积层中通过二维卷积块进行二维卷积运算，得到最终输出的目标频域特征，该目标频域特征是与目标时域特征同维度的特征图。并且，左侧时域卷积神经网络支路和右侧频域卷积神经网络支路的中部位置存在着多次两个分支的信息交流。即将左侧时域卷积神经网络支路中一维卷积层输出的中间卷积特征使用reshape函数进行转换，得到中间时域特征，然后与右侧频域卷积神经网络支路中二维卷积层输出的中间频域特征进行concat（合并），得到合并后的特征，然后将合并后的特征输入到二维卷积块中进行二维卷积，得到输出的当前交互特征。然后将当前交互特征作为下一次合并时的输入与下一次合并时的中间时域特征和中间频域特征进行合并，并不断进行信息交流，直达最后得到目标交互特征。然后将目标交互特征、目标频域特征是和目标时域特征进行叠加，共同组成一组二维频域特征图。将该组二维频域特征图输入到二维卷积神经网络层中进行卷积运算，然后按照每个特征维度进行平均和最大值的计算，再计算平均值和最大值的和，得到具有最有表征性的信息和保持整个图层的信息的特征，然后将该特征经过一层relu网络层进行线性激活，得到最终提取得到的音频语义特征向量，然后使用音频语义特征向量通过softmax分类识别层进行音乐与非音乐类别的识别，得到输出的帧基本的音乐后验概率曲线，该音乐后验概率曲线表征每个音频帧对应的是否为音乐的概率。根据该音乐后验概率曲线能够对每个音乐片段进行定位切割，同时能够得到每段音乐的时间开始截止点。根据每段音乐的时间来进行相应的音频语义特征向量序列子集提取，得到音乐片段对应的音乐语义特征。

在一个实施例中，如图12所示，音乐分类识别模型的训练步骤包括：

步骤1202，获取训练音频数据和对应的训练标签；

其中，训练音频数据是指训练时使用的音频数据。该训练标签是指训练音频数据对应的是否为音乐的标签，包括音乐标签和非音乐标签，训练音频数据中可以是每个音频帧都有对应的训练标签。

具体地，服务器可以直接从数据库中获取到训练音频数据和训练标签。服务器也可以从提供给数据服务的服务方获取到训练音频数据和对应的训练标签。服务器还可以获取到终端上传的训练音频数据和对应的训练标签。

步骤1204，将训练音频数据输入到初始音乐分类识别模型中，通过初始音乐分类识别模型将训练音频数据进行划分，得到各个训练子音频；

步骤1206，通过初始音乐分类识别模型对各个训练子音频分别进行时域特征提取，得到各个训练子音频对应的初始时域特征，初始时域特征包括初始中间时域特征和初始目标时域特征；对各个训练子音频分别进行频域特征提取，得到各个训练子音频对应的初始频域特征，初始频域特征包括初始中间频域特征和初始目标频域特征；

步骤1208，通过初始音乐分类识别模型对各个训练子音频对应的初始中间时域特征和初始中间频域特征进行特征交互，得到各个训练子音频对应的初始交互特征；

步骤1210，通过初始音乐分类识别模型对各个训练子音频对应的初始目标时域特征、初始目标频域特征和初始交互特征进行语义特征提取，得到各个训练子音频对应的初始音频语义特征，并基于初始音频语义特征进行音乐分类识别，得到各个训练子音频对应的初始音乐可能性。

其中，初始音乐分类识别模型是指模型参数初始化的音乐分类识别模型。训练子音频是指训练时划分得到的子音频。初始时域特征是指使用初始化模型参数提取得到的时域特征。初始频域特征是指使用初始化模型参数提取得到的频域特征。初始音乐可能性是指通过初始化模型参数预测得到的音乐可能性。

具体地，服务器通过神经网络建立初始音乐分类识别模型，然后使用初始音乐分类识别模型对训练音频数据进行初始的音乐分类识别预测，得到输出的各个训练子音频对应的初始音乐可能性。初始音乐分类识别模型进行音乐分类识别预测的过程与训练好的音乐分类识别模型的识别预测过程一致。

步骤1212，基于各个训练子音频对应的初始音乐可能性和训练音频数据对应的训练标签进行分类损失计算，得到损失信息，基于损失信息反向更新初始音乐分类识别模型，得到更新音乐分类识别模型；

步骤1214，将更新音乐分类识别模型作为初始音乐分类识别模型，并返回获取训练音频数据和对应的训练标签的步骤执行，直到达到训练完成条件时，得到音乐分类识别模型。

其中，损失信息用于表征模型的训练误差，是指初始音乐可能性和对应的训练标签之间的误差。更新音乐分类识别模型是指初始音乐分类识别模型的参数更新后得到的模型。训练完成条件是指训练初始音乐分类识别模型结束时的条件，包括模型迭代次数超过最大迭代次数、模型参数不发生变化、模型损失信息超过预设阈值等。

具体地，服务器判断计算模型训练时的损失信息，然后判断是否达到训练完成条件，比如，将损失信息与预先设置好的损失阈值进行比较，当达到预设损失阈值时，说明训练完成，当未达到预设损失阈值时，说明训练未完成，此时继续进行循环迭代，直到达到训练完成条件时，将达到训练完成条件的初始音乐分类识别模型作为最终训练得到的音乐分类识别模型。

在上述实施例中，通过使用训练音频数据和对应的训练标签对初始音乐分类识别模型进行训练，从而得到音乐分类识别模型，单独建立音乐分类识别模型并进行训练，能够减少训练误差，从而能够训练提高得到的音乐分类识别模型的准确性，进而提高音频数据处理的准确性。

在一个具体的实施例中，服务器可以建立初始音频数据处理模型，然后获取训练数据对初始音频数据处理模型进行训练，得到音频数据处理模型，使用音频数据处理模型来进行音频数据处理。具体来说：通过音频数据处理模型将待处理音频数据进行划分，得到各个子音频，对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征，对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征，基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征，基于各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性，基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征，基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。可以预先使用训练音频数据和对应的训练容量音乐片段集来对初始音频数据处理模型进行训练，当训练完成时，得到音频数据处理模型，然后部署音频数据处理模型并使用，能够提高音频数据处理的效率和准确性。

在一个实施例中，在步骤214之后，即在基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集之后，还包括步骤：

获取同类音乐片段集中同类音频片段对应的视频片段，得到视频片段集；将同类音乐片段集和视频片段集进行合并，得到同类音视频集。

其中，视频片段集中包括各个视频片段，同类音乐片段集中每一个音乐片段都可以有对应的视频片段，即同一时刻有对应的音乐音频和视频。同类音视频集中包括同类的各个音视频片段。

具体地，服务器可以获取到待处理音频数据对应的具有相同时间序列的视频数据，即待处理音频数据可以是从原始的音视频中进行音视频拆分得到的，然后从原始的音视频中获取到视频数据作为待处理音频数据对应的视频数据。然后根据同类音乐片段集中同类音频片段从具有相同时间序列的视频数据中确定音频片段对应的视频片段。最后将同类音乐片段集和视频片段集进行合并，其中，根据同类音乐片段集中音乐片段与对应的视频片段得到原始音视频片段，然后所有的原始音视频片段进行拼接，得到同类音视频集锦。然后可以在终端中播放该同类音视频集锦，即终端中展示拼接后的同类的原始音视频片段。

在上述实施例中，可以对同类音乐片段集和视频片段集进行合并，得到同类音视频集，能够快速进行定位和切割视频数据，从而可以提高得到同类音视频集的效率。

在一个具体的实施例中，如图13所示，提供一种音频数据处理方法，通过计算机设备执行，该计算机设备可以是终端或服务器，具体包括以下步骤：

步骤1302，获取待处理音频数据，将待处理音频数据输入到音乐分类识别模型中，通过音乐分类识别模型将待处理音频数据进行划分，得到各个子音频，音乐分类识别模型包括时域特征提取分支网络、频域特征提取分支网络、特征交互网络、音频语义特征提取网络和分类识别网络。

步骤1304，将各个子音频输入到时域特征提取分支网络中进行时域卷积运算，得到各个子音频对应的中间卷积特征和最终卷积特征，将中间卷积特征和最终卷积特征进行频域维度转换，得到各个子音频对应的中间时域特征和标时域特征。

步骤1306，提取各个子音频分别对应的基础音频特征，将各个子音频分别对应的基础音频特征输入到频域特征提取分支网络中进行频域卷积运算，得到各个子音频对应的中间频域特征和目标频域特征。同时将中间时域特征与中间频域特征进行合并，得到第一合并特征，基于第一合并特征进行卷积运算，得到目标交互特征。

步骤1308，将各个子音频对应的目标时域特征、目标频域特征和目标交互特征输入到音频语义特征提取网络中进行合并，得到各个子音频对应的目标合并特征，基于各个子音频对应的目标合并特征进行卷积运算，得到各个子音频对应的目标卷积特征，基于各个子音频对应的目标卷积特征计算目标卷积特征中每个特征维度对应的最大特征值和平均特征值，并计算最大特征值与平均特征值的和，得到目标卷积特征中每个特征维度对应的语义提取特征值，基于目标卷积特征中每个特征维度对应的语义提取特征值，得到各个子音频对应的语义提取特征。

步骤1310，将音频语义特征输入到分类识别网络进行音乐音频和非音乐音频的二分类识别，得到各个子音频对应的音乐可能性。基于各个子音频对应的音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征。

步骤1312，将各个音乐片段对应的音乐语义特征输入到序列转换模型的编码网络进行序列转换编码，得到各个音乐片段对应的聚合编码特征，并将各个音乐片段对应的聚合编码特征和对应的音乐可能性输入到序列转换模型的解码网络进行序列转换解码，得到各个音乐片段对应的目标音乐语义特征。

步骤1314，使用各个音乐片段对应的目标音乐语义特征计算各个音乐片段之间的空间相似性，基于各个音乐片段之间的空间相似性进行分类聚合，得到同类音乐片段集。

在一个具体的实施例中，该音频数据处理方法应用到视频媒体平台中，具体来说：如图14所示，为音频数据处理的应用场景示意图，其中，视频媒体平台获取到演唱会音视频，从演唱会音视频中提取到音频音轨，然后将音频音轨通过第一模块进行音乐分类识别。即先将音频音轨进行分帧，得到各个音频帧，然后将音频帧输入到音乐分类识别模型中的语义信息提取网络中进行音频语义信息，提取得到各个音频帧对应的音频语义信息特征向量序列，然后再使用softmax进行分类，得到音乐音频帧和非音乐音频帧，然后根据音乐音频帧确定各个音乐片段，包括音乐1、音乐2到音乐n，以及确定各个非音乐片段包括其它1、其它2到其它n，然后将各个音乐片段以及各个音乐片段对应的音乐可能性输入到第二模块中通过序列转换模型进行音频语义信息聚合，其中，通过序列转换模型中的编码网络进行对各个音乐片段的音乐语义特征进行编码，得到输出的编码特征，然后将编码特征和各个音乐片段对应的音乐可能性输入到序列转换模型中的解码网络中进行解码，得到各个音乐片段对应的目标音乐语义特征，包括音乐特征1、音乐特征2到音乐特征n。然后将各个音乐片段对应的目标音乐语义特征通过第三模块进行聚类，即两两计算各个音乐片段对应的目标音乐语义特征之间的空间相似度，即空间余弦距离，将所有的空间距离进行聚合，能够将相似性较高的目标音乐语义特征对应的音乐片段聚合成为音乐片段集合，比如，得到歌手1的音乐片段集合，包括歌曲1、歌曲3到歌曲m，以及得到歌手i的音乐片段集合，包括歌曲4、歌曲7到歌曲n。然后从演唱会音视频中确定各个歌手的音乐片段集合对应的音视频片段集合，然后将歌手的音视频片段集中各个音视频片段进行拼接，得到歌手的音视频集锦，即得到各个歌手在演唱会中的节目集锦，然后可以将各个歌手在演唱会中的节目集锦在视频媒体平台进行发布，方便平台使用者进行观看。如图15所示，为各个歌手在演唱会中的节目集锦的效果示意图，其中，将歌手1、歌手2一直到歌手i的所有音视频节目片段拼接成音视频集锦。即可以快速将同一个歌手的歌曲进行归类合并，生成相应的集锦，提高了效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音频数据处理方法的音频数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音频数据处理装置实施例中的具体限定可以参见上文中对于音频数据处理方法的限定，在此不再赘述。

在一个实施例中，如图16所示，提供了一种音频数据处理装置1600，包括：数据获取模块1602、时域特征提取模块1604、频域特征提取模块1606、特征交互模块1608、音乐识别模块1610、特征确定模块1612和同类片段识别模块1614，其中：

数据获取模块1602，用于获取待处理音频数据，将待处理音频数据进行划分，得到各个子音频；

时域特征提取模块1604，用于对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征；

频域特征提取模块1606，用于对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征；

特征交互模块1608，用于基于各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；

音乐识别模块1610，用于基于各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性；

特征确定模块1612，用于基于音乐可能性从待处理音频数据中确定各个音乐片段，并基于音频语义特征确定各个音乐片段对应的音乐语义特征；

同类片段识别模块1614，用于基于各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。

在一个实施例中，同类片段识别模块1614，包括：

编码单元，用于基于各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征；

解码单元，用于使用聚合编码特征和各个子音频对应的音乐可能性进行序列转换解码，得到各个音乐片段对应的目标音乐语义特征；

识别单元，用于基于各个音乐片段对应的目标音乐语义特征对各个音乐片段进行分类识别，得到同类音乐片段集。

在一个实施例中，编码单元还用于提取各个子音频分别对应的基础音频特征，从各个子音频分别对应的基础音频特征中确定各个音乐片段对应的音乐片段基础特征；将各个音乐片段对应的音乐片段基础特征分别与对应的音乐语义特征进行合并，得到各个音乐片段对应的目标融合特征；将各个音乐片段对应的目标融合特征输入到序列转换模型的编码网络中进行编码，得到输出的目标聚合编码特征。

在一个实施例中，识别单元还用于使用各个音乐片段对应的目标音乐语义特征计算各个音乐片段之间的空间相似性；基于各个音乐片段之间的空间相似性进行分类聚合，得到同类音乐片段集。

在一个实施例中，时域特征提取模块1604还用于对各个子音频分别进行时域卷积运算，得到各个子音频对应的至少两个中间卷积特征和最终卷积特征；将至少两个中间卷积特征进行频域维度转换，得到各个子音频对应的至少两个中间时域特征；将最终卷积特征进行频域维度转换，得到各个子音频对应的目标时域特征。

在一个实施例中，频域特征提取模块1606还用于提取各个子音频分别对应的基础音频特征；对各个子音频分别对应的基础音频特征进行频域卷积运算，得到各个子音频对应的至少两个中间频域特征和目标频域特征。

在一个实施例中，中间时域特征包括至少两个，中间频域特征包括至少两个；特征交互模块1608还用于将至少两个中间时域特征中第一中间时域特征与至少两个中间频域特征中对应的第一中间频域特征进行合并，得到第一合并特征，基于第一合并特征进行卷积运算，得到第一交互特征；将第一交互特征、至少两个中间时域特征中第二中间时域特征与至少两个中间频域特征中对应的第二中间频域特征进行合并，得到第二合并特征，基于第二合并特征进行卷积运算，得到第二交互特征；遍历至少两个中间时域特征和至少两个中间频域特征完成时，得到目标交互特征。

在一个实施例中，音乐识别模块1610还用于将各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行合并，得到各个子音频对应的目标合并特征；基于各个子音频对应的目标合并特征进行卷积运算，得到各个子音频对应的目标卷积特征；基于各个子音频对应的目标卷积特征计算目标卷积特征中每个特征维度对应的最大特征值和平均特征值；计算最大特征值与平均特征值的和，得到目标卷积特征中每个特征维度对应的语义提取特征值，基于目标卷积特征中每个特征维度对应的语义提取特征值，得到各个子音频对应的语义提取特征；将各个子音频对应的语义提取特征进行线性激活，得到各个子音频对应的音频语义特征；使用各个子音频对应的音频语义特征进行音乐音频和非音乐音频的二分类识别，得到各个子音频对应的音乐可能性。

在一个实施例中，音频数据处理装置，还包括：

模型处理模块，用于将待处理音频数据输入到音乐分类识别模型中，通过音乐分类识别模型将待处理音频数据进行划分，得到各个子音频；通过音乐分类识别模型对各个子音频分别进行时域特征提取，得到各个子音频对应的时域特征，时域特征包括中间时域特征和目标时域特征；对各个子音频分别进行频域特征提取，得到各个子音频对应的频域特征，频域特征包括中间频域特征和目标频域特征；通过音乐分类识别模型对各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到各个子音频对应的目标交互特征；通过音乐分类识别模型对各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到各个子音频对应的音频语义特征，并基于音频语义特征进行音乐分类识别，得到各个子音频对应的音乐可能性。

在一个实施例中，音乐分类识别模型包括时域特征提取分支网络、频域特征提取分支网络、特征交互网络、音频语义特征提取网络和分类识别网络；模型处理模块还用于将待处理音频数据输入到音乐分类识别模型中，通过音乐分类识别模型将待处理音频数据进行划分，得到各个子音频；将各个子音频输入到时域特征提取分支网络中进行时域特征提取，得到输出的中间时域特征和目标时域特征；并将各个子音频输入到频域特征提取分支网络中进行频域特征提取，得到输出的中间频域特征和目标频域特征；并将各个子音频对应的中间时域特征和中间频域特征输入到特征交互网络中进行特征交互，得到各个子音频对应的目标交互特征；将各个子音频对应的目标时域特征、目标频域特征和目标交互特征输入到音频语义特征提取网络进行语义特征提取，得到各个子音频对应的音频语义特征，并将音频语义特征输入到分类识别网络进行音乐分类识别，得到各个子音频对应的音乐可能性。

在一个实施例中，音频数据处理装置，还包括：

训练模块，用于获取训练音频数据和对应的训练标签；将训练音频数据输入到初始音乐分类识别模型中，通过初始音乐分类识别模型将训练音频数据进行划分，得到各个训练子音频；通过初始音乐分类识别模型对各个训练子音频分别进行时域特征提取，得到各个训练子音频对应的初始时域特征，初始时域特征包括初始中间时域特征和初始目标时域特征；对各个训练子音频分别进行频域特征提取，得到各个训练子音频对应的初始频域特征，初始频域特征包括初始中间频域特征和初始目标频域特征；通过初始音乐分类识别模型对各个训练子音频对应的初始中间时域特征和初始中间频域特征进行特征交互，得到各个训练子音频对应的初始交互特征；通过初始音乐分类识别模型对各个训练子音频对应的初始目标时域特征、初始目标频域特征和初始交互特征进行语义特征提取，得到各个训练子音频对应的初始音频语义特征，并基于初始音频语义特征进行音乐分类识别，得到各个训练子音频对应的初始音乐可能性；基于各个训练子音频对应的初始音乐可能性和训练音频数据对应的训练标签进行分类损失计算，得到损失信息，基于损失信息反向更新初始音乐分类识别模型，得到更新音乐分类识别模型；将更新音乐分类识别模型作为初始音乐分类识别模型，并返回获取训练音频数据和对应的训练标签的步骤执行，直到达到训练完成条件时，得到音乐分类识别模型。

在一个实施例中，音频数据处理装置，还包括：

音视频集得到模块，用于获取同类音乐片段集中同类音频片段对应的视频片段，得到视频片段集；将同类音乐片段集和视频片段集进行合并，得到同类音视频集

上述音频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理音频数据、视频数据和训练数据等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频数据处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图18所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种音频数据处理方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图17或图18中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

获取待处理音频数据，将所述待处理音频数据进行划分，得到各个子音频；

对所述各个子音频分别进行时域特征提取，得到所述各个子音频对应的时域特征，所述时域特征包括中间时域特征和目标时域特征，所述时域特征是指用于表征子音频时域信息的语义特征；

对所述各个子音频分别进行频域特征提取，得到所述各个子音频对应的频域特征，所述频域特征包括中间频域特征和目标频域特征，所述频域特征是指用于表征子音频的频域信息的语义特征；

基于所述各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到所述各个子音频对应的目标交互特征；

基于所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到所述各个子音频对应的音频语义特征，并基于所述音频语义特征进行音乐分类识别，得到所述各个子音频对应的音乐可能性；

基于所述音乐可能性从所述待处理音频数据中确定各个音乐片段，并基于所述音频语义特征确定所述各个音乐片段对应的音乐语义特征；

基于所述各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。

2.根据权利要求1所述的方法，其特征在于，所述基于所述各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集，包括：

基于所述各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征；

使用所述聚合编码特征和所述各个子音频对应的音乐可能性进行序列转换解码，得到所述各个音乐片段对应的目标音乐语义特征；

基于所述各个音乐片段对应的目标音乐语义特征对所述各个音乐片段进行分类识别，得到所述同类音乐片段集。

3.根据权利要求2所述的方法，其特征在于，所述基于所述各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征，包括：

提取所述各个子音频分别对应的基础音频特征，从所述各个子音频分别对应的基础音频特征中确定所述各个音乐片段对应的音乐片段基础特征；

将所述各个音乐片段对应的音乐片段基础特征分别与对应的音乐语义特征进行合并，得到所述各个音乐片段对应的目标融合特征；

将所述各个音乐片段对应的目标融合特征输入到序列转换模型的编码网络中进行编码，得到输出的目标聚合编码特征。

4.根据权利要求2所述的方法，其特征在于，所述基于所述各个音乐片段对应的目标音乐语义特征对所述各个音乐片段进行分类识别，得到所述同类音乐片段集，包括：

使用所述各个音乐片段对应的目标音乐语义特征计算所述各个音乐片段之间的空间相似性；

基于所述各个音乐片段之间的空间相似性进行分类聚合，得到所述同类音乐片段集。

5.根据权利要求1所述的方法，其特征在于，所述对所述各个子音频分别进行时域特征提取，得到所述各个子音频对应的时域特征，所述时域特征包括中间时域特征和目标时域特征，包括：

对所述各个子音频分别进行时域卷积运算，得到所述各个子音频对应的至少两个中间卷积特征和最终卷积特征；

将所述至少两个中间卷积特征进行频域维度转换，得到所述各个子音频对应的至少两个中间时域特征；

将所述最终卷积特征进行频域维度转换，得到所述各个子音频对应的目标时域特征。

6.根据权利要求1所述的方法，其特征在于，所述对所述各个子音频分别进行频域特征提取，得到所述各个子音频对应的频域特征，所述频域特征包括中间频域特征和目标频域特征，包括：

提取所述各个子音频分别对应的基础音频特征；

对所述各个子音频分别对应的基础音频特征进行频域卷积运算，得到所述各个子音频对应的至少两个中间频域特征和目标频域特征。

7.根据权利要求1所述的方法，其特征在于，所述中间时域特征包括至少两个，所述中间频域特征包括至少两个；

所述基于所述各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到所述各个子音频对应的目标交互特征，包括：

将所述至少两个中间时域特征中第一中间时域特征与所述至少两个中间频域特征中对应的第一中间频域特征进行合并，得到第一合并特征，基于所述第一合并特征进行卷积运算，得到第一交互特征；

将所述第一交互特征、所述至少两个中间时域特征中第二中间时域特征与所述至少两个中间频域特征中对应的第二中间频域特征进行合并，得到第二合并特征，基于所述第二合并特征进行卷积运算，得到第二交互特征；

遍历所述至少两个中间时域特征和所述至少两个中间频域特征完成时，得到目标交互特征。

8.根据权利要求1所述的方法，其特征在于，所述基于所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到所述各个子音频对应的音频语义特征，并基于所述音频语义特征进行音乐分类识别，得到所述各个子音频对应的音乐可能性，包括：

将所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行合并，得到所述各个子音频对应的目标合并特征；

基于所述各个子音频对应的目标合并特征进行卷积运算，得到所述各个子音频对应的目标卷积特征；

基于所述各个子音频对应的目标卷积特征计算所述目标卷积特征中每个特征维度对应的最大特征值和平均特征值；

计算所述最大特征值与所述平均特征值的和，得到所述目标卷积特征中每个特征维度对应的语义提取特征值，基于所述目标卷积特征中每个特征维度对应的语义提取特征值，得到所述各个子音频对应的语义提取特征；

将所述各个子音频对应的语义提取特征进行线性激活，得到所述各个子音频对应的音频语义特征；

使用所述各个子音频对应的音频语义特征进行音乐音频和非音乐音频的二分类识别，得到所述各个子音频对应的音乐可能性。

9.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

将所述待处理音频数据输入到音乐分类识别模型中，通过所述音乐分类识别模型将所述待处理音频数据进行划分，得到各个子音频；

通过所述音乐分类识别模型对所述各个子音频分别进行时域特征提取，得到所述各个子音频对应的时域特征，所述时域特征包括中间时域特征和目标时域特征；对所述各个子音频分别进行频域特征提取，得到所述各个子音频对应的频域特征，所述频域特征包括中间频域特征和目标频域特征；

通过所述音乐分类识别模型对所述各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到所述各个子音频对应的目标交互特征；

通过所述音乐分类识别模型对所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到所述各个子音频对应的音频语义特征，并基于所述音频语义特征进行音乐分类识别，得到所述各个子音频对应的音乐可能性。

10.根据权利要求9所述的方法，其特征在于，所述音乐分类识别模型包括时域特征提取分支网络、频域特征提取分支网络、特征交互网络、音频语义特征提取网络和分类识别网络；所述方法，还包括：

将所述各个子音频输入到所述时域特征提取分支网络中进行时域特征提取，得到输出的中间时域特征和目标时域特征；

并将所述各个子音频输入到所述频域特征提取分支网络中进行频域特征提取，得到输出的中间频域特征和目标频域特征；

并将各个子音频对应的中间时域特征和中间频域特征输入到所述特征交互网络中进行特征交互，得到所述各个子音频对应的目标交互特征；

将所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征输入到所述音频语义特征提取网络进行语义特征提取，得到所述各个子音频对应的音频语义特征，并将所述音频语义特征输入到所述分类识别网络进行音乐分类识别，得到所述各个子音频对应的音乐可能性。

11.根据权利要求9所述的方法，其特征在于，所述音乐分类识别模型的训练步骤包括：

获取训练音频数据和对应的训练标签；

将所述训练音频数据输入到初始音乐分类识别模型中，通过所述初始音乐分类识别模型将所述训练音频数据进行划分，得到各个训练子音频；

通过所述初始音乐分类识别模型对所述各个训练子音频分别进行时域特征提取，得到所述各个训练子音频对应的初始时域特征，所述初始时域特征包括初始中间时域特征和初始目标时域特征；对所述各个训练子音频分别进行频域特征提取，得到所述各个训练子音频对应的初始频域特征，所述初始频域特征包括初始中间频域特征和初始目标频域特征；

通过所述初始音乐分类识别模型对所述各个训练子音频对应的初始中间时域特征和初始中间频域特征进行特征交互，得到所述各个训练子音频对应的初始交互特征；

通过所述初始音乐分类识别模型对所述各个训练子音频对应的初始目标时域特征、初始目标频域特征和初始交互特征进行语义特征提取，得到所述各个训练子音频对应的初始音频语义特征，并基于所述初始音频语义特征进行音乐分类识别，得到所述各个训练子音频对应的初始音乐可能性；

基于所述各个训练子音频对应的初始音乐可能性和所述训练音频数据对应的训练标签进行分类损失计算，得到损失信息，基于所述损失信息反向更新所述初始音乐分类识别模型，得到更新音乐分类识别模型；

将所述更新音乐分类识别模型作为初始音乐分类识别模型，并返回获取训练音频数据和对应的训练标签的步骤执行，直到达到训练完成条件时，得到所述音乐分类识别模型。

12.根据权利要求1所述的方法，其特征在于，在所述基于所述各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集之后，还包括：

获取所述同类音乐片段集中同类音频片段对应的视频片段，得到视频片段集；

将所述同类音乐片段集和所述视频片段集进行合并，得到同类音视频集。

13.一种音频数据处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取待处理音频数据，将所述待处理音频数据进行划分，得到各个子音频；

时域特征提取模块，用于对所述各个子音频分别进行时域特征提取，得到所述各个子音频对应的时域特征，所述时域特征包括中间时域特征和目标时域特征，所述时域特征是指用于表征子音频时域信息的语义特征；

频域特征提取模块，用于对所述各个子音频分别进行频域特征提取，得到所述各个子音频对应的频域特征，所述频域特征包括中间频域特征和目标频域特征，所述频域特征是指用于表征子音频的频域信息的语义特征；

特征交互模块，用于基于所述各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到所述各个子音频对应的目标交互特征；

音乐识别模块，用于基于所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到所述各个子音频对应的音频语义特征，并基于所述音频语义特征进行音乐分类识别，得到所述各个子音频对应的音乐可能性；

特征确定模块，用于基于所述音乐可能性从所述待处理音频数据中确定各个音乐片段，并基于所述音频语义特征确定所述各个音乐片段对应的音乐语义特征；

同类片段识别模块，用于基于所述各个音乐片段对应的音乐语义特征进行音乐片段分类识别，得到同类音乐片段集。

14.根据权利要求13所述的装置，其特征在于，所述同类片段识别模块，包括：

编码单元，用于基于所述各个音乐片段对应的音乐语义特征进行序列转换编码，得到聚合编码特征；

解码单元，用于使用所述聚合编码特征和所述各个子音频对应的音乐可能性进行序列转换解码，得到所述各个音乐片段对应的目标音乐语义特征；

识别单元，用于基于所述各个音乐片段对应的目标音乐语义特征对所述各个音乐片段进行分类识别，得到所述同类音乐片段集。

15.根据权利要求14所述的装置，其特征在于，所述编码单元还用于提取所述各个子音频分别对应的基础音频特征，从所述各个子音频分别对应的基础音频特征中确定所述各个音乐片段对应的音乐片段基础特征；将所述各个音乐片段对应的音乐片段基础特征分别与对应的音乐语义特征进行合并，得到所述各个音乐片段对应的目标融合特征；将所述各个音乐片段对应的目标融合特征输入到序列转换模型的编码网络中进行编码，得到输出的目标聚合编码特征。

16.根据权利要求14所述的装置，其特征在于，所述识别单元还用于使用所述各个音乐片段对应的目标音乐语义特征计算所述各个音乐片段之间的空间相似性；基于所述各个音乐片段之间的空间相似性进行分类聚合，得到所述同类音乐片段集。

17.根据权利要求13所述的装置，其特征在于，所述时域特征提取模块还用于对所述各个子音频分别进行时域卷积运算，得到所述各个子音频对应的至少两个中间卷积特征和最终卷积特征；将所述至少两个中间卷积特征进行频域维度转换，得到所述各个子音频对应的至少两个中间时域特征；将所述最终卷积特征进行频域维度转换，得到所述各个子音频对应的目标时域特征。

18.根据权利要求13所述的装置，其特征在于，所述频域特征提取模块还用于提取所述各个子音频分别对应的基础音频特征；对所述各个子音频分别对应的基础音频特征进行频域卷积运算，得到所述各个子音频对应的至少两个中间频域特征和目标频域特征。

19.根据权利要求13所述的装置，其特征在于，所述中间时域特征包括至少两个，所述中间频域特征包括至少两个；

所述特征交互模块还用于将所述至少两个中间时域特征中第一中间时域特征与所述至少两个中间频域特征中对应的第一中间频域特征进行合并，得到第一合并特征，基于所述第一合并特征进行卷积运算，得到第一交互特征；将所述第一交互特征、所述至少两个中间时域特征中第二中间时域特征与所述至少两个中间频域特征中对应的第二中间频域特征进行合并，得到第二合并特征，基于所述第二合并特征进行卷积运算，得到第二交互特征；遍历所述至少两个中间时域特征和所述至少两个中间频域特征完成时，得到目标交互特征。

20.根据权利要求13所述的装置，其特征在于，所述音乐识别模块还用于将所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行合并，得到所述各个子音频对应的目标合并特征；基于所述各个子音频对应的目标合并特征进行卷积运算，得到所述各个子音频对应的目标卷积特征；基于所述各个子音频对应的目标卷积特征计算所述目标卷积特征中每个特征维度对应的最大特征值和平均特征值；计算所述最大特征值与所述平均特征值的和，得到所述目标卷积特征中每个特征维度对应的语义提取特征值，基于所述目标卷积特征中每个特征维度对应的语义提取特征值，得到所述各个子音频对应的语义提取特征；将所述各个子音频对应的语义提取特征进行线性激活，得到所述各个子音频对应的音频语义特征；使用所述各个子音频对应的音频语义特征进行音乐音频和非音乐音频的二分类识别，得到所述各个子音频对应的音乐可能性。

21.根据权利要求13所述的装置，其特征在于，所述装置，还包括：

模型处理模块，用于将所述待处理音频数据输入到音乐分类识别模型中，通过所述音乐分类识别模型将所述待处理音频数据进行划分，得到各个子音频；通过所述音乐分类识别模型对所述各个子音频分别进行时域特征提取，得到所述各个子音频对应的时域特征，所述时域特征包括中间时域特征和目标时域特征；对所述各个子音频分别进行频域特征提取，得到所述各个子音频对应的频域特征，所述频域特征包括中间频域特征和目标频域特征；通过所述音乐分类识别模型对所述各个子音频对应的中间时域特征和中间频域特征进行特征交互，得到所述各个子音频对应的目标交互特征；通过所述音乐分类识别模型对所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征进行语义特征提取，得到所述各个子音频对应的音频语义特征，并基于所述音频语义特征进行音乐分类识别，得到所述各个子音频对应的音乐可能性。

22.根据权利要求21所述的装置，其特征在于，所述音乐分类识别模型包括时域特征提取分支网络、频域特征提取分支网络、特征交互网络、音频语义特征提取网络和分类识别网络；所述模型处理模块还用于将所述待处理音频数据输入到音乐分类识别模型中，通过所述音乐分类识别模型将所述待处理音频数据进行划分，得到各个子音频；将所述各个子音频输入到所述时域特征提取分支网络中进行时域特征提取，得到输出的中间时域特征和目标时域特征；并将所述各个子音频输入到所述频域特征提取分支网络中进行频域特征提取，得到输出的中间频域特征和目标频域特征；并将各个子音频对应的中间时域特征和中间频域特征输入到所述特征交互网络中进行特征交互，得到所述各个子音频对应的目标交互特征；将所述各个子音频对应的目标时域特征、目标频域特征和目标交互特征输入到所述音频语义特征提取网络进行语义特征提取，得到所述各个子音频对应的音频语义特征，并将所述音频语义特征输入到所述分类识别网络进行音乐分类识别，得到所述各个子音频对应的音乐可能性。

23.根据权利要求21所述的装置，其特征在于，所述装置，还包括：

训练模块，用于获取训练音频数据和对应的训练标签；将所述训练音频数据输入到初始音乐分类识别模型中，通过所述初始音乐分类识别模型将所述训练音频数据进行划分，得到各个训练子音频；通过所述初始音乐分类识别模型对所述各个训练子音频分别进行时域特征提取，得到所述各个训练子音频对应的初始时域特征，所述初始时域特征包括初始中间时域特征和初始目标时域特征；对所述各个训练子音频分别进行频域特征提取，得到所述各个训练子音频对应的初始频域特征，所述初始频域特征包括初始中间频域特征和初始目标频域特征；通过所述初始音乐分类识别模型对所述各个训练子音频对应的初始中间时域特征和初始中间频域特征进行特征交互，得到所述各个训练子音频对应的初始交互特征；通过所述初始音乐分类识别模型对所述各个训练子音频对应的初始目标时域特征、初始目标频域特征和初始交互特征进行语义特征提取，得到所述各个训练子音频对应的初始音频语义特征，并基于所述初始音频语义特征进行音乐分类识别，得到所述各个训练子音频对应的初始音乐可能性；基于所述各个训练子音频对应的初始音乐可能性和所述训练音频数据对应的训练标签进行分类损失计算，得到损失信息，基于所述损失信息反向更新所述初始音乐分类识别模型，得到更新音乐分类识别模型；将所述更新音乐分类识别模型作为初始音乐分类识别模型，并返回获取训练音频数据和对应的训练标签的步骤执行，直到达到训练完成条件时，得到所述音乐分类识别模型。

24.根据权利要求13所述的装置，其特征在于，所述装置，还包括：

音视频集得到模块，用于获取所述同类音乐片段集中同类音频片段对应的视频片段，得到视频片段集；将所述同类音乐片段集和所述视频片段集进行合并，得到同类音视频集。

25.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

26.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。