CN109166593A

CN109166593A - 音频数据处理方法、装置及存储介质

Info

Publication number: CN109166593A
Application number: CN201810941442.4A
Authority: CN
Inventors: 王征韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2019-01-08
Anticipated expiration: 2038-08-17
Also published as: CN109166593B

Abstract

本发明公开了一种音频数据处理方法、装置及存储介质，所述方法包括：获取训练样本，然后提取训练样本中的多个特征信息，多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，再将多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，并根据特征融合参数生成音频分类模型，若接收到测试音频，则通过音频分类模型对测试音频进行分类。本发明实施例通过多个特征信息的特征融合，得到结合了多个方面特征的特征融合参数，并将特征融合参数再融入到音频分类模型中进行音频分类，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频。

Description

音频数据处理方法、装置及存储介质

技术领域

本发明实施例涉及音频处理领域，尤其涉及移动设备技术领域，具体涉及一种音频数据处理方法、装置及存储介质。

背景技术

现场-录音棚音频分类是曲库管理中遇到的一项挑战，对于给定音频，我们需要判断它来自现场录音还是录音棚，以提供给不同用户。其中，现场(Live)指演唱会、公开演唱等非专业环境下的音乐录音，录音棚(Studio)指专业录音环境下的音乐录音。在实现本发明过程中，发明人发现现有技术普遍存在非人工区分现场-录音棚音频容易混淆不清的问题。因此，有必要提出一种新的音频数据处理方法。

发明内容

本发明实施例提供一种音频数据处理方法、装置及存储介质，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频。

本发明实施例提供一种音频数据处理方法，所述方法包括：

获取训练样本；

提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征；

将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数；

根据所述特征融合参数生成音频分类模型；

若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。

本发明实施例还提供一种音频数据处理装置，所述装置包括：

获取单元，用于获取训练样本；

提取单元，用于提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征；

训练单元，用于将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数；

生成单元，用于根据所述特征融合参数生成音频分类模型；

处理单元，用于若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，执行本发明实施例所提供的任一种所述的音频数据处理方法中的步骤。

本发明实施例通过获取训练样本，然后提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，再将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，并根据所述特征融合参数生成音频分类模型，若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。本发明实施例通过多个特征信息的特征融合，得到结合了多个方面特征的特征融合参数，并将得到的特征融合参数再融入到音频分类模型中进行音频分类，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频，并且引入纯音乐与人声的鉴别特征以规避纯音乐对分类的影响。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频数据处理装置的系统示意图。

图2为本发明实施例提供的一种音频数据处理方法的流程示意图。

图3为本发明实施例提供的一种音频数据处理方法的另一流程示意图。

图4为本发明实施例提供的一种音频数据处理方法的又一流程示意图。

图5为本发明实施例提供的一种音频数据处理方法的再一流程示意图。

图6为本发明实施例提供的深度学习网络的网络拓扑结构图。

图7为本发明实施例提供的深度学习网络的算法流程图

图8为本发明实施例提供的一种音频数据处理装置的结构示意图。

图9为本发明实施例提供的一种音频数据处理装置的另一结构示意图。

图10为本发明实施例提供的一种音频数据处理装置的又一结构示意图。

图11为本发明实施例提供的一种音频数据处理装置的又一结构示意图。

图12为本发明实施例提供的一种服务器的结构示意图。

图13为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

由于现有的音频数据处理方法，多基于单一特征和有限数据集，普遍存在精度较低、过拟合现象严重等特点，因而，本发明实施例提供了一种音频数据处理方法、装置及存储介质，结合了多个方面的特征，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频。

本发明实施例提供的音频数据处理方法，可实现在音频数据处理装置中，该音频数据处理装置具体可以集成在电子设备或其他具有音视频数据处理功能的设备中，电子设备包括但不限于智能电视，智能音箱等设备。

请参阅图1，图1为本发明实施例提供的一种音频数据处理装置的系统示意图。该音频数据处理装置主要用于：预先获取训练样本，然后提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，再将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，并根据所述特征融合参数生成音频分类模型，若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类检测，以生成检测结果，并根据检测结果对该测试音频进行分类。比如所述音频分类模型输出的检测结果经过sigmoid激活函数处理后，将输出变量映射到0至1之间，当检测结果不小于预设阈值时确定为现场音频，当检测结果小于预设阈值时确定为录音棚音频，其中，所述预设阈值可以人为设定，例如设置sigmoid激活函数的预设阈值为0.5。本发明实施例通过多个特征信息的特征融合，得到结合了多个方面特征的特征融合参数，并将得到的特征融合参数再融入到深度学习网络模型中进行音频分类，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频，并且引入纯音乐与人声的鉴别特征以规避纯音乐对分类的影响。其中，在本发明实施例中，现场音频包括现场音乐，录音棚音频包括录音棚音乐。

需要说明的是，神经网络的训练过程可以在服务器端也可以在电子设备端完成。当神经网络的训练过程、实际检测过程都在服务器端完成时，需要使用优化后的神经网络以及特征融合参数进而生成的音频分类模型时，可以将测试音频以及测试音频对应的特征信息输入到服务器，服务器实际检测完成后，将检测结果发送至电子设备端，电子设备再根据检测结果对测试音频进行分类。

当神经网络的训练过程、实际检测过程都在电子设备端完成时，需要使用优化后的神经网络以及特征融合参数进而生成的音频分类模型时，可以将测试音频以及测试音频对应的特征信息输入到电子设备，电子设备实际检测完成后，电子设备根据检测结果对测试音频进行分类。

当神经网络的训练过程在服务器端完成，神经网络的实际检测过程在电子设备端完成时，需要使用优化后的神经网络以及特征融合参数进而生成的音频分类模型时，可以将测试音频以及测试音频对应的特征信息输入到电子设备，电子设备实际检测完成后，电子设备根据检测结果对测试音频进行分类。可选的，可以将训练好的音频分类模型文件(model文件)移植到电子设备上，若需要对输入的测试音频进行音频分类，则将测试音频输入到训练好的音频分类模型文件(model文件)，通过计算即可得到检测结果。

以下将分别进行详细说明，以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

请参阅图2至图4，图2至图4均为本发明实施例提供的一种音频数据处理方法的流程示意图。所述方法包括：

步骤101，获取训练样本。

其中，所述训练样本可以包括已标记的现场音频样本和录音棚音频样本。

例如，所述现场音频样本可以为由观众或者组织方在演唱会、公开演唱场合、音乐会等非专业环境下用手机、摄像机、麦克风等具备录音功能的电子设备录制并上传至云端服务器的音频数据。所述录音棚音频样本可以为由制作方在录音棚等专业环境下用专业的录音设备录制并上传至云端服务器的音频数据。云端服务器中建立样本数据库，该样本数据库包括大量数据的已标记的现场音频样本和录音棚音频样本。当进行模型训练时，获取该样本数据集中的训练样本。其中，获取到的音频数据的训练样本，可以是未经压缩的数据，这样电子设备端或者服务器端就避免了解压缩的操作，以此保证较高的声音还原度，且提高了数据处理效率。

步骤102，提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征。

其中，提取到的所述多个特征信息可以用特征向量表示。

其中，所述多个特征信息还可以包括其他的特征信息。例如，现场音乐中的演唱者在演唱过程中可能会出现跑调、有回声、观众跟唱、吵杂声等情况。比如，提取用于分辩是否跑调的特征，即获取演唱者的歌声与配乐的节拍契合度特征。比如，提取用于分辩是否有观众跟唱的特征，比如截取训练样本在歌曲的高潮音段或其他传唱较广泛的音段，检测是否含有多人演唱的声音，且所述多人演唱的声音是否存在大小不一、音调不统一的特征。

在一些实施例中，如图3所示，步骤102可以通过步骤1021至步骤1023来实现，具体为：

步骤1021，获取所述训练样本中的声谱图分频带均值，以提取出所述频谱高度特征。

其中，现场音乐的一大特点是其频谱高度通常较低，一般而言，现场音乐的频谱高度不高于16kHz(千赫兹)，通常在12k-16kHz范围内，因此可以将频谱高度作为现场-录音棚音频分类的特征信息之一。需要说明的是，频谱高度单个特征无法决定音频是现场音乐还是录音棚音乐，其中有些年代较久的音频频谱高度较低，另外纯音乐的音频频谱也通常较低。因此，还要继续混合其他的特征信息。

此外，现场音乐的频谱截断较为整齐，这也是现场音乐与纯音乐的不同点之一。可以利用训练样本中的声谱图分频带RMS(root mean squre)均值，来表示所述频谱高度特征。RMS均值对所有长度的音频，都是一个固定长度的特征向量。

步骤1022，将所述训练样本进行预处理后输入第一卷积神经网络中进行训练，以提取所述纯音乐与人声的鉴别特征。

其中，现场音乐为在非专业环境下录制，一般会含有人声，因此可以用纯音乐与人声的辨别特征抵消由频谱较低的纯音乐带来的现场音乐误判情况。例如，纯音乐的定义可以为不包含填词的音乐。进一步的，纯音乐的定义还可以略微宽泛一点，比如含有少量人声但不以唱词为主的音乐也可以归类为纯音乐，例如舞曲，舞曲中常常混有少量人声，但是主要部分是音乐。

人声的定义可以为人发出的声音。纯音乐与人声的鉴别特征本身是一个研究难点，例如，第一卷积神经网络可以为预先训练好的ResGCNN1D(带残差结构的门控卷积1D网络)，在整个训练过程中ResGCNN1D保持不动。将训练样本进行预处理后，输入ResGCNN1D中进行训练，以提取所述纯音乐与人声的鉴别特征。例如，ResGCNN1D为自主研发的基于深度学习的纯音乐-人声特征提取器。

在一些实施例中，第一卷积神经网络也可以为可训练的卷积神经网络，在不断的深度学习训练过程中对该第一卷积神经网络进行优化，以使得该第一卷积神经网络可以有效提取出纯音乐与人声的鉴别特征。

例如，本发明实施例采用的是自主研发的基于深度学习的纯音乐-人声特征提取器。音频首先被重采样为8kHz，然后截取前4分钟，若不足则补0，提取其归一化梅尔频谱送入深度学习网络中进行特征提取，所得到的特征为固定长度128维的特征向量。

在一些实施例中，如图4所示，步骤1022可以通过步骤10221至步骤10224来实现，具体为：

步骤10221，根据第一采样率对所述训练样本进行重采样，以得到第一采样样本。

例如，将第一采样率设置为8kHz，首先根据第一采样率8kHz对作为训练样本的音频数据进行重采样，以得到第一采样样本。

步骤10222，截取所述第一采样样本中第三预设时长对应的音频样本。

在一些实施例中，所述截取所述第一采样样本中第三预设时长对应的音频样本，还包括：

若所述第一采样样本的总时长小于所述第三预设时长，则对所述第一采样样本进行补零，以使得所述第一采样样本的总时长达到所述第三预设时长。

例如，将第三预设时长设置为4分钟，截取所述第一采样样本中前4分钟对应的音频样本，若所述第一采样样本的总时长不足4分钟，则对所述第一采样样本补零，使得最后截取到总时长达到4分钟的音频样本。

步骤10223，提取所述音频样本的归一化梅尔频谱。

例如，所述音频样本的归一化梅尔频谱为等高梅尔滤波器产生的频谱。提取所述重采样后被截取的音频样本的归一化梅尔频谱。

在一些实施例中，可以将所述音频样本的归一化梅尔频谱替换为归一化梅尔倒谱。

步骤10224，将所述音频样本的归一化梅尔频谱输入所述第一卷积神经网络中进行训练，以提取出所述纯音乐与人声的鉴别特征。

例如，将提取到时长4分钟的音频样本的归一化梅尔频谱送入第一卷积神经网络中进行特征提取，所得到的纯音乐与人声的鉴别特征为固定长度为128维的特征向量。

步骤1023，将所述训练样本进行预处理后输入第二卷积神经网络中进行训练，以提取所述第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征。

其中，现场音乐的开头、结尾处常常会有演唱者的讲话、观众欢呼或掌声等情况，这种情况并不是总是出现，但从统计上看，出现的概率较大，因此可以将开头和/或结尾x秒的特征作为为现场-录音棚音频分类的特征信息之一。在一些实施例中，x秒的建议值不低于10秒，不高于30秒，例如x秒取值为20秒。开头/结尾x秒所提的特征是检测是否有讲话、欢呼或掌声的特征，可以将重采样到16kHz后计算归一化梅尔频谱送入深度学习网络中学习。

例如，第二卷积神经网络可以为可训练的ResGCNN1D(带残差结构的门控卷积1D网络)，在不断的深度学习训练过程中对该第二卷积神经网络进行优化，以使得该第二卷积神经网络可以有效提取出开头和/或结尾x秒的特征。

在一些实施例中，如图5所示，步骤1023可以通过步骤10231至步骤10234来实现，具体为：

步骤10231，根据第二采样率对所述训练样本进行重采样，以得到第二采样样本。

例如，将第二采样率设置为16kHz，首先根据第二采样率16kHz对作为训练样本的音频数据进行重采样，以得到第二采样样本。

步骤10232，截取所述第二采样样本中所述第一预设时长对应的音频开头样本，以及截取所述第二采样样本中所述第二预设时长对应的音频结尾样本。

其中，所述第一预设时长与第二预设时长的取值可以相同，例如第一预设时长与第二预设时长均取值为20秒，则截取所述第二采样样本中开头20秒对应的音频开头样本，以及截取所述第二采样样本中结尾20秒对应的音频结尾样本。

其中，所述第一预设时长与第二预设时长的取值可以不相同，例如第一预设时长为30秒，第二预设时长取值为20秒，则截取所述第二采样样本中开头30秒对应的音频开头样本，以及截取所述第二采样样本中结尾20秒对应的音频结尾样本。

步骤10233，提取所述音频开头样本和音频结尾样本的归一化梅尔频谱。

例如，所述音频开头样本和音频结尾样本的归一化梅尔频谱为等高梅尔滤波器产生的频谱。提取所述重采样后被截取的音频开头样本和音频结尾样本的归一化梅尔频谱。

在一些实施例中，可以将所述音频开头样本和音频结尾样本的归一化梅尔频谱替换为归一化梅尔倒谱。

步骤10234，将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练，以提取出所述第一预设时长对应的音频开头特征和所述第二预设时长对应的音频结尾特征。

例如，将开头20秒对应的音频开头样本和结尾20秒对应的音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练，以提取出开头20秒对应的音频开头特征和结尾20秒对应的音频结尾特征。

在一些实施例中，所述将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练，包括：

通过所述第二卷积神经网络检测所述开头音频样本和结尾音频样本是否含有说话声、欢呼声或者掌声的特征。

步骤103，将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数。

例如，特征融合的方式可以包括如下几种：

第一种是简单的将特征进行组合，即将所有的特征向量，按照串行或者并行的方法组合在一起，构成新的特征向量；

第二种是特征选择，即从新组合的特征向量中，对应的每一维数据中都选择出一个对分类最优的数据，最后把选择出来的数据组成新的特征；

第三种是特征变换，即将所有的特征向量放在一起，使用一定的数学方法变换为一种全新的特征表达方式。

特征融合的手段也可以包括前期融合和后期融合。其中，前期融合为将多个特征向量机进行特征拼接，且不同的特征向量对齐加权求和。后期融合为不同特征模型输出的概率的加权融合，使用前期融合的特征向量对已生成的神经网络模型进行微调。例如，多核学习(MKL)属于后期融合的一种，通过对不同的特征向量采取不同的核，对不同的参数组成多个核，然后训练每个核的权重，选出最佳核函数组合作为特征融合参数，来进行分类。

在将所述多个特征信息输入神经网络中进行特征融合训练的过程中，可以采用上述任一特征融合的方式或手段进行训练，以得到对分类较优的特征融合参数。

在一些实施例中，所述神经网络可以为全连接神经网络，可以将所述频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征输入全连接神经网络中进行特征融合训练，以得到训练后的特征融合参数。

在一些实施例中，可以在所述全连接神经网络中添加规范化层，以对所述全连接神经网络进行规范化处理，以加速网络收敛。其中，所述规范化层可以为BatchNormalization层，其在采用梯度下降法训练深度学习网络模型时，对网络层中每个输出的神经元数据进行归一化，使其均值变为0，方差变为1，其主要作用是缓解深度学习网络模型训练中的梯度消失/爆炸现象，加快模型的训练速度。通过规范化层后，所有神经元都规范化到了一种分布，即将神经元的输出规范化到均值为0，方差为1，防止了梯度弥散，加速网络收敛，同时有一定抑制过拟合的作用。

在一些实施例中，可以在所述全连接神经网络中添加预设比例的随机失活层，在训练所述全连接神经网络的过程中随机冻结所述预设比例对应的神经元，以抑制过拟合现象。其中，所述随机失活层可以为Dropout层，例如所述Dropout层的预设比例为0.45，在训练所述全连接神经网络的过程中，可以按照0.45的比例随机冻结某些神经元，即随机让全连接神经网络中某些隐含层节点的神经元不工作，Dropout层消除减弱了神经元节点间的联合适应性，增强了泛化能力，防止模型过拟合，dropout是可以确保深度学习网络模型在丢失一个个体线索的情况下保持健壮的网络模型，可以减少权重连接，增加网络模型在缺失个体连接信息情况下的鲁棒性。

步骤104，根据所述特征融合参数生成音频分类模型。

其中，所述特征融合参数为用于辨识现场音乐与录音棚音乐的特征，将比如所述音频分类模型输出的检测结果经过sigmoid激活函数处理后，将并将得到的特征融合参数再融入到深度学习网络模型中进行音频分类，其中，融入了所述特征融合参数的深度学习网络最终成为音乐分类模型。

在一些实施例中，可以将所述特征融合参数连接到sigmoid激活函数中，以根据所述特征融合参数与sigmoid激活函数生成所述音频分类模型。

其中，全连接神经网络与分类器连接，其中所述分类器是一个简单的sigmoid激活函数，sigmoid激活函数可以将输出变量映射到0至1之间，当检测结果不小于预设阈值时确定为现场音频，当检测结果小于预设阈值时确定为录音棚音频，其中，所述预设阈值可以人为设定，例如设置sigmoid激活函数的预设阈值为0.5，在网络得到充分训练的情况下一般不会加以调整。在网络训练不是很到位的情况下，例如样本分布不均匀，也可以根据实验结果取一个在验证集上正确率更高的一个阈值，这是在网络训练结束后提高性能的一个诀窍。

步骤105，若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。

例如，当接收到测试音频时，将所述测试音频输入到所述音频分类模型中进行分类检测，以生成检测结果，并根据检测结果对该测试音频进行分类。比如所述音频分类模型输出的检测结果经过sigmoid激活函数处理后，将输出变量映射到0至1之间，当检测结果不小于0.5时确定为现场音频，当检测结果小于0.5时确定为录音棚音频。

上述所有的技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

本发明实施例提供的音频数据处理方法，通过获取训练样本，然后提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，再将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，并根据所述特征融合参数生成音频分类模型，若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。本发明实施例通过多个特征信息的特征融合，得到结合了多个方面特征的特征融合参数，并将得到的特征融合参数再融入到音频分类模型中进行音频分类，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频，并且引入纯音乐与人声的鉴别特征以规避纯音乐对分类的影响。

根据上述实施例描述的方法，以下将结合深度学习网络的架构举例作进一步详细说明。请参阅图6及图7，图6为本发明实施例提供的深度学习网络的网络拓扑结构图，图7为本发明实施例提供的深度学习网络的算法流程图。

所述深度学习网络200是一个四输入、一输出的二分类网络。四项输入分别为频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征。其中频谱高度特征用RMS均值向量表示，纯音乐与人声的鉴别特征用纯音乐-人声特征向量表示，第一预设时长对应的音频开头特征用开头x秒归一化梅尔频谱经过卷积神经网络提取得到，第二预设时长对应的音频结尾特征通过结尾x秒归一化梅尔频谱经过卷积神经网络提取得到。即四项输入分别为RMS均值向量、纯音乐-人声特征向量，开头x秒归一化梅尔频谱，结尾x秒归一化梅尔频谱。其中，开头x秒特征与结尾x秒特征共享一个特征提取子网络。

其中，所述深度学习网络200为混合的深度学习网络，通过混合多个基础模块来实现，所述多个基础模块包括第一卷积神经网络201、第二卷积神经网络202和全连接神经网络203。深度学习网络200由卷积神经网络和全连接神经网络组成，其中第一卷积神经网络201和第二卷积神经网络202用于特征提取，全连接神经网络203用于分类。整个网络结构都是由神经网络构成的，因此可以统一训练，多个特征的提取可以同时通过不同的卷积神经网络在同一时间进行，加快了训练速度。

原则上，各个基础模块的神经网络结构有多种选择。在本发明实施例中，纯音乐-人声特征提取网络可以为预先训练好的第一卷积神经网络201，例如为固定权重的ResGCNN1D(带残差结构的门控卷积1D网络)，且在整个训练过程中保持不动。说话声、欢呼声和掌声特征提取采用第二卷积神经网络202，即说话声、欢呼声和掌声特征用于表征开头x秒特征与结尾x秒特征，例如说话声、欢呼声和掌声特征提取采用同样的ResGCNN1D网络，但用于提取说话声、欢呼声和掌声特征的ResGCNN1D网络可训练。特征混合部分采用经典的全连接神经网络203。在一些实施例中，还可以在全连接神经网络203中插入BatchNormalization层和Dropout层。最后，全连接神经网络203的输出端与分类器204的输入端连接，其中，分类器204是一个简单的sigmoid激活函数。

如图7示出的是用于现场-录音棚音频分类的深度学习网络，其训练与检测均依赖于图7所示的流程。

例如，具体训练流程如下：

首先，获取训练样本。

其次，提取多个特征信息，具体为：

将训练样本重采样44kHz，再经过短时傅里叶变换(STFT，short-time Fouriertransform)后，获取RMS均值向量；

将训练样本重采样16kHz，截取开头和结尾各20秒的样本，计算开头20秒和结尾20秒的样本对应的归一化梅尔频谱，并将开头20秒归一化梅尔频谱和结尾20秒归一化梅尔频谱送入第二卷积神经网络202中学习，以提取开头x秒特征向量与结尾x秒特征向量；

将训练样本重采样8kHz，截取4分钟的音频样本，计算4分钟音频样本对应的归一化梅尔频谱，并将4分钟音频样本的归一化梅尔频谱送入第一卷积神经网络201中学习，以提取纯音乐-人声特征向量。

然后，将提取到的RMS均值向量、纯音乐-人声特征向量、开头x秒特征向量与结尾x秒特征向量输入全连接神经网络203中进行特征混合训练，以完成训练过程，其中全连接神经网络203的输出端与分类器204的输入端连接。

例如，具体检测流程如下：

首先，获取检测音频。

其次，提取所述检测音频的多个特征信息，具体为：

将所述检测音频重采样44kHz，再经过短时傅里叶变换(STFT，short-timeFourier transform)后，获取所述检测音频的RMS均值向量；

将所述检测音频重采样16kHz，截取所述检测音频开头和结尾各20秒，计算开头20秒和结尾20秒对应的归一化梅尔频谱，并将所述检测音频的开头20秒归一化梅尔频谱和所述检测音频的结尾20秒归一化梅尔频谱送入第二卷积神经网络202中学习，以提取所述检测音频的开头x秒特征向量与结尾x秒特征向量；

将训练样本重采样8kHz，截取4分钟的检测音频片段，计算4分钟检测音频片段对应的归一化梅尔频谱，并将4分钟的检测音频片段的归一化梅尔频谱送入第一卷积神经网络201中学习，以提取检测音频片段的纯音乐-人声特征向量。

然后，将提取到检测音频片段的RMS均值向量、纯音乐-人声特征向量、开头x秒特征向量与结尾x秒特征向量输入全连接神经网络203中进行特征混合计算，以的到检测结果，并根据检测结果对所述检测音频进行分类，最终完成检测过程。其中，输出的检测结果经过由sigmoid激活函数组成的分类器204处理后，将输出变量映射到0至1之间，当检测结果不小于预设阈值时确定为现场音频，当检测结果小于预设阈值时确定为录音棚音频，其中，所述预设阈值可以人为设定，例如设置sigmoid激活函数的预设阈值为0.5。

本发明实施例还提供一种音频数据处理装置，如图8至图11所示，图8至图11均为本发明实施例提供的一种音频数据处理装置的结构示意图。所述音频数据处理装置300可以包括获取单元301，提取单元302，训练单元303，生成单元304，以及处理单元305。

其中，所述获取单元301，用于获取训练样本；

所述提取单元302，用于提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征；

所述训练单元303，用于将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数；

所述生成单元304，用于根据所述特征融合参数生成音频分类模型；

所述处理单元305，用于若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。

在一些实施例中，如图9所示，所述提取单元302还包括第一提取单元3021，第二提取单元3022和第三提取单元3023。

其中，所述第一提取单3021，用于获取所述训练样本中的声谱图分频带均值，以提取出所述频谱高度特征；

所述第二提取单元3022，用于将所述训练样本进行预处理后输入第一卷积神经网络中进行训练，以提取所述纯音乐与人声的鉴别特征；

所述第三提取单元3023，用于将所述训练样本进行预处理后输入第二卷积神经网络中进行训练，以提取所述第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征。

在一些实施例中，如图10所示，所述第二提取单元3022还包括第一重采样子单元30221，第一截取子单元30222，第一提取子单元30223和第一训练子单元30224。

其中，所述第一重采样子单元30221，用于根据第一采样率对所述训练样本进行重采样，以得到第一采样样本；

所述第一截取子单元30222，用于截取所述第一采样样本中第三预设时长对应的音频样本；

所述第一提取子单元30223，用于提取所述音频样本的归一化梅尔频谱；

所述第一训练子单元30224，用于将所述音频样本的归一化梅尔频谱输入所述第一卷积神经网络中进行训练，以提取出所述纯音乐与人声的鉴别特征。

在一些实施例中，所述第一截取子单元30222，还用于若所述第一采样样本的总时长小于所述第三预设时长，则对所述第一采样样本进行补零，以使得所述第一采样样本的总时长达到所述第三预设时长。

在一些实施例中，如图11所示，所述第三提取单元3023还包括第二重采样子单元30231，第二截取子单元30232，第二提取子单元30233和第二训练子单元30234。

所述第二重采样子单元30231，用于根据第二采样率对所述训练样本进行重采样，以得到第二采样样本；

所述第二截取子单元30232，用于截取所述第二采样样本中所述第一预设时长对应的音频开头样本，以及截取所述第二采样样本中所述第二预设时长对应的音频结尾样本；

所述第二提取子单元30233，用于提取所述音频开头样本和音频结尾样本的归一化梅尔频谱；

所述第二训练子单元30234，用于将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练，以提取出所述第一预设时长对应的音频开头特征和所述第二预设时长对应的音频结尾特征。

在一些实施例中，所述第二训练子单元30234，用于通过所述第二卷积神经网络检测所述开头音频样本和结尾音频样本是否含有说话声、欢呼声或者掌声的特征。

在一些实施例中，所述训练单元303，用于将所述频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征输入全连接神经网络中进行特征融合训练，以得到训练后的特征融合参数；

所述生成单元304，用于将所述特征融合参数连接到sigmoid激活函数中，以根据所述特征融合参数与sigmoid激活函数生成所述音频分类模型。

在一些实施例中，所述训练单元303，还用于在所述全连接神经网络中添加规范化层，以对所述全连接神经网络进行规范化处理，以加速网络收敛。

在一些实施例中，所述训练单元303，还用于在所述全连接神经网络中添加预设比例的随机失活层，在训练所述全连接神经网络的过程中随机冻结所述预设比例对应的神经元，以抑制过拟合现象。

本发明实施例提供的音频数据处理装置300，通过获取单元301获取训练样本，然后提取单元302提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，训练单元303将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，生成单元304根据所述特征融合参数生成音频分类模型，处理单元305接收到测试音频时，通过所述音频分类模型对所述测试音频进行分类。本发明实施例的音频数据处理装置300通过多个特征信息的特征融合，得到结合了多个方面特征的特征融合参数，并将得到的特征融合参数再融入到音频分类模型中进行音频分类，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频，并且引入纯音乐与人声的鉴别特征以规避纯音乐对分类的影响。

本发明实施例还提供一种服务器，如图12所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图12中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取训练样本；提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征；将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数；根据所述特征融合参数生成音频分类模型；若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的服务器，通过获取训练样本，然后提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，再将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，并根据所述特征融合参数生成音频分类模型，若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。本发明实施例通过多个特征信息的特征融合，得到结合了多个方面特征的特征融合参数，并将得到的特征融合参数再融入到音频分类模型中进行音频分类，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频，并且引入纯音乐与人声的鉴别特征以规避纯音乐对分类的影响。

相应的，本发明实施例还提供一种终端，如图13所示，该终端可以包括射频(RF，Radio Frequency)电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真(WiFi，Wireless Fidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解，图13中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路501可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器508处理；另外，将涉及上行的数据发送给基站。通常，RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路501还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器502可用于存储软件程序以及模块，处理器508通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器508和输入单元503对存储器502的访问。

输入单元503可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元503可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器508，并能接收处理器508发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元503还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元504可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器508以确定触摸事件的类型，随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图13中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路506、扬声器，传声器可提供用户与终端之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路506接收后转换为音频数据，再将音频数据输出处理器508处理后，经RF电路501以发送给比如另一终端，或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块507，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器508是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器508可包括一个或多个处理核心；优选的，处理器508可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器508中。

终端还包括给各个部件供电的电源509(比如电池)，优选的，电源可以通过电源管理系统与处理器508逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器508会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器508来运行存储在存储器502中的应用程序，从而实现各种功能：

以上操作具体可参见前面的实施例，在此不作赘述。

由上可知，本实施例提供的终端，通过获取训练样本，然后提取所述训练样本中的多个特征信息，所述多个特征信息包括频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，再将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，并根据所述特征融合参数生成音频分类模型，若接收到测试音频，则通过所述音频分类模型对所述测试音频进行分类。本发明实施例通过多个特征信息的特征融合，得到结合了多个方面特征的特征融合参数，并将得到的特征融合参数再融入到音频分类模型中进行音频分类，提升了音频分类的准确率，能够有效区分现场音频与录音棚音频，并且引入纯音乐与人声的鉴别特征以规避纯音乐对分类的影响。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种虚拟资源的转移方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种虚拟资源的转移方法中的步骤，因此，可以实现本发明实施例所提供的任一种虚拟资源的转移方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种浏览器页面数据过滤方法、装置和系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频数据处理方法，其特征在于，包括：

获取训练样本；

根据所述特征融合参数生成音频分类模型；

2.如权利要求1所述的音频数据处理方法，其特征在于，所述提取所述训练样本中的多个特征信息，包括：

获取所述训练样本中的声谱图分频带均值，以提取出所述频谱高度特征；

将所述训练样本进行预处理后输入第一卷积神经网络中进行训练，以提取所述纯音乐与人声的鉴别特征；

将所述训练样本进行预处理后输入第二卷积神经网络中进行训练，以提取所述第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征。

3.如权利要求2所述的音频数据处理方法，其特征在于，所述将所述训练样本进行预处理后输入第一卷积神经网络进行训练，以提取所述纯音乐与人声的鉴别特征，包括：

根据第一采样率对所述训练样本进行重采样，以得到第一采样样本；

截取所述第一采样样本中第三预设时长对应的音频样本；

提取所述音频样本的归一化梅尔频谱；

将所述音频样本的归一化梅尔频谱输入所述第一卷积神经网络中进行训练，以提取出所述纯音乐与人声的鉴别特征。

4.如权利要求3所述的音频数据处理方法，其特征在于，所述截取所述第一采样样本中第三预设时长对应的音频样本，还包括：

5.如权利要求2所述的音频数据处理方法，其特征在于，所述将所述训练样本进行预处理后输入第二卷积神经网络中进行训练，以提取所述第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征，包括：

根据第二采样率对所述训练样本进行重采样，以得到第二采样样本；

截取所述第二采样样本中所述第一预设时长对应的音频开头样本，以及截取所述第二采样样本中所述第二预设时长对应的音频结尾样本；

提取所述音频开头样本和音频结尾样本的归一化梅尔频谱；

将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练，以提取出所述第一预设时长对应的音频开头特征和所述第二预设时长对应的音频结尾特征。

6.如权利要求5所述的音频数据处理方法，其特征在于，所述将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练，包括：

7.如权利要求1-6任一项所述的音频数据处理方法，其特征在于，所述将所述多个特征信息输入神经网络中进行特征融合训练，以得到训练后的特征融合参数，包括：

将所述频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征输入全连接神经网络中进行特征融合训练，以得到训练后的特征融合参数；

所述根据所述特征融合参数生成音频分类模型，包括：

将所述特征融合参数连接到sigmoid激活函数中，以根据所述特征融合参数与sigmoid激活函数生成所述音频分类模型。

8.如权利要求7所述的音频数据处理方法，其特征在于，所述方法还包括：

在所述全连接神经网络中添加规范化层，以对所述全连接神经网络进行规范化处理，以加速网络收敛。

9.如权利要求7所述的音频数据处理方法，其特征在于，所述方法还包括：

在所述全连接神经网络中添加预设比例的随机失活层，在训练所述全连接神经网络的过程中随机冻结所述预设比例对应的神经元，以抑制过拟合现象。

10.一种音频数据处理装置，其特征在于，所述装置包括：

获取单元，用于获取训练样本；

生成单元，用于根据所述特征融合参数生成音频分类模型；

11.如权利要求10所述的音频数据处理装置，其特征在于，所述提取单元包括：

第一提取单元，用于获取所述训练样本中的声谱图分频带均值，以提取出所述频谱高度特征；

第二提取单元，用于将所述训练样本进行预处理后输入第一卷积神经网络中进行训练，以提取所述纯音乐与人声的鉴别特征；

第三提取单元，用于将所述训练样本进行预处理后输入第二卷积神经网络中进行训练，以提取所述第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征。

12.如权利要求11所述的音频数据处理装置，其特征在于，所述第二提取单元包括：

第一重采样子单元，用于根据第一采样率对所述训练样本进行重采样，以得到第一采样样本；

第一截取子单元，用于截取所述第一采样样本中第三预设时长对应的音频样本；

第一提取子单元，用于提取所述音频样本的归一化梅尔频谱；

第一训练子单元，用于将所述音频样本的归一化梅尔频谱输入所述第一卷积神经网络中进行训练，以提取出所述纯音乐与人声的鉴别特征。

13.如权利要求12所述的音频数据处理装置，其特征在于，所述第一截取子单元，还用于若所述第一采样样本的总时长小于所述第三预设时长，则对所述第一采样样本进行补零，以使得所述第一采样样本的总时长达到所述第三预设时长。

14.如权利要求11所述的音频数据处理装置，其特征在于，所述第三提取单元包括：

第二重采样子单元，用于根据第二采样率对所述训练样本进行重采样，以得到第二采样样本；

第二截取子单元，用于截取所述第二采样样本中所述第一预设时长对应的音频开头样本，以及截取所述第二采样样本中所述第二预设时长对应的音频结尾样本；

第二提取子单元，用于提取所述音频开头样本和音频结尾样本的归一化梅尔频谱；

第二训练子单元，用于将所述音频开头样本和音频结尾样本的归一化梅尔频谱分别输入所述第二卷积神经网络中进行训练，以提取出所述第一预设时长对应的音频开头特征和所述第二预设时长对应的音频结尾特征。

15.如权利要求14所述的音频数据处理装置，其特征在于，所述第二训练子单元，用于通过所述第二卷积神经网络检测所述开头音频样本和结尾音频样本是否含有说话声、欢呼声或者掌声的特征。

16.如权利要求10-15任一项所述的音频数据处理装置，其特征在于，所述训练单元，用于将所述频谱高度特征、纯音乐与人声的鉴别特征、第一预设时长对应的音频开头特征以及第二预设时长对应的音频结尾特征输入全连接神经网络中进行特征融合训练，以得到训练后的特征融合参数；

所述生成单元，用于将所述特征融合参数连接到sigmoid激活函数中，以根据所述特征融合参数与sigmoid激活函数生成所述音频分类模型。

17.如权利要求16所述的音频数据处理装置，其特征在于，所述训练单元，还用于在所述全连接神经网络中添加规范化层，以对所述全连接神经网络进行规范化处理，以加速网络收敛。

18.如权利要求16所述的音频数据处理装置，其特征在于，所述训练单元，还用于在所述全连接神经网络中添加预设比例的随机失活层，在训练所述全连接神经网络的过程中随机冻结所述预设比例对应的神经元，以抑制过拟合现象。

19.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至9任一项所述的音频数据处理方法中的步骤。