CN111859011A

CN111859011A - 音频处理方法、装置、存储介质及电子设备

Info

Publication number: CN111859011A
Application number: CN202010684888.0A
Authority: CN
Inventors: 杨伟明
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-30

Abstract

本申请公开了一种音频处理方法、装置、存储介质及电子设备。该音频处理方法包括：获取音频文件；将该音频文件输入至预先训练好的特征提取模型，以使该特征提取模型根据该音频文件的父类别将该音频文件划分为多个音频块以及提取每一音频块的音频特征；根据每一音频块的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果；根据各音频块的分类结果，确定该音频文件的子类别。本申请可以提高电子设备对音频文件进行分类的灵活性。

Description

音频处理方法、装置、存储介质及电子设备

技术领域

本申请属于音频技术领域，尤其涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术

音乐有很多类别，比如摇滚音乐、流行音乐、爵士音乐、民歌、古典音乐等等。不同类别的音乐可以给用户以不同的听觉感受。每一个大的类别又可以具有多个不同的细分类别，比如古典音乐之下又细分有古典交响曲、古典奏鸣曲、古典协奏曲等等。利用人工智能技术，电子设备可以对音频文件进行分类。然而，相关技术中，电子设备对音频文件的分类的灵活性较差。

发明内容

本申请实施例提供一种音频处理方法、装置、存储介质及电子设备，可以提高电子设备对音频文件进行分类的灵活性。

第一方面，本申请实施例提供一种音频处理方法，包括：

获取音频文件；

将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块以及提取每一音频块的音频特征；

根据每一音频块的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果；

根据各音频块的分类结果，确定所述音频文件的子类别。

第二方面，本申请实施例提供一种音频处理装置，包括：

获取单元，用于获取音频文件；

提取单元，用于将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块以及提取每一音频块的音频特征；

分类单元，用于根据每一音频块的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果；

确定单元，用于根据各音频块的分类结果，确定所述音频文件的子类别。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行本申请实施例提供的音频处理方法中的流程。

第四方面，本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本申请实施例提供的音频处理方法中的流程。

在本申请实施例中，电子设备可以对音频文件进行分块，并提取各音频块的音频特征，再根据各音频块的音频特征利用训练好的预设分类模型得到各音频块的分类结果，以及根据各音频块的分类结果确定出音频文件的子类别。由于本申请实施例是利用音频文件中的各音频块的分类结果来确定该音频文件的子类别的，因此本申请实施例可以提高对音频文件进行分类的灵活性。并且，由于特征提取模型可以根据音频文件的父类别将该音频文件划分为多个音频块，即对于不同父类别的音频文件，特征提取模型可以使用不同的方式将音频文件划分为多个音频块。因此，本实施例可以提高音频特征提取的准确性，从而更加准确地确定出音频文件的子类别。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的音频处理方法的流程示意图。

图2是本申请实施例提供的音频处理方法的另一流程示意图。

图3a至图3c是本申请实施例提供的音频处理方法的场景示意图。

图4是本申请实施例提供的音频处理装置的结构示意图。

图5是本申请实施例提供的电子设备的结构示意图。

图6是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

可以理解的是，本申请实施例的执行主体可以是诸如智能手机或平板电脑等的电子设备，也可以是诸如服务器等的电子设备。

请参阅图1，图1是本申请实施例提供的音频处理方法的流程示意图，流程可以包括：

101、获取音频文件。

在本申请实施例中，比如，电子设备可以先获取音频文件。

102、将音频文件输入至预先训练好的特征提取模型，以使该特征提取模型根据该音频文件的父类别将该音频文件划分为多个音频块以及提取每一音频块的音频特征。

比如，在获取到音频文件后，电子设备可以将该音频文件输入至预先训练好的特征提取模型中，该特征提取模型可以根据该音频文件的父类别将该音频文件划分为多个音频块，并提取每一音频块的音频特征。

需要说明的是，音频文件的父类别可以是指音频文件的一级类别(即一级分类标签)。例如，音频文件的一级类别可以包括摇滚音乐、流行音乐、爵士音乐、民歌、古典音乐，等等。

不同类别的音乐具有不同的特点。比如，摇滚音乐的特点是节奏很快、重金属风格浓重、乐器多样。流行音乐的特点是节奏欢快、活泼。古典音乐的特点是讲究谐调、风格高雅、乐观向上，等等。

在本实施例中，特征提取模型根据音频文件的父类别将该音频文件划分为多个音频块，可以是指：对于不同父类别的音频文件，特征提取模型可以使用不同的方式将音频文件划分为多个音频块。比如，预先训练好的特征提取模型(如Resetnet50)可以包括多套模型参数，不同的模型参数与不同的音频父类别对应，特征提取过程可以包括分块、分帧以及特征提取，不同的模型参数主要是音频分块方面的模型参数存在区别。这样，当利用训练好的特征提取模型对某一音频文件提取特征时，可以按照该音频文件的父类别选择相对应的模型参数，再根据该相对应的模型参数对音频文件进行分块及特征提取。由于不同父类别的音频文件，其组成结构也不同，因此如果使用同一套模型参数(主要是分块参数，如帧长、步长等等)对所有父类别的音频文件分块的话，音频分块结果会不够准确，从而导致提取的音频特征也不够准确。而在本申请的方案中，考虑到了不同父类别的音频文件的特点，根据音频文件的结构特点进行分块，从而使得从每一音频块中提取出的音频特征更加准确。

103、根据每一音频块的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果。

比如，在对每一音频块提取音频特征后，电子设备可以根据每一音频块的音频特征利用训练好的预设分类模型对每一音频块进行分类，从而得到每一音频块的分类结果。其中，预设分类模型可以是预先经过学习训练的算法模型，该预设分类模型可以将音频特征作为输入数据，其输出表示对应的音频的类别的信息，从而对音频进行分类。

104、根据各音频块的分类结果，确定音频文件的子类别。

比如，在得到每一音频块的分类结果后，电子设备可以根据各音频块的分类结果来确定音频文件的子类别。

需要说明的是，音频文件的子类别可以是指音频文件的二级类别(或称之为二级分类标签)。例如，某一音频文件的父类别为古典音乐，子类别为古典交响乐，等等。

例如，电子设备利用预先训练好的特征提取模型将音频文件A按照其父类别划分为9个音频块。之后，电子设备可以对这9个音频块进行音频特征提取，得到各音频块的音频特征，并据此利用训练好的预设分类模型对这9个音频块进行分类，从而得到各音频块的分类结果。之后，电子设备可以根据这9个音频块的分类结果确定音频文件A的子类别。例如，电子设备确定出音频文件A的子类别为古典交响曲。

可以理解的是，在本申请实施例中，电子设备可以对音频文件进行分块，并提取各音频块的音频特征，再根据各音频块的音频特征利用训练好的预设分类模型得到各音频块的分类结果，以及根据各音频块的分类结果确定出音频文件的子类别。由于本申请实施例是利用音频文件中的各音频块的分类结果来确定该音频文件的子类别的，因此本申请实施例可以提高对音频文件进行分类的灵活性。并且，由于特征提取模型可以根据音频文件的父类别将该音频文件划分为多个音频块，即对于不同父类别的音频文件，特征提取模型可以使用不同的方式将音频文件划分为多个音频块。因此，本实施例可以提高音频特征提取的准确性，从而更加准确地确定出音频文件的子类别。

请参阅图2，图2为本申请实施例提供的音频处理方法的另一流程示意图，流程可以包括：

201、电子设备获取音频文件。

比如，电子设备可以先获取一音频文件。

在获取到音频文件后，电子设备可以检测该音频文件是否为多声道音频文件。

若该音频文件为单声道的音频，则电子设备可以不对该音频文件做声道转换处理，而是进入203中。

若该音频文件为多声道的音频，则进入202中。

202、若音频文件为多声道的音频，则电子设备将该音频文件由多声道转换为单声道。

比如，电子设备获取到的音频文件为多声道(双声道及以上)的音频，那么电子设备可以对该音频文件进行声道转换处理，将该音频文件由多声道转换为单声道。

需要说明的是，将音频文件由多声道转换为单声道可以有效避免对音频文件中的音频特征的重复提取，从而提高处理效率。

203、电子设备将单声道的音频文件输入至预先训练好的特征提取模型，以使该特征提取模型根据音频文件的父类别确定与该父类别对应的分块参数，并依据该分块参数将音频文件划分为多个音频块。

其中，有关本步骤的说明可以参见上述实施例步骤102的说明，此处并不赘述。

在一种实施方式中，特征提取模型根据音频文件的父类别确定与该父类别对应的分块参数，可以包括：电子设备获取音频文件的父类别，并将音频文件的父类别这一信息与音频文件一同输入至特征提取模型，以使特征提取模型根据音频文件的父类别确定对应的分块参数。

在另一种实施方式中，特征提取模型根据音频文件的父类别确定与该父类别对应的分块参数，可以包括：将音频文件输入至特征提取模型，并由该特征提取模型确定该音频文件的父类别，再由该特征提取模型根据该音频文件的父类别确定对应的分块参数。

确定出父类别对应的分块参数后，特征提取模型便可以依据该分块参数对音频文件执行分块步骤。

例如，电子设备利用特征提取模型确定出与音频文件的父类别对应的分块参数是按照每30秒的播放时长形成一个音频块，那么，电子设备就可以按照每30秒的播放时间形成一个音频块的方式对该音频文件进行分块，从而得到多个音频块。

又如，电子设备利用特征提取模型确定出与音频文件的父类别对应的分块参数是按照每20秒的播放时长形成一个音频块，那么，电子设备就可以按照每20秒的播放时间形成一个音频块的方式对该音频文件进行分块，从而得到多个音频块。

204、电子设备提取每一音频块的音频特征，其中，音频特征至少包括梅尔频谱特征、梅尔频率倒谱系数特征、过零率特征、平坦度特征以及频谱质心特征。

比如，在将音频文件划分为多个音频块后，电子设备可以提取每一音频块的音频特征。其中，该音频特征至少可以包括梅尔频谱特征(如128维的梅尔频谱特征)、梅尔频率倒谱系数特征(MFCC)、过零率特征、平坦度特征(Flatness)以及频谱质心特征等。

例如，电子设备获取到的音频文件A为双声道音频，那么电子设备可以先将音频文件A由双声道转换为单声道，再将转换为单声道后的音频文件A，并按照该音频文件A的父类别划分为多个音频块，例如划分为9个音频块，分别为a1、a2、a3、a4、a5、a6、a7、a8、a9。

之后，电子设备可以提取音频文件A的每一个音频块的音频特征。例如，对于音频块a1，电子设备可以提取它的梅尔频谱特征、梅尔频率倒谱系数特征、过零率特征、平坦度特征以及频谱质心特征。

又如，对于音频块a2，电子设备可以提取它的梅尔频谱特征、梅尔频率倒谱系数特征、过零率特征、平坦度特征以及频谱质心特征。同理，对于音频块a3、a4、a5、a6、a7、a8、a9也采取上述方式得到它们的音频特征。

205、根据每一音频块的音频特征，电子设备利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果，其中，该预设分类模型含有残差网络模块以及批量归一化模块。

比如，在得到各音频块的音频特征后，电子设备可以利用训练好的预设分类模型对每一音频块进行分类，从而得到每一音频块的分类结果。其中，该预设分类模型中可以包含残差网络(Residual Network,ResNet)算法模块和批量归一化(Batch Normalization)算法模块。

需要说明的是，预设分类模型中包含的残差网络算法模块可以有效避免模型训练过程中出现的梯度下降的问题，而批量归一化算法模块则可以有效避免模型训练过程中出现的振荡问题。因此，通过残差网络算法模块和批量归一化算法模块可以有效提高预设分类模型的分类准确度。

206、根据各音频块的分类结果，电子设备统计各子类别所包含的音频块的数量。

207、电子设备将所包含的音频块的数量最大的子类别确定为音频文件的子类别。

比如，206和207可以包括：

利用预设分类模型，电子设备可以得到各音频块的分类结果，之后电子设备可以统计各子类别所包含的音频块的数量，并将所包含的音频块的数量最大的子类别确定为音频文件的子类别。

例如，利用预设分类模型，电子设备可以得到音频文件A对应的9个音频块a1、a2、a3、a4、a5、a6、a7、a8、a9的分类结果，即电子设备可以得到音频块a1、a2、a3、a4、a5、a6、a7、a8、a9的类别。其中，a1、a2、a3、a4、a5、a9的类别为甲，a6、a7、a8的类别为乙。即，类别甲包含的音频块的数量为6，类别乙包含的音频块的数量为3。即，类别甲包含的音频块的数量最大。那么，电子设备可以将类别甲确定为音频文件A的子类别。

在另一种实施方式中，在提取到每一音频块的音频特征后，电子设备还可以对音频特征进行归一化，从而得到归一化后的音频特征。之后，电子设备可以根据每一音频块的归一化后的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果。最后，电子设备可以根据各音频块的分类结果统计各子类别所包含的音频块的数量，并将所包含的音频块的数量最大的子类别确定为音频文件的子类别。

比如，在将音频文件划分为多个音频块后，电子设备可以提取每一音频块的音频特征。其中，该音频特征至少可以包括梅尔频谱特征(如128维的梅尔频谱特征)、梅尔频率倒谱系数特征(MFCC)、过零率特征、平坦度特征(Flatness)以及频谱质心特征等。并且，电子设备可以对提取到的音频特征进行归一化(Normalization，也称为标准化)处理，从而得到归一化后的音频特征。

例如，电子设备获取到的音频文件A为双声道音频，那么电子设备可以先将音频文件A由双声道转换为单声道，再将转换为单声道后的音频文件A按照该音频文件A的父类别划分为多个音频块，例如划分为9个音频块，分别为a1、a2、a3、a4、a5、a6、a7、a8、a9。

之后，电子设备可以提取音频文件A的每一个音频块的音频特征，并对音频特征进行归一化，得到归一化后的音频特征。例如，对于音频块a1，电子设备可以提取它的梅尔频谱特征、梅尔频率倒谱系数特征、过零率特征、平坦度特征以及频谱质心特征，并对各特征进行归一化，从而分别得到归一化后的梅尔频谱特征、归一化后的梅尔频率倒谱系数特征、过零率特征、归一化后的平坦度特征以及归一化后的频谱质心特征。

又如，对于音频块a2，电子设备可以提取它的梅尔频谱特征、梅尔频率倒谱系数特征、过零率特征、平坦度特征以及频谱质心特征，并对各特征进行归一化，从而分别得到归一化后的梅尔频谱特征、归一化后的梅尔频率倒谱系数特征、过零率特征、归一化后的平坦度特征以及归一化后的频谱质心特征。同理，对于音频块a3、a4、a5、a6、a7、a8、a9也采取上述方式得到它们的归一化后的音频特征。

需要说明的是，由于过零率特征可以采用二元编码0和1来表示，因此过零率特征可以不需要归一化。

比如，在得到各音频块的归一化后的音频特征后，电子设备可以利用训练好的预设分类模型对每一音频块进行分类，从而得到每一音频块的分类结果。之后，电子设备可以统计各子类别所包含的音频块的数量，并将所包含的音频块的数量最大的子类别确定为音频文件的子类别。

在一种实施方式中，本实施例可以通过如下方式来训练得到预设分类模型：

电子设备获取正样本数据以及负样本数据，其中，该正样本数据为目标子类别的音频文件，该负样本数据为非目标子类别的音频文件；

电子设备将正样本数据和负样本数据中的每一样本数据划分为多个音频块，并提取每一音频块的音频特征；

电子设备利用正样本数据和负样本数据中的每一音频块的音频特征对预先选取的模型进行学习训练，得到预设分类模型。

那么，电子设备根据每一音频块的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果的流程，可以包括：电子设备根据每一音频块的音频特征，利用预设分类模型对每一音频块进行分类，得到每一音频块的分类结果，音频块的分类结果表示音频块的类别为目标子类别或者非目标子类别。

比如，用户需要利用电子设备及分类模型来分辨出属于某个类别(即目标子类别)的音频文件。那么，电子设备可以通过如下方式来训练得到预设分类模型：电子设备可以先获取正样本数据以及负样本数据，其中，该正样本数据为目标子类别的音频文件，该负样本数据为非目标子类别的音频文件。然后，电子设备可以将正样本数据和负样本数据中的每一个样本数据均划分为多个音频块，并提取每一音频块的音频特征。之后，电子设备可以利用正样本数据和负样本数据中的每一音频块的音频特征对预先选取的模型进行学习训练，从而得到预设分类模型。由于该预设分类模型是利用目标子类别和非目标子类别的音频文件训练得到的，因此该训练得到的预设分类模型可以将某一个音频文件的类别划分为目标子类别或非目标子类别。即，预设分类模型可以是一个经过学习训练而得到的二分类模型。例如，电子设备在提取到音频文件A的9个音频块a1、a2、a3、a4、a5、a6、a7、a8、a9的音频特征后，可以根据各音频块的音频特征，利用训练好的预设分类模型来对各音频块进行分类，从而得到各音频块的分类结果。例如，a1、a2、a3、a4、a5、a9的类别被划分为目标子类别，而a6、a7、a8的类别被划分为非目标子类别。那么，电子设备可以将音频文件A的子类别确定为目标子类别。

在一种实施方式中，用于训练得到预设分类模型的预先选取的模型可以是满足如下两个条件的卷积神经网络模型：第一，卷积神经网络模型中含有残差网络算法模块；第二，卷积神经网络模型中含有Batch Normalization算法模块(批量归一化模块)。在一些实施方式中，预先选取的模型可以是诸如ResNet、VGG16以及Inception等模型。

在一种实施方式中，特征提取模型的训练过程可以包括：

获得多种父类别的音频文件样本；

将多种父类别的音频文件样本输入至预设的特征提取模型进行训练，以得到不同父类别各自对应的模型参数，该模型参数用于供特征提取模型将音频文件划分为多个音频块以及提取每一音频块的音频特征。

比如，电子设备可以先获取多种父类别的音频文件样本，例如包括摇滚音乐类别的音频文件样本、流行音乐类别的音频文件样本、爵士音乐类别的音频文件样本、民歌类别的音频文件样本、古典音乐类别的音频文件样本，等等。

之后，电子设备可以将上述这些父类别的音频文件样本输入值预设的特征提取模型中进行学习训练，从而得到不同父类别各自对应的模型参数，该模型参数用于供特征提取模型将音频文件划分为多个音频块以及提取每一音频块的音频特征。例如，摇滚音乐类别对应第一套模型参数，流行音乐类别对应第二套模型参数，爵士音乐类别对应第三套模型参数，民歌音乐类别对应第四套模型参数，古典音乐类别对应第五套模型参数。

基于此，在获取到民歌音乐类别的音频文件后，电子设备可以将民歌音乐类别的音频文件输入至预先训练好的特征提取模型中，该特征提取模型可以根据第四套模型参数将民歌音乐类别的音频文件划分为多个音频块，并提取每一音频块的音频特征。

请参阅图3a至图3c，图3a至图3c为本申请实施例提供的音频处理方法的场景示意图。

比如，相关技术中，电子设备可以利用基于人工智能技术的经过学习训练的一些算法模型来对音频文件的类别进行分类。比如，电子设备利用算法模型可以将音频文件划分为摇滚音乐、流行音乐、爵士音乐、民歌、古典音乐等等。但是，相关技术中对音频文件的分类仅限于一级分类，即相关技术中仅能将音频文件划分为摇滚音乐、流行音乐、爵士音乐、民歌、古典音乐这一级别的类别，而无法进行更精细的二级分类，如无法将音频文件细分为古典交响曲、古典奏鸣曲、古典协奏曲等等。

本申请实施例通过如下方式可以实现对音频文件的二级分类。请参阅图3a，图3a为本实施例提供的实施流程示意图，包括数据收集、特征工程、模型选择、模型训练以及模型预测这些阶段。

比如，在数据收集阶段，电子设备可以先获取正样本数据和负样本数据，比如正样本数据为古典交响曲类别的音频文件，而负样本数据为非古典交响曲类别的音频文件，例如预先收集到的负样本数据包括古典奏鸣曲、古典协奏曲、室内乐、电子音乐、歌剧类或者纯音乐等类别的音频文件。

在一种实施方式中，正样本数据和负样本数据的数量可以相等。

在一种实施方式中，在获取到正样本数据和负样本数据后，电子设备可以对正样本数据和负样本数据分别进行数据清洗，从而清除无效文件，也即将不适合作为样本数据的文件清除。比如，电子设备可以利用查找重复值、查找缺失值、查找异常值等数据清洗技术对正样本数据和负样本数据进行数据清洗。

在特征工程阶段，电子设备可以利用信号数据处理技术，对收集到的正样本数据和负样本数据进行特征提取。比如，电子设备可以将正样本数据和负样本数据中的多声道音频文件均转换为单声道音频文件，从而使样本数据均为单声道音频文件。之后，电子设备可以将每一单声道的音频文件划分为多个音频块。例如，对于不同类别的音频文件，电子设备可以使用不同的方式将音频文件划分为多个音频块。例如，对于古典协奏曲这一类别，电子设备可以按照每30秒的播放时长形成一个音频块的方式将各音频文件划分为多个音频块(音频文件最后部分的不足30秒的部分形成一个音频块，并可以进行补零处理)。而对于爵士音乐这一类别，电子设备可以按照每20秒的播放时长形成一个音频块的方式将各音频文件划分为多个音频块(音频文件最后部分的不足20秒的部分形成一个音频块，并可以进行补零处理)。特征工程阶段的实施流程可以如图3b所示。

之后，电子设备可以对各音频文件的各音频块进行特征提取，例如电子设备可以按照如下方式来进行特征提取：

在进行快速傅里叶变换(FFT)时将窗口长度设置为4096个采样点(即fft size为4096)，提取128维的梅尔频谱特征，并将提取到的梅尔频谱特征归一化(Normalization)，得到归一化后的梅尔频谱特征；

在进行快速傅里叶变换(FFT)时将窗口长度设置为2048个采样点(即fft size为2048)，提取梅尔频率倒谱系数(MFCC)特征，并将提取到的梅尔频率倒谱系数特征归一化，得到归一化后的梅尔频率倒谱系数特征；

在进行快速傅里叶变换(FFT)时将窗口长度设置为1024个采样点(即fft size为1024)，提取过零率特征，其中过零率特征采用二维编码(binary encode)；

在进行快速傅里叶变换(FFT)时将窗口长度设置为1024个采样点(即fft size为1024)，提取平坦度(Flatness)特征，并将提取到的平坦度特征归一化，得到归一化后的平坦度特征；

在进行快速傅里叶变换(FFT)时将窗口长度设置为1024个采样点(即fft size为1024)，提取频谱质心特征，并将提取到的频谱质心特征归一化，得到归一化后的频谱质心特征。

即，每一个音频块对应有上述5个音频特征。在一种实施方式中，电子设备可以将属于正样本数据的各音频块及其音频特征保存在第一目录中，并将属于负样本数据的各音频块及其音频特征保存在第二目录中。那么，后续在模型训练时，如果训练数据是从第一目录中获取的，那么训练数据的类别标签可以设置为1。如果训练数据是从第二目录中获取的，那么训练数据的类别标签可以设置为0。

在模型选择阶段，可以根据如下两个条件来选取用于训练的模型：第一，含有残差网络算法模块；第二，含有Batch Normalization算法模块。例如，在一些实施方式中，可以将ResNet模型、VGG16模型或Inception模型等选取为用于训练的模型。例如，本实施例选取ResNet模型作为训练模型。

在模型训练阶段，电子设备可以根据正负样本数据中的各音频块的类别信息以及音频特征来训练ResNet模型。其中，在模型训练过程中，可以选择TensorFlow框架作为训练框架，模型训练参数可以包括批大小batch的值设为128，epoch的值设为1000，学习率learning rate的值设为0.0001。最终训练得到的网络模型可以区分出某一音频文件的类别为目标子类别(古典交响曲类别)或者非目标子类别。例如，最终训练得到的ResNet模型被电子设备确定为预设分类模型，该预设分类模型可以是以pb格式保存的文件。

在模型预测阶段，电子设备可以利用训练好的预设分类模型来对某一音频文件的子类别进行划分。例如，电子设备需要对双声道的音频文件A的子类别进行划分，那么电子设备可以先将音频文件A由双声道转换为单声道，再将单声道的音频文件A按照其父类别对应的参数例如每30秒的播放时长形成一个音频块的方式划分为多个音频块。之后，电子设备可以提取音频文件A中的各音频块的音频特征，包括128维的梅尔频谱特征、梅尔频率倒谱系数特征、过零率特征、平坦度特征以及频谱质心特征，并对各音频特征进行归一化，得到归一化后的各音频特征。

之后，电子设备可以根据各音频块的归一化后的音频特征，利用训练好的预设分类模型来对各音频块的类别进行划分，将其划分为目标子类别或非目标子类别，从而得到各音频块的分类结果。之后，电子设备可统计目标子类别和非目标子类别的音频块的数量，并将数量较大的子类别确定为音频文件A的子类别。例如，音频文件A中的音频块a1、a2、a3、a4、a5、a9的类别被划分为目标子类别(古典交响乐类别)，而a6、a7、a8的类别被划分为非目标子类别(非古典交响乐类别)。那么，电子设备可以将音频文件A的子类别确定为目标子类别，也即将音频文件A划为古典交响乐。模型预测阶段的实施流程可以如图3c所示。

在将音频文件A划为古典交响乐后，电子设备可以为音频文件A打上古典交响乐的二级标签，例如以数字编码123来指代古典交响乐，那么电子设备可以将音频文件A二级标签信息设置123。

需要说明的是，本申请实施例中电子设备提取的音频特征包括128维的梅尔频谱特征、梅尔频率倒谱系数特征、过零率特征、平坦度特征以及频谱质心特征。之所以选择提取音频文件的上述5个音频特征，是因为本申请的研发人员经过研究得出通过上述5个音频特征可以有效地区分出音频是否为目标子类别，即有效地区分出音频文件的类别是否为古典交响乐类别。其中，128维的梅尔频谱特征以及梅尔频率倒谱系数特征可以有效地提取到音频本身所具有的一些属性并过滤掉噪声，从而使得模型更准确地进行分类。而过零率特征是可以用于对敲击声音进行分类的主要特征。平坦度特征可以有效地过滤掉音频文件中的人声的干扰。频谱质心特征使得模型可以根据音频特征更加精细、更加准确地分类，使得模型可以将比较相似但仍然不属于同一类别的音频准确的区分开来。

可以理解的是，利用本申请实施例提供的方式，电子设备可以确定出曲库中的音频文件的二级标签，因此本申请实施例可以对音频文件进行更精细的分类，而更精细的分类则可以提高曲库的运营效率，方便歌曲的运营和推广。

请参阅图4，图4为本申请实施例提供的音频处理装置的结构示意图。音频处理装置400可以包括：获取单元401，提取单元402，分类单元403，确定单元404。

获取单元401，用于获取音频文件。

提取单元402，用于将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块以及提取每一音频块的音频特征。

分类单元403，用于根据每一音频块的音频特征，利用训练好的预设分类模型对每一音频块进行分类，得到每一音频块的分类结果。

确定单元404，用于根据各音频块的分类结果，确定所述音频文件的子类别。

在一种实施方式中，所述确定单元404可以用于：

根据各音频块的分类结果，统计各子类别所包含的音频块的数量；

将所包含的音频块的数量最大的子类别确定为所述音频文件的子类别。

在一种实施方式中，所述提取单元402可以用于：

若所述音频文件为多声道的音频，则将所述音频文件由多声道转换为单声道；

将转换为单声道后的音频文件输入至预先训练好的特征提取模型。

在一种实施方式中，所述提取单元402可以用于：将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别确定与所述父类别对应的分块参数，并依据所述分块参数将所述音频文件划分为多个音频块。

在一种实施方式中，所述特征提取模型的训练过程包括：获得多种父类别的音频文件样本；将所述多种父类别的音频文件样本输入至预设的特征提取模型进行训练，以得到不同所述父类别各自对应的模型参数，所述模型参数用于供所述特征提取模型将所述音频文件划分为多个音频块以及提取每一音频块的音频特征。

在一种实施方式中，所述预设分类模型含有残差网络模块以及批量归一化模块。

在一种实施方式中，所述预设分类模型的训练过程包括：

获取正样本数据以及负样本数据，其中，所述正样本数据为目标子类别的音频文件，所述负样本数据为非目标子类别的音频文件；

将所述正样本数据和所述负样本数据中的每一样本数据划分为多个音频块，并提取每一音频块的音频特征；

利用所述正样本数据和所述负样本数据中的每一音频块的音频特征对预先选取的模型进行学习训练，得到预设分类模型。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的音频处理方法中的流程。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本实施例提供的音频处理方法中的流程。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图5，图5为本申请实施例提供的电子设备的结构示意图。

该电子设备500可以包括显示单元501、存储器502、处理器503等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

显示单元501可以用于显示诸如文字、图像等信息。

存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器503通过运行存储在存储器502的应用程序，从而执行各种功能应用以及数据处理。

处理器503是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器502内的应用程序，以及调用存储在存储器502内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备中的处理器503会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中，并由处理器503来运行存储在存储器502中的应用程序，从而执行：

获取音频文件；

根据各音频块的分类结果，确定所述音频文件的子类别。

请参阅图6，电子设备600可以包括显示单元601、存储器602、处理器603、扬声器604、麦克风605等部件。

显示单元601可以用于显示诸如文字和图像等信息。

存储器602可用于存储应用程序和数据。存储器602存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器603通过运行存储在存储器602的应用程序，从而执行各种功能应用以及数据处理。

处理器603是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器602内的应用程序，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

扬声器604可以用于播放声音信号。麦克风可以用于拾取声音信号。

在本实施例中，电子设备中的处理器603会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器602中，并由处理器603来运行存储在存储器602中的应用程序，从而执行：

获取音频文件；

根据各音频块的分类结果，确定所述音频文件的子类别。

在一种实施方式中，处理器603执行所述根据各音频块的分类结果，确定所述音频文件的子类别时，可以执行：根据各音频块的分类结果，统计各子类别所包含的音频块的数量；将所包含的音频块的数量最大的子类别确定为所述音频文件的子类别。

在一种实施方式中，处理器603执行将所述音频文件划分为多个音频块，并提取每一音频块的音频特征时，可以执行：若所述音频文件为多声道的音频，则将所述音频文件由多声道转换为单声道；将转换为单声道后的音频文件输入至预先训练好的特征提取模型。

在一种实施方式中，处理器603执行将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块时，可以执行：将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别确定与所述父类别对应的分块参数，并依据所述分块参数将所述音频文件划分为多个音频块。

在一种实施方式中，所述预设分类模型的训练过程包括：获取正样本数据以及负样本数据，其中，所述正样本数据为目标子类别的音频文件，所述负样本数据为非目标子类别的音频文件；将所述正样本数据和所述负样本数据中的每一样本数据划分为多个音频块，并提取每一音频块的音频特征；利用所述正样本数据和所述负样本数据中的每一音频块的音频特征对预先选取的模型进行学习训练，得到预设分类模型。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频处理方法的详细描述，此处不再赘述。

本申请实施例提供的所述音频处理装置与上文实施例中的音频处理方法属于同一构思，在所述音频处理装置上可以运行所述音频处理方法实施例中提供的任一方法，其具体实现过程详见所述音频处理方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述音频处理方法而言，本领域普通技术人员可以理解实现本申请实施例所述音频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述音频处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述音频处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种音频处理方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取音频文件；

根据各音频块的分类结果，确定所述音频文件的子类别。

2.根据权利要求1所述的音频处理方法，其特征在于，所述根据各音频块的分类结果，确定所述音频文件的子类别，包括：

将所包含的音频块的数量最大的类别确定为所述音频文件的子类别。

3.根据权利要求1所述的音频处理方法，其特征在于，将所述音频文件输入至预先训练好的特征提取模型，包括：

4.根据权利要求1所述的音频处理方法，其特征在于，将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别将所述音频文件划分为多个音频块，包括：

将所述音频文件输入至预先训练好的特征提取模型，以使所述特征提取模型根据所述音频文件的父类别确定与所述父类别对应的分块参数，并依据所述分块参数将所述音频文件划分为多个音频块。

5.根据权利要求4所述的音频处理方法，其特征在于，所述特征提取模型的训练过程包括：

获得多种父类别的音频文件样本；

将所述多种父类别的音频文件样本输入至预设的特征提取模型进行训练，以得到不同所述父类别各自对应的模型参数，所述模型参数用于供所述特征提取模型将所述音频文件划分为多个音频块以及提取每一音频块的音频特征。

6.根据权利要求1所述的音频处理方法，其特征在于，所述预设分类模型含有残差网络模块以及批量归一化模块。

7.根据权利要求1所述的音频处理方法，其特征在于，所述预设分类模型的训练过程包括：

8.一种音频处理装置，其特征在于，包括：

获取单元，用于获取音频文件；

9.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至7中任一项所述的方法。

10.一种电子设备，包括存储器，处理器，其特征在于，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至7中任一项所述的方法。