CN110019931B

CN110019931B - 音频分类方法、装置、智能设备和存储介质

Info

Publication number: CN110019931B
Application number: CN201711265842.XA
Authority: CN
Inventors: 程亮; 甄德聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2023-01-24
Anticipated expiration: 2037-12-05
Also published as: WO2019109787A1; CN110019931A

Abstract

本发明公开一种音频分类方法、装置、智能设备和存储介质。所述方法包括：获取待分类的音频文件；提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果。本发明提供的技术方案，能够突破现有技术的局限性，提高对音频进行分类的准确度和效率。

Description

音频分类方法、装置、智能设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种音频分类方法、装置、智能设备和存储介质。

背景技术

随着经济社会的快速发展，人们的生活水平日益提高，在物质需求逐渐被满足时，人们越来越注重精神追求以及精神上的享受。而比如音乐等音频能够很好的调剂人们的生活，能够一定程度上满足人们的精神追求和精神上的享受。现实生活中，不同的人对不同种类的音频的喜好可能并不相同，同一个人在不同时期以及不同状态下想要接触的音频也可能不同，因此，对音频进行分类很有必要。

目前的技术中，主要是依靠人工方式对音频进行分类，需要消耗大量人力资源，耗时较长，效率较低，并且受到个人知识局限性、个人偏好等因素的影响，客观性不高。而现有机器辅助的方式，仍依赖音频的与人工相关的元信息，比如歌手，年代等人工信息来建模，同样存在效率较低、客观性不高的问题，并且，随着音频数量越来越多，数据量庞大，一般每天也新增许多音频，这些音频里面，元信息的缺失现象很普遍。

因此，目前的技术中，无论是依靠人工方式还是机器辅助的方式，都存在效率都较低，分类的准确度的也不高的问题，存在较大的局限性。

发明内容

有鉴于此，本发明实施例提供了一种音频分类方法、装置、智能设备和存储介质，能够突破现有技术的局限性，提高对音频进行分类的准确度和效率。

为实现上述目的，本发明实施例提供如下技术方案：

一种音频分类方法，包括：

获取待分类的音频文件；

提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；

将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果。

一种音频分类装置，包括：

待分类音频文件获取模块，用于获取待分类的音频文件；

输入向量生成模块，用于提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；

输入模块，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

分类结果生成模块，用于通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果。

一种智能设备，包括：

处理器和存储器，所述处理器与存储器通过通信总线相连接：

其中，所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器，用于存储程序，所述程序至少用于执行上述的音频分类方法。

一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述的音频分类方法。

经由上述的技术方案可知，与现有技术相比，本发明实施例提供了一种音频分类方法、装置、智能设备和存储介质。本发明实施例提供的技术方案，首先获取待分类的音频文件，然后提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量，将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型，通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果。也就是说，本发明实施例提供的技术方案，是基于音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对音频文件进行分类，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现音频文件的自动分类，相对于现有技术，能够显著提高工作效率。因此，本发明实施例提供的技术方案，能够突破现有技术的局限性，可靠性较高，更加适于应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种音频分类方法的流程图；

图2为本发明实施例提供的一种生成表示音频特征的输入向量的方法的流程图；

图3为本发明实施例提供的一种提取所述音频文件的音频信号的方法的流程图；

图4为本发明实施例提供的一种梅尔标注频谱图；

图5为本发明实施例提供的另外一种生成表示音频特征的输入向量的方法的流程图；

图6为本发明实施例提供的另外一种生成表示音频特征的输入向量的方法的流程图；

图7为本发明实施例提供的另外一种生成表示音频特征的输入向量的方法的流程图；

图8为本发明实施例提供的一种预先建立的卷积神经网络模型的结构图；

图9为本发明实施例提供的另外一种音频分类方法的流程图；

图10为本发明实施例提供的一种音频分类装置的结构图；

图11为本发明实施例提供的一种输入向量生成模块的结构图；

图12为本发明实施例提供的一种输入向量生成模块的结构图；

图13为本发明实施例提供的一种输入向量生成模块的结构图；

图14为本发明实施例提供的一种输入向量生成模块的结构图；

图15为本发明实施例提供的另外一种音频分类装置的结构图；

图16为本发明实施例提供的一种智能设备的硬件结构图；

图17为本发明实施例提供的一种音频分类方法所应用的硬件拓扑环境的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

请参阅图1，图1为本发明实施例提供的一种音频分类方法的流程图。如图1所示，该方法包括：

步骤S11，获取待分类的音频文件；

具体的，首先获取需要分类的音频文件，即待分类的音频文件。

步骤S12，提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；

可选的，提取所述待分类的音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量。其中，表示音频特征的输入向量可以是二维向量。

步骤S13，将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

可选的，所述预先训练得到的用于音频分类的神经网络模型可以是：

卷积神经网络模型(Convolutional Neural Network，CNN)；

或者卷积循环神经网络模型(Convolutional Recurrent Neural Network，CRNN)与卷积神经网络模型的组合形成的神经网络模型。

步骤S14，通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果。

可选的，通过预先训练得到的用于音频分类的神经网络模型，分析所述输入向量，最终生成所述音频文件的分类结果。

可选的，通过预先训练得到的用于音频分类的神经网络模型，分析输入向量，从而至少确定待分析音频文件的音色、节奏、强度、旋律、和声以及乐器等音频特征。

本发明实施例提供的技术方案，是基于音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对音频文件进行分类，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现音频文件的自动分类，相对于现有技术，能够显著提高工作效率。因此，本发明实施例提供的技术方案，能够突破现有技术的局限性，可靠性较高，更加适于应用。

可选的，本发明实施例中，所述步骤S12可以有多种实现方式，下文将对所述步骤S12的具体实现进行详细介绍。

请参阅图2，图2为本发明实施例提供的一种生成表示音频特征的输入向量的方法的流程图。如图2所示，该方法包括：

步骤S121，提取所述音频文件的音频信号；

具体的，请参阅图3，图3为本发明实施例提供的一种提取所述音频文件的音频信号的方法的流程图。如图3所示，该提取所述音频文件的音频信号的方法包括：

步骤S1211，将所述音频文件转换为单声道；

步骤S1212，调整对单声道的音频文件的采样频率为预设采样频率，按照所述预设采样频率对单声道的音频文件进行采样，以提取得到所述音频文件的音频信号；

具体的，音频文件记录的是基于时间的信号，需要将其转化为时间和频率的信号，以减少数据大小、过滤不相关的信息，便于后续通过神经网络进行训练或者分类。

可选的，所述预设采样频率可以为12kHz(千赫兹)。

步骤S122，将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成表示音频特征的梅尔标注频谱图作为输入向量；

可选的，将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，生成表示音频特征的梅尔标注频谱图作为输入向量。

其中，对提取得到的所述音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作；对该频谱图进行梅尔标注(mel-scale)频率转换后，还可以对振幅取对数，使那些振幅较低的成分相对振幅较高的成分得以拉高，以便观察掩盖在低幅噪声中的周期信号。

请参阅图4，图4为本发明实施例提供的一种梅尔标注频谱图。该图中梅尔标注频谱图的振幅经过了取对数处理，该图表示了一段音频在时间轴上不同频率的信号分布，通过一个二维向量表示，作为下一步神经网络模型训练的输入，或者作为神经网络模型为音频文件分类的输入。如图4所示，左侧纵轴表示频率，单位是赫兹(Hz)；横轴表示时间，单位是分钟；右侧纵轴表示声音强度，单位是分贝(dB)。图4中，mel power spectrogram表示振幅经过了取对数处理的梅尔标注频谱图。

请参阅图5，图5为本发明实施例提供的另外一种生成表示音频特征的输入向量的方法的流程图。如图5所示，该方法包括：

步骤S121，提取所述音频文件的音频信号；

步骤S1211，将所述音频文件转换为单声道；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

步骤S123，将所述音频信号经过短时傅里叶变换，生成表示音频特征的频谱图作为输入向量；

可选的，将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，STFT)得到该音频信号的频谱图(spectrogram)，生成表示音频特征的频谱图作为输入向量。其中，对提取得到的所述音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。该方法直接以经过短时傅里叶变换得到该音频信号的频谱图作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，在后续神经网络模型对音频文件分类的准确度稍低。

请参阅图6，图6为本发明实施例提供的另外一种生成表示音频特征的输入向量的方法的流程图。如图6所示，该方法包括：

步骤S121，提取所述音频文件的音频信号；

步骤S1211，将所述音频文件转换为单声道；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

步骤S124，将所述音频信号经过短时傅里叶变换、梅尔频率转换和梅尔频率倒谱系数转换，生成表示音频特征的梅尔频率倒谱系数作为输入向量；

可选的，将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，得到梅尔标注频谱图，然后将梅尔标注频谱图进行梅尔频率倒谱系数转换，生成表示音频特征的梅尔频率倒谱系数作为输入向量。该方法以表示音频特征的梅尔频率倒谱系数作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，在后续神经网络模型对音频文件分类的准确度更高。

其中，对提取得到的所述音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作；对该频谱图进行梅尔标注(mel-scale)频率转换后、将梅尔标注频谱图进行梅尔频率倒谱系数转换之前，还可以对振幅取对数，使那些振幅较低的成分相对振幅较高的成分得以拉高，以便观察掩盖在低幅噪声中的周期信号。

请参阅图7，图7为本发明实施例提供的另外一种生成表示音频特征的输入向量的方法的流程图。如图7所示，该方法包括：

步骤S121，提取所述音频文件的音频信号；

步骤S1211，将所述音频文件转换为单声道；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

步骤S125，将所述音频信号经过常数Q转换(Constant-Q Transform，CQT)，生成表示音频特征的频谱图作为输入向量。

可选的，将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过常数Q转换得到该音频信号的频谱图(spectrogram)，从而生成表示音频特征的频谱图作为输入向量，该转换产生的频谱最大的特色在于频率轴为对数标度(log scale)而不是线性标度(linear scale)，且窗口长度(windowlength)会随着频率而改变，比较适用于分析各种不同的音频类型。其中，对提取得到的所述音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。

可选的，本发明另外一个实施例提供的音频分类方法，所述步骤S13之前，还包括：

A、获取已分类的音频文件和已分类的音频文件的分类标识信息；

具体的，获取大量已经分类的音频文件，以及这些已经分类的音频文件各自对应的分类标识信息。可选的，所述分类标识信息包括但不限于：音频的流派和音频的标签。比如，音频的流派包括：流行(Pop Music)、节奏布鲁斯(Rhythm&Blues，R&B)、说唱(Rap)、爵士(Jazz)、摇滚(Rock)以及乡村乐等；音频的标签则更加自由和广泛，可以有多角度的标签，如音频文件属于抒情歌曲、催眠曲、安静或者躁动的音频、钢琴演奏的音频、古筝演奏的音频等等。

B、提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量；

可选的，所述提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量的过程，与本发明上文实施例中已经阐述的所述步骤S12的过程基本相同，区别在于所述步骤S12处理的对象是待分类的音频文件，而此处B步骤中处理的对象是已分类的音频文件。因此，此处不再对B步骤进行详细阐述，具体可参照上文实施例中的步骤S12部分。

C、以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型；

具体的，本发明实施例需要预先建立神经网络模型，预先建立的神经网络模型可以是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型。然后以所述训练向量以及所述训练向量对应的分类标识信息作为输入，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。其中，如果预先建立的神经网络模型是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型，则训练预先建立的神经网络模型，主要是训练预先建立的神经网络模型的权重。

需要说明的是，预先建立的神经网络模型在其建立的过程中，需要按照接受音频特征提取出来的固定格式向量，选取适当的激活函数，损失函数和优化器，以便让数据通过多个卷积层发掘出多种隐含的特征。

可选的，请参阅图8，图8为本发明实施例提供的一种预先建立的卷积神经网络模型的结构图。如图8所示，该预先建立的卷积神经网络模型为5层2D卷积的模型。其中，从多个流派中选取音频文件所属于的一个流派的场景对应的激活函数可以为softmax，损失函数可以为categorical crossentropy；为音频文件选取多个标签的场景对应的激活函数可以为sigmoid，损失函数可以为binary cross-entropy。具体的，附图8中，卷积神经网络模型的卷积层的数量可调整，BatchNormalization是可选的，池化层可以除了Max Pooling也可以采用其它方式，激活函数ELU也可用其它函数，本发明对此并不做限制。

需要说明的是，图8示出的预先建立的卷积神经网络模型仅是一种示例，本领域技术人员可以依照本发明实施例的启示建立其他类似的神经网络模型用于对音频进行分类，这些变更仍旧属于本发明的保护范围。

此外，上文实施例中的步骤S12部分与本实施例中的步骤B和C部分，应当采用相同的生成输入向量的方法，以保证用于音频分类的神经网络模型与步骤S12得到的输入向量相匹配。

请参阅图9，图9为本发明实施例提供的另外一种音频分类方法的流程图。如图9所示，该方法包括：

步骤S21，获取已分类的音频文件和已分类的音频文件的分类标识信息；

可选的，所述步骤S21包括：

获取已分类的音频文件，以及已分类的音频文件的标签信息和所属于的流派。

步骤S22，提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量；

步骤S23，以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型；

步骤S24，获取待分类的音频文件；

步骤S25，提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；

步骤S26，将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

步骤S27，通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果；

可选的，所述步骤S27包括：

通过所述神经网络模型分析所述输入向量，生成所述音频文件的标签信息和所属于的流派。其中，生成所述音频文件的标签信息和所属于的流派，可选的为：生成所述音频文件的多个标签信息，以及从多个流派中确定的所述音频文件所属于的一个流派。可选的，所述分类结果也可以是所述音频文件所匹配的各标签的概率以及所属于的流派的概率。

可以理解的是，由于本发明实施例提供的技术方案，能够自动对音频文件进行分类，如确定音频文件的各个标签，以及音频文件所属于的流派等分类信息，这些分类信息能够使音频应用软件(即提供播放音频服务的应用软件)获得音频文件比较完整的基础元数据，从而能够方便音频应用软件对音频个性推荐、音频分类管理和内容编辑等场景，这些过程可以由音频应用软件的服务器自动执行，尤其对于如腾讯公司的JOOX(一种音频应用软件)这种拥有巨大存量和增量的音频歌曲库的服务而言，能够节省大量人力和时间，并且准确度的也较高。

为了更加全面地阐述本发明提供的技术方案，对应于本发明实施例提供的音频分类方法，本发明公开一种音频分类装置。

请参阅图10，图10为本发明实施例提供的一种音频分类装置的结构图。如图10所示，该装置包括：

待分类音频文件获取模块11，用于获取待分类的音频文件；

输入向量生成模块12，用于提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；

输入模块13，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

卷积神经网络模型(Convolutional Neural Network，CNN)；

分类结果生成模块14，用于通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果；

可选的，所述分类结果生成模块14通过预先训练得到的用于音频分类的神经网络模型，分析所述输入向量，最终生成所述音频文件的分类结果。

可选的，所述分类结果生成模块14通过预先训练得到的用于音频分类的神经网络模型，分析输入向量，从而至少确定待分析音频文件的音色、节奏、强度、旋律、和声以及乐器等音频特征。

本发明实施例提供的音频分类装置，是基于音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对音频文件进行分类，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现音频文件的自动分类，相对于现有技术，能够显著提高工作效率。因此，本发明实施例提供的音频分类装置，能够突破现有技术的局限性，可靠性较高，更加适于应用。

可选的，本发明实施例中，所述输入向量生成模块12可以有多种实现方式，下文将对输入向量生成模块12的具体实现进行详细介绍。

请参阅图11，图11为本发明实施例提供的一种输入向量生成模块的结构图。如图11所示，该模块包括：

音频信号提取单元121，用于提取所述音频文件的音频信号；

具体的，如图11所示，音频信号提取单元121包括：

单声道转换子单元1211，用于将所述音频文件转换为单声道；

采样子单元1212，用于调整对单声道的音频文件的采样频率为预设采样频率，按照所述预设采样频率对单声道的音频文件进行采样，以提取得到所述音频文件的音频信号；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

输入向量第一生成单元122，用于将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成表示音频特征的梅尔标注频谱图作为输入向量；

可选的，输入向量第一生成单元122将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，生成表示音频特征的梅尔标注频谱图作为输入向量。

请参阅图12，图12为本发明实施例提供的一种输入向量生成模块的结构图。如图12所示，该模块包括：

音频信号提取单元121，用于提取所述音频文件的音频信号；

具体的，如图12所示，音频信号提取单元121包括：

单声道转换子单元1211，用于将所述音频文件转换为单声道；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

输入向量第二生成单元123，用于将所述音频信号经过短时傅里叶变换，生成表示音频特征的频谱图作为输入向量；

可选的，输入向量第二生成单元123将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，STFT)得到该音频信号的频谱图(spectrogram)，生成表示音频特征的频谱图作为输入向量。其中，对提取得到的所述音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。该方法直接以经过短时傅里叶变换得到该音频信号的频谱图作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，在后续神经网络模型对音频文件分类的准确度稍低。

请参阅图13，图13为本发明实施例提供的一种输入向量生成模块的结构图。如图13所示，该模块包括：

音频信号提取单元121，用于提取所述音频文件的音频信号；

具体的，如图13所示，音频信号提取单元121包括：

单声道转换子单元1211，用于将所述音频文件转换为单声道；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

输入向量第三生成单元124，用于将所述音频信号经过短时傅里叶变换、梅尔频率转换和梅尔频率倒谱系数转换，生成表示音频特征的梅尔频率倒谱系数作为输入向量；

可选的，输入向量第三生成单元124将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过短时傅里叶变换(short-time Fourier transform，STFT)得到该音频信号的频谱图(spectrogram)，然后对该频谱图进行梅尔标注(mel-scale)频率转换，从而实现把实际频率转换为适应人的听觉特征的频率，得到梅尔标注频谱图，然后将梅尔标注频谱图进行梅尔频率倒谱系数转换，生成表示音频特征的梅尔频率倒谱系数作为输入向量。该方法以表示音频特征的梅尔频率倒谱系数作为输入向量，相对于上文中已阐述的以梅尔标注频谱图作为输入向量，在后续神经网络模型对音频文件分类的准确度更高。

请参阅图14，图14为本发明实施例提供的一种输入向量生成模块的结构图。如图14所示，该模块包括：

音频信号提取单元121，用于提取所述音频文件的音频信号；

具体的，如图14所示，音频信号提取单元121包括：

单声道转换子单元1211，用于将所述音频文件转换为单声道；

可选的，所述预设采样频率可以为12kHz(千赫兹)。

输入向量第四生成单元125，用于将所述音频信号经过常数Q转换，生成表示音频特征的频谱图作为输入向量；

可选的，输入向量第四生成单元125将提取得到的所述音频文件的音频信号，首先进行预处理，然后经过常数Q转换得到该音频信号的频谱图(spectrogram)，从而生成表示音频特征的频谱图作为输入向量，该转换产生的频谱最大的特色在于频率轴为对数标度(log scale)而不是线性标度(linear scale)，且窗口长度(window length)会随着频率而改变，比较适用于分析各种不同的音频类型。其中，对提取得到的所述音频文件的音频信号进行预处理的过程，可以包括分帧和加窗操作。

可选的，本发明另外一个实施例提供的音频分类装置，还包括：

已分类音频文件和分类标识信息获取模块，用于获取已分类的音频文件和已分类的音频文件的分类标识信息；

具体的，已分类音频文件和分类标识信息获取模块用于获取大量已经分类的音频文件，以及这些已经分类的音频文件各自对应的分类标识信息。可选的，所述分类标识信息包括但不限于：音频的流派和音频的标签。比如，音频的流派包括：流行(Pop Music)、节奏布鲁斯(Rhythm&Blues，R&B)、说唱(Rap)、爵士(Jazz)、摇滚(Rock)以及乡村乐等；音频的标签则更加自由和广泛，可以有多角度的标签，如音频文件的歌手、发行年代、抒情歌曲、催眠曲、安静和躁动等等。

训练向量生成模块，用于提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量；

可选的，训练向量生成模块提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量的过程，与本发明上文实施例中已经阐述的所述输入向量生成模块12的实现过程基本相同，区别在于所述输入向量生成模块12处理的对象是待分类的音频文件，而此处训练向量生成模块处理的对象是已分类的音频文件。因此，此处不再对训练向量生成模块进行详细阐述，具体可参照上文实施例中的输入向量生成模块12部分。

神经网络模型训练模块，用于以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。

具体的，本发明实施例需要预先建立神经网络模型，预先建立的神经网络模型可以是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型。然后以所述训练向量以及所述训练向量对应的分类标识信息作为输入，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。其中，如果预先建立的神经网络模型是卷积神经网络模型，或者卷积循环神经网络模型与卷积神经网络模型的组合形成的神经网络模型，则训练预先建立的神经网络模型，主要是训练预先建立的神经网络模型的卷积核(或者称为权重)。

请参阅图15，图15为本发明实施例提供的另外一种音频分类装置的结构图。如图15所示，该装置包括：

已分类音频文件和分类标识信息获取模块21，用于获取已分类的音频文件和已分类的音频文件的分类标识信息；

可选的，所述已分类音频文件和分类标识信息获取模块21具体用于：

训练向量生成模块22，用于提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量；

神经网络模型训练模块23，用于以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型；

待分类音频文件获取模块24，用于获取待分类的音频文件；

输入向量生成模块25，用于提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；

输入模块26，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；

分类结果生成模块27，用于通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果；

所述分类结果生成模块27具体用于：

通过所述神经网络模型分析所述输入向量，生成所述音频文件的标签信息和所属于的流派。

为了更加全面地阐述本发明提供的技术方案，对应于本发明实施例提供的音频分类方法，本发明公开一种智能设备，该智能设备可以是计算机，或者服务器等。

请参阅图16，图16为本发明实施例提供的一种智能设备的硬件结构图。如图16所示，该智能设备包括：

处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1，用于执行程序；

存储器3，用于存放程序；

程序可以包括程序代码，所述程序代码包括计算机操作指令；在本发明实施例中，程序可以包括上述所述音频分类方法对应的程序。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，程序可具体用于：

获取待分类的音频文件；

本发明实施例提供的智能终端，是基于音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对音频文件进行分类，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现音频文件的自动分类，相对于现有技术，能够显著提高工作效率。因此，本发明实施例提供的智能终端，能够突破现有技术的局限性，可靠性较高，更加适于应用。

此外，本发明实施例还提供一种存储介质，该存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行上述实施例所述的音频分类方法。

为了更加全面地阐述本发明提供的技术方案，下面对本发明实施例提供的音频分类方法所应用的硬件拓扑环境进行介绍。

请参阅图17，图17为本发明实施例提供的一种音频分类方法所应用的硬件拓扑环境的结构图。如图17所示，本发明实施例提供的音频分类方法所应用的硬件拓扑环境，包括服务器31，以及与所述服务器31相连接的客户端32；其中所述客户端32可以为计算机终端321，也可以为移动终端322；

所述服务器31用于：获取已分类的音频文件和已分类的音频文件的分类标识信息；提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量；以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。

可选的，所述服务器31在训练得到用于音频分类的神经网络模型后，可以对新的音频文件进行分类，则所述服务器31还用于：

获取待分类的音频文件；提取所述音频文件的音频信号，处理所述音频信号，生成表示音频特征的输入向量；将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型；通过所述神经网络模型分析所述输入向量，生成所述音频文件的分类结果。

另外，所述服务器31在训练得到用于音频分类的神经网络模型后，可以将用于音频分类的神经网络模型配置在客户端32，该客户端32可以是服务器本地的客户端，如提供音频分类软件服务的商家本地的客户端，也可以是用户的客户端，此时，所述客户端32可以用于：

也就是说，配置有用于音频分类的神经网络模型的客户端32，可以脱离服务器独立实现对新的(如新发布的)音频文件进行分类。比如，用户自己下载了一首歌曲，用户可以用自己的客户端(如用户的移动终端或用户的计算机)对该歌曲进行分类，这首歌曲便可以归属到所分的类别(如摇滚乐)当中，后续使用户收听该所分类别下的歌曲时，便可自动收听到该歌曲，能够有效提升用户体验。

需要说明的是，客户端32也可以将新的音频文件发送到服务器31，由服务器31对音频文件进行分类，然后将分类结果反馈至客户端32。

经由上述内容可以确定，本发明实施例提供的音频分类方法所应用的硬件拓扑环境，是基于音频文件本身的音频特征，借助预先训练得到的用于音频分类的神经网络模型来对音频文件进行分类，不但客观，而且准确度较高，受人工主观因素的影响很小，并且，由于能够实现音频文件的自动分类，相对于现有技术，能够显著提高工作效率，也有利于提升用户体验。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者智能设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者智能设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者智能设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、智能设备和存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频分类方法，其特征在于，包括：

获取待分类的音频文件；

提取所述音频文件的音频信号；

将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成梅尔标注频谱图，并对振幅取对数，使所述梅尔标注频谱图中的低幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号；

将振幅取对数处理后的梅尔标注频谱图进行梅尔频率倒谱系数转换，生成表示音频特征的梅尔频率倒谱系数作为输入向量；

将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型，所述神经网络模型包括卷积神经网络模型，所述卷积神经网络模型采用5层2D卷积结构，其中，为所述待分类的音频文件选取一个流派的单流派场景对应的激活函数为softmax，所述单流派场景对应的损失函数为categorical crossentropy；为所述待分类的音频文件选取多个标签的多标签场景对应的激活函数为sigmoid，所述多标签场景对应的损失函数为binary cross-entropy；

2.根据权利要求1所述的方法，其特征在于，所述提取所述音频文件的音频信号，包括：

将所述音频文件转换为单声道；

调整对单声道的音频文件的采样频率为预设采样频率，按照所述预设采样频率对单声道的音频文件进行采样，以提取得到所述音频文件的音频信号。

3.根据权利要求1所述的方法，其特征在于，所述将所述输入向量输入至预先训练得到的神经网络模型之前，还包括：

获取已分类的音频文件和已分类的音频文件的分类标识信息；

提取已分类的音频文件的音频信号作为训练音频信号，处理所述训练音频信号，生成表示音频特征的训练向量；

以所述训练向量以及所述训练向量对应的分类标识信息，训练预先建立的神经网络模型，得到用于音频分类的神经网络模型。

4.根据权利要求3所述的方法，其特征在于，获取已分类的音频文件和已分类的音频文件的分类标识信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述神经网络模型还包括：

卷积循环神经网络模型，所述卷积循环神经网络模型与所述卷积神经网络模型组合形成所述神经网络模型。

6.一种音频分类装置，其特征在于，包括：

待分类音频文件获取模块，用于获取待分类的音频文件；

输入模块，用于将所述输入向量输入至预先训练得到的用于音频分类的神经网络模型，所述神经网络模型包括卷积神经网络模型，所述卷积神经网络模型采用5层2D卷积结构，其中，为所述待分类的音频文件选取一个流派的单流派场景对应的激活函数为softmax，所述单流派场景对应的损失函数为categorical crossentropy；为所述待分类的音频文件选取多个标签的多标签场景对应的激活函数为sigmoid，所述多标签场景对应的损失函数为binary cross-entropy；

分类结果生成模块，用于通过所述神经网络模型分析所述输入向量，生成所述音频文件的标签信息和所属于的流派；

所述输入向量生成模块包括：

音频信号提取单元，用于提取所述音频文件的音频信号；

输入向量第三生成单元，用于将所述音频信号经过短时傅里叶变换和梅尔频率转换，生成梅尔标注频谱图，并对振幅取对数，使所述梅尔标注频谱图中的低幅成分得以拉高，以便观察掩盖在低幅噪声中的周期信号；将振幅取对数处理后的梅尔标注频谱图进行梅尔频率倒谱系数转换，生成表示音频特征的梅尔频率倒谱系数作为输入向量。

7.根据权利要求6所述的装置，其特征在于，所述音频信号提取单元包括：

单声道转换子单元，用于将所述音频文件转换为单声道；

采样子单元，用于调整对单声道的音频文件的采样频率为预设采样频率，按照所述预设采样频率对单声道的音频文件进行采样，以提取得到所述音频文件的音频信号。

8.根据权利要求6所述的装置，还包括：

9.根据权利要求8所述的装置，其特征在于，所述已分类音频文件和分类标识信息获取模块用于：

10.一种智能设备，其特征在于，包括：

所述存储器，用于存储程序，所述程序至少用于执行权利要求1～5任一项所述的音频分类方法。

11.一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至5任一项所述的音频分类方法。