CN110929087A

CN110929087A - 一种音频分类方法、装置、电子设备及存储介质

Info

Publication number: CN110929087A
Application number: CN201911001405.6A
Authority: CN
Inventors: 李甫
Original assignee: Quantum Cloud Future (beijing) Mdt Infotech Ltd
Current assignee: Quantum Cloud Future (beijing) Mdt Infotech Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-03-27

Abstract

本发明实施例公开了一种音频分类方法、装置、电子设备及存储介质，属于音频分类技术领域，其中，所述方法包括：从音频频谱图中提取用于进行音频分类的音频特征；根据音频频谱图提取出的音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；根据训练模型的各项参数计算音频各个特征的综合值；根据音频各个特征的综合值，将音频分类至相应的类别中。本发明的方案，能够做到：对音频进行精准地分类，且音频分类方法简单。

Description

一种音频分类方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及音频分类技术领域，具体涉及一种音频分类方法、装置、电子设备及存储介质。

背景技术

随着智能终端的广泛普及，例如，智能手机、平板电脑已经成为人们生活中的必需品。而且，随着生产智能手机的国内企业技术的不断成熟，现在的智能手机不仅物美价廉，智能手机的功能也越来越强大，从以前主要用于打电话和发短信，到现在还拥有播放音乐的功能，播放视频的功能，支付功能，拍照功能，阅读电子书的功能，上网功能。

基于智能手机具有音乐播放器的功能，现在的智能手机上也有一些音频播放软件具有智能功能；向用户推送符合用户喜好类型的音频。首先，先要采集用户的历史收听音频数据，然后对采集到的音频数据进行分析，并根据分析结果将不同的音频分类至相应的类别中，例如，古典乐，流行音乐，或者摇滚音乐；最后，向用户推送与用户偏好度一致的相关联的音乐。但是，实际应用中，一些音频播放软件往往无法对大量的音频数据进行分类，更加无法实现对目标用户的精准推送。

此外，对大量音频数据进行精准分析，并根据分析结果进行精准分类，需要专业人士完成，分类的方法也过于繁琐和复杂。

如何解决现有的音频分类方法繁琐，且无法对音频进行精准分类的问题，是待解决的技术问题。

发明内容

为此，本发明实施例提供一种音频分类方法、装置、电子设备及存储介质，以解决现有技术中音频分类方法繁琐，且无法对音频进行精准分类的问题。

为了实现上述目的，本发明实施例提供如下技术方案：

在本发明的实施方式的第一方面中，提供了一种音频分类方法，所述方法包括：从音频频谱图中提取用于进行音频分类的音频特征；根据所述音频频谱图提取出的所述音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；根据所述训练模型的各项参数计算音频各个特征的综合值；根据音频各个特征的综合值，将音频分类至相应的类别中。

在本发明的另一实施例中，所述从音频频谱图中提取用于进行音频分类的音频特征具体包括：通过降维技术将音频特征向量映射到二维空间的平面图上。

在本发明的再一实施例中，所述通过降维技术将音频特征向量映射到二维空间的平面图上具体包括：通过离散傅里叶变换把音频信号转换到频域上，得到相应的频域信号；根据相应的频域信号计算音频每个频率分量的幅值，得到相应的频率分量的幅值；基于预设的幅值转换模型，根据相应的频率分量的幅值进行幅值转换，将音频特征向量映射到二维空间的平面图上。

在本发明的再一实施例中，采用Keras架构构建所述卷积神经网络模型；和/或，采用TensorFlow架构构建所述卷积神经网络模型。

在本发明的实施方式的第二方面中，提供了一种音频分类装置，所述装置包括：提取模块，从音频频谱图中提取用于进行音频分类的音频特征；训练模型生成模块，根据所述提取模块从所述音频频谱图提取出的所述音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；计算模块，根据所述训练模型生成模块生成的所述训练模型的各项参数计算音频各个特征的综合值；分类模块，根据所述计算模块计算出的音频各个特征的综合值，将音频分类至相应的类别中。

在本发明的又一实施例中，所述提取模块具体用于：通过离散傅里叶变换把音频信号转换到频域上，得到相应的频域信号；根据相应的频域信号计算音频每个频率分量的幅值，得到相应的频率分量的幅值；基于预设的幅值转换模型，根据相应的频率分量的幅值进行幅值转换，将音频特征向量映射到二维空间的平面图上。

在本发明的实施方式的第三方面中，提供了一种电子设备，所述电子设备包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上所述的方法。

在本发明的实施方式的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明实施例具有如下优点：本发明实施例提供的一种音频分类方法、装置、电子设备及存储介质，能够做到：对音频进行精准地分类，且音频分类方法简单。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种音频分类方法的流程示意图；

图2为本发明实施例1提供的一种音频分类方法所使用的卷积神经网络模型的示意图；

图3为本发明实施例2提供的一种音频分类装置的结构示意图；

图中：301-提取模块；302-训练模型生成模块；303-计算模块；304-分类模块。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

根据本发明的实施例1，提供了一种音频分类方法，如图1所示，为本发明实施例1提供的一种音频分类方法的流程示意图。该方法至少包括以下步骤：

S101，从音频频谱图中提取用于进行音频分类的音频特征；

S102，根据音频频谱图提取出的音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；

S103，根据训练模型的各项参数计算音频各个特征的综合值；

S104，根据音频各个特征的综合值，将音频分类至相应的类别中；这样，通过本发明实施例1提供的方案，能够做到：对音频进行精准地分类，且音频分类方法简单。

在一个可选的例子中，从音频频谱图中提取用于进行音频分类的音频特征具体包括：通过降维技术将音频特征向量映射到二维空间的平面图上。

在一个可选的例子中，通过降维技术将音频特征向量映射到二维空间的平面图上具体包括：通过离散傅里叶变换把音频信号转换到频域上，得到相应的频域信号；根据相应的频域信号计算音频每个频率分量的幅值，得到相应的频率分量的幅值；基于预设的幅值转换模型，根据相应的频率分量的幅值进行幅值转换，将音频特征向量映射到二维空间的平面图上。

在一个可选的例子中，采用Keras架构构建卷积神经网络模型；和/或，采用TensorFlow架构构建卷积神经网络模型。

如图2所示，为本发明实施例1提供的一种音频分类方法所使用的卷积神经网络模型的示意图。该示意图出仅仅示出了本发明实施例1所采用的一种卷积神经网络模型的结构，还可以为其它结构，在此不再一一赘述。

需要对本发明实施例1提供的技术方案中的TensorFlow架构做如下说明：TensorFlow是一个开放源代码软件库，用于进行高性能数值计算。借助其灵活的架构，用户可以轻松地将计算工作部署到多种平台(CPU、GPU、TPU)和设备(桌面设备、服务器集群、移动设备、边缘设备等)。TensorFlow可为机器学习和深度学习提供强力支持，并且其灵活的数值计算核心广泛应用于许多其他科学领域。

此外，还需要对本发明实施例1提供的技术方案中的Keras架构做如下说明：

Keras是一个高层神经网络API，Keras由纯Python编写而成并基Tensorflow、Theano以及CNTK后端。

Kears具有如下优点：

优点1、Keras在设计时以人为本，加强快速建模，用户能快速地将所需模型的机构映射到Keras代码中，尽可能减少编写代码的工作量，特别是对于成熟的模型类型，从而加快开发速度。

优点2、支持现有的常见结构，比如卷积神经网络、时间递归神经网络等，足以应对大量的常见应用场景。

优点3、高度模块化，用户几乎能够任意组合各个模块来构造所需的模型。在Keras中，任何神经网络模型都可以被描述为一个图模型或者序列模型，其中的部件被划分为以下模块：神经网络层、损失函数、激活函数、初始化方法、正则化方法、优化引擎。这些模块可以以任意合理地方式放入图模型或者序列模型中来构造所需的模型，用户并不需要知道每个模块后面的细节。这种方式相比其他软件需要用户编写大量代码或者用特定语言来描述神经网络结构的方法效率高很多，也不容易出错。

优点4、基于Python，用户也可以使用Python代码来描述模型，因此易用性、可扩展行都非常高。用户可以非常容易地编写自己的定制模块，或者对已有模块进行修改或者扩展，因此，可以非常方便地开发和应用新的模型与方法，加快迭代速度。

优点5、能在CPU和GPU之间无缝切换，适用于不同的应用环境。

需要说明的是，在Keras中设定了两类深度学习模型：一类是序列模型，一类是通用模型，其差异在于不同的拓扑结构。

序列模型，序列模型属于通用模型的一个子类，这种模型各层之间是依次顺序的线性关系，在第k层和第k+1层之间可以加上各种元素来构造神经网络。这些元素可以通过一个列表类制定，然后作为参数传递序列模型来生成相应的模型。

通用模型，可以用来设计非常复杂、任意拓扑结构的神经网络，例如有向无环网络、共享层网络等。类似于序列模型，通用模型通过函数化的应用接口来定义模型。使用函数化的应用接口有多个好处，比如，决定函数执行结果的唯一要素是其返回值，而决定返回值的唯一要素则是其参数，这大大减轻了代码测试的工作量；因为函数式语言是一个形式系统，只要能用数学运算表达的就能用这种语言来表述，因此，只要在数学上是等价的，那么机器就可以使用等价的但是效率更高的代码来代替效率低的代码而不影响结果。这一方面方便了分析师写程序，另一方面又从数学上保证了代码效率，实现了人工时间和机器时间的双重高效。

Keras中的重要对象：激活对象、初始化对象和正则化对象。

激活对象：在定义网络层时，使用什么激活函数式很重要的选择。Keras提供了大量预定义好的激活函数，方便定制各种不同的网络结构。在Keras中使用激活对象有两种方法：一是单独定义一个激活层；二是在前置层里面通过激活选项来定义所需的激活函数。

初始化对象：用于随机设定网络层激活函数中的权重值或者偏置项的初始值。好的权重初始化值能帮助加快模型收敛速度。

正则化对象：在建模的时候，正则化是防止过度拟合的一个很常见的手段。在神经网络中也提供了正则化的手段，分别应用于权重参数、偏置项以及激活函数。

综上所述，本发明实施例1提供的一种音频分类方法，具有以下有益效果：对音频进行精准地分类，且音频分类方法简单；此外，该音频分类方法快速，也能够将音频分类至更加精细的类别，以满足不同目标用户的偏好度，大大提高了用户体验度。

实施例2

根据本发明的实施例2，还提供了一种音频分类装置，如图3所示，为本发明实施例2提供的音频分类装置的结构示意图。所述装置包括提取模块301、训练模型生成模块302、计算模块303和分类模块304。

具体而言，提取模块301，从音频频谱图中提取用于进行音频分类的音频特征；

训练模型生成模块302，根据提取模块301从音频频谱图提取出的音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；

计算模块303，根据训练模型生成模块302生成的训练模型的各项参数计算音频各个特征的综合值；

分类模块304，根据计算模块303计算出的音频各个特征的综合值，将音频分类至相应的类别中。

在一个可选的例子中，提取模块301具体用于：通过离散傅里叶变换把音频信号转换到频域上，得到相应的频域信号；根据相应的频域信号计算音频每个频率分量的幅值，得到相应的频率分量的幅值；基于预设的幅值转换模型，根据相应的频率分量的幅值进行幅值转换，将音频特征向量映射到二维空间的平面图上。

本发明实施例2提供的方案中的部分内容与本发明实施例1提供的方案中的部分内容相同或相似的部分，烦请参见针对本发明实施例1的相应部分的描述，在此不再赘述。

综上所述，本发明实施例2提供的一种音频分类装置，具有以下有益效果：对音频进行精准地分类，且音频分类方法简单；此外，该音频分类方法快速，也能够将音频分类至更加精细的类别，以满足不同目标用户的偏好度，大大提高了用户体验度。

实施例3

根据本发明的实施例3，还提供了一种电子设备，所述电子设备包括：存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：从音频频谱图中提取用于进行音频分类的音频特征；根据音频频谱图提取出的音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；根据训练模型的各项参数计算音频各个特征的综合值；根据音频各个特征的综合值，将音频分类至相应的类别中。

本发明实施例3提供的方案中的部分内容与本发明实施例1提供的方案中的部分内容相同或相似的部分，烦请参见针对本发明实施例1的相应部分的描述，在此不再赘述。

综上所述，本发明实施例3提供的一种电子设备，具有以下有益效果：对音频进行精准地分类，且音频分类方法简单；此外，该音频分类方法快速，也能够将音频分类至更加精细的类别，以满足不同目标用户的偏好度，大大提高了用户体验度。

实施例4

根据本发明的实施例4，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下方法：从音频频谱图中提取用于进行音频分类的音频特征；根据音频频谱图提取出的音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；根据训练模型的各项参数计算音频各个特征的综合值；根据音频各个特征的综合值，将音频分类至相应的类别中。

本发明实施例4提供的方案中的部分内容与本发明实施例1提供的方案中的部分内容相同或相似的部分，烦请参见针对本发明实施例1的相应部分的描述，在此不再赘述。

综上所述，本发明实施例4提供的一种计算机可读存储介质，具有以下有益效果：对音频进行精准地分类，且音频分类方法简单；此外，该音频分类方法快速，也能够将音频分类至更加精细的类别，以满足不同目标用户的偏好度，大大提高了用户体验度。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种音频分类方法，其特征在于，包括：

从音频频谱图中提取用于进行音频分类的音频特征；

根据所述音频频谱图提取出的所述音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；

根据所述训练模型的各项参数计算音频各个特征的综合值；

根据音频各个特征的综合值，将音频分类至相应的类别中。

2.根据权利要求1所述的方法，其特征在于，所述从音频频谱图中提取用于进行音频分类的音频特征具体包括：

通过降维技术将音频特征向量映射到二维空间的平面图上。

3.根据权利要求2所述的方法，其特征在于，所述通过降维技术将音频特征向量映射到二维空间的平面图上具体包括：

通过离散傅里叶变换把音频信号转换到频域上，得到相应的频域信号；

根据相应的频域信号计算音频每个频率分量的幅值，得到相应的频率分量的幅值；

基于预设的幅值转换模型，根据相应的频率分量的幅值进行幅值转换，将音频特征向量映射到二维空间的平面图上。

4.根据权利要求1所述的方法，其特征在于，

采用Keras架构构建所述卷积神经网络模型；和/或，

采用TensorFlow架构构建所述卷积神经网络模型。

5.一种音频分类装置，其特征在于，包括：

提取模块，从音频频谱图中提取用于进行音频分类的音频特征；

训练模型生成模块，根据所述提取模块从所述音频频谱图提取出的所述音频特征和音频类别标签作为训练数据，并基于卷积神经网络模型进行深度学习模型的模型训练，生成相应的训练模型；

计算模块，根据所述训练模型生成模块生成的所述训练模型的各项参数计算音频各个特征的综合值；

分类模块，根据所述计算模块计算出的音频各个特征的综合值，将音频分类至相应的类别中。

6.根据权利要求5所述的装置，其特征在于，所述从音频频谱图中提取用于进行音频分类的音频特征具体包括：

通过降维技术将音频特征向量映射到二维空间的平面图上。

7.根据权利要求6所述的装置，其特征在于，

所述提取模块具体用于：

8.根据权利要求5所述的装置，其特征在于，

采用Keras架构构建所述卷积神经网络模型；和/或，

采用TensorFlow架构构建所述卷积神经网络模型。

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一所述方法的步骤。