CN110188235A - 音乐风格分类方法、装置、计算机设备及存储介质 - Google Patents
音乐风格分类方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110188235A CN110188235A CN201910366739.7A CN201910366739A CN110188235A CN 110188235 A CN110188235 A CN 110188235A CN 201910366739 A CN201910366739 A CN 201910366739A CN 110188235 A CN110188235 A CN 110188235A
- Authority
- CN
- China
- Prior art keywords
- audio
- layer
- music style
- convolution
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000035939 shock Effects 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 239000011435 rock Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 229910001385 heavy metal Inorganic materials 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Auxiliary Devices For Music (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种音乐风格分类方法、装置、计算机设备及存储介质,方法包括获取数据集;将数据集中的音频进行预处理后输入预设的深度卷积神经网络进行训练,得到训练好的网络模型;将待分类音频进行预处理,并输入网络模型得到待分类音频的音乐风格识别结果;其中,预处理包括分离被处理音频的谐波音源与冲击波音源;将被处理音频的原始音源、谐波音源与冲击波音源均转变为频谱图。本发明所提出的音乐风格分类方法、计算机设备及存储介质通过将音频转变为频谱图,利用频谱图训练深度卷积神经网络,再利用训练好的网络模型对待分类音频进行分类识别,可成功实现对音频的较高精度分类,且分类速度快,解决了人工分类的局限。
Description
技术领域
本发明涉及计算机识别技术领域,特别是涉及一种音乐风格分类方法、装置、计算机设备及存储介质。
背景技术
音乐风格是反映一段音乐总体特征的标签,一首流行音乐的音乐风格分类可以分为乡村音乐、爵士、摇滚、重金属音乐、朋克、电子音乐、灵魂音乐、R&B、英伦摇滚、神游舞曲、匪帮说唱等等上百种,用人工的方式做分类工作量巨大而且局限于对做分类的人员的专业能力要求较高,并且能为音乐打上的风格标签局限于分类人员的学识以及个人认知。用神经网络的方法能够在只给定一段音频的情况下判断音乐风格,为该段音频打上标签,这对音乐的检索,归类都有重大意义,以往的分类方式都是利用人工神经网络,效率很低而且分类精度只能达到60%,而利用卷积神经网络可以共享卷积核,对高位数据处理无压力,无需手动选取特征的优点可以大大提高音乐风格分类的精度。
发明内容
有鉴于此,本发明提出一种音乐风格分类方法、装置、计算机设备及存储介质,旨在提供一种利用计算机技术自动对待分类音频进行识别分类的技术,不仅可提高分类速度,而且可提高分类精度。
首先,为实现上述目的,本发明提出一种音乐风格分类方法,所述方法包括
获取数据集,所述数据集由多种类型的音频组成,各音频的音乐风格已知;
将所述数据集中的音频进行预处理后输入预设的深度卷积神经网络进行训练,得到训练好的网络模型;
将待分类音频进行预处理,并输入所述网络模型得到待分类音频的音乐风格识别结果;
其中,所述预处理包括
分离被处理音频的谐波音源与冲击波音源;
将被处理音频的原始音源、谐波音源与冲击波音源均转变为频谱图。
进一步地,所述分离被处理音频的谐波音源与冲击波音源具体包括
利用HPSS算法分离被处理音频的谐波音源与冲击波音源。
由权利要求1所述的音乐风格分类方法,其特征在于,所述将被处理音频的原始音源、谐波音源与冲击波音源均转变为频谱图具体包括
对所述原始音源、谐波音源与冲击波音源分别作短时傅里叶变换得到各自的频谱图。
进一步地,所述深度卷积神经网络包括5个卷积层、2个池化层以及最后3层全连接层,其中前五层卷积层与池化层交替出现,所述输入预设的深度卷积神经网络进行训练包括
利用所述数据集预处理后得到的频谱图集对深度卷积神经网络进行有监督的学习,得到合适的权重参数矩阵和偏移量;
将权重参数矩阵和偏移量对应地赋值给所述深度卷积神经网络的各个层。
进一步地,所述对深度卷积神经网络进行有监督的学习包括
将频谱图集中的频谱图输入到所述深度卷积神经网络;
深度卷积神经网络进行前向传播得出识别结果;其中,每个卷积层采用ReLU作为激活函数,每个所述卷积层与全连接层均具有dropout参数,卷积层的dropout为0.0005,全连接层的dropout为0.5;最后一层所述全连接层采用softmax函数进行回归;
判断识别结果与实际音乐风格是否相符;
若相符则停止训练,若不相符在反向传播过程中采用随机梯度下降算法进行权重参数矩阵和偏移量的调整。
进一步地,所述输入所述网络模型得到待分类音频的音乐风格识别结果包括
将输入的频谱图归一化为设定大小的图像;
将经过归一化后的图像进行卷积计算;
将最后一层卷积层输出的特征图输送至3层全连接层;
获取最后一个全连接层的输出作为识别结果。
进一步地,所述将输入的频谱图归一化为设定大小的图像具体为
将输入的频谱图归一化为256*256大小的图像;
所述将经过归一化后的图像进行卷积计算包括
通过第一个卷积层利用96个大小为11*11,步长为4个像素的核对输入的图像进行滤波;
通过第一个池化层将第一个卷积层的输出作为输入并和96个大小为3*3的核进行滤波;
通过第二个卷积层利用256个大小为5*5的核对第一个池化层的输出进行滤波;
通过第二个池化层将第二个卷积层的输出作为输入并和256个大小为5*5的核进行滤波;
将第二个池化层的输出输入第三个卷积层,并依次通过第三、第四、第五个卷积层进行滤波操作最终获得256个大小为6*6的特征图;其中,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有256个大小为3*3的核。
为实现上述目的,本发明还提供音乐风格分类装置,其包括
获取模块,适于获取数据集,所述数据集由多种类型的音频组成,各音频的音乐风格已知;
训练模块,适于将所述数据集中的音频进行预处理后输入预设的深度卷积神经网络进行训练,得到训练好的网络模型;
识别模块,适于将待分类音频进行预处理,并输入所述网络模型得到待分类音频的音乐风格识别结果。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述音乐风格分类方法。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述音乐风格分类方法。
相较于现有技术,本发明所提出的音乐风格分类方法、装置、计算机设备及存储介质通过将音频转变为频谱图,利用频谱图训练深度卷积神经网络,再利用训练好的网络模型对待分类音频进行分类识别,可成功实现对音频的较高精度分类,且分类速度快,解决了人工分类的局限性。
附图说明
图1是本发明第一实施例之音乐风格分类方法的流程示意图;
图2是本发明实施例之对音频的预处理的流程示意图;
图3是本发明实施例之深度卷积神经网络的训练流程示意图;
图4是本发明实施例之深度卷积神经网络的训练学习流程示意图;
图5是本发明实施例之对待分类音频进行分类的流程示意图;
图6是本发明第二实施例之音乐风格分类装置的程序模块示意图;
图7是本发明第三实施例之计算机设备的硬件结构示意图。
附图标记
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
参阅图1所示,为本发明的音乐风格分类方法的流程示意图,所述方法包括如下步骤S101-S103:
步骤S101,获取数据集,所述数据集由多种类型的音频组成,各音频的音乐风格已知;
本步骤中,数据集一般由用户准备并存储在设定的存储路径,执行本方法时从设定的存储路径进行读取即可,本实施例中,选择了10个音乐风格的音乐,10个音乐风格分别为:乡村音乐、爵士、摇滚、重金属音乐、朋克、电子音乐、灵魂音乐、R&B、英伦摇滚、神游舞曲,每个音乐风格包含50个音频,长度统一为30秒。在另一实施例中,数据集也可由系统自动从网络获取,具体为分别自动通过搜索引擎或曲库获取设定数量(如50个)的设定类型音乐风格(如乡村音乐)的音频,并裁剪为设定时长(如30秒)。
步骤S102,将所述数据集中的音频进行预处理后输入预设的深度卷积神经网络进行训练,得到训练好的网络模型;
步骤S103,将待分类音频进行预处理,并输入所述网络模型得到待分类音频的音乐风格识别结果;
参阅图2所示,所述预处理过程包括如下步骤S201-S202:
步骤S201,分离被处理音频的谐波音源与冲击波音源;
本步骤中,由于音乐信号由谐波声音成分和冲击波声音成分组成,谐波声音成分由谐波乐器发出,其特点是发出能量持续时间较长,发声的频率较稳定,在语谱图上表现为沿时间方向平滑,冲击波声音成分由打击乐器发出,其特点是在短时间内,所有频率上均有能量,在语谱图上表现为沿频率上平滑,在时间上迅速衰减,因此两种声音成分具有本质上的不同,有必要对谐波音源与冲击波音源进行分离后进行分别处理。本实施例中,利用HPSS算法分离被处理音频的谐波音源与冲击波音源。
具体地,谐波音源Hh,t和冲击波音源Ph,t满足如下代价函数:
其中,Hh,i>0,Ph,i>0,Hh,i与Ph,i为谐波音源与冲击波音源经过短时傅里叶变换的结果,Xh,i是输入音频的能量谱,δH与δP分别代表水平方向和垂直方向的平滑度参数因子,i是帧数。
步骤S202,将被处理音频的原始音源、谐波音源与冲击波音源均转变为频谱图。
通过最小化J(H,P)获得Hh,i与Ph,i,再利用短时傅里叶变换对将两种音源和原始音源变为频谱图,短时傅里叶变换的公式为:
其中,t是帧长,w(n)是窗函数,一般为汉宁窗,
N是窗长,H是跳转的大小。
优选地,步骤S102中预设的深度卷积神经网络包括5个卷积层、2个池化层以及最后3层全连接层,其中前五层卷积层与池化层交替出现,参阅图3所示,所述输入预设的深度卷积神经网络进行训练包括如下步骤S301-S302:
步骤S301,利用所述数据集预处理后得到的频谱图集对深度卷积神经网络进行有监督的学习,得到合适的权重参数矩阵和偏移量;
步骤S302,将权重参数矩阵和偏移量对应地赋值给所述深度卷积神经网络的各个层。
具体地,参阅图4所示,步骤S301中对深度卷积神经网络进行有监督的学习包括如下步骤S301a-S301e:
步骤S301a,将频谱图集中的频谱图输入到所述深度卷积神经网络;
步骤S301b,深度卷积神经网络进行前向传播得出识别结果;
本步骤中,前向传播即将输入的数据经过5个卷积层滤波以及3个全连接层分类,采用表示第l个卷积层的第p个特征图,对输入的频谱图的卷积过程如下列公式所示:
其中,为第第l个卷积层的第q个卷积核输出的特征图,为卷积核,Mq为特征图Xl-1的集合;为卷积运算符;每个卷积层采用ReLU作为激活函数;为偏置。
每个所述卷积层与全连接层均具有dropout参数,卷积层的dropout为0.0005,全连接层的dropout为0.5;
最后一层所述全连接层采用softmax函数进行回归;softmax函数的公式为:
其中m表示的是要分类的类别个数,本实施例中,m=10。
步骤S301c,判断识别结果与实际音乐风格是否相符;
步骤S301d,若相符则停止训练;
步骤S301e,若不相符在反向传播过程中采用随机梯度下降算法进行权重参数矩阵和偏移量的调整,并返回至步骤S301a。
优选地,参阅图4所示,步骤S103中所述输入所述网络模型得到待分类音频的音乐风格识别结果包括如下步骤S401-S404:
步骤S401,将输入的频谱图归一化为设定大小的图像;
本实施例中,将输入的频谱图归一化为256*256大小的图像。
步骤S402,将经过归一化后的图像进行卷积计算;
本实施例中,深度卷积神经网络的8层级结构的具体参数如下表所示:
名称 | 特征图个数 | 卷积核 | 特征图的尺寸 |
输入层 | 1 | 256*256 | |
卷积层1 | 96 | 11*11 | 5*5 |
池化层 | 96 | 3*3 | |
卷积层2 | 256 | 5*5 | 27*27 |
池化层 | 256 | 5*5 | |
卷积层3 | 384 | 3*3 | 13*13 |
卷积层4 | 384 | 3*3 | 13*13 |
卷积层5 | 256 | 3*3 | 13*13 |
全连接层6 | 4096 | ||
全连接层7 | 1000 | ||
全连接层8 | 10 |
卷积运算过程如下:首先,通过第一个卷积层利用96个大小为11*11,步长为4个像素的核对输入的图像进行滤波,并通过第一个池化层将第一个卷积层的输出作为输入并和96个大小为3*3的核进行滤波;然后通过第一个池化层将第一个卷积层的输出作为输入并和96个大小为3*3的核进行滤波,且通过第二个卷积层利用256个大小为5*5的核对第一个池化层的输出进行滤波;再然后,将第二个池化层的输出输入第三个卷积层,并依次通过第三、第四、第五个卷积层进行滤波操作最终获得256个大小为6*6的特征图;其中,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有256个大小为3*3的核,第三、第四、第五个卷积层三者从前到后来看,前者的输出特征图作为后者的输入特征图,依此类推进行卷积运算。
步骤S403,将最后一层卷积层输出的特征图输送至3层全连接层;
本实施例中,3个神经元分别含有4096、1000、10个神经元。
步骤S404,获取最后一个全连接层的输出作为识别结果。
实施例二
参阅图6,是本发明实施例二之音乐风格分类装置500的程序模块示意图,音乐风格分类装置500可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述音乐风格分类方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述音乐风格分类方法在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块501,获取数据集,所述数据集由多种类型的音频组成,各音频的音乐风格已知;
本步骤中,数据集一般由用户准备并存储在设定的存储路径,获取模块501从设定的存储路径进行读取即可,本实施例中,选择了10个音乐风格的音乐,10个音乐风格分别为:乡村音乐、爵士、摇滚、重金属音乐、朋克、电子音乐、灵魂音乐、R&B、英伦摇滚、神游舞曲,每个音乐风格包含50个音频,长度统一为30秒。在另一实施例中,数据集也可由获取模块501自动从网络获取,具体为获取模块501分别自动通过搜索引擎或曲库获取设定数量(如50个)的设定类型音乐风格(如乡村音乐)的音频,并裁剪为设定时长(如30秒)。
训练模块502,将所述数据集中的音频进行预处理后输入预设的深度卷积神经网络进行训练,得到训练好的网络模型;
识别模块503,将待分类音频进行预处理,并输入所述网络模型得到待分类音频的音乐风格识别结果。
参阅图2所示,训练模块502与识别模块503对音频进行的预处理过程包括如下步骤S201-S202:
步骤S201,分离被处理音频的谐波音源与冲击波音源;
本步骤中,由于音乐信号由谐波声音成分和冲击波声音成分组成,谐波声音成分由谐波乐器发出,其特点是发出能量持续时间较长,发声的频率较稳定,在语谱图上表现为沿时间方向平滑,冲击波声音成分由打击乐器发出,其特点是在短时间内,所有频率上均有能量,在语谱图上表现为沿频率上平滑,在时间上迅速衰减,因此两种声音成分具有本质上的不同,有必要对谐波音源与冲击波音源进行分离后进行分别处理。本实施例中,利用HPSS算法分离被处理音频的谐波音源与冲击波音源。
具体地,谐波音源Hh,t和冲击波音源Ph,t满足如下代价函数:
其中,Hh,i>0,Ph,i>0,Hh,i与Ph,i为谐波音源与冲击波音源经过短时傅里叶变换的结果,Xh,i是输入音频的能量谱,δH与δP分别代表水平方向和垂直方向的平滑度参数因子,i是帧数。
步骤S202,将被处理音频的原始音源、谐波音源与冲击波音源均转变为频谱图。
通过最小化J(H,P)获得Hh,i与Ph,i,再利用短时傅里叶变换对将两种音源和原始音源变为频谱图,短时傅里叶变换的公式为:
其中,t是帧长,w(n)是窗函数,一般为汉宁窗,
N是窗长,H是跳转的大小。
优选地,训练模块502中预设的深度卷积神经网络包括5个卷积层、2个池化层以及最后3层全连接层,其中前五层卷积层与池化层交替出现,参阅图3所示,训练模块502将预处理后的音频输入预设的深度卷积神经网络进行训练包括如下步骤S301-S302:
步骤S301,训练模块502利用所述数据集预处理后得到的频谱图集对深度卷积神经网络进行有监督的学习,得到合适的权重参数矩阵和偏移量;
步骤S302,训练模块502将权重参数矩阵和偏移量对应地赋值给所述深度卷积神经网络的各个层。
具体地,参阅图4所示,步骤S301中对深度卷积神经网络进行有监督的学习包括如下步骤S301a-S301e:
步骤S301a,训练模块502将频谱图集中的频谱图输入到所述深度卷积神经网络;
步骤S301b,深度卷积神经网络进行前向传播得出识别结果;
本步骤中,前向传播即将输入的数据经过5个卷积层滤波以及3个全连接层分类,采用表示第l个卷积层的第p个特征图,对输入的频谱图的卷积过程如下列公式所示:
其中,为第第l个卷积层的第q个卷积核输出的特征图,为卷积核,Mq为特征图Xl-1的集合;为卷积运算符;每个卷积层采用ReLU作为激活函数;为偏置。
每个所述卷积层与全连接层均具有dropout参数,卷积层的dropout为0.0005,全连接层的dropout为0.5;
最后一层所述全连接层采用softmax函数进行回归;softmax函数的公式为:
其中m表示的是要分类的类别个数,本实施例中,m=10。
步骤S301c,训练模块502判断识别结果与实际音乐风格是否相符;
步骤S301d,若相符则停止训练;
步骤S301e,若不相符训练模块502在反向传播过程中采用随机梯度下降算法进行权重参数矩阵和偏移量的调整,并返回至步骤S301a。
参阅图4所示,识别模块503将待识别音频的频谱图后输入所述网络模型得到待分类音频的音乐风格识别结果包括如下步骤S401-S404:
步骤S401,识别模块503将输入的频谱图归一化为设定大小的图像;
本实施例中,识别模块503将输入的频谱图归一化为256*256大小的图像。
步骤S402,识别模块503将经过归一化后的图像进行卷积计算;
卷积运算过程如下:首先,识别模块503通过第一个卷积层利用96个大小为11*11,步长为4个像素的核对输入的图像进行滤波,并通过第一个池化层将第一个卷积层的输出作为输入并和96个大小为3*3的核进行滤波;然后通过第一个池化层将第一个卷积层的输出作为输入并和96个大小为3*3的核进行滤波,且通过第二个卷积层利用256个大小为5*5的核对第一个池化层的输出进行滤波;再然后,将第二个池化层的输出输入第三个卷积层,并依次通过第三、第四、第五个卷积层进行滤波操作最终获得256个大小为6*6的特征图;其中,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有256个大小为3*3的核,第三、第四、第五个卷积层三者从前到后来看,前者的输出特征图作为后者的输入特征图,依此类推进行卷积运算。
步骤S403,识别模块503将最后一层卷积层输出的特征图输送至3层全连接层;
本实施例中,3个神经元分别含有4096、1000、10个神经元。
步骤S404,识别模块503获取最后一个全连接层的输出作为识别结果。
实施例三
参阅图7,是本发明实施例三之计算机设备600的硬件架构示意图。在本实施例中,所述计算机设备600是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。如图所示,所述计算机设备600至少包括,但不限于,可通过系统总线相互通信连接存储器601、处理器602、网络接口603、以及音乐风格分类装置604。其中:
本实施例中,存储器601至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器601可以是计算机设备600的内部存储单元,例如该计算机设备600的硬盘或内存。在另一些实施例中,存储器601也可以是计算机设备600的外部存储设备,例如该计算机设备600上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器601还可以既包括计算机设备600的内部存储单元也包括其外部存储设备。本实施例中,存储器601通常用于存储安装于计算机设备600的操作系统和各类应用软件,例如音乐风格分类装置604的程序代码等。此外,存储器601还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器602在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器602通常用于控制计算机设备600的总体操作。本实施例中,处理器602用于运行存储器601中存储的程序代码或者处理数据,例如运行音乐风格分类装置604,以实现实施例一中的音乐风格分类方法。
所述网络接口603可包括无线网络接口或有线网络接口,该网络接口603通常用于在所述计算机设备600与其他音乐风格分类装置之间建立通信连接。例如,所述网络接口603用于通过网络将所述计算机设备600与外部终端相连,在所述计算机设备600与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图7仅示出了具有部件601-604的计算机设备600,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器601中的所述音乐风格分类装置604还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器601中,并由一个或多个处理器(本实施例为处理器602)所执行,以完成本发明音乐风格分类方法。
实施例四
本实施例提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现上述的音乐风格分类方法。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.音乐风格分类方法,其特征在于,所述方法包括
获取数据集,所述数据集由多种类型的音频组成,各音频的音乐风格已知;
将所述数据集中的音频进行预处理后输入预设的深度卷积神经网络进行训练,得到训练好的网络模型;
将待分类音频进行预处理,并输入所述网络模型得到待分类音频的音乐风格识别结果;
其中,所述预处理包括
分离被处理音频的谐波音源与冲击波音源;
将被处理音频的原始音源、谐波音源与冲击波音源均转变为频谱图。
2.由权利要求1所述的音乐风格分类方法,其特征在于,所述分离被处理音频的谐波音源与冲击波音源具体包括
利用HPSS算法分离被处理音频的谐波音源与冲击波音源。
3.由权利要求1所述的音乐风格分类方法,其特征在于,所述将被处理音频的原始音源、谐波音源与冲击波音源均转变为频谱图具体包括
对所述原始音源、谐波音源与冲击波音源分别作短时傅里叶变换得到各自的频谱图。
4.由权利要求1所述的音乐风格分类方法,其特征在于,所述深度卷积神经网络包括5个卷积层、2个池化层以及最后3层全连接层,其中前五层卷积层与池化层交替出现,所述输入预设的深度卷积神经网络进行训练包括
利用所述数据集预处理后得到的频谱图集对深度卷积神经网络进行有监督的学习,得到合适的权重参数矩阵和偏移量;
将权重参数矩阵和偏移量对应地赋值给所述深度卷积神经网络的各个层。
5.由权利要求4所述的音乐风格分类方法,其特征在于,所述对深度卷积神经网络进行有监督的学习包括
将频谱图集中的频谱图输入到所述深度卷积神经网络;
深度卷积神经网络进行前向传播得出识别结果;其中,每个卷积层采用ReLU作为激活函数,每个所述卷积层与全连接层均具有dropout参数,卷积层的dropout为0.0005,全连接层的dropout为0.5;最后一层所述全连接层采用softmax函数进行回归;
判断识别结果与实际音乐风格是否相符;
若相符则停止训练,若不相符在反向传播过程中采用随机梯度下降算法进行权重参数矩阵和偏移量的调整。
6.由权利要求4所述的音乐风格分类方法,其特征在于,所述输入所述网络模型得到待分类音频的音乐风格识别结果包括
将输入的频谱图归一化为设定大小的图像;
将经过归一化后的图像进行卷积计算;
将最后一层卷积层输出的特征图输送至3层全连接层;
获取最后一个全连接层的输出作为识别结果。
7.由权利要求6所述的音乐风格分类方法,其特征在于,所述将输入的频谱图归一化为设定大小的图像具体为
将输入的频谱图归一化为256*256大小的图像;
所述将经过归一化后的图像进行卷积计算包括
通过第一个卷积层利用96个大小为11*11,步长为4个像素的核对输入的图像进行滤波;
通过第一个池化层将第一个卷积层的输出作为输入并和96个大小为3*3的核进行滤波;
通过第二个卷积层利用256个大小为5*5的核对第一个池化层的输出进行滤波;
通过第二个池化层将第二个卷积层的输出作为输入并和256个大小为5*5的核进行滤波;
将第二个池化层的输出输入第三个卷积层,并依次通过第三、第四、第五个卷积层进行滤波操作最终获得256个大小为6*6的特征图;其中,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有384个大小为3*3的核,第三个卷积层拥有256个大小为3*3的核。
8.一种音乐风格分类装置,其特征在于,其包括
获取模块,适于获取数据集,所述数据集由多种类型的音频组成,各音频的音乐风格已知;
训练模块,适于将所述数据集中的音频进行预处理后输入预设的深度卷积神经网络进行训练,得到训练好的网络模型;
识别模块,适于将待分类音频进行预处理,并输入所述网络模型得到待分类音频的音乐风格识别结果。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述音乐风格分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述音乐风格分类方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910366739.7A CN110188235A (zh) | 2019-05-05 | 2019-05-05 | 音乐风格分类方法、装置、计算机设备及存储介质 |
PCT/CN2019/102804 WO2020224107A1 (zh) | 2019-05-05 | 2019-08-27 | 音乐风格分类方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910366739.7A CN110188235A (zh) | 2019-05-05 | 2019-05-05 | 音乐风格分类方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110188235A true CN110188235A (zh) | 2019-08-30 |
Family
ID=67715628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910366739.7A Pending CN110188235A (zh) | 2019-05-05 | 2019-05-05 | 音乐风格分类方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110188235A (zh) |
WO (1) | WO2020224107A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675893A (zh) * | 2019-09-19 | 2020-01-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲识别方法、装置、存储介质及电子设备 |
CN110853606A (zh) * | 2019-11-26 | 2020-02-28 | Oppo广东移动通信有限公司 | 一种音效配置方法、装置及计算机可读存储介质 |
CN111048099A (zh) * | 2019-12-16 | 2020-04-21 | 随手(北京)信息技术有限公司 | 声音源的识别方法、装置、服务器及存储介质 |
CN111312258A (zh) * | 2019-12-16 | 2020-06-19 | 随手(北京)信息技术有限公司 | 用户的身份认证方法、装置、服务器及存储介质 |
CN111488486A (zh) * | 2020-04-20 | 2020-08-04 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111505650A (zh) * | 2020-04-28 | 2020-08-07 | 西北工业大学 | 一种基于hpss的水下目标被动检测方法 |
CN112287751A (zh) * | 2020-09-21 | 2021-01-29 | 深圳供电局有限公司 | 励磁涌流识别方法、装置、计算机设备和存储介质 |
CN113112969A (zh) * | 2021-03-23 | 2021-07-13 | 平安科技(深圳)有限公司 | 基于神经网络的佛教音乐记谱方法、装置、设备及介质 |
CN113808613A (zh) * | 2021-08-02 | 2021-12-17 | 中山大学 | 一种轻量化的语音去噪方法、系统、设备及存储介质 |
CN113813609A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 游戏音乐风格分类方法、装置、可读介质及电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
CN112613566B (zh) * | 2020-12-25 | 2023-09-19 | 深圳大学 | 人体动作分类方法、装置、终端设备以及存储介质 |
CN113793580B (zh) * | 2021-08-31 | 2024-05-24 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
CN114241491B (zh) * | 2021-11-22 | 2024-07-12 | 南京邮电大学 | 一种基于轻量级深度学习网络的手写字母识别方法 |
CN114205690B (zh) * | 2021-12-15 | 2024-06-11 | 中国电信股份有限公司 | 流量预测、模型训练方法及装置、电子设备、存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
CN108962279A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 音频数据的乐器识别方法及装置、电子设备、存储介质 |
CN109272993A (zh) * | 2018-08-21 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 语音类别的识别方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6197569B2 (ja) * | 2013-10-17 | 2017-09-20 | ヤマハ株式会社 | 音響解析装置 |
CN108202334B (zh) * | 2018-03-22 | 2020-10-23 | 东华大学 | 一种能够识别音乐节拍和风格的舞蹈机器人 |
CN109308912B (zh) * | 2018-08-02 | 2024-02-20 | 平安科技(深圳)有限公司 | 音乐风格识别方法、装置、计算机设备及存储介质 |
CN109256146B (zh) * | 2018-10-30 | 2021-07-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
-
2019
- 2019-05-05 CN CN201910366739.7A patent/CN110188235A/zh active Pending
- 2019-08-27 WO PCT/CN2019/102804 patent/WO2020224107A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
CN108962279A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 音频数据的乐器识别方法及装置、电子设备、存储介质 |
CN109272993A (zh) * | 2018-08-21 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 语音类别的识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
胡昭华;余媛媛;: "深度卷积神经网络在音乐风格识别中的应用", 小型微型计算机系统, no. 09, 15 September 2018 (2018-09-15), pages 1932 - 1936 * |
胡昭华等: "深度卷积神经网络在音乐风格识别中的应用", 《小型微型计算机系统》, pages 1932 - 1936 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675893A (zh) * | 2019-09-19 | 2020-01-10 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲识别方法、装置、存储介质及电子设备 |
CN110853606A (zh) * | 2019-11-26 | 2020-02-28 | Oppo广东移动通信有限公司 | 一种音效配置方法、装置及计算机可读存储介质 |
CN111048099A (zh) * | 2019-12-16 | 2020-04-21 | 随手(北京)信息技术有限公司 | 声音源的识别方法、装置、服务器及存储介质 |
CN111312258A (zh) * | 2019-12-16 | 2020-06-19 | 随手(北京)信息技术有限公司 | 用户的身份认证方法、装置、服务器及存储介质 |
CN111488486B (zh) * | 2020-04-20 | 2021-08-17 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111488486A (zh) * | 2020-04-20 | 2020-08-04 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111505650A (zh) * | 2020-04-28 | 2020-08-07 | 西北工业大学 | 一种基于hpss的水下目标被动检测方法 |
CN111505650B (zh) * | 2020-04-28 | 2022-11-01 | 西北工业大学 | 一种基于hpss的水下目标被动检测方法 |
CN112287751A (zh) * | 2020-09-21 | 2021-01-29 | 深圳供电局有限公司 | 励磁涌流识别方法、装置、计算机设备和存储介质 |
CN112287751B (zh) * | 2020-09-21 | 2024-05-07 | 深圳供电局有限公司 | 励磁涌流识别方法、装置、计算机设备和存储介质 |
CN113112969A (zh) * | 2021-03-23 | 2021-07-13 | 平安科技(深圳)有限公司 | 基于神经网络的佛教音乐记谱方法、装置、设备及介质 |
CN113112969B (zh) * | 2021-03-23 | 2024-04-05 | 平安科技(深圳)有限公司 | 基于神经网络的佛教音乐记谱方法、装置、设备及介质 |
CN113813609A (zh) * | 2021-06-02 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 游戏音乐风格分类方法、装置、可读介质及电子设备 |
CN113813609B (zh) * | 2021-06-02 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 游戏音乐风格分类方法、装置、可读介质及电子设备 |
CN113808613A (zh) * | 2021-08-02 | 2021-12-17 | 中山大学 | 一种轻量化的语音去噪方法、系统、设备及存储介质 |
CN113808613B (zh) * | 2021-08-02 | 2023-12-12 | 中山大学 | 一种轻量化的语音去噪方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020224107A1 (zh) | 2020-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188235A (zh) | 音乐风格分类方法、装置、计算机设备及存储介质 | |
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN109859772B (zh) | 情绪识别方法、装置及计算机可读存储介质 | |
US8935167B2 (en) | Exemplar-based latent perceptual modeling for automatic speech recognition | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN109308913A (zh) | 音乐质量评价方法、装置、计算机设备及存储介质 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
US9799333B2 (en) | System and method for processing speech to identify keywords or other information | |
CN113129927B (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
CN108257593A (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN108764114B (zh) | 一种信号识别方法及其设备、存储介质、终端 | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN108281158A (zh) | 基于深度学习的语音活体检测方法、服务器及存储介质 | |
CN111159987A (zh) | 数据图表绘制方法、装置、设备和计算机可读存储介质 | |
CN108320740A (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN112489623A (zh) | 语种识别模型的训练方法、语种识别方法及相关设备 | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN108650266A (zh) | 服务器、声纹验证的方法及存储介质 | |
CN113869398B (zh) | 一种不平衡文本分类方法、装置、设备及存储介质 | |
CN111259189B (zh) | 一种音乐分类方法及装置 | |
CN111933179B (zh) | 基于混合式多任务学习的环境声音识别方法及装置 | |
CN110226201A (zh) | 利用周期指示的声音识别 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |