CN111488486A - 一种基于多音源分离的电子音乐分类方法及系统 - Google Patents
一种基于多音源分离的电子音乐分类方法及系统 Download PDFInfo
- Publication number
- CN111488486A CN111488486A CN202010310701.0A CN202010310701A CN111488486A CN 111488486 A CN111488486 A CN 111488486A CN 202010310701 A CN202010310701 A CN 202010310701A CN 111488486 A CN111488486 A CN 111488486A
- Authority
- CN
- China
- Prior art keywords
- music
- spectrogram
- electronic music
- network
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
Abstract
本发明公开了一种基于多音源分离的电子音乐分类方法及系统,其中的基于多音源分离的电子音乐分类方法包括:读取待分类电子音乐文件,利用音源分离网络,提取出具有代表性的N种音源;将分离出的N种音源文件和原曲一起,通过短时傅里叶变换和谐波/冲击源分离技术,生成频谱图矩阵;频谱图矩阵通过卷积循环神经网络(CRNN),获得包含局部信息和时序信息的特征表示。将该特征表示通过多个全连接层和softmax函数,最后输出待分类电子音乐的类别。采用本方法能够大大提高电子音乐分类的精确性。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于多音源分离的电子音乐分类方法及系统。
背景技术
随着电音节、电音文化的盛行,电子音乐早已摆脱了小众、实验的形象,逐步走向主流音乐市场的怀抱。而经过自上个世纪70年代以来的蓬勃发展,电子音乐的风格种类正不断增加,维基百科至今已收录超过200种细分类型,海量的电子音乐亟待通过分类改善数据库的管理,以及实现更多用户化的行为,如音乐检索,音乐推荐等。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
对现有的音乐分类模型进行移植,无法满足电子音乐众多类别的准确度要求。与其他大众已熟知的音乐相比,电子音乐有一些辨识度比较高的乐曲特点,包括有节奏感的鼓点和贝斯结构以及乐曲的节拍速度等,已有的分别基于音源分离和基于深度学习的方法没有充分挖掘这些信息,分类准确率不高。
发明内容
本发明提出一种基于多音源分离的电子音乐分类方法及系统,用于解决或者至少部分解决现有技术中的方法存在的分类准确率不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于多音源分离的电子音乐分类方法,包括:
S1:获取电子音乐文件,进行预处理和标记后形成训练数据;
S2:构建电子音乐分类模型,其中,电子音乐分类模型包括音源分离网络、时频域变换模块以及分类网络,其中,音源分离网络用于从输入的音乐文件中提取出N种音源,时频域变换模块用于根据分离出的N种音源文件与输入的音乐文件的原曲,通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,其中生成的频谱图矩阵用以存储音乐文件的音乐特征,分类网络包括卷积循环神经网络、全连接层以及Softmax函数,卷积循环神经网络用以从生成的频谱图矩阵中提取出局部信息和时序信息的特征表示;全连接层和Softmax函数用以根据卷积循环神经网络提取出的特征表示,输出音乐文件的类别;
S3:将训练数据输入至构建的电子音乐分类模型中,并采用随机梯度下降法进行训练,得到训练好的电子音乐分类模型;
S4:将待分类的电子音乐文件输入训练好的电子音乐分类模型中,得到分类结果。
在一种实施方式中,S1中对获取的电子音乐文件进行预处理和标记,包括:
从获取的电子音乐文件中提取出多种音乐源,并标记音乐文件的类别,将原曲、多种音乐源以及类别组成的样本-标签对作为训练数据。
在一种实施方式中,S2中的音源分离网络包括编码器、解码器以及双向长短期记忆网络BiLSTM,编码器包括多个编码层,解码器包括多个解码层,其中,编码器为Len层全卷积网络结构,原曲的波形序列输入每个编码层依次进行若干一维卷积核、ReLU激活函数和一个门控线性单元的计算,并输出至下一个编码层和对应的解码层,最后一个解码层的输出作为BiLSTM的输入;
解码器为Lde层全卷积网络结构,BiLSTM的循环输出作为第一个解码层的输入,依次进行若干一维卷积核、ReLU计算,并与对应编码层的高解析度特征拼接,再进行门控线性单元,若干一维反卷积核以及ReLU的计算,最终得到N种音源,其中,N为正整数。
在一种实施方式中,S2时频域变换模块通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,具体包括:
采用短时傅里叶变换将原曲和分离出的音源截取为较短的信号片段,再对短时平稳信号进行傅里叶变换,得到原曲的STFT频谱图和音源的STFT频谱图;
采用谐波/冲击源分离技术基于原曲的STFT频谱图和音源的STFT频谱图,分别生成原曲的谐波源频谱图和冲击源频谱图、音源的谐波源频谱图和冲击源频谱图;
将原曲的STFT频谱图、谐波源频谱图、冲击源频谱图以及音源的STFT频谱图、谐波源频谱图和冲击源频谱图,拼接成频谱图矩阵。
在一种实施方式中,S2中的卷积循环神经网络CNN包括一个卷积神经网络和一个双向长短期记忆网络。
在一种实施方式中,S3具体包括:
采用随机梯度下降法,同时最小化分离误差和分类误差,其中,分离误差为各音源的估计值与真实标签值之间的曼哈顿距离,分类误差为类别的预测值与真实值的交叉熵损失,进行分批训练。
在一种实施方式中,S4具体包括:
S4.1:通过分离网络从将待分类的电子音乐文件中提取出多种音源;
S4.2:通过时频域转换模块根据提取出的多种音源和原曲生成频谱图矩阵;
S4.3:通过卷积循环神经网络从输入的频谱图矩阵中提取出局部信息和时序信息的特征表示;
S4.4:通过全连接层和Softmax函数基于局部信息和时序信息的特征表示,得到最终类别。
基于同样的发明构思,本发明第二方面提供了一种基于多音源分离的电子音乐分类系统,包括:
训练数据获取模块,用于获取电子音乐文件,进行预处理和标记后形成训练数据;
模型构建模块:用于构建电子音乐分类模型,其中,电子音乐分类模型包括音源分离网络、时频域变换模块以及分类网络,其中,音源分离网络用于从输入的音乐文件中提取出N种音源,时频域变换模块用于根据分离出的N种音源文件与输入的音乐文件的原曲,通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,其中生成的频谱图矩阵用以存储音乐文件的音乐特征,分类网络包括卷积循环神经网络、全连接层以及Softmax函数,卷积循环神经网络用以从生成的频谱图矩阵中提取出局部信息和时序信息的特征表示;全连接层和Softmax函数用以根据卷积循环神经网络提取出的特征表示,输出音乐文件的类别;
训练模块,用于将训练数据输入至构建的电子音乐分类模型中,并采用随机梯度下降法进行训练,得到训练好的电子音乐分类模型;
分类模块,用于将待分类的电子音乐文件输入训练好的电子音乐分类模型中,得到分类结果。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明根据电子音乐的作曲特点,通过多音源分离技术,对待识别乐曲进行垂直方向的解构,实现了电子音乐的多维度要素表达,能够更加有效的刻画电子音乐的风格特征,不仅提高了电子音乐的分类准确率,还拓展了细分类别的粒度。
利用深度卷积网络,对待识别乐曲的多种图谱进行韵律节拍的估计,既保留了乐曲的原始特性,又从水平方向上延伸了乐曲的特征空间,进一步增强了待识别乐曲特征的表示能力。
提出了一种端到端的电子音乐分类的方法及模型,将待识别乐曲输入后,该完整的方法模型能够自动对乐曲进行垂直/水平结构上的拆解分析,最后输出待识别乐曲的类型,使电子音乐的分类更加高效、准确、用户化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于多音源分离的电子音乐分类方法的整体流程图;
图2是本发明方法的神经网络结构总框架;
图3是本发明利用电子音乐分类模型进行音乐文件分类的整体流程图;
图4是实施例中待识别电子音乐的音源分离结果(波形图);
图5是实施例中通过时频分析得到的原始频谱图、谐波源频谱图和冲击源频谱图。
具体实施方式
针对现有技术中无法提取电子音乐的多音乐元素和作曲特点,进而造成自动分类准确率不高的技术问题,本发明提供了一种基于多音源分离的电子音乐分类方法,以达到提高分类准确率的目的。
为了实现上述目的,本发明的主要构思如下:
首先获取电子音乐文件,进行预处理和标记后形成训练数据;然后构建电子音乐分类模型;接着将训练数据输入至构建的电子音乐分类模型中,并采用随机梯度下降法进行训练,得到训练好的电子音乐分类模型;最后将待分类的电子音乐文件输入训练好的电子音乐分类模型中,得到分类结果。电子音乐分类模型包括音源分离网络、时频域变换模块以及分类网络,首先利用分离网络从将待分类的电子音乐文件中提取出多种音源;然后利用时频域转换模块根据提取出的多种音源和原曲生成频谱图矩阵;接着利用卷积循环神经网络从输入的频谱图矩阵中提取出局部信息和时序信息的特征表示;最后利用全连接层和Softmax函数基于局部信息和时序信息的特征表示,得到最终类别。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种基于多音源分离的电子音乐分类方法,请参见图1,该方法包括:
S1:获取电子音乐文件,进行预处理和标记后形成训练数据;
S2:构建电子音乐分类模型,其中,电子音乐分类模型包括音源分离网络、时频域变换模块以及分类网络,其中,音源分离网络用于从输入的音乐文件中提取出N种音源,时频域变换模块用于根据分离出的N种音源文件与输入的音乐文件的原曲,通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,其中生成的频谱图矩阵用以存储音乐文件的音乐特征,分类网络包括卷积循环神经网络、全连接层以及Softmax函数,卷积循环神经网络用以从生成的频谱图矩阵中提取出局部信息和时序信息的特征表示;全连接层和Softmax函数用以根据卷积循环神经网络提取出的特征表示,输出音乐文件的类别;
S3:将训练数据输入至构建的电子音乐分类模型中,并采用随机梯度下降法进行训练,得到训练好的电子音乐分类模型;
S4:将待分类的电子音乐文件输入训练好的电子音乐分类模型中,得到分类结果。
具体来说,S1是获取训练数据,S2是构建电子音乐分类模型的框架结构,其包括音源分离网络、时频域变换模块以及分类网络,其中,音源分离网络可以从输入的电子音乐文件中提取出具有代表性的不同种类的音源,时频域变换模块主要是用于将声音信号从时域转换至频域,分类网络主要用于提取音乐的局部信息和时序信息特征,并进行分类。
S3是对构建的模型进行训练,训练过程中采用随机梯度下降法,最后通过S4利用训练好的模型对音乐文件进行分类。
在一种实施方式中,S1中对获取的电子音乐文件进行预处理和标记,包括:
从获取的电子音乐文件中提取出多种音乐源,并标记音乐文件的类别,将原曲、多种音乐源以及类别组成的样本-标签对作为训练数据。
在一种实施方式中,S2中的音源分离网络包括编码器、解码器以及双向长短期记忆网络BiLSTM,编码器包括多个编码层,解码器包括多个解码层,其中,编码器为Len层全卷积网络结构,原曲的波形序列输入每个编码层依次进行若干一维卷积核、ReLU激活函数和一个门控线性单元的计算,并输出至下一个编码层和对应的解码层,最后一个解码层的输出作为BiLSTM的输入;
解码器为Lde层全卷积网络结构,BiLSTM的循环输出作为第一个解码层的输入,依次进行若干一维卷积核、ReLU计算,并与对应编码层的高解析度特征拼接,再进行门控线性单元,若干一维反卷积核以及ReLU的计算,最终得到N种音源,其中,N为正整数。
具体来说,用于音源分离的Unet网络结构由一对编/解码器和双向长短期记忆网络(BiLSTM)组成。其中,编/解码器基于全卷积网络(FCN),形成一个对称的U形结构。编码器的收缩路径通过卷积将特征图减半而通道加倍,以获取上下文信息;与此相反,解码器的扩张路径通过反卷积或上采样将特征图加倍而通道数减半,并使用残差连接(skipconnection)引入解码器中对应层的高解析度信息,进行特征还原中的定位。编码器中若干一维卷积核的计算、解码器中若干一维卷积核的计算中,卷积核的数量可以根据实际情况进行设置,例如48个、64个等等。由于解码器的输出为分离出的N个音源,所以最后一个解码层的通道数为N*C0,C0为原曲通道数。
请参见图2,为本发明提供的神经网络(电子音乐分类模型)结构总框架,编码器中的多个编码层就为线性排列,由于是Unet结构,所以编码层的输出,输出至下一个编码层的同时还会流向对应的解码层。
在一种实施方式中,S2时频域变换模块通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,具体包括:
采用短时傅里叶变换将原曲和分离出的音源截取为较短的信号片段,再对短时平稳信号进行傅里叶变换,得到原曲的STFT频谱图和音源的STFT频谱图;
采用谐波/冲击源分离技术基于原曲的STFT频谱图和音源的STFT频谱图,分别生成原曲的谐波源频谱图和冲击源频谱图、音源的谐波源频谱图和冲击源频谱图;
将原曲的STFT频谱图、谐波源频谱图、冲击源频谱图以及音源的STFT频谱图、谐波源频谱图和冲击源频谱图,拼接成频谱图矩阵。
具体来说,分离出的N个音源和原曲的频谱图可以通过时频域转换和分解获得,以便于后续步骤中使用计算机视觉的方法提取可识别的类别特征。为了适应不同长度的音乐文件,需要将所有音源文件划分为若干个时长为D的音乐片段,然后对每个音乐片段进行时频分析,控制后续步骤分析处理过程在统一的频谱图分辨率上进行,最后将所有片段的分类结果汇总,考虑全局的音乐类别。
在具体的实施过程中,可以利用短时傅里叶变换(STFT)将非平稳信号通过加窗函数截取为较短的信号片段,再对短时平稳信号进行傅里叶变换。其中短时STFT的变换公式如下:
其中,x(n)为时刻n的声音信号,g(n)为长度为M的加窗函数,Xm(f)为每次以mR为中心的窗口进行傅里叶变换得到的结果,R为滑动窗口的步长,m表示通过加窗函数截取的第m个信号片段,j表示复数符号,f表示频率。
本申请发明人通过大量的研究发现,音乐信号在频谱图中沿时间轴和频率轴的连续平滑分布信息,即谐波源和冲击源,可以通过谐波/冲击源分离获得。电子音乐中不同的音源具有不同的谐波/冲击源特征,电子合成器的管弦类音源通常舒缓且连续,在频谱图上表现为更明显的水平包络,而打击乐器如鼓产生的音源具有强烈的节奏感,相应的垂直包络则更加清晰,人声的音源则根据元音、辅音和爆破音的不同,具有相对错落的包络结构。对每种音乐元素的谐波源和冲击波源分别进行分析,能够增加待识别音乐信号的特征表示能力。给定频谱图中给定频段h和时间i的元素Wh,i,相同位置上的谐波源元素Hh,i和冲击波源元素Ph,i满足以下代价公式:
其中σH和σP分别为谐波/冲击源的权重平滑因子,并满足:
Hh,i+Ph,i=Wh,i
Hh,i≥0,Ph,i≥0
最后通过最小化代价函数求取Hh,i和Ph,i。
分离出来的N种音源与原曲都通过STFT和HPSS,各自生成原始频谱、谐波源频谱图和冲击源频谱图共3*(N+1)个频谱图,并沿音源拼接为频谱图矩阵,作为待识别电子音乐的特征,然后通过将声音信号从时域转换至频域,进而可将音乐分类问题转化为图像识别问题,因此可以通过提出的卷积循环神经网络进行有效解决。
在一种实施方式中,S2中的卷积循环神经网络CNN包括一个卷积神经网络和一个双向长短期记忆网络。
具体来说,通过卷积循环神经网络(CRNN)不仅能够提取待识别音乐的局部特征,还能学习出时序数据之间的联系,其中CRNN包括一个卷积神经网络(CNN)和一个BiLSTM。经过CNN得到的特征图规模为(通道数,1,帧数),将时序数据依次输入BiLSTM,并对最后的隐藏状态进行拼接,拼接后的向量作为全连接网络的输入。
然后使用全连接网络作为分类器,将待识别音乐的特征映射为长度为K维向量。
在一种实施方式中,S3具体包括:
采用随机梯度下降法,同时最小化分离误差和分类误差,其中,分离误差为各音源的估计值与真实标签值之间的曼哈顿距离,分类误差为类别的预测值与真实值的交叉熵损失,进行分批训练。
具体来说,由卷积循环神经网络和全连接层以及Softmax函数组成的分类网络,可与步骤1所述音源分离网络一起,使用原曲和对应的多音源以及类别组成的样本-标签对作为训练数据,使用随机梯度下降法,同时最小化分离误差和分类误差,进行分批训练。
其中,网络最后一层的输出经过Softmax函数,输出向量第j个值的计算公式如下:
其中,K维向量中的K个值分别代表属于K个类的概率,其和为1,概率值越大,属于该类的可能性就越高。最后为了得到待识别电子音乐的全局类别,需要将同属该音乐文件的D个音乐片段上的K维向量相加,其中最大概率值所属的类别即为该电子音乐的类别,并输出类别名。
在一种实施方式中,S4具体包括:
S4.1:通过分离网络从将待分类的电子音乐文件中提取出多种音源;
S4.2:通过时频域转换模块根据提取出的多种音源和原曲生成频谱图矩阵;
S4.3:通过卷积循环神经网络从输入的频谱图矩阵中提取出局部信息和时序信息的特征表示;
S4.4:通过全连接层和Softmax函数基于局部信息和时序信息的特征表示,得到最终类别。
具体来说,请参见图3,为本发明利用电子音乐分类模型进行音乐文件分类的整体流程图。
在具体的实施过程中,S4.1中待分类的电子音乐文件可以由用户上传,网络链接下载,计算机输入设备收录外界播放等,文件的格式可以是WAV、MP3、AMP、FLAC或者WMA,但不局限于以上描述的格式。以用户上传的大小约为23.3MB的WAV文件为例,该文件包含一首glitch hop风格的电子音乐,该风格主要特点为带有毛刺感(glitch)的回响贝斯(dubstep),可以归为贝斯大类中。将待分类的电子音乐文件进行采样频率调整为22050Hz,并转化为双声道数据,预处理可以通过LibROSA库实现。利用音源分离网络,提取出具有代表性的4种音源,分别为贝斯,鼓,人声以及其他。
具体地,编码器第一层输出通道数C1=48,经过6层的压缩,最后一层输出的通道数为C6=1536。解码器每一层的通道数与编码器的对应层一致,因此可以使用残差连接(skip connection),引入解码器中对应层的高解析度信息,进行特征还原中的定位。特别的,由于GLU计算会使通道数减半,因此GLU的卷积核数需要加倍。编码器为Len=6层全卷积网络结构。原曲的波形序列输入每个解码层依次进行若干一维卷积核(Conv1d),核大小为8,步长为4,ReLU激活函数和一个核大小步长都为1的门控线性单元(GLU)的计算,并输出至下一个编码层(最后一个解码层的输出作为BiLSTM的输入)或对应的解码层。
解码器为Lde=6层全卷积网络结构。BiLSTM的循环输出作为第一个解码层的输入,依次进行若干一维卷积核,核大小为3,步长为1,ReLU计算,并与对应编码层的高解析度特征拼接,再进行核大小步长都为1的门控线性单元,若干一维反卷积核(ConvTr1d),核大小为8,步长为4,以及ReLU的计算。由于解码器的输出为分离出的N=4个音源,C0=2为原曲通道数,所以最后一个解码层的通道数为8。
其中,图4是实施例中待识别电子音乐的音源分离结果(波形图)。
以分离出4种音源为例,S4.2中,分离出的4种音源文件和原曲一起,通过短时傅里叶变换和谐波/冲击源分离技术,生成频谱图矩阵。若干个音乐片段的时长为D=6s,在进行傅里叶变换时,时长约为46ms,其中,包含采样频率22050Hz下的1024个采样点;R为滑动窗口在重叠率为50%下的步长。
图5是本实施例中待识别原曲通过时频转换得到的原始频谱图、谐波源频谱图和冲击源频谱图,分离出来的4种音源与原曲都通过STFT和HPSS,同样由LibROSA库实现。最终各自生成原始频谱、谐波源频谱图和冲击源频谱图,原曲共3*(4+1)=15个频谱图,并沿音源拼接为频谱图矩阵,作为待识别电子音乐的特征。通过将声音信号从时域转换至频域,进而可将音乐分类问题转化为图像识别问题,因此可以通过提出的卷积循环神经网络进行有效解决。
S4.3中,频谱图矩阵通过卷积循环神经网络(CRNN)不仅能够提取待识别音乐的局部特征,还能学习出时序数据之间的联系,其中包括一个卷积神经网络(CNN)和一个BiLSTM。具体地,卷积核的大小为3*3,最大池化的大小分别为((2×2)-(3×3)-(4×4)-(4×4))经过CNN得到的特征图规模为(通道数,1,帧数),将时序数据依次输入BiLSTM,并对最后的隐藏状态进行拼接,拼接后的向量作为全连接网络的输入。
S4.4将该特征表示通过多个全连接层和Softmax函数,使用全连接网络作为分类器,将待识别音乐的特征映射为长度为K维向量。各全连接层的节点个数分别为1024、512和K,最后一层的节点个数即类别数量。由卷积循环神经网络和全连接层以及Softmax函数组成的分类网络,可与步骤1所述音源分离网络一起,将若干原曲和对应的多音源以及类别组成的样本-标签对作为训练数据,使用随机梯度下降法,同时最小化分离误差和分类误差,前者为各音源的估计值与真实标签值之间的曼哈顿距离,后者为类别的预测值与真实值的交叉熵损失,进行分批训练。
其中,网络最后一层的输出经过Softmax函数,输出向量第j个值的计算公式如下:
K维向量中的K个值分别代表属于K个类的概率,其和为1。具体地,K=9时,K个值可以分为9种音乐风格:经典(classic)、浩室(house)、迷幻舞曲(trance)、碎拍(Breaks)、贝斯(bass)、硬核(hardcore)、合成(synth)、休闲(chill)和其他。K值越大,解析出的音乐类型就越细化。K维向量中,概率值越大,属于该类的可能性就越高。最后为了得到待识别电子音乐的全局类别,需要将同属该音乐文件的时长为D=6s的若干音乐片段上的K维向量相加,其中最大概率值所属的类别即为该电子音乐的类别,本实施例中,第5个概率值的总和最大,即输出类别名“贝斯(bass)”。
与现有技术相比,本发明的有益效果和优点如下:
根据电子音乐的作曲特点,通过多音源分离技术,对待识别乐曲进行垂直方向的解构,实现了电子音乐的多维度要素表达,能够更加有效的刻画电子音乐的风格特征,不仅提高了电子音乐的分类准确率,还拓展了细分类别的粒度。
利用深度卷积网络,对待识别乐曲的多种图谱进行韵律节拍的估计,既保留了乐曲的原始特性,又从水平方向上延伸了乐曲的特征空间,进一步增强了待识别乐曲特征的表示能力。
提出了一种端到端的电子音乐分类的方法及模型,将待识别乐曲输入后,该完整的方法模型能够自动对乐曲进行垂直/水平结构上的拆解分析,最后输出待识别乐曲的类型,使电子音乐的分类更加高效、准确、用户化。
实施例二
基于同样的发明构思,本实施例提供了一种基于多音源分离的电子音乐分类系统,该系统包括:
训练数据获取模块,用于获取电子音乐文件,进行预处理和标记后形成训练数据;
模型构建模块:用于构建电子音乐分类模型,其中,电子音乐分类模型包括音源分离网络、时频域变换模块以及分类网络,其中,音源分离网络用于从输入的音乐文件中提取出N种音源,时频域变换模块用于根据分离出的N种音源文件与输入的音乐文件的原曲,通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,其中生成的频谱图矩阵用以存储音乐文件的音乐特征,分类网络包括卷积循环神经网络、全连接层以及Softmax函数,卷积循环神经网络用以从生成的频谱图矩阵中提取出局部信息和时序信息的特征表示;全连接层和Softmax函数用以根据卷积循环神经网络提取出的特征表示,输出音乐文件的类别;
训练模块,用于将训练数据输入至构建的电子音乐分类模型中,并采用随机梯度下降法进行训练,得到训练好的电子音乐分类模型;
分类模块,用于将待分类的电子音乐文件输入训练好的电子音乐分类模型中,得到分类结果。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于多音源分离的电子音乐分类方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于多音源分离的电子音乐分类方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于多音源分离的电子音乐分类方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于多音源分离的电子音乐分类方法,其特征在于,包括:
S1:获取电子音乐文件,进行预处理和标记后形成训练数据;
S2:构建电子音乐分类模型,其中,电子音乐分类模型包括音源分离网络、时频域变换模块以及分类网络,其中,音源分离网络用于从输入的音乐文件中提取出N种音源,时频域变换模块用于根据分离出的N种音源文件与输入的音乐文件的原曲,通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,其中生成的频谱图矩阵用以存储音乐文件的音乐特征,分类网络包括卷积循环神经网络、全连接层以及Softmax函数,卷积循环神经网络用以从生成的频谱图矩阵中提取出局部信息和时序信息的特征表示;全连接层和Softmax函数用以根据卷积循环神经网络提取出的特征表示,输出音乐文件的类别;
S3:将训练数据输入至构建的电子音乐分类模型中,并采用随机梯度下降法进行训练,得到训练好的电子音乐分类模型;
S4:将待分类的电子音乐文件输入训练好的电子音乐分类模型中,得到分类结果。
2.如权利要求1所述的方法,其特征在于,S1中对获取的电子音乐文件进行预处理和标记,包括:
从获取的电子音乐文件中提取出多种音乐源,并标记音乐文件的类别,将原曲、多种音乐源以及类别组成的样本-标签对作为训练数据。
3.如权利要求1所述的方法,其特征在于,S2中的音源分离网络包括编码器、解码器以及双向长短期记忆网络BiLSTM,编码器包括多个编码层,解码器包括多个解码层,其中,编码器为Len层全卷积网络结构,原曲的波形序列输入每个编码层依次进行若干一维卷积核、ReLU激活函数和一个门控线性单元的计算,并输出至下一个编码层和对应的解码层,最后一个解码层的输出作为BiLSTM的输入;
解码器为Lde层全卷积网络结构,BiLSTM的循环输出作为第一个解码层的输入,依次进行若干一维卷积核、ReLU计算,并与对应编码层的高解析度特征拼接,再进行门控线性单元,若干一维反卷积核以及ReLU的计算,最终得到N种音源,其中,N为正整数。
4.如权利要求1所述的方法,其特征在于,S2时频域变换模块通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,具体包括:
采用短时傅里叶变换将原曲和分离出的音源截取为较短的信号片段,再对短时平稳信号进行傅里叶变换,得到原曲的STFT频谱图和音源的STFT频谱图;
采用谐波/冲击源分离技术基于原曲的STFT频谱图和音源的STFT频谱图,分别生成原曲的谐波源频谱图和冲击源频谱图、音源的谐波源频谱图和冲击源频谱图;
将原曲的STFT频谱图、谐波源频谱图、冲击源频谱图以及音源的STFT频谱图、谐波源频谱图和冲击源频谱图,拼接成频谱图矩阵。
5.如权利要求1所述的方法,其特征在于,S2中的卷积循环神经网络CNN包括一个卷积神经网络和一个双向长短期记忆网络。
6.如权利要求1所述的方法,其特征在于,S3具体包括:
采用随机梯度下降法,同时最小化分离误差和分类误差,其中,分离误差为各音源的估计值与真实标签值之间的曼哈顿距离,分类误差为类别的预测值与真实值的交叉熵损失,进行分批训练。
7.如权利要求5所述的方法,其特征在于,S4具体包括:
S4.1:通过分离网络从将待分类的电子音乐文件中提取出多种音源;
S4.2:通过时频域转换模块根据提取出的多种音源和原曲生成频谱图矩阵;
S4.3:通过卷积循环神经网络从输入的频谱图矩阵中提取出局部信息和时序信息的特征表示;
S4.4:通过全连接层和Softmax函数基于局部信息和时序信息的特征表示,得到最终类别。
8.一种基于多音源分离的电子音乐分类系统,其特征在于,包括:
训练数据获取模块,用于获取电子音乐文件,进行预处理和标记后形成训练数据;
模型构建模块:用于构建电子音乐分类模型,其中,电子音乐分类模型包括音源分离网络、时频域变换模块以及分类网络,其中,音源分离网络用于从输入的音乐文件中提取出N种音源,时频域变换模块用于根据分离出的N种音源文件与输入的音乐文件的原曲,通过短时傅里叶变换和谐波/冲击源分离技术,进行时频域转换生成频谱图矩阵,其中生成的频谱图矩阵用以存储音乐文件的音乐特征,分类网络包括卷积循环神经网络、全连接层以及Softmax函数,卷积循环神经网络用以从生成的频谱图矩阵中提取出局部信息和时序信息的特征表示;全连接层和Softmax函数用以根据卷积循环神经网络提取出的特征表示,输出音乐文件的类别;
训练模块,用于将训练数据输入至构建的电子音乐分类模型中,并采用随机梯度下降法进行训练,得到训练好的电子音乐分类模型;
分类模块,用于将待分类的电子音乐文件输入训练好的电子音乐分类模型中,得到分类结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至7中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310701.0A CN111488486B (zh) | 2020-04-20 | 2020-04-20 | 一种基于多音源分离的电子音乐分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010310701.0A CN111488486B (zh) | 2020-04-20 | 2020-04-20 | 一种基于多音源分离的电子音乐分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488486A true CN111488486A (zh) | 2020-08-04 |
CN111488486B CN111488486B (zh) | 2021-08-17 |
Family
ID=71813637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010310701.0A Active CN111488486B (zh) | 2020-04-20 | 2020-04-20 | 一种基于多音源分离的电子音乐分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488486B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314140A (zh) * | 2021-05-31 | 2021-08-27 | 哈尔滨理工大学 | 一种端到端时域多尺度卷积神经网络的音源分离算法 |
CN116129837A (zh) * | 2023-04-12 | 2023-05-16 | 深圳市宇思半导体有限公司 | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919710A (zh) * | 2017-03-13 | 2017-07-04 | 东南大学 | 一种基于卷积神经网络的方言分类方法 |
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
WO2018094381A1 (en) * | 2016-11-21 | 2018-05-24 | Tecumseh Vision, Llc | System and method for automatic assessment of disease condition using oct scan data |
WO2019000326A1 (en) * | 2017-06-29 | 2019-01-03 | Microsoft Technology Licensing, Llc | GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION SERVICE |
US20190018675A1 (en) * | 2017-07-13 | 2019-01-17 | Elmo AI | Artificially Intelligent Self-Learning Software Operating Program |
CN109785824A (zh) * | 2019-03-15 | 2019-05-21 | 科大讯飞股份有限公司 | 一种语音翻译模型的训练方法及装置 |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN110148400A (zh) * | 2018-07-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 发音类型的识别方法、模型的训练方法、装置及设备 |
CN110188235A (zh) * | 2019-05-05 | 2019-08-30 | 平安科技(深圳)有限公司 | 音乐风格分类方法、装置、计算机设备及存储介质 |
CN110717067A (zh) * | 2019-12-16 | 2020-01-21 | 北京海天瑞声科技股份有限公司 | 视频中音频聚类的处理方法和装置 |
-
2020
- 2020-04-20 CN CN202010310701.0A patent/CN111488486B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
WO2018094381A1 (en) * | 2016-11-21 | 2018-05-24 | Tecumseh Vision, Llc | System and method for automatic assessment of disease condition using oct scan data |
CN106919710A (zh) * | 2017-03-13 | 2017-07-04 | 东南大学 | 一种基于卷积神经网络的方言分类方法 |
WO2019000326A1 (en) * | 2017-06-29 | 2019-01-03 | Microsoft Technology Licensing, Llc | GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION SERVICE |
US20190018675A1 (en) * | 2017-07-13 | 2019-01-17 | Elmo AI | Artificially Intelligent Self-Learning Software Operating Program |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN110148400A (zh) * | 2018-07-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 发音类型的识别方法、模型的训练方法、装置及设备 |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN109785824A (zh) * | 2019-03-15 | 2019-05-21 | 科大讯飞股份有限公司 | 一种语音翻译模型的训练方法及装置 |
CN110188235A (zh) * | 2019-05-05 | 2019-08-30 | 平安科技(深圳)有限公司 | 音乐风格分类方法、装置、计算机设备及存储介质 |
CN110717067A (zh) * | 2019-12-16 | 2020-01-21 | 北京海天瑞声科技股份有限公司 | 视频中音频聚类的处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
徐有正: ""基于卷积神经网络的音乐分类研究与应用"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314140A (zh) * | 2021-05-31 | 2021-08-27 | 哈尔滨理工大学 | 一种端到端时域多尺度卷积神经网络的音源分离算法 |
CN116129837A (zh) * | 2023-04-12 | 2023-05-16 | 深圳市宇思半导体有限公司 | 一种用于音乐节拍跟踪的神经网络数据增强模块和算法 |
Also Published As
Publication number | Publication date |
---|---|
CN111488486B (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Purwins et al. | Deep learning for audio signal processing | |
Andén et al. | Joint time–frequency scattering | |
KR20170046751A (ko) | 음성 전사를 위한 시스템 및 방법 | |
CN1860504A (zh) | 用于视听内容合成的系统和方法 | |
Padi et al. | Improved speech emotion recognition using transfer learning and spectrogram augmentation | |
CN111444967A (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
Bakhshi et al. | CyTex: Transforming speech to textured images for speech emotion recognition | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN112633175A (zh) | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 | |
Drexler et al. | Analysis of audio-visual features for unsupervised speech recognition | |
CN111488486B (zh) | 一种基于多音源分离的电子音乐分类方法及系统 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
Haque et al. | High-fidelity audio generation and representation learning with guided adversarial autoencoder | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Han et al. | Self-supervised learning with cluster-aware-dino for high-performance robust speaker verification | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
Sarkar et al. | Raga identification from Hindustani classical music signal using compositional properties | |
Liu et al. | Hierarchical component-attention based speaker turn embedding for emotion recognition | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
Anindya et al. | Development of Indonesian speech recognition with deep neural network for robotic command | |
CN113870896A (zh) | 基于时频图和卷积神经网络的运动声音判假方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |