CN109308912A - 音乐风格识别方法、装置、计算机设备及存储介质 - Google Patents
音乐风格识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109308912A CN109308912A CN201810871667.7A CN201810871667A CN109308912A CN 109308912 A CN109308912 A CN 109308912A CN 201810871667 A CN201810871667 A CN 201810871667A CN 109308912 A CN109308912 A CN 109308912A
- Authority
- CN
- China
- Prior art keywords
- target
- music style
- rhythm
- probability
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000033764 rhythmic process Effects 0.000 claims abstract description 131
- 238000013480 data collection Methods 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 241001050985 Disco Species 0.000 description 1
- 206010019133 Hangover Diseases 0.000 description 1
- 241000638935 Senecio crassissimus Species 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/036—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/041—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种音乐风格识别方法、装置、计算机设备及存储介质。所述方法包括:获取音频样本数据集;获取音频样本的音色特征和节奏特征;根据音色特征和节奏特征,对初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型;接收待识别的目标音频数据,并获取目标音色特征和目标节奏特征;根据音色识别模型对目标音色特征进行识别,确定目标音色特征属于每种音乐风格的概率,得到N个音色概率;根据节奏识别模型对目标节奏特征进行识别,确定目标节奏特征属于每种音乐风格的概率,得到N个节奏概率;根据N个音色概率和N个节奏概率,确定目标音频数据的目标音乐风格。本发明的技术方案提高了音乐风格识别的准确率。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种音乐风格识别方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的不断发展,网络音乐不仅形式多样,而且一直以爆炸性的数量增长。面对海量的网络音乐,如何快速查询喜欢的音乐成为了一个研究热点。
音乐风格类型常被用于数字音乐数据库的管理,因此音乐风格的识别和分类在音乐信息检索(Music Information Retrieval,MIR)中具有重要的作用,通过音乐风格分类,能够在音乐信息检索时大幅度缩小检索范围,提高检索速度。
但是,目前传统的音乐风格识别和分类方法对原始音频数据的特征提取不全面,对音乐风格的识别和分类的准确率不高,影响了音乐信息检索的准确率。
发明内容
本发明实施例提供一种音乐风格识别方法、装置、计算机设备及存储介质,以解决对音频数据进行音乐风格识别的准确率较低的问题。
一种音乐风格识别方法,包括:
获取音频样本数据集,其中,所述音频样本数据集中包含N个种类的音乐风格,以及每种所述音乐风格的音频样本,N为正整数;
获取所述音频样本的音色特征;
获取所述音频样本的节奏特征根据所述音色特征和所述节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型,其中,所述音色识别模型用于计算待识别音频数据的音色特征属于每种所述音乐风格的概率,所述节奏识别模型用于计算所述待识别音频数据的节奏特征属于每种所述音乐风格的概率;
接收待识别的目标音频数据,并获取所述目标音频数据的目标音色特征和目标节奏特征;
根据所述音色识别模型对所述目标音色特征进行识别,确定所述目标音色特征属于每种所述音乐风格的概率,得到N个音色概率;
根据所述节奏识别模型对所述目标节奏特征进行识别,确定所述目标节奏特征属于每种所述音乐风格的概率,得到N个节奏概率;
根据获取的所述N个音色概率和所述N个节奏概率,确定所述目标音频数据的目标音乐风格;
将所述目标音乐风格作为所述目标音频数据的识别结果。
一种音乐风格识别装置,包括:
样本获取模块,用于获取音频样本数据集,其中,所述音频样本数据集中包含N个种类的音乐风格,以及每种所述音乐风格的音频样本,N为正整数;
音色提取模块,用于获取所述音频样本的音色特征;
节奏提取模块,用于获取所述音频样本的节奏特征;
模型训练模块,用于根据所述音色特征和所述节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型,其中,所述音色识别模型用于计算待识别音频数据的音色特征属于每种所述音乐风格的概率,所述节奏识别模型用于计算所述待识别音频数据的节奏特征属于每种所述音乐风格的概率;
目标获取模块,用于接收待识别的目标音频数据,并获取所述目标音频数据的目标音色特征和目标节奏特征;
音色模型识别模块,用于根据所述音色识别模型对所述目标音色特征进行识别,确定所述目标音色特征属于每种所述音乐风格的概率,得到N个音色概率;
节奏模型识别模块,用于根据所述节奏识别模型对所述目标节奏特征进行识别,确定所述目标节奏特征属于每种所述音乐风格的概率,得到N个节奏概率;
风格确定模块,用于根据获取的所述N个音色概率和所述N个节奏概率,确定所述目标音频数据的目标音乐风格;
结果输出模块,用于将所述目标音乐风格作为所述目标音频数据的识别结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述音乐风格识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述音乐风格识别方法的步骤。
上述音乐风格识别方法、装置、计算机设备及存储介质,从音频样本数据集中获取每种音乐风格的音频样本的音色特征和节奏特征,并基于隐马尔可夫模型,分别使用音色特征和节奏特征进行训练,得到音色识别模型和节奏识别模型,音色识别模型用于计算待识别音频数据的音色特征属于每种所述音乐风格的概率,节奏识别模型用于计算待识别音频数据的节奏特征属于每种所述音乐风格的概率,实现了对每种音乐风格均从音色和节奏两个维度构建识别模型,当接收到待识别的目标音频数据时,获取该目标音频数据的目标音色特征和目标节奏特征,并根据音色识别模型和节奏识别模型分别对目标音色特征和目标节奏特征进行识别,得到目标音色特征属于每种音乐风格的音色概率和目标节奏特征属于每种音乐风格的节奏概率,根据得到的N个音色概率和N个节奏概率综合分析并确定目标音频数据的音乐风格,实现对目标音频数据的音乐风格识别,从音色特征和节奏特征两个维度进行音乐特征提取,能够全面反映音频数据的音乐特征,从而提高模型识别的准确率,并且,使用基于隐马尔可夫模型得到的音色识别模型和节奏识别模型分别进行识别,并根据识别结果综合判断音乐风格,能够进一步提高音乐风格识别的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中音乐风格识别方法的一应用环境示意图;
图2是本发明一实施例中音乐风格识别方法的一流程图;
图3是本发明一实施例中音乐风格识别方法中步骤S2的一流程图;
图4是本发明一实施例中音乐风格识别方法中步骤S3的一流程图;
图5是本发明一实施例中音乐风格识别方法中步骤S8的一流程图;
图6是本发明一实施例中音乐风格识别方法中构建二分类音乐风格分类器的一流程图;
图7是本发明一实施例中音乐风格识别方法中步骤S8的另一流程图;
图8是本发明一实施例中音乐风格识别装置的一示意图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的音乐风格识别方法,可应用在如图1所示的应用环境中,该应用环境包括服务端和客户端,其中,服务端和客户端之间通过网络进行连接,该网络可以是有线网络或者无线网络,客户端具体包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。客户端将采集到的音频样本数据集和待识别的目标音频数据发送给服务端,服务端根据接收到音频样本数据集进行模型训练,并使用训练后的模型完成对目标音频数据的音乐风格识别。
在一实施例中,如图2所示,提供一种音乐风格识别方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S1:获取音频样本数据集,其中,该音频样本数据集中包含N个种类的音乐风格,以及每种音乐风格的音频样本,N为正整数。
具体地,音频样本的获取渠道包括但不限于视频、录音设备或者声卡采集模拟设备等,包含多种不同音乐风格的音频样本的数据集作为训练数据集,主要用于进行音乐风格识别模型的模型训练,该音频样本数据包含了已经准确进行了音乐风格分类的音频样本。
例如,音频样本数据集可以包含10种音乐风格下的音频样本,即N=10,10种音乐风格具体包括古典、布鲁斯、嘻哈、流行、摇滚、爵士、雷鬼、金属、迪斯科和乡村,每种音乐风格下的音频样本数量为100首,每个音频样本的音乐时长为30秒。
S2:获取音频样本的音色特征。
音色(Timbre)是指声音的频率表现在波形方面的特性,音频样本的音色特征包括音频信号的频谱特性,每种音乐风格的音频都具有独特的音色特征,通过音色特征能够对具有相近音调的不同音乐风格的音频进行区分。
具体地,采用短时傅里叶变换对音频样本进行音色特征的提取,提取到的音色特征包括但不限于梅尔频率倒谱系数(Mel-frequency Cepstrum Coefficients,MFCC)、频谱中心、谱平坦度、频谱通量、频率滚降以及过零率等。音色特征具体可以采用多维音色特征向量的方式表达。
S3:获取音频样本的节奏特征。
音乐的节奏反映了音乐信号随时间的变化,音频样本的节奏特征包括音乐的节奏、节拍和拍速等方面的特性。
具体地,通过构建节拍直方图(Beat Histogram,BH)的方式,提取音频样本的节奏特征,采用小波变换对音频样本在时域上的信号进行一系列的高通滤波和低通滤波,得到节拍直方图,并根据节拍直方图中图形的峰值和幅度的变化情况,确定音频样本的节奏特征。节奏特征具体也可以采用多维音色特征向量的方式表达。
需要说明的是,步骤S2和步骤S3没有必然的先后执行顺序,其可以是并列执行的关系,此处不做限制。
S4:根据音频样本的音色特征和节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型,其中,音色识别模型用于计算待识别音频数据的音色特征属于每种音乐风格的概率,节奏识别模型用于计算待识别音频数据的节奏特征属于每种音乐风格的概率。
具体地,针对音频样本数据集中的N个种类的音乐风格,针对每种音乐风格,使用属于该音乐风格的音频样本的音色特征对初始隐马尔可夫模型进行训练,得到音色识别模型。音色识别模型可以根据待识别音频数据的音色特征,计算该音色特征属于每种音乐风格的概率。同时,针对每种音乐风格,使用属于该音乐风格的音频样本的节奏特征对初始隐马尔可夫模型进行训练,得到节奏识别模型,节奏识别模型可以根据待识别音频数据的节奏特征,计算该节奏特征据属于每种音乐风格的概率。
例如,当N=10时,即音频样本数据集包括10种音乐风格的音频样本,则通过训练后,得到的音色识别模型可以输出待识别音频数据的音色特征分别属于这10种音乐风格的概率,得到的节奏识别模型可以输出待识别音频数据的节奏特征分别属于这10种音乐风格的概率。
隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,可以对一串时间序列进行建模,用来描述一个含有隐含未知参数的马尔可夫过程,即从可观察的参数中确定该过程的隐含参数。HMM采用全连接结构或left-right结构,通过训练HMM模型参数λ=(A,B,π),找到λ的局部最优解,其中,A,B,π分别为HMM模型中的训练参数,A为与时间无关的状态转移概率矩阵,B为预设的给定状态下观测向量的概率矩阵,π为概率分布。对HMM模型进行训练的具体步骤如下:
(1)对初始隐马尔可夫模型进行初始化,提取初始状态下的状态转移概率矩阵A(0)和观测向量概率矩阵B(0),以及初始概率分布π(0),即λ(0)=(A(0),B(0),π(0));
(2)将音色特征向量或者节奏特征向量作为观测向量,使用Baum-Welch算法对初始化后的初始隐马尔可夫模型进行k次递推迭代,其中,k为正整数;
(3)将第k次递推迭代得到的模型参数λ(k+1)=(A(k+1),B(k+1),π(k+1))作为最终模型参数,即为λ的局部最优解。
例如,当k=10时,λ的局部最优解为λ(10)=(A(10),B(10),π(10))。
S5:接收待识别的目标音频数据,并获取该目标音频数据的目标音色特征和目标节奏特征。
具体地,若接收到待识别音乐风格的目标音频数据,则采用与步骤S2相同的提取方法获取该目标音频数据的音色特征向量,作为目标音色特征,并采用与步骤S3相同的提取方法获取该目标音频数据的节奏特征向量,作为目标节奏特征。
S6:根据音色识别模型对目标音频数据的目标音色特征进行识别,确定目标音色特征属于每种音乐风格的概率,得到N个音色概率。
具体地,将步骤S5得到的目标音色特征输入根据步骤S4得到的音色识别模型中进行识别,音色识别模型输出该目标音色特征属于每种音乐风格的概率,即N个音色概率。
S7:根据节奏识别模型对目标音频数据的目标节奏特征进行识别,确定目标节奏特征属于每种音乐风格的概率,得到N个节奏概率。
具体地,将步骤S5得到的目标节奏特征输入根据步骤S4得到的节奏识别模型中进行识别,节奏识别模型输出该目标节奏特征属于每种音乐风格的概率,即N个节奏概率。
例如,若根据步骤S4得到包含古典、布鲁斯、嘻哈、流行、摇滚、爵士、雷鬼、金属、迪斯科和乡村10种音乐风格的音色识别模型和节奏识别模型,将目标音频数据的目标音色特征输入音色识别模型,得到该目标音色特征属于每种音乐风格的概率,共10个音色概率;同时,将目标音频数据的目标节奏特征输入节奏识别模型,得到目标节奏特征属于每种音乐风格的概率,共10个节奏概率。
需要说明的是,步骤S6和步骤S7之间没有必然的先后执行顺序,其可以是并列执行的关系,此处不做限制。
S8:根据获取的N个音色概率和N个节奏概率,确定目标音频数据的目标音乐风格。
具体地,对步骤S6得到的N个音色概率和步骤S7得到的N个节奏概率进行综合分析,确定目标音频数据的目标音乐风格。
在一具体实施例中,针对每种音乐风格,对目标音频数据在该音乐风格下的音色概率和节奏概率进行求和计算,并将求和计算的结果作为目标音频数据属于该音乐风格的概率,然后从得到的N个概率中选取最大概率对应的音乐风格作为目标音频数据的目标音乐风格。
S9:将目标音乐风格作为目标音频数据的识别结果。
具体地,将步骤S8得到的目标音乐风格作为对待识别音乐风格的目标音频数据的识别结果。
在本实施例中,从音频样本数据集中提获取每种音乐风格的音频样本的音色特征和节奏特征,并分别使用音色特征和节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型,音色识别模型用于计算待识别音频数据的音色特征属于每种所述音乐风格的概率,节奏识别模型用于计算待识别音频数据的节奏特征属于每种所述音乐风格的概率,实现了对每种音乐风格均从音色和节奏两个维度构建识别模型,当接收到待识别的目标音频数据时,获取该目标音频数据的目标音色特征和目标节奏特征,并根据音色识别模型和节奏识别模型分别对目标音色特征和目标节奏特征进行识别,得到目标音色特征属于每种音乐风格的音色概率和目标节奏特征属于每种音乐风格的节奏概率,根据得到的N个音色概率和N个节奏概率综合分析并确定目标音频数据的音乐风格,实现对目标音频数据的音乐风格识别,从音色特征和节奏特征两个维度进行音乐特征提取,能够全面反映音频数据的音乐特征,从而提高模型识别的准确率,并且,使用基于隐马尔可夫模型得到的音色识别模型和节奏识别模型分别进行识别,并根据识别结果综合判断音乐风格,能够进一步提高音乐风格识别的准确率。
在一实施例中,如图3所示,在步骤S2中,获取音频样本的音色特征具体包括如下步骤:
S21:使用一阶高通滤波器对音频样本进行预加重处理。
预加重处理是对音频样本的原始音频信号的高频分量进行补偿的一种方法,其实现方式是增大原始音频信号跳变边沿后第一个跳变比特位的幅度。例如,对一个00111的原始音频信号序列进行预加重处理后,该原始音频信号序列里第一个1的幅度会比第二个1和第三个1的幅度大。由于跳变比特代表了信号里的高频分量,因此预加重处理有助于提高原始音频信号里的高频分量,使原始音频信号的频谱变得平坦,增加原始音频信号的高频分辨率,有利于对音频样本的频谱分析和声道参数分析等。
具体地,使用公式(1)对音频样本进行预加重处理:
H(z)=1-α×z-1 公式(1)
其中,H(z)为对音频样本进行预加重处理后的输出信号,α为预设的预加重系数,并且0.9<α<1.0,z为音频样本的原始音频信号。
需要说明的是,预设的预加重系数α通常可以设置为接近1的数,例如α=0.96,但并不限于此,其具体的取值可以根据实际应用的需要进行设置,此处不做限制。
S22:对预加重处理后的音频样本进行归一化处理,得到标准样本。
具体地,对步骤S21得到的音频样本的预加重处理后的输出信号,计算均值μ和标准差δ,并使用公式(2)进行归一化处理:
其中,h为对音频样本进行预加重处理后的输出信号,w为归一化处理得到的标准样本。
可以理解的,按照公式(2)得到的标准样本符合正态分布。
S23:对标准样本进行分帧处理,得到M个预设长度的分析帧,其中,M为正整数。
具体地,按照预设长度,将步骤S22得到的标准样本的音频信号划分为短时的音频信号段,每个短时的音频信号段作为一个分析帧,得到M个固定长度的分析帧。
将标准样本的总长度除以预设长度,得到的商即为分析帧的数量M。
需要说明的是,由于音色特征在一个很短的时间段内具有相对稳定的特征,因此通过分帧处理得到的分析帧具有短时平稳性的特点,从而能够通过对分析帧的特征分析准确提取音色特征。
进一步地,为了保持分帧处理后每个分析帧之间的平滑过渡,可以在相邻分析帧之间进行重叠。例如,若预设长度为512样点,则相邻分析帧之间可以重叠256样点,即当第一个分析帧包含编号从1至512的样点时,相邻的第二个分析帧包含编号从257至768的样点。
S24:对M个分析帧进行加窗处理,并对加窗后的分析帧进行快速傅里叶变换,得到标准样本的音色特征。
由于分帧处理可能导致音频信号泄漏,对音频信号边缘造成影响,出现频谱拖尾的情况,因此进一步对分析帧进行加窗处理。
加窗处理是指对分析帧增加一个窗函数,使得加窗处理后每次只对窗中的分析帧进行傅里叶变换,从而能够更好的满足傅里叶变换的周期性要求。
具体地,使用海明窗(Hamming)函数h=hamming(t)对分析帧进行加窗,其中,t为每个窗中的分析帧的数量。
对分析帧进行加窗处理后,采用快速傅里叶变换((fast Fourier transform,FFT)对每个窗中的分析帧进行频谱分析,提取频谱特征,并将提取到的每个窗中的频谱特征组成特征向量,即为该标准样本的音色特征。
其中,提取的频谱特征包括但不限于偏度和峰度、谱中心、谱通量、谱滚降、谱传播、谱平坦度、过零率,以及MFCC等。
在本实施例中,使用公式(1)和公式(2)对音频样本依次进行预加重处理和归一化处理,得到标准样本,能够提高音频样本的原始音频信号里的高频分量,增加高频分辨率;通过对标准样本进行分帧处理,能够得到具有短时稳定特征的分析帧,通过对分析帧的加窗处理,能够更好的满足傅里叶变换的周期性要求,使得在对音频样本经过预加重处理、归一化处理、分帧处理和加窗处理等一系列预处理后,再对加窗后的分析帧进行快速傅里叶变换,实现对标准样本的音色特征的准确提取。
在一实施例中,如图4所示,在步骤S3中,获取音频样本的节奏特征具体包括如下步骤:
S31:根据小波变换,计算音频样本的节拍直方图。
小波变换(wavelet transform,WT)是一种变换分析方法,它继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的有效工具。
具体地,通过小波变换得到音频样本的一系列子频带,对每一子频带进行低通滤波、下采样、去噪等操作后得到时域上的振幅包络(amplitude envelope),然后对时域上的振幅包络进行自相关函数分析,得到音频样本的节拍直方图。
S32:根据节拍直方图获取音频样本的节奏特征。
具体地,根据步骤S31得到的音频样本的节拍直方图,从该节拍直方图中获取前J个峰的相对峰值、周期和幅度比值,以及该节拍直方图的幅度值之和,作为该音频样本的节奏特征。
其中,J为正整数,J的取值具体可以根据实际应用的需要进行设置,此处不做限制。
在本实施例中,根据小波变换,计算音频样本的节拍直方图,并从节拍直方图中获取音频样本的节奏特征,由于节拍直方图能够有效的反映音乐信号随时间变化的节奏、节拍和拍速等特征,因此,通过节拍直方图能够实现对节奏特征的准确提取。
在一实施例中,如图5所示,在步骤S8中,根据获取的N个音色概率和N个节奏概率,确定目标音频数据的目标音乐风格具体包括如下步骤:
S81:根据获取的N个音色概率和N个节奏概率,计算目标音频数据属于每种音乐风格的概率,得到N个综合概率。
具体地,针对步骤S6得到的N个音色概率和步骤S7得到的N个节奏概率,对每种音乐风格的音色概率和节奏概率进行加权计算,得到N个综合概率。
使用公式(3)对每种音乐风格的音色概率X和节奏概率Y进行加权计算:
P=a*X+b*Y 公式(3)
其中,P为目标音频数据属于每种音乐风格的综合概率,a为音色概率的预设权重,b为节奏概率的预设权重。
例如,若有古典、爵士、嘻哈和流行共4种音乐风格,根据步骤S6得到4个音色概率和4个节奏概率如表一所示:
音乐风格 | 古典 | 爵士 | 嘻哈 | 流行 |
音色概率X | 81% | 70% | 58% | 66% |
节奏概率Y | 88% | 69% | 16% | 20% |
表一
使用公式(3)对每种音乐风格的音色概率和节奏概率进行加权计算,假设音色概率和节奏概率的预设权重分别为60和40%,则加权计算后得到的4个综合概率如表二所示:
音乐风格 | 古典 | 爵士 | 嘻哈 | 流行 |
综合概率P | 83.8% | 69.6% | 41.2% | 47.6% |
表二
S82:从N个综合概率中选取最大综合概率,并将该最大综合概率对应的音乐风格,作为目标音乐风格。
具体地,从步骤S81得到的N个综合概率中,选取最大综合概率对应的音乐风格作为目标音频数据属于的目标音乐风格。
继续以步骤S81中的例子进行说明,根据表二可知,4个综合概率中的最大值为83.8%,即该目标音频数据的目标音乐风格为古典风格。
在本实施例中,根据获取的N个音色概率和N个节奏概率,计算目标音频数据属于每种音乐风格的概率,得到N个综合概率,并从N个综合概率中选取最大综合概率,将该最大综合概率对应的音乐风格,作为目标音乐风格,根据音色概率和节奏概率得到的综合概率,能够从音色和节奏两个维度体现目标音频数据的音乐特征,从而提高对目标音频数据的音乐风格识别的准确率。
在一实施例中,该音乐风格识别方法在使用音色识别模型和节奏识别模型对待识别的目标音频数据进行音乐风格识别的基础上,还可以通过训练用于区分两种音乐风格的风格分类器,并使用该风格分类器进一步识别目标音频数据的音乐风格,详述如下:
如图6所示,在步骤S4之后,并且在步骤S5之前,该音乐风格识别方法还包括如下步骤:
S91:从N个种类的音乐风格中任意选择两种不同种类的音乐风格,得到M个音乐风格组合,其中,M=N*(N-1)/2。
具体地,对N个种类的音乐风格进行两两组合,得到M个音乐风格组合。
例如,若N=10,即有10中音乐风格,则两两组合后得到的音乐风格组合的数量M=10*(10-1)/2=54。
S92:针对每个音乐风格组合,使用该音乐风格组合包含的两种音乐风格的音频样本,对预设的初始支持向量机分类模型进行训练,得到该音乐风格组合的风格分类器。
初始支持向量机分类模型是一种二分类支持向量机(Support Vector Machine,SVM)模型,在机器学习领域,二分类支持向量机模型是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析等。在本实施例中,使用该初始支持向量机分类模型对音乐风格组合中的两种音乐风格进行分类识别,即将两种音乐风格的分类识别问题转化为求一个超平面使得两类音乐风格无错误分开且分类空隙最大。
具体地,针对步骤S91得到的M个音乐风格组合,在每个音乐风格组合中,使用该音乐风格组合包含的两种音乐风格下的音频样本,对初始支持向量机分类模型进行训练,得到初始支持向量机分类模型的最优参数,并将使用该最优参数的初始支持向量机分类模型作为该音乐风格组合的风格分类器,最终得到M个风格分类器。
如图7所示,在步骤S81之后,步骤S8还包括如下步骤:
S83:从N个综合概率中确定综合概率最大的两个综合概率对应的音乐风格,作为目标音乐风格组合。
具体地,对步骤S81得到的N个综合概率按照综合概率值从大到小的顺序排序,并选取前两个综合概率对应的音乐风格,作为目标音乐风格组合。
S84:将目标音频数据输入目标音乐风格组合对应的风格分类器中,进行二次分类,并将二次分类的结果作为目标音乐风格。
具体地,根据步骤S92得到的M个风格分类器,确定目标音乐风格组合对应的风格分类器,并将目标音频数据输入该风格分类器中,使用该风格分类器对该目标音乐风格组合进行二次分类,并将该风格分类器的二次分类的结果作为目标音乐风格。
例如,将风格分类器包含的两种音乐风格分别标记为-1和1,即将风格分类器中的分类决策函数定义为{-1,1},其中,-1和1对应的是两种音乐风格分类的边界值,将目标音频数据输入到该风格分类器中,该风格分类器使用训练好的超平面函数进行计算,得到的结果值若靠近-1,则该分类结果为-1对应的音乐风格,得到的结果值若靠近1,则该分类结果为1对应的音乐风格。
例如,继续以步骤S81中的例子进行说明,根据表二可知,4个综合概率中的最大值为83.8%,其次为69.6%,即目标音乐风格组合包含的两个音乐风格为古典风格和爵士风格。假设古典和爵士对应的风格分类器中,-1对应的音乐风格为爵士风格,1对应的音乐风格为古典风格,将目标音频数据输入该风格分类器后,超平面函数计算的结果为0.96,则该风格分类器二次分类的结果为古典风格。
需要说明的是,仅根据综合概率得到音乐风格的分类结果的准确性在70%左右,而在综合概率的基础上,进一步使用风格分类器进行二次分类,能够将有音乐风格识别的准确率提高约10%。
在本实施例中,从N个种类的音乐风格中任意选择两种不同种类的音乐风格,得到M个音乐风格组合,并针对每个音乐风格组合,使用该音乐风格组合包含的两种音乐风格下的音频样本,对预设的初始支持向量机分类模型进行训练,得到该音乐风格组合的风格分类器,使得得到的风格分类器能够对两种音乐风格进行二次分类,在根据N个音色概率和N个节奏概率,计算得到N个综合概率后,将N个综合概率中综合概率值最大的两个综合概率对应的音乐风格,作为目标音乐风格组合,并将目标音频数据输入该目标音乐风格组合对应的风格分类器中,进行二次分类,将二次分类的结果作为目标音乐风格,实现了在使用音色识别模型和节奏识别模型得到综合概率的基础上,进一步使用风格分类器进行二次分类,从而进一步提高音乐风格识别的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种音乐风格识别装置,该音乐风格识别装置与上述实施例中音乐风格识别方法一一对应。如图8所示,该音乐风格识别装置包括样本获取模块81、音色提取模块82、节奏提取模块83、模型训练模块84、目标获取模块85、音色模型识别模块86、节奏模型识别模块87、风格确定模块88和结果输出模块89。各功能模块详细说明如下:
样本获取模块81,用于获取音频样本数据集,其中,该音频样本数据集中包含N个种类的音乐风格,以及每种音乐风格的音频样本,N为正整数;
音色提取模块82,用于获取音频样本的音色特征;
节奏提取模块83,用于获取音频样本的节奏特征;
模型训练模块84,用于根据音频样本的音色特征和节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型,其中,音色识别模型用于计算待识别音频数据的音色特征属于每种音乐风格的概率,节奏识别模型用于计算待识别音频数据的节奏特征属于每种音乐风格的概率;
目标获取模块85,用于接收待识别的目标音频数据,并获取该目标音频数据的目标音色特征和目标节奏特征;
音色模型识别模块86,用根据音色识别模型对目标音色特征进行识别,确定目标音色特征属于每种音乐风格的概率,得到N个音色概率;
节奏模型识别模块87,用于根据节奏识别模型对目标节奏特征进行识别,确定目标节奏特征属于每种音乐风格的概率,得到N个节奏概率;
风格确定模块88,用于根据获取的N个音色概率和N个节奏概率,确定该目标音频数据的目标音乐风格;
结果输出模块89,用于将目标音乐风格作为目标音频数据的识别结果。
进一步地,音色提取模块82包括:
预加重子模块821,用于使用一阶高通滤波器对音频样本进行预加重处理;
归一化子模块822,用于对预加重处理后的音频样本进行归一化处理,得到标准样本;
分帧子模块823,用于对标准样本进行分帧处理,得到M个预设长度的分析帧,其中,M为正整数;
加窗变换子模块824,用于对M个分析帧进行加窗处理,并对加窗后的分析帧进行快速傅里叶变换,得到标准样本的音色特征。
进一步地,节奏提取模块83包括:
直方图计算子模块831,用于根据小波变换,计算音频样本的节拍直方图;
特征提取子模块832,用于根据节拍直方图获取音频样本的节奏特征。
进一步地,风格确定模块88包括:
综合概率计算子模块881,用于根据获取的N个目音色概率和N个节奏概率,计算目标音频数据属于每种音乐风格的概率,得到N个综合概率;
最大概率选择子模块882,用于从N个综合概率中选取最大综合概率,并将该最大综合概率对应的音乐风格,作为目标音乐风格。
进一步地,该音乐风格识别装置还包括:
组合模块891,用于从N个种类的音乐风格中任意选择两种不同种类的音乐风格,得到M个音乐风格组合,其中,M=N*(N-1)/2;
分类器训练模块892,用于针对每个音乐风格组合,使用该音乐风格组合包含的两种音乐风格的音频样本,对预设的初始支持向量机分类模型进行训练,得到该音乐风格组合的风格分类器;
风格确定模块88还包括:
目标组合子模块883,用于从N个综合概率中确定综合概率最大的两个综合概率对应的音乐风格,作为目标音乐风格组合;
二次分类子模块884,用于将目标音频数据输入目标音乐风格组合对应的风格分类器中,进行二次分类,并将二次分类的结果作为目标音乐风格。
关于音乐风格识别装置的具体限定可以参见上文中对于音乐风格识别方法的限定,在此不再赘述。上述音乐风格识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储音频样本数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音乐风格识别方法。
在一实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例音乐风格识别方法的步骤,例如图2所示的步骤S1至步骤S9。或者,处理器执行计算机程序时实现上述实施例中音乐风格识别装置的各模块/单元的功能,例如图8所示模块81至模块89的功能。为避免重复,此处不再赘述。
在一实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中音乐风格识别方法,或者,该计算机程序被处理器执行时实现上述装置实施例中音乐风格识别装置中各模块/单元的功能。为避免重复,此处不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音乐风格识别方法,其特征在于,所述音乐风格识别方法包括:
获取音频样本数据集,其中,所述音频样本数据集中包含N个种类的音乐风格,以及每种所述音乐风格的音频样本,N为正整数;
获取所述音频样本的音色特征;
获取所述音频样本的节奏特征根据所述音色特征和所述节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型,其中,所述音色识别模型用于计算待识别音频数据的音色特征属于每种所述音乐风格的概率,所述节奏识别模型用于计算所述待识别音频数据的节奏特征属于每种所述音乐风格的概率;
接收待识别的目标音频数据,并获取所述目标音频数据的目标音色特征和目标节奏特征;
根据所述音色识别模型对所述目标音色特征进行识别,确定所述目标音色特征属于每种所述音乐风格的概率,得到N个音色概率;
根据所述节奏识别模型对所述目标节奏特征进行识别,确定所述目标节奏特征属于每种所述音乐风格的概率,得到N个节奏概率;
根据获取的所述N个音色概率和所述N个节奏概率,确定所述目标音频数据的目标音乐风格;
将所述目标音乐风格作为所述目标音频数据的识别结果。
2.如权利要求1所述的音乐风格识别方法,其特征在于,所述获取所述音频样本的音色特征包括:
使用一阶高通滤波器对所述音频样本进行预加重处理;
对预加重处理后的所述音频样本进行归一化处理,得到标准样本;
对所述标准样本进行分帧处理,得到M个预设长度的分析帧,其中,M为正整数;
对M个所述分析帧进行加窗处理,并对加窗后的所述分析帧进行快速傅里叶变换,得到所述标准样本的音色特征。
3.如权利要求1所述的音乐风格识别方法,其特征在于,所述获取所述音频样本的节奏特征包括:
根据小波变换,计算所述音频样本的节拍直方图;
根据所述节拍直方图获取所述节奏特征。
4.如权利要求1至3任一项所述的音乐风格识别方法,其特征在于,所述根据获取的所述N个音色概率和所述N个节奏概率,确定所述目标音频数据的目标音乐风格包括:
根据获取的所述N个音色概率和所述N个节奏概率,计算所述目标音频数据属于每种所述音乐风格的概率,得到N个综合概率;
从N个所述综合概率中选取最大综合概率,并将所述最大综合概率对应的音乐风格,作为所述目标音乐风格。
5.如权利要求4所述的音乐风格识别方法,其特征在于,在所述根据所述音色特征和所述节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型的步骤之后,并且在所述接收待识别的目标音频数据,并获取所述目标音频数据的目标音色特征和目标节奏特征的步骤之前,所述音乐风格识别方法还包括:
从N个种类的所述音乐风格中任意选择两种不同种类的所述音乐风格,得到M个音乐风格组合,其中,M=N*(N-1)/2;
针对每个所述音乐风格组合,使用所述音乐风格组合包含的两种音乐风格的音频样本,对预设的初始支持向量机分类模型进行训练,得到所述音乐风格组合的风格分类器;
所述根据获取的所述N个音色概率和所述N个节奏概率,计算所述目标音频数据属于每种所述音乐风格的概率,得到N个综合概率的步骤之后,所述音乐风格识别方法还包括:
从N个所述综合概率中确定综合概率最大的两个综合概率对应的音乐风格,作为目标音乐风格组合;
将所述目标音频数据输入所述目标音乐风格组合对应的风格分类器中,进行二次分类,并将二次分类的结果作为所述目标音乐风格。
6.一种音乐风格识别装置,其特征在于,所述音乐风格识别装置包括:
样本获取模块,用于获取音频样本数据集,其中,所述音频样本数据集中包含N个种类的音乐风格,以及每种所述音乐风格的音频样本,N为正整数;
音色提取模块,用于获取所述音频样本的音色特征;
节奏提取模块,用于获取所述音频样本的节奏特征;
模型训练模块,用于根据所述音色特征和所述节奏特征,对预设的初始隐马尔可夫模型进行训练,得到音色识别模型和节奏识别模型,其中,所述音色识别模型用于计算待识别音频数据的音色特征属于每种所述音乐风格的概率,所述节奏识别模型用于计算所述待识别音频数据的节奏特征属于每种所述音乐风格的概率;
目标获取模块,用于接收待识别的目标音频数据,并获取所述目标音频数据的目标音色特征和目标节奏特征;
音色模型识别模块,用于根据所述音色识别模型对所述目标音色特征进行识别,确定所述目标音色特征属于每种所述音乐风格的概率,得到N个音色概率;
节奏模型识别模块,用于根据所述节奏识别模型对所述目标节奏特征进行识别,确定所述目标节奏特征属于每种所述音乐风格的概率,得到N个节奏概率;
风格确定模块,用于根据获取的所述N个音色概率和所述N个节奏概率,确定所述目标音频数据的目标音乐风格;
结果输出模块,用于将所述目标音乐风格作为所述目标音频数据的识别结果。
7.如权利要求6所述的音乐风格识别装置,其特征在于,所述音色提取模块包括:
预加重子模块,用于使用一阶高通滤波器对所述音频样本进行预加重处理;
归一化子模块,用于对预加重处理后的所述音频样本进行归一化处理,得到标准样本;
分帧子模块,用于对所述标准样本进行分帧处理,得到M个预设长度的分析帧,其中,M为正整数;
加窗变换子模块,用于对M个所述分析帧进行加窗处理,并对加窗后的所述分析帧进行快速傅里叶变换,得到所述标准样本的音色特征。
8.如权利要求6所述的音乐风格识别装置,其特征在于,所述节奏提取模块包括:
直方图计算子模块,用于根据小波变换,计算所述音频样本的节拍直方图;
特征提取子模块,用于根据所述节拍直方图获取所述节奏特征。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述音乐风格识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述音乐风格识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810871667.7A CN109308912B (zh) | 2018-08-02 | 2018-08-02 | 音乐风格识别方法、装置、计算机设备及存储介质 |
PCT/CN2018/106396 WO2020024396A1 (zh) | 2018-08-02 | 2018-09-19 | 音乐风格识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810871667.7A CN109308912B (zh) | 2018-08-02 | 2018-08-02 | 音乐风格识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109308912A true CN109308912A (zh) | 2019-02-05 |
CN109308912B CN109308912B (zh) | 2024-02-20 |
Family
ID=65226058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810871667.7A Active CN109308912B (zh) | 2018-08-02 | 2018-08-02 | 音乐风格识别方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109308912B (zh) |
WO (1) | WO2020024396A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110277106A (zh) * | 2019-06-21 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110808069A (zh) * | 2019-11-11 | 2020-02-18 | 上海瑞美锦鑫健康管理有限公司 | 一种演唱歌曲的评价系统及方法 |
CN110853606A (zh) * | 2019-11-26 | 2020-02-28 | Oppo广东移动通信有限公司 | 一种音效配置方法、装置及计算机可读存储介质 |
WO2020224107A1 (zh) * | 2019-05-05 | 2020-11-12 | 平安科技(深圳)有限公司 | 音乐风格分类方法、装置、计算机设备及存储介质 |
CN112270929A (zh) * | 2020-11-18 | 2021-01-26 | 上海依图网络科技有限公司 | 一种歌曲识别的方法及装置 |
CN113220934A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 歌手识别模型的训练及歌手识别方法、装置和相关设备 |
CN113223487A (zh) * | 2020-02-05 | 2021-08-06 | 字节跳动有限公司 | 一种信息识别方法及装置、电子设备和存储介质 |
CN113704405A (zh) * | 2021-08-30 | 2021-11-26 | 平安银行股份有限公司 | 基于录音内容的质检评分方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593603A (zh) * | 2021-07-27 | 2021-11-02 | 浙江大华技术股份有限公司 | 音频类别的确定方法、装置、存储介质及电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN107316641A (zh) * | 2017-06-30 | 2017-11-03 | 联想(北京)有限公司 | 一种语音控制方法及电子设备 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN108202334A (zh) * | 2018-03-22 | 2018-06-26 | 东华大学 | 一种能够识别音乐节拍和风格的舞蹈机器人 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7412377B2 (en) * | 2003-12-19 | 2008-08-12 | International Business Machines Corporation | Voice model for speech processing based on ordered average ranks of spectral features |
CN105788592A (zh) * | 2016-04-28 | 2016-07-20 | 乐视控股(北京)有限公司 | 一种音频分类方法及装置 |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN108197282B (zh) * | 2018-01-10 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 文件数据的分类方法、装置及终端、服务器、存储介质 |
-
2018
- 2018-08-02 CN CN201810871667.7A patent/CN109308912B/zh active Active
- 2018-09-19 WO PCT/CN2018/106396 patent/WO2020024396A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103186527A (zh) * | 2011-12-27 | 2013-07-03 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103440873A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种基于相似性的音乐推荐方法 |
CN107331384A (zh) * | 2017-06-12 | 2017-11-07 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN107316641A (zh) * | 2017-06-30 | 2017-11-03 | 联想(北京)有限公司 | 一种语音控制方法及电子设备 |
CN108202334A (zh) * | 2018-03-22 | 2018-06-26 | 东华大学 | 一种能够识别音乐节拍和风格的舞蹈机器人 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020224107A1 (zh) * | 2019-05-05 | 2020-11-12 | 平安科技(深圳)有限公司 | 音乐风格分类方法、装置、计算机设备及存储介质 |
CN110277106A (zh) * | 2019-06-21 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110277106B (zh) * | 2019-06-21 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110808069A (zh) * | 2019-11-11 | 2020-02-18 | 上海瑞美锦鑫健康管理有限公司 | 一种演唱歌曲的评价系统及方法 |
CN110853606A (zh) * | 2019-11-26 | 2020-02-28 | Oppo广东移动通信有限公司 | 一种音效配置方法、装置及计算机可读存储介质 |
CN113223487A (zh) * | 2020-02-05 | 2021-08-06 | 字节跳动有限公司 | 一种信息识别方法及装置、电子设备和存储介质 |
CN113223487B (zh) * | 2020-02-05 | 2023-10-17 | 字节跳动有限公司 | 一种信息识别方法及装置、电子设备和存储介质 |
CN112270929A (zh) * | 2020-11-18 | 2021-01-26 | 上海依图网络科技有限公司 | 一种歌曲识别的方法及装置 |
CN112270929B (zh) * | 2020-11-18 | 2024-03-22 | 上海依图网络科技有限公司 | 一种歌曲识别的方法及装置 |
CN113220934A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 歌手识别模型的训练及歌手识别方法、装置和相关设备 |
CN113220934B (zh) * | 2021-06-01 | 2023-06-23 | 平安科技(深圳)有限公司 | 歌手识别模型的训练及歌手识别方法、装置和相关设备 |
CN113704405A (zh) * | 2021-08-30 | 2021-11-26 | 平安银行股份有限公司 | 基于录音内容的质检评分方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109308912B (zh) | 2024-02-20 |
WO2020024396A1 (zh) | 2020-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308912A (zh) | 音乐风格识别方法、装置、计算机设备及存储介质 | |
Lidy et al. | CQT-based Convolutional Neural Networks for Audio Scene Classification. | |
CN103971689B (zh) | 一种音频识别方法及装置 | |
Han et al. | Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation | |
Samizade et al. | Adversarial example detection by classification for deep speech recognition | |
You et al. | Comparative study of singing voice detection based on deep neural networks and ensemble learning | |
CN109767776B (zh) | 一种基于密集神经网络的欺骗语音检测方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN108091326A (zh) | 一种基于线性回归的声纹识别方法及系统 | |
CN110728991B (zh) | 一种改进的录音设备识别算法 | |
CN105096955A (zh) | 一种基于模型生长聚类的说话人快速识别方法及系统 | |
Lian et al. | Unsupervised representation learning with future observation prediction for speech emotion recognition | |
CN113813609B (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
CN108922543A (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN110399522A (zh) | 一种基于lstm与分层匹配的音乐哼唱检索方法及装置 | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
Zhang et al. | Mdcnn-sid: Multi-scale dilated convolution network for singer identification | |
CN112509601A (zh) | 一种音符起始点检测方法及系统 | |
CN116778946A (zh) | 人声伴奏分离方法、网络训练方法、设备及存储介质 | |
Jain et al. | Study on the effect of emotional speech on language identification | |
CN114970695B (zh) | 一种基于非参贝叶斯模型的说话人分割聚类方法 | |
Wilkinghoff et al. | Two-dimensional embeddings for low-resource keyword spotting based on dynamic time warping | |
CN112735442B (zh) | 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法 | |
CN114420133A (zh) | 欺诈语音检测方法、装置、计算机设备以及可读存储介质 | |
CN114817622A (zh) | 歌曲片段搜索方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |