CN113450828A - 音乐流派的识别方法、装置、设备及存储介质 - Google Patents
音乐流派的识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113450828A CN113450828A CN202110710835.6A CN202110710835A CN113450828A CN 113450828 A CN113450828 A CN 113450828A CN 202110710835 A CN202110710835 A CN 202110710835A CN 113450828 A CN113450828 A CN 113450828A
- Authority
- CN
- China
- Prior art keywords
- genre
- vector
- feature
- audio file
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 88
- 238000001228 spectrum Methods 0.000 claims abstract description 54
- 239000011159 matrix material Substances 0.000 claims description 75
- 230000005236 sound signal Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/036—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/041—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种音乐流派的识别方法、装置、设备及存储介质。所述音乐流派的识别方法包括:接收待识别的音频文件,并获取音频文件的梅尔频谱;基于梅尔频谱,获取音频文件的时域向量和频域向量;通过训练好的流派特征提取模型对时域向量和频域向量进行特征提取,得到时域特征向量和频域特征向量;通过预置的特征编码器对时域特征向量和频域特征向量进行特征编码,得到音频文件对应的目标特征向量;将目标特征向量输入预置的流派分类器进行流派分类,得到音频文件对应的流派信息。此外,本发明还涉及区块链技术,流派信息可存储于区块链节点中。
Description
技术领域
本发明涉及语音分类领域,尤其涉及一种音乐流派的识别方法、装置、设备及存储介质。
背景技术
随着互联网的发展,线上音乐成为了人们生活娱乐中的重要成分,正因为此,催生出了海量的互联网音乐和线上音乐平台,供人们获得喜爱的音乐。在用户检索音乐时,可以有多种个性化的标签检索方式,例如通过音乐流派标签或者音乐语言标签来检索音乐,使得音乐的分类检索效率更高。
现有的音乐流派识别技术发展比较落后,大多是使用机器学习的方式进行流派识别,并且识别精度较低,例如使用机器学习进行特征工程,并使用传统分类器(支持向量机SVM等)进行分类,在音乐流派识别上存在准确率低的技术问题。
发明内容
本发明提供了一种音乐流派的识别方法、装置、设备及存储介质,用于提高音乐流派识别的准确率。
本发明第一方面提供了一种音乐流派的识别方法,包括:
接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
可选的,在本发明第一方面的第一种实现方式中,在所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱之前,所述音乐流派的识别方法还包括:
随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;
通过所述初始流派特征提取模型的激活层、卷积层和池化层,对所述音频样本数据进行流派特征提取,得到初始特征向量;
根据所述初始特征向量,计算所述初始流派特征提取模型的交叉熵函数,并判断所述交叉熵函数是否满足预置损失条件;
若所述交叉熵函数满足预置损失条件,则生成训练好的流派特征提取模型。
可选的,在本发明第一方面的第二种实现方式中,所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱,包括:
接收待识别的音频文件,并提取所述音频文件中的音频信号;
按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;
分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;
通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。
可选的,在本发明第一方面的第三种实现方式中,所述基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量,包括:
根据所述梅尔频谱中的梅尔频率域,提取所述音频文件的时域信息和频域信息;
基于预置的卷积核,对所述时域信息和所述频域信息进行卷积计算,得到所述音频文件的时域向量和频域向量。
可选的,在本发明第一方面的第四种实现方式中,所述通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量,包括:
将所述时域向量和所述频域向量依次输入训练好的流派特征提取模型的激活层进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵;
通过所述流派特征提取模型的卷积层,对所述第一时域特征矩阵和所述第一频域特征矩阵进行特征变换处理,得到第二时域特征矩阵和第二频域特征矩阵;
通过所述流派特征提取模型的池化层,对所述第二时域特征矩阵和所述第二频域特征矩阵进行降采样,得到时域特征向量和频域特征向量。
可选的,在本发明第一方面的第五种实现方式中,所述通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量,包括:
将所述时域特征向量和所述频域特征向量进行融合,得到目标特征矩阵;
通过预置的特征编码器的多头注意力层,对所述目标特征矩阵进行特征编码,得到所述目标特征矩阵对应的注意力特征矩阵;
通过所述特征编码器的前向神经网络层,对所述注意力特征矩阵进行上下文关联特征编码,得到所述音频文件对应的目标特征向量。
可选的,在本发明第一方面的第六种实现方式中,所述将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息,包括:
通过预置的归一化函数,对所述目标特征向量进行流派归一化处理,得到所述音频文件对应的流派标签;
通过预置的流派分类器的全连接层,对所述音频文件对应的流派标签进行流派分类,得到所述音频文件对应的流派信息。
本发明第二方面提供了一种音乐流派的识别装置,包括:
接收模块,用于接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
获取模块,用于基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
提取模块,用于通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
编码模块,用于通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
分类模块,用于将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
可选的,在本发明第二方面的第一种实现方式中,所述音乐流派的识别装置还包括:
模型初始化模块,用于随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;
特征提取模块,用于通过所述初始流派特征提取模型的激活层、卷积层和池化层,对所述音频样本数据进行流派特征提取,得到初始特征向量;
损失计算模块,用于根据所述初始特征向量,计算所述初始流派特征提取模型的交叉熵函数,并判断所述交叉熵函数是否满足预置损失条件;
模型生成模块,用于若所述交叉熵函数满足预置损失条件,则生成训练好的流派特征提取模型。
可选的,在本发明第二方面的第二种实现方式中,所述接收模块具体用于:
接收待识别的音频文件,并提取所述音频文件中的音频信号;
按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;
分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;
通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。
可选的,在本发明第二方面的第三种实现方式中,所述获取模块具体用于:
根据所述梅尔频谱中的梅尔频率域,提取所述音频文件的时域信息和频域信息;
基于预置的卷积核,对所述时域信息和所述频域信息进行卷积计算,得到所述音频文件的时域向量和频域向量。
可选的,在本发明第二方面的第四种实现方式中,所述提取模块具体用于:
将所述时域向量和所述频域向量依次输入训练好的流派特征提取模型的激活层进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵;
通过所述流派特征提取模型的卷积层,对所述第一时域特征矩阵和所述第一频域特征矩阵进行特征变换处理,得到第二时域特征矩阵和第二频域特征矩阵;
通过所述流派特征提取模型的池化层,对所述第二时域特征矩阵和所述第二频域特征矩阵进行降采样,得到时域特征向量和频域特征向量。
可选的,在本发明第二方面的第五种实现方式中,所述编码模块具体用于:
将所述时域特征向量和所述频域特征向量进行融合,得到目标特征矩阵;
通过预置的特征编码器的多头注意力层,对所述目标特征矩阵进行特征编码,得到所述目标特征矩阵对应的注意力特征矩阵;
通过所述特征编码器的前向神经网络层,对所述注意力特征矩阵进行上下文关联特征编码,得到所述音频文件对应的目标特征向量。
可选的,在本发明第二方面的第六种实现方式中,所述分类模块具体用于:
通过预置的归一化函数,对所述目标特征向量进行流派归一化处理,得到所述音频文件对应的流派标签;
通过预置的流派分类器的全连接层,对所述音频文件对应的流派标签进行流派分类,得到所述音频文件对应的流派信息。
本发明第三方面提供了一种音乐流派的识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述音乐流派的识别设备执行上述的音乐流派的识别方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的音乐流派的识别方法。
本发明提供的技术方案中,接收待识别的音频文件,并获取所述音频文件的梅尔频谱;基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。本发明实施例中,服务器通过获取待识别的音频文件的梅尔频谱,获取乐谱文件对应的时域向量和频域向量,再通过训练好的流派特征提取模型,对时域向量和频域向量进行特征提取,再通过特征编码器进行特征编码,最后通过流派分类器进行流派分类,从而得到音频文件对应的流派信息。本发明能够提高音乐流派的分类效率。
附图说明
图1为本发明实施例中音乐流派的识别方法的第一个实施例示意图;
图2为本发明实施例中音乐流派的识别方法的第二个实施例示意图;
图3为本发明实施例中音乐流派的识别装置的第一个实施例示意图;
图4为本发明实施例中音乐流派的识别装置的第二个实施例示意图;
图5为本发明实施例中音乐流派的识别设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种音乐流派的识别方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中音乐流派的识别方法的第一个实施例包括:
101、接收待识别的音频文件,并获取音频文件的梅尔频谱;
可以理解的是,本发明的执行主体可以为音乐流派的识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,待识别的音频文件是指待确定音乐流派的音乐文件,音乐流派又称音乐类型,是对于音乐作品的归属的分类方式,不同音乐流派的区别通常体现在音乐的节奏、音高和能量上,常见的音乐流派有:电子音乐、摇滚音乐、说唱音乐、流行音乐、古典音乐、民谣等等,服务器通过对待识别音频文件的智能处理,能够识别音频文件所属的音乐流派,从而更好地实现音频文件的分类处理。
本实施例中,音频文件的梅尔频谱是指音频文件的梅尔频谱图,服务器可以在预置的梅尔频谱库中获取音频文件对应的梅尔频谱,也可以通过对音频文件中的声音信号进行解析和转换处理后,得到音频文件对应的梅尔频谱,此处不做具体限定。
本实施例中,服务器根据音频文件的标识符,在预置的声谱库中获取音频文件对应的声谱图,其中,声谱图中的横轴代表时间、纵轴代表频率、颜色代表能力,服务器再根据预置的梅尔标度滤波器组,将音频文件对应的声谱图变换为梅尔频谱,从而得到音频文件对应的梅尔频谱。
102、基于梅尔频谱,获取音频文件的时域向量和频域向量;
本实施例中,服务器通过解析梅尔频普中的梅尔频率域,提取梅尔频谱中的频域信息和时域信息,服务器再对频域信息和时域信息进行向量化处理,得到音频文件对应的时域向量和频域向量,用于表示音频文件的频率和时间之间的关系。
本实施例中,由于梅尔频谱是以图像的形式存在,因此,对梅尔频谱的处理是基于图像处理技术,例如,服务器通过神经网络的卷积核,对梅尔频谱图进行卷积操作,即能提取梅尔频谱图中的频域向量和时域向量。
103、通过训练好的流派特征提取模型对时域向量和频域向量进行特征提取,得到时域特征向量和频域特征向量;
本实施例中,训练好的流派特征提取模型是基于样本音频数据训练完成的流派特征提取模型,具有卷积神经网络结构,能够较好地对图像进行特征提取,流派特征提取模型具有预先设计好的卷积核,能够精准地提取时域向量和频域向量的特征信息,得到时域特征向量和频域特征向量,为了使时域特征向量和频域特征向量的尺寸相同,采用多重循环和多种尺寸的卷积核对时域特征向量和频域特征向量进行卷积操作,从而得到尺寸相同的时域特征向量和频域特征向量。
104、通过预置的特征编码器对时域特征向量和频域特征向量进行特征编码,得到音频文件对应的目标特征向量;
本实施例中,预置的特征编码器优选具有自注意力(attention)机制的transformer模型,服务器将时域特征向量和频域特征向量输入特征编码器,通过特征编码器中的多头注意力层(multi-head attention)和前向神经网络层,对时域特征向量和频域特征向量进行特征编码,从而得到音频文件对应的目标特征向量。
105、将目标特征向量输入预置的流派分类器进行流派分类,得到音频文件对应的流派信息。
本实施例中,预置的流派分类器中包括全连接层和归一化激活softmax函数,用于将多分类的结果以概率的形式展示出来,服务器通过预置的softmax函数,对目标特征向量解码后进行流派分类处理,得到音频文件对应所以流派的概率,并将概率最高的流派作为音频文件对应的流派信息。此外,本发明还涉及区块链技术,流派信息可存储于区块链节点中。
本发明实施例中,服务器通过获取待识别的音频文件的梅尔频谱,获取乐谱文件对应的时域向量和频域向量,再通过训练好的流派特征提取模型,对时域向量和频域向量进行特征提取,再通过特征编码器进行特征编码,最后通过流派分类器进行流派分类,从而得到音频文件对应的流派信息。本发明能够提高音乐流派的分类效率。
请参阅图2,本发明实施例中音乐流派的识别方法的第二个实施例包括:
201、接收待识别的音频文件,并提取音频文件中的音频信号;
进一步的,在步骤201之前,服务器随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;服务器通过初始流派特征提取模型的激活层、卷积层和池化层,对音频样本数据进行流派特征提取,得到初始特征向量;服务器根据初始特征向量,计算初始流派特征提取模型的交叉熵函数,并判断交叉熵函数是否满足预置损失条件;若交叉熵函数满足预置损失条件,则服务器生成训练好的流派特征提取模型。
本实施例中,服务器获取预置的初始化内核,对初始流派特征提取模型的激活层、卷积层和池化层进行随机初始化,并将带标注的音频样本数据输入初始化后的初始流派特征提取模型,以对流派特征提取模型进行流派特征训练,从而得到训练好的流派特征提取模型,用于音频文件的流派分类。
本实施例中,采用交叉熵函数作为流派特征提取模型的收敛函数,服务器通过初始特征向量和音频样本数据的标注信息进行比对,按照预置的交叉熵函数计算初始特征向量的是否符合预置的收敛条件,若初始特征向量符合预置的收敛条件,也就是交叉熵函数满足预置损失条件,那么,则说明模型已经能够获得较精准的结果,能够用于流派特征提取,若初始特征向量不符合预置的收敛条件,也就是交叉熵函数不满足预置损失条件,则服务器对激活层、卷积层和池化层的参数进行微调,并跳转到步骤“通过流派特征提取模型的激活层、卷积层和池化层,对音频样本数据进行流派特征提取,得到初始特征向量”,重复进行流派特征提取,直至交叉熵函数满足预置损失条件,最后,服务器生成训练好的流派特征提取模型。
202、按照预置长度的时间窗,对音频信号进行分帧处理,得到多帧音频信号片段;
本实施例中,由于音频信号由多个单频声波组成,属于一维的时域信号,难以分析频率的变化规律,因此,服务器按照预置帧数长度的时间窗,对音频信号进行滑动分帧处理,将音频信号截断,得到多帧音频信号片段,用于分析音频信号的频率变化规律,以对音频文件进行流派特征分类。
本实施例中,由于服务器直接对音频信号加矩形时间窗截断会产生频率泄露问题,因此,为了改善频率泄露的情况,服务器按照非矩形时间窗对音频信号进行分帧处理,优选的非矩形时间窗为汉明时间窗(hamming),因为汉明窗的幅频特性是旁瓣衰减较大,主瓣峰值与第一个旁瓣峰值衰减可达40db,能够消除音频信号中的高频干扰和漏能问题。
203、分别对每帧音频信号片段进行短时傅里叶变换,得到音频文件对应的频域信号;
本实施例中,音频信号由多个单频声波组成,在预置时段内对音频信号进行采样时,仅能捕获到能量变换的幅度,因此,通过短时傅里叶变换,将音频信号分解为单个频率和频率幅度,也就是将音频信号从时域转换到频域,得到音频文件对应的频域信号,用于音频文件的流派分析。
本实施例中,除了短时傅里叶变换算法,服务器还可以采用快速傅里叶变换、维格纳(wigner)分布算法、小波变换(wavelet transform,WT)等对每帧音频信号片段进行频域转换,从而得到音频文件对应的频域信号。
204、通过预置的梅尔标度滤波器组,将频域信号映射到梅尔频域,得到音频文件的梅尔频谱;
本实施例中,由于人耳对声音的敏感区域和敏感点具有自己的特性,人耳对低频声音的感知较敏感,对高频声音的感知较迟钝,因此,梅尔标度滤波器组正是利用了这一原理,通过梅尔标度滤波器组中的线性映射函数,将音频文件中的频域信号映射到梅尔频域,从而得到音频文件的梅尔频谱。
205、基于梅尔频谱,获取音频文件的时域向量和频域向量;
具体的,服务器根据梅尔频谱中的梅尔频率域,提取音频文件的时域信息和频域信息;服务器基于预置的卷积核,对时域信息和频域信息进行卷积计算,得到音频文件的时域向量和频域向量。
本实施例中,服务器通过预置的梅尔频率倒谱系数,提取梅尔频率域中的时域信息和频域信息,再获取预置的卷积核,对时域信息和频域信息进行卷积计算,能够将二维的数据展平,从而转化为一维的数据,得到音频文件对应的时域向量和频域向量,以供服务器进行流派特征提取。
206、通过训练好的流派特征提取模型对时域向量和频域向量进行特征提取,得到时域特征向量和频域特征向量;
具体的,服务器将时域向量和频域向量依次输入训练好的流派特征提取模型的激活层进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵;服务器通过流派特征提取模型的卷积层,对第一时域特征矩阵和第一频域特征矩阵进行特征变换处理,得到第二时域特征矩阵和第二频域特征矩阵;服务器通过流派特征提取模型的池化层,对第二时域特征矩阵和第二频域特征矩阵进行降采样,得到时域特征向量和频域特征向量。
本实施例中,流派特征提取模型包括激活层、卷积层和池化层,服务器通过训练好的流派特征提取模型中的激活层、卷积层和池化层,分别对时域向量和频域向量进行特征提取,从而得到时域特征向量和频域特征向量,其中,激活层为了增加非线性因子,分别对时域向量和频域向量进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵,服务器再通过卷积层,分别对第一时域特征矩阵和第一频域特征矩阵进行特征变换,增加矩阵与流派分类任务相关的特征,得到第二时域特征矩阵和第二频域特征矩阵,最后,服务器通过最大化的池化层,对第二时域特征矩阵和第二频域特征矩阵进行降采样,得到用于流派特征提取的时域特征向量和频域特征向量。
207、通过预置的特征编码器对时域特征向量和频域特征向量进行特征编码,得到音频文件对应的目标特征向量;
具体的,服务器将时域特征向量和频域特征向量进行融合,得到目标特征矩阵;服务器通过预置的特征编码器的多头注意力层,对目标特征矩阵进行特征编码,得到目标特征矩阵对应的注意力特征矩阵;服务器通过特征编码器的前向神经网络层,对注意力特征矩阵进行上下文关联特征编码,得到音频文件对应的目标特征向量。
本实施例中,多头注意力层中的每个注意力头都相应地缩小了大小,在计算量上并没有比单头注意力层显著增加,服务器时域特征向量和频域特征向量融合,并将融合后的目标特征矩阵输入到特征编码器的多头注意力层和前向神经网络层,从而得到音频文件对应的目标特征矩阵。
本实施例中,多头注意力层中的多个注意力头类似于卷积神经网络中的多个不同特性的卷积核,用于增强模型对于图像在不同子空间中体现出的不同特性,从而避免了平均注意力对于不同特性的抑制,使得特征编码器在音频处理方面取得了较好的效果。
208、将目标特征向量输入预置的流派分类器进行流派分类,得到音频文件对应的流派信息。
具体的,服务器通过预置的归一化函数,对目标特征向量进行流派归一化处理,得到音频文件对应的流派标签;服务器通过预置的流派分类器的全连接层,对音频文件对应的流派标签进行流派分类,得到音频文件对应的流派信息。
本实施例中,预置的流派分类器中包括全连接层和归一化softmax函数,服务器通过归一化softmax函数,对目标特征向量进行流派归一化处理,从而将多分类的结果以概率的形式展示出来,服务器通过全连接层,对目标特征向量解码后进行流派分类处理,得到音频文件对应所以流派的概率,并将概率最高的流派作为音频文件对应的流派信息。
本发明实施例中,服务器提取待识别的音频文件中的音频信号,通过预置长度的时间窗,对音频信号进行分帧,得到多帧音频信号片段,为了将一维的音频信号片段转化为频率维度的信号,服务器对每帧音频信号片段进行短时傅里叶变换,最后,通过预置的梅尔标度滤波器组,将频域信号映射到梅尔频域,从而得到音频文件的梅尔频谱。本发明能够快速处理音频信号的维度变换,从而提高音乐流派识别的效率。
上面对本发明实施例中音乐流派的识别方法进行了描述,下面对本发明实施例中音乐流派的识别装置进行描述,请参阅图3,本发明实施例中音乐流派的识别装置第一个实施例包括:
接收模块301,用于接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
获取模块302,用于基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
提取模块303,用于通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
编码模块304,用于通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
分类模块305,用于将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
本发明实施例中,服务器通过获取待识别的音频文件的梅尔频谱,获取乐谱文件对应的时域向量和频域向量,再通过训练好的流派特征提取模型,对时域向量和频域向量进行特征提取,再通过特征编码器进行特征编码,最后通过流派分类器进行流派分类,从而得到音频文件对应的流派信息。本发明能够提高音乐流派的分类效率。
请参阅图4,本发明实施例中音乐流派的识别装置的第二个实施例包括:
接收模块301,用于接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
获取模块302,用于基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
提取模块303,用于通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
编码模块304,用于通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
分类模块305,用于将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
可选的,所述音乐流派的识别装置还包括:
模型初始化模块306,用于随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;
特征提取模块307,用于通过所述初始流派特征提取模型的激活层、卷积层和池化层,对所述音频样本数据进行流派特征提取,得到初始特征向量;
损失计算模块308,用于根据所述初始特征向量,计算所述初始流派特征提取模型的交叉熵函数,并判断所述交叉熵函数是否满足预置损失条件;
模型生成模块309,用于若所述交叉熵函数满足预置损失条件,则生成训练好的流派特征提取模型。
可选的,所述接收模块301具体用于:
接收待识别的音频文件,并提取所述音频文件中的音频信号;
按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;
分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;
通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。
可选的,所述获取模块302具体用于:
根据所述梅尔频谱中的梅尔频率域,提取所述音频文件的时域信息和频域信息;
基于预置的卷积核,对所述时域信息和所述频域信息进行卷积计算,得到所述音频文件的时域向量和频域向量。
可选的,所述提取模块303具体用于:
将所述时域向量和所述频域向量依次输入训练好的流派特征提取模型的激活层进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵;
通过所述流派特征提取模型的卷积层,对所述第一时域特征矩阵和所述第一频域特征矩阵进行特征变换处理,得到第二时域特征矩阵和第二频域特征矩阵;
通过所述流派特征提取模型的池化层,对所述第二时域特征矩阵和所述第二频域特征矩阵进行降采样,得到时域特征向量和频域特征向量。
可选的,所述编码模块304具体用于:
将所述时域特征向量和所述频域特征向量进行融合,得到目标特征矩阵;
通过预置的特征编码器的多头注意力层,对所述目标特征矩阵进行特征编码,得到所述目标特征矩阵对应的注意力特征矩阵;
通过所述特征编码器的前向神经网络层,对所述注意力特征矩阵进行上下文关联特征编码,得到所述音频文件对应的目标特征向量。
可选的,所述分类模块305具体用于:
通过预置的归一化函数,对所述目标特征向量进行流派归一化处理,得到所述音频文件对应的流派标签;
通过预置的流派分类器的全连接层,对所述音频文件对应的流派标签进行流派分类,得到所述音频文件对应的流派信息。
本发明实施例中,服务器提取待识别的音频文件中的音频信号,通过预置长度的时间窗,对音频信号进行分帧,得到多帧音频信号片段,为了将一维的音频信号片段转化为频率维度的信号,服务器对每帧音频信号片段进行短时傅里叶变换,最后,通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,从而得到所述音频文件的梅尔频谱。本发明能够快速处理音频信号的维度变换,从而提高音乐流派识别的效率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的音乐流派的识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中音乐流派的识别设备进行详细描述。
图5是本发明实施例提供的一种音乐流派的识别设备的结构示意图,该音乐流派的识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对音乐流派的识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在音乐流派的识别设备500上执行存储介质530中的一系列指令操作。
音乐流派的识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的音乐流派的识别设备结构并不构成对音乐流派的识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种音乐流派的识别设备,所述音乐流派的识别设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述音乐流派的识别方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述音乐流派的识别方法的步骤。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种音乐流派的识别方法,其特征在于,所述音乐流派的识别方法包括:
接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
2.根据权利要求1所述的音乐流派的识别方法,其特征在于,在所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱之前,所述音乐流派的识别方法还包括:
随机初始化初始流派特征提取模型的激活层、卷积层和池化层,并获取带标注的音频样本数据;
通过所述初始流派特征提取模型的激活层、卷积层和池化层,对所述音频样本数据进行流派特征提取,得到初始特征向量;
根据所述初始特征向量,计算所述初始流派特征提取模型的交叉熵函数,并判断所述交叉熵函数是否满足预置损失条件;
若所述交叉熵函数满足预置损失条件,则生成训练好的流派特征提取模型。
3.根据权利要求1所述的音乐流派的识别方法,其特征在于,所述接收待识别的音频文件,并获取所述音频文件的梅尔频谱,包括:
接收待识别的音频文件,并提取所述音频文件中的音频信号;
按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;
分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;
通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。
4.根据权利要求1所述的音乐流派的识别方法,其特征在于,所述基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量,包括:
根据所述梅尔频谱中的梅尔频率域,提取所述音频文件的时域信息和频域信息;
基于预置的卷积核,对所述时域信息和所述频域信息进行卷积计算,得到所述音频文件的时域向量和频域向量。
5.根据权利要求1所述的音乐流派的识别方法,其特征在于,所述通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量,包括:
将所述时域向量和所述频域向量依次输入训练好的流派特征提取模型的激活层进行非线性激活,得到第一时域特征矩阵和第一频域特征矩阵;
通过所述流派特征提取模型的卷积层,对所述第一时域特征矩阵和所述第一频域特征矩阵进行特征变换处理,得到第二时域特征矩阵和第二频域特征矩阵;
通过所述流派特征提取模型的池化层,对所述第二时域特征矩阵和所述第二频域特征矩阵进行降采样,得到时域特征向量和频域特征向量。
6.根据权利要求1所述的音乐流派的识别方法,其特征在于,所述通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量,包括:
将所述时域特征向量和所述频域特征向量进行融合,得到目标特征矩阵;
通过预置的特征编码器的多头注意力层,对所述目标特征矩阵进行特征编码,得到所述目标特征矩阵对应的注意力特征矩阵;
通过所述特征编码器的前向神经网络层,对所述注意力特征矩阵进行上下文关联特征编码,得到所述音频文件对应的目标特征向量。
7.根据权利要求1-6中任一项所述的音乐流派的识别方法,其特征在于,所述将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息,包括:
通过预置的归一化函数,对所述目标特征向量进行流派归一化处理,得到所述音频文件对应的流派标签;
通过预置的流派分类器的全连接层,对所述音频文件对应的流派标签进行流派分类,得到所述音频文件对应的流派信息。
8.一种音乐流派的识别装置,其特征在于,所述音乐流派的识别装置包括:
接收模块,用于接收待识别的音频文件,并获取所述音频文件的梅尔频谱;
获取模块,用于基于所述梅尔频谱,获取所述音频文件的时域向量和频域向量;
提取模块,用于通过训练好的流派特征提取模型对所述时域向量和所述频域向量进行特征提取,得到时域特征向量和频域特征向量;
编码模块,用于通过预置的特征编码器对所述时域特征向量和所述频域特征向量进行特征编码,得到所述音频文件对应的目标特征向量;
分类模块,用于将所述目标特征向量输入预置的流派分类器进行流派分类,得到所述音频文件对应的流派信息。
9.一种音乐流派的识别设备,其特征在于,所述音乐流派的识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述音乐流派的识别设备执行如权利要求1-7中任一项所述的音乐流派的识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的音乐流派的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110710835.6A CN113450828A (zh) | 2021-06-25 | 2021-06-25 | 音乐流派的识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110710835.6A CN113450828A (zh) | 2021-06-25 | 2021-06-25 | 音乐流派的识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113450828A true CN113450828A (zh) | 2021-09-28 |
Family
ID=77812862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110710835.6A Pending CN113450828A (zh) | 2021-06-25 | 2021-06-25 | 音乐流派的识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113450828A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115496993A (zh) * | 2022-09-09 | 2022-12-20 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
CN115798459A (zh) * | 2023-02-03 | 2023-03-14 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
WO2024021882A1 (zh) * | 2022-07-28 | 2024-02-01 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、计算机设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140134988A (ko) * | 2013-05-15 | 2014-11-25 | 세종대학교산학협력단 | 음악 장르 분류 장치 및 그 방법 |
JP2018194844A (ja) * | 2017-05-19 | 2018-12-06 | ネイバー コーポレーションNAVER Corporation | 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体 |
CN108962279A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 音频数据的乐器识别方法及装置、电子设备、存储介质 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
CN112750441A (zh) * | 2021-04-02 | 2021-05-04 | 北京远鉴信息技术有限公司 | 一种声纹的识别方法、装置、电子设备及存储介质 |
CN112766368A (zh) * | 2021-01-18 | 2021-05-07 | 咪咕音乐有限公司 | 一种数据分类方法、设备和可读存储介质 |
CN112967734A (zh) * | 2021-03-26 | 2021-06-15 | 平安科技(深圳)有限公司 | 基于多声部的音乐数据识别方法、装置、设备及存储介质 |
CN113012713A (zh) * | 2021-03-02 | 2021-06-22 | 哈尔滨理工大学 | 一种基于机器学习中逻辑回归算法的音乐流派分类方法 |
-
2021
- 2021-06-25 CN CN202110710835.6A patent/CN113450828A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140134988A (ko) * | 2013-05-15 | 2014-11-25 | 세종대학교산학협력단 | 음악 장르 분류 장치 및 그 방법 |
JP2018194844A (ja) * | 2017-05-19 | 2018-12-06 | ネイバー コーポレーションNAVER Corporation | 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN108962279A (zh) * | 2018-07-05 | 2018-12-07 | 平安科技(深圳)有限公司 | 音频数据的乐器识别方法及装置、电子设备、存储介质 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
CN112766368A (zh) * | 2021-01-18 | 2021-05-07 | 咪咕音乐有限公司 | 一种数据分类方法、设备和可读存储介质 |
CN113012713A (zh) * | 2021-03-02 | 2021-06-22 | 哈尔滨理工大学 | 一种基于机器学习中逻辑回归算法的音乐流派分类方法 |
CN112967734A (zh) * | 2021-03-26 | 2021-06-15 | 平安科技(深圳)有限公司 | 基于多声部的音乐数据识别方法、装置、设备及存储介质 |
CN112750441A (zh) * | 2021-04-02 | 2021-05-04 | 北京远鉴信息技术有限公司 | 一种声纹的识别方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024021882A1 (zh) * | 2022-07-28 | 2024-02-01 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、计算机设备和存储介质 |
CN115496993A (zh) * | 2022-09-09 | 2022-12-20 | 锋睿领创(珠海)科技有限公司 | 基于频域融合的目标检测方法、装置、设备及存储介质 |
CN115798459A (zh) * | 2023-02-03 | 2023-03-14 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113450828A (zh) | 音乐流派的识别方法、装置、设备及存储介质 | |
Panagakis et al. | Music genre classification via topology preserving non-negative tensor factorization and sparse representations | |
CN103403710A (zh) | 对来自音频信号的特征指纹的提取和匹配 | |
Vaca-Castano et al. | Using syllabic mel cepstrum features and k-nearest neighbors to identify anurans and birds species | |
Massoudi et al. | Urban sound classification using CNN | |
CN112750442B (zh) | 一种具有小波变换的朱鹮种群生态体系监测系统及其方法 | |
Avci | An expert system for speaker identification using adaptive wavelet sure entropy | |
CN113421589B (zh) | 歌手识别方法、装置、设备及存储介质 | |
Huang et al. | A classification method for wood vibration signals of Chinese musical instruments based on GMM and SVM. | |
CN112309404B (zh) | 机器语音的鉴别方法、装置、设备及存储介质 | |
CN113421546B (zh) | 基于跨被试多模态的语音合成方法及相关设备 | |
CN113256751B (zh) | 基于语音的图像生成方法、装置、设备及存储介质 | |
CN112735442B (zh) | 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法 | |
CN112967734B (zh) | 基于多声部的音乐数据识别方法、装置、设备及存储介质 | |
CN104166837A (zh) | 采用最相关的兴趣点的各组的选择的视觉语音识别方法 | |
CN114661928A (zh) | 违规行为图像的检索方法、装置、设备及存储介质 | |
CN113870896A (zh) | 基于时频图和卷积神经网络的运动声音判假方法、装置 | |
Andén et al. | Classification with joint time-frequency scattering | |
Thakur et al. | Conv-codes: audio hashing for bird species classification | |
Blaszke et al. | Real and Virtual Instruments in Machine Learning–Training and Comparison of Classification Results | |
Majeed et al. | Hierarchical k-means algorithm applied on isolated malay digit speech recognition | |
CN113689863B (zh) | 一种声纹特征提取方法、装置、设备及存储介质 | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
Chakravarty et al. | An improved feature extraction for Hindi language audio impersonation attack detection | |
Chakravarty et al. | A lightweight feature extraction technique for deepfake audio detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |