CN106295717B - 一种基于稀疏表示和机器学习的西洋乐器分类方法 - Google Patents

一种基于稀疏表示和机器学习的西洋乐器分类方法 Download PDF

Info

Publication number
CN106295717B
CN106295717B CN201610767234.8A CN201610767234A CN106295717B CN 106295717 B CN106295717 B CN 106295717B CN 201610767234 A CN201610767234 A CN 201610767234A CN 106295717 B CN106295717 B CN 106295717B
Authority
CN
China
Prior art keywords
musical instrument
neural network
deep neural
western
western musical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610767234.8A
Other languages
English (en)
Other versions
CN106295717A (zh
Inventor
洪弘
顾李萍
朱雨倩
缪冬玉
李慧
李彧晟
顾陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201610767234.8A priority Critical patent/CN106295717B/zh
Publication of CN106295717A publication Critical patent/CN106295717A/zh
Application granted granted Critical
Publication of CN106295717B publication Critical patent/CN106295717B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于稀疏表示和机器学习的西洋乐器分类方法,包括如下步骤:步骤1:构建适用于西洋乐器稀疏表示的字典库;步骤2:对西洋乐器原始音频文件进行预处理,分帧加窗,提取每帧音频在基于所构建字典库表示下的稀疏系数;步骤3:将每帧音频稀疏表示系数作为西洋乐器的音乐特征输入深度神经网络,逐层预训练深度神经网络模型,得到与西洋乐器音频分类相应的深度神经网络模型参数;步骤4:将逻辑回归分类器添加至深度神经网络模型的顶层;步骤5:对所得深度神经网络模型参数进行反向微调,将深度神经网络模型最后一个隐含层的输出参数输入至逻辑回归层进行分类,得到西洋乐器的分类结果。本发明可以有效进行西洋乐器的分类。

Description

一种基于稀疏表示和机器学习的西洋乐器分类方法
技术领域
本发明属于计算机听觉技术领域,特别是一种基于稀疏表示和机器学习的西洋乐器分类方法。
背景技术
随着互联网技术的快速发展,音乐音频文件由于占用存储空间小,复制传送方便等特点,数字音乐得到飞速发展。然而,面对互联网上大量音乐,检索到人们所需要的音乐变得十分困难,这就要求音乐网站事先对海量音乐做好分类,以便使得检索音乐变得容易。因此,音乐信息检索(Music Information Retrieval,MIR)成为最近几年的研究热点之一。
乐器标签是音乐分类的一种重要标签,同时乐器还可以预测音乐的情感,流派种类,和音乐场景等。如果我们知道某一种音乐所使用的乐器,那么我们可以根据乐器信息来改善音乐自动分类的分类效果和区分潜在的音乐集。海量乐器音乐采用人工分类的方法十分繁琐,且需要专业音乐人士对音乐分类。考虑到现实操作的可行性,人工分类的方法不可行。乐器自动分类技术具有极其重要的研究价值。按照不同的方法或者标准,可以根据分类结果将乐器音乐建立不同的索引,并且还可以提高乐器音乐自动分类和检索的性能。
目前常见的音乐音频特征提取大多数是借鉴语音识别方面的特征,如梅尔倒谱系数等底层特征,结合模式识别与分类的方法对音乐进行分类。虽然Mel频率倒谱系数反应了人耳的听觉特性,然而该特征与音乐的语义内容并没有直接关系,因此在很多应用方面,这些底层特征所表现出来的信息量往往难以直接应用。用于乐器分类的分类器主要有基于模板的分类器和基于隐马尔科夫模型(Hidden Markov Model,HMM)的分类器。但是这两种分类器的识别效果都不佳,识别率集中在70%到80%之间,这个结果显然有待提高。
发明内容
本发明的目的在于提供一种基于稀疏表示和机器学习的西洋乐器分类方法,获取西洋乐器音频更符合音乐特点的特征表示,从而提高西洋乐器分类的准确率。
实现本发明目的的技术解决方案为:一种基于稀疏表示和机器学习的西洋乐器分类方法,包括以下步骤:
步骤1、构建适用于西洋乐器稀疏表示的字典库D,该字典库包含N种乐器;具体步骤为:
步骤1-1、依次加载N种乐器,具体是在每种乐器下合成M个不同音阶的音色,每个音阶时长为t ms,并且将音色以Fs KHz采样率导出成wav文件,该wav文件作为乐器在该音阶的声学特征;其中N种乐器涵盖了所有的西洋乐器种类,取120~130间的整数;上述M个音阶横跨n个八度,n取为5~7间的整数,涵盖乐器可以发出声音的频率范围,t取180~200间的整数,音阶在t ms时长下分辨率高,区分明显,Fs取11.025,22.05,44.1中之一;
步骤1-2、利用MATLAB软件将上述所有wav文件转换成矩阵的形式,其中矩阵的每一列为不同乐器不同音阶的声学特征,共N*M列,该矩阵即为适用于西洋乐器稀疏表示的字典库,记为D。
步骤2、对西洋乐器原始音频文件进行预处理,分帧加窗,提取每帧音频在基于步骤1所得到字典库表示下的稀疏系数;具体步骤为:
步骤2-1、将西洋乐器原始音频转换成采样率为Fs Hz的单声道音频文件;
步骤2-2、将转换后的西洋乐器原始音频截成L s长的小段,其中L取20~50间的整数;
步骤2-3、将每个小段分帧加窗,统计每帧音频中幅值小于H的样本个数,若此样本个数超过T时则认为此帧为静音帧,舍弃该帧;其中H为幅值阈值,取e-3,T为样本个数阈值,取400~600间的整数;
步骤2-4、对每帧西洋乐器音频进行稀疏表示,其中稀疏表示字典库为D,得出每帧西洋乐器音频在基于该字典库的稀疏表示系数,该系数即为该帧西洋乐器音频的声学特征。
步骤3、将步骤2所得每帧音频稀疏表示系数作为西洋乐器的音乐特征输入深度神经网络,逐层预训练深度神经网络模型,得到与西洋乐器音频分类相应的深度神经网络模型参数;具体步骤为:
步骤3-1、将步骤2所得各个西洋乐器帧的稀疏系数作为深度神经网络模型的输入,输入至深度神经网络可视层;
步骤3-2、通过非监督逐层贪婪方法预训练深度神经网络模型,训练过程中,将可视层单元值映射给隐层单元,接着可视层单元由隐层单元重建,重建的新可视单元再次映射至隐层单元,利用可视层单元和隐层单元之间的相关性差别更新深度神经网络模型权值。
步骤4、将逻辑回归层加入至深度神经网络模型的顶层;具体为:在深度神经网络模型顶部添加逻辑回归函数,其中逻辑回归函数公式:当自变量z趋近于无穷大时,g(z)趋近于1;当z趋近于无穷小时,g(z)趋近于0。
步骤5、对步骤3所得深度神经网络模型参数进行反向微调,将深度神经网络模型最后一个隐含层的输出参数输入至逻辑回归层进行分类,得到西洋乐器的分类结果;具体步骤为:
步骤5-1、对西洋乐器各个原始音频帧添加标签,该标签为西洋乐器各个原始音频帧所属乐器种类,将其记为i,其中i=1,2,3……m,m为待分类的乐器种类个数;
步骤5-2、利用上述带标签的数据对深度神经网络参数进行调整,具体采用反向传播算法进行调整;此过程中,标签集被附加到深度神经网络顶层,通过一个自下而上的,学习到的识别权值获得一个网络的分类面,深度神经网络最后一层输出参数输入至逻辑回归层得到各个帧的西洋乐器分类。
本发明与现有技术相比,其显著优点为:(1)本发明的方法摒弃了语音识别方面的特征,构建由一系列音符组成的字典库,利用稀疏特征来表示西洋乐器音频还原度更高;(2)本发明的方法利用深度神经网络对大数据进行处理,更有效地提取数据的抽象特征,提高西洋乐器分类的准确度。
下面结合附图对本发明做进一步详细说明。
附图说明
图1为本发明的基于稀疏表示和机器学习的西洋乐器分类方法流程图。
图2为深度神经网络模型图。
图3为逻辑回归函数图。
图4为本发明的一段待分类的乐器音频信号图。
图5为本发明的乐器音频稀疏分解后的恢复信号。
具体实施方式
结合图1,本发明的一种基于稀疏表示和机器学习的西洋乐器分类方法,包含以下步骤:
步骤1、构建适用于西洋乐器稀疏表示的字典库D,该字典库包含N种乐器;具体步骤为:
步骤1-1、依次加载N种乐器,具体是在每种乐器下合成M个不同音阶的音色,每个音阶时长为t ms,并且将音色以Fs KHz采样率导出成wav文件,该wav文件作为乐器在该音阶的声学特征;其中N种乐器涵盖了所有的西洋乐器种类,取120~130间的整数;上述M个音阶横跨n个八度,n取为5~7间的整数,涵盖乐器可以发出声音的频率范围,t取180~200间的整数,音阶在t ms时长下分辨率高,区分明显,Fs取11.025,22.05,44.1中之一;
步骤1-2、利用MATLAB软件将上述所有wav文件转换成矩阵的形式,其中矩阵的每一列为不同乐器不同音阶的声学特征,共N*M列,该矩阵即为适用于西洋乐器稀疏表示的字典库,记为D。
步骤2、对西洋乐器原始音频文件进行预处理,分帧加窗,提取每帧音频在基于步骤1所得到字典库表示下的稀疏系数;具体步骤为:
步骤2-1、将西洋乐器原始音频转换成采样率为Fs Hz的单声道音频文件;
步骤2-2、将转换后的西洋乐器原始音频截成L s长的小段,其中L取20~50间的整数;
步骤2-3、将每个小段分帧加窗,统计每帧音频中幅值小于H的样本个数,若此样本个数超过T时则认为此帧为静音帧,舍弃该帧;其中H为幅值阈值,取e-3,T为样本个数阈值,取400~600间的整数;
步骤2-4、对每帧西洋乐器音频进行稀疏表示,其中稀疏表示字典库为D,得出每帧西洋乐器音频在基于该字典库的稀疏表示系数,该系数即为该帧西洋乐器音频的声学特征;其中稀疏表示的方法为:y€Rn为每帧西洋乐器音频样本,满足y=Dx,其中x代表该帧西洋乐器音频y关于特征矩阵D的稀疏系数向量,求使x的一范数||x||1最小的解其中与Dj对应,该系数即为该帧西洋乐器音频的声学特征。
步骤3、将步骤2所得每帧音频稀疏表示系数作为西洋乐器的音乐特征输入深度神经网络,逐层预训练深度神经网络模型,得到与西洋乐器音频分类相应的深度神经网络模型参数;具体步骤为:
步骤3-1、将步骤2所得各个西洋乐器帧的稀疏系数作为深度神经网络模型的输入,输入至深度神经网络可视层;
步骤3-2、通过非监督逐层贪婪方法预训练深度神经网络模型,训练过程中,将可视层单元值映射给隐层单元,接着可视层单元由隐层单元重建,重建的新可视单元再次映射至隐层单元,利用可视层单元和隐层单元之间的相关性差别更新深度神经网络模型权值。
步骤4、将逻辑回归层加入至深度神经网络模型的顶层;具体步骤为:
步骤4-1、在深度神经网络模型顶部添加逻辑回归函数,其中逻辑回归函数公式:当自变量z趋近于无穷大时,g(z)趋近于1;当z趋近于无穷小时,g(z)趋近于0。
步骤5、对步骤3所得深度神经网络模型参数进行反向微调,将深度神经网络模型最后一个隐含层的输出参数输入至逻辑回归层进行分类,得到西洋乐器的分类结果;具体步骤为:
步骤5-1、对西洋乐器各个原始音频帧添加标签,该标签为西洋乐器各个原始音频帧所属乐器种类,将其记为i,其中i=1,2,3……m,m为待分类的乐器种类个数;
步骤5-2、利用上述带标签的数据对深度神经网络参数进行调整,具体采用反向传播算法进行调整;此过程中,标签集被附加到深度神经网络顶层,通过一个自下而上的,学习到的识别权值获得一个网络的分类面,深度神经网络最后一层输出参数输入至逻辑回归层得到各个帧的西洋乐器分类。
下面结合实施例对本发明做进一步详细的描述。
实施例
结合图1,本发明的一种基于稀疏表示和机器学习的西洋乐器分类方法,包含以下步骤:
步骤1、构建适用于西洋乐器稀疏表示的字典库D,该字典库包含N种乐器;具体步骤为:
步骤1-1、依次加载N种乐器,具体是在每种乐器下合成M个不同音阶的音色,每个音阶时长为t ms,并且将音色以Fs KHz采样率导出成wav文件,该wav文件作为乐器在该音阶的声学特征;其中N种乐器涵盖了所有的西洋乐器种类,取120~130间的整数;上述M个音阶横跨n个八度,n取为5~7间的整数,涵盖乐器可以发出声音的频率范围,t取180~200间的整数,音阶在t ms时长下分辨率高,区分明显,Fs取11.025,22.05,44.1中之一;
步骤1-2、利用MATLAB软件将上述所有wav文件转换成矩阵的形式,其中矩阵的每一列为不同乐器不同音阶的声学特征,共N*M列,该矩阵即为适用于西洋乐器稀疏表示的字典库,记为D。
此实施例中,假设N=128,M=60,n=6,依次加载128种乐器,具体是在每种乐器下合成60个不同音阶的音色,此60个音阶横跨6个八度,t=186ms,Fs=22.050,每个音阶时长为t ms,并且将音色以Fs KHz采样率导出成wav文件,该wav文件作为乐器在该音阶的声学特征。
步骤2、对西洋乐器原始音频文件进行预处理,分帧加窗,提取每帧音频在基于步骤1所得到字典库表示下的稀疏系数;具体步骤为:
步骤2-1、将西洋乐器原始音频转换成采样率为Fs Hz的单声道音频文件;
步骤2-2、将转换后的西洋乐器原始音频截成L s长的小段,其中L取20~50间的整数;
步骤2-3、将每个小段分帧加窗,统计每帧音频中幅值小于H的样本个数,若此样本个数超过T时则认为此帧为静音帧,舍弃该帧;其中H为幅值阈值,取e-3,T为样本个数阈值,取400~600间的整数;
步骤2-4、对每帧西洋乐器音频进行稀疏表示,其中稀疏表示字典库为D,得出每帧西洋乐器音频在基于该字典库的稀疏表示系数,该系数即为该帧西洋乐器音频的声学特征;其中稀疏表示的方法为:y€Rn为每帧西洋乐器音频样本,满足y=Dx,其中x代表该帧西洋乐器音频y关于特征矩阵D的稀疏系数向量,求使x的一范数||x||1最小的解其中与Dj对应,该系数即为该帧西洋乐器音频的声学特征。
此实施例中L=30,将西洋乐器音频截成30s长的小段进行处理,T=500,若每帧西洋乐器音频中幅值小于H的样本个数超过500,则认为此帧是静音帧。
步骤3、将步骤2所得每帧音频稀疏表示系数作为西洋乐器的音乐特征输入深度神经网络,逐层预训练深度神经网络模型,得到与西洋乐器音频分类相应的深度神经网络模型参数;具体步骤为:
步骤3-1、将步骤2所得各个西洋乐器帧的稀疏系数作为深度神经网络模型的输入,输入至深度神经网络可视层;
步骤3-2、通过非监督逐层贪婪方法预训练深度神经网络模型,训练过程中,将可视层单元值映射给隐层单元,接着可视层单元由隐层单元重建,重建的新可视单元再次映射至隐层单元,利用可视层单元和隐层单元之间的相关性差别更新深度神经网络模型权值。
步骤4、将逻辑回归层加入至深度神经网络模型的顶层;具体步骤为:
在深度神经网络模型顶部添加逻辑回归函数,其中逻辑回归函数公式:
当自变量z趋近于无穷大时,g(z)趋近于1;当z趋近于无穷小时,g(z)趋近于0。
步骤5、对步骤3所得深度神经网络模型参数进行反向微调,将深度神经网络模型最后一个隐含层的输出参数输入至逻辑回归层进行分类,得到西洋乐器的分类结果;具体步骤为:
步骤5-1、对西洋乐器各个原始音频帧添加标签,该标签为西洋乐器各个原始音频帧所属乐器种类,将其记为i,其中i=1,2,3……m,m为待分类的乐器种类个数;
步骤5-2、利用上述带标签的数据对深度神经网络参数进行调整,具体采用反向传播算法进行调整;此过程中,标签集被附加到深度神经网络顶层,通过一个自下而上的,学习到的识别权值获得一个网络的分类面,深度神经网络最后一层输出参数输入至逻辑回归层得到各个帧的西洋乐器分类。
此实施例中,m=6,对吉他,钢琴,小号,小提琴,笛子,贝司这6种乐器进行分类,这几种西洋乐器标签依次为1,2,3,4,5,6。
由上可知,本发明的方法利用深度神经网络对大数据进行处理,更有效地提取数据的抽象特征,提高西洋乐器分类的准确度。

Claims (5)

1.一种基于稀疏表示和机器学习的西洋乐器分类方法,其特征在于,包括以下步骤:
步骤1、构建适用于西洋乐器稀疏表示的字典库D,该字典库包含N种乐器;具体步骤为:
步骤1-1、依次加载N种乐器,具体是在每种乐器下合成M个不同音阶的音色,每个音阶时长为t ms,并且将音色以Fs KHz采样率导出成wav文件,该wav文件作为乐器在该音阶的声学特征;其中N种乐器涵盖了所有的西洋乐器种类,取120~130间的整数;上述M个音阶横跨n个八度,n取为5~7间的整数,涵盖乐器可以发出声音的频率范围,t取180~200间的整数,音阶在t ms时长下分辨率高,区分明显,Fs取11.025,22.05,44.1中之一;
步骤1-2、利用MATLAB软件将上述所有wav文件转换成矩阵的形式,其中矩阵的每一列为不同乐器不同音阶的声学特征,共N*M列,该矩阵即为适用于西洋乐器稀疏表示的字典库,记为D;
步骤2、对西洋乐器原始音频文件进行预处理,分帧加窗,提取每帧音频在基于步骤1所得到字典库表示下的稀疏系数;
步骤3、将步骤2所得每帧音频稀疏表示系数作为西洋乐器的音乐特征输入深度神经网络,逐层预训练深度神经网络模型,得到与西洋乐器音频分类相应的深度神经网络模型参数;
步骤4、将逻辑回归分类器添加至深度神经网络模型的顶层;
步骤5、对步骤4所得深度神经网络进行反向微调,将深度神经网络模型最后一个隐含层的输出参数输入至逻辑回归分类器进行分类,得到西洋乐器的分类结果。
2.根据权利要求1所述的基于稀疏表示和机器学习的西洋乐器分类方法,其特征在于,步骤2所述的对西洋乐器原始音频文件进行预处理,分帧加窗,提取每帧音频在基于字典库D表示下的稀疏系数,具体步骤为:
步骤2-1、将西洋乐器原始音频转换成采样率为Fs Hz的单声道音频文件;
步骤2-2、将转换后的西洋乐器原始音频截成L s长的小段,其中L取20~50间的整数;
步骤2-3、将每个小段分帧加窗,统计每帧音频中幅值小于H的样本个数,若此样本个数超过T时则认为此帧为静音帧,舍弃该帧;其中H为幅值阈值,取e-3,T为样本个数阈值,取400~600间的整数;
步骤2-4、对每帧西洋乐器音频进行稀疏表示,其中稀疏表示字典库为D,得出每帧西洋乐器音频在基于该字典库的稀疏表示系数,该系数即为该帧西洋乐器音频的声学特征。
3.根据权利要求1所述的基于稀疏表示和机器学习的西洋乐器分类方法,其特征在于,步骤3将上述每帧音频稀疏表示系数作为西洋乐器的音乐特征输入深度神经网络,逐层预训练深度神经网络模型,得到与西洋乐器音频分类相应的深度神经网络模型参数,具体为:
步骤3-1、将步骤2所得各个西洋乐器帧的稀疏系数作为深度神经网络模型的输入,输入至深度神经网络可视层;
步骤3-2、通过非监督逐层贪婪方法预训练深度神经网络模型,训练过程中,将可视层单元值映射给隐层单元,接着可视层单元由隐层单元重建,重建的新可视单元再次映射至隐层单元,利用可视层单元和隐层单元之间的相关性差别更新深度神经网络模型权值。
4.根据权利要求书1所述的基于稀疏表示和机器学习的西洋乐器分类方法,其特征在于,步骤4将逻辑回归分类器添加至深度神经网络模型的顶层,具体为:
在深度神经网络模型顶部添加逻辑回归函数,其中逻辑回归函数公式为:当自变量z趋近于无穷大时,g(z)趋近于1;当z趋近于无穷小时,g(z)趋近于0。
5.根据权利要求书1所述的基于稀疏表示和机器学习的西洋乐器分类方法,其特征在于,步骤5对上述深度神经网络模型参数进行反向微调,将深度神经网络模型最后一个隐含层的输出参数输入至逻辑回归层进行分类,得到西洋乐器的分类结果,具体步骤为:
步骤5-1、对西洋乐器各个原始音频帧添加标签,该标签为西洋乐器各个原始音频帧所属乐器种类,将其记为i,其中i=1,2,3……m,m为待分类的乐器种类个数;
步骤5-2、利用上述带标签的数据对深度神经网络参数进行调整,具体采用反向传播算法进行调整;此过程中,标签集被附加到深度神经网络顶层,通过一个自下而上的,学习到的识别权值获得一个网络的分类面,深度神经网络最后一层输出参数输入至逻辑回归层得到各个帧的西洋乐器分类。
CN201610767234.8A 2016-08-30 2016-08-30 一种基于稀疏表示和机器学习的西洋乐器分类方法 Expired - Fee Related CN106295717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610767234.8A CN106295717B (zh) 2016-08-30 2016-08-30 一种基于稀疏表示和机器学习的西洋乐器分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610767234.8A CN106295717B (zh) 2016-08-30 2016-08-30 一种基于稀疏表示和机器学习的西洋乐器分类方法

Publications (2)

Publication Number Publication Date
CN106295717A CN106295717A (zh) 2017-01-04
CN106295717B true CN106295717B (zh) 2019-07-12

Family

ID=57675955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610767234.8A Expired - Fee Related CN106295717B (zh) 2016-08-30 2016-08-30 一种基于稀疏表示和机器学习的西洋乐器分类方法

Country Status (1)

Country Link
CN (1) CN106295717B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122897B (zh) * 2017-04-17 2021-05-25 武汉理工大学 基于深度学习算法的无人船适航性评估方法
CN107705775A (zh) * 2017-08-17 2018-02-16 广东工业大学 一种基于rbf神经网络的多种乐器调音方法
CN107748898A (zh) * 2017-11-03 2018-03-02 北京奇虎科技有限公司 文件分类方法、装置、计算设备及计算机存储介质
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN108303624A (zh) * 2018-01-31 2018-07-20 舒天才 一种基于声音信号分析的开关柜局部放电检测方法
CN108962279A (zh) * 2018-07-05 2018-12-07 平安科技(深圳)有限公司 音频数据的乐器识别方法及装置、电子设备、存储介质
CN111048110A (zh) * 2018-10-15 2020-04-21 杭州网易云音乐科技有限公司 乐器识别方法、介质、装置和计算设备
CN110377785B (zh) * 2019-06-21 2023-10-03 江苏师范大学 一种基于深度学习的徐州梆子作曲方法
CN110310666B (zh) * 2019-06-27 2021-07-23 成都潜在人工智能科技有限公司 一种基于se卷积网络的乐器识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129456A (zh) * 2011-03-09 2011-07-20 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
CN103412945A (zh) * 2013-08-23 2013-11-27 山东师范大学 一种基于类边界分布特性的音频分类器训练方法
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN104778692A (zh) * 2015-04-09 2015-07-15 中原工学院 一种基于稀疏表示系数优化的织物疵点检测方法
CN105868786A (zh) * 2016-04-01 2016-08-17 山东正晨科技股份有限公司 一种基于自编码预训练深度神经网络的车标识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129456A (zh) * 2011-03-09 2011-07-20 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
CN103412945A (zh) * 2013-08-23 2013-11-27 山东师范大学 一种基于类边界分布特性的音频分类器训练方法
CN104408469A (zh) * 2014-11-28 2015-03-11 武汉大学 基于图像深度学习的烟火识别方法及系统
CN104778692A (zh) * 2015-04-09 2015-07-15 中原工学院 一种基于稀疏表示系数优化的织物疵点检测方法
CN105868786A (zh) * 2016-04-01 2016-08-17 山东正晨科技股份有限公司 一种基于自编码预训练深度神经网络的车标识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习的人脸识别方法研究;汪海波;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150715(第7期);第I138-1062页第4-5章
基于稀疏表示分类器的和弦识别研究;董丽梦;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140715(第7期);第I136-114页第4章,摘要,第3章,第2.4节

Also Published As

Publication number Publication date
CN106295717A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106295717B (zh) 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
JP6902010B2 (ja) 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN111128236B (zh) 一种基于辅助分类深度神经网络的主乐器识别方法
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
Nguyen et al. Speech classification using SIFT features on spectrogram images
Nugroho et al. Enhanced Indonesian ethnic speaker recognition using data augmentation deep neural network
Das et al. A CNN-BiLSTM based hybrid model for Indian language identification
Singh et al. Features of speech audio for accent recognition
Mousavi et al. Persian classical music instrument recognition (PCMIR) using a novel Persian music database
Srinivasa Murthy et al. Singer identification for Indian singers using convolutional neural networks
Foucard et al. Multi-scale temporal fusion by boosting for music classification.
CN113506553A (zh) 一种基于迁移学习的音频自动标注方法
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Kayis et al. artificial intelligence-based classification with classical Turkish music makams: Possibilities to Turkish music education.
Lee et al. Korean dialect identification based on intonation modeling
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
JP4607660B2 (ja) 楽曲検索装置および楽曲検索方法
Aarti et al. Spoken Indian language classification using ANN and Multi-Class SVM
CN111583890A (zh) 音频分类方法和装置
CN114550675A (zh) 一种基于CNN--Bi-LSTM网络的钢琴转录方法
CN111681674B (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和系统
CN114678039A (zh) 一种基于深度学习的歌唱评价方法
CN114067788A (zh) 一种基于cnn和lstm结合的粤剧唱腔分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190712