CN102129456B - 去相关稀疏映射音乐流派有监督自动分类方法 - Google Patents

去相关稀疏映射音乐流派有监督自动分类方法 Download PDF

Info

Publication number
CN102129456B
CN102129456B CN2011100564833A CN201110056483A CN102129456B CN 102129456 B CN102129456 B CN 102129456B CN 2011100564833 A CN2011100564833 A CN 2011100564833A CN 201110056483 A CN201110056483 A CN 201110056483A CN 102129456 B CN102129456 B CN 102129456B
Authority
CN
China
Prior art keywords
music
spectral
characteristic
factions
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011100564833A
Other languages
English (en)
Other versions
CN102129456A (zh
Inventor
关欣
徐星
李锵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANTONG JIEJING SEMICONDUCTOR TECHNOLOGY Co.,Ltd.
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN2011100564833A priority Critical patent/CN102129456B/zh
Publication of CN102129456A publication Critical patent/CN102129456A/zh
Application granted granted Critical
Publication of CN102129456B publication Critical patent/CN102129456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及音频信号处理。为提供一种能够提高音乐流派自动分类准确率,方便音乐音频数据库内容组织和检索,也可用于其它基于内容音乐信息检索,提高检索性能的基于最小一范数稀疏映射的音乐流派有监督自动分类方法及系统,本发明采用的技术方案是,基于去相关稀疏映射音乐流派有监督自动分类方法,包括下列步骤:a建立有监督训练数据库;b对训练音乐样本提取短时音乐特征和节奏特征,短时音乐特征即MFCC和音色特征;c对提取的特征数据采用PCA(主分量分析)技术去噪和降维;d将特征矩阵按流派类别分块;e确定y的种类为arg mini||y-Aδi(x)i||2,i=1,2,...,k,δ(x)的非零值为第i类。本发明主要应用于音频信号处理。

Description

去相关稀疏映射音乐流派有监督自动分类方法
技术领域
本发明涉及音频信号处理,具体讲涉及去相关稀疏映射音乐流派有监督自动分类方法。
背景技术
当今数字化与网络时代化,数据存储技术和多媒体压缩技术如JPEG、MPEG等技术的快速发展,导致数字多媒体数据的存储量增加,也导致互联网上音频数据的增加。目前,图像、音频和视频等多媒体内容已成为互联网信息高速公路上所传送数据的主要部分,而音乐又是音频的主要部分,随着互联网的发展,越来越多的人能够更加方便、快捷、经济地接触到数字音乐,人们面临的问题不再是缺少媒体内容,而是如何在浩如烟海的多媒体世界中找到自己所需要的信息。音乐流派是人类创造的用于区分和描述音乐,然而由于历史和文化等原因音乐流派没有严格的定义与界限,每一种音乐流派的特征都是由其成员的特征决定的,这些特征又是由乐器,节奏和音乐的和声决定的。目前音乐流派的分类是靠人工完成的,当面对网络上海量的音乐时,人工分类不足以完成如此巨大的工作量,这时需要借助计算机、人工智能等以取代人工分类,实现音乐流派的自动分类。
目前,在现有的基于音乐内容的专利中,大多是基于音乐内容的音乐检索。2009年4月1日公布的、公开号为CN101398825、名称为用于快速音乐分类和检索的方法和设备的中国发明专利申请公布说明书提供了一种基于内容的音乐分类方法,该专利提取短时音乐特征,即MFCC和音质特征,采用基于支持向量机(SVM)进行分类。
近年来,基于最小一范数稀疏映射已经成功应用于模式识别与分类,在医学领域癌症与肿瘤的分类、人脸识别、卫星图像分类、说话人识别和种子分类方面取得了较好的分类效果。
目前未发现基于最小一范数稀疏映射用于音乐流派有监督自动分类的报道。
发明内容
为克服现有技术的不足,提供一种能够提高音乐流派自动分类准确率,方便音乐音频数据库内容组织和检索,也可用于其它基于内容音乐信息检索,提高检索性能的基于最小一范数稀疏映射的音乐流派有监督自动分类方法及系统,本发明采用的技术方案是,一种去相关稀疏映射音乐流派有监督自动分类方法,包括下列步骤:
a建立有监督训练数据库;
b对训练音乐样本提取短时音乐特征和节奏特征,短时音乐特征即MFCC和音色特征;
c对提取的特征数据采用PCA(主分量分析)技术去噪和降维;
d将特征矩阵按流派类别分块,则A=[A1,A2,...,AK]为特征矩阵,K为音乐流派种类的个数,y为测试样本,求出方程y=Ax的最小一范数解。
e确定y的种类为argmini||y-Aδi(x)i||2,i=1,2,...,k,δ(x)的非零值为第i类。
所述的建立有监督训练数据库是通过相关渠道建立包括n种音乐流派的音乐文件夹,可以通过互联网下载或者专辑中获得,其中每一种音乐流派的数据库要尽可能包含不同的歌手,不同的专辑。
所述在步骤b之前包括以下步骤:对输入的音乐文件截取两个30秒的片段;对截取每个30秒的片段,选取1秒为一个文本窗的长度,且文本窗与文本窗之间无重叠;对一个文本窗内选取512点为一个分析窗的长度,分析窗的帧移为256个样本点;对一个分析窗w的数据预加重、加窗、分帧;预加重包括:让输入的音乐文件通过滤波器,预加重滤波器一般是一阶的,形式如H(z)=1-uz-1,u的典型值在0.94~0.97之间;所加窗的窗函数类型为汉明窗(hamming);取帧长为512个样本点,帧移为256个样本点;提取美尔频率倒谱系数(MFCC)特征需要设置相关参数的值,设置的参数包括:MFCC的通道为24,帧长为512个样本点,帧移为256个样本点,取前5维MFCC。
所述的对训练音乐样本提取音色和节奏特征是用时域、频域和小波域的方法提取特征,其中时域特征:样本信号在时间域上通过零的次数和在一个文本窗内低于平均能量的帧的比率;频域特征:spectral-power,spectral-rolloff,spectral-centroid,spectral-fulx,spectral-spread,spectral-skewness,spectral-kurtosis,spectral-brightness,spectral-entropy,spectral-irrgularity,spectral-low-energy,spectral-flatness及MFCC,小波域特征:beat histogram、DWCH(DaubechiesWavelet Coefficients Histogram);
其中:
首先定义,xk=abs(fft(x)),下面公式中所涉及N为一个分析窗内的样本点的个数,即512点。
Spectral-power:数学定义如下:
s=10lg(xk)
spectral-rolloff:是衡量频谱波形的一种方式,数学公式定义如下:
R = { R | Σ n = 1 R M t [ n ] = 0.85 * Σ n = 1 N M t [ n ] }
spectral-centroid:定义为频谱能量的一阶矩,数学定义公式如下
spectral - centroid = Σ i = 0 N f i p ( f i ) Σ i = 0 N p ( f i )
spectral-fulx:表征两个相邻的帧频谱的连续变化情况,数学定义,
spectral - flux = Σ n = 1 N ( N t ( n ) - N t ( n - 1 ) ) 2
spectral-spread:为频谱能量的二阶中心距,数学公式为
spectral-spread=∫(x-scentroid)2f(x)dx
spectral-skewness:定义为频谱能量的三阶矩,数学公式为
spectral - skewness = Σ i = 0 N - 1 ( p ( f i - s cnetroid ) ) 3 Nσ 3
spectral-kurtosis:定义为频谱能量的四阶矩,数学公式为
spectral - kurtosis = u 4 σ 4 - 3
spectral-brightness:描述的是大于某个频率阈值之后的能量之和,典型频率门限值是1500Hz。
spectral-entropy:反应的是频谱能量的信息熵,香农公式(shannon)如下,
spectral - entropy = - Σ i = 0 N p ( x i ) log 2 p ( x i )
spectral-irrgularity:反应的是频谱能量波形波峰的变化程度,有两种形式,数学公式如下
(a)jensen
spectral - irregularity = Σ k = 0 N - 1 ( a k - a k + 1 ) 2 Σ k = 0 N 1 a k 2
(b)krimpboff
spectral - irregularity = Σ k = 2 N - 1 | a k - a k - 1 + a k + a k + 1 3 |
spectral-low-energy:类似于时域low energy
spectral-flatness:反应的是频谱能量波形分布的平滑程度,数学公式如下,
spectral - flatness = N Π n = 0 N - 1 x k ( n ) 1 N Σ n = 0 N - 1 x k ( n ) ;
beat histogram为拍子图;
DWCH:描述的是基于Daubechies(db8)滤波器,对音乐样本做小波变换,然后提取小波系数的统计特征。
所述的PCA去噪和降维并去相关是降低特征的个数,同时实现了消除噪声的作用。
所述的用稀疏矩阵对数据实现自动分类是求出y=Ax的解即通过梯度下降法求出,从而实现分类。
所述方法在步骤b还包括:对短时音乐特征求平均值和标准偏差组成特征矩阵;步骤c所述的方法包括:求取特征矩阵的协方差矩阵;求出协方差矩阵的全部特征值,并选取大于0.00001的特征值实现降维和去噪。
本发明具有如下技术效果:本发明对提取的特征数据采用主分量分析(PCA)技术去噪和降维并去相关,并将特征矩阵按流派类别分块,因而本发明能准确提取音频数据特征,进而实现对音乐、音频信号进行准确分类。
附图说明
图1是本发明方法的流程图;
图2是MFCC特征提取的流程图;
图3是提取beat histogram的流程图;
图4是特征结构图。
具体实施方式
下面结合说明书附图和具体实施例,对本发明的去相关稀疏映射音乐流派有监督自动分类方法给予详细的说明。
本发明的方法,是充分考虑到音乐的特征以及结合最新的模式识别与分类的方法-稀疏矩阵,可以对n种流派的音乐实现自动分类,并且分类的准确率较高。具体采用图1的方法与系统,提高了音乐流派分类的准确率,包括以下步骤:
(1)建立音乐数据库。
通过互联网下载获得9种音乐流派的音乐,每一类音乐流派包含400首歌曲,每一类音乐流派包含60几位歌手,并人工的将其分类好,为整个系统的测试做准备。
(2)提取音乐的特征。
首先将所有的音乐数据格式转化成WAV格式,采样率22050,16bits,mono。
从中读取30秒的音乐数据,对数据归一化处理,加窗,预加重,窗函数采用汉明窗,预加重滤波器一般是一阶的,形式如下:
H(z)=1-uz-1            (1)
式中,u接近于1,典型的取值在0.94~0.97之间。
其次,将30秒的数据分帧,在分帧的过程中先将30秒的数据分为30个texture window即每个texture window为1秒,texture window之间无重叠。然后对每个texture window分帧,取512个样本点为一个analysis window的大小,帧移是256个样本点。
A时域
Zero-crossing-rate:定义为样本信号在时间域上通过零的次数,已经被广泛应用于音乐检索和语音识别中,也是区分音乐流派的重要描述符,数学表达式为:
zero - cross = 1 2 Σ n = 1 N | sign ( x ( n ) ) - sign ( x ( n - 1 ) ) |
Low-energy:定义为在一个texture window内低于平均能量的帧的比率。Na为一个texturewindow内analysis window的数目,N为一个analysis window内样本的个数,数学表达式为:
r low = 1 N a &Sigma; &Sigma; i = 0 N a - 1 u ( u rms - x rms ( n ) ) , u rms = 1 N a &Sigma; i = 0 N a - 1 x rms ( n ) , u ( x ) = 1 , x > 0 0 , x < . 0
x rms = &Sigma; n = 0 N - 1 x 2 ( n )
B频域
首先定义,xk=abs(fft(x)),N为xk的大小也是一个analysis window所包含的样本点的个数,
Spectral-power:数学定义如下:
s=10lg(xk)
spectral-rolloff:是衡量频谱波形的一种方式,数学公式定义如下:
R = { R | &Sigma; n = 1 R M t [ n ] = 0.85 * &Sigma; n = 1 N M t [ n ] }
spectral-centroid:定义为频谱能量的一阶矩,数学定义公式如下
spectral - centroid = &Sigma; i = 0 N f i p ( f i ) &Sigma; i = 0 N p ( f i )
spectral-fulx:表征两个相邻的帧频谱的连续变化情况,数学定义,
spectral - flux = &Sigma; n = 1 N ( N t ( n ) - N t ( n - 1 ) ) 2
spectral-spread:为频谱能量的二阶中心距,数学公式为
spectral-spread=∫(x-scentroid)2f(x)dx
spectral-skewness:定义为频谱能量的三阶矩,数学公式为
spectral - skewness = &Sigma; i = 0 N - 1 ( p ( f i - s cnetroid ) ) 3 N&sigma; 3
spectral-kurtosis:定义为频谱能量的四阶矩,数学公式为
spectral - kurtosis = u 4 &sigma; 4 - 3
spectral-brightness:描述的是大于某个频率阈值之后的能量之和,典型频率门限值是1500Hz。
spectral-entropy:反应的是频谱能量的信息熵,香农公式(shannon)如下,
spectral - entropy = - &Sigma; i = 0 N p ( x i ) log 2 p ( x i )
spectral-irrgularity:反应的是频谱能量波形波峰的变化程度,有两种形式,数学公式如下
(a)jensen
spectral - irregularity = &Sigma; k = 0 N - 1 ( a k - a k + 1 ) 2 &Sigma; k = 0 N 1 a k 2
(b)krimpboff
spectral - irregularity = &Sigma; k = 2 N - 1 | a k - a k - 1 + a k + a k + 1 3 |
spectral-low-energy:类似于时域low energy
spectral-flatness:反应的是频谱能量波形分布的平滑程度,数学公式如下,
spectral - flatness = N &Pi; n = 0 N - 1 x k ( n ) 1 N &Sigma; n = 0 N - 1 x k ( n )
MFCC:在语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数,由于MFCC参数是将人耳的听觉感知特性和语音的产生机制相结合,用于音乐分析中。Mel频率可以用如下公式表示:
fmel=2595*log(1+f/700)
在实际应用中,MFCC倒谱系数计算过程如下:
①将信号进行分帧,预加重和加汉明窗处理,然后进行短时离散傅里叶变换(DFT)并得到其频谱。
②求出频谱平方,即能量谱,并用M个Mel带通滤波器进行滤波;由于每一个频带中分量的作用在人耳中式叠加的,因此将每个滤波器频带内的能量进行叠加,这时第k个滤波器输出功率谱x’(k)。
③将每个滤波器的输出取对数(LOG),得到相应频带的对数功率谱;并进行反离散余弦变换(IDFT),得到L个MFCC系数,一般L取12~16个左右。MFCC系数为
c n = &Sigma; k = 1 M log x &prime; ( k ) cos [ &pi; ( k - 0.5 ) n / M ] , - - - n = 1,2 , . . . , L
C小波域
Beat histogram:算法的流程图见附图3,算法主要基于小波变化,然后利用自相关计算出节奏的周期,进而得到beat histogram,具体细节如下,
①首先对信号做分帧处理,取帧长65536个样本点,每一帧作12尺度的小波变换。
②保留7-12边带,对每一个边带提取包络并做下采样处理,其中提取包络采用常用的方法:全波整形后通过低通滤波器。下采样处理N=16,即每隔16个点取出一个样本点。
③将7-12个子带相加,对其作相关变化,由于经验值节奏的周期为40-200bpm(beats perminute),所以截取波形的第0.3秒到1.5秒的数据,找出第一个波峰所在的位置即为节奏的周期。
④根据节奏的周期画出beat histogram。
提取beat histogram的特征如下:
·第一个最大值的幅度m1与位置p1
·第二个最大值的幅度m2与位置p2
·第一个最大值与第二个最大值幅度的比率ratio;
·beat histogram中所有幅度之和sum。
DWCH:描述的是基于Daubechies(db8)滤波器,对音乐样本做小波变换,然后提取小波系数的统计特征。
具体做法是首先对音乐信号分帧,去帧长65536个样本点,帧移是16384个样本点,对每一帧信号做7尺度的小波变换,保留3,5,6,7子带,求得特征如下:
·对每一个子带求一阶矩、二阶矩、三阶矩、四阶矩;
·对每一个子带求能量,即对小波变换系数求绝对值;
综上所述,所得特征向量为:在一个texture window内求zero-crossing-rate,spectral-power,spectral-rolloff,spectral-centroid,spectral-fulx,spectral-spread,spectral-skewness,spectral-brightness,spectral-entropy,spectral-irrgularity,spectral-low-energy,spectral-flatness,spectral-kurtosis的均值与方差(26)Low-energy(1),MFCC前五维系数的均值与方差(10),beat histogram(6),DWCH(20)共组成63维特征向量。
(3)PCA去噪与降维
从模式识别的观点看,主分量分析的实际应用意义在于它为降维提供了有效的方法;同时主分量满足线性、不相关、方差最大三个条件,其线性条件反映特征信号之间的关系简单便于计算;不相关条件使每个特征都有独立的作用;方差最大条件在一定意义上反映了它所包含的信息量最大。主分量分析的计算步骤如下:
①求数据矩阵的协方差矩阵Rxx
②求出Rxx的全部特征值λ1,λ2,...,λn和对应特征向量v1,v2,...,vn;并将各特征值按从大到小的顺寻排列,即λ1≥λ2≥...≥λn
③去除特征值比较小的,即取钱m个主分量作为特征信号,舍去其余(n-m)个信号,从而达到减少特征信号的个数。
本发明,选取特征值阈值为0.00001,经过PCA后得到特征向量的维数52维
(4)基于最小一范数稀疏映射分类
①对训练样本矩阵按流派的种类分块,本发明专利是9种流派则训练矩阵为A=[A1,A2,...,A9]∈Rm×n,m为特征个数,n为样本个数,测试样本为y∈Rm
②将A的每一列用二范数规范化,假设A的每一列的数据为m,则用二范数归一化的公式为m=m/||m||2
③采用梯度下降法求出方程y=Ax的最小一范数解为 x ^ 1 = arg min x | | x | | 1 ;
④求出差值 r i ( y ) = Py - A&delta; i ( x ^ 1 ) P 2 , i = 1,2 , . . . , 9 ;
⑤输出i=arg mini ri(y),确定流派的种类。
在本专利中,给出了一种基于最小一范数稀疏映射的音乐流派有监督自动分类方法及系统,适用于对n种音乐流派。在测试系统时采用以下就中流派音乐乡村,嘻哈,世界,雷鬼,金属,布鲁斯,爵士,摇滚和古典做测试。从表一可以看出SRC相比于SVM的效果,总的准确率高于SVM 12%。
表一 与SVM的对比
SRC分类正确率
  blues   classical   country   hiphop   jazz   metal   reggae   rock   world
  blues   0.873333   0.001111   0.028611   0.010556   0.019167   0.005278   0.013056   0.018056   0.009722
  classical   0.008056   0.988889   0.009722   0.003333   0.013333   0.008056   0.001389   0.003056   0.009722
  country   0.033611   0.001944   0.895   0.009444   0.016389   0.0125   0.010278   0.023889   0.011111
  hiphop   0.012778   0.000556   0.004722   0.936389   0.007222   0.001111   0.021944   0.013889   0.014167
  jazz   0.025556   0.003333   0.013056   0.008611   0.911944   0.001667   0.008889   0.011389   0.019444
  metal   0.004722   0.000278   0.008056   0.001944   0.001111   0.958889   0.002222   0.012222   0.001667
  reggae   0.016389   0.000833   0.019722   0.017778   0.007778   0.004722   0.927222   0.01   0.01
  rock   0.011111   0   0.012222   0.005   0.006111   0.005   0.005556   0.898333   0.006667
  world   0.014444   0.003056   0.008889   0.006944   0.016944   0.002778   0.009444   0.009167   0.9175
  样本数   3600   3600   3600   3600   3600   3600   3600   3600   3600
SVM分类正确率
  blues   classical   country   hiphop   jazz   metal   reggae   rock   world
  blues   0.665   0.006389   0.072222   0.025833   0.048611   0.015278   0.04   0.043056   0.040556
  classical   0.016944   0.956667   0.017222   0.007222   0.023333   0.016111   0.002778   0.01   0.023333
  country   0.084722   0.007222   0.781111   0.028056   0.038611   0.028333   0.0375   0.058333   0.031111
  hiphop   0.033056   0.001944   0.006389   0.8225   0.015556   0.004722   0.044722   0.028056   0.024722
  jazz   0.058889   0.012222   0.016944   0.014167   0.784722   0.002778   0.019167   0.028889   0.050556
  metal   0.0225   0.001667   0.013056   0.005   0.0025   0.893889   0.003333   0.056111   0.006111
  reggae   0.035833   0.000278   0.027778   0.048333   0.020556   0.003889   0.813889   0.027778   0.036389
  rock   0.046944   0.001944   0.048889   0.026944   0.023611   0.028333   0.012778   0.725   0.026667
  world   0.036111   0.011667   0.016389   0.021944   0.0425   0.006667   0.025833   0.022778   0.760556
  样本数   3600   3600   3600   3600   3600   3600   3600   3600   3600
SRC与SVM的对比
  SVM   SRC   提高
  blues   0.665   0.873333   0.208333
  classical   0.95667   0.988889   0.032222
  country   0.78111   0.895   0.113889
  hiphop   0.8225   0.936389   0.113889
  jazz   0.78472   0.911944   0.127222
  metal   0.89389   0.958889   0.065
  reggae   0.81389   0.927222   0.113333
  rock   0.725   0.898333   0.173333
  world   0.76056   0.9175   0.156944
  total   0.8003   0.9231   0.1228

Claims (4)

1.一种可提高检索性能的基于去相关稀疏映射音乐流派有监督自动分类方法,其特征是,包括下列步骤:
a建立有监督训练音乐样本数据库;
b对训练音乐样本提取短时音乐特征和节奏特征,短时音乐特征即美尔频率倒谱系数MFCC和音色特征;
c对提取的特征数据采用主分量分析PCA技术去噪和降维;
d将特征矩阵按流派类别分块,则A=[A1,A2,...,AK]为特征矩阵,K为音乐流派种类的个数,将特征矩阵A的每一列用二范数规范化,y为测试样本,用梯度下降法求出方程y=Ax的最小一范数解;
e确定y的种类为arg mini||y-Aδi(x)i||2,i=1,2,......,K,δ(x)的非零值为第i类。
2.如权利要求1所述的方法,其特征是,所述的建立有监督训练音乐样本数据库是通过相关渠道建立包括K种音乐流派的音乐文件夹,可以通过互联网下载或者专辑中获得,其中每一种音乐流派的数据库要尽可能包含不同的歌手,不同的专辑。
3.如权利要求1所述的方法,其特征是,所述的PCA去噪和降维是:去相关使每个特征符合不相关条件,降低特征的个数,同时实现了消除噪声的作用。
4.如权利要求1所述的方法,其特征是,步骤b还包括:对短时音乐特征求平均值和标准偏差组成特征矩阵;步骤c还包括:求取特征矩阵的协方差矩阵;求出协方差矩阵的全部特征值,并选取大于0.00001的特征值实现降维和去噪。
CN2011100564833A 2011-03-09 2011-03-09 去相关稀疏映射音乐流派有监督自动分类方法 Active CN102129456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100564833A CN102129456B (zh) 2011-03-09 2011-03-09 去相关稀疏映射音乐流派有监督自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100564833A CN102129456B (zh) 2011-03-09 2011-03-09 去相关稀疏映射音乐流派有监督自动分类方法

Publications (2)

Publication Number Publication Date
CN102129456A CN102129456A (zh) 2011-07-20
CN102129456B true CN102129456B (zh) 2012-07-04

Family

ID=44267538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100564833A Active CN102129456B (zh) 2011-03-09 2011-03-09 去相关稀疏映射音乐流派有监督自动分类方法

Country Status (1)

Country Link
CN (1) CN102129456B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186527B (zh) * 2011-12-27 2017-04-26 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103177722B (zh) * 2013-03-08 2016-04-20 北京理工大学 一种基于音色相似度的歌曲检索方法
CN104077382A (zh) * 2014-06-27 2014-10-01 德州学院 一种用于提高音频分类器的gdm特征选择方法
CN106202128A (zh) * 2015-05-08 2016-12-07 富士通株式会社 时序文件的分类方法和分类系统
CN106295717B (zh) * 2016-08-30 2019-07-12 南京理工大学 一种基于稀疏表示和机器学习的西洋乐器分类方法
CN106529585A (zh) * 2016-10-25 2017-03-22 天津大学 一种基于大间隔投影空间学习的钢琴乐谱难度识别方法
CN106649586A (zh) * 2016-11-18 2017-05-10 腾讯音乐娱乐(深圳)有限公司 一种音频文件的播放方法及装置
CN106548212B (zh) * 2016-11-25 2019-06-07 中国传媒大学 一种二次加权的knn音乐流派分类方法
CN106782583B (zh) * 2016-12-09 2020-04-28 天津大学 基于核范数的鲁棒音阶轮廓特征提取算法
CN107068125B (zh) * 2017-03-31 2021-11-02 北京小米移动软件有限公司 乐器控制方法及装置
CN109176541B (zh) * 2018-09-06 2022-05-06 南京阿凡达机器人科技有限公司 一种实现机器人跳舞的方法、设备和储存介质
CN110647656B (zh) * 2019-09-17 2021-03-30 北京工业大学 一种利用变换域稀疏化和压缩降维的音频检索方法
CN117975933B (zh) * 2023-12-29 2024-08-27 北京稀宇极智科技有限公司 音色混合方法和装置、音频处理方法和装置、电子设备、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1615204A1 (en) * 2004-07-09 2006-01-11 Sony Deutschland GmbH Method for classifying music
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1615204A1 (en) * 2004-07-09 2006-01-11 Sony Deutschland GmbH Method for classifying music
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备

Also Published As

Publication number Publication date
CN102129456A (zh) 2011-07-20

Similar Documents

Publication Publication Date Title
CN102129456B (zh) 去相关稀疏映射音乐流派有监督自动分类方法
Marchi et al. Multi-resolution linear prediction based features for audio onset detection with bidirectional LSTM neural networks
Mitrović et al. Features for content-based audio retrieval
Sailor et al. Auditory Filterbank Learning for Temporal Modulation Features in Replay Spoof Speech Detection.
CN103403710B (zh) 对来自音频信号的特征指纹的提取和匹配
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
Nagawade et al. Musical instrument identification using MFCC
Fook et al. Comparison of speech parameterization techniques for the classification of speech disfluencies
CN102486920A (zh) 音频事件检测方法和装置
CN104183245A (zh) 一种演唱者音色相似的歌星推荐方法与装置
López-Pabón et al. Cepstral analysis and Hilbert-Huang transform for automatic detection of Parkinson’s disease
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
Faek Objective gender and age recognition from speech sentences
Heise et al. Acoustic detection of bees in the field using CASA with focal templates
Hu et al. Singer identification based on computational auditory scene analysis and missing feature methods
CN112863517A (zh) 基于感知谱收敛率的语音识别方法
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
Mankad et al. On the performance of empirical mode decomposition-based replay spoofing detection in speaker verification systems
Prasasti et al. Identification of baby cry with discrete wavelet transform, mel frequency cepstral coefficient and principal component analysis
Song et al. Automatic vocal segments detection in popular music
CN115620731A (zh) 一种语音特征提取与检测方法
Fahmeeda et al. Voice Based Gender Recognition Using Deep Learning
Kumar et al. Hilbert Spectrum based features for speech/music classification
Donai et al. Classification of indexical and segmental features of human speech using low-and high-frequency energy
Kumari et al. Audio signal classification based on optimal wavelet and support vector machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201117

Address after: No.881 Yangxing Road, Zixing village, Xingdong street, Tongzhou District, Nantong City, Jiangsu Province

Patentee after: NANTONG JIEJING SEMICONDUCTOR TECHNOLOGY Co.,Ltd.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University

TR01 Transfer of patent right