CN106407960A - 基于多特征音乐体载的分类方法及系统 - Google Patents

基于多特征音乐体载的分类方法及系统 Download PDF

Info

Publication number
CN106407960A
CN106407960A CN201610987074.8A CN201610987074A CN106407960A CN 106407960 A CN106407960 A CN 106407960A CN 201610987074 A CN201610987074 A CN 201610987074A CN 106407960 A CN106407960 A CN 106407960A
Authority
CN
China
Prior art keywords
wavelet
music
frequency
audio signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610987074.8A
Other languages
English (en)
Inventor
熊继平
王妃
蔡丽桑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN201610987074.8A priority Critical patent/CN106407960A/zh
Publication of CN106407960A publication Critical patent/CN106407960A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Abstract

本发明提供了一种基于多特征音乐体载的分类方法及系统,方法为:获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;对每一帧音频信号做离散小波变换,提取小波域特征;将频域特征和小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;将统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。本发明基于多特征音乐体载的分类方法及系统,把提取的频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个多维的向量,通过Logistic回归作为分类器,对音乐体裁进行分类识别,取得了较高的识别精度和分类效果。

Description

基于多特征音乐体载的分类方法及系统
技术领域
本发明涉及基于音乐内容检索领域,尤其涉及基于多特征音乐体载的分类方法及系统。
背景技术
随着音乐数据库中音乐数目的急剧增加,人们在海量的音乐信息中快速获得自己感兴趣的音乐体裁或者对大数据音乐进行体裁分类变得越来越困难,这就导致了基于音乐内容检索技术的兴起。音乐体裁的分类作为音乐内容检索技术中重要的一环,其研究日益引起人们的重视。音乐体裁的分类实际上就是音乐音频的分类,音乐的音频是一个随机的非平稳信号,音频的非语义符号表示和无结构化组织的特点增加了体裁分类的难度,因此,如何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是解决问题的关键。
音频分类本质上是一个模式识别过程,包括特征提取与分类两个基本过程。在现有技术中,大多是基于频域特征梅尔倒频谱系数或者是小波域特征对音乐题材进行分类的,并不能充分利用音乐体裁的特征,因此获得的分类效率并不是很高。
因此,现有技术中的技术缺陷是:基于频域特征梅尔倒频谱系数或者是小波域特征对音乐题材进行分类,对音乐体载特征的提取不充分,导致分类效率低,分类识别精度低,效果不理想。
发明内容
针对上述技术问题,本发明提供一种基于多特征音乐体载的分类方法及系统,在提取每一帧频域特征梅尔倒频谱系数(MFCC)的同时,也对每一帧信号做离散小波变换,提取小波域特征;把频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个多维的向量,通过Logistic回归作为分类器,对音乐体裁进行分类识别,取得了较高的识别精度和分类效果。
为解决上述技术问题,本发明提供的技术方案是:
第一方面,本发明提供一种基于多特征音乐体载的分类方法,包括:
步骤S1,获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;
步骤S2,对所述每一帧音频信号做离散小波变换,提取小波域特征;
步骤S3,将所述频域特征和所述小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;
步骤S4,将所述统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明基于多特征音乐体载的分类方法,其技术方案为:获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;对所述每一帧音频信号做离散小波变换,提取小波域特征;将所述频域特征和所述小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;将所述统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明基于多特征音乐体载的分类方法,在提取每一帧频域特征梅尔倒频谱系数(MFCC)的同时,也对每一帧信号做离散小波变换,提取小波域特征;把频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个多维的向量,通过Logistic回归作为分类器,对音乐体裁进行分类识别,取得了较高的识别精度和分类效果。
进一步地,所述步骤S1中,所述提取每一帧音频信号的多个梅尔倒频谱系数,具体为:
对每一帧音频信号进行快速傅里叶变换,得到所述每一帧音频信号的频谱;
对所述每一帧音频信号的频谱进行滤波,得到频谱能量;
对所述频谱能量取对数,进行离散余弦变换,得到多维梅尔倒频谱系数。
进一步地,所述步骤S2中,所述提取小波域特征,具体为:
对每一帧音频信号进行离散小波域变换,得到小波变换域;
根据所述小波变换域,提取多维小波域特征。
进一步地,所述步骤S3中,所述多个音乐体裁特征值的构造,具体为:
计算多个梅尔倒频谱系数的平均值;
计算所述多帧信号的能量平均值、方差,计算总的低能量帧的能量数,所述低能量帧为能量小于平均能量0.5倍的帧;
计算所述多帧信号的质心、带宽、过零点的均值;
计算所述多帧信号的基音变换率和等基音频率比例;
将上述特征值组成的多维向量,形成统计特征,所述统计特征作为所述Logistic回归分类器的输入。
进一步地,所述步骤S4中,所述统计特征向量的构成,具体为:
在每个统计特征上都乘以一个回归系数,得到统计特征向量;
将所述统计特征向量输入所述预先训练好的Logistic回归分类器,得到一个范围在0-1之间的数值,实现音乐体载的分类,所述Logistic回归分类器是利用Sigmoid函数构成的分类器。
第二方面,本发明提供一种基于多特征音乐体载的分类系统,包括:
频域特征提取模块,用于获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;
小波域特征提取模块,用于对所述每一帧音频信号做离散小波变换,提取小波域特征;
统计特征向量生成模块,用于将所述频域特征和所述小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;
音乐分类模块,用于将所述统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明的基于多特征音乐体载的分类系统,其技术方案为:先通过频域特征提取模块,获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;然后通过小波域特征提取模块,对所述每一帧音频信号做离散小波变换,提取小波域特征;接着通过统计特征向量生成模块,将所述频域特征和所述小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;最后通过音乐分类模块,将所述统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明的基于多特征音乐体载的分类系统,在提取每一帧频域特征梅尔倒频谱系数(MFCC)的同时,也对每一帧信号做离散小波变换,提取小波域特征;把频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个多维的向量,通过Logistic回归作为分类器,对音乐体裁进行分类识别,取得了较高的识别精度和分类效果。
进一步地,所述频域特征提取模块中,包括梅尔倒频谱系数提取子模块,用于:
对每一帧音频信号进行快速傅里叶变换,得到所述每一帧音频信号的频谱;
对所述每一帧音频信号的频谱进行滤波,得到频谱能量;
对所述频谱能量取对数,进行离散余弦变换,得到多维梅尔倒频谱系数。进一步地,所述小波域特征提取模块中,包括小波域特征提取子模块,用于:
对每一帧音频信号进行离散小波域变换,得到小波变换域;
根据所述小波变换域,提取多维小波域特征。
进一步地,所述统计特征向量生成模块中,包括特征值构造子模块,用于:
计算多个梅尔倒频谱系数的平均值;
计算所述多帧信号的能量平均值、方差,计算总的低能量帧的能量数,所述低能量帧为能量小于平均能量0.5倍的帧;
计算所述多帧信号的质心、带宽、过零点的均值;
计算所述多帧信号的基音变换率和等基音频率比例;
将上述特征值组成的多维向量,形成统计特征,所述统计特征作为所述Logistic回归分类器的输入。
进一步地,所述音乐分类模块中,包括统计特征构成子模块,用于:
在每个统计特征上都乘以一个回归系数,得到统计特征向量;
将所述统计特征向量输入所述预先训练好的Logistic回归分类器,得到一个范围在0-1之间的数值,实现音乐体载的分类,所述Logistic回归分类器是利用Sigmoid函数构成的分类器。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法的流程图;
图2示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法中提取梅尔倒频谱系数的流程图;
图3示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法中提取小波域特征的流程图;
图4示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法中归一化自相关函数的示意图;
图5示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法中的统计特征值向量构成示意图;
图6示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法中的Logistic回归分类器示意图;
图7示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法中的Sigmoid函数示意图;
图8示出了本发明第二实施例所提供的一种基于多特征音乐体载的分类系统的示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
实施例一
图1示出了本发明第一实施例所提供的一种基于多特征音乐体载的分类方法的流程图;如图1所示,本发明第一实施例提供了一种基于多特征音乐体载的分类方法,包括:
步骤S1,获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;
步骤S2,对每一帧音频信号做离散小波变换,提取小波域特征;
步骤S3,将频域特征和小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;
步骤S4,将统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明基于多特征音乐体载的分类方法,其技术方案为:获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;对每一帧音频信号做离散小波变换,提取小波域特征;将频域特征和小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;将统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明基于多特征音乐体载的分类方法,在提取每一帧频域特征梅尔倒频谱系数(MFCC)的同时,也对每一帧信号做离散小波变换,提取小波域特征;把频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个多维的向量,通过Logistic回归作为分类器,对音乐体裁进行分类识别,取得了较高的识别精度和分类效果。
参见图2,步骤S1中,提取每一帧音频信号的多个梅尔倒频谱系数,具体为:
步骤S101,对每一帧音频信号进行快速傅里叶变换,得到每一帧音频信号的频谱;
步骤S102,对每一帧音频信号的频谱进行滤波,得到频谱能量;
步骤S103,对频谱能量取对数,进行离散余弦变换,得到多维梅尔倒频谱系数。
提取每一帧音频信号的多个梅尔倒频谱系数过程:
首先,将每一帧音频信号进行快速傅里叶变换,得到其频谱;
然后,通过Mel滤波器组在频域进行带通滤波,并对没个频带的能量叠加得到频谱能量;
最后,将滤波器组的输出能量取对数,做离散余弦变换,得到多个梅尔倒频谱系数。
计算公式如下:
其中,x(k)为频谱能量,M为Mel滤波器个数,j为MFCC维数,本发明中j取13。
其中,对信号进行快速傅里叶变换,具体过程如下:
1)、在进行快速傅里叶变换之前,要先将音频信号s(n)通过高频滤波器进行预强调,得到预强调后的讯号,参见公式(2);
s2(n)s2(n)=s(n)-a*s(n-1) (2)
通过预强调处理后的信号,可以消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所压抑的高频部分。
2)、然后再将信号进行分帧处理,每一帧的长度是256,帧重叠为96。
3)、接着将每一帧乘以汉明窗,以增加音框左端和右端的连续性。
4)、最后再进行快速傅里叶变换,得到音频信号在频谱上的能量分布,即频谱能量。
经过快速傅里叶变换后,还要进行离散余弦变换,具体的过程是:
1)、用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;
2)、对三角窗滤波器组的输出求取对数,得到近似于同态变换的结果;
3)、最后进行离散余弦变换,去除各维信号之间的相关性,将信号映射到低维空间,根据离散余弦变换提取13维梅尔倒频谱系数,这样就得到了梅尔倒频谱系数。
优选地,由于MFCC是从每个短时音频帧中提取出来的,它们主要反映的是音频在很短时间内的静态特征,音频信号的动态特征可以用这些静态特征的差分来描述,把前后相邻帧的MFCC特征相减,就得到一阶差分MFCC系数,它可以反映这个音频的特征向量空间,能够相互弥补,很大程度上可以提高改善系统的识别性能。本发明中,把13维MFCC系数及13维一阶差分MFCC系数共同作为音频的频域特征。
参建图3,步骤S2中,提取小波域特征,具体为:
步骤S201,对每一帧音频信号进行离散小波域变换,得到小波变换域;
步骤S202,根据小波变换域,提取多维小波域特征。
小波分析方法是一种窗口大小固定但其形状可改变,时间窗和频率窗都可改变的时频局部化分析方法,即在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率。正是这种特性,使小波变换具有对信号的自适应性。
音频信号是一种频率随时间改变而改变的振动波形信号,属于非平稳信号,因此需要从音频信号中同时获得时间和频率信息。小波交换能够同时提取时域和频域的信息,因此可以作为傅里叶变换的一种替代方法,并且能够克服傅里叶变换的局限性。音频信号在计算机上实现时必须加以离散化,因此考虑离散小波变换。离散小波变换定义如下:
其中Ψ(·)叫做母小波,x(k)为采样信号,W(j,k)为离散化小波变换系数。
在信号的多分辨分解过程中,首先将原始信号S分解以后,其系数分为低频系数向量CA1和高频系数向量CD1,向量CA1由信号S与低通分解滤波器卷积运算得到,向量CD1由信号S和高通分解滤波器卷积运算得到;用同样的方法把低频系数向量CA1分解为低频系数CA2和高频系数向量CD2;依次类推,可以对信号进行多级分解。低频部分表征信号的本身特征,而高频部分表征信号的细微差别,如果只保留低频信号,仍可以辨别出说话的内容,但可能不太容易辨别说话人。但如果去除了低频部分,就只能听到一些噪声圈。因此,经过小波变换后,可只保留信号的低频部分,即信号的小波近似系数,这样即可表征原始信号,又可减少数据量。本发明采用了3层分解,并将近似系数CA3作为新的信号来表征原始信号进行处理,得到离散信号。
优选地,采用DB4小波对离散信号进行处理,由于音频信号是非平稳的信号,大多数音频信号的能量分布比较集中,音频信号重构时,应该使重构信号的失真较小且比较平滑,因此选取的小波首先必须满足紧支集、消失矩和正则性。其次也要便于计算。实验中发现,应用DB4小波对音频信号进行处理取得的效果较为理想。根据DB4小波变换得到的变换域,提取多维小波域特征,多维小波域特征包括过零点、帧能量、质心、带宽、基因频率等8维小波域特征。
其中,音频特征提取可以基于两种不同的时间长度,一种是基于音频帧(audioframe)的特征提取,持续时间一般是几十毫秒;另一种是基于音频例子(audio clip)的特征提取,持续时间一般是几秒。在音频分类中,所选取的特征应该能够充分刻画音频在时频域的重要分类特性,对环境的改变具有鲁棒性和—般性。本发明是在小波域中提取音频例子的统计特征来进行分类,先将音频例子分为叠加帧,对每一音频帧提取特征,然后根据帧层次上的特征计算例子层次上的特征。
下面对过零点、帧能量、质心、带宽、基因频率做进一步说明:
(1)过零点
对每一帧的低频系数(CA3)进行特征提取,为了表示方便令CA3=xn,则xn(i)代表第n帧的第i个系数。过零点反映的是信号在经过小波变换后,低频子带小波系数的正负变化。为了防止噪声干扰,相邻系数之间要有一定幅度变化。计算公式如下:
xn(i)*xn(i+1)<0&&xn(i+1)-xn(i)>0.02 (4)过零点这个指标越小,反映信号越平稳,这在音乐风格上表现为节奏平稳,音频波动越小,反之亦然。
(2)帧能量
在时域中,音频信号的幅度分析可用于估计音频信号的特征,幅度分析包括幅度和能量两方面,由于音频的时域特性中的平均幅度与小波系数的平均幅度相对应,因此可以用小波系数来定义音频的能量特征。本文中,定义若—个音频例子(clip)被分为L帧,则第n帧(1≤n≤L)的帧能量的表示如下:
式中,K表示每一帧中的小波系数的个数,xn(i)表示第n帧的第i个小波系数。
(3)质心
在小波域中,质心定义为能量分布的中心。由于在不同的时间段内,音频信号的质心是不同的,从而质心特征可以作为一个典型的反映音频信号非平稳性的特征。质心定义如下:
(4)带宽
时频域分析中,带宽是衡量音频频域范围的指标,而在小波域中,带宽则反映了平均能量的分布范围,在不同的时间段内,音频信号的带宽是不一样的,因此带宽特征可以作为—个典型的反映音频信号非平稳性的特征。其定义如下:
(5)基音频率
基音频率是衡量音调高低的单位。音频信号S经小波变换后取其近似系数CA3,作为新的信号xn(i),定义xn(i)的自相关函数Rn(m)为:
图4为本发明中的归一化自相关函数示意图。当N=60时,自相关取得最大值,基音频域等于
参见图5,步骤S3中,多个音乐体裁特征值的构造,具体为:
步骤S301,计算多个梅尔倒频谱系数的平均值;
步骤S302,计算多帧信号的能量平均值、方差,计算总的低能量帧的能量数,低能量帧为能量小于平均能量0.5倍的帧;
步骤S303,计算多帧信号的质心、带宽、过零点的均值;
步骤S304,计算多帧信号的基音变换率和等基音频率比例;
步骤S305,将上述特征值组成的多维向量,形成统计特征,统计特征作为Logistic回归分类器的输入。
参见图6和图7,步骤S4中,统计特征向量的构成,具体为:
步骤S401,在每个统计特征上都乘以一个回归系数,得到统计特征向量;
步骤S402,将统计特征向量输入预先训练好的Logistic回归分类器,得到一个范围在0-1之间的数值,实现音乐体载的分类,Logistic回归分类器是利用Sigmoid函数构成的分类器。
本申请实施例提出了一种基于小波变换域的音乐体裁分类方法,在提取每一帧频域特征梅尔倒频谱系数(MFCC)的同时,也对每一帧信号做离散小波变换,提取小波域特征。把频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个20维的向量,这些特征包括13个MFCC系数、过零点数、能量均值、能量方差、低帧能量比、质心、基音频率、带宽。
Sigmoid函数是一个良好的阈值函数,具有连续,光滑,严格单调的特性,通过Sigmoid函数构成Logistic回归分类器,可提高分类精度。
Logistic regression(逻辑回归),是一种分类方法,用于二分类问题(即输出只有两种)。通常两类使用类别标号0和1表示,0表示不发生,1表示发生。例如:有100个手机,其中有30个是你喜欢的,70个是不喜欢的。现预测你对第101个手机的喜好。这是一个两类问题,喜欢与不喜欢。
显然这是一个二分类问题,我们对第101个手机进行预测分类,分为喜欢和不喜欢两个类别。通过Logistic回归作为分类器,对音乐进行分类识别,取得了较高的识别精度。
实施例二
图8示出了本发明第二实施例所提供的一种基于多特征音乐体载的分类系统的示意图。如图8所示,本发明第二实施例提供一种基于多特征音乐体载的分类系统10,包括:
频域特征提取模块101,用于获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;
小波域特征提取模块102,用于对每一帧音频信号做离散小波变换,提取小波域特征;
统计特征向量生成模块103,用于将频域特征和小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;
音乐分类模块104,用于将统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明的基于多特征音乐体载的分类系统10,其技术方案为:先通过频域特征提取模块101,获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;然后通过小波域特征提取模块102,对每一帧音频信号做离散小波变换,提取小波域特征;接着通过统计特征向量生成模块103,将频域特征和小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;最后通过音乐分类模块104,将统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
本发明的基于多特征音乐体载的分类系统10,在提取每一帧频域特征梅尔倒频谱系数(MFCC)的同时,也对每一帧信号做离散小波变换,提取小波域特征;把频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个多维的向量,通过Logistic回归作为分类器,对音乐体裁进行分类识别,取得了较高的识别精度和分类效果。
具体地,频域特征提取模块101中,包括梅尔倒频谱系数提取子模块,用于:
对每一帧音频信号进行快速傅里叶变换,得到每一帧音频信号的频谱;
对每一帧音频信号的频谱进行滤波,得到频谱能量;
对频谱能量取对数,进行离散余弦变换,得到多维梅尔倒频谱系数。
具体地,小波域特征提取模块102中,包括小波域特征提取子模块,用于:
对每一帧音频信号进行离散小波域变换,得到小波变换域;
根据小波变换域,提取多维小波域特征。
具体地,统计特征向量生成模块中103,包括特征值构造子模块,用于:
计算多个梅尔倒频谱系数的平均值;
计算多帧信号的能量平均值、方差,计算总的低能量帧的能量数,低能量帧为能量小于平均能量0.5倍的帧;
计算多帧信号的质心、带宽、过零点的均值;
计算多帧信号的基音变换率和等基音频率比例;
将上述特征值组成的多维向量,形成统计特征,统计特征作为Logistic回归分类器的输入。
具体地,音乐分类模块104中,包括统计特征构成子模块,用于:
在每个统计特征上都乘以一个回归系数,得到统计特征向量;
将统计特征向量输入预先训练好的Logistic回归分类器,得到一个范围在0-1之间的数值,实现音乐体载的分类,Logistic回归分类器是利用Sigmoid函数构成的分类器。
本发明提出了一种基于小波变换域的音乐体裁分类方法及系统,在提取每一帧频域特征梅尔倒频谱系数(MFCC)的同时,也对每一帧信号做离散小波变换,提取小波域特征。把频域特征和小波特征相结合计算其统计特征,这些统计特征融合成一个20维的向量,这些特征包括13个MFCC系数、过零点数、能量均值、能量方差、低帧能量比、质心、基音频率、带宽。
Sigmoid函数是一个良好的阈值函数,具有连续,光滑,严格单调的特性,通过Sigmoid函数构成Logistic回归分类器,可提高分类精度。
Logistic regression(逻辑回归),是一种分类方法,用于二分类问题(即输出只有两种)。通常两类使用类别标号0和1表示,0表示不发生,1表示发生。例如:有100个手机,其中有30个是你喜欢的,70个是不喜欢的。现预测你对第101个手机的喜好。这是一个两类问题,喜欢与不喜欢。
显然这是一个二分类问题,我们对第101个手机进行预测分类,分为喜欢和不喜欢两个类别。通过Logistic回归作为分类器,对音乐进行分类识别,取得了较高的识别精度。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.基于多特征音乐体载的分类方法,其特征在于,包括:
步骤S1,获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;
步骤S2,对所述每一帧音频信号做离散小波变换,提取小波域特征;
步骤S3,将所述频域特征和所述小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;
步骤S4,将所述统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
2.根据权利要求1所述基于多特征音乐体载的分类方法,其特征在于,
所述步骤S1中,所述提取每一帧音频信号的多个梅尔倒频谱系数,具体为:
对每一帧音频信号进行快速傅里叶变换,得到所述每一帧音频信号的频谱;
对所述每一帧音频信号的频谱进行滤波,得到频谱能量;
对所述频谱能量取对数,进行离散余弦变换,得到多维梅尔倒频谱系数。
3.根据权利要求1所述基于多特征音乐体载的分类方法,其特征在于,
所述步骤S2中,所述提取小波域特征,具体为:
对每一帧音频信号进行离散小波域变换,得到小波变换域;
根据所述小波变换域,提取多维小波域特征。
4.根据权利要求1所述基于多特征音乐体载的分类方法,其特征在于,
所述步骤S3中,所述多个音乐体裁特征值的构造,具体为:
计算多个梅尔倒频谱系数的平均值;
计算所述多帧信号的能量平均值、方差,计算总的低能量帧的能量数,所述低能量帧为能量小于平均能量0.5倍的帧;
计算所述多帧信号的质心、带宽、过零点的均值;
计算所述多帧信号的基音变换率和等基音频率比例;
将上述特征值组成的多维向量,形成统计特征,所述统计特征作为所述Logistic回归分类器的输入。
5.根据权利要求1所述基于多特征音乐体载的分类方法,其特征在于,
所述步骤S4中,所述统计特征向量的构成,具体为:
在每个统计特征上都乘以一个回归系数,得到统计特征向量;
将所述统计特征向量输入所述预先训练好的Logistic回归分类器,得到一个范围在0-1之间的数值,实现音乐体载的分类,所述Logistic回归分类器是利用Sigmoid函数构成的分类器。
6.基于多特征音乐体载的分类系统,其特征在于,包括:
频域特征提取模块,用于获取音乐体载中的多帧音频信号,提取每一帧音频信号频谱的多个梅尔倒频谱系数,得到频域特征;
小波域特征提取模块,用于对所述每一帧音频信号做离散小波变换,提取小波域特征;
统计特征向量生成模块,用于将所述频域特征和所述小波特征相结合计算,得到多个音乐体裁特征值,形成统计特征向量;
音乐分类模块,用于将所述统计特征向量输入预先训练好的Logistic回归分类器,对音乐进行分类识别。
7.根据权利要求6所述基于多特征音乐体载的分类系统,其特征在于,
所述频域特征提取模块中,包括梅尔倒频谱系数提取子模块,用于:
对每一帧音频信号进行快速傅里叶变换,得到所述每一帧音频信号的频谱;
对所述每一帧音频信号的频谱进行滤波,得到频谱能量;
对所述频谱能量取对数,进行离散余弦变换,得到多维梅尔倒频谱系数。
8.根据权利要求6所述基于多特征音乐体载的分类系统,其特征在于,
所述小波域特征提取模块中,包括小波域特征提取子模块,用于:
对每一帧音频信号进行离散小波域变换,得到小波变换域;
根据所述小波变换域,提取多维小波域特征。
9.根据权利要求6所述基于多特征音乐体载的分类系统,其特征在于,
所述统计特征向量生成模块中,包括特征值构造子模块,用于:
计算多个梅尔倒频谱系数的平均值;
计算所述多帧信号的能量平均值、方差,计算总的低能量帧的能量数,所述低能量帧为能量小于平均能量0.5倍的帧;
计算所述多帧信号的质心、带宽、过零点的均值;
计算所述多帧信号的基音变换率和等基音频率比例;
将上述特征值组成的多维向量,形成统计特征,所述统计特征作为所述Logistic回归分类器的输入。
10.根据权利要求6所述基于多特征音乐体载的分类系统,其特征在于,
所述音乐分类模块中,包括统计特征构成子模块,用于:
在每个统计特征上都乘以一个回归系数,得到统计特征向量;
将所述统计特征向量输入所述预先训练好的Logistic回归分类器,得到一个范围在0-1之间的数值,实现音乐体载的分类,所述Logistic回归分类器是利用Sigmoid函数构成的分类器。
CN201610987074.8A 2016-11-09 2016-11-09 基于多特征音乐体载的分类方法及系统 Pending CN106407960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610987074.8A CN106407960A (zh) 2016-11-09 2016-11-09 基于多特征音乐体载的分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610987074.8A CN106407960A (zh) 2016-11-09 2016-11-09 基于多特征音乐体载的分类方法及系统

Publications (1)

Publication Number Publication Date
CN106407960A true CN106407960A (zh) 2017-02-15

Family

ID=59230194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610987074.8A Pending CN106407960A (zh) 2016-11-09 2016-11-09 基于多特征音乐体载的分类方法及系统

Country Status (1)

Country Link
CN (1) CN106407960A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN110019931A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
CN110249320A (zh) * 2017-04-28 2019-09-17 惠普发展公司有限责任合伙企业 利用使用音频持续时间的机器学习模型进行的音频分类
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN111583890A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 音频分类方法和装置
CN113012713A (zh) * 2021-03-02 2021-06-22 哈尔滨理工大学 一种基于机器学习中逻辑回归算法的音乐流派分类方法
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
CN113658611A (zh) * 2021-08-11 2021-11-16 华南农业大学 一种基于cnn的粤剧流派分类和识别方法
CN114141244A (zh) * 2020-09-04 2022-03-04 四川大学 基于音频媒体分析的语音识别技术

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN103854646A (zh) * 2014-03-27 2014-06-11 成都康赛信息技术有限公司 一种实现数字音频自动分类的方法
CN103854661A (zh) * 2014-03-20 2014-06-11 北京百度网讯科技有限公司 一种提取音乐特征的方法及装置
CN105761728A (zh) * 2015-12-02 2016-07-13 中国传媒大学 中国典型听觉文化符号特征选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944359A (zh) * 2010-07-23 2011-01-12 杭州网豆数字技术有限公司 一种面向特定人群的语音识别方法
CN103854661A (zh) * 2014-03-20 2014-06-11 北京百度网讯科技有限公司 一种提取音乐特征的方法及装置
CN103854646A (zh) * 2014-03-27 2014-06-11 成都康赛信息技术有限公司 一种实现数字音频自动分类的方法
CN105761728A (zh) * 2015-12-02 2016-07-13 中国传媒大学 中国典型听觉文化符号特征选择方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHANCHUN GAO等: "An Effective Method on Content Based Music Feature Extraction", 《2015 IEEE ADVANCED INFORMATION TECHNOLOGY, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IAEAC)》 *
张有为 等著: "《人机自然交互》", 30 September 2004, 北京:国防工业出版社 *
李联宁: "《大数据技术及应用教程》", 31 October 2016, 北京:清华大学出版社 *
郑继明 等: "有效的基于内容的音频特征提取方法", 《计算机工程与应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110249320A (zh) * 2017-04-28 2019-09-17 惠普发展公司有限责任合伙企业 利用使用音频持续时间的机器学习模型进行的音频分类
CN110019931A (zh) * 2017-12-05 2019-07-16 腾讯科技(深圳)有限公司 音频分类方法、装置、智能设备和存储介质
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN111583890A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 音频分类方法和装置
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN111309965B (zh) * 2020-03-20 2024-02-13 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN114141244A (zh) * 2020-09-04 2022-03-04 四川大学 基于音频媒体分析的语音识别技术
CN113012713A (zh) * 2021-03-02 2021-06-22 哈尔滨理工大学 一种基于机器学习中逻辑回归算法的音乐流派分类方法
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
CN113658611A (zh) * 2021-08-11 2021-11-16 华南农业大学 一种基于cnn的粤剧流派分类和识别方法

Similar Documents

Publication Publication Date Title
CN106407960A (zh) 基于多特征音乐体载的分类方法及系统
Bhavan et al. Bagged support vector machines for emotion recognition from speech
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
CN109147807B (zh) 一种基于深度学习的音域平衡方法、装置及系统
CN110428842A (zh) 语音模型训练方法、装置、设备及计算机可读存储介质
CN106776713A (zh) 一种基于词向量语义分析的海量短文本聚类方法
CN106547789B (zh) 一种歌词生成方法及装置
CN109493881A (zh) 一种音频的标签化处理方法、装置和计算设备
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
Zottesso et al. Bird species identification using spectrogram and dissimilarity approach
CN102956237A (zh) 测量内容一致性的方法和设备、测量相似度的方法和设备
CN110600038B (zh) 一种基于离散基尼系数的音频指纹降维方法
Eshaghi et al. Voice activity detection based on using wavelet packet
CN109065071A (zh) 一种基于迭代k-means算法的歌曲聚类方法
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
CN107195312B (zh) 情绪宣泄模式的确定方法、装置、终端设备和存储介质
CN108172214A (zh) 一种基于Mel域的小波语音识别特征参数提取方法
Foucard et al. Multi-scale temporal fusion by boosting for music classification.
Kamaruddin et al. Features extraction for speech emotion
Hemery et al. One hundred ways to process time, frequency, rate and scale in the central auditory system: a pattern-recognition meta-analysis
Renisha et al. Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients
Zhang et al. Feature selection filtering methods for emotion recognition in Chinese speech signal
Prasasti et al. Identification of baby cry with discrete wavelet transform, mel frequency cepstral coefficient and principal component analysis
Pereira et al. Analysis of windowing techniques for speech emotion recognition
Kannapiran et al. Voice-based gender recognition model using FRT and light GBM

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215

RJ01 Rejection of invention patent application after publication