CN101599271A - 一种数字音乐情感的识别方法 - Google Patents

一种数字音乐情感的识别方法 Download PDF

Info

Publication number
CN101599271A
CN101599271A CNA2009100630359A CN200910063035A CN101599271A CN 101599271 A CN101599271 A CN 101599271A CN A2009100630359 A CNA2009100630359 A CN A2009100630359A CN 200910063035 A CN200910063035 A CN 200910063035A CN 101599271 A CN101599271 A CN 101599271A
Authority
CN
China
Prior art keywords
music
sigma
frequency
frame
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100630359A
Other languages
English (en)
Other versions
CN101599271B (zh
Inventor
王天江
刘芳
陈刚
龚立宇
余艳
李新仕
姜鑫维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2009100630359A priority Critical patent/CN101599271B/zh
Publication of CN101599271A publication Critical patent/CN101599271A/zh
Application granted granted Critical
Publication of CN101599271B publication Critical patent/CN101599271B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

一种数字音乐情感的识别方法,属于计算机模式识别领域,解决现有数字音乐情感识别方法不能针对基于采样的数字音乐格式进行识别的问题,采用基于多类支持向量机分类技术,结合声学特征参数与音乐乐理特征参数,进行数字音乐的情感识别。本发明包括:(1)预处理步骤;(2)特征提取步骤;(3)多类支持向量机训练步骤;(4)识别步骤。本发明将音乐情感分类为:高兴、激动、悲伤、放松四种,针对基于采样的数字音乐格式文件进行情感识别,不仅提取了语音识别领域常见的声学特征,还根据音乐的理论特点,提取了一系列的音乐乐理特征;同时采用了基于支持向量机的分类方法,学习速度快,分类精确率高,提高了识别效率。

Description

一种数字音乐情感的识别方法
技术领域
本发明属于计算机模式识别领域,具体涉及一种数字音乐情感的识别方法。
背景技术
现在,人们希望计算机具有人类的智能,使人机之间的交流象人与人之间的交流一样畅通无阻,以此让计算机发挥更大的作用。情感智能作为人类智能的重要组成部分,被认为是一个人走向成功所必不可少的甚至是最关键的因素。因此,要使计算机具有人类智能必然要求其具有情感智能。
音乐是音响的艺术,其最明显的特征,就是强烈的感情色彩。许多无法用语言准确描述的思想感情都可以通过音乐表达出来,数字音乐的情感识别问题就是希望计算机也能像人类一样对数字音乐所承载的情感因素进行识别,是计算机人工智能问题中的一个重要研究领域。数字音乐的计算机情感识别,是一个新兴的领域,其实质是对数字音乐文件进行特征参数提取,采用机器学习的方法进行分析与分类,其在人机交互、虚拟现实、电子图书馆等领域都有着广泛的应用。
现有的计算机音乐情感识别方法,如M.A.Casey,R.Veltkamp,M.Goto,M.Leman,C.Rhodes,and M.Slaney.Content-based MusicInformation Retrieval:Current Directions and Future Challenges.Proceedingsof the IEEE,Vol.96,No.4,April 2008.所述,主要针对基于音乐乐谱的数字音乐格式即MIDI格式上进行,这些方法对于现实生活中更加普遍的基于采样的数字音乐格式即WAV、MP3、WMA等格式无能为力。对于基于采样的数字音乐格式文件,可以简单的采用语音识别领域的常用声学特征参数来进行情感的识别,然而音乐作为数字音频的一种,本身经过长期的发展,积累了一套完整的音乐理论系统,拥有独特的阐释形式与组成要素,如音色、节拍、旋律等,称之为音乐乐理特征参数,这部分特征参数与音乐的情感有着必然的联系。
发明内容
本发明提供一种数字音乐情感的识别方法,解决现有数字音乐情感识别方法不能针对基于采样的数字音乐格式进行识别的问题,采用基于多类支持向量机分类技术,结合声学特征参数与音乐乐理特征参数,进行数字音乐的情感识别。
本发明的一种数字音乐情感的识别方法,包括:
(1)预处理步骤:将待识别的数字音乐文件和训练样本集的数字音乐文件进行处理,形成统一格式并分帧;所述训练样本集包括高兴、激动、悲伤、放松四种情感类型的数字音乐文件;
(2)特征提取步骤:对待识别的数字音乐文件和训练样本集中数字音乐文件的各帧音乐信号提取特征参数,所提取的特征参数包括声学特征参数和乐理特征参数,声学特征参数包括短时能量、频谱质心、频谱衰减截止频率、频谱流量、过零率、美尔倒谱系数;乐理特征参数包括音乐的音色、节拍特征;待识别的数字音乐文件各帧音乐信号的特征参数经平均后构成特征向量;将训练样本集各帧音乐信号提取的特征参数经平均后,构成特征参数矩阵;
(3)多类支持向量机训练步骤:将特征参数矩阵作为训练集,为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,由四个类别情感判定函数组成多类支持向量机的情感类别判定函数;
(4)识别步骤:将待识别的数字音乐文件的特征向量,输入已经训练好的多类支持向量机,得到数字音乐文件的情感类别。
所述的识别方法,其特征在于:
所述预处理步骤顺序包括下述子步骤:
(1)低通滤波子步骤:对待识别的数字音乐文件和训练样本集中数字音乐文件的音乐信号进行低通滤波,去除噪音;
(2)全波整流子步骤:对经过低通滤波的音乐信号进行平滑处理;
(3)归一化子步骤:对全波整流后音乐信号的采样频率、声道数、解析度一致化,形成统一格式的音乐信号;
(4)分帧子步骤:将统一格式的音乐信号分帧,每帧音乐信号的时间长为10~60ms,两帧音乐信号之间时间跨度为5~30ms。
所述的识别方法,其特征在于:
所述特征提取步骤包括声学特征提取子步骤、音乐乐理特征提取子步骤、特征向量构造子步骤和特征参数矩阵构造子步骤;
(1)声学特征提取子步骤提取每帧音乐信号的下述声学特征:
(1.1)短时能量Et
E t = Σ n = 1 N | X [ n ] |
其中X[n]表示第t帧内所含的第n个采样点的幅值,N=28~10,为每帧内采样点个数;
(1.2).频谱质心Ct
C t = Σ n = 1 T M t [ n ] * n Σ n = 1 T M t [ n ]
其中Mt[n]表示第t帧采样信号经过傅利叶变换后第n个频率子带的幅度,T为频域范围内共有子频带个数,质心反映了频谱形状,质心越高对应声音亮度越高,具有更多的高频部分;
(1.3).频谱衰减截止频率Rt
R t = arg [ Σ n 1 = 1 M t [ n 1 ] = 0.85 * Σ n = 1 T M t [ n ] * n ]
衰减截止频率Rt是频谱形状的另一种表示方式,为音频信号能量衰减3dB时的截止频率;
(1.4).频谱流量Ft
F t = Σ n = 1 T ( M t [ n ] - M t [ n - 1 ] ) 2
频谱流量是频谱变化量的和,体现音频信号的动态特征;
(1.5).过零率Zt
Z t = 1 2 Σ n = 1 N | sign ( X [ n ] ) - sign ( X [ n - 1 ] ) |
时域的过零率表示信号的频率,式中,X[n]≥0时,sign(X[n])=1;X[n]<0时,sign(X[n])=-1;
(1.6).美尔倒谱系数Dct`(r,t):
Dct′(r,t)=lift(r)*Dct(r,t)r=1,...,M,
其中, lift ( r ) = 1 + L 2 sin ( π ( r - 1 ) L ) , r = 1 , . . . , M
Dct ( r , t ) = a ( r ) Σ m = 1 M F Bank ( m , t ) cos ( π ( 2 m - 1 ) ( r - 1 ) 2 M ) , r = 1 , . . . , M ,
a ( 1 ) = 1 M , a ( r ) = 2 M r=2,...,M,M=1~40,为美尔倒谱系数的维数;
对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调,临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应,美尔标度是对这一临界带宽的度量方法之一,美尔倒谱系数是在美尔频率域提出来的倒谱特征参数;
(2)音乐乐理特征提取子步骤提取每帧音乐信号的下述音乐乐理特征:
(2.1)半音频率幅度xt cq
x t cq [ k ] = 1 N k &Sigma; n < N k X [ n ] w N k [ n ] e - 2 &pi;jnQ / N k
对每帧得到K=12~96个半音频率幅度,跨1~8个八度的音色特征;第t帧内第k个半音的频率幅度为xt cq[k],式中, N k = Q f s f k 表示第k个半音对应的窗口宽度,fs表示采样频率,fk表示第k个半音的频率, f k = f 0 &times; 2 k 12 ; f0为基本频率,标注为1;Q为一个常数, Q = f k f k + 1 - f k = 1 2 1 / 12 - 1 ; WNk[n]表示宽度为Nk的Hanning窗;
(2.2)节拍速度S
S = arg max x ( log Guass ( x ) ) ,
log Gauss ( x ) = 1 x&sigma; 2 &pi; exp [ - 1 2 &sigma; 2 ( ln x &mu; ) 2 ] * xcr ( x ) ,
式中:
xcr ( x ) = &Sigma; k Onset ( k ) * Onset ( x + k ) ,
Onset ( x ) = &Sigma; k = 1 N max [ 0 , x t cqt ( k ) - x t cqt ( k - 1 ) ] ;
音乐的节拍在一首歌曲内是保持稳定的,节拍最能反映音乐的情感。节奏明快的音乐常常让人感觉欢乐兴奋,节奏缓慢的音乐让人感觉压抑伤感,音乐的节拍与音乐信号的半音频率幅度值的变化有关,半音频率幅度的变化反映了音乐的节拍;
(3)特征向量构造子步骤
(3.1)将计算待识别的数字音乐文件所含每帧音乐信号提取出的声学特征参数和乐理特征参数组合在一起,形成p行q列的矩阵u:
u = u 11 u 21 &CenterDot; &CenterDot; &CenterDot; u p 1 u 12 u 22 &CenterDot; &CenterDot; &CenterDot; u p 2 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; u 1 q u 2 q &CenterDot; &CenterDot; &CenterDot; u pq
式中,矩阵元素uij为第i帧音乐信号的第j维特征,i=1~p,j=1~q;数字音乐文件中所含帧的个数p由所述预处理步骤的分帧子步骤确定;每帧音乐信号提取的特征参数的维数q=10~100,由每帧音乐信号的声学特征和音乐乐理特征的数量及维数确定;
(3.2)将矩阵u的每行矩阵元素进行平均,得到数字音乐文件对应的q行1列的特征向量U:
U = 1 p &Sigma; i = 1 p u i 1 &CenterDot; &CenterDot; &CenterDot; 1 p &Sigma; i = 1 p u iq
(4)特征参数矩阵构造子步骤
(4.1)将训练样本集中各数字音乐文件对应的特征向量构成q行z列的矩阵:
U 11 U 22 &CenterDot; &CenterDot; &CenterDot; U z 1 U 12 U 22 &CenterDot; &CenterDot; &CenterDot; U z 2 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; U 1 q U 2 q &CenterDot; &CenterDot; &CenterDot; U zq
式中,矩阵的每一列Ui为第i个数字音乐文件对应的特征向量,i=1~z,z为训练样本集中数字音乐文件的个数;
(4.2)结合已知的训练训练样本集中数字音乐文件对应的情感类别符号,构造特征参数矩阵K:
K = U 11 U 22 &CenterDot; &CenterDot; &CenterDot; U z 1 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; U 1 q U 2 q &CenterDot; &CenterDot; &CenterDot; U zq L 1 L 2 &CenterDot; &CenterDot; &CenterDot; L z
式中,Li表示第i个数字音乐文件对应的特征向量Ui对应的情感类别符号,Li取值为高兴、激动、悲伤、放松四种情感类型中的一种。
所述的识别方法,其特征在于:
所述特征提取步骤的声学特征提取子步骤中,提取美尔倒谱系数的过程为:
(1)将音乐信号经过傅利叶变换后n个频率子带的线性频率fhz变换到美尔频率fmel上:
f mel = 1127 ln ( 1 + f hz 700 ) ,
将美尔频率fmel均匀分为M段,M=1~40,其中,第m个美尔分段频率Melm
Mel m = m &times; 1127 ln ( 1 + f s / 2 700 ) / M , m = 1 , . . . , M ;
式中,fs为音乐信号的采样频率;
(2)将第m个美尔分段频率映射到对应的线性频率Linm
Linm=(exp(Melm/1127)-1)×700m=1,...,M
(3)计算美尔滤波器组在各个线性频率上的抽头系数:
Figure A20091006303500183
式中Hm(k)表示第m个美尔滤波器在第k个线性频率上的抽头系数,N表示频域范围内子频带个数;第k个线性频率的频率值fk为:
fk=k×Fs/N,k=1,...,N
(4)提取对数谱特征:
提取的第t帧信号的第m维对数谱特征FBank(m,t):
FBank(m,t)=log(MBank(m,t))m=1,...,M
其中Mbank(m,t)表示提取的第t帧信号的第m维美尔谱特征:
M Bank ( m , t ) = &Sigma; k = 1 N H m ( k ) &times; Y p ( k , t ) , m = 1 , . . . , M ;
(5)将第t帧信号的第m维对数谱特征FBank(m,t)进行离散余弦变换,得到第t帧信号的第r维倒谱系数Dct(r,t):
Dct ( r , t ) = a ( r ) &Sigma; m = 1 M F Bank ( m , t ) cos ( &pi; ( 2 m - 1 ) ( r - 1 ) 2 M ) , r = 1 , . . . , M ,
其中
a ( 1 ) = 1 M , a ( r ) = 2 M , r = 2 , . . . , M ;
(6)倒谱滤波,提取美尔倒谱系数Dct`(r,t):
Dct′(r,t)=lift(r)*Dct(r,t)r=1,...,M,
lift ( r ) = 1 + L 2 sin ( &pi; ( r - 1 ) L ) , r = 1 , . . . , M ,
其中L为加权滤波器宽度。
所述的识别方法,其特征在于:
所述特征提取步骤的音乐乐理特征提取子步骤中,提取音乐节拍速度的过程为:
(5)计算半音频率幅度变化,得到能量变化序列Onset(x):
Onset ( x ) = &Sigma; k = 1 N max [ 0 , x t cqt ( k ) - x t cqt ( k - 1 ) ]
其中xt cqt(k)为x时刻第k个半音频率幅度,音乐信号的半音频率幅度的一阶差分和反映了音乐信号能量的振荡变化;
(6)对能量变化序列根据自相关函数进行周期估计,得到自相关序列xcr(x):
xcr ( x ) = &Sigma; k Onset ( x ) &times; Onset ( x + k ) ;
(7)采用对数高斯分布函数对自相关序列xcr(x)加权:
log Gauss ( x ) = 1 x&sigma; 2 &pi; exp [ - 1 2 &sigma; 2 ( ln x &mu; ) 2 ] &times; xcr ( x ) ;
为凸显自相关序列有效范围内的数据值,假设音乐拍速在此区间内符合对数高斯分布,可以采用对数高斯分布函数对自相关序列xcr(x)加权;
(8)计算加权后自相关序列最大时x的值,得到音乐节拍速度S:
S = arg max x ( log Guass ( x ) ) .
所述的识别方法,其特征在于:
所述多类支持向量机训练步骤包括下述子步骤:
(2)构造情感判定函数子步骤:为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,过程如下:
(1.1)对情感类别符号进行量化:
对第i个数字音乐文件对应的情感类别符号Li量化,
当Li与当前训练的情感类别相同时,Li=1,
当Li与当前训练的情感类别不相同时,Li=-1;
(1.2)求参数ai *,b*的最优解,
在约束条件: &Sigma; i = 1 z a i L i = 0 , a i &GreaterEqual; 0 ,
下,求下式最大值对应的ai,作为最优解ai *
&Sigma; i = 1 z a i - 1 2 &Sigma; i , j z a i a j L i L j ( U i &CenterDot; U j ) ,
根据: w = a i * &Sigma; i = 1 z L i U i
和Li(w·Ui+b)-1=0,i=1~z,
得到b作为最优解b*;式中Ui表示训练样本集中第i个数字音乐文件的特征向量,Li为对应的情感类别,z为训练样本的个数;
(1.3)构造具有连续输出值的当前训练的情感类别的情感判定函数f(U)为:
f ( U ) = &Sigma; i = 1 z a i * L i K ( U , U i ) + b *
式中核函数K符合MERCER定理;
(1.4)重复过程(1.1)~(1.3),得到4种情感判定函数;
(2)构造多类支持向量机子步骤:
将4种情感判定函数结合在一起:
f 1 ( U ) = &Sigma; i = 1 z &alpha; i 1 * L i 1 K ( U , U i 1 ) + b 1 *
.
.
.
f 4 ( U ) = &Sigma; i = 1 z &alpha; i 4 * L i 4 K ( U , U ic ) + b 4 *
多类支持向量机的情感类别判定函数为:
f &prime; ( U ) &equiv; arg max j = 1 , . . 4 ( &Sigma; i = 1 z &alpha; ij * L ij K ( U , U ij ) + b j * ) .
本发明没有采用传统的针对MIDI格式的数字音乐文件进行分类,而是针对更具代表性的基于采样的数字音乐格式文件进行情感识别。在进行情感识别时,为了更加丰富的描述音乐内容,提高识别效率,不仅提取了语音识别领域常见的声学特征,还根据音乐的理论特点,提取了一系列的音乐乐理特征;同时采用了机器学习领域新兴的基于支持向量机的分类方法,确保了分类的效率,支持向量机是来源于统计学习理论的一种新兴机器学习算法,其主要思想就是将原始的数据空间通过一个核函数转换到另一个高维特征空间,并在新的空间实现最优分类。它克服了下述问题:矢量分割法等过于简单,不能够取得好的识别率;神经网络的方法虽然具有较高的非线性和较强的分类能力,但是需要较长的学习时间;隐性马尔可夫模型在建立和训练时间上较长,计算复杂度过高。本发明采用多类支持向量机作为分类工具,支持向量机作为一种分类工具,具有坚实的理论基础,具有公认的学习速度快,分类精确率高的优点,对于小训练样本库也可以得到较好的结果。
附图说明
图1为本发明的流程框图;
图2为数字音乐文件的波形示意图;
图3为数字音乐文件的节拍速度示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明包括(1)预处理步骤;(2)特征提取步骤;(3)多类支持向量机训练步骤;(4)识别步骤。
本实施例基于西班牙Pompeu Fabra大学Cyril等建立的包括高兴、悲伤、兴奋、激动四种情感建立的四种音乐情感数据库。该数据库中每种情感音乐有100个数字音乐文件,每个音乐文件时间长为60秒。将数据库中每类情感数字音乐文件按照9∶1的比例分为两部分,一部分作为样本训练数据集,一部分作为待识别数据集。
1.预处理步骤
将待识别的数字音乐文件和训练样本集中数字音乐文件经过低通滤波、全波整流和规一化子步骤后,形成的统一格式为22050赫兹采样率、单声道、16位解析度的标准音乐信号,并按照时间长30ms,时间跨度15ms进行分帧。
2.特征提取步骤
对经过特征提取步骤后的待识别的数字音乐文件和训练样本集中数字音乐文件提取语音特征和乐理特征。在提取声学特征时,每个数字音乐文件时间长为60秒,总共分为2000帧,每帧所含采样点个数为665个。由于采样频率为22050赫兹,共分为665个频率子带。在计算美尔倒谱系数时,设置美尔倒谱系数的维数为20。
在提取乐理特征时,对于半音频率幅度的提取采用以C3作为基本参考频率,共得到60维,跨5个八度的音色特征。在进行节拍估计的时候,设置均值设为120,方差为0.6,这样的参数值也正符合拍速的分布规律。以其中一首数字音乐为例,图2表示数字音乐文件的波形图,横轴表示时间,单位为秒,纵轴表示幅度;图3表示数字音乐文件的节拍速度示意图,横轴表示时间,单位为秒,纵轴表示节拍幅度,幅度最大点对应着歌曲的节拍速度。
构造待识别数字音乐文件的特征向量和训练样本集的特征参数矩阵,其中特征向量的维数为86,特征参数矩阵的行数为86,列数为900。
3.多类支持向量机训练步骤
将训练样本集对应的特征参数矩阵输入多类支持向量机进行训练,得到4个代表4种情感类别的情感判定函数。支持向量机可选的核函数有线性函数、多项式函数、径向基函数、二层神经网络函数,本实施例选择的核函数为径向基函数:
K ( x , y ) = e - | x - y | 2 &sigma; 2
其中σ的值为特征向量维数的倒数,也就是1/86。
4.识别步骤
将待识别的数字音乐文件对应的特征向量输入训练好的多类支持向量机进行识别,得到数字音乐文件的情感类别,作为判别结果。
本发明从Cyril等所建立的音乐情感数据库中选取900数字音乐文件作为训练样本集,另外100个数字音乐文件为待识别样本,共进行30次的交叉验证。每次测试时,所有情感的平均识别正确率为(0.823,0.768,0.813,0.735,0.744,0.842,0.801,0.742,0.793,0.839,0.772,0.815,0.806,0.839,0.815,0.826,0.818,0.829,0.786,0.797,0.834,0.811,0.798,0.768,0.83,0.807,0.803,0.792,0.783,0.788),总的平均正确率为85.06%相对于传统的基于最近邻居情感识别方法,识别准确率提高了10.3%。

Claims (6)

1.一种数字音乐情感的识别方法,包括:
(1)预处理步骤:将待识别的数字音乐文件和训练样本集的数字音乐文件进行处理,形成统一格式并分帧;所述训练样本集包括高兴、激动、悲伤、放松四种情感类型的数字音乐文件;
(2)特征提取步骤:对待识别的数字音乐文件和训练样本集中数字音乐文件的各帧音乐信号提取特征参数,所提取的特征参数包括声学特征参数和乐理特征参数,声学特征参数包括短时能量、频谱质心、频谱衰减截止频率、频谱流量、过零率、美尔倒谱系数;乐理特征参数包括音乐的音色、节拍特征;待识别的数字音乐文件各帧音乐信号的特征参数经平均后构成特征向量;将训练样本集各帧音乐信号提取的特征参数经平均后,构成特征参数矩阵;
(3)多类支持向量机训练步骤:将特征参数矩阵作为训练集,为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,由四个类别情感判定函数组成多类支持向量机的情感类别判定函数;
(4)识别步骤:将待识别的数字音乐文件的特征向量,输入已经训练好的多类支持向量机,得到数字音乐文件的情感类别。
2.如权利要求1所述的识别方法,其特征在于:
所述预处理步骤顺序包括:
(1)低通滤波子步骤:对待识别的数字音乐文件和训练样本集中数字音乐文件的音乐信号进行低通滤波,去除噪音;
(2)全波整流子步骤:对经过低通滤波的音乐信号进行平滑处理;
(3)归一化子步骤:对全波整流后音乐信号的采样频率、声道数、解析度一致化,形成统一格式的音乐信号;
(4)分帧子步骤:将统一格式的音乐信号分帧,每帧音乐信号的时间长为10~60ms,两帧音乐信号之间时间跨度为5~30ms。
3.如权利要求1所述的识别方法,其特征在于:
所述特征提取步骤包括声学特征提取子步骤、音乐乐理特征提取子步骤、特征向量构造子步骤和特征参数矩阵构造子步骤;
(1)声学特征提取子步骤提取每帧音乐信号的下述声学特征:
(1.1)短时能量Et
E t = &Sigma; n = 1 N | X [ n ] |
其中X[n]表示第t帧内所含的第n个采样点的幅值,N=28~10,为每帧内采样点个数;
(1.2).频谱质心Ct
C t = &Sigma; n = 1 T M t [ n ] * n &Sigma; n = 1 T M t [ n ]
其中Mt[n]表示第t帧采样信号经过傅利叶变换后第n个频率子带的幅度,T为频域范围内共有子频带个数,质心反映了频谱形状,质心越高对应声音亮度越高,具有更多的高频部分;
(1.3).频谱衰减截止频率Rt
R t = arg [ &Sigma; n 1 = 1 M t [ n 1 ] = 0.85 * &Sigma; n = 1 T M t [ n ] * n ]
衰减截止频率Rt是频谱形状的另一种表示方式,为音频信号能量衰减3dB时的截止频率;
(1.4).频谱流量Ft
F t = &Sigma; n = 1 T ( M t [ n ] - M t [ n - 1 ] ) 2
频谱流量是频谱变化量的和,体现音频信号的动态特征;
(1.5).过零率Zt
Z t = 1 2 &Sigma; n = 1 N | sign ( X [ n ] ) - sign ( X [ n - 1 ] ) |
时域的过零率表示信号的频率,式中,X[n]≥0时,sign(X[n])=1;X[n]<0时,sign(X[n])=-1;
(1.6).美尔倒谱系数Dct`(r,t):
Dct′(r,t)=lift(r)*Dct(r,t)    r=1,...,M,
其中, lift ( r ) = 1 + L 2 sin ( &pi; ( r - 1 ) L ) r=1,...,M
Dct ( r , t ) = a ( r ) &Sigma; m = 1 M F bank ( m . t ) cos ( &pi; ( 2 m - 1 ) ( r - 1 ) 2 M ) r=1,...,M,
a ( 1 ) = 1 M , a ( r ) = 2 m r=2,...,M,M=1~40,为美尔倒谱系数的维数;
(2)音乐乐理特征提取子步骤提取每帧音乐信号的下述音乐乐理特征:
(2.1)半音频率幅度xt cq
x t cq [ k ] = 1 N k &Sigma; n < N k X [ n ] w N k [ n ] e - 2 &pi;jnQ / N k
对每帧得到K=12~96个半音频率幅度,跨1~8个八度的音色特征;第t帧内第k个半音的频率幅度为xt cq[k],式中, N k = Q f s f k 表示第k个半音对应的窗口宽度,fs表示采样频率,fk表示第k个半音的频率,
f k = f 0 &times; 2 k 12 ; f0为基本频率,标注为1;Q为一个常数,
Q = f k f k + 1 - f k = 1 2 1 / 12 - 1 ; WNk[n]表示宽度为Nk的Hanning窗;
(2.2)节拍速度S
S = arg max x ( log Guass ( x ) ) ,
log Gauss ( x ) = 1 x&sigma; 2 &pi; exp [ - 1 2 &sigma; 2 ( ln x &mu; ) 2 ] * xcr ( x ) ,
式中:
xcr ( x ) = &Sigma; k Onset ( k ) * Onset ( x + k ) ,
Onset ( x ) = &Sigma; k = 1 N max [ 0 , x t cqt ( k ) - x t cqt ( k - 1 ) ] ;
(3)特征向量构造子步骤
(3.1)将计算待识别的数字音乐文件所含每帧音乐信号提取出的声学特征参数和乐理特征参数组合在一起,形成p行q列的矩阵u:
u = u 11 u 21 . . . u p 1 u 12 u 22 . . . u p 2 . . . . . . . . . u 1 q u 2 q . . . u pq
式中,矩阵元素uij为第i帧音乐信号的第j维特征,i=1~p,j=1~q;数字音乐文件中所含帧的个数p由所述预处理步骤的分帧子步骤确定;每帧音乐信号提取的特征参数的维数q=10~100,由每帧音乐信号的声学特征和音乐乐理特征的数量及维数确定;
(3.2)将矩阵u的每行矩阵元素进行平均,得到数字音乐文件对应的q行1列的特征向量U:
U = 1 p &Sigma; i = 1 p u i 1 . . . 1 p &Sigma; i = 1 p u iq
(4)特征参数矩阵构造子步骤
(4.1)将训练样本集中各数字音乐文件对应的特征向量构成q行z列的矩阵:
U 11 U 12 . . . U z 1 U 12 U 22 . . . U z 2 . . . . . . . . . U 1 q U 2 q . . . U zq
式中,矩阵的每一列Ui为第i个数字音乐文件对应的特征向量,i=1~z,z为训练样本集中数字音乐文件的个数;
(4.2)结合已知的训练训练样本集中数字音乐文件对应的情感类别符号,构造特征参数矩阵K:
K = U 11 U 22 . . . U z 1 . . . . . . . . . . . . U 1 q U 2 q . . . U zq L 1 L 2 . . . L z
式中,Li表示第i个数字音乐文件对应的特征向量Ui对应的情感类别符号,Li取值为高兴、激动、悲伤、放松四种情感类型中的一种。
4.如权利要求3所述的识别方法,其特征在于:
所述特征提取步骤的声学特征提取子步骤中,提取美尔倒谱系数的过程为:
(1)将音乐信号经过傅利叶变换后n个频率子带的线性频率fhz变换到美尔频率fmel上:
f mel = 1127 ln ( 1 + f hz 700 ) ,
将美尔频率fmel均匀分为M段,M=1~40,其中,第m个美尔分段频率Melm
Mel m = m &times; 1127 ln ( 1 + f s / 2 700 ) / M m=1,...,M;
式中,fs为音乐信号的采样频率;
(2)将第m个美尔分段频率映射到对应的线性频率Linm
Linm=(exp(Melm/1127)-1)×700    m=1,...,M
(3)计算美尔滤波器组在各个线性频率上的抽头系数:
Figure A2009100630350007C3
式中Hm(k)表示第m个美尔滤波器在第k个线性频率上的抽头系数,N表示频域范围内子频带个数;第k个线性频率的频率值fk为:
fk=k×Fs/N,k=1,...,N
(4)提取对数谱特征:
提取的第t帧信号的第m维对数谱特征FBank(m,t):
FBank(m,t)=log(MBank(m,t))    m=1,...,M
其中Mbank(m,t)表示提取的第t帧信号的第m维美尔谱特征:
M bank ( m , t ) = &Sigma; k = 1 N H m ( k ) &times; Y p ( k , t ) m=1,...,M;
(5)将第t帧信号的第m维对数谱特征FBank(m,t)进行离散余弦变换,得到第t帧信号的第r维倒谱系数Dct(r,t):
Dct ( r , t ) = a ( r ) &Sigma; m = 1 M F bank ( m , t ) cos ( &pi; ( 2 m - 1 ) ( r - 1 ) 2 M ) r=1,...,M,
其中
a ( 1 ) = 1 M , a ( r ) = 2 M r=2,...,M;
(6)倒谱滤波,提取美尔倒谱系数Dct`(r,t):
Dct′(r,t)=lift(r)*Dct(r,t)    r=1,...,M  ,
lift ( r ) = 1 + L 2 sin ( &pi; ( r - 1 ) L ) r=1,...,M,
其中L为加权滤波器宽度。
5.如权利要求3所述的识别方法,其特征在于:
所述特征提取步骤的音乐乐理特征提取子步骤中,提取音乐节拍速度的过程为:
(1)计算半音频率幅度变化,得到能量变化序列Onset(x):
Onset ( x ) = &Sigma; k = 1 N max [ 0 , x t cqt ( k ) - x t cqt ( k - 1 ) ]
其中xt cqt(k)为x时刻第k个半音频率幅度,音乐信号的半音频率幅度的一阶差分和反映了音乐信号能量的振荡变化;
(2)对能量变化序列根据自相关函数进行周期估计,得到自相关序列xcr(x):
xcr ( x ) = &Sigma; k Onset ( x ) &times; Onset ( x + k ) ;
(3)采用对数高斯分布函数对自相关序列xcr(x)加权:
log Gauss ( x ) = 1 x&sigma; 2 &pi; exp [ - 1 2 &sigma; 2 ( ln x &mu; ) 2 ] &times; xcr ( x ) ;
为凸显自相关序列有效范围内的数据值,假设音乐拍速在此区间内符合对数高斯分布,可以采用对数高斯分布函数对自相关序列xcr(x)加权;
(4)计算加权后自相关序列最大时x的值,得到音乐节拍速度S:
S = arg max x ( log Guass ( x ) ) .
6.如权利要求1所述的识别方法,其特征在于:
所述多类支持向量机训练步骤包括下述子步骤:
(1)构造情感判定函数子步骤:为每一种情感类别采用单独的支持向量机进行训练,得到该类别情感判定函数,过程如下:
(1.1)对情感类别符号进行量化:
对第i个数字音乐文件对应的情感类别符号Li量化,
当Li与当前训练的情感类别相同时,Li=1,
当Li与当前训练的情感类别不相同时,Li=-1;
(1.2)求参数ai *,b*的最优解,
在约束条件: &Sigma; i = 1 z a i L i = 0 , ai≥0,下,求下式最大值对应的ai,作为最优解ai *
&Sigma; i = 1 z a i - 1 2 &Sigma; i , j z a i a j L i L j ( U i &CenterDot; U j ) ,
根据: w = a i * &Sigma; i = 1 z L i U i
和Li(w·Ui+b)-1=0,i=1~z,
得到b作为最优解b*;式中Ui表示训练样本集中第i个数字音乐文件的特征向量,Li为对应的情感类别,z为训练样本的个数;
(1.3)构造具有连续输出值的当前训练的情感类别的情感判定函数f(U)为:
f ( U ) = &Sigma; i = 1 z a i * L i K ( U , U i ) + b *
式中核函数K符合MERCER定理;
(1.4)重复过程(1.1)~(1.3),得到4种情感判定函数;
(2)构造多类支持向量机子步骤:
将4种情感判定函数结合在一起:
f 1 ( U ) = &Sigma; i = 1 z &alpha; i 1 * L i 1 K ( U , U i 1 ) + b 1 *
Figure A2009100630350010C5
f 4 ( U ) = &Sigma; i = 1 z &alpha; i 4 * L i 4 K ( U , U ic ) + b 4 *
多类支持向量机的情感类别判定函数为:
f &prime; ( U ) &equiv; arg max j = 1 , . . 4 ( &Sigma; i = 1 z &alpha; ij * L ij K ( U , U ij ) + b j * ) .
CN2009100630359A 2009-07-07 2009-07-07 一种数字音乐情感的识别方法 Expired - Fee Related CN101599271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100630359A CN101599271B (zh) 2009-07-07 2009-07-07 一种数字音乐情感的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100630359A CN101599271B (zh) 2009-07-07 2009-07-07 一种数字音乐情感的识别方法

Publications (2)

Publication Number Publication Date
CN101599271A true CN101599271A (zh) 2009-12-09
CN101599271B CN101599271B (zh) 2011-09-14

Family

ID=41420685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100630359A Expired - Fee Related CN101599271B (zh) 2009-07-07 2009-07-07 一种数字音乐情感的识别方法

Country Status (1)

Country Link
CN (1) CN101599271B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840506A (zh) * 2010-04-08 2010-09-22 上海交通大学 远程教育学生特征信号提取识别的方法
CN101923640A (zh) * 2010-08-04 2010-12-22 中国科学院自动化研究所 基于鲁棒纹理特征和机器学习对伪造虹膜图像判别的方法
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN101799873B (zh) * 2010-01-28 2011-10-19 哈尔滨工业大学 一种基于经验模态分解的多分组图像有监督分类方法
CN102623009A (zh) * 2012-03-02 2012-08-01 安徽科大讯飞信息技术股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法
CN103116646A (zh) * 2013-02-26 2013-05-22 浙江大学 一种基于云基因表达式编程的音乐情感识别方法
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103308918A (zh) * 2012-03-12 2013-09-18 中国科学院声学研究所 一种基于分段时域质心特征的鱼类识别方法及系统
CN103377656A (zh) * 2012-04-16 2013-10-30 联想(北京)有限公司 一种音频文件的五音分析方法、播放器及电子设备
CN104077598A (zh) * 2014-06-27 2014-10-01 电子科技大学 一种基于语音模糊聚类的情感识别方法
CN104091601A (zh) * 2014-07-10 2014-10-08 腾讯科技(深圳)有限公司 音乐品质检测方法和装置
CN104318931A (zh) * 2014-09-30 2015-01-28 百度在线网络技术(北京)有限公司 一种音频文件的情绪活跃度获取方法及分类方法、装置
CN104464756A (zh) * 2014-12-10 2015-03-25 黑龙江真美广播通讯器材有限公司 一种小型说话人情感识别系统
CN105677690A (zh) * 2014-12-09 2016-06-15 现代自动车株式会社 生成音乐播放列表的方法和装置
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
CN106128479A (zh) * 2016-06-30 2016-11-16 福建星网视易信息系统有限公司 一种演唱情感识别方法及装置
CN106202128A (zh) * 2015-05-08 2016-12-07 富士通株式会社 时序文件的分类方法和分类系统
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106297770A (zh) * 2016-08-04 2017-01-04 杭州电子科技大学 基于时频域统计特征提取的自然环境声音识别方法
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法
CN107204183A (zh) * 2016-03-18 2017-09-26 百度在线网络技术(北京)有限公司 一种音频文件检测方法及装置
CN107219991A (zh) * 2017-05-19 2017-09-29 北京酷我科技有限公司 一种音频频谱动画柔和展现算法
WO2017173572A1 (zh) * 2016-04-05 2017-10-12 张阳 迪厅中音乐控制方法及系统
CN107886941A (zh) * 2016-09-29 2018-04-06 亿览在线网络技术(北京)有限公司 一种音频标注方法及装置
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN108205535A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 情感标注的方法及其系统
CN108320730A (zh) * 2018-01-09 2018-07-24 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
CN109065071A (zh) * 2018-08-31 2018-12-21 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
CN109087628A (zh) * 2018-08-21 2018-12-25 广东工业大学 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
CN109189982A (zh) * 2018-07-30 2019-01-11 南京林业大学 一种基于svm主动学习的音乐情感分类方法
CN109273025A (zh) * 2018-11-02 2019-01-25 中国地质大学(武汉) 一种中国民族五声调式情感识别方法及系统
WO2019119279A1 (en) * 2017-12-19 2019-06-27 Wonder Group Technologies Ltd. Method and apparatus for emotion recognition from speech
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110072321A (zh) * 2019-04-23 2019-07-30 姚斌 一种基于音乐节奏的灯光控制方法
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
CN111739493A (zh) * 2020-06-23 2020-10-02 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN113129871A (zh) * 2021-03-26 2021-07-16 广东工业大学 基于音频信号及歌词的音乐情绪识别方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103398843B (zh) * 2013-07-01 2016-03-02 西安交通大学 基于多分类相关向量机的行星齿轮箱太阳轮故障分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1326445B1 (en) * 2001-12-20 2008-01-23 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
EP2159717A3 (en) * 2006-03-30 2010-03-17 Sony France S.A. Hybrid audio-visual categorization system and method
CN101140656A (zh) * 2006-09-04 2008-03-12 张德富 一种音乐消费行为分析的方法
US8058544B2 (en) * 2007-09-21 2011-11-15 The University Of Western Ontario Flexible music composition engine
CN101149950A (zh) * 2007-11-15 2008-03-26 北京中星微电子有限公司 实现分类播放的媒体播放器及分类播放方法

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799873B (zh) * 2010-01-28 2011-10-19 哈尔滨工业大学 一种基于经验模态分解的多分组图像有监督分类方法
CN101840506B (zh) * 2010-04-08 2014-02-19 上海交通大学 远程教育学生特征信号提取识别的方法
CN101840506A (zh) * 2010-04-08 2010-09-22 上海交通大学 远程教育学生特征信号提取识别的方法
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN101923640B (zh) * 2010-08-04 2013-03-20 北京中科虹霸科技有限公司 基于鲁棒纹理特征和机器学习对伪造虹膜图像判别的方法
CN101923640A (zh) * 2010-08-04 2010-12-22 中国科学院自动化研究所 基于鲁棒纹理特征和机器学习对伪造虹膜图像判别的方法
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN102623009B (zh) * 2012-03-02 2013-11-20 安徽科大讯飞信息科技股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN102623009A (zh) * 2012-03-02 2012-08-01 安徽科大讯飞信息技术股份有限公司 一种基于短时分析的异常情绪自动检测和提取方法和系统
CN103308918B (zh) * 2012-03-12 2015-07-08 中国科学院声学研究所 一种基于分段时域质心特征的鱼类识别方法及系统
CN103308918A (zh) * 2012-03-12 2013-09-18 中国科学院声学研究所 一种基于分段时域质心特征的鱼类识别方法及系统
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法
CN103377656A (zh) * 2012-04-16 2013-10-30 联想(北京)有限公司 一种音频文件的五音分析方法、播放器及电子设备
CN103377656B (zh) * 2012-04-16 2016-08-10 联想(北京)有限公司 一种音频文件的五音分析方法、播放器及电子设备
CN103116646A (zh) * 2013-02-26 2013-05-22 浙江大学 一种基于云基因表达式编程的音乐情感识别方法
CN103116646B (zh) * 2013-02-26 2015-10-28 浙江大学 一种基于云基因表达式编程的音乐情感识别方法
CN105765650A (zh) * 2013-09-27 2016-07-13 亚马逊技术公司 带有多向解码的语音辨识器
CN105765650B (zh) * 2013-09-27 2019-08-06 亚马逊技术公司 带有多向解码的语音辨识器
CN104077598A (zh) * 2014-06-27 2014-10-01 电子科技大学 一种基于语音模糊聚类的情感识别方法
CN104077598B (zh) * 2014-06-27 2017-05-31 电子科技大学 一种基于语音模糊聚类的情感识别方法
CN104091601A (zh) * 2014-07-10 2014-10-08 腾讯科技(深圳)有限公司 音乐品质检测方法和装置
CN104318931A (zh) * 2014-09-30 2015-01-28 百度在线网络技术(北京)有限公司 一种音频文件的情绪活跃度获取方法及分类方法、装置
CN104318931B (zh) * 2014-09-30 2017-11-21 北京音之邦文化科技有限公司 一种音频文件的情绪活跃度获取方法及分类方法、装置
CN105677690A (zh) * 2014-12-09 2016-06-15 现代自动车株式会社 生成音乐播放列表的方法和装置
CN104464756A (zh) * 2014-12-10 2015-03-25 黑龙江真美广播通讯器材有限公司 一种小型说话人情感识别系统
CN106202128A (zh) * 2015-05-08 2016-12-07 富士通株式会社 时序文件的分类方法和分类系统
CN107204183A (zh) * 2016-03-18 2017-09-26 百度在线网络技术(北京)有限公司 一种音频文件检测方法及装置
CN107204183B (zh) * 2016-03-18 2020-07-24 百度在线网络技术(北京)有限公司 一种音频文件检测方法及装置
WO2017173572A1 (zh) * 2016-04-05 2017-10-12 张阳 迪厅中音乐控制方法及系统
CN105895110A (zh) * 2016-06-30 2016-08-24 北京奇艺世纪科技有限公司 一种音频文件的分类方法及装置
CN106128479B (zh) * 2016-06-30 2019-09-06 福建星网视易信息系统有限公司 一种演唱情感识别方法及装置
CN106128479A (zh) * 2016-06-30 2016-11-16 福建星网视易信息系统有限公司 一种演唱情感识别方法及装置
CN106228977A (zh) * 2016-08-02 2016-12-14 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106228977B (zh) * 2016-08-02 2019-07-19 合肥工业大学 基于深度学习的多模态融合的歌曲情感识别方法
CN106297770A (zh) * 2016-08-04 2017-01-04 杭州电子科技大学 基于时频域统计特征提取的自然环境声音识别方法
CN106297770B (zh) * 2016-08-04 2019-11-22 杭州电子科技大学 基于时频域统计特征提取的自然环境声音识别方法
CN107886941A (zh) * 2016-09-29 2018-04-06 亿览在线网络技术(北京)有限公司 一种音频标注方法及装置
CN108205535A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 情感标注的方法及其系统
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法
CN107219991B (zh) * 2017-05-19 2020-06-05 北京酷我科技有限公司 一种音频频谱动画柔和展现方法
CN107219991A (zh) * 2017-05-19 2017-09-29 北京酷我科技有限公司 一种音频频谱动画柔和展现算法
CN108091323A (zh) * 2017-12-19 2018-05-29 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
WO2019119279A1 (en) * 2017-12-19 2019-06-27 Wonder Group Technologies Ltd. Method and apparatus for emotion recognition from speech
CN108091323B (zh) * 2017-12-19 2020-10-13 想象科技(北京)有限公司 用于自语音中识别情感的方法与装置
CN108320730A (zh) * 2018-01-09 2018-07-24 广州市百果园信息技术有限公司 音乐分类方法及节拍点检测方法、存储设备及计算机设备
US11715446B2 (en) 2018-01-09 2023-08-01 Bigo Technology Pte, Ltd. Music classification method and beat point detection method, storage device and computer device
CN109189982A (zh) * 2018-07-30 2019-01-11 南京林业大学 一种基于svm主动学习的音乐情感分类方法
CN109087628A (zh) * 2018-08-21 2018-12-25 广东工业大学 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
CN109065071B (zh) * 2018-08-31 2021-05-14 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
CN109065071A (zh) * 2018-08-31 2018-12-21 电子科技大学 一种基于迭代k-means算法的歌曲聚类方法
CN109273025A (zh) * 2018-11-02 2019-01-25 中国地质大学(武汉) 一种中国民族五声调式情感识别方法及系统
CN110072321A (zh) * 2019-04-23 2019-07-30 姚斌 一种基于音乐节奏的灯光控制方法
CN110072321B (zh) * 2019-04-23 2021-08-27 姚斌 一种基于音乐节奏的灯光控制方法
CN110047468A (zh) * 2019-05-20 2019-07-23 北京达佳互联信息技术有限公司 语音识别方法、装置及存储介质
CN110377786A (zh) * 2019-07-24 2019-10-25 中国传媒大学 音乐情感分类方法
CN111739493A (zh) * 2020-06-23 2020-10-02 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN113129871A (zh) * 2021-03-26 2021-07-16 广东工业大学 基于音频信号及歌词的音乐情绪识别方法及系统

Also Published As

Publication number Publication date
CN101599271B (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN101599271B (zh) 一种数字音乐情感的识别方法
US11837208B2 (en) Audio processing techniques for semantic audio recognition and report generation
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN1897109B (zh) 一种基于mfcc的单一音频信号识别方法
Verma et al. Frequency Estimation from Waveforms Using Multi-Layered Neural Networks.
CN110111773A (zh) 基于卷积神经网络的音乐信号多乐器识别方法
CN110534091A (zh) 一种基于微服务器及智能语音识别的人车交互方法
Nawas et al. Speaker recognition using random forest
CN111583965A (zh) 一种语音情绪识别方法、装置、设备及存储介质
Emiya et al. Automatic transcription of piano music based on HMM tracking of jointly-estimated pitches
Kızrak et al. Classification of classic Turkish music makams
Arumugam et al. An efficient approach for segmentation, feature extraction and classification of audio signals
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Ghosal et al. Speech/music classification using empirical mode decomposition
Pratama et al. Human vocal type classification using MFCC and convolutional neural network
Dong et al. Vocal Pitch Extraction in Polyphonic Music Using Convolutional Residual Network.
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Dharini et al. CD-HMM Modeling for raga identification
Mangalam et al. Emotion Recognition from Mizo Speech: A Signal Processing Approach
Faruqe et al. Template music transcription for different types of musical instruments
Jiang et al. Music Signal Recognition Based on the Mathematical and Physical Equation Inversion Method
Rajan et al. Multi-channel CNN-Based Rāga Recognition in Carnatic Music Using Sequential Aggregation Strategy
Shete et al. Analysis and comparison of timbral audio descriptors with traditional audio descriptors used in automatic Tabla Bol identification of North Indian Classical Music
CN111681674A (zh) 一种基于朴素贝叶斯模型的乐器种类识别方法和系统
Kos et al. Online speech/music segmentation based on the variance mean of filter bank energy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110914

Termination date: 20120707