CN102129858A - 基于Teager能量熵的音符切分方法 - Google Patents

基于Teager能量熵的音符切分方法 Download PDF

Info

Publication number
CN102129858A
CN102129858A CN2011100632421A CN201110063242A CN102129858A CN 102129858 A CN102129858 A CN 102129858A CN 2011100632421 A CN2011100632421 A CN 2011100632421A CN 201110063242 A CN201110063242 A CN 201110063242A CN 102129858 A CN102129858 A CN 102129858A
Authority
CN
China
Prior art keywords
teager energy
frame
entropy
formula
teager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100632421A
Other languages
English (en)
Other versions
CN102129858B (zh
Inventor
李锵
冯亚楠
关欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Juntai motor vehicle testing Co., Ltd
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN2011100632421A priority Critical patent/CN102129858B/zh
Publication of CN102129858A publication Critical patent/CN102129858A/zh
Application granted granted Critical
Publication of CN102129858B publication Critical patent/CN102129858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及音频信号处理。为克服现有技术的不足,将音频信号中的各个音符准确、快速检测出来,本发明采用的技术方案是,基于Teager能量熵的音符切分方法,包括下列步骤:1.预处理采用一阶FIR数字滤波器,系数取0.9375,实现预加重,选用汉明窗进行加窗,采用可移动的有限窗口进行加权的方法实现分帧,使帧间有交叠,以保证连续音乐信号流的自相关性和过渡信息的提取;2.特征提取提取Teager能量熵,即统计Teager能量的信息熵H;3.后处理:4.峰值提取:采用双门限阈值法进行峰值提取。本发明主要应用于音频信号处理。

Description

基于Teager能量熵的音符切分方法
技术领域
本发明涉及音频信号处理,具体讲涉及基于Teager能量熵(Teager Energy Entropy,TEE)的音符切分方法。
背景技术
随着现代信息技术,特别是多媒体技术和网络技术的迅猛发展,多媒体信息的数据量急剧增多,如何在浩如烟海的数据库中快速准确地挑选出有用的信息变得尤为重要。同时在现有的信息检索技术下,音频信号、音乐领域也面临着同样的难题。而基于内容音乐检索的研究在极大程度上缓解了这一尴尬。作为音乐基本单位的音符,包含了极具细节性和有效性的信息,如何高效准确地切分出完整音符已经成为基于内容的音乐检索中必不可少的关键性步骤。如哼唱检索(QBH,Query By Humming)系统,一套完整的音符切分程序,不仅极大地方便用户进行自然哼唱,免除须爆破音哼唱的限制,而且有效地提升了检索精度,加快了检索效率。此外,在基于内容的音频流切分与聚类,歌曲有歌唱部分检测,音乐标签及当下热门的音乐“指纹”识别等多种音乐处理中,音符切分都是不可或缺的重要环节,其准确性关乎整个系统的性能。
传统上主要提取时域特征来实现音符切分,如提取短时能量和过零率,这些方法简单易行,但只对能量变化鲜明的打击类音乐(如鼓声)效果较佳。近年来,随着音乐检索领域相关理论的迅猛发展,出现了多种音符切分法,这些方法主要针对不同类型的音乐信号提取各种新的特征参数,如频域中基于相位和谱能的方法,复域中谱差分法,小波域方法及统计学方法,但这些方法往往只对有调性明显的音乐性能较好,且计算量和复杂度都较大。
相对而言,自适应子带谱熵法(Adaptive Sub-band Spectral Entropy,ASSE)同时包含子带谱熵和能量信息,通用性和鲁棒性更强。但是当音频文件包含多种演奏乐器或加有背景音乐时,音符切分效果便会下降。此外,由于只注重能量信息,ASSE容易漏检能量较低的音符,而且无法准确切分相临近音符的边界,同时提取频域特征计算量较大。
发明内容
为克服现有技术的不足,将音频信号中的各个音符准确、快速检测出来,本发明采用的技术方案是,基于Teager能量熵的音符切分方法,包括下列步骤:
1.预处理
采用一阶FIR数字滤波器,系数取0.9375,实现预加重,选用汉明窗进行加窗,采用可移动的有限窗口进行加权的方法实现分帧,使帧间有交叠,以保证连续音乐信号流的自相关性和过渡信息的提取;
2.特征提取
提取Teager能量熵,即统计Teager能量的信息熵H;
3.后处理
H1=C*H/max(H)    (1)
H2=-H1*log10(H1+eps)    (2)
式(1)中H为初步特征提取得到的Teager能量熵,H1和H2为分两步进行后处理后所得到的Teager能量熵,eps是为了避免对0取对数而加入的一个极小值,C为经验值,当波峰极大值与极小值相差大时,C取较大,具体依据两极值间比例而定;当极大值与极小值相差小或者有噪声污染时,C取较小(C<1),以防噪声被放大,最后再用移动窗进行曲线平滑;
4.峰值提取
采用双门限阈值法进行峰值提取:首先计算音乐流前数帧数据的Teager能量熵,并取平均值(记为N)作为背景噪声估计,双门限阈值分别为:M1=αN,M2=βN,其中α,β为经验值且α<β,即M1<M2。对于式(2)所得第i帧Teager能量熵H2(i),如果满足H2(i-1)<M1,H2(i)≥M1,即由背景噪声上升为过渡阶段,且接下来的连续3~5帧都大于M2,则第i帧标记为音符起始帧。
所述提取Teager能量熵,即统计Teager能量的信息熵具体细化为:
核心步骤为运用Shannon信息熵公式:
H ( m ) = - Σ n = 1 N P ( m , n ) * log ( P ( m , n ) + eps ) - - - ( 3 )
式(3)中N为帧长,m为帧数,n为帧内样本点序列号,eps是为了避免对0取对数而加入的一个极小值。P(m,n)为第m帧中第n个样本点Teager能量的概率分布:
P ( m , n ) = 1 N ( te ( m , n ) - E ( m ) ) 2 Σ m = 1 M Σ n = 1 N te ( m , n ) - - - ( 4 )
式(4)中te(m,n)为统计得到的每帧数据的Teager能量值,E(m)为第m帧能量的期望值,M和N分别为总帧数和帧长,m和n为每帧及帧内样本点的序列号;
式(4)中Teager能量的计算方法如下,对于离散信号xn
xn=Acos(Ωn+φ)    (5)
式(5)中,A为幅值,角频率Ω=2πf/fs,其中f为信号x的频率,fs为采样率,φ为任意初相角,n为离散信号的序列号。
对式(5)信号xn运用Teager能量算子(TEO)Ψ(·):
Ψ ( x n ) = Δ x n 2 - x n + 1 x n - 1 = A 2 sin 2 ( Ω ) ≈ A 2 Ω 2 - - - ( 6 )
式(6)中当Ω足够小时约等号成立。
本发明具有如下技术效果:由本发明可以看出,Teager能量不仅反映样本信号的幅度,同时还反映振荡频率。Kaiser也指出该能量算法除了可以同时测量A和Ω的快速变化外,对不同类型的信号还具有一定的区分度。这些特性使得Teager能量特征恰好适合用于音乐信号处理。
本发明将Teager能量与信息熵相结合,即提取Teager能量熵进行音符切分,得到了更佳的切分效果。与单统计信号幅度的频谱和短时能量相比,Teager提出的非线性能量算子TEO,同时考虑了幅度和频率信息,因此不会漏检低能高频的音符。而音频文件中所包含的各个音符的能量分布在不同频段上,且主音符所占频带较宽,因此Teager能量算子恰好将音频文件频能分布差异更好地突显出来,大大降低了漏检率。
附图说明
图1.声谱图及其对应的短时能量,频谱能量及Teager能量,图中,(a)声谱图,(b)短时能量,(c)频谱图,(d)Teager能量。
图2.ROC曲线对比图,图中,(a)流行乐曲ROC曲线对比图图,(b)钢琴曲ROC曲线对比图图,(c)鼓声ROC曲线对比图;
图3.本发明音符切分流程图;
图4.后处理前后对比结果,图中,(a)TEE特征提取结果,(b)后处理结果;
图5.峰值提取结果,图中,(a)标记有音符起始点的声谱图,(b)音符检测结果。
具体实施方式
音符切分,是指将音频信号中的各个音符检测出来,并准确确定音符起始点的位置。特别是对于和声及复调音乐的分析处理,以单个音符作为基点,可以挖掘出更多有用的节奏信息,在极大程度上减少了数据存储量和处理时间,减弱了无关噪声的干扰。
本发明将Teager能量与信息熵相结合,即提取Teager能量熵进行音符切分。与单统计信号幅度的频谱和短时能量相比,Teager提出的非线性能量算子TEO,同时考虑了幅度和频率信息,因此不会漏检低能高频的音符。而音频文件中所包含的各个音符的能量分布在不同频段上,且主音符所占频带较宽,因此Teager能量算子恰好将音频文件频能分布差异更好地突显出来。如图1所示,由图(a)声谱图容易看出第二,第三和第六个音符能量主要分布在较高频段上,而低频段上能量较低,且被其前的高能量的重音符所覆盖,即为典型的能量低频率高的音符。对应的能量图(d)中,由于Teager能量除幅度外,还融入了频率的信息,因此准确地检测出了每一个音符。而短时能量及频谱能量图(b),(c)中,上述三个能量较低的音符被覆盖从而发生漏检。此外,Teager能量曲线更加清晰平滑,波峰突出且峰值分布均衡,因此更能有效区分音符边界,有利于峰值提取。加之信息熵能很好地反映参数的分布特征,而且对参数样本值敏感度较低。由此本发明将二者相结合形成一种新的音符切分算法——Teager能量熵法(Teager Energy Entropy,TEE)。TEE对于打击类乐曲切分效果较佳,尤其当音频文件中包含多种演奏乐器或加有背景音乐时,TEE优势将更加突出。
本发明提取参数-Teager能量熵进行音符切分。首先运用Shannon信息熵公式:
H ( m ) = - Σ n = 1 N P ( m , n ) * log ( P ( m , n ) + eps ) - - - ( 7 )
式(1)中N为帧长,m为帧数,n为帧内样本点序列号,eps是为了避免对0取对数而加入的一个极小值。P(m,n)为第m帧中第n个样本点Teager能量的概率分布:
P ( m , n ) = 1 N ( te ( m , n ) - E ( m ) ) 2 Σ m = 1 M Σ n = 1 N te ( m , n ) - - - ( 8 )
式(2)中te(m,n)为对每帧数据进行TEO运算后得到的能量值,E(m)为第m帧能量的期望值,
M和N分别为帧数和帧长。
式(2)中能量计算方法如下,对于信号xn的Teager能量算子(TEO)(·)为:
Ψ ( x n ) = Δ E n = x n 2 - x n + 1 x n - 1 = A 2 sin 2 ( Ω ) ≈ A 2 Ω 2 - - - ( 9 )
式(3)中,离散信号xn为:
xn=Acos(Ωn+φ)    (10)
式(4)中A为幅值,角频率Ω=2πf/fs,其中f为信号x的频率,fs为采样率,φ为任意初相角,n为离散信号的序列号。当Ω足够小时,式(3)中约等号成立。可以看出,Teager能量不仅反映样本信号的幅度,同时还反映振荡频率。Kaiser也指出该能量算法除了可以同时测量A和Ω的快速变化外,对不同类型的信号还具有一定的区分度。这些特性使得Teager能量特征恰好适合用于音乐信号处理。
1实验数据
从激励上看,Bello et al将音乐分为无调打击类(non-pitched percussion,NP),如鼓;有调打击类(pitched percussion,PP),如钢琴和吉他;有调非打击类(pitched non-percussion,PN),如小提琴;复杂混合类(complex mixtures,CM),如流行乐曲及爵士。本发明实验分别对PP类:钢琴,三弦,吉他演奏曲;NP类:小鼓乐;CM类:爵士及流行乐曲进行了测试。约共含2000个音符,每100个音符左右为一组,共分16组。实验中将待检测音频文件统一转化为WAV格式,采样频率为44100Hz,16bits量化,单声道。
2性能评价指标
本发明采用准确率P,召回率R和F测度三个性能指标来考察音符切分结果。其中,准确率P和召回率R分别表征正确切分音符数在总切分音符数和总标记音符数中所占的比例,F测度是一个综合性指标,在最佳的参数设置下其将达到最大值。定义如下:
P=c/(c+f+)    (11)
R=c/(c+f-)    (12)
F=2PR/(P+R)=2c/(2c+f++f-)    (13)
式(11),(12),(13)中,c为正确切分的音符数;f-和f+均为错误切分音符数,分别表示切分过程中漏掉的音符数和添加的音符数。
3结果分析
为验证本发明算法的有效性,将本发明所提出的Teager能量熵法(TEE)与文献中自适应子带谱熵法(ASSE)作比较,并取极具代表性的6组实验结果列于表1-1,2,3中。
表1-1.音符切分结果统计
Figure BDA0000050515870000043
表1-2.音符切分结果统计
Figure BDA0000050515870000052
表1-3.音符切分结果统计
Figure BDA0000050515870000053
注:T表示切分单个音符所用的平均时间,单位为秒/音符,即s/n。
1)伴随着音符的产生,能量上相应出现突增,则音符分界明显,这类音频文件较易进行音符切分,切分效果也较好。如表3中的流行乐曲,两种方法的切分效果均较好,但TEE的F测度要比ASSE高2个百分点左右。
2)当音频文件中包含多种演奏乐器(爵士乐),或含有背景音乐(吉他曲)时,由于不同乐器发音能量相差较大,用统一的阈值进行峰值提取,难免会造成音符漏检f-;在音乐高潮段,音程减小(如小鼓演奏曲,钢琴曲中双手弹奏),相邻很近的音符之间极易相互重叠覆盖,不可避免地增多了漏检音符数(f-),从而召回率(R)降低。在上述两种情况下,ASSE检测性能骤然下降,但TEE漏检音符数目相对较少,召回率较高,F测度高出ASSE近十个百分点。因此,对于此类音频文件,TEE方法的优势就极大地突显了出来。
3)总体而言,TEE比ASSE误判音符数(f+)较少,准确率(P)较高,F测度平均高出近十个百分点。
4)对于表1-1,2,3中参数T,即切分单个音符所用的平均时间,TEE仅为ASSE的40%左右,充分验证了本发明算法计算量更小,运算快速简洁这一优势。
为了更加直观地比较两种方法的检测性能,对CM类(pop),PP类(钢琴曲)和NP类(鼓声)各取一段音频文件,绘制ROC(receiver operating characteristic curve,ROC)曲线作对比分析。如图2所示,明显看出TEE曲线与右下坐标轴围成的面积更大,与y坐标轴更贴近,即在相同的伪证率(False Positive Rate,FPR)下,TEE正确率(True Positive Rate,TPR)更高,音符切分结果更优(考虑到有效性,只分析FPR为0.1,0.2及0.3)。尤其当音频文件中同时包含不同演奏乐器时,即音符频率不同,TEE优势更加突出,如图2(a)中FPR为0.2左右TPR便已经达到极大值。
下面结合具体实例进一步说明本发明。
1.预处理
通常在信号处理前,首先进行预加重,加窗,分帧等一系列预处理。本发明用一阶FIR数字滤波器(系数取0.9375)实现预加重。选用汉明窗进行加窗。采用可移动的有限窗口进行加权的方法实现分帧,使帧间有交叠,以保证连续音乐信号流的自相关性和过渡信息的提取。
2.特征提取
提取Teager能量熵,即统计Teager能量的信息熵。详见技术方案部分。
3.后处理
由于音乐流中的音符在音强,音高等方面往往差别很大,对应的特征曲线在峰值上也相差甚远,因此需要后处理来做调整。考虑到对数曲线y=logax,其斜率随着自变量x的增大而不断减小,这一特性恰好可以用来均衡峰值。
H1=C*H/max(H)    (14)
H2=-H1*log10(H1+eps)    (15)
式(7)中H为初步特征提取得到的Teager能量熵,H1和H2为分两步进行后处理后所得到的Teager能量熵,eps是为了避免对0取对数而加入的一个极小值,C为经验值。当波峰极大值与极小值相差大时,C取较大,具体依据两极值间比例而定;当极大值与极小值相差小或者有噪声污染时,C取较小(C<1),以防放大噪声。最后再用移动窗(本发明取5点)进行曲线平滑。图4为后处理前后的对比结果。
4.峰值提取
本发明用双门限阈值法进行峰值提取。首先计算音乐流前数帧数据的Teager能量熵,并取平均值(记为N)作为背景噪声估计。双门限阈值分别为:M1=αN,M2=βN(其中α,β为经验值且α<β,即M1<M2)。对于式(15)所得第i帧Teager能量熵H2(i),如果满足H2(i-1)<M1,H2(i)≥M1(即由背景噪声上升为过渡阶段),且接下来的连续3~5帧都大于M2(即由过渡阶段进入音符起始点),则第i帧标记为音符起始帧。峰值提取结果如图5所示。

Claims (2)

1.一种基于Teager能量熵的音符切分方法,其特征是,具体包括下列步骤:
1.预处理
采用一阶FIR数字滤波器,系数取0.9375,实现预加重,选用汉明窗进行加窗,采用可移动的有限窗口进行加权的方法实现分帧,使帧间有交叠,以保证连续音乐信号流的自相关性和过渡信息的提取;
2.特征提取
提取Teager能量熵,即统计Teager能量的信息熵H;
3.后处理
H1=C*H/max(H)    (1)
H2=-H1*log10(H1+eps)    (2)
式(1)中H为初步特征提取得到的Teager能量熵,H1和H2为分两步进行后处理后所得到的Teager能量熵,eps是为了避免对0取对数而加入的一个极小值,C为经验值,当波峰极大值与极小值相差大时,C取较大,具体依据两极值间比例而定;当极大值与极小值相差小或者有噪声污染时,C取较小(C<1),以防噪声被放大,最后再用移动窗进行曲线平滑;
4.峰值提取
采用双门限阈值法进行峰值提取:首先计算音乐流前数帧数据的Teager能量熵,并取平均值(记为N)作为背景噪声估计,双门限阈值分别为:M1=αN,M2=βN,其中α,β为经验值且α<β,即M1<M2。对于式(2)所得第i帧Teager能量熵H2(i),如果满足H2(i-1)<M1,H2(i)≥M1,即由背景噪声上升为过渡阶段,且接下来的连续3~5帧都大于M2,则第i帧标记为音符起始帧。
2.根据权利要求1所述的一种基于Teager能量熵的音符切分方法,其特征是,所述提取Teager能量熵,即统计Teager能量的信息熵具体细化为:
核心步骤为运用Shannon信息熵公式:
H ( m ) = - Σ n = 1 N P ( m , n ) * log ( P ( m , n ) + eps ) - - - ( 3 )
式(3)中N为帧长,m为帧数,n为帧内样本点序列号,eps是为了避免对0取对数而加入的一个极小值。P(m,n)为第m帧中第n个样本点Teager能量的概率分布:
P ( m , n ) = 1 N ( te ( m , n ) - E ( m ) ) 2 Σ m = 1 M Σ n = 1 N te ( m , n ) - - - ( 4 )
式(4)中te(m,n)为统计得到的每帧数据的Teager能量值,E(m)为第m帧能量的期望值,M和N分别为总帧数和帧长,m和n为每帧及帧内样本点的序列号;
式(4)中Teager能量的计算方法如下,对于离散信号xn
xn=Acos(Ωn+φ)    (5)
式(5)中,A为幅值,角频率Ω=2πf/fs,其中f为信号x的频率,fs为采样率,φ为任意初相角,n为离散信号的序列号。
对式(5)信号xn运用Teager能量算子(TEO)Ψ(·):
Ψ ( x n ) = Δ x n 2 - x n + 1 x n - 1 = A 2 sin 2 ( Ω ) ≈ A 2 Ω 2 - - - ( 6 )
式(6)中当Ω足够小时约等号成立。
CN2011100632421A 2011-03-16 2011-03-16 基于Teager能量熵的音符切分方法 Active CN102129858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100632421A CN102129858B (zh) 2011-03-16 2011-03-16 基于Teager能量熵的音符切分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100632421A CN102129858B (zh) 2011-03-16 2011-03-16 基于Teager能量熵的音符切分方法

Publications (2)

Publication Number Publication Date
CN102129858A true CN102129858A (zh) 2011-07-20
CN102129858B CN102129858B (zh) 2012-02-08

Family

ID=44267914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100632421A Active CN102129858B (zh) 2011-03-16 2011-03-16 基于Teager能量熵的音符切分方法

Country Status (1)

Country Link
CN (1) CN102129858B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930865A (zh) * 2012-09-21 2013-02-13 重庆大学 一种波形音乐粗情感软切割分类方法
CN104347068A (zh) * 2013-08-08 2015-02-11 索尼公司 音频信号处理装置和方法以及监控系统
CN107886956A (zh) * 2017-11-13 2018-04-06 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
WO2019128639A1 (zh) * 2017-12-26 2019-07-04 广州市百果园信息技术有限公司 音频信号底鼓节拍点的检测方法以及终端
CN110070885A (zh) * 2019-02-28 2019-07-30 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110688520A (zh) * 2019-09-20 2020-01-14 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法、装置及介质
CN112051064A (zh) * 2020-04-20 2020-12-08 北京信息科技大学 一种旋转机械设备故障特征频率提取方法及系统
CN115472143A (zh) * 2022-09-13 2022-12-13 天津大学 一种调性音乐音符起始点检测与音符解码方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256772A (zh) * 2007-03-02 2008-09-03 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256772A (zh) * 2007-03-02 2008-09-03 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《ISCCSP 2008》 20080314 IRENav et al TEAGER-KAISER ENERGY BI-LEVEL THRESHOLDING 1086-1090 , 2 *
《上海交通大学学报》 20031130 楼红伟,胡光锐 基于Teager能量算子和小波变换的语音识别特征参数 83-85 , 2 *
《仪器仪表学报》 20100331 张德祥,吴小培,吕钊,郭晓静 基于经验模态分解和Teager峭度的语音端点检测 493-499 , 2 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930865B (zh) * 2012-09-21 2014-04-09 重庆大学 一种波形音乐粗情感软切割分类方法
CN102930865A (zh) * 2012-09-21 2013-02-13 重庆大学 一种波形音乐粗情感软切割分类方法
CN104347068A (zh) * 2013-08-08 2015-02-11 索尼公司 音频信号处理装置和方法以及监控系统
CN107886956A (zh) * 2017-11-13 2018-04-06 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
WO2019128639A1 (zh) * 2017-12-26 2019-07-04 广州市百果园信息技术有限公司 音频信号底鼓节拍点的检测方法以及终端
US11527257B2 (en) 2017-12-26 2022-12-13 Bigo Technology Pte. Ltd. Method for detecting audio signal beat points of bass drum, and terminal
CN110070885B (zh) * 2019-02-28 2021-12-24 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110070885A (zh) * 2019-02-28 2019-07-30 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN110688520A (zh) * 2019-09-20 2020-01-14 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法、装置及介质
CN110688520B (zh) * 2019-09-20 2023-08-08 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取方法、装置及介质
CN112051064B (zh) * 2020-04-20 2022-08-16 北京信息科技大学 一种旋转机械设备故障特征频率提取方法及系统
CN112051064A (zh) * 2020-04-20 2020-12-08 北京信息科技大学 一种旋转机械设备故障特征频率提取方法及系统
CN115472143A (zh) * 2022-09-13 2022-12-13 天津大学 一种调性音乐音符起始点检测与音符解码方法及装置

Also Published As

Publication number Publication date
CN102129858B (zh) 2012-02-08

Similar Documents

Publication Publication Date Title
CN102129858B (zh) 基于Teager能量熵的音符切分方法
EP2659480B1 (en) Repetition detection in media data
CN1248190C (zh) 快速频域音调估计方法和装置
EP2791935B1 (en) Low complexity repetition detection in media data
EP2816550A1 (en) Audio signal analysis
US8193436B2 (en) Segmenting a humming signal into musical notes
CN104200818A (zh) 一种音高检测方法
CN104143324A (zh) 一种乐音音符识别方法
US20120024130A1 (en) Tempo detection device, tempo detection method and program
CN102543052B (zh) 一种分析音乐bpm的方法和装置
CN101399035A (zh) 从音频文件提取节拍的方法和设备
Kumar et al. Musical onset detection on carnatic percussion instruments
Elowsson et al. Modeling the perception of tempo
Sumi et al. Automatic Chord Recognition Based on Probabilistic Integration of Chord Transition and Bass Pitch Estimation.
Gao et al. Vocal melody extraction via DNN-based pitch estimation and salience-based pitch refinement
Nagavi et al. An extensive analysis of query by singing/humming system through query proportion
CN108538309B (zh) 一种歌声侦测的方法
Theimer et al. Definitions of audio features for music content description
Davies et al. Comparing mid-level representations for audio based beat tracking
Salamon et al. Melody extraction from polyphonic music audio
Rychlicki-Kicior et al. Multipitch estimation using judge-based model
Rychlicki-Kicior et al. Multipitch estimation using multiple transformation analysis
Van Steelant et al. Support vector machines for bass and snare drum recognition
Sridhar et al. Comparison of modified dual ternary indexing and multi-key hashing algorithms for music information retrieval
Apolinário et al. Fan-chirp transform with a timbre-independent salience applied to polyphonic music analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201125

Address after: 226399 200m north of the intersection of Jinxia road and Gusha Road, Jinsha street, Tongzhou District, Nantong City, Jiangsu Province

Patentee after: Nantong Juntai motor vehicle testing Co., Ltd

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University