CN102129858A

CN102129858A - 基于Teager能量熵的音符切分方法

Info

Publication number: CN102129858A
Application number: CN2011100632421A
Authority: CN
Inventors: 李锵; 冯亚楠; 关欣
Original assignee: Tianjin University
Current assignee: Nantong Juntai motor vehicle testing Co., Ltd
Priority date: 2011-03-16
Filing date: 2011-03-16
Publication date: 2011-07-20
Anticipated expiration: 2031-03-16
Also published as: CN102129858B

Abstract

本发明涉及音频信号处理。为克服现有技术的不足，将音频信号中的各个音符准确、快速检测出来，本发明采用的技术方案是，基于Teager能量熵的音符切分方法，包括下列步骤：1.预处理采用一阶FIR数字滤波器，系数取0.9375，实现预加重，选用汉明窗进行加窗，采用可移动的有限窗口进行加权的方法实现分帧，使帧间有交叠，以保证连续音乐信号流的自相关性和过渡信息的提取；2.特征提取提取Teager能量熵，即统计Teager能量的信息熵H；3.后处理：4.峰值提取：采用双门限阈值法进行峰值提取。本发明主要应用于音频信号处理。

Description

基于Teager能量熵的音符切分方法

技术领域

本发明涉及音频信号处理，具体讲涉及基于Teager能量熵(Teager Energy Entropy，TEE)的音符切分方法。

背景技术

随着现代信息技术，特别是多媒体技术和网络技术的迅猛发展，多媒体信息的数据量急剧增多，如何在浩如烟海的数据库中快速准确地挑选出有用的信息变得尤为重要。同时在现有的信息检索技术下，音频信号、音乐领域也面临着同样的难题。而基于内容音乐检索的研究在极大程度上缓解了这一尴尬。作为音乐基本单位的音符，包含了极具细节性和有效性的信息，如何高效准确地切分出完整音符已经成为基于内容的音乐检索中必不可少的关键性步骤。如哼唱检索(QBH，Query By Humming)系统，一套完整的音符切分程序，不仅极大地方便用户进行自然哼唱，免除须爆破音哼唱的限制，而且有效地提升了检索精度，加快了检索效率。此外，在基于内容的音频流切分与聚类，歌曲有歌唱部分检测，音乐标签及当下热门的音乐“指纹”识别等多种音乐处理中，音符切分都是不可或缺的重要环节，其准确性关乎整个系统的性能。

传统上主要提取时域特征来实现音符切分，如提取短时能量和过零率，这些方法简单易行，但只对能量变化鲜明的打击类音乐(如鼓声)效果较佳。近年来，随着音乐检索领域相关理论的迅猛发展，出现了多种音符切分法，这些方法主要针对不同类型的音乐信号提取各种新的特征参数，如频域中基于相位和谱能的方法，复域中谱差分法，小波域方法及统计学方法，但这些方法往往只对有调性明显的音乐性能较好，且计算量和复杂度都较大。

相对而言，自适应子带谱熵法(Adaptive Sub-band Spectral Entropy，ASSE)同时包含子带谱熵和能量信息，通用性和鲁棒性更强。但是当音频文件包含多种演奏乐器或加有背景音乐时，音符切分效果便会下降。此外，由于只注重能量信息，ASSE容易漏检能量较低的音符，而且无法准确切分相临近音符的边界，同时提取频域特征计算量较大。

发明内容

为克服现有技术的不足，将音频信号中的各个音符准确、快速检测出来，本发明采用的技术方案是，基于Teager能量熵的音符切分方法，包括下列步骤：

1.预处理

采用一阶FIR数字滤波器，系数取0.9375，实现预加重，选用汉明窗进行加窗，采用可移动的有限窗口进行加权的方法实现分帧，使帧间有交叠，以保证连续音乐信号流的自相关性和过渡信息的提取；

2.特征提取

提取Teager能量熵，即统计Teager能量的信息熵H；

3.后处理

H₁＝C*H/max(H) (1)

H₂＝-H₁*log₁₀(H₁+eps) (2)

式(1)中H为初步特征提取得到的Teager能量熵，H₁和H₂为分两步进行后处理后所得到的Teager能量熵，eps是为了避免对0取对数而加入的一个极小值，C为经验值，当波峰极大值与极小值相差大时，C取较大，具体依据两极值间比例而定；当极大值与极小值相差小或者有噪声污染时，C取较小(C＜1)，以防噪声被放大，最后再用移动窗进行曲线平滑；

4.峰值提取

采用双门限阈值法进行峰值提取：首先计算音乐流前数帧数据的Teager能量熵，并取平均值(记为N)作为背景噪声估计，双门限阈值分别为：M₁＝αN，M₂＝βN，其中α，β为经验值且α＜β，即M₁＜M₂。对于式(2)所得第i帧Teager能量熵H₂(i)，如果满足H₂(i-1)＜M₁，H₂(i)≥M₁，即由背景噪声上升为过渡阶段，且接下来的连续3～5帧都大于M₂，则第i帧标记为音符起始帧。

所述提取Teager能量熵，即统计Teager能量的信息熵具体细化为：

核心步骤为运用Shannon信息熵公式：

H (m) = - Σ_{n = 1}^{N} P (m, n) * \log (P (m, n) + eps) - - - (3)

式(3)中N为帧长，m为帧数，n为帧内样本点序列号，eps是为了避免对0取对数而加入的一个极小值。P(m，n)为第m帧中第n个样本点Teager能量的概率分布：

P (m, n) = \frac{\frac{1}{N} {(te (m, n) - E (m))}^{2}}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} te (m, n)} - - - (4)

式(4)中te(m，n)为统计得到的每帧数据的Teager能量值，E(m)为第m帧能量的期望值，M和N分别为总帧数和帧长，m和n为每帧及帧内样本点的序列号；

式(4)中Teager能量的计算方法如下，对于离散信号x_n：

x_n＝Acos(Ωn+φ) (5)

式(5)中，A为幅值，角频率Ω＝2πf/f_s，其中f为信号x的频率，f_s为采样率，φ为任意初相角，n为离散信号的序列号。

对式(5)信号x_n运用Teager能量算子(TEO)Ψ(·)：

Ψ (x_{n}) \overset{Δ}{=} x_{n}^{2} - x_{n + 1} x_{n - 1} = A^{2} \sin^{2} (Ω) \approx A^{2} Ω^{2} - - - (6)

式(6)中当Ω足够小时约等号成立。

本发明具有如下技术效果：由本发明可以看出，Teager能量不仅反映样本信号的幅度，同时还反映振荡频率。Kaiser也指出该能量算法除了可以同时测量A和Ω的快速变化外，对不同类型的信号还具有一定的区分度。这些特性使得Teager能量特征恰好适合用于音乐信号处理。

本发明将Teager能量与信息熵相结合，即提取Teager能量熵进行音符切分，得到了更佳的切分效果。与单统计信号幅度的频谱和短时能量相比，Teager提出的非线性能量算子TEO，同时考虑了幅度和频率信息，因此不会漏检低能高频的音符。而音频文件中所包含的各个音符的能量分布在不同频段上，且主音符所占频带较宽，因此Teager能量算子恰好将音频文件频能分布差异更好地突显出来，大大降低了漏检率。

附图说明

图1.声谱图及其对应的短时能量，频谱能量及Teager能量，图中，(a)声谱图，(b)短时能量，(c)频谱图，(d)Teager能量。

图2.ROC曲线对比图，图中，(a)流行乐曲ROC曲线对比图图，(b)钢琴曲ROC曲线对比图图，(c)鼓声ROC曲线对比图；

图3.本发明音符切分流程图；

图4.后处理前后对比结果，图中，(a)TEE特征提取结果，(b)后处理结果；

图5.峰值提取结果，图中，(a)标记有音符起始点的声谱图，(b)音符检测结果。

具体实施方式

音符切分，是指将音频信号中的各个音符检测出来，并准确确定音符起始点的位置。特别是对于和声及复调音乐的分析处理，以单个音符作为基点，可以挖掘出更多有用的节奏信息，在极大程度上减少了数据存储量和处理时间，减弱了无关噪声的干扰。

本发明将Teager能量与信息熵相结合，即提取Teager能量熵进行音符切分。与单统计信号幅度的频谱和短时能量相比，Teager提出的非线性能量算子TEO，同时考虑了幅度和频率信息，因此不会漏检低能高频的音符。而音频文件中所包含的各个音符的能量分布在不同频段上，且主音符所占频带较宽，因此Teager能量算子恰好将音频文件频能分布差异更好地突显出来。如图1所示，由图(a)声谱图容易看出第二，第三和第六个音符能量主要分布在较高频段上，而低频段上能量较低，且被其前的高能量的重音符所覆盖，即为典型的能量低频率高的音符。对应的能量图(d)中，由于Teager能量除幅度外，还融入了频率的信息，因此准确地检测出了每一个音符。而短时能量及频谱能量图(b)，(c)中，上述三个能量较低的音符被覆盖从而发生漏检。此外，Teager能量曲线更加清晰平滑，波峰突出且峰值分布均衡，因此更能有效区分音符边界，有利于峰值提取。加之信息熵能很好地反映参数的分布特征，而且对参数样本值敏感度较低。由此本发明将二者相结合形成一种新的音符切分算法——Teager能量熵法(Teager Energy Entropy，TEE)。TEE对于打击类乐曲切分效果较佳，尤其当音频文件中包含多种演奏乐器或加有背景音乐时，TEE优势将更加突出。

本发明提取参数-Teager能量熵进行音符切分。首先运用Shannon信息熵公式：

H (m) = - Σ_{n = 1}^{N} P (m, n) * \log (P (m, n) + eps) - - - (7)

式(1)中N为帧长，m为帧数，n为帧内样本点序列号，eps是为了避免对0取对数而加入的一个极小值。P(m，n)为第m帧中第n个样本点Teager能量的概率分布：

P (m, n) = \frac{\frac{1}{N} {(te (m, n) - E (m))}^{2}}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} te (m, n)} - - - (8)

式(2)中te(m，n)为对每帧数据进行TEO运算后得到的能量值，E(m)为第m帧能量的期望值，

M和N分别为帧数和帧长。

式(2)中能量计算方法如下，对于信号x_n的Teager能量算子(TEO)(·)为：

Ψ (x_{n}) \overset{Δ}{=} E_{n} = x_{n}^{2} - x_{n + 1} x_{n - 1} = A^{2} \sin^{2} (Ω) \approx A^{2} Ω^{2} - - - (9)

式(3)中，离散信号x_n为：

x_n＝Acos(Ωn+φ) (10)

式(4)中A为幅值，角频率Ω＝2πf/f_s，其中f为信号x的频率，f_s为采样率，φ为任意初相角，n为离散信号的序列号。当Ω足够小时，式(3)中约等号成立。可以看出，Teager能量不仅反映样本信号的幅度，同时还反映振荡频率。Kaiser也指出该能量算法除了可以同时测量A和Ω的快速变化外，对不同类型的信号还具有一定的区分度。这些特性使得Teager能量特征恰好适合用于音乐信号处理。

1实验数据

从激励上看，Bello et al将音乐分为无调打击类(non-pitched percussion，NP)，如鼓；有调打击类(pitched percussion，PP)，如钢琴和吉他；有调非打击类(pitched non-percussion，PN)，如小提琴；复杂混合类(complex mixtures，CM)，如流行乐曲及爵士。本发明实验分别对PP类：钢琴，三弦，吉他演奏曲；NP类：小鼓乐；CM类：爵士及流行乐曲进行了测试。约共含2000个音符，每100个音符左右为一组，共分16组。实验中将待检测音频文件统一转化为WAV格式，采样频率为44100Hz，16bits量化，单声道。

2性能评价指标

本发明采用准确率P，召回率R和F测度三个性能指标来考察音符切分结果。其中，准确率P和召回率R分别表征正确切分音符数在总切分音符数和总标记音符数中所占的比例，F测度是一个综合性指标，在最佳的参数设置下其将达到最大值。定义如下：

P＝c/(c+f⁺) (11)

R＝c/(c+f^-) (12)

F＝2PR/(P+R)＝2c/(2c+f⁺+f^-) (13)

式(11)，(12)，(13)中，c为正确切分的音符数；f^-和f⁺均为错误切分音符数，分别表示切分过程中漏掉的音符数和添加的音符数。

3结果分析

为验证本发明算法的有效性，将本发明所提出的Teager能量熵法(TEE)与文献中自适应子带谱熵法(ASSE)作比较，并取极具代表性的6组实验结果列于表1-1，2，3中。

表1-1.音符切分结果统计

表1-2.音符切分结果统计

表1-3.音符切分结果统计

注：T表示切分单个音符所用的平均时间，单位为秒/音符，即s/n。

1)伴随着音符的产生，能量上相应出现突增，则音符分界明显，这类音频文件较易进行音符切分，切分效果也较好。如表3中的流行乐曲，两种方法的切分效果均较好，但TEE的F测度要比ASSE高2个百分点左右。

2)当音频文件中包含多种演奏乐器(爵士乐)，或含有背景音乐(吉他曲)时，由于不同乐器发音能量相差较大，用统一的阈值进行峰值提取，难免会造成音符漏检f-；在音乐高潮段，音程减小(如小鼓演奏曲，钢琴曲中双手弹奏)，相邻很近的音符之间极易相互重叠覆盖，不可避免地增多了漏检音符数(f-)，从而召回率(R)降低。在上述两种情况下，ASSE检测性能骤然下降，但TEE漏检音符数目相对较少，召回率较高，F测度高出ASSE近十个百分点。因此，对于此类音频文件，TEE方法的优势就极大地突显了出来。

3)总体而言，TEE比ASSE误判音符数(f+)较少，准确率(P)较高，F测度平均高出近十个百分点。

4)对于表1-1，2，3中参数T，即切分单个音符所用的平均时间，TEE仅为ASSE的40％左右，充分验证了本发明算法计算量更小，运算快速简洁这一优势。

为了更加直观地比较两种方法的检测性能，对CM类(pop)，PP类(钢琴曲)和NP类(鼓声)各取一段音频文件，绘制ROC(receiver operating characteristic curve，ROC)曲线作对比分析。如图2所示，明显看出TEE曲线与右下坐标轴围成的面积更大，与y坐标轴更贴近，即在相同的伪证率(False Positive Rate，FPR)下，TEE正确率(True Positive Rate，TPR)更高，音符切分结果更优(考虑到有效性，只分析FPR为0.1，0.2及0.3)。尤其当音频文件中同时包含不同演奏乐器时，即音符频率不同，TEE优势更加突出，如图2(a)中FPR为0.2左右TPR便已经达到极大值。

下面结合具体实例进一步说明本发明。

1.预处理

通常在信号处理前，首先进行预加重，加窗，分帧等一系列预处理。本发明用一阶FIR数字滤波器(系数取0.9375)实现预加重。选用汉明窗进行加窗。采用可移动的有限窗口进行加权的方法实现分帧，使帧间有交叠，以保证连续音乐信号流的自相关性和过渡信息的提取。

2.特征提取

提取Teager能量熵，即统计Teager能量的信息熵。详见技术方案部分。

3.后处理

由于音乐流中的音符在音强，音高等方面往往差别很大，对应的特征曲线在峰值上也相差甚远，因此需要后处理来做调整。考虑到对数曲线y＝log_ax，其斜率随着自变量x的增大而不断减小，这一特性恰好可以用来均衡峰值。

H₁＝C*H/max(H) (14)

H₂＝-H₁*log₁₀(H₁+eps) (15)

式(7)中H为初步特征提取得到的Teager能量熵，H₁和H₂为分两步进行后处理后所得到的Teager能量熵，eps是为了避免对0取对数而加入的一个极小值，C为经验值。当波峰极大值与极小值相差大时，C取较大，具体依据两极值间比例而定；当极大值与极小值相差小或者有噪声污染时，C取较小(C＜1)，以防放大噪声。最后再用移动窗(本发明取5点)进行曲线平滑。图4为后处理前后的对比结果。

4.峰值提取

本发明用双门限阈值法进行峰值提取。首先计算音乐流前数帧数据的Teager能量熵，并取平均值(记为N)作为背景噪声估计。双门限阈值分别为：M₁＝αN，M₂＝βN(其中α，β为经验值且α＜β，即M₁＜M₂)。对于式(15)所得第i帧Teager能量熵H₂(i)，如果满足H₂(i-1)＜M₁，H₂(i)≥M₁(即由背景噪声上升为过渡阶段)，且接下来的连续3～5帧都大于M₂(即由过渡阶段进入音符起始点)，则第i帧标记为音符起始帧。峰值提取结果如图5所示。

Claims

1.一种基于Teager能量熵的音符切分方法，其特征是，具体包括下列步骤：

1.预处理

2.特征提取

提取Teager能量熵，即统计Teager能量的信息熵H；

3.后处理

H₁＝C*H/max(H) (1)

H₂＝-H₁*log₁₀(H₁+eps) (2)

4.峰值提取

2.根据权利要求1所述的一种基于Teager能量熵的音符切分方法，其特征是，所述提取Teager能量熵，即统计Teager能量的信息熵具体细化为：

核心步骤为运用Shannon信息熵公式：

H (m) = - Σ_{n = 1}^{N} P (m, n) * \log (P (m, n) + eps) - - - (3)

P (m, n) = \frac{\frac{1}{N} {(te (m, n) - E (m))}^{2}}{Σ_{m = 1}^{M} Σ_{n = 1}^{N} te (m, n)} - - - (4)

式(4)中Teager能量的计算方法如下，对于离散信号x_n：

x_n＝Acos(Ωn+φ) (5)

对式(5)信号x_n运用Teager能量算子(TEO)Ψ(·)：

Ψ (x_{n}) \overset{Δ}{=} x_{n}^{2} - x_{n + 1} x_{n - 1} = A^{2} \sin^{2} (Ω) \approx A^{2} Ω^{2} - - - (6)

式(6)中当Ω足够小时约等号成立。