CN101399035A - 从音频文件提取节拍的方法和设备 - Google Patents

从音频文件提取节拍的方法和设备 Download PDF

Info

Publication number
CN101399035A
CN101399035A CNA200710152350XA CN200710152350A CN101399035A CN 101399035 A CN101399035 A CN 101399035A CN A200710152350X A CNA200710152350X A CN A200710152350XA CN 200710152350 A CN200710152350 A CN 200710152350A CN 101399035 A CN101399035 A CN 101399035A
Authority
CN
China
Prior art keywords
binpeak
beat
starting point
harmonic
point signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200710152350XA
Other languages
English (en)
Inventor
史媛媛
朱璇
邓菁
严基完
李在原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Samsung C&T Corp
Original Assignee
Beijing Samsung Telecommunications Technology Research Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Samsung Telecommunications Technology Research Co Ltd, Samsung Electronics Co Ltd filed Critical Beijing Samsung Telecommunications Technology Research Co Ltd
Priority to CNA200710152350XA priority Critical patent/CN101399035A/zh
Publication of CN101399035A publication Critical patent/CN101399035A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

一种从音频文件的MDCT音频数据估计节拍的方法,包括(1)将MDCT音频数据划分为多个子带,检测每个子带中的冲击起始点信号;(2)计算每个子带中冲击起始点信号的周期;(3)从周期冲击起始点信号估计出谐波节拍组;以及(4)从所述谐波节拍组中选择所述音频文件的节拍。

Description

从音频文件提取节拍的方法和设备
技术领域
本发明涉及一种从音频文件提取节拍的方法和设备,尤其涉及一种基于音频文件的情绪参数对从MDCT(修正离散余弦变换)域的音频数据提取的节拍进行选择的方法和设备。
背景技术
近来,随着数字技术的发展,出现各种管理和播放音频文件的方式。为了更加灵活地使用音频文件,人们越来越关注于音频文件信息的提取。节拍(tempo)作为指示音频文件的拍速的信息,是描述音频文件的重要属性之一。对于音乐文件而言,节拍主要涉及由打击乐器产生的固定频率的拍子。在音频文件中,不同时间会出现多个不同频率的拍子。具有实际意义的节拍信息是指一段音频文件中的主要节拍,在这里称为音频文件的节拍。
传统的节拍提取方法通常从频域的音频数据提取各个拍速,并采用跟踪拍子的方式从提取的各个拍速之中选择作为该音频文件的节拍的拍速。如第US2007/0022867A1号美国专利申请所描述的,拍子跟踪系统包括:拍子提取设备,用于通过检测频谱幅度的较大变化来定位拍子的位置;自相关函数(ACF)计算设备,用于从所述拍子的位置计算ACF;以及跟踪设备,用于经由跟踪装置从峰值位置估计BPM。此外,公开的第US2006/0060067A1号美国专利还包括:冲击起始点信号检测单元和节拍估计单元。通过在多个子带(通过FFT频谱分析而获得)中检测包络改变来实现冲击起始点信号检测。将多个子带的冲击起始点信号求和,形成对其进行ACF的一曲线。然后,将ACF的极大值峰值定位为节拍。将BPM估计为最大公约数(其同时作为主峰)。同样,公开号为US2002/0148347A1的美国专利也按照类似方式工作。然而,当今的多数音频文件均经过压缩编码处理,为了进行节拍提取而将解码后的原始音频数据转换为频域数据将占用大量的处理资源,并消耗过多的处理时间,这对于很多在硬件上受到限制的应用设备而言是无法实现的。此外,采用跟踪拍子的方式来确定音频文件节拍的方式无法考虑人对于音频文件的主观感受,使得确定的结果与人的主观感受存在偏差。
因此,需要一种能够结合音频压缩编码技术,在处理时间和精度方面均有较大提高,同时兼顾人的主观感受的音频文件节拍提取方法和设备。同时,尽管在第7050980号美国专利中公开了一种冲击起始点信号检测方法,其中,从压缩域的音乐数据检测冲击起始点信号,但是其没有以适当的方式估计BPM,而在本说明书描述的是不同的冲击起始点信号检测方法及其设备。
发明内容
本发明的目的在于提供一种利用数字信号处理技术直接从音频文件的MDCT音频数据提取节拍的方法和设备。
根据本发明的一方面,提供一种从音频文件的MDCT音频数据提取节拍的方法,包括以下步骤:(1)将MDCT音频数据划分为多个子带,检测每个子带中的冲击起始点信号;(2)计算每个子带中冲击起始点信号的周期;(3)从周期冲击起始点信号估计出谐波节拍组;以及(4)从所述谐波节拍组中选择所述音频文件的节拍。
根据本发明的另一方面,提供一种从音频文件的MDCT音频数据提取节拍的设备,包括冲击起始点信号检测器,用于将MDCT音频数据划分为多个子带,检测每个子带中的冲击起始点信号;拍速计算器,用于计算各个子带中冲击起始点信号的周期;谐波节拍组估计器,用于从周期性冲击起始点信号估计出谐波节拍组;主谐波节拍组确定器,用于从所述谐波节拍组中确定主谐波节拍组;以及节拍选择器,用于从主谐波节拍组中选择所述音频文件的节拍。
附图说明
通过下面结合附图进行的对实施例的描述,本发明的上述和/或其他目的和优点将会变得更加清楚,其中:
图1是示出根据本发明实施例的节拍提取设备的框图;
图2是示出根据本发明实施例的节拍提取方法的流程图;
图3是示出根据本发明实施例的节拍提取设备中的冲击起始点信号检测器的操作的流程图;
图4是示出根据本发明实施例的节拍提取设备的拍速计算器的操作的流程图;
图5示出根据本发明实施例的对于各种类型的具有不同节拍的音频文件产生的BPM直方图;
图6是示出根据本发明实施例的节拍提取设备的谐波节拍组估计器的操作的流程图;
图7示出根据本发明实施例的节拍提取设备中的主谐波节拍组确定器的操作的流程图;
图8示出根据本发明实施例的从弱峰值中找回属于主谐波节拍组的谐波的处理;以及
图9示出根据本发明实施例的节拍选择器基于情绪参数选择实际节拍的处理。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1是示出根据本发明实施例的节拍提取设备的框图。图1所示的节拍提取设备包括:冲击起始点信号(onset)检测器10、拍速计算器20、谐波节拍组估计器30、主谐波节拍组确定器40以及节拍选择器50。可选地,所述节拍提取设备包括部分解码器(未示出),其对于经过MDCT变换的编码音频文件进行部分解码,得到相应的MDCT数据,例如,所述音频文件可以是MP3(运动图像专家组声音层3)、AC-3(音频编码-3)、AAC(高级音频编码)文件等。
图2是示出根据本发明实施例的节拍提取方法的流程图。
首先,在步骤100,冲击起始点信号检测器10将输入的MDCT音频数据划分为多个子带,检测每个子带中的冲击起始点信号。
然后,在步骤200,拍速计算器20对于由冲击起始点信号检测器10检测的各个子带内的冲击起始点信号计算它们的周期,从而得到各个节拍信号的拍速,产生指示子带中各个周期信号(即,节拍信号)的强度分布的直方图,将所有子带的强度直方图求和,从而得到指示相应的各个节拍的强度分布的直方图。在该实施例中,用BPM(每分钟的拍子数量)来表示节拍信号的拍速。
在步骤300,谐波节拍组估计器30通过所述直方图估计出谐波节拍组。所述谐波节拍组是指一组拍速按谐波顺序排列的节拍。例如,在BPM分别为30、45、60、90、120、180的一组节拍信号中,BPM分别为30、60、120的节拍构成一组谐波节拍组{30,60,120},而BPM分别为45、90的节拍也构成一组谐波节拍组{45,90}。
在步骤400,主谐波节拍组确定器40在谐波节拍组估计器30所估计出的各个谐波节拍组中,根据各个谐波节拍组的谐波数量以及强度来确定包括音频文件的节拍的主谐波节拍组。
在步骤500,节拍选择器50根据音频文件的情绪参数从由主谐波节拍组确定器40确定的主谐波节拍组中选择所述音频文件的节拍。其中,音频文件的情绪参数主要指示听众对于音频文件的主观感受。
以下,将参照图3到图7来描述上述各个部件的具体操作。
图3是示出根据本发明实施例的节拍提取设备中的冲击起始点信号检测器10的操作的流程图。
首先,在步骤104,冲击起始点信号检测器10将音频文件的MDCT数据按照一定的规则划分为多个子带,作为示例,可将整个MDCT数据线性划分为36个子带,或者按照一定函数关系将整个MDCT数据划分为36个子带,例如,在音频文件具有44100Hz的采样率时,定义所述36个子带的频率值可以分别为50、84、122、166、214、269、330、398、475、562、659、768、890、1028、1182、1355、1549、1768、2013、2288、2597、2944、3333、4262、4813、5432、6126、6907、7782、8766、9870、11110、12501、14064、15819、17788、22050Hz。可对每个子带加三角窗以消除划分子带时的边缘效应,在这种情况下,冲击起始点信号检测器10可根据以下方法计算一个MDCT帧在一个子带上的能量:
ene=0
for(i=fl;i<fm;i++)ene+=mdct[i]*mdct[i]*(i-fl)/(fm-fl)
for(i=fm;i<fh;i++)ene+=mdct[i]*mdct[i]*(fh-i)/(fh-fm)
其中,ene表示能量,fl表示三角窗的低端频率,fm表示三角窗的中间频率,fh表示三角窗的高端频率,mdct[i]表示第i个频率上的mdct系数。
以上计算出的能量信号ene由于幅度激增,不适合在实际中进行处理,因此,需要将得到的能量信号进行压缩。作为示例,可对子带能量信号进行动态压缩以实现数值上的强健性(步骤105)。可选地,使用log(1+100*ene)/log(101)作为压缩比。
节拍信号作为一种较低频率的信号,其范围在20-250BPM之间,实际中,其值通常位于60-160BPM之间。当MDCT帧的采样率足够高时,可以实现对节拍信号的检测。然而,如果音频信号的采样率过低,则会影响对节拍信号的检测,甚至无法提取正确的节拍信号。为了解决这一问题,作为可选步骤,冲击起始点信号检测器10可在MDCT系数中插入0值以提高时间分辨率(步骤106)。
由于20-250BPM的范围所对应的节拍频率为1/3Hz到25/6Hz,因此,在计算出每个子带内的信号能量之后,冲击起始点信号检测器10可通过对能量包络进行包络检测而获得低频的冲击起始点信号。低通滤波器是一种典型的包络检测手段,作为示例,冲击起始点信号检测器10可通过6阶的Butterworth低通滤波器以10Hz的截止频率对能量包络进行滤波(步骤107)。为了将所得到的信号变化幅度进一步扩大,作为示例,可对时间上相邻的样点进行一阶差分处理(步骤108),对差分信号进行半波整流(步骤109),所得到的信号就是一个子带内的冲击起始点信号。应理解:所述示例并不是限制性的,任何技术上等同的其它手段可被采用。
按照同样的方式,冲击起始点信号检测器10分别检测各个子带内的冲击起始点信号。
图4是示出根据本发明实施例的节拍提取设备的拍速计算器20的操作的流程图。
在步骤201,由冲击起始点信号检测器10检测的各个子带中的冲击起始点信号被输入拍速计算器20。在步骤202,拍速计算器20计算各个子带中冲击起始点信号的周期。在该实施例中,拍速计算器20通过自相关函数(ACF)来估计冲击起始点信号的周期。具体说来,对于每一子带b,计算自相关函数在给定位移n的结果R(n,b)。对于给定子带b,选择具有最大R值的周期作为估计的冲击起始点信号周期。将这一周期值换算为BPM值,相应的R值被称为“强度”,表示与该BPM值相应的节拍信号的强度。在步骤203,拍速计算器20根据计算出的单个子带b中的各个冲击起始点信号周期,产生指示子带中各个周期信号的强度分布的BPM直方图。具体说来,将BPM的范围设置为从20BPM到250BPM,每个区间的大小为5BPM,统计各个BPM区间上的强度,即R值。然后,在步骤204,拍速计算器20将各个子带的强度直方图求和,形成最终输出的BPM直方图,该直方图将被谐波节拍组估计器30用来估计谐波节拍组。应理解:这里采用的ACF方法仅仅是示例性的,可采用其它方法来估计冲击起始点信号的周期。图5示出对于各种类型的具有不同节拍的音频文件产生的BPM直方图。
图6是示出根据本发明实施例的节拍提取设备的谐波节拍组估计器30的操作的流程图。
在步骤301,谐波节拍组估计器30分析从拍速计算器20产生的最终BPM直方图。可以看出,该BPM直方图的峰值代表可能的节拍及其谐波。在该实施例中,使用“搜索算法”来分析BPM直方图中的峰值,具体说来,“搜索算法”设置关于峰值强度以及斜度的搜索条件,搜索出满足特定条件的峰值,并根据所满足的不同条件将峰值划分为强峰值和弱峰值。例如,可如下设置条件1和条件2:
1 R(BINpeak)>=Tmax并且R(BINpeak)-min(R(BINpeak-1),R(BINpeak-2))>Tmin并且R(BINpeak)-min(R(BINpeak+1),R(BINpeak+2))>Tmin;
2 Tmax>R(BINpeak)>Tmin并且R(BINpeak)-min(R(BINpeak-1),R(BINpeak-2),R(BINpeak-3))>Tmin并且R(BINpeak)-min(R(BINpeak+1),R(BINpeak+2),R(BINpeak+3))>Tmin;
其中,满足条件1的峰值称为强峰值,满足条件2的峰值称为弱峰值,Tmax、Tmin为用户定义的峰值强度阈值,并且Tmax>Tmin。
上述搜索条件仅仅是示例性的,根据实际应用,可采用不同的条件和参数,以便进行对于峰值分析具有实际意义的分类。
由于BPM直方图中会存在多个峰值,所以通过强峰值和弱峰值的划分,能够有效地区分出更体现实际节拍特征的强峰值。
然后,在步骤303,谐波节拍组估计器30对满足条件1的强峰值进行谐波集群处理,将强峰值按照谐波划分为若干集合,每一集合中包括一组谐波节拍,称为谐波节拍组。作为示例,可按照下面的集群算法来划分节拍。
首先,按照BPM值从小到大的顺序来排列所有的强峰值BPM0、BPM1、BPM2、...、BPMm;
然后,初始化新的集合i=0,将BPMi设置为第一谐波节拍组的第一BPM然后可按照以下算法来建立谐波节拍组
设置i=1,以1为步长,增加到i=m;
如果BPMi是任何谐波节拍组中的第一BPM的2、3或4倍,则将该BPMi添加到这一谐波节拍组中,在这一判断中,可允许5BPM的偏差。例如,可认为65是30的2次谐波,125是30的4次谐波;
否则,创建新的谐波节拍组,以该BPMi作为新的谐波节拍组的第一BPM。
通过上述集群算法,谐波节拍组估计器30估计出若干谐波节拍组。
图7示出根据本发明实施例的节拍提取设备中的主谐波节拍组确定器40的操作的流程图。
在步骤402,主谐波节拍组确定器40从由谐波节拍组估计器30估计出的若干谐波节拍组中确定包括音频文件的实际节拍(即,反映整个音频文件特性的主要节拍)的主谐波节拍组。确定主谐波节拍组的基本原理为选取谐波数量最多的谐波节拍组作为主谐波节拍组,当谐波数量相同时,选择最高谐波具有更高强度的谐波节拍组作为主谐波节拍组。这里所说的谐波是指音频文件中真实存在的谐波,对于信号处理过程中产生的伪谐波,可采取相应的算法去除它们的影响。
例如,当从谐波节拍组估计器30估计出的谐波节拍组包括{30,60}、{45,90,180}以及{50}时,选择谐波数量最多(3个)的{45,90,180}作为主谐波节拍组。当从谐波节拍组估计器30估计出的谐波节拍组包括{30(R=74.81),60(R=37.2)}以及{45(R=56.3),90(R=21)}时,选择二次谐波具有更高强度(37.2>21)的{30(R=74.81),60(R=37.2)}作为主谐波节拍组。当从谐波节拍组估计器30估计出的谐波节拍组包括{30(R=74.81),60(R=37.2)}以及{45(R=56.3),90(R=59}时,选择二次谐波具有更高强度(59>37.2)的{45(R=56.3),90(R=59}作为主谐波节拍组。
当主谐波节拍组确定器40确定主谐波节拍组之后,为了获得更加完备的主谐波节拍组以便从中选择代表音频文件节拍的实际节拍,在步骤403,主谐波节拍组确定器40将弱峰值中属于主谐波节拍组的谐波序列的节拍找回到主谐波节拍组中,构成更加完整客观的主谐波节拍组以增强实际节拍选择过程中的强健性。在重新搜索弱峰值的过程中,可根据具体音频文件的节拍特点(例如,音乐文件的节拍特点等)设置进入主谐波节拍组的条件。作为示例,可参照图8所示的方法来找回弱峰值中属于主谐波节拍组中的节拍:
将主谐波节拍组中的节拍按照从小到大的顺序排列为{BPMmin,...,BPMmax},然后重新搜索弱峰值以执行以下判断:
(1)如果存在BPM等于2×BPMmax或2×BPMmax+5的极大值峰值,则将该BPM(BPMmax1)添加到主谐波节拍组;
(2)如果已经添加了BPMmax1,则继续搜索,如果存在BPM等于4×BPMmax或4×BPMmax+5或4×BPMmax+10的另一极大值峰值,则将该BPM(BPMmax2)添加到主谐波节拍组;
(3)如果120>BPMmin>=60,则搜索直方图中的弱峰值,当存在满足条件2×BPM=BPMmin或2×BPM+5=BPMmin的BPM时,添加该BPM(BPMmin1);
(4)如果BPMmin>=120,,则搜索直方图中的弱峰值,当存在满足条件2×BPM=BPMmin或2×BPM+5=BPMmin或2×BPM+10=BPMmin的BPM时,添加该BPM(BPMmin1);
(5)如果BPMmin1已经被添加,则继续搜索,如果存在满足条件2×BPM=BPMmin1或2×BPM+5=BPMmin1的BPM时,添加该BPM(BPMmin2)。
以上判断条件仅仅是示例性的,本发明并不受限于此,可根据实际应用,使用各种判别条件和参数将弱峰值中的某些谐波找回主谐波节拍组中,以构成相对完整的主谐波节拍组,以便从中选择音频文件的实际节拍信息。
如上所述,在主谐波节拍组确定器40创建完备的主谐波节拍组之后,由节拍选择器50从由主谐波节拍组确定器40创建的主谐波节拍组中选择音频文件的实际节拍。
在该实施例中,节拍选择器50将参考音频文件的情绪参数来进行选择。具体说来,经过大量的实验和研究,认为可将音频文件划分为四种情绪:平静、悲伤、激动和愉快。根据经验,平静音频可包括柔软和舒缓的古典以及流行音乐,听众的主观感受为缓慢;悲伤音频可以包括伤感的乐曲,听众同样感受到较慢的速度;激动音频可以包括重摇滚和情绪强烈的歌曲,听众感受到中速;而愉快音频可以包括轻快的电子舞曲和室内舞曲,听众感受到较快的速度。上述主观感受是根据情绪参数选择音频文件的实际节拍的主要准则。
在本发明中,节拍选择器50根据音频文件的情绪参数,参考主谐波节拍组中的谐波数量以及各个谐波的强度来从主谐波节拍组中选择音频文件的实际节拍。节拍选择器50的具体操作如图9所示。
参照图9,将主谐波节拍组中的谐波节拍按照BPM值从小到大的顺序排列为{BPM1,BPM2,...,BPMn}。当主谐波节拍组中的谐波数量n为1时,选择BPM1作为实际节拍。当主谐波节拍组中的谐波数量n为2时,根据情绪参数来进行选择,在情绪参数为平静或悲伤时,选择BPM1作为实际节拍,当情绪参数为激动或愉快时,选择BPM2作为实际节拍。当主谐波节拍组中的谐波数量n大于等于3时,根据情绪参数来进行选择,当情绪参数为平静或悲伤时,选择BPM1作为实际节拍;当情绪参数为激动时,选择BPM3与BPM2中强度较大的节拍作为实际节拍;当情绪参数为愉快且音频文件为流行音乐时,如果BPM3大于等于200,则选择BPM2作为实际节拍,否则选择BPM3为实际节拍;当情绪参数为愉快且音频文件为古典音乐时,在BPM2与BPM3的强度都小于阈值Tmin时,选择BPM1作为实际节拍,在BPM3的强度大于BPM2的强度或者满足条件2×R(BPM3)-R(BPM2)>Tmax时,选择BPM3作为实际节拍,当主谐波节拍组中得谐波数量n大于等于4时,选择BPM3作为实际节拍,否则选择BPM2作为实际节拍。
根据本发明,从MDCT音频数据提取节拍信息,而不是从原始的音频数据提取编码,大大提高了提取节拍信息的速度。例如,对于MP3文件而言,由于省略了将解码数据合成为频域数据的处理,本发明技术方案中的处理时间仅仅是现有技术的1/8。这对于仅具有软件解码器的各种嵌入式系统和消费电子产品而言非常有帮助。
尽管已经示出并描述了本发明的一些实施例,但是本领域的技术人员应认识到:在不脱离本发明的原理和精神的情况下,可对这些实施例进行改变,其中,本发明的范围在权利要求及其等同物中限定。
产业上的可利用性
节拍是音频文件的重要信息,在根据本发明获得节拍信息之后,可将其应用于各种应用中。例如,可将节拍信息应用于音频播放器或音频编辑机/制作设备,作为管理音频文件的重要参数。此外,节拍信息可用于帮助人们协调运动速度,例如,在运动员活动期间,播放节拍与其步速一致的音频文件,可以强化他的训练。

Claims (25)

1、一种从音频文件的MDCT音频数据提取节拍的方法,包括以下步骤:
(1)将MDCT音频数据划分为多个子带,检测每个子带中的冲击起始点信号;
(2)计算每个子带中冲击起始点信号的周期;
(3)从周期冲击起始点信号估计出谐波节拍组;以及
(4)从所述谐波节拍组中选择所述音频文件的节拍。
2、如权利要求1所述的方法,其中,步骤(4)包括:
在谐波节拍组中确定主谐波节拍组,并从主谐波节拍组选择音频文件的节拍。
3、如权利要求1所述的方法,其中,步骤(1)包括:
在将MDCT音频数据划分为多个子带之后,计算每个子带的信号能量,从能量包络中检测出冲击起始点信号。
4、如权利要求2所述的方法,其中,步骤(2)包括:
利用自相关函数计算各个子带中冲击起始点信号的周期,并产生指示与各个拍速对应的节拍的强度分布的直方图。
5、如权利要求4所述的方法,其中,步骤(3)包括:
根据直方图中的峰值强度和斜度在所述直方图的峰值中搜索出强峰值和弱峰值;
按照谐波序列将与搜索到的强峰值相应的节拍信号分为各个谐波节拍组。
6、如权利要求5所述的方法,其中,步骤(4)还包括:
根据各个谐波节拍组中谐波节拍的数量和强度来确定所述主谐波节拍组之后,将具有弱峰值的节拍中属于确定的主谐波节拍组的谐波序列的节拍找回到所述主谐波节拍组中。
7、如权利要求6所述的方法,其中,步骤(4)包括:
根据音频文件的情绪参数,参考主谐波节拍组中节拍的强度和数量来选择所述音频文件的节拍。
8、如权利要求3所述的方法,其中,步骤(1)包括:
当MDCT音频数据的采样率较低时,将0值插入MDCT音频数据中以增加时间分辨率。
9、如权利要求3所述的方法,其中,步骤(1)包括:
使用截止频率为10Hz的6阶Butterworth低通滤波器从能量包络中检测冲击起始点信号。
10、如权利要求9所述的方法,其中,步骤(1)还包括:
对低通滤波器的输出进行一阶差分以形成检测到的冲击起始点信号。
11、如权利要求7所述的方法,其中,情绪参数包括:平静、悲伤、激动、愉快。
12、如权利要求1所述的方法,其中,所述音频文件为MP3、AAC、AC-3文件中的至少一个。
13、如权利要求5所述的方法,其中,满足条件a的峰值为强峰值,满足条件b的峰值为弱峰值:
a、R(BINpeak)>=Tmax并且R(BINpeak)-min(R(BINpeak-1),R(BINpeak-2))>Tmin并且R(BINpeak)-min(R(BINpeak+1),R(BINpeak+2))>Tmin;
b、Tmax>R(BINpeak)>Tmin并且R(BINpeak)-min(R(BINpeak-1),R(BINpeak-2),R(BINpeak-3))>Tmin并且R(BINpeak)-min(R(BINpeak+1),R(BINpeak+2),R(BINpeak+3))>Tmin;
其中,BINpeak指示直方图中的峰值所在的区间,R(BINpeak)指示BINpeak区间的强度,Tmax、Tmin指示用户定义的峰值强度阈值,并且Tmax>Tmin。
14、一种从音频文件的MDCT音频数据提取节拍的设备,包括
冲击起始点信号检测器,用于将MDCT音频数据划分为多个子带,检测每个子带中的冲击起始点信号;
拍速计算器,用于计算各个子带中冲击起始点信号的周期;
谐波节拍组估计器,用于从周期性冲击起始点信号估计出谐波节拍组;
主谐波节拍组确定器,用于从所述谐波节拍组中确定主谐波节拍组;以及
节拍选择器,用于从主谐波节拍组中选择所述音频文件的节拍。
15、如权利要求14所述的设备,其中:
冲击起始点信号检测器在将MDCT音频数据划分为多个子带之后,计算每个子带的信号能量,从能量包络中检测出冲击起始点信号。
16、如权利要求14所述的设备,其中:
拍速计算器利用自相关函数计算各个子带中冲击起始点信号的周期,并产生指示与各个拍速对应的节拍的强度分布的直方图。
17、如权利要求16所述的设备,其中:
谐波节拍组估计器根据直方图中的峰值强度和斜度在所述直方图的峰值中搜索出强峰值和弱峰值;按照谐波序列将与搜索到的强峰值相应的节拍分为各个谐波节拍组。
18、如权利要求17所述的设备,其中:
主谐波节拍组确定器在根据各个谐波节拍组的谐波数量以及强度确定所述主谐波节拍组之后,将具有弱峰值的节拍中属于确定的主谐波节拍组的谐波序列的节拍找回到所述主谐波节拍组中。
19、如权利要求14所述的设备,其中:
节拍选择器根据音频文件的情绪参数,参考主谐波节拍组中节拍的强度和数量来选择所述音频文件的节拍。
20、如权利要求14所述的设备,其中:
当MDCT音频数据的采样率较低时,冲击起始点信号检测器将0值插入MDCT音频数据中以增加时间分辨率。
21、如权利要求15所述的设备,其中:
冲击起始点信号检测器使用截止频率为10Hz的6阶Butterworth低通滤波器从能量包络中检测冲击起始点信号。
22、如权利要求21所述的设备,其中:
冲击起始点信号检测器对低通滤波器的输出进行一阶差分以形成检测到的冲击起始点信号。
23、如权利要求19所述的设备,其中,情绪参数包括:平静、悲伤、激动、愉快。
24、如权利要求17所述的设备,其中,满足条件a的峰值为强峰值,满足条件b的峰值为弱峰值:
a、R(BINpeak)>=Tmax并且R(BINpeak)-min(R(BINpeak-1),R(BINpeak-2))>Tmin并且R(BINpeak)-min(R(BINpeak+1),R(BINpeak+2))>Tmin;
b、Tmax>R(BINpeak)>Tmin并且R(BINpeak)-min(R(BINpeak-1),R(BINpeak-2),R(BINpeak-3))>Tmin并且R(BINpeak)-min(R(BINpeak+1),R(BINpeak+2),R(BINpeak+3))>Tmin;
其中,BINpeak指示直方图中的峰值所在的区间,R(BINpeak)指示BINpeak区间的强度,Tmax、Tmin指示用户定义的峰值强度阈值,并且Tmax>Tmin。
25、一种从音频文件的MDCT音频数据提取节拍的设备,包括:
用于将MDCT音频数据划分为多个子带,并检测每个子带中的冲击起始点信号的装置;
用于计算每个子带中冲击起始点信号的周期的装置;
用于从周期冲击起始点信号估计出谐波节拍组的装置;以及
用于从所述谐波节拍组中选择所述音频文件的节拍的装置。
CNA200710152350XA 2007-09-27 2007-09-27 从音频文件提取节拍的方法和设备 Pending CN101399035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200710152350XA CN101399035A (zh) 2007-09-27 2007-09-27 从音频文件提取节拍的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200710152350XA CN101399035A (zh) 2007-09-27 2007-09-27 从音频文件提取节拍的方法和设备

Publications (1)

Publication Number Publication Date
CN101399035A true CN101399035A (zh) 2009-04-01

Family

ID=40517541

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200710152350XA Pending CN101399035A (zh) 2007-09-27 2007-09-27 从音频文件提取节拍的方法和设备

Country Status (1)

Country Link
CN (1) CN101399035A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543052A (zh) * 2011-12-13 2012-07-04 北京百度网讯科技有限公司 一种分析音乐bpm的方法和装置
GB2490877A (en) * 2011-05-11 2012-11-21 British Broadcasting Corp Processing audio data for producing metadata and determining aconfidence value based on a major or minor key
CN108319657A (zh) * 2018-01-04 2018-07-24 广州市百果园信息技术有限公司 检测强节奏点的方法、存储介质和终端
CN108335688A (zh) * 2017-12-28 2018-07-27 广州市百果园信息技术有限公司 音乐中主节拍点检测方法及计算机存储介质、终端
CN108335687A (zh) * 2017-12-26 2018-07-27 广州市百果园信息技术有限公司 音频信号底鼓节拍点的检测方法以及终端
GB2560459A (en) * 2011-05-11 2018-09-12 British Broadcasting Corp Processing audio data for producing metadata
CN109920449A (zh) * 2019-03-18 2019-06-21 广州市百果园网络科技有限公司 节拍分析方法、音频处理方法及装置、设备、介质
CN110111813A (zh) * 2019-04-29 2019-08-09 北京小唱科技有限公司 节奏检测的方法及装置
CN111627412A (zh) * 2020-05-06 2020-09-04 Oppo(重庆)智能科技有限公司 音频变速方法、装置、电子设备和计算机可读存储介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2490877A (en) * 2011-05-11 2012-11-21 British Broadcasting Corp Processing audio data for producing metadata and determining aconfidence value based on a major or minor key
GB2490877B (en) * 2011-05-11 2018-07-18 British Broadcasting Corp Processing audio data for producing metadata
GB2560459A (en) * 2011-05-11 2018-09-12 British Broadcasting Corp Processing audio data for producing metadata
GB2560459B (en) * 2011-05-11 2019-01-30 British Broadcasting Corp Processing audio data for producing metadata
CN102543052B (zh) * 2011-12-13 2015-08-05 北京百度网讯科技有限公司 一种分析音乐bpm的方法和装置
CN102543052A (zh) * 2011-12-13 2012-07-04 北京百度网讯科技有限公司 一种分析音乐bpm的方法和装置
CN108335687B (zh) * 2017-12-26 2020-08-28 广州市百果园信息技术有限公司 音频信号底鼓节拍点的检测方法以及终端
CN108335687A (zh) * 2017-12-26 2018-07-27 广州市百果园信息技术有限公司 音频信号底鼓节拍点的检测方法以及终端
US11527257B2 (en) 2017-12-26 2022-12-13 Bigo Technology Pte. Ltd. Method for detecting audio signal beat points of bass drum, and terminal
CN108335688A (zh) * 2017-12-28 2018-07-27 广州市百果园信息技术有限公司 音乐中主节拍点检测方法及计算机存储介质、终端
CN108319657A (zh) * 2018-01-04 2018-07-24 广州市百果园信息技术有限公司 检测强节奏点的方法、存储介质和终端
CN108319657B (zh) * 2018-01-04 2022-02-01 广州市百果园信息技术有限公司 检测强节奏点的方法、存储介质和终端
CN109920449A (zh) * 2019-03-18 2019-06-21 广州市百果园网络科技有限公司 节拍分析方法、音频处理方法及装置、设备、介质
CN110111813A (zh) * 2019-04-29 2019-08-09 北京小唱科技有限公司 节奏检测的方法及装置
CN110111813B (zh) * 2019-04-29 2020-12-22 北京小唱科技有限公司 节奏检测的方法及装置
CN111627412A (zh) * 2020-05-06 2020-09-04 Oppo(重庆)智能科技有限公司 音频变速方法、装置、电子设备和计算机可读存储介质
CN111627412B (zh) * 2020-05-06 2023-05-05 Oppo(重庆)智能科技有限公司 音频变速方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN101399035A (zh) 从音频文件提取节拍的方法和设备
KR101370515B1 (ko) 복합 확장 인지 템포 추정 시스템 및 추정방법
US7022907B2 (en) Automatic music mood detection
JP6784362B2 (ja) 歌曲メロディ情報処理方法、サーバ、および記憶媒体
US7012183B2 (en) Apparatus for analyzing an audio signal with regard to rhythm information of the audio signal by using an autocorrelation function
JP5008766B2 (ja) テンポ検出装置及びテンポ検出プログラム
JP3789326B2 (ja) テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体
US8193436B2 (en) Segmenting a humming signal into musical notes
CN104992712B (zh) 能识别音乐自动成谱的方法
Rocha et al. Segmentation and timbre-and rhythm-similarity in Electronic Dance Music
JP5569228B2 (ja) テンポ検出装置、テンポ検出方法およびプログラム
Lu et al. Research on sports video detection technology motion 3D reconstruction based on hidden Markov model
JP3344195B2 (ja) カラオケ採点装置
Prockup et al. Modeling musical rhythmatscale with the music genome project
Alonso et al. Extracting note onsets from musical recordings
JP2005292207A (ja) 音楽分析の方法
Dittmar et al. Novel mid-level audio features for music similarity
CN113066512B (zh) 佛教音乐识别方法、装置、设备及存储介质
Vinutha et al. Reliable tempo detection for structural segmentation in sarod concerts
Hsu et al. Singing pitch extraction at mirex 2010
Shandilya et al. Retrieving pitch of the singing voice in polyphonic audio
Salamon et al. Melody extraction from polyphonic music audio
Pohle et al. Independent Component Analysis for Music Similarity Computation.
Guo et al. Content-based retrieval of polyphonic music objects using pitch contour
Shi et al. Log-scale modulation frequency coefficient: A tempo feature for music emotion classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090401