CN109712600B - 一种节拍识别的方法及装置 - Google Patents

一种节拍识别的方法及装置 Download PDF

Info

Publication number
CN109712600B
CN109712600B CN201811644647.2A CN201811644647A CN109712600B CN 109712600 B CN109712600 B CN 109712600B CN 201811644647 A CN201811644647 A CN 201811644647A CN 109712600 B CN109712600 B CN 109712600B
Authority
CN
China
Prior art keywords
beat
characteristic
signal
value
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811644647.2A
Other languages
English (en)
Other versions
CN109712600A (zh
Inventor
赵淑明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingwei Hirain Tech Co Ltd
Original Assignee
Beijing Jingwei Hirain Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingwei Hirain Tech Co Ltd filed Critical Beijing Jingwei Hirain Tech Co Ltd
Priority to CN201811644647.2A priority Critical patent/CN109712600B/zh
Publication of CN109712600A publication Critical patent/CN109712600A/zh
Application granted granted Critical
Publication of CN109712600B publication Critical patent/CN109712600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种节拍识别的方法及装置,包括:响应于目标音频文件的节拍识别指令,在所述目标音频文件的播放过程中,获得所述目标音频文件的音频波形信号;对所述音频波形信号进行信号处理,以得到所述音频波形信号的特征信号;对所述特征信号进行节拍识别,以确定所述音频波形信号中的节拍位置。区别于现有技术中通过音乐对氛围灯、音乐喷泉等控制是预先设定的方式,本发明能够实现伴随着音乐播放实时对音频波形信号进行处理并进行节拍识别,具有实时性。

Description

一种节拍识别的方法及装置
技术领域
本发明涉及信号处理技术领域,特别涉及一种节拍识别的方法及装置。
背景技术
随着人们生活水平的提高,对精神文化消费有了越来越高的追求,因此音乐已经变成了生活中必不可少的一部分。无论是日常消遣娱乐,还是正式庄重的场合,音乐总是不可或缺。节拍是音乐中局部的能量爆发点,听众可通过节拍点与其他部分的强烈对比,感受到音乐的节奏,因此节拍起到一种带动氛围、律动的效果。如参加自己喜爱的歌手的演唱会,去KTV,酒吧等场所,随着音乐的进行常常伴随着音乐氛围灯、音乐喷泉等进行环境的渲染,使听众们有一种身临其境的感觉,更加的投入到对音乐的享受中。目前,环境的渲染可以通过音乐中的节拍识别进行控制。
现有技术中,音乐氛围灯、音乐喷泉等控制多是预先设定的,且不能在音乐播放同时实时识别出节拍。那么现有技术的缺点也就十分明显,例如:有人即兴点了同一首歌的另外一个版本,就来不及对音乐通过音乐氛围灯、音乐喷泉等进行渲染,降低了观众们的音乐体验;歌手即兴唱了另外的一首歌,而工作人员并没有提前准备该歌曲的节拍识别,那么就无法在演唱中根据节拍的变化及时去设置音乐氛围灯、音乐喷泉等控制。
随着技术的发展,音乐的传播速度越来越快,人们对于音乐的体验要求也越来越高。因此,亟需一种能准确实时的节拍识别方法,可以伴随着音乐播放实时进行处理,再通过执行端达到衬托音乐氛围的效果。
发明内容
有鉴于此,本发明实施例提供一种节拍识别的方法及装置,以解决节拍识别实时性差的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种节拍识别的方法,包括:
响应于目标音频文件的节拍识别指令,在所述目标音频文件的播放过程中,获得所述目标音频文件的音频波形信号;
对所述音频波形信号进行信号处理,以得到所述音频波形信号的特征信号;
对所述特征信号进行节拍识别,以确定所述音频波形信号中的节拍位置。
可选的,所述对所述音频波形信号进行信号处理之前,还包括:
对所述音频波形信号进行频段分离,得到至少一个频段的波形信号。
可选的,所述对所述音频波形信号进行信号处理,包括:
对所述音频波形信号中各频段的波形信号分别进行特征提取处理,以得到所述各频段的波形信号中的至少一个特征信号。
可选的,所述对所述特征信号进行节拍识别,包括:
基于预设的特征阈值及第一节拍间隔时长阈值,对所述特征信号进行节拍识别。
可选的,所述基于预设的特征阈值及第一节拍间隔时长阈值,所述对所述特征信号进行节拍识别,包括:
判断所述特征信号中的特征值是否大于或等于预设的特征阈值;
如果所述特征值大于或等于所述特征阈值,判断当前节拍间隔时长是否满足预设的第一节拍间隔时长阈值,如果是,确定所述特征值对应的特征信号的位置为节拍位置,对所述当前节拍间隔时长重新计时。
可选的,如果所述第一节拍间隔时长阈值内对应的特征值均小于所述特征阈值,所述方法还包括:
基于预设的防丢拍阈值及第二节拍间隔时长阈值,对所述特征信号进行防丢拍识别,所述第二节拍间隔时长阈值与所述第一节拍间隔时长阈值相关联。
可选的,所述基于预设的防丢拍阈值及所述第二节拍间隔时长阈值,对所述特征信号进行防丢拍识别,包括:
判断所述特征信号中的特征值是否大于或等于预设的防丢拍阈值,所述防丢拍阈值小于所述特征阈值;
如果所述特征值大于或等于所述防丢拍阈值,判断当前节拍间隔时长是否满足所述第二节拍间隔时长阈值,如果是,确定所述特征值对应的特征信号的位置为节拍位置,对所述当前节拍间隔时长重新计时。
可选的,所述对所述特征信号进行节拍识别之前,所述方法还包括:
对所述节拍位置设置可信度属性值,所述可信度属性值表示基于所述特征阈值和所述第一节拍间隔时长阈值来判断特征信号为节拍位置的可靠性;
其中,如果所述特征值大于或等于所述特征阈值且当前节拍间隔时长满足预设的第一节拍间隔时长阈值,所述可信度属性值增加第一增量值;如果所述特征值小于所述特征阈值但大于或等于所述防丢拍阈值且所述当前节拍间隔时长满足预设的第二节拍间隔时长阈值,所述可信度属性值减小第二增量值;
相应的,所述方法还包括:
监测所述可信度属性值是否大于预设的可信度阈值,当所述可信度属性值大于所述可信度阈值时,更新所述特征阈值和所述第一节拍间隔时长阈值。
可选的,所述更新所述特征阈值和所述第一节拍间隔时长阈值,包括:
获得已识别为所述节拍位置的节拍间隔时长的间隔平均值,基于所述间隔平均值更新为所述第一节拍间隔时长阈值;
获得所述节拍位置所对应的特征信号的特征值的特征平均值,基于所述特征平均值,更新为所述特征阈值。
一种节拍识别的装置,包括:
获取单元,用于响应目标音频文件的节拍识别指令,在所述目标音频文件的播放过程中,获得所述目标音频文件的音频波形信号;
处理单元,用于对所述音频波形信号进行信号处理,以得到所述音频波形信号的特征信号;
识别单元,用于对所述特征信号进行节拍识别,以确定所述音频波形信号中的节拍位置。
由以上方案可知,本发明提供的一种节拍识别的方法及装置中,可以伴随着音乐播放实时对音频波形信号进行处理,通过对音频波形信号进行实时积分得到特征值,并在每一次特征阈值判断时利用节拍间隔计数器统计节拍间隔,基于特征值和节拍间隔来判断次音频波形信号是否可以作为一个节拍信号来控制执行器对场景进行渲染。区别于现有技术中通过音乐对氛围灯、音乐喷泉等控制预先设定的方式,本发明能够实现伴随着音乐播放实时对音频波形信号进行处理并进行节拍识别,具有实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种节拍识别的方法的具体流程图;
图2为本发明另一实施例提供的一种节拍识别的方法的识别算法信号处理示意图;
图3为本发明另一实施例提供的一种节拍识别的方法的具体流程图;
图4为本发明另一实施例提供的一种节拍识别的方法的具体流程图;
图5为本发明另一实施例提供的一种节拍识别的方法的具体流程图;
图6为本发明另一实施例提供的一种节拍识别的方法的具体流程图;
图7为本发明另一实施例提供的一种节拍识别的方法的具体流程图;
图8为本发明另一实施例提供的一种节拍识别的装置的示意图;
图9为本发明另一实施例提供的一种节拍识别的装置的示意图;
图10为本发明另一实施例提供的一种节拍识别的方法的具体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的节拍识别的方法,如图1所示,包括:
S101、响应于目标音频文件在的节拍识别指令,在目标音频文件的播放过程中,获得目标音频文件的音频波形信号。
其中,目标音频文件是指需要进行节拍识别的音频文件,如歌曲文件或者伴奏文件等音频文件。目标音频文件通常是使用播放器进行播放的,播放器可以是能够实现音频解码及播放的应用组件,具体的,播放器中含有的解码模块,可以将多种形式的音频信号,如MP3、wma、aac等解码成音频波形信号,节拍识别指令是指触发对目标音频文件进行实时节拍识别的指令,具体的,节拍识别指令可以是在目标音频文件由播放器开始播放时生成,从目标音频文件开始播放时开始执行本实施例中的方案,即:随着目标音频文件的播放,对目标音频文件进行实时的节拍识别;或者,节拍识别指令可以是在目标音频文件被播放之前预先设置的,在节拍识别指令被设置之后,只要目标音频文件开始播放,就执行本实施例中的方案;或者,节拍识别指令可以是在目标音频文件被播放器播放过程中(如已经播放30秒之后),用户进行操作并生成的,在节拍识别指令被生成时,随即执行本实施例中的方案,例如,在目标音频文件已经播放一部分之后,才开始进行实时的节拍识别。
需要说明的是,在目标音频文件播放过程中,获取目标音频文件的音频波形信号是从音乐开始播放并接收到节拍识别指令时就实时获取的,例如:
在目标音频文件开始播放时节拍识别指令被生成并触发,此时获取该目标音频文件即将播放的音频波形信号;
或者,在目标音频文件在播放一定时长之后,节拍识别指令被生成并触发,此时,从目标音频文件当前播放的时长开始获取该目标音频文件即将播放的音频波形信号;等等。
S102、对音频波形信号进行信号处理,以得到音频波形信号的特征信号。
其中,如图2所示,对音频波形信号进行信号处理是指对音频波形信号进行信号特征提取,以得到音频波形信号的特征信号。具体的,可以通过以下方式实现:
将音频波形信号利用预设的特征提取算法如信号微分算法等进行信号特征提取,以得到特征信号。
具体的,本实施例中对音频波形信号的信号处理操作可在微处理器中实现。
其中,微处理器,用于对获取到的音频波形信号进行定步长计算,即每隔一定的步长(时间)对音频波形信号进行采样,并将采样得到的信号微分进行简化。由于音频波形信号采样频率范围较大,通常为保证信号的完整性,采样频率应至少≥20kHz。可根据计算能力及精度及系统实时性选择计算步长,例如5ms、10ms、20ms等。
在本实施例中每隔步长时间将对应时间的音频信号采样点进行一次处理。上述实时微分可通过最小二乘拟合方法近似。
S103、对特征信号进行节拍识别,以确定音频波形信号中的节拍位置。
其中,本实施例中可以通过预设的节拍识别方式对特征信号进行解析识别,从而确定音频波形信号中的节拍位置。节拍位置就是特征信号中能量值爆发的点,也就是节拍点,相对于其他时刻的能量值会明显较高,幅值上升速度也快。
由以上方案可知,本发明实施例提供的一种节拍识别的方法中,可以伴随着音乐播放实时对音频波形信号进行处理,通过对音频波形信号进行实时积分得到特征值,并在每一次特征阈值判断时利用节拍间隔计数器统计节拍间隔,基于特征值和节拍间隔来判断次音频波形信号是否可以作为一个节拍信号来控制执行器对场景进行渲染。区别于现有技术中通过音乐对氛围灯、音乐喷泉等控制是预先设定的方式,本发明能够实现伴随着音乐播放实时对音频波形信号进行处理并进行节拍识别,具有实时性。
可选的,在本发明的另一实施例中,对音频波形信号进行信号处理之前,还包括:
对音频波形信号进行频段分离,得到至少一个频段的波形信号。
其中,本实施例中可以基于音频波形信号中所包含的信号频段的不同对音频波形信号进行频段分离,具体的,本实施例中可以将音频波形信号分离出低频信号和中高频信号。在实际应用中,本实施例可以采用滤波器对音频波形信号进行频段分离,或者;可以通过FFT(Fast Fourier Transformation,快速傅氏变换)频谱分析对音频波形信号进行频段分离。
例如,本实施例中可以通过对音频波形信号中的底鼓、Bass等低频信号进行分离,并对行军鼓、拍手等中高频信号进行分离,由此,分别对分离出的低频信号和中高频信号进行信号处理,得到能够突出节拍特征的信号,即特征信号。
可选的,本发明的另一实施例中,以下为对音频波形信号进行频段分离,得到至少一个频段的波形信号的一种实施方式:
对所述音频波形信号中各频段的波形信号分别进行特征提取处理,以得到所述各频段的波形信号中的至少一个特征信号。
其中,本实施例中的特征提取处理可以采用信号微分算法等实现,以得到各频段的波形信号中的特征信号。
可选的,本发明的另一实施例中,步骤S103的一种实施方式,具体如下:
基于预设的特征阈值及第一节拍间隔时长阈值,对特征信号进行节拍识别,以确定音频波形信号中的节拍位置。
其中,特征阈值为预先设置的数值,用以对特征信号进行节拍识别。而第一节拍间隔时长阈值可以为预设的数值范围,例如,第一节拍间隔时长阈值可以为0.38s~1.5s的数值范围。
可选的,本发明的另一实施例中,本实施例在基于预设的特征阈值及第一节拍间隔时长阈值,对特征信号进行节拍识别,以确定音频波形信号中的节拍位置时,具体可以通过以下步骤实现,如图3所示,包括:
S301、判断特征信号中的特征值是否大于或等于预设的特征阈值,如果特征值大于或等于特征阈值,执行步骤302。
S302、判断当前节拍间隔时长是否满足预设的第一节拍间隔时长阈值,如果是,执行步骤303。
S303、确定特征值对应的特征信号的位置为节拍位置。
具体的,当特征值大于或等于特征阈值时,再通过节拍间隔与第一节拍间隔时长阈值进行比较,若节拍间隔时长也满足第一节拍间隔时长阈值,说明该特征信号为音频波形信号中的节拍位置;如果特征值不满足特征阈值,说明该特征信号不是音频波形信号中的节拍位置;如果特征值满足特征阈值,节拍间隔时长不满足第一节拍间隔时长阈值,说明该特征信号所处位置不是音频波形信号中的节拍位置。
其中,本实施例中在每一次进行特征阈值和第一节拍间隔时长阈值的比较时,可以利用存储器将特征值大于或等于特征阈值且节拍间隔时长满足第一节拍间隔时长阈值的特征值及节拍间隔时长进行记录,也就是说,本实施例中将识别为节拍位置的特征信号所对应的特征值和节拍间隔时长进行记录。
需要说明的是,每次将特征信号的位置判断为节拍位置时,将存储器中的计数值进行清零,重新开始计数进行下一次的节拍识别。
可选的,本发明的另一实施例中,步骤S301或S302的一种实施方式,如图4所示,具体如下:
S401、判断特征信号中的特征值是否大于或等于预设的特征阈值,如果特征值大于或等于特征阈值,执行步骤402,否则,执行步骤404。
S402、判断当前节拍间隔时长是否满足预设的第一节拍间隔时长阈值,如果是,执行步骤403,否则,执行步骤404。
S403、确定特征值对应的特征信号的位置为节拍位置。
需要说明的是,S401、S402和S403具体实现过程与应用方式与S301、S302和S303相同,这里不再赘述。
S404、基于预设的防丢拍阈值及第二节拍间隔时长阈值,对特征信号进行防丢拍识别。
其中,防丢拍阈值为预先设定的数值,要小于特征阈值,用来对特征信号进行防丢拍识别,第二节拍间隔时长阈值为预先设定的数值范围,是在第一节拍间隔时长阈值之后一段时间的阈值;在本实施例中,通过对被判断为不是音频波形信号中的节拍位置的特征信号用防丢拍阈值和第二节拍间隔时长阈值进行再次检测,来确认在特征阈值判断是时候是否存在丢拍现象。
需要说明的是,在本实施例中会对已经判断为不是节拍位置的特征信号进行额外的检测,因为获得低频信号和中高频信号也有可能受其他环境影响导致判断不准确,也有可能是音乐编排或改编中故意设置的某处少一拍、多一拍或者变节奏节拍等,导致没有识别出来音频波形信号中的特征位置。
例如,在步骤S401中就已经判断特征信号所处位置不是音频波形信号中的节拍位置,那么直接执行步骤S404;如果通过了步骤S401但步骤S402判断特征信号所处位置不是音频波形信号中的节拍位置,进行步骤S404。
可选的,本发明的另一实施例中,本步骤S404的一种实施方式,如图5所示,具体如下:
S501、判断特征信号中的特征值是否大于或等于预设的防丢拍阈值,如果特征值大于或等于防丢拍阈值,执行步骤S502。
S502、判断当前节拍间隔时长是否满足预设的第二节拍间隔时长阈值,如果是,执行步骤503。
S503、确定特征值对应的特征信号的位置为节拍位置。
其中,本实施例中通过对特征值和防丢拍阈值的比较,再通过节拍间隔时长和第二节拍间隔时长阈值进行比较,确定特征值对应的特征信号位置是否为节拍位置。
具体的,当音频波形信号的特征值大于或等于防丢拍阈值时,再通过节拍间隔时长与第二节拍间隔时长阈值进行比较,若节拍间隔时长也满足第二节拍间隔时长阈值,说明该特征信号所处位置为音频波形信号中的节拍位置;如果特征值不满足防丢拍阈值,说明该特征信号所处位置不是音频波形信号中的节拍位置;如果特征值满足防丢拍阈值,节拍间隔时长不满足第二节拍间隔时长阈值,说明该特征信号所处位置不是音频波形信号中的节拍位置。
可选的,在本发明的另一实施例中,如图6所示,对特征信号进行节拍识别之前,还包括:
S601、对节拍位置设置可信度属性值。
其中,可信度属性值表示基于特征阈值和第一节拍间隔时长阈值来判断特征信号为节拍位置的可靠性,特征阈值和第一节拍间隔时长阈值在初次进行节拍识别时会对可信度属性值赋予一个初始值。
在本实施例中,如果特征值大于或等于特征阈值且当前节拍间隔时长满足预设的第一节拍间隔时长阈值,说明当前的特征值阈值是准确的,为了得到后面的节拍位置的时候,不受当前的节拍位置影响,将可信度属性值增加第一增量值;如果特征值小于特征阈值但大于或等于防丢拍阈值且当前节拍间隔时长满足第二节拍间隔时长阈值,说明当前得到的特征值,可能是因为获得低频信号和中高频信号时受其他环境影响导致判断不准确,也有可能是音乐编排或改编中故意设置的某处少一拍、多一拍或者变节奏节拍等,导致没有识别出来音频波形信号中的特征位置,说明当前的特征阈值是不准确的,将可信度属性值减小第二增量值,其中,第一增量值和第二增量值的数值是可以不同的。
需要说明的是,特征阈值和第一节拍间隔时长阈值包括初始值,初始值可以通过历史数据进行设定,例如节拍拍速通常在40~160bpm之间,则节拍间隔时长阈值应在0.38~1.5s范围内。例如选择5点的最小二乘求导,可以统计1~2首典型歌曲的典型节拍点的导数在0.4~1.2之间,可以设定微分特征阈值为0.4。同理积分特征值也与选择的积分方法相关,例如选择10点的求和近似,可以统计歌曲的节拍点的积分在0.05~0.1之间,可以设定积分特征阈值为0.05。
S602、监测可信度属性值是否大于预设的可信度阈值,当可信度属性值大于可信度阈值时,更新特征阈值和第一节拍间隔时长阈值。
其中,在本实施例中,当特征值大于或等于特征阈值且当前节拍间隔时长满足第一节拍间隔时长阈值,可信度属性值增加第一增量值;如果特征值小于特征阈值但大于或等于防丢拍阈值且当前节拍间隔时长满足第二节拍间隔时长阈值,可信度属性值减小第二增量值。随着音乐的播放,可信度的属性值也会不断的进行变化,当可信度属性值大于可信度阈值时,说明当前节拍点识别较稳定且可信度高,可通过已识别的节拍点特征值和节拍间隔优化特征阈值和第一节拍间隔时长阈值,以提高识别的准确率。
需要说明的是,由于特征阈值和防丢拍阈值具有关联性,第一节拍间隔时长阈值和第二节拍间隔时长阈值也具有关联性,所以,在更新特征阈值和第一节拍间隔时长阈值时,也可以对防丢拍阈值和第二节拍间隔时长阈值进行同步更新。具体的,对防丢拍阈值和第二节拍间隔时长阈值进行更新时,可以基于特征阈值和第一节拍间隔时长阈值更新后的值进行相应更新;或者,也可以采集以下实施方式进行更新。
可选的,本发明的另一实施例中,本步骤S602的一种实施方式,具体如下:
S701、获得已识别为节拍位置的节拍间隔时长的间隔平均值,基于间隔平均值,更新为第一节拍间隔时长阈值。
例如,经过5s连续节拍点识别后,存储器中记录的节拍间隔时长的平均值为0.5s,则第一节拍间隔时长阈值可以从0.38~1.5s的初始范围变化到0.4~0.6s的稳定范围,其中,根据存储器中记录的节拍间隔时长,得出的平均值0.5,对0.5进行一个±0.1的计算得到一个范围,即0.4~0.6,作为第一节拍间隔时长阈值。其中,加减范围可以不同。
S702、获得节拍位置所对应的特征信号的特征值的特征平均值,将特征平均值更新为特征阈值。
具体的,统计一段时间(例如5s)内满足要求的节拍特征值,处理(求平均值至,最小值等)作为特征阈值,根据实际情况对节拍特征值进行处理,例如节拍特征值分布的十分平稳,这时就要适当的提高特征阈值至当前节拍特征值的最小值,如果节拍特征值分布的十分分散,那么就要将当前特征值的平均值作为新的特征阈值。
由以上方案可知,本发明实施例提供的一种节拍识别的方法中,可以伴随着音乐播放实时对音频波形信号进行处理,通过对音频波形信号进行实时求导得到特征值,并在每一次特征阈值判断时利用节拍间隔计数器统计节拍间隔,基于特征值和节拍间隔来判断次音频波形信号是否可以作为一个节拍信号来控制执行器对场景进行渲染。区别于现有技术中通过音乐对氛围灯、音乐喷泉等控制是预先设定的方式,本发明能够实现伴随着音乐播放实时对音频波形信号进行处理并进行节拍识别,具有实时性。
本发明实施例还提供一种节拍识别的装置,如图9所示,包括:
获取单元801,用于响应于目标音频文件的节拍识别指令,在目标音频文件的播放过程中,获得目标音频文件的音频波形信号。
其中,目标音频文件是指需要进行节拍识别的音频文件,如歌曲文件或者伴奏文件等音频文件。目标音频文件通常是使用播放器进行播放的,播放器可以是能够实现音频解码及播放的应用组件,具体的,播放器中含有的解码模块,可以将多种形式的音频信号,如MP3、wma、aac等解码成音频波形信号,节拍识别指令是指触发对目标音频文件进行实时节拍识别的指令,具体的,节拍识别指令可以是在目标音频文件由播放器开始播放时生成,从目标音频文件开始播放时开始执行本实施例中的方案,即:随着目标音频文件的播放,对目标音频文件进行实时的节拍识别;或者,节拍识别指令可以是在目标音频文件被播放之前预先设置的,在节拍识别指令被设置之后,只要目标音频文件开始播放,就执行本实施例中的方案;或者,节拍识别指令可以是在目标音频文件被播放器播放过程中(如已经播放30秒之后),用户进行操作并生成的,在节拍识别指令被生成时,随即执行本实施例中的方案,例如,在目标音频文件已经播放一部分之后,才开始进行实时的节拍识别。
需要说明的是,在目标音频文件播放过程中,获取目标音频文件的音频波形信号是从音乐开始播放并接收到节拍识别指令时就实时获取的,例如:
在目标音频文件开始播放时节拍识别指令被生成并触发,此时获取该目标音频文件即将播放的音频波形信号;
或者,在目标音频文件在播放一定时长之后,节拍识别指令被生成并触发,此时,从目标音频文件当前播放的时长开始获取该目标音频文件即将播放的音频波形信号;等等。
处理单元802,用于对音频波形信号进行信号处理,以得到音频波形信号的特征信号。
其中,如图2所示,对音频波形信号进行信号处理是指对音频波形信号进行信号特征提取,以得到音频波形信号的特征信号。具体的,可以通过以下方式实现:
将音频波形信号利用预设的特征提取算法如信号微分算法等进行信号特征提取,以得到得到特征信号。
具体的,本实施例中处理单元802对音频波形信号的信号处理操作可在微处理器中实现。
其中,微处理器,用于对获取到的音频波形信号进行定步长计算,即每隔一定的步长(时间)对音频波形信号进行采样,并将采样得到的信号微分进行简化。由于音频波形信号采样频率范围较大,通常为保证信号完整性,采样频率应至少≥20kHz。可根据计算能力及精度及系统实时性选择计算步长,例如5ms、10ms、20ms等。
在本实施例中每隔步长时间将对应时间的音频信号采样点进行一次处理。上述实时微分可通过最小二乘拟合方法近似。
识别单元803,用于对特征信号进行节拍识别,以确定音频波形信号中的节拍位置。
其中,本实施例中识别单元803可以通过预设的节拍识别方式对特征信号进行解析识别,从而确定音频波形信号中的节拍位置。节拍位置就是特征信号中能量值爆发的点,也就是节拍点,相对于其他时刻的能量值会明显较高,幅值上升速度也快。
由以上方案可知,本发明实施例提供的一种节拍识别的装置中,可以伴随着音乐播放实时对音频波形信号进行处理,通过对音频波形信号进行实时求导得到特征值,并在每一次特征阈值判断时利用节拍间隔计数器统计节拍间隔,基于特征值和节拍间隔来判断次音频波形信号是否可以作为一个节拍信号来控制执行器对场景进行渲染。区别于现有技术中通过音乐对氛围灯、音乐喷泉等控制是预先设定的方式,本发明能够实现伴随着音乐播放实时对音频波形信号进行处理并进行节拍识别,具有实时性。
在一种实现方式中,处理单元802还可以执行以下处理过程:
对音频波形信号进行频段分离,得到至少一个频段的波形信号。
在一种实现方式中,处理单元802在对音频波形信号进行对音频波形信号处理时,具体包括:
对音频波形信号中各频段的波形信号分别进行特征提取处理,以得到各频段的波形信号中的至少一个特征信号。
在一种实现方式中,识别单元803在对特征信号进行节拍识别时的具体实施方式如下所示:
基于预设的特征阈值及第一节拍间隔时长阈值,对特征信号进行节拍识别。
具体的,识别单元803可以判断特征信号中的特征值是否大于或等于预设的特征阈值;如果特征值大于或等于特征阈值,判断当前节拍间隔时长是否满足预设的第一节拍间隔时长阈值,如果是,确定特征值对应的特征信号的位置为节拍位置,对当前节拍间隔时长重新计时。
或者,如果第一节拍间隔时长阈值内对应的特征值均小于特征阈值,识别单元还可以基于预设的防丢拍阈值及第二节拍间隔时长阈值,对特征信号进行防丢拍识别,第二节拍间隔时长阈值与第一节拍间隔时长阈值相关联。
具体的,识别单元803可以判断特征信号中的特征值是否大于或等于预设的防丢拍阈值,防丢拍阈值小于特征阈值;如果特征值大于或等于防丢拍阈值,判断当前节拍间隔时长是否满足第二节拍间隔时长阈值,如果是,确定特征值对应的特征信号的位置为节拍位置,对当前节拍间隔时长重新计时。
在一种实现方式中,识别单元803可以通过以下方式增加识别结果的可靠性:
对节拍位置上对应的特征阈值和第一节拍间隔时长阈值设置可信度属性值,可信度属性值表示基于特征阈值和第一节拍间隔时长阈值来判断特征信号为节拍位置的可靠性。
其中,如果特征值大于或等于特征阈值且当前节拍间隔时长满足预设的第一节拍间隔时长阈值,可信度属性值增加第一增量值;如果特征值小于特征阈值但大于或等于防丢拍阈值且当前节拍间隔时长满足预设的第二节拍间隔时长阈值,可信度属性值减小第二增量值。
监测可信度属性值是否大于预设的可信度阈值,当可信度属性值大于所述可信度阈值时,更新特征阈值和第一节拍间隔时长阈值。
具体的,识别单元803在更新特征阈值和第一节拍间隔时长阈值时,具体可以通过以下方式实现:
获得已识别为节拍位置的节拍间隔时长的间隔平均值,基于间隔平均值,更新为第一节拍间隔时长阈值;获得节拍位置所对应的特征信号的特征值的特征平均值,基于特征平均值,更新为特征阈值。
需要说明的是,本实施例中节拍识别装置中的各结构单元的具体实现可以参考前文中相应内容,此处不再详述。
针对本实施例以上的实现方案,以下对本实施例的具体实现举例说明:
本实施例由获取单元,处理单元,识别单元和输出单元组成,如图9所示:
首先,通过处理单元对获取到的音频波形信号进行处理,得到突出节拍的特征信号,再通过识别单元进行识别,得到节拍点,即音频波形信号中的节拍位置。
其中,根据节拍能量爆发的特征,可以通过音频信号的变化量以及能量值进行判断。优选的,为了提升节拍识别的正确率,避免不同音乐中人声或其他伴奏的干扰,可增加频段分离单元。节拍点可以由底鼓和行军鼓或者其他爆发声(如拍手、Bass提琴等)产生,频段分离模块可通过对底鼓、Bass等的低频信号处理,以及对行军鼓、拍手等的中高频信号处理,得到突出节拍的特征信号。
其中,处理单元包括频段分离(滤波或其他频段分离方法,频段分离后,后续的操作可以是分频段的也可以是汇总后进行的)、特征提取等处理。首先通过频段分离处理分离出低频信号和中高频信号,可采用相应频段滤波,或者频谱分析等办法。分离出的信号通过信号微分、能量积分等方法进行特征提取。
上述的特征提取即对信号中的“能量爆发”特点进行提取,如底鼓、Bass等低频信号频段分布比较确定,频段分离后,对信号进行实时求导,得到其变化速度信号,可通过变化速度信号判断其“爆”点。同时还可对信号进行实时积分,得到其短时能量信号,通过能量变化信号判断其“能量”点。
在实际应用中,对音频波形信号的信号处理操作可在微处理器中实现,将音频波形信号利用信号微分等特征提取的处理可在微处理器中进行。
其中,微处理器,用于对获取到的音频波形信号进行定步长计算,即每隔一定的步长(时间)对音频波形信号进行采样,并将采样得到的信号微分进行简化。由于音频波形信号采样频率范围较大,通常为保证信号完整性,采样频率应至少≥20kHz。可根据计算能力及精度及系统实时性选择计算步长,例如5ms、10ms、20ms等。
在具体实现过程中,每隔步长时间将对应时间的音频信号采样点进行一次处理。上述实时积分可通过最小二乘拟合方法近似,也可以可通过时间求和的方法近似。
通过识别单元判断信号处理后的特征信号所处位置是否是节拍点。节拍识别的基本原理是对上述特征信号进行特征阈值判断和节拍间隔时长阈值判断。为增强识别正确率,本算法增加防丢拍阈值和稳定识别自动调整阈值两部分算法。节拍识别算法流程如图10所示。
在音乐开始的同时开始获取音频波形信号,并对音频波形信号进行特征提取,获得特征值,之后再对经过信号处理的特征值(近似导数和近似积分值)在每个计算步中都将进行特征阈值判断,并在每一步计算时累加存储器中的数值,当特征值满足特征阈值条件,及存储器满足第一节拍间隔时长阈值要求时,判断此时为节拍点,并清空存储器。
由于干扰或曲风的灵活变化,偶尔会出现节拍点特征值或间隔不满足条件,为提高连续判断正确率,增加防丢拍判断,即此时特征阈值要求和第一节拍间隔时长阈值要求与特征值和节拍间隔时长不同。同时,增加节拍识别可信度的概念。初次识别后对可信度进行赋初值,此后如满足特征阈值和节拍间隔时长阈值,则可信度提升,如不满足防丢拍阈值和第二节拍间隔时长阈值,则可信度下降。
上述特征阈值包括初始值和稳定值,第一节拍间隔时长阈值也同样包括初始值和稳定值。
特征阈值的初始值可通过经验设定,例如选择5点的最小二乘求导,可以统计1~2首典型歌曲的典型节拍点的导数在0.4~1.2之间,可以设定导数特征阈值为0.4;特征阈值的稳定值是在系统已经连特征值的稳定阈值的设定同理,经过5s连续节拍点识别且节拍识别可信度保持大于设定阈值,则可适当调整特征值范围。
优选的,可以增加正反馈机制,在初始阈值判断时且识别可信度大于某设定阈值时,记录此时的节拍特征值,统计一段时间(例如5s)内满足要求的节拍特征值,处理(求平均/最小值,适当扩大范围等)作为稳定阈值。续识别且可信度保持大于可信度阈值一段时间后,判断此时进入稳定识别。
第一节拍间隔时长阈值的初始值也可以通过经验设定,例如节拍拍速通常在40~160bpm之间,则节拍间隔应在0.38~1.5s范围内。第一节拍间隔时长阈值的稳定值是在系统已经连续识别且可信度保持大于可信度阈值一段时间后,判断此时进入稳定识别,通过存储器中的平均值可刷新第一节拍间隔时长阈值。例如经过5s连续节拍点识别后,存储器中的平均值为0.5s,则节拍间隔可以从0.38~1.5s的初始范围变化到0.4~0.6s的稳定范围。
其中,识别到节拍时可以输出一个标志位,获取当前音频的幅值等,输出给后续输出控制模块,进行执行器的输出控制。
需要说明的是,每识别到一个节拍位置时,会判断音乐播放的时长是否到达了音乐结束的时长,如果到达了音乐结束的时长,就停止节拍识别;如果还没有达到音乐结束的时长,则返回信号处理之前,继续找寻下一个节拍位置。
完整的节拍识别过程伴随音乐播放,识别出节拍点与实际节拍出现点的延时由系统处理速度和算法深度决定,再通过执行端达到衬托音乐氛围的效果。
优选的,可以通过数据预处理,即将解码缓存或者预解码但尚未播放的音频波形信号传输给识别单元,识别单元进行节拍点识别,再通过同步信号将执行效果与音乐同步,可减少延迟感、增强实时感,以及识别更多音乐特征。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种节拍识别的方法,其特征在于,包括:
响应于目标音频文件的节拍识别指令,在所述目标音频文件的播放过程中,获得所述目标音频文件的音频波形信号;
对所述音频波形信号进行信号处理,以得到所述音频波形信号的特征信号;所述对所述音频波形信号进行处理包括:对所述音频波形信号利用预设的特征提取算法进行信号特征提取;
对所述特征信号进行节拍识别,以确定所述音频波形信号中的节拍位置;
所述对所述特征信号进行节拍识别,包括:
判断所述特征信号中的特征值是否大于或等于预设的特征阈值;
如果所述特征值大于或等于所述特征阈值,判断当前节拍间隔时长是否满足预设的第一节拍间隔时长阈值,如果是,确定所述特征值对应的特征信号的位置为节拍位置,对所述当前节拍间隔时长重新计时;
如果所述第一节拍间隔时长阈值内对应的特征值均小于所述特征阈值,所述方法还包括:
基于预设的防丢拍阈值及第二节拍间隔时长阈值,对所述特征信号进行防丢拍识别,所述第二节拍间隔时长阈值与所述第一节拍间隔时长阈值相关联;
其中,针对节拍位置设置有可信度属性值,所述可信度属性值表示基于所述特征阈值和所述第一节拍间隔时长阈值来判断特征信号为节拍位置的可靠性,随着目标音频文件的播放,可信度的属性值不断的进行变化,当所述可信度属性值大于可信度阈值时,更新所述特征阈值和所述第一节拍间隔时长阈值。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频波形信号进行信号处理之前,还包括:
对所述音频波形信号进行频段分离,得到至少一个频段的波形信号。
3.根据权利要求2所述的方法,其特征在于,所述对所述音频波形信号进行信号处理,包括:
对所述音频波形信号中各频段的波形信号分别进行特征提取处理,以得到所述各频段的波形信号中的至少一个特征信号。
4.根据权利要求1所述的方法,其特征在于,所述基于预设的防丢拍阈值及所述的第二节拍间隔时长阈值,对所述特征信号进行防丢拍识别,包括:
判断所述特征信号中的特征值是否大于或等于预设的防丢拍阈值,所述防丢拍阈值小于所述特征阈值;
如果所述特征值大于或等于所述防丢拍阈值,判断当前节拍间隔时长是否满足所述第二节拍间隔时长阈值,如果是,确定所述特征值对应的特征信号的位置为节拍位置,对所述当前节拍间隔时长重新计时。
5.根据权利要求4所述的方法,其特征在于,所述对所述特征信号进行节拍识别之前,所述方法还包括:
对所述节拍位置设置可信度属性值,所述可信度属性值表示基于所述特征阈值和所述第一节拍间隔时长阈值来判断特征信号为节拍位置的可靠性;
其中,如果所述特征值大于或等于所述特征阈值且当前节拍间隔时长满足预设的第一节拍间隔时长阈值,所述可信度属性值增加第一增量值;如果所述特征值小于所述特征阈值但大于或等于所述防丢拍阈值且所述当前节拍间隔时长满足预设的第二节拍间隔时长阈值,所述可信度属性值减小第二增量值;
相应的,所述方法还包括:
监测所述可信度属性值是否大于预设的可信度阈值,当所述可信度属性值大于所述可信度阈值时,更新所述特征阈值和所述第一节拍间隔时长阈值。
6.根据权利要求5所述的方法,其特征在于,所述更新所述特征阈值和所述第一节拍间隔时长阈值,包括:
获得已识别为所述节拍位置的节拍间隔时长的间隔平均值,基于所述间隔平均值,更新为所述第一节拍间隔时长阈值;
获得所述节拍位置所对应的特征信号的特征值的特征平均值,基于所述特征平均值,更新为所述特征阈值。
7.一种节拍识别的装置,其特征在于,包括:
获取单元,用于响应目标音频文件的节拍识别指令,在所述目标音频文件的播放过程中,获得所述目标音频文件的音频波形信号;
处理单元,用于对所述音频波形信号进行信号处理,以得到所述音频波形信号的特征信号;所述对所述音频波形信号进行处理包括:对所述音频波形信号利用预设的特征提取算法进行信号特征提取;
识别单元,用于对所述特征信号进行节拍识别,以确定所述音频波形信号中的节拍位置;
所述识别单元,对所述特征信号进行节拍识别,包括:
判断所述特征信号中的特征值是否大于或等于预设的特征阈值;
如果所述特征值大于或等于所述特征阈值,判断当前节拍间隔时长是否满足预设的第一节拍间隔时长阈值,如果是,确定所述特征值对应的特征信号的位置为节拍位置,对所述当前节拍间隔时长重新计时;
如果所述第一节拍间隔时长阈值内对应的特征值均小于所述特征阈值,所述方法还包括:
基于预设的防丢拍阈值及第二节拍间隔时长阈值,对所述特征信号进行防丢拍识别,所述第二节拍间隔时长阈值与所述第一节拍间隔时长阈值相关联;
其中,针对节拍位置设置有可信度属性值,所述可信度属性值表示基于所述特征阈值和所述第一节拍间隔时长阈值来判断特征信号为节拍位置的可靠性,随着目标音频文件的播放,可信度的属性值不断的进行变化,当所述可信度属性值大于可信度阈值时,更新所述特征阈值和所述第一节拍间隔时长阈值。
CN201811644647.2A 2018-12-30 2018-12-30 一种节拍识别的方法及装置 Active CN109712600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811644647.2A CN109712600B (zh) 2018-12-30 2018-12-30 一种节拍识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811644647.2A CN109712600B (zh) 2018-12-30 2018-12-30 一种节拍识别的方法及装置

Publications (2)

Publication Number Publication Date
CN109712600A CN109712600A (zh) 2019-05-03
CN109712600B true CN109712600B (zh) 2021-04-20

Family

ID=66259722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811644647.2A Active CN109712600B (zh) 2018-12-30 2018-12-30 一种节拍识别的方法及装置

Country Status (1)

Country Link
CN (1) CN109712600B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853677B (zh) * 2019-11-20 2022-04-26 北京雷石天地电子技术有限公司 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质
CN111048111B (zh) * 2019-12-25 2023-07-04 广州酷狗计算机科技有限公司 检测音频的节奏点的方法、装置、设备及可读存储介质
CN112489681A (zh) * 2020-11-23 2021-03-12 瑞声新能源发展(常州)有限公司科教城分公司 节拍识别方法、装置及存储介质
CN112489676A (zh) * 2020-12-15 2021-03-12 腾讯音乐娱乐科技(深圳)有限公司 模型训练方法、装置、设备及存储介质
CN112667193A (zh) * 2020-12-22 2021-04-16 北京小米移动软件有限公司 外壳显示状态控制方法及装置、电子设备、存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3789326B2 (ja) * 2000-07-31 2006-06-21 松下電器産業株式会社 テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
CN101640057A (zh) * 2009-05-31 2010-02-03 北京中星微电子有限公司 一种音视频匹配方法及装置
CN105286815B (zh) * 2015-11-02 2017-11-21 重庆大学 一种基于波形时域特征的脉搏波信号特征点检测方法

Also Published As

Publication number Publication date
CN109712600A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109712600B (zh) 一种节拍识别的方法及装置
Rao et al. Vocal melody extraction in the presence of pitched accompaniment in polyphonic music
WO2017084360A1 (zh) 一种用于语音识别方法及系统
Böck et al. Polyphonic piano note transcription with recurrent neural networks
US9653056B2 (en) Evaluation of beats, chords and downbeats from a musical audio signal
US8193436B2 (en) Segmenting a humming signal into musical notes
WO2017157142A1 (zh) 歌曲旋律信息处理方法、服务器和存储介质
CN1937462A (zh) 内容偏好得分确定方法、内容重放装置及内容重放方法
CN102568454B (zh) 一种分析音乐bpm的方法和装置
US9646592B2 (en) Audio signal analysis
JP2001142480A (ja) 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
KR20180128838A (ko) 다수의 음성 인식 장치 간 조정
AU2003274432A1 (en) Method and system for speech recognition
TW201537559A (zh) 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
JP2005292207A (ja) 音楽分析の方法
Jang et al. Enhanced Feature Extraction for Speech Detection in Media Audio.
Dixon Beat induction and rhythm recognition
CN110033791B (zh) 一种歌曲基频提取方法及装置
Dressler Towards computational auditory scene analysis: Melody extraction from polyphonic music
JP2008015388A (ja) 歌唱力評価方法及びカラオケ装置
JP2011013383A (ja) オーディオ信号補正装置及びオーディオ信号補正方法
JP2007206183A (ja) カラオケ装置
Hjalmarsson et al. Measuring final lengthening for speaker-change prediction
Kumar et al. Sung note segmentation for a query-by-humming system
CN110827859B (zh) 一种颤音识别的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 4 / F, building 1, No.14 Jiuxianqiao Road, Chaoyang District, Beijing 100020

Applicant after: Beijing Jingwei Hengrun Technology Co., Ltd

Address before: 8 / F, block B, No. 11, Anxiang Beili, Chaoyang District, Beijing 100101

Applicant before: Beijing Jingwei HiRain Technologies Co.,Ltd.

GR01 Patent grant
GR01 Patent grant