CN113411663B

CN113411663B - 一种用于非编工程中的音乐节拍提取方法

Info

Publication number: CN113411663B
Application number: CN202110481655.5A
Authority: CN
Inventors: 马萧萧; 张博文; 黄平; 雷锴; 赵越
Original assignee: Chengdu Dongfangshengxing Electronics Co ltd
Current assignee: Chengdu Dongfangshengxing Electronics Co ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-02-21
Anticipated expiration: 2041-04-30
Also published as: CN113411663A

Abstract

本发明公开了一种用于非编工程中的音乐节拍提取方法，包括以下步骤：步骤一：音频数据样本预处理，对原始音频数据样本进行预处理，将原始音频数据样本打包为音频帧格式的音频数据样本；步骤二：音频数据样本节奏评估，对音频帧格式的音频数据样本进行节奏评估，获得音频数据样本的每分钟节拍数；步骤三：音频数据样本节拍位置评估，利用音频数据样本的每分钟节拍数进行节拍位置评估，定位出音频数据样本中每个节拍的出现的具体时间位置。本发明通过对音频数据进行预处理，并评估预处理后的音频数据的每分钟节拍数，利用节拍数评估出音频样本中每个节拍的出现的具体时间位置，实现音乐节拍提取，提高了关键点位的定位精度。

Description

一种用于非编工程中的音乐节拍提取方法

技术领域

本发明涉及视频编辑技术领域，尤其涉及一种用于非编工程中的音乐节拍提取方法。

背景技术

近年来随网速不断提升，伴随着短视频的兴起，特别是针对短视频中的卡点剪辑模式，如何让视频切片能够快速精准对齐音频鼓点，让输出画面更加符合音乐节拍的功能，受到短视频制作者的追捧。

目前常用的音频卡点剪辑方法，是由剪辑人员在对音频切片试听过程中，通过人工对音频切片打点的方式来获取关键点位，再引入其它素材切片去对应点位，这种方式虽然也能满足实际应用，但精准度低下，且用户在使用过程中的体验较差。

如申请号为CN201910619907.9的专利申请公开了一种生成多媒体的方法及装置、电子设备、存储介质，该方法包括：根据为多媒体所选定的音频，获得音频中各音频帧的频谱；根据音频中各音频帧的频谱进行差分计算，获得音频帧的频谱通量；根据音频帧的频谱通量进行峰值检测，定位音频中鼓点所在的音频帧；根据为多媒体所选定的视频素材生成对齐至鼓点的视频片段；按照所述视频片段所对齐的鼓点进行视频片段和音频的合成，获得多媒体，所述多媒体适配于所述音频中的鼓点进行所对应视频片段的切换。方案虽然能提高多媒体的生成速度，但是还存在音频鼓点的定位精度不高的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于非编工程中的音乐节拍提取方法，通过对音频数据进行预处理，并评估预处理后的音频数据的每分钟节拍数，利用节拍数评估出音频样本中每个节拍的出现的具体时间位置，实现音乐节拍提取，提高了关键点位的定位精度。

本发明的目的是通过以下技术方案来实现的：

一种用于非编工程中的音乐节拍提取方法，包括以下步骤：

步骤一：音频数据样本预处理，对原始音频数据样本进行预处理，将原始音频数据样本打包为音频帧格式的音频数据样本；

步骤二：音频数据样本节奏评估，对音频帧格式的音频数据样本进行节奏评估，获得音频数据样本的每分钟节拍数；

步骤三：音频数据样本节拍位置评估，利用音频数据样本的每分钟节拍数进行节拍位置评估，定位出音频数据样本中每个节拍的出现的具体时间位置。

具体的，步骤一具体包括：

S101，音频样本通道合并，采用将多通道样本进行平均或者仅选择其中一个声道的样本作为后续处理的样本f(t)；

S102，音频样本下采样，以8KHz的采样频率fq对样本f(t)进行下采样，下采样后的样本记为S(n)，其中n为样本数据的索引编号；

S103，音频样本打包，将下采样样本S(n)按照预设音频帧格式打包为音频帧。

具体的，步骤二具体包括：

S201，频谱分析，利用频谱分析方法分析出不同音频帧中不同时刻与人耳听觉相适应的频谱强度；

S202，建立节奏样本，根据不同时刻的频谱强度，利用音乐节拍提取方法提取出音频帧中的节拍数；

S203，BPM评估，对音频强度进行自相关运算来获取音频帧的BPM。

具体的，步骤三具体包括：将音频帧的BPM作为参数生成高斯窗对；对音频强度进行滤波获得节拍评分Ga(fn)；对节拍评分进行局部极值点查找，获得音频帧索引号为fn且满足预设的查找条件的节拍时刻序列T(n)；将节拍时刻序列T(n)中末尾dn时刻的节拍评分Ga(fn)最大值作为音频节拍的结束时刻t_end；由结束时刻t_end向前每次在节拍评分Ga(fn)回溯dn时刻，即在节拍时刻序列T(n)中找出处于[t_end-dn，t_end]时间段内的时刻所对应的节拍评分Ga(fn)最大值对应的样本索引号fn；并根据公式t＝fn/fm计算出节拍时刻t，从而定位出音频数据样本中每个节拍的出现的具体时间位置。

具体的，步骤S201具体包括以下子步骤：

S2011，利用汉明窗函数对音频帧进行加汉明窗处理；

S2012，将经过加汉明窗处理的音频帧进行快速傅里叶变换，得到每一帧的傅里叶频谱强度；

S2013，利用矩阵变换方法将傅里叶频谱强度转换为梅尔频谱；

S2014，利用梅尔声谱换算公式将梅尔频谱换算为分贝幅度的梅尔声谱强度。

具体的，步骤S202具体包括以下子步骤：

S2021，通过阀值操作将梅尔声谱强度中低分贝的谱强度进行截断，剔除梅尔声谱中的低分贝的声音；

S2022，计算音谱强度增量，将每个音频帧的音频强度增量进行求和；

S2023，利用IIR滤波器将求和后的音频强度增量进行IIR滤波，去除直流分量。

本发明的有益效果：本发明通过对音频数据进行预处理，并评估预处理后的音频数据的每分钟节拍数，利用节拍数评估出音频样本中每个节拍的出现的具体时间位置，实现音乐节拍提取，提高了关键点位的定位精度，改善了音频卡点的剪辑体验。

附图说明

图1是本发明的方法流程图。

图2是本发明的音频数据样本预处理流程图。

图3是本发明的频谱分析流程图。

图4是本发明的节奏样本构建流程图。

图5是本发明的BPM评估流程图。

图6是本发明的节拍位置评估流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1所示，一种用于非编工程中的音乐节拍提取方法，包括以下步骤：

(1)音频数据样本预处理，该过程具体包括：

(1.1)音频样本通道合并，可采用将多通道样本进行平均或者仅选择其中一个声道的样本作为后续处理的样本f(t)。

(1.2)样本下采样到较低的采样频率fq，可选的采样频率为8KHz，下采样方法可选最近邻或线性下采样方法，下采样后的样本记为S(n)，其中n为样本数据的索引编号。

(1.3)将样本打包为音频帧格式。音频帧计算公式为

SF(fn,n)＝S(fn·(fz-hz)+n)

其中，fz表示一个音频帧中所包含的样本数量；hz表示音频帧之间的重叠样本的数量；fn表示音频帧索引号，音频帧索引号取值范围为

n表示音频帧中的样本数据索引号，样本数据索引号取值范围为0≤n＜fz；则音频帧对应的频率fm为

(2)节奏评估

节奏评估用来评估音乐的每分钟节拍数(BPM，Beats per minute)。包含三个子步骤：频谱分析，建立节奏样本，评估BPM。

(2.1)频谱分析是分析不同音频帧当中与人耳听觉相适应的频谱强度。频谱分析的实现步骤包含以下部分：

a.音频帧加汉明窗处理，加汉明窗处理中所使用的汉明窗函数为：

FW(fn,n)＝SF(fn,n)*HW(n)

b.将经过加窗处理的样本帧进行快速傅里叶变换得到每一帧的频谱强度。

FI(fn,n)＝|FFT(FW(fn,n))|

c.产生声谱图。通过傅里叶变换得到的频率为赫兹(Hz)，人耳通常能听到的频率范围为2Hz～20KHz，并且人耳对赫兹单位的感知是非线性的，通常对低频信号更加敏感，对高频信号相对不敏感。本发明中采用了相对人耳更为线性的梅尔频谱。在量化声音能量当中可将梅尔谱平均量化为mb个区间，mb通常可选用40。将傅里叶频谱转换为梅尔频谱可使用矩阵变换的方法，矩阵变换过程如下式所示：

MI＝FI·W

其中，MI(尺寸fn×mb矩阵)为梅尔频谱强度，FI(尺寸fn×n矩阵)为傅里叶频谱强度，W为n×mb的频谱能量转换矩阵。

d.将梅尔频谱换算到分贝幅度的梅尔声谱强度，换算过程如下式所示：

MIdb＝20.0*log10(MI)。

(2.2)建立节奏样本，得到不同时刻的的分贝幅度的梅尔谱强度之后需要获得声音强度的变化规律，从而提取出音乐当中的节拍数。节奏样本构建处理过程中包含以下流程：

a.剔除声谱当中的低分贝的声音。可通过阈值操作将分贝幅度中低分贝的声谱强度进行截断，截断过程如下式所示；

MIdb＝max(MIdb,Th_db)；

b.计算音谱强度增量，计算公式如下式所示：

D(fn,n)＝max(MIdb(fn,n)-MIdb(fn-1,n),0)；

将每一音频帧的音频强度增量求和，求和过程如下式所示：

c.利用IIR滤波器对求和后的音频强度增量进行IIR滤波，去除直流分量，滤波过程如下式所示：

Ed(fn)＝a₀E(fn)+a₁E(fn-1)+a₂Ed(fn-1)；

其中，IIR滤波器系数可选a₀＝1，a₁＝-1，a₂＝0.99。

(2.3)评估BPM。该步骤通过对音频强度进行自相关运算来获取音乐的BPM。具体评估流程如下：

将音频强度截取出长度为s秒的一段，对应的截取出的音频强度的样本数量为sn＝s·fm,记截取出的片段为Et(n)，其中n＜sn。将Et(n)进行自相关运算得到相关系数：

(

为相关运算符)

为了抑制过小和过大的频率，可选择一个参考的节拍值，通常可选参考值范围[60,150]，在参考节拍值处对W(n)进行加窗处理，选择其中的最大值的索引号dn即为节拍的样本序号间隔，对应的时间间隔为Δt＝dn/fm，则对应的BPM＝60/Δt。

(3)节拍位置评估

节拍位置评估即评估出音频数据样本中每个节拍的出现的具体时间位置。该步骤具体包括：

A.生成高斯滤波器核，滤波器核尺寸为dn，高斯核函数如下：

其中sc为一缩放因子，通常可选8。

B.采用上述高斯核对Ed(fn)进行相关操作获得节拍评分

C.对节拍评分寻找局部极值点，即为潜在的节拍时刻序列T(n)。局部极值点满足(Ga(fn+1)-Ga(fn))·(Ga(fn)-Ga(fn-1))＜0的音频帧索引号为fn的时刻。

D.找出T(n)末尾dn样本内时刻的Ga(fn)的最大值作为音乐节拍结束的时刻t_end。

E.由t_end时刻往前每次在Ga(fn)回溯dn，找出T(n)时间Ga(fn)内的最大值对应的样本索引号fn，则音乐的节拍时刻t＝fn/fm。下次以fn为基准往前回溯dn，以此类推。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于非编工程中的音乐节拍提取方法，其特征在于，包括以下步骤：

步骤三：音频数据样本节拍位置评估，利用音频数据样本的每分钟节拍数进行节拍位置评估，定位出音频数据样本中每个节拍的出现的具体时间位置，包括以下步骤：

S301，将音频帧的 BPM 作为参数生成高斯窗对；

S302，对音频强度进行滤波获得节拍评分Ga(fn)；

S303，对节拍评分进行局部极值点查找，获得音频帧索引号为fn且满足预设的查找条件的节拍时刻序列 T(n)；

S304，将节拍时刻序列 T(n)中末尾dn时刻的节拍评分Ga(fn)最大值作为音频节拍的结束时刻tend；

S305，由结束时刻tend向前每次在节拍评分Ga(fn)回溯dn时刻，找出节拍时刻序列T(n)中节拍评分Ga(fn)最大值对应的样本索引号fn，并根据公式t=fn/fm计算出节拍时刻t，从而定位出音频数据样本中每个节拍的出现的具体时间位置。

2.根据权利要求1所述的一种用于非编工程中的音乐节拍提取方法，其特征在于，所述步骤一具体包括：

S103，音频样本打包，将下采样样本S(n) 按照预设音频帧格式打包为音频帧。

3.根据权利要求1所述的一种用于非编工程中的音乐节拍提取方法，其特征在于，所述步骤二具体包括：

4.根据权利要求3所述的一种用于非编工程中的音乐节拍提取方法，其特征在于，所述步骤S201 具体包括以下子步骤：

S2011，利用汉明窗函数对音频帧进行加汉明窗处理；

5.根据权利要求3所述的一种用于非编工程中的音乐节拍提取方法，其特征在于，所述步骤S202 具体包括以下子步骤：

S2021，通过阀值操作将梅尔声谱强度中最低的 20%强度进行截断，剔除梅尔声谱中的低分贝的声音；