CN110853677B

CN110853677B - 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质

Info

Publication number: CN110853677B
Application number: CN201911138249.8A
Authority: CN
Inventors: 宋冬梅; 武剑; 王宏
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2022-04-26
Anticipated expiration: 2039-11-20
Also published as: CN110853677A

Abstract

本发明涉及语音信号处理领域，提供了歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质，以实现对歌曲中各种频率的鼓声节拍准确识别的技术效果。该方法包括：对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据；在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列；在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列；当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。本发明的技术方案能对鼓声节拍进行准确识别。

Description

歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质。

背景技术

对歌曲中鼓声节拍的识别可分析出打击乐器所产生的节拍信息，一般用于KTV中的歌曲与灯光的配合效果即声光同步，亦可用于音乐喷泉，以节拍的快慢控制音乐喷泉中灯光闪烁处理等。

现有的鼓声节拍识别方法包括时域的鼓声节拍识别方法或频域的鼓声节拍识别方法，其中，时域的鼓声节拍识别方法针对低频打击乐有一定的识别效果，对高频打击乐器识别效果较差，几乎无法识别，并且不同的歌曲由于平均能量不同，识别的准确度差异较大，而频域的鼓声节拍识别方法对高频打击乐器的识别效果明显不如对低频打击乐器的识别效果，对幅度较小的打击声、高频打击声的幅度或相位变化易处在判定的阀值附近，导致识别准确度明显降低。

综上，现有的鼓声节拍识别方法仍然各有其对鼓声节拍识别准确度低的缺陷。

发明内容

本发明提供一种歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质，实现对歌曲中各种频率的鼓声节拍准确识别的技术效果。

一方面，本发明提供了一种歌曲的鼓声节拍识别方法，包括：

对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据；

在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列；

在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列；

当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。

具体地，在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列，包括：

采用滑动窗分帧法对归一化音频数据分帧；

通过傅里叶变换，获取每一帧归一化音频数据高频部分的有效频点数据范围；

采用幅度差法或相位差法计算归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列。

具体地，采用幅度差法或相位差法计算归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列，包括：

求取归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，其中，n表示数据分帧时的帧序号；

根据归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，计算fftdivsum(n)的滑动平均值曲线Avg(n)或phasedivsum(n)的平均值PAVGSum；

根据附加节拍差值的权重C、fftdivsum(n)和Avg(n)，或根据平均值PAVGSum的权重CP、phasedivsum(n)和PAVGSum，获取高频节拍帧检测结果HFRes(n)，其中，C的取值范围为[0.1，0.5]，CP的取值范围为[1，2]；

在高频节拍帧检测结果HFRes(n)为1时，按照公式BeatsH(k)＝(0.5*Wlen*1000*n)/FS获取归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列BeatsH(k)，其中，Wlen为滑动窗的长度，FS为傅里叶变换时音频数据的采样率。

具体地，在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列，包括：

在时域上对归一化音频数据进行低通滤波，得到低频音频数据；

采用矩形窗对低频音频数据分帧；

计算分帧后相邻分帧的能量差序列divSI(n)和所有相邻分帧低频音频数据能量差的平均值AVGdivSI；

根据平均值AVGdivSI的权重CL、divSI(n)和AVGdivSI，获取低频节拍帧检测结果LFRes(n)，其中，CL的取值范围为[1，2]；

在低频节拍帧检测结果LFRes(n)为1时，按照公式BeatsL(k)＝(Framelen*1000*n)/FS获取低频段范围内归一化音频数据的低频节拍序列BeatsL(k)，其中，Framelen为采用矩形窗对低频音频数据分帧后每一帧低频音频数据的长度。

具体地，当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H，包括：

在高频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留在频域上相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)最大的频点对应的一个节拍，得到整合后高频节拍序列aBeatsH(k)；

在低频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留时域上相邻分帧的能量差序列divSI最大的节拍，得到整合后低频节拍序列aBeatsL(k)；

将整合后高频节拍序列aBeatsH(k)和整合后低频节拍序列aBeatsL(k)按时间顺序依次写入节拍序列Beats时，若在aBeatsH(k)中存在节拍B_H与aBeatsL(k)中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留整理后高频节拍序列aBeatsH(k)的节拍B_H。

另一方面，本发明提供了一种歌曲的鼓声节拍识别装置，包括：

预处理模块，用于对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据；

高频节拍提取模块，用于在频域上分析所述归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列；

低频节拍提取模块，用于在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列；

节拍整合模块，用于当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。

具体地，所述高频节拍提取模块包括：

高频数据分帧单元，用于采用滑动窗分帧法对归一化音频数据分帧；

高频数据划分单元，用于通过傅里叶变换，获取每一帧归一化音频数据高频部分的有效频点数据范围；

第一计算单元，用于采用幅度差法或相位差法计算归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列。

具体地，所述第一计算单元包括：

差值之和求取单元，用于求取归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，其中，n表示数据分帧时的帧序号；

均值计算单元，用于根据归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，计算fftdivsum(n)的滑动平均值曲线Avg(n)或phasedivsum(n)的平均值PAVGSum；

高频节拍检测单元，用于根据附加节拍差值的权重C、fftdivsum(n)和Avg(n)，或根据平均值PAVGSum的权重CP、phasedivsum(n)和PAVGSum，获取高频节拍帧检测结果HFRes(n)，其中，C的取值范围为[0.1，0.5]，CP的取值范围为[1，2]；

高频节拍序列获取单元，用于在高频节拍帧检测结果HFRes(n)为1时，按照公式BeatsH(k)＝(0.5*Wlen*1000*n)/FS获取归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列BeatsH(k)，其中，Wlen为滑动窗的长度，FS为傅里叶变换时音频数据的采样率。

第三方面，本发明提供了一种终端，所述终端包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述技术方案的方法的步骤。

第四方面，本发明提供了一种非临时性计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述技术方案的方法的步骤。

不同于现有技术只是在频域上或时域上对歌曲的鼓声节拍进行识别，从而导致识别结果不准确，本发明是通过频域与时域结合起来的方式进行鼓声节拍的识别，即，在频域上通过对音频数据高频段特征的分析，提取高频节拍序列，而在时域上通过对音频数据低频段特征的分析，提取低频节拍序列，后续再进行高频节拍序列和低频节拍序列的整合等处理。由于对不同频段的音频数据，采用了不同的方式进行处理，从而保证了无论是低频打击乐器还是高频打击乐器，都能对鼓声节拍进行准确识别，进而保证了鼓声节拍的识别在各个场景的应用都能达到预期的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种歌曲的鼓声节拍识别方法的流程图；

图2是本发明实施例提供的提取归一化音频数据的高频节拍序列的流程图；

图3是本发明实施例提供的采用幅度差法或相位差法计算归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列的流程图；

图4是本发明实施例提供的提取归一化音频数据的低频节拍序列的流程图；

图5是本发明实施例提供的在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间时，只保留高频节拍序列的节拍B_H的流程图；

图6是本发明实施例提供的歌曲的鼓声节拍识别装置的结构示意图；

图7是本发明实施例提供的高频节拍提取模块的结构示意图；

图8是本发明实施例提供的第一计算单元的结构示意图；

图9本发明实施例提供的低频节拍提取模块的结构示意图；

图10本发明实施例提供的节拍整合模块的结构示意图；

图11是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

在本说明书中，为了便于描述，附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。

本发明提出了一种歌曲的鼓声节拍识别方法和装置，其中，所述方法如图1所示，主要包括步骤S101至S104，详述如下：

步骤S101：对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据。

为了使不同位宽的音频数据所表示的幅度在同一量级，以方便后续运算，在本发明实施例中，可对待识别鼓声节拍的音频数据进行归一化处理，将不同位宽的脉冲编码调制(Pulse Code Modulation，PCM)音频数据值归一化到-1～+1范围，具体归一化方法按照如下公式处理：

其中，val表示PCM音频数据，它以定点数表示，nval表示归一化后的音频数据值，以浮点数据表示，bitnum表示定点val数据的位宽。

步骤S102：在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列。

现有的频域的鼓声节拍识别方法是对整个频域分析音频数据幅度变化或相位变化，由于需要兼顾高低频率信息，在分帧时每一帧的帧长往往选取较大，从而增加成倍的运算量，即使如此，也不能达到较好的识别效果。由于傅里叶变换后的频域特征，其低频部分对应的数据信息相对较少，对低频的划分精度低，如此造成在做低频数据分析时准确度降低，而在采用相位变换提取节拍时，低频部分的节拍会被高频部分的节拍掩盖，在采用幅度变换提取节拍时，高频部分的节拍会被中、低频部分的节拍掩盖，如此，总会导致有一部分的节拍信息被漏检。由于对高频部分的单独分析，可以避免高、低频信号的互相干扰造成节拍提取结果的准确度下降，因此，本发明在频域上只对归一化音频数据的高频段特征进行分析，提取归一化音频数据的高频节拍序列，从而可以消除现有技术的上述一系列缺陷。

作为本发明一个实施例，在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列可通过如下步骤S201至S203实现，如图2所示，详细说明如下：

步骤S201：采用滑动窗分帧法对归一化音频数据分帧。

由于高频部分占有的频域信息较多，在分帧时可以减小分帧的大小即帧长，从而能够降低后续节拍序列提取的算法复杂度，因此，在本发明实施例中，采用滑动窗分帧法对归一化音频数据分帧时，可以选择一个较小的滑动窗，即减小分帧的大小，例如，可以将滑动窗的大小选择为5～10毫秒；滑动窗可选用汉明窗，窗交叠部分为50％。

步骤S202：通过傅里叶变换，获取每一帧归一化音频数据高频部分的有效频点数据范围。

对时间连续的音频数据做傅里叶变换，其目的是要体现每个数据对应频点的相位信息和幅度信息。本发明仅选取高频段的频点信息用于节拍识别。在本发明实施例中，归一化音频数据高频部分是指频率在4000Hz以上的频段；4000Hz以上的频段既包括了高频敲击乐器的频率成份，在计算时低频敲击乐器的频率成份不会对节拍提取结果造成干扰，同时也包含了全频敲击乐器的高频成份，获取每一帧归一化音频数据高频部分的有效频点数据范围的计算公式如下所示：

其中，Round()表示对括号内表达式的计算结果做四舍五入运算，FS表示对归一化音频数据采样时的采样率，Wlen表示步骤S201中对归一化音频数据分帧时所采用滑动窗的窗长度，HighFreq表示归一化音频数据高频部分的起始频点，此处，HighFreq＝4000Hz。HighFreqIndex表示归一化音频数据经傅里叶变换后，其高频部分的起始频点对应的数据序号，换言之，在序号在HighFreqIndex～(Wlen/2)的数据就是每一帧归一化音频数据高频部分的有效频点数据范围。

步骤S203：采用幅度差法或相位差法计算归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列。

作为本发明一个实施例，采用幅度差法或相位差法计算归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列可通过如下步骤S301至S304实现，如图3所示，详细说明如下：

步骤S301：求取归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，其中，n表示数据分帧时的帧序号。

在有敲击乐器时，音频数据的频谱幅度值会瞬间变大，之后的时间范围里幅度缓慢恢复正常，即频谱幅度值在乐器敲击瞬间正向改变较大，随后到敲击乐器声音消失的时间范围内幅度均匀递减，节拍的提取关注的是乐器敲击瞬间的幅度变化，因此，在求得相邻帧的对应频点的幅度差值后，计算所有频点的幅度差值为正的幅度差值之和。

在本发明实施例中，求取归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)的计算公式如下：

其中，n表示前述对归一化音频数据分帧时的帧序号，MAX(x，y)表示取x与y中间的最大值，m表示傅里叶变换得到的频点的序号，fft(n，m)表示第n帧归一化音频数据经傅里叶变换后第m个频点的复数值。显然，从上述fftdivsum(n)的表达式可知，所谓相邻分帧之间所有相应频点中的相应频点，是指相邻分帧之间序号相同的频点，例如，第1个分帧中序号为3的频点和第2个分帧中序号为3的频点就是相应的频点，第5个分帧中序号为6的频点和第6个分帧中序号为6的频点就是相应的频点，等等。

在本发明实施例中，求取归一化音频数据高频部分相邻分帧之间所有相应频点正的相位差绝对值之和phasedivsum(n)的计算公式如下：

上述表达式中，n和fft(n，m)的含义分别与前述实施例中fftdivsum(n)的表达式中n和fft(n，m)的含义相同，P()表示对括号内的复数求取弧度值。

步骤S302：根据归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，计算fftdivsum(n)的滑动平均值曲线Avg(n)或phasedivsum(n)的平均值PAVGSum。

在本发明实施例中，以平均值的点数取20，滑动步进为1来根据归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)，计算fftdivsum(n)的滑动平均值曲线Avg(n)的公式如下：

从上述的计算公式可知，在分帧的帧序号n小于10时，不满足平均值计算个数要求，因此，不计算这些帧的平均值，而直接以相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)代替平均值。

步骤S303：根据附加节拍差值的权重C、fftdivsum(n)和Avg(n)，或根据平均值PAVGSum的权重CP、phasedivsum(n)和PAVGSum，获取高频节拍帧检测结果HFRes(n)，其中，C的取值范围为[0.1，0.5]，CP的取值范围为[1，2]。

在本发明实施例中，根据附加节拍差值的权重C、fftdivsum(n)和Avg(n)，获取高频节拍帧检测结果HFRes(n)可按照如下公式计算：

ADDW＝C×AVGSum

div(n)＝fftdivsum(n)-Avg(n)-ADDW

其中，AVGSum表示所有分帧的幅度差和的平均值，N表示前述采用滑动窗分帧法对归一化音频数据分帧时所分的数据帧的个数，ADDW表示附加节拍差值，C表示ADDW的权重，取值范围为0.1～0.5，例如，C可以取值0.3，HFRes(n)表示高频节拍帧检测结果，为1表示对应帧序号为n的分帧为高频节拍帧，反之，为0则表示不是高频节拍帧。

在本发明实施例中，根据平均值PAVGSum的权重CP、phasedivsum(n)和PAVGSum，获取高频节拍帧检测结果HFRes(n)可按照如下公式计算：

div(n)＝phasedivsum(n)-CP×PAVGSum

其中，PAVGSum表示phasedivsum(n)的平均值，N表示前述采用滑动窗分帧法对归一化音频数据分帧时所分的数据帧的个数，CP表示PAVGSum的权重，取值范围为1～2，例如，CP可取值1.5，HFRes(n)表示高频节拍帧检测结果，为1表示对应帧序号为n的分帧为高频节拍帧，反之，为0则表示不是高频节拍帧。

步骤S304：在高频节拍帧检测结果HFRes(n)为1时，按照公式BeatsH(k)＝(0.5*Wlen*1000*n)/FS获取归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列BeatsH(k)，其中，Wlen为滑动窗的长度，FS为傅里叶变换时音频数据的采样率。

在本发明实施例中，BeatsH(k)的计算公式为

HFRes(n)＝1，意思是只有在高频节拍帧检测结果HFRes(n)为1即对应帧序号为n的分帧为高频节拍帧时，才可以获取到高频节拍序列BeatsH(k)即按时间先后顺序所有高频节拍帧对应的时刻。

步骤S103：在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列。

现有的时域的鼓声节拍识别方法是对整个音频数据分帧，之后计算相邻分帧之间的能量差值，根据能量差值变化提取节拍信息。从时域上看，低频节拍能量较大，容易检测出来，高频的节拍由于能量较小，很容易被高频信号掩盖，因此，现有的时域的鼓声节拍识别方法几乎无法检测出高频敲击乐器的节拍信息。

作为本发明实施例，在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列可通过如图4示例的步骤S401至S405实现，详细说明如下：

步骤S401：在时域上对归一化音频数据进行低通滤波，得到低频音频数据。

低通滤波的作用是提取低频音频数据成份，降低高频干扰，用于后续的低频乐器和全频乐器的节拍提取。在本发明实施例中，对归一化音频数据进行低通滤波时，滤波频率可选择在200Hz～400Hz之间，优选地，可选择300Hz。

步骤S402：采用矩形窗对低频音频数据分帧。

由于低频部分占有的能量成分较高，因此，在采用矩形窗对低频音频数据分帧时可以增大分帧的大小即帧长，降低分帧数量。在本发明实施例中，矩形窗的大小即分帧的大小可选择30～80毫秒范围，且相邻分帧间无交叠。对低频部分的单独分析，避免了高低频信号的互相干扰和非节拍成份的干扰造成节拍提取结果的准确度下降。

步骤S403：计算分帧后相邻分帧的能量差序列divSI(n)和所有相邻分帧低频音频数据能量差的平均值AVGdivSI。

计算分帧后相邻分帧的能量差序列divSI(n)之前，需要计算每一个分帧的能量值SI(n)，其计算公式如下：

其中，Framelen表示采用矩形窗对低频音频数据分帧所得到的每一个分帧的长度，F(n，k)表示第n个分帧的第k个数据的取值。

相邻分帧的能量差序列divSI(n)的计算公式如下：

其中，N表示低频分帧数。由上述相邻分帧的能量差序列divSI(n)的计算公式可知，能量差序列仅将后一帧能量大于前一帧能量的差值即能量值为正值的存入序列，能量差为负或者0均按0计算，其原因在于，节拍乐器在敲击时携带能量较大，在某一时间内存在能量峰值，能量值的剧烈增加可认为是节拍的开始，能量值的下降可认为是节拍的结束或音乐的结束，因此，正的能量差值可预测节拍的开始，且能量差越大节拍越强，负的能量差值不是决定节拍结束的必要因素，且节拍的识别是识别节拍的开始，因此，以正的能量差值作为检测节拍的依据。

所有相邻分帧低频音频数据能量差的平均值AVGdivSI的计算公式如下：

步骤S404：根据平均值AVGdivSI的权重CL、divSI(n)和AVGdivSI，获取低频节拍帧检测结果LFRes(n)，其中，CL的取值范围为[1，2]。

在本发明实施例中，低频节拍帧检测结果LFRes(n)依赖于divSI(n)和AVGdivSI，即先计算出div(n)，然后，根据div(n)与0的大小关系，获取低频节拍帧检测结果LFRes(n)，具体如下：

div(n)＝divSI(n)-AVGdivSI×CL

其中，CL表示AVGdivSI的权重，取值范围为[1，2]，优选地，可以取值为1.5。LFRes(n)表示低频节拍帧检测结果，为1表示对应帧序号为n的分帧为低频节拍帧，反之，为0则表示不是低频节拍帧。

步骤S405：在低频节拍帧检测结果LFRes(n)为1时，按照公式BeatsL(k)＝(Framelen*1000*n)/FS获取低频段范围内归一化音频数据的低频节拍序列BeatsL(k)，其中，Framelen为采用矩形窗对低频音频数据分帧后每一帧低频音频数据的长度。

在本发明实施例中，BeatsL(k)的计算公式为

HFRes(n)＝1，意思是只有在低频节拍帧检测结果LFRes(n)为1即对应帧序号为n的分帧为低频节拍帧时，才可以获取到低频节拍序列BeatsL(k)即按时间先后顺序所有低频节拍帧对应的时刻。

需要说明的是，在本发明实施例中，步骤S102和步骤S103并没有先后之分，即步骤S103可以在步骤S102之前执行，或者，两个步骤同时执行。

步骤S104：当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。

作为本发明的一个实施例，当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H可通过如附图5示例的步骤S501至步骤S503实现，详细说明如下：

步骤S501：在高频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留在频域上相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)最大的频点对应的一个节拍，得到整合后高频节拍序列aBeatsH(k)。

在本发明实施例中，保留在频域上相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)最大的频点对应的一个节拍时，另一个较小的频点对应的高频节拍删除，而最小节拍间隔的取值范围可以是200～400毫秒。

步骤S502：在低频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留时域上相邻分帧的能量差序列divSI最大的节拍，得到整合后低频节拍序列aBeatsL(k)。

在本发明实施例中，保留时域上相邻分帧的能量差序列divSI最大的节拍，得到整合后低频节拍序列aBeatsL(k)时，另一个较小的频点对应的低频节拍删除。

步骤S503：将整合后高频节拍序列aBeatsH(k)和整合后低频节拍序列aBeatsL(k)按时间顺序依次写入节拍序列Beats时，若在aBeatsH(k)中存在节拍B_H与aBeatsL(k)中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留整理后高频节拍序列aBeatsH(k)的节拍B_H。

在上述情形下，保留整理后高频节拍序列aBeatsH(k)的节拍B_H时，删除节拍B_L，其原因在于低频节拍序列的分帧的长度要大于高频节拍序列的分帧的长度，时间精度低，全频敲击乐器发出的节拍会同时存在于高频节拍序列和低频节拍序列，因此，优先选择时间精度较高的高频节拍序列写入节拍序列Beats中。

从上述附图1示例的歌曲的鼓声节拍识别方法可知，不同于现有技术只是在频域上或时域上对歌曲的鼓声节拍进行识别，从而导致识别结果不准确，本发明是通过频域与时域结合起来的方式进行鼓声节拍的识别，即，在频域上通过对音频数据高频段特征的分析，提取高频节拍序列，而在时域上通过对音频数据低频段特征的分析，提取低频节拍序列，后续再进行高频节拍序列和低频节拍序列的整合等处理。由于对不同频段的音频数据，采用了不同的方式进行处理，从而保证了无论是低频打击乐器还是高频打击乐器，都能对鼓声节拍进行准确识别，进而保证了鼓声节拍的识别在各个场景的应用都能达到预期的效果。

请参阅附图6，是本发明实施例提供的一种歌曲的鼓声节拍识别装置，该歌曲的鼓声节拍识别装置包括预处理模块601、高频节拍提取模块602、低频节拍提取模块603和节拍整合模块604，详述如下：

预处理模块601，用于对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据；

高频节拍提取模块602，用于在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列；

低频节拍提取模块603，用于在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列；

节拍整合模块604，用于当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。

具体地，附图6示例的高频节拍提取模块602可包括高频数据分帧单元701、高频数据划分单元702和第一计算单元703，其结构图如图7所示，详述如下：

高频数据分帧单元701，用于采用滑动窗分帧法对归一化音频数据分帧；

高频数据划分单元702，用于通过傅里叶变换，获取每一帧归一化音频数据高频部分的有效频点数据范围；

第一计算单元703，用于采用幅度差法或相位差法计算归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列。

具体地，附图7示例的第一计算单元703可包括差值之和求取单元801、均值计算单元802、高频节拍检测单元803和高频节拍序列获取单元804，其结构图如图8所示，详述如下：

差值之和求取单元801，用于求取归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，其中，n表示数据分帧时的帧序号；

均值计算单元802，用于根据归一化音频数据高频部分相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)，计算fftdivsum(n)的滑动平均值曲线Avg(n)或phasedivsum(n)的平均值PAVGSum；

高频节拍检测单元803，用于根据附加节拍差值的权重C、fftdivsum(n)和Avg(n)，或根据平均值PAVGSum的权重CP、phasedivsum(n)和PAVGSum，获取高频节拍帧检测结果HFRes(n)，其中，C的取值范围为[0.1，0.5]，CP的取值范围为[1，2]；

高频节拍序列获取单元804，用于在高频节拍帧检测结果HFRes(n)为1时，按照公式BeatsH(k)＝(0.5*Wlen*1000*n)/FS获取归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列BeatsH(k)，其中，Wlen为滑动窗的长度，FS为傅里叶变换时音频数据的采样率。

具体地，附图6示例的低频节拍提取模块603可包括低通滤波单元901、低频数据分帧单元902、能量差计算单元903、低频节拍检测单元904和低频节拍序列获取单元905，其结构图如图9所示，详述如下：

低通滤波单元901，用于在时域上对归一化音频数据进行低通滤波，得到低频音频数据；

低频数据分帧单元902，用于采用矩形窗对低频音频数据分帧；

能量差计算单元903，用于计算分帧后相邻分帧的能量差序列divSI和所有相邻分帧低频音频数据能量差的平均值AVGdivSI；

低频节拍检测单元904，用于根据平均值AVGdivSI的权重CL、divSI和AVGdivSI，获取低频节拍帧检测结果LFRes(n)，其中，CL的取值范围为[1，2]；

低频节拍序列获取单元905，用于在低频节拍帧检测结果LFRes(n)为1时，按照公式BeatsL(k)＝(Framelen*1000*n)/FS获取低频段范围内归一化音频数据的低频节拍序列BeatsL(k)，其中，Framelen为采用矩形窗对低频音频数据分帧后每一帧低频音频数据的长度。

具体地，附图6示例的节拍整合模块604可包括高频节拍整合单元1001、低频节拍整合单元1002和高频节拍保留单元1003，其结构图如图9所示，详述如下：

高频节拍整合单元1001，用于在高频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留在频域上相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)最大的频点对应的一个节拍，得到整合后高频节拍序列aBeatsH(k)；

低频节拍整合单元1002，用于在低频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留时域上相邻分帧的能量差序列divSI最大的节拍，得到整合后低频节拍序列aBeatsL(k)；

高频节拍保留单元1003，用于将aBeatsH(k)和aBeatsL(k)按时间顺序依次写入节拍序列Beats时，若在aBeatsH(k)中存在节拍B_H与aBeatsL(k)中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留aBeatsH(k)的节拍B_H。

从以上技术方案的描述中可以看出，不同于现有技术只是在频域上或时域上对歌曲的鼓声节拍进行识别，从而导致识别结果不准确，本发明是通过频域与时域结合起来的方式进行鼓声节拍的识别，即，在频域上通过对音频数据高频段特征的分析，提取高频节拍序列，而在时域上通过对音频数据低频段特征的分析，提取低频节拍序列，后续再进行高频节拍序列和低频节拍序列的整合等处理。由于对不同频段的音频数据，采用了不同的方式进行处理，从而保证了无论是低频打击乐器还是高频打击乐器，都能对鼓声节拍进行准确识别，进而保证了鼓声节拍的识别在各个场景的应用都能达到预期的效果。

图11是本发明一实施例提供的终端的结构示意图。如图11所示，该实施例的终端11可以是如附图2示例的麦克风音箱。图11示例的终端主要包括：处理器110、存储器111以及存储在存储器111中并可在处理器110上运行的计算机程序112，例如歌曲的鼓声节拍识别方法的程序。处理器110执行计算机程序112时实现上述歌曲的鼓声节拍识别方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，处理器110执行计算机程序112时实现上述各装置实施例中各模块/单元的功能，例如图6所示预处理模块601、高频节拍提取模块602、低频节拍提取模块603和节拍整合模块604的功能。

示例性地，歌曲的鼓声节拍识别方法的计算机程序112主要包括：对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据；在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列；在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列；当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。计算机程序112可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器111中，并由处理器110执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序112在终端5中的执行过程。例如，计算机程序112可以被分割成预处理模块601、高频节拍提取模块602、低频节拍提取模块603和节拍整合模块604(虚拟装置中的模块)的功能，各模块具体功能如下：预处理模块601，用于对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据；高频节拍提取模块602，用于在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列；低频节拍提取模块603，用于在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列；节拍整合模块604，用于当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。

终端11可包括但不仅限于处理器110、存储器111。本领域技术人员可以理解，图11仅仅是终端11的示例，并不构成对终端11的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器110可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器111可以是终端11的内部存储单元，例如终端11的硬盘或内存。存储器111也可以是终端11的外部存储设备，例如终端11上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器111还可以既包括终端11的内部存储单元也包括外部存储设备。存储器111用于存储计算机程序以及终端所需的其他程序和数据。存储器111还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即，将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非临时性计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，歌曲的鼓声节拍识别方法的计算机程序可存储于一非临时性计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤，即，对待识别鼓声节拍的音频数据进行归一化处理，得到归一化音频数据；在频域上分析归一化音频数据的高频段特征，提取归一化音频数据的高频节拍序列；在时域上分析归一化音频数据的低频段特征，提取归一化音频数据的低频节拍序列；当对高频节拍序列和低频节拍序列进行整合时，若在高频节拍序列中存在节拍B_H与低频节拍序列中存在节拍B_L且节拍B_H与节拍B_L之间的间隔小于最小节拍间隔时间，则只保留高频节拍序列的节拍B_H。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。非临时性计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读内存(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，非临时性计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，非临时性计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种歌曲的鼓声节拍识别方法，其特征在于，所述方法包括：

在频域上分析所述归一化音频数据的高频段特征，提取所述归一化音频数据的高频节拍序列；

在时域上分析所述归一化音频数据的低频段特征，提取所述归一化音频数据的低频节拍序列；

当对所述高频节拍序列和低频节拍序列进行整合时，若在所述高频节拍序列中存在节拍BH与所述低频节拍序列中存在节拍BL且所述节拍BH与所述节拍BL之间的间隔小于最小节拍间隔时间，则只保留所述高频节拍序列的节拍BH，包括：

在所述高频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留在频域上相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)最大的频点对应的一个节拍，得到整合后高频节拍序列aBeatsH(k)；

在所述低频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留时域上相邻分帧的能量差序列divSI最大的节拍，得到整合后低频节拍序列aBeatsL(k)；

将所述aBeatsH(k)和aBeatsL(k)按时间顺序依次写入节拍序列Beats时，若在所述aBeatsH(k)中存在节拍BH与所述aBeatsL(k)中存在节拍BL且所述节拍BH与所述节拍BL之间的间隔小于所述最小节拍间隔时间，则只保留所述aBeatsH(k)的节拍BH。

2.如权利要求1所述歌曲的鼓声节拍识别方法，其特征在于，所述在频域上分析所述归一化音频数据的高频段特征，提取所述归一化音频数据的高频节拍序列，包括：

采用滑动窗分帧法对所述归一化音频数据分帧；

采用幅度差法或相位差法计算所述归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列。

3.一种歌曲的鼓声节拍识别装置，其特征在于，所述装置包括：

高频节拍提取模块，用于在频域上分析所述归一化音频数据的高频段特征，提取所述归一化音频数据的高频节拍序列；

低频节拍提取模块，用于在时域上分析所述归一化音频数据的低频段特征，提取所述归一化音频数据的低频节拍序列；

节拍整合模块，用于在所述高频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留在频域上相邻分帧之间所有相应频点正的幅度差值之和fftdivsum(n)或相位差绝对值之和phasedivsum(n)最大的频点对应的一个节拍，得到整合后高频节拍序列aBeatsH(k)；在所述低频节拍序列中，对间隔小于最小节拍间隔的任意相邻两个节拍，保留时域上相邻分帧的能量差序列divSI最大的节拍，得到整合后低频节拍序列aBeatsL(k)；将所述aBeatsH(k)和aBeatsL(k)按时间顺序依次写入节拍序列Beats时，若在所述aBeatsH(k)中存在节拍BH与所述aBeatsL(k)中存在节拍BL且所述节拍BH与所述节拍BL之间的间隔小于所述最小节拍间隔时间，则只保留所述aBeatsH(k)的节拍BH。

4.如权利要求3所述歌曲的鼓声节拍识别装置，其特征在于，所述高频节拍提取模块包括：

高频数据分帧单元，用于采用滑动窗分帧法对所述归一化音频数据分帧；

第一计算单元，用于采用幅度差法或相位差法计算所述归一化音频数据高频部分的有效频点数据范围内归一化音频数据的高频节拍序列。

5.一种终端，所述终端包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或2任意一项所述方法的步骤。

6.一种非临时性计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1或2任意一项所述方法的步骤。