CN111128100B

CN111128100B - 节奏点检测方法、装置及电子设备

Info

Publication number: CN111128100B
Application number: CN201911334455.6A
Authority: CN
Inventors: 雷进; 谭志鹏; 陈康; 张伟东
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-04-20
Anticipated expiration: 2039-12-20
Also published as: CN111128100A; US12033605B2; US20220310051A1; WO2021120602A1

Abstract

本发明提供了一种节奏点检测方法、装置及电子设备，涉及音乐分析的技术领域，该方法包括：获取待检测音频信号，根据待检测音频信号生成音频特征曲线；确定待检测音频信号的曲风类别；根据待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；基于峰值阈值和帧宽阈值，确定音频特征曲线的节奏点。本发明提供的节奏点检测方法、装置及电子设备，能够基于峰值阈值和帧宽阈值确定音频特征曲线的节奏点，从而实现节奏点的自动检测过程，且，音频特征曲线融合了能量特征曲线和频谱特征曲线，使节奏点的检测更加准确，而峰值阈值和帧宽阈值是根据曲风确定的，因此，可以对不同风格的音频信号进行节奏点检测，有效满足了对音乐节奏检测的需求。

Description

节奏点检测方法、装置及电子设备

技术领域

本发明涉及音乐分析的技术领域，尤其是涉及一种节奏点检测方法、装置及电子设备。

背景技术

当下舞蹈文化朝着多元化的方向发展，也有越来越多的人在学习和编排舞蹈，为我们提供优质的舞蹈艺术。随着互联网的发展，在数字领域，运用计算机软件来驱动3D模型编排优美的舞蹈也是时下的热点。

通常，运用计算机软件进行舞蹈编排时，用户通常是根据音乐的节奏点，在若干连续的动画帧上手K动作序列来驱动3D模型完成舞蹈动作，也可以选择一些公开的动作序列直接应用，而不管哪种方式，用户对于音乐节奏点的选择都是凭借经验的，而且过程耗时耗力，也不准确，难以满足舞蹈编排时的音乐节奏检测的需求。

发明内容

有鉴于此，本发明的目的在于提供一种节奏点检测方法、装置及电子设备，以缓解上述技术问题。

第一方面，本发明实施例提供了一种节奏点检测方法，该方法包括：获取待检测音频信号，根据待检测音频信号生成音频特征曲线；确定待检测音频信号的曲风类别；根据待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；基于峰值阈值和帧宽阈值，确定音频特征曲线的节奏点。

在一种较佳的实施方式中，上述根据待检测音频信号生成音频特征曲线的步骤包括：提取待检测音频信号对应的能量特征曲线和频谱特征曲线，根据能量特征曲线和频谱特征曲线生成包含融合特征值的音频特征曲线；其中，音频特征曲线的横坐标为以时间基准排序后的帧序号，纵坐标为融合特征值，融合特征值包括：能量特征值和频谱特征值。

在一种较佳的实施方式中，上述基于峰值阈值和帧宽阈值，确定音频特征曲线的节奏点的步骤包括：基于峰值阈值和帧宽阈值，对音频特征曲线进行检测，得到音频特征曲线的节奏点，其中，节奏点的融合特征值大于或等于峰值阈值，且节奏点的融合特征值为帧宽阈值对应的音频特征曲线的曲线段中的最大值。

在一种较佳的实施方式中，上述基于峰值阈值和帧宽阈值，对音频特征曲线进行检测，得到音频特征曲线的节奏点的步骤包括：检测音频特征曲线的波峰值；将超过峰值阈值的波峰值的帧作为待定帧；确定待定帧之前的帧宽阈值个帧，及之后的帧宽阈值个帧在音频特征曲线上的曲线段；如果曲线段中的最大值为待定帧对应的融合特征值，将待定帧确定为节奏点。

在一种较佳的实施方式中，上述根据能量特征曲线和频谱特征曲线生成包含融合特征值的音频特征曲线的步骤包括：将能量特征曲线和频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线；计算融合特征曲线的变化趋势，基于融合特征曲线和融合特征曲线的变化趋势生成音频特征曲线。

在一种较佳的实施方式中，上述将能量特征曲线和频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线的步骤包括：对频谱特征曲线进行降维处理，得到频谱特征曲线对应的降维频谱特征曲线；将能量特征曲线与降维频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线。

在一种较佳的实施方式中，上述融合特征曲线表示为：

其中，F_i为融合特征曲线，a为融合常数，i为多个连续的帧序列的帧数，

为降维频谱特征曲线，E_i为能量特征曲线；计算融合特征曲线的变化趋势的步骤包括：对融合特征曲线进行滑窗处理，得到融合特征曲线对应的变化趋势；其中，融合特征曲线的变化趋势对应的变化趋势曲线表示为：

其中，M表示融合特征的个数，j表示帧数。

在一种较佳的实施方式中，上述基于融合特征曲线和融合特征曲线的变化趋势生成音频特征曲线的步骤包括：将融合特征曲线与变化趋势曲线做乘积运算，以生成音频特征曲线；其中，音频特征曲线表示为：O_i＝F_i×C_i。

在一种较佳的实施方式中，上述方法还包括：对舞蹈音乐进行结构检测，以生成舞蹈音乐的多个结构片段，其中，多个结构片段包括如下一种或多种：音频开头片段、音频主歌片段、音频副歌片段和音频结束片段；对于每一个结构片段，分别根据音频信号生成音频特征曲线。

在一种较佳的实施方式中，上述方法还包括：对于多个结构片段中结构相同的结构片段，采用对齐算法对检测到的节奏点信息进行对齐修正。

在一种较佳的实施方式中，上述确定待检测音频信号的曲风类别的步骤包括：将待检测音频信号输入至预先训练好的具有确定曲风类别功能的神经网络模型，通过神经网络模型确定待检测音频信号的曲风类别。

在一种较佳的实施方式中，上述方法还包括：获取带有曲风标签的音乐样本数据，将音乐样本数据输入至学习分类模型，对学习分类模型进行训练，以生成具有确定曲风类别功能的神经网络模型。

第二方面，本发明实施例还提供一种节奏点检测装置，该装置包括：获取模块，用于获取待检测音频信号，根据待检测音频信号生成音频特征曲线；第一确定模块，用于确定待检测音频信号的曲风类别；第二确定模块，用于根据待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；第三确定模块，用于基于峰值阈值和帧宽阈值，确定音频特征曲线的节奏点。

第三方面，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种节奏点检测方法、装置及电子设备，能够获取待检测音频信号，根据待检测音频信号生成音频特征曲线，并确定待检测音频信号的曲风类别，根据该待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值，以便于基于该峰值阈值和帧宽阈值确定音频特征曲线的节奏点，从而实现节奏点的自动检测过程，并且，音频特征曲线融合了能量特征曲线和频谱特征曲线，使得节奏点的检测更加准确，而由于上述峰值阈值和帧宽阈值是根据曲风确定的，因此，可以对不同风格的音频信号进行节奏点的自动检测，有效满足了对音乐节奏检测的需求。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种节奏点检测方法的流程图；

图2为本发明实施例提供的另一种节奏点检测方法的流程图；

图3为本发明实施例提供的一种节奏点检测装置的结构示意图；

图4为本发明实施例提供的另一种节奏点检测装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

音乐节奏检测是音乐信息检索(MIR，Music Information Retrieval)的重要分支。狭义上的音乐节奏检测指的是音乐的节拍(Beat)的检测。若将一首音乐按时间划分为均等的基本单元，那每个基本单元称之为一个‘拍子’或一拍，常见的有弱拍、强拍、单拍、复拍，等等，这些拍子按照一定的规律构成小节，进而形成音乐。面对这种节拍(Beat)检测，目前已有较为完善的检测流程，一般的，给定一段音乐信号，首先会检测该音乐信号里的所有发起端(Onset，乐器突然发起声音的时刻)，然后根据发起端去估计音乐的速度(BPM，BeatsPer Minute)，最后依据音乐速度来定义和纠正哪些发起端是音乐节拍，也就是说，最后检测出来的音乐节拍一定程度上是能反映音乐小节规律的，呈现周期性。

实际上，对于舞蹈编排来说，传统音乐节拍检测存在以下几个问题：

(1)传统音乐节拍粒度很细，比如BPM为120的音乐，每秒钟就有2个节拍，而面向舞蹈编排的音乐节奏点就显得相对‘泛’一点，可能1-2秒才有一个节拍；

(2)舞蹈编排是局部阶段性的，非周期性的，因此我们才能欣赏到具有丰富动作的舞蹈，而传统音乐节拍呈周期性，这就需要用户凭借经验来判断哪几个连续节拍可以组成一个舞蹈序列。舞蹈在一定程度上既能反映音乐的内容，又能反映音乐节奏的变化，在整体和局部上都保留舞蹈动作的特性，而现有的音乐节拍检测技术方案并不能有效的解决面向舞蹈编排时的音乐节拍检测的问题。

(3)现有的常用Onset检测方法都是比较片面，各有各的优势和劣势，校测效果是不理想的，且，不同风格的音乐对应的音乐节拍密度是不一样的，若采用同一种度量指标来检测音乐节拍，效果也是不合理的。

基于此，本发明实施例提供的一种节奏点检测方法、装置及电子设备，以缓解上述技术问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种节奏点检测方法进行详细介绍。

在一种可能的实施方式中，本发明实施例提供了一种节奏点检测方法，具体地，如图1所示的一种节奏点检测方法的流程图，包括以下几个步骤：

步骤S102，获取待检测音频信号，根据待检测音频信号生成音频特征曲线；

本发明实施例中，上述待检测音频信号一般多为进行舞蹈编排的舞蹈音乐，且包括多个连续的帧序列，上述音频特征曲线则是包括了该待检测音频信号的音频特征的曲线，通过该音频特征曲线，可以在继续执行下述各个步骤之后，得到待检测音频信号的节奏点。其中，音乐的节奏点检测过程，也可以看作是音乐的发起端Onset的检测过程，通过音乐的节奏点，用户可以判断出哪几个节拍可以组成一个序列，以便于使检测出的节奏点更加满足舞蹈的编排。

步骤S104，确定待检测音频信号的曲风类别；

步骤S106，根据待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；

步骤S108，基于峰值阈值和帧宽阈值，确定音频特征曲线的节奏点。

具体地，不同曲风的音乐节奏快慢是不一样的，因此，上述步骤S106中，在确定出待检测音频信号的曲风类别之后，可以根据曲风类别确定对应的阈值参数，进而根据阈值参数检测出对应节奏快慢的节奏点，比如国风的音乐节奏较慢，节拍密度较稀疏；韩流的音乐节奏较快，节拍密度较密集等，以使检测出的节奏点更加适用于舞蹈的编排。

本发明实施例提供的一种节奏点检测方法，能够获取待检测音频信号，根据待检测音频信号生成音频特征曲线，并确定待检测音频信号的曲风类别，根据该待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值，以便于基于该峰值阈值和帧宽阈值确定音频特征曲线的节奏点，从而实现节奏点的自动检测过程，并且，音频特征曲线融合了能量特征曲线和频谱特征曲线，使得节奏点的检测更加准确，而由于上述峰值阈值和帧宽阈值是根据曲风确定的，因此，可以对不同风格的音频信号进行节奏点的自动检测，有效满足了对音乐节奏检测的需求。

具体实现时，本发明实施例中，上述音频特征曲线包括的音频特征为能量特征和频谱特征，因此，上述步骤S102中，生成的音频特征曲线，是根据待检测音频信号的能量特征曲线和频谱特征曲线生成的，而能量特征曲线和频谱特征曲线分别是基于待检测音频信号的能量特征和频谱特征生成的，具体地，对于一段待检测音频信号，可以使用相应的音频读取接口从舞蹈音乐的音频文件中读取音频波形数字信号，然后针对该音频波形数字信号提取能量特征和频谱特征，然后生成该待检测音频信号的能量特征曲线和频谱特征曲线，进而生成该舞蹈音乐的音频特征曲线。

因此，上述步骤S102通常包括以下过程：提取待检测音频信号对应的能量特征曲线和频谱特征曲线，根据能量特征曲线和频谱特征曲线生成包含融合特征值的音频特征曲线；

其中，上述音频特征曲线的横坐标为以时间基准排序后的帧序号，纵坐标为融合特征值，融合特征值包括：能量特征值和频谱特征值。

具体实现时，对于一段待检测音频信号，在提取能量特征和频谱特征时，可以使用特征提取器来进行提取，该特征提取器可以使用相应的编程语言实现，具体可以参考相关技术，本发明实施例对此不进行限制。

进一步，特征提取器在提取特征时，输入的音频波形数字信号通常是从指定格式的音频文件中读取的，不同编程语言所处理的音频文件的格式不同，因此，在读取音频波形数字信号之前还需要将舞蹈音乐的格式转化成指定的音频格式，例如，对于Python编程语言的音频读取接口，一般读取的都是WAV格式的音频，因此，在使用Python编程语言进行处理时，一般还需要借助对应的音频转码模块，如，通过调用一个外部命令sox，将不同格式的音频都转换为WAV格式，然后再从WAV音频里读取音频波形数字信号。比如，一首4分钟的音乐，经过读取音频波形数字信号后，可以获得4*60*44100个采样点，其中，采样率为44100Hz，即每秒钟记录44100个采样点，可以将此音频波形数字信号记为x(t)。

进一步，提取到能量特征和频谱特征之后，在生成待检测音频信号的音频特征曲线的过程中还需要对能量特征曲线和频谱特征曲线进行融合计算，具体地，图2示出了另一种节奏点检测方法的流程图，对节奏点的检测过程进行详细说明，如图2所示，包括以下步骤：

步骤S202，提取待检测音频信号对应的能量特征曲线和频谱特征曲线；

步骤S204，将能量特征曲线和频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线；

具体实现时，融合计算的过程是基于能量特征和频谱特征各自的检测方法效果不佳进行的，将能量特征和频谱特征融合，可以达到弥补各自缺点的目的。

以一首T秒的待检测音频信号为例，计算能量特征和频谱特征时，对音频波形数字信号x(t)先进行分帧处理，具体地，帧窗长度为w秒，帧移步长s秒，经过特征提取器，可以得到N帧能量特征，记为

其中，

表示特征向量，N＝T/s，T为舞蹈音乐的时长，s为帧移步长，N表示每帧能量特征为1维的数值，另外，还可以得到N帧频谱特征，记为

其中，D＝w/2+1，表示每帧频谱特征为D维的特征向量，w为帧窗长度，因此，可以得到的能量特征E和频谱特征S。

进一步，考虑到能量特征为1维向量，频谱特征为D维，因此，在融合计算之前，还需对频谱特征曲线进行降维处理，得到频谱特征曲线对应的降维频谱特征曲线；然后将能量特征曲线与降维频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线。

具体地，是将频谱特征S在特征维度上降维，降维频谱特征曲线可以表示为：

其中，S_i表示第i帧的特征向量，由于降维前，每一帧都具有D维特征向量，通过该公式，将与能量特征曲线相同维度的频谱特征曲线，记为

然后将该降维频谱特征曲线与能量特征曲线进行融合计算。

步骤S206，计算融合特征曲线的变化趋势，基于融合特征曲线和融合特征曲线的变化趋势生成舞蹈音乐的音频特征曲线；

具体实现时，上述融合特征曲线表示为：

其中，F_i为融合特征曲线，a为融合常数，通常取0.5，i为多个连续的帧序列的帧数，

为上述降维频谱特征曲线，E_i为能量特征曲线；

基于上述融合特征曲线，该步骤中，计算融合特征曲线的变化趋势的步骤包括：对融合特征曲线进行滑窗处理，得到融合特征曲线对应的变化趋势；其中，融合特征曲线的变化趋势对应的变化趋势曲线表示为：

其中，M表示融合特征的个数，j也表示帧数，具体地，j表示多个连续的帧序列中与帧数i不同的帧数。

具体地，上述滑窗处理通常使用局部滑窗方法，可以得到相对平缓的能在整体上反映融合特征曲线的变化趋势的曲线，通常上述变化趋势曲线表示为：

其中，F表示融合特征曲线，C表示该融合特征曲线的变化趋势曲线。

上述步骤S206中，可以将融合特征曲线与变化趋势曲线做乘积运算，以生成上述音频特征曲线；其中，音频特征曲线表示为：O_i＝F_i×C_i，也可以记为，

步骤S208，确定待检测音频信号的曲风类别；

具体地，在确定待检测音频信号的曲风类别时，可以将待检测音频信号输入至预先训练好的具有确定曲风类别功能的神经网络模型，通过神经网络模型确定该待检测音频信号的曲风类别。

在实际使用时，上述预先训练好的具有确定曲风类别功能的神经网络模型可以作为音乐风格分类器使用，以确定舞蹈音乐的曲风类别，比如，国风、二次元、韩流等，然后在执行下述步骤S210，根据不同的曲风类别设计不同的阈值参数，并按照步骤S210～步骤S212的过程，对音频特征曲线进行检测，得到音频特征曲线的节奏点。

上述预先训练好的神经网络模型，通常是由带有曲风标签的音乐样本数据训练得到的，且，本发明实施例中，使用的是学习分类模型，因此，上述神经网络模型的训练过程可以包括以下过程：获取带有曲风标签的音乐样本数据，将音乐样本数据输入至学习分类模型，对学习分类模型进行训练，以生成具有确定曲风类别功能的神经网络模型。

步骤S210，根据待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；

步骤S212，基于峰值阈值和帧宽阈值，对音频特征曲线进行检测，得到音频特征曲线的节奏点。

其中，节奏点的融合特征值大于或等于峰值阈值，且节奏点的融合特征值为帧宽阈值对应的音频特征曲线的曲线段中的最大值。

具体地，对于不同曲风的音乐，待检测音频信号的节奏点的Onset的强弱疏密都是存在一定的差异的，因此，对于不同曲风的音乐，通常检测的依据会有所不同，在本发明实施例中，采用的是两个跟音乐曲风风格相关的阈值参数：峰值阈值和帧宽阈值，其中，峰值阈值一般用α表示，帧宽阈值通常用β表示，且，本发明实施例中，规定音频特征曲线的波峰值超过峰值阈值α，并且，波峰值在前后各β帧范围内都是最大的，才被认为是一个节奏点，或者Onset，这样的节奏点作为待检测音频信号0的音乐节奏点是相对准确的。具体地检测过程如下：

(1)、检测音频特征曲线的波峰值；

(2)、将超过峰值阈值的波峰值的帧作为待定帧；

(3)确定待定帧之前的帧宽阈值个帧，及之后的帧宽阈值个帧在音频特征曲线上的曲线段；

(4)如果曲线段中的最大值为待定帧对应的融合特征值，将待定帧确定为节奏点。

具体地，节奏点通常指是音频特征曲线上波峰突然发起的位置，为了更好反映节奏点到波峰的这一段，在实际使用时，采用后一帧减去当前帧的结果作为当前帧的新的值，这样，处于波峰后的下降的音频特征曲线上的值都将变成负数，对于这部分，可以直接截断，如赋值为0，然后在乘以上述融合特征曲线的变化趋势的曲线，得到节奏点增强的曲线，可以记为

公式如下：

对于该节奏点增强曲线，根据舞蹈音乐的曲风设置不同的阈值参数α和β，不同曲风风格使用一套检测机制，可以得到较好的面向舞蹈编排的节奏点。

进一步，考虑到一段音乐通常具有开始、主歌、副歌、桥段、结束等结构，因此，在使用本发明实施例提供的节奏点检测方法时，可以针对每个结构分别进行检测，具体地，可以对舞蹈音乐进行结构检测，以生成舞蹈音乐的多个结构片段；其中，多个结构片段包括如下一种或多种：音频开头片段、音频主歌片段、音频副歌片段和音频结束片段；

对于每一个结构片段，分别根据音频信号生成音频特征曲线，进而执行上述图1或图2所示的方法，对每个结构片段进行节奏点检测。

此外，为了使每个结构片段的节奏点更加准确，对于多个结构片段中结构相同的结构片段，还可以采用对齐算法对检测到的节奏点信息进行对齐修正。

例如，对于一首完整的舞蹈音乐，对舞蹈音乐进行结构检测的过程可以使用音乐结构检测器实现，例如，一段完整的舞蹈音乐，输入至音乐结构检测器之后，可以得到：开头Intro，主歌Verse，副歌Chorus，桥段Bridge，结束Outro，共5个结构信息，7结构片段，如下表格所示：

Intro

Verse

Chorus

Bridge

Verse

Chorus

Outro

这7个结构片段的音乐信号，可以分别进行按照图1或图2所示的节奏点检测方法进行检测，以得到各自的面向舞蹈编排的节奏点，然后对于相同结构的节奏点，可以使用一个对齐算法，进行对齐。

比如，第一段Verse的节奏点帧序列为[5,6,8,10,11,14]；

第二段Verse的节奏点帧序列为[15,16,18,20,23,24]；

经过对齐之后：

第一段Verse的节奏点帧序列为[5,6,8,10,12,14]；

第二段Verse的节奏点帧序列为[15,16,18,20,22,24]；

上述对齐之后，可以使相同结构片段的节奏点位于相同内容上，因此，一首舞蹈音乐经过本发明实施例提供的节奏点检测方法，可以得到面向舞蹈编排的节奏点，并且在相同部分的节奏点是对齐的，同时，音乐节奏的疏密程度符合音乐曲风的风格，用户在使用该节奏点运用计算机软件进行舞蹈编排制作动画时，可以根据节奏点快速的编辑插入动作，并且，相同部分的动作序列也只需要制作一遍即可。

具体实现时，上述对舞蹈音乐进行结构检测的过程可以根据自相似矩阵理论实现，此外，也可以采用其他的方式进行，具体的音乐结构检测过程，可以参考相关技术实现，本发明实施例对此不进行限制。

在上述实施例的基础上，本发明实施例还提供了一种节奏点检测装置，其中，如图3所示的一种节奏点检测装置的结构示意图，该装置包括：

获取模块30，用于获取待检测音频信号，根据待检测音频信号生成音频特征曲线；

第一确定模块32，用于确定待检测音频信号的曲风类别；

第二确定模块34，用于根据待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；

第三确定模块36，用于基于峰值阈值和帧宽阈值，确定音频特征曲线的节奏点。

具体地，上述获取模块用于：提取待检测音频信号对应的能量特征曲线和频谱特征曲线，根据能量特征曲线和频谱特征曲线生成包含融合特征值的音频特征曲线；其中，音频特征曲线的横坐标为以时间基准排序后的帧序号，纵坐标为融合特征值，融合特征值包括：能量特征值和频谱特征值。

进一步，第三确定模块36用于：基于峰值阈值和帧宽阈值，对音频特征曲线进行检测，得到音频特征曲线的节奏点，其中，节奏点的融合特征值大于或等于峰值阈值，且节奏点的融合特征值为帧宽阈值对应的音频特征曲线的曲线段中的最大值。

进一步，第三确定模块36还用于：检测音频特征曲线的波峰值；将超过峰值阈值的波峰值的帧作为待定帧；确定待定帧之前的帧宽阈值个帧，及之后的帧宽阈值个帧在音频特征曲线上的曲线段；如果曲线段中的最大值为待定帧对应的融合特征值，将待定帧确定为节奏点。

进一步，获取模块30用于：将能量特征曲线和频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线；计算融合特征曲线的变化趋势，基于融合特征曲线和融合特征曲线的变化趋势生成舞蹈音乐的音频特征曲线。

进一步，上述获取模块30还用于：对频谱特征曲线进行降维处理，得到频谱特征曲线对应的降维频谱特征曲线；将能量特征曲线与降维频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线。

其中，融合特征曲线表示为：

为降维频谱特征曲线，E_i为能量特征曲线；

计算融合特征曲线的变化趋势的步骤包括：

对融合特征曲线进行滑窗处理，得到融合特征曲线对应的变化趋势；其中，融合特征曲线的变化趋势对应的变化趋势曲线表示为：

其中，M表示融合特征的个数，i、j表示帧数。

进一步，上述获取模块30还用于：将融合特征曲线与变化趋势曲线做乘积运算，以生成音频特征曲线；其中，音频特征曲线表示为：O_i＝F_i×C_i。

在图3的基础上，图4示出了另一种节奏点检测装置的结构示意图，除图3所示的结构，上述装置还包括：

结构检测模块40，用于对舞蹈音乐进行结构检测，以生成舞蹈音乐的多个结构片段，其中，多个结构片段包括如下一种或多种：音频开头片段、音频主歌片段、音频副歌片段和音频结束片段；对于每一个结构片段，分别根据音频信号生成音频特征曲线。

对齐模块42，用于对于多个结构片段中结构相同的结构片段，采用对齐算法对检测到的节奏点信息进行对齐修正。

进一步地，上述第一确定模块32用于：将待检测音频信号输入至预先训练好的具有确定曲风类别功能的神经网络模型，通过神经网络模型确定待检测音频信号的曲风类别。

上述装置还包括：训练模块44，用于获取带有曲风标签的音乐样本数据，将音乐样本数据输入至学习分类模型，对学习分类模型进行训练，以生成具有确定曲风类别功能的神经网络模型。

本发明实施例提供的一种节奏点检测装置，能够获取待检测音频信号，根据待检测音频信号生成音频特征曲线，并确定待检测音频信号的曲风类别，根据该待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值，以便于基于该峰值阈值和帧宽阈值确定音频特征曲线的节奏点，从而实现节奏点的自动检测过程，并且，音频特征曲线融合了能量特征曲线和频谱特征曲线，使得节奏点的检测更加准确，而由于上述峰值阈值和帧宽阈值是根据曲风确定的，因此，可以对不同风格的音频信号进行节奏点的自动检测，有效满足了对音乐节奏检测的需求。

本发明实施例提供的节奏点检测装置，其实现原理及产生的技术效果和前述节奏点检测方法实施例相同，为简要描述，装置的实施例部分未提及之处，可参考前述方法实施例中相应内容，在此不再赘述。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的节奏点检测方法的步骤。

本发明实施例还提供了一种电子设备的结构示意图，如图5所示，为该电子设备的结构示意图，其中，该电子设备包括处理器51和存储器50，该存储器50存储有能够被该处理器51执行的计算机可执行指令，该处理器51执行该计算机可执行指令以实现上述节奏点检测方法。

在图5示出的实施方式中，该电子设备还包括总线52和通信接口53，其中，处理器51、通信接口53和存储器50通过总线52连接。

其中，存储器50可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线52可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线52可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器51可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器51中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器51可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器51读取存储器中的信息，结合其硬件完成前述实施例的节奏点检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

本发明实施例所提供的节奏点检测方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种节奏点检测方法，其特征在于，所述方法包括：

获取待检测音频信号，根据所述待检测音频信号生成音频特征曲线，其中，所述待检测音频信号为进行舞蹈编排的舞蹈音乐，且包括多个连续的帧序列，所述音频特征曲线的横坐标为以时间基准排序后的帧序号，纵坐标为融合特征值，所述融合特征值包括：能量特征值和频谱特征值；

确定所述待检测音频信号的曲风类别；

根据所述待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；

基于所述峰值阈值和所述帧宽阈值，确定所述音频特征曲线的节奏点，其中，所述节奏点的融合特征值大于或等于所述峰值阈值，且所述节奏点的融合特征值为所述帧宽阈值对应的音频特征曲线的曲线段中的最大值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待检测音频信号生成音频特征曲线的步骤包括：

提取所述待检测音频信号对应的能量特征曲线和频谱特征曲线，根据所述能量特征曲线和频谱特征曲线生成包含融合特征值的音频特征曲线。

3.根据权利要求2所述的方法，其特征在于，基于所述峰值阈值和所述帧宽阈值，确定所述音频特征曲线的节奏点的步骤包括：

基于所述峰值阈值和所述帧宽阈值，对所述音频特征曲线进行检测，得到所述音频特征曲线的节奏点。

4.根据权利要求3所述的方法，其特征在于，基于所述峰值阈值和所述帧宽阈值，对所述音频特征曲线进行检测，得到所述音频特征曲线的节奏点的步骤包括：

检测所述音频特征曲线的波峰值；

将超过所述峰值阈值的波峰值的帧作为待定帧；

确定所述待定帧之前的所述帧宽阈值个帧，及之后的所述帧宽阈值个帧在所述音频特征曲线上的曲线段；

如果所述曲线段中的最大值为所述待定帧对应的融合特征值，将所述待定帧确定为所述节奏点。

5.根据权利要求2所述的方法，其特征在于，根据所述能量特征曲线和频谱特征曲线生成包含融合特征值的音频特征曲线的步骤包括：

将所述能量特征曲线和所述频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线；

计算所述融合特征曲线的变化趋势，基于所述融合特征曲线和所述融合特征曲线的变化趋势生成所述音频特征曲线。

6.根据权利要求5所述的方法，其特征在于，将所述能量特征曲线和所述频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线的步骤包括：

对所述频谱特征曲线进行降维处理，得到所述频谱特征曲线对应的降维频谱特征曲线；

将所述能量特征曲线与所述降维频谱特征曲线进行融合计算，得到包含能量特征和频谱特征的融合特征曲线。

7.根据权利要求6所述的方法，其特征在于，所述融合特征曲线表示为：

为所述降维频谱特征曲线，E_i为所述能量特征曲线；

计算所述融合特征曲线的变化趋势的步骤包括：

对所述融合特征曲线进行滑窗处理，得到所述融合特征曲线对应的变化趋势；其中，所述融合特征曲线的变化趋势对应的变化趋势曲线表示为：

其中，M表示所述融合特征的个数，i、j表示帧数。

8.根据权利要求7所述的方法，其特征在于，基于所述融合特征曲线和所述融合特征曲线的变化趋势生成所述音频特征曲线的步骤包括：

将所述融合特征曲线与所述变化趋势曲线做乘积运算，以生成所述音频特征曲线；

其中，所述音频特征曲线表示为：O_i＝F_i×C_i。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对舞蹈音乐进行结构检测，以生成所述舞蹈音乐的多个结构片段，其中，多个所述结构片段包括如下一种或多种：音频开头片段、音频主歌片段、音频副歌片段和音频结束片段；

对于每一个所述结构片段，分别根据音频信号生成所述音频特征曲线。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

对于多个所述结构片段中结构相同的所述结构片段，采用对齐算法对检测到的节奏点信息进行对齐修正。

11.根据权利要求1所述的方法，其特征在于，确定所述待检测音频信号的曲风类别的步骤包括：

将所述待检测音频信号输入至预先训练好的具有确定曲风类别功能的神经网络模型，通过所述神经网络模型确定所述待检测音频信号的曲风类别。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

获取带有曲风标签的音乐样本数据，将所述音乐样本数据输入至学习分类模型，对所述学习分类模型进行训练，以生成具有确定曲风类别功能的神经网络模型。

13.一种节奏点检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测音频信号，根据所述待检测音频信号生成音频特征曲线，其中，所述待检测音频信号为进行舞蹈编排的舞蹈音乐，且包括多个连续的帧序列，所述音频特征曲线的横坐标为以时间基准排序后的帧序号，纵坐标为融合特征值，所述融合特征值包括：能量特征值和频谱特征值；

第一确定模块，用于确定所述待检测音频信号的曲风类别；

第二确定模块，用于根据所述待检测音频信号的曲风类别确定检测峰值阈值和检测帧宽阈值；

第三确定模块，用于基于所述峰值阈值和所述帧宽阈值，确定所述音频特征曲线的节奏点，其中，所述节奏点的融合特征值大于或等于所述峰值阈值，且所述节奏点的融合特征值为所述帧宽阈值对应的音频特征曲线的曲线段中的最大值。

14.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1-12任一项所述的方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1-12任一项所述的方法的步骤。