CN112489681A

CN112489681A - 节拍识别方法、装置及存储介质

Info

Publication number: CN112489681A
Application number: CN202011320049.7A
Authority: CN
Inventors: 郑亚军
Original assignee: AAC Optoelectronic Changzhou Co Ltd; Science and Education City Branch of AAC New Energy Development Changzhou Co Ltd
Current assignee: AAC Microtech Changzhou Co Ltd; AAC Optoelectronic Changzhou Co Ltd; Science and Education City Branch of AAC New Energy Development Changzhou Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-12
Also published as: WO2022104917A1

Abstract

本发明涉及一种节拍识别方法、装置、计算机设备和存储介质。所述方法包括：提取音频信号的特征信息，其中，所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长；对所述特征信息进行计算处理，以获得实际节拍时刻数列；根据所述实际节拍时刻数列识别节拍点。采用本方法能够全自动、高准确度的识别节拍从而改善用户体验。

Description

节拍识别方法、装置及存储介质

技术领域

本发明涉及音频识别技术领域，特别是涉及一种节拍识别方法、装置及存储介质。

背景技术

音乐作为一种艺术形式，在遵循一定的乐理基础上，通过节拍、音调、旋律、歌词等元素表达人们的思想情感与社会现实生活。自古以来，人类都是离不开音乐的。音乐除了通过传统形式的乐谱记录和传播，在现代社会中，随着科技的发展，更多的是以数字信号的形式记录、播放和传播。

相较于传统的乐谱形式记录音乐，数字音乐形式记录音乐不仅可以充分记录一首音乐的信息、也便于直接在电子设备中播放。

然而，目前的以数字音乐形式记录音乐的方法，并不能识别音乐的节拍等信息，因此，无法根据节拍对音乐进行进一步分析(例如，为音乐节拍、旋律匹配振感效果)以增添音乐播放的趣味性，用户体验差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够全自动、高准确度的识别节拍从而改善用户体验的节拍识别方法、装置、计算机设备和存储介质。

本发明提供一种节拍识别方法，所述方法包括：

提取音频信号的特征信息；其中，所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长；

对所述特征信息进行计算处理，以获得实际节拍时刻数列；

根据所述实际节拍时刻数列识别节拍点。

在其中一个实施例中，所述对所述特征信息进行计算处理，以获得实际节拍时刻数列的步骤包括：

根据所述第一特征音频点集的时刻信息和能量信息，识别所述第一特征音频点集中的多个第二特征音频点，并提取多个所述第二特征音频点的时刻；

根据多个所述第二特征音频点的时刻，生成特征时刻数列；

根据多个所述第二特征音频点的时刻和所述节拍时长，生成多个预估节拍时刻数列；其中，所述预估节拍点包括多个预估节拍点的预估时刻；

根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算，获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值；

选取概率值最大的所述预估节拍时刻数列作为所述实际节拍时刻数列。

在其中一个实施例中，所述识别所述第一特征音频点集中的多个第二特征音频点的步骤包括：

将所述第一特征音频点集中能量值高于预设能量阈值的第一特征音频点记为所述第二特征音频点；其中，所述预设能量阈值为所述第一特征音频点集的能量信息中最大的能量值的五分之一。

在其中一个实施例中，所述根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算，获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值的步骤包括：

根据各所述预估节拍时刻数列和所述特征时刻数列，获取各所述预估节拍时刻数列的误差数列；其中，各所述误差数列包括多个预估节拍点的时刻误差值；

将各所述误差数列中小于预设误差阈值的时刻误差值所对应的预估节拍点记为有效节拍点；

根据各所述预估节拍时刻数列中有效节拍点的数量与预估节拍点的数量进行计算，获取各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值。

在其中一个实施例中，所述预设误差阈值为所述节拍时长中的最大时长值的十分之一。

在其中一个实施例中，提取所述第一特征音频点集的时刻信息的步骤包括：

获取音乐信号的能量信息；

对所述能量信息进行计算处理，以获得能量变化曲线；

根据所述能量变化曲线，识别所述第一特征音频点集，并提取所述第一特征音频点集的时刻信息。

在其中一个实施例中，提取所述第一特征音频点集的能量信息的步骤包括：

根据所述能量变化曲线和所述第一特征音频点集的时刻信息，提取所述第一特征音频点集的能量信息。

在其中一个实施例中，所述方法还包括：

当音频文件包括多个分别用于传输所述音频信号的音频轨道时，对所述音频文件进行分轨预处理，通过至少一个所述音频轨道播放所述音频信号。

本发明提供一种节拍识别装置，其包括：

音频处理模块，用于提取音频信号的特征信息，其中，所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长；以及，

计算处理模块，用于对所述特征信息进行计算处理，以获得实际节拍时刻数列；还用于根据所述实际节拍时刻数列识别节拍点。

本发明提供一种节拍识别装置，其包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对所述特征信息进行计算处理，以获得实际节拍时刻数列；

根据所述实际节拍时刻数列识别节拍点。

本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对所述特征信息进行计算处理，以获得实际节拍时刻数列；

根据所述实际节拍时刻数列识别节拍点。

上述节拍识别方法、装置以及存储介质，在节拍识别方法中，通过提取音频信号的特征信息(特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长)，根据特征信息计算获得实际节拍时刻数列，根据实际节拍时刻数列识别节拍点，从实际节拍时刻数列中自动识别准确的音频节拍点，实现了对音频节拍的全自动、高准确度的识别，在实际应用中，音频节拍的自动识别为人们根据节拍对音乐进行进一步分析及利用时以增添音乐播放的趣味性提供了基础，改善了用户体验。

附图说明

图1为本发明的节拍识别方法的应用环境图；

图2为本发明的节拍识别方法的流程示意图；

图3为图2中步骤S0的流程示意图；

图4为图2中步骤S4的流程示意图；

图5为图4中步骤S44的流程示意图；

图6为本发明的节拍识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种节拍识别方法，可以应用于如图1所示的应用环境中。其中，终端1通过网络与服务器2进行通信，或者通过其他有线或无线的方式与其他终端或电子设备进行实现数据传输。其中，终端1可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器2可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种节拍识别方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S2，提取音频信号的特征信息。

具体的，所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长，上述的第一特征音频点集包括了多个第一特征音频点；上述的步骤S2中分别包括了对第一特征音频点集的时刻信息、能量信息和节拍时长的提取的子步骤，在本实施方式中，首先从原始的音频信号中识别出重音点并记为第一特征音频点，而多个重音点的集合记为第一特征音频点集，然后分别提取各个重音点的时刻和能量值，多个重音点的时刻共同组成第一特征音频点集的时刻信息T_s，多个重音点的能量值共同组成第一特征音频点集的能量信息E_s，另外，要提取音频信号的节拍时长L_b。

步骤S4，对所述特征信息进行计算处理，以获得实际节拍时刻数列。

具体的，在本实施方式中，根据所述第一特征音频点集的时刻信息T_s、能量信息E_s和节拍时长L_b进行计算处理，根据计算处理的结果获取实际节拍时刻数列T_b，实质上，所述实际节拍时刻数列T_b包括了多个节拍点(节拍点为音频信号中的局部的能量爆发点)。

步骤S6，根据所述实际节拍时刻数列识别节拍点。

上述节拍识别方法中，通过提取音频信号的特征信息，根据特征信息计算获得实际节拍时刻数列，根据实际节拍时刻数列识别节拍点，从实际节拍时刻数列中自动识别准确的音频节拍点，实现了对音频节拍的全自动、高准确度的识别，在实际应用中，音频节拍的自动识别为人们根据节拍对音乐进行进一步分析及利用时以增添音乐播放的趣味性提供了基础，改善了用户体验。

为了更进一步理解上述方法，请同时参阅图1-5所示，下面对上述方法的各步骤进行详细描述：

在一个实施例中，可以根据实际使用的需要增加步骤S0，进行音频信号预处理，该步骤S0具体包括：

步骤S01，获取音频文件。具体的，在该步骤S11中，所述终端1可以通过网络从服务器2中下载音频文件(如音乐文件)，也可以通过无线通信连接(如WiFi热点连接、蓝牙连接等)或有线通信连接(如数据传输线连接)接收其他的终端或者电子设备传输的音频文件，其可以获取的方式是不限的，其可以根据实际情况来确定。

步骤S02，判断音频文件是否包括多个音频轨道。具体的，所述音频轨道用于传输所述音频信号。

步骤S03，当音频文件包括多个音频轨道时，对所述音频文件进行分轨预处理，通过至少一个所述音频轨道输出音频信号，并获取所述终端1对所述音频信号的信号采样率fs，即至少选择其中一个所述音频轨道播放的音频信号进行节拍识别。

通过上述步骤S0的设置，为所述终端1能够同时满足对单音频轨道的音乐文件或多音频轨道的音乐文件所输出的音频信号进行节拍识别，提高了本发明节拍识别方法的适用性，能够满足不同应用于场景。

步骤S2，提取音频信号的特征信息，该步骤S2具体包括：

获取音乐信号的能量信息；

对所述能量信息进行计算处理，以获得能量变化曲线；

根据所述能量变化曲线，识别所述第一特征音频点集，并提取所述第一特征音频点集的时刻信息T_s。

根据所述能量变化曲线和所述第一特征音频点集的时刻信息T_s，提取所述第一特征音频点集的能量信息E_s。

步骤S4，对所述特征信息进行计算处理，以获得实际节拍时刻数列，该步骤S4具体包括：

步骤S41，根据所述第一特征音频点集的时刻信息T_s和能量信息E_s，识别所述第一特征音频点集中的多个第二特征音频点，并提取多个所述第二特征音频点的时刻。

所述识别所述第一特征音频点集中的多个第二特征音频点的步骤中包括：

将所述第一特征音频点集中能量值高于预设能量阈值的第一特征音频点(亦即重音点)记为所述第二特征音频点；其中，所述第二特征音频点的识别数量可以根据实际情况进行确定，而所述预设能量阈值的数值是不限的，其可以根据实际使用的情况进行设置，比如，在本实施方式中，考虑到部分音频信号的前奏节拍不明显，前奏重音标识点对整体节拍分析会造成较大干扰，因此将所述预设能量阈值具体设置为所述第一特征音频点集的能量信息中最大的能量值的五分之一，该预设能量阈值表示为0.2·max(E_s)，该预设能量阈值0.2·max(E_s)作为门限值有利于排除前奏对节拍识别的干扰，有利于提高识别的准确度。

具体的，在本实施方式中，需要识别四个第二音频特征点，首先从所述第一特征音频点集的能量信息E_s的第一个重音点开始判断，当识别到第一个能量值高于预设能量阈值0.2·max(E_s)的重音点时，将第一个能量值高于预设能量阈值0.2·max(E_s)的重音点重新标记为第一个第二音频特征点，并将第一个第二音频特征点的时刻重新标记为t₁，然后删除时刻在第二音频特征点的时刻t₁之前的重音点，然后从第二音频特征点的时刻t₁继续往后开始判断，当识别到第二个能量值高于预设能量阈值0.2·max(E_s)的重音点时，将第二个能量值高于预设能量阈值0.2·max(E_s)的重音点重新标记为第二个第二音频特征点，并将第二个第二音频特征点的时刻重新标记为t₂，然后删除时刻在第二音频特征点的时刻t₁和第二音频特征点的时刻t₂之间的重音点，根据第二个第二音频特征点的时刻t₂的获取，以此类推，识别到第三个第二音频特征点的时刻t₃、第四个第二音频特征点的时刻t₄；需要说明的是，根据基本的乐理，常见一节拍内出现四个音符，而四个音符都可能具有较大能量，因此对应的，此处标记了四个第二音频特征点(即重新标记的重音点)，对该四个第二音频特征点进行概率判断，以提高对节拍识别的准确性。

步骤S42，根据多个所述第二特征音频点的时刻，生成特征时刻数列T_r。

步骤S43，根据多个所述第二特征音频点的时刻和所述节拍时长L_b，生成多个预估节拍时刻数列；其中，所述预估节拍点包括多个预估节拍点的预估时刻。

具体的，在本实施方式中，根据上述第一个第二特征音频点的时刻t₁和所述节拍时长L_b，生成预估节拍时刻数列T_1b，根据上述第二个第二特征音频点的时刻t₂和所述节拍时长L_b，生成预估节拍时刻数列T_2b，以此类推，生成分别与预估节拍时刻数列T_3b和预估节拍时刻数列T_4b；上述的预估节拍时刻数列T_1b、T_2b、T_3b、T_4b的初值分别为第二特征音频点的时刻t₁、t₂、t₃、t₄，且各个预估节拍时刻数列均为公差为L_b的等差数列。

步骤S44，根据所述特征时刻数列T_r和多个所述预估节拍时刻数列进行概率运算，获得各所述预估节拍时刻数列成为所述实际节拍时刻数列T_b的概率值。

更具体的，所述步骤S24还包括：

步骤S441，根据各所述预估节拍时刻数列和所述特征时刻数列，获取各所述预估节拍时刻数列的误差数列；其中，各所述误差数列包括多个预估节拍点的时刻误差值。

具体的，在所述步骤S241中，将预估节拍时刻数列T_1b的每一个值T_1b(k)、预估节拍时刻数列T_2b的每一个值T_2b(k)、预估节拍时刻数列T_3b的每一个值T_3b(k)、预估节拍时刻数列T_4b的每一个值T_4b(k)分别减去特征时刻数列T_r，通过减法计算后，获得分别与预估节拍时刻数列T_1b、T_2b、T_3b、T_4b对应的误差数列Err_1(k)、Err_2(k)、Err_3(k)、Err_4(k)，预估节拍时刻数列T_1b、T_2b、T_3b、T_4b的每一个值与误差数列Err_1(k)、Err_2(k)、Err_3(k)、Err_4(k)的每一个预估节拍点的时刻误差值对应，其中，k为预估节拍时刻数列索引号。

步骤S442，将各所述误差数列中小于预设误差阈值的时刻误差值所对应的预估节拍点记为有效节拍点。

其中，所述预设误差阈值的数值是不限的，在本实施方式中，由于重音点的提取不能保证百分百准确，因此将所述预设误差阈值设置为所述节拍时长中的最大时长值的十分之一，该预设误差阈值表示为0.1·max(L_b)，该设置预留了一定的波动空间，使得高音点的提取更加合理。

具体的，在所述步骤S242中，判断误差数列Err_1(k)、Err_2(k)、Err_3(k)、Err_4(k)的每一个预估节拍点的时刻误差值的绝对值是否小于0.1·max(L_b)，将所述误差数列Err_1(k)、Err_2(k)、Err_3(k)、Err_4(k)中小于预设误差阈值0.1·max(L_b)的时刻误差值所对应的预估节拍点记为有效节拍点，误差数列Err_1(k)、Err_2(k)、Err_3(k)、Err_4(k)的有效节拍数量分别别是为n₁、n₂、n₃、n₄。

步骤S443，根据各所述预估节拍时刻数列中有效节拍点的数量与预估节拍点的数量进行计算，获取各所述预估节拍时刻数列成为所述实际节拍时刻数列T_b的概率值。

具体的，所述预估节拍时刻数列T_1b、T_2b、T_3b、T_4b成为所述实际节拍时刻数列T_b的概率值分别为p₁、p₂、p₃、p₄；进一步的，根据下述计算规则计算四个预估节拍时刻数列为实际节拍时刻数列的概率值：有效节拍的个数除以预估节拍的总个数，得到可能节拍时刻数列为真实节拍点的概率。

即：

p₁＝n₁/N₁，N₁为第1个可能节拍数列的单元个数；

p₂＝n₂/N₂，N₂为第2个可能节拍数列的单元个数；

p₃＝n₃/N₃，N₃为第3个可能节拍数列的单元个数；

p₄＝n₄/N₄，N₄为第4个可能节拍数列的单元个数。

步骤S45，选取概率值最大的所述预估节拍时刻数列作为所述实际节拍时刻数列T_b。

具体的，取概率值p₁、p₂、p₃、p₄中最大值对应的预估节拍时刻数列，记为实际节拍时刻数列T_b，譬如，本实施方式中，四个概率值当中，p₁的数值最大，则选择第一个预估节拍时刻数列T_1b记为实际节拍时刻数列T_b，

步骤S6，根据所述实际节拍时刻数列识别节拍点。

具体的，在本实施方式中，选取了第一个预估节拍时刻数列T_1b记为实际节拍时刻数列T_b，在此，提取预估节拍时刻数列T_1b中的预估节拍点的时刻作为节拍点的时刻，并确定为节拍点的具体位置。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

请参图6所示，本发明提供一种节拍识别装置100，其应用于终端，其包括：音频处理模块11以及所述音频处理模块连接的计算处理模块12，其中：

所述音频处理模块11，用于提取音频信号的特征信息，其中，所述特征信息包括第一特征音频点集的时刻信息和能量信息、以及节拍时长；

所述计算处理模块12，用于对所述特征信息进行计算处理，以获得实际节拍时刻数列；还用于根据所述实际节拍时刻数列识别节拍点。

在一个实施方式中，所述计算处理模块12，还用于根据所述第一特征音频点集的时刻信息和能量信息，识别所述第一特征音频点集中的多个第二特征音频点，并提取多个所述第二特征音频点的时刻；用于根据多个所述第二特征音频点的时刻，生成特征时刻数列；用于根据多个所述第二特征音频点的时刻和所述节拍时长，生成多个预估节拍时刻数列；用于根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算，获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值；用于选取概率值最大的所述预估节拍时刻数列作为所述实际节拍时刻数列。

在一个实施方式中，所述计算处理模块12，还用于根据各所述预估节拍时刻数列和所述特征时刻数列，获取各所述预估节拍时刻数列的误差数列；其中，各所述误差数列包括多个预估节拍点的时刻误差值；用于将各所述误差数列中小于预设误差阈值的时刻误差值所对应的预估节拍点记为有效节拍点；用于根据各所述预估节拍时刻数列中有效节拍点的数量与预估节拍点的数量进行计算，获取各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值。

在一个实施方式中，所述计算处理模块12，还用于获取音乐信号的能量信息；用于对所述能量信息进行计算处理，以获得能量变化曲线；用于根据所述能量变化曲线，识别所述第一特征音频点集，并提取所述第一特征音频点集的时刻信息。

在一个实施方式中，所述计算处理模块12，还用于根据所述能量变化曲线和所述第一特征音频点集的时刻信息，提取所述第一特征音频点集的能量信息。

关于节拍识别装置的具体限定可以参见上文中对于节拍识别方法的限定，在此不再赘述。上述节拍识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本发明提供一种节拍识别装置，其包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述节拍识别方法的任一步骤。

在一个实施例中，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述节拍识别方法的任一步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种节拍识别方法，其特征在于，所述方法包括：

对所述特征信息进行计算处理，以获得实际节拍时刻数列；

根据所述实际节拍时刻数列识别节拍点。

2.根据权利要求1所述的节拍识别方法，其特征在于，所述对所述特征信息进行计算处理，以获得实际节拍时刻数列的步骤包括：

根据多个所述第二特征音频点的时刻，生成特征时刻数列；

3.根据权利要求2所述的节拍识别方法，其特征在于，所述识别所述第一特征音频点集中的多个第二特征音频点的步骤包括：

4.根据权利要求2所述的节拍识别方法，其特征在于，所述根据所述特征时刻数列和多个所述预估节拍时刻数列进行概率运算，获得各所述预估节拍时刻数列成为所述实际节拍时刻数列的概率值的步骤包括：

5.根据权利要求4所述的节拍识别方法，其特征在于，所述预设误差阈值为所述节拍时长中的最大时长值的十分之一。

6.根据权利要求1所述的节拍识别方法，其特征在于，提取所述第一特征音频点集的时刻信息的步骤包括：

获取音乐信号的能量信息；

对所述能量信息进行计算处理，以获得能量变化曲线；

7.根据权利要求6所述的节拍识别方法，其特征在于，提取所述第一特征音频点集的能量信息的步骤包括：

8.根据权利要求1所述的节拍识别方法，其特征在于，所述方法还包括：

9.一种节拍识别装置，其特征在于，所述节拍识别装置包括：

10.一种节拍识别装置，其包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的节拍识别方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的节拍识别方法的步骤。