CN111508526B

CN111508526B - 一种音频节拍信息的检测方法、装置及存储介质

Info

Publication number: CN111508526B
Application number: CN202010280389.5A
Authority: CN
Inventors: 陈洲旋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2022-07-01
Anticipated expiration: 2040-04-10
Also published as: CN111508526A

Abstract

本申请实施例公开了一种音频节拍信息的检测方法、装置及存储介质，本申请实施例通过获取待检测音频，并获取待检测音频的音频特征；获取预先训练好的参考神经网络模型以及多个流派神经网络模型；将待检测音频的音频特征分别输入每个流派神经网络模型，得到多个流派音频节拍信息；将待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；结合参考音频节拍信息以及多个流派音频节拍信息确定待检测音频的目标音频节拍信息。以此，根据音频流派风格的不同进行多模型训练，智能选取出与待检测音频的音频流派风格适配的流派神经网络模型输出的目标音频节拍信息，提升了音频节拍信息的检测准确率。

Description

一种音频节拍信息的检测方法、装置及存储介质

技术领域

本申请涉及音频处理技术领域，具体涉及一种音频节拍信息的检测方法、装置及存储介质。

背景技术

数字音频，顾名思义就是以数字信号的方式存储于网络服务器中的音频，在网络空间中流动传输，具有速度快的优点，而每分钟节拍数(Beat Per Minute，BPM)为音乐的一项基本属性，是音乐速度的量化指标，不同的BPM可以表达出不同音乐情感。

现有技术中，BPM具有多种实际的应用，如将特定的BPM音乐实时融入视频中，提高视频的整体体验，所以BPM的检测是一项研究热点内容，传统的音频节拍检测方法重点放在音频信号处理上，如利用频域信号差分，频域能量包络，时域波形信号的包络峰值，低频信号的能量和Onset位置等信息来进行测量，但检测的准确率较差。

发明内容

本申请实施例提供一种音频节拍信息的检测方法、装置及存储介质，旨在提升音频节拍信息的检测准确率。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种音频节拍信息的检测方法，包括：

获取待检测音频，并获取所述待检测音频的音频特征；

获取预先训练好的参考神经网络模型以及多个流派神经网络模型，其中所述参考神经网络模型由多种音频流派风格的训练样本综合训练得到，每个所述流派神经网络模型分别由一种不同音频流派风格的训练样本训练得到；

将所述待检测音频的音频特征分别输入每个所述流派神经网络模型，得到多个流派音频节拍信息；

将所述待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；

结合所述参考音频节拍信息以及所述多个流派音频节拍信息确定所述待检测音频的目标音频节拍信息。

一种音频节拍信息的检测方法，包括：

获取待检测音频，并获取所述待检测音频的音频特征；

确定所述待检测音频的目标音频流派风格；

获取与所述目标音频流派风格对应的预先训练好的流派神经网络模型，其中所述流派神经网络模型由所述目标音频流派风格的训练样本训练得到；

将所述待检测音频的音频特征输入所述流派神经网络模型，得到所述待检测音频的目标音频节拍信息。

一种音频节拍信息的检测装置，包括：

第一获取单元，用于获取待检测音频，并获取所述待检测音频的音频特征；

第二获取单元，用于获取预先训练好的参考神经网络模型以及多个流派神经网络模型，其中所述参考神经网络模型由多种音频流派风格的训练样本综合训练得到，每个所述流派神经网络模型分别由一种不同音频流派风格的训练样本训练得到；

第一输入单元，用于将所述待检测音频的音频特征分别输入每个所述流派神经网络模型，得到多个流派音频节拍信息；

第二输入单元，用于将所述待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；

结合单元，用于结合所述参考音频节拍信息以及所述多个流派音频节拍信息确定所述待检测音频的目标音频节拍信息。

在一些实施方式中，所述装置还包括：

获取单元，用于获取训练样本，所述训练样本包括多种音频流派风格；

第一训练单元，用于将所述训练样本按照音频流派风格分别输入到不同的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型；

第二训练单元，用于将所述训练样本输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型。

在一些实施例中，所述第一训练单元，具体用于：

将所述训练样本按照音频流派风格进行分类，得到不同音频流派风格相应的多个目标训练样本集；

依次提取每一目标训练样本集中的训练样本相应的第一目标音频特征；

将所述第一目标音频特征按照音频流派风格分别输入到不同的第一预设神经网络模型中，得到训练后的不同音频流派风格相应的多个流派神经网络模型。

在一些实施例中，所述第一训练单元，具体还用于：

按照预设步长和预设帧长依次对每一目标训练样本集中的训练样本进行分帧处理，以得到多帧信号；

对所述多帧信号进行信号变换，以得到与所述多帧信号对应的多个基本信号；

从所述多个基本信号中导出与所述基本信号对应的多个导出信号；

按照时间序列将所述多个基本信号与所述多个导出信号进行向量堆叠，以得到每一目标训练样本集中的训练样本相应的第一目标音频特征；

在一些实施例中，所述第二训练单元，具体用于：

按照预设步长和预设帧长分别对所述训练样本进行分帧处理，以得到多帧信号；

按照时间序列将所述多个基本信号与所述多个导出信号进行向量堆叠，以得到所述第二目标音频特征；

将所述第二目标音频特征输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络。

在一些实施例中，所述结合单元，具体用于：

依次计算每一流派音频节拍信息与参考音频节拍信息的相似度，将与参考节拍信息的相似度值最大的流派音频节拍信息确定为目标音频节拍信息。

在一些实施例中，所述结合单元，具体还用于：

依次计算每一流派节拍信息与参考音频节拍信息的均方误差值；

比较所述均方误差值，将均方误差值最小的流派音频节拍信息确定为目标音频节拍信息。

一种音频节拍信息的检测装置，包括：

获取待检测音频，并获取所述待检测音频的音频特征；

确定所述待检测音频的目标音频流派风格；

本申请实施例提供的一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的音频节拍信息的检测方法。

本申请实施例通过获取待检测音频，并获取待检测音频的音频特征；获取预先训练好的参考神经网络模型以及多个流派神经网络模型；将待检测音频的音频特征分别输入每个流派神经网络模型，得到多个流派音频节拍信息；将待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；结合参考音频节拍信息以及多个流派音频节拍信息确定待检测音频的目标音频节拍信息。以此，根据音频流派风格的不同进行多模型训练，智能选取出与待检测音频的音频流派风格适配的流派神经网络模型输出的目标音频节拍信息，提升了音频节拍信息的检测准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频节拍信息的检测系统的场景示意图；

图2是本申请实施例提供的音频节拍信息的检测方法的流程示意图；

图3是本申请实施例提供的音频节拍信息的检测方法的另一流程示意图；

图4是本申请实施例提供的音频节拍信息的检测方法的场景示意图；

图5是本申请实施例提供的音频节拍信息的检测方法的流程示意图；

图6是本申请实施例提供的音频节拍信息的检测装置的结构示意图；

图7是本申请实施例提供的音频节拍信息的检测装置的结构示意图；

图8是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种音频节拍信息的检测方法、装置、及存储介质。

请参阅图1，图1为本申请实施例所提供的音频节拍信息的检测系统的场景示意图，包括：终端A、和服务器(该检测系统还可以包括除终端A之外的其他终端，终端具体个数在此处不作限定)，终端A与服务器之间可以通过通信网络连接，该通信网络，可以包括无线网络以及有线网络，其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体，图中并未示意出。终端A可以通过通信网络与服务器进行信息交互，比如终端A在搜索某个音频的音频节拍信息时，会相应生成音频节拍搜索指令，该音频节拍搜索指令指示相应的音频，如音频“麻雀”，然后将该音频节拍搜索指令上传至服务器中，服务器可以根据该音频节拍搜索指令指示的音频进行音频节拍信息的整体检测。

该音频节拍信息的检测系统可以包括音频节拍信息的检测装置，该音频节拍信息的检测装置具体可以集成在服务器中，需要说明的是，在本申请的实施例中，以音频节拍信息的检测装置集成在服务器中进行说明，在另一种实施方式中，该音频节拍信息的检测装置还可以集成在具有计算能力的终端中。在图1中，该服务器主要用于接收终端上传的音频节拍搜索指令，获取音频节拍搜索指令指示的音频，在对音频的音频节拍信息进行检测之前，获取训练样本，该训练样本包括多种音频流派风格，将该训练样本按照音频流派风格分别输入到不同的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型，将该训练样本输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型，使得训练后的流派神经网络模型和参考神经网络模型具有对音频的音频节拍信息具有检测的能力，基于此，通过训练后的流派神经网络和参考神经网络对待检测音频进行检测，得到多个流派神经网络输出的多个流派音频节拍信息和参考神经网络输出的参考音频节拍信息，结合两者确定出最合适的目标音频节拍信息，并将该目标音频节拍信息相应的检测结果发送到终端A上，使得用户可以快速知道该待检测音频的音频节拍信息，并根据该音频节拍信息进行相应的应用，如进行音视频特效结合，从而使得视频更具有感染力和传播力，带来更好的视觉冲击等。

该音频节拍信息的检测系统还可以包括终端A，该终端A可以安装各种用户需要的应用，比如音乐应用、浏览器应用以及即时通讯应用等，在用户通过音乐应用对音频的音频节拍信息进行查看时，会生成音频节拍搜索指令上传至服务器中。

需要说明的是，图1所示的音频节拍信息的检测系统的场景示意图仅仅是一个示例，本申请实施例描述的音频节拍信息的检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着音频节拍信息的检测系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

实施例一、

在本实施例中，将从音频节拍信息的检测装置的角度进行描述，该音频节拍信息的检测装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。

请参阅图2，图2是本申请实施例提供的音频节拍信息的检测方法的流程示意图。该音频节拍信息的检测方法包括：

在步骤101中，获取待检测音频，并获取待检测音频的音频特征。

其中，该待检测音频为需要实时检测出音频节拍信息的音频，该待检测音频包括一种音频流派风格，该音频流派风格是未知的，可以按照预设步长和预设帧长对待检测音频进行分帧处理，以得到多帧信号，例如，将预设步长设置为512，预设帧长可以选取设置多个，例如预设帧长分别设置为1024、2048、4096，将训练样本以512为步长、分别以1024、2048、4096为帧长进行分帧处理，以得到步长为512帧长为1024的第一帧信号，步长为512帧长为2048的第二帧信号，以及步长为512帧长为4096的第三帧信号。

对分帧信号进行信号变换，以得到多帧信号对应的多个基本信号，例如对多帧信号中的每一帧信号进行傅里叶变换，并对傅里叶变换的实部对应的信号频率进行梅尔尺度变换，以得到每一帧信号的梅尔频谱，将每一帧信号的梅尔频谱输入对数函数中进行计算，以得到多帧信号中每一帧信号的基本信号。

从该多个基本信号中导出与基本信号对应的多个导出信号，例如沿每一基本信号的频率方向分别进行中值滤波，以获取每一基本信号对应的中值滤波结果，将每一基本信号减去与其对应的中值滤波结果，以得到每一基本信号对应的中间值，根据中间值，求取每一基本信号对应的导出信号。

按照时间序列将该多个基本信号与该多个导出信号进行向量堆叠，以得到待检测音频相应的音频特征，例如，可以复用Madom算法，即可以调用Madom算法的源代码做信号的向量堆叠处理，以得到待检测音频相应的音频特征。

在步骤102中，获取预先训练好的参考神经网络模型以及多个流派神经网络模型。

其中，本申请通过获取预先训练好的参考神经网络模型以及多个流派神经网络模型，该该参考神经网络模型由多种音频流派风格的训练样本综合训练得到，每个该流派神经网络模型分别由一种不同音频流派风格的训练样本训练得到。参考神经网络模型以及多个流派神经网络模型的训练过程如下：

获取训练样本，该训练样本可以为多个音频，如20秒的多个音频等等，该每一音频的格式可以相同，也可以不同，如待训练音频的格式为动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，MP3)、无损音频压缩编码(FreeLossless Audio Codec，FLAC)或者OGG(OGGVobis)格式等等。需要特别说明的是，该训练样本包括多种音频流派风格，该音频流派风格是指音乐作品在整体上呈现出的具有代表的独特面貌的多种风格，如布鲁斯、摇滚、乡村、迪斯科和爵士等音频流派风格。

为了保证后续的训练效果，可以对训练样本进行标注，每一训练样本的音频中的每个节拍时间点都被标注出来。

由于不同的音频流派风格具有其独特的音乐元素，其节拍所在的特征差别较大，即某些节拍特征适用于一些特定的流派，但对其他流派效果就比较差，因此，如果将所有训练样本不分音频流派风格进行训练，将会导致训练的效果较差，使得训练后的神经网络模型对于音频的音频节拍信息的识别准确率较差。

本申请为了克服上述困难，将训练样本按照音频流派风格的不同输入到专门的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型，每一个第一预设神经网络模型用于训练相同的音频流派风格的训练样本，使得训练后的每一流派神经网络模型具有对特定音频流派风格的音频具有更精准的音频节拍信息的识别能力。将所有训练样本输入到同一个第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型，该第二预设神经网络模型用于不分音频流派风格对所有训练样本进行训练，使得训练后的参考神经网络模型具有对所有音频具有音频节拍信息的识别能力，该参考神经网络由于不分音频流派风格对所有训练样本进行训练，所以该参考神经网络对于音频的音频节拍信息的识别准确率更低。

在一实施方式中，该第一预设神经网络模型和第二预设神经网络模型可以为卷积神经网络模型或者支持向量机学习模型等人工智能模型，以该卷积神经网络(Convolutional Neural Networks，CNN)模型进行说明，该卷积神经网络可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征，例如像素和音频进行学习。

在一些实施方式中，参考神经网络模型以及多个流派神经网络模型的训练过程包括：

(1)获取训练样本，该训练样本包括多种音频流派风格；

(2)将该训练样本按照音频流派风格分别输入到不同的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型；

(3)将该训练样本输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型。

其中，获取训练样本，该训练样本包括多种音频流派风格，每一训练样本的音频中的每个节拍时间点都被标注出来。

进一步的，将不同的音频流派风格的训练样本集输入到不同的第一预设神经网络模型中分别进行训练，使得每一个第一预设神经网络模型对特定的音频流派风格的训练样本集进行学习训练，使得训练后的每一流派神经网络模型具有对特定音频流派风格的音频具有准确的音频节拍信息的识别能力，得到训练后的不同音频流派风格相应的多个流派神经网络模型。将所有训练样本输入到同一个第二预设神经网络模型中进行训练，即该第二预设神经网络模型用于对不分音频流派风格的所有训练样本进行训练，使得训练后的参考神经网络模型具有对不同音频具有音频节拍信息的识别能力。

在一些实施方式中，将该训练样本按照音频流派风格分别输入到不同的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型的步骤，包括：

(1.1)将该训练样本按照音频流派风格进行分类，得到不同音频流派风格相应的多个目标训练样本集；

(1.2)依次提取每一目标训练样本集中的训练样本相应的第一目标音频特征；

(1.3)将该第一目标音频特征按照音频流派风格分别输入到不同的第一预设神经网络模型中，得到训练后的不同音频流派风格相应的多个流派神经网络模型。

其中，将该训练样本按照音频流派风格进行分类，该分类可以为人工进行分类，即按照每一训练样本的音乐风格进行音频流派风格的分类，将相同音频流派风格的训练样本分类为一个目标训练样本集，得到不同音频流派风格相应的多个目标训练样本集。

进一步的，可以按照预设步长和预设帧长对每一目标训练集中的训练样本进行分帧处理，以得到多帧信号，例如，将预设步长设置为512，预设帧长可以选取设置多个，例如预设帧长分别设置为1024、2048、4096，将训练样本以512为步长、分别以1024、2048、4096为帧长进行分帧处理，以得到步长为512帧长为1024的第一帧信号，步长为512帧长为2048的第二帧信号，以及步长为512帧长为4096的第三帧信号。

按照时间序列将该多个基本信号与该多个导出信号进行向量堆叠，以得到每一目标训练样本集中的训练样本相应的第一目标音频特征，例如，可以复用Madom算法，即可以调用Madom算法的源代码做信号的向量堆叠处理，以得到每一目标训练样本集中的训练样本相应的第一目标音频特征。

将第一目标音频特征按照音频流派风格分别输入到不同的第一预设神经网络模型中进行学习训练，使得每一个第一预设神经网络在通过对同一音频流派风格的已标注的训练样本的学习，训练出在每一音频流派风格下具有更精确的识别帧信号是否为节拍点能力的多个流派神经网络。

在一些实施方式中，将该训练样本输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型的步骤，可以包括：

(2.1)按照预设步长和预设帧长分别对该训练样本进行分帧处理，以得到多帧信号；

(2.2)对该多帧信号进行信号变换，以得到与该多帧信号对应的多个基本信号；

(2.3)从该多个基本信号中导出与该基本信号对应的多个导出信号；

按照时间序列将该多个基本信号与该多个导出信号进行向量堆叠，以得到该第二目标音频特征；

(2.4)将该第二目标音频特征输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络。

其中，可以按照预设步长和预设帧长对所有训练样本进行分帧处理，以得到多帧信号，例如，将预设步长设置为512，预设帧长可以选取设置多个，例如预设帧长分别设置为1024、2048、4096，将训练样本以512为步长、分别以1024、2048、4096为帧长进行分帧处理，以得到步长为512帧长为1024的第一帧信号，步长为512帧长为2048的第二帧信号，以及步长为512帧长为4096的第三帧信号。

按照时间序列将该多个基本信号与该多个导出信号进行向量堆叠，以得到所有训练样本相应的第二目标音频特征，例如，可以复用Madom算法，即可以调用Madom算法的源代码做信号的向量堆叠处理，以得到所有训练样本相应的第二目标音频特征。

进一步的，将第二目标音频特征输入到第二预设神经网络模型中进行学习训练，使得第二预设神经网络通过对已标注的训练样本的学习，训练出通用的具有识别帧信号是否为节拍点能力的参考神经网络，得到参考音频节拍信息。

在步骤103中，将待检测音频的音频特征分别输入每个流派神经网络模型，得到多个流派音频节拍信息。

其中，将该待检测音频的音频特征分别输入至每一个流派神经网络模型中分别进行识别，得到每一个流派神经网络模型输出的流派音频节拍信息，该多个流派音频节拍信息中只有与待检测音频的音频流派风格相同流派神经网络模型的检测结果为最准确的。

在步骤104中，将待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息。

其中，为了找出该最准确的流派音频节拍信息，需要借助参考神经网络模型进行参考，所以将该待检测音频的音频特征输入至参考神经网络模型，得到相应的参考音频节拍信息。

在步骤105中，结合参考音频节拍信息以及多个流派音频节拍信息确定待检测音频的目标音频节拍信息。

其中，该音频流派风格是未知的，为了找出该最准确的流派音频节拍信息，需要借助参考神经网络模型，该参考神经网络模型由于对所有训练样本进行训练学习，所以该参考神经网络模型的输出的参考节拍信息虽然不够精确，但呈中间化态势，具有很强的参考意义，该多个流派音频节拍信息中与该参考音频节拍信息最接近的流派音频节拍信息即为在参考音频节拍信息的基础上更为准确的流派音频节拍，说明该流派音频节拍相应的流派神经网络模型的音频流派风格与待检测音频的音频流派风格一致，将该与参考音频节拍信息最接近的流派音频节拍信息确定为目标音频节拍信息。

由上述可知，本申请实施例通过获取待检测音频，并获取待检测音频的音频特征；获取预先训练好的参考神经网络模型以及多个流派神经网络模型；将待检测音频的音频特征分别输入每个流派神经网络模型，得到多个流派音频节拍信息；将待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；结合参考音频节拍信息以及多个流派音频节拍信息确定待检测音频的目标音频节拍信息。以此，根据音频流派风格的不同进行多模型训练，智能选取出与待检测音频的音频流派风格适配的流派神经网络模型输出的目标音频节拍信息，提升了音频节拍信息的检测准确率。

实施例二、

根据实施例一所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该音频节拍信息的检测装置具体集成在服务器中以及该音频为音乐片段为例进行说明。

请参阅图3，图3为本申请实施例提供的音频节拍信息的检测方法的另一流程示意图。该方法流程可以包括：

在步骤201中，服务器获取训练样本。

其中，该训练样本可以为多个音乐片段，该训练样本包括多种音频流派风格，服务器对训练样本进行标注，使得每一训练样本的音乐片段中的每个节拍点都被标注出来。

在步骤202中，服务器将训练样本按照音频流派风格进行分类，得到不同音频流派风格相应的多个目标训练样本集。

其中，该多个音乐片段的音频流派风格都是确定的，服务器按照音频流派风格进行分类，将相同的音频流派风格的音乐片段归类到同一目标训练样本集中，得到多个目标训练样本集，该多个目标训练样本集即代表了不同的音频流派风格。

在步骤203中，服务器按照预设步长和预设帧长依次对每一目标训练样本集中的训练样本进行分帧处理，以得到多帧信号。

其中，服务器可以将每一目标训练样本集中的训练样本以512为步长、分别以1024、2048、4096为帧长进行分帧处理，以得到步长为512帧长为1024的第一帧信号，步长为512帧长为2048的第二帧信号，以及步长为512帧长为4096的第三帧信号。

在步骤204中，服务器对多帧信号进行信号变换，以得到与多帧信号对应的多个基本信号，从多个基本信号中导出与基本信号对应的多个导出信号。

其中，服务器对多帧信号中的每一帧信号进行傅里叶变换，并对傅里叶变换的实部对应的信号频率进行梅尔尺度变换，以得到每一帧信号的梅尔频谱，将每一帧信号的梅尔频谱输入对数函数中进行计算，以得到多帧信号中每一帧信号的基本信号。

进一步的，从该多个基本信号中导出与基本信号对应的多个导出信号，例如沿每一基本信号的频率方向分别进行中值滤波，以获取每一基本信号对应的中值滤波结果，将每一基本信号减去与其对应的中值滤波结果，以得到每一基本信号对应的中间值，根据中间值，求取每一基本信号对应的导出信号。

在步骤205中，服务器按照时间序列将多个基本信号与多个导出信号进行向量堆叠，以得到每一目标训练样本集中的训练样本相应的第一目标音频特征。

其中，服务器可以调用Madom算法的源代码做信号的向量堆叠处理，以得到每一目标训练样本集中的训练样本相应的第一目标音频特征，该每一目标训练样本集中的训练样本相应的第一目标音频特征代表一种音频流派风格的音频特征。

在步骤206中，服务器将第一目标音频特征按照音频流派风格分别输入到不同的第一预设神经网络模型中，得到训练后的不同音频流派风格相应的多个流派神经网络模型。

其中，服务器将第一目标特征按照音频流派风格输入到相应的第一预设神经网络模型中，每一个预设神经网络模型用于专门学习一种音频流派风格的第一目标特征，得到训练后的流派神经网络模型具有对于特定音频流派风格的音频更精确的流派音频节拍信息的识别能力。

在步骤207中，服务器按照预设步长和预设帧长分别对训练样本进行分帧处理，以得到多帧信号，对多帧信号进行信号变换，以得到与多帧信号对应的多个基本信号，从多个基本信号中导出与基本信号对应的多个导出信号，按照时间序列将多个基本信号与多个导出信号进行向量堆叠，以得到第二目标音频特征，将第二目标音频特征输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络。

其中，服务器可以将所有训练样本以512为步长、分别以1024、2048、4096为帧长进行分帧处理，以得到步长为512帧长为1024的第一帧信号，步长为512帧长为2048的第二帧信号，以及步长为512帧长为4096的第三帧信号。

调用Madom算法的源代码做信号的向量堆叠处理，以得到所有训练样本相应的第二目标音频特征。

进一步的，将第二目标音频特征输入到同一个第二预设神经网络模型中进行学习训练，使得第二预设神经网络通过对已标注的训练样本的学习，得到训练后的参考神经网络模型，该训练后的参考神经网络模型具有对音频的音频节拍信息的识别能力。

在步骤208中，服务器获取待检测音频，并获取待检测音频的音频特征。

其中，服务器可以将待检测音频以512为步长、分别以1024、2048、4096为帧长进行分帧处理，以得到步长为512帧长为1024的第一帧信号，步长为512帧长为2048的第二帧信号，以及步长为512帧长为4096的第三帧信号。

调用Madom算法的源代码做信号的向量堆叠处理，以得到待检测音频相应的音频特征。

在步骤209中，服务器获取预先训练好的参考神经网络模型以及多个流派神经网络模型，将待检测音频的音频特征分别输入每个流派神经网络模型，得到多个流派音频节拍信息，将待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息。

其中，由于待检测音频的音频流派风格是未知的，所以需要将该音频特征依次输入每一流派神经网络模型中，得到多个流派音频节拍信息，该流派音频节拍信息可以为流派音乐节拍概率序列，如该流派音乐节拍概率序列可以为S_i＝[a1,a2,a3,…,aM]，该i表示为流派神经网络模型，M表示为待检测音频的音频特征的帧数，该aM表示为该第M帧数的节拍概率。

进一步的，服务器将音频特征输入参考神经网络模型中，得到参考音频节拍信息，该参考音频节拍信息可以为参考音乐节拍概率序列，该参考音频节拍信息虽然不够精确，但呈中间化态势，具有很强的参考意义。

在步骤210中，服务器依次计算每一流派节拍信息与参考音频节拍信息的均方误差值，比较均方误差值，将均方误差值最小的流派音频节拍信息确定为目标音频节拍信息。

其中，该均方误差(mean-square error,MSE)是反映估计量与被估计量之间差异程度的一种度量。以此，服务器分别计算每一流派音乐节拍概率序列与参考音乐节拍概率序列的均方误差。

进一步的，比较该均方误差值，选取均方误差值最小的流派音频节拍信息，该均方误差值最小即说明流派音乐节拍与参考音乐节拍信息差异度最小，相应的，该音乐节拍信息为最准确的，说明该均方误差值最小的流派音频节拍信息相应的流派神经网络的音频流派风格与待检测音频的音频流派风格是一致的，所以可以将该均方误差值最小的流派音频节拍信息确定为目标音频节拍信息，该目标音频节拍信息为通过专门对该待检测音频的音频流派风格进行训练的流派神经网络的输出，相对比于同时对所有音频流派风格进行训练的参考神经网络的输出，准确率得到了极大的提升。

如图4所示，终端10的用户为了更好地了解待检测音乐片段的音乐节拍信息，可以将该待检测音乐片段“麻雀”上传至服务器中，该服务器根据该待检测音乐片段“麻雀”进行检测，输出目标音频节拍信息，即得到节拍概率序列，对该节拍概率序列经过一定的后续处理，可以得到该待检测音乐片段“麻雀”的BPM为80，并反馈至终端11进行显示，使得用户可以快速且准确的知道该待检测音乐片段相应的BPM。

实施例三、

请参阅图5，图5是本申请实施例提供的音频节拍信息的检测方法的流程示意图。该音频节拍信息的检测方法包括：

在步骤301中，获取待检测音频，并获取待检测音频的音频特征。

其中，该待检测音频为需要实时检测出音频节拍信息的音频，该待检测音频包括一种音频流派风格，可以按照预设步长和预设帧长对待检测音频进行分帧处理，以得到多帧信号，例如，将预设步长设置为512，预设帧长可以选取设置多个，例如预设帧长分别设置为1024、2048、4096，将训练样本以512为步长、分别以1024、2048、4096为帧长进行分帧处理，以得到步长为512帧长为1024的第一帧信号，步长为512帧长为2048的第二帧信号，以及步长为512帧长为4096的第三帧信号。

在步骤302中，确定待检测音频的目标音频流派风格。

其中，可以通过一些音频流派风格识别方法直接识别出待检测音频的目标音频流风格，例如布鲁斯、摇滚、乡村等音频流派风格。

在步骤303中，获取与目标音频流派风格对应的预先训练好的流派神经网络模型。

其中，每个预先训练好的该流派神经网络模型分别由一种不同音频流派风格的训练样本训练得到，训练过程参照上述流派神经网络模型的训练方式。

在步骤304中，将待检测音频的音频特征输入流派神经网络模型，得到待检测音频的目标音频节拍信息。

其中，由于该待检测音频的音频流派风格是确定的，所以可以根据待检测音频的音频流派风格确定相同音频流派风格的流派神经网络模型，将该音频特征输入至相同音频流派风格的流派神经网络模型，由于该流派神经网络模型为专门训练用于识别该待检测音频的音频流派风格的流派神经网络模型，以此，可以得到更为精确的目标音频节拍信息。

实施例四、

为便于更好的实施本申请实施例提供的音频节拍信息的检测方法，本申请实施例还提供一种基于上述音频节拍信息的检测方法的装置。其中名词的含义与上述音频节拍信息的检测方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图6，图6为本申请实施例提供的音频节拍信息的检测装置的结构示意图，其中该音频节拍信息的检测装置可以包括第一获取单元401、第二获取单元402、第一输入单元403、第二输入单元404以及结合单元405等。

第一获取单元401，用于获取待检测音频，并获取该待检测音频的音频特征。

第二获取单元402，用于获取预先训练好的参考神经网络模型以及多个流派神经网络模型，其中该参考神经网络模型由多种音频流派风格的训练样本综合训练得到，每个该流派神经网络模型分别由一种不同音频流派风格的训练样本训练得到。

第一输入单元403，用于将该待检测音频的音频特征分别输入每个该流派神经网络模型，得到多个流派音频节拍信息。

第二输入单元404，用于将该待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息。

结合单元405，用于结合该参考音频节拍信息以及该多个流派音频节拍信息确定该待检测音频的目标音频节拍信息。

在一些实施方式中，该结合单元405，具体用于：

在一些实施方式中，该结合单元405，具体还用于：

比较该均方误差值，将均方误差值最小的流派音频节拍信息确定为目标音频节拍信息。

在一些实施方式中，该装置还包括：

获取单元，用于获取训练样本，该训练样本包括多种音频流派风格；

第一训练单元，用于将该训练样本按照音频流派风格分别输入到不同的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型；

第二训练单元，用于将该训练样本输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型。

在一些实施方式中，该第一训练单元，具体用于：

将该训练样本按照音频流派风格进行分类，得到不同音频流派风格相应的多个目标训练样本集；依次提取每一目标训练样本集中的训练样本相应的第一目标音频特征；将该第一目标音频特征按照音频流派风格分别输入到不同的第一预设神经网络模型中，得到训练后的不同音频流派风格相应的多个流派神经网络模型。

在一些实施例中，该第一训练单元，具体还用于：

将该训练样本按照音频流派风格进行分类，得到不同音频流派风格相应的多个目标训练样本集；按照预设步长和预设帧长依次对每一目标训练样本集中的训练样本进行分帧处理，以得到多帧信号；对该多帧信号进行信号变换，以得到与该多帧信号对应的多个基本信号；从该多个基本信号中导出与该基本信号对应的多个导出信号；按照时间序列将该多个基本信号与该多个导出信号进行向量堆叠，以得到每一目标训练样本集中的训练样本相应的第一目标音频特征；将该第一目标音频特征按照音频流派风格分别输入到不同的第一预设神经网络模型中，得到训练后的不同音频流派风格相应的多个流派神经网络模型。

在一些实施例中，该第二训练单元，具体用于：

按照预设步长和预设帧长分别对该训练样本进行分帧处理，以得到多帧信号；对该多帧信号进行信号变换，以得到与该多帧信号对应的多个基本信号；从该多个基本信号中导出与该基本信号对应的多个导出信号；按照时间序列将该多个基本信号与该多个导出信号进行向量堆叠，以得到该第二目标音频特征；将该第二目标音频特征输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络。

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过第一获取单元401获取待检测音频，并获取待检测音频的音频特征；第二获取单元402获取预先训练好的参考神经网络模型以及多个流派神经网络模型；第一输入单元403将待检测音频的音频特征分别输入每个流派神经网络模型，得到多个流派音频节拍信息；第二输入单元404将待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；结合单元405结合参考音频节拍信息以及多个流派音频节拍信息确定待检测音频的目标音频节拍信息。以此，根据音频流派风格的不同进行多模型训练，智能选取出与待检测音频的音频流派风格适配的流派神经网络模型输出的目标音频节拍信息，提升了音频节拍信息的检测准确率。

实施例五、

请参阅图7，图7为本申请实施例提供的音频节拍信息的检测装置的结构示意图，其中该音频节拍信息的检测装置可以包括获取单元501、确定单元502、获取单元503、以及输入单元504。

获取单元501，用于获取待检测音频，并获取该待检测音频的音频特征；

确定单元502，用于确定该待检测音频的目标音频流派风格；

获取单元503，用于获取与该目标音频流派风格对应的预先训练好的流派神经网络模型，其中该流派神经网络模型由该目标音频流派风格的训练样本训练得到；

输入单元504，用于将该待检测音频的音频特征输入该流派神经网络模型，得到该待检测音频的目标音频节拍信息。

实施例六、

本申请实施例还提供一种服务器，如图8所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图8中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中：

处理器601是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器601可包括一个或多个处理核心；优选的，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

服务器还包括给各个部件供电的电源603，优选的，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取待检测音频，并获取该待检测音频的音频特征；获取预先训练好的参考神经网络模型以及多个流派神经网络模型，其中该参考神经网络模型由多种音频流派风格的训练样本综合训练得到，每个该流派神经网络模型分别由一种不同音频流派风格的训练样本训练得到；将该待检测音频的音频特征分别输入每个该流派神经网络模型，得到多个流派音频节拍信息；将该待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；结合该参考音频节拍信息以及该多个流派音频节拍信息确定该待检测音频的目标音频节拍信息。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频节拍信息的检测方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的服务器可以通过获取待检测音频，并获取待检测音频的音频特征；获取预先训练好的参考神经网络模型以及多个流派神经网络模型；将待检测音频的音频特征分别输入每个流派神经网络模型，得到多个流派音频节拍信息；将待检测音频的音频特征输入参考神经网络模型，得到参考音频节拍信息；结合参考音频节拍信息以及多个流派音频节拍信息确定待检测音频的目标音频节拍信息。以此，根据音频流派风格的不同进行多模型训练，智能选取出与待检测音频的音频流派风格适配的流派神经网络模型输出的目标音频节拍信息，提升了音频节拍信息的检测准确率。

实施例七、

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种音频节拍信息的检测方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种音频节拍信息的检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频节拍信息的检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频节拍信息的检测方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频节拍信息的检测方法，其特征在于，包括：

获取待检测音频，并获取所述待检测音频的音频特征；

2.根据权利要求1所述的检测方法，其特征在于，参考神经网络模型以及多个流派神经网络模型的训练过程包括：

获取训练样本，所述训练样本包括多种音频流派风格；

将所述训练样本按照音频流派风格分别输入到不同的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型；

将所述训练样本输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型。

3.根据权利要求2所述的检测方法，其特征在于，所述将所述训练样本按照音频流派风格分别输入到不同的第一预设神经网络模型中进行训练，得到训练后的不同音频流派风格相应的多个流派神经网络模型的步骤，包括：

4.根据权利要求3所述的检测方法，其特征在于，所述依次提取每一目标训练样本集中的训练样本相应的第一目标音频特征的步骤，包括：

按照时间序列将所述多个基本信号与所述多个导出信号进行向量堆叠，以得到每一目标训练样本集中的训练样本相应的第一目标音频特征。

5.根据权利要求2所述的检测方法，其特征在于，所述将所述训练样本输入到第二预设神经网络模型中进行训练，得到训练后的参考神经网络模型的步骤，包括：

按照时间序列将所述多个基本信号与所述多个导出信号进行向量堆叠，以得到第二目标音频特征；

6.根据权利要求1至5任一项所述的检测方法，其特征在于，所述结合所述参考音频节拍信息以及所述多个流派音频节拍信息确定所述待检测音频的目标音频节拍信息的步骤，包括：

7.根据权利要求6所述的检测方法，其特征在于，所述依次计算每一流派音频节拍信息与参考音频节拍信息的相似度，将与参考节拍信息的相似度值最大的流派音频节拍信息确定为目标音频节拍信息的步骤，包括：

8.一种音频节拍信息的检测方法，其特征在于，所述方法包括：

获取待检测音频，并获取所述待检测音频的音频特征；

确定所述待检测音频的目标音频流派风格；

9.一种音频节拍信息的检测装置，其特征在于，包括：

10.一种音频节拍信息的检测装置，其特征在于，包括：

获取单元，用于获取待检测音频，并获取所述待检测音频的音频特征；

确定单元，用于确定所述待检测音频的目标音频流派风格；

获取单元，用于获取与所述目标音频流派风格对应的预先训练好的流派神经网络模型，其中所述流派神经网络模型由所述目标音频流派风格的训练样本训练得到；

输入单元，用于将所述待检测音频的音频特征输入所述流派神经网络模型，得到所述待检测音频的目标音频节拍信息。

11.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至8任一项所述的音频节拍信息的检测方法。