CN112399247A

CN112399247A - 一种音频处理方法、音频处理设备及可读存储介质

Info

Publication number: CN112399247A
Application number: CN202011292893.3A
Authority: CN
Inventors: 陈洲旋
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-23
Anticipated expiration: 2040-11-18
Also published as: CN112399247B

Abstract

本发明实施例公开了一种音频处理方法、音频处理设备及可读存储介质。其中，音频处理方法包括：获取待检测音频，并对该待检测音频进行音频特征提取，得到待检测音频的音频特征，然后利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和节拍包括的重拍，再根据所述节拍和重拍，在待检测音频中添加音效。该方法中的节拍检测模型是基于训练样本以及训练样本对应的节拍标签和重拍标签训练得到的，与传统的利用音频信号处理的方式进行节拍检测相比，节拍检测模型对节拍检测的准确性更高。从而，根据节拍检测模型检测到的节拍和重拍，在待检测音频中添加音效，有利于提高音效的准确性。

Description

一种音频处理方法、音频处理设备及可读存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频处理方法、音频处理设备及可读存储介质。

背景技术

随着Internet技术不断发展，短视频、直播平台等不断兴起。用户在使用这些平台录制视频中，通常会融入音乐节奏的变化，以提高视频的音视觉体验。比如，用户在短视频(如抖音)的拍摄中，常常会根据音乐的节奏来添加音效，使得短视频的音乐更加丰富。其中，音频的节拍检测为音效添加过程之前的一重要过程。

传统的音频节拍检测方法重点放在音频信号处理上，如利用频域信号差分、频域能量包络、时域波形信号的包络峰值、低频信号的能量、Onset位置、和弦变化等信息来进行检测。然而，该节拍检测方法容易造成误判或漏检，从而造成按照该检测结果在音频中添加音效后的音效特性不佳。

因此，针对在音频中添加音效的场景，如何提高所添加音效的准确性仍为目前亟需解决的问题。

发明内容

本发明实施例提供了一种音频处理方法、音频处理设备及可读存储介质，可针对在音频中添加音效的场景，提高音效的准确性。

一方面，本发明实施例提供了一种音频处理方法，该方法包括：

获取待检测音频；

对所述待检测音频进行音频特征提取，得到所述待检测音频的音频特征；

利用节拍检测模型对所述待检测音频的音频特征进行节拍检测，获得所述待检测音频的节拍和所述节拍包括的重拍，其中所述节拍检测模型是基于训练样本以及所述训练样本对应的节拍标签和重拍标签训练得到的；

根据所述节拍和所述重拍，在所述待检测音频中添加音效。

一方面，本发明提供了一种音频处理装置，所述装置包括：

获取单元，用于获取待检测音频；

处理单元，用于对所述待检测音频进行音频特征提取，得到所述待检测音频的音频特征；

处理单元，还用于利用节拍检测模型对待检测音频的音频特征进行节拍检测，以获取待检测音频的节拍和节拍包括的重拍，其中所述节拍检测模型是基于训练样本以及所述训练样本对应的节拍标签和重拍标签训练得到的；

处理单元，还用于根据节拍和重拍，在待检测音频中添加音效。

一方面，本发明实施例提供了一种音频处理设备，其特征在于，包括：

处理器，适于实现一条或多条指令；以及

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

获取待检测音频；对所述待检测音频进行音频特征提取，得到所述待检测音频的音频特征；利用节拍检测模型对所述待检测音频的音频特征进行节拍检测，获得所述待检测音频的节拍和所述节拍包括的重拍，其中所述节拍检测模型是基于训练样本以及所述训练样本对应的节拍标签和重拍标签训练得到的；根据所述节拍和所述重拍，在所述待检测音频中添加音效。

一方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括：

处理器，适于实现一条或多条指令；以及

一方面，本发明实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；音频处理设备的处理器从所述计算机存储介质中读取所述计算机指令，所述处理器执行所述计算机指令执行：

获取待检测音频；对所述待检测音频进行音频特征提取，得到所述待检测音频的音频特征；利用节拍检测模型对所述待检测音频的音频特征进行节拍检测，获得所述待检测音频的节拍和所述节拍包括的重拍对所述待检测音频进行音频特征提取，得到所述待检测音频的音频特征；根据所述节拍和所述重拍，在所述待检测音频中添加音效。

本发明实施例中，音频处理设备是利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和所述节拍包括的重拍，再根据该节拍和重拍，在待检测音频中添加音效。比起传统的利用音频信号的处理方式进行节拍检测，该方式检测出的检测结果更加准确，从而，音频处理设备根据节拍检测模型检测出的节拍和重拍，在待检测音频中添加音效，有利于提高音效的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种待检测音频的示意图；

图2为本发明实施例提供的一种音频处理方法的流程示意图；

图3为本发明实施例提供的一种训练样本的示意图；

图4为本发明实施例提供的另一种对音频处理方法的流程示意图；

图5a为本发明实施例提供的一种低通音频信号分帧处理的示意图；

图5b为本发明实施例提供的另一种低通音频信号分帧处理的示意图；

图5c为本发明实施例提供的另一种低通音频信号分帧处理的示意图；

图6为本发明实施例提供的一种利用节拍检测模型对训练样本的音频特征进行检测的示意图；

图7为本发明实施例提供的一种膨胀卷积对训练样本的音频特征进行堆叠处理方法的流程示意图；

图8为本发明实施例提供的一种音频处理装置的结构示意图；

图9为本发明实施例提供的一种音频处理设备的结构示意图。

具体实施方式

目前，人们常常在音频中添加自己喜欢的背景音乐，也即添加音效，使得音频更加丰富。音效往往是根据音频的节拍决定如何添加的，因此对一段音频的节拍检测尤为重要。传统的音频节拍检测方法重点放在音频信号处理上，该方法容易造成误判或漏检，从而导致按照该检测结果在音频中添加音效后的音效特性不佳。例如，如图1所示，一段待检测音频为音频m，使用传统的音频检测方法对待检测音频进行节拍检测，检测出的节拍为虚线处标识的a1点、b1点、c1点，重拍为a1点，而音频m中的真正节拍为实线处标识的a点、b点、c点，重拍为其中的a点，即检测出的节拍和待检测音频中真正的节拍存在一定的误差，若后续根据a1点、b1点、c1点，在音频m中添加音效，会导致添加的音效不准确，音效效果不佳。

为解决上述问题，本申请实施例提出一种音频处理方法，该方法中，音频处理设备利用节拍检测模型对音频的音频特征进行节拍检测，节拍检测模型是基于训练样本以及训练样本对应的节拍标签和重拍标签训练得到的，从而可提高对节拍检测的准确性。进而，音频处理设备利用该节拍检测模型检测出的节拍和重拍，在待检测音频中添加音效，有利于提高音效的准确性。

本申请实施例中的音频处理方法主要涉及到音频处理设备。在一个实施例中，所述音频处理设备可以是终端，比如为以下终端中的任意一种或多种：接入终端、用户设备(user equipment，UE)、用户单元、用户站、移动站、移动台、远方站、远程终端、移动终端、用户终端、终端、无线通信设备、用户代理或用户装置。其中，接入终端可以是蜂窝电话、无绳电话、会话发起协议(session initiation protocol，SIP)电话、无线本地环路(wirelesslocal loop，WLL)站、个人数字处理(personal digital assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备、物联网中的终端、虚拟现实设备、未来5G网络中的终端或者未来演进的公共陆地移动网络(public land mobile network，PLMN)中的终端等。

在其他实施例中，所述音频处理设备还可以是服务器，所述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

基于上述描述，本申请实施例提出一种音频处理方法。参见图2，图2为本发明实施例提供的一种音频处理方法的流程示意图，图2所示的音频处理方法可由音频处理设备执行，具体可由音频处理设备的处理器执行。图2所示的音频处理方法包括但不限于以下步骤：

步骤S201、获取待检测音频。

在一个实施例中，所述待检测音频可以是一段视频，所述视频可以是拍摄设备拍摄得到的，或者视频也可以是根据用户选择的多张照片进行拼接处理得到的。在其他实施例中，所述待检测音频也可以是一段纯音频，比如一首歌曲。

一种实施方式中，所述获取待检测音频，包括：从音频处理设备中获取待检测音频。例如，待检测音频是音频处理设备根据用户需求进行拍摄得到的短视频，为使得该短视频更加丰富，用户可通过音频处理设备输入触发添加音效的操作指令，音频处理设备从本地中获得与操作指令对应的待检测音频。

另一种实施方式中，所述获取待检测音频，包括：从除所述音频处理设备外的其他设备中获取待检测音频。例如，音频处理设备A获得了一段音频n，将该音频n发送至音频处理设备B，由音频处理设备B进行节拍检测，也就是说，音频处理设备B从音频处理设备A中获取了待检测音频，待检测音频为音频n。

步骤S202、对待检测音频进行音频特征提取，得到待检测音频的音频特征。

在一个实施例中，对待检测音频进行音频特征提取，得到待检测音频的音频特征的实现方式，可以包括：将待检测音频进行低通滤波处理，得到低通音频信号；根据预设帧移以及至少一个帧长阈值，将低通音频信号进行分帧处理，得到至少一个分帧音频信号集合，其中不同分帧音频信号集合对应不同帧长阈值，每个分帧音频信号集合中包括至少两个子音频信号，每个子音频信号的帧长等于所属音频信号集合对应的帧长阈值；对至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到每个分帧音频信号集合对应的分音频特征；将每个分帧音频信号集合对应的分音频特征进行拼接处理，得到待检测音频的音频特征。

步骤S203、利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和节拍包括的重拍，节拍检测模型是基于训练样本以及训练样本对应的节拍标签和重拍标签训练得到的。

在一个实施例中，所述节拍检测模型包括处理单元和分类器，利用节拍检测模型对所检测音频的音频特征进行节拍检测，以获取待检测音频的节拍和节拍包括的重拍的实现方式，可以包括：将待检测音频的音频特征经过处理单元的堆叠处理后，得到输出特征，输出特征为与待检测音频的音频特征等长的时间序列数据；将输出特征输入至分类器中，以使输出特征沿时间序列将每一帧的输出特征映射到每个时间点上，得到每个时间点对应的节拍检测结果，节拍检测结果包括待检测音频的节拍和节拍包括的重拍。

在一个实施例中，所述节拍检测模型是基于训练样本以及训练样本对应的节拍标签和重拍标签训练得到的。具体实现中，获取训练样本，训练样本具有对应的节拍标签和重拍标签；对训练样本进行音频特征提取，得到训练样本的音频特征；调用节拍检测模型对音频特征进行检测，得到预测结果；基于节拍标签、重拍标签和预测结果对节拍检测模型进行优化训练，得到优化后的节拍检测模型。

为了方便描述，在下面的描述中无特殊说明的情况下，以训练样本的数量是一个为例。所述训练样本的节拍标签用于指示训练样本中的节拍，所述训练样本的重拍标签用于指示所述训练样本中的重拍。例如，如图3所示，假设训练样本为一段音频a，音频a上具有节拍标签e、f、g，以及重拍标签e，即标签e、f、g用于指示音频a的节拍，标签e用于指示音频a的重拍。

一种实施方式中，获取训练样本，包括：基于随机样本生成策略的方式对音频样本进行处理，得到训练样本。例如，随机截取一段音频样本的任意30s的音频作为训练样本。可选的，所述获取训练样本对应的节拍标签和重拍标签可以是人工标注的。

在一个实施例中，所述预测结果用于指示所述训练样本中哪些位置处是节拍，哪些位置处是重拍，所述基于所述节拍标签、所述重拍标签和所述预测结果对所述节拍检测模型进行优化训练，可以包括：基于节拍标签、重拍标签以及预测结果确定节拍检测模型的损失函数；按照减少所述损失函数的值的方向优化所述节拍检测模型。其中，所述按照减少所述损失函数的值的方向优化节拍检测模型可以包括调整所述节拍检测模型的优化参数。

需要说明的是，节拍检测模型对待检测音频的节拍检测过程与节拍检测模型的训练过程中得到预测结果的步骤类似，此处并不赘述，可以参见下文对于节拍检测模型训练过程的详细说明。

步骤S203、根据节拍和重拍，在待检测音频中添加音效。

其中，为待检测音频添加的音效可以是音频处理设备从预设音频库中获取的；或者，所述音效也可以是用户输入的。

本发明实施例中，音频处理设备获取到待检测音频后，利用预先优化的节拍检测模型对待检测音频进行节拍检测，以获取到待检测音频中的节拍和节拍中的重拍。然后，基于检测到的节拍和重拍，在所述待检测音频中添加音效。应当理解的，利用已经训练好的节拍检测模型对待检测音频进行节拍检测，可提高对节拍和重拍检测的准确性，进一步地根据该节拍和重拍，在待检测音频中添加音效，有利于提高音效的准确性。

基于上述的音频处理方法的实施例，本发明实施例还提供了另一种音频处理方法。参见图4，图4为本发明实施例提供的另一种音频处理方法的流程示意图，图4所示的音频处理方法可由音频处理设备执行，具体可由音频处理设备的处理器执行。图4所示的音频处理方法可包括如下步骤：

步骤S401、获取训练样本，训练样本具有对应的节拍标签和重拍标签。

在一个实施例中，步骤S401中包括的一些可行的实施方式可参见图2实施例中相关步骤的描述，在此不再赘述。

步骤S402、对训练样本进行音频特征提取，得到训练样本的音频特征。

在一个实施例中，所述对训练样本进行音频特征提取，得到训练样本的音频特征，包括：S11：对训练样本进行低通滤波处理，得到低通音频信号；S12：根据预设帧移以及至少一个帧长阈值，将低通音频信号进行分帧处理，得到至少一个分帧音频信号集合，其中不同分帧音频信号集合对应不同帧长阈值，每个分帧音频信号集合中包括至少两个子音频信号，每个子音频信号的帧长等于所属音频信号集合对应的帧长阈值；S13：对至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到每个分帧音频信号集合对应的分音频特征；S14：将所述每个分帧音频信号集合对应的分音频特征进行拼接处理，得到所述训练样本的音频特征。

其中，应当理解的，由于一段音频的节拍和重拍的能量主要集中在低频成分中，为了过滤掉训练样本中不包含节拍和重拍的高频成分，筛除高频部分对节拍检测的影响，需要通过S11对训练样本进行低通滤波处理。可选的，音频处理设备可以采用低通滤波器对训练样本进行低通滤波处理，所述低通滤波器可以包括巴特沃斯滤波器、切比雪夫滤波器中的任意一种或多种，所述低通滤波器的截至频率可以设置为10KHz，也可为15KHz等其他根据实际应用情况而设置的数值。

举例来说，假设训练样本表示为x(t)，将x(t)通过低通滤波器后，得到的低通音频信号为x1(t)，x1(t)＝lowpass(x(t))，lowpass()表示低通滤波处理。

在得到低通音频信号后，通过S12对低通音频信号进行分帧处理。应当理解的是，音频信号是一个非稳态的、时变的信号，但在短时间范围内可以认为语音信号是稳态的、时不变的。这个短时间一般取10-30ms，因此，在对音频信号进行处理时，为减少音频信号整体的非稳态、时变的影响，需对音频信号进行分帧处理。为使每帧音频信号之间平滑过渡，保持其连续性，分帧一般采用交叠分段的方法，保证相邻两帧音频信号相互重叠一部分。相邻两帧音频信号的起始位置的时间差称为帧移，预设帧移可以为10ms。

需要说明的是，分帧处理可以包括多次，不同分帧处理过程使用不同的帧长阈值进行分帧，以得到多个不同的分帧音频信号集合。一种实施方式中，根据预设帧移，将所述低通音频信号进行分帧处理，得到至少一个分帧音频信号集合，包括：可根据预设帧移以及至少一个帧长阈值，将低通音频信号进行不相同帧长阈值的分帧处理，得到至少一个分帧音频信号集合，其中不同分帧音频信号集合对应不同帧长阈值。例如，预设帧移为10ms，根据该预设帧移，将一段帧长为110ms的低通音频信号A分为帧长阈值分别为20ms、40ms、80ms的三个分帧音频信号集合，分别如图5a、5b、5c所示的分帧音频集合a、分帧音频集合b、分帧音频集合c，每个分帧音频集合都包括多个帧长阈值相同的子音频信号，比如，分帧音频集合a中，包括十个帧长阈值为20ms的子音频信号。

在一个实施例中，在S13中对至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取的实施方式相同，为了方便描述，下面以至少一个分帧音频信号集合中任一分帧音频信号集合为例对特征提取过程进行说明。为了便于描述，该任一分帧音频信号集合可以称为目标分帧音频信号集合，则对所述目标分帧音频信号集合进行特征提取，得到所述目标分帧音频信号集合对应的分音频特征的过程，包括：S21：对目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取，得到每个子音频信号对应的子音频特征；S22：将每个子音频信号对应的子音频特征进行拼接处理，得到目标分帧音频信号集合对应的目标分音频特征。

在一个实施例中，在S21中，对目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取的实施方式相同，为了方便描述，下面以目标分帧音频信号集合中的任一子音频信号为例，具体介绍如何对子音频信号进行特征提取，得到相应的子音频特征。为了便于描述，该任一子音频信号可以称为目标子音频信号。

具体实现中，包括：将目标子音频信号进行短时傅里叶变换，得到与目标子音频信号对应的频域信号；将频域信号进行梅尔滤波处理，得到与目标子音频信号对应的梅尔频谱；基于梅尔频谱，获取目标子音频信号的至少一个目标音频特征；将至少一个目标音频特征进行拼接，得到目标子音频信号对应的目标子音频特征。

在一个实施例中，由于目标子音频信号是分帧后的音频信号，帧长较短，可通过对目标子音频信号进行短时傅里叶变换，以实现将时域的音频信号转换为频域的音频信号，即得到与目标子音频信号对应的频域信号。若目标子音频信号表示为x11(t)，则通过短时傅里叶变换后，得到与目标子音频信号对应的频域信号为：stft(x11(t))，其中，stft()表示短时傅里叶变换。

得到频域信号后，为了降低频域信号的维度，音频处理设备可以对频域信号进行梅尔滤波处理，得到目标子音频信号对应的梅尔频谱。人耳对于低频声音的分辨率要高于高频的声音。通过把频率转换成梅尔尺度，音频特征能够更好的匹配人类的听觉感知效果，因此将频域信号通过梅尔滤波处理，得到梅尔频谱。若与目标子音频信号对应的频域信号为表示为stft(x11(t))，则与目标子音频信号对应的梅尔频谱为：mel_scale(stft(x11(t)))，其中，mel_scale()表示梅尔滤波处理。

在一个实施例中，音频处理设备得到梅尔频谱后，进一步基于梅尔频谱，获取目标子音频信号的至少一个目标音频特征。具体实现中，可包括：对梅尔频谱进行处理，得到目标子音频信号的至少一个目标音频特征。其中，至少一个目标音频特征包括第一特征、第二特征、第三特征以及第四特征中的任意一种或多种；第一特征是对梅尔频谱进行取对数处理得到的，第二特征是对第一特征进行差分处理得到的，第三特征是对梅尔频谱进行离散余弦处理得到的，第四特征是对第三特征进行差分处理得到的。

也就是说，音频处理设备对梅尔频谱取对数，得到第一特征。比如，第一特征为X(t)＝log(mel_scale(stft(x11(t))))，log()表示取对数处理；音频处理设备对第一特征进行差分处理，得到第二特征，差分处理可以为一阶差分处理，也可以为二阶差分处理，等等。例如，音频处理设备对上述的第一特征X(t)进行一阶差分处理，得到第二特征为：delta_X(t)，delta_()表示进行一阶差分处理；音频处理设备对梅尔频谱进行离散余弦处理，可得到第三特征，为梅尔频谱倒谱系数MFCC；音频处理设备对梅尔频谱倒谱系数进行差分处理，可得到第四特征，该差分处理也可以为一阶差分处理，也可以为二阶差分处理，等等。例如，音频处理设备对MFCC进行一阶差分处理，得到第四特征为：delta_MFCC。

在一个实施例中，所述将至少一个目标音频特征进行拼接，得到目标子音频信号的目标子音频特征，包括：将第一特征、第二特征、第三特征以及第四特征进行拼接，将拼接后的音频特征确定为目标子音频信号的目标子音频特征。例如，第一特征、第二特征、第三特征以及第四特征表示如上述，则目标子音频信号对应的目标子音频特征表示为：v＝[X(t)，delta_X(t)，MFCC，delta_MFCC]。

另一种实施方式中，所述将至少一个目标音频特征进行拼接，得到目标子音频信号的目标子音频特征，包括：将第一特征、第二特征、第三特征以及第四特征中的任意一种特征确定为目标子音频信号对应的目标子音频特征。例如，将第三特征作为目标子音频信号对应的目标子音频特征，即v＝MFCC。

又一种实施方式中，所述将至少一个目标音频特征进行拼接，得到目标子音频信号对应的目标子音频特征，包括：将第一特征、第二特征、第三特征以及第四特征中的任意两种特征进行拼接，将拼接后的特征确定为目标子音频信号对应的目标子音频特征。例如，音频处理设备将上述第一特征和第三特征进行拼接，得到目标子音频信号对应的目标子音频特征，即v＝[X(t)，MFCC]，将v确定为目标子音频特征。

又一种实施方式中，所述将至少一个目标音频特征进行拼接，得到目标子音频信号对应的目标子音频特征，包括：将第一特征、第二特征、第三特征以及第四特征中的任意三种特征进行拼接，将拼接后的特征确定为目标子音频信号对应的目标子音频特征。例如，音频处理设备将上述的第一特征、第三特征、第四特征进行拼接后，得到目标子音频对应的目标子音频特征，即v＝[X(t)，MFCC，delta_MFCC]。

通过上述对目标子音频信号进行特征提取的相同方法，对目标分帧音频信号集合中的每个子音频信号进行特征提取，将各个子音频信号对应的子音频特征拼接后获得目标分帧音频信号集合对应的目标分音频特征，可以理解的是，目标分音频特征即上述步骤S13中的任何一个分帧音频信号集合对应的分音频特征。进一步的，通过上述S14将每个分帧音频信号集合对应的分音频特征进行拼接处理，得到训练样本的音频特征。例如，音频处理设备将训练样本A分为了三个分帧音频集合，分别为分帧音频集合a、分帧音频集合b、分帧音频集合c，三个分帧音频信号集合对应的分音频特征分别为v1、v2、v3，则训练样本A的音频特征为F＝[v1，v2，v3]，也就是说，训练样本A的音频特征包括了分帧音频集合a、分帧音频集合b、分帧音频集合c的分音频特征。

音频处理设备对节拍检测模型的训练目的在于，通过对已标记有节拍和重拍的训练样本进行训练，以使得节拍检测模型检测的结果更接近训练样本中已标记的节拍和重拍。音频处理设备在对训练样本进行训练时，节拍检测模型可以是神经网络，神经网络又可以是卷积神经网络，也就是说，可以是卷积神经网络对训练样本进行训练。

S403、调用节拍检测模型对音频特征进行检测，得到预测结果。

在一个实施例中，节拍检测模型包括处理单元和分类器，音频处理设备调用节拍检测模型对音频特征进行检测，得到预测结果的实施方式，可包括步骤：S31：将训练样本的音频特征经过处理单元的堆叠处理后，得到输出特征，输出特征为与训练样本的音频特征等长的时间序列数据；S32：将输出特征输入至分类器中，以使输出特征沿时间序列将每一帧的输出特征映射到每个时间点上，得到每个时间点对应的预测结果以及预测结果的概率。

在S31中，所述处理单元包括多个卷积层，比如9个或者8个。所述处理单元对训练样本的音频特征进行堆叠处理，包括：使用处理单元中的多个卷积层对训练样本的音频特征进行堆叠处理。假设节拍检测模型包括res-gcnn(residual gated 1D Convolutionneural network with dilation，带残差的膨胀的门控一维卷积神经网络)，多个卷积层可以包括res-gcnn中的膨胀卷积。

示例性的，参见图6，图6是本发明实施例提供的一种利用节拍检测模型对训练样本的音频特征进行检测的示意图。在图6中，601表示训练样本的音频特征，602表示节拍检测模型，6021表示处理单元，6021中可包括9个带残差的膨胀卷积层，当处理单元使用9个卷积层对训练样本的音频特征进行堆叠处理时，其膨胀系数为2的指数倍，分别为1，2，4，…，128，256。音频处理设备使用多个res-gcnn可以更好地学习训练样本的全局性，捕获节拍的相关性。

示例性的，膨胀卷积层对训练样本的音频特征进行堆叠处理的示意图可参见图7，图7中包括两个一维膨胀卷积层，两个一维膨胀卷积层分别对训练样本的音频特征进行卷积处理，得到两个卷积结果，其中一个卷积结果再通过sigmoid函数处理，得到在0-1范围的处理结果，将该处理结果和未经过sigmoid函数处理的卷积结果进行柔和处理，得到训练样本的输出特征。

在一个实施例中，所述节拍检测模型还包括至少一个网络层，如图6中6022所示，所述网络层可以为TimeDistributed网络层。在S32中，将输出特征输入到分类器之前，通过至少一个网络层沿着时间轴将每一帧的输出特征进行计算。例如，在图6中，网络层包括网络层(128)，网络层(3)，图6中的网络层()表示TimeDistributed网络层，即网络层(128)，网络层(3)分别沿着时间轴将每一帧的输出特征进行计算，将每一帧的输出特征映射到一个时间点上，得到多个时间点对应的输出特征。

在S32中，将输出特征输入至分类器中，以使输出特征沿时间序列将每一帧的输出特征映射到每个时间点上，得到每个时间点对应的预测结果以及预测结果的概率，预测结果为节拍和重拍，预测结果的概率为0-1之间。

示例性的，如图6所示，6023为节拍检测模型包括的分类器，分类器对S31得到的输出特征进行处理，得到603所示的预测结果，在603中，横轴表示时间点，纵轴表示概率，虚线表示节拍，实现表示重拍，可见该预测结果中包含了节拍和重拍分别对应的概率值。

S404、基于节拍标签、重拍标签和预测结果对节拍检测模型进行优化训练，得到优化后的节拍检测模型。

在一个实施例中，所述基于节拍标签、重拍标签和预测结果对节拍检测模型进行优化训练，得到优化后的节拍检测模型，包括：基于预测结果、预测结果的概率、节拍标签以及重拍标签，确定节拍检测模型的损失函数；按照减少损失函数的值的方向优化节拍检测模型。

音频处理设备基于预测结果、预测结果的概率、节拍标签以及重拍标签，确定节拍检测模型的损失函数，包括：音频处理设备将节拍标签、重拍标签对应的节拍和重拍与预测结果中包括的节拍、重拍以及对应的概率进行计算，确定两者之间的损失函数，该损失函数即为节拍检测模型的损失函数，该损失函数表征的是节拍检测模型对训练样本的预测结果的偏差值。

一种实施方式中，音频处理设备按照减少损失函数的值的方向优化节拍检测模型，包括：音频处理设备采用损失函数计算预设个损失值；音频处理设备从k个损失值中，选取损失值小于第一阈值的m个损失值，m为正整数；音频处理设备利用选取的m个损失值对目标网络模型的网络参数进行更新，音频处理设备可对m个损失值求平均得到平均值后，将该平均值回传给节拍检测模型，以调整节拍检测模型的网络参数，达到优化该节拍检测模型的目的。

该方式中，音频处理设备基于节拍标签、重拍标签和预测结果对节拍检测模型进行优化训练的目的在于，使得优化后的节拍检测模型对训练样本的检测结果更加准确，从而后续对待检测音频的节拍检测结果也更为准确。

步骤S405、获取待检测音频。

步骤S406、对待检测音频进行音频特征提取，得到待检测音频的音频特征。

步骤S407、利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和节拍包括的重拍。

在一个实施例中，步骤S405至步骤S407中包括的一些实施例方式可参见图2实施例中相关步骤的描述，在此不再赘述。

步骤S408、根据节拍和重拍，在待检测音频中添加音效。

在一个实施例中，所述根据节拍和重拍，在待检测音频中添加音效，包括：根据节拍和重拍，确定节拍中包括的弱拍；根据所述弱拍，从第一音频库中确定第一待添加音频，以及根据所述重拍，从第二音频库中确定第二待添加音频；在所述弱拍处添加所述第一待添加音频，以及在所述重拍处添加所述第二待添加音频。

其中，节拍由重拍和弱拍组成，音频处理设备在确定出待检测音频的节拍和重拍后，可确定出待检测音频的弱拍，即弱拍为节拍中除开重拍的拍子。例如，在待检测样本A中，a点、b点、c点、d点为待检测音频的节拍，a点和c点为待检测音频的重拍，则终端设备可确定待检测音频中的b点和d点为弱拍。

第一音频库、第二音频库均为音频处理设备预设的音频库，且第一音频库为与弱拍相对应的音频库，第二音频库为与重拍向对应的音频库，第一音频库包括的音频为节拍较弱的音频，第二音频库包括的音频为节拍较强的音频。也就是说，音频处理设备可在第一音频库中选取在弱拍处添加的第一待添加音频，以及可在第二音频库中选取在重拍处添加的第二待添加音频。

因此，音频处理设备可分别根据在弱拍和重拍处确定的待添加音频，在弱拍处和重拍处进行音频的添加，从而完成音效的添加。

该方式中，音频处理设备在确定出待检测音频的节拍和重拍后，也确定出了待检测音频的弱拍，从而根据所述弱拍和重拍，分别确定两者处需要添加的待添加音频，进而针对性的在待检测音频的弱拍和重拍处添加确定的音频。该方式有针对性的在若拍处和重拍处添加了对应的音频，有利于提高音效的准确性和丰富性。

在其他实施例中，所述根据节拍和重拍，在待检测音频中添加音效，包括：根据节拍和重拍，确定节拍中包括的弱拍；音频处理设备接收对目标音效模式的触控指令，目标音效模式为预设音效模式中的任一音效模式；音频处理设备根据目标音效模式，从第三音频库中获取预设数量个目标音频；音频处理设备接收对第三待添加音频的触控指令，第三待添加音频为目标音频中的一个或多个音频；音频处理设备根据节拍和重拍，在待检测音频中添加第三待添加音频。

其中，音效模式为音频处理设备预先设置的，音频处理设备在接收到用户需要进行音效添加的指令时，可将预设的音效模式显示给用户，用户在预设的音效模式中选择目标音效模式，即音频处理设备接收对目标音效模式的触控指令，目标音效模式为预设音效模式中的任一音效模式。例如，预设音效模式包括古典音乐模式、流行音乐模式、摇滚乐模式、以及爵士乐模式，用户想要在待检测音频中添加流行音乐模式的音频，则音频处理设备接收流行音乐模式的触控指令，即目标音效模式为流行音乐模式。

第三音频库为预设的音频库，该音频库中包括各个音效模式对应的音频，目标音频为与目标音效模式对应的音频。例如，目标音效模式为流行音乐模式，则音频处理设备从第三音频库中获取预设数量和流行音乐，所述流行音乐即为目标音频。

第三待添加音频为用户从目标音频中选取的一个或多个待添加音频，即音频处理设备会接收对第三待添加音频的触控指令。

一种实施方式中，根据节拍和重拍，在待检测音频中添加第三待添加音频，包括：音频处理设备接收拖动操作，该拖动操作用于在一个弱拍或重拍处添加一个第三待添加音频。

该实施方式中，音频处理设备可根据用户选定的第三待添加音频，在用户指定的弱拍或重拍处添加第三待添加音频，该方式可根据用户的需求进行针对性地添加，有利于达到用户想要的音效。

可见，本申请实施例将训练样本分成至少一个分帧音频信号集合，并对至少一个分帧音频信号集合中的每个分帧音频信号集合进行音频特征的提取，得到训练样本的音频特征，然后调用节拍检测模型对音频特征进行检测，得到预测结果，最后将预测结果与训练样本中通过节拍标签和重拍标签确定的节拍和重拍进行对比，根据对比结果对节拍检测模型进行优化，得到优化后的节拍检测模型，利用优化后的节拍检测模型对音频特征进行检测，使得检测结果更接近真实结果，有利于提高对节拍检测的准确性，进而提高在音频中添加音效的准确性。

请参见图8，图8是本发明实施例提供的一种音频处理装置的结构示意图，所述音频处理装置可以设置在音频处理设备中，所述音频处理装置80可以包括：

获取单元801，用于获取待检测音频；

处理单元802，用于对待检测音频进行音频特征提取，得到待检测音频的音频特征；

处理单元802，还用于利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和节拍包括的重拍，其中所述节拍检测模型是基于训练样本以及所述训练样本对应的节拍标签和重拍标签训练得到的；

处理单元802，还用于根据节拍和重拍，在待检测音频中添加音效。

在一种实施方式中，获取单元801，还用于获取训练样本，训练样本具有对应的节拍标签和重拍标签；处理单元802，还用于对训练样本进行音频特征提取，得到训练样本的音频特征；处理单元802，还用于调用节拍检测模型对音频特征进行检测，得到预测结果；处理单元802，还用于基于节拍标签、重拍标签和预测结果对节拍检测模型进行优化训练。

在一种实施方式中，处理单元802在对训练样本进行音频特征提取，得到训练样本的音频特征时，执行如下步骤：将所述训练样本进行低通滤波处理，得到低通音频信号；根据预设帧移以及至少一个帧长阈值，将所述低通音频信号进行分帧处理，得到至少一个分帧音频信号集合，其中不同分帧音频信号集合对应不同帧长阈值，所述每个分帧音频信号集合中包括至少两个子音频信号，每个子音频信号的帧长等于所属音频信号集合对应的帧长阈值，各个分帧音频信号集合对应的帧长阈值不相同；对所述至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到所述每个分帧音频信号集合对应的分音频特征；将所述每个分帧音频信号集合对应的分音频特征进行拼接处理，得到所述训练样本的音频特征。

在一种实施方式中，处理单元802对至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到所述每个分帧音频信号集合对应的分音频特征时，执行如下步骤：对所述至少一个分帧音频信号集合中的目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取，得到所述每个子音频信号对应的子音频特征，其中所述目标分帧音频信号集合为所述至少一个分帧音频信号集合中的任一分帧音频信号集合；将所述每个子音频信号对应的子音频特征进行拼接处理，得到所述目标分帧音频信号集合对应的目标分音频特征。

在一种实施方式中，处理单元802对所述至少一个分帧音频信号集合中的目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取，得到所述每个子音频信号对应的子音频特征时，执行如下步骤：将所述目标分帧音频信号集合中的每个子音频信号中的目标子音频信号进行短时傅里叶变换，得到与所述目标子音频信号对应的频域信号，其中所述目标子音频信号为多个所述子音频信号中的任一子音频信号；将所述频域信号进行梅尔滤波处理，得到与所述目标子音频信号对应的梅尔频谱；基于所述梅尔频谱，获取所述目标子音频信号的至少一个目标音频特征；将所述至少一个目标音频特征进行拼接，得到所述目标子音频信号对应的目标子音频特征。

在一种实施方式中，至少一个目标子音频特征包括第一特征、第二特征、第三特征以及第四特征中的任意一种或多种；所述第一特征是对所述梅尔频谱进行取对数处理得到的，所述第二特征是对所述第一特征进行差分处理得到的，所述第三特征是对所述梅尔频谱进行离散余弦处理得到的，所述第四特征是对所述第三特征进行差分处理得到的。

在一种实施方式中，节拍检测模型包括处理单元和分类器，处理单元802调用节拍检测模型对音频特征进行检测，得到预测结果，包括：将训练样本的音频特征经过处理单元的堆叠处理后，得到输出特征，输出特征为与训练样本的音频特征等长的时间序列数据；将输出特征输入至分类器中，以使输出特征沿时间序列将每一帧的输出特征映射到每个时间点上，得到每个时间点对应的预测结果，以及预测结果的概率，预测结果包括预测节拍和预测重拍；处理单元802基于节拍标签、重拍标签和预测结果对节拍检测模型进行优化训练，包括：基于预测结果、预测结果的概率、节拍标签以及重拍标签，确定节拍检测模型的损失函数；按照减少损失函数的值的方向优化节拍检测模型。

在一种实施方式中，处理单元802在根据节拍和重拍，在待检测音频中添加音效时，执行如下步骤：根据节拍和重拍，确定节拍中包括的弱拍；根据弱拍，从第一音频库中确定第一待添加音频，以及根据重拍，从第二音频库中确定第二待添加音频；在弱拍处添加第一待添加音频，以及在重拍处添加第二待添加音频。

在一种实施方式中，处理单元802在利用节拍检测模型对待检测音频进行节拍检测，以获取待检测音频的节拍和节拍包括的重拍时，执行如下操作：利用节拍检测模型对待检测音频进行节拍检测，获得待检测音频的检测结果和检测结果的概率；对检测结果和检测结果的概率进行后处理，得到待检测音频的节拍和节拍包括的重拍。

根据本发明的一个实施例，图2和图4所示的音频处理方法所涉及各个步骤可以是由图8所示的音频处理装置中的各个单元来执行的。

根据本发明的另一个实施例，图2所示的音频处理方法中，步骤S201可由图8所示音频处理装置中的获取单元801来执行，图2所述的步骤S202、S203、S204可由图8所示的音频处理装置中的处理单元单元802来执行；再如，图4所示的音频处理方法中，步骤S401和步骤S405可由图8所示的音频处理装置中获取单元801来执行，步骤S402至步骤S404以及步骤S406至步骤S408可由图8所示的音频处理装置中处理单元802来执行。各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的音频处理装置，以及来实现本发明实施例音频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。

本发明实施例中，音频处理设备获取到待检测音频后，对该待检测音频进行音频特征提取，得到待检测音频的音频特征，再利用预先优化的节拍检测模型对待检测音频的音频特征进行节拍检测，以获取到待检测音频中的节拍和节拍中的重拍。然后，基于检测到的节拍和重拍，在所述待检测音频中添加音效。应当理解的，利用已经训练好的节拍检测模型对待检测音频的音频特征进行节拍检测，可提高对节拍和重拍检测的准确性，进一步地根据该节拍和重拍，在待检测音频中添加音效，有利于提高音效的准确性。

请参见图9，图9是本发明实施例的一种音频处理设备的结构示意图，本发明实施例的音频处理设备可以是智能手机、个人电脑、平板电脑、服务器甚至智能手机等设备，该音频处理设备90可以包括处理器901、输入接口902、输出接口903以及计算机存储介质904。其中，处理器901、输入接口902、输出接口903以及计算机存储介质904可通过总线或其他方式连接。

计算机存储介质904可以存储在音频处理设备的存储器中，所述计算机存储介质904用于存储计算机程序，所述计算机程序包括程序指令，所述处理器901用于执行所述计算机存储介质904存储的程序指令。处理器901(或称CPU(Central Processing Unit，中央处理器))是音频处理设备的计算核心以及控制核心，其适于实现一条或多条指令具体适于加载并执行：获取待检测音频：对待检测音频进行音频特征提取，得到待检测音频的音频特征；利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和节拍包括的重拍，其中节拍检测模型是基于训练样本以及训练样本对应的节拍标签和重拍标签训练得到的；根据节拍和所述重拍，在待检测音频中添加音效。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是音频处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括音频处理设备中的内置存储介质，当然也可以包括音频处理设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了音频处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，所述计算机存储介质可由处理器901加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2和图4所示的音频处理方法的相应步骤。具体实现中，计算机存储介质中的一条或多条指令由处理器901加载并执行如下步骤：获取待检测音频：对待检测音频进行音频特征提取，得到待检测音频的音频特征；利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和节拍包括的重拍，其中所述节拍检测模型是基于训练样本以及所述训练样本对应的节拍标签和重拍标签训练得到的；根据节拍和所述重拍，在待检测音频中添加音效。

在一种实施方式中，所述处理器901具体执行以下步骤：获取训练样本，训练样本具有对应的节拍标签和重拍标签；对训练样本进行音频特征提取，得到训练样本的音频特征；调用节拍检测模型对音频特征进行检测，得到预测结果；基于节拍标签、重拍标签和预测结果对节拍检测模型进行优化训练。

在一种实施方式中，所述处理器901在对所述训练样本进行音频特征提取，得到所述训练样本的音频特征时，执行如下步骤：将所述训练样本进行低通滤波处理，得到低通音频信号；根据预设帧移以及至少一个帧长阈值，将所述低通音频信号进行分帧处理，得到至少一个分帧音频信号集合，不同分帧音频信号集合对应不同帧长阈值，所述每个分帧音频信号集合中包括至少两个子音频信号，每个子音频信号的帧长等于所属音频信号集合对应的帧长阈值，各个分帧音频信号集合对应的帧长阈值不相同；对所述至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到所述每个分帧音频信号集合对应的分音频特征；将所述每个分帧音频信号集合对应的分音频特征进行拼接处理，得到所述训练样本的音频特征。

在一种实施方式中，所述处理器901对至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到所述每个分帧音频信号集合对应的分音频特征时，执行如下步骤：对所述至少一个分帧音频信号集合中的目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取，得到所述每个子音频信号对应的子音频特征，其中所述目标分帧音频信号集合为所述至少一个分帧音频信号集合中的任一分帧音频信号集合；将所述每个子音频信号对应的子音频特征进行拼接处理，得到所述目标分帧音频信号集合对应的目标分音频特征。

在一种实施方式中，所述处理器901对所述至少一个分帧音频信号集合中的目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取，得到所述每个子音频信号对应的子音频特征时，执行如下步骤：将所述目标分帧音频信号集合中的每个子音频信号中的目标子音频信号进行短时傅里叶变换，得到与所述目标子音频信号对应的频域信号，其中所述目标子音频信号为多个所述子音频信号中的任一子音频信；将所述频域信号进行梅尔滤波处理，得到与所述目标子音频信号对应的梅尔频谱；基于所述梅尔频谱，获取所述目标子音频信号的至少一个目标音频特征；将所述至少一个目标音频特征进行拼接，得到所述目标子音频信号对应的目标子音频特征。

在一种实施方式中，所述处理器901节拍检测模型包括处理单元和分类器，所述调用所述节拍检测模型对所述音频特征进行检测，得到预测结果，具体执行如下步骤：将所述训练样本的音频特征经过处理单元的堆叠处理后，得到输出特征，所述输出特征为与所述训练样本的音频特征等长的时间序列数据；将所述输出特征输入至所述分类器中，以使所述输出特征沿时间序列将每一帧的输出特征映射到每个时间点上，得到所述每个时间点对应的预测结果，以及预测结果的概率，所述预测结果包括预测节拍和预测重拍；

在一种实施方式中，所述处理器901基于所述节拍标签、所述重拍标签和所述预测结果对所述节拍检测模型进行优化训练时，执行如下步骤：基于所述预测结果、所述预测结果的概率、所述节拍标签以及所述重拍标签，确定所述节拍检测模型的损失函数；按照减少所述损失函数的值的方向优化所述节拍检测模型。

在一种实施方式中，所述处理器901根据所述节拍和所述重拍，在所述待检测音频中添加音效时，执行如下步骤：根据所述节拍和所述重拍，确定所述节拍中包括的弱拍；根据所述弱拍，从第一音频库中确定第一待添加音频，以及根据所述重拍，从第二音频库中确定第二待添加音频；在所述弱拍处添加所述第一待添加音频，以及在所述重拍处添加所述第二待添加音频。

在一种实施方式中，所述处理器901利用节拍检测模型对所述待检测音频进行节拍检测，以获取所述待检测音频的节拍和所述节拍包括的重拍时，执行如下步骤：利用节拍检测模型对所述待检测音频进行节拍检测，获得所述待检测音频的检测结果和所述检测结果的概率；对所述检测结果和所述检测结果的概率进行后处理，得到所述待检测音频的节拍和所述节拍包括的重拍。

本发明实施例中，音频处理设备获取到待检测音频后，利用预先优化的节拍检测模型对待检测音频的音频特征进行节拍检测，以获取到待检测音频中的节拍和节拍中的重拍。然后，基于检测到的节拍和重拍，在所述待检测音频中添加音效。应当理解的，利用已经训练好的节拍检测模型对待检测音频进行节拍检测，可提高对节拍和重拍检测的准确性，进一步地根据该节拍和重拍，在待检测音频中添加音效，有利于提高音效的准确性。

根据本申请的一个方面，本发明实施例还提供了一种计算机产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。处理器901从计算机可读存储介质读取该计算机指令，处理器901执行该计算机指令，使得该音频处理设备执行图2和图4所示的音频处理方法，具体地：获取待检测音频：对待检测音频进行音频特征提取，得到待检测音频的音频特征；利用节拍检测模型对待检测音频的音频特征进行节拍检测，获得待检测音频的节拍和节拍包括的重拍，其中节拍检测模型是基于训练样本以及训练样本对应的节拍标签和重拍标签训练得到的；根据节拍和所述重拍，在待检测音频中添加音效。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的部分实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取待检测音频；

根据所述节拍和所述重拍，在所述待检测音频中添加音效。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述训练样本，所述训练样本具有对应的节拍标签和重拍标签；

对所述训练样本进行音频特征提取，得到所述训练样本的音频特征；

调用所述节拍检测模型对所述音频特征进行检测，得到预测结果；

基于所述节拍标签、所述重拍标签和所述预测结果对所述节拍检测模型进行优化训练。

3.根据权利要求2所述的方法，其特征在于，所述对所述训练样本进行音频特征提取，得到所述训练样本的音频特征，包括：

将所述训练样本进行低通滤波处理，得到低通音频信号；

根据预设帧移以及至少一个帧长阈值，将所述低通音频信号进行分帧处理，得到至少一个分帧音频信号集合，其中不同分帧音频信号集合对应不同帧长阈值，所述每个分帧音频信号集合中包括至少两个子音频信号，每个子音频信号的帧长等于所属音频信号集合对应的帧长阈值；

对所述至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到所述每个分帧音频信号集合对应的分音频特征；

将所述每个分帧音频信号集合对应的分音频特征进行拼接处理，得到所述训练样本的音频特征。

4.根据权利要求3所述的方法，其特征在于，所述对至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取，得到所述每个分帧音频信号集合对应的分音频特征，包括：

对所述至少一个分帧音频信号集合中的目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取，得到所述每个子音频信号对应的子音频特征，其中所述目标分帧音频信号集合为所述至少一个分帧音频信号集合中的任一分帧音频信号集合；

将所述每个子音频信号对应的子音频特征进行拼接处理，得到所述目标分帧音频信号集合对应的目标分音频特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述至少一个分帧音频信号集合中的目标分帧音频信号集合中的每个子音频信号分别进行音频特征提取，得到所述每个子音频信号对应的子音频特征，包括：

将所述目标分帧音频信号集合中的每个子音频信号中的目标子音频信号进行短时傅里叶变换，得到与所述目标子音频信号对应的频域信号，其中所述目标子音频信号为多个所述子音频信号中的任一子音频信号；

将所述频域信号进行梅尔滤波处理，得到与所述目标子音频信号对应的梅尔频谱；

基于所述梅尔频谱，获取所述目标子音频信号的至少一个目标音频特征；

将所述至少一个目标音频特征进行拼接，得到所述目标子音频信号对应的目标子音频特征。

6.如权利要求5所述的方法，其特征在于，所述至少一个目标子音频特征包括第一特征、第二特征、第三特征以及第四特征中的任意一种或多种；所述第一特征是对所述梅尔频谱进行取对数处理得到的，所述第二特征是对所述第一特征进行差分处理得到的，所述第三特征是对所述梅尔频谱进行离散余弦处理得到的，所述第四特征是对所述第三特征进行差分处理得到的。

7.根据权利要求2至6任一所述的方法，其特征在于，所述节拍检测模型包括处理单元和分类器，所述调用所述节拍检测模型对所述音频特征进行检测，得到预测结果，包括：

将所述训练样本的音频特征经过处理单元的堆叠处理后，得到输出特征，所述输出特征为与所述训练样本的音频特征等长的时间序列数据；

将所述输出特征输入至所述分类器中，以使所述输出特征沿时间序列将每一帧的输出特征映射到每个时间点上，得到所述每个时间点对应的预测结果以及预测结果的概率，所述预测结果包括预测节拍和预测重拍；

所述基于所述节拍标签、所述重拍标签和所述预测结果对所述节拍检测模型进行优化训练，包括：

基于所述预测结果、所述预测结果的概率、所述节拍标签以及所述重拍标签，确定所述节拍检测模型的损失函数；

按照减少所述损失函数的值的方向优化所述节拍检测模型。

8.根据权利要求1所述的方法，其特征在于，所述根据所述节拍和所述重拍，在所述待检测音频中添加音效，包括：

根据所述节拍和所述重拍，确定所述节拍中包括的弱拍；

根据所述弱拍，从第一音频库中确定第一待添加音频，以及根据所述重拍，从第二音频库中确定第二待添加音频；

在所述弱拍处添加所述第一待添加音频，以及在所述重拍处添加所述第二待添加音频。

9.根据权利要求1所述的方法，其特征在于，所述利用节拍检测模型对所述待检测音频进行节拍检测，以获取所述待检测音频的节拍和所述节拍包括的重拍，包括：

利用节拍检测模型对所述待检测音频进行节拍检测，获得所述待检测音频的检测结果和所述检测结果的概率；

对所述检测结果和所述检测结果的概率进行后处理，得到所述待检测音频的节拍和所述节拍包括的重拍。

10.一种音频处理设备，其特征在于，所述音频处理设备包括：

处理器，适于实现一条或多条指令；以及

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-9任一项所述的音频处理方法。