CN104091595B

CN104091595B - 一种音频处理方法及装置

Info

Publication number: CN104091595B
Application number: CN201310482804.5A
Authority: CN
Inventors: 赵伟峰; 李深远
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2013-10-15
Filing date: 2013-10-15
Publication date: 2017-02-15
Anticipated expiration: 2033-10-15
Also published as: CN104091595A

Abstract

本发明实施例提供了一种音频处理方法及装置，其中的方法可包括：从待处理的音频文件中选取区间音频数据；构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和Pitch序列；根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。本发明可以对音频文件进行副歌定位，提升音频处理的智能性。

Description

一种音频处理方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及音频处理技术领域，尤其涉及一种音频处理方法及装置。

背景技术

副歌，通常指音频文件（如歌曲、音乐等等）的高潮部分。以歌曲为例，一首歌曲通常采用AA’BA’Form（音乐结构），A代表主歌，而B代表副歌；也即时说，通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。副歌定位对音频文件的分析和处理起着重要作用，因此，如何在音频文件中进行副歌定位，成为音频处理领域的一个亟待解决的重要问题。

发明内容

本发明实施例提供一种音频处理方法及装置，可以对音频文件进行副歌定位，提升音频处理的智能性。

本发明第一方面提供一种音频处理方法，可包括：

从待处理的音频文件中选取区间音频数据；

构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和Pitch（音高）序列；

根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

本发明第二方面提供一种音频处理装置，可包括：

选取模块，用于从待处理的音频文件中选取区间音频数据；

构建模块，用于构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和Pitch序列；

定位模块，用于根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

实施本发明实施例，具有如下有益效果：

本发明实施例可从待处理的音频文件中选取区间音频数据，构建区间音频数据的特征参数序列，以实现音频文件的副歌定位，提升了音频处理的智能性；另外，由于仅需要从音频文件中选取区间音频数据进行音频处理，可有效提升音频处理的效率，进一步提升音频处理的智能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频处理方法的流程图；

图2为本发明实施例提供的图1所示的步骤S101的实施例的流程图；

图3为本发明实施例提供的图1所示的步骤S102的实施例的部分流程图；

图4为本发明实施例提供的图1所示的步骤S102的实施例的另一部分流程图；

图5为本发明实施例提供的图1所示的步骤S103的实施例的流程图；

图6为本发明实施例提供的一种音频处理装置的结构示意图；

图7为本发明实施例提供的选取模块的实施例的结构示意图；

图8为本发明实施例提供的构建模块的实施例的部分结构示意图；

图9为本发明实施例提供的构建模块的实施例的另一部分结构示意图；

图10为本发明实施例提供的预处理单元的实施例的结构示意图；

图11为本发明实施例提供的定位模块的实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段、音乐、音乐片段、演奏乐、演奏乐片段、哼唱歌曲、哼唱歌曲片段等文件。本发明实施例的音频处理方案可以应用于互联网领域的多个场景中，例如：可以应用于对互联网音频库中的音频文件进行分析处理的场景，包括：可应用于主音查找的场景中进行副歌的快速定位和准确提取，也可应用于哼唱搜索的场景中进行副歌的快速定位和准确提取，还可应用于乐曲识别的场景中进行副歌的快速定位和准确提取等等；或者，可以应用于对互联网音频库中的音频文件进行试听的场景，包括：可提供副歌进行在线播放或音乐下载前的试听；或者，可以应用于彩铃下载或试听场景，包括：快速定位和准确提取副歌，将副歌作为彩铃提供给用户进行下载或试听，等等。

下面将结合附图1-附图5，对本发明实施例提供的音频处理方法进行详细介绍。需要说明的是，附图1-附图5所示的音频处理方法可以由本发明实施例提供的音频处理装置所执行，该音频处理装置可运行于终端设备或服务器中，其中，终端设备可包括但不限于：PC（Personal Computer，个人计算机）、PAD（平板电脑）、手机、智能手机、笔记本电脑等设备。

请参见图1，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S101-步骤S103。

S101，从待处理的音频文件中选取区间音频数据。

本发明实施例中，区间音频数据指从音频文件中所选取的、某个时长区间范围所确定的音频数据，例如：假设音频文件的时长为T，[T/5，3T/5]的时长区间范围可确定一个区间音频数据，[T/2，T]的时长区间范围又可确定另一个区间音频数据，等等。本步骤中，可根据实际情况从音频文件中选取合理的区间音频数据，例如：根据对大量音频文件的统计数据，从音频文件中选取区间音频数据；或者根据对音频文件进行分析处理获得的实验数据，从音频文件中选取区间音频数据。

S102，构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和Pitch序列。

Pitch指各种不同高低的声音，即音的高度，音的基本特征的一种。一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，该区间音频数据的每帧音频帧信号均具备能量和Pitch值。本步骤中，可以对该区间音频数据的每一帧音频帧信号进行能量计算，获得该区间音频数据的每一帧音频帧信号的能量，从而构建该区间音频数据的能量序列；可以对该区间音频数据的每一帧音频帧信号进行Pitch检测，获得该区间音频数据的每一帧音频帧信号的Pitch值，从而构建该区间音频数据的Pitch序列。

S103，根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

副歌，通常指音频文件的高潮部分。以歌曲为例，一首歌曲通常采用AA’BA’Form，A代表主歌，而B代表副歌；也即时说，通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。本步骤可基于所选取的区间音频数据的特征参数序列，定位音频文件的副歌。

下面将结合附图2-附图5，对图1所示的音频处理方法中的各步骤进行详细介绍。

请参见图2，为本发明实施例提供的图1所示的步骤S101的实施例的流程图；该步骤S101可包括以下步骤s1101-步骤s1103。

s1101，获取所述待处理的音频文件的时长。本实施例可假设音频文件的时长为T，即所述音频文件的时长区间为[0，T]。

s1102，按照预设的时间比范围，计算所选取的时长区间。

时间比范围可表示为[R_L，R_H]，其中R_L和R_H分别代表时间占比，[R_L，R_H]的取值为[0，1]，且R_L<R_H。时间比范围[R_L，R_H]可以根据实际情况进行设定，例如：时间比范围可根据对大量音频文件的统计数据进行设定；或者时间比范围可根据对音频文件进行分析处理获得的实验数据进行设定。假设预设的时间比范围为[1/5，3/5]，即R_L=1/5，R_H=3/5，本步骤计算获得所选取的时长区间则为[T/5，3T/5]。

s1103，根据所述时长区间，从所述音频文件中选取区间音频数据。

参照步骤s1102所示例子，本步骤可从音频文件中选取[T/5，3T/5]这一时长区间所确定的区间音频数据。

下面将结合图3-图4，对图1所示的步骤S102进行详细介绍。需要说明的是，该步骤S102由两个构建过程组成，其中一个构建过程为“构建所述区间音频数据的能量序列”的过程，该构建过程具体可参见下述图3所示实施例的描述；另一个构建过程为“构建所述区间音频数据的Pitch序列”的过程，该构建过程具体可参见下述图4所示实施例的描述。

请参见图3，为本发明实施例提供的图1所示的步骤S102的实施例的部分流程图；该步骤S102可包括以下步骤s1201-步骤s1203。

s1201，对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号。

一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，本步骤中，假设该区间音频数据包含的任一帧音频帧信号可表示为x_i(n)，每帧音频帧信号的帧长为T_s，进行分帧处理可获得的音频帧信号的数量为FN。其中，i表示该区间音频数据中该帧音频帧信号的顺序，i为正整数且i＝1,2,...FN-1；n为正整数且n＝0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。

s1202，计算所述至少一帧音频帧信号中的各帧音频帧信号的能量。

本步骤可基于下述（1）所示的能量公式，计算FN帧音频帧信号中的各帧音频帧信号的能量。

上述（1）式中，E_i(n)表示音频帧信号x_i(n)的能量。

s1203，按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

所述至少一帧音频帧信号中的各帧音频帧信号的顺序，即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。本步骤中，按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，可构建所述区间音频数据的能量序列为E_i(n)。

请参见图4，为本发明实施例提供的图1所示的步骤S102的实施例的另一部分流程图；该S102可包括以下步骤s1211-步骤s1215。

s1211，对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号。

本步骤可参见图3所示实施例中的步骤s1201，在此不赘述。

s1212，对所述至少一帧音频帧信号的各帧音频帧信号进行预处理。

本步骤对x_i(n)的预处理过程可包括以下A-B两个步骤：

A、对所述各帧音频帧信号进行加窗处理。

步骤A可采用矩形窗函数据ω(n)对x_i(n)进行加窗处理，加窗处理后的各帧音频帧信号可表示为如下公式（2）：

x_iω(n)＝ω(n)*x_i(n) （2）

B、对所述加窗处理后的各帧音频帧信号进行带通滤波处理。

步骤B中，采用bpf(n)表示带通滤波器，该带通滤波器的下截止频率可表示为wl，上截止频率可表示为wh。对加窗处理后的每一帧音频帧信号x_iω(n)进行带通滤波处理后，可得到如下公式（3）：

x_iaω(n)＝x_iω(n)·bpf(n) （3）

上述公式（3）中，“·”表示卷积操作；优选地，wl可设置为50，wh可设置为1500。

s1213，对所述预处理后的各帧音频帧信号进行自相关计算，获得所述各帧音频帧信号的自相关函数。

本步骤中，所述预处理后的各帧音频帧信号的自相关函数（AutocorrelationFunction，ACF）R_i(k)可以采用下述公式（4）进行计算：

上述（4）式中，k为正整数且k＝0,1,2,N-1。

s1214，根据所述各帧音频帧信号的自相关函数，计算所述各帧音频帧信号的Pitch值。

本步骤中，根据音频帧信号的频率特征，可以假设所述各帧音频帧信号的Pitch值均位于[pl,ph]的区间范围，其中，pl为所述各帧音频帧信号的Pitch值的下限，ph为所述各帧音频帧信号的Pitch值的上限。音频文件的采样率可表示为f_s，即所述区间音频数据的采样率也为f_s，采用f_s可以确定检索该区间音频数据的各帧音频帧信号的位置，该位置可位于[DL,DH]的区间范围，其中，DL为该区间音频数据的每一帧音频帧信号的Pitch值的检索位置下限，DH为该区间音频数据的各帧音频帧信号的Pitch值的检索位置上限，且DL满足下述公式（5）：

DL＝f_s/ph,DL＞＝wl （5）

DH满足下述公式（6）：

DH＝f_s/pl,DH＜＝wh （6）

在所述区间音频数据的各帧音频帧信号的自相关函数R_i(k)中，将[DL,DH]区间范围作为检索区域，查找最大值T_i（DL＜＝T_i＜＝DH），再根据下述公式（7），即可得到所述区间音频数据的各帧音频帧信号的Pitch值p_i(n)，该公式（7）可表示如下：

p_i(n)＝f_s/T_i （7）

s1215，按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的Pitch值进行排列，构建所述区间音频数据的Pitch序列。

所述至少一帧音频帧信号中的各帧音频帧信号的顺序，即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。本步骤中，按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的Pitch值进行排列，可构建所述区间音频数据的Pitch序列为p_i(n)。

请参见图5，为本发明实施例提供的图1所示的步骤S103的实施例的流程图；该步骤S103可包括以下步骤s1301-步骤s1303。

s1301，分别对所述区间音频数据的能量序列和Pitch序列进行归一化处理。

按照图3-图4所示实施例的描述，所述区间音频数据的能量序列可表示为E_i(n)，所述区间音频数据的Pitch序列可表示为p_i(n)。本步骤可采用下述公式（8），对所述E_i(n)进行归一化处理，获得归一化后的能量序列为Em_i(n)，该公式（8）可表示如下：

上述公式（8）中，Em_i(n)为归一化后的能量序列，(E_i(n))_max为能量序列E_i(n)中的最大值。

本步骤可采用下述公式（9），对所述p_i(n)进行归一化处理，获得归一化后的Pitch序列为Pm_i(n)，该公式（9）可表示如下：

上述公式（9）中，Pm_i(n)为归一化后的Pitch序列，(p_i(n))_max为Pitch序列p_i(n)中的最大值。

s1302，根据所述归一化后的能量序列、所述归一化后的Pitch序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置。

本步骤的计算过程具体可包括以下步骤C-H：

C、计算Em_i(n)序列和Pm_i(n)序列的和，获得S_i(n)序列，该S_i(n)序列可表示如下公式（10）所示：

S_i(n)＝Em_i(n)+Pm_i(n) （10）

D、假设副歌时长为T'，需要说明的是，副歌时长可以根据用户的实际需要进行设定，例如可以为10s，20s等等。由于该区间音频数据包含的任一帧音频帧信号x_i(n)的帧长为T_s，步骤D则可计算获得副歌时长相对于每帧音频帧信号的比值L，该L可表示如下公式（11）所示：

L＝T'/T_s （11）

E、对S_i(n)序列进行均值滤波处理，获得Sm_i(n)序列。需要说明的是，步骤E对S_i(n)序列进行均值滤波处理时，所采用的阶数tap为可表示为下述公式（12）。

tap＝(L-1)/2 （12）

F、查找Sm_i(n)序列中的最大值，并获取该最大值对应的n的取值，假设此时n的取值为IND。

G、确定副歌在所述区间音频数据中的帧起止位置，其中，帧起始位置str可表示如下公式（13）所示：

str＝IND-tap （13）

其中，帧终止位置end可表示如下公式（14）所示：

end＝IND+tap （14）

H、确定副歌在所述区间音频数据中的时间起止位置，其中，副歌在所述区间音频数据中的时间起始位置t_str可表示如下公式（15）所示：

t_str＝str*T_s （15）

其中，所述副歌在所述区间音频数据中的时间终止位置t_end可表示如下公式（16）所示：

t_end＝end*T_s （16）

s1303，根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。

本步骤中，根据所述副歌在所述区间音频数据中的时间起止位置，可在所述音频文件中定位所述副歌的时间起止位置，其中，副歌在所述音频文件中的时间起始位置T_str可表示如下公式（17）所示：

T_str＝R_L*T+t_str （17）

其中，副歌在所述音频文件中的时间终端位置T_end可表示如下公式（18）所示：

T_end＝R_H*T+t_end （18）

上述（17）和（18）中，R_L和R_H分别为预设的时间比范围[R_L，R_H]的两个端点值，T为所述音频文件的时长。

通过上述附图1-附图5所示实施例的描述，本发明实施例可从待处理的音频文件中选取区间音频数据，构建区间音频数据的特征参数序列，以实现音频文件的副歌定位，提升了音频处理的智能性；另外，由于仅需要从音频文件中选取区间音频数据进行音频处理，可有效提升音频处理的效率，进一步提升音频处理的智能性。

下面将结合附图6-附图11，对本发明实施例提供的音频处理装置进行详细介绍。需要说明的是，附图6-附图11所示的音频处理装置可运行于终端设备或服务器中，用于执行附图1-附图5所示的音频处理方法。其中，终端设备可包括但不限于：PC、PAD、手机、智能手机、笔记本电脑等设备。

请参见图6，为本发明实施例提供的一种音频处理装置的结构示意图；该装置可包括：选取模块101、构建模块102和定位模块103。

选取模块101，用于从待处理的音频文件中选取区间音频数据。

本发明实施例中，区间音频数据指从音频文件中所选取的、某个时长区间范围所确定的音频数据，例如：假设音频文件的时长为T，[T/5，3T/5]的时长区间范围可确定一个区间音频数据，[T/2，T]的时长区间范围又可确定另一个区间音频数据，等等。所述选取模块101可根据实际情况从音频文件中选取合理的区间音频数据，例如：根据对大量音频文件的统计数据，从音频文件中选取区间音频数据；或者根据对音频文件进行分析处理获得的实验数据，从音频文件中选取区间音频数据。

构建模块102，用于构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和Pitch序列。

Pitch指各种不同高低的声音，即音的高度，音的基本特征的一种。一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，该区间音频数据的每帧音频帧信号均具备能量和Pitch值。所述构建模块102可以对该区间音频数据的每一帧音频帧信号进行能量计算，获得该区间音频数据的每一帧音频帧信号的能量，从而构建该区间音频数据的能量序列；所述构建模块102可以对该区间音频数据的每一帧音频帧信号进行Pitch检测，获得该区间音频数据的每一帧音频帧信号的Pitch值，从而构建该区间音频数据的Pitch序列。

定位模块103，用于根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

副歌，通常指音频文件的高潮部分。以歌曲为例，一首歌曲通常采用AA’BA’Form，A代表主歌，而B代表副歌；也即时说，通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。所述定位模块103可基于所选取的区间音频数据的特征参数序列，定位音频文件的副歌。

下面将结合附图7-附图11，对图6所示的音频处理装置的各模块进行详细介绍。

请参见图7，为本发明实施例提供的选取模块的实施例的结构示意图；该选取模块101可包括：时长获取单元1101、区间计算单元1102和选取单元1103。

时长获取单元1101，用于获取所述待处理的音频文件的时长。本实施例可假设音频文件的时长为T，即所述音频文件的时长区间为[0，T]。

区间计算单元1102，用于按照预设的时间比范围，计算所选取的时长区间。

时间比范围可表示为[R_L，R_H]，其中R_L和R_H分别代表时间占比，[R_L，R_H]的取值为[0，1]，且R_L<R_H。时间比范围[R_L，R_H]可以根据实际情况进行设定，例如：时间比范围可根据对大量音频文件的统计数据进行设定；或者时间比范围可根据对音频文件进行分析处理获得的实验数据进行设定。假设预设的时间比范围为[1/5，3/5]，即R_L=1/5，R_H=3/5，所述区间计算单元1102计算获得所选取的时长区间则为[T/5，3T/5]。

选取单元1103，用于根据所述时长区间，从所述音频文件中选取区间音频数据。

参照本实施例所示例子，所述选取单元1103可从音频文件中选取[T/5，3T/5]这一时长区间所确定的区间音频数据。

下面将结合图8-图10，对图7所示的构建模块102的结构和功能进行详细介绍。需要说明的是，该构建模块102可实现两个构建过程，其中一个构建过程为“构建所述区间音频数据的能量序列”的过程，实现该构建过程时该构建模块102的结构具体可参见下述图8所示实施例的描述；另一个构建过程为“构建所述区间音频数据的Pitch序列”的过程，实现该构建过程时该构建模块102的结构具体可参见下述图9-图10所示实施例的描述。

请参见图8，为本发明实施例提供的构建模块的实施例的部分结构示意图；该构建模块102可包括：分帧处理单元1201、能量计算单元1202和能量序列构建单元1203。

分帧处理单元1201，用于对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号。

一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，假设该区间音频数据包含的任一帧音频帧信号可表示为x_i(n)，每帧音频帧信号的帧长为T_s，所述分帧处理单元1201进行分帧处理可获得的音频帧信号的数量为FN。其中，i表示该区间音频数据中该帧音频帧信号的顺序，i为正整数且i＝1,2,...FN-1；n为正整数且n＝0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。

能量计算单元1202，用于计算所述至少一帧音频帧信号中的各帧音频帧信号的能量。

所述能量计算单元1202可采用图3所示实施例中的公式（1）所示的能量公式，计算FN帧音频帧信号中的各帧音频帧信号的能量E_i(n)。

能量序列构建单元1203，用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

所述至少一帧音频帧信号中的各帧音频帧信号的顺序，即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。所述能量序列构建单元1203按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，可构建所述区间音频数据的能量序列为E_i(n)。

请参见图9，为本发明实施例提供的构建模块的实施例的另一部分结构示意图；该构建模块102可包括：分帧处理单元1201、预处理单元1204、自相关计算单元1205、音高计算单元1206和音高序列构建单元1207。其中，分帧处理单元1201可参见图8所示实施例的相关描述，在此不赘述。

预处理单元1204，用于对所述至少一帧音频帧信号的各帧音频帧信号进行预处理。

实际应用中，请一并参见图10，为本发明实施例提供的预处理单元的实施例的结构示意图；该预处理单元1204可包括：加窗处理子单元1241和滤波处理子单元1242。

加窗处理子单元1241，用于对所述各帧音频帧信号进行加窗处理。

所述加窗处理子单元1241可采用矩形窗函数据ω(n)对x_i(n)进行加窗处理，加窗处理后的各帧音频帧信号可表示为图4所示实施例中的公式（2）。

滤波处理子单元1242，用于对所述加窗处理后的各帧音频帧信号进行带通滤波处理。

其中，可采用bpf(n)表示带通滤波器，该带通滤波器的下截止频率可表示为wl，上截止频率可表示为wh。所述滤波处理子单元1242对加窗处理后的每一帧音频帧信号x_iω(n)进行带通滤波处理后，可获得图4所示实施例中的公式（3）。

自相关计算单元1205，用于对所述预处理后的各帧音频帧信号进行自相关计算，获得所述各帧音频帧信号的自相关函数。

所述自相关计算单元1205可以采用图4所示实施例中的公式（4）计算算得到所述预处理后的各帧音频帧信号的自相关函数R_i(k)。

音高计算单元1206，用于根据所述各帧音频帧信号的自相关函数，计算所述各帧音频帧信号的Pitch值。

根据音频帧信号的频率特征，可以假设所述各帧音频帧信号的Pitch值均位于[pl,ph]的区间范围，其中，pl为所述各帧音频帧信号的Pitch值的下限，ph为所述各帧音频帧信号的Pitch值的上限。音频文件的采样率可表示为f_s，即所述区间音频数据的采样率也为f_s，采用f_s可以确定检索该区间音频数据的各帧音频帧信号的位置，该位置可位于[DL,DH]的区间范围，其中，DL为该区间音频数据的每一帧音频帧信号的Pitch值的检索位置下限，DH为该区间音频数据的各帧音频帧信号的Pitch值的检索位置上限，且DL满足图4所示实施例中的公式（5），DH满足图4所示实施例中的公式（6）。

所述音高计算单元1206可在所述区间音频数据的各帧音频帧信号的自相关函数R_i(k)中，将[DL,DH]区间范围作为检索区域，查找最大值T_i（DL＜＝T_i＜＝DH），再根据图4所示实施例中的公式（7），即可得到所述区间音频数据的各帧音频帧信号的Pitch值p_i(n)。

音高序列构建单元1207，用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的Pitch值进行排列，构建所述区间音频数据的Pitch序列。

所述至少一帧音频帧信号中的各帧音频帧信号的顺序，即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。所述音高序列构建单元1207按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的Pitch值进行排列，可构建所述区间音频数据的Pitch序列为p_i(n)。

请参见图11，为本发明实施例提供的定位模块的实施例的结构示意图；该定位模块103可包括：归一化处理单元1301、位置计算单元1302和定位单元1303。

归一化处理单元1301，用于分别对所述区间音频数据的能量序列和频谱滚降序列进行归一化处理。

按照图8-图10所示实施例的描述，所述区间音频数据的能量序列可表示为E_i(n)，所述区间音频数据的Pitch序列可表示为p_i(n)。所述归一化处理单元1301可采用图5所示实施例中的公式（8），对所述E_i(n)进行归一化处理，获得归一化后的能量序列为Em_i(n)；所述归一化处理单元1301可采用图5所示实施例中的公式（9），对所述p_i(n)进行归一化处理，获得归一化后的Pitch序列为Pm_i(n)。

位置计算单元1302，用于根据所述归一化后的能量序列、所述归一化后的频谱滚降序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置。

所述位置计算单元1302的计算过程具体可包括以下步骤C’-H’：

C’、计算Em_i(n)序列和Pm_i(n)序列的和，获得S_i(n)序列，该S_i(n)序列可表示为图5所示实施例中的公式（10）。

D’、假设副歌时长为T'，需要说明的是，副歌时长可以根据用户的实际需要进行设定，例如可以为10s，20s等等。由于该区间音频数据包含的任一帧音频帧信号x_i(n)的帧长为T_s，则可计算获得副歌时长相对于每帧音频帧信号的比值L，该L可表示为图5所示实施例中的公式（11）。

E’、对S_i(n)序列进行均值滤波处理，获得Sm_i(n)序列。需要说明的是，对S_i(n)序列进行均值滤波处理时，所采用的阶数tap为可表示为图5所示实施例中的公式（12）。

F’、查找Sm_i(n)序列中的最大值，并获取该最大值对应的n的取值，假设此时n的取值为IND。

G’、确定副歌在所述区间音频数据中的帧起止位置，其中，帧起始位置str可表示为图5所示实施例中的公式（13），帧终止位置end可表示为图5所示实施例中的公式（14）。

H’、确定副歌在所述区间音频数据中的时间起止位置，其中，副歌在所述区间音频数据中的时间起始位置t_str可表示为图5所示实施例中的公式（15），所述副歌在所述区间音频数据中的时间终止位置t_end可表示为图5所示实施例中的公式（16）。

定位单元1303，用于根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。

所述定位单元1303根据所述副歌在所述区间音频数据中的时间起止位置，可在所述音频文件中定位所述副歌的时间起止位置，其中，副歌在所述音频文件中的时间起始位置T_str可表示为图5所示实施例中的公式（17），副歌在所述音频文件中的时间终端位置T_end可表示为图5所示实施例中的公式（18）。

通过上述附图6-附图11所示实施例的描述，本发明实施例可从待处理的音频文件中选取区间音频数据，构建区间音频数据的特征参数序列，以实现音频文件的副歌定位，提升了音频处理的智能性；另外，由于仅需要从音频文件中选取区间音频数据进行音频处理，可有效提升音频处理的效率，进一步提升音频处理的智能性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，附图6-附图11所示音频处理装置的模块或单元对应的程序可存储在终端设备或服务器的可读存储介质内，并被该终端设备或服务器中的至少一个处理器执行，以实现上述音频处理方法，该方法包括图1至图5中各方法实施例所述的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

从待处理的音频文件中选取区间音频数据；

构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和音高Pitch序列，其中，所述能量序列由所述区间音频数据的每一帧音频帧信号的能量排列而成，所述Pitch序列是由所述区间音频数据的每一帧音频帧信号的Pitch值排列而成；

分别对所述区间音频数据的能量序列和Pitch序列进行归一化处理；

根据所述归一化后的能量序列、所述归一化后的Pitch序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置；

根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。

2.如权利要求1所述的方法，其特征在于，所述从待处理的音频文件中选取区间音频数据，包括：

获取所述待处理的音频文件的时长；

按照预设的时间比范围，计算所选取的时长区间；

根据所述时长区间，从所述音频文件中选取区间音频数据。

3.如权利要求2所述的方法，其特征在于，所述构建所述区间音频数据的特征参数序列，包括：

对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号；

计算所述至少一帧音频帧信号中的各帧音频帧信号的能量；

按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

4.如权利要求3所述的方法，其特征在于，所述构建所述区间音频数据的特征参数序列，还包括：

对所述至少一帧音频帧信号的各帧音频帧信号进行预处理；

对所述预处理后的各帧音频帧信号进行自相关计算，获得所述各帧音频帧信号的自相关函数；

根据所述各帧音频帧信号的自相关函数，计算所述各帧音频帧信号的Pitch值；

按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的Pitch值进行排列，构建所述区间音频数据的Pitch序列。

5.如权利要求4所述的方法，其特征在于，所述对所述至少一帧音频帧信号的各帧音频帧信号进行预处理，包括：

对所述各帧音频帧信号进行加窗处理；

对所述加窗处理后的各帧音频帧信号进行带通滤波处理。

6.一种音频处理装置，其特征在于，包括：

选取模块，用于从待处理的音频文件中选取区间音频数据；

构建模块，用于构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和音高Pitch序列，其中，所述能量序列由所述区间音频数据的每一帧音频帧信号的能量排列而成，所述Pitch序列是由所述区间音频数据的每一帧音频帧信号的Pitch值排列而成；

定位模块，用于根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌；

其中，所述定位模块包括：

归一化处理单元，用于分别对所述区间音频数据的能量序列和Pitch序列进行归一化处理；

位置计算单元，用于根据所述归一化后的能量序列、所述归一化后的Pitch序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置；

定位单元，用于根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。

7.如权利要求6所述的装置，其特征在于，所述选取模块包括：

时长获取单元，用于获取所述待处理的音频文件的时长；

区间计算单元，用于按照预设的时间比范围，计算所选取的时长区间；

选取单元，用于根据所述时长区间，从所述音频文件中选取区间音频数据。

8.如权利要求7所述的装置，其特征在于，所述构建模块包括：

分帧处理单元，用于对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号；

能量计算单元，用于计算所述至少一帧音频帧信号中的各帧音频帧信号的能量；

能量序列构建单元，用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

9.如权利要求8所述的装置，其特征在于，所述构建模块还包括：

预处理单元，用于对所述至少一帧音频帧信号的各帧音频帧信号进行预处理；

自相关计算单元，用于对所述预处理后的各帧音频帧信号进行自相关计算，获得所述各帧音频帧信号的自相关函数；

音高计算单元，用于根据所述各帧音频帧信号的自相关函数，计算所述各帧音频帧信号的Pitch值；

音高序列构建单元，用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的Pitch值进行排列，构建所述区间音频数据的Pitch序列。

10.如权利要求9所述的装置，其特征在于，所述预处理单元包括：

加窗处理子单元，用于对所述各帧音频帧信号进行加窗处理；

滤波处理子单元，用于对所述加窗处理后的各帧音频帧信号进行带通滤波处理。