具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,音频文件可以包括但不限于:歌曲、歌曲片段、音乐、音乐片段、演奏乐、演奏乐片段、哼唱歌曲、哼唱歌曲片段等文件。本发明实施例的音频处理方案可以应用于互联网领域的多个场景中,例如:可以应用于对互联网音频库中的音频文件进行分析处理的场景,包括:可应用于主音查找的场景中进行副歌的快速定位和准确提取,也可应用于哼唱搜索的场景中进行副歌的快速定位和准确提取,还可应用于乐曲识别的场景中进行副歌的快速定位和准确提取等等;或者,可以应用于对互联网音频库中的音频文件进行试听的场景,包括:可提供副歌进行在线播放或音乐下载前的试听;或者,可以应用于彩铃下载或试听场景,包括:快速定位和准确提取副歌,将副歌作为彩铃提供给用户进行下载或试听,等等。
下面将结合附图1-附图5,对本发明实施例提供的音频处理方法进行详细介绍。需要说明的是,附图1-附图5所示的音频处理方法可以由本发明实施例提供的音频处理装置所执行,该音频处理装置可运行于终端设备或服务器中,其中,终端设备可包括但不限于:PC(Personal Computer,个人计算机)、PAD(平板电脑)、手机、智能手机、笔记本电脑等设备。
请参见图1,为本发明实施例提供的一种音频处理方法的流程图;该方法可包括以下步骤S101-步骤S103。
S101,从待处理的音频文件中选取区间音频数据。
本发明实施例中,区间音频数据指从音频文件中所选取的、某个时长区间范围所确定的音频数据,例如:假设音频文件的时长为T,[T/5,3T/5]的时长区间范围可确定一个区间音频数据,[T/2,T]的时长区间范围又可确定另一个区间音频数据,等等。本步骤中,可根据实际情况从音频文件中选取合理的区间音频数据,例如:根据对大量音频文件的统计数据,从音频文件中选取区间音频数据;或者根据对音频文件进行分析处理获得的实验数据,从音频文件中选取区间音频数据。
S102,构建所述区间音频数据的特征参数序列,所述特征参数序列包括能量序列和Pitch序列。
Pitch指各种不同高低的声音,即音的高度,音的基本特征的一种。一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列,该区间音频数据的每帧音频帧信号均具备能量和Pitch值。本步骤中,可以对该区间音频数据的每一帧音频帧信号进行能量计算,获得该区间音频数据的每一帧音频帧信号的能量,从而构建该区间音频数据的能量序列;可以对该区间音频数据的每一帧音频帧信号进行Pitch检测,获得该区间音频数据的每一帧音频帧信号的Pitch值,从而构建该区间音频数据的Pitch序列。
S103,根据所述区间音频数据的特征参数序列,定位所述音频文件的副歌。
副歌,通常指音频文件的高潮部分。以歌曲为例,一首歌曲通常采用AA’BA’Form,A代表主歌,而B代表副歌;也即时说,通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。本步骤可基于所选取的区间音频数据的特征参数序列,定位音频文件的副歌。
下面将结合附图2-附图5,对图1所示的音频处理方法中的各步骤进行详细介绍。
请参见图2,为本发明实施例提供的图1所示的步骤S101的实施例的流程图;该步骤S101可包括以下步骤s1101-步骤s1103。
s1101,获取所述待处理的音频文件的时长。本实施例可假设音频文件的时长为T,即所述音频文件的时长区间为[0,T]。
s1102,按照预设的时间比范围,计算所选取的时长区间。
时间比范围可表示为[RL,RH],其中RL和RH分别代表时间占比,[RL,RH]的取值为[0,1],且RL<RH。时间比范围[RL,RH]可以根据实际情况进行设定,例如:时间比范围可根据对大量音频文件的统计数据进行设定;或者时间比范围可根据对音频文件进行分析处理获得的实验数据进行设定。假设预设的时间比范围为[1/5,3/5],即RL=1/5,RH=3/5,本步骤计算获得所选取的时长区间则为[T/5,3T/5]。
s1103,根据所述时长区间,从所述音频文件中选取区间音频数据。
参照步骤s1102所示例子,本步骤可从音频文件中选取[T/5,3T/5]这一时长区间所确定的区间音频数据。
下面将结合图3-图4,对图1所示的步骤S102进行详细介绍。需要说明的是,该步骤S102由两个构建过程组成,其中一个构建过程为“构建所述区间音频数据的能量序列”的过程,该构建过程具体可参见下述图3所示实施例的描述;另一个构建过程为“构建所述区间音频数据的Pitch序列”的过程,该构建过程具体可参见下述图4所示实施例的描述。
请参见图3,为本发明实施例提供的图1所示的步骤S102的实施例的部分流程图;该步骤S102可包括以下步骤s1201-步骤s1203。
s1201,对所述区间音频数据进行分帧处理,获得至少一帧音频帧信号。
一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列,本步骤中,假设该区间音频数据包含的任一帧音频帧信号可表示为xi(n),每帧音频帧信号的帧长为Ts,进行分帧处理可获得的音频帧信号的数量为FN。其中,i表示该区间音频数据中该帧音频帧信号的顺序,i为正整数且i=1,2,...FN-1;n为正整数且n=0,1,2,N-1,其中N为该帧音频帧信号的长度,即N为该帧音频帧信号的采样点数。
s1202,计算所述至少一帧音频帧信号中的各帧音频帧信号的能量。
本步骤可基于下述(1)所示的能量公式,计算FN帧音频帧信号中的各帧音频帧信号的能量。
上述(1)式中,Ei(n)表示音频帧信号xi(n)的能量。
s1203,按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的能量进行排列,构建所述区间音频数据的能量序列。
所述至少一帧音频帧信号中的各帧音频帧信号的顺序,即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。本步骤中,按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的能量进行排列,可构建所述区间音频数据的能量序列为Ei(n)。
请参见图4,为本发明实施例提供的图1所示的步骤S102的实施例的另一部分流程图;该S102可包括以下步骤s1211-步骤s1215。
s1211,对所述区间音频数据进行分帧处理,获得至少一帧音频帧信号。
本步骤可参见图3所示实施例中的步骤s1201,在此不赘述。
s1212,对所述至少一帧音频帧信号的各帧音频帧信号进行预处理。
本步骤对xi(n)的预处理过程可包括以下A-B两个步骤:
A、对所述各帧音频帧信号进行加窗处理。
步骤A可采用矩形窗函数据ω(n)对xi(n)进行加窗处理,加窗处理后的各帧音频帧信号可表示为如下公式(2):
xiω(n)=ω(n)*xi(n) (2)
B、对所述加窗处理后的各帧音频帧信号进行带通滤波处理。
步骤B中,采用bpf(n)表示带通滤波器,该带通滤波器的下截止频率可表示为wl,上截止频率可表示为wh。对加窗处理后的每一帧音频帧信号xiω(n)进行带通滤波处理后,可得到如下公式(3):
xiaω(n)=xiω(n)·bpf(n) (3)
上述公式(3)中,“·”表示卷积操作;优选地,wl可设置为50,wh可设置为1500。
s1213,对所述预处理后的各帧音频帧信号进行自相关计算,获得所述各帧音频帧信号的自相关函数。
本步骤中,所述预处理后的各帧音频帧信号的自相关函数(AutocorrelationFunction,ACF)Ri(k)可以采用下述公式(4)进行计算:
上述(4)式中,k为正整数且k=0,1,2,N-1。
s1214,根据所述各帧音频帧信号的自相关函数,计算所述各帧音频帧信号的Pitch值。
本步骤中,根据音频帧信号的频率特征,可以假设所述各帧音频帧信号的Pitch值均位于[pl,ph]的区间范围,其中,pl为所述各帧音频帧信号的Pitch值的下限,ph为所述各帧音频帧信号的Pitch值的上限。音频文件的采样率可表示为fs,即所述区间音频数据的采样率也为fs,采用fs可以确定检索该区间音频数据的各帧音频帧信号的位置,该位置可位于[DL,DH]的区间范围,其中,DL为该区间音频数据的每一帧音频帧信号的Pitch值的检索位置下限,DH为该区间音频数据的各帧音频帧信号的Pitch值的检索位置上限,且DL满足下述公式(5):
DL=fs/ph,DL>=wl (5)
DH满足下述公式(6):
DH=fs/pl,DH<=wh (6)
在所述区间音频数据的各帧音频帧信号的自相关函数Ri(k)中,将[DL,DH]区间范围作为检索区域,查找最大值Ti(DL<=Ti<=DH),再根据下述公式(7),即可得到所述区间音频数据的各帧音频帧信号的Pitch值pi(n),该公式(7)可表示如下:
pi(n)=fs/Ti (7)
s1215,按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的Pitch值进行排列,构建所述区间音频数据的Pitch序列。
所述至少一帧音频帧信号中的各帧音频帧信号的顺序,即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。本步骤中,按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的Pitch值进行排列,可构建所述区间音频数据的Pitch序列为pi(n)。
请参见图5,为本发明实施例提供的图1所示的步骤S103的实施例的流程图;该步骤S103可包括以下步骤s1301-步骤s1303。
s1301,分别对所述区间音频数据的能量序列和Pitch序列进行归一化处理。
按照图3-图4所示实施例的描述,所述区间音频数据的能量序列可表示为Ei(n),所述区间音频数据的Pitch序列可表示为pi(n)。本步骤可采用下述公式(8),对所述Ei(n)进行归一化处理,获得归一化后的能量序列为Emi(n),该公式(8)可表示如下:
上述公式(8)中,Emi(n)为归一化后的能量序列,(Ei(n))max为能量序列Ei(n)中的最大值。
本步骤可采用下述公式(9),对所述pi(n)进行归一化处理,获得归一化后的Pitch序列为Pmi(n),该公式(9)可表示如下:
上述公式(9)中,Pmi(n)为归一化后的Pitch序列,(pi(n))max为Pitch序列pi(n)中的最大值。
s1302,根据所述归一化后的能量序列、所述归一化后的Pitch序列以及预设的副歌时长,计算副歌在所述区间音频数据中的位置。
本步骤的计算过程具体可包括以下步骤C-H:
C、计算Emi(n)序列和Pmi(n)序列的和,获得Si(n)序列,该Si(n)序列可表示如下公式(10)所示:
Si(n)=Emi(n)+Pmi(n) (10)
D、假设副歌时长为T',需要说明的是,副歌时长可以根据用户的实际需要进行设定,例如可以为10s,20s等等。由于该区间音频数据包含的任一帧音频帧信号xi(n)的帧长为Ts,步骤D则可计算获得副歌时长相对于每帧音频帧信号的比值L,该L可表示如下公式(11)所示:
L=T'/Ts (11)
E、对Si(n)序列进行均值滤波处理,获得Smi(n)序列。需要说明的是,步骤E对Si(n)序列进行均值滤波处理时,所采用的阶数tap为可表示为下述公式(12)。
tap=(L-1)/2 (12)
F、查找Smi(n)序列中的最大值,并获取该最大值对应的n的取值,假设此时n的取值为IND。
G、确定副歌在所述区间音频数据中的帧起止位置,其中,帧起始位置str可表示如下公式(13)所示:
str=IND-tap (13)
其中,帧终止位置end可表示如下公式(14)所示:
end=IND+tap (14)
H、确定副歌在所述区间音频数据中的时间起止位置,其中,副歌在所述区间音频数据中的时间起始位置tstr可表示如下公式(15)所示:
tstr=str*Ts (15)
其中,所述副歌在所述区间音频数据中的时间终止位置tend可表示如下公式(16)所示:
tend=end*Ts (16)
s1303,根据所述副歌在所述区间音频数据中的位置,在所述音频文件中定位所述副歌。
本步骤中,根据所述副歌在所述区间音频数据中的时间起止位置,可在所述音频文件中定位所述副歌的时间起止位置,其中,副歌在所述音频文件中的时间起始位置Tstr可表示如下公式(17)所示:
Tstr=RL*T+tstr (17)
其中,副歌在所述音频文件中的时间终端位置Tend可表示如下公式(18)所示:
Tend=RH*T+tend (18)
上述(17)和(18)中,RL和RH分别为预设的时间比范围[RL,RH]的两个端点值,T为所述音频文件的时长。
通过上述附图1-附图5所示实施例的描述,本发明实施例可从待处理的音频文件中选取区间音频数据,构建区间音频数据的特征参数序列,以实现音频文件的副歌定位,提升了音频处理的智能性;另外,由于仅需要从音频文件中选取区间音频数据进行音频处理,可有效提升音频处理的效率,进一步提升音频处理的智能性。
下面将结合附图6-附图11,对本发明实施例提供的音频处理装置进行详细介绍。需要说明的是,附图6-附图11所示的音频处理装置可运行于终端设备或服务器中,用于执行附图1-附图5所示的音频处理方法。其中,终端设备可包括但不限于:PC、PAD、手机、智能手机、笔记本电脑等设备。
请参见图6,为本发明实施例提供的一种音频处理装置的结构示意图;该装置可包括:选取模块101、构建模块102和定位模块103。
选取模块101,用于从待处理的音频文件中选取区间音频数据。
本发明实施例中,区间音频数据指从音频文件中所选取的、某个时长区间范围所确定的音频数据,例如:假设音频文件的时长为T,[T/5,3T/5]的时长区间范围可确定一个区间音频数据,[T/2,T]的时长区间范围又可确定另一个区间音频数据,等等。所述选取模块101可根据实际情况从音频文件中选取合理的区间音频数据,例如:根据对大量音频文件的统计数据,从音频文件中选取区间音频数据;或者根据对音频文件进行分析处理获得的实验数据,从音频文件中选取区间音频数据。
构建模块102,用于构建所述区间音频数据的特征参数序列,所述特征参数序列包括能量序列和Pitch序列。
Pitch指各种不同高低的声音,即音的高度,音的基本特征的一种。一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列,该区间音频数据的每帧音频帧信号均具备能量和Pitch值。所述构建模块102可以对该区间音频数据的每一帧音频帧信号进行能量计算,获得该区间音频数据的每一帧音频帧信号的能量,从而构建该区间音频数据的能量序列;所述构建模块102可以对该区间音频数据的每一帧音频帧信号进行Pitch检测,获得该区间音频数据的每一帧音频帧信号的Pitch值,从而构建该区间音频数据的Pitch序列。
定位模块103,用于根据所述区间音频数据的特征参数序列,定位所述音频文件的副歌。
副歌,通常指音频文件的高潮部分。以歌曲为例,一首歌曲通常采用AA’BA’Form,A代表主歌,而B代表副歌;也即时说,通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。所述定位模块103可基于所选取的区间音频数据的特征参数序列,定位音频文件的副歌。
下面将结合附图7-附图11,对图6所示的音频处理装置的各模块进行详细介绍。
请参见图7,为本发明实施例提供的选取模块的实施例的结构示意图;该选取模块101可包括:时长获取单元1101、区间计算单元1102和选取单元1103。
时长获取单元1101,用于获取所述待处理的音频文件的时长。本实施例可假设音频文件的时长为T,即所述音频文件的时长区间为[0,T]。
区间计算单元1102,用于按照预设的时间比范围,计算所选取的时长区间。
时间比范围可表示为[RL,RH],其中RL和RH分别代表时间占比,[RL,RH]的取值为[0,1],且RL<RH。时间比范围[RL,RH]可以根据实际情况进行设定,例如:时间比范围可根据对大量音频文件的统计数据进行设定;或者时间比范围可根据对音频文件进行分析处理获得的实验数据进行设定。假设预设的时间比范围为[1/5,3/5],即RL=1/5,RH=3/5,所述区间计算单元1102计算获得所选取的时长区间则为[T/5,3T/5]。
选取单元1103,用于根据所述时长区间,从所述音频文件中选取区间音频数据。
参照本实施例所示例子,所述选取单元1103可从音频文件中选取[T/5,3T/5]这一时长区间所确定的区间音频数据。
下面将结合图8-图10,对图7所示的构建模块102的结构和功能进行详细介绍。需要说明的是,该构建模块102可实现两个构建过程,其中一个构建过程为“构建所述区间音频数据的能量序列”的过程,实现该构建过程时该构建模块102的结构具体可参见下述图8所示实施例的描述;另一个构建过程为“构建所述区间音频数据的Pitch序列”的过程,实现该构建过程时该构建模块102的结构具体可参见下述图9-图10所示实施例的描述。
请参见图8,为本发明实施例提供的构建模块的实施例的部分结构示意图;该构建模块102可包括:分帧处理单元1201、能量计算单元1202和能量序列构建单元1203。
分帧处理单元1201,用于对所述区间音频数据进行分帧处理,获得至少一帧音频帧信号。
一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列,假设该区间音频数据包含的任一帧音频帧信号可表示为xi(n),每帧音频帧信号的帧长为Ts,所述分帧处理单元1201进行分帧处理可获得的音频帧信号的数量为FN。其中,i表示该区间音频数据中该帧音频帧信号的顺序,i为正整数且i=1,2,...FN-1;n为正整数且n=0,1,2,N-1,其中N为该帧音频帧信号的长度,即N为该帧音频帧信号的采样点数。
能量计算单元1202,用于计算所述至少一帧音频帧信号中的各帧音频帧信号的能量。
所述能量计算单元1202可采用图3所示实施例中的公式(1)所示的能量公式,计算FN帧音频帧信号中的各帧音频帧信号的能量Ei(n)。
能量序列构建单元1203,用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的能量进行排列,构建所述区间音频数据的能量序列。
所述至少一帧音频帧信号中的各帧音频帧信号的顺序,即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。所述能量序列构建单元1203按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的能量进行排列,可构建所述区间音频数据的能量序列为Ei(n)。
请参见图9,为本发明实施例提供的构建模块的实施例的另一部分结构示意图;该构建模块102可包括:分帧处理单元1201、预处理单元1204、自相关计算单元1205、音高计算单元1206和音高序列构建单元1207。其中,分帧处理单元1201可参见图8所示实施例的相关描述,在此不赘述。
预处理单元1204,用于对所述至少一帧音频帧信号的各帧音频帧信号进行预处理。
实际应用中,请一并参见图10,为本发明实施例提供的预处理单元的实施例的结构示意图;该预处理单元1204可包括:加窗处理子单元1241和滤波处理子单元1242。
加窗处理子单元1241,用于对所述各帧音频帧信号进行加窗处理。
所述加窗处理子单元1241可采用矩形窗函数据ω(n)对xi(n)进行加窗处理,加窗处理后的各帧音频帧信号可表示为图4所示实施例中的公式(2)。
滤波处理子单元1242,用于对所述加窗处理后的各帧音频帧信号进行带通滤波处理。
其中,可采用bpf(n)表示带通滤波器,该带通滤波器的下截止频率可表示为wl,上截止频率可表示为wh。所述滤波处理子单元1242对加窗处理后的每一帧音频帧信号xiω(n)进行带通滤波处理后,可获得图4所示实施例中的公式(3)。
自相关计算单元1205,用于对所述预处理后的各帧音频帧信号进行自相关计算,获得所述各帧音频帧信号的自相关函数。
所述自相关计算单元1205可以采用图4所示实施例中的公式(4)计算算得到所述预处理后的各帧音频帧信号的自相关函数Ri(k)。
音高计算单元1206,用于根据所述各帧音频帧信号的自相关函数,计算所述各帧音频帧信号的Pitch值。
根据音频帧信号的频率特征,可以假设所述各帧音频帧信号的Pitch值均位于[pl,ph]的区间范围,其中,pl为所述各帧音频帧信号的Pitch值的下限,ph为所述各帧音频帧信号的Pitch值的上限。音频文件的采样率可表示为fs,即所述区间音频数据的采样率也为fs,采用fs可以确定检索该区间音频数据的各帧音频帧信号的位置,该位置可位于[DL,DH]的区间范围,其中,DL为该区间音频数据的每一帧音频帧信号的Pitch值的检索位置下限,DH为该区间音频数据的各帧音频帧信号的Pitch值的检索位置上限,且DL满足图4所示实施例中的公式(5),DH满足图4所示实施例中的公式(6)。
所述音高计算单元1206可在所述区间音频数据的各帧音频帧信号的自相关函数Ri(k)中,将[DL,DH]区间范围作为检索区域,查找最大值Ti(DL<=Ti<=DH),再根据图4所示实施例中的公式(7),即可得到所述区间音频数据的各帧音频帧信号的Pitch值pi(n)。
音高序列构建单元1207,用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的Pitch值进行排列,构建所述区间音频数据的Pitch序列。
所述至少一帧音频帧信号中的各帧音频帧信号的顺序,即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。所述音高序列构建单元1207按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序,对所述各帧音频帧信号的Pitch值进行排列,可构建所述区间音频数据的Pitch序列为pi(n)。
请参见图11,为本发明实施例提供的定位模块的实施例的结构示意图;该定位模块103可包括:归一化处理单元1301、位置计算单元1302和定位单元1303。
归一化处理单元1301,用于分别对所述区间音频数据的能量序列和频谱滚降序列进行归一化处理。
按照图8-图10所示实施例的描述,所述区间音频数据的能量序列可表示为Ei(n),所述区间音频数据的Pitch序列可表示为pi(n)。所述归一化处理单元1301可采用图5所示实施例中的公式(8),对所述Ei(n)进行归一化处理,获得归一化后的能量序列为Emi(n);所述归一化处理单元1301可采用图5所示实施例中的公式(9),对所述pi(n)进行归一化处理,获得归一化后的Pitch序列为Pmi(n)。
位置计算单元1302,用于根据所述归一化后的能量序列、所述归一化后的频谱滚降序列以及预设的副歌时长,计算副歌在所述区间音频数据中的位置。
所述位置计算单元1302的计算过程具体可包括以下步骤C’-H’:
C’、计算Emi(n)序列和Pmi(n)序列的和,获得Si(n)序列,该Si(n)序列可表示为图5所示实施例中的公式(10)。
D’、假设副歌时长为T',需要说明的是,副歌时长可以根据用户的实际需要进行设定,例如可以为10s,20s等等。由于该区间音频数据包含的任一帧音频帧信号xi(n)的帧长为Ts,则可计算获得副歌时长相对于每帧音频帧信号的比值L,该L可表示为图5所示实施例中的公式(11)。
E’、对Si(n)序列进行均值滤波处理,获得Smi(n)序列。需要说明的是,对Si(n)序列进行均值滤波处理时,所采用的阶数tap为可表示为图5所示实施例中的公式(12)。
F’、查找Smi(n)序列中的最大值,并获取该最大值对应的n的取值,假设此时n的取值为IND。
G’、确定副歌在所述区间音频数据中的帧起止位置,其中,帧起始位置str可表示为图5所示实施例中的公式(13),帧终止位置end可表示为图5所示实施例中的公式(14)。
H’、确定副歌在所述区间音频数据中的时间起止位置,其中,副歌在所述区间音频数据中的时间起始位置tstr可表示为图5所示实施例中的公式(15),所述副歌在所述区间音频数据中的时间终止位置tend可表示为图5所示实施例中的公式(16)。
定位单元1303,用于根据所述副歌在所述区间音频数据中的位置,在所述音频文件中定位所述副歌。
所述定位单元1303根据所述副歌在所述区间音频数据中的时间起止位置,可在所述音频文件中定位所述副歌的时间起止位置,其中,副歌在所述音频文件中的时间起始位置Tstr可表示为图5所示实施例中的公式(17),副歌在所述音频文件中的时间终端位置Tend可表示为图5所示实施例中的公式(18)。
通过上述附图6-附图11所示实施例的描述,本发明实施例可从待处理的音频文件中选取区间音频数据,构建区间音频数据的特征参数序列,以实现音频文件的副歌定位,提升了音频处理的智能性;另外,由于仅需要从音频文件中选取区间音频数据进行音频处理,可有效提升音频处理的效率,进一步提升音频处理的智能性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,附图6-附图11所示音频处理装置的模块或单元对应的程序可存储在终端设备或服务器的可读存储介质内,并被该终端设备或服务器中的至少一个处理器执行,以实现上述音频处理方法,该方法包括图1至图5中各方法实施例所述的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。