具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,音频文件可以包括但不限于:歌曲、歌曲片段等文件。一个音频文件包括音频数据,对音频文件进行解码(例如:PCM解码)可以获得音频数据(例如:PCM数据)。一个音频文件的音频数据可包括至少一个音频帧,也就是说,一个音频文件的音频数据可以表示为多个音频帧顺序组成的一个帧序列。一个音频文件可以被划分为多个音频段落,音频段落之间通常具备一定的重复性,也就是说,音频段落之间所包含的音频帧存在一定的相关性。本发明实施例可利用上述的音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分。
基于上述描述,下面将结合附图1-附图2,对本发明实施例提供的音频处理方法进行详细介绍。
请参见图1,为本发明实施例提供的一种音频处理方法的流程图;该方法可包括以下步骤S101-步骤S105。
S101,获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧。
一个音频文件包括音频数据,对音频文件进行解码(例如:PCM解码)可以获得音频数据(例如:PCM数据)。本步骤可以对目标音频文件进行解码,获得所述目标音频文件的音频数据。所述音频数据可包括至少一个音频帧,所述音频数据可以表示为所述至少一个音频帧顺序组成的一个帧序列。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
S102,根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素。
所述峰值特征序列可用于反映所述至少一个音频帧的相似性。本步骤中,首先可采用相关计算公式计算所述至少一个音频帧的相关性,此处通过计算可获得所述至少一个音频帧的相关函数序列,假设采用r()表示相关函数,那么,相关计算可获得r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。其次可通过对所述至少一个音频帧的相关函数序列进行最大值、峰值等分析,构建峰值特征序列。
本发明实施例中,假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。
S103,对所述峰值特征序列进行规整处理。
本步骤中,可以采用预设的间隔系数对应的扫描区间对所述峰值特征序列v(n)进行规整处理。规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。
S104,根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间。
所述规整后的所述峰值特征序列v(n)中的各峰值特征元素的数值可用于描述音频帧之间的相关性,那么,本步骤可以根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定出现音频段落变化的时间。
S105,按照所述段落变化时间对所述目标音频文件进行段落划分。按照所获得的音频段落变化的时间,可以对所述目标音频文件进行段落划分。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图2,为本发明实施例提供的另一种音频处理方法的流程图;该方法可包括以下步骤S201-步骤S210。
S201,获取所述目标音频文件的类型,所述类型包括:双声道类型或单声道类型。
通常,互联网音频库中会存储多个音频文件及每个音频文件的属性,其中,音频文件的属性可包括但不限于:音频文件的音频特征、音频文件的标识、音频文件的类型等等。本步骤中,可以从互联网音频库中获取目标音频文件的类型;具体的获取方式可包括但不限于:可以根据目标音频文件的标识,在互联网音频库中查找该目标音频文件的类型;或者,可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配,由此在互联网音频库中定位目标音频文件,并获取所述目标音频文件的类型。
S202,若所述目标音频文件的类型为单声道类型,对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据;或者,若所述目标音频文件的类型为双声道类型,从所述双声道中选取一个声道,对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据;或者将所述双声道处理为混合声道,对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
其中,若所述目标音频文件的类型为单声道类型,则所述目标音频文件通过一个声道输出音频内容,本步骤需要对该单声道输出的音频内容进行解码获得音频数据。若所述目标音频文件的类型为双声道类型,则所述目标音频文件通过两个声道输出音频内容,本步骤可以选取一个声道输出的音频内容进行解码获得音频数据,另外,本步骤也可以首先可以采用Downmix等处理方式将两个声道处理为混合声道,再对混合声道输出的音频内容进行解码获得音频数据。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
本实施例的步骤S201-步骤S202可以为图1所示实施例的步骤S101的具体细化步骤。
S203,对所述至少一个音频帧中各音频帧进行相关计算,获得所述至少一个音频帧对应的相关函数序列。
可采用相关计算公式计算所述至少一个音频帧的相关性,该相关计算公式可表示如下:
上述公式(1)中,i为整数且0≤i≤N-1;m为整数且0≤i≤L;L为所述音频数据长度,假设所述音频数据的采样时间为T及采样率为f,则L=f*T;M为采样值的最大值,例如:若采样值为16bit,M=32767;若采样值为8bit,M=255,等等。
通过上述公式(1)可计算获得所述至少一个音频帧的相关函数序列为r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。
S204,对所述至少一个音频帧对应的相关函数序列进行最大值计算,生成基准序列。
所述基准序列可表示为D(n),本步骤可采用最大值计算公式求取所述基准序列,该最大值计算公式可表示如下:
D(n)=max(r(n),r(n+1),r(n+2)......r(N-2),r(N-1))(2)
上述公式(2)中,max()为最大值求取函数。
经过上述公式(2)所获得的基准序列D(n),其共包括N个元素,分别为d(0)、d(1)…d(N-1)。
S205,对所述基准序列进行峰值求取计算,获得所述峰值特征序列。
假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。本步骤中,对所述基准序列D(n)进行峰值求取计算,其计算原则为,如果元素d(i)(其中,i为整数且0≤i≤N-1)的数值大于或等于与d(i)前后相邻的元素的数值,则使得v(i)=d(i);如果元素d(i)的数值小于与d(i)前后相邻的任一元素的数值,则使得v(i)=0。通过此计算原则,可以获得所述峰值特征序列v(n)的各峰值特征元素的数值。
本实施例的步骤S203-步骤S205可以为图1所示实施例的步骤S102的具体细化步骤。
S206,获取预设的间隔系数对应的扫描区间。
所述预设的间隔系数可以根据实际需要进行设定,假设所述预设的间隔系数为Q,那么,所述预设的间隔系数对应的扫描区间可以为[i-Q/2,i+Q/2](其中,i为整数且0≤i≤N-1)。
S207,采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整,将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值,将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。
所述目标值和所述特征值可以根据实际需要进行设定,本发明实施例可设置所述目标值为1,所述参考值为0。
步骤S206-步骤S207对所述峰值特征序列v(n)规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。本实施例的步骤S206-步骤S207可以为图1所示实施例的步骤S103的具体细化步骤。
S208,从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引。本步骤需要获取数值为1的峰值特征元素对应的目标索引,例如:假设v(i)=1,本步骤可获得的目标索引即为i。
S209,根据所述目标索引及所述目标音频文件的采样率,计算段落变化时间。
本步骤可以采用所述目标索引除以所述目标音频文件的采样率来获得段落变化时间,按照本实施例所示例子,所获得的目标索引为i,采样率为f,则某个段落变化时间为i/f,例如:若目标索引i=441000,采样率f=44100,那么i/f=100,也就是说,所述目标音频文件中在100s的地方出现音频段落的变化。
S210,按照所述段落变化时间对所述目标音频文件进行段落划分。按照所获得的音频段落变化的时间,可以对所述目标音频文件进行段落划分。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
下述将结合附图3-附图7,对本发明实施例提供的音频处理装置的结构和功能进行详细介绍。需要说明的是,下述附图3-附图7的所示的装置可以运行于终端中,以被应用于执行上述附图1-附图2所示的方法。
请参见图3,为本发明实施例提供的一种音频处理装置的结构示意图;该装置可包括:获取单元101、构建单元102、规整处理单元103、确定单元104和分段单元105。
获取单元101,用于获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧。
一个音频文件包括音频数据,对音频文件进行解码(例如:PCM解码)可以获得音频数据(例如:PCM数据)。所述获取单元101可以对目标音频文件进行解码,获得所述目标音频文件的音频数据。所述音频数据可包括至少一个音频帧,所述音频数据可以表示为所述至少一个音频帧顺序组成的一个帧序列。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
构建单元102,用于根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素。
所述峰值特征序列可用于反映所述至少一个音频帧的相似性。首先所述构建单元102可采用相关计算公式计算所述至少一个音频帧的相关性,此处通过计算可获得所述至少一个音频帧的相关函数序列,假设采用r()表示相关函数,那么,相关计算可获得r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。其次所述构建单元102可通过对所述至少一个音频帧的相关函数序列进行最大值、峰值等分析,构建峰值特征序列。
本发明实施例中,假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。
规整处理单元103,用于对所述峰值特征序列进行规整处理。
所述规整处理单元103可以采用预设的间隔系数对应的扫描区间对所述峰值特征序列v(n)进行规整处理。规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。
确定单元104,用于根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间。
所述规整后的所述峰值特征序列v(n)中的各峰值特征元素的数值可用于描述音频帧之间的相关性,那么,所述确定单元104可以根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定出现音频段落变化的时间。
分段单元105,用于按照所述段落变化时间对所述目标音频文件进行段落划分。
按照所获得的音频段落变化的时间,所述分段单元105可以对所述目标音频文件进行段落划分。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图4,为图3所示的获取单元的实施例的结构示意图;该获取单元101可包括:类型获取单元1001和解码单元1002。
类型获取单元1001,用于获取所述目标音频文件的类型,所述类型包括:双声道类型或单声道类型。
通常,互联网音频库中会存储多个音频文件及每个音频文件的属性,其中,音频文件的属性可包括但不限于:音频文件的音频特征、音频文件的标识、音频文件的类型等等。所述类型获取单元1001可以从互联网音频库中获取目标音频文件的类型;具体的获取方式可包括但不限于:可以根据目标音频文件的标识,在互联网音频库中查找该目标音频文件的类型;或者,可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配,由此在互联网音频库中定位目标音频文件,并获取所述目标音频文件的类型。
解码单元1002,用于若所述目标音频文件的类型为单声道类型,对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据;或者,用于若所述目标音频文件的类型为双声道类型,从所述双声道中选取一个声道,对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据;或者将所述双声道处理为混合声道,对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
其中,若所述目标音频文件的类型为单声道类型,则所述目标音频文件通过一个声道输出音频内容,所述解码单元1002需要对该单声道输出的音频内容进行解码获得音频数据。若所述目标音频文件的类型为双声道类型,则所述目标音频文件通过两个声道输出音频内容,所述解码单元1002可以选取一个声道输出的音频内容进行解码获得音频数据,另外,所述解码单元1002也可以首先可以采用Downmix等处理方式将两个声道处理为混合声道,再对混合声道输出的音频内容进行解码获得音频数据。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图5,为图3所示的构建单元的实施例的结构示意图;该构建单元102可包括:相关计算单元2001、生成单元2002和序列求取单元2003。
相关计算单元2001,用于对所述至少一个音频帧中各音频帧进行相关计算,获得所述至少一个音频帧对应的相关函数序列。
所述相关计算单元2001可采用相关计算公式计算所述至少一个音频帧的相关性,该相关计算公式可表示如图2所示实施例中的公式(1)。通过上述公式(1)可计算获得所述至少一个音频帧的相关函数序列为r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。
生成单元2002,用于对所述至少一个音频帧对应的相关函数序列进行最大值计算,生成基准序列。
所述基准序列可表示为D(n),所述生成单元2002可采用最大值计算公式求取所述基准序列,该最大值计算公式可表示为图2所示实施例中的公式(2)。经过上述公式(2)所获得的基准序列D(n),其共包括N个元素,分别为d(0)、d(1)…d(N-1)。
序列求取单元2003,用于对所述基准序列进行峰值求取计算,获得所述峰值特征序列。
假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。所述序列求取单元2003对所述基准序列D(n)进行峰值求取计算,其计算原则为,如果元素d(i)(其中,i为整数且0≤i≤N-1)的数值大于或等于与d(i)前后相邻的元素的数值,则使得v(i)=d(i);如果元素d(i)的数值小于与d(i)前后相邻的任一元素的数值,则使得v(i)=0。通过此计算原则,可以获得所述峰值特征序列v(n)的各峰值特征元素的数值。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图6,为图3所示的规整处理单元的实施例的结构示意图;该规整处理单元103可包括:区间获取单元3001和规整单元3002。
区间获取单元3001,用于获取预设的间隔系数对应的扫描区间。
所述预设的间隔系数可以根据实际需要进行设定,假设所述预设的间隔系数为Q,那么,所述预设的间隔系数对应的扫描区间可以为[i-Q/2,i+Q/2](其中,i为整数且0≤i≤N-1)。
规整单元3002,用于采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整,将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值,将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。所述目标值和所述特征值可以根据实际需要进行设定,本发明实施例可设置所述目标值为1,所述参考值为0。
对所述峰值特征序列v(n)规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图7,为图3所示的确定单元的实施例的结构示意图;该确定单元104可包括:目标索引获取单元4001和时间计算单元4002。
目标索引获取单元4001,用于从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引。
按照图6所示实施例所示的例子,所述目标索引获取单元4001需要获取数值为1的峰值特征元素对应的目标索引,例如:假设v(i)=1,所述目标索引获取单元4001可获得的目标索引即为i。
时间计算单元4002,用于根据所述目标索引及所述目标音频文件的采样率,计算段落变化时间。
所述时间计算单元4002,可以采用所述目标索引除以所述目标音频文件的采样率来获得段落变化时间,按照本实施例所示例子,所获得的目标索引为i,采样率为f,则某个段落变化时间为i/f,例如:若目标索引i=441000,采样率f=44100,那么i/f=100,也就是说,所述目标音频文件中在100s的地方出现音频段落的变化。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
本发明实施例还公开了一种终端,该终端可以为PC(PersonalComputer,个人计算机)、笔记本电脑、手机、PAD(平板电脑)、车载终端、智能可穿戴设备等设备。该终端中可包括一音频处理装置,该装置的结构和功能可参见上述图3-图7所示实施例的相关描述,在此不赘述。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。