CN105047202B - 一种音频处理方法、装置及终端 - Google Patents

一种音频处理方法、装置及终端 Download PDF

Info

Publication number
CN105047202B
CN105047202B CN201510271014.1A CN201510271014A CN105047202B CN 105047202 B CN105047202 B CN 105047202B CN 201510271014 A CN201510271014 A CN 201510271014A CN 105047202 B CN105047202 B CN 105047202B
Authority
CN
China
Prior art keywords
audio
sharp peaks
peaks characteristic
target
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510271014.1A
Other languages
English (en)
Other versions
CN105047202A (zh
Inventor
赵伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201510271014.1A priority Critical patent/CN105047202B/zh
Publication of CN105047202A publication Critical patent/CN105047202A/zh
Priority to PCT/CN2016/081999 priority patent/WO2016188329A1/zh
Priority to EP16799218.9A priority patent/EP3340238B1/en
Priority to JP2018513709A priority patent/JP6586514B2/ja
Priority to US15/576,198 priority patent/US20180158469A1/en
Application granted granted Critical
Publication of CN105047202B publication Critical patent/CN105047202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Stereophonic System (AREA)

Abstract

本发明实施例提供一种音频处理方法、装置及终端,其中的方法可包括:获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧;根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素;对所述峰值特征序列进行规整处理;根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间;按照所述段落变化时间对所述目标音频文件进行段落划分。本发明可基于音频文件的音频数据包含的音频帧的相关性实现对目标音频文件的段落划分,提升分段处理效率,提升音频处理的智能性。

Description

一种音频处理方法、装置及终端
技术领域
本发明互联网技术领域,具体涉及音频处理技术领域,尤其涉及一种音频处理方法、装置及终端。
背景技术
随着互联网技术的发展,互联网音频库中收录了大量的诸如歌曲、歌曲片段等音频文件,关于互联网音频的应用也日渐增多,例如:K歌系统、听歌系统等等。许多音频文件的应用场景需要对音频文件进行段落划分,例如:K歌系统中要实现歌曲分段合唱时,通常需要对歌曲进行段落划分;再如:听歌系统中需要重点听取歌曲片段时,通常需要对歌曲进行段落划分;等等。目前,通常采用人工对音频文件进行段落划分,分段处理效率较低,无法满足用户对音频文件的使用需求,从而降低了音频处理的智能性。
发明内容
本发明实施例提供一种音频处理方法、装置及终端,可基于音频文件的音频数据包含的音频帧的相关性实现对目标音频文件的段落划分,提升分段处理效率,提升音频处理的智能性。
本发明实施例第一方面提供一种音频处理方法,可包括:
获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧;
根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素;
对所述峰值特征序列进行规整处理;
根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间;
按照所述段落变化时间对所述目标音频文件进行段落划分。
本发明实施例第二方面提供一种音频处理装置,可包括:
获取单元,用于获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧;
构建单元,用于根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素;
规整处理单元,用于对所述峰值特征序列进行规整处理;
确定单元,用于根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间;
分段单元,用于按照所述段落变化时间对所述目标音频文件进行段落划分。
本发明实施例第三方面提供一种终端,可包括上述第二方面提供的音频处理装置。
实施本发明实施例,具有如下有益效果:
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音频处理方法的流程图;
图2为本发明实施例提供的另一种音频处理方法的流程图;
图3为本发明实施例提供的一种音频处理装置的结构示意图;
图4为图3所示的获取单元的实施例的结构示意图;
图5为图3所示的构建单元的实施例的结构示意图;
图6为图3所示的规整处理单元的实施例的结构示意图;
图7为图3所示的确定单元的实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,音频文件可以包括但不限于:歌曲、歌曲片段等文件。一个音频文件包括音频数据,对音频文件进行解码(例如:PCM解码)可以获得音频数据(例如:PCM数据)。一个音频文件的音频数据可包括至少一个音频帧,也就是说,一个音频文件的音频数据可以表示为多个音频帧顺序组成的一个帧序列。一个音频文件可以被划分为多个音频段落,音频段落之间通常具备一定的重复性,也就是说,音频段落之间所包含的音频帧存在一定的相关性。本发明实施例可利用上述的音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分。
基于上述描述,下面将结合附图1-附图2,对本发明实施例提供的音频处理方法进行详细介绍。
请参见图1,为本发明实施例提供的一种音频处理方法的流程图;该方法可包括以下步骤S101-步骤S105。
S101,获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧。
一个音频文件包括音频数据,对音频文件进行解码(例如:PCM解码)可以获得音频数据(例如:PCM数据)。本步骤可以对目标音频文件进行解码,获得所述目标音频文件的音频数据。所述音频数据可包括至少一个音频帧,所述音频数据可以表示为所述至少一个音频帧顺序组成的一个帧序列。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
S102,根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素。
所述峰值特征序列可用于反映所述至少一个音频帧的相似性。本步骤中,首先可采用相关计算公式计算所述至少一个音频帧的相关性,此处通过计算可获得所述至少一个音频帧的相关函数序列,假设采用r()表示相关函数,那么,相关计算可获得r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。其次可通过对所述至少一个音频帧的相关函数序列进行最大值、峰值等分析,构建峰值特征序列。
本发明实施例中,假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。
S103,对所述峰值特征序列进行规整处理。
本步骤中,可以采用预设的间隔系数对应的扫描区间对所述峰值特征序列v(n)进行规整处理。规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。
S104,根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间。
所述规整后的所述峰值特征序列v(n)中的各峰值特征元素的数值可用于描述音频帧之间的相关性,那么,本步骤可以根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定出现音频段落变化的时间。
S105,按照所述段落变化时间对所述目标音频文件进行段落划分。按照所获得的音频段落变化的时间,可以对所述目标音频文件进行段落划分。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图2,为本发明实施例提供的另一种音频处理方法的流程图;该方法可包括以下步骤S201-步骤S210。
S201,获取所述目标音频文件的类型,所述类型包括:双声道类型或单声道类型。
通常,互联网音频库中会存储多个音频文件及每个音频文件的属性,其中,音频文件的属性可包括但不限于:音频文件的音频特征、音频文件的标识、音频文件的类型等等。本步骤中,可以从互联网音频库中获取目标音频文件的类型;具体的获取方式可包括但不限于:可以根据目标音频文件的标识,在互联网音频库中查找该目标音频文件的类型;或者,可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配,由此在互联网音频库中定位目标音频文件,并获取所述目标音频文件的类型。
S202,若所述目标音频文件的类型为单声道类型,对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据;或者,若所述目标音频文件的类型为双声道类型,从所述双声道中选取一个声道,对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据;或者将所述双声道处理为混合声道,对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
其中,若所述目标音频文件的类型为单声道类型,则所述目标音频文件通过一个声道输出音频内容,本步骤需要对该单声道输出的音频内容进行解码获得音频数据。若所述目标音频文件的类型为双声道类型,则所述目标音频文件通过两个声道输出音频内容,本步骤可以选取一个声道输出的音频内容进行解码获得音频数据,另外,本步骤也可以首先可以采用Downmix等处理方式将两个声道处理为混合声道,再对混合声道输出的音频内容进行解码获得音频数据。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
本实施例的步骤S201-步骤S202可以为图1所示实施例的步骤S101的具体细化步骤。
S203,对所述至少一个音频帧中各音频帧进行相关计算,获得所述至少一个音频帧对应的相关函数序列。
可采用相关计算公式计算所述至少一个音频帧的相关性,该相关计算公式可表示如下:
上述公式(1)中,i为整数且0≤i≤N-1;m为整数且0≤i≤L;L为所述音频数据长度,假设所述音频数据的采样时间为T及采样率为f,则L=f*T;M为采样值的最大值,例如:若采样值为16bit,M=32767;若采样值为8bit,M=255,等等。
通过上述公式(1)可计算获得所述至少一个音频帧的相关函数序列为r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。
S204,对所述至少一个音频帧对应的相关函数序列进行最大值计算,生成基准序列。
所述基准序列可表示为D(n),本步骤可采用最大值计算公式求取所述基准序列,该最大值计算公式可表示如下:
D(n)=max(r(n),r(n+1),r(n+2)......r(N-2),r(N-1)) (2)
上述公式(2)中,max()为最大值求取函数。
经过上述公式(2)所获得的基准序列D(n),其共包括N个元素,分别为d(0)、d(1)…d(N-1)。
S205,对所述基准序列进行峰值求取计算,获得所述峰值特征序列。
假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。本步骤中,对所述基准序列D(n)进行峰值求取计算,其计算原则为,如果元素d(i)(其中,i为整数且0≤i≤N-1)的数值大于或等于与d(i)前后相邻的元素的数值,则使得v(i)=d(i);如果元素d(i)的数值小于与d(i)前后相邻的任一元素的数值,则使得v(i)=0。通过此计算原则,可以获得所述峰值特征序列v(n)的各峰值特征元素的数值。
本实施例的步骤S203-步骤S205可以为图1所示实施例的步骤S102的具体细化步骤。
S206,获取预设的间隔系数对应的扫描区间。
所述预设的间隔系数可以根据实际需要进行设定,假设所述预设的间隔系数为Q,那么,所述预设的间隔系数对应的扫描区间可以为[i-Q/2,i+Q/2](其中,i为整数且0≤i≤N-1)。
S207,采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整,将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值,将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。
所述目标值和所述特征值可以根据实际需要进行设定,本发明实施例可设置所述目标值为1,所述参考值为0。
步骤S206-步骤S207对所述峰值特征序列v(n)规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。本实施例的步骤S206-步骤S207可以为图1所示实施例的步骤S103的具体细化步骤。
S208,从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引。本步骤需要获取数值为1的峰值特征元素对应的目标索引,例如:假设v(i)=1,本步骤可获得的目标索引即为i。
S209,根据所述目标索引及所述目标音频文件的采样率,计算段落变化时间。
本步骤可以采用所述目标索引除以所述目标音频文件的采样率来获得段落变化时间,按照本实施例所示例子,所获得的目标索引为i,采样率为f,则某个段落变化时间为i/f,例如:若目标索引i=441000,采样率f=44100,那么i/f=100,也就是说,所述目标音频文件中在100s的地方出现音频段落的变化。
S210,按照所述段落变化时间对所述目标音频文件进行段落划分。按照所获得的音频段落变化的时间,可以对所述目标音频文件进行段落划分。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
下述将结合附图3-附图7,对本发明实施例提供的音频处理装置的结构和功能进行详细介绍。需要说明的是,下述附图3-附图7的所示的装置可以运行于终端中,以被应用于执行上述附图1-附图2所示的方法。
请参见图3,为本发明实施例提供的一种音频处理装置的结构示意图;该装置可包括:获取单元101、构建单元102、规整处理单元103、确定单元104和分段单元105。
获取单元101,用于获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧。
一个音频文件包括音频数据,对音频文件进行解码(例如:PCM解码)可以获得音频数据(例如:PCM数据)。所述获取单元101可以对目标音频文件进行解码,获得所述目标音频文件的音频数据。所述音频数据可包括至少一个音频帧,所述音频数据可以表示为所述至少一个音频帧顺序组成的一个帧序列。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
构建单元102,用于根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素。
所述峰值特征序列可用于反映所述至少一个音频帧的相似性。首先所述构建单元102可采用相关计算公式计算所述至少一个音频帧的相关性,此处通过计算可获得所述至少一个音频帧的相关函数序列,假设采用r()表示相关函数,那么,相关计算可获得r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。其次所述构建单元102可通过对所述至少一个音频帧的相关函数序列进行最大值、峰值等分析,构建峰值特征序列。
本发明实施例中,假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。
规整处理单元103,用于对所述峰值特征序列进行规整处理。
所述规整处理单元103可以采用预设的间隔系数对应的扫描区间对所述峰值特征序列v(n)进行规整处理。规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。
确定单元104,用于根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间。
所述规整后的所述峰值特征序列v(n)中的各峰值特征元素的数值可用于描述音频帧之间的相关性,那么,所述确定单元104可以根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定出现音频段落变化的时间。
分段单元105,用于按照所述段落变化时间对所述目标音频文件进行段落划分。
按照所获得的音频段落变化的时间,所述分段单元105可以对所述目标音频文件进行段落划分。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图4,为图3所示的获取单元的实施例的结构示意图;该获取单元101可包括:类型获取单元1001和解码单元1002。
类型获取单元1001,用于获取所述目标音频文件的类型,所述类型包括:双声道类型或单声道类型。
通常,互联网音频库中会存储多个音频文件及每个音频文件的属性,其中,音频文件的属性可包括但不限于:音频文件的音频特征、音频文件的标识、音频文件的类型等等。所述类型获取单元1001可以从互联网音频库中获取目标音频文件的类型;具体的获取方式可包括但不限于:可以根据目标音频文件的标识,在互联网音频库中查找该目标音频文件的类型;或者,可以提取目标音频文件的音频特征与互联网音频库中的音频文件的音频特征进行匹配,由此在互联网音频库中定位目标音频文件,并获取所述目标音频文件的类型。
解码单元1002,用于若所述目标音频文件的类型为单声道类型,对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据;或者,用于若所述目标音频文件的类型为双声道类型,从所述双声道中选取一个声道,对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据;或者将所述双声道处理为混合声道,对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
其中,若所述目标音频文件的类型为单声道类型,则所述目标音频文件通过一个声道输出音频内容,所述解码单元1002需要对该单声道输出的音频内容进行解码获得音频数据。若所述目标音频文件的类型为双声道类型,则所述目标音频文件通过两个声道输出音频内容,所述解码单元1002可以选取一个声道输出的音频内容进行解码获得音频数据,另外,所述解码单元1002也可以首先可以采用Downmix等处理方式将两个声道处理为混合声道,再对混合声道输出的音频内容进行解码获得音频数据。
本发明实施例中,设定所述音频数据包含N个音频帧,N为正整数,即N为所述音频数据的采样点数,所述音频数据可表示为x(n),其中,n为正整数且n=0,1,2,N-1。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图5,为图3所示的构建单元的实施例的结构示意图;该构建单元102可包括:相关计算单元2001、生成单元2002和序列求取单元2003。
相关计算单元2001,用于对所述至少一个音频帧中各音频帧进行相关计算,获得所述至少一个音频帧对应的相关函数序列。
所述相关计算单元2001可采用相关计算公式计算所述至少一个音频帧的相关性,该相关计算公式可表示如图2所示实施例中的公式(1)。通过上述公式(1)可计算获得所述至少一个音频帧的相关函数序列为r(n)、r(n+1)、r(n+2)…r(N-2)、r(N-1)。
生成单元2002,用于对所述至少一个音频帧对应的相关函数序列进行最大值计算,生成基准序列。
所述基准序列可表示为D(n),所述生成单元2002可采用最大值计算公式求取所述基准序列,该最大值计算公式可表示为图2所示实施例中的公式(2)。经过上述公式(2)所获得的基准序列D(n),其共包括N个元素,分别为d(0)、d(1)…d(N-1)。
序列求取单元2003,用于对所述基准序列进行峰值求取计算,获得所述峰值特征序列。
假设采用v(n)表示所述峰值特征序列。则所构建的峰值特征序列v(n)共包括N个波峰特征元素,分别为v(0)、v(1)…v(N-1)。其中,v(0)的数值可用于描述音频帧x(0)与其在后音频帧之间的相关性;v(1)的数值可用于描述x(1)与其在后音频帧之间的相关性;以此类推。所述序列求取单元2003对所述基准序列D(n)进行峰值求取计算,其计算原则为,如果元素d(i)(其中,i为整数且0≤i≤N-1)的数值大于或等于与d(i)前后相邻的元素的数值,则使得v(i)=d(i);如果元素d(i)的数值小于与d(i)前后相邻的任一元素的数值,则使得v(i)=0。通过此计算原则,可以获得所述峰值特征序列v(n)的各峰值特征元素的数值。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图6,为图3所示的规整处理单元的实施例的结构示意图;该规整处理单元103可包括:区间获取单元3001和规整单元3002。
区间获取单元3001,用于获取预设的间隔系数对应的扫描区间。
所述预设的间隔系数可以根据实际需要进行设定,假设所述预设的间隔系数为Q,那么,所述预设的间隔系数对应的扫描区间可以为[i-Q/2,i+Q/2](其中,i为整数且0≤i≤N-1)。
规整单元3002,用于采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整,将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值,将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。所述目标值和所述特征值可以根据实际需要进行设定,本发明实施例可设置所述目标值为1,所述参考值为0。
对所述峰值特征序列v(n)规整处理的目的在于:使得所述峰值特征序列v(n)在所述预设的间隔系数对应的扫描区间内仅存在一个最大峰值,以保证后续段落划分的准确性。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
请参见图7,为图3所示的确定单元的实施例的结构示意图;该确定单元104可包括:目标索引获取单元4001和时间计算单元4002。
目标索引获取单元4001,用于从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引。
按照图6所示实施例所示的例子,所述目标索引获取单元4001需要获取数值为1的峰值特征元素对应的目标索引,例如:假设v(i)=1,所述目标索引获取单元4001可获得的目标索引即为i。
时间计算单元4002,用于根据所述目标索引及所述目标音频文件的采样率,计算段落变化时间。
所述时间计算单元4002,可以采用所述目标索引除以所述目标音频文件的采样率来获得段落变化时间,按照本实施例所示例子,所获得的目标索引为i,采样率为f,则某个段落变化时间为i/f,例如:若目标索引i=441000,采样率f=44100,那么i/f=100,也就是说,所述目标音频文件中在100s的地方出现音频段落的变化。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
本发明实施例还公开了一种终端,该终端可以为PC(Personal Computer,个人计算机)、笔记本电脑、手机、PAD(平板电脑)、车载终端、智能可穿戴设备等设备。该终端中可包括一音频处理装置,该装置的结构和功能可参见上述图3-图7所示实施例的相关描述,在此不赘述。
本发明实施例中,可根据目标音频文件的音频数据包含的至少一个音频帧的相关性构建峰值特征序列,对所述峰值特征序列进行规整处理,并根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,按照所述段落变化时间对所述目标音频文件进行段落划分,该音频处理过程利用音频段落之间的音频帧的相关性特点,实现对目标音频文件的段落划分,可提升分段处理效率,提升音频处理的智能性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (11)

1.一种音频处理方法,其特征在于,包括:
获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧;
根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素;
对所述峰值特征序列进行规整处理;
根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间;
按照所述段落变化时间对所述目标音频文件进行段落划分。
2.如权利要求1所述的方法,其特征在于,所述获取目标音频文件的音频数据,包括:
获取所述目标音频文件的类型,所述类型包括:双声道类型或单声道类型;
若所述目标音频文件的类型为单声道类型,对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据;
若所述目标音频文件的类型为双声道类型,从所述双声道中选取一个声道,对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据;或者将所述双声道处理为混合声道,对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
3.如权利要求1或2所述的方法,其特征在于,所述根据所述至少一个音频帧的相关性构建峰值特征序列,包括:
对所述至少一个音频帧中各音频帧进行相关计算,获得所述至少一个音频帧对应的相关函数序列;
对所述至少一个音频帧对应的相关函数序列进行最大值计算,生成基准序列;
对所述基准序列进行峰值求取计算,获得所述峰值特征序列。
4.如权利要求3所述的方法,其特征在于,所述对所述峰值特征序列进行规整处理,包括:
获取预设的间隔系数对应的扫描区间;
采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整,将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值,将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。
5.如权利要求4所述的方法,其特征在于,所述根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间,包括:
从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引;
根据所述目标索引及所述目标音频文件的采样率,计算段落变化时间。
6.一种音频处理装置,其特征在于,包括:
获取单元,用于获取目标音频文件的音频数据,所述音频数据包括至少一个音频帧;
构建单元,用于根据所述至少一个音频帧的相关性构建峰值特征序列,所述峰值特征序列包括至少一个峰值特征元素;
规整处理单元,用于对所述峰值特征序列进行规整处理;
确定单元,用于根据规整后的所述峰值特征序列中的至少一个峰值特征元素的数值确定段落变化时间;
分段单元,用于按照所述段落变化时间对所述目标音频文件进行段落划分。
7.如权利要求6所述的装置,其特征在于,所述获取单元包括:
类型获取单元,用于获取所述目标音频文件的类型,所述类型包括:双声道类型或单声道类型;
解码单元,用于若所述目标音频文件的类型为单声道类型,对所述目标音频文件从所述单声道输出的内容进行解码获得音频数据;或者,用于若所述目标音频文件的类型为双声道类型,从所述双声道中选取一个声道,对所述目标音频文件从所选取声道输出的内容进行解码获得音频数据;或者将所述双声道处理为混合声道,对所述目标音频文件从所述混合声道输出的内容进行解码获得音频数据。
8.如权利要求6或7所述的装置,其特征在于,所述构建单元包括:
相关计算单元,用于对所述至少一个音频帧中各音频帧进行相关计算,获得所述至少一个音频帧对应的相关函数序列;
生成单元,用于对所述至少一个音频帧对应的相关函数序列进行最大值计算,生成基准序列;
序列求取单元,用于对所述基准序列进行峰值求取计算,获得所述峰值特征序列。
9.如权利要求8所述的装置,其特征在于,所述规整处理单元包括:
区间获取单元,用于获取预设的间隔系数对应的扫描区间;
规整单元,用于采用所述预设的间隔系数对应的扫描区间对所述峰值特征序列进行规整,将所述预设的间隔系数对应的扫描区间内的最大峰值对应的峰值特征元素的数值设置为目标值,将所述预设的间隔系数对应的扫描区间内除所述最大峰值对应的峰值特征元素之外的其他峰值特征元素的数值设置为初始值。
10.如权利要求9所述的装置,其特征在于,所述确定单元包括:
目标索引获取单元,用于从规整后的所述峰值特征序列中获取数值为目标值的峰值特征元素对应的目标索引;
时间计算单元,用于根据所述目标索引及所述目标音频文件的采样率,计算段落变化时间。
11.一种终端,其特征在于,包括如权利要求6-10任一项所述的音频处理装置。
CN201510271014.1A 2015-05-25 2015-05-25 一种音频处理方法、装置及终端 Active CN105047202B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201510271014.1A CN105047202B (zh) 2015-05-25 2015-05-25 一种音频处理方法、装置及终端
PCT/CN2016/081999 WO2016188329A1 (zh) 2015-05-25 2016-05-13 一种音频处理方法、装置及终端
EP16799218.9A EP3340238B1 (en) 2015-05-25 2016-05-13 Method and device for audio processing
JP2018513709A JP6586514B2 (ja) 2015-05-25 2016-05-13 オーディオ処理の方法、装置及び端末
US15/576,198 US20180158469A1 (en) 2015-05-25 2016-05-13 Audio processing method and apparatus, and terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510271014.1A CN105047202B (zh) 2015-05-25 2015-05-25 一种音频处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN105047202A CN105047202A (zh) 2015-11-11
CN105047202B true CN105047202B (zh) 2019-04-16

Family

ID=54453689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510271014.1A Active CN105047202B (zh) 2015-05-25 2015-05-25 一种音频处理方法、装置及终端

Country Status (1)

Country Link
CN (1) CN105047202B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3340238B1 (en) * 2015-05-25 2020-07-22 Guangzhou Kugou Computer Technology Co., Ltd. Method and device for audio processing
CN104978961B (zh) * 2015-05-25 2019-10-15 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
CN107993637B (zh) * 2017-11-03 2021-10-08 厦门快商通信息技术有限公司 一种卡拉ok歌词分词方法与系统
CN107862093B (zh) * 2017-12-06 2020-06-30 广州酷狗计算机科技有限公司 文件属性识别方法及装置
CN111782863B (zh) * 2020-06-30 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 音频分段方法、装置、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499268A (zh) * 2008-02-01 2009-08-05 三星电子株式会社 自动生成音乐结构性界面信息的设备和方法及检索系统
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104376108A (zh) * 2014-11-26 2015-02-25 克拉玛依红有软件有限责任公司 一种基于6w语义标识的非结构化自然语言信息抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
US9528852B2 (en) * 2012-03-02 2016-12-27 Nokia Technologies Oy Method and apparatus for generating an audio summary of a location

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499268A (zh) * 2008-02-01 2009-08-05 三星电子株式会社 自动生成音乐结构性界面信息的设备和方法及检索系统
CN104142915A (zh) * 2013-05-24 2014-11-12 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN104376108A (zh) * 2014-11-26 2015-02-25 克拉玛依红有软件有限责任公司 一种基于6w语义标识的非结构化自然语言信息抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于音视频特征的电视广告单元分割技术;汪玉山,史萍;《电视技术》;20121231(第16期);全文
基于音频和视觉特征的语音端点检测;陈庆利;《中国优秀硕士学位论文全文数据库》;20070531(第05期);全文

Also Published As

Publication number Publication date
CN105047202A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN105047202B (zh) 一种音频处理方法、装置及终端
US10776422B2 (en) Dual sound source audio data processing method and apparatus
CN104464726B (zh) 一种相似音频的确定方法及装置
CN105047203B (zh) 一种音频处理方法、装置及终端
CN104282322B (zh) 一种移动终端及其识别歌曲高潮部分的方法和装置
CN104410379B (zh) 一种音量调节方法
TWI711967B (zh) 播報語音的確定方法、裝置和設備
CN107393569A (zh) 音视频剪辑方法及装置
JP2019505874A (ja) 歌曲確定方法及び装置、記憶媒体
CN104978961B (zh) 一种音频处理方法、装置及终端
CN104363510B (zh) 一种播放终端
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN110136729B (zh) 模型生成方法、音频处理方法、装置及计算机可读存储介质
CN106708990A (zh) 一种音乐片段提取方法和设备
CN105161116A (zh) 多媒体文件高潮片段的确定方法及装置
CN102568457A (zh) 一种基于哼唱输入的乐曲合成方法及装置
CN106887241A (zh) 一种语音信号检测方法与装置
CN109979418B (zh) 音频处理方法、装置、电子设备及存储介质
CN103188595A (zh) 处理多声道音频信号的方法和系统
JP2002041089A (ja) 周波数補間装置、周波数補間方法及び記録媒体
CN105931634A (zh) 音频筛选方法和装置
CN111210850B (zh) 歌词对齐方法及相关产品
CN105575414B (zh) 歌词文件的生成方法及装置
CN104091591B (zh) 一种音频处理方法及装置
CN110033782A (zh) 单位时间内音节数量的计算方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20161226

Address after: 510000 Guangzhou, Tianhe District branch Yun Yun Road, No. 16, self built room 2, building 1301

Applicant after: Guangzhou Kugou Inc.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510000 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: 510000 Guangzhou, Tianhe District branch Yun Yun Road, No. 16, self built room 2, building 1301

Applicant before: Guangzhou KuGou Networks Co., Ltd.

GR01 Patent grant
GR01 Patent grant