CN103354091A - 基于频域变换的音频特征提取方法及装置 - Google Patents

基于频域变换的音频特征提取方法及装置 Download PDF

Info

Publication number
CN103354091A
CN103354091A CN2013102424475A CN201310242447A CN103354091A CN 103354091 A CN103354091 A CN 103354091A CN 2013102424475 A CN2013102424475 A CN 2013102424475A CN 201310242447 A CN201310242447 A CN 201310242447A CN 103354091 A CN103354091 A CN 103354091A
Authority
CN
China
Prior art keywords
frequency
region
segmentation frequency
segmentation
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102424475A
Other languages
English (en)
Other versions
CN103354091B (zh
Inventor
宋辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310242447.5A priority Critical patent/CN103354091B/zh
Publication of CN103354091A publication Critical patent/CN103354091A/zh
Application granted granted Critical
Publication of CN103354091B publication Critical patent/CN103354091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供一种基于频域变换的音频特征提取方法及装置。本发明实施例通过对音频信号进行切分处理,以生成至少两个分段频域信号,进而对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,以及根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量,使得能够根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,由于对音频特征进行了频域变换,可以获得频域变换之后的变换特征的高频分量,因此,能够实现用于描述所述音频信号的旋律特性的动态特征的提取,从而提高了音频特征的高频分量的可区分性。

Description

基于频域变换的音频特征提取方法及装置
【技术领域】
本发明涉及音频特征提取技术,尤其涉及一种基于频域变换的音频特征提取方法及装置。
【背景技术】
随着通信技术的发展,终端集成了越来越多的功能,从而使得终端的系统功能列表中包含了越来越多相应的应用程序,例如,电脑中安装的应用程序,第三方智能手机中安装的应用程序(Application,APP)等。有些应用程序中会涉及一些音频信号的特征提取,例如,基于内容的音乐辨识(MusicIdentification)服务、相似音乐推荐(Music Recommendation)服务等音频识别服务。现有技术中,一般只能提取音频信号的基础特征,例如,梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征、基音(pitch)特征和频率特征等音频特征,无法提取音频信号的旋律特征,从而导致了音频特征的高频分量的可区分性的降低。
【发明内容】
本发明的多个方面提供一种基于频域变换的音频特征提取方法及装置,用以提高音频特征的高频分量的可区分性。
本发明的一方面,提供一种基于频域变换的音频特征提取方法,包括:
对音频信号进行切分处理,以生成至少两个分段频域信号;
根据所述至少两个分段频域信号,获得每个所述分段频域信号的音频特征;
对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征;
根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量;
根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,包括:
对每个所述分段频域信号的音频特征进行离散余弦变换,以生成每个所述分段频域信号的变换特征;或者
对每个所述分段频域信号的音频特征进行小波变换,以生成每个所述分段频域信号的变换特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对音频信号进行切分处理,以生成至少两个分段频域信号,包括:
获得所述音频信号的频谱信息;以及根据所述音频信号的频谱信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号;或者
获得预先设置的分段长度信息;以及根据所述分段长度信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,包括:
对所述至少两个分段频域信号的变换特征的高频分量,进行差分处理,以获得所述至少两个分段频域信号的变换特征的差分特征;
根据所述至少两个分段频域信号的变换特征的高频分量和所述至少两个分段频域信号的变换特征的差分特征,生成所述动态特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,每个所述分段频域信号的长度相等或不相等。
本发明的另一方面,提供一种基于频域变换的音频特征提取装置,包括:
切分单元,用于对音频信号进行切分处理,以生成至少两个分段频域信号;
提取单元,用于根据所述至少两个分段频域信号,获得每个所述分段频域信号的音频特征;
变换单元,用于对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征;
获得单元,用于根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量;
生成单元,用于根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述变换单元,具体用于
对每个所述分段频域信号的音频特征进行离散余弦变换,以生成每个所述分段频域信号的变换特征;或者
对每个所述分段频域信号的音频特征进行小波变换,以生成每个所述分段频域信号的变换特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述切分单元,具体用于
获得所述音频信号的频谱信息;以及根据所述音频信号的频谱信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号;或者
获得预先设置的分段长度信息;以及根据所述分段长度信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述生成单元,具体用于
对所述至少两个分段频域信号的变换特征的高频分量,进行差分处理,以获得所述至少两个分段频域信号的变换特征的差分特征;
根据所述至少两个分段频域信号的变换特征的高频分量和所述至少两个分段频域信号的变换特征的差分特征,生成所述动态特征。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,每个所述分段频域信号的长度相等或不相等。
由上述技术方案可知,本发明实施例通过对音频信号进行切分处理,以生成至少两个分段频域信号,进而对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,以及根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量,使得能够根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,由于对音频特征进行了频域变换,可以获得频域变换之后的变换特征的高频分量,因此,能够实现用于描述所述音频信号的旋律特性的动态特征的提取,从而提高了音频特征的高频分量的可区分性。
另外,采用本发明提供的技术方案,由于能够有效提取用于描述所述音频信号的旋律特性的动态特征,因此,使得基于内容的音乐辨识(MusicIdentification)服务、相似音乐推荐(Music Recommendation)服务等音频识别服务的识别音频信号的准确率提高。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的基于频域变换的音频特征提取方法的流程示意图;
图2为本发明另一实施例提供的基于频域变换的音频特征提取装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的基于频域变换的音频特征提取方法的流程示意图,如图1所示。
101、对音频信号进行切分处理,以生成至少两个分段频域信号。
102、根据所述至少两个分段频域信号,获得每个所述分段频域信号的音频特征。
103、对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征。
104、根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量。
105、根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征。
需要说明的是,音频信号由若干帧组成,每一帧中可能包含音频特征,例如,最大频率信息等特征。
需要说明的是,101~105的执行主体可以是音频特征提取装置,可以位于本地的客户端中,以进行离线提取处理,或者还可以位于网络侧的服务器中,以进行在线提取处理,本实施例对此不进行限定。
可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够实现音频识别,以提供语音服务的客观存在形式都可以,本实施例对此不进行限定。
这样,通过对音频信号进行切分处理,以生成至少两个分段频域信号,进而对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,以及根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量,使得能够根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,由于对音频特征进行了频域变换,可以获得频域变换之后的变换特征的高频分量,因此,能够实现用于描述所述音频信号的旋律特性的动态特征的提取,从而提高了音频特征的高频分量的可区分性。
另外,采用本发明提供的技术方案,由于能够有效提取用于描述所述音频信号的旋律特性的动态特征,因此,使得基于内容的音乐辨识(MusicIdentification)服务、相似音乐推荐(Music Recommendation)服务等音频识别服务的识别音频信号的准确率提高。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以对每个所述分段频域信号的音频特征进行离散余弦变换(Discrete CosineTransform,DCT),以生成每个所述分段频域信号的变换特征。具体地,DCT的详细描述可以参见现有技术中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在103中,具体还可以对每个所述分段频域信号的音频特征进行小波变换(Wavelet Transform,WT),以生成每个所述分段频域信号的变换特征。具体地,WT的详细描述可以参见现有技术中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以生成长度相等的至少两个分段频域信号,或者还可以生成长度不相等的至少两个分段频域信号,本实施例对此不进行限定。
例如,具体可以获得预先设置的分段长度信息,例如,一个分段频域信号的长度为2秒(s)。然后,则可以进一步根据所述分段长度信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。其中,所述至少两个分段频域信号中的每个所述分段频域信号的长度相等。
或者,再例如,具体还可以获得所述音频信号的频谱信息即节奏信息,例如,鼓点、和旋等。然后,则可以进一步根据所述音频信号的频谱信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。其中,由于音频信号的节奏信息并不是恒定不变的,因此,所述至少两个分段频域信号中的每个所述分段频域信号的长度可以不相等。具体地,由于音频信号具有局部周期性的特点,因此,可以利用自相关函数法,通过搜索音频信号的自相关函数的周期性极大值,找到周期性存在的音频序列,例如,鼓点等。这种周期性的音频序列往往对应音频信号的局部能量极大点,而且在一定的时间范围内具有明显的周期特性,因此通常能够比较准确的检测到。这样,这些音频序列出现的位置,就是对音频信号进行切分处理的切分点。由于音频信号的节奏信息在一定程度上可以反映该音频信号的旋律特性的类型,例如,欢快、忧郁等,因此,根据音频信号的频谱信息即节奏信息,对音频信号进行切分处理,可以更加有效地实现用于描述所述音频信号的旋律特性的动态特征的提取,从而能够进一步提高音频特征的高频分量的可区分性。
可选地,在本实施例的一个可能的实现方式中,在105中,具体可以对所述至少两个分段频域信号的变换特征的高频分量,进行差分处理,以获得所述至少两个分段频域信号的变换特征的差分特征。然后,则可以根据所述至少两个分段频域信号的变换特征的高频分量和所述至少两个分段频域信号的变换特征的差分特征,生成所述动态特征。
为使得本发明实施例提供的方法更加清楚,下面将以对音频特征进行DCT这一频域变换作为举例。
第一步,逐帧接收输入信号,对所述输入信号进行预处理,以获得分帧之后的全频带音频信号,简称为音频信号。具体地,所述预处理可以包括但不限于信号分帧、预加重、加窗、傅里叶变换(Fast Fourier Transform,FFT)等预处理。
第二步,对音频信号进行切分处理,以生成K个分段频域信号Xi(f),i=1,...,K,每个分段频域信号的长度可以为1s~4s。
具体地,可以生成长度相等的K个分段频域信号,或者还可以生成长度不相等的K个分段频域信号,本实施例对此不进行限定,详细描述可以参见前述内容的相关内容,此处不再赘述。
假设第k个分段频域信号Xk(f)中包含N帧信号,其中,第n帧信号可以表示为Xk,n(f),n=1,...,N,N为自然数。
第三步,根据K个分段频域信号Xi(f),获得每个所述分段频域信号的最大频率信息即特征矩阵F。
以第k个分段频域信号Xk(f)中的第n帧信号Xk,n(f)为例,提取M个最大频率值即fn,1,fn,2,……,fn,M,构成一个M维的特征列向量fn=[fn,1,fn,2,...,fn,M]T。这样,第k个分段频域信号Xk(f)中的全部N帧信号的特征向量则可以构成一个M×N维的特征矩阵F=[f1;f2;...;fN]。从特征矩阵F中可以看出,该特征矩阵F的行特征向量可以表示同一频段内的特征在不同时刻的差异即时序信息,该特征矩阵F的列特征向量可以表示同一时刻的特征在不同频段内的差异即频段信息。
第四步,对特征矩阵F进行二维DCT,以生成每个所述分段频域信号的变换特征即特征向量dk
具体地,将特征矩阵F看成一副二维图像的像素点矩阵,对特征矩阵F进行二维DCT,得到DCT系数矩阵FC。靠近DCT系数矩阵FC左上角的元素,描述的是变换特征的低频分量,靠近DCT系数矩阵FC右下角的元素,描述的是变换特征的高频分量。
第五步,去掉特征向量dk中维数较低的元素,以生成变换特征即特征向量dk的高频分量
可以理解的是,为了后续计算方便,还可以进一步将DCT系数矩阵FC展开成向量的形式。例如,可以利用zig-zag方式进行展开,得到MN×1维的特征向量dk。具体地,假设特征向量dk的维数是20维,则可以去掉前10维,保留后10维。
这样,根据高频分量
Figure BDA00003367235400092
则可以生成用于描述所述音频信号的旋律特性的动态特征。
例如,可以直接通过高频分量
Figure BDA00003367235400093
描述第k个分段频域信号Xk(f)的旋律特性,即高频分量
Figure BDA00003367235400094
即为所述动态特征。
或者,再例如,为了进一步描述每个分段频域信号之间的变化趋势,具体还可以进一步对高频分量
Figure BDA00003367235400096
i=1,...,K,进行差分处理,以获得变换特征即特征向量dk的差分特征,进而通过高频分量
Figure BDA00003367235400095
和差分特征共同描述第k个分段频域信号Xk(f)的旋律特性,即高频分量
Figure BDA00003367235400101
和差分特征即组成为所述动态特征,这样,能够实现更为准确的用于描述所述音频信号的旋律特性的动态特征的提取,从而进一步提高了音频特征的高频分量的可区分性。
这样,由于所生成的动态特征可以描述音频信号的细节特征即旋律特性,因此,能够有效提高音频特征的高频分量的可区分性。
可以理解的是,本发明涉及的音频信号的动态特征可以单独使用,以描述音频信号的旋律特性,或者还可以进一步与音频信号的其他基础特征结合使用,以描述音频信号的旋律特性和其他基础特性,例如,梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征、基音(pitch)特征和频率特征等音频特征,本发明对此不进行特别限定。
本实施例中,通过对音频信号进行切分处理,以生成至少两个分段频域信号,进而对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,以及根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量,使得能够根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,由于对音频特征进行了频域变换,可以获得频域变换之后的变换特征的高频分量,因此,能够实现用于描述所述音频信号的旋律特性的动态特征的提取,从而提高了音频特征的高频分量的可区分性。
另外,采用本发明提供的技术方案,由于能够有效提取用于描述所述音频信号的旋律特性的动态特征,因此,使得基于内容的音乐辨识(MusicIdentification)服务、相似音乐推荐(Music Recommendation)服务等音频识别服务的识别音频信号的准确率提高。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本发明另一实施例提供的基于频域变换的音频特征提取装置的结构示意图,如图2所示。本实施例的基于频域变换的音频特征提取装置可以包括切分单元21、提取单元22、变换单元23、获得单元24和生成单元25。其中,切分单元21,用于对音频信号进行切分处理,以生成至少两个分段频域信号;提取单元22,用于根据所述至少两个分段频域信号,获得每个所述分段频域信号的音频特征;变换单元23,用于对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征;获得单元24,用于根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量;生成单元25,用于根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征。
需要说明的是,音频信号由若干帧组成,每一帧中可能包含音频特征,例如,最大频率信息等特征。
需要说明的是,本实施例提供的装置可以是音频特征提取装置,可以位于本地的客户端中,以进行离线提取处理,或者还可以位于网络侧的服务器中,以进行在线提取处理,本实施例对此不进行限定。
可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够实现音频识别,以提供语音服务的客观存在形式都可以,本实施例对此不进行限定。
这样,通过切分单元对音频信号进行切分处理,以生成至少两个分段频域信号,进而由变换单元对提取单元所提取的每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,以及由获得单元根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量,使得生成单元能够根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,由于对音频特征进行了频域变换,可以获得频域变换之后的变换特征的高频分量,因此,能够实现用于描述所述音频信号的旋律特性的动态特征的提取,从而提高了音频特征的高频分量的可区分性。
另外,采用本发明提供的技术方案,由于能够有效提取用于描述所述音频信号的旋律特性的动态特征,因此,使得基于内容的音乐辨识(MusicIdentification)服务、相似音乐推荐(Music Recommendation)服务等音频识别服务的识别音频信号的准确率提高。
可选地,在本实施例的一个可能的实现方式中,所述变换单元23,具体可以用于对每个所述分段频域信号的音频特征进行离散余弦变换(DiscreteCosine Transform,DCT),以生成每个所述分段频域信号的变换特征。具体地,DCT的详细描述可以参见现有技术中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,所述变换单元23,具体还可以用于对每个所述分段频域信号的音频特征进行小波变换(WaveletTransform,WT),以生成每个所述分段频域信号的变换特征。具体地,WT的详细描述可以参见现有技术中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,切分单元21,具体可以生成长度相等的至少两个分段频域信号,或者还可以生成长度不相等的至少两个分段频域信号,本实施例对此不进行限定。
例如,所述切分单元21,具体可以获得所述音频信号的频谱信息,例如,一个分段频域信号的长度为2秒(s);以及根据所述音频信号的频谱信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。其中,所述至少两个分段频域信号中的每个所述分段频域信号的长度相等。
或者,再例如,所述切分单元21,具体还可以获得预先设置的分段长度信息即节奏信息,例如,鼓点、和旋等;以及根据所述分段长度信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。其中,由于音频信号的节奏信息并不是恒定不变的,因此,所述至少两个分段频域信号中的每个所述分段频域信号的长度可以不相等。具体地,由于音频信号具有局部周期性的特点,因此,所述切分单元21可以利用自相关函数法,通过搜索音频信号的自相关函数的周期性极大值,找到周期性存在的音频序列,例如,鼓点等。这种周期性的音频序列往往对应音频信号的局部能量极大点,而且在一定的时间范围内具有明显的周期特性,因此通常能够比较准确的检测到。这样,这些音频序列出现的位置,就是对音频信号进行切分处理的切分点。由于音频信号的节奏信息在一定程度上可以反映该音频信号的旋律特性的类型,例如,欢快、忧郁等,因此,所述切分单元21根据音频信号的频谱信息即节奏信息,对音频信号进行切分处理,可以更加有效地实现用于描述所述音频信号的旋律特性的动态特征的提取,从而能够进一步提高音频特征的高频分量的可区分性。
可选地,在本实施例的一个可能的实现方式中,所述生成单元25,具体可以用于对所述至少两个分段频域信号的变换特征的高频分量,进行差分处理,以获得所述至少两个分段频域信号的变换特征的差分特征;以及根据所述至少两个分段频域信号的变换特征的高频分量和所述至少两个分段频域信号的变换特征的差分特征,生成所述动态特征。
为使得本发明实施例提供的方法更加清楚,下面将以对音频特征进行DCT这一频域变换作为举例。
第一步,音频特征提取装置逐帧接收输入信号,对所述输入信号进行预处理,以获得分帧之后的全频带音频信号,简称为音频信号。具体地,所述预处理可以包括但不限于信号分帧、预加重、加窗、傅里叶变换(Fast FourierTransform,FFT)等预处理。
第二步,切分单元对音频信号进行切分处理,以生成K个分段频域信号Xi(f),i=1,...,K,每个分段频域信号的长度可以为1s~4s。
具体地,切分单元可以生成长度相等的K个分段频域信号,或者还可以生成长度不相等的K个分段频域信号,本实施例对此不进行限定,详细描述可以参见前述内容的相关内容,此处不再赘述。
假设第k个分段频域信号Xk(f)中包含N帧信号,其中,第n帧信号可以表示为Xk,n(f),n=1,...,N,N为自然数。
第三步,提取单元根据K个分段频域信号Xi(f),获得每个所述分段频域信号的最大频率信息即特征矩阵F。
以第k个分段频域信号Xk(f)中的第n帧信号Xk,n(f)为例,提取单元提取M个最大频率值即fn,1,fn,2,……,fn,M,构成一个M维的特征列向量fn=[fn,1,fn,2,...,fn,M]T。这样,第k个分段频域信号Xk(f)中的全部N帧信号的特征向量则可以构成一个M×N维的特征矩阵F=[f1;f2;...;fN]。从特征矩阵F中可以看出,该特征矩阵F的行特征向量可以表示同一频段内的特征在不同时刻的差异即时序信息,该特征矩阵F的列特征向量可以表示同一时刻的特征在不同频段内的差异即频段信息。
第四步,变换单元对特征矩阵F进行二维DCT,以生成每个所述分段频域信号的变换特征即特征向量dk
具体地,变换单元将特征矩阵F看成一副二维图像的像素点矩阵,对特征矩阵F进行二维DCT,得到DCT系数矩阵FC。靠近DCT系数矩阵FC左上角的元素,描述的是变换特征的低频分量,靠近DCT系数矩阵FC右下角的元素,描述的是变换特征的高频分量。
第五步,获得单元去掉特征向量dk中维数较低的元素,以生成变换特征即特征向量dk的高频分量
Figure BDA00003367235400142
可以理解的是,为了后续计算方便,获得单元还可以进一步将DCT系数矩阵FC展开成向量的形式。例如,获得单元可以利用zig-zag方式进行展开,得到MN×1维的特征向量dk。具体地,假设特征向量dk的维数是20维,则可以去掉前10维,保留后10维。
这样,生成单元根据高频分量
Figure BDA00003367235400141
则可以生成用于描述所述音频信号的旋律特性的动态特征。
例如,生成单元可以直接通过高频分量
Figure BDA00003367235400151
描述第k个分段频域信号Xk(f)的旋律特性,即高频分量
Figure BDA00003367235400152
即为所述动态特征。
或者,再例如,为了进一步描述每个分段频域信号之间的变化趋势,生成单元具体还可以进一步对高频分量
Figure BDA00003367235400153
i=1,...,K,进行差分处理,以获得变换特征即特征向量dk的差分特征,进而通过高频分量和差分特征共同描述第k个分段频域信号Xk(f)的旋律特性,即高频分量
Figure BDA00003367235400155
和差分特征即组成为所述动态特征,这样,能够实现更为准确的用于描述所述音频信号的旋律特性的动态特征的提取,从而进一步提高了音频特征的高频分量的可区分性。
这样,由于生成单元所生成的动态特征可以描述音频信号的细节特征即旋律特性,因此,能够有效提高音频特征的高频分量的可区分性。
可以理解的是,本发明涉及的音频信号的动态特征可以单独使用,以描述音频信号的旋律特性,或者还可以进一步与音频信号的其他基础特征结合使用,以描述音频信号的旋律特性和其他基础特性,例如,梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征、基音(pitch)特征和频率特征等音频特征,本发明对此不进行特别限定。
本实施例中,通过切分单元对音频信号进行切分处理,以生成至少两个分段频域信号,进而由变换单元对提取单元所提取的每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,以及由获得单元根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量,使得生成单元能够根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,由于对音频特征进行了频域变换,可以获得频域变换之后的变换特征的高频分量,因此,能够实现用于描述所述音频信号的旋律特性的动态特征的提取,从而提高了音频特征的高频分量的可区分性。
另外,采用本发明提供的技术方案,由于能够有效提取用于描述所述音频信号的旋律特性的动态特征,因此,使得基于内容的音乐辨识(MusicIdentification)服务、相似音乐推荐(Music Recommendation)服务等音频识别服务的识别音频信号的准确率提高。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于频域变换的音频特征提取方法,其特征在于,包括:
对音频信号进行切分处理,以生成至少两个分段频域信号;
根据所述至少两个分段频域信号,获得每个所述分段频域信号的音频特征;
对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征;
根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量;
根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征。
2.根据权利要求1所述的方法,其特征在于,所述对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征,包括:
对每个所述分段频域信号的音频特征进行离散余弦变换,以生成每个所述分段频域信号的变换特征;或者
对每个所述分段频域信号的音频特征进行小波变换,以生成每个所述分段频域信号的变换特征。
3.根据权利要求1或2所述的方法,其特征在于,所述对音频信号进行切分处理,以生成至少两个分段频域信号,包括:
获得所述音频信号的频谱信息;以及根据所述音频信号的频谱信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号;或者
获得预先设置的分段长度信息;以及根据所述分段长度信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。
4.根据权利要求1~3任一权利要求所述的方法,其特征在于,所述根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征,包括:
对所述至少两个分段频域信号的变换特征的高频分量,进行差分处理,以获得所述至少两个分段频域信号的变换特征的差分特征;
根据所述至少两个分段频域信号的变换特征的高频分量和所述至少两个分段频域信号的变换特征的差分特征,生成所述动态特征。
5.根据权利要求1~4任一权利要求所述的方法,其特征在于,每个所述分段频域信号的长度相等或不相等。
6.一种基于频域变换的音频特征提取装置,其特征在于,包括:
切分单元,用于对音频信号进行切分处理,以生成至少两个分段频域信号;
提取单元,用于根据所述至少两个分段频域信号,获得每个所述分段频域信号的音频特征;
变换单元,用于对每个所述分段频域信号的音频特征进行频域变换,以生成每个所述分段频域信号的变换特征;
获得单元,用于根据每个所述分段频域信号的变换特征,获得每个所述分段频域信号的变换特征的高频分量;
生成单元,用于根据所述至少两个分段频域信号的变换特征的高频分量,生成用于描述所述音频信号的旋律特性的动态特征。
7.根据权利要求6所述的装置,其特征在于,所述变换单元,具体用于
对每个所述分段频域信号的音频特征进行离散余弦变换,以生成每个所述分段频域信号的变换特征;或者
对每个所述分段频域信号的音频特征进行小波变换,以生成每个所述分段频域信号的变换特征。
8.根据权利要求6或7所述的装置,其特征在于,所述切分单元,具体用于
获得所述音频信号的频谱信息;以及根据所述音频信号的频谱信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号;或者
获得预先设置的分段长度信息;以及根据所述分段长度信息,对音频信号进行切分处理,以生成所述至少两个分段频域信号。
9.根据权利要求6~8任一权利要求所述的装置,其特征在于,所述生成单元,具体用于
对所述至少两个分段频域信号的变换特征的高频分量,进行差分处理,以获得所述至少两个分段频域信号的变换特征的差分特征;
根据所述至少两个分段频域信号的变换特征的高频分量和所述至少两个分段频域信号的变换特征的差分特征,生成所述动态特征。
10.根据权利要求6~9任一权利要求所述的装置,其特征在于,每个所述分段频域信号的长度相等或不相等。
CN201310242447.5A 2013-06-19 2013-06-19 基于频域变换的音频特征提取方法及装置 Active CN103354091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310242447.5A CN103354091B (zh) 2013-06-19 2013-06-19 基于频域变换的音频特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310242447.5A CN103354091B (zh) 2013-06-19 2013-06-19 基于频域变换的音频特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN103354091A true CN103354091A (zh) 2013-10-16
CN103354091B CN103354091B (zh) 2015-09-30

Family

ID=49310450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310242447.5A Active CN103354091B (zh) 2013-06-19 2013-06-19 基于频域变换的音频特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN103354091B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106211502A (zh) * 2016-07-01 2016-12-07 福建星网视易信息系统有限公司 一种音频控制灯光的方法及系统
CN110753238A (zh) * 2019-10-29 2020-02-04 北京字节跳动网络技术有限公司 视频处理方法、装置、终端及存储介质
CN112908289A (zh) * 2021-03-10 2021-06-04 百果园技术(新加坡)有限公司 节拍确定方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1831940A (zh) * 2006-04-07 2006-09-13 安凯(广州)软件技术有限公司 基于音频解码器的音调和节奏快速调节方法
EP2104095A1 (en) * 2006-12-01 2009-09-23 Huawei Technologies Co Ltd A method and an apparatus for adjusting quantization quality in encoder and decoder
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US20110320211A1 (en) * 2008-12-31 2011-12-29 Liu Zexin Method and apparatus for processing signal
CN103077706A (zh) * 2013-01-24 2013-05-01 南京邮电大学 对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1831940A (zh) * 2006-04-07 2006-09-13 安凯(广州)软件技术有限公司 基于音频解码器的音调和节奏快速调节方法
EP2104095A1 (en) * 2006-12-01 2009-09-23 Huawei Technologies Co Ltd A method and an apparatus for adjusting quantization quality in encoder and decoder
US20110320211A1 (en) * 2008-12-31 2011-12-29 Liu Zexin Method and apparatus for processing signal
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN103077706A (zh) * 2013-01-24 2013-05-01 南京邮电大学 对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106211502A (zh) * 2016-07-01 2016-12-07 福建星网视易信息系统有限公司 一种音频控制灯光的方法及系统
CN110753238A (zh) * 2019-10-29 2020-02-04 北京字节跳动网络技术有限公司 视频处理方法、装置、终端及存储介质
CN112908289A (zh) * 2021-03-10 2021-06-04 百果园技术(新加坡)有限公司 节拍确定方法、装置、设备和存储介质
CN112908289B (zh) * 2021-03-10 2023-11-07 百果园技术(新加坡)有限公司 节拍确定方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN103354091B (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
US10210884B2 (en) Systems and methods facilitating selective removal of content from a mixed audio recording
CN107527620A (zh) 电子装置、身份验证的方法及计算机可读存储介质
US20190138263A1 (en) Method and device for determining delay of audio
US9659092B2 (en) Music information searching method and apparatus thereof
CN104598502A (zh) 获取播放视频中背景音乐信息的方法、装置及系统
CN106782529B (zh) 语音识别的唤醒词选择方法及装置
CN103390403B (zh) Mfcc特征的提取方法及装置
CN103400576A (zh) 基于用户行为日志的语音模型更新方法及装置
CN104575487A (zh) 一种语音信号的处理方法及装置
CN105190751A (zh) 键盘输入检测和抑制
CN103235773A (zh) 基于关键词的文本的标签提取方法及装置
CN104615689A (zh) 一种搜索方法及装置
CN102880648A (zh) 一种对歌曲进行分析的方法及装置
CN116524939A (zh) 一种基于ecapa-tdnn的鸟鸣物种自动识别方法
CN103354091B (zh) 基于频域变换的音频特征提取方法及装置
CN103399737B (zh) 基于语音数据的多媒体处理方法及装置
CN104882146A (zh) 音频推广信息的处理方法及装置
CN112256911A (zh) 一种音频匹配方法、装置和设备
CN104731918A (zh) 一种语音搜索方法及装置
CN103399879A (zh) 基于用户搜索日志的兴趣实体获得方法及装置
CN113421554B (zh) 语音关键词检测模型处理方法、装置及计算机设备
CN103180847A (zh) 音乐查询方法和装置
CN109841232A (zh) 音乐信号中音符位置的提取方法和装置及存储介质
CN114783423A (zh) 基于语速调整的语音切分方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant