CN101833986B - 一种三级音频索引的创建方法及音频检索方法 - Google Patents

一种三级音频索引的创建方法及音频检索方法 Download PDF

Info

Publication number
CN101833986B
CN101833986B CN 201010177959 CN201010177959A CN101833986B CN 101833986 B CN101833986 B CN 101833986B CN 201010177959 CN201010177959 CN 201010177959 CN 201010177959 A CN201010177959 A CN 201010177959A CN 101833986 B CN101833986 B CN 101833986B
Authority
CN
China
Prior art keywords
index
audio
vector
value
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010177959
Other languages
English (en)
Other versions
CN101833986A (zh
Inventor
郑贵滨
韩纪庆
郑铁然
姜涛
王勇
张慧
狄少嘉
唐健琪
丁丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
National Computer Network and Information Security Management Center
Original Assignee
Harbin Institute of Technology
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, National Computer Network and Information Security Management Center filed Critical Harbin Institute of Technology
Priority to CN 201010177959 priority Critical patent/CN101833986B/zh
Publication of CN101833986A publication Critical patent/CN101833986A/zh
Application granted granted Critical
Publication of CN101833986B publication Critical patent/CN101833986B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。

Description

一种三级音频索引的创建方法及音频检索方法
技术领域
本发明涉及一种三级音频索引的创建方法及基于三级音频索引的音频检索方法,属于多媒体领域。
背景技术
随着计算机技术、网络技术及多媒体技术的迅猛发展,音频信息的数据量急剧增多。如何能够自动、准确、快速地寻找到感兴趣的内容,实现基于音频内容的信息检索,就成为一个既迫切又具有挑战性的研究课题。音频信息检索技术在音频信息搜索引擎、实时检索网上电视和音/视频点播节目中的多媒体信息内容、音频信息统计与分类等方面有着广阔的应用前景。音频样例检索是指从检索源数据中查找和目标音频数据相同的音频片段。由于噪音不可避免,所谓相同,也只能是听觉效果上的相同而不是物理信号的相同。
为了在海量数据下,实现快速音频样例检索,需要构建有效的音频索引。然而音频索引一直是索引研究领域中的难点,存在着如下困难:(1)音频数据的特征维数高,存在着“维数的诅咒”,即,索引的复杂度随维数的增加呈指数增长,这一直是索引研究领域中的难点;(2)音频数据非离散可分,不存在自然的分割点;(3)音频数据具有时序性,需要存在一定时长的连续数据才有意义。此外,音频信息检索的种类不同,检索中对音频信息的着眼点和采用的检索方法也有很大差异。目前的技术没有建立对所有音频检索类别都通用的索引机制,无法满足大规模数据库和网络环境下的音频样例检索要求。即,针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制,因此,在具体应用背景下,针对不同的检索应用,研究合适的检索和索引算法将既有理论意义又有现实意义。
发明内容
本发明目的是为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题,提供了一种三级音频索引的创建方法及音频检索方法。
本发明三级音频索引的创建方法包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引;
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模k i ,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引;
三元组包括索引键值k i 、源文件id和片段向量在源文件中的位置i
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量分组,作为第三级索引,即,类别索引。
基于上述三级音频索引的检索方法,包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列片段向量,计算出查询音频的每个片段向量的模k query 和类别分H quer
步骤2、在第三级索引中,将类别分为                                                
Figure 735359DEST_PATH_IMAGE001
范围内的第二级索引作为进一步搜索的集合
Figure 722906DEST_PATH_IMAGE002
,其中
Figure 947214DEST_PATH_IMAGE003
为范围阈值;
步骤3、在集合
Figure 336607DEST_PATH_IMAGE002
中,将第二级索引键值
Figure 683275DEST_PATH_IMAGE004
满足条件
Figure 830222DEST_PATH_IMAGE005
的片段向量保留,并利用第二级索引确定所保留片段向量对应的第一级索引值,
Figure 923468DEST_PATH_IMAGE006
为检索阈值;
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。
本发明的优点:基于三级索引的音频检索方法具有索引尺寸小,内存开销低、检索速度快等特点,是适合网络音频处理要求的高效检索方法。
采用一种自相似加权累积距离法将音频特征向量量化,作为第一级索引,反应了音频数据自身的变化情况,实现了对音频特征的降维量化处理,解决了“维数诅咒”的问题。
在一级索引的基础上,通过设置分析窗将窗内的多个一级索引值构成一个多维向量,即片段向量,将片段向量的模作为降维后的值并排序可作为第二级索引,既保存了音频的时序信息,又解决了音频信息的非离散问题。
附图说明
图1是本发明创建三级索引方法中的第一级和第二级索引生成示意图,图2是本发明创建的三级音频索引结构示意图,图3是计算查询音频一级索引值和二级索引值的示意图。
具体实施方式
具体实施方式一:下面结合图1说明三级音频索引创建方法的具体实施方式,包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引,即,帧级索引;
第一级索引的创建方法为:
采用自相似加权距离法对音频特征向量序列的每个特征向量进行降维量化处理,对于n维的帧特征向量
Figure 167367DEST_PATH_IMAGE007
,对应的一维量化值
Figure 622620DEST_PATH_IMAGE008
值为:
Figure 584759DEST_PATH_IMAGE009
其中:i为帧序号,Range为计算范围,且
Figure 150870DEST_PATH_IMAGE010
Figure 249276DEST_PATH_IMAGE011
为加权系数,
Figure 937746DEST_PATH_IMAGE012
表示两个特征向量间的距离。
自相似累积距离反应了音频数据自身的变化情况,对于两段内容相似的音频数据,其量化值(自相似累积距离数值)序列也必然存在较高的相似性。基于否定性判定的思想,若两个音频段的量化值序列比较差距较大,则可确认二者彼此不相似。因此,可将一个音频文件生成的自相似累积距离量化值作为索引,形成第一级索引——帧级索引。
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模k i ,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引,即,片段级索引;
三元组包括索引键值k i 、源文件id和片段向量在源文件中的位置i
在音频样例检索中,通常截取一定长度的音频数据作为查询音频,即样例音频。在检索时,可将不同长度的查询音频截成相同长度的若干片段,然后以片段为单位进行检索。
而一段音频数据的第一级索引值,即量化数值序列又可看成一个向量,即,片段向量。两段音频数据一级索引相似,即两个片段向量相似。音频片段间的相似性问题即转变为片段向量间的相似问题。根据几何关系,两个向量模之差的绝对值不大于两个向量的欧氏距离,因此可以通过比较两个向量模的差异,即可快速去除不符合查询要求的向量,加快检索速度。将片段向量的模作为键值,使用三元组(索引键值k i ,源文件id,片段向量在源文件中的位置i)描述片段向量,并按k i 数值排序,从而构成第二级索引——片段级索引。索引创建过程如图1所示。
计算每个片段向量的模k i 的方法为:
将步骤一所述的一维的第一级索引按单元长度为m帧、窗移为1的分析窗截成一系列片段向量,则从第i帧开始截取的长为m帧的音频片段的一级索引值构成的片段向量为
Figure 59286DEST_PATH_IMAGE013
,片段向量的模k i 按如下公式计算:
Figure 491404DEST_PATH_IMAGE014
其中,m为自然数。
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量分组,作为第三级索引,即,类别索引。
在样例检索中,检出结果和查询音频应属于相同的音频类别。充分利用类别信息可缩小检索范围,类别不同的音频数据不可能相似,不做检索操作,从而可有效提高检索速度。
但是考虑到一些音频数据的类别属性模糊,如多种类别声响的混合等,其次,网络环境下,数据质量差异较大可能存在噪声。因此,明确的类别判断容易造成分类错误,从而导致检索的查全率下降。因此,分类器要具有较好的鲁棒性。
由于含音乐的音频数据类型在音频数据中占较高比例,因此系统采用基于和谐度(Harmony)的音乐类音频模糊分类器。
类别索引的创建方法为:
步骤a、计算步骤二所述的片段向量的类别分,
按公式
Figure 709896DEST_PATH_IMAGE015
计算出每个片段向量的和谐度作为类别分,
其中,
Figure 506951DEST_PATH_IMAGE016
为第i+j帧信号的和谐度,获取方法参照
Figure 178104DEST_PATH_IMAGE017
Figure 168841DEST_PATH_IMAGE017
为第i帧信号的和谐度,计算公式如下:
Figure 179523DEST_PATH_IMAGE018
其中,
Figure 209796DEST_PATH_IMAGE019
上述公式中,
Figure 368244DEST_PATH_IMAGE020
Figure 79849DEST_PATH_IMAGE021
Figure 272932DEST_PATH_IMAGE022
为采样信号频谱,
Figure 411790DEST_PATH_IMAGE023
是采样信号频谱
Figure 791956DEST_PATH_IMAGE022
零均值化后的值,K是傅里叶变换阶数,是和谐度的考察频率范围,
Figure 354841DEST_PATH_IMAGE025
Figure 726916DEST_PATH_IMAGE026
则是对应的频谱分量下标,
步骤b、根据类别分将所有片段向量分组,
使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个链表中的片段向量,按步骤二组织成一个按向量模排序的片段级索引,结合第一级索引便构成三级索引结构。
具体实施方式二:下面结合图1至图3说明基于实施方式一所述三级音频索引的音频检索方法,包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模k query 和类别分H quer
设查询音频的片段向量为:
Figure 647785DEST_PATH_IMAGE028
,对应的向量模为:
Figure 552812DEST_PATH_IMAGE029
查询音频片段向量的类别分
Figure 95788DEST_PATH_IMAGE030
为:
Figure 653809DEST_PATH_IMAGE031
步骤2、在第三级索引中,将类别分为
Figure 307644DEST_PATH_IMAGE001
范围内的第二级索引作为进一步搜索的集合
Figure 267510DEST_PATH_IMAGE002
,其中
Figure 981388DEST_PATH_IMAGE003
为范围阈值;
步骤3、在集合
Figure 823442DEST_PATH_IMAGE002
中,将第二级索引键值
Figure 218651DEST_PATH_IMAGE004
满足条件
Figure 95340DEST_PATH_IMAGE005
的片段向量保留,并利用第二级索引确定所保留片段向量对应的第一级索引值,
Figure 980120DEST_PATH_IMAGE006
为检索阈值;
若集合
Figure 247153DEST_PATH_IMAGE002
中片段向量
Figure 508370DEST_PATH_IMAGE032
Figure 236636DEST_PATH_IMAGE033
的欧氏距离满足如下条件,,则可认为二者相似:
Figure 292317DEST_PATH_IMAGE034
其中, 
Figure 46646DEST_PATH_IMAGE035
为检索阈值。
根据向量间的几何关系,两个向量模之差的绝对值不大于两个向量的欧式距离:
Figure 111554DEST_PATH_IMAGE036
由于
Figure 861521DEST_PATH_IMAGE038
即:
因此,根据上式的简单判断,就可将待查数据集合
Figure 706166DEST_PATH_IMAGE002
中一些不符合查询要求的片段向量排除,进而缩小检索范围,加快检索速度。
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出:
(1)若找到相似片段,根据需要可直接到对应的特征向量文件中读取对应片段的特征向量数据,也在特征向量级别上进行检出确认;
(2)若确认该片段检出,则在特征向量文件中直接检索后继片段;
(3)根据查询音频各片段的检出情况,判别查询音频在数据库中的出现情况。
为了提高检索速度,可将索引文件,包括第一级、第二级和第三级索引文件载入内存。由于仅仅在需要确认检出的时候才用到特征向量文件,因此特征向量文件的访问次数少,且数据量大,可存于硬盘,在需要时读文件即可。

Claims (2)

1.一种三级音频索引的创建方法,其特征在于,该方法包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引;
所述的第一级索引的创建方法为:
采用自相似加权距离法对音频特征向量序列的每个特征向量进行降维量化处理,对于n维的帧特征向量 
Figure FDA0000056493250000011
对应的一维量化值pi值为:
Figure FDA0000056493250000012
且满足条件
Figure FDA0000056493250000013
其中:i为帧序号,Range为计算范围,且Range>0,cj为加权系数, 
Figure FDA0000056493250000014
表示两个特征向量间的距离;
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模ki,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引;
索引键值ki的获取方法为:
将步骤一所述的一维的第一级索引按单元长度为m帧、窗移为1的分析窗截成一系列片段,片段内的第一级索引值构成片段向量,则从第i帧开始截取的长为m帧的音频片段的第一级索引值构成的片段向量为 
Figure FDA0000056493250000015
片段向量的模ki按如下公式计算:
Figure FDA0000056493250000016
其中,m为自然数;
三元组包括索引键值ki、源文件id和片段向量在源文件中的位置i,
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片 段分组,作为第三级索引,即,类别索引;
所述的第三级索引的创建方法为:
步骤a、计算步骤二所述的片段的类别分,
按公式 
Figure FDA0000056493250000021
计算出每个片段的和谐度作为类别分,
其中,hi+j为第i+j帧信号的和谐度,获取方法参照hi,hi为第i帧信号的和谐度,计算公式如下:
Figure FDA0000056493250000022
其中,
上述公式中,Hi∈[0,1],hi∈[0,1],X(i)为采样信号频谱, 
Figure FDA0000056493250000024
是采样信号频谱X(i)零均值化后的值,K是傅里叶变换阶数,f1、f2是和谐度的考察频率范围,jf1、jf2则是对应的频谱分量下标,j=1,2,..,K/2;
步骤b、根据类别分将所有片段向量分组,
使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个链表中的片段向量,按步骤二组织成一个按向量模排序的第二级索引,结合第一级索引便构成三级索引结构。
2.基于权利要求1所述的一种三级音频索引的创建方法而实施的三级音频索引的音频检索方法,其特征在于,该方法包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模kquery和类别分Hquery
步骤2、在三级索引中,将类别分为[Hquery-Δ,Hquery+Δ]范围内的第二级索 引作为进一步搜索的集合Φ,其中Δ为范围阈值;
步骤3、在集合Φ中,将第二级索引键值ki满足条件kquery-θ≤ki≤kquery+θ的片段向量保留,并利用第二级索引确定所保留片段向量对应的第一级索引值,θ为检索阈值;
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。 
CN 201010177959 2010-05-20 2010-05-20 一种三级音频索引的创建方法及音频检索方法 Expired - Fee Related CN101833986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010177959 CN101833986B (zh) 2010-05-20 2010-05-20 一种三级音频索引的创建方法及音频检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010177959 CN101833986B (zh) 2010-05-20 2010-05-20 一种三级音频索引的创建方法及音频检索方法

Publications (2)

Publication Number Publication Date
CN101833986A CN101833986A (zh) 2010-09-15
CN101833986B true CN101833986B (zh) 2011-10-05

Family

ID=42718027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010177959 Expired - Fee Related CN101833986B (zh) 2010-05-20 2010-05-20 一种三级音频索引的创建方法及音频检索方法

Country Status (1)

Country Link
CN (1) CN101833986B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567411B (zh) * 2010-12-31 2014-05-07 上海格尔软件股份有限公司 一种快速检索海量数字证书黑名单的方法
CN102231826B (zh) * 2011-03-14 2013-08-14 新奥特(北京)视频技术有限公司 一种支持ts流媒体文件帧精确定位的索引方法及系统
CN102231803B (zh) * 2011-03-14 2013-07-03 新奥特(北京)视频技术有限公司 一种支持ts流媒体文件的容错方法
WO2012134396A1 (en) * 2011-03-28 2012-10-04 Agency For Science, Technology And Research A method, an apparatus and a computer-readable medium for indexing a document for document retrieval
CN103092848B (zh) * 2011-10-28 2016-09-07 浙江大华技术股份有限公司 一种图片存储与检索方法
CN105426521B (zh) * 2015-12-04 2019-04-23 深圳大学 具有三级索引结构的海图数据库及其数据读取方法
CN105574151B (zh) * 2015-12-16 2019-08-06 北京奇虎科技有限公司 图像存储方法和设备
CN107315745B (zh) * 2016-04-26 2020-05-01 北京京东尚科信息技术有限公司 一种私信存储方法及系统
CN105956155A (zh) * 2016-05-13 2016-09-21 海信集团有限公司 一种多媒体数据搜索方法及装置
CN109388729A (zh) * 2017-08-14 2019-02-26 阿里巴巴集团控股有限公司 音频子指纹的检索方法、装置以及音频查询系统
CN110309143B (zh) * 2018-03-21 2021-10-22 华为技术有限公司 数据相似度确定方法、装置及处理设备
CN110297832B (zh) * 2019-07-01 2021-12-24 联想(北京)有限公司 一种时序数据存储方法及装置、时序数据查询方法及装置
CN111597379B (zh) * 2020-07-22 2020-11-03 深圳市声扬科技有限公司 音频搜索方法、装置、计算机设备和计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246500B (zh) * 2008-03-27 2011-04-13 腾讯科技(深圳)有限公司 一种实现数据快速索引的检索系统和方法
CN101477561B (zh) * 2009-01-09 2010-12-29 中国人民解放军国防科学技术大学 基于内容访问网络的大规模空间矢量数据管理方法

Also Published As

Publication number Publication date
CN101833986A (zh) 2010-09-15

Similar Documents

Publication Publication Date Title
CN101833986B (zh) 一种三级音频索引的创建方法及音频检索方法
US8909563B1 (en) Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels
US7797265B2 (en) Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
CN105045875B (zh) 个性化信息检索方法及装置
CN100585592C (zh) 一种音频片断之间相似度度量的方法
US20050262068A1 (en) Searching multimedia databases using multimedia queries
WO2017000610A1 (zh) 一种网页分类的方法和装置
CN103235812B (zh) 查询多意图识别方法和系统
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
US8108452B2 (en) Keyword based audio comparison
US10467255B2 (en) Methods and systems for analyzing reading logs and documents thereof
CN102143001B (zh) 一种基于语义理解的音频资源管理方法
Zhao et al. Ensemble classification based on feature selection for environmental sound recognition
Tsytsarau et al. Efficient sentiment correlation for large-scale demographics
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN103631769A (zh) 一种判断文件内容与标题间一致性的方法及装置
CN108197319A (zh) 一种基于时频局部能量的特征点的音频检索方法和系统
CN112308235A (zh) 一种时间序列数据流异常检测方法
Menezes et al. Demand-driven tag recommendation
Gulmatico et al. SpotiPred: A machine learning approach prediction of Spotify music popularity by audio features
Zhen et al. Notice of Retraction: Multi-modal music genre classification approach
Rudinac et al. Leveraging visual concepts and query performance prediction for semantic-theme-based video retrieval
CN111859079B (zh) 信息搜索方法、装置、计算机设备及存储介质
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
Si Classification Method of Ideological and Political Resources of Broadcasting and Hosting Professional Courses Based on SOM Artificial Neural Network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111005

Termination date: 20160520