CN101833986A - 一种三级音频索引的创建方法及音频检索方法 - Google Patents
一种三级音频索引的创建方法及音频检索方法 Download PDFInfo
- Publication number
- CN101833986A CN101833986A CN 201010177959 CN201010177959A CN101833986A CN 101833986 A CN101833986 A CN 101833986A CN 201010177959 CN201010177959 CN 201010177959 CN 201010177959 A CN201010177959 A CN 201010177959A CN 101833986 A CN101833986 A CN 101833986A
- Authority
- CN
- China
- Prior art keywords
- index
- audio
- segment
- vector
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000011835 investigation Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 4
- 239000012634 fragment Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。
Description
技术领域
本发明涉及一种三级音频索引的创建方法及基于三级音频索引的音频检索方法,属于多媒体领域。
背景技术
随着计算机技术、网络技术及多媒体技术的迅猛发展,音频信息的数据量急剧增多。如何能够自动、准确、快速地寻找到感兴趣的内容,实现基于音频内容的信息检索,就成为一个既迫切又具有挑战性的研究课题。音频信息检索技术在音频信息搜索引擎、实时检索网上电视和音/视频点播节目中的多媒体信息内容、音频信息统计与分类等方面有着广阔的应用前景。音频样例检索是指从检索源数据中查找和目标音频数据相同的音频片段。由于噪音不可避免,所谓相同,也只能是听觉效果上的相同而不是物理信号的相同。
为了在海量数据下,实现快速音频样例检索,需要构建有效的音频索引。然而音频索引一直是索引研究领域中的难点,存在着如下困难:(1)音频数据的特征维数高,存在着“维数的诅咒”,即,索引的复杂度随维数的增加呈指数增长,这一直是索引研究领域中的难点;(2)音频数据非离散可分,不存在自然的分割点;(3)音频数据具有时序性,需要存在一定时长的连续数据才有意义。此外,音频信息检索的种类不同,检索中对音频信息的着眼点和采用的检索方法也有很大差异。目前的技术没有建立对所有音频检索类别都通用的索引机制,无法满足大规模数据库和网络环境下的音频样例检索要求。即,针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制,因此,在具体应用背景下,针对不同的检索应用,研究合适的检索和索引算法将既有理论意义又有现实意义。
发明内容
本发明目的是为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题,提供了一种三级音频索引的创建方法及音频检索方法。
本发明三级音频索引的创建方法包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引;
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模k i ,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引;
三元组包括索引键值k i 、源文件id和片段向量在源文件中的位置i,
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量分组,作为第三级索引,即,类别索引。
基于上述三级音频索引的检索方法,包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列片段向量,计算出查询音频的每个片段向量的模k query 和类别分H quer ;
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。
本发明的优点:基于三级索引的音频检索方法具有索引尺寸小,内存开销低、检索速度快等特点,是适合网络音频处理要求的高效检索方法。
采用一种自相似加权累积距离法将音频特征向量量化,作为第一级索引,反应了音频数据自身的变化情况,实现了对音频特征的降维量化处理,解决了“维数诅咒”的问题。
在一级索引的基础上,通过设置分析窗将窗内的多个一级索引值构成一个多维向量,即片段向量,将片段向量的模作为降维后的值并排序可作为第二级索引,既保存了音频的时序信息,又解决了音频信息的非离散问题。
附图说明
图1是本发明创建三级索引方法中的第一级和第二级索引生成示意图,图2是本发明创建的三级音频索引结构示意图,图3是计算查询音频一级索引值和二级索引值的示意图。
具体实施方式
具体实施方式一:下面结合图1说明三级音频索引创建方法的具体实施方式,包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引,即,帧级索引;
第一级索引的创建方法为:
自相似累积距离反应了音频数据自身的变化情况,对于两段内容相似的音频数据,其量化值(自相似累积距离数值)序列也必然存在较高的相似性。基于否定性判定的思想,若两个音频段的量化值序列比较差距较大,则可确认二者彼此不相似。因此,可将一个音频文件生成的自相似累积距离量化值作为索引,形成第一级索引——帧级索引。
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模k i ,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引,即,片段级索引;
三元组包括索引键值k i 、源文件id和片段向量在源文件中的位置i,
在音频样例检索中,通常截取一定长度的音频数据作为查询音频,即样例音频。在检索时,可将不同长度的查询音频截成相同长度的若干片段,然后以片段为单位进行检索。
而一段音频数据的第一级索引值,即量化数值序列又可看成一个向量,即,片段向量。两段音频数据一级索引相似,即两个片段向量相似。音频片段间的相似性问题即转变为片段向量间的相似问题。根据几何关系,两个向量模之差的绝对值不大于两个向量的欧氏距离,因此可以通过比较两个向量模的差异,即可快速去除不符合查询要求的向量,加快检索速度。将片段向量的模作为键值,使用三元组(索引键值k i ,源文件id,片段向量在源文件中的位置i)描述片段向量,并按k i 数值排序,从而构成第二级索引——片段级索引。索引创建过程如图1所示。
计算每个片段向量的模k i 的方法为:
,
其中,m为自然数。
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量分组,作为第三级索引,即,类别索引。
在样例检索中,检出结果和查询音频应属于相同的音频类别。充分利用类别信息可缩小检索范围,类别不同的音频数据不可能相似,不做检索操作,从而可有效提高检索速度。
但是考虑到一些音频数据的类别属性模糊,如多种类别声响的混合等,其次,网络环境下,数据质量差异较大可能存在噪声。因此,明确的类别判断容易造成分类错误,从而导致检索的查全率下降。因此,分类器要具有较好的鲁棒性。
由于含音乐的音频数据类型在音频数据中占较高比例,因此系统采用基于和谐度(Harmony)的音乐类音频模糊分类器。
类别索引的创建方法为:
步骤a、计算步骤二所述的片段向量的类别分,
其中,,
步骤b、根据类别分将所有片段向量分组,
使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个链表中的片段向量,按步骤二组织成一个按向量模排序的片段级索引,结合第一级索引便构成三级索引结构。
具体实施方式二:下面结合图1至图3说明基于实施方式一所述三级音频索引的音频检索方法,包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模k query 和类别分H quer ;
设查询音频的片段向量为:,对应的向量模为:
根据向量间的几何关系,两个向量模之差的绝对值不大于两个向量的欧式距离:
由于,
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出:
(1)若找到相似片段,根据需要可直接到对应的特征向量文件中读取对应片段的特征向量数据,也在特征向量级别上进行检出确认;
(2)若确认该片段检出,则在特征向量文件中直接检索后继片段;
(3)根据查询音频各片段的检出情况,判别查询音频在数据库中的出现情况。
为了提高检索速度,可将索引文件,包括第一级、第二级和第三级索引文件载入内存。由于仅仅在需要确认检出的时候才用到特征向量文件,因此特征向量文件的访问次数少,且数据量大,可存于硬盘,在需要时读文件即可。
Claims (5)
1.一种三级音频索引的创建方法,其特征在于,该方法包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引;
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模k i ,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引;
三元组包括索引键值k i 、源文件id和片段向量在源文件中的位置i,
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段分组,作为第三级索引,即,类别索引。
4.根据权利要求1所述的一种三级音频索引的创建方法,其特征在于,步骤三所述的第三级索引的创建方法为:
步骤a、计算步骤二所述的片段向量的类别分,
步骤b、根据类别分将所有片段向量分组,
使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个链表中的片段向量,按步骤二组织成一个按向量模排序的片段级索引,结合第一级索引便构成三级索引结构。
5.基于权利要求1至4所述的一种三级音频索引的创建方法而实施的三级音频索引的音频检索方法,其特征在于,该方法包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模k query 和类别分H quer ;
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010177959 CN101833986B (zh) | 2010-05-20 | 2010-05-20 | 一种三级音频索引的创建方法及音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010177959 CN101833986B (zh) | 2010-05-20 | 2010-05-20 | 一种三级音频索引的创建方法及音频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101833986A true CN101833986A (zh) | 2010-09-15 |
CN101833986B CN101833986B (zh) | 2011-10-05 |
Family
ID=42718027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010177959 Expired - Fee Related CN101833986B (zh) | 2010-05-20 | 2010-05-20 | 一种三级音频索引的创建方法及音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101833986B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231803A (zh) * | 2011-03-14 | 2011-11-02 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件的容错方法 |
CN102231826A (zh) * | 2011-03-14 | 2011-11-02 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件帧精确定位的索引方法及系统 |
CN102567411A (zh) * | 2010-12-31 | 2012-07-11 | 上海格尔软件股份有限公司 | 一种快速检索海量数字证书黑名单的方法 |
CN103092848A (zh) * | 2011-10-28 | 2013-05-08 | 浙江大华技术股份有限公司 | 一种图片存储与检索方法 |
CN103548015A (zh) * | 2011-03-28 | 2014-01-29 | 新加坡科技研究局 | 索引用于文件检索的文件的方法、装置及计算机可读媒介 |
CN105574151A (zh) * | 2015-12-16 | 2016-05-11 | 北京奇虎科技有限公司 | 图像存储方法和设备 |
CN105956155A (zh) * | 2016-05-13 | 2016-09-21 | 海信集团有限公司 | 一种多媒体数据搜索方法及装置 |
WO2017092636A1 (zh) * | 2015-12-04 | 2017-06-08 | 深圳大学 | 具有三级索引结构的海图数据库及其数据读取方法 |
CN107315745A (zh) * | 2016-04-26 | 2017-11-03 | 北京京东尚科信息技术有限公司 | 一种私信存储方法及系统 |
CN109388729A (zh) * | 2017-08-14 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 音频子指纹的检索方法、装置以及音频查询系统 |
CN110297832A (zh) * | 2019-07-01 | 2019-10-01 | 联想(北京)有限公司 | 一种时序数据存储方法及装置、时序数据查询方法及装置 |
CN110309143A (zh) * | 2018-03-21 | 2019-10-08 | 华为技术有限公司 | 数据相似度确定方法、装置及处理设备 |
CN111597379A (zh) * | 2020-07-22 | 2020-08-28 | 深圳市声扬科技有限公司 | 音频搜索方法、装置、计算机设备和计算机可读存储介质 |
CN113569069A (zh) * | 2021-07-13 | 2021-10-29 | 壹药网科技(上海)股份有限公司 | 一种基于主成分光谱角距离的药物检索方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246500A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 一种实现数据快速索引的检索系统和方法 |
CN101477561A (zh) * | 2009-01-09 | 2009-07-08 | 中国人民解放军国防科学技术大学 | 基于内容访问网络的大规模空间矢量数据管理方法 |
-
2010
- 2010-05-20 CN CN 201010177959 patent/CN101833986B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246500A (zh) * | 2008-03-27 | 2008-08-20 | 腾讯科技(深圳)有限公司 | 一种实现数据快速索引的检索系统和方法 |
CN101477561A (zh) * | 2009-01-09 | 2009-07-08 | 中国人民解放军国防科学技术大学 | 基于内容访问网络的大规模空间矢量数据管理方法 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567411A (zh) * | 2010-12-31 | 2012-07-11 | 上海格尔软件股份有限公司 | 一种快速检索海量数字证书黑名单的方法 |
CN102567411B (zh) * | 2010-12-31 | 2014-05-07 | 上海格尔软件股份有限公司 | 一种快速检索海量数字证书黑名单的方法 |
CN102231826A (zh) * | 2011-03-14 | 2011-11-02 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件帧精确定位的索引方法及系统 |
CN102231803B (zh) * | 2011-03-14 | 2013-07-03 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件的容错方法 |
CN102231826B (zh) * | 2011-03-14 | 2013-08-14 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件帧精确定位的索引方法及系统 |
CN102231803A (zh) * | 2011-03-14 | 2011-11-02 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件的容错方法 |
CN103548015B (zh) * | 2011-03-28 | 2017-05-17 | 新加坡科技研究局 | 索引用于文件检索的文件的方法及装置 |
CN103548015A (zh) * | 2011-03-28 | 2014-01-29 | 新加坡科技研究局 | 索引用于文件检索的文件的方法、装置及计算机可读媒介 |
CN103092848A (zh) * | 2011-10-28 | 2013-05-08 | 浙江大华技术股份有限公司 | 一种图片存储与检索方法 |
CN103092848B (zh) * | 2011-10-28 | 2016-09-07 | 浙江大华技术股份有限公司 | 一种图片存储与检索方法 |
WO2017092636A1 (zh) * | 2015-12-04 | 2017-06-08 | 深圳大学 | 具有三级索引结构的海图数据库及其数据读取方法 |
CN105574151B (zh) * | 2015-12-16 | 2019-08-06 | 北京奇虎科技有限公司 | 图像存储方法和设备 |
CN105574151A (zh) * | 2015-12-16 | 2016-05-11 | 北京奇虎科技有限公司 | 图像存储方法和设备 |
CN107315745A (zh) * | 2016-04-26 | 2017-11-03 | 北京京东尚科信息技术有限公司 | 一种私信存储方法及系统 |
CN105956155A (zh) * | 2016-05-13 | 2016-09-21 | 海信集团有限公司 | 一种多媒体数据搜索方法及装置 |
CN109388729A (zh) * | 2017-08-14 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 音频子指纹的检索方法、装置以及音频查询系统 |
CN110309143A (zh) * | 2018-03-21 | 2019-10-08 | 华为技术有限公司 | 数据相似度确定方法、装置及处理设备 |
CN110309143B (zh) * | 2018-03-21 | 2021-10-22 | 华为技术有限公司 | 数据相似度确定方法、装置及处理设备 |
CN110297832A (zh) * | 2019-07-01 | 2019-10-01 | 联想(北京)有限公司 | 一种时序数据存储方法及装置、时序数据查询方法及装置 |
CN111597379A (zh) * | 2020-07-22 | 2020-08-28 | 深圳市声扬科技有限公司 | 音频搜索方法、装置、计算机设备和计算机可读存储介质 |
CN111597379B (zh) * | 2020-07-22 | 2020-11-03 | 深圳市声扬科技有限公司 | 音频搜索方法、装置、计算机设备和计算机可读存储介质 |
CN113569069A (zh) * | 2021-07-13 | 2021-10-29 | 壹药网科技(上海)股份有限公司 | 一种基于主成分光谱角距离的药物检索方法及系统 |
CN113569069B (zh) * | 2021-07-13 | 2024-05-17 | 壹药网科技(上海)股份有限公司 | 一种基于主成分光谱角距离的药物检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101833986B (zh) | 2011-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101833986B (zh) | 一种三级音频索引的创建方法及音频检索方法 | |
EP3709184B1 (en) | Sample set processing method and apparatus, and sample querying method and apparatus | |
CN103440313B (zh) | 基于音频指纹特征的音乐检索系统 | |
JP5907511B2 (ja) | オーディオメディア認識のためのシステム及び方法 | |
CN105389590B (zh) | 一种视频聚类推荐方法和装置 | |
CN106802960B (zh) | 一种基于音频指纹的分片音频检索方法 | |
CN111177432B (zh) | 一种基于分层深度哈希的大规模图像检索方法 | |
US20060155399A1 (en) | Method and system for generating acoustic fingerprints | |
CN102301698B (zh) | 时间分段表示特征矢量生成设备 | |
WO2016189307A1 (en) | Audio identification method | |
EP3736804A1 (en) | Methods and systems for determining compact semantic representations of digital audio signals | |
CN111583957B (zh) | 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法 | |
CN112308235A (zh) | 一种时间序列数据流异常检测方法 | |
Avgoustinakis et al. | Audio-based near-duplicate video retrieval with audio similarity learning | |
JP2020013272A (ja) | 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム | |
CN104915403A (zh) | 一种信息处理方法及服务器 | |
CN110767248B (zh) | 一种抗变调干扰的音频指纹提取方法 | |
CN109933691B (zh) | 用于内容检索的方法、装置、设备和存储介质 | |
US10776420B2 (en) | Fingerprint clustering for content-based audio recognition | |
Yao et al. | An efficient cascaded filtering retrieval method for big audio data | |
Roopalakshmi et al. | A novel approach to video copy detection using audio fingerprints and PCA | |
Prashanthi et al. | Music genre categorization using machine learning algorithms | |
CN114610960A (zh) | 基于item2vec和向量聚类的实时推荐方法 | |
Wang et al. | Structural fingerprint based hierarchical filtering in song identification | |
Wang et al. | Music genre classification based on multiple classifier fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111005 Termination date: 20160520 |