CN101833986B - 一种三级音频索引的创建方法及音频检索方法 - Google Patents
一种三级音频索引的创建方法及音频检索方法 Download PDFInfo
- Publication number
- CN101833986B CN101833986B CN 201010177959 CN201010177959A CN101833986B CN 101833986 B CN101833986 B CN 101833986B CN 201010177959 CN201010177959 CN 201010177959 CN 201010177959 A CN201010177959 A CN 201010177959A CN 101833986 B CN101833986 B CN 101833986B
- Authority
- CN
- China
- Prior art keywords
- index
- audio
- vector
- value
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
一种三级音频索引的创建方法及音频检索方法,属于多媒体领域,为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构:对n维的音频特征向量降维,生成第一级索引;将第一级索引按单元长度截成一系列片段,计算其向量模,排序后作为第二级索引;计算片段的类别分,分组后作为第三级索引。基于三级索引的检索方法为:首先,计算出查询音频的一级索引值、片段向量模和类别分,然后依次利用第三级和第二级索引缩小查询范围,最后利用第一级索引计算查询音频与索引音频片段的相似度,将满足检出阈值的数据作为结果返回。
Description
技术领域
本发明涉及一种三级音频索引的创建方法及基于三级音频索引的音频检索方法,属于多媒体领域。
背景技术
随着计算机技术、网络技术及多媒体技术的迅猛发展,音频信息的数据量急剧增多。如何能够自动、准确、快速地寻找到感兴趣的内容,实现基于音频内容的信息检索,就成为一个既迫切又具有挑战性的研究课题。音频信息检索技术在音频信息搜索引擎、实时检索网上电视和音/视频点播节目中的多媒体信息内容、音频信息统计与分类等方面有着广阔的应用前景。音频样例检索是指从检索源数据中查找和目标音频数据相同的音频片段。由于噪音不可避免,所谓相同,也只能是听觉效果上的相同而不是物理信号的相同。
为了在海量数据下,实现快速音频样例检索,需要构建有效的音频索引。然而音频索引一直是索引研究领域中的难点,存在着如下困难:(1)音频数据的特征维数高,存在着“维数的诅咒”,即,索引的复杂度随维数的增加呈指数增长,这一直是索引研究领域中的难点;(2)音频数据非离散可分,不存在自然的分割点;(3)音频数据具有时序性,需要存在一定时长的连续数据才有意义。此外,音频信息检索的种类不同,检索中对音频信息的着眼点和采用的检索方法也有很大差异。目前的技术没有建立对所有音频检索类别都通用的索引机制,无法满足大规模数据库和网络环境下的音频样例检索要求。即,针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制,因此,在具体应用背景下,针对不同的检索应用,研究合适的检索和索引算法将既有理论意义又有现实意义。
发明内容
本发明目的是为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题,提供了一种三级音频索引的创建方法及音频检索方法。
本发明三级音频索引的创建方法包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引;
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模k i ,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引;
三元组包括索引键值k i 、源文件id和片段向量在源文件中的位置i,
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量分组,作为第三级索引,即,类别索引。
基于上述三级音频索引的检索方法,包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列片段向量,计算出查询音频的每个片段向量的模k query 和类别分H quer ;
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。
本发明的优点:基于三级索引的音频检索方法具有索引尺寸小,内存开销低、检索速度快等特点,是适合网络音频处理要求的高效检索方法。
采用一种自相似加权累积距离法将音频特征向量量化,作为第一级索引,反应了音频数据自身的变化情况,实现了对音频特征的降维量化处理,解决了“维数诅咒”的问题。
在一级索引的基础上,通过设置分析窗将窗内的多个一级索引值构成一个多维向量,即片段向量,将片段向量的模作为降维后的值并排序可作为第二级索引,既保存了音频的时序信息,又解决了音频信息的非离散问题。
附图说明
图1是本发明创建三级索引方法中的第一级和第二级索引生成示意图,图2是本发明创建的三级音频索引结构示意图,图3是计算查询音频一级索引值和二级索引值的示意图。
具体实施方式
具体实施方式一:下面结合图1说明三级音频索引创建方法的具体实施方式,包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引,即,帧级索引;
第一级索引的创建方法为:
自相似累积距离反应了音频数据自身的变化情况,对于两段内容相似的音频数据,其量化值(自相似累积距离数值)序列也必然存在较高的相似性。基于否定性判定的思想,若两个音频段的量化值序列比较差距较大,则可确认二者彼此不相似。因此,可将一个音频文件生成的自相似累积距离量化值作为索引,形成第一级索引——帧级索引。
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模k i ,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引,即,片段级索引;
三元组包括索引键值k i 、源文件id和片段向量在源文件中的位置i,
在音频样例检索中,通常截取一定长度的音频数据作为查询音频,即样例音频。在检索时,可将不同长度的查询音频截成相同长度的若干片段,然后以片段为单位进行检索。
而一段音频数据的第一级索引值,即量化数值序列又可看成一个向量,即,片段向量。两段音频数据一级索引相似,即两个片段向量相似。音频片段间的相似性问题即转变为片段向量间的相似问题。根据几何关系,两个向量模之差的绝对值不大于两个向量的欧氏距离,因此可以通过比较两个向量模的差异,即可快速去除不符合查询要求的向量,加快检索速度。将片段向量的模作为键值,使用三元组(索引键值k i ,源文件id,片段向量在源文件中的位置i)描述片段向量,并按k i 数值排序,从而构成第二级索引——片段级索引。索引创建过程如图1所示。
计算每个片段向量的模k i 的方法为:
其中,m为自然数。
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片段向量分组,作为第三级索引,即,类别索引。
在样例检索中,检出结果和查询音频应属于相同的音频类别。充分利用类别信息可缩小检索范围,类别不同的音频数据不可能相似,不做检索操作,从而可有效提高检索速度。
但是考虑到一些音频数据的类别属性模糊,如多种类别声响的混合等,其次,网络环境下,数据质量差异较大可能存在噪声。因此,明确的类别判断容易造成分类错误,从而导致检索的查全率下降。因此,分类器要具有较好的鲁棒性。
由于含音乐的音频数据类型在音频数据中占较高比例,因此系统采用基于和谐度(Harmony)的音乐类音频模糊分类器。
类别索引的创建方法为:
步骤a、计算步骤二所述的片段向量的类别分,
步骤b、根据类别分将所有片段向量分组,
使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个链表中的片段向量,按步骤二组织成一个按向量模排序的片段级索引,结合第一级索引便构成三级索引结构。
具体实施方式二:下面结合图1至图3说明基于实施方式一所述三级音频索引的音频检索方法,包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模k query 和类别分H quer ;
根据向量间的几何关系,两个向量模之差的绝对值不大于两个向量的欧式距离:
即:,
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出:
(1)若找到相似片段,根据需要可直接到对应的特征向量文件中读取对应片段的特征向量数据,也在特征向量级别上进行检出确认;
(2)若确认该片段检出,则在特征向量文件中直接检索后继片段;
(3)根据查询音频各片段的检出情况,判别查询音频在数据库中的出现情况。
为了提高检索速度,可将索引文件,包括第一级、第二级和第三级索引文件载入内存。由于仅仅在需要确认检出的时候才用到特征向量文件,因此特征向量文件的访问次数少,且数据量大,可存于硬盘,在需要时读文件即可。
Claims (2)
1.一种三级音频索引的创建方法,其特征在于,该方法包括以下步骤:
步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理,生成一维的量化值,作为第一级索引;
所述的第一级索引的创建方法为:
步骤二、将第一级索引数据按单元长度截成一系列片段,片段内的第一级索引值构成片段向量,计算每个片段向量的模ki,作为索引键值,以三元组形式描述片段向量,将所有片段三元组按键值排序则构成第二级索引;
索引键值ki的获取方法为:
将步骤一所述的一维的第一级索引按单元长度为m帧、窗移为1的分析窗截成一系列片段,片段内的第一级索引值构成片段向量,则从第i帧开始截取的长为m帧的音频片段的第一级索引值构成的片段向量为 片段向量的模ki按如下公式计算:
其中,m为自然数;
三元组包括索引键值ki、源文件id和片段向量在源文件中的位置i,
步骤三、计算步骤二所述的每个片段的类别分,然后根据类别分将所有片 段分组,作为第三级索引,即,类别索引;
所述的第三级索引的创建方法为:
步骤a、计算步骤二所述的片段的类别分,
其中,hi+j为第i+j帧信号的和谐度,获取方法参照hi,hi为第i帧信号的和谐度,计算公式如下:
其中,
上述公式中,Hi∈[0,1],hi∈[0,1],X(i)为采样信号频谱, 是采样信号频谱X(i)零均值化后的值,K是傅里叶变换阶数,f1、f2是和谐度的考察频率范围,jf1、jf2则是对应的频谱分量下标,j=1,2,..,K/2;
步骤b、根据类别分将所有片段向量分组,
使用哈希函数将类别分散列到具有不同键值的链表中,构成第三级索引,同时将每个链表中的片段向量,按步骤二组织成一个按向量模排序的第二级索引,结合第一级索引便构成三级索引结构。
2.基于权利要求1所述的一种三级音频索引的创建方法而实施的三级音频索引的音频检索方法,其特征在于,该方法包括以下步骤:
步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值,将第一级索引数据按单元长度截成一系列无交叠的片段向量,计算出查询音频的每个片段向量的模kquery和类别分Hquery;
步骤2、在三级索引中,将类别分为[Hquery-Δ,Hquery+Δ]范围内的第二级索 引作为进一步搜索的集合Φ,其中Δ为范围阈值;
步骤3、在集合Φ中,将第二级索引键值ki满足条件kquery-θ≤ki≤kquery+θ的片段向量保留,并利用第二级索引确定所保留片段向量对应的第一级索引值,θ为检索阈值;
步骤4、在第一级索引中,将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算,将相似度高的音频片段检出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010177959 CN101833986B (zh) | 2010-05-20 | 2010-05-20 | 一种三级音频索引的创建方法及音频检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010177959 CN101833986B (zh) | 2010-05-20 | 2010-05-20 | 一种三级音频索引的创建方法及音频检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101833986A CN101833986A (zh) | 2010-09-15 |
CN101833986B true CN101833986B (zh) | 2011-10-05 |
Family
ID=42718027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010177959 Expired - Fee Related CN101833986B (zh) | 2010-05-20 | 2010-05-20 | 一种三级音频索引的创建方法及音频检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101833986B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567411B (zh) * | 2010-12-31 | 2014-05-07 | 上海格尔软件股份有限公司 | 一种快速检索海量数字证书黑名单的方法 |
CN102231826B (zh) * | 2011-03-14 | 2013-08-14 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件帧精确定位的索引方法及系统 |
CN102231803B (zh) * | 2011-03-14 | 2013-07-03 | 新奥特(北京)视频技术有限公司 | 一种支持ts流媒体文件的容错方法 |
WO2012134396A1 (en) * | 2011-03-28 | 2012-10-04 | Agency For Science, Technology And Research | A method, an apparatus and a computer-readable medium for indexing a document for document retrieval |
CN103092848B (zh) * | 2011-10-28 | 2016-09-07 | 浙江大华技术股份有限公司 | 一种图片存储与检索方法 |
CN105426521B (zh) * | 2015-12-04 | 2019-04-23 | 深圳大学 | 具有三级索引结构的海图数据库及其数据读取方法 |
CN105574151B (zh) * | 2015-12-16 | 2019-08-06 | 北京奇虎科技有限公司 | 图像存储方法和设备 |
CN107315745B (zh) * | 2016-04-26 | 2020-05-01 | 北京京东尚科信息技术有限公司 | 一种私信存储方法及系统 |
CN105956155A (zh) * | 2016-05-13 | 2016-09-21 | 海信集团有限公司 | 一种多媒体数据搜索方法及装置 |
CN109388729A (zh) * | 2017-08-14 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 音频子指纹的检索方法、装置以及音频查询系统 |
CN110309143B (zh) * | 2018-03-21 | 2021-10-22 | 华为技术有限公司 | 数据相似度确定方法、装置及处理设备 |
CN110297832B (zh) * | 2019-07-01 | 2021-12-24 | 联想(北京)有限公司 | 一种时序数据存储方法及装置、时序数据查询方法及装置 |
CN111597379B (zh) * | 2020-07-22 | 2020-11-03 | 深圳市声扬科技有限公司 | 音频搜索方法、装置、计算机设备和计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101246500B (zh) * | 2008-03-27 | 2011-04-13 | 腾讯科技(深圳)有限公司 | 一种实现数据快速索引的检索系统和方法 |
CN101477561B (zh) * | 2009-01-09 | 2010-12-29 | 中国人民解放军国防科学技术大学 | 基于内容访问网络的大规模空间矢量数据管理方法 |
-
2010
- 2010-05-20 CN CN 201010177959 patent/CN101833986B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101833986A (zh) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101833986B (zh) | 一种三级音频索引的创建方法及音频检索方法 | |
US8909563B1 (en) | Methods, systems, and programming for annotating an image including scoring using a plurality of trained classifiers corresponding to a plurality of clustered image groups associated with a set of weighted labels | |
US7797265B2 (en) | Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN100585592C (zh) | 一种音频片断之间相似度度量的方法 | |
US20050262068A1 (en) | Searching multimedia databases using multimedia queries | |
WO2017000610A1 (zh) | 一种网页分类的方法和装置 | |
CN103235812B (zh) | 查询多意图识别方法和系统 | |
Kiktova-Vozarikova et al. | Feature selection for acoustic events detection | |
US8108452B2 (en) | Keyword based audio comparison | |
US10467255B2 (en) | Methods and systems for analyzing reading logs and documents thereof | |
CN102143001B (zh) | 一种基于语义理解的音频资源管理方法 | |
Zhao et al. | Ensemble classification based on feature selection for environmental sound recognition | |
Tsytsarau et al. | Efficient sentiment correlation for large-scale demographics | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN103631769A (zh) | 一种判断文件内容与标题间一致性的方法及装置 | |
CN108197319A (zh) | 一种基于时频局部能量的特征点的音频检索方法和系统 | |
CN112308235A (zh) | 一种时间序列数据流异常检测方法 | |
Menezes et al. | Demand-driven tag recommendation | |
Gulmatico et al. | SpotiPred: A machine learning approach prediction of Spotify music popularity by audio features | |
Zhen et al. | Notice of Retraction: Multi-modal music genre classification approach | |
Rudinac et al. | Leveraging visual concepts and query performance prediction for semantic-theme-based video retrieval | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
Si | Classification Method of Ideological and Political Resources of Broadcasting and Hosting Professional Courses Based on SOM Artificial Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111005 Termination date: 20160520 |