CN101833986B

CN101833986B - 一种三级音频索引的创建方法及音频检索方法

Info

Publication number: CN101833986B
Application number: CN 201010177959
Authority: CN
Inventors: 郑贵滨; 韩纪庆; 郑铁然; 姜涛; 王勇; 张慧; 狄少嘉; 唐健琪; 丁丽
Original assignee: Harbin Institute of Technology; National Computer Network and Information Security Management Center
Current assignee: Harbin Institute of Technology; National Computer Network and Information Security Management Center
Priority date: 2010-05-20
Filing date: 2010-05-20
Publication date: 2011-10-05
Anticipated expiration: 2030-05-20
Also published as: CN101833986A

Abstract

一种三级音频索引的创建方法及音频检索方法，属于多媒体领域，为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题。本发明创建一种三级索引结构：对n维的音频特征向量降维，生成第一级索引；将第一级索引按单元长度截成一系列片段，计算其向量模，排序后作为第二级索引；计算片段的类别分，分组后作为第三级索引。基于三级索引的检索方法为：首先，计算出查询音频的一级索引值、片段向量模和类别分，然后依次利用第三级和第二级索引缩小查询范围，最后利用第一级索引计算查询音频与索引音频片段的相似度，将满足检出阈值的数据作为结果返回。

Description

一种三级音频索引的创建方法及音频检索方法

技术领域

本发明涉及一种三级音频索引的创建方法及基于三级音频索引的音频检索方法，属于多媒体领域。

背景技术

随着计算机技术、网络技术及多媒体技术的迅猛发展，音频信息的数据量急剧增多。如何能够自动、准确、快速地寻找到感兴趣的内容，实现基于音频内容的信息检索，就成为一个既迫切又具有挑战性的研究课题。音频信息检索技术在音频信息搜索引擎、实时检索网上电视和音/视频点播节目中的多媒体信息内容、音频信息统计与分类等方面有着广阔的应用前景。音频样例检索是指从检索源数据中查找和目标音频数据相同的音频片段。由于噪音不可避免，所谓相同，也只能是听觉效果上的相同而不是物理信号的相同。

为了在海量数据下，实现快速音频样例检索，需要构建有效的音频索引。然而音频索引一直是索引研究领域中的难点，存在着如下困难：（1）音频数据的特征维数高，存在着“维数的诅咒”，即，索引的复杂度随维数的增加呈指数增长，这一直是索引研究领域中的难点；（2）音频数据非离散可分，不存在自然的分割点；（3）音频数据具有时序性，需要存在一定时长的连续数据才有意义。此外，音频信息检索的种类不同，检索中对音频信息的着眼点和采用的检索方法也有很大差异。目前的技术没有建立对所有音频检索类别都通用的索引机制，无法满足大规模数据库和网络环境下的音频样例检索要求。即，针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制，因此，在具体应用背景下，针对不同的检索应用，研究合适的检索和索引算法将既有理论意义又有现实意义。

发明内容

本发明目的是为了解决现有技术针对大规模数据库和网络环境下的音频样例检索缺少快速、有效的索引机制的问题，提供了一种三级音频索引的创建方法及音频检索方法。

本发明三级音频索引的创建方法包括以下步骤：

步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理，生成一维的量化值，作为第一级索引；

步骤二、将第一级索引数据按单元长度截成一系列片段，片段内的第一级索引值构成片段向量，计算每个片段向量的模k _i，作为索引键值，以三元组形式描述片段向量，将所有片段三元组按键值排序则构成第二级索引；

三元组包括索引键值k _i、源文件id和片段向量在源文件中的位置i，

步骤三、计算步骤二所述的每个片段的类别分，然后根据类别分将所有片段向量分组，作为第三级索引，即，类别索引。

基于上述三级音频索引的检索方法，包括以下步骤：

步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值，将第一级索引数据按单元长度截成一系列片段向量，计算出查询音频的每个片段向量的模k _query和类别分H _quer；

步骤2、在第三级索引中，将类别分为

范围内的第二级索引作为进一步搜索的集合

，其中

为范围阈值；

步骤3、在集合

中，将第二级索引键值

满足条件

的片段向量保留，并利用第二级索引确定所保留片段向量对应的第一级索引值，

为检索阈值；

步骤4、在第一级索引中，将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算，将相似度高的音频片段检出。

本发明的优点：基于三级索引的音频检索方法具有索引尺寸小，内存开销低、检索速度快等特点，是适合网络音频处理要求的高效检索方法。

采用一种自相似加权累积距离法将音频特征向量量化，作为第一级索引，反应了音频数据自身的变化情况，实现了对音频特征的降维量化处理，解决了“维数诅咒”的问题。

在一级索引的基础上，通过设置分析窗将窗内的多个一级索引值构成一个多维向量，即片段向量，将片段向量的模作为降维后的值并排序可作为第二级索引，既保存了音频的时序信息，又解决了音频信息的非离散问题。

附图说明

图1是本发明创建三级索引方法中的第一级和第二级索引生成示意图，图2是本发明创建的三级音频索引结构示意图，图3是计算查询音频一级索引值和二级索引值的示意图。

具体实施方式

具体实施方式一：下面结合图1说明三级音频索引创建方法的具体实施方式，包括以下步骤：

步骤一、对数据库中每个音频特征文件中的n维特征向量进行降维处理，生成一维的量化值，作为第一级索引，即，帧级索引；

第一级索引的创建方法为：

采用自相似加权距离法对音频特征向量序列的每个特征向量进行降维量化处理，对于n维的帧特征向量

，对应的一维量化值

值为：

其中：i为帧序号，Range为计算范围，且

，

为加权系数，

表示两个特征向量间的距离。

自相似累积距离反应了音频数据自身的变化情况，对于两段内容相似的音频数据，其量化值（自相似累积距离数值）序列也必然存在较高的相似性。基于否定性判定的思想，若两个音频段的量化值序列比较差距较大，则可确认二者彼此不相似。因此，可将一个音频文件生成的自相似累积距离量化值作为索引，形成第一级索引——帧级索引。

步骤二、将第一级索引数据按单元长度截成一系列片段，片段内的第一级索引值构成片段向量，计算每个片段向量的模k _i，作为索引键值，以三元组形式描述片段向量，将所有片段三元组按键值排序则构成第二级索引，即，片段级索引；

在音频样例检索中，通常截取一定长度的音频数据作为查询音频，即样例音频。在检索时，可将不同长度的查询音频截成相同长度的若干片段，然后以片段为单位进行检索。

而一段音频数据的第一级索引值，即量化数值序列又可看成一个向量，即，片段向量。两段音频数据一级索引相似，即两个片段向量相似。音频片段间的相似性问题即转变为片段向量间的相似问题。根据几何关系，两个向量模之差的绝对值不大于两个向量的欧氏距离，因此可以通过比较两个向量模的差异，即可快速去除不符合查询要求的向量，加快检索速度。将片段向量的模作为键值，使用三元组(索引键值k _i，源文件id，片段向量在源文件中的位置i)描述片段向量，并按k _i数值排序，从而构成第二级索引——片段级索引。索引创建过程如图1所示。

计算每个片段向量的模k _i的方法为：

将步骤一所述的一维的第一级索引按单元长度为m帧、窗移为1的分析窗截成一系列片段向量，则从第i帧开始截取的长为m帧的音频片段的一级索引值构成的片段向量为

，片段向量的模k _i按如下公式计算：

，

其中，m为自然数。

在样例检索中，检出结果和查询音频应属于相同的音频类别。充分利用类别信息可缩小检索范围，类别不同的音频数据不可能相似，不做检索操作，从而可有效提高检索速度。

但是考虑到一些音频数据的类别属性模糊，如多种类别声响的混合等，其次，网络环境下，数据质量差异较大可能存在噪声。因此，明确的类别判断容易造成分类错误，从而导致检索的查全率下降。因此，分类器要具有较好的鲁棒性。

由于含音乐的音频数据类型在音频数据中占较高比例，因此系统采用基于和谐度(Harmony)的音乐类音频模糊分类器。

类别索引的创建方法为：

步骤a、计算步骤二所述的片段向量的类别分，

按公式

计算出每个片段向量的和谐度作为类别分，

其中，

为第i+j帧信号的和谐度，获取方法参照

，

为第i帧信号的和谐度，计算公式如下：

，

其中，

，

上述公式中，

，

，

为采样信号频谱，

是采样信号频谱

零均值化后的值，K是傅里叶变换阶数，是和谐度的考察频率范围，

、

则是对应的频谱分量下标，；

步骤b、根据类别分将所有片段向量分组，

使用哈希函数将类别分散列到具有不同键值的链表中，构成第三级索引，同时将每个链表中的片段向量，按步骤二组织成一个按向量模排序的片段级索引，结合第一级索引便构成三级索引结构。

具体实施方式二：下面结合图1至图3说明基于实施方式一所述三级音频索引的音频检索方法，包括以下步骤：

步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值，将第一级索引数据按单元长度截成一系列无交叠的片段向量，计算出查询音频的每个片段向量的模k _query和类别分H _quer；

设查询音频的片段向量为：

，对应的向量模为：

，

查询音频片段向量的类别分

为：

，

步骤2、在第三级索引中，将类别分为

范围内的第二级索引作为进一步搜索的集合

，其中

为范围阈值；

步骤3、在集合

中，将第二级索引键值

满足条件

为检索阈值；

若集合

中片段向量

与

的欧氏距离满足如下条件,，则可认为二者相似：

其中，

为检索阈值。

根据向量间的几何关系，两个向量模之差的绝对值不大于两个向量的欧式距离：

由于

，

即：，

因此，根据上式的简单判断，就可将待查数据集合

中一些不符合查询要求的片段向量排除，进而缩小检索范围，加快检索速度。

步骤4、在第一级索引中，将步骤3确定的片段向量的第一级索引值与步骤1获取的查询音频的第一级索引值进行片段相似度匹配计算，将相似度高的音频片段检出：

（1）若找到相似片段，根据需要可直接到对应的特征向量文件中读取对应片段的特征向量数据，也在特征向量级别上进行检出确认；

（2）若确认该片段检出，则在特征向量文件中直接检索后继片段；

（3）根据查询音频各片段的检出情况，判别查询音频在数据库中的出现情况。

为了提高检索速度，可将索引文件，包括第一级、第二级和第三级索引文件载入内存。由于仅仅在需要确认检出的时候才用到特征向量文件，因此特征向量文件的访问次数少，且数据量大，可存于硬盘，在需要时读文件即可。

Claims

1.一种三级音频索引的创建方法，其特征在于，该方法包括以下步骤：

所述的第一级索引的创建方法为：

对应的一维量化值p_i值为：

且满足条件

其中：i为帧序号，Range为计算范围，且Range＞0，c_j为加权系数，

表示两个特征向量间的距离；

步骤二、将第一级索引数据按单元长度截成一系列片段，片段内的第一级索引值构成片段向量，计算每个片段向量的模k_i，作为索引键值，以三元组形式描述片段向量，将所有片段三元组按键值排序则构成第二级索引；

索引键值k_i的获取方法为：

将步骤一所述的一维的第一级索引按单元长度为m帧、窗移为1的分析窗截成一系列片段，片段内的第一级索引值构成片段向量，则从第i帧开始截取的长为m帧的音频片段的第一级索引值构成的片段向量为

片段向量的模k_i按如下公式计算：

其中，m为自然数；

三元组包括索引键值k_i、源文件id和片段向量在源文件中的位置i，

步骤三、计算步骤二所述的每个片段的类别分，然后根据类别分将所有片段分组，作为第三级索引，即，类别索引；

所述的第三级索引的创建方法为：

步骤a、计算步骤二所述的片段的类别分，

按公式

计算出每个片段的和谐度作为类别分，

其中，h_i+j为第i+j帧信号的和谐度，获取方法参照h_i，h_i为第i帧信号的和谐度，计算公式如下：

其中，

上述公式中，H_i∈[0，1]，h_i∈[0，1]，X(i)为采样信号频谱，

是采样信号频谱X(i)零均值化后的值，K是傅里叶变换阶数，f₁、f₂是和谐度的考察频率范围，j_f1、j_f2则是对应的频谱分量下标，j＝1，2，..，K/2；

步骤b、根据类别分将所有片段向量分组，

使用哈希函数将类别分散列到具有不同键值的链表中，构成第三级索引，同时将每个链表中的片段向量，按步骤二组织成一个按向量模排序的第二级索引，结合第一级索引便构成三级索引结构。

2.基于权利要求1所述的一种三级音频索引的创建方法而实施的三级音频索引的音频检索方法，其特征在于，该方法包括以下步骤：

步骤1、对查询音频的特征向量序列进行降维获取其第一级索引值，将第一级索引数据按单元长度截成一系列无交叠的片段向量，计算出查询音频的每个片段向量的模k_query和类别分H_query；

步骤2、在三级索引中，将类别分为[H_query-Δ，H_query+Δ]范围内的第二级索引作为进一步搜索的集合Φ，其中Δ为范围阈值；

步骤3、在集合Φ中，将第二级索引键值k_i满足条件k_query-θ≤k_i≤k_query+θ的片段向量保留，并利用第二级索引确定所保留片段向量对应的第一级索引值，θ为检索阈值；