CN105574212B

CN105574212B - 一种多索引磁盘哈希结构的图像检索方法

Info

Publication number: CN105574212B
Application number: CN201610101397.2A
Authority: CN
Inventors: 赵仕荣; 张健; 彭宇新
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-02-24
Filing date: 2016-02-24
Publication date: 2019-04-26
Anticipated expiration: 2036-02-24
Also published as: CN105574212A

Abstract

本发明涉及一种多索引磁盘哈希结构的图像检索方法，包括以下步骤：离线索引阶段，对多媒体数据提取高维特征；使用哈希映射方法将高维特征映射为哈希编码；将哈希编码平均分割为编码子串；将编码子串分别插入对应的基于磁盘的B+树索引结构中；重复上述步骤m次，形成多索引磁盘结构。在线查询阶段，对于查询的多媒体数据，经过提取特征、哈希编码、编码分割后得到编码子串，搜索该编码在磁盘索引的r近邻结果，合并r近邻结果直至找到k近邻结果后返回。本发明结合多索引哈希方法与B+树存储结构的优势，在提高索引结构检索准确率和检索速度的同时，增大了支持的数据量。

Description

一种多索引磁盘哈希结构的图像检索方法

技术领域

本发明涉及图像索引与检索技术领域，具体涉及一种多索引磁盘哈希结构的图像检索方法。

背景技术

近年来随着“互联网+”政策的推进，我国的互联网技术、数字媒体技术、网络传输技术蓬勃发展。智能手机平板等终端设备的普及以及社交应用、电子商务应用的不断发展，使得图像数据呈快速增长趋势。为了更好地利用这些图像数据，快速准确的大规模图像数据检索成为一个亟待解决的重要问题。传统基于文本的图像检索依赖于图像名称或者注释等带有较强主观性的文本信息，往往不能达到预期的检索效果。基于内容的图像检索采用图像的颜色、纹理或形状等特征进行检索，能够克服上述局限性，受到学术界和工业界的重视。

基于内容的图像检索可以分为特征提取和特征匹配两个过程：特征提取将图像像素压缩表示为高维特征向量，特征匹配则从大规模高维特征中找到查询特征的近邻数据(nearest neighbors)。目前高维特征近邻检索方法主要分为基于树形结构的方法和基于哈希映射的方法。近年来基于哈希映射的索引及检索方法由于在实际应用中的优秀表现，获得了广泛关注。

基于哈希映射的方法原理是将近邻数据映射到同一个哈希桶，利用哈希冲突过滤多数非近邻数据从而提高检索效率。通过设计合理的哈希映射函数，基于哈希映射的索引结构能实现次线性时间复杂度的检索效率。这类方法将图像的高维特征压缩表示为几十或几百个比特的哈希编码，压缩高维特征表示的同时保持数据的局部敏感特性，即任意距离测度(L1距离、欧式距离等)小的数据，经过哈希映射之后汉明距离小。

基于哈希映射的方法将图像数据压缩表示为哈希编码，提高了存储和计算效率，但是对于大规模哈希编码并没有一种有效的方法进行检索。目前大部分研究将图像表示为哈希编码后采用线性扫描方法找最近邻，检索效率较低。M.Norouzi等人在文献“Fastsearch in hamming space with multi-index hashing”中提出了一种基于编码分割的多索引哈希结构，与近似检索不同，该结构能实现“准确”的哈希编码检索且检索时间复杂度为次线性。但上述方法需要使用大量内存，不仅代价高，而且在数据量大、内存无法载入索引结构时无法使用。相对内存而言磁盘容量大、价格低廉，非常适合用于大数据量的基于内容的图像检索。由于磁盘的IO效率比内存要低，因此如何设计一种合理的索引结构来优化磁盘的IO策略，同时保持多索引哈希结构的检索性能成为解决哈希编码高效检索的关键问题。

发明内容

针对现有技术的不足，本发明提出了一种多索引磁盘哈希结构的图像检索方法，用于解决高维数据的索引和快速检索问题。该发明结合了多索引哈希算法检索效率高，以及B+树结构磁盘IO效率高的特性，将哈希编码存储在基于磁盘的B+树索引结构中，能够很好地支持大规模图像高维数据的索引与检索。

为了达到以上目的，本发明采用的技术方案如下：

本发明提出了一种多索引磁盘哈希结构，用于对图像高维特征数据进行磁盘索引，该索引结构的建立方法包括以下步骤：

(1)对需要建立索引的图像提取一种或多种高维特征；

(2)基于步骤(1)提取的高维特征，使用哈希映射方法将高维特征映射为若干比特的哈希编码；

(3)基于步骤(2)生成的哈希编码，将该编码分割为m份，形成m个哈希编码子串；

(4)将步骤(3)生成的哈希编码子串，插入对应的B+树索引结构中；

(5)重复步骤(3)、(4)，将全部哈希编码子串插入并保存到对应的B+树结构中，形成多个B+树索引结构组成的多索引磁盘哈希结构。

进一步，所述步骤(1)中的提取高维特征，是对图像提取颜色、纹理或形状等特征。

进一步，所述步骤(2)中的哈希映射方法，包括多种将图像高维特征通过哈希函数映射成一串紧凑的哈希编码并保持特征局部敏感特性的方法。这类方法使得任意两个距离测度(L1距离，欧式距离等)小的高维特征，通过映射之后汉明距离也小。

进一步，所述步骤(3)中的编码分割方法为将哈希编码平均分成m等份，形成m个哈希编码子串，其中m由最佳编码长度决定。

进一步，所述步骤(4)中插入对应的B+树索引结构是指将第1个子串插入第1个B+树索引结构，第2个子串插入第2个B+树索引结构，以此类推。

进一步，所述步骤(5)中重复步骤(3)、(4)m次，将每一个哈希编码分割为m个哈希编码子串，分别保存到m个对应的B+树索引结构，形成多索引磁盘哈希结构。

本发明还提出了一种采用上述多索引磁盘哈希结构的图像检索方法，其步骤包括：

(a)采用上述磁盘索引建立方法建立多索引磁盘哈希结构；

(b)对于查询图像，经过与上述步骤(1)，(2)，(3)相同的特征提取、哈希映射和编码切割方法，得到m个查询编码子串；

(c)初始化检索距离r为0，k近邻结果为

(d)基于上述步骤(a)建立的磁盘索引，进行查询编码的r近邻检索，得到r近邻结果；

(e)将步骤(d)得到的r近邻结果合并到k近邻结果中；

(f)将r递增1，重复上述步骤(d)、(e)，直至k近邻结果数量超过k后，返回该结果。

进一步，所述步骤(c)中的检索距离r表示当前循环查询编码与检索结果的汉明距离，r在检索查询编码k近邻的过程中逐渐增大，直到找到k个近邻；所述的k近邻结果用于存放最终查询编码的k近邻。

进一步，所述步骤(f)中重复步骤(d)、(e)的次数不固定，由查询编码的近邻数据分布决定，循环在找到k个近邻结果后停止。

本发明的有益效果在于：(1)支持大规模图像数据的快速索引和检索；(2)支持数据的动态添加；(3)与近似检索不同，本发明支持准确的哈希编码k近邻检索。

本发明之所以具有上述有益效果，其原因在于：本发明采用了基于磁盘的B+树结构来存储哈希表，不但支持数据动态添加，而且与其他数据结构相比磁盘IO效率高，检索速度快；本发明采用了基于编码分割的多索引哈希检索算法，通过检索多索引结构得到候选集并筛选，该方法能够实现与近似检索方法不同的“准确”哈希编码检索，且检索复杂度为次线性；

附图说明

图1是本发明的索引建立流程图。

图2是B+树存储结构示意图。

图3是本发明的检索流程图。

图4是多索引哈希结构k近邻检索算法描述图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述。

本发明的一种多索引磁盘哈希结构，其索引建立的流程如图1所示，具体包含以下步骤：

(1)特征提取

对需要建立索引的图像提取一种或多种颜色、纹理或形状特征，该特征为高维向量。

(2)哈希编码

在经过步骤(1)特征提取之后，需要通过哈希编码方法将高维图像特征映射为更加紧凑的哈希编码。哈希编码方法利用局部敏感哈希映射函数，将高维特征映射为若干比特哈希编码的同时保持特征相似性，即距离测度(L1距离，欧式距离等)小的特征映射后的哈希编码的汉明距离也小。

本实施例采用由A.Gionis和P.Indyk在文献“Similarity search in highdimensions via hashing”中提出的局部敏感哈希(Locality Sensitive Hashing,LSH)编码方法。该方法是一种随机平面映射的编码方法，通过随机的高斯分布映射矩阵将高维特征映射为若干比特哈希编码。假设高维特征的维度为d，选定的LSH编码比特数为b，LSH编码的过程为：首先随机生成一个大小为dx b的随机高斯分布矩阵，然后对每一个特征向量点乘该随机矩阵得到对应的哈希编码。本实施例中选定的LSH编码的比特位数为64。

(3)编码分割

经过步骤(2)哈希编码，得到图像高维特征数据对应的哈希编码，我们可以对这些哈希编码建立单个索引，通过检索查询编码在索引中近邻哈希桶(索引中哈希编码及对应存储的数据称为哈希桶)获得最近邻。但一般哈希桶的数量(本实施例为2⁶⁴)远远大于图像高维特征数量n，因此大量哈希桶是空的。为了减少哈希桶数量，本实施例采用了M.Norouzi等人在文献“Fast search in hamming space with multi-index hashing”中提出的编码分割方法。将每个哈希编码分成连续的m等份，使用更短的哈希编码组合多个哈希桶从而加快检索效率。编码分割之后r近邻检索的时间复杂度如公式一所示：

公式一：

其中，cost(s)表示编码子串长度为检索距离为r时，检索的时间复杂度；H(ε)＝-εlog₂ε-(1-ε)log₂(1-ε)表示概率为ε的伯努利分布熵；q表示编码位数。为了使检索时间复杂度最低，本实施例选取的最佳编码子串长度为log₂n。

确定最佳编码子串长度之后，将步骤(2)得到的每个哈希编码分成长度尽量接近最佳编码子串长度的连续m等份，形成m组哈希编码子串。

(4)建立B+树磁盘索引

得到m组哈希编码子串之后，我们需要将这m组编码子串保存到基于磁盘的B+树索引结构中，以加速检索过程。本实施例采用的B+树存储结构如图2所示。B+树是一种平衡二叉树，图2展示的是阶为3的B+树结构示例，其中1^*表示B+树中编码子串为1的叶节点，该叶节点中存储了键值1和对应的数据ID对应哈希编码子串。中间节点存储了子节点键值范围和子节点指针，比如中间节点键值4，对应的子节点的编码子串范围为(-∞,4)，键值7对应子节点的编码子串范围为[4,7)。

由于高维特征的距离测度越小哈希编码相同的概率越大，因此B+树索引结构会出现大量的重复键值。本实施例的B+树索引结构采用常用的溢出页(overflow page)处理重复键值，比如键值6出现了3次，重复的数据被分配到溢出页中。

将步骤(3)中的m组哈希编码子串分别插入对应的B+树索引结构后，即将编码子串保存到m个磁盘索引结构，形成了多索引磁盘哈希结构。

本发明的一种基于多索引磁盘哈希结构的k近邻图像检索方法流程如图3所示，具体包含以下步骤：

(1)采用与索引建立步骤中相同的(1)特征提取、(2)哈希编码、(3)编码分割，对查询图像进行处理，得到m个查询编码子串；

(2)初始化检索距离r为0，k近邻结果为

(3)对查询编码进行r近邻检索，包括以下步骤：

a)对查询编码第a+1(a＝r％m)个子串，在对应的B+树(第a+1个)索引结构中检索r’近邻。检索r’近邻时，首先枚举与查询编码子串汉明距离为r’的所有编码，然后从对应的B+树索引结构中找到枚举编码对应的哈希桶并返回其中数据，得到候选结果(详细算法描述如图4所示)；

b)计算步骤a)得到的候选数据哈希编码与查询编码的汉明距离，筛选出汉明距离小于r的数据，得到查询编码的r近邻结果；

c)将步骤b)得到的r近邻结果合并到k近邻结果中。

(4)将检索距离r增加1并重复步骤(3)，直至返回k近邻结果数量超过k。

步骤(3)对查询编码进行r近邻检索，找到与查询编码汉明距离为r的数据。如果查询编码与索引数据哈希编码之间的距离不大于r，那么与m个查询编码子串中至少有一个距离不大于r’，因此通过步骤(3)可以找到与查询编码汉明距离为r的近邻数据。

步骤(4)增加检索距离并重复检索查询编码r近邻，是为了找到查询编码的k近邻结果。由于r近邻检索结果数量与哈希编码的分布有关，有的查询的结果很多，有的查询的结果很少甚至没有，因此k近邻检索在许多场景下更符合实际需求。通过逐步增加检索的距离r扩大检索范围，可以找到查询编码的k近邻。

下面的实验表明，本发明能够对大规模高维特征建立磁盘索引，并且能够支持索引结构的动态增加。与现有方法相比，本发明能够取得更高的检索准确率和检索速度。

本实施例采用BIGANN数据集，实验采用平均检索时间和MAP(mean averageprecision)作为评测指标。实验统计MAP时，采用查询图像高维特征欧式距离最小的前500个数据作为标准，统计前500个检索结果的平均查询准确度。

实验硬件环境为Dell C6100服务器，配置为：Intel Xeon E56452.4G双核，96G内存，希捷7200RPM硬盘。

实验采用BIGANN数据集，该数据集由H.Jégou等人在文献“Searching in onebillion vectors:re-rank with source coding”中提出，包含10亿个128维的SIFT基础特征集和10000个查询特征集。除此之外，BIGANN数据集还提供了大小为1百万、5百万、1千万、5千万、1亿、5亿、10亿的子数据集的欧氏距离前1000作为标准结果。

本实验与Q.Lv等人在文献“Multi-probe LSH:efficient indexing for high-dimensional similarity search.”提出的Multi-probe LSH方法进行对比，该方法基于经典的局部敏感哈希算法进行改进，提出了多探测的查询方法，改进了查询的效果。

实验中本发明采用LSH编码方法，编码长度为64比特。实验分别对5个大小为1百万、5百万、1千万、5千万和1亿的子数据集建立索引，并从查询特征集中随机取100个查询特征进行检索，得到平均结果如表1所示。

表1.BIGANN实验结果

表1数据中，本发明与现有方法Multi-probe LSH的平均检索时间对比表明，本发明提出的多索引磁盘哈希结构可以支持多达1亿的数据量进行磁盘索引与检索，而现有的Multi-probe LSH方法则在数据量大于5百万时无法实现1s时间内的检索。相同数据量下两种对比方法的平均检索时间对比表明，本发明提出的检索效率比现有方法Multi-probeLSH高，数据量越大，本发明的检索效率优势越明显。相同数据量下两种对比方法的检索结果MAP对比表明，本发明提出的方法取得了远高于Multi-Probe LSH方法的检索准确率。实验中索引的建立均通过增量添加的方式进行，说明本发明能够支持索引的动态添加。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于图像检索的多索引磁盘哈希结构的建立方法，其步骤包括：

(1)对需要建立索引的图像集提取一种或多种高维特征；

(2)使用哈希映射方法将步骤(1)提取的高维特征映射为若干比特的哈希编码；

(3)将所述哈希编码均匀分割为若干组哈希编码子串；

(4)将步骤(3)所得的哈希编码子串插入到对应的基于磁盘的B+树索引结构中；

(5)重复步骤(3)、(4)，使用步骤(4)中基于磁盘的B+树索引结构，对步骤(3)中均匀分割的哈希编码构建索引结构，形成高维数据的多索引磁盘结构。

2.如权利要求1所述的方法，其特征在于，所述步骤(1)中的提取高维特征，是对图像提取颜色、纹理或形状特征。

3.如权利要求1所述的方法，其特征在于，所述步骤(2)中的哈希映射方法，包括各类将高维数据压缩编码成二进制的映射方法，在压缩数据的同时保持局部敏感特性，即任意两个距离测度小的数据，经过编码之后形成的哈希编码的汉明距离小。

4.如权利要求1所述的方法，其特征在于，所述步骤(3)中的编码分割方法为将哈希编码平均分成m等份，形成m个哈希编码子串，其中m由最佳编码长度决定。

5.如权利要求1所述的方法，其特征在于，所述步骤(5)重复步骤(3)、(4)m次，即每一个高维特征生成m个哈希编码，保存到m个基于磁盘的B+树索引。

6.根据权利要求1-5中任一权利要求建立的用于图像检索的多索引磁盘哈希结构。

7.一种多索引磁盘哈希结构的图像检索方法，其步骤包括：

(a)采用权利要求1所述的方法对图像数据建立多索引磁盘哈希结构；

(b)对于查询图像，经过与权利要求1中步骤(1)、(2)、(3)相同的特征提取、哈希映射和编码切割方法，得到m个查询编码子串；

(c)初始化检索距离r为0，k近邻结果为

(d)基于上述步骤(a)建立的磁盘索引，进行查询编码的r近邻检索，得到查询编码的r近邻结果；

(e)将上述步骤(d)得到的r近邻结果合并到k近邻结果中；

8.如权利要求7所述的方法，其特征在于，所述步骤(c)中的检索距离r表示当前循环查询编码与检索结果的汉明距离，所述的k近邻结果用于存放最终查询编码的k近邻。

9.如权利要求7所述的方法，其特征在于，所述步骤(d)中进行查询编码的r近邻检索的方法是：

a)对查询编码第a+1个子串，其中a＝r％m，在对应的第a+1个B+树索引结构中检索r’近邻，其中检索r’近邻时，首先枚举与查询编码子串汉明距离为r’的所有编码，然后从对应的B+树索引结构中找到枚举编码对应的哈希桶并返回其中数据，得到候选结果；

b)计算步骤a)得到的候选数据哈希编码与查询编码的汉明距离，筛选出汉明距离小于r的数据，得到查询编码的r近邻结果。

10.如权利要求7所述的方法，其特征在于，所述步骤(f)中重复步骤(d)、(e)的次数不固定，由查询编码的近邻数据分布决定，循环在找到k个近邻结果后停止。