CN104899326A

CN104899326A - 一种基于二进制多索引哈希技术的图像检索方法

Info

Publication number: CN104899326A
Application number: CN201510346696.8A
Authority: CN
Inventors: 桑永胜; 章毅; 邓涵
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2015-06-19
Filing date: 2015-06-19
Publication date: 2015-09-09

Abstract

本发明公开了一种基于二进制多索引哈希技术的图像检索方法，属于图像检索技术领域，该方法首先采用主成分分析方法，求出第一主成分并把其作为投影向量，并对二进制数据集进行投影，以得到分布较为均匀的浮点型数据集；其次通过计算把浮点型数据集转化为二进制数据集；最后对二进制数据集进行投影映射得到二进制数据集的子串。本发明在使用分段哈希索引之前，先对图像特征进行投影映射，使图像特征数据分布均匀，从而提高检索效率；优化的分段哈希索引技术与传统的分段哈希索引技术相比，在精度较高的前提下，大量地提高了检索效率，满足了大规模图像检索的需求。

Description

一种基于二进制多索引哈希技术的图像检索方法

技术领域

本发明涉及图像检索技术领域，具体涉及一种查询效率高、空间资源占用率低的高基于二进制多索引哈希技术的图像检索方法。

背景技术

随着网络的飞速发展以及多媒体技术应用的不断普及，互联网上的图像数量已达到上亿级并正在不断地高速增长。截止2014年3月，Instagram分享图片数量已经超过了200亿张，并以每天多于4000万幅的速度增长。因此，如何在海量图像数据库中对图像建立高效的高维索引并实现精度高、速度快的相似图像检索，是多媒体领域研究的热点与难点。

早年，图像检索仅仅局限于“以字搜图”的方法，这种方法是基于关键字或文本的，他依靠人工标注的文本来搜索图像。虽然“以字搜图”迈出了图像检索的第一步，大大减少了图像搜索的难点，但检索出来的图像往往具有很大的局限性：例如对大规模图像进行标注的工作量太大，人工描述的文字可能具有歧义性，以及图像的轮廓纹理等内容很难进行人工标注等。

目前，越来越多的知名搜索引擎采用了基于图像内容的图像检索技术来搜索图像，例如谷歌、百度。基于图像内容的图像检索使大规模图像检索成为可能，克服了“以字搜图”的局限性。基于内容的图像检索步骤通常如下：首先，利用图像处理技术检测图像的视觉特征；其次，用数字描述检测到的特征并表示为高维的特征向量；然后，在生成的特征库中为高维的特征向量建立索引；最后，使用生成的高维索引对查询向量进行相似性查询。因此，图像检索问题转化为了高维向量相似性查询问题。由于图像特征往往维度很高，所以如何建立高效的高维索引是进行快速、准确的图像检索的关键。

目前，大规模图像检索中高维索引技术面临的挑战主要包括以下两个方面：

一、维数高引起的“维数灾难”

由视觉特征生成的描述子数据往往维数很高，比如SIFT特征128维、GIST特征960维。传统基于树结构的索引方法，在维数大于十时容易受到“维数灾难”的影响。近似最近邻ANN(Approximate Nearest Neighbor)的查询方法通过牺牲很小的精度换取了效率的大幅度提高，得到了广泛的研究和应用。典型的ANN算法如David M.Mount和Sunil Arya于1998年实现的ANN-package。但是ANN基于KD树结构，在维数达到几十时，仍然受到维数灾难的影响。随后Piotr Indyk等人根据近似最近邻搜索的思想，提出了局部敏感哈希LSH(Locality SensitiveHashing)的概念，把查询时间降到了亚线性，消除了查询时间对维数的指数级依赖。LSH基于哈希表结构，通过计算哈希值可直接访问到数据所在的存储结构，在视频检索等领域得到了成功应用。但是LSH对数据空间均匀划分，不适用于多媒体领域非均匀分布的数据。对LSH的改进方法，主要针对查询扩展方面，并没有考虑哈希函数本身带来的问题。如何针对成百上千维的数据建立高维索引，并实现高效率高性能的近似最近邻查询算法，仍然是个有待于进一步研究的难点。

二、大规模数据引起的空间资源不足

面向大规模图像库的检索对高维索引提出了新的要求。在大规模的数据规模下，内存资源成为瓶颈。例如，对一幅图像提取的SIFT局部特征数大约有102～103，在百万级规模的图像库下原始特征至少消耗500G的空间。庞大的数据无法在内存中存储，而基于磁盘的查找又严重影响了检索效率。针对这一问题，学者们提出了对数据压缩后建立索引的方法，本发明称为“压缩索引”。代表性方法如谱哈希，基于随机投影的中国科学院博士学位论文──面向大规模图像检索的高维索引技术研究二进制码和量化方法等。压缩索引方法大大缓解了空间资源不足的问题，但以损失查询精度为代价。将数据编码为二进制码是目前常用的压缩索引方法，但是现有方法对二进制码的索引往往采用线性查询的方式，查询效率有待于进一步提高。

图像检索的过程通常为以下几个步骤：首先，利用计算机图像处理技术检测图像的视觉特征；其次，用数字表示检测到的特征并生成高维特征向量；然后，对高维特征向量建立索引；最后，利用索引对高维向量进行检索。其中，图像查询是在线进行的，所以对实时性要求很高。为了提高查询效率，我们使用二进制特征描述图像内容。

发明内容

针对上述现有技术，本发明的目在于如何提供一种查询效率高、空间资源占用率低的高基于二进制多索引哈希技术的图像检索方法，旨在百万级甚至千万级的大规模图像数据库中准确快速的图像检索。

为了解决上述技术问题，本发明采用如下技术方案：

一种基于二进制多索引哈希技术的图像检索方法，其特征在于，首先采用主成分分析方法，求出第一主成分并把其作为投影向量，并对二进制数据集进行投影，以得到分布较为均匀的浮点型数据集；其次通过计算把浮点型数据集转化为二进制数据集；最后对二进制数据集进行投影映射得到二进制数据集的子串。

所述主成分分析方法具体分解为以下几步:

①求出需要简化的数据集的协方差矩阵；

②求出该协方差矩阵的特征值和对应的特征向量，最后按特征值的大小对特征值和对应的特征向量进行排序；其中，最佳的投影直线是特征值最大时对应的特征向量，即第一主成分。

更进一步地，求解第一主成分的过程如下：

a、最初的数据的标准化采集m维向量X＝(X₁，X₂，…X_m)^TN个样x＝(x_i1，x_i2，…x_im)，i＝1，2，…，N N＞m，构造样本矩阵，对样本阵进行归一化：

Z_{i - j} = \frac{x_{i j} - \overset{&OverBar;}{x}}{s_{j}}, i = 1, 2, ..., m; j = 1, 2, ..., p,

其中，

{\overset{&OverBar;}{x}}_{J} = \frac{Σ_{i = 1}^{n} x_{i j}}{n}, s_{j}^{2} = \frac{Σ_{i = 0}^{n} {(x_{i j} - {\overset{&OverBar;}{x}}_{j})}^{2}}{n - 1},

得标准化阵Z；

b、求标准化阵Z的协方差矩阵：

R = {[r_{i j}]}_{p} x p = \frac{Z^{T} Z}{n - 1},

其中，

r_{i j} = \frac{{Σz}_{k i} \cdot z_{k j}}{n - 1}, i, j = 1, 2, ..., m

C、求解协方差矩阵R的特征方程|R-λIm|＝0，得到m个特征根，对最大的特征根λ，解方程组，R_b＝λ_b得到单位特征向量，即第一主成分b^o。

在本发明中，对二进制数据集进行投影映射，投影映射以二进制向量的子串为单位进行，公式如下：

b = 2^{s - 1} * b_{s}^{o} * b_{s} + 2^{s - 1} * b_{s - 1}^{o} * b_{s - 1} + ... + 2^{0} * b_{1}^{0} * b_{1},

其中，b为子串投影结果，s代表子串长度，bi为子串b的第i位比特值。

一种基于基于二进制多索引哈希技术的图像检索方法的结构算法，其特征在于，包括如下步骤：

①将特征库中二进制向量串划分为连续但不重叠的m个子串；

②对二进制向量子串进行主成分，对每个子串进行投影映射，得到分布更加均匀的新的子串。

③为每个子串建立哈希表即为m个哈希表，并直接以子串为索引项放入对应的哈希桶中；

④将查询向量同样分为m个子串，并对每个子串进行步骤2，得到新的查询向量子串；对每个子串进行步骤⑤和⑥；

⑤将初始海明距离设为0，查找出对应的哈希桶，把哈希桶中的子串对应的完整二进制串与查询向量对比，过滤不符合要求的向量；

⑥当最近邻数目不足k时，海明距离增加1，重复步骤⑤，直到最近邻数目不小于k。

与现有技术相比，本发明具有以下有益效果：

本发明在使用分段哈希索引之前，先对图像特征进行投影映射，使图像特征数据分布均匀，从而提高检索效率；优化的分段哈希索引技术与传统的分段哈希索引技术相比，在精度较高的前提下，大量地提高了检索效率，满足了大规模图像检索的需求。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

首先对本发明提出的主成分分析方法对数据分布的影响进行对比实验分析，然后将对本发明提出的多哈希分段索引算法进行速度和精度的实验，实验的数据集为10亿特征向量，查询数据集为1000个特征向量，详细的数据集描述参照表5-1所示。实验过程将首先取完整数据集前部分或全部建立不同规模的数据集，大小分别为10⁴，10⁵，10⁶，2*10⁶，5*10⁶，10⁷，2*10⁷，5*10⁷，10⁸，2*10⁸，5*10⁸，10⁹这12组数据，每一组数据建立一个多索引哈希结构，设置K值为1000；然后计算查询精度与速度，比较本发明算法与传统多哈希分段索引算法的查询性能，证明本发明所提出的优化的多哈希分段索引算法在精度一定的情况下大大提高了查询效率。

1000-NN查询的平均搜索半径的比较

在执行k-最近邻查询过程中，对所有查询向量来说一个固定的半径可能会对一部分查询向量产生过多的最近邻，而对另一部分产生过少的最近邻。所以，最好的办法是根据需要的最近邻个数，而逐渐增大需要的查询半径。当数据库中二进制向量分布不均时，会导致多索引哈希表中各哈希桶中的子串个数差异较大。当搜索半径较小时，而对应的哈希桶中的子串个数较少，为了找到最邻近的K个向量，就需要增大搜索半径，从而导致查询效率降低。在从10⁴到10⁹不同规模的数据库中，传统的多索引哈希结构的平均搜索半径与优化的多索引哈希结构相比略多，从而查询效率也略低于后者。

1000-NN查询的精度的比较

精度是判断索引优劣的一个重要准则。对从10⁴到10⁹不同规模的数据库进行实验分析，我们发现优化的多索引哈希结构与传统的多索引哈希结构相比精度都略有减少。这是因为在进行主成分分析时与生成新的地址的投影过程中，都存在精度损失。但在实际应用中，这样略微的精度损失往往能换回查询速度较大幅度的提高。

1000-NN查询的平均查询时间的比较

运行时间是判断索引优劣的关键。我们将优化的多索引哈希结构、传统的多索引哈希结构与线性查找作对比，在不同规模的数据库下，两种多索引哈希结构的查询时间明显小于线性查找，从而证实了多索引哈希结构的高效性。当对两种多索引哈希结构单独对比时，对从10⁴到10⁹不同规模的数据库进行实验分析，我们发现优化的多索引哈希结构与传统的多索引哈希结构相比，执行每次查询的平均时间都有较大幅度的降低。这是因为我们对数据库中二进制向量进行了主成分分析，并将原来的二进制向量映射到新的空间，使数据分布更加均匀，减少了搜索半径，从而提高了查询效率。

Claims

1.一种基于二进制多索引哈希技术的图像检索方法，其特征在于，首先采用主成分分析方法，求出第一主成分并把其作为投影向量，并对二进制数据集进行投影，以得到分布较为均匀的浮点型数据集；其次通过计算把浮点型数据集转化为二进制数据集；最后对二进制数据集进行投影映射得到二进制数据集的子串。

2.根据权利要求1所述的基于二进制多索引哈希技术的图像检索方法，其特征在于，所述主成分分析方法具体分解为以下几步：

①求出需要简化的数据集的协方差矩阵；

3.根据权利要求2所述的基于二进制多索引哈希技术的图像检索方法，其特征在于，求解第一主成分的过程如下：

a、最初的数据的标准化采集m维向量X＝(X₁，X₂，…X_m)^TN个样x＝(x_i1，x_i2，…x_im)，i＝1，2，…，NN＞m，构造样本矩阵，对样本阵进行归一化：

Z_{i j} = \frac{x_{i j} - \overset{&OverBar;}{x}}{s_{j}}, i = 1, 2, ..., m; j = 1, 2, ..., p,

其中，

\overset{&OverBar;}{x_{J}} = \frac{Σ_{i = 1}^{n} x_{i j}}{n}, s_{j}^{2} = \frac{Σ_{i = o}^{n} {(x_{i j} - {\overset{&OverBar;}{x}}_{j})}^{2}}{n - 1},

得标准化阵Z；

b、求标准化阵Z的协方差矩阵：

R = {[r_{i j}]}_{p} x p \frac{Z^{T} Z}{n - 1},

其中，

r_{i j} = \frac{Σ z_{k i} \cdot z_{k j}}{n - 1}, i, j = 1, 2, ..., m

4.根据权利要求1所述的基于二进制多索引哈希技术的图像检索方法，其特征在于，对二进制数据集进行投影映射，投影映射以二进制向量的子串为单位进行，公式如下：

b = 2^{s - 1} * b_{s}^{o} * b_{s} + 2^{s - 1} * b_{s - 1}^{o} * b_{s - 1} + ... + 2^{0} * b_{1}^{o} * b_{1},

5.一种基于基于二进制多索引哈希技术的图像检索方法的结构算法，其特征在于，包括如下步骤：

①将特征库中二进制向量串划分为连续但不重叠的m个子串；