CN104021234B

CN104021234B - 一种基于自适应位分配哈希算法的大规模图像库检索方法

Info

Publication number: CN104021234B
Application number: CN201410305838.1A
Authority: CN
Inventors: 郭勤振; 曾智; 张树武
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2017-04-19
Anticipated expiration: 2034-06-30
Also published as: CN104021234A

Abstract

一种基于自适应位分配哈希算法的大规模图像库检索方法，包括：从待检索图像库中选取部分图像作为训练集，提取训练集的GIST特征；利用PCA对训练集的特征数据进行投影，再对训练数据计算每一维的离散度；根据不同维的离散度，自适应地分配不同的位数来编码数据；根据每一维的编码长度和阈值编码每一维，得子编码，拼接成对数据的完整编码；对查询图像和待检索图像库中特征数据的处理与训练过程对应，分别计算待检索图像和查询图像特征的哈希编码；计算两者之间的汉明距离，由此快速检索相似图像。本发明具有很好的普适性，能很好地保持原始特征数据的近邻结构，利用哈希方法对数据进行编码，既减少了数据的存储空间又提高了查询的检索效率。

Description

一种基于自适应位分配哈希算法的大规模图像库检索方法

技术领域

本发明属于图像检索技术领域，涉及一种基于内容的图像检索方法，尤其涉及一种基于自适应位分配哈希算法的大规模图像库检索方法。

背景技术

随着互联网上图片数据的日益增多，如何快速、准确地为用户提供所需要的图片资源显得越来越重要。基于内容的图像检索(content-based image retrieval，CBIR)可以比较好地解决这个问题，因此受到了许多研究者的关注。现有的检索方法通过提取图像的底层特征对图像内容进行描述，然后利用特征比对判断是否为相似图像。因此，CBIR主要包括两部分的核心研究内容，一是有效的图像特征表述，二是高效检索算法。本发明主要解决高效检索算法问题。

高效的检索算法主要包括：基于树的检索算法和基于哈希的检索算法。基于树的检索算法利用超平面递归划分整个数据空间，在数据比较低维的情况下效果很好，但是当数据维度比较高的时候，基于树的检索算法会退化成穷尽搜索。基于哈希的检索算法的主要思想是将原始数据映射成汉明空间中的二值串(binary string)，数据之间的相似度可以利用它们在汉明空间的二值串之间的汉明距离来度量。基于哈希的高效检索算法有两个主要优点：一是可以减少数据存储空间；二是可以提高检索效率。

局部敏感哈希(locality-sensitive hashing，LSH)[Mayur Datar，NicoleImmorlica，Piotr Indyk and Vahab S.Mirrokni.Locality-sensitive hashing schemebased on p-stable distributions.In Proceedings of the twentieth annualsymposium on computational geometry，ACM，2004]利用c个投影函数来对原始数据分别进行投影，再把投影后的数据阈值化为0和1，这样就得到了原始数据的c位的编码。但是由于LSH的投影函数是数据无关的(data-independent)，随机产生的，并且产生的投影函数可能彼此是相关的，因此LSH编码的效果不是很理想。

为了克服LSH的缺点，谱哈希(spectral hashing，SH)[Yair Weiss，AntonioTorralba，and Rob Fergus.Spectral Hashing.In NIPS，2008]根据原始数据，利用机器学习的方法寻找合适的投影函数，建立哈希构造机制。主成分哈希(PCA hashing，PCAH)[BinWang，Zhiwei Li，Mingjing Li and Wei-Ying Ma.Efficient duplicate imagedetection algorithm for web images and large-scale database.In ICME，2006.]首先利用PCA对数据进行投影，然后利用每一维度的均值将数据进行阈值化为0，1来对数据进行编码。但是数据经过PCA投影之后，每个维度的方差非常不均匀，差别很大，因此每一维度同等对待地利用1-bit来进行编码是不合理的，并且实验也验证了PCAH的这个缺点。各向同性哈希(Isotropic hashing，IsoH)[Weihao Kong and Wu-Jun Li.Isotropic hashing.InNIPS，2012.]的提出就是为了解决这个问题，在IsoH中，数据被PCA投影之后，会被一个学习到的正交各向同性矩阵重新投影，经过两次投影之后，数据在每一维度的方差都是相等的，之后再用1-bit来分别编码每一维。但IsoH存在不同维度具有不同信息，利用同样的位数来编码并不合理的问题。

发明内容

针对上述问题，本发明提出了一种自适应位分配哈希算法(Adaptive bitallocation hashing，ABAH)，根据不同维度的离散度，自适应地分配不同的位数来编码相应的维度。本发明的特点在于，对于投影后的数据，离散度比较大的维度会被更多的位数来编码，离散度比较小的维度会被比较少的位数来编码。经过ABAH编码之后，数据之间的相似度可以利用它们在汉明空间的编码之间的汉明距离来度量，而汉明空间的ABAH编码可以很好地保持原始数据的近邻结构。

由此，本发明可以解决针对海量图像检索存在的图像特征库存储空间大，检索速度慢的问题，克服了LSH、SH、PCAH方法存在的不足。

本发明提出的一种基于自适应位分配哈希算法的大规模图像库检索方法的技术方案是：对于图像库中的图像，选取一部分图像作为训练图像集；对于图像库和训练集，都采用特征描述符提取特征向量，作为检索特征；然后，通过训练集的特征向量，来训练构造出哈希函数；根据训练得到的哈希函数对特征库中的每一个特征向量进行哈希编码，将特征向量映射到汉明空间中；对于查询图像，首先提取其图像表述的特征向量，然后将特征向量映射到汉明空间，之后计算查询特征向量编码与图像库中特征向量编码之间的汉明距离，利用距离大小来衡量查询图像与图像库中待检索图像之间的相似性，返回相似度高的图像。

本发明的一种基于自适应位分配哈希算法的大规模图像库检索方法的具体实现步骤包括：

步骤S1：训练步骤，从待检索图像库中选取部分图像作为训练集，计算训练集的编码长度c_i和编码阈值其中1≤i≤d，1≤j≤(c_i+1)，d为维度；

步骤S2：待检索图像库编码步骤，计算待检索图像的自适应位分配的哈希编码H(y_r)，其中y_r为待检索图像库中第r幅图像的GIST特征；

步骤S3：查询步骤，先计算查询图像的自适应位分配的哈希编码H(q)，为查询图像d维的GIST特征；再根据查询数据编码H(q)与待检索图像库中数据编码H(y_i)之间的汉明距离D_h(H(q)，H(y_i))，返回待检索图像库中与查询数据汉明距离最小的L个数据作为检索结果，其中N为待检索图像库的大小，1≤i≤N，L为由用户设定的正整数。

优选地，所述训练步骤S1中根据每一维度的离散度自适应地为每一维分配不同的位数，第i维的编码长度c_i计算公式如下：

其中，k是总的编码长度，λ_i为每一维的离散度。

优选地，所述训练步骤S1包括：

步骤S11：从待检索图像库D中选取部分图像T作为训练集，n为训练集的大小，n≤N；

步骤S12：对训练集T中的图像提取d维的GIST特征，其中图像T_i的GIST特征记为x_i，将训练集中所有图像的GIST特征组成矩阵X，X的第i行由x_i构成；

步骤S13：对训练集中的图像特征做PCA旋转，以实现投影预处理，计算均值μ和投影矩阵P；

步骤S14：计算数据投影后每一维度上的离散度λ，X第i维的离散度计算公式为：

其中，为X中第j行第i列(维)的数据，1≤i≤d；

步骤S15：根据每一维度的离散度自适应地为每一维分配不同的位数，第i维的编码长度c_i计算公式如下：

其中，k是总的编码长度，1≤i≤d；

步骤S16：对于每一维，根据该维分配的位数计算该维度的阈值；对于第i维，其编码长度为c_i，计算第i维的编码阈值其中1≤j≤(c_i+1)。

优选地，所述待检索图像库编码步骤S2包括：

步骤S21：对待检索图像库中的每一幅图像提取d维的GIST特征，假设提取的第r幅待检索图像库中图像的GIST特征为y_r；

步骤S22：利用步骤S13中训练得到的PCA投影参数均值μ和投影矩阵P对y_r进行PCA预处理，具体操作为：先将y_r减去均值μ，然后利用投影矩阵进行旋转，即(y_r-μ)P；

步骤S23：由步骤S15和步骤S16中训练得到的每一维的编码长度c_i和每一维的阈值分别对y_r的每一维进行编码，得到第i维的子编码s_i；

步骤S24：由每一维度的子编码s_i拼接得到最后完整的对图像库特征数据y_r的自适应位分配哈希编码H(y_r)＝(s₁，s₂，...，s_d)，其中1≤i≤d。

优选地，所述查询步骤S3包括：

步骤S31：对查询图像提取d维的GIST特征q∈R^d；

步骤S32：利用步骤S13中训练得到的PCA投影参数均值μ和投影矩阵P对q进行PCA预处理，具体操作为：先将q减去均值μ，然后利用投影矩阵进行旋转，即(q-μ)P；

步骤S33：由步骤S15和步骤S16中训练得到的每一维的编码长度c_i和每一维的阈值分别对q的每一维进行编码，得到第i维的子编码s_i，其中1≤j≤(c_i+1)；

步骤S34：由每一维度的子编码s_i得到最后对完整查询特征数据q的编码，其中1≤i≤d，由此得到最终的对特征数据q的自适应位分配哈希编码H(q)＝(s₁，s₂，...，s_d)；

步骤S35：计算查询数据编码H(q)与待检索图像库中每一个特征数据的编码H(y_i)之间的汉明距离D_h(H(q)，H(yi))

H(q)[j]和H(y_i)[j]分别表示H(q)和H(y_i)的第j位，表示异或操作，k为总的编码长度，1≤i≤N；

步骤S36：根据查询数据编码H(q)与待检索图像库中数据编码H(y_i)之间的汉明距离D_h(H(q)，H(y_i))，返回待检索图像库中与查询数据汉明距离最小的L个数据作为检索结果，其中1≤i≤N。

优选地，对于每一维，根据该维分配的位数计算该维度的阈值的步骤S16，进一步包括步骤：

步骤S161：对于第i维，其编码长度是c_i，利用k均值聚类算法将X的第i列的n个数据聚成(c_i+1)个簇；

步骤S162：将聚类中心从小到大排序，得到第i维的编码阈值其中1≤j≤(c_i+1)。

优选地，利用训练得到的每一维的编码长度c_i和阈值分别对图像库特征数据的每一维进行编码的步骤S23，进一步包括步骤：

步骤S231：对于第i维，其编码长度是c_i，编码阈值为将待检索图像数据库GIST特征y的第i维按照最近邻规则分配到形成的簇中，其中1≤j≤(c_i+1)；

步骤S232：若y的第i维的最近邻簇为所形成的簇，则y的第i维的子编码s_i由连续的(c_i+1-m)个0和紧接着连续的(m-1)个1组成，即

优选地，利用训练得到的每一维的编码长度c_i和阈值分别对查询数据q的每一维进行编码的步骤S33，进一步包括步骤：

步骤S331：对于第i维，其编码长度是c_i，编码阈值为将查询图像GIST特征q的第i维按照最近邻规则分配到形成的簇中，其中1≤j≤(c_i+1)；

步骤S332：若q的第i维的最近邻簇为所形成的簇，则q的第i维的子编码s_i由连续的(c_i+1-m)个0和紧接着连续的(m-1)个1组成，即

优选地，维度d＝512。

由此可见，本发明解决了数据投影后各个维度信息不均衡利用同样位数编码每一维不合理的问题，提出了一种基于自适应位分配哈希算法的大规模图像检索方法。该发明中，原始数据被映射到汉明空间，同时在原始欧氏空间中重要的维度在汉明空间中依然是重要的，较好地保持了原始数据的近邻结构。图像特征向量经过本发明的方法编码，能够减少存储空间，同时也能够极大地提高检索效率。

附图说明

图1是本发明的基于自适应位分配哈希算法的大规模图像检索方法的流程示意图；

图2是本发明用于建立训练集的部分样本图像；

图3是4幅查询图像在k＝512位编码时的检索结果，其中最左边的是查询图像，图3中只显示了汉明距离最小的10幅图像；

图4是本发明与其他哈希方法在不同编码长度对应的检索效果平均准确率(average mean precision，MAP)的曲线图，其中取L＝1000作为检索结果计算MAP；

图5是本发明与其他哈希方法在不同编码长度对应的检索召回率(Recall)曲线图，其中取L＝1000作为检索结果计算召回率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合技术方案和附图详细叙述本发明的具体实施方式。以FLICKR1M[Mark J.Huiskes，Michael S.Lew.The MIRFlickr retrieval evaluation.In Proceedings of ACM International Conference onMultimedia Information Retrieval，2008]数据集为例进行说明。FLICKR1M包含100万张图片，都是从Flickr网站下载的，图片的内容千差万别，尺寸也是多种多样。

图1的左边部分表示本发明实施例的训练过程的主要流程图，如图所示，

步骤S11：将FLICKR1M数据集分为两部分：待检索图像库D(99万5千张)和查询图像集Q(5千张)。并从待检索图像库中随机选取10万张图片作为训练集T。部分训练图像样本如图2所示。

步骤S12：对训练集T中的图像提取512维的GIST特征，将训练集中所有图像的GIST特征组成矩阵X，X∈R^n×d，X的第i(1≤i≤100000)行由x_i构成，其中x_i表示训练集中第i幅图像的GIST特征，x_i∈R^d，n＝100000，d＝512。

步骤S13：对训练集图像的GIST做PCA旋转，以实现投影预处理，保存均值μ和投影矩阵P。均值的计算公式如下：

将每一个x_i减去均值μ，得到此时由组成的特征矩阵记为计算协方差矩阵其中为的转置。对矩阵C进行特征分解得到C＝PΛP′，即得到投影矩阵P。

步骤S14：计算投影后的X的每一维的离散度，本发明中利用方差信息来度量离散度。X第i(1≤i≤d)维的离散度计算公式为：

其中，为X中第j行第i列(维)的数据。

步骤S15：由步骤S14得到的每一维的离散度λ_i，利用下式计算每一维的编码长度。第i(1≤i≤d)维的编码长度c_i计算公式如下：

其中，k是总的编码长度。本实施例中k取值512。

步骤S16：利用训练得到的每一维的编码长度，计算每一维的阈值。对于第i维，其编码长度是c_i，利用K均值聚类算法将X的第i列的n个数据聚成(c_i+1)个簇。之后，将聚类中心从小到大排序(由于每一维都是1维数据，因此聚类中心也是1维数据，故可以排序)，得到第i维的编码阈值(1≤j≤(c_i+1))。

图1的中间部分S2表示本发明实施例的待检索图像库编码过程的主要流程图，如图所示，

步骤S21：对D中的每一幅图像，提取512维的GIST特征。假设第r幅图像库中的图像的GIST特征为y_r∈R^d，其中d＝512，1≤r≤995000。

步骤S22：利用训练得到的PCA投影参数均值μ和投影矩阵P对y_r进行PCA预处理，具体操作为：先将y_r减去均值μ，然后利用投影矩阵进行旋转，即(y_r-μ)P。

步骤S23：由训练得到的每一维的编码长度c_i和每一维的阈值(1≤j≤(c_i+1))，分别对y_r的每一维进行编码。对于y_r的第i维的数据找到离最近的阈值，假设最近的阈值为则y_r的第i维的子编码s_i由连续的(c_i+1-m)个0和紧接着连续的(m-1)个1组成。即，

步骤S24：由每一维度的子编码s_i(1≤i≤d)拼接得到最后完整的对图像库特征数据y_r的自适应位分配哈希编码H(y_r)＝(s₁，s₂，...，s_d)。

图1的右边部分S3表示本发明实施例的查询过程的主要流程图，如图所示，

步骤S31：对查询图像提取512维的GIST特征q∈R^d，其中d＝512。

步骤S32：利用训练得到的PCA投影参数均值μ和投影矩阵P对q进行PCA预处理，具体操作为：先将q减去均值μ，然后利用投影矩阵进行旋转，即(q-μ)P。

步骤S33：由训练得到的每一维的编码长度c_i和每一维的阈值(1≤j≤(c_i+1))，分别对q的每一维进行编码。对于q的第i维的数据qⁱ，找到离qⁱ最近的阈值，假设最近的阈值为则q的第i维的子编码s_i由连续的(c_i+1-m)个0和紧接着连续的(m-1)个1组成。即，

步骤S34：由每一维度的子编码s_i(1≤i≤d)得到最后对完整查询特征数据q的编码。得到最终的对特征数据q的自适应位分配哈希编码H(q)＝(s₁，s₂，...，s_d)。

步骤S35：计算查询数据编码H(q)与待检索图像库中每一幅图像的编码H(y_i)(1≤i≤995000)之间的汉明距离D_h(H(q)，H(y_i))。

H(q)[j]和H(y_i)[j]分别表示H(q)和H(y_i)的第j位，表示异或操作，k为总的编码长度。

步骤S36：根据查询数据编码H(q)与待检索图像库中数据编码H(y_i)(1≤i≤995000)之间的汉明距离D_h(H(q)，H(y_i))，返回待检索图像库中与查询数据汉明距离最小的L＝1000个数据作为检索结果。限于篇幅，图3中只给出了4幅查询图像，并显示了排序前十的检索结果。此外，为了与其他哈希方法对比，我们还利用以上步骤重复实验了编码长度k＝16，32，64，128，256时的检索结果，利用指标MAP和Recall衡量。对比结果见图4、图5，图中显示的结果是对查询图像集Q中的所有查询图像的结果的平均。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应位分配哈希算法的大规模图像库检索方法，包括下列步骤：

步骤S1：训练步骤，从待检索图像库中选取部分图像作为训练集，计算训练集的编码长度c_i和编码阈值其中1≤i≤d，1≤j≤(c_i+1)，d为维度；其中所述训练步骤S1中根据每一维度的离散度自适应地为每一维分配不同的位数，第i维的编码长度c_i计算公式如下：

c_{i} = \{\begin{matrix} [k \cdot \frac{λ_{i}}{Σ_{n = i}^{d} λ_{n}} + 0.5] & i = 1 \\ [(k - Σ_{t = 1}^{i - 1} c_{t}) \cdot \frac{λ_{i}}{Σ_{n = i}^{d} λ_{n}} + 0.5] & i &GreaterEqual; 2 \end{matrix};

其中，k是总的编码长度，λ_i为每一维的离散度；

步骤S2：待检索图像库编码步骤，根据训练步骤得到的编码长度c_i和编码阈值计算待检索图像的哈希编码H(y_r)，其中y_r为待检索图像库中第r幅图像的GIST特征；

步骤S3：查询步骤，先根据训练步骤得到的编码长度c_i和编码阈值计算查询图像的哈希编码H(q)，其中q为查询图像d维的GIST特征；再根据查询数据编码H(q)与待检索图像库中数据编码H(y_i)之间的汉明距离D_h(H(q)，H(y_i))，返回待检索图像库中与查询数据汉明距离最小的L个数据作为检索结果，其中N为待检索图像库的大小，1≤i≤N，L为由用户设定的正整数。

2.根据权利要求1所述的基于自适应位分配哈希算法的大规模图像库检索方法，其中所述训练步骤S1包括：

λ_{i} = \frac{1}{n} Σ_{j = 1}^{n} {(X_{j}^{i} - \frac{1}{n} Σ_{m = 1}^{n} X_{m}^{i})}^{2}

其中，为X中第j行第i列(维)的数据，1≤i≤d；

c_{i} = \{\begin{matrix} [k \cdot \frac{λ_{i}}{Σ_{n = i}^{d} λ_{n}} + 0.5] & i = 1 \\ [(k - Σ_{t = 1}^{i - 1} c_{t}) \cdot \frac{λ_{i}}{Σ_{n = i}^{d} λ_{n}} + 0.5] & i &GreaterEqual; 2 \end{matrix}

其中，k是总的编码长度，1≤i≤d；

3.根据权利要求2所述的基于自适应位分配哈希算法的大规模图像库检索方法，其中所述待检索图像库编码步骤S2包括：

4.根据权利要求2所述的基于自适应位分配哈希算法的大规模图像库检索方法，其中所述查询步骤S3包括：

步骤S31：对查询图像提取d维的GIST特征q；

步骤S35：计算查询数据编码H(q)与待检索图像库中每一个特征数据的编码H(y_i)之间的汉明距离D_h(H(q)，H(y_i))

D_{h} (H (q), H (y_{i})) = Σ_{j = 1}^{k} H (q) [j] &CirclePlus; H (y_{i}) [j];

5.根据权利要求2所述的基于自适应位分配哈希算法的大规模图像库检索方法，其中对于每一维，根据该维分配的位数计算该维度的阈值的步骤S16，进一步包括步骤：

6.根据权利要求3所述的基于自适应位分配哈希算法的大规模图像库检索方法，其中利用训练得到的每一维的编码长度c_i和阈值分别对图像库特征数据的每一维进行编码的步骤S23，进一步包括步骤：

7.根据权利要求6所述的基于自适应位分配哈希算法的大规模图像库检索方法，其中利用训练得到的每一维的编码长度c_i和阈值分别对查询数据q的每一维进行编码的步骤S33进一步包括步骤：

8.根据权利要求1-7任一所述的基于自适应位分配哈希算法的大规模图像库检索方法，其中维度d＝512。