CN104199923A

CN104199923A - 基于最优k均值哈希算法的大规模图像库检索方法

Info

Publication number: CN104199923A
Application number: CN201410440852.2A
Authority: CN
Inventors: 郭勤振; 曾智; 张树武
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2014-12-10
Anticipated expiration: 2034-09-01
Also published as: CN104199923B

Abstract

一种基于最优K均值哈希算法的大规模图像库检索方法，包括：从待检索图像库中选取部分图像作为训练图像集，首先提取训练集图像的GIST特征；对训练集的特征数据进行特征值分配预处理；将经过预处理的特征数据划分成多个子空间；对每一个子空间训练出该子空间的码本和码本的编码；对待检索图像库和查询图像中特征数据的处理与训练过程对应，分别提取检索图像和查询图像的GIST特征，然后计算待检索图像和查询图像特征的哈希编码，之后计算待检索图像特征编码和查询图像特征编码两者之间的汉明距离，由此快速检索相似图像。本发明具有很好的普适性，既减少了数据的存储空间又提高了查询的检索效率。

Description

基于最优K均值哈希算法的大规模图像库检索方法

技术领域

本发明属于图像检索技术领域，更具体地涉及一种基于内容的图像检索方法，尤其涉及一种基于最优K均值哈希算法的大规模图像库检索方法。

背景技术

随着互联网的快速发展，互联网上的图片数据日益增多，如何快速、准确地为用户提供所需要的图片资源显得越来越重要。基于内容的图像检索(Content-Based Image Retrieval，CBIR)技术应运而生，受到了许多研究者的关注。一般来说CBIR系统主要包括两部分的核心研究内容，一是有效的图像特征表述，二是高效检索算法。通过提取图像的特征对图像内容进行描述，例如GIST特征(具体内容可以参见文章Aude Oliva andAntonio Torralba，“Modeling the shape of the scene：a holistic representationof the spatial envelope”，International Journal of Computer Vision，42(3)，2001)，然后利用高效的检索算法进行特征比对判断是否为相似图像。

其中，对于检索算法，主要包括：基于树的检索算法、基于向量量化的检索算法和基于哈希的检索算法。基于树的检索算法利用超平面递归地划分整个数据空间，在数据比较低维的情况下效果很好，但是当数据维度比较高的时候，基于树的检索算法会退化成穷尽搜索。基于向量量化的方法是一种有效的检索算法，此类方法将数据量化到码本以降低数据空间的势，并用码字之间的距离来近似原始数据之间的距离。基于哈希的检索算法的主要思想是将原始数据映射成汉明空间中的二进制数值串，数据之间的相似度可以利用它们在汉明空间的二进制数值串之间的汉明距离来度量。基于哈希的高效检索算法有两个主要优点：一是可以减少数据存储空间；二是可以提高检索效率。

局部敏感哈希(Locality-Sensitive Hashing，LSH)(例如可以参考文章Mayur Datar，Nicole Immorlica，Piotr Indyk and Vahab S.Mirrokni，“Locality-sensitive hashing scheme based on p-stable distributions”，InProceedings of the twentieth annual symposium on computational geometry，ACM，2004)利用从满足p-stable的分布上随机产生投影函数来对原始数据分别进行投影，再把投影后的数据阈值化为0和1，这样就得到了原始数据的编码。但是由于LSH的投影函数是数据无关的，随机产生的，并且产生的投影函数可能彼此是相关的，因此LSH编码的效果不是很理想。为了克服LSH的缺点，谱哈希(Spectral Hashing，SH，例如可以参考文章Yair Weiss，Antonio Torralba，and Rob Fergus，“Spectral Hashing”，In NIPS，2008)基于谱图分割，利用机器学习的方法通过阈值化数据的相似图拉普拉斯的特征向量的子集来计算哈希编码。迭代量化(ITQ)利用最小化数据编码和原始数据之间的误差的方法来学习哈希函数，也取得了很好的检索效果。

基于向量量化的方法由于比较小的畸变误差，所以检索效果比哈希方法要好，但是它检索速度不及哈希方法。K均值哈希(KH)(例如可以参考文章Kaiming He，Fang Wen，Jian Sun，“K-means hashing：anaffinity-preserving quantization method for learning binary compact codes”，InCVPR，2013)是一种比较新颖的哈希检索方法，KH将基于向量量化的方法和基于哈希的方法结合起来，通过最小化量化误差和仿射误差来训练哈希函数编码数据；但是在KH中，在码本和码本的编码在初始化之后，只有码本在更新而码本的编码不更新，这将降低编码的有效性。

发明内容

为了克服上述KH的缺陷，本发明提出了一种基于最优K均值哈希算法的大规模图像库检索方法，以解决针对海量图像检索时存在的图像特征库存储空间大、检索速度慢的问题。

作为本发明的一个方面，本发明提出了一种基于最优K均值哈希算法的大规模图像库检索方法，包括以下步骤：

提取查询图像和待检索图像库中选取的训练集中的图像的GIST特征，

将所述GIST特征映射到汉明空间，

计算所述查询图像的哈希编码与所述待检索图像库中每一幅图像的哈希编码之间的汉明距离，利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性，返回相似度高的图像。

其中，所述提取查询图像和待检索图像库中选取的训练集中的图像的GIST特征和将所述GIST特征映射到汉明空间的步骤包括：

对所述查询图像和待检索图像库中选取的训练集中的图像提取GIST特征；

利用所述训练集中的图像的GIST特征，训练得到码本和码本的编码；

根据训练得到的所述码本和码本编码，对所述查询图像和待检索图像库中的图像的GIST特征进行处理，得到所述查询图像和待检索图像库中的图像的哈希编码，将其特征向量映射到汉明空间中。

作为本发明的另一个方面，本发明还提供了一种基于最优K均值哈希算法的大规模图像库检索方法，包括以下步骤：

训练过程，提取待检索图像库中选取的训练集中的图像的GIFT特征，利用得到的GIST特征来训练得到码本和码本的编码；

待检索图像库编码过程，利用所述训练过程中得到的码本和码本的编码来计算待检索图像库中的图像的完整编码；

查询过程，提取查询图像的GIFT特征，利用所述训练步骤得到的码本和码本的编码来计算所述查询图像的完整编码，并计算所述查询图像的编码与所述待检索图像库中每一幅图像的编码之间的汉明距离，利用距离大小来衡量所述查询图像与所述待检索图像库中图像之间的相似性，返回待检索图像库中与查询图像汉明距离最小的L个图像作为检索结果，其中L为用户预先设定的正整数。

其中，所述训练过程进一步包括：

步骤S11：从待检索图像库D＝{D₁，D₂，...，D_N}中选取部分图像T＝{T₁，T₂，...T_n}作为训练集，其中N为待检索图像库的大小，n为训练集的大小，n≤N：

步骤S12：对所述训练集T中的图像提取d维的GIST特征，其中图像T_i的GIST特征记为x_i，将训练集中所有图像的GIST特征组成矩阵X，X的第i行由x_i构成；

步骤S13：对所述训练集中图像的GIST特征进行特征值分配预处理，计算均值μ和投影矩阵P；

步骤S14：将经过预处理之后的特征数据均匀地划分为m个子空间，特征矩阵X在第u个子空间的数据记为X(u)，其中1≤u≤m，特征x_j在第u个子空间的数据记为如下式所示，x_ip为x_j的第p维，1≤p≤d，t为子空间的维数，t＝d/m，

步骤S15：在每一个子空间内分别计算该子空间的码本C(u)和码本的编码其中u为第u个子空间。

其中，对所述训练集中图像的GIST特征进行特征值分配预处理，计算均值μ和投影矩阵P的步骤进一步包括：

步骤S131：对训练集图像的GIST特征先做PCA旋转，保存均值μ和中间投影矩阵均值的计算公式如下：

μ = \frac{1}{n} Σ_{i = 1}^{n} x_{i};

将每一个x_i减去均值μ，得到此时由组成的特征矩阵记为计算协方差矩阵其中为的转置，对矩阵∑进行特征分解得到即得到中间投影矩阵并保存Λ对角线上的元素，即特征值；

步骤S132：设置m个桶，每个桶对应一个子空间，每个桶的最大容量为d/m；不重复地选取Λ(i，i)中最大的特征值，并把它分配到具有最小的特征值乘积且没有达到最大容量的桶中，直到所有的特征值Λ(i，i)都分配到各个桶中；最后得到每个桶中每个特征值在Λ中的位置索引，其中对于位置(i，i)，其索引用索引向量I保存；

步骤S133：将中间投影矩阵的每一列，按照索引向量I重新排序，构成最后的投影矩阵P。

其中，在每一个子空间内分别计算该子空间的码本C(u)和码本的编码的步骤进一步包括：

步骤S151：初始化子空间内的码本，对于第u个子空间，随机选择子空间X(u)内的2^b个数据作为初始码本C(u)，其中其每一行为一个码字，b＝k/m，为每个子空间的编码位数；

步骤S152：初始化子空间内码本的编码，利用PCA哈希对码本进行初始化编码，具体如下，首先利用PCA将码本降到b维，假设降维后的码本为则对码本的初始编码为满足：

步骤S153：初始化放缩常量α，利用下式计算α

α = \frac{\underset{i}{Σ} \underset{j}{Σ} I_{S} (i, j) . S (i, j)}{b . n},

其中为利用PCA将子空间X(u)降到b维的结果；为S的PCA哈希编码，n为训练集中图像的个数；

步骤S154：更新码本C(u)和码本的编码使得下式取最小值，

O = \frac{1}{n} Σ_{i = 1}^{n} {| | x_{i}^{(u)} - c (x_{i}^{(u)}) | |}^{2} + λ Σ_{i = 1}^{2^{b}} Σ_{j = 1}^{2^{b}} w_{ij} {(D (c_{i,} c_{j}) - H (I (c_{i}), I (c_{j})))}^{2},

其中，表示C(u)中离最近的码字，c_i，c_j分别代表码本C(u)中第i，j个码字，即C(u)的第i，j行；I(c_i)和I(c_j)分别代表码字c_i，c_j的编码，即的第i，j行；w_ij＝n_in_j/n²，n_i，n_j分别代表c_i和c_j形成的簇中训练数据的个数；D(c_i，c_j)为c_i和c_j的欧氏距离，D_h(I(c_i)，I(c_j))为I(c_i)和I(c_j)之间的汉明距离；λ为权重系数。

其中，步骤154中优化计算式采用如下迭代的方法，直到收敛：

第一步，将训练数据按照最近邻规则分配到最近的码字形成的簇中，并用的编码来更新的编码

第二步，固定码本的编码和训练数据的编码，利用下式来求得最优的码本或码字，

\begin{matrix} c_{j} = \arg m \underset{c_{j}}{in} (\frac{1}{n} \underset{i, c (x_{i}^{(u)}) = c_{j}}{Σ} {| | x_{i}^{(u)} - c_{j} | |}^{2} \\ + 2 λ \underset{i; i &NotEqual; j}{Σ} w_{ij} (D (c_{i}, c_{j}) - H (I (c_{i}), I (c_{j})))^{2}) \end{matrix}

第三步，固定码本和训练数据的编码，利用下式求得最优的码本的编码，

\begin{matrix} I (c_{j}) = \arg \min_{I (c_{j})} Σ_{i &NotEqual; j; i = 1}^{2^{b}} w_{ij} (D (c_{i}, c_{j}) - \frac{1}{2} α {| | I (c_{i}) - I (c_{j}) | |)}^{2} \\ + β \cdot Tr (I (c_{j}) I^{T} (c_{j})) \end{matrix}

求得最优的I(c_j)之后，将其用0进行二值化，即得到更新后的码本的编码，Tr(I(c_j)I^T(c_j))表示I(c_j)I^T(c_j)的迹。

其中，所述的待检索图像库编码过程进一步包括：

步骤S21：对待检索图像库中的每一幅图像提取d维的GIST特征。假设提取的第r幅待检索图像库中图像的GIST特征为y_r，

步骤S22：利用步骤S13中训练得到的均值μ和投影矩阵P对y_r进行预处理，具体操作为：先将y_r减去均值μ，然后利用投影矩阵进行旋转，即(y_r-μ)P；

步骤S23：将经过预处理的特征y_r均匀地划分为m个子空间，记第u个子空间为其中1≤u≤m，如下式所示，y_rp为y_r的第p维，1≤p≤d，t＝d/m，为子空间的维数，

步骤S24：计算特征y_r在每个子空间的子编码，记第u个子空间的子编码为s_u；

步骤S25：将特征y_r在每个子空间的子编码拼接成对y_r的完整编码H(y_r)＝(s₁，s₂，...，s_m)。

其中，所述计算特征y_r在每个子空间的子编码的步骤进一步包括：

步骤S241：利用最近邻规则计算在第u个子空间中离欧氏距离最近的码字

步骤242：将码字的编码作为y_r在第u个子空间的子编码s_u，即

s_{u} = I (c (y_{r}^{(u)})) .

其中，所述查询过程进一步包括：

步骤S31：对查询图像提取GIST特征q；

步骤S32：利用步骤S13中训练得到的均值μ和投影矩阵P对q进行预处理，具体操作为：先将q减去均值μ，然后利用投影矩阵进行旋转，即(q-μ)P；

步骤S33：将经过预处理的特征q均匀地划分为m个子空间，记第u个子空间为q^(u)，1≤u≤m，如下式所示，q_p为q的第p维，1≤p≤d，t＝d/m，为子空间的维数，

步骤S34：计算特征q在每个子空间的子编码，记第u个子空间q^(u)的子编码为s_u；

步骤S35：将特征q在每个子空间的子编码拼接成对q的完整编码H(q)＝(s₁，s₂，...，s_m)；

步骤S36：计算查询图像编码H(q)与待检索图像库中每一个图像编码H(y_r)之间的汉明距离D_h(H(q)，H(y_r))：

D_{h} (H (q), H (y_{r})) = Σ_{j = 1}^{k} H (q) [j] &CirclePlus; (y_{r}) [j],

其中，1≤r≤N，H(q)[j]和H(y_r)[j]分别表示H(q)和H(y_r)的第j位，表示异或操作，k为总的编码位数；

步骤S37：根据查询图像编码H(q)与待检索图像库中图像编码H(y_r)之间的汉明距离D_h(H(q)，H(y_r))，返回待检索图像库中与查询图像汉明距离最小的L个图像作为检索结果。

其中，所述的计算特征q在每个子空间的子编码的步骤进一步包括：

步骤S341：利用最近邻规则计算在第u个子空间中离q^(u)欧氏距离最近的码字c(q^(u))；

步骤342：将码字c(q^(u))的编码I(c(q^(u)))作为q在第u个子空间的子编码s_u，即s_u＝I(c(q^(u)))。

其中，优选地L＝1000。

通过上述技术方案可知，本发明的基于最优K均值哈希算法的大规模图像检索方法能够将基于向量量化和基于哈希的检索算法结合起来，使得在保证哈希算法的检索速度的同时，提高了检索的精度；采用最优K均值哈希算法(OKH)，在OKH中，码本和码本的编码都在更新来最小化量化误差和仿射误差，在保证哈希算法的检索速度的情况下，提高了检索精度，解决了针对海量图像检索时存在的图像特征库存储空间大、检索速度慢的问题；此外，本发明的方法中，原始数据被映射到汉明空间，数据在汉明空间的编码的相似性能够很好地体现原始数据之间的相似性，从而具有很好的普适性。通过本发明的检索方法，能够减少图像特征的存储空间，同时也能够极大地提高检索效率。

附图说明

图1是本发明的基于最优K均值哈希算法的大规模图像检索算法的流程示意图；

图2是本发明用于建立训练集的部分样本图像；

图3是4幅查询图像在k＝128位编码时的检索结果，其中最左边的是查询图像，右边只显示了检索到的汉明距离最小的10幅图像；

图4是本发明方法与其他哈希方法在不同编码长度对应的检索召回率(Recall)曲线图，其中取L＝1000作为检索结果计算Recall。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合技术方案和附图详细叙述本发明的具体实施方式。

以FLICKRlM(可以参考文章Mark J.Huiskes，Michael S.Lew，“TheMIR Flickr retrieval evaluation”，In Proceedings of ACM InternationalConference on Multimedia Information Retrieval，2008)数据集为例进行说明。FLICKRlM包含100万张图片，都是从Flickr网站下载的，图片的内容千差万别，尺寸也是多种多样。

本发明提出的一种基于最优K均值哈希算法的大规模图像库检索方法，包括下列步骤：

对于图像库中的图像，选取一部分图像作为训练图像集；

对于图像库和训练集，提取GIST全局特征，作为检索特征；

然后，利用训练图像集的GIST特征，来训练得到码本和码本的编码；

根据训练得到的码本和码本编码，对特征库中的每一个特征向量进行哈希编码，将特征向量映射到汉明空间中；

对于查询图像，首先提取其GIST特征，然后根据训练得到的码本和码本编码用同样的方法对查询图像特征进行哈希编码，之后计算查询图像特征编码与图像库中图像特征编码之间的汉明距离，利用距离大小来衡量查询图像与图像库中待检索图像之间的相似性，返回相似度高的图像。

更具体地，下面结合附图对本发明的基于最优K均值哈希算法的大规模图像库检索方法进行详细的描述。

图1的左边部分S1表示本发明实施例的训练过程的主要流程图，如图所示：

步骤S11：将FLICKRlM数据集分为两部分：待检索图像库D(99万5千张)和查询图像集(5千张)。并从待检索图像库中随机选取10万张图片作为训练集T。部分训练图像样本如图2所示。

步骤S12：对训练集T中的图像提取512维的GIST特征，将训练集中所有图像的GIST特征组成矩阵X，X的第i(1≤i≤100000)行由x_i构成，其中x_i表示训练集中第i幅图像的GIST特征，n＝100000，d＝512。

步骤S13：对训练集中图像的GIST特征进行特征值分配预处理，计算均值μ和投影矩阵P。首先，对训练集图像的GIST特征先做PCA旋转，保存均值μ和中间投影矩阵均值的计算公式如下：

μ = \frac{1}{n} Σ_{i = 1}^{n} x_{i}

将每一个x_i减去均值μ，得到此时由组成的特征矩阵记为计算协方差矩阵其中为的转置。对矩阵∑进行特征分解得到即得到中间投影矩阵并保存Λ对角线上的元素，即特征值。

其次，设置m(与步骤S14中要划分的子空间的个数相同)个桶，本实施例中m＝16，每个桶对应一个子空间，每个桶的最大容量为d/m＝32。不重复地选取Λ(i，i)中最大的特征值，并把它分配到具有最小的特征值乘积且没有达到最大容量的桶中，直到所有的特征值Λ(i，i)都分配到各个桶中。最后得到每个桶中每个特征值在Λ中的位置索引(对于位置(i，i)，其索引记为i)，用索引向量I保存。

最后，将中间投影矩阵的每一列，按照索引向量I重新排序，构成最后的投影矩阵P。

步骤S14：将经过预处理之后的特征数据均匀地划分为m＝16个子空间。特征矩阵X在第u个子空间的数据记为X(u)，1≤u≤m，特征x_j在第u个子空间的数据记为如下式所示，x_jp为x_j的第p维，1≤p≤d，t为子空间的维数，t＝d/m＝32，

步骤S15：在每一个子空间内分别计算该子空间的码本和码本的编码(具体计算方法如下)，记第u个子空间的码本为C(u)，码本的编码为

首先，初始化子空间内的码本，对于第u个子空间，随机选择子空间X(u)内的2^b个数据作为初始码本C(u)，其每一行为一个码字，b为每个子空间的编码位数，b＝k/m，其中k为总的编码位数。本实施例中，k取128，m取16，因此子空间的编码位数b＝8。

其次，初始化子空间内码本的编码，利用PCA哈希对码本进行初始化编码，具体如下，首先利用PCA将码本降到b维，假设降维后的码本为则对码本的初始编码满足：

然后，初始化放缩常量α，利用下式计算α

α = \frac{\underset{i}{Σ} \underset{j}{Σ} I_{S} (i, j) \cdot S (i, j)}{b \cdot n}

其中，S(i，j)为利用PCA将子空间X(u)降到b维的结果，I_S∈{-1，1}^n×b为S的PCA哈希编码，n为训练集中图像的个数，n＝100000，b为子空间的编码位数，b＝8。

最后，更新码本C(u)和码本的编码使得下式取最小值，

O = \frac{1}{n} Σ_{i = 1}^{n} {| | x_{i}^{(u)} - c (x_{i}^{(u)}) | |}^{2} + λ Σ_{i = 1}^{2^{b}} Σ_{j = 1}^{2^{b}} w_{ij} {(D (c_{i}, c_{j}) - H (I (c_{i}), I (c_{j})))}^{2}

其中表示C(u)中离最近的码字，c_i，c_j分别代表码本C(u)中第i，j个码字，即C(u)的第i，j行；I(c_i)和I(c_j)分别代表码字c_i，c_j的编码，即的第i，j行；w_ij为与第i，j个簇中训练数据个数有关的量，w_ij＝n_in_j/n²，而n_i、n_j分别代表c_i和c_j形成的簇中训练数据的个数；D(c_i，c_j)为c_i和c_j的欧氏距离，

H (I (c_{i}), I (c_{j})) = α \cdot \sqrt{D_{h} (I (c_{i}), I (c_{j}))},

D_h(I(c_i)，I(c_j))为I(c_i)和I(c_j)之间的汉明距离。α为上面训练出的参数。λ为权重系数，本实施例中取λ＝10。

优化上式可以采用如下迭代的方法，直到收敛：

第二步，固定码本的编码和训练数据的编码，利用下式来求得最优的码本(码字)，

\begin{matrix} c_{j} = \arg \min_{c_{j}} (\frac{1}{n} \underset{i, c (x_{i}^{(u)}) = c_{j}}{Σ} {| | x_{i}^{(u)} - c_{j} | |}^{2} \\ + 2 λ \underset{i : i &NotEqual; j}{Σ} w_{ij} (D (c_{i}, c_{j}) - H {(I (c_{i}), I (c_{j})))}^{2}) \end{matrix}

\begin{matrix} I (c_{j}) = \arg \min_{I (c_{j})} Σ_{i &NotEqual; j; i = 1}^{2^{b}} w_{ij} {(D (c_{i}, c_{j}) - \frac{1}{2} α | | I (c_{i}) - I (c_{j}) | |)}^{2} \\ + β \cdot Tr (I (c_{j}) I^{T} (c_{j})) \end{matrix}

求得最优的I(c_j)之后，将其用0进行二值化，即得到更新后的码本的编码，Tr(I(c_j)I^T(c_j))表示I(c_j)I^T(c_j)的迹。β为权重系数，本实施例中取β＝10。

图1的中间部分S2表示本发明实施例的待检索图像库编码过程的主要流程图，如图所示：

步骤S21：对待检索图像库中的每一幅图像提取d维的GIST特征。假设提取的第r幅待检索图像库中图像的GIST特征为y_r，d＝512，1≤r≤995000。

步骤S22：利用步骤S13中训练得到的均值μ和投影矩阵P对y_r进行预处理，具体操作为：先将y_r减去均值μ，然后利用投影矩阵进行旋转，即(y_r-μ)P。

步骤S23：将经过预处理的特征yr均匀地划分为m＝16个子空间，记第u个子空间为1≤u≤m，如下式所示，y_rp为y_r的第p维，1≤p≤d，t为子空间的维数，t＝d/m，

步骤S24：计算特征y_r在每个子空间的子编码，记第u个子空间的子编码为s_i。首先，利用最近邻规则计算在第u个子空间中离欧氏距离最近的码字然后，将码字的编码作为y_r在第u个子空间的子编码s_u，即

图1的右边部分S3表示本发明实施例的查询过程的主要流程图，如图所示：

步骤S31：对查询图像提取GIST特征q，其中d＝512。

步骤S32：利用步骤S13中训练得到的均值μ和投影矩阵P对q进行预处理，具体操作为：先将q减去均值μ，然后利用投影矩阵进行旋转，即(q-μ)P。

步骤S33：将经过预处理的特征q均匀地划分为m＝16个子空间，记第u个子空间为q^(u)，1≤u≤m，如下式所示，q_p为q的第p维，1≤p≤d，t为子空间的维数，t＝d/m，

步骤S34：计算特征q在每个子空间的子编码，记第u个子空间q^(u)的子编码为s_i。首先，利用最近邻规则计算在第u个子空间中离q^(u)欧氏距离最近的码字c(q^(u))。然后，将码字c(q^(u))的编码I(c(q^(u)))作为q在第u个子空间的子编码s_u，即s_u＝I(c(q^(u)))。

步骤S35：将特征q在每个子空间的子编码拼接成对q的完整编码H(q)＝(s₁，s₂，...，s_m)。

步骤S36：计算查询图像编码H(q)与待检索图像库中每一个图像编码H(y_r)(1≤r≤995000)之间的汉明距离D_h(H(q)，H(y_r))。

D_{h} (H (q), H (y_{r})) = Σ_{j = 1}^{k} H (q) [j] &CirclePlus; H (y_{r}) [j]

其中，H(q)[j]和H(y_r)[j]分别表示H(q)和H(y_r)的第j位，表示异或操作，k为总的编码位数，k＝128。

步骤S37：根据查询图像编码H(q)与待检索图像库中图像编码H(yr)(1≤r≤995000)之间的汉明距离D_h(H(q)，H(y_r))，返回待检索图像库中与查询图像汉明距离最小的L＝1000个图像作为检索结果。

限于篇幅，图3中只给出了4幅查询图像，并显示了排序前十的检索结果。此外，为了与其他哈希方法对比，我们还利用以上步骤重复实验了编码长度k＝16、32、64时(子空间编码长度固定为b＝8，子空间个数m＝k/b)的检索结果，利用指标召回率衡量。对比结果见图4，图中显示的结果是对查询图像集中的所有查询图像的结果的平均。由此可见，通过本发明的检索方法，能够减少图像特征的存储空间，同时也能够极大地提高检索效率，获得比较准确的检索结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于最优K均值哈希算法的大规模图像库检索方法，包括以下步骤：

将所述GIST特征映射到汉明空间，

2.根据权利要求1所述的基于最优K均值哈希算法的大规模图像库检索方法，其中所述提取查询图像和待检索图像库中选取的训练集中的图像的GIST特征和将所述GIST特征映射到汉明空间的步骤包括：

3.一种基于最优K均值哈希算法的大规模图像库检索方法，包括以下步骤：

4.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法，其中所述训练过程进一步包括：

步骤S11：从待检索图像库D＝{D₁，D₂，...，D_N}中选取部分图像T＝{T₁，T₂，...T_n}作为训练集，其中N为待检索图像库的大小，n为训练集的大小，n≤N；

步骤S12：对所述训练集T山的图像提取d维的GIST特征，其山图像T_i的GIST特征记为x_i，将训练集中所有图像的GIST特征组成矩阵X，X的第i行由x_i构成；

步骤S14：将经过预处理之后的特征数据均匀地划分为m个子空间，特征矩阵X在第u个子空间的数据记为X(u)，其中1≤u≤m，特征x_j在第u个子空间的数据记为如下式所示，x_jp为x_j的第p维，1≤p≤d，t为子空间的维数，t＝d/m，

5.根据权利要求4所述的基于最优K均值哈希算法的大规模图像库检索方法，其中对所述训练集中图像的GIST特征进行特征值分配预处理，计算均值μ和投影矩阵P的步骤进一步包括：

μ = \frac{1}{n} Σ_{i = 1}^{n} x_{i};

6.根据权利要求4所述的基于最优K均值哈希算法的大规模图像库检索方法，其中在每一个子空间内分别计算该子空间的码本C(u)和码本的编码的步骤进一步包括：

步骤S153：初始化放缩常量α，利用下式计算α

α = \frac{\underset{i}{Σ} \underset{j}{Σ} I_{S} (i, j) \cdot S (i, j)}{b \cdot n},

其中为利用PCA将子空间X(u)降到b维的结果；I_S∈{-1，1}^n×b为S的PCA哈希编码，n为训练集中图像的个数；

步骤S154：更新码本C(u)和码本的编码使得下式取最小值，

O = \frac{1}{n} Σ_{i = 1}^{n} {| | x_{i}^{(u)} - c (x_{i}^{(u)}) | |}^{2} + λ Σ_{i = 1}^{2^{b}} Σ_{j = 1}^{2^{b}} w_{ij} {(D (c_{i}, c_{j}) - H (I (c_{i}), I (c_{j})))}^{2},

其中，表示C(u)中离最近的码字，c_i，c_j分别代表码本C(u)中第i，j个码字，即C(u)的第i，j行；I(c_i)和I(c_j)分别代表码字c_i，c_j的编码，即的第i，j行；w_ij＝n_in_j/n²，n_i，n_j分别代表c_i和c_j形成的簇中训练数据的个数；D(c_i，c_j)为c_i和c_j的欧氏距离，

H (I (c_{i}), I (c_{j})) = α \cdot \sqrt{D_{h} (I (c_{i}), I (c_{j}))},

D_h(I(c_i)，I(c_j))为I(c_i)和I(c_j)之间的汉明距离；λ为权重系数。

7.根据权利要求6所述的基于最优K均值哈希算法的大规模图像库检索方法，其中步骤154中优化计算式采用如下迭代的方法，直到收敛：

\begin{matrix} c_{j} = \arg \min_{c_{j}} (\frac{1}{n} \underset{i, c (x_{i}^{(u)}) = c_{j}}{Σ} {| | x_{i}^{(u)} - c_{j} | |}^{2} \\ + 2 λ \underset{i; i &NotEqual; j}{Σ} w_{ij} {(D (c_{i}, c_{j}) - H (I (c_{i}), I (c_{j})))}^{2}) \end{matrix}

\begin{matrix} I (c_{j}) = \arg \min_{I (c_{j})} Σ_{i &NotEqual; j; i = 1}^{2^{b}} w_{ij} {(D (c_{i}, c_{j}) - \frac{1}{2} α | | I (c_{i}) - I (c_{j}) | |)}^{2} \\ + β \cdot Tr (I (c_{j}) I^{T} (c_{j})) \end{matrix}

8.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法，其中所述的待检索图像库编码过程进一步包括：

9.根据权利要求8所述的基于最优K均值哈希算法的大规模图像库检索方法，其中所述计算特征y_r在每个子空间的子编码的步骤进一步包括：

步骤242：将码字的编码作为y_r在第u个子空间的子编码s_u，即

s_{u} = I (c (y_{r}^{(u)})) .

10.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法，其中所述查询过程进一步包括：

步骤S31：对查询图像提取GIST特征q；

D_{h} (H (q), H (y_{r})) = Σ_{j = 1}^{k} H (q) [j] &CirclePlus; H (y_{r}) [j],

11.根据权利要求10所述的基于最优K均值哈希算法的大规模图像库检索方法，其中所述的计算特征q在每个子空间的子编码的步骤进一步包括：

12.根据权利要求3所述的基于最优K均值哈希算法的大规模图像库检索方法，其中L＝1000。