CN105912611A

CN105912611A - 一种基于cnn的快速图像检索方法

Info

Publication number: CN105912611A
Application number: CN201610211503.2A
Authority: CN
Inventors: 凌强; 单廷佳; 李峰
Original assignee: University of Science and Technology of China USTC
Current assignee: Snegrid Electric Technology Co ltd
Priority date: 2016-04-05
Filing date: 2016-04-05
Publication date: 2016-08-31
Anticipated expiration: 2036-04-05
Also published as: CN105912611B

Abstract

本发明公开了一种基于CNN(卷积神经网络)的快速图像检索方法，第一阶段是利用CNN网络对要检索的图像进行特征提取，得到代表图像的矢量特征。第二阶段是在特征数据库中对此矢量特征进行k近邻检索。本发明选择基于GOOGLENET网络的CNN特征，这是深度学习兴起后在计算机视觉领域的一个突破，它具有鲁棒性较好的特点。提取CNN特征后，本发明基于PQ的快速检索思想，并加入文本检索中的倒排策略，在应用中考虑自身的数据量，合理安排系统参数，并在检索结果重排序方面进行改进，加入快速排序策略，缩短了检测时间，提高了检测效率。

Description

一种基于CNN的快速图像检索方法

技术领域

本发明涉及计算机视觉和模式识别的技术领域，具体涉及一种基于CNN(卷积神经网络)的快速图像检索方法。

背景技术

在当今的信息多媒体时代，互联网进入普通百姓家庭，并在生活中变得越来越重要。在日常生活中人们能够随时随地与外面的世界沟通交流，在我们通过互联网交流的过程中产生了巨大的多媒体数据，反而却给互联网用户快速找到自己所需要的信息造成了不小的障碍，因此搜索技术便应运而生。现代人在生活中使用图像和视频等方式直观的展示自己生活状态，图像信息在社会各行业中均得到普遍使用。图像信息的高效检索和管理在图像数据急剧增长的现代社会成为一个亟待解决的问题。

面对不断出现的需求，帮助用户在海量图像中高效、快速搜索到感兴趣的相关图像成为热门的研究方向。最近邻检索算法作为检索算法中的基础算法，在图像检索，图像快速匹配等领域有广泛的应用前景，因此也是人们热衷的研究方向。

图像快速检索算法主要是通过提取图像特征向量，然后在一定的距离准则(欧式距离、马氏距离等)下进行特征最近邻检索，找出与之最近的特征向量作为其对应的最相似图像。目前常用的矢量特征有SIFT、BOW、CNN特征等，常用的检索方法有K-Dtree、LSH、PQ等。

矢量特征：目前比较经典的矢量特征主要有SIFT(Scale Invariant Feature Transform)特征、BOW(Bag Of Words)特征等。

1)SIFT特征是由Lowe于2004年首次提出的一种矢量特征提取算法(参见文献【1】Lowe D M..Distinctive image features from scale-invariant keypoints[J].International Journal ofComputer Vision，2004，60(2):91-110)。该特征具有比HOG特征性能更为优越的鲁棒性，对视频图像因外界光照、尺度、位移等产生的变化都具有良好的容忍性。然而该特征计算量复杂，维度较高，如何降低其维度，实现实时性较好的特征有效提取还是一个悬而未决的难题。

2)BOW特征是信息检索领域常用的文档表示方式。在图像处理中，每幅图像描述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(如K-means)将局部特征进行聚类，每个聚类中心被看作是词典中的一个视觉词汇(Visual Word)，相当于文本检索中的词，视觉词汇由聚类中心对应特征形成的码字(code word)来表示(可看当为一种特征量化过程)。所有视觉词汇形成一个视觉词典(Visual Vocabulary)，对应一个码书(codebook)，即码字的集合，词典中所含词的个数反映了词典的大小。图像中的每个特征都将被映射到视觉词典的某个词上，这种映射可以通过计算特征间的距离去实现，然后统计每个视觉词的出现与否或次数，图像可描述为一个维数相同的直方图向量，即BOW特征。此特征在图像检索领域有着广泛的应用。

3)CNN特征是基于CNN网络的矢量特征，本发明中使用该特征使用GoogLeNet网络架构(【2】Szegedy C，Liu W，Jia Y，et al.Going deeper with convolutions[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition.2015:1-9.)，其主要通过Inception结构实现了在不大幅度增加计算量的情况下，让网络走向更深层次，而其在ILSVRC2014的结果，也证实了该网络架构的优越性。

矢量数据检索方法：目前使用广泛的检索方法有K-D tree、LSH((Locality-SensitiveHashing)、PQ(Product Quantization)等。

4)KD-TREE算法【4，5】(参见文献【4】Friedman J H，Bentley J L，Finkel R A.Analgorithm for finding best matches in logarithmic expected time[J].ACM Transactions onMathematical Software(TOMS)，1977，3(3):209-226和【5】Moore A W.An intoductory tutorialon kd-trees[J].1991)思想在于将数据分割到k维数据空间，并结合二叉检索等数据结构检索算法进行检索，这样建立一个索引树相对线性扫描可以节省很多时间，而且在检索精度上有很好的保证，但是当特征数据的维度过高，如Gist特征(参见文献【3】Oliva A，Torralba A.Building the gist of a scene:The role of global image features in recognition[J].Progress in brainresearch，2006，155:23-36.)，BOW特征时，算法的效率急剧下降。

5)LSH算法(参见文献【6】Datar M，Immorlica N，Indyk P，et al.Locality-sensitivehashing scheme based on p-stable distributions[C]//Proceedings of the twentieth annualsymposium on Computational geometry.ACM，2004:253-262)是使用一些哈希函数，确保距离相互比较近的点比距离比较远的点冲突的概率大，当要查询的时候，只需要查询与查询点冲突的点，从而减少了距离计算，加快查询时间。

6)PQ算法(参见文献【7】Jegou H，Douze M，Schmid C.Product quantization for nearestneighbor search[J].Pattern Analysis and Machine Intelligence，IEEE Transactions on，2011，33(1):117-128.)利用样本数据进行量化器训练并利用量化器对原向量进行压缩表示。在进行ANN检索时，通过计算query向量与待量化后的检索向量距离来近似query向量与量化前的待检索向量的距离，其距离计算方法使用查表方法，减少了计算时间，此算法在1B SIFT特征数据上的实验结果非常好(参见文献【8】Jégou H，Tavenard R，Douze M，et al.Searchingin one billion vectors:re-rank with source coding[C]//Acoustics，Speech and Signal Processing(ICASSP)，2011IEEE International Conference on.IEEE，2011:861-864)。

发明内容

本发明的目的在于：克服上述现有技术的缺陷，提供一种基于CNN的快速图像检索方法，在服务器平台上，利用CNN网络对图像进行特征提取并利用改进的搜索算法，对查询向量快速的给出与其K近邻的结果。本发明选择基于GOOGLENET网络的CNN特征，这是深度学习兴起后在图像领域的一个突破，它具有鲁棒性较好的特点。提取CNN特征后，本发明基于PQ的检索思想，并加入文本检索中的倒排策略，在应用中考虑自身的数据量，合理安排系统参数，并在检索结果重排序方面进行改进，加入快速排序策略，缩短了检测时间，提高了检测效率。

本发明的技术方案分两个阶段，第一阶段是利用CNN网络对要检索的图像进行特征提取，得到代表图像的矢量特征。第二阶段是在特征数据库中对此矢量特征进行k近邻检索。

具体步骤如下：

1)对图像进行特征提取

我们利用GoogLeNet网络架构，主要通过Inception结构实现了在不大幅度增加计算量的情况下，让网络走向更深层次，而其在ILSVRC 2014的结果，也证实了该网络架构的优越性，其细节如下所示：

e)训练前统一图像尺寸。我们采用Center-crop的方法将尺寸统一到256*256，即先将按照最小边缩放到256的比例系数进行整体缩放，然后对长边以中心为基准向两边分别做等长裁剪，保留256长度，这样基本可以保证图片不变形的同时突出图像的主体。

f)保证训练模型的鲁棒性方法。对训练集通过镜像变换进行扩充并在每次训练中从256*256的图像中随机选取224*224大小的图像块进行训练。

g)损失函数以及优化方法。损失函数选用Softmax损失函数，通过Mini-batch梯度下降法进行参数寻优以最小化损失函数。其中学习率每40，000次降低为原来的1/10，最终经过120，000次迭代终止。

h)模型应用。在模型应用上，我们对每张图片的预测，我们先将其统一成指定尺寸256*256，然后通过选取其左上、右上、左下、右下、正中以及其各自的镜面变换图进行预测，平均其预测结果，作为最终的预测类别。

2)在数据库中检索其K近邻的向量

检索过程分为两个部分，首先是将数据库中的特征进行量化并做成倒排索引结构。给定一个待查询的向量时，从此结构体中找出其K近邻的向量。

c)利用样本数据训练

利用数据库中的部分数据，进行量化器的训练。先对N维样本数据进行聚类，生成M个聚类中心。对每个特征向量在M个聚类中心定位到与之距离最近的聚类中心，上述操作完成后，此数据库即形成倒排索引结构。再将N维特征向量分成H段，对样本数据中的每一段进行聚类，生成L个聚类中心，共生成H*L个聚类中心。对数据库中的每一个特征向量，将其分成H段，每一段的子特征向量在其对于的L个聚类中心中进行量化，将数据量化成N/H维。这样减小了存储容量。将特征向量依次进行上述操作。再将量化后的数据挂载到倒排索引结构中，完成样本数据的训练和量化工作。

d)检索其K近邻的向量

对于待检索特征向量q，为了减小计算量，首先在训练过程中生成的M个聚类中心计算出W近邻的向量。实际检索过程中仅计算此W个聚类中心下挂载的向量集合R。对于欧氏距离准则，首先计算出q与其中一个聚类中心在每H维的欧氏距离，再利用查表的方法快速的计算出q与R中向量的近似距离。

本发明优点和积极效果为：

(1)由于采用CNN网络进行特征提取，这样的特征向量的鲁棒性较好，且数据量较小，易于计算，具有较好的实验效果。

(2)在K近邻检索时，利用量化思想在保证精度的条件下提高了检索速度，做到了又快又准。

附图说明

图1为不等式关系图；

图2为本发明一种基于CNN的快速图像检索方法流程图。

具体实施方式

本发明通过利用CNN网络和量化检索方法，实现了相似图像的快速搜索。

1.利用CNN网络提取图像特征向量

本发明用GoogleNet网络架构来提取表征图像的4096维特征向量。在初始化阶段，首先对整个100K图片库进行特征提取操作，生成100K个4096维的特征向量。当进行相似图像检索时，对待检索图像进行特征提取操作，生成带检索特征q。

2.量化特征向量并构建倒排结构

得到100K的特征向量后，随机选取10K作为样本数据进行量化系统的训练并将得到的量化器对整个100K的特征向量进行量化。并利用聚类方法构建倒排结构。

2.1数据预处理

对于10K样本数据T，对其进行聚类操作，得到M个聚类中心Κ＝{κ_ι；ι∈M}，将10K数据终端每个向量分配到此M个聚类中心下，即对每个向量v，计算与其欧式距离最近的聚类中心k_ι并分配到此聚类中心下。

为了减小数据误差，使样本数据的协方差为0，上述分配到各个聚类中心下的向量均与其对应的聚类中心作差，称为“残差向量”，即v,＝v-q(v)，q(v)为向量v所属的聚类中心。

2.2训练量化器

数据预处理完成后，将样本数据中的4096维向量按维度分为H段，每段的维度即为t＝4096/H维。对每一段的子向量进行聚类操作，计算出L个聚类中心，共会产生H*L个聚类中心。每个子维度上的聚类中心集合即为后续整个数据库的量化器。

2.3建立倒排索引结构

对于整个数据库中的特征向量，利用最初得到的聚类中心集合K，将数据库中的特征向量均分配到此M个聚类中心下，并计算“残差向量”。至此形成类似字典检索的倒排索引结构。

2.4量化数据库中的特征向量

对于数据库中的每个特征向量，在每t维度上均寻找上述对应维度上M个聚类中心集合中的最近邻向量并记录其索引号ι，以此类推，完成此过程后原特征向量降为H维，以此达到降低维度存储，减小存储空间的目的。

3.近似最近邻检索

3.1遍历部分向量并确定距离阈值

给定一个待查询向量y，首先在聚类中心集合K中计算y与每个κ_ι的距离d(y,κ_ι)，然后按距离远近的准则找出w个最近邻的聚类中心，对于向量y而言，仅需要遍历分配到此w个聚类中心下的向量即可找出其最近邻的特征向量。

在计算向量y与数据库R中特征向量x∈R距离时，我们利用向量y与量化后向量q(x)的欧氏距离d(y,q(x))＝||y-q(x)||来近似y与x的欧式距离d(y,x)＝||y-x||。有三角形不等式原理，如下图1所示，我们有如下不等式：

d(x,y)<d(x,q(x))+d(x,q(x))

我们设定阈值T_H＝d(x,q(x))+d(x,q(x))，随着遍历向量的增加，T_H逐渐迭代到最小值，并以此为依据，当x与w中某些聚类中心的距离远大于T_H时，依据数据的簇状分布，我们认定此聚类中心的向量均与待查询向量y相距较远，因此舍弃这部分。这样进一步的减少了遍历范围，在保证准确率的情况下提高了运算速度。其流程如下图2所示。

3.2计算近似距离

在计算d(y,q(x))时，首先计算待检索向量y与q(x)在每H维的距离之和，由上节可知每H维度上的聚类中心集合整个聚类中心的集合∑Κ^h,h∈Η。计算结束后会形成一个Η*Μ的矩阵T，矩阵中元素T_ij代表在第j个聚类中心的第i个H段的子向量与相对应维度上的子向量欧式距离之和。

对于分配到此聚类中心下量化后的向量，仅需要在矩阵T中进行查表操作并求和即可得到近似距离d(y,q(x))。这样将计算距离的乘方操作转换为查表的加法操作，极大的减少了计算量，提升了计算速度。

3.3计算结果重排序

对上面所得到的结果利用“分治法”先选择出前k个最小值，再将此k个值进行快速排序，则得到重排序后的结果，由以上的向量序列找出其相对应的图像ID，最终完成了相似图像检索的过程。

Claims

1.一种基于CNN(卷积神经网络)的快速图像检索方法，其特征在于：该方法包括：

步骤一、利用CNN网络对要检索的图像进行特征提取，得到代表图像的矢量特征；利用GoogLeNet网络架构，通过Inception结构实现了在不大幅度增加计算量的情况下，让网络走向更深层次，具体步骤如下：

a)训练前统一图像尺寸：采用Center-crop的方法将尺寸统一到256*256，即先将按照最小边缩放到256的比例系数进行整体缩放，然后对长边以中心为基准向两边分别做等长裁剪，保留256长度，这样基本可以保证图片不变形的同时突出图像的主体；

b)保证训练模型的鲁棒性：对训练集通过镜像变换进行扩充并在每次训练中从256*256的图像中随机选取224*224大小的图像块进行训练；

c)损失函数以及优化：损失函数选用Softmax损失函数，通过Mini-batch梯度下降法进行参数寻优以最小化损失函数；

d)模型应用：在模型应用上，对每张图片的预测，先将其统一成指定尺寸256*256，然后通过选取其左上、右上、左下、右下、正中以及其各自的镜面变换图进行预测，平均其预测结果，作为最终的预测类别；

步骤二、在特征数据库中对此矢量特征进行k近邻检索；其中检索过程分为两个部分，首先是将数据库中的特征进行量化并做成倒排索引结构；然后给定一个待查询的向量时，从此结构体中找出其K近邻的向量，具体步骤如下：

a)利用样本数据训练

利用数据库中的部分数据，进行量化器的训练，先对N维样本数据进行聚类，生成M个聚类中心，对每个特征向量在M个聚类中心定位到与之距离最近的聚类中心，上述操作完成后，此数据库即形成倒排索引结构，再将N维特征向量分成H段，对样本数据中的每一段进行聚类，生成L个聚类中心，共生成H*L个聚类中心，对数据库中的每一个特征向量，将其分成H段，每一段的子特征向量在其对于的L个聚类中心中进行量化，将数据量化成N/H维，这样减小了存储容量，将特征向量依次进行上述操作，再将量化后的数据挂载到倒排索引结构中，完成样本数据的训练和量化工作；

b)检索其K近邻的向量

对于待检索特征向量q，为了减小计算量，首先在训练过程中生成的M个聚类中心计算出W近邻的向量，实际检索过程中仅计算此W个聚类中心下挂载的向量集合R，对于欧氏距离准则，首先计算出q与其中一个聚类中心在每H维的欧氏距离，再利用查表的方法快速的计算出q与R中向量的近似距离。