CN106227851A

CN106227851A - 基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法

Info

Publication number: CN106227851A
Application number: CN201610607166.9A
Authority: CN
Inventors: 汤平; 汤一平
Original assignee: Individual
Current assignee: Hangzhou Yixun Technology Service Co ltd
Priority date: 2016-07-29
Filing date: 2016-07-29
Publication date: 2016-12-14
Anticipated expiration: 2036-07-29
Also published as: CN106227851B

Abstract

本发明公开一种基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，其特征在于：主要包括一个用于深度学习和训练识别的卷积神经网络、一种搜索图像对象的快速视觉分割算法、一种用于粗搜索的用哈希方法和汉明距离快速图像的快速比对方法和一种用于基于从候选池P中图像的前k个排名图像的精准比对方法。本发明能有效提高以图搜图的自动化和智能化水平、能精准获得的搜索结果、且用较少的存储空间，较快的检索速度慢来满足大数据时代的图像检索需求。

Description

基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法

技术领域

本发明涉及数据库管理、计算机视觉、图像处理、模式识别、信息检索、深度神经网络和深度学习技术在图像检索领域的应用，尤其涉及一种基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法。

背景技术

图像检索，以图搜图，是通过输入图片来检索相似的图片的一种技术，为用户提供相关图形图像资料检索的搜索技术。该技术涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科。其相关技术主要包括：特征表示和相似性度量这两类关键技术。在大数据图形图像检索、视频侦查、互联、购物搜索引擎等多种领域都有广泛应用。

对于图像检索算法，常用的传统方法种类比较多，比如基于颜色、纹理和形状等，这类技术基本上属于前深度学习时代的图像检索技术，即基于图像内容的检索技术。传统的基于图像内容的检索技术检索主要完成三部分内容：特征分析抽取、特征匹配、相似度计算。传统的图像搜索的算法，一般是三个步骤：1)将目标图片进行特征提取，描述图像的算法很多，用的比较多的是：SIFT描述子，指纹算法函数，bundling features算法，哈希函数等；2)将图像特征信息进行编码，并将海量图像编码做查找表。对于目标图像，可以对分辨率较大的图像进行降采样，减少运算量后在进行图像特征提取和编码处理；3)相似度匹配运算：利用目标图像的编码值，在图像搜索引擎中的图像数据库进行全局或是局部的相似度计算；根据所需要的鲁棒性，设定阈值，然后将相似度高的图片预保留下来；最后用特征检测算法筛选最佳匹配图片。

图像检索的查询条件来自于图像本身，在提取图像特征时，图像的特征即为查询的条件。传统的基于图像内容的检索由于需要靠人工提取特征，这种方法即耗时、耗费精力，检索精度和效率都存在着很大问题。在基于图像内容的检索系统中，人们通常用颜色、纹理、轮廓等底层特征来描述一副图像的基本特征，而检索的结果是以上基本特征相互匹配与图像库中特征对比计算得来的。在获得查询条件后，通过比较其特征与图像库中的特征来决定其和图像库中图像的相似度。如果图像库庞大，那么在检索的过程中，时效性变得尤为突出。时效性是评价一个图像检索系统好坏的标准，目前基于图像内容的检索技术已经不能满足大数据时代的图像检索需求。

IBM提出的QBIC(Query by image contnet)、加拿大Idée公司研发的Tineye、MIT媒体实验室开发的Photobook、Virage公司开发研制的Virage、加里福利亚大学ADL开发的NETRA、哥伦比亚大学开发的VisualSeek和WebSeek都是属于前深度学习时代的图像检索技术。

深度学习是一种目的在于建立、模拟人脑进行分析学习的深度网络，它模仿人脑的机制来解释图像数据。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。它显著的优点是可抽象出高级特征，构建出复杂高性能的模型。

卷积神经网络，即CNN，是深度学习算法的一种，是专门处理图像领域中的模式识别，同时也是目前图像模式识别中成果最惊人的算法。卷积神经网络算法的好处在于训练模型的时候不需要使用任何人工特征，算法可以自动探索图像所隐含的特征，可以作为一种十分理想的图形图像资料检索的搜索技术。

中国发明专利申请号为201510714633.3公开了一种快速检索高速公路逃费车辆高相似度图像的方法，利用计算机的卷积神经网络模型，对采集到的违规车辆的样本图像进行特征提取与识别，并对识别的特征进行相应的K-d树构建，然后利用快速高相似度最近邻搜索算法对采集到的未知图像提取特征并和样本特征进行匹配，以实现高相似度图像的检索。这种方法是通过计算查询图像和数据库中图像在特征空间中的欧式距离，并按照距离从小到大的顺序，返回数据库中的图像。虽然K-d树是一种近似最近邻搜索技术，能满足对大规模图像检索的需求，但是由于该算法属于近似最近邻搜索技术，存在着检索精度不高等问题。

中国发明专利申请号为201310511206.6公开了基于样本图像的视频检索方法，以实现以图搜图。其包括以下步骤：步骤1)样本图片导入；步骤2)结构化分析样本图片；步骤3)样本图片信息入库；步骤4)原始视频导入；步骤5)视频转码；步骤6)视频结构化分析；步骤7)视频信息入库；步骤8)样本图片与原始视频信息比对；步骤9)结果展示。本发明的视频检索技术能将复杂的语义描述用直观的图片样本取代，实现海量视频中的“以图搜图”。该技术还是属于传统的基于图像内容的检索技术。

中国发明专利申请号201510091660.X公开了一种基于深度学习的以图搜图的方法，其中，计算图像类别特征，使用已训练的深度卷积神经网络，对输入图像提取分类特征；计算图像自编码特征，使用已训练的深度学习的自动编码算法，对输入图像提取编码特征；混合特征编码压缩，综合所述分类特征和图像自编码特征，将这些特征通过深度学习自动编码算法进行编码；根据特征计算图像相似度并排序输出。该技术同样存在着对大规模图像的检索存在着存储空间消耗大，检索速度慢等问题。

中国发明专利申请号201410850827.1公开了一种基于卷积神经网络的以图搜图系统，该系统基于深度的卷积神经网络智能算法，构建图片知识库，在此基础上对用户输入的图片在该知识库中进行反向检索，并完善卷积神经网络模型。该系统将图片本身作为输入，尝试提高搜索的效率和可靠性。该技术同样也存在着对大规模图像的检索存在着存储空间消耗大，检索速度慢等问题。

综上所述，采用卷积神经网络等深度神经网络技术进行以图搜图，目前尚存在着如下若干个棘手的问题：1)如何从复杂的背景中准确分割出被搜索对象的整体图像；2)如何尽可能采用极少的标签图像数据来准确获得被搜索对象的特征数据；3)如何通过分层进行深度搜索，以获得更为精准的搜索结果；4)如何通过深度学习来自动获取被搜索对象的特征数据；5)如何兼顾好识别精度和检测效率，同时尽可能减少训练和学习时间；6)如何减少目前图像检索技术存储空间消耗大，检索速度慢，难以满足大数据时代的图像检索需求；7)如何设计一个真正意义上的使用一个CNN网络实现端对端的通过分层深度搜索的图像检索方法的框架。

发明内容

为了克服已有的以图搜图技术中的自动化和智能化水平低、缺乏深度学习、难以获得精准的搜索结果、检索技术存储空间消耗大，检索速度慢难以满足大数据时代的图像检索需求等不足，本发明提供一种基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，能有效提高以图搜图的自动化和智能化水平、能精准获得的搜索结果、且用较少的存储空间，较快的检索速度慢来满足大数据时代的图像检索需求。

要实现上述发明内容，必须要解决几个核心问题：(1)设计一种检索对象的快速视觉分割算法；(2)研发一种深度学习方法，实现基于深度卷积神经网络对图像对象特征自动提取；(3)设计一种分层深度搜索的图像检索方法，在检索速度、精度和实用性等方面满足各类用户的需求；(4)设计一个真正意义上的基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法的框架。

本发明解决其技术问题所采用的技术方案是：

基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，包括一个用于深度学习和训练识别的卷积神经网络、一种搜索图像对象的快速视觉分割算法、一种用于粗搜索的用哈希方法和汉明距离的图像快速比对方法和一种用于基于从候选池P中图像的前k个排名图像的精准比对方法；

(1)关于设计一种搜索图像对象的快速视觉分割算法；

由于在极大部分应用中，搜索图像对象只是整幅图像的一个部分，尤其是在道路监控和卡口图像对比搜索中，因此必须设计一种搜索图像对象的快速视觉分割算法，以提高搜索效率；

首先，设计一种搜索图像对象的快速视觉分割算法，即对搜索图像对象进行区域选择和定位；

为了对搜索图像对象的位置进行定位；由于搜索图像对象可能出现在图像的任何位置，而且目标的大小、长宽比例也不确定，原有的技术是最初采用滑动窗口的策略对整幅图像进行遍历，而且需要设置不同的尺度，不同的长宽比；这种穷举的策略虽然包含了目标所有可能出现的位置，但是缺点也是显而易见的：时间复杂度太高，产生冗余窗口太多，这也严重影响后续特征提取和分类的速度和性能；

对于滑动窗口存在的问题，本发明提出了一种候选区域的解决方案；即预先找出图中搜索图像对象可能出现的位置；由于候选区域利用了图像中的纹理、边缘、颜色等信息，能保证在选取较少窗口的情况下保持较高的召回率；这样能有效降低后续操作的时间复杂度，并且获取的候选窗口要比滑动窗口的质量更高；可选用的算法是选择性搜索，即selective Search和边缘信息候选框，即edge Boxes；这些算法的核心是利用了人类视觉的一眼“纵观全局”，直接发现搜索图像对象在整幅图像中的“大概的位置”；由于选择性搜索算法耗时比较大，不适用于实时的以图搜图的要求；本发明采用边缘信息候选框的检测算法。

边缘信息候选框的检测算法思想是：利用边缘信息，确定候选框内的轮廓个数和与候选框边缘重叠的轮廓个数，并基于此对候选框进行评分，进一步根据得分的高低顺序确定由大小，长宽比，位置构成的候选区域信息；边缘信息候选框的检测算法步骤如下：

STEP11：用结构深林边缘检测算法对原图像进行处理，得到的边缘图像，然后用非极大值抑制算法对边缘图像进一步处理得到一个相对稀疏的边缘图像；

STEP12：将相对稀疏的边缘图像中近乎在一条直线上的边缘点，集中起来形成一个边缘组，具体的做法是，不停地寻找8连通的边缘点，直到两两边缘点之间的方向角度差值的和大于pi/2，这样便得到了N多个边缘组s_i∈S；

STEP13：用公式(1)计算两两边缘组之间的相似度，

a(s_i,s_j)＝|cos(θ_i-θ_ij)cos(θ_j-θ_ij)|^γ (1)

式中，θ_i和θ_j分别为两个边缘组的平均取向，s_i和s_j分别表示两个边缘组，θ_ij为两个边缘组的平均位置x_i和x_j之间的夹角，γ为相似敏感系数a(s_i,s_j)为两个边缘组之间的相似度；为了提高计算效率，这里将相似度a(s_i,s_j)计算值超过阈值T_s≥0.05的边缘组进行储存，其余均设置为零；

STEP14：给每一个边缘组赋予一个权值，权值计算方法由公式(2)给出，

W_{b} (s_{i}) = 1 - \underset{T}{m a x} Π_{j}^{| T | - 1} a (t_{j}, t_{j + 1}) - - - (2)

式中，T为从候选框的边缘开始到达s_i的边缘组序列集合的路径，W_b(s_i)为边缘s_i的权值，t_j为路径上的边缘点；如果没有找到路径就将W_b(s_i)设定为1；

STEP15：用公式(3)计算候选框的评分，

h_{b} = \frac{Σ_{i} W_{b} (s_{i}) m_{i}}{2 {(b_{w} + b_{h})}^{k}} - - - (3)

式中，m_i为对在边缘组s_i中所有边缘p的大小m_p的总和，W_b(s_i)为边缘s_i的权值，b_w和b_h分别为候选框的宽度和高度，k为大小系数；计算窗口内边缘个数进行打分，最后排序打分来过滤掉低分的候选框。

(2)关于设计一个用于深度学习和训练识别的卷积神经网络；

卷积神经网络图，共分为八层，卷积神经网络是由卷积层、激活层和下采样层交替构成的深度结构，这种深度结构能够有效减少计算时间并建立空间结构上的不变性。输入图像在网络中进行层层映射，最终得到各层对于图像不同的表示形式，实现图像的深度表示，其中卷积核以及下采样的方式直接决定图像的映射方式。

卷积神经网本质上是一种深度映射的网络结构，输入信号通过在网络中进行层层映射，不断进行分解和表示，最终形成关于对象目标的多层表达，其最主要特点就是不必再人为的选取和构建对象特征，而是通过机器自动学习，得到关于对象目标的深层表示。

第一层：输入图像数据为224×224像素图像，分为RGB颜色空间上的3个分量，填充值是3，输出数据227×227×3；然后经过96个过滤器、窗口大小为11×11、步长为4的卷积层1处理，得到[(227-11)/4]+1＝55个特征，以后的层就分为两组处理，输出特征为55×55×96，然后进行ReLU激活层1处理，输出特征为55×55×96，经过池化层1进行最大池化3×3的核，步长为2，得到[(55-3+1)/2]+1＝27个特征，总的特征数为27×27×96，然后进行正则化处理，用于求和的通道数为5，最后得到27×27×96数据；

第二层：输入数据27×27×96，填充值是2，256个过滤器，窗口大小为5×5，得到[(27-5+2×2)/1]+1＝27个特征，输出特征为27×27×256，然后进行ReLU激活层2处理，输出特征为27×27×256，经过池化层2进行最大池化3×3的核，步长为2，得到[(27-3)/2]+1＝13个特征，总的特征数为13×13×256，然后进行正则化处理，用于求和的通道数为5，最后得到13×13×256数据；

第三层：输入数据13×13×256，填充值是1，384个过滤器，窗口大小为3×3，得到[(13-3+1×2)/1]+1＝13个特征，输出特征为13×13×384，然后进行ReLU激活层3处理，最后得到13×13×384数据；

第四层：输入数据13×13×384，填充值是1，384个过滤器，窗口大小为3×3，得到[(13-3+2×1)/1]+1＝13个特征，输出特征为13×13×384，然后进行ReLU激活层4处理，最后得到13×13×384数据；

第五层：输入数据13×13×384，填充值是1，256个过滤器，窗口大小为3×3，得到[(13-3+2×1)/1]+1＝13个特征，输出特征为13×13×256，然后进行ReLU激活层5处理，输出特征为13×13×256，经过池化层5进行最大池化3×3的核，步长为2，得到[(13-3)/2]+1＝6个特征，总的特征数为6×6×256，最后得到6×6×256数据；

第六层：输入数据6×6×256，全连接，得到4096个特征，然后进行ReLU激活层6处理，输出特征为4096，经过dropout6处理，最后得到4096数据；

第七层：输入数据4096，全连接，得到4096个特征，然后进行ReLU激活层7处理，输出特征为4096，经过dropout7处理，最后得到4096数据；

第八层：输入数据4096，全连接，得到1000个特征数据；

卷积神经网络的预测过程是一个前向传播过程，上一层的输出即为当前层的输入，并通过激活函数逐层传递，因此整个网络的实际计算输出用公式(4)表示，

O_p＝F_n(…(F₂(F₁(XW₁)W₂)…)W_n) (4)

式中，X表示原始输入，F_l表示第l层的激活函数，W_l表示第l层的映射权值矩阵，O_p表示整个网络的实际计算输出；

当前层的输出用(5)表示，

X^l＝f^l(W^lX^l-1+b^l) (5)

式中，l代表网络层数，X^l表示当前层的输出，X^l-1表示上一层的输出，即当前层的输入，W^l代表已经训练好的、当前网络层的映射权值矩阵，b^l为当前网络的加性偏执，f^l是当前网络层的激活函数；采用的激活函数f^l为纠正线性单元，即ReLU，用公式(6)表示，

f^{l} = m a x ({(W^{l})}^{T} X^{l}, 0) = \{\begin{matrix} {(W^{l})}^{T} X^{l} & {(W^{l})}^{T} X^{l} > 0 \\ 0 & {(W^{l})}^{T} X^{l} \leq 0 \end{matrix} - - - (6)

式中，l代表网络层数，W^l代表已经训练好的、当前网络层的映射权值矩阵，f^l是当前网络层的激活函数；其作用是如果卷积计算结果小于0，则让其为0；否则保持其值不变。

卷积神经网络训练是一个反向传播过程，与BP算法类似，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止。

该神经网络训练是一个反向传播过程，通过误差函数反向传播，利用随机梯度下降法对卷积参数和偏置进行优化调整，直到网络收敛或者达到最大迭代次数停止；

反向传播需要通过对带有标签的训练样本进行比较，采用平方误差代价函数，对于c个类别，N个训练样本的多类别进行识别，网络最终输出误差函数用公式(7)来计算误差，

E^{N} = \frac{1}{2} Σ_{n = 1}^{N} Σ_{k = 1}^{c} {(t_{k}^{n} - y_{k}^{n})}^{2} - - - (7)

式中，E^N为平方误差代价函数，为第n个样本对应标签的第k维，为第n个样本对应网络预测的第k个输出；

对误差函数进行反向传播时，采用传统的BP算法类似的计算方法，如公式(8)所示，

\begin{matrix} δ^{l} = {(W^{l + 1})}^{T} δ^{l + 1} \times f^{'} (u^{l}) \\ u^{l} = W^{l} x^{l - 1} + b^{l} \end{matrix} - - - (8)

式中，δ^l代表当前层的误差函数，δ^l+1代表上一层的误差函数，W^l+1为上一层映射矩阵，f'表示激活函数的反函数，即上采样，u^l表示未通过激活函数的上一层的输出，x^l-1表示下一层的输入，W^l为本层映射权值矩阵；

(3)关于设计一种用于粗搜索的用哈希方法和汉明距离快速图像的快速比对方法；

目前常用的图像搜索方法是用一种特征来表示每张图像，如图3中F7层的输出，然后通过计算查询图像和数据库中图像在特征空间中的欧式距离，并按照距离从小到大的顺序，返回数据库中的图像。按这种搜索方法查询一百万张图像就需要大约15GB的存储空间，而计算查询图像和数据库中每张图像的距离，则需要8192次加法操作和4096次乘法操作，遍历完所有的一百万张图像再返回结果的话，实用性方面存在着很大的问题，如果考虑到互联网上的数据规模动辄就是上亿的级别，这种搜索方法就几乎不能应用。

为了解决上述搜索方法对存储空间和检索时间的不切实际的要求，近年来近似最近邻搜索(approximate nearest neighbor search)技术发展迅猛，因为其对空间和时间的需求大幅降低，而且能够得到不错的检索结果，因此成为了一种实用的替代方案。在这其中，哈希方法作为一种代表性方法，受到了广泛的关注。

在哈希方法中，通常的目标是将样本表示成一串固定长度的二值编码，使得相似的样本具有相似的二值码，然后使用哈明，即Hamming距离度量二值码之间的相似性。

哈希方法的目标是得到二值编码，而在优化过程中经常会遇到离散取值的约束，因此通常来说无法使用基于梯度的方法对目标函数进行优化。为了简化问题，通常的做法是改用一个更宽松的约束，比如不再要求“二值码”是二值的，而是只要在一个规定的范围中即可。优化结束后，再对松弛过的“二值码”进行量化，得到最终的真二值码，深度哈希算法采用这种做法。

在预训练好的卷积神经网络的第七层F7和最后第八层F8之间，插入一个新的全连接层，这个层使用sigmoid激活函数来提供范围约束，节点数即为目标二值码的码长。通过端到端的微调，将语义信息嵌入到这个新加入的全连接层输出之中。

分层深度搜索的图像检索方法框架，主要包括三个主要模块，第一模块是采用卷积神经网络架构通过大型ImageNet数据集来进行监督学习，ImageNet数据集中包含了1000类的1.2百万个图像，通过学习获得数据集中的1000种类对象的图像特征；第二模块是对目标域数据集来进行微调网络隐层各参数，目标域数据集中主要包括了本发明中关注的种类对象的图像，同时学习获得该目标域的特征表示和得到一组哈希函数，该哈希函数作为识别指纹，用于快速粗图像搜索的比对；第三个模块，实现一个给定的图像通过分层深度搜索的图像检索方法得到最接近的类似图像。

由输入图像导致在卷积神经网络的全连接层F6～F8特征激活能用于视觉签名。使用这些F6～F8全连接层的图像特征表示用于实现图像的分类、检索和其他任务。但是这种视觉签名对大型图像数据集的图像检索是高维向量和低效的。为了高效地进行图像检索，本发明提出一种能有效减少计算量的方法，具体做法是将高维的特征向量转化成二进制代码，通过用哈希方法和汉明距离对这种紧凑的二进制代码进行快速图像的比对。

在本发明中，为了同时学习获得该目标域的特征表示和得到一组哈希函数，在F7层和F8层之间增加了一个指纹层，即隐层H；隐层H是一个全连接层，隐层H的神经元活动是由后续层F8来实现编码语义和分类调控；因此，隐层H层不仅提供了F7层所具有的特征抽象，而且也构建了中层特征和高层语义之间的桥接。在本发明的设计中，隐层H层的神经元用sigmoid函数进行激活，近似为{0,1}。

为了适应目标域数据集，本发明通过反向传播来对目标域数据集进行微调；深度神经网络的初始参数是通过对ImageNet数据集的监督学习得到的，隐层H和最后的分类层F8的初始参数是通过随机方式来进行初始化；对于隐层H初始参数，本发明中采用局部敏感哈希算法，即采用随机投影变换构建哈希比特；

局部敏感哈希算法的基本思想是：将原始数据空间中的两个相邻数据点通过相同的映射或投影变换后，这两个数据点在新的数据空间中仍然相邻的概率很大，而不相邻的数据点被映射到同一个桶的概率很小。也就是说，如果我们对原始数据进行一些哈希映射后，我们希望原先相邻的两个数据能够被哈希到相同的桶内，具有相同的桶号。对原始数据集合中所有的数据都进行哈希映射后，这样就得到了一个哈希表，这些原始数据集被分散到了哈希表的桶内，每个桶会落入一些原始数据，属于同一个桶内的数据就有很大可能是相邻的，当然也存在不相邻的数据被哈希到了同一个桶内。因此，如果能够找到这样一些哈希函数，使得经过它们的哈希映射变换后，原始空间中相邻的数据落入相同的桶内的话，那么在该数据集合中进行近邻查找就变得容易了，只需要将查询数据进行哈希映射得到其桶号，然后取出该桶号对应桶内的所有数据，再进行线性匹配即可查找到与查询数据相邻的数据。换句话说，通过哈希函数映射变换操作，将原始数据集合分成了多个子集合，而每个子集合中的数据间是相邻的且该子集合中的元素个数较小，因此将一个在超大集合内查找相邻元素的问题转化为了在一个很小的集合内查找相邻元素的问题，这种算法能使得查找计算量大幅度下降；

对于原本相邻的两个数据点经过哈希变换后落入相同桶内的哈希函数需要满足以下两个条件：

1)如果d(x,y)≤d1，则h(x)＝h(y)的概率至少为p1；

2)如果d(x,y)≥d2，则h(x)＝h(y)的概率至多为p2；

其中d(x,y)表示x和y之间的距离，d1<d2，h(x)和h(y)分别表示对x和y进行哈希变换。

满足以上两个条件的哈希函数称为(d1,d2,p1,p2)-敏感。而通过一个或多个(d1,d2,p1,p2)-敏感的哈希函数对原始数据集合进行哈希生成一个或多个哈希表的过程称为局部敏感哈希。

使用局部敏感哈希进行对海量数据建立索引，即哈希表并通过索引来进行近似最近邻查找的过程如下：

1.离线建立索引

(1)选取满足(d1,d2,p1,p2)-敏感的局部敏感哈希的哈希函数；

(2)根据对查找结果的准确率，即相邻的数据被查找到的概率来确定哈希表的个数L，每个哈希表内的哈希函数的个数K，以及跟局部敏感哈希的哈希函数自身有关的参数；

(3)将所有数据经过局部敏感哈希的哈希函数哈希到相应的桶内，构成了一个或多个哈希表；

2.在线查找

(1)将查询数据经过局部敏感哈希的哈希函数哈希得到相应的桶号；

(2)将桶号中对应的数据取出；为了保证查找速度，只取出前2L个数据；

(3)计算查询数据与这2L个数据之间的相似度或距离，返回最近邻的数据；

局部敏感哈希在线查找时间由两个部分组成：(1)通过局部敏感哈希的哈希函数计算哈希值，即计算桶号的时间；(2)将查询数据与桶内的数据进行比较计算的时间。因此，局部敏感哈希的查找时间至少是一个次线性时间。这是因为这里通过对桶内的属于建立索引来加快匹配速度，这时第(2)部分的耗时就从O(N)变成了O(logN)或O(1)，极大的减少了计算量；

局部敏感哈希的一个关键是：将相似的样本映射到同一个具有高概率的同一个桶。换言之，在原空间中的局部性将在很大程度上保留在汉明空间内。更确切地说，局部敏感哈希的哈希函数h(.)满足以下条件：

p{h(x)＝h(y)}＝sim(x,y) (9)

式中，sim(x,y)表示x与y的相似度，h(y)表示y的哈希函数，h(x)表示x的哈希函数，其中的相似性度量与一个距离函数d直接关联，如σ表示标准差，局部敏感哈希函数的典型分类由随机投影和阈值给出，如式(10)所示，

h(x)＝sign(W^TX+b) (10)

式中，W是一个随机超平面向量，b是一个随机截距；显然，随机向量W是数据独立的，这通常是从P-稳定分布由随机采样W每个组件来约束的，如标准高斯分布；尽管基于局部敏感哈希有随机投影渐近理论保证，由于需要多个长码的哈希表，这在实际应用中有效性欠缺。例如，用零均值来标准化的数据集||x||＝1，即平均划分和b＝0来得到；构建一个总长度为l₁、K位哈希表来提供以下碰撞概率，如式(11)所示，

P {H (x) = H (y)} &Proportional; l_{1} \times {[1 - \frac{\cos^{- 1} x^{T} y}{π}]}^{K} - - - (11)

对于一个大规模的应用，K的值应该是相当大的，以减少每个哈希桶的大小，即，在同一个桶中的样本数。然而，一个大的K值降低了类似的样品之间的碰撞概率。为了克服这个缺点，必须构造多个哈希表。

鉴于上述结论，实现的相关算法如下：

预处理算法：

输入一组点p、哈希表的数l₁，

输出哈希表T_i,i＝1,…,l₁，

Foreach i＝1,…,l₁，

用随机哈希函数g(.)哈希表T_i，

Foreach i＝1,…,l₁，

Foreach j＝1,…,n，

将点p_j存储到哈希表T_i相应的桶号g_i(p_j)中；

最近邻搜索算法：

输入一个检索点q，

访问由预处理算法所生成的哈希表T_i,i＝1,…,l₁最近邻的数目K，

输出最近邻的K个数据，

Foreach i＝1,…,l₁，

S←S∪(在哈希表T_i的桶内g_i(q)找到的点)；

返回检索点q在数据集S中的K个最近邻数据。

深度卷积神经网络，在网络的浅层学习当地的视觉描述子，而在网络的深层捕捉适合识别语义信息。基于上述观点，本发明采用一个粗到细的搜索策略，最终实现快速、准确的图像检索；首先检索一组类似的高层语义，类似从隐层激活隐藏二进制编码，即指纹编码；然后，进一步过滤类似的外观图像，完成基于最深的中层图像表示的相似性排名。

粗搜索：对于给定的一个图像I，首先提取的作为隐层H的输出Out^j(H)图像签名；然后通过对激活的阈值得到的二进制代码。对于每一个位的j＝1…h，h为隐层H的节点数，输出的二进制代码的H由公式(12)计算，

H^{j} = \{\begin{matrix} 1 & {Out}^{j} (H) &GreaterEqual; 0.5 \\ 0 & o t h e r w i s e \end{matrix} - - - (12)

式中，Out^j(H)为隐层H的j节点的激活的阈值，H^j为隐层H的j节点的输出；

设Γ＝{I₁,I₂,…,I_n}为检索的由n个图像构成的数据集，其每幅图像所对应的二进制代码为Γ_H＝{H₁,H₂,…,H_n}，H_i∈{0,1}^h；给定搜索图像I_q和二进制代码H_q，将H_q与H_i∈Γ_H之间的汉明距离小于阈值T_H的那些图像放入到候选池P中，为候选图像；

(4)关于设计一种用于基于从候选池P中图像的前k个排名图像的精准比对方法；

在粗搜索中，已经将H_q与H_i∈Γ_H之间的汉明距离小于阈值T_H的那些图像放入到候选池P中，为了得到更为精准的搜索结果，本发明在粗搜索基础上进一步采用精细搜索方法；

精细搜索，给定搜索图像I_q和候选池P，使用从F7层提取特征来确定从候选池P中图像的前k个排名图像；具体用欧氏距离来计算它们之间的相似程度，计算方法如公式(13)所示，

s_i＝||V_q-V_i ^P|| (13)

式中，V_q为搜索图像I_q的特征向量，V_i ^P为候选池P中第i个图像的特征向量，s_i为搜索图像I_q的特征向量与候选池P中第i个图像的特征向量之间的欧氏距离；欧氏距离越小，两幅图像的相似性越高；对于每个候选的排名从欧氏距离最小值开始，这样就确定了前k个排名图像；

进一步，关于搜索图像精度的评价，这里使用一个以排名为基础的标准来进行评价；对于给定一个搜索图像I_q和一个相似性度量，对每个数据集图像进行一个排名；这里用评估前k个排名图像来表示一个搜索图像I_q的检索精度，用公式(14)表示；

\Pr e c i s i o n @ k = \frac{Σ_{i = 1}^{k} Re l (i)}{k} - - - (14)

式中，Rel(i)表示搜索图像I_q与第i个排名图像之间的真实相关，k表示排名图像的个数，Precision@k搜索精度；在计算真实相关时，只考虑有分类标签的部分，Rel(i)∈{0,1}，如果搜索图像与第i个排名图像都具有相同的标签设置Rel(i)＝1，否则设置Rel(i)＝0，遍历候选池P中前k个排名图像就能得到搜索精度。

下面简单归纳一下基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法的总体图像检索流程：①搜索图像对象的位置进行定位，框出搜索图像对象在整幅图像中的大小及位置；②用深度卷积神经网络提取出搜索图像对象的特征及语义；③用哈希方法和汉明距离快速图像的比对方法进行粗搜索，得到候选相似图像的候选池P；④在粗搜索基础上，即在候选池P中进一步采用欧氏距离进行精细搜索，最终得到前k个排名图像，排名越是靠前表明与搜索图像对象越相似。

本发明的有益效果主要表现在：

1)提供了一种基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法；

2)研发一种深度学习方法，实现大规模图像集的中各图像特征的自动提取；

3)采用分层深度搜索的图像检索方法能满足大规模图像数据的搜索需求；

4)本设计兼顾了通用性和专用性，在通用性方面，检索速度、精度和实用性等方面满足各类用户的需求；专用性方面用户根据自己的特定需求，做一个专用数据集并对网络参数进行微调后，实现一种面向特定应用的以图搜图的系统。

附图说明

图1为边缘信息候选框的检测算法流程；

图2为一种基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法处理框图；

图3为深度卷积神经网络图；

图4为深度卷积神经网络中第一层处理的流程图；

图5为深度卷积神经网络中第二层处理的流程图；

图6为深度卷积神经网络中第三层处理的流程图；

图7为深度卷积神经网络中第四层处理的流程图；

图8为深度卷积神经网络中第五处理的流程图；

图9为深度卷积神经网络中第六层处理的流程图；

图10为深度卷积神经网络中第七层处理的流程图；

图11为深度卷积神经网络中第八层处理的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

实施例1

参照图1～11，本发明解决其技术问题所采用的技术方案是：

基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法包括一个用于深度学习和训练识别的卷积神经网络、一种搜索图像对象的快速视觉分割算法、一种用于粗搜索的用哈希方法和汉明距离快速图像的快速比对方法和一种用于基于从候选池P中图像的前k个排名图像的精准比对方法；

(1)关于设计一种搜索图像对象的快速视觉分割算法；

边缘信息候选框的检测算法思想是：利用边缘信息，确定候选框内的轮廓个数和与候选框边缘重叠的轮廓个数，并基于此对候选框进行评分，进一步根据得分的高低顺序确定由大小，长宽比，位置构成的候选区域信息；边缘信息候选框的检测算法流程如图1所示；算法步骤如下：

STEP13：用公式(1)计算两两边缘组之间的相似度，

a(s_i,s_j)＝|cos(θ_i-θ_ij)cos(θ_j-θ_ij)|^γ (1)

式中，θ_i和θ_j分别为两个边缘组的平均取向，s_i和s_j分别表示两个边缘组，θ_ij为两个边缘组的平均位置x_i和x_j之间的夹角，γ为相似敏感系数，这里选择γ＝2，a(s_i,s_j)为两个边缘组之间的相似度；为了提高计算效率，这里将相似度a(s_i,s_j)计算值超过阈值T_s≥0.05的边缘组进行储存，其余均设置为零；

W_{b} (s_{i}) = 1 - \underset{T}{m a x} Π_{j}^{| T | - 1} a (t_{j}, t_{j + 1}) - - - (2)

STEP15：用公式(3)计算候选框的评分，

h_{b} = \frac{Σ_{i} W_{b} (s_{i}) m_{i}}{2 {(b_{w} + b_{h})}^{k}} - - - (3)

式中，m_i为对在边缘组s_i中所有边缘p的大小m_p的总和，W_b(s_i)为边缘s_i的权值，b_w和b_h分别为候选框的宽度和高度，k为大小系数，这里定义k＝1.5；计算窗口内边缘个数进行打分，最后排序打分来过滤掉低分的候选框。

(2)关于设计一个用于深度学习和训练识别的卷积神经网络；

图3所示的是卷积神经网络图，共分为八层，卷积神经网络是由卷积层、激活层和下采样层交替构成的深度结构，这种深度结构能够有效减少计算时间并建立空间结构上的不变性。输入图像在网络中进行层层映射，最终得到各层对于图像不同的表示形式，实现图像的深度表示，其中卷积核以及下采样的方式直接决定图像的映射方式。

第一层：如图4所示，输入图像数据为224×224像素图像，分为RGB颜色空间上的3个分量，填充值是3，输出数据227×227×3；然后经过96个过滤器、窗口大小为11×11、步长为4的卷积层1处理，得到[(227-11)/4]+1＝55个特征，以后的层就分为两组处理，输出特征为55×55×96，然后进行ReLU激活层1处理，输出特征为55×55×96，经过池化层1进行最大池化3×3的核，步长为2，得到[(55-3+1)/2]+1＝27个特征，总的特征数为27×27×96，然后进行正则化处理，用于求和的通道数为5，最后得到27×27×96数据；

第二层：如图5所示，输入数据27×27×96，填充值是2，256个过滤器，窗口大小为5×5，得到[(27-5+2×2)/1]+1＝27个特征，输出特征为27×27×256，然后进行ReLU激活层2处理，输出特征为27×27×256，经过池化层2进行最大池化3×3的核，步长为2，得到[(27-3)/2]+1＝13个特征，总的特征数为13×13×256，然后进行正则化处理，用于求和的通道数为5，最后得到13×13×256数据；

第三层：如图6所示，输入数据13×13×256，填充值是1，384个过滤器，窗口大小为3×3，得到[(13-3+1×2)/1]+1＝13个特征，输出特征为13×13×384，然后进行ReLU激活层3处理，最后得到13×13×384数据；

第四层：如图7所示，输入数据13×13×384，填充值是1，384个过滤器，窗口大小为3×3，得到[(13-3+2×1)/1]+1＝13个特征，输出特征为13×13×384，然后进行ReLU激活层4处理，最后得到13×13×384数据；

第五层：如图8所示，输入数据13×13×384，填充值是1，256个过滤器，窗口大小为3×3，得到[(13-3+2×1)/1]+1＝13个特征，输出特征为13×13×256，然后进行ReLU激活层5处理，输出特征为13×13×256，经过池化层5进行最大池化3×3的核，步长为2，得到[(13-3)/2]+1＝6个特征，总的特征数为6×6×256，最后得到6×6×256数据；

第六层：如图9所示，输入数据6×6×256，全连接，得到4096个特征，然后进行ReLU激活层6处理，输出特征为4096，经过dropout6处理，最后得到4096数据；

第七层：如图10所示，输入数据4096，全连接，得到4096个特征，然后进行ReLU激活层7处理，输出特征为4096，经过dropout7处理，最后得到4096数据；

第八层：如图11所示，输入数据4096，全连接，得到1000个特征数据；

O_p＝F_n(…(F₂(F₁(XW₁)W₂)…)W_n) (4)

当前层的输出用(5)表示，

X^l＝f^l(W^lX^l-1+b^l) (5)

f^{l} = m a x ({(W^{l})}^{T} X^{l}, 0) = \{\begin{matrix} {(W^{l})}^{T} X^{l} & {(W^{l})}^{T} X^{l} > 0 \\ 0 & {(W^{l})}^{T} X^{l} \leq 0 \end{matrix} - - - (6)

E^{N} = \frac{1}{2} Σ_{n = 1}^{N} Σ_{k = 1}^{c} {(t_{k}^{n} - y_{k}^{n})}^{2} - - - (7)

\begin{matrix} δ^{l} = {(W^{l + 1})}^{T} δ^{l + 1} \times f^{'} (u^{l}) \\ u^{l} = W^{l} x^{l - 1} + b^{l} \end{matrix} - - - (8)

如图2所示，在预训练好的卷积神经网络的第七层F7和最后第八层F8之间，插入一个新的全连接层，这个层使用sigmoid激活函数来提供范围约束，节点数即为目标二值码的码长。通过端到端的微调，将语义信息嵌入到这个新加入的全连接层输出之中。

分层深度搜索的图像检索方法框架如图2所示，主要包括三个主要模块，第一模块是采用卷积神经网络架构通过大型ImageNet数据集来进行监督学习，ImageNet数据集中包含了1000类的1.2百万个图像，通过学习获得数据集中的1000种类对象的图像特征，卷积神经网络架构图如图3所示；第二模块是对目标域数据集来进行微调网络隐层各参数，目标域数据集中主要包括了本发明中关注的种类对象的图像，同时学习获得该目标域的特征表示和得到一组哈希函数，该哈希函数作为识别指纹，用于快速粗图像搜索的比对；第三个模块，实现一个给定的图像通过分层深度搜索的图像检索方法得到最接近的类似图像。

如图3中所示，由输入图像导致在卷积神经网络的全连接层F6～F8特征激活能用于视觉签名。使用这些F6～F8全连接层的图像特征表示用于实现图像的分类、检索和其他任务。但是这种视觉签名对大型图像数据集的图像检索是高维向量和低效的。为了高效地进行图像检索，本发明提出一种能有效减少计算量的方法，具体做法是将高维的特征向量转化成二进制代码，通过用哈希方法和汉明距离对这种紧凑的二进制代码进行快速图像的比对。

在本发明中，为了同时学习获得该目标域的特征表示和得到一组哈希函数，我们将图2所示的F7层和F8层之间增加了一个指纹层，即隐层H；隐层H是一个全连接层，隐层H的神经元活动是由后续层F8来实现编码语义和分类调控；因此，隐层H层不仅提供了F7层所具有的特征抽象，而且也构建了中层特征和高层语义之间的桥接。在本发明的设计中，隐层H层的神经元用sigmoid函数进行激活，近似为{0,1}。

1)如果d(x,y)≤d1，则h(x)＝h(y)的概率至少为p1；

2)如果d(x,y)≥d2，则h(x)＝h(y)的概率至多为p2；

1.离线建立索引

(1)选取满足(d1,d2,p1,p2)-敏感的局部敏感哈希的哈希函数；

2.在线查找

p{h(x)＝h(y)}＝sim(x,y) (9)

式中，sim(x,y)表示x与y的相似度，h(y)表示y的哈希函数，h(x)表示x的哈希函数，其中的相似性度量与一个距离函数d直接关联，如，局部敏感哈希函数的典型分类由随机投影和阈值给出，如式(10)所示，

h(x)＝sign(W^TX+b) (10)

P {H (x) = H (y)} &Proportional; l_{1} \times {[1 - \frac{\cos^{- 1} x^{T} y}{π}]}^{K} - - - (11)

鉴于上述结论，实现的相关算法如下：

预处理算法：

输入一组点p、哈希表的数l₁

输出哈希表T_i,i＝1,…,l₁

Foreach i＝1,…,l₁

用随机哈希函数g(.)哈希表T_i

Foreach i＝1,…,l₁

Foreach j＝1,…,n

将点p_j存储到哈希表T_i相应的桶号g_i(p_j)中；

Claims

1.一种基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，其特征在于：包括一个用于深度学习和训练识别的卷积神经网络、一种搜索图像对象的快速视觉分割算法、一种用于粗搜索的用哈希方法和汉明距离快速图像的快速比对方法和一种用于基于从候选池P中图像的前k个排名图像的精准比对方法；

所述的卷积神经网络，共分为八层，由卷积层、激活层和下采样层交替构成的深度结构；输入图像在网络中进行层层映射，得到各层对于图像不同的表示形式，实现图像的深度表示；

所述的快速视觉分割算法，利用边缘信息，确定候选框内的轮廓个数和与候选框边缘重叠的轮廓个数，并对候选框进行评分，根据得分的高低顺序确定由大小、长宽比和位置构成的候选区域信息；

所述的快速比对方法，通过在所述的卷积神经网络第七层和第八层之间嵌入一个隐层H，在隐层H将高维的特征向量转化成二进制代码，通过用哈希方法和汉明距离对这种紧凑的二进制代码进行快速图像的比对；

所述的精准比对方法，用于对候选池P中的候选图像与搜索图像I_q进行欧氏距离计算。

2.如权利要求1所述的基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，其特征在于：所述的卷积神经网络包括：

第八层：输入数据4096，全连接，得到1000个特征数据。

3.如权利要求1所述的新型的基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，其特征在于：所述的快速视觉分割算法主要利用边缘信息候选框的检测算法，具体算法步骤如下：

STEP13：用公式(1)计算两两边缘组之间的相似度，

a(s_i,s_j)＝|cos(θ_i-θ_ij)cos(θ_j-θ_ij)|^γ (1)

式中，θ_i和θ_j分别为两个边缘组的平均取向，s_i和s_j分别表示两个边缘组，θ_ij为两个边缘组的平均位置x_i和x_j之间的夹角，γ为相似敏感系数，a(s_i,s_j)表示两个边缘组之间的相似度；

W_{b} (s_{i}) = 1 - \underset{T}{m a x} Π_{j}^{| T | - 1} a (t_{j}, t_{j + 1}) - - - (2)

STEP15：用公式(3)计算候选框的评分，

h_{b} = \frac{Σ_{i} W_{b} (s_{i}) m_{i}}{2 {(b_{w} + b_{h})}^{k}} - - - (3)

式中，m_i为对在边缘组s_i中所有边缘p的大小m_p的总和，W_b(s_i)为边缘s_i的权值，b_w和b_h分别为候选框的宽度和高度，k为大小系数，；计算窗口内边缘个数进行打分，最后排序打分来过滤掉低分的候选框。

4.如权利要求1所述的基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，其特征在于：所述的哈希方法采用局部敏感哈希算法，即采用随机投影变换构建哈希比特；

所述的局部敏感哈希的一个关键是：将相似的样本映射到同一个具有高概率的同一个桶；局部敏感哈希的哈希函数h(.)满足以下条件：

p{h(x)＝h(y)}＝sim(x,y) (9)

式中，sim(x,y)表示x与y的相似度，h(y)表示y的哈希函数，h(x)表示x的哈希函数，其中的相似性度量与一个距离函数d直接关联，局部敏感哈希函数的典型分类由随机投影和阈值给出，如式(10)所示，

h(x)＝sign(W^TX+b) (10)

式中，W是一个随机超平面向量，b是一个随机截距。

5.如权利要求4所述的基于深度卷积神经网络端对端的通过分层深度搜索的图像检索方法，其特征在于：所述的局部敏感哈希主要由预处理算法和最近邻搜索算法构成，通过这两个算法处理将将搜索图像特征表示成一串固定长度的二值编码；

预处理算法：

输入一组点p、哈希表的数l₁，

输出哈希表T_i,i＝1,…,l₁，

Foreach i＝1,…,l₁，

用随机哈希函数g(.)哈希表T_i，

Foreach i＝1,…,l₁，

Foreach j＝1,…,n，

将点p_j存储到哈希表T_i相应的桶号g_i(p_j)中；