CN107908646B

CN107908646B - 一种基于分层卷积神经网络的图像检索方法

Info

Publication number: CN107908646B
Application number: CN201710937041.7A
Authority: CN
Inventors: 杨曦; 王楠楠; 杨东; 高新波; 宋彬
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2019-12-17
Anticipated expiration: 2037-10-10
Also published as: CN107908646A

Abstract

本发明公开的基于分层卷积神经网络的图像检索方法，主要解决现有全天空极光图像检索中准确率较低的问题。其实现步骤为：①采用自适应极化栅栏法确定全天空极光图像的局部关键点；②提取全天空极光图像的局部SIFT特征并构建视觉字典；③对卷积神经网络进行预训练和微调并构建极化区域池化层；④提取全天空极光图像的区域CNN特征和全局CNN特征；⑤对所有特征进行二值化处理并构建分层特征；⑥构建倒排索引表并分开保存全局CNN特征；⑦提取查询图像的分层特征并计算其与数据库图像的相似度，输出检索结果。本发明使用分层特征实现了局部关键点之间的匹配，解决了现有图像检索方法中虚警率较高的问题，具有检索准确率高的优点，适用于实时图像检索。

Description

一种基于分层卷积神经网络的图像检索方法

技术领域

本发明属于图像处理技术领域，涉及深度学习算法和图像检索技术，可用于大规模极光图像的精确检索。

背景技术

极光是太阳风携带的高能带电粒子沿着地磁力线沉降，与地球大气层粒子相互碰撞所产生的高纬度自然发光现象，是唯一能够用肉眼观测到的反映日地空间作用过程的地球物理现象。因此，建立高效的图像检索系统，完成大规模极光图像中有效数据的筛选和关键数据的分析，可以帮助人类获取日地空间活动的大量信息。

由于极光对日地空间具有显著的研究价值，近年来人类已经通过多种手段对其进行了探测。其中，地基光学成像探测是各国极地科学考察活动的重要项目。2003年11月，中国北极黄河站安装了一套三波段极光全天空成像系统，率先在国际上实现了对极光的多波段、高时空分辨率的全天空观测。全天空极光图像纹理信息丰富，其形态和亮度的变化对应着重要的日地空间耦合过程。然而，由于云雾干扰和天气影响，数据中存在很多没有信息的无效图像。同时，反映磁暴等日地空间事件的关键图像往往淹没在庞大的数据库中。因此，如何筛选出有效数据并完成关键数据的分析已经成为极光研究者们亟需解决的问题。

早期的全天空极光图像检索研究只是建立在肉眼观察的基础上，采用手工标记的方法进行筛选。随着计算机科学的发展，图像处理和模式识别技术正成为极光检索研究的新手段。例如，Sivic等人在文献“J.Sivic and A.Zisserman,Video google:A textretrieval approach to object matching in videos,in Proc.IEEEInt.Conf.Comput.Vis.,2003,pp.1470–1477.”中提出的词袋模型法(Bag of Words,BoW)，该方法将局部特征进行聚类生成语义字典，利用倒排索引实现图像检索；Jeguo等人在文献“H.Jegou,M.Douze,and C.Schmid,Hamming embedding and weak geometricconsistency for large scale image search,in Proc.Eur.Conf.Comput.Vis.,2008,pp.304-317.”中提出的汉明嵌入法(Hamming Embedding,HE)，该方法将局部特征之间的汉明距离存入索引表，提高了图像检索的精度；Jeguo等人在文献“H.Jegou,M.Douze,C.Schmid,and P.Perez,Aggregating local descriptors into a compact imagerepresentation,in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,2010,pp.3304-3311.”中提出的局部特征聚合向量法(Vector of Locally Aggregated Descriptors,VLAD)，该方法将局部特征聚合并降维生成全局特征，提高了图像检索的效率；Yang等人在文献“X.Yang,X.Gao,Q.Tian,Polar embedding for aurora image retrieval,IEEETrans.Image Process.24(11)(2015)3332-3344.”中提出的极向嵌入法(PolarEmbedding,PE)，该方法结合极光图像成像特点，利用极化栅格对图像关键点进行不均匀采样，通过提取每个关键点的尺度不变特征(Scale-Invariant Feature Transform,SIFT)和局部二值模式特征(Local Binary Patterns,LBP)，实现了极光图像的实时检索。

近期，卷积神经网络技术(Convolutional Neural Network,CNN)通过海量数据学习图像内容，实现了对人脑认知机理的模拟。针对图像检索领域，研究者们通过改进卷积神经网络来提取图像的有效特征，提高了检索精度。例如，Gong等人在文献“Y.Gong,L.Wang,R.Guo,and S.Lazebnik,Multi-scale orderless pooling of deep convolutionalactivation features,in Proc.Eur.Conf.Comput.Vis.,2014,pp.392-407.”中提出的多尺度无序池化法(Multi-scale Orderless Pooling,MOP)，该方法将卷积神经网络第六层的输出作为特征，同时聚合多个尺度下的特征完成检索，提高了图像检索的准确度；Zheng等人在文献“L.Zheng,S.Wang,J.Wang,and Q.Tian,Accurate image search with multi-scale contextual evidences,Int.J.Comput.Vis.,120(1)(2016)1-13.”中提出的概率分析法(Probabilistic Analysis,PA)，该方法利用概率模型完成多尺度下卷积神经网络特征的融合，实现了高精度的图像检索。

然而，现有极光图像检索方法仍然采用人工设计的特征提取方式，缺乏数据学习过程和语义信息认知，导致特征辨识度较差；而单一的全局或局部分析模式使检索结果容易忽略细节或陷入局部最优；同时，越来越大的数据库也必然要求查询索引结构的进一步优化，以确保内存的低消耗，实现大规模极光图像的精确检索。

发明内容

本发明针对上述图像检索方法的不足，提出一种基于分层卷积神经网络的图像检索方法，以提高极光图像检索的准确率。该方法根据极光成像特点，设计自适应极化栅栏法检测局部关键点，并以此确定局部特征和区域特征的提取位置；结合局部SIFT特征、区域CNN特征和全局CNN特征，构建分层特征实现极光图像的多尺度描述；设计极化区域池化层(Polar Region Pooling,PRP)来改进卷积神经网络，提高了区域CNN特征、全局CNN特征的表征性；使用迭代量化法(Iterative Quantization,ITQ)完成了特征的二值化，加快了检索速度；在索引结构中使用全局指针代替特征本身，并将全局特征独立保存，降低了索引的内存消耗。

为实现上述技术目的，本发明采用如下技术方案予以实现。

一种基于分层卷积神经网络的图像检索方法包括以下步骤：

(1)对输入的全天空极光图像数据库D＝{I₁,I₂,…,I_N}，使用自适应极化栅栏法确定全天空极光图像的k个局部关键点，得到每个局部关键点的位置信息，其中，I_n(n＝1,…,N)为所述数据库中的第n幅图像，N为所述数据库中图像的总个数。

(2)对于所述数据库中的每幅图像，以所述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部关键点的k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征，将所述kN个局部SIFT特征量化到对应的视觉单词，并确定每个视觉单词对应的所有局部关键点。

(3)使用汉明嵌入法对所述每个的局部SIFT特征f^sift进行二值化处理，得到二值化后的局部SIFT特征f^b-sift，每个特征长度为8个字节。

(4)对输入分层卷积神经网络的所述数据库中的图像，将极化区域池化层的输出送入第一个全连接层，得到每幅图像的每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn-g，其中，所述分层卷积神经网络包括五个卷积层、一个极化区域池化层、两个全连接层。

(5)使用迭代量化法分别对每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn-g进行二值化处理，得到二值化后的区域CNN特征f^b-cnn-r和二值化后的全局CNN特征f^b ^-cnn-g，每个特征长度为16个字节。

(6)构建所述数据库中每幅图像的每个局部关键点的分层特征f^h＝[f^b-sift,f^b ^-cnn-r,f^b-cnn-g]，将其存入倒排索引表，完成线下索引。

(7)对于输入的一幅查询图像Q，提取该查询图像的每个局部关键点的分层特征然后计算其与线下索引保存的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]的匹配函数。

(8)计算所述查询图像Q与所述数据库中每一幅图像的相似度。

(9)按照相似度取值从高到低的顺序对所述数据库中图像进行排序，相似度取值最高的图像被认为是与查询图像最相似，输出排序结果完成线上查询。

在一些实施例中，步骤(1)使用自适应极化栅栏法确定全天空极光图像的k个局部关键点，得到每个局部关键点的位置信息，按如下公式进行：

其中，x(i,j)和y(i,j)分别为局部关键点的横坐标和纵坐标，i为径向指数，其取值为从1到G的有序整数，G为径向指数取值的最大值，j为角度指数，其取值为从1到H的有序整数，H为角度指数取值的最大值，C为全天空极光图像的半径长度；ρ(i)为径向坐标，ρ(0)为径向坐标的初始值，△ρ为参考径向间隔，v为控制径向坐标分布的参数：当v为0时，径向间隔i^v△ρ相同；当v取正值时，随着i的增大，径向间隔i^v△ρ越大；当v取负值时，随着i的增大，径向间隔i^v△ρ越小；θ(j)为角度坐标，θ(0)为角度坐标的初始值，△θ为参考角度间隔，w为控制角度坐标分布的正参数：当w为0时，角度间隔△θ/i^w相同；当w为1时，角度间隔△θ/i^w反比于径向指数i；当w大于1时，随着i的增大，角度间隔△θ/i^w越小；当w小于1时，随着i的增大，角度间隔△θ/i^w越大。

在一些实施例中，步骤(2)对于所述数据库中的每幅图像，以所述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征，将所述kN个局部SIFT特征量化到对应的视觉单词，并确定每个视觉单词对应的所有局部关键点，包括如下步骤：

(2a)对所述全天空极光数据库中每幅图像，以步骤(1)中获得的所述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征。

(2b)使用近似K均值聚类法对所述kN个局部SIFT特征进行聚类，每个聚类中心为一个视觉单词W_m(m＝1,…,M)，所有视觉单词组成视觉字典W＝{W₁,W₂,…,W_M}，将每个局部SIFT特征量化到对应的视觉单词，即距离最近的聚类中心，M为所述视觉字典中视觉单词的总个数。

(2c)根据量化到每个视觉单词的每个局部SIFT特征的局部关键点，确定该视觉单词对应的所有局部关键点。

在一些实施例中，步骤(4)对输入分层卷积神经网络的所述数据库中的图像，将极化区域池化层的输出送入第一个全连接层，得到每幅图像的每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn-g，包括如下步骤：

(4a)预先使用ImageNet数据库对卷积神经网络进行预训练，得到每个卷积层以及每个全连接层的参数，所述卷积神经网络包括五个卷积层、两个全连接层。

(4b)预先对所述全天空极光图像数据库中的图像进行图像翻转、多尺度变换等数据扩增操作，生成新的图像，将所述新生成的图像加入到原有全天空极光图像数据库中，用扩增后的全天空极光图像数据库训练所述卷积神经网络，对所述卷积神经网络进行微调，更新其每个卷积层以及每个全连接层的参数。

(4c)预先构建极化区域池化层，将其加入到所述卷积神经网络的卷积层与全连接层之间，形成分层卷积神经网络。

(4d)将原始的全天空极光图像数据库中的图像输入步骤(4c)得到的分层卷积神经网络，将极化区域池化层的输出送入第一个全连接层，得到每幅图像的每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn-g。

其中，步骤(4c)所述的构建极化区域池化层，包括如下步骤：

(4c1)对输入的原始的全天空极光图像数据库中的图像及k个局部关键点的位置信息，以每个局部关键点为中心，确定大小为p×p的k个极化区域。

(4c2)对输入的第五个卷积层的特征图组，每个特征图组由256幅特征图组成，将k个极化区域的位置映射到每幅特征图上。

(4c3)对特征图进行池化操作：将特征图组中的每幅特征图划分为l×l个小块，取每块中的最大值，得到该特征图组的l×l×256维特征向量。

(4c4)对极化区域进行池化操作：将特征图组中的每幅特征图上的同一个局部关键点对应的极化区域划分为l×l个小块，取每块中的最大值，得到该局部关键点的l×l×256维特征向量，每幅特征图上有k个极化区域，所以共得到k个l×l×256维特征向量。

在一些实施例中，步骤(6)构建所述原始的全天空极光图像数据库中每幅图像的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]，将其存入倒排索引表，完成线下索引，包括如下步骤：

(6a)对所述原始的全天空极光图像数据库中每幅图像的每个局部关键点，级联步骤(3)和步骤(5)得到的二值化后的局部SIFT特征f^b-sift、二值化后的区域CNN特征f^b-cnn-r和二值化后的全局CNN特征f^b-cnn-g，得到每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b ^-cnn-g]。

(6b)按照步骤(2b)中得到的视觉字典W＝{W₁,W₂,…,W_M}，构建倒排索引表E＝{E₁,E₂,…,E_M}，其中第m个索引单元E_m存储所述视觉字典中第m个视觉单词W_m的信息，m＝1,…,M。

(6c)构建一个新的索引表其中第n个索引单元占用16个字节，用于存储所述原始的全天空极光图像数据库中第n幅图像的二值化后的全局CNN特征f^b-cnn-g，n＝1,…,N。

(6d)对第m个视觉单词W_m对应的一个局部关键点，开辟4个字节存储所属图像(Image ID)信息，并将其作为全局指针链接步骤(6c)中对应的索引单元，开辟8个字节存储二值化后的SIFT特征f^b-sift，另外开辟16个字节存储二值化后的区域CNN特征f^b-cnn-r。

(6e)遍历第m个视觉单词W_m对应的所有局部关键点，执行步骤(6d)，完成倒排索引表E中第m个索引单元E_m的内容存储。

(6f)遍历所有视觉单词，完成倒排索引表E的所有索引单元的内容存储，完成线下索引。

在一些实施例中，步骤(7)对于输入的一幅查询图像Q，提取该查询图像每个局部关键点的分层特征然后计算其与线下索引保存的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]的匹配函数

其中，q(·)为量化函数，表示分层特征量化到某个视觉单词，为与f^h之间的汉明距离，h越小，匹配函数取值越大，为求与f^h之间汉明距离的函数，T_h为距离阈值，exp(-h²/σ²)为匹配函数的权值，σ为控制参数。

在一些实施例中，步骤(8)计算所述查询图像Q与所述原始的全天空极光图像数据库中每一幅图像的相似度，包括如下步骤：

计算所述查询图像Q与所述原始的全天空极光图像数据库中第n幅图像I_n的相似度SS(Q,I_n)：

其中，idf＝N/N_m表示逆向文件频率，N为原始的全天空极光图像数据库中图像数量，N_m为原始的全天空极光图像数据库中包含第m个视觉单词的图像数量，为第n幅图像中视觉单词向量的l₂范数，t_m表示第m个视觉单词在第n幅图像中出现的词频。

本发明与现有图像检索方法相比，具有以下优点：

1)不同于以往人工设定和单一尺度的特征提取方式，本发明采用新设计的分层卷积神经网络，从全局、区域和局部三个尺度上提取极光图像的初始特征，并通过汉明嵌入法和迭代量化法对初始特征进行二值化处理，完成了多尺度特征的融合，提高了特征的表征能力，实现了精确的全天空极光图像检索。

2)不同于以往的线性搜索和传统的倒排索引方式，本发明建立了多结构的倒排索引，用全局特征构建独立的倒排索引，再通过在局部关键点后插入指针的方式完成多个倒排索引表的链接。多结构倒排索引的分立构建可以避免检索查询时对全局信息的多次扫描，降低内存消耗，实现快速的全天空极光图像检索。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的、技术过程和优点将会变得更明显：

图1是本发明的一种基于分层卷积神经网络的图像检索方法的一个流程图；

图2是本发明的一种基于分层卷积神经网络的图像检索方法的又一个流程图；

图3是本发明中自适应极化栅栏法确定的局部关键点的示意图；

图4是本发明中线下索引结构的示意图；

图5是一组全天空极光图像示意图。

具体实施方式

参考图1，示出了本发明基于分层卷积神经网络的图像检索方法的一个流程图100，具体步骤如下：

步骤101，对输入的全天空极光图像数据库，使用自适应极化栅栏法确定全天空极光图像的k个局部关键点，得到每个关键点的位置信息。

(1a)全天空极光图像数据库D＝{I₁,I₂,…,I_N}为分层卷积神经网络的输入，其中，I_n(n＝1,…,N)为上述全天空极光图像数据库中的第n幅图像，N为上述全天空极光图像数据库中图像的总个数。

预先设定自适应极化栅栏法的参数：参考径向间隔△ρ设置为25.6，参考角度间隔△θ设置为π/4，控制径向坐标分布的参数v设置为0.2，控制角度坐标分布的正参数w设置为1.2。

(1b)按照自适应极化栅栏法确定全天空极光图像数据库中图像的k个局部关键点的位置信息(x(i,j),y(i,j))：

上述全天空极光图像数据库中的N幅图像拥有相同的k个局部关键点的位置信息，即每幅图像的k个局部关键点的分布是一样的。参照图3，图3是本发明中自适应极化栅栏法确定的上述全天空极光图像数据库中某幅图像的局部关键点的分布示意图。

步骤102，对于上述数据库中的每幅图像，以上述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部关键点的k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征，将kN个局部SIFT特征量化到对应的视觉单词，并确定每个视觉单词对应的所有局部关键点。

(2a)对上述全天空极光数据库中每幅全天空极光图像，以上述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征。

SIFT(Scale-invariant feature transform，尺度不变特征变换)特征是图像的局部特征，其对图像旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性。

(2b)使用近似K均值聚类法对kN个局部SIFT特征进行聚类，每个聚类中心为一个视觉单词W_m(m＝1,…,M)，所有视觉单词组成视觉字典W＝{W₁,W₂,…,W_M}，将每个局部SIFT特征量化到对应的视觉单词，即距离最近的聚类中心，M为所述视觉字典中视觉单词的总个数，W_m为所述视觉字典中第m个视觉单词。

将kN个局部SIFT特征看作对象，先随机选取M个对象作为聚类的初始的聚类中心。然后计算每个对象与各个聚类中心之间的欧氏距离，将该对象分配给取值最小的欧氏距离对应的聚类，该聚类包括聚类中心以及分配给它的对象。当全部对象都被分配后，重新计算每个聚类的平均值作为更新后的聚类中心。然后根据所有对象与更新后的聚类中心的欧氏距离重新分配所有对象，确定更新后的聚类。这个过程将不断重复直到满足终止条件：更新前的聚类中心和更新后的聚类中心相同。

每个聚类中心为一个视觉单词，所有视觉单词组成视觉字典W＝{W₁,W₂,…,W_M}，M为视觉字典中视觉单词的个数，W_m(m＝1,…,M)为视觉字典中第m个视觉单词。

步骤103，使用汉明嵌入法对每个的局部SIFT特征f^sift进行二值化处理，得到二值化后的局部SIFT特征f^b-sift，每个特征长度为8个字节。

此处使用的汉明嵌入法为背景技术中提及的汉明嵌入法，为现有技术，在此不细述。

步骤104，对于输入分层卷积神经网络的上述数据库中的图像，将极化区域池化层的输出送入第一个全连接层，得到每幅图像的每个局部关键点的区域CNN特征和全局CNN特征。

(4a)预先使用ImageNet数据库对卷积神经网络进行预训练，得到每个卷积层以及每个全连接层的参数。

卷积神经网络一共分为七层，包括五个卷基层以及两个全连接层，每层的输出为下一层的输入。

(4b)预先对全天空极光图像数据库中的图像进行图像翻转、多尺度变换等数据扩增操作，生成新的图像，将上述新生成的图像加入到原有全天空极光图像数据库中，用扩增后的全天空极光图像数据库训练上述卷积神经网络，对卷积神经网络进行微调，更新其每个卷积层以及每个全连接层的参数。

(4c)预先构建极化区域池化层，将其加入到上述卷积神经网络的卷积层与全连接层之间，形成分层卷积神经网络。

构建的极化区域池化层包括如下(4c1)到(4c4)步骤：

每幅图像上有k个极化区域，每幅图像上的k个极化区域的分布相同。

上述特征图组是卷积神经网络第五个卷积层的输出，第五个卷积层有256个通道，每个通道的响应构成一幅特征图。

输入卷积神经网络一幅全天空极光图像，在第五个卷积层得到一组特征图组。因为得到的特征图的大小和输入的全天空极光图像的大小不一样，所以这里有一个映射，把原全天空极光图像中极化区域的位置缩放到特征图上。这样每幅特征图上拥有k个极化区域。

(4d1)将步骤(4c3)所得的l×l×256维特征向量输入第一个全连接层，输出一个4096维特征向量，将其看作一个全局CNN特征f^cnn-g。

对特征图进行池化操作得到的l×l×256维特征向量，将l×l×256维特征向量输入第一个全连接层，得到的4096维特征向量可以表征整幅图像。因每幅图像上都分布着k个局部关键点，所以同一幅图像上的k个局部关键点拥有相同的全局CNN特征，且该全局CNN特征可以表征整幅图像。

(4d2)将步骤(4c4)所得的k个l×l×256维特征向量输入第一个全连接层，输出k个4096维特征向量，将其视为k个区域CNN特征，每个局部关键点对应一个区域CNN特征f^cnn ^-r。

在特征图组中，对每个局部关键点对应的极化区域进行池化操作得到一个个l×l×256维特征向量，将该l×l×256维特征向量输入第一个全连接层，得到的4096维特征向量可以表征该极化区域，进而定义为该局部关键点的区域CNN特征f^cnn-r。

步骤105，使用迭代量化法分别对每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn-g进行二值化处理，得到二值化后的区域CNN特征f^b-cnn-r和二值化后的全局CNN特征f^b-cnn-g，每个特征长度为16个字节。

迭代量化法的目的是将特征向量进行二值化处理，同时保证二值化后的量化误差较小。具体来说，就是将特征向量降低维度后，寻找最优旋转矩阵，能够将降维后的特征向量映射到一个二进制超立方体的顶点上，保证二进制编码的量化误差最小。

使用迭代量化法对每个局部关键点的全局CNN特征f^cnn-g进行二值化处理，得到一个长度为16字节的二值化后的全局CNN特征f^b-cnn-g。

使用迭代量化法对每个局部关键点的区域CNN特征f^cnn-r进行二值化处理，得到一个长度为16字节的二值化后的区域CNN特征f^b-cnn-r。

步骤106，构建原始的全天空极光图像数据库中每幅图像的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]，将其存入倒排索引表，完成线下索引。

(6a)对原始的全天空极光图像数据库中每幅图像的每个局部关键点，级联该局部关键点的二值化后的局部SIFT特征f^b-sift，二值化后的全局CNN特征f^b-cnn-g以及二值化后的区域CNN特征f^b-cnn-r，得到该局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]。

参照图4，完成全天空极光图像数据库的线下索引：

(6b)按照步骤(2b)中得到的视觉字典W＝{W₁,W₂,…,W_M}，构建倒排索引表E＝{E₁,E₂,…,E_M}，其中第m个索引单元E_m存储上述视觉字典中第m个视觉单词W_m的信息，m＝1,…,M。

(6c)构建一个新的索引表其中第n个索引单元占用16个字节，用于存储原始的全天空极光图像数据库中的第n幅图像的二值化后的全局CNN特征f^b-cnn-g，n＝1,…,N。

每幅图像上的k个局部关键点拥有相同的二值化后的全局CNN特征。

(6f)遍历上述视觉字典中所有视觉单词，完成倒排索引表E的所有索引单元的内容存储，完成线下索引。

步骤107，对于输入的一幅查询图像Q，提取该查询图像的每个局部关键点的分层特征，然后计算其与线下索引保存的每个局部关键点的分层特征的匹配函数。

(7a)同步骤102，对于输入的查询图像Q，以步骤101确定的k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部关键点的k个局部SIFT特征。

(7b)同步骤103，使用汉明嵌入法对该查询图像每个的局部SIFT特征进行二值化处理，得到二值化后的局部SIFT特征

(7c)同步骤104，对于输入分层卷积神经网络的上述查询图像，将极化区域池化层的输出送入第一个全连接层，得到该查询图像的每个局部关键点的区域CNN特征和全局CNN特征

(7d)同步骤105，使用迭代量化法分别对上述查询图像的每个局部关键点的区域CNN特征和全局CNN特征进行二值化处理，得到二值化后的区域CNN特征和二值化后的全局CNN特征每个特征长度为16个字节。

(7e)同步骤106，构建上述查询图像的每个局部关键点的分层特征

(7f)对于上述查询图像Q中每一个局部关键点的分层特征计算其与线下索引保存的每一个局部关键点的分层特征f^h的匹配函数

其中，q(·)为量化函数，表示特征量化到某个视觉单词，为与f^h之间的汉明距离，h越小，匹配函数取值越大，为求与f^h之间汉明距离的函数，T_h为距离阈值，exp(-h²/σ²)为匹配函数的权值，σ为控制参数。

步骤108，计算上述查询图像与原始的全天空极光图像数据库中每一幅图像的相似度。

计算上述查询图像Q与原始的全天空极光图像数据库中第n幅图像I_n的相似度SS(Q,I_n)：

其中，idf＝N/N_m表示逆向文件频率，N为原始的全天空极光图像数据库中图像数量，N_m为原始的全天空极光图像数据库中包含第m个视觉单词的图像数量，为第n幅图像中视觉单词向量的l₂范数，t_m表示第m个视觉单词在第n幅图像中出现的词频，表示是属于查询图像Q的局部关键点的分层特征，f^h∈I_n表示f^h是属于原始的全天空极光图像数据库中第n幅图像的局部关键点的分层特征。

步骤109，按照相似度取值从高到低的顺序对原始的全天空极光图像数据库中图像进行排序，取值最高的图像被认为是与查询图像最相似，输出排序结果完成线上查询。

图2是本发明的一种基于分层卷积神经网络的图像检索方法的又一个流程图，该流程图比较详细的列出本发明的一种基于分层卷积神经网络的图像检索方法。

本发明的效果可通过以下仿真实验进一步说明：

实验1：自适应极化栅栏法效果验证

实验条件：实验用到的全天空极光图像示例见图5，该数据库包含1,003,428幅图像。为了方便研究检索结果随图像数量的变化，本发明将数据库划分为图像数量逐渐增加的8K、14K、100K、500K和1M共5个数据库。

实验内容：本实验比较自适应极化栅栏法和现有两种局部关键点检测方法对检索效果的影响，现有方法为文献“K.Mikolajczyk,C.Schmid,Scale&affine invariantinterest point detectors,Int.J.Comput.Vis.60(1)(2004)63-86.”中提出的海森仿射法以及文献“A.Bosch,A.Zisserman,X.Munoz,Image classification using randomforests and ferns,in:Proc.IEEE Int.Conf.Comput.Vis.,2007,pp.1-8.”中提出的矩形栅栏法。由于局部关键点的检测效果仅影响局部SIFT特征和区域CNN特征，所以本实验分成两部分来验证自适应极化栅栏法的效果：第一部分为不同局部关键点检测法仅使用局部SIFT特征的检索准确率比较，第二部分为不同局部关键点检测法仅使用区域CNN特征的检索准确率比较。

1.不同局部关键点检测法仅使用局部SIFT特征的检索准确率比较：对比结果如表1所示，其中，海森仿射法被当作基准方法，矩形栅栏法和本发明提出的自适应极化栅栏法的结果中标出对基准方法的提升幅度(括号内数字)。

从中可以得出以下结论：①相比于海森仿射法和矩形栅栏法，本发明提出的自适应极化栅栏法取得了最高的检索准确率，验证了该方法的有效性；②最高的检索准确率在小样本集8K上取得，随着图像数量的增加，检索准确率逐渐下降；③随着图像数量的增加，自适应极化栅栏法对检索准确率的提升幅度越来越大，最高的提升幅度在1M数据库中取得，验证了该方法对大规模图像检索的可行性。

表1.不同局部关键点检测法仅使用局部SIFT特征的检索准确率(％)比较

2.不同局部关键点检测法仅使用区域CNN特征的检索准确率比较：对比结果如表2所示，从中可以得出以下结论：①与仅使用局部SIFT特征得到的结论相似，本发明提出的自适应极化栅栏法对检索准确率的提升幅度最大，提升幅度随着图像数量的增加而逐渐变大；②相比于仅使用局部SIFT特征，仅使用区域CNN特征的检索准确率稍高一些，验证了CNN特征的表征能力。

表2.不同局部关键点检测法仅使用区域CNN特征的检索准确率(％)比较

实验2：极光图像检索效果比较

实验条件：本实验用到了8K、14K、100K、500K和1M共5个数据库。

实验内容：比较本发明与现有六种图像检索方法的检索准确率、内存消耗及检索耗时。现有方法为背景技术中提及的BoW，HE，VLAD，PE，MOP和PA，其中BoW被当作基准方法，HE，VLAD和PE为基于SIFT特征的方法，MOP和PA为基于CNN特征的方法。

1检索准确率：表3为本发明与现有六种图像检索方法的检索准确率比较，从中可以看出：①在基于SIFT特征的方法里，PE取得了较好的检索准确率；②基于CNN特征的方法的检索准确率普遍高于基于SIFT特征的方法，这种优势随着图像数量的增加而增大；③本发明取得了最高的检索准确率，并且在1M数据库下仍保持较高的性能，验证了本发明对大规模图像检索的有效性。

表3.本发明与现有六种图像检索方法的检索准确率(％)比较

2内存消耗及检索耗时比较：表4为本发明与现有六种图像检索方法的内存消耗和检索耗时比较，数据库选用1M，检索耗时为检索一幅图像的平均耗时。从内存消耗的对比结果中可以看出：①由于本发明是同时基于SIFT特征和CNN特征的图像检索，特征维数的增加，相比于基于SIFT特征的图像检索方法，基于CNN特征的图像检索方法内存消耗较大；②由于特征压缩和特征降维等操作，VLAD取得了最低的内存消耗；③在基于CNN特征的图像检索方法中，本发明的内存消耗低于MOP和PE，和PA基本持平，从而验证了本发明中索引结构的有效性。从检索耗时的对比结果中可以看出：①MOP耗时最长，VLAD耗时最短；②本发明的耗时在基于CNN特征的图像检索方法中最短，可以实现大规模极光图像的实时检索。

表4.本发明与现有六种图像检索方法的内存消耗(GB)和检索耗时(s)比较

综上，本发明方法对全天空极光图像进行基于分层卷积神经网络的图像检索，在可以接受的内存消耗及检索耗时条件下，提高了检索准确率，可应用于大规模图像的实时检索。

Claims

1.一种基于分层卷积神经网络的图像检索方法，其特征在于，所述方法包括如下步骤：

(1)对输入的全天空极光图像数据库D＝{I₁,I₂,...,I_N}，使用自适应极化栅栏法确定全天空极光图像的k个局部关键点，得到每个局部关键点的位置信息，其中，I_n(n＝1,…,N)为所述数据库中的第n幅图像，N为所述数据库中图像的总个数；

(2)对于所述数据库中的每幅图像，以所述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部关键点的k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征，将所述kN个局部SIFT特征量化到对应的视觉单词，并确定每个视觉单词对应的所有局部关键点；

(3)使用汉明嵌入法对所述每个的局部SIFT特征f^sift进行二值化处理，得到二值化后的局部SIFT特征f^b-sift，每个特征长度为8个字节；

(4)对输入分层卷积神经网络的所述数据库中的图像，将极化区域池化层的输出送入第一个全连接层，得到每幅图像的每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn ^-g，其中，所述分层卷积神经网络包括五个卷积层、一个极化区域池化层、两个全连接层；

(5)使用迭代量化法分别对每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn-g进行二值化处理，得到二值化后的区域CNN特征f^b-cnn-r和二值化后的全局CNN特征f^b-cnn-g，每个特征长度为16个字节；

(6)构建所述数据库中每幅图像的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b ^-cnn-g]，将其存入倒排索引表，完成线下索引；

(7)对于输入的一幅查询图像Q，提取该查询图像的每个局部关键点的分层特征然后计算其与线下索引保存的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]的匹配函数；

(8)计算所述查询图像Q与所述数据库中每一幅图像的相似度；

2.根据权利要求1所述的一种基于分层卷积神经网络的图像检索方法，其特征在于，步骤(1)所述的使用自适应极化栅栏法确定全天空极光图像的k个局部关键点，得到每个局部关键点的位置信息，按如下公式进行：

其中，x(i,j)和y(i,j)分别为局部关键点的横坐标和纵坐标，i为径向指数，其取值为从1到G的有序整数，G为径向指数取值的最大值，j为角度指数，其取值为从1到H的有序整数，H为角度指数取值的最大值，C为全天空极光图像的半径长度；ρ(i)为径向坐标，ρ(0)为径向坐标的初始值，Δρ为参考径向间隔，v为控制径向坐标分布的参数：当v为0时，径向间隔i^vΔρ相同；当v取正值时，随着i的增大，径向间隔i^vΔρ越大；当v取负值时，随着i的增大，径向间隔i^vΔρ越小；θ(j)为角度坐标，θ(0)为角度坐标的初始值，Δθ为参考角度间隔，w为控制角度坐标分布的正参数：当w为0时，角度间隔Δθ/i^w相同；当w为1时，角度间隔Δθ/i^w反比于径向指数i；当w大于1时，随着i的增大，角度间隔Δθ/i^w越小；当w小于1时，随着i的增大，角度间隔Δθ/i^w越大。

3.根据权利要求1所述的一种基于分层卷积神经网络的图像检索方法，其特征在于，所述步骤(2)对于所述数据库中的每幅图像，以所述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征，将所述kN个局部SIFT特征量化到对应的视觉单词，并确定每个视觉单词对应的所有局部关键点，包括如下步骤：

(2a)对所述全天空极光数据库中每幅图像，以步骤(1)中获得的所述k个局部关键点为中心，利用SIFT描述子提取特征，得到k个局部SIFT特征，N幅图像共得到kN个局部SIFT特征；

(2b)使用近似K均值聚类法对所述kN个局部SIFT特征进行聚类，每个聚类中心为一个视觉单词W_m(m＝1,…,M)，所有视觉单词组成视觉字典W＝{W₁,W₂,…,W_M}，将每个局部SIFT特征量化到对应的视觉单词，即距离最近的聚类中心，M为所述视觉字典中视觉单词的总个数；

4.根据权利要求3所述的一种基于分层卷积神经网络的图像检索方法，其特征在于，所述步骤(4)对输入分层卷积神经网络的所述数据库中的图像，将极化区域池化层的输出送入第一个全连接层，得到每幅图像的每个局部关键点的区域CNN特征f^cnn-r和全局CNN特征f^cnn-g，包括如下步骤：

(4a)预先使用ImageNet数据库对卷积神经网络进行预训练，得到每个卷积层以及每个全连接层的参数，所述卷积神经网络包括五个卷积层、两个全连接层；

(4b)预先对所述全天空极光图像数据库中的图像进行图像翻转、多尺度变换数据扩增操作，生成新的图像，将所述新生成的图像加入到原有全天空极光图像数据库中，用扩增后的全天空极光图像数据库训练所述卷积神经网络，对所述卷积神经网络进行微调，更新其每个卷积层以及每个全连接层的参数；

(4c)预先构建极化区域池化层，将其加入到所述卷积神经网络的卷积层与全连接层之间，形成分层卷积神经网络；

5.根据权利要求4所述的一种基于分层卷积神经网络的图像检索方法，其特征在于，所述步骤(6)构建所述数据库中每幅图像的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]，将其存入倒排索引表，完成线下索引，包括如下步骤：

(6a)对所述数据库中每幅图像的每个局部关键点，级联步骤(3)和步骤(5)得到的二值化后的局部SIFT特征f^b-sift、二值化后的区域CNN特征f^b-cnn-r和二值化后的全局CNN特征f^b ^-cnn-g，得到每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]；

(6b)按照步骤(2b)中得到的视觉字典W＝{W₁,W₂,…,W_M}，构建倒排索引表E＝{E₁,E₂,…,E_M}，其中第m个索引单元E_m存储所述视觉字典中第m个视觉单词W_m的信息，m＝1,…,M；

(6c)构建一个新的索引表其中第n个索引单元占用16个字节，用于存储所述数据库中第n幅图像的二值化后的全局CNN特征f^b-cnn-g，n＝1,…,N；

(6d)对第m个视觉单词W_m对应的一个局部关键点，开辟4个字节存储所属图像的ImageID信息，并将其作为全局指针链接步骤(6c)中对应的索引单元，开辟8个字节存储二值化后的SIFT特征f^b-sift，另外开辟16个字节存储二值化后的区域CNN特征f^b-cnn-r；

(6e)遍历第m个视觉单词W_m对应的所有局部关键点，执行步骤(6d)，完成倒排索引表E中第m个索引单元E_m的内容存储；

6.根据权利要求1所述的一种基于分层卷积神经网络的图像检索方法，其特征在于，所述步骤(7)对于输入的一幅查询图像Q，提取该查询图像的每个局部关键点的分层特征然后计算其与线下索引保存的每个局部关键点的分层特征f^h＝[f^b-sift,f^b-cnn-r,f^b-cnn-g]的匹配函数

7.根据权利要求6所述的一种基于分层卷积神经网络的图像检索方法，其特征在于，所述步骤(8)计算所述查询图像Q与所述数据库中每一幅图像的相似度，包括如下步骤：

计算所述查询图像Q与所述数据库中第n幅图像I_n的相似度SS(Q,I_n)：

其中，idf＝N/N_m表示逆向文件频率，N为所述数据库中图像数量，N_m为所述数据库中包含第m个视觉单词的图像数量，为第n幅图像中视觉单词向量的l₂范数，t_m表示第m个视觉单词在第n幅图像中出现的词频。

8.根据权利要求4所述的一种基于分层卷积神经网络的图像检索方法，其特征在于，其步骤(4c)所述的构建极化区域池化层，按如下步骤进行：

(4c1)对输入的原始的全天空极光图像数据库中的图像及k个局部关键点的位置信息，以每个局部关键点为中心，确定大小为p×p的k个极化区域；

(4c2)对输入的第五个卷积层的特征图组，每个特征图组由256幅特征图组成，将k个极化区域的位置映射到每幅特征图上；

(4c3)对特征图进行池化操作：将特征图组中的每幅特征图划分为l×l个小块，取每块中的最大值，得到该特征图组的l×l×256维特征向量；