CN107832335A - 一种基于上下文深度语义信息的图像检索方法 - Google Patents

一种基于上下文深度语义信息的图像检索方法 Download PDF

Info

Publication number
CN107832335A
CN107832335A CN201710935929.7A CN201710935929A CN107832335A CN 107832335 A CN107832335 A CN 107832335A CN 201710935929 A CN201710935929 A CN 201710935929A CN 107832335 A CN107832335 A CN 107832335A
Authority
CN
China
Prior art keywords
image
mrow
key point
cnn
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710935929.7A
Other languages
English (en)
Other versions
CN107832335B (zh
Inventor
杨曦
杨东
王楠楠
高新波
宋彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201710935929.7A priority Critical patent/CN107832335B/zh
Publication of CN107832335A publication Critical patent/CN107832335A/zh
Application granted granted Critical
Publication of CN107832335B publication Critical patent/CN107832335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种基于上下文深度语义信息的图像检索方法,主要解决现有图像检索方法由于缺乏上下文环境信息而造成的准确率低的问题。实现步骤为:①使用自适应极化栅栏法确定图像关键点;②对卷积神经网络进行预训练和微调,构建包含区域分析层、迭代量化层的极化卷积神经网络;③提取关键点的上下文深度语义特征,并将其存入索引表,完成线下索引;④计算查询图像与数据库中每幅图像的相似度;⑤根据相似度从高到低的顺序输出检索结果。本发明使用上下文深度语义特征实现了图像关键点从区域到全局环境的匹配,提出的自适应极化栅栏法和构建的区域分析层符合全天空极光图像的成像特点,检索准确率高,可用于鱼眼镜头成像的大规模图像的精确检索。

Description

一种基于上下文深度语义信息的图像检索方法
技术领域
本发明属于图像处理技术领域,涉及深度学习算法和图像检索技术,可用于大规模极光图像的精确检索。
背景技术
太阳风携带的高能带电粒子高速撞击地球磁场,沿着“漏斗”状的地磁力线沉降进入南北两极地区,激发电离层中大气粒子后产生的自然发光现象就是极光。为了深入研究极光现象,各国科学家们通过地面观测站和太空遥感卫星等平台采集了海量极光图像数据。然而,受天气变化和云雾干扰等影响,爆炸式增加的极光图像数据中包含了大量无效数据。为了在不受无效数据干扰的前提下研究某种特定日地空间事件,科学家们需要从海量数据中挑选出感兴趣的极光图像数据,即大规模极光图像检索。现实中,依靠科学家们肉眼筛选和分类的人工检索方式容易出现由视觉疲劳引起的主观误差,其检索速度也难以满足海量数据的处理需求。因此,建立自动的图像检索系统,实现大规模极光图像中有效数据的筛选和关键数据的分析,可以帮助空间物理学家在有限时间内获取太阳风与地球磁场活动的大量信息,为日地空间安全提供可靠的技术保障。
为了实现自动的极光图像检索,图像处理和模式识别技术被广泛使用。例如,Sivic等人在文献“J.Sivic and A.Zisserman,Video google:A text retrievalapproach to object matching in videos,in Proc.IEEE Int.Conf.Comput.Vis.,2003,pp.1470-1477.”中提出的词袋模型法(Bag of Features,BoF),该方法将局部特征进行聚类生成语义词典,利用倒排索引实现图像检索;Jeguo等人在文献“H.Jegou,M.Douze,andC.Schmid,Hamming embedding and weak geometric consistency for large scaleimage search,in Proc.Eur.Conf.Comput.Vis.,2008,pp.304-317.”中提出的汉明嵌入法(Hamming Embedding,HE),该方法将局部特征之间的汉明距离存入索引表,提高了图像检索的精度;Jeguo等人在文献“H.Jegou,M.Douze,C.Schmid,and P.Perez,Aggregatinglocal descriptors into a compact image representation,in Proc.IEEEConf.Comput.Vis.Pattern Recognit.,2010,pp.3304-3311.”中提出的局部特征聚合向量法(Vector of Locally Aggregated Descriptors,VLAD),该方法将局部特征聚合并降维生成全局特征,提高了图像检索的效率;Yang等人在文献“X.Yang,X.Gao,Q.Tian,Polarembedding for aurora image retrieval,IEEE Trans.Image Process.24(11)(2015)3332-3344.”中提出的极向嵌入法(Polar Embedding,PE),该方法结合极光图像成像特点,利用极化栅格对图像关键点进行不均匀采样,通过提取每个关键点的尺度不变特征(Scale-Invariant Feature Transform,SIFT)和局部二值模式特征(Local BinaryPatterns,LBP),实现了极光图像的实时检索。
然而,上述方法采用的是人工设计的“浅层”特征,这些特征由于缺乏数据学习过程和语义认知信息而辨识度较差。近期,深度学习技术通过海量数据学习图像内容,实现了对人脑认知机理的模拟。其中,卷积神经网络(Convolutional Neural Network,CNN)被广泛应用于图像检索领域。例如,Gong等人在文献“Y.Gong,L.Wang,R.Guo,and S.Lazebnik,Multi-scale orderless pooling of deep convolutional activation features,inProc.Eur.Conf.Comput.Vis.,2014,pp.392-407.”中提出的多尺度无序池化法(Multi-scale Orderless Pooling,MOP),该方法将卷积神经网络第六层的输出作为特征,同时聚合多个尺度下的特征完成图像检索;Tolias等人在文献“G.Tolias,R.Sicre,H.Jegou,Particular object retrieval with integral max-pooling of CNN activations,inProc.Int.Conf.Learn.Represent.,2016,pp.1-12.”中提出的卷积最大激活法(MaximumActivation of Convolutions,MAC),该方法对卷积神经网络各个卷积层输出的特征图组作最大池化处理,然后将输出的激活响应级联作为特征,实现了高精度的图像检索。
然而,现有图像检索方法仍然存在很多不足:第一,现有方法仅提取关键点的单一尺度特征,缺乏对图像上下文信息的理解,导致检索的准确率较低;第二,现有方法使用矩形栅格法选取关键点,该方式没有考虑极光图像中由地面鱼眼镜头造成的球形畸变现象,导致返回的检索结果不理想。
发明内容
本发明针对上述图像检索方法的不足,提出一种基于上下文深度语义信息的图像检索方法,以提高极光图像检索的准确率。该方法根据鱼眼镜头成像原理,设计自适应极化栅栏法确定图像关键点;在卷积神经网络中添加区域分析层来提取每幅图像每个关键点的全局CNN特征、小尺度区域CNN特征、大尺度区域CNN特征,用于构建上下文深度语义特征;使用迭代量化层替代卷积神经网络中最后两个全连接层,用于特征的二值化,以加快检索速度。
为实现上述技术目的,本发明采用如下技术方案予以实现。
一种基于上下文深度语义信息的图像检索方法包括以下步骤:
(1)对输入的全天空极光图像数据库,利用自适应极化栅栏法确定全天空极光图像的k个关键点。
(2)预先对卷积神经网络进行预训练和微调,再构建区域分析层、迭代量化层,将所述卷积神经网络升级为极化卷积神经网络,所述极化卷积神经网络包括五个卷积层、一个全连接层、一个区域分析层、一个迭代量化层。
(3)对输入的所述全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域,并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。
(4)所述区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作,分别得到五个特征向量,分别级联五个特征向量及全连接层输出的特征向量,得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征
(5)所述迭代量化层对输入的每个关键点的小尺度区域CNN特征大尺度区域CNN特征全局CNN特征fcnn-g进行二值化处理,并级联二值化后的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g,得到每个关键点的上下文深度语义特征
(6)将每个关键点的上下文深度语义特征存入倒排索引表,完成线下索引。
(7)对于输入的一幅查询图像Q,提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数。
(8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度。
(9)按照相似度取值从高到低的顺序对所述全天空极光图像数据库中图像进行排序,相似度取值最高的图像被认为是与查询图像最相似,输出排序结果完成线上查询。
在一些实施例中,步骤(1)中利用自适应极化栅栏法确定全天空极光图像的k个关键点,包括如下步骤:
(1a)设定自适应极化栅栏法的参数,所述参数至少包括:参考径向间隔△ρ、参考角度间隔△θ、控制径向坐标分布的参数v和控制角度坐标分布的正参数w。
(1b)确定关键点的离散的径向坐标ρ(i)和角度坐标θ(j):
其中,C为全天空极光图像的半径长度;ρ(i)为径向坐标,ρ(0)为径向坐标的初始值,i为径向指数,其取值为从1到G的有序整数,G为径向指数取值的最大值,径向坐标ρ(i)需要小于图像的半径长度C;v为控制径向坐标分布的参数,iv△ρ为径向间隔,当v为0时,径向间隔iv△ρ相同;当v取正值时,随着i的增大,径向间隔iv△ρ越大;当v取负值时,随着i的增大,径向间隔iv△ρ越小;θ(j)为角度坐标θ(j),θ(0)为角度坐标的初始值,j为角度指数,其取值为从1到H的有序整数,H为角度指数取值的最大值,角度坐标θ(j)需要小于2π;w为控制角度坐标分布的正参数,△θ/iw为角度间隔,当w为0时,角度间隔△θ/iw相同;当w为1时,角度间隔△θ/iw反比于径向指数i;当w大于1时,随着i的增大,角度间隔△θ/iw越小;当w小于1时,随着i的增大,角度间隔△θ/iw越大。
(1c)使用极化坐标系确定图像关键点的位置:
其中,x(i,j)为关键点的横坐标,y(i,j)为关键点的纵坐标,每幅全天空极光图像共得到k个关键点。
在一些实施例中,步骤(2)预先对卷积神经网络进行预训练和微调,再构建区域分析层、迭代量化层,将所述卷积神经网络升级为极化卷积神经网络,包括如下步骤:
(2a)使用ImageNet数据库对现有卷积神经网络进行预训练,得到每个卷积层以及每个全连接层的参数,所述卷积神经网络包括:五个卷积层、三个全连接层。
(2b)预先对所述全天空极光图像数据库中的图像进行图像翻转、多尺度变换等数据扩增操作,生成新的图像,将所述新生成的图像加入到原有全天空极光图像数据库中,用扩增后的全天空极光图像数据库训练所述卷积神经网络,对所述卷积神经网络进行微调,更新其每个卷积层以及每个全连接层的参数。
(2c)构建一个区域分析层,将其加入到所述卷积神经网络。
(2d)构建一个迭代量化层,用其替代所述卷积神经网络中最后两个全连接层。
在一些实施例中,步骤(3)对输入的所述全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域,并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上,包括如下步骤:
(3a)对输入的原全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域。
(3b)所述极化卷积神经网络对输入的每幅图像,其每个卷积层各输出一个特征图组,第l个卷积层输出的特征图组由ml幅特征图组成,其中,l=1,2,3,4,5,m1=96,m2=256,m3=384,m4=384,m5=256。
(3c)分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。
在一些实施例中,步骤(4)区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作,分别得到五个特征向量,分别级联五个特征向量及全连接层输出的特征向量,得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征,包括如下步骤:
(4a)所述区域分析层分别对第l个卷积层输出的ml幅特征图进行最大池化操作,即选取第l个卷积层输出的每幅特征图的最大像素值作为输出,得到一个ml维特征向量,五个卷积层共得五个特征向量,级联该五个特征向量,得到1376(m1+m2+m3+m4+m5)维特征向量,其中,l=1,2,3,4,5。
(4b)将第五卷积层输出的特征图组输入全连接层,得到4096维特征向量,将其级联在步骤(4a)所得1376维特征向量之后,得到5472维全局CNN特征fcnn-g
(4c)所述区域分析层分别对第l个卷积层输出的ml幅特征图上的同一个关键点的小尺度区域进行最大池化操作,即选取第l个卷积层输出的每幅特征图上的同一个关键点的小尺度区域的最大像素值作为输出,得到一个ml维特征向量,五个卷积层共得五个特征向量,级联该五个特征向量,得到一个1376(m1+m2+m3+m4+m5)维特征向量。
(4d)将所述全连接层输出的4096维特征向量级联在步骤(4c)所得1376维特征向量之后,得到该关键点的5472维的小尺度区域CNN特征
(4e)遍历k个关键点的小尺度区域,得到k个小尺度区域CNN特征,遍历所述原全天空极光图像数据库中的N幅图像,得到kN个小尺度区域CNN特征。
(4f)对关键点的大尺度区域,进行类似于步骤(4c)到步骤(4e)的操作,即所述区域分析层对该关键点的大尺度区域进行最大池化操作,得到五个特征向量,级联该五个特征向量及所述全连接层输出的特征向量,得到该关键点的5472维的大尺度区域CNN特征k个关键点、N幅图像,共得到kN个大尺度区域CNN特征。
在一些实施例中,步骤(6)将每个关键点的上下文深度语义特征存入倒排索引表,完成线下索引,包括如下步骤:
(6a)对得到的kN个小尺度区域CNN特征使用近似K均值聚类法生成视觉词典W={W1,W2,…,WM},每个视觉单词Wm(m=1,…,M)为聚类中心,根据每个小尺度区域CNN特征与各个聚类中心之间的距离,将该小尺度区域CNN特征量化到距离最近的聚类中心。
(6b)根据量化到每个聚类中心的每个小尺度区域CNN特征的关键点,确定该聚类中心对应的所有关键点,即该视觉单词对应的所有关键点。
(6c)构建一个倒排索引表E={E1,E2,…,EM},其中,第m个索引单元Em存储第m个视觉单词Wm信息,m=1,…,M。
(6d)构建一个辅助索引表其中,第n个索引单元大小为len字节,用于存储第n幅图像二值化后的全局CNN特征fb-cnn-g,n=1,…,N。
(6e)对第m个视觉单词Wm对应的一个关键点,开辟4个字节存储所属图像(ImageID)信息,并将其作为全局指针链接步骤(6d)中对应的索引单元,开辟len个字节存储二值化后的小尺度区域CNN特征再开辟len个字节存储二值化后的大尺度区域CNN特征
(6f)遍历第m个视觉单词Wm对应的所有关键点,执行步骤(6e),完成倒排索引表E中第m个索引单元Em的内容存储。
(6g)遍历所有视觉单词,完成倒排索引表E的所有索引单元的内容存储,完成线下索引。
在一些实施例中,步骤(7)对于输入的一幅查询图像Q,提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数
其中,与fd之间的汉明距离,h越小,匹配函数取值越大,关键点匹配度越高,为求与fd之间汉明距离的函数,Th为距离阈值;q(·)为量化函数,表示特征量化到某个视觉单词,exp(·)为指数函数,σ为其控制参数。
在一些实施例中,步骤(8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度,包括如下步骤:
计算所述查询图像Q与所述全天空极光图像数据库中第n幅图像In的相似度SS(Q,In):
其中,idf=N/Nm表示逆向文件频率,N为原全天空极光图像数据库中图像数量,Nm为原全天空极光图像数据库中包含第m个视觉单词的图像数量,为第n幅图像中视觉单词向量的l2范数,tm表示第m个视觉单词在第n幅图像中出现的词频。
本发明与现有图像检索方法相比,具有以下优点:
1)传统方法仅提取图像关键点上的局部特征,忽略了关键点周围的环境信息,导致了较高的虚警率,本发明结合上下文语义信息,在关键点周围提取不同尺度上强辨识度的“深度”特征,提高了图像检索的准确率。
2)传统方法的矩形栅栏方式仅适用于普通镜头下的图像,本发明根据鱼眼镜头成像原理,设计了自适应极化栅栏法选取关键点,更符合全天空极光图像的球形畸变特性。
3)传统方法将整幅图像通过卷积神经网络的全连接层或卷积层的输出作为特征,表述尺度单一并且特征维数较高,本发明构建区域分析层和迭代量化层来改进卷积神经网络,同时融合所有卷积层和全连接层的信息,得到了具有多尺度描述能力的二值化特征,在节省索引内存消耗的同时提高了检索精度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的、技术过程和优点将会变得更明显:
图1是本发明一种基于上下文深度语义信息的图像检索方法的一个流程图;
图2是本发明一种基于上下文深度语义信息的图像检索方法的又一个流程图;
图3是本发明中不同参数下自适应极化栅栏法确定的图像关键点的分布图;
图4a是现有卷积神经网络结构的示意图;
图4b是本发明中极化卷积神经网络结构的示意图;
图5a是一幅查询图像;
图5b是本发明与现有方法对图5a的检索结果比较。
具体实施方式
参考图1,示出了本发明基于上下文深度语义信息的图像检索方法的一个流程图100,具体步骤如下:
步骤101,对输入的全天空极光图像数据库,使用自适应极化栅栏法确定全天空极光图像的k个关键点。
全天空极光图像数据库D={I1,I2,…,IN}为极化卷积神经网络的输入,其中,In(n=1,…,N)为上述全天空极光图像数据库中的第n幅图像,N为上述全天空极光图像数据库中图像的总个数。
使用自适应极化栅栏法确定全天空极光图像的k个关键点,包括如下步骤:
(1a)设定自适应极化栅栏法的参数,所述参数至少包括:参考径向间隔△ρ、参考角度间隔△θ、控制径向坐标分布的参数v和控制角度坐标分布的正参数w。
(1b)确定关键点的离散的径向坐标ρ(i)和角度坐标θ(j):
其中,C为全天空极光图像的半径长度;ρ(i)为径向坐标,ρ(0)为径向坐标的初始值,i为径向指数,其取值为从1到G的有序整数,G为径向指数取值的最大值,径向坐标ρ(i)需要小于图像的半径长度C;v为控制径向坐标分布的参数,iv△ρ为径向间隔,当v为0时,径向间隔iv△ρ相同;当v取正值时,随着i的增大,径向间隔iv△ρ越大;当v取负值时,随着i的增大,径向间隔iv△ρ越小;θ(j)为角度坐标θ(j),θ(0)为角度坐标的初始值,j为角度指数,其取值为从1到H的有序整数,H为角度指数取值的最大值,角度坐标θ(j)需要小于2π;w为控制角度坐标分布的正参数,△θ/iw为角度间隔,当w为0时,角度间隔△θ/iw相同;当w为1时,角度间隔△θ/iw反比于径向指数i;当w大于1时,随着i的增大,角度间隔△θ/iw越小;当w小于1时,随着i的增大,角度间隔△θ/iw越大。
(1c)使用极化坐标系确定图像关键点的位置:
其中,x(i,j)为关键点的横坐标,y(i,j)为关键点的纵坐标,每幅全天空极光图像共得到k个关键点。
参考图3,图3是不同参数下自适应极化栅栏法确定的图像关键点的分布图。参考径向间隔为256/6,参考角度间隔为π/3。由图可知,当v为0时,关键点的径向间隔相同;当v等于0.5时,随着径向指数i的增大,关键点的径向间隔越大;当v等于-0.5时,随着径向指数i的增大,关键点的径向间隔越小;当w等于1时,关键点的角度间隔反比于径向指数i;当w为0时,关键点的角度间隔相同;当w等于2时,随着i的增大,关键点的角度间隔越小。当v、w取值不同时,k的取值也不同。
当自适应极化栅栏法的参数确定时,上述全天空极光图像数据库中的N幅图像拥有位置相同的k个关键点,即每幅图像的k个关键点的分布是一样的。
步骤102,预先对卷积神经网络进行预训练和微调,再构建区域分析层、迭代量化层,将上述卷积神经网络升级为极化卷积神经网络。
(2a)使用ImageNet数据库对现有卷积神经网络进行预训练,得到每个卷积层以及每个全连接层的参数,所述卷积神经网络包括:五个卷积层、三个全连接层。
参考图4a,示出了现有卷积神经网络结构的示意图。每一层的输出为下一层的输入,卷积层通过不同卷积操作生成多幅特征图,全连接层用来将卷积层输出的多幅特征图组合生成单一的特征向量。以第一卷积层为例,说明其中的参数,11×11表示该卷积层的卷积核大小,55×55为该卷积层输出的每幅特征图的大小,96为通道数目,即第一卷积层使用11×11的卷积核进行滤波等操作,得到了96个大小为55×55的特征图。全连接层的圆圈表示一个节点,每个节点连接上一个卷积层或全连接层的所有节点。以第一全连接层为例,说明其中的参数,4096表示第一全连接层节点的个数,图中只标出了其中几个节点。
每个卷积层输出一个特征图组,第l个卷积层输出的特征图组由ml幅特征图组成,其中,l=1,2,3,4,5,m1=96,m2=256,m3=384,m4=384,m5=256。
(2b)预先对上述全天空极光图像数据库中的图像进行图像翻转、多尺度变换等数据扩增操作,生成新的图像,将所述新生成的图像加入到原有全天空极光图像数据库中,用扩增后的全天空极光图像数据库训练所述卷积神经网络,对所述卷积神经网络进行微调,更新其每个卷积层以及每个全连接层的参数。
(2c)构建一个区域分析层,将其加入到上述卷积神经网络。
参考图4b,每个卷积层输出的特征图组是上述区域分析层的输入。
(2d)构建一个迭代量化层,用其替代上述卷积神经网络中最后两个全连接层。
步骤103,对输入的全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域,并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。
(3a)对输入的原全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域。
(3b)极化卷积神经网络对输入的每幅图像,其每个卷积层各输出一个特征图组,第l个卷积层输出的特征图组由ml幅特征图组成,其中,l=1,2,3,4,5,m1=96,m2=256,m3=384,m4=384,m5=256。
(3c)分别将上述k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。
输入极化卷积神经网络一幅全天空极光图像,每个卷积层输出一组特征图,因特征图的大小和输入的全天空极光图像的大小不一样,所以这里有一个映射,把输入的全天空极光图像上的k个小尺度区域和k个大尺度区的位置缩放到特征图上。
步骤104,区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作,分别得到五个特征向量,分别级联五个特征向量及全连接层输出的特征向量,得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征
(4a)上述区域分析层分别对第l个卷积层输出的ml幅特征图进行最大池化操作,即选取第l个卷积层输出的每幅特征图的最大像素值作为输出,得到一个ml维特征向量,五个卷积层共得五个特征向量,级联该五个特征向量,得到1376(m1+m2+m3+m4+m5)维特征向量,其中,l=1,2,3,4,5,m1=96,m2=256,m3=384,m4=384,m5=256。
(4b)将第五卷积层输出的特征图组输入全连接层,得到4096维特征向量,将其级联在步骤(4a)所得1376维特征向量之后,得到5472维全局CNN特征fcnn-g
对特征图进行最大池化操作得到的特征向量可以表征整幅图像,所以全局CNN特征可以表征整幅图像,因每幅图像上都分布着k个关键点,所以同一幅图像上的k个关键点拥有相同的全局CNN特征,且该全局CNN特征可以表征整幅图像。
(4c)上述区域分析层分别对第l个卷积层输出的ml幅特征图上的同一个关键点的小尺度区域进行最大池化操作,即选取第l个卷积层输出的每幅特征图上的同一个关键点的小尺度区域的最大像素值作为输出,得到一个ml维特征向量,五个卷积层共得五个特征向量,级联该五个特征向量,得到一个1376(m1+m2+m3+m4+m5)维特征向量。
(4d)将上述全连接层输出的4096维特征向量级联在步骤(4c)所得1376维特征向量之后,得到该关键点的5472维的小尺度区域CNN特征
(4e)遍历k个关键点的小尺度区域,得到k个小尺度区域CNN特征,遍历原全天空极光图像数据库中的N幅图像,得到kN个小尺度区域CNN特征。
(4f)对关键点的大尺度区域,进行类似于步骤(4c)到步骤(4e)的操作,即区域分析层对该关键点的大尺度区域进行最大池化操作,得到五个特征向量,级联该五个特征向量及上述全连接层输出的特征向量,得到该关键点的5472维的大尺度区域CNN特征k个关键点、N幅图像,共得到kN个大尺度区域CNN特征。
关键点的小尺度区域CNN特征、大尺度区域CNN特征分别从不同尺度上表征了图像的局部信息。
步骤105,迭代量化层对输入的每个关键点的小尺度区域CNN特征大尺度区域CNN特征全局CNN特征fcnn-g进行二值化处理,并级联二值化后的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g,得到每个关键点的上下文深度语义特征
迭代量化层使用迭代量化法对输入的每个关键点的小尺度区域CNN特征大尺度区域CNN特征全局CNN特征fcnn-g进行二值化处理。
迭代量化法的目的是将特征向量进行二值化处理,同时保证二值化后的量化误差较小。具体来说,就是将特征向量降低维度后,寻找最优旋转矩阵,能够将降维后的特征向量映射到一个二进制超立方体的顶点上,保证二进制编码的量化误差最小。
二值化后的每个关键点的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g的长度都为len字节。
步骤106,将每个关键点的上下文深度语义特征存入倒排索引表,完成线下索引。
(6a)对得到的kN个小尺度区域CNN特征使用近似K均值聚类法生成视觉词典W={W1,W2,…,WM},每个视觉单词Wm(m=1,…,M)为聚类中心,根据每个小尺度区域CNN特征与各个聚类中心之间的距离,将该小尺度区域CNN特征量化到距离最近的聚类中心。
将kN个小尺度区域CNN特征看作对象,先随机选取M个对象作为聚类的初始的聚类中心。然后计算每个对象与各个聚类中心之间的欧氏距离,将该对象分配给取值最小的欧氏距离对应的聚类,该聚类包括聚类中心以及分配给它的对象。当全部对象都被分配后,重新计算每个聚类的平均值作为更新后的聚类中心。然后根据所有对象与更新后的聚类中心的欧氏距离重新分配所有对象,确定更新后的聚类。这个过程将不断重复直到满足终止条件:更新前的聚类中心和更新后的聚类中心相同。
每个聚类中心为一个视觉单词,所有视觉单词组成视觉字典W={W1,W2,…,WM},M为视觉字典中视觉单词的总个数,Wm(m=1,…,M)为视觉字典中第m个视觉单词。
(6b)根据量化到每个聚类中心的每个小尺度区域CNN特征的关键点,确定该聚类中心对应的所有关键点,即该视觉单词对应的所有关键点。
(6c)构建一个倒排索引表E={E1,E2,…,EM},其中,第m个索引单元Em存储第m个视觉单词Wm信息,m=1,…,M。
(6d)构建一个辅助索引表其中,第n个索引单元大小为len字节,用于存储第n幅图像二值化后的全局CNN特征fb-cnn-g,n=1,…,N。
(6e)对第m个视觉单词Wm对应的一个关键点,开辟4个字节存储所属图像(ImageID)信息,并将其作为全局指针链接步骤(6d)中对应的索引单元,开辟len个字节存储二值化后的小尺度区域CNN特征再开辟len个字节存储二值化后的大尺度区域CNN特征
(6f)遍历第m个视觉单词Wm对应的所有关键点,执行步骤(6e),完成倒排索引表E中第m个索引单元Em的内容存储;
(6g)遍历所有视觉单词,完成倒排索引表E的所有索引单元的内容存储,完成线下索引。
步骤107,对于输入的一幅查询图像Q,提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数。
对于输入的查询图像Q,首先,按照步骤101确定该查询图像的k个关键点,然后,按照步骤103至步骤105提取该查询图像的每个关键点的上下文深度语义特征
计算该查询图像的每个关键点的上下文深度语义特征与线下索引保存的每个关键点的上下文深度语义特征的匹配函数
其中,与fd之间的汉明距离,h越小,匹配函数取值越大,关键点匹配度越高,为求与fd之间汉明距离的函数,Th为距离阈值;q(·)为量化函数,表示特征量化到某个视觉单词,exp(·)为指数函数,σ为其控制参数。
步骤108,计算查询图像Q与原全天空极光图像数据库中每幅图像的相似度。
计算该查询图像Q与原全天空极光图像数据库中第n幅图像In的相似度SS(Q,In):
其中,idf=N/Nm表示逆向文件频率,N为原全天空极光图像数据库中图像数量,Nm为原全天空极光图像数据库中包含第m个视觉单词的图像数量,为第n幅图像中视觉单词向量的l2范数,tm表示第m个视觉单词在第n幅图像中出现的词频,表示是属于查询图像Q的关键点的上下文深度语义特征,fd∈In表示fd是属于原全天空极光图像数据库中第n幅图像的关键点的上下文深度语义特征。
步骤109,按照相似度取值从高到低的顺序对原全天空极光图像数据库中图像进行排序,相似度取值最高的图像被认为是与查询图像最相似,输出排序结果完成线上查询。
图2是本发明的一种基于上下文深度语义信息的图像检索方法的又一个流程图,该流程图比较详细的列出本发明的一种基于上下文深度语义信息的图像检索方法。
本发明的效果可通过以下仿真实验进一步说明:
实验1:极光图像检索准确率比较
实验条件:实验用到的全天空极光图像数据库共包含1,003,428幅图像。为了方便研究检索效果随图像数量的变化,本发明将数据库划分为图像数量逐渐增加的8K、14K、100K、500K和1M共5个数据库。
实验内容:比较本发明与现有六种图像检索方法的检索准确率。现有方法为背景技术中提及的BoF、HE、VLAD、PE、MOP和MAC,其中,BoF被当作基准方法,HE、VLAD和PE为基于SIFT特征的方法,MOP和MAC为基于CNN特征的方法。
表1.本发明与现有六种图像检索方法的检索准确率(%)比较
表1为本发明与现有六种图像检索方法的检索准确率比较,从中可以看出:①最高的检索准确率在小样本集8K上取得,随着图像数量的增加,检索准确率逐渐下降;②在基于SIFT特征的方法里,PE取得了较好的检索准确率;③基于CNN特征的方法的检索准确率普遍高于基于SIFT特征的方法,这种优势随着图像数量的增加而增大;④本发明取得了最高的检索准确率,随着图像数量的增加,检索准确率下降幅度最小,验证了本发明检索结果的准确性、对数据库大小的鲁棒性和实现大规模图像检索的可行性。
实验2:极光图像检索结果示例
实验条件:实验用到全天空极光图像数据库中所有图像。
实验内容:输入如图5a的查询图像,比较本发明与实验1中六种现有方法返回的检索图像结果。
图5b为本发明与现有方法对图5a的检索结果比较,由于所有方法返回的前13个图像都为正确示例,图5b仅显示排序为14到20的检索图像,其中错误结果用虚线框出。从比较结果可以看出:现有方法会出现与查询图像相差较大的结果,而本发明的返回结果都与查询图像相似,从而验证了本发明的有效性。
综上,本发明对全天空极光图像进行基于上下文深度语义信息的图像检索,相比于现有图像检索方法,提高了检索准确率,可应用于鱼眼镜头成像的大规模图像的精确检索。

Claims (8)

1.一种基于上下文深度语义信息的图像检索方法,其特征在于,所述方法包括如下步骤:
(1)对输入的全天空极光图像数据库,利用自适应极化栅栏法确定全天空极光图像的k个关键点;
(2)预先对卷积神经网络进行预训练和微调,再构建区域分析层、迭代量化层,将所述卷积神经网络升级为极化卷积神经网络,所述极化卷积神经网络包括五个卷积层、一个全连接层、一个区域分析层、一个迭代量化层;
(3)对输入的所述全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域,并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上;
(4)所述区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作,分别得到五个特征向量,分别级联五个特征向量及全连接层输出的特征向量,得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征
(5)所述迭代量化层对输入的每个关键点的小尺度区域CNN特征大尺度区域CNN特征全局CNN特征fcnn-g进行二值化处理,并级联二值化后的小尺度区域CNN特征二值化后的大尺度区域CNN特征二值化后的全局CNN特征fb-cnn-g,得到每个关键点的上下文深度语义特征
(6)将每个关键点的上下文深度语义特征存入倒排索引表,完成线下索引;
(7)对于输入的一幅查询图像Q,提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数;
(8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度;
(9)按照相似度取值从高到低的顺序对所述全天空极光图像数据库中图像进行排序,相似度取值最高的图像被认为是与查询图像最相似,输出排序结果完成线上查询。
2.根据权利要求1所述的一种基于上下文深度语义信息的图像检索方法,其特征在于,所述步骤(1)中利用自适应极化栅栏法确定全天空极光图像的k个关键点,包括如下步骤:
(1a)设定自适应极化栅栏法的参数,所述参数至少包括:参考径向间隔△ρ、参考角度间隔△θ、控制径向坐标分布的参数v和控制角度坐标分布的正参数w;
(1b)确定关键点的离散的径向坐标ρ(i)和角度坐标θ(j):
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mi>&amp;rho;</mi> <mo>(</mo> <mn>0</mn> <mo>)</mo> <mo>=</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mi>&amp;theta;</mi> <mo>(</mo> <mn>0</mn> <mo>)</mo> <mo>=</mo> <mn>0</mn> </mtd> </mtr> <mtr> <mtd> <mi>&amp;rho;</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mo>=</mo> <mi>&amp;rho;</mi> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>+</mo> <msup> <mi>i</mi> <mi>v</mi> </msup> <mi>&amp;Delta;</mi> <mi>&amp;rho;</mi> <mo>,</mo> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>G</mi> <mo>,</mo> <mrow> <mo>(</mo> <mrow> <mi>&amp;rho;</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mi>C</mi> </mrow> <mo>)</mo> </mrow> <mo>)</mo> </mtd> </mtr> <mtr> <mtd> <mi>&amp;theta;</mi> <mo>(</mo> <mi>j</mi> <mo>)</mo> <mo>=</mo> <mi>&amp;theta;</mi> <mo>(</mo> <mi>j</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> <mo>+</mo> <mfrac> <mn>1</mn> <msup> <mi>i</mi> <mi>w</mi> </msup> </mfrac> <mi>&amp;Delta;</mi> <mi>&amp;theta;</mi> <mo>,</mo> <mo>(</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>H</mi> <mo>,</mo> <mrow> <mo>(</mo> <mrow> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mn>2</mn> <mi>&amp;pi;</mi> </mrow> <mo>)</mo> </mrow> <mo>)</mo> </mtd> </mtr> </mtable> </mfenced>
其中,C为全天空极光图像的半径长度;ρ(i)为径向坐标,ρ(0)为径向坐标的初始值,i为径向指数,其取值为从1到G的有序整数,G为径向指数取值的最大值,径向坐标ρ(i)需要小于图像的半径长度C;v为控制径向坐标分布的参数,iv△ρ为径向间隔,当v为0时,径向间隔iv△ρ相同;当v取正值时,随着i的增大,径向间隔iv△ρ越大;当v取负值时,随着i的增大,径向间隔iv△ρ越小;θ(j)为角度坐标θ(j),θ(0)为角度坐标的初始值,j为角度指数,其取值为从1到H的有序整数,H为角度指数取值的最大值,角度坐标θ(j)需要小于2π;w为控制角度坐标分布的正参数,△θ/iw为角度间隔,当w为0时,角度间隔△θ/iw相同;当w为1时,角度间隔△θ/iw反比于径向指数i;当w大于1时,随着i的增大,角度间隔△θ/iw越小;当w小于1时,随着i的增大,角度间隔△θ/iw越大;
(1c)使用极化坐标系确定图像关键点的位置:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mi>x</mi> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> <mo>=</mo> <mi>C</mi> <mo>+</mo> <mi>&amp;rho;</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mo>(</mo> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>)</mo> </mtd> </mtr> <mtr> <mtd> <mi>y</mi> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> <mo>=</mo> <mi>C</mi> <mo>-</mo> <mi>&amp;rho;</mi> <mo>(</mo> <mi>i</mi> <mo>)</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mo>(</mo> <mi>&amp;theta;</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>)</mo> </mtd> </mtr> </mtable> </mfenced>
其中,x(i,j)为关键点的横坐标,y(i,j)为关键点的纵坐标,每幅全天空极光图像共得到k个关键点。
3.根据权利要求1所述的一种基于上下文深度语义信息的图像检索方法,其特征在于,所述步骤(2)预先对卷积神经网络进行预训练和微调,再构建区域分析层、迭代量化层,将所述卷积神经网络升级为极化卷积神经网络,包括如下步骤:
(2a)使用ImageNet数据库对现有卷积神经网络进行预训练,得到每个卷积层以及每个全连接层的参数,所述卷积神经网络包括:五个卷积层、三个全连接层;
(2b)预先对所述全天空极光图像数据库中的图像进行图像翻转、多尺度变换等数据扩增操作,生成新的图像,将所述新生成的图像加入到原有全天空极光图像数据库中,用扩增后的全天空极光图像数据库训练所述卷积神经网络,对所述卷积神经网络进行微调,更新其每个卷积层以及每个全连接层的参数;
(2c)构建一个区域分析层,将其加入到所述卷积神经网络;
(2d)构建一个迭代量化层,用其替代所述卷积神经网络中最后两个全连接层。
4.根据权利要求3所述的一种基于上下文深度语义信息的图像检索方法,其特征在于,所述步骤(3)对输入的所述全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域,并分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上,包括如下步骤:
(3a)对输入的原全天空极光图像数据库中的每幅图像,分别以k个关键点为中心,确定大小为rs×rs的k个小尺度区域和大小为rl×rl的k个大尺度区域;
(3b)所述极化卷积神经网络对输入的每幅图像,其每个卷积层各输出一个特征图组,第l个卷积层输出的特征图组由ml幅特征图组成,其中,l=1,2,3,4,5,m1=96,m2=256,m3=384,m4=384,m5=256;
(3c)分别将k个小尺度区域和k个大尺度区域映射到每个卷积层输出的特征图上。
5.根据权利要4所述的一种基于上下文深度语义信息的图像检索方法,其特征在于,所述步骤(4)区域分析层分别对五个卷积层输出的特征图及特征图上的小尺度区域和大尺度区域进行最大池化操作,分别得到五个特征向量,分别级联五个特征向量及全连接层输出的特征向量,得到每个关键点的全局CNN特征fcnn-g、小尺度区域CNN特征大尺度区域CNN特征,包括如下步骤:
(4a)所述区域分析层分别对第l个卷积层输出的ml幅特征图进行最大池化操作,即选取第l个卷积层输出的每幅特征图的最大像素值作为输出,得到一个ml维特征向量,五个卷积层共得五个特征向量,级联该五个特征向量,得到1376(m1+m2+m3+m4+m5)维特征向量,其中,l=1,2,3,4,5;
(4b)将第五卷积层输出的特征图组输入全连接层,得到4096维特征向量,将其级联在步骤(4a)所得1376维特征向量之后,得到5472维全局CNN特征fcnn-g
(4c)所述区域分析层分别对第l个卷积层输出的ml幅特征图上的同一个关键点的小尺度区域进行最大池化操作,即选取第l个卷积层输出的每幅特征图上的同一个关键点的小尺度区域的最大像素值作为输出,得到一个ml维特征向量,五个卷积层共得五个特征向量,级联该五个特征向量,得到一个1376(m1+m2+m3+m4+m5)维特征向量;
(4d)将所述全连接层输出的4096维特征向量级联在步骤(4c)所得1376维特征向量之后,得到该关键点的5472维的小尺度区域CNN特征
(4e)遍历k个关键点的小尺度区域,得到k个小尺度区域CNN特征,遍历所述原全天空极光图像数据库中的N幅图像,得到kN个小尺度区域CNN特征;
(4f)对关键点的大尺度区域,进行类似于步骤(4c)到步骤(4e)的操作,即所述区域分析层对该关键点的大尺度区域进行最大池化操作,得到五个特征向量,级联该五个特征向量及所述全连接层输出的特征向量,得到该关键点的5472维的大尺度区域CNN特征k个关键点、N幅图像,共得到kN个大尺度区域CNN特征。
6.根据权利5所述的一种基于上下文深度语义信息的图像检索方法,其特征在于,所述步骤(6)将每个关键点的上下文深度语义特征存入倒排索引表,完成线下索引,包括如下步骤:
(6a)对得到的kN个小尺度区域CNN特征使用近似K均值聚类法生成视觉词典W={W1,W2,…,WM},每个视觉单词Wm(m=1,…,M)为聚类中心,根据每个小尺度区域CNN特征与各个聚类中心之间的距离,将该小尺度区域CNN特征量化到距离最近的聚类中心;
(6b)根据量化到每个聚类中心的每个小尺度区域CNN特征的关键点,确定该聚类中心对应的所有关键点,即该视觉单词对应的所有关键点;
(6c)构建一个倒排索引表E={E1,E2,…,EM},其中,第m个索引单元Em存储第m个视觉单词Wm信息,m=1,…,M;
(6d)构建一个辅助索引表其中,第n个索引单元大小为len字节,用于存储第n幅图像二值化后的全局CNN特征fb-cnn-g,n=1,…,N;
(6e)对第m个视觉单词Wm对应的一个关键点,开辟4个字节存储所属图像(Image ID)信息,并将其作为全局指针链接步骤(6d)中对应的索引单元,开辟len个字节存储二值化后的小尺度区域CNN特征再开辟len个字节存储二值化后的大尺度区域CNN特征
(6f)遍历第m个视觉单词Wm对应的所有关键点,执行步骤(6e),完成倒排索引表E中第m个索引单元Em的内容存储;
(6g)遍历所有视觉单词,完成倒排索引表E的所有索引单元的内容存储,完成线下索引。
7.根据权利6所述的一种基于上下文深度语义信息的图像检索方法,其特征在于,所述步骤(7)对于输入的一幅查询图像Q,提取该查询图像的每个关键点的上下文深度语义特征然后计算其与线下索引保存的每个关键点的上下文深度语义特征的匹配函数
<mrow> <mi>m</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>q</mi> <mi>d</mi> </msubsup> <mo>,</mo> <msup> <mi>f</mi> <mi>d</mi> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>-</mo> <msup> <mi>h</mi> <mn>2</mn> </msup> </mrow> <msup> <mi>&amp;sigma;</mi> <mn>2</mn> </msup> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <mi>q</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>q</mi> <mi>d</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mi>q</mi> <mrow> <mo>(</mo> <msup> <mi>f</mi> <mi>d</mi> </msup> <mo>)</mo> </mrow> <mo>,</mo> <mi>h</mi> <mo>&lt;</mo> <msub> <mi>T</mi> <mi>h</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,与fd之间的汉明距离,h越小,匹配函数取值越大,关键点匹配度越高,为求与fd之间汉明距离的函数,Th为距离阈值;q(·)为量化函数,表示特征量化到某个视觉单词,exp(·)为指数函数,σ为其控制参数。
8.根据权利要求7所述的一种基于上下文深度语义信息的图像检索方法,其特征在于,所述步骤(8)计算所述查询图像Q与所述全天空极光图像数据库中每幅图像的相似度,包括如下步骤:
计算所述查询图像Q与所述全天空极光图像数据库中第n幅图像In的相似度SS(Q,In):
<mrow> <mi>S</mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <msub> <mi>I</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <msubsup> <mi>f</mi> <mi>q</mi> <mi>d</mi> </msubsup> <mo>&amp;Element;</mo> <mi>Q</mi> <mo>,</mo> <msup> <mi>f</mi> <mi>d</mi> </msup> <mo>&amp;Element;</mo> <msub> <mi>I</mi> <mi>n</mi> </msub> </mrow> </msub> <mi>m</mi> <mrow> <mo>(</mo> <msubsup> <mi>f</mi> <mi>q</mi> <mi>d</mi> </msubsup> <mo>,</mo> <msup> <mi>f</mi> <mi>d</mi> </msup> <mo>)</mo> </mrow> <mo>&amp;CenterDot;</mo> <msup> <mi>idf</mi> <mn>2</mn> </msup> </mrow> <msqrt> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>I</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> </mrow> </msqrt> </mfrac> <mo>,</mo> <mi>n</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>N</mi> </mrow>
其中,idf=N/Nm表示逆向文件频率,N为原全天空极光图像数据库中图像数量,Nm为原全天空极光图像数据库中包含第m个视觉单词的图像数量,为第n幅图像中视觉单词向量的l2范数,tm表示第m个视觉单词在第n幅图像中出现的词频。
CN201710935929.7A 2017-10-10 2017-10-10 一种基于上下文深度语义信息的图像检索方法 Active CN107832335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710935929.7A CN107832335B (zh) 2017-10-10 2017-10-10 一种基于上下文深度语义信息的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710935929.7A CN107832335B (zh) 2017-10-10 2017-10-10 一种基于上下文深度语义信息的图像检索方法

Publications (2)

Publication Number Publication Date
CN107832335A true CN107832335A (zh) 2018-03-23
CN107832335B CN107832335B (zh) 2019-12-17

Family

ID=61647662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710935929.7A Active CN107832335B (zh) 2017-10-10 2017-10-10 一种基于上下文深度语义信息的图像检索方法

Country Status (1)

Country Link
CN (1) CN107832335B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063772A (zh) * 2018-08-02 2018-12-21 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109657715A (zh) * 2018-12-12 2019-04-19 广东工业大学 一种语义分割方法、装置、设备及介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111275041A (zh) * 2020-01-20 2020-06-12 腾讯科技(深圳)有限公司 内窥镜图像展示方法、装置、计算机设备及存储介质
CN112905824A (zh) * 2021-02-08 2021-06-04 智慧眼科技股份有限公司 目标车辆追踪方法、装置、计算机设备及存储介质
CN112965998A (zh) * 2021-02-04 2021-06-15 成都健数科技有限公司 一种化合物数据库建立及检索方法及系统
CN113627320A (zh) * 2021-08-09 2021-11-09 东云睿连(武汉)计算技术有限公司 一种基于计算机视觉的工程图纸比对装置和方法
CN114399604A (zh) * 2022-03-25 2022-04-26 北京飞渡科技有限公司 一种基于语义理解的建筑立面纹理快速生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
US20170061250A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106874489A (zh) * 2017-02-21 2017-06-20 烟台中科网络技术研究所 一种基于卷积神经网络的肺结节图像块检索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834748A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种利用基于深度语义排序哈希编码的图像检索方法
US20170061250A1 (en) * 2015-08-28 2017-03-02 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106874489A (zh) * 2017-02-21 2017-06-20 烟台中科网络技术研究所 一种基于卷积神经网络的肺结节图像块检索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUNCHAO GONG等: "Multi-Scale Orderless Pooling of Deep Convolutional Activation Features", 《ARXIV》 *
杨曦: "一种分层小波模型下的极光图像分类算法", 《西安电子科技大学(自然科学版)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063772A (zh) * 2018-08-02 2018-12-21 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109063772B (zh) * 2018-08-02 2022-05-10 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109657715A (zh) * 2018-12-12 2019-04-19 广东工业大学 一种语义分割方法、装置、设备及介质
CN109657715B (zh) * 2018-12-12 2024-02-06 广东省机场集团物流有限公司 一种语义分割方法、装置、设备及介质
CN110825901A (zh) * 2019-11-11 2020-02-21 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111275041A (zh) * 2020-01-20 2020-06-12 腾讯科技(深圳)有限公司 内窥镜图像展示方法、装置、计算机设备及存储介质
CN112965998A (zh) * 2021-02-04 2021-06-15 成都健数科技有限公司 一种化合物数据库建立及检索方法及系统
CN112905824A (zh) * 2021-02-08 2021-06-04 智慧眼科技股份有限公司 目标车辆追踪方法、装置、计算机设备及存储介质
CN113627320A (zh) * 2021-08-09 2021-11-09 东云睿连(武汉)计算技术有限公司 一种基于计算机视觉的工程图纸比对装置和方法
CN113627320B (zh) * 2021-08-09 2023-09-26 东云睿连(武汉)计算技术有限公司 一种基于计算机视觉的工程图纸比对装置和方法
CN114399604A (zh) * 2022-03-25 2022-04-26 北京飞渡科技有限公司 一种基于语义理解的建筑立面纹理快速生成方法及系统
CN114399604B (zh) * 2022-03-25 2022-05-27 北京飞渡科技有限公司 一种基于语义理解的建筑立面纹理快速生成方法及系统

Also Published As

Publication number Publication date
CN107832335B (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN107832335A (zh) 一种基于上下文深度语义信息的图像检索方法
CN108875674B (zh) 一种基于多列融合卷积神经网络的驾驶员行为识别方法
Liu et al. Query2label: A simple transformer way to multi-label classification
Yuan et al. Remote sensing image scene classification using rearranged local features
Liu et al. Similarity-based unsupervised deep transfer learning for remote sensing image retrieval
CN112861978B (zh) 一种基于注意力机制的多分支特征融合遥感场景图像分类方法
Zhao et al. Dirichlet-derived multiple topic scene classification model for high spatial resolution remote sensing imagery
Hou et al. Research and improvement of content-based image retrieval framework
CN107908646A (zh) 一种基于分层卷积神经网络的图像检索方法
Zhu et al. Scene classification based on the fully sparse semantic topic model
Qayyum et al. Scene classification for aerial images based on CNN using sparse coding technique
Ye et al. A new re-ranking method based on convolutional neural network and two image-to-class distances for remote sensing image retrieval
CN107679509A (zh) 一种小环藻识别方法及装置
WO2023019698A1 (zh) 基于富上下文网络的高光谱图像分类方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
Li et al. Multiple VLAD encoding of CNNs for image classification
Wang et al. Remote sensing scene classification using heterogeneous feature extraction and multi-level fusion
Ye et al. Parallel multi-stage features fusion of deep convolutional neural networks for aerial scene classification
CN105654122A (zh) 基于核函数匹配的空间金字塔物体识别方法
Ye et al. Query-adaptive remote sensing image retrieval based on image rank similarity and image-to-query class similarity
CN107577994A (zh) 一种基于深度学习的行人、车辆附属品识别及检索方法
Lin et al. Scene recognition using multiple representation network
Zeng et al. Hard decorrelated centralized loss for fine-grained image retrieval
Qin et al. A new improved convolutional neural network flower image recognition model
Bai et al. Learning two-pathway convolutional neural networks for categorizing scene images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant