CN111666434A - 基于深度全局特征的街景图片检索方法 - Google Patents
基于深度全局特征的街景图片检索方法 Download PDFInfo
- Publication number
- CN111666434A CN111666434A CN202010453372.5A CN202010453372A CN111666434A CN 111666434 A CN111666434 A CN 111666434A CN 202010453372 A CN202010453372 A CN 202010453372A CN 111666434 A CN111666434 A CN 111666434A
- Authority
- CN
- China
- Prior art keywords
- picture
- feature
- street view
- pictures
- plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开提出一种基于深度全局特征的街景图片检索方法,该方法使用深度卷积神经网络的方法对街景图片特征进行编码,通过单个长特征向量对街景图片进行表达,并通过欧氏距离的相似度对比实现初次图片排序,最后通过SIFT特征对初次排序结果进行重排序。本发明解决了传统特征无法有效表达图像的问题,通过特定街景地标数据集的训练增强了网络对建筑特征的敏感性,增强了网络在街景图像检索的适应性并更容易对街景图像进行有效的特征抽象和表达,而且单特征向量的图像表达方式能够提升检索的速度,降低特征的数据量。通过SIFT特征对深度全局特征的排序初次排序结果进行重排序,将正确的检索图片排到较为靠前的位置,从而提升整体的检索效果。
Description
技术领域
本发明属于图像检索领域,通过街景图片的深度全局特征实现街景图片检索。
背景技术
场景图片识别一直是研究热点,特别是深度学习技术快速发展以来,场景图片识别技术也越发成熟。将深度学习图像检索技术应用到大规模街景图像检索是目前的研究新热点。街景图像在不同区域、不同时段和不同拍摄设备上都有不同详细程度的表达,如何在大规模街景图像数据中将不同区域、不同时段和不同设备拍摄的街景图像通过图像检索技术最大程度搜寻到相似图像是目前的技术难点。
随着街景地图的普及,街景的相关研究也逐渐进入了研究者的视线中。Fu-EnWang等人[1]将等矩形全景图转换成立方体全景图的方式将全景图映射到自定义平面内,得到等矩形全景图矫正后的平面图。通过矫正后的街景平面图能够提取更有效的深度局部特征,减少检索过程变形带来的误差,提高检索效率。
David G.Lowe[2]发现了尺度不变特征变换(SIFT)使得SIFT特征在图像检索和图像匹配领域得到广泛应用,Herbert Bay等人[3]对SIFT进行加速和优化得到SURF。Zamir等人[4]提取街景图片的SIFT特征,并通过每个查询特征的最近邻特征确定相似图片,根据查询结果得到街景图片投票地图,使用高斯平滑后的峰值作为查询结果得到查询图片的地理位置。Eyasu Zemene等人[5]使用SIFT特征进行图片查询,不同查询特征点对应的查询结果进行匹配得到多个不同的匹配集合,不同集合中的结果图片再与查询图片特征进行匹配,根据匹配效果进行投票,选取集合内效果最好的图片作为结果输出。
Yicheng Fang等人[6]卷积神经网络GoogleLeNet预训练模型提取图片全局特征,通过欧式距离比较查询图片和街景图片的相似度,选择前十张相似度最高的图片进行局部显著区域检测,并对这些区域提取SIFT特征实现查询图片和结果图片之间的匹配和排序。Luis G.Camara等人[7]提出基于卷积神经网络的的位置识别系统,该系统提取街景图片的VGG16网络的conv5-2层特征并进行pca降维得到图片全局特征,使用该特征进行图片粗筛,对粗筛结果进行空间特征匹配实现精筛得到识别结果。Zetao Chen等人[8]收集大量街景图片数据并构造了场景图片数据集SPED,采用分类的方式训练场景图片并使用多尺度池化和特征拼接的方式得到图片特征。Pilailuck Panphattarasap等人[9]使用地标数据集训练深度卷积神经网络并用于街景图片的检索。
Ziqi Wang等人[10]利用历史街景照片和同一地区的现在街景照片实现街景图片的检索,作者对同一地区的104张历史街景图片进行标注,使用NetVLAD方法将局部特征和全局特征进行结合,将学习到和局部特征转换为鲁棒性较强的全局特征,训练过程中加入MK-MMD loss学习历史街景和现在街景图片之间的差别,并使用了注意力机制学习街景图片的关键部分,该方法在街景图片检索中取得较好的检索效果。Ahmet Iscen等人[11]将多张局部平面图拼接成无变形全景图,通过NetVLAD网络提取全景图全局特征并实现全景图匹配和检索。虽然这些方法在街景检索领域有一定检索效果,但是随着数据量的增大,这些方法也存在检索效果不佳或数据存储量过大的问题。
相关参考文献如下:
[1]Wang,Fu-En,Hou-Ning Hu,Hsien-Tzu Cheng,Juan-Ting Lin,Shang-TaYang,Meng-Li Shih,Hung-Kuo Chu and Min Sun.“Self-Supervised Learning of Depthand Camera Motion from 360°Videos.”ArXiv abs/1811.05304(2018):n.pag.
[2]Lowe D G.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[3]Bay H,Tuytelaars T,Gool L J V.SURF:Speeded Up Robust Features[J].2006.
[4]Zamir,Amir&Shah,Mubarak.(2010).Accurate Image Localization Basedon Google Maps Street View.255-268.10.1007/978-3-642-15561-1_19.
[5]Mequanint,Eyasu&Tesfaye,Yonatan&Idrees,Haroon&Prati,Andrea&Pelillo,Marcello&Shah,Mubarak.(2017).Large-Scale Image Geo-Localization UsingDominant Sets.IEEE Transactions on Pattern Analysis and MachineIntelligence.41.10.1109/TPAMI.2017.2787132.
[6]Yicheng Fang,Kaiwei Wang,Ruiqi Cheng,Kailun Yang,Jian Bai,"Visualplace recognition based on multilevel descriptors for the visually impairedpeople,"Proc.SPIE 11158,Target and Background Signatures V,1115808(17October2019);https://doi.org/10.1117/12.2532524
[7]Gomez Camara,Luis&Preucil,Libor.(2019).Spatio-Semantic ConvNet-Based Visual Place Recognition.1-8.10.1109/ECMR.2019.8870948.
[8]Chen,Zetao&Jacobson,Adam&Sunderhauf,Niko&Upcroft,Ben&Liu,Lingqiao&Shen,Chunhua&Reid,Ian&Milford,Michael.(2017).Deep learning features at scalefor visual place recognition.3223-3230.10.1109/ICRA.2017.7989366.
[9]Panphattarasap,P.,&Calway,A.(2016).Visual Place Recognition UsingLandmark Distribution Descriptors.ArXiv,abs/1608.04274.
[10]Wang,Ziqi&Li,Jiahui&Khademi,Seyran&Gemert,Jan.(2019).Attention-Aware Age-Agnostic Visual Place Recognition.
[11]Iscen,Ahmet&Tolias,Giorgos&Avrithis,Yannis&Furon,Teddy&Chum,Ondrej.(2017).Panorama to panorama matching for location recognition.
发明内容
为了解决传统图像检索方法用于街景检索时精度不高的问题,同时提升检索速度,本发明提出一种基于深度全局特征的街景图片检索方法,该方法的主要步骤如下:
步骤一、获取街景数据后,对街景图片进行拼接得到完整的街景全景图,并对全景图进行裁剪预处理,得到预处理后的街景全景图;以预处理后的街景全景图为基础,设置合适的投影参数、图片的尺寸和保存方式,根据等距柱状投影中曲面到平面的映射关系,将等矩形全景图转换为无变形局部平面图,从而获得街景数据集;
步骤二、根据研究区域范围,收集研究区域的街景图片数据,并对收集的街景相片进行裁剪和滤波,得到街景测试数据集;
步骤三、收集地标数据集中图片数据的URL,通过该URL下载地标图片数据,根据地标图片的对应类别号进行分类,同一个文件下存放同一类地标;
步骤四、地标数据集的清洗;通过地标数据集训练Resnet101网络,得到第一阶段的训练模型,并通过该模型对地标数据集进行清洗,获得干净的地标数据集,然后根据随机选取的原则得到干净的训练集和验证集数据;
步骤五、使用干净的训练集对Resnet101网络进行训练,得到第二阶段的训练模型;
步骤六、将步骤一中的街景数据集中的图片输入步骤五中训练好的Resnet101网络,删除Resnet101网络的全连接层,获取每张街景图片的特征向量,每张街景图片通过Resnet101网络的池化层输出的2048维向量进行表达,特征向量保存在特征数组中,同时通过另一个图片信息数组保存图片的图片名和对应的图片类别;
步骤七、从步骤二中的测试数据集中逐张读取查询图片,并将查询图片输入步骤五中训练好的Resnet101网络获取查询图片的深度全局特征;读取步骤六的特征数组和图片信息数组,将查询图片的特征向量与特征数组的特征向量进行相似度计算,相似度计算采用欧氏距离并进行降序排序,通过排序后的索引号到图片信息数组中获取图片的路径信息,获得最相似的TopN’张结果图片;
步骤八、对步骤七的TopN’张结果图片提取SIFT特征;
步骤九、将查询图片与结果图片的SIFT特征进行匹配,通过匹配点数量进行重排序,输出最后的排序结果。
进一步的,步骤一中所述的裁剪预处理包括,对街景全景图下方黑边部分以及街景全景图右边重复部分进行裁剪,使得预处理后的街景全景图长宽比为2:1。
进一步的,步骤一中根据等距柱状投影中曲面到平面的映射关系,将等矩形全景图转换为无变形局部平面图的具体方法如下,
Step11,根据球面到平面的投影关系反算得到平面到球面的转换公式,由球面到平面的投公式是:
根据以上公式得到平面转换到球面的公式:
Step12,以球心投影为基本方法将上述得到的像素经纬度坐标映射至平面得到无变形街景平面图,曲面映射至平面的公式如下:
cos c=sinφ′1*sinφ′+cosφ′1*cosφ′*cos(λ′-λ′0)
其中,x1是平面图水平坐标,y1是平面图垂直坐标,λ′和φ′分别表示曲面与平面的切点的经度和纬度;λ′0和φ′1分别表示曲面上点的经度和纬度,c表示点(x1,y1)与投影中心的角距。
进一步的,步骤四的具体实现方法如下,
Step41,使用清洗前的地标数据集对Resnet101网络进行训练,将网络的损失训练至收敛,得到第一阶段的训练模型;
Step42,以每个类别为基本单位,使用第一阶段训练好的模型提取地标数据集中每个类别图片的平均池化特征,将每个类别图片的特征和图片名分别以npy格式保存下来;
Step43,加载每个类别的特征文件,对该类别内所有特征取平均得到特征中心,计算离特征中心最近的前N个特征向量,计算该前N个特征向量的特征中心,再次计算该中心最近的k个特征向量,再次计算该k个特征向量的中心,计算该特征中心与该类别其它图片特征向量的余弦相似度,选取余弦相似度大于一定阈值的图片,删除余弦相似度小于一定阈值的图片,余弦相似度的计算公式为:
其中cosθ表示余弦相似度,A表示特征中心向量,B表示图片特征向量,n表示向量维度。
进一步的,步骤五中对Resnet101网络进行训练时,训练的次数为100个epoch,Resnet101网络每训练5个epoch则使用清洗后的验证集计算Resnet101网络的分类精度;采用学习率衰减的方法控制学习速度,Resnet101网络训练的前30个epoch采用学习率为0.01,第31到60个epoch训练采用的学习率为0.001,最后40个epoch采用的学习率为0.0001。
进一步的,步骤七中N’的取值为50。
进一步的,步骤九的具体实现方法如下,
Step 91,首先获取查询图片的SIFT特征;
Step 92,对于查询图片中的某个SIFT特征点Pi,计算其与第k张结果图片中最近和次近的SIFT特征点Sk1和Sk2,向量距离的计算公式如下:
其中n为向量维度,L(C,D)表示向量C和向量D的距离,计算特征点Pi、Sk1与Pi、Sk2之间的距离之比,即:
L1=L(Pi,Sk1)
L2=L(Pi,Sk2)
若距离比G(L1,L2)<=m,则认为该查询图像的SIFT特征点与结果图像中的距离最近的SIFT特征点匹配成功,记录查询图片与每张结果图片正确匹配的特征点数量;
Step 93,根据Step 92中正确匹配的特征点数量进行降序排序,输出最后的排序结果。
与现有技术相比,本发明的优点和有益效果为:
相对于传统的全局特征和局部特征,通过深度学习技术实现街景图像检索有较为明显的优势。使用全局特征对图像进行描述简单易行,可通过训练的方式提升网络模型的适应性,对相关任务,如建筑的识别可通过相关的建筑数据集提升建筑识别能力,从而增强特征的鲁棒性。全局特征通过单特征向量对图片进行描述,其检索速度较局部特征速度快,能够适应大规模街景图像检索在速度上的要求。同时通过基于SIFT特征的重排序方法能够弥补深度全局特征在大规模街景图像上检索精度的不足,通过图像匹配的方式计算图像的相似度,从而实现将可能的正确结果前移,达到提升检索效果的目的。
附图说明
图1为本发明的流程图。
图2为本发明实例的步骤一流程图。
图3为本发明实例的步骤四流程图。
图4为本发明实例的步骤七流程图。
具体实施方法
为了使专业技术人员更容易理解本发明的技术方案和路线,这里结合附图和相关实例对本发明进行详细说明,应该注意这里所描述的实例仅用于本发明的解释说明,并不限定本发明。
如附图1所示,本发明提供一种基于深度全局特征的街景图片检索方法,具体步骤如下:
步骤一:该步骤流程可见附图2,对分割的街景图片块进行拼接得到完整的街景全景图,即根据图片名称的行列号进行直接拼接得到原始街景全景图数据。为了减小平面图转换时的畸变,将等矩形全景图进行裁剪,即对全景图下方黑边部分以及全景图右边重复部分进行裁剪,使得预处理后的全景图长宽比为2:1。以预处理后的街景全景图为基础,设置合适的投影参数、图片的尺寸和保存方式,根据等距柱状投影中曲面到平面的映射关系,将等矩形全景图转换为无变形局部平面图。
经过等距柱状投影后,经线转换为等距离的竖直线,纬线转换为距离恒定且长度为经线长度2倍的水平直线。在裁剪后得到的街景全景图数据基础上,根据等距柱状投影的反投影方法将等矩形全景图的像素坐标转换到球面坐标,再通过平面投影将局部球面映射至平面上,实现曲面全景图到局部无变形街景平面图的转换,转换后得到街景数据集。
详细计算方式如下:
Step 11:根据球面到平面的投影关系反算得到平面到球面的转换公式,由球面到平面的投公式是:
β=y+β1
其中α是经线,β是纬线,β1是标准纬线,α0是中心子午线;x是水平坐标,y为垂直坐标。
根据以上公式得到平面转换到球面的公式:
β=y+β1
同理,α是经线,β是纬线,β1是标准纬线,α0是中心子午线;x是水平坐标,y为垂直坐标。由上述平面到球面的转换公式即可将等矩形全景图还原到球面上,得到相关像素点的经纬度坐标;
Step12:以球心投影为基本方法将上述得到的像素经纬度坐标映射至平面得到无变形街景平面图,曲面映射至平面的公式如下:
cos c=sinφ′1*sinφ′+cosφ′1*cosφ′*cos(λ′-λ′0)
其中,x1是平面图水平坐标,y1是平面图垂直坐标,λ′和φ′分别表示曲面与平面的切点的经度和纬度,一般取值为0;λ′0和φ′1分别表示曲面上点的经度和纬度,c表示点(x1,y1)与投影中心的角距。
步骤二:通过拍照或者网上搜索图片的方式获取研究区域的街景图片数据;对搜集到的街景图片进行裁剪和滤波,得到测试集。有多种不同的滤波方法,如均值滤波、高斯滤波和中值滤波等,选用其中一种即可,可使用的代码或者开源库也比较多,可用python的cv2库或Image库。
步骤三:通过谷歌地标数据集的图片URL下载地标图片数据,将下载后的地标图片存放在同一个文件夹下,每张地标图片名都有类别号,根据地标图片的对应类别号进行分类,使得同一个文件下存放同一类地标;使用urllib库下载地标图片,可通过multiprocessing库使用多进程加速下载。
步骤四:参见附图3,使用地标数据集训练特征提取器(Resnet101模型),训练后对数据集进行清洗,除去部分噪声数据,根据随机选取的原则从将清洗后的地标数据集中每一类中选取若干张图片作为验证集,余下数据作为训练集,该步骤详细说明如下:
Step 41:使用清洗前的地标数据集中1500类对Resnet101分类网络进行训练,将网络的损失训练至收敛,得到第一阶段的训练模型;
Step42:以每个类别为基本单位,使用第一阶段训练好的模型提取地标数据集中每个类别图片的平均池化特征,将每个类别图片的特征和图片名分别以npy格式保存下来;
Step43:加载每个类别的特征文件,对该类别内所有特征取平均得到特征中心,计算离特征中心最近的前N个特征向量,计算该前N个特征向量的特征中心,再次计算该中心最近的k个特征向量,再次计算该k个特征向量的中心,计算该特征中心与该类别其它图片特征向量的余弦相似度,选取余弦相似度大于0.8的图片,删除余弦相似度小于0.8的图片,余弦相似度的计算公式为:
其中cosθ表示余弦相似度,A表示特征中心向量,B表示图片特征向量,n表示向量维度。
步骤五、使用步骤四得到的干净的地标训练集数据中的1500类地标图片对Resnet101网络进行训练,得到第二阶段的训练模型。训练的次数为100个epoc h,Resnet101网络每训练5个epoch则使用清洗后的验证集计算Resnet101网络的分类精度。采用学习率衰减的方法控制学习速度,Resnet101网络训练的前30个epoch采用学习率为0.01,第31到60个epoch训练采用的学习率为0.001,最后40个epoch采用的学习率为0.0001。
步骤六:对步骤一得到的街景数据集中的图片进行特征提取。将街景数据集中的图片输入步骤五训练好的Resnet101网络,删除Resnet101网络的全连接层,获取每张街景图片的特征向量,每张街景图片通过Resnet101的池化层输出的2048维向量进行表达。特征向量保存在数组中,同时通过另一个图片信息数组保存图片的图片名和对应的图片类别,该图片类别即为街景全景图的类别名。分别对特征数组和图片信息数组进行保存。
步骤七:从测试集中逐张读取查询图片,并将查询图片输入训练好的Resne t101网络获取查询图片的深度全局特征。读取步骤六的特征数组和图片信息数组,将查询图片的特征向量与特征数组的特征向量进行相似度计算,相似度计算采用欧氏距离并进行降序排序,通过排序后的索引号到图片信息数组中获取图片的路径信息,获得最相似的TopN张结果图片(这里采用N=50,即欧氏距离最小的前50张街景图片)。
步骤八:对步骤七的Top50张结果图片提取SIFT特征。读取结果图片的单通道获取图片对应的灰度图,使用opencv-contrib-python库中SIFT内置的detec tAndCompute()函数对灰度图片的特征点进行探测并计算得到SIFT特征,将SIF T特征使用对应图片名进行命名并进行保存。
步骤九:查询图片与结果图片的SIFT特征进行匹配,通过匹配点数量进行重排序,具体步骤如下:
Step 91:通过步骤七相同的方式获取查询图片的SIFT特征;
Step 92:对于查询图片中的某个SIFT特征点Pi,计算其与第k张结果图片中最近和次近的SIFT特征点Sk1和Sk2,向量距离的计算公式如下:
其中n为向量维度,L(C,D)表示向量C和向量D的距离,计算特征点Pi、Sk1与Pi、Sk2之间的距离之比,即:
L1=L(Pi,Sk1)
L2=L(Pi,Sk2)
若距离比G(L1,L2)<=m(m一般选择0.8),则认为该查询图像的SIFT特征点与结果图像中的距离最近的SIFT特征点匹配成功,记录查询图片与每张结果图片正确匹配的特征点数量;
Step 93:根据Step 92中正确匹配的特征点数量进行降序排序,输出最后的排序结果。
值得注意的是,对本领从业人员来说,本发明仅为一个具体案例,根据上述说明加以变换或者改进,都应当在本发明所附权利要求的保护范围。
Claims (7)
1.一种基于深度全局特征的街景图片检索方法,其特征在于,包括以下步骤:
步骤一、获取街景数据后,对街景图片进行拼接得到完整的街景全景图,并对全景图进行裁剪预处理,得到预处理后的街景全景图;以预处理后的街景全景图为基础,设置合适的投影参数、图片的尺寸和保存方式,根据等距柱状投影中曲面到平面的映射关系,将等矩形全景图转换为无变形局部平面图,从而获得街景数据集;
步骤二、根据研究区域范围,收集研究区域的街景图片数据,并对收集的街景相片进行裁剪和滤波,得到街景测试数据集;
步骤三、收集地标数据集中图片数据的URL,通过该URL下载地标图片数据,根据地标图片的对应类别号进行分类,同一个文件下存放同一类地标;
步骤四、地标数据集的清洗;通过地标数据集训练Resnet101网络,得到第一阶段的训练模型,并通过该模型对地标数据集进行清洗,获得干净的地标数据集,然后根据随机选取的原则得到干净的训练集和验证集数据;
步骤五、使用干净的训练集对Resnet101网络进行训练,得到第二阶段的训练模型;
步骤六、将步骤一中的街景数据集中的图片输入步骤五中训练好的Resnet101网络,删除Resnet101网络的全连接层,获取每张街景图片的特征向量,每张街景图片通过Resnet101网络的池化层输出的2048维向量进行表达,特征向量保存在特征数组中,同时通过另一个图片信息数组保存图片的图片名和对应的图片类别;
步骤七、从步骤二中的测试数据集中逐张读取查询图片,并将查询图片输入步骤五中训练好的Resnet101网络获取查询图片的深度全局特征;读取步骤六的特征数组和图片信息数组,将查询图片的特征向量与特征数组的特征向量进行相似度计算,相似度计算采用欧氏距离并进行降序排序,通过排序后的索引号到图片信息数组中获取图片的路径信息,获得最相似的TopN’张结果图片;
步骤八、对步骤七的TopN’张结果图片提取SIFT特征;
步骤九、将查询图片与结果图片的SIFT特征进行匹配,通过匹配点数量进行重排序,输出最后的排序结果。
2.根据权利要求1所述的基于深度局部特征的街景图片检索方法,其特征在于:步骤一中所述的裁剪预处理包括,对街景全景图下方黑边部分以及街景全景图右边重复部分进行裁剪,使得预处理后的街景全景图长宽比为2:1。
3.根据权利要求1所述的基于深度局部特征的街景图片检索方法,其特征在于:步骤一中根据等距柱状投影中曲面到平面的映射关系,将等矩形全景图转换为无变形局部平面图的具体方法如下,
Step11,根据球面到平面的投影关系反算得到平面到球面的转换公式,由球面到平面的投公式是:
根据以上公式得到平面转换到球面的公式:
Step12,以球心投影为基本方法将上述得到的像素经纬度坐标映射至平面得到无变形街景平面图,曲面映射至平面的公式如下:
cosc=sinφ′1*sinφ′+cosφ′1*cosφ′*cos(λ′-λ′0)
其中,x1是平面图水平坐标,y1是平面图垂直坐标,λ′和φ′分别表示曲面与平面的切点的经度和纬度;λ′0和φ′1分别表示曲面上点的经度和纬度,c表示点(x1,y1)与投影中心的角距。
4.根据权利要求1所述的基于深度局部特征的街景图片检索方法,其特征在于:步骤四的具体实现方法如下,
Step41,使用清洗前的地标数据集对Resnet101网络进行训练,将网络的损失训练至收敛,得到第一阶段的训练模型;
Step42,以每个类别为基本单位,使用第一阶段训练好的模型提取地标数据集中每个类别图片的平均池化特征,将每个类别图片的特征和图片名分别以npy格式保存下来;
Step43,加载每个类别的特征文件,对该类别内所有特征取平均得到特征中心,计算离特征中心最近的前N个特征向量,计算该前N个特征向量的特征中心,再次计算该中心最近的k个特征向量,再次计算该k个特征向量的中心,计算该特征中心与该类别其它图片特征向量的余弦相似度,选取余弦相似度大于一定阈值的图片,删除余弦相似度小于一定阈值的图片,余弦相似度的计算公式为:
其中cosθ表示余弦相似度,A表示特征中心向量,B表示图片特征向量,n表示向量维度。
5.根据权利要求1所述的基于深度局部特征的街景图片检索方法,其特征在于:步骤五中对Resnet101网络进行训练时,训练的次数为100个epoch,Resnet101网络每训练5个epoch则使用清洗后的验证集计算Resnet101网络的分类精度;采用学习率衰减的方法控制学习速度,Resnet101网络训练的前30个epoch采用学习率为0.01,第31到60个epoch训练采用的学习率为0.001,最后40个epoch采用的学习率为0.0001。
6.根据权利要求1所述的基于深度局部特征的街景图片检索方法,其特征在于:步骤七中N’的取值为50。
7.根据权利要求1所述的基于深度局部特征的街景图片检索方法,其特征在于:步骤九的具体实现方法如下,
Step91,首先获取查询图片的SIFT特征;
Step92,对于查询图片中的某个SIFT特征点Pi,计算其与第k张结果图片中最近和次近的SIFT特征点Sk1和Sk2,向量距离的计算公式如下:
其中n为向量维度,L(C,D)表示向量C和向量D的距离,计算特征点Pi、Sk1与Pi、Sk2之间的距离之比,即:
L1=L(Pi,Sk1)
L2=L(Pi,Sk2)
若距离比G(L1,L2)<=m,则认为该查询图像的SIFT特征点与结果图像中的距离最近的SIFT特征点匹配成功,记录查询图片与每张结果图片正确匹配的特征点数量;
Step93,根据Step92中正确匹配的特征点数量进行降序排序,输出最后的排序结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010453372.5A CN111666434B (zh) | 2020-05-26 | 2020-05-26 | 基于深度全局特征的街景图片检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010453372.5A CN111666434B (zh) | 2020-05-26 | 2020-05-26 | 基于深度全局特征的街景图片检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666434A true CN111666434A (zh) | 2020-09-15 |
CN111666434B CN111666434B (zh) | 2021-11-02 |
Family
ID=72384652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010453372.5A Active CN111666434B (zh) | 2020-05-26 | 2020-05-26 | 基于深度全局特征的街景图片检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666434B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182264A (zh) * | 2020-10-10 | 2021-01-05 | 书行科技(北京)有限公司 | 地标信息的确定方法、装置、设备及可读存储介质 |
CN112966137A (zh) * | 2021-01-27 | 2021-06-15 | 中国电子进出口有限公司 | 基于全局与局部特征重排的图像检索方法与系统 |
CN113239952A (zh) * | 2021-03-30 | 2021-08-10 | 西北工业大学 | 一种基于空间尺度注意力机制和矢量地图的航空图像地理定位方法 |
CN113569636A (zh) * | 2021-06-22 | 2021-10-29 | 中国科学院信息工程研究所 | 基于球面特征的鱼眼图像特征处理方法、系统及电子设备 |
CN114444564A (zh) * | 2021-12-14 | 2022-05-06 | 广州锐竞信息科技有限责任公司 | 一种基于深度神经网络模型的高相似度论文图片比对方法 |
WO2022126921A1 (zh) * | 2020-12-18 | 2022-06-23 | 平安科技(深圳)有限公司 | 全景图片的检测方法、装置、终端及存储介质 |
CN114972506A (zh) * | 2022-05-05 | 2022-08-30 | 武汉大学 | 一种基于深度学习和街景图像的图像定位方法 |
CN115641499A (zh) * | 2022-10-19 | 2023-01-24 | 感知天下(北京)信息科技有限公司 | 基于街景图特征库的拍照实时定位方法、设备及存储介质 |
Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010020137A1 (en) * | 1999-08-10 | 2001-09-06 | Richard Granger | Method and computer program product for assessing neurological conditions and treatments using evoked response potentials |
JP2005107596A (ja) * | 2003-09-26 | 2005-04-21 | Ricoh Co Ltd | 商品情報提供方法及び商品情報提供プログラム |
CN101938605A (zh) * | 2009-06-30 | 2011-01-05 | 爱国者全景(北京)网络科技发展有限公司 | 生成全景视频的方法 |
US20110214050A1 (en) * | 2006-09-29 | 2011-09-01 | Stambaugh Thomas M | Virtual systems for spatial organization, navigation, and presentation of information |
US20130187949A1 (en) * | 2004-08-31 | 2013-07-25 | Mv Patents, Llc | Wireless internet-accessible drive-by street view system and method |
US20150067512A1 (en) * | 2009-08-13 | 2015-03-05 | TunesMap Inc. | Analyzing Captured Sound and Seeking a Match Based on an Acoustic Fingerprint for Temporal and Geographic Presentation and Navigation of Linked Cultural, Artistic, and Historic Content |
CN105635551A (zh) * | 2014-10-29 | 2016-06-01 | 浙江大华技术股份有限公司 | 一种球型摄像机生成全景图像的方法及球型摄像机 |
CN106683045A (zh) * | 2016-09-28 | 2017-05-17 | 深圳市优象计算技术有限公司 | 一种基于双目像机的全景图像拼接方法 |
CN107273864A (zh) * | 2017-06-22 | 2017-10-20 | 星际(重庆)智能装备技术研究院有限公司 | 一种基于深度学习的人脸检测方法 |
CN107358596A (zh) * | 2017-04-11 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种基于图像的车辆定损方法、装置、电子设备及系统 |
CN109165698A (zh) * | 2018-10-16 | 2019-01-08 | 中国电子科技集团公司信息科学研究院 | 一种面向智慧交通的图像分类识别方法及其存储介质 |
US20190108411A1 (en) * | 2017-10-11 | 2019-04-11 | Alibaba Group Holding Limited | Image processing method and processing device |
CN109635150A (zh) * | 2018-12-19 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置以及存储介质 |
CN109658465A (zh) * | 2018-12-07 | 2019-04-19 | 广州华端科技有限公司 | 图像重建过程中的数据处理、图像重建方法和装置 |
CN110019917A (zh) * | 2018-08-29 | 2019-07-16 | 北京旷视科技有限公司 | 商品检索方法、装置及电子设备 |
CN110119460A (zh) * | 2019-05-16 | 2019-08-13 | 广东三维家信息科技有限公司 | 图像检索方法、装置及电子设备 |
US20190295318A1 (en) * | 2018-03-21 | 2019-09-26 | Zoox, Inc. | Generating maps without shadows |
CN110347855A (zh) * | 2019-07-17 | 2019-10-18 | 京东方科技集团股份有限公司 | 画作推荐方法、终端设备、服务器、计算机设备及介质 |
CN110463205A (zh) * | 2017-03-22 | 2019-11-15 | 高通股份有限公司 | 用于360度视频的有效压缩的球极投影 |
CN110704712A (zh) * | 2019-09-20 | 2020-01-17 | 武汉大学 | 基于图像检索的场景图片拍摄位置范围识别方法及系统 |
CN110839242A (zh) * | 2018-08-17 | 2020-02-25 | 中国移动通信集团广东有限公司 | 异常号码识别方法及装置 |
US10650546B2 (en) * | 2009-10-19 | 2020-05-12 | Apple Inc. | Method of providing a descriptor for at least one feature of an image and method of matching features |
-
2020
- 2020-05-26 CN CN202010453372.5A patent/CN111666434B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010020137A1 (en) * | 1999-08-10 | 2001-09-06 | Richard Granger | Method and computer program product for assessing neurological conditions and treatments using evoked response potentials |
JP2005107596A (ja) * | 2003-09-26 | 2005-04-21 | Ricoh Co Ltd | 商品情報提供方法及び商品情報提供プログラム |
US20130187949A1 (en) * | 2004-08-31 | 2013-07-25 | Mv Patents, Llc | Wireless internet-accessible drive-by street view system and method |
US20110214050A1 (en) * | 2006-09-29 | 2011-09-01 | Stambaugh Thomas M | Virtual systems for spatial organization, navigation, and presentation of information |
CN101938605A (zh) * | 2009-06-30 | 2011-01-05 | 爱国者全景(北京)网络科技发展有限公司 | 生成全景视频的方法 |
US20150067512A1 (en) * | 2009-08-13 | 2015-03-05 | TunesMap Inc. | Analyzing Captured Sound and Seeking a Match Based on an Acoustic Fingerprint for Temporal and Geographic Presentation and Navigation of Linked Cultural, Artistic, and Historic Content |
US10650546B2 (en) * | 2009-10-19 | 2020-05-12 | Apple Inc. | Method of providing a descriptor for at least one feature of an image and method of matching features |
CN105635551A (zh) * | 2014-10-29 | 2016-06-01 | 浙江大华技术股份有限公司 | 一种球型摄像机生成全景图像的方法及球型摄像机 |
CN106683045A (zh) * | 2016-09-28 | 2017-05-17 | 深圳市优象计算技术有限公司 | 一种基于双目像机的全景图像拼接方法 |
CN110463205A (zh) * | 2017-03-22 | 2019-11-15 | 高通股份有限公司 | 用于360度视频的有效压缩的球极投影 |
CN107358596A (zh) * | 2017-04-11 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种基于图像的车辆定损方法、装置、电子设备及系统 |
CN107273864A (zh) * | 2017-06-22 | 2017-10-20 | 星际(重庆)智能装备技术研究院有限公司 | 一种基于深度学习的人脸检测方法 |
US20190108411A1 (en) * | 2017-10-11 | 2019-04-11 | Alibaba Group Holding Limited | Image processing method and processing device |
US20190295318A1 (en) * | 2018-03-21 | 2019-09-26 | Zoox, Inc. | Generating maps without shadows |
CN110839242A (zh) * | 2018-08-17 | 2020-02-25 | 中国移动通信集团广东有限公司 | 异常号码识别方法及装置 |
CN110019917A (zh) * | 2018-08-29 | 2019-07-16 | 北京旷视科技有限公司 | 商品检索方法、装置及电子设备 |
CN109165698A (zh) * | 2018-10-16 | 2019-01-08 | 中国电子科技集团公司信息科学研究院 | 一种面向智慧交通的图像分类识别方法及其存储介质 |
CN109658465A (zh) * | 2018-12-07 | 2019-04-19 | 广州华端科技有限公司 | 图像重建过程中的数据处理、图像重建方法和装置 |
CN109635150A (zh) * | 2018-12-19 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置以及存储介质 |
CN110119460A (zh) * | 2019-05-16 | 2019-08-13 | 广东三维家信息科技有限公司 | 图像检索方法、装置及电子设备 |
CN110347855A (zh) * | 2019-07-17 | 2019-10-18 | 京东方科技集团股份有限公司 | 画作推荐方法、终端设备、服务器、计算机设备及介质 |
CN110704712A (zh) * | 2019-09-20 | 2020-01-17 | 武汉大学 | 基于图像检索的场景图片拍摄位置范围识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
PRATIMA JADHAV ET.AL: ""SIFT implemented Efficient Content based Image Retrieval System using Neural"", 《2015 INTERNATIONAL CONFERENCE ON INFORMATION PROCESSING (ICIP)》 * |
袁建中等: "基于深度卷积神经网络的道路场景深度估计", 《激光与光电子学进展》 * |
黄金星等: "基于残差连接的场景文本识别端到端网络结构优化", 《计算机科学》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182264A (zh) * | 2020-10-10 | 2021-01-05 | 书行科技(北京)有限公司 | 地标信息的确定方法、装置、设备及可读存储介质 |
CN112182264B (zh) * | 2020-10-10 | 2024-05-10 | 书行科技(北京)有限公司 | 地标信息的确定方法、装置、设备及可读存储介质 |
WO2022126921A1 (zh) * | 2020-12-18 | 2022-06-23 | 平安科技(深圳)有限公司 | 全景图片的检测方法、装置、终端及存储介质 |
CN112966137A (zh) * | 2021-01-27 | 2021-06-15 | 中国电子进出口有限公司 | 基于全局与局部特征重排的图像检索方法与系统 |
CN113239952A (zh) * | 2021-03-30 | 2021-08-10 | 西北工业大学 | 一种基于空间尺度注意力机制和矢量地图的航空图像地理定位方法 |
CN113239952B (zh) * | 2021-03-30 | 2023-03-24 | 西北工业大学 | 一种基于空间尺度注意力机制和矢量地图的航空图像地理定位方法 |
CN113569636A (zh) * | 2021-06-22 | 2021-10-29 | 中国科学院信息工程研究所 | 基于球面特征的鱼眼图像特征处理方法、系统及电子设备 |
CN113569636B (zh) * | 2021-06-22 | 2023-12-05 | 中国科学院信息工程研究所 | 基于球面特征的鱼眼图像特征处理方法、系统及电子设备 |
CN114444564A (zh) * | 2021-12-14 | 2022-05-06 | 广州锐竞信息科技有限责任公司 | 一种基于深度神经网络模型的高相似度论文图片比对方法 |
CN114972506A (zh) * | 2022-05-05 | 2022-08-30 | 武汉大学 | 一种基于深度学习和街景图像的图像定位方法 |
CN114972506B (zh) * | 2022-05-05 | 2024-04-30 | 武汉大学 | 一种基于深度学习和街景图像的图像定位方法 |
CN115641499A (zh) * | 2022-10-19 | 2023-01-24 | 感知天下(北京)信息科技有限公司 | 基于街景图特征库的拍照实时定位方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111666434B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111666434B (zh) | 基于深度全局特征的街景图片检索方法 | |
Chen et al. | Feature detection and description for image matching: from hand-crafted design to deep learning | |
Aubry et al. | Painting-to-3D model alignment via discriminative visual elements | |
Castaldo et al. | Semantic cross-view matching | |
CN110263659B (zh) | 一种基于三元组损失和轻量级网络的指静脉识别方法及系统 | |
Irschara et al. | From structure-from-motion point clouds to fast location recognition | |
Liu et al. | Sift flow: Dense correspondence across different scenes | |
Sattler et al. | Fast image-based localization using direct 2d-to-3d matching | |
Sun et al. | A dataset for benchmarking image-based localization | |
JP6216508B2 (ja) | 3dシーンにおける3d物体の認識および姿勢決定のための方法 | |
CN110866953A (zh) | 地图构建方法及装置、定位方法及装置 | |
US9626585B2 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
Mousavi et al. | A two-step descriptor-based keypoint filtering algorithm for robust image matching | |
CN111028292A (zh) | 一种亚像素级图像匹配导航定位方法 | |
CN109272577B (zh) | 一种基于Kinect的视觉SLAM方法 | |
CN116503622A (zh) | 基于计算机视觉图像的数据采集读取方法 | |
CN110246165B (zh) | 提高可见光图像与sar图像配准速度的方法及系统 | |
Barroso-Laguna et al. | Scalenet: A shallow architecture for scale estimation | |
Srivastava et al. | Drought stress classification using 3D plant models | |
CN113011359A (zh) | 一种基于图像的同时检测平面结构和生成平面描述的方法及应用 | |
Vojir et al. | Efficient large-scale semantic visual localization in 2d maps | |
CN110070626B (zh) | 一种基于多视角分类的三维物体检索方法 | |
CN112418262A (zh) | 车辆再识别的方法、客户端及系统 | |
Wu et al. | A vision-based indoor positioning method with high accuracy and efficiency based on self-optimized-ordered visual vocabulary | |
CN116563104A (zh) | 一种基于粒子群算法的图像配准方法及图像拼接方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |