CN111666434A

CN111666434A - 基于深度全局特征的街景图片检索方法

Info

Publication number: CN111666434A
Application number: CN202010453372.5A
Authority: CN
Inventors: 陈玉敏; 黄黎恒; 李慧芳; 罗凤兰; 谭黄元; 方涛; 褚天佑
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-15
Anticipated expiration: 2040-05-26
Also published as: CN111666434B

Abstract

本发明公开提出一种基于深度全局特征的街景图片检索方法，该方法使用深度卷积神经网络的方法对街景图片特征进行编码，通过单个长特征向量对街景图片进行表达，并通过欧氏距离的相似度对比实现初次图片排序，最后通过SIFT特征对初次排序结果进行重排序。本发明解决了传统特征无法有效表达图像的问题，通过特定街景地标数据集的训练增强了网络对建筑特征的敏感性，增强了网络在街景图像检索的适应性并更容易对街景图像进行有效的特征抽象和表达，而且单特征向量的图像表达方式能够提升检索的速度，降低特征的数据量。通过SIFT特征对深度全局特征的排序初次排序结果进行重排序，将正确的检索图片排到较为靠前的位置，从而提升整体的检索效果。

Description

基于深度全局特征的街景图片检索方法

技术领域

本发明属于图像检索领域，通过街景图片的深度全局特征实现街景图片检索。

背景技术

场景图片识别一直是研究热点，特别是深度学习技术快速发展以来，场景图片识别技术也越发成熟。将深度学习图像检索技术应用到大规模街景图像检索是目前的研究新热点。街景图像在不同区域、不同时段和不同拍摄设备上都有不同详细程度的表达，如何在大规模街景图像数据中将不同区域、不同时段和不同设备拍摄的街景图像通过图像检索技术最大程度搜寻到相似图像是目前的技术难点。

随着街景地图的普及，街景的相关研究也逐渐进入了研究者的视线中。Fu-EnWang等人^[1]将等矩形全景图转换成立方体全景图的方式将全景图映射到自定义平面内，得到等矩形全景图矫正后的平面图。通过矫正后的街景平面图能够提取更有效的深度局部特征，减少检索过程变形带来的误差，提高检索效率。

David G.Lowe^[2]发现了尺度不变特征变换(SIFT)使得SIFT特征在图像检索和图像匹配领域得到广泛应用,Herbert Bay等人^[3]对SIFT进行加速和优化得到SURF。Zamir等人^[4]提取街景图片的SIFT特征，并通过每个查询特征的最近邻特征确定相似图片，根据查询结果得到街景图片投票地图，使用高斯平滑后的峰值作为查询结果得到查询图片的地理位置。Eyasu Zemene等人^[5]使用SIFT特征进行图片查询，不同查询特征点对应的查询结果进行匹配得到多个不同的匹配集合，不同集合中的结果图片再与查询图片特征进行匹配，根据匹配效果进行投票，选取集合内效果最好的图片作为结果输出。

Yicheng Fang等人^[6]卷积神经网络GoogleLeNet预训练模型提取图片全局特征，通过欧式距离比较查询图片和街景图片的相似度，选择前十张相似度最高的图片进行局部显著区域检测，并对这些区域提取SIFT特征实现查询图片和结果图片之间的匹配和排序。Luis G.Camara等人^[7]提出基于卷积神经网络的的位置识别系统，该系统提取街景图片的VGG16网络的conv5-2层特征并进行pca降维得到图片全局特征，使用该特征进行图片粗筛，对粗筛结果进行空间特征匹配实现精筛得到识别结果。Zetao Chen等人^[8]收集大量街景图片数据并构造了场景图片数据集SPED，采用分类的方式训练场景图片并使用多尺度池化和特征拼接的方式得到图片特征。Pilailuck Panphattarasap等人^[9]使用地标数据集训练深度卷积神经网络并用于街景图片的检索。

Ziqi Wang等人^[10]利用历史街景照片和同一地区的现在街景照片实现街景图片的检索，作者对同一地区的104张历史街景图片进行标注，使用NetVLAD方法将局部特征和全局特征进行结合，将学习到和局部特征转换为鲁棒性较强的全局特征，训练过程中加入MK-MMD loss学习历史街景和现在街景图片之间的差别，并使用了注意力机制学习街景图片的关键部分，该方法在街景图片检索中取得较好的检索效果。Ahmet Iscen等人^[11]将多张局部平面图拼接成无变形全景图，通过NetVLAD网络提取全景图全局特征并实现全景图匹配和检索。虽然这些方法在街景检索领域有一定检索效果，但是随着数据量的增大，这些方法也存在检索效果不佳或数据存储量过大的问题。

相关参考文献如下：

[1]Wang,Fu-En,Hou-Ning Hu,Hsien-Tzu Cheng,Juan-Ting Lin,Shang-TaYang,Meng-Li Shih,Hung-Kuo Chu and Min Sun.“Self-Supervised Learning of Depthand Camera Motion from 360°Videos.”ArXiv abs/1811.05304(2018):n.pag.

[2]Lowe D G.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[3]Bay H,Tuytelaars T,Gool L J V.SURF:Speeded Up Robust Features[J].2006.

[4]Zamir,Amir&Shah,Mubarak.(2010).Accurate Image Localization Basedon Google Maps Street View.255-268.10.1007/978-3-642-15561-1_19.

[5]Mequanint,Eyasu&Tesfaye,Yonatan&Idrees,Haroon&Prati,Andrea&Pelillo,Marcello&Shah,Mubarak.(2017).Large-Scale Image Geo-Localization UsingDominant Sets.IEEE Transactions on Pattern Analysis and MachineIntelligence.41.10.1109/TPAMI.2017.2787132.

[6]Yicheng Fang,Kaiwei Wang,Ruiqi Cheng,Kailun Yang,Jian Bai,"Visualplace recognition based on multilevel descriptors for the visually impairedpeople,"Proc.SPIE 11158,Target and Background Signatures V,1115808(17October2019)；https://doi.org/10.1117/12.2532524

[7]Gomez Camara,Luis&Preucil,Libor.(2019).Spatio-Semantic ConvNet-Based Visual Place Recognition.1-8.10.1109/ECMR.2019.8870948.

[8]Chen,Zetao&Jacobson,Adam&Sunderhauf,Niko&Upcroft,Ben&Liu,Lingqiao&Shen,Chunhua&Reid,Ian&Milford,Michael.(2017).Deep learning features at scalefor visual place recognition.3223-3230.10.1109/ICRA.2017.7989366.

[9]Panphattarasap,P.,&Calway,A.(2016).Visual Place Recognition UsingLandmark Distribution Descriptors.ArXiv,abs/1608.04274.

[10]Wang,Ziqi&Li,Jiahui&Khademi,Seyran&Gemert,Jan.(2019).Attention-Aware Age-Agnostic Visual Place Recognition.

[11]Iscen,Ahmet&Tolias,Giorgos&Avrithis,Yannis&Furon,Teddy&Chum,Ondrej.(2017).Panorama to panorama matching for location recognition.

发明内容

为了解决传统图像检索方法用于街景检索时精度不高的问题，同时提升检索速度，本发明提出一种基于深度全局特征的街景图片检索方法，该方法的主要步骤如下：

步骤一、获取街景数据后，对街景图片进行拼接得到完整的街景全景图，并对全景图进行裁剪预处理，得到预处理后的街景全景图；以预处理后的街景全景图为基础，设置合适的投影参数、图片的尺寸和保存方式，根据等距柱状投影中曲面到平面的映射关系，将等矩形全景图转换为无变形局部平面图，从而获得街景数据集；

步骤二、根据研究区域范围，收集研究区域的街景图片数据，并对收集的街景相片进行裁剪和滤波，得到街景测试数据集；

步骤三、收集地标数据集中图片数据的URL，通过该URL下载地标图片数据，根据地标图片的对应类别号进行分类，同一个文件下存放同一类地标；

步骤四、地标数据集的清洗；通过地标数据集训练Resnet101网络，得到第一阶段的训练模型，并通过该模型对地标数据集进行清洗，获得干净的地标数据集，然后根据随机选取的原则得到干净的训练集和验证集数据；

步骤五、使用干净的训练集对Resnet101网络进行训练，得到第二阶段的训练模型；

步骤六、将步骤一中的街景数据集中的图片输入步骤五中训练好的Resnet101网络，删除Resnet101网络的全连接层，获取每张街景图片的特征向量，每张街景图片通过Resnet101网络的池化层输出的2048维向量进行表达，特征向量保存在特征数组中，同时通过另一个图片信息数组保存图片的图片名和对应的图片类别；

步骤七、从步骤二中的测试数据集中逐张读取查询图片，并将查询图片输入步骤五中训练好的Resnet101网络获取查询图片的深度全局特征；读取步骤六的特征数组和图片信息数组，将查询图片的特征向量与特征数组的特征向量进行相似度计算，相似度计算采用欧氏距离并进行降序排序，通过排序后的索引号到图片信息数组中获取图片的路径信息，获得最相似的TopN’张结果图片；

步骤八、对步骤七的TopN’张结果图片提取SIFT特征；

步骤九、将查询图片与结果图片的SIFT特征进行匹配，通过匹配点数量进行重排序，输出最后的排序结果。

进一步的，步骤一中所述的裁剪预处理包括，对街景全景图下方黑边部分以及街景全景图右边重复部分进行裁剪，使得预处理后的街景全景图长宽比为2:1。

进一步的，步骤一中根据等距柱状投影中曲面到平面的映射关系，将等矩形全景图转换为无变形局部平面图的具体方法如下，

Step11，根据球面到平面的投影关系反算得到平面到球面的转换公式，由球面到平面的投公式是：

其中λ是经线，

是纬线，

是标准纬线，λ₀是中心子午线；x是水平坐标，y为垂直坐标；

根据以上公式得到平面转换到球面的公式：

同理，λ是经线，

是纬线，

是标准纬线，λ₀是中心子午线；x是水平坐标，y为垂直坐标，由上述平面到球面的转换公式即将等矩形全景图还原到球面上，得到相关像素点的经纬度坐标；

Step12，以球心投影为基本方法将上述得到的像素经纬度坐标映射至平面得到无变形街景平面图，曲面映射至平面的公式如下：

cos c＝sinφ′₁*sinφ′+cosφ′₁*cosφ′*cos(λ′-λ′₀)

其中，x₁是平面图水平坐标，y₁是平面图垂直坐标，λ′和φ′分别表示曲面与平面的切点的经度和纬度；λ′₀和φ′₁分别表示曲面上点的经度和纬度，c表示点(x₁，y₁)与投影中心的角距。

进一步的，步骤四的具体实现方法如下，

Step41，使用清洗前的地标数据集对Resnet101网络进行训练，将网络的损失训练至收敛，得到第一阶段的训练模型；

Step42，以每个类别为基本单位，使用第一阶段训练好的模型提取地标数据集中每个类别图片的平均池化特征，将每个类别图片的特征和图片名分别以npy格式保存下来；

Step43，加载每个类别的特征文件，对该类别内所有特征取平均得到特征中心，计算离特征中心最近的前N个特征向量，计算该前N个特征向量的特征中心，再次计算该中心最近的k个特征向量，再次计算该k个特征向量的中心，计算该特征中心与该类别其它图片特征向量的余弦相似度，选取余弦相似度大于一定阈值的图片，删除余弦相似度小于一定阈值的图片，余弦相似度的计算公式为：

其中cosθ表示余弦相似度，A表示特征中心向量，B表示图片特征向量，n表示向量维度。

进一步的，步骤五中对Resnet101网络进行训练时，训练的次数为100个epoch，Resnet101网络每训练5个epoch则使用清洗后的验证集计算Resnet101网络的分类精度；采用学习率衰减的方法控制学习速度，Resnet101网络训练的前30个epoch采用学习率为0.01，第31到60个epoch训练采用的学习率为0.001，最后40个epoch采用的学习率为0.0001。

进一步的，步骤七中N’的取值为50。

进一步的，步骤九的具体实现方法如下，

Step 91，首先获取查询图片的SIFT特征；

Step 92，对于查询图片中的某个SIFT特征点P_i，计算其与第k张结果图片中最近和次近的SIFT特征点S_k1和S_k2，向量距离的计算公式如下：

其中n为向量维度，L(C，D)表示向量C和向量D的距离，计算特征点P_i、S_k1与P_i、S_k2之间的距离之比，即：

L₁＝L(P_i，S_k1)

L₂＝L(P_i，S_k2)

若距离比G(L₁，L₂)<＝m，则认为该查询图像的SIFT特征点与结果图像中的距离最近的SIFT特征点匹配成功，记录查询图片与每张结果图片正确匹配的特征点数量；

Step 93，根据Step 92中正确匹配的特征点数量进行降序排序，输出最后的排序结果。

与现有技术相比，本发明的优点和有益效果为：

相对于传统的全局特征和局部特征，通过深度学习技术实现街景图像检索有较为明显的优势。使用全局特征对图像进行描述简单易行，可通过训练的方式提升网络模型的适应性，对相关任务，如建筑的识别可通过相关的建筑数据集提升建筑识别能力，从而增强特征的鲁棒性。全局特征通过单特征向量对图片进行描述，其检索速度较局部特征速度快，能够适应大规模街景图像检索在速度上的要求。同时通过基于SIFT特征的重排序方法能够弥补深度全局特征在大规模街景图像上检索精度的不足，通过图像匹配的方式计算图像的相似度，从而实现将可能的正确结果前移，达到提升检索效果的目的。

附图说明

图1为本发明的流程图。

图2为本发明实例的步骤一流程图。

图3为本发明实例的步骤四流程图。

图4为本发明实例的步骤七流程图。

具体实施方法

为了使专业技术人员更容易理解本发明的技术方案和路线，这里结合附图和相关实例对本发明进行详细说明，应该注意这里所描述的实例仅用于本发明的解释说明，并不限定本发明。

如附图1所示，本发明提供一种基于深度全局特征的街景图片检索方法，具体步骤如下：

步骤一：该步骤流程可见附图2，对分割的街景图片块进行拼接得到完整的街景全景图，即根据图片名称的行列号进行直接拼接得到原始街景全景图数据。为了减小平面图转换时的畸变，将等矩形全景图进行裁剪，即对全景图下方黑边部分以及全景图右边重复部分进行裁剪，使得预处理后的全景图长宽比为2:1。以预处理后的街景全景图为基础，设置合适的投影参数、图片的尺寸和保存方式，根据等距柱状投影中曲面到平面的映射关系，将等矩形全景图转换为无变形局部平面图。

经过等距柱状投影后，经线转换为等距离的竖直线，纬线转换为距离恒定且长度为经线长度2倍的水平直线。在裁剪后得到的街景全景图数据基础上，根据等距柱状投影的反投影方法将等矩形全景图的像素坐标转换到球面坐标，再通过平面投影将局部球面映射至平面上，实现曲面全景图到局部无变形街景平面图的转换，转换后得到街景数据集。

详细计算方式如下：

Step 11：根据球面到平面的投影关系反算得到平面到球面的转换公式，由球面到平面的投公式是：

β＝y+β₁

其中α是经线，β是纬线，β₁是标准纬线，α₀是中心子午线；x是水平坐标，y为垂直坐标。

根据以上公式得到平面转换到球面的公式：

β＝y+β₁

同理，α是经线，β是纬线，β₁是标准纬线，α₀是中心子午线；x是水平坐标，y为垂直坐标。由上述平面到球面的转换公式即可将等矩形全景图还原到球面上，得到相关像素点的经纬度坐标；

Step12：以球心投影为基本方法将上述得到的像素经纬度坐标映射至平面得到无变形街景平面图，曲面映射至平面的公式如下：

cos c＝sinφ′₁*sinφ′+cosφ′₁*cosφ′*cos(λ′-λ′₀)

其中，x₁是平面图水平坐标，y₁是平面图垂直坐标，λ′和φ′分别表示曲面与平面的切点的经度和纬度，一般取值为0；λ′₀和φ′₁分别表示曲面上点的经度和纬度，c表示点(x₁，y₁)与投影中心的角距。

步骤二：通过拍照或者网上搜索图片的方式获取研究区域的街景图片数据；对搜集到的街景图片进行裁剪和滤波，得到测试集。有多种不同的滤波方法，如均值滤波、高斯滤波和中值滤波等，选用其中一种即可，可使用的代码或者开源库也比较多，可用python的cv2库或Image库。

步骤三：通过谷歌地标数据集的图片URL下载地标图片数据，将下载后的地标图片存放在同一个文件夹下，每张地标图片名都有类别号，根据地标图片的对应类别号进行分类，使得同一个文件下存放同一类地标；使用urllib库下载地标图片，可通过multiprocessing库使用多进程加速下载。

步骤四：参见附图3，使用地标数据集训练特征提取器(Resnet101模型)，训练后对数据集进行清洗，除去部分噪声数据，根据随机选取的原则从将清洗后的地标数据集中每一类中选取若干张图片作为验证集，余下数据作为训练集，该步骤详细说明如下：

Step 41：使用清洗前的地标数据集中1500类对Resnet101分类网络进行训练，将网络的损失训练至收敛，得到第一阶段的训练模型；

Step42：以每个类别为基本单位，使用第一阶段训练好的模型提取地标数据集中每个类别图片的平均池化特征，将每个类别图片的特征和图片名分别以npy格式保存下来；

Step43：加载每个类别的特征文件，对该类别内所有特征取平均得到特征中心，计算离特征中心最近的前N个特征向量，计算该前N个特征向量的特征中心，再次计算该中心最近的k个特征向量，再次计算该k个特征向量的中心，计算该特征中心与该类别其它图片特征向量的余弦相似度，选取余弦相似度大于0.8的图片，删除余弦相似度小于0.8的图片,余弦相似度的计算公式为：

步骤五、使用步骤四得到的干净的地标训练集数据中的1500类地标图片对Resnet101网络进行训练，得到第二阶段的训练模型。训练的次数为100个epoc h，Resnet101网络每训练5个epoch则使用清洗后的验证集计算Resnet101网络的分类精度。采用学习率衰减的方法控制学习速度，Resnet101网络训练的前30个epoch采用学习率为0.01，第31到60个epoch训练采用的学习率为0.001，最后40个epoch采用的学习率为0.0001。

步骤六：对步骤一得到的街景数据集中的图片进行特征提取。将街景数据集中的图片输入步骤五训练好的Resnet101网络，删除Resnet101网络的全连接层，获取每张街景图片的特征向量，每张街景图片通过Resnet101的池化层输出的2048维向量进行表达。特征向量保存在数组中，同时通过另一个图片信息数组保存图片的图片名和对应的图片类别，该图片类别即为街景全景图的类别名。分别对特征数组和图片信息数组进行保存。

步骤七：从测试集中逐张读取查询图片，并将查询图片输入训练好的Resne t101网络获取查询图片的深度全局特征。读取步骤六的特征数组和图片信息数组，将查询图片的特征向量与特征数组的特征向量进行相似度计算，相似度计算采用欧氏距离并进行降序排序，通过排序后的索引号到图片信息数组中获取图片的路径信息，获得最相似的TopN张结果图片(这里采用N＝50，即欧氏距离最小的前50张街景图片)。

步骤八：对步骤七的Top50张结果图片提取SIFT特征。读取结果图片的单通道获取图片对应的灰度图，使用opencv-contrib-python库中SIFT内置的detec tAndCompute()函数对灰度图片的特征点进行探测并计算得到SIFT特征，将SIF T特征使用对应图片名进行命名并进行保存。

步骤九：查询图片与结果图片的SIFT特征进行匹配，通过匹配点数量进行重排序，具体步骤如下：

Step 91：通过步骤七相同的方式获取查询图片的SIFT特征；

Step 92：对于查询图片中的某个SIFT特征点P_i，计算其与第k张结果图片中最近和次近的SIFT特征点S_k1和S_k2，向量距离的计算公式如下：

L₁＝L(P_i，S_k1)

L₂＝L(P_i，S_k2)

若距离比G(L₁，L₂)<＝m(m一般选择0.8)，则认为该查询图像的SIFT特征点与结果图像中的距离最近的SIFT特征点匹配成功，记录查询图片与每张结果图片正确匹配的特征点数量；

Step 93：根据Step 92中正确匹配的特征点数量进行降序排序，输出最后的排序结果。

值得注意的是，对本领从业人员来说，本发明仅为一个具体案例，根据上述说明加以变换或者改进，都应当在本发明所附权利要求的保护范围。

Claims

1.一种基于深度全局特征的街景图片检索方法，其特征在于，包括以下步骤：

步骤八、对步骤七的TopN’张结果图片提取SIFT特征；

2.根据权利要求1所述的基于深度局部特征的街景图片检索方法，其特征在于：步骤一中所述的裁剪预处理包括，对街景全景图下方黑边部分以及街景全景图右边重复部分进行裁剪，使得预处理后的街景全景图长宽比为2:1。

3.根据权利要求1所述的基于深度局部特征的街景图片检索方法，其特征在于：步骤一中根据等距柱状投影中曲面到平面的映射关系，将等矩形全景图转换为无变形局部平面图的具体方法如下，

其中λ是经线，

是纬线，

根据以上公式得到平面转换到球面的公式：

同理，λ是经线，

是纬线，

cosc＝sinφ′₁*sinφ′+cosφ′₁*cosφ′*cos(λ′-λ′₀)

4.根据权利要求1所述的基于深度局部特征的街景图片检索方法，其特征在于：步骤四的具体实现方法如下，

5.根据权利要求1所述的基于深度局部特征的街景图片检索方法，其特征在于：步骤五中对Resnet101网络进行训练时，训练的次数为100个epoch，Resnet101网络每训练5个epoch则使用清洗后的验证集计算Resnet101网络的分类精度；采用学习率衰减的方法控制学习速度，Resnet101网络训练的前30个epoch采用学习率为0.01，第31到60个epoch训练采用的学习率为0.001，最后40个epoch采用的学习率为0.0001。

6.根据权利要求1所述的基于深度局部特征的街景图片检索方法，其特征在于：步骤七中N’的取值为50。

7.根据权利要求1所述的基于深度局部特征的街景图片检索方法，其特征在于：步骤九的具体实现方法如下，

Step91，首先获取查询图片的SIFT特征；

Step92，对于查询图片中的某个SIFT特征点P_i，计算其与第k张结果图片中最近和次近的SIFT特征点S_k1和S_k2，向量距离的计算公式如下：

L₁＝L(P_i，S_k1)

L₂＝L(P_i，S_k2)

Step93，根据Step92中正确匹配的特征点数量进行降序排序，输出最后的排序结果。