CN109522434A

CN109522434A - 基于深度学习图像检索的社交图像地理定位方法及系统

Info

Publication number: CN109522434A
Application number: CN201811244263.1A
Authority: CN
Inventors: 叶登攀; 南进斌; 俞龙�; 江顺之
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-26
Anticipated expiration: 2038-10-24
Also published as: CN109522434B

Abstract

本发明公开了一种基于深度学习图像检索的社交图像地理定位方法及系统，使用结构化的、全方位的具有地理信息的街景图像作为社交图像地理定位的参考数据集，经过深度网络学习形成参考图像特征库。并在地理街景图像的处理上，本发明提出使用深度学习生成对抗网络(Generative Adversarial Networks,GAN)实现图像风格迁移做街景图像数据增强。使用基于深度学习的图像检索方法做度量学习进行图像地理定位任务，有效改善了社交图像地理定位的效率和准确性。

Description

基于深度学习图像检索的社交图像地理定位方法及系统

技术领域

本发明属于计算机视觉定位技术领域，涉及一种图像地理定位方法及系统，具体涉及一种基于深度学习图像检索的社交图像地理定位方法及系统。

背景技术

对于图像地理定位，传统的图像地理定位通常是从具有地理标签的参考图像数据库中检索与查询图像匹配的图像来获得查询图像的经纬度信息。这种方法的主要缺点之一是用于网络训练的参考图像数据库通常是从众包中获得的网络图像数据，例如，通过Flickr网站下载的具有地理标签的图片，这种方法获得的图像数据库在地理区域覆盖上非常不全面，导致定位失败。这是因为社交媒体(Flick网站、微信朋友圈等)上分享的照片主要偏向于著名的旅游景点或地标性建筑。

对于图像地理定位，传统的图像地理定位通常是采用传统的手工特征提取方法，例如使用SIFT算法进行特征提取和描述。

现有的图像地理定位方法及系统主要存在以下缺陷：

1、图像参考数据库地理覆盖不足：现有的图像地理定位系统中，图像参考数据库大都是采用网络图像数据或不做优化的街景图像作为训练数据集。这种方法的主要缺陷是网络图像主要集中于旅游景点和地标性建筑，对图像地理定位的图像数据地理覆盖非常不全面。同时图像自身所具备的经纬度信息存在较大的偏差。对于普通的街景图像，存在图像扭曲、缺少不同明暗度、不同视角等场景的图像，无法克服图片视角改变的不变性，导致图像地理定位失败。

2、图像特征提取的效率低：传统的基于手工特征的提取特征的方法(SIFT、SURF)存在提取特征数量少、特征分布不均匀、提取错误特征、鲁棒性差、具有一定的冗余性等缺点。图像特征提取的效率低，导致图像地理定位失败。

3、图像描述符差：图像检索最重要的部分是找到一个好的图像描述符，用于区分和快速比较。现有的图像地理定位系统中，主要是使用传统的局部图像特征描述符，例如SIFT、SURF、VLAD等。这些局部描述符的特征编码方法，存在缺乏空间几何信息和颜色信息，高层语义的表达不够等问题。在基于大规模图像检索或图像识别的社交图像地理定位中并不能克服图像视角改变的不变性，从而不能很好的进行图像间的检索与匹配任务，导致图像地理定位失败。

发明内容

为了解决上述技术问题，本发明提供了一种基于深度学习图像检索的社交图像地理定位方法及系统。本发明具有图像地理定位参考图像数据库在特定地区覆盖全面、特征库丰富、图像特征提取快且准确、图像检索速度快、图像匹配准确和具备学习能力的优点，从而大大提高了社交图像地理定位的准确性。

本发明的方法所采用的技术方案是：一种基于深度学习图像检索的社交图像地理定位方法，其特征在于，包括以下步骤：

步骤1：利用具有地理信息的街景图像构建社交图像地理定位的参考数据集；

步骤2：将步骤1中的街景图像进行深度学习图像数据优化处理以及数据增强处理；

步骤3：对步骤2中获得的图像数据，进行局部图像特征提取，形成特征向量；

步骤4：将特征向量编码为全局图像描述符表示；

步骤5：基于Siamese结构为检索、匹配的定位任务进行度量学习；

步骤6：输出社交图像地理定位的经纬度信息。

本发明的系统所采用的技术方案是：一种基于深度学习图像检索的社交图像地理定位系统，其特征在于：包括地理图像数据集模块、图像数据处理模块、特征提取模块、全局图像描述符生成模块、社交图像定位响应模块和结果显示模块；

所述地理图像数据集模块，用于利用具有地理信息的街景图像构建社交图像地理定位的参考数据集；

所述图像数据处理模块，用于将步骤1中的街景图像进行深度学习图像数据优化处理以及数据增强处理；

所述特征提取模块，用于对步骤2中获得的图像，进行图像局部特征提取，形成特征向量；

所述全局图像描述符生成模块，用于将特征向量编码为全局描述符表示；

所述社交图像定位响应模块，用于基于Siamese结构做度量学习进行图像检索匹配的定位任务；

所述结果显示模块，用于输出社交图像地理定位。

相对于现有技术，本发明的有益效果是：就基于图像检索方法的图像地理定位，本发明主要从以下方面进行改进：第一，相比以随机的网络图像数据作为图像地理定位的参考数据集，本发明采用结构化的、全方位的具有地理信息的街景图像作为参考数据集，在特定地理区域具有覆盖全面、图像清晰、地理信息更加准确的优点；第二，根据深度学习数据集的特性和图像地理定位的特性，对地理街景图像使用深度学习方法有针对性地做数据优化处理和数据增强处理，尤其提出采用深度学习生成对抗网络(Generative AdversarialNetworks,GAN)实现图像风格迁移生成同一地点的图像在不同季节的图像，从而更加丰富了参考图像特征库；第三，鉴于深度学习在其他计算机视觉领域的成功应用，本发明方法采用深度学习技术实现基于图像检索的图像地理定位的整个过程。具体有采用全卷积网络(FCN)作为特征提取器提取局部图像特征向量，相比使用传统的手工特征提取方法或现有的采用卷积神经网络提取特征的方法，FCN具有两大明细的优点，一是可以接受任意大小的输入图像，而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效，因为避免了由于使用像素块而带来的重复存储和计算卷积的问题；第四，在图像检索中，最重要的就是图像描述符表示，本发明方法采用最新的、针对视觉地点识别任务成功应用的NetVLAD深度网络层来生成全局图像描述符表示进行图像地理定位的度量学习。相比传统的做法将地点识别问题看作实例检索任务，使用具有局部不变性的特征(SIFT)来表示每一个图像，然后将特征聚合成一个向量表示，方法有BOW，VLAD，FV等，本发明方法基于FCN的特征提取和NetVLAD的图像描述符表示进行的图像地理定位的度量学习，不仅对光照和视角变化有一定的鲁棒性，而且会自动关注图像中的建筑物等有显著区分性的地理信息。从而大大提高了图像地理定位的准确性和定位效率。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的地理图像数据集模块之街景图像获取流程示意图；

图3为本发明实施例的图像数据处理流程示意图；

图4为本发明实施例的深度网络架构示意图；

图5为本发明实施例的图像全局描述符生成网络层结构示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于深度学习图像检索的社交图像地理定位方法，其特征在于，包括以下步骤：

请见图2，本实施例通过使用结构化的、全方位的具有地理信息的街景图像作为社交图像地理定位的参考数据集，并且使用深度学习GAN网络实现图像风格迁移对街景图像做了非常高效的数据增强和数据集优化处理。

其中具有地理信息的街景图像，其获取方法包括以下子步骤：

步骤1.1：下载路网数据；

步骤1.2：对道路进行踩点；

步骤1.3：添加踩点的经纬度数据；

步骤1.4：根据步骤1.3中获取的经纬度数据，爬取相应的街景图像数据。

地理图像数据集之街景图像的获取，本实施例中的特定区域内街景图像数据通过腾讯街景地图API下载，但需要提供参数，参数中的poiid、panoid、location可以用来确定位置或全景图像的ID以确定对应的街景图像。优先级为poiid>panoid>location。为了能够获得一定经纬度范围的全部街景图像，需要首先获取上述三个参数中的至少一个。本实施例采用arcgis中沿道路等距踩点的方法，来对应获得范围内的全部街景图像。简而言之，首先获取路网数据，之后沿着路网进行等间距踩点，获取大量经纬度点，再根据这些经纬度点的坐标通过Python脚本爬取相应的街景图像数据即可。

请见图3，本实施例对步骤1中的街景图像进行深度学习图像数据优化处理，根据图像地理定位的特性，对地理街景图像数据集有针对性地使用深度学习框架TensorFlow进行图像数据处理。基本处理包括裁剪、图像编码处理、图像大小调整、图像色彩调整(亮度、对比度、色相、饱和度)、处理标注框；对处理好的地理街景图像数据集做数据增强处理。使用深度学习GAN实现图像风格迁移，生成同一地点的图像，在不同季节的图像。

本发明重点提出用深度学习GAN网络实现图像风格迁移应用于基于深度学习图像检索的社交图像地理定位系统。在深度学习中，数据集的处理是非常关键的一部分，直接决定网络模型的优劣。一方面，本发明使用深度学习开源框架TensorFlow对街景地理图像数据进行预处理，使得训练得到的深度神经网络模型尽可能小地被无关因素所影响。另一方面，本发明使用深度学习开源框架TensorFlow实现GAN街景图像风格迁移，生成同一地点的图像在不同季节下的图像，从而丰富了参考图像特征库，提高了图像地理定位的准确性。

步骤3：对步骤2中获得的图像，进行图像局部特征提取，形成特征向量；

请见图4，本实施例中使用深度学习全卷积网络(Fully ConvolutionalNetworks,FCN)f^L作为特征提取器提取地理街景图像的局部特征向量，同时生成的特征向量作为全局描述符生成深度网络层的输入；对于街景图像I_s，局部特征集由给出，其中是街景图像的FCN参数。

本实施例的系统深度网路架构主要包含局部特征提取和全局描述符生成两部分。第一部分FCN用于提取局部特征向量，第二部分，采用NetVLAD网络层将局部特征向量编码成全局描述符表示，保证最大图像视角改变的不变性。系统网络主要由两部分组成，第一部分，图像局部特征提取网络，第二部分，图像全局描述符生成网络。

局部特征提取：

使用全卷积网络(FCN)f^L来提取图像的局部特征向量。对于街景图像I_s，局部特征集由给出，其中是街景图像的FCN参数,定位时对查询图像进行同样的操作，只不过参数不同。

全局描述符生成：

将FCN中获得的局部特征向量送入NetVLAD层生成图像全局描述符。NetVLAD是用于图像特征表示的局部聚合描述符(vector of locally aggregateddescriptors,VLAD)算法改进的深度网路版本，它将局部特征向量的残差聚合到它们各自的聚类质心以生成全局描述符。NetVLAD是专门针对于弱监督视觉地点识别任务的CNN结构，可以进行端到端的训练直接用于地点识别任务，NetVLAD网络层可以轻易地嵌入到任何CNN结构中进行反向传播训练。

步骤4：将特征向量编码为全局描述符表示；

本实施例将获得的局部特征向量送入全局描述符生成深度网络NetVLAD层以获取全局描述符表示。

请见图5，本实施例采用的NetVLAD网络层是一个新的广义VLAD深度网络层，VLAD指的是图像检索中的“局部聚合描述符向量(Vector of Aggregate Locally Descriptor，VLAD)”图像表示方法；NetVLAD是专门针对于弱监督视觉地点识别任务的卷积神经网络(Convolutional Neural Network,CNN)结构，此结构的使用大大提高了基于深度学习图像检索的图像地理定位的效率；

步骤4.1：去掉CNN的最后一层，把它作为描述子，输出是H×W×D的向量，可以将其看作一个D纬度的描述子，一共有H×W个；

步骤4.2：将步骤3所获向量送入NetVLAD层对提取到的描述子进行池化，使其成为一个固定的描述子，参数是通过反向传播算法得到的；

Siamese网路结构是一种成熟的相似性度量方法，其主要思想是通过一个函数将输入映射到目标空间，在目标空间使用简单的距离(欧式距离等)进行对比相似度；度量学习是指距离度量学习，度量就是相似度，任何方法只要用到相似度，就可以用到度量学习。

步骤6：输出社交图像地理定位的经纬度信息。

本发明基于深度学习技术，将社交图像地理定位任务视作图像检索问题——对于未知位置的查询图像，从庞大的具有地理标记的图像数据库中进行视觉检索，将匹配度排名最高的图像的位置作为查询图像的位置(经纬度)输出。

检索的具体做法：设计一个函数f^L(图像表示提取器)，给定一张图像I_s则会产生一个大小确定的向量f^L(I_s),函数f^L用于为整个参考图像数据库{I_s}提取图像表示，提取查询图像的图像表示f^L(q)这个过程可以离线完成。定位的时候，视觉检索实现，通过检索、匹配查询图像的最近邻居，然后对图像基于欧式距离排序，得到排名最高的图像的位置作为查询图像的位置，输出其经纬度信息。

本实施例还提供了一种基于深度学习图像检索的社交图像地理定位系统，包括地理图像数据集模块、图像数据处理模块、特征提取模块、全局图像描述符生成模块、社交图像定位响应模块和结果显示模块；

地理图像数据集模块，用于利用具有地理信息的街景图像构建社交图像地理定位的参考数据集；

图像数据处理模块，用于将步骤1中的街景图像进行深度学习图像数据优化处理以及数据增强处理；

特征提取模块，用于对步骤2中获得的图像，进行图像局部特征提取，形成特征向量；

全局图像描述符生成模块，用于将特征向量编码为全局描述符表示；

社交图像定位响应模块，用于基于Siamese结构做度量学习进行图像检索匹配的定位任务；

结果显示模块，用于输出社交图像地理定位。

本系统所采用的方法主要是基于图像检索的图像地理定位，即从庞大的具有地理标记的图像数据库中检索匹配与查询图像最相近的图像，将此图像的位置作为查询图像的位置输出其经纬度。

图像检索一般都是基于局部特征(如SIFT，SURF，VLAD)等进行特征编码获得一个关于图像的特征，最后计算特征之间的距离，即使是CNN也是这个过程。

本系统的网络基于Siamese架构来为匹配任务进行度量学习。首先使用全卷积神经网路来提取局部图像特征，然后使用强大的NetVLAD将其编码为全局图像描述符表示。训练的过程中，引入了一种简单而高效的加权软边缘排序损失函数，不仅加快了训练收敛速度，而且提高了最终的匹配精度。

本实施例发明使用结构化的、全方位的具有地理信息的街景图像作为社交图像地理定位的参考数据集，经过深度网络学习形成参考图像特征库。并在地理街景图像的处理上，本发明提出使用深度学习GAN网络实现图像风格迁移做街景图像数据增强。使用基于深度学习的图像检索方法做度量学习进行图像地理定位任务，有效改善了社交图像地理定位的效率和准确性。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习图像检索的社交图像地理定位方法，其特征在于，包括以下步骤：

步骤4：将特征向量编码为全局图像描述符表示；

步骤6：输出社交图像地理定位的经纬度信息。

2.根据权利要求1所述的基于深度学习图像检索的社交图像地理定位方法，其特征在于：步骤1中，通过使用结构化的、全方位的具有地理信息的街景图像作为社交图像地理定位的参考数据集，并且使用深度学习GAN实现图像风格迁移对街景图像做了非常高效的数据增强和数据集优化处理。

3.根据权利要求1或2所述的基于深度学习图像检索的社交图像地理定位方法，其特征在于：步骤1中所述具有地理信息的街景图像，其获取方法包括以下子步骤：

步骤1.1：下载路网数据；

步骤1.2：对道路进行踩点；

步骤1.3：添加踩点的经纬度数据；

4.根据权利要求1所述的基于深度学习图像检索的社交图像地理定位方法，其特征在于：步骤2中，根据图像地理定位的特性，对地理街景图像数据集有针对性地使用深度学习框架TensorFlow进行图像数据处理；基本处理包括裁剪、图像编码处理、图像大小调整、图像色彩调整、处理标注框；对处理好的地理街景图像数据集做数据增强处理；使用深度学习GAN实现图像风格迁移，生成同一地点的图像，在不同季节的图像。

5.根据权利要求1所述的基于深度学习图像检索的社交图像地理定位方法，其特征在于：步骤3中，使用深度学习全卷积网络FCN f^L作为特征提取器提取地理街景图像的局部特征向量，同时生成的特征向量作为全局描述符生成深度网络层的输入；对于街景图像I_s，局部特征集由给出，其中，是街景图像的FCN参数。

6.根据权利要求1所述的基于深度学习图像检索的社交图像地理定位方法，其特征在于：步骤4中，将获得的局部特征向量送入全局描述符生成深度网络NetVLAD层以获取全局描述符。

7.根据权利要求6所述的基于深度学习图像检索的社交图像地理定位方法，其特征在于：步骤4中，采用的NetVLAD网络层是一个新的广义VLAD深度网络层，VLAD指的是图像检索中的“局部聚合描述符向量”图像表示方法；NetVLAD是专门针对于弱监督视觉地点识别任务的卷积神经网络CNN结构，此结构的使用大大提高了基于深度学习图像检索的图像地理定位的效率。

8.根据权利要求1所述的基于深度学习图像检索的社交图像地理定位方法，其特征在于：步骤5中，基于Siamese网路结构做度量学习进行图像检索匹配的定位任务。

9.一种基于深度学习图像检索的社交图像地理定位系统，其特征在于：包括地理图像数据集模块、图像数据处理模块、特征提取模块、全局图像描述符生成模块、社交图像定位响应模块和结果显示模块；

所述结果显示模块，用于输出社交图像地理定位。