CN113642430B

CN113642430B - 基于VGG+NetVLAD的地下停车场高精度视觉定位方法及系统

Info

Publication number: CN113642430B
Application number: CN202110865927.1A
Authority: CN
Inventors: 李祎承; 冯锋; 蔡英凤; 王海; 蒋卓一; 朱镇; 杨东晓
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-05-14
Anticipated expiration: 2041-07-29
Also published as: CN113642430A

Abstract

本发明公开了一种基于VGG+NetVLAD的地下停车场高精度视觉定位方法及系统，具体包括以下步骤：1、数据采集阶段：采集目标停车场内的安全出口标志数据信息；2、网络模型建立与训练阶段：建立并训练标志检测模型和全局特征提取模型；3、地图制作阶段：运用训练好的网络模型，进行地图的制作；4、定位实现阶段：利用平面单应性解算相机与标志间的位姿，实现实时定位。本发明利用了停车场内原有的安全出口标志制作视觉地图，方案简单，无需其他部署，仅需单目相机实现，降低了成本，且定位精度可达到亚米级别，既可应用于移动设备，又可应用于智能驾驶汽车。

Description

基于VGG+NetVLAD的地下停车场高精度视觉定位方法及系统

技术领域

本发明涉及计算机视觉领域，具体是一种基于VGG+NetVLAD的地下停车场高精度视觉定位方法及系统。

背景技术

由于地下停车场存在光线较暗、遮挡较多、场景重复度高等特点，“停车难”、“找车难”一直是地下停车场存在的问题，不仅花费了车主大量寻找时间，也影响到车辆流转效率。

目前，GPS是应用最广的定位技术，但其定位精度差，且在一些特殊地点如隧道、桥梁下方、地下停车场等场景中，无法接收信号，故多用于室外定位。视觉定位是通过摄像机拍摄当前所在地点的图像进而获取位置信息，在智能汽车、移动机器人等领域有着非常重要的应用，随着智能手机的发展，视觉定位技术也逐渐应用到移动手机端。在地下停车场中，视觉定位技术可以弥补传统GPS定位缺点，能够有效获取所在位置信息。并且相较于其他替代方法，视觉定位主要用到摄像头传感器，成本相对更低。

视觉定位的关键在于查询图像与视觉地图中图像的特征匹配，特征又分为全局特征和局部特征，全局特征匹配用于检索地图中与查询图像最接近的图像，局部特征用于查询图像与最近地图的位姿计算，特征匹配的速度，匹配结果的准确度，直接关系到视觉定位的速度以及精确度。现有的特征提取方法主要有：依赖人工设计的提取器(如SIFT、ORB等)和深度学习神经网络。传统人工设计的特征提取方法需要有专业知识及复杂的调参过程，同时每个方法都是针对具体应用，所以泛化能力及鲁棒性较差。深度学习方法可以直接实现端到端的特征提取，主要依靠数据驱动进行，根据大量训练样本的学习能够得到深层的、数据集特定的特征，其对数据集的表达更高效和准确，所提取的特征鲁棒性更强，泛化能力更好。并且随着研究者们不断的探索，深度学习方法的性能和应用还在一直拓展。

发明内容

本发明提供了一种基于VGG+NetVLAD的地下停车场高精度视觉定位方法及系统，利用停车场内原有的广泛分布的安全出口标志制作视觉地图，能实现地下停车场实时定位，无需其他部署，降低了定位成本。

为实现上述目的，本发明的基于VGG+NetVLAD的地下停车场高精度视觉定位方法包括如下步骤：

1、数据采集阶段：

采集目标停车场内的安全出口标志图像，记录所需数据信息，并进行数据的预处理。

2、网络模型建立与训练阶段：

建立两种深度神经网络模型，分别是标志检测模型和全局特征提取模型。

3、地图制作阶段：

运用训练好的网络模型，进行地图的制作。

4、定位实现阶段：

输入目标停车场内的安全出口标志图像，从标志地图快速匹配最近的图像，解算相机与标志间的位姿，实现实时定位。

上述方案中，数据采集阶段具体为：

采集目标地下停车场内固定地点的安全出口标志图像，做到全面覆盖，每个标志采集若干张图像，记录数据信息包括：标志所在位置信息；标志的颜色、形状及几何尺寸。对图像进行预处理得到原始数据集。

上述方案中，网络模型建立与训练阶段具体为：

以原始数据集作为模型的训练集。标志检测模型采用预训练好的YOLOv3结构，用标注过检测框的数据集进行训练。全局特征提取模型采用预训练的VGG19为基础模型，在CNN层后插入NetVLAD层，以同一标志采集到的所有图像为正样本进行训练，再截取CNN+NetVLAD层作为特征提取器，用来提取视觉向量。

上述方案中，地图制作阶段具体为：

每张标志图片赋予标志在停车场中的所在位置信息，标志的颜色、形状和几何尺寸，以及通过特征提取器提取到的视觉向量，并根据标志种类将图像分为不同标志合集。

上述方案中，实现地下停车场高精度定位，包括以下步骤：

1、识别标志种类

拍摄的地下停车场图像作为查询图像输入YOLOv3标志检测网络模型，检测出场景中的标志，并识别标志种类，此时调用地图中该种类标志合集；

2、搜索最近的标志图像

再将查询图像输入特征提取器提取视觉向量，通过计算与地图视觉向量的余弦相似度，取余弦相似度最大的作为匹配图像，识别当前标志的具体身份；

3、提取标志特征点，解算位姿

以标志的四个角点作为特征点，通过单应矩阵(homography,H)可以建立标志平面坐标系与当前查询图像坐标系关系，如下：

再根据摄像机成像原理，可计算出摄像机与标志的位姿关系，即摄像机与标志之间的旋转矩阵R及摄像机与标志之间的平移向量t,见下式：

其中h_i(i＝1,2,3)为单应矩阵H的第i个列向量，K为相机的内参矩阵。

可得到摄像机在标志局部坐标系下的位置：

G＝-R^-1t

标志位置已知，再将摄像机位置进一步映射到全局坐标系，从而得到当前摄像机在地下停车场内的绝对位置。

本发明还提出了基于VGG+NetVLAD的地下停车场高精度视觉定位系统，包括数据采集模块、网络模型及训练模块、地图制作模块、定位模块；

所述数据采集模块：拍摄停车场内标志，采集的标志尽可能覆盖停车场，图像内容包括一定场景特征，标志在图像中完整，每个标志采集若干张图像，包括不同光照情况、不同拍摄距离、不同拍摄角度下的图像；

拍摄时记录下每个标志所对应的数据信息包括：标志所在位置信息；标志的颜色、形状及几何尺寸；若标志为矩形，几何尺寸记录为标志的宽度w和高度h，同时记录下每张图片拍摄时摄像机与标志间的相对位置信息；

对采集的图像进行过滤筛选，并进行分类，得到原始数据集；利用LabelImg软件对原始数据集进行人工分类标注，标志检测框标注在标志轮廓线以外，并适当扩大，保证标志全部包围在内，预处理完成得到原始数据集；

所述网络模型模块包括：标志检测模型和全局特征提取模型；所述标志检测模型采用预训练的YOLOv3模型，用标注过检测框的图像进行训练，当损失函数值Loss<20，保存模型；建立的网络模型的输入为416×416×3的图像，输出为检测到的标志种类，及标志检测框的四个图像坐标；所述全局特征提取模型：采用VGG19为基础模型，截取VGG19至block5_conv4，在后面插入NetVLAD层，可以有效的提高对同类别图像的表达能力，根据标志的数量设计后面的全连接层，模型输入为224×224×3的图像，中间卷积层结构可参见VGG19结构图，最后一层block5_conv4输出为14×14×512的特征图，作为NetVLAD层的输入；NetVLAD层设计为：输入大小14×14×512，聚类数64，输出大小1024；全连接层设计为：dense_1输入大小1024、输出大小N为标志的数量；

将每个标志作为一个分类，同一标志的所有图像作为该类正样本进行训练；训练时冻结前17个网络层，只训练卷积层block5及之后的NetVLAD层和全连接层，训练至模型收敛；最后截去全连接层，取用CNN层+NetVLAD层作为特征提取器用来提取视觉向量，该视觉向量大小为1024；

所述地图制作模块：至少选择每个标志的一张图像作为标志地图，根据YOLOv3的分类将图像分成不同的类别合集；赋予每张地图中的标志图像该标志的数据信息包括：现实位置信息；标志的颜色，宽度w和高度h；标志四个角点在图像中的图像坐标；标志的四个角点作为特征点，用于定位阶段的位姿解算；

其中，所述特征点的提取过程：将标志图像由RGB图像转为HSV图像，因为RGB颜色空间中的颜色使用三个通道对进行编码，因此基于颜色对图像中的对象进行分割更加困难，而HSV中只有Hue一个通道表示颜色，根据标志颜色对应的HSV范围进行颜色分割，得到二值图；针对图像中可能包含与标志颜色相同的区域，运用YOLOv3得到的检测框提取二值图中的感兴趣区域ROI(region of interest)，在ROI图像上进行轮廓提取，得到标志大致的轮廓，再通过多边形检测可将轮廓规范成四边形，得到四个角点对应的图像坐标，按照左上、右上、右下、左下的顺序保存；

所述定位模块：包括识别标志种类模块、搜索最近的标志图像模块、提取标志特征点模块、及解算位姿模块；

所述识别标志种类模块：将拍摄的地下停车场图像作为查询图像输入YOLOv3标志检测网络模型，检测出场景中的标志，并识别标志种类，返回标志种类和检测框图像坐标，此时调用地图中该种类标志合集；

所述搜索最近的标志图像模块：将查询图像输入特征提取器提取视觉向量，将查询图像的视觉向量V_q与地图图像的视觉向量V_m对比，在同类标志合集中搜索最相似的图像，图像间相似度计算公式如下：

取相似度最大的作为匹配图像，识别当前标志的具体身份，得到当前标志的位置；

所述提取标志特征点模块：标志的几何尺寸是已知的，即宽度w和高度h，在标志平面上建立局部平面坐标系，可以得到标志四个角点的平面坐标系坐标，按顺序为[(0，0)，(w，0)，(w，h)，(0，h)]，分别对应左上、右上、右下、左下；四个角点对应匹配的地图图像中的图像坐标，通过图3所示方式颜色分割，ROI图像轮廓提取获得。查询图像与地图图像的特征点通过ORB算法提取，然后用Brute-Force匹配器匹配；

所述解算位姿模块：匹配地图图像中标志的已知的四个角点图像坐标，平面物理坐标系的点[X，Y]和地图图像坐标系的点[u_m，v_m]可以通过3×3的单应矩阵来建立联系：

查询图像坐标系的点[u_q，v_q]和地图图像坐标系的点[u_m，vm]同样可以通过单应矩阵建立联系：

通过(2)(3)求出单应矩阵H_m和H_mq，可以建立安全出口标志物理平面坐标系和当前摄像机拍摄的查询图像平面坐标系之间的关系：

通过(4)得到单应矩阵H，单应矩阵可以用摄像机内参矩阵K，以及旋转矩阵R和平移向量t来表示：

式中，r_i为R的第i个列向量；

根据摄像机成像原理，计算出摄像机与标志的位姿关系，即摄像机与标志之间的旋转矩阵R及摄像机与标志之间的平移向量t，见下式：

其中h_i(i＝1，2，3)为单应矩阵H的第i个列向量；由(6)可得到摄像机在标志局部坐标系下的位置：

G＝-R^-1t (7)

本发明的有益效果：

1.本发明提出了一种地下停车场的视觉定位方法，该方法无需其他部署，利用了停车场内原有的安全出口标志作为节点制作视觉地图，极大程度上降低了地图的存储空间，仅需用单目相机，方案简单，降低了成本。

2.本发明运用了基于深度学习的图像到图像的搜索定位，相较之前的匹配算法搜索速度更快，准确率更高，并且在地下停车场这种复杂场景下具有非常强的鲁棒性。

3.本发明提高了定位精度，运用平面单应性解算位姿，定位精度可达到亚米级别。

4.本发明针对地下停车场定位难的问题，仅用单目相机，对安全出口标志进行拍摄便可进行高精度定位，定位精度可达亚米级别。既可应用于移动设备，又可应用于智能驾驶汽车。

附图说明

图1为本发明整体流程图。

图2为视觉向量提取器的网络模型结构图。

图3为特征点提取的流程图。

图4为定位方法的流程图。

图5为定位结果误差直方图。

具体实施方式

下面结合附图对本发明作进一步说明。

实施例1.地下停车场安全出口标志的视觉地图

如图1所示，本发明利用地下停车场内的安全出口标志制作视觉地图，实现该方法的具体操作如下：

1、数据采集阶段：采集目标地下停车场内的安全出口标志图像，记录所需数据信息。

用选定的摄像机拍摄停车场内标志，需注意：采集的标志尽可能覆盖停车场；图像内容包括一定场景特征；标志在图像中完整；每个标志采集若干张图像，包括不同光照情况，不同拍摄距离，不同拍摄角度。

拍摄时记录下每个标志所对应的数据信息包括：标志所在位置信息；标志的颜色、形状及几何尺寸。本实施例中标志多为矩形，所以几何尺寸记录为标志的宽度w和高度h。为后续验证此定位方法的精确度，同时记录下每张图片拍摄时摄像机与标志间的相对位置信息。

对采集的图像进行过滤筛选，并按一定标准(尺寸、颜色)进行分类，得到原始数据集；利用LabelImg软件对原始数据集进行人工分类标注，标志检测框标注在标志轮廓线以外，并适当扩大，保证标志全部包围在内。

2、网络模型建立与训练阶段：建立标志检测模型和全局特征提取模型，分别进行训练。训练图像从原始数据集获得，预留10％-20％的图像用于测试。

标志检测模型采用预训练的YOLOv3模型，用标注过检测框的图像进行训练，当损失函数值Loss<20，保存模型。建立的网络模型的输入为416×416×3的图像，输出为检测到的标志种类，及标志检测框的四个图像坐标。

如图2所示，全局特征提取模型采用VGG19为基础模型，截取VGG19至block5_conv4，在后面插入NetVLAD层，可以有效的提高对同类别图像的表达能力，根据标志的数量设计后面的全连接层。网络结构由16个卷积层组成，分为5个模块。模块1包含2个卷积层，1个池化层；模块2包含2个卷积层，1个池化层；模块3包含4个卷积层，一个池化层；模块4包含4个卷积层，1个池化层；模块5包含4个卷积层，1个NetVLAD层；最后连接全连接层，softmax函数进行分类。

模型输入为224×224×3的图像，进入第1个卷积层，卷积核尺寸为3×3，步长为1，个数为64，得到224×224×64的特征图输出；进入第2个卷积层，卷积核尺寸为3×3，步长为1，个数为64，得到224×224×64的特征图输出；进入第1个池化层，池化过滤器尺寸为2×2，步长为2，得到112×112×64的特征图输出；进入第3个卷积层，卷积核尺寸为3×3，步长为1，个数为128，得到112×112×128的特征图输出；进入第4个卷积层，卷积核尺寸为3×3，步长为1，个数为128，得到112×112×128的特征图输出；进入第2个池化层，池化过滤器尺寸为2×2，步长为2，得到56×56×128的特征图输出；进入第5个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第6个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第7个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第8个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第3个池化层，池化过滤器尺寸为2×2，步长为2，得到28×28×256的特征图输出；进入第9个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第10个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第11个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第12个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第4个池化层，池化过滤器尺寸为2×2，步长为2，得到14×14×512的特征图输出；进入第13个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入第14个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入第15个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入第16个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入NetVLAD层，聚类数64，得到输出大小1024；进入全连接层，全连接层输出大小N，设计为标志的数量。

将每个标志不同条件下拍摄的所有图像作为该类正样本进行监督训练。为缩减训练时间，用‘Imagenet’作为预训练权重参数，训练时冻结前4个模块，只训练模块5及之后的NetVLAD层和全连接层，训练至模型收敛。最后截去全连接层，取用CNN层+NetVLAD层作为特征提取器用来提取视觉向量，该视觉向量大小为1024。

3、地图制作阶段：运用训练好的网络模型，进行地图的制作。

将训练的图像作为标志地图，根据YOLOv3的分类将图像分成不同的类别合集；赋予每张地图中的标志图像该标志的数据信息包括：现实位置信息；标志的颜色，宽度w和高度h；标志四个角点在图像中的图像坐标。标志的四个角点作为特征点，用于定位阶段的位姿解算。

特征点的提取方式如图3所示，先将标志图像由RGB图像转为HSV图像，因为RGB颜色空间中的颜色使用三个通道对进行编码，因此基于颜色对图像中的对象进行分割更加困难，而HSV中只有Hue一个通道表示颜色。根据标志颜色对应的HSV范围进行颜色分割，得到二值图。由于图像中可能包含与标志颜色相同的区域，运用YOLOv3得到的检测框提取二值图中的感兴趣区域ROI(region of interest)。在ROI图像上进行轮廓提取，得到标志大致的轮廓，再通过多边形检测可将轮廓规范成四边形，得到四个角点对应的图像坐标，按照左上、右上、右下、左下的顺序保存。

4、定位实现阶段：当用户进入目标地下停车场，用摄像机拍摄所在位置的安全出口标志的图像，通过与视觉地图中图像的匹配可以得到摄像机拍摄时在停车场内所在的位置。

实施例2.地下停车场高精度视觉定位方法

下面结合图4定位方法的算法流程，对本发明做进一步描述。在目标地下停车场，拍摄所在位置安全出口标志的图像，利用制作好的标志地图，实现地下停车场高精度定位，具体包括以下步骤：

1、识别标志种类。

将拍摄的地下停车场图像作为查询图像输入YOLOv3标志检测网络模型，检测出场景中的标志，并识别标志种类，返回标志种类和检测框图像坐标，此时调用地图中该种类标志合集；

2、搜索最近的标志图像。

将查询图像输入特征提取器提取视觉向量，将查询图像的视觉向量V_q与地图图像的视觉向量V_m对比，在同类标志合集中搜索最相似的图像，图像间相似度计算公式如下：

取相似度最大的作为匹配图像，识别当前标志的具体身份,得到当前标志的位置。

3、提取标志特征点，解算位姿。

标志的几何尺寸是已知的，即宽度w和高度h，在标志平面上建立局部平面坐标系，可以得到标志四个角点的平面坐标系坐标，按顺序为[(0,0),(w,0),(w,h),(0,h)]，分别对应左上、右上、右下、左下。四个角点对应匹配的地图图像中的图像坐标，地图制作阶段通过图3所示方式提取。

平面物理坐标系的点[X,Y]和地图图像坐标系的点[u_m,v_m]可以通过3×3的单应矩阵来建立联系：

表示等式的左、右两边相差1个尺度因子，可由矩阵展开后计算得到。

通过ORB算法提取并匹配查询图像与地图图像的特征点，查询图像坐标系的点[u_q,v_q]和地图图像坐标系的点[u_m,v_m]同样可以通过单应矩阵建立联系：

通过(4)得到单应矩阵H，单应矩阵可以用摄像机内参矩阵K，以及旋转矩阵R和平移向量t来表示，旋转矩阵R是3×3的矩阵，平移向量t是3×1的矩阵，是求解结果：

式中，r₁，r₂为旋转矩阵R的前2列，分别表示x轴与y轴方向的旋转角度。

内参矩阵K具体为：

内参矩阵的参数含义：

f：焦距，单位毫米；dx：像素x方向宽度，单位毫米；1/dx：x方向1毫米内有多少个像素；f/dx：使用像素来描述x轴方向焦距的长度；f/dy：使用像素来描述y轴方向焦距的长度；u₀，v₀：主点的实际位置，单位也是像素。

内参矩阵反应了相机自身的属性，各个相机是一不一样的，需要通过标定可以得到。

其中h_i(i＝1，2，3)为单应矩阵H的第i个列向量。由(6)可得到摄像机在标志局部坐标系下的位置：

G＝-R^-1t (7)

实施例3.某地下停车场定位结果

在目标地下停车场采集标志图像数据，运用本发明提出的方法制作安全出口标志视觉地图，对本发明提出的定位方法进行测试，测试图像的变化因素包括光照强度不同，拍摄距离和角度不同。

本发明基于深度学习(YOLOv3和VGG+NetVLAD)的方法实现视觉定位，在不同光照、距离、角度下均可以识别输入测试图像的具体身份，识别准确率超过90％。

再提取标志的特征点，通过单应矩阵实现位姿解算，可以得到摄像机到标志平面的距离，部分测试误差结果如图5所示，最小距离误差约为3mm，平均距离误差为93.8mm。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.基于VGG+NetVLAD的地下停车场高精度视觉定位方法，其特征在于，包括：

S1、数据采集：采集目标停车场内的安全出口标志图像，记录所需数据信息，并进行数据的预处理；

S2、建立网络模型与训练：所述网络模型把控两种深度神经网络模型，分别是标志检测模型和全局特征提取模型；

所述S2的标志检测模型采用预训练的YOLOv3模型，用标注过检测框的图像进行训练，当损失函数值Loss<20，保存模型；建立的网络模型的输入为416×416×3的图像，输出为检测到的标志种类，及标志检测框的四个图像坐标；

所述S2的全局特征提取模型：采用VGG19为基础模型，包括为5个模块，16个卷积层组成；模块1包含2个卷积层，1个池化层；模块2包含2个卷积层，1个池化层；模块3包含4个卷积层，一个池化层；模块4包含4个卷积层，1个池化层；模块5包含4个卷积层，1个NetVLAD层；最后连接全连接层，softmax函数进行分类；

模型输入为224×224×3的图像，进入第1个卷积层，卷积核尺寸为3×3，步长为1，个数为64，得到224×224×64的特征图输出；进入第2个卷积层，卷积核尺寸为3×3，步长为1，个数为64，得到224×224×64的特征图输出；进入第1个池化层，池化过滤器尺寸为2×2，步长为2，得到112×112×64的特征图输出；进入第3个卷积层，卷积核尺寸为3×3，步长为1，个数为128，得到112×112×128的特征图输出；进入第4个卷积层，卷积核尺寸为3×3，步长为1，个数为128，得到112×112×128的特征图输出；进入第2个池化层，池化过滤器尺寸为2×2，步长为2，得到56×56×128的特征图输出；进入第5个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第6个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第7个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第8个卷积层，卷积核尺寸为3×3，步长为1，个数为256，得到56×56×256的特征图输出；进入第3个池化层，池化过滤器尺寸为2×2，步长为2，得到28×28×256的特征图输出；进入第9个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第10个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第11个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第12个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到28×28×512的特征图输出；进入第4个池化层，池化过滤器尺寸为2×2，步长为2，得到14×14×512的特征图输出；进入第13个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入第14个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入第15个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入第16个卷积层，卷积核尺寸为3×3，步长为1，个数为512，得到14×14×512的特征图输出；进入NetVLAD层，聚类数64，得到输出大小1024；进入全连接层，全连接层输出大小N，设计为标志的数量；

将每个标志作为一个分类，同一标志的所有图像作为该类正样本进行训练；为缩减训练时间，用‘Imagenet’作为预训练权重参数，训练时冻结前4个模块，只训练模块5及之后的NetVLAD层和全连接层，训练至模型收敛；最后截去全连接层，取用CNN层+NetVLAD层作为特征提取器用来提取视觉向量，该视觉向量大小为1024；

S3、制作地图：运用训练好的网络模型，制作地图；

S4、定位实现：输入目标停车场内的安全出口标志图像，从标志地图快速匹配最近的图像，利用平面单应性解算相机与标志间的位姿，实现实时定位。

2.根据权利要求1所述的基于VGG+NetVLAD的地下停车场高精度视觉定位方法，其特征在于，所述S1的实现包括：

拍摄停车场内标志，采集的标志尽可能覆盖停车场，图像内容包括一定场景特征，标志在图像中完整，每个标志采集若干张图像，包括不同光照情况、不同拍摄距离、不同拍摄角度下的图像；

对采集的图像进行过滤筛选，并进行分类，得到原始数据集；利用LabelImg软件对原始数据集进行人工分类标注，标志检测框标注在标志轮廓线以外，并适当扩大，保证标志全部包围在内，预处理完成得到原始数据集。

3.根据权利要求1所述的基于VGG+NetVLAD的地下停车场高精度视觉定位方法，其特征在于，所述S3的实现包括：

每个标志选择至少一张图像作为标志地图，根据YOLOv3的分类将图像分成不同的类别合集；赋予每张地图中的标志图像该标志的数据信息包括：现实位置信息；标志的颜色，宽度w和高度h；标志四个角点在图像中的图像坐标；标志的四个角点作为特征点，用于定位阶段的位姿解算。

4.根据权利要求3所述的基于VGG+NetVLAD的地下停车场高精度视觉定位方法，其特征在于，所述特征点的提取方法：先将标志图像由RGB图像转为HSV图像，因为RGB颜色空间中的颜色使用三个通道对进行编码，因此基于颜色对图像中的对象进行分割更加困难，而HSV中只有Hue一个通道表示颜色，根据标志颜色对应的HSV范围进行颜色分割，得到二值图；针对图像中可能包含与标志颜色相同的区域，运用YOLOv3得到的检测框提取二值图中的感兴趣区域ROI(region of interest)，在ROI图像上进行轮廓提取，得到标志大致的轮廓，再通过多边形检测可将轮廓规范成四边形，得到四个角点对应的图像坐标，按照左上、右上、右下、左下的顺序保存。

5.根据权利要求1所述的基于VGG+NetVLAD的地下停车场高精度视觉定位方法，其特征在于，所述S4的实现包括：

S4.1识别标志种类

S4.2搜索最近的标志图像

取相似度最大的作为匹配图像，识别当前标志的具体身份,得到当前标志的位置；

S4.3、提取标志特征点，解算位姿

查询并提取图像特征点，通过颜色分割，ROI图像轮廓提取，获得标志四个角点坐标；

标志的几何尺寸是已知的，即宽度w和高度h，在标志平面上建立局部平面坐标系，可以得到标志四个角点的平面坐标系坐标，按顺序为[(0,0),(w,0),(w,h),(0,h)]，分别对应左上、右上、右下、左下；

S4.4匹配地图图像中标志的已知的四个角点图像坐标，平面物理坐标系的点[X,Y]和地图图像坐标系的点[u_m,v_m]可以通过3×3的单应矩阵来建立联系：

查询图像坐标系的点[u_q,v_q]和地图图像坐标系的点[u_m,v_m]同样可以通过单应矩阵建立联系：

式中，r_i为R的第i个列向量；

根据摄像机成像原理，计算出摄像机与标志的位姿关系，即摄像机与标志之间的旋转矩阵R及摄像机与标志之间的平移向量t,见下式：

其中h_i(i＝1,2,3)为单应矩阵H的第i个列向量，由(6)可得到摄像机在标志局部坐标系下的位置：

G＝-R^-1t (7)

6.基于VGG+NetVLAD的地下停车场高精度视觉定位系统，其特征在于，包括数据采集模块、网络模型及训练模块、地图制作模块、定位模块；

将每个标志作为一个分类，同一标志的所有图像作为该类正样本进行训练；用‘Imagenet’作为预训练权重参数，训练时冻结前4个模块，只训练模块5及之后的NetVLAD层和全连接层，训练至模型收敛；最后截去全连接层，取用CNN层+NetVLAD层作为特征提取器用来提取视觉向量，该视觉向量大小为1024；

所述提取标志特征点模块：标志的几何尺寸是已知的，即宽度w和高度h，在标志平面上建立局部平面坐标系，可以得到标志四个角点的平面坐标系坐标，按顺序为[(0,0),(w,0),(w,h),(0,h)]，分别对应左上、右上、右下、左下；四个角点对应匹配的地图图像中的图像坐标，通过图3所示方式颜色分割，ROI图像轮廓提取获得，查询图像与地图图像的特征点通过ORB算法提取，然后用Brute-Force匹配器匹配；

所述解算位姿模块：匹配地图图像中标志的已知的四个角点图像坐标，平面物理坐标系的点[X,Y]和地图图像坐标系的点[u_m,v_m]可以通过3×3的单应矩阵来建立联系：

式中，r_i为R的第i个列向量；

其中h_i(i＝1,2,3)为单应矩阵H的第i个列向量；由(6)可得到摄像机在标志局部坐标系下的位置：

G＝-R^-1t (7)

7.根据权利要求6所述的基于VGG+NetVLAD的地下停车场高精度视觉定位系统，其特征在于，所述全局特征提取模型包括为5个模块，16个卷积层组成；模块1包含2个卷积层，1个池化层；模块2包含2个卷积层，1个池化层；模块3包含4个卷积层，一个池化层；模块4包含4个卷积层，1个池化层；模块5包含4个卷积层，1个NetVLAD层；最后连接全连接层，softmax函数进行分类；