CN109033245B

CN109033245B - 一种移动机器人视觉-雷达图像跨模态检索方法

Info

Publication number: CN109033245B
Application number: CN201810729617.5A
Authority: CN
Inventors: 刘华平; 张凯; 邓晓燕; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2020-12-11
Anticipated expiration: 2038-07-05
Also published as: CN109033245A

Abstract

本发明属于机器学习、智能控制领域，提出一种移动机器人视觉‑雷达图像跨模态检索方法。该方法首先让移动机器人获取包含有点云文件和对应图像的训练集和测试集；分别获取训练集的点云特征矩阵和图像特征矩阵，利用聚类典型相关分析对两个特征矩阵降维得到对应的投影向量矩阵；检索时，根据投影向量矩阵获取测试点云降维后的特征向量和降维后的测试集图像特征矩阵，计算两者之间的欧氏距离从而得到与测试点云最相似的图片即为检索结果。本发明能够实现移动机器人在无法获取图像信息或者采集图像信息受到极大干扰时，通过点云信息检索到与之最相近的图像，弥补了点云在可视化效果上的不足之处。

Description

一种移动机器人视觉-雷达图像跨模态检索方法

技术领域

本发明属于机器学习、智能控制领域，特别涉及一种移动机器人视觉-雷达图像跨模态检索方法。

背景技术

近年来，随着传感器技术，控制系统，人工智能的不断发展，移动机器人的发展取得了很大的进步。在军事上，可以将移动机器人作为侦查机器人，它能够自主导航、智能避障，独立完成各种侦查和战斗任务；在科技领域，可以将移动机器人设计为月球无人车，用来完成月球探测、收集、考察和分析样品等复杂任务；在民用上，移动机器人可以应用在无人自主驾驶领域，在自动驾驶和辅助驾驶系统等方面帮助减少交通事故、减少尾气排放等。因此，对于移动机器人的研究具有广泛的科学意义和现实价值；同时，智能化也是新一代汽车技术发展的前沿，已引起国际上的极大关注。

移动机器人的感知功能一直是人们所研究关注的重点，而感知功能主要是通过传感器来获取数据然后实现的。传感器是移动机器人不可或缺的重要组成部分，常用的传感器包括摄像头、激光雷达、超声波雷达、GPS和陀螺仪等，其中摄像头和激光雷达是最主要的两种传感器。

目前，通过摄像头拍摄图像或视频，再对拍摄的图像或视频进行识别以确定周围环境，是移动机器人的主要感知途径；而通过激光雷达可以获得移动机器人周围物体轮廓边沿与移动机器人的相对距离，这些由激光雷达采集得到的移动机器人周围物体的轮廓信息组成了点云信息，根据点云信息可绘制出3D环境地图，精度最高可达到厘米级别。激光雷达不依赖光照，它的观测视角可以是360°；并且由激光雷达采集得到的点云数据具有由摄像头拍摄的图像所不具备的3D立体信息。在某些极端天气或者夜晚的情况下，摄像头所采集的图像信息会受到极大的干扰，此时雷达的存在便显得十分重要。目前视觉雷达图像跨模态检索领域还无相关成熟技术。

聚类典型相关分析(cluster-CCA)是利用综合变量簇之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是：为了从总体上把握两组指标之间的相关关系，分别在两组变量中提取有代表性的两簇综合变量，利用这两簇综合变量之间的相关性来反映两组指标之间的整体相关性。它是在典型相关分析(CCA)的基础上演变而来的，目的就是为了解决CCA所不能解决的两组指标之间非一一对应时的一对多或者多对多的子集间的相关关系。目前典型相关分析用的最多的还是文本和图像检索领域，但是随着科学技术的发展和媒体信息的不断增多，典型相关分析必然会在更多模态信息间发挥作用，实现更多领域的跨模态检索。

发明内容

本发明的目的是为了解决在夜晚或者极端天气的情况下，移动机器人通过摄像头获取图像会受到干扰而无法准确获取周围环境信息的不足之处，提出一种移动机器人视觉-雷达图像跨模态检索方法。本发明能够实现在无法获取图像信息或者采集图像信息受到极大干扰时，通过点云信息检索到与之最相近的图像，弥补了点云在可视化效果上的不足之处，可应用在移动机器人领域，使移动机器人获得更加丰富的对环境信息。

本发明提出一种移动机器人视觉-雷达图像跨模态检索方法，其特征在于，包括以下步骤：

(1)移动机器人获取不同场景下包含有点云文件和对应图像的轨迹集合，从轨迹集合中分别选取训练集和测试集，分别将训练集和测试集中的点云文件和图像进行配对并创建标签，并将测试集中的所有图像作为检索库；具体步骤如下：

(1-1)获取不同场景下包含有点云文件和对应图像信息的轨迹集合；具体方法如下：

在移动机器人上分别安装激光雷达、摄像机和GPS；设定A种不同场景，在每种场景下，令移动机器人以设定时速在该场景中行进，激光雷达持续360度扫描周围环境采集行进过程中每个地点对应的点云文件，摄像机实时拍摄采集行进过程中每个地点相应的图像，GPS记录点云文件和图像采集的地点和时间信息，每次采集时长为5-10分钟，得到该场景下的一条轨迹；在每种场景下获取5-10条不同轨迹，将所有场景下获取的轨迹组成轨迹集合；

(1-2)从步骤(1-1)的轨迹集合中分别选取训练集和测试集，将训练集和测试集中的点云和图像信息进行配对并创建标签，并将测试集中的所有图像作为检索库；具体步骤如下：

(1-2-1)从步骤(1-1)获取的轨迹集合中随机选择同一场景下的两条轨迹，将其中一条轨迹作为训练集，另一条轨迹作为测试集；

(1-2-2)对训练集中的点云文件和图像根据该轨迹采集时获取的GPS信息的对应关系进行配对，并把配对后的点云文件和图像创建对应标签；

(1-2-3)重复步骤(1-2-2)，对测试集中的点云文件和图像进行配对并创建对应标签，并将测试集中的所有图像作为检索库；

(2)对训练集点云文件中的点云数据进行预处理，然后建立点云深度学习网络，利用点云深度学习网络提取训练集点云数据的特征，得到训练集的点云特征矩阵；具体步骤如下：

(2-1)对训练集中的每个点云文件的点云数据进行降采样，然后使用正态标准化方法将降采样后的点云数据归一化；

(2-2)建立点云深度学习网络，利用点云深度学习网络提取训练集点云数据的特征，得到训练集的点云特征矩阵；具体步骤如下：

(2-2-1)构建点云深度学习网络；

(2-2-2)利用点云深度学习网络提取训练集点云数据的特征，得到训练集的点云特征矩阵；

点云深度学习网络的输入为单个点云文件，输出为输入点云文件对应的一个1024维特征向量；令训练集包含N个点云文件，将N个点云文件依次输入点云深度学习网络，网络输出每个点云文件对应的1024维特征向量，共得到N个1024维特征向量；

将训练集每个点云文件对应的1024维特征向量，按照对应点云文件采集的先后顺序组合，最终得到一个N x1024维的点云特征矩阵，记为训练集的点云特征矩阵X；

(3)对训练集中的图像进行预处理，然后建立图像卷积神经网络，利用图像卷积神经网络提取训练集每张图像的特征，得到训练集的图像特征矩阵；具体步骤如下；

(3-1)对训练集的所有图像进行预处理，将训练集每张图像下采样至227x227；

(3-2)构建图像卷积神经网络，利用图像卷积神经网络提取训练集每张图像的特征，得到训练集的图像特征矩阵；具体步骤如下：

(3-2-1)构建图像卷积神经网络；

(3-2-2)利用图像卷积神经网络提取训练集每张图像的特征，得到训练集的点云特征矩阵；

图像卷积神经网络的输入是大小为227x227x3的一张训练集的图像，输出为输入图像对应的一个4096维的特征向量；令训练集包含M张图像，依次将M张图像输入图像卷积神经网络，网络输出每张图像对应的4096维特征向量，共得到M个4096维特征向量；

将训练集每张图像对应的4096维特征向量，按照和步骤(2-2-2)的点云特征矩阵中点云数据对应的顺序进行组合，最终得到一个M x4096维的图像特征矩阵，记为训练集的图像特征矩阵Y；

(4)利用聚类典型相关分析对步骤(2)得到的训练集的点云特征矩阵和步骤(3)得到的训练集的图像特征矩阵进行降维处理，分别得到两个矩阵对应的投影向量矩阵；具体方法如下：

将X和Y表示为各自特征的线性组合：

U＝Xa

V＝Yb

其中，U为降维后的训练集的点云特征矩阵，V为降维后的训练集的图像特征矩阵；a为训练集的点云特征矩阵对应的投影向量矩阵；b为训练集的图像特征矩阵对应的投影向量矩阵；

X和Y的协方差矩阵为：

其中

表示成对对应的总数，C表示的是训练集点云文件和图像配对后的数据组数，

分别表示在第c组中的点云和图像数据，|X_c|代表点云数据在第c组的模态个数，|Y_c|代表图像数据在第c组的模态个数；

U和V的协方差矩阵关系：

U和V的相关系数ρ的表达式如下：

当U和V的相关系数ρ最大时，通过构造拉格朗日函数求解出投影向量矩阵a和b；

(5)从测试集的点云文件中选取测试点云，并从测试集的图像中检索得到与测试点云最相似的R张图像；具体步骤如下：

(5-1)令测试集包含N1个点云文件，将测试集的点云文件输入步骤(2)建立的点云深度学习网络，得到N1x1024维的测试集的点云特征矩阵T，从测试集的中任意选取一个点云文件作为测试点云，得到其对应的1024维特征向量T1；

(5-2)令测试集包含M1张图像，将测试集的图像输入步骤(3)建立的图像卷积神经网络,得到M1x4096维的测试集的图像特征矩阵I；

(5-3)将步骤(5-1)得到的测试集的点云特征矩阵T乘以步骤(4)中得到的训练集点云特征矩阵对应的投影向量矩阵a，得到降维后的测试集点云特征矩阵T'，根据T'的顺序找到(5-1)中选取的测试点云对应的降维后的特征向量T1'；

(5-4)将步骤(5-2)中得到的测试集的图像特征矩阵I乘以步骤(4)中得到的图像特征矩阵对应的投影向量矩阵b，得到降维后的测试集图像特征矩阵I'；

(5-5)计算步骤(5-3)得到的降维后的测试点云特征向量T1'和(5-4)得到的图像特征矩阵I'的欧氏距离，共得到M1个欧氏距离；

(5-6)将(5-5)中得到的M1个欧氏距离结果按照升序顺序排列，选取前R个结果对应测试集的R张图像即为检索得到的与测试点云最相似的图像；

(6)对步骤(5)的检索结果进行进一步筛选，得到与测试点云最接近的图像；具体步骤如下；

(6-1)将(5-6)中得到的测试集的R张图像通过对应标签信息得到每张图像的GPS地点信息，计算每张图像对应地点与测试点云之间的实际距离，共得到R个实际距离；公式如下：

D＝distance(lat1,lon1,lat2,lon2)

dis＝D×6371×1000×2×pi/360

其中，lat1，lon1分别表示测试点云的经纬度坐标；lat2，lon2分别表示检索结果图像的经纬度坐标，pi＝3.1415926，6371为地球半径，dis即为两点之间的实际距离；

(6-2)将(6-1)中得到的R个实际距离按照升序顺序排列，距离最小值对应的测试集图像即为与测试点云最接近的图像，检索完成。

本发明的特点及有益效果在于：

本发明能够从点云数据中检索出与之相似度最高的图像数据，使移动机器人在没有图像信息或者采集图像信息遇到困难时，可以从检索库中找到与给定点云最相近的图像，由图像的直观性可以弥补点云在可视化效果上的不足。本发明在实际中可以应用到移动机器人包括无人驾驶汽车上，帮助它们更好的感知周围环境，使人机交互变得更加容易，同时对下一步的导航和路径规划有非常重要的现实意义。

具体实施方式

本发明提出一种移动机器人视觉-雷达图像跨模态检索方法，下面结合具体实施例进一步详细说明如下。

本发明提出一种移动机器人视觉-雷达图像跨模态检索方法，包括以下步骤：

在移动机器人(本实施例为一辆无人驾驶汽车)上分别安装激光雷达(可为任意型号，本实施例采用Velodyne HDL-32E laser scanner)、摄像机(可为任意型号，本实施例采用Kodak PIXPRO SP360 camera)和GPS(可为任意型号，本实施例为GARMIN GPS 18x LVC)；设定A种不同场景(本实例选定6种场景进行数据采集，分别是海滨、森林、室内停车场、室外停车场、居民区和城市道路；划分场景的标准为可以明显区分周围环境，场景类别数应大于等于2)，在每种场景下，令移动机器人以设定时速(本实施例中无人驾驶时速大约为30Km/h；汽车速度不能太快，否则设备无法完成数据采集)在该场景中行进，激光雷达持续360度扫描周围环境采集行进过程中每个地点对应的点云文件(本实施例得到的每个点云文件大约包括5万点，每个文件记录了对应地点环境信息的XYZ三维坐标)，摄像机实时拍摄采集行进过程中每个地点相应的图像(本实例得到的图像是环形全景图像)，GPS记录点云文件和图像采集的地点和时间信息，本实施例中点云和GPS的采集频率为2Hz，图像的采集频率为6～7Hz；每次采集时长约为5～10min，得到该场景下的一条轨迹；在每种场景下获取5-10条(本实施例为5条)不同轨迹，将所有场景下获取的轨迹组成轨迹集合；

(1-2-2)对训练集中的点云文件和图像根据该轨迹采集时获取的GPS信息的对应关系进行配对(即将在同一地点采集的点云文件和图像信息进行配对)，并把配对后的点云文件和图像创建对应标签以供后续训练使用；

(1-2-3)重复步骤(1-2-2)，对测试集中的点云文件和图像同样进行配对并创建对应标签，并将测试集中的所有图像作为检索库；

本实施例中训练集点云文件数量为566个，图像数量为1465张；测试集点云文件数量为586个，图像数量为1392张；根据采集数据时GPS记录的点云文件和图像的对应关系，将在同一地点采集的点云文件和图像文件设置相同的标签，本实例中设置完标签后的点云和图像数据有大约为2：6的数量关系(即在同一地点，每两个点云文件对应6张图像)；

(2-1)对训练集中的每个点云文件的点云数据进行降采样，采用的是PCL库中的体素法和numpy库中的随机采样法(本实例中将每个点云数据降采样到2500点)，然后使用正态标准化方法将降采样后的点云数据归一化；

(2-2-1)构建点云深度学习网络；

本实施例使用的是PointNet网络作为点云深度学习网络，这个网络由依次连接的输入层、第一空间变换矩阵层(T-net3x3)、双层感知器(MLP)、第二空间变换矩阵层(T-net64x64)、三层感知器(MLP)和最大池化层(Maxpool)组成；本实施例通过改变PointNet最大池化层的输出得到输入点云数据对应的特征向量；

一般情况下，由于深度学习网络要求输入信息具有规范化的格式，而三维点云数据往往是空间中的一些无序点集，即假使某一个点云数据中只包含n个三维点，每一个点用对应的(X,Y,Z)三维坐标表示，在不考虑遮挡、视角等变化的情况下，单就这些点的先后顺序进行排列组合，就有n！种可能。因此需要设计一个函数，使得函数值与输入数据的顺序无关。在代数组合学中，这类函数被称为对称函数(在本实施例中，使用PointNet中的最大池化层作为对称函数，这样处理不仅简单，且实验效果很好)；

点云深度学习网络的输入为单个点云文件，点云文件的格式大小按深度学习网络的需要由步骤(2-1)进行预处理得到(本次实施例的每个点云文件中点云数量为2500，格式为XYZ三点坐标；即实际输入为一个2500x3的点云坐标数组)。输入数据通过第一空间变换矩阵层T-Net(3x3)，估计3x3的变换矩阵并作用在原始输入点云数据上，实现数据的对齐。对齐后的数据会以点为单位，通过一个共享参数的双层感知机模型进行特征提取。每个点提取出对应的64维的特征，再通过第二空间变换矩阵层T-Net(64x64)预测64x64的变换矩阵，作用到特征上，实现对特征的对齐。然后继续利用三层感知机进行以点为单位的特征提取，直到把每个点的特征的维度变为1024，继而在特征空间的维度上进行最大池化，提取出输入点云文件的全局特征向量。点云深度学习网络的输出为输入点云文件对应的一个1024维特征向量；令训练集包含N个点云文件，将N个点云文件依次输入点云深度学习网络，网络输出每个点云文件对应的1024维特征向量，共得到N个1024维特征向量；

(3-1)对训练集的所有图像进行预处理，本实施例将训练集每张图像下采样至227x227，便于下一步直接送入AlexNet网络；

(3-2-1)构建图像卷积神经网络；

本实施例采用的是AlexNet作为图像卷积神经网络，原始的AlexNet由依次连接的5层卷积层和3层全连接层构成。而本实施例采用的AlexNet前6层网络结构保持不变，改变了第7层的输出并舍弃了最后一层，从第7层输出每张输入图像对应的一个4096维的图像特征向量。

图像卷积神经网络的第一层输入是大小为227x227x3的一张训练集的图像，经过第一层卷积层的卷积、激活和池化后，生成对应的一个27x27x96的像素层；然后再进入第二层卷积层，同样经过卷积、激活和池化操作，输出两组13x13x128的像素层；依次经过5个卷积层后输出的是6x6x256规模的像素层数据。然后送入第一个全连接层，即第6层，第5层输出的6x6x256规模的像素层数据与第6层的4096个神经元进行全连接，然后经由relu6进行处理后生成4096个数据，再经过dropout6处理；将第6层输出的4096个数据与第7层的4096个神经元进行全连接，然后经由relu7进行处理后生成4096个数据，再经过dropout7处理后输出4096个数据，此时得到的即为输入图像对应的一个4096维的特征向量；

令训练集包含M张图像，依次将M张图像输入图像卷积神经网络，网络输出每张图像对应的4096维特征向量，共得到M个4096维特征向量；

将X和Y表示为各自特征的线性组合：

U＝Xa

V＝Yb

X和Y的协方差矩阵为：

其中

表示成对对应的总数，C表示的是训练集点云文件和图像配对后的数据组数(本实施例中表示步骤(1-2-2)中得到的配对的总数,即训练集中C为283，表示一共有283组点云文件和配对的图像数据)，

分别表示在第c组中的点云和图像数据，|X_c|代表点云数据在第c组的模态个数，|Y_c|代表图像数据在第c组的模态个数；(X_c表示点云数据，其中|X_c|为2，即在每一个采集点扫描得到2个点云；Y_c表示图像数据，其中由于摄像机采集频率不定，所以|Y_c|为3～6不等，即在每一个采集点可得到3至6张图像)；

由上式可得，U和V的协方差矩阵关系：

此时，U和V的相关系数ρ的表达式如下：

当U和V的相关系数ρ最大时，通过构造拉格朗日函数可求解出投影向量矩阵a和b；

(5-1)令测试集包含N1个点云文件，将测试集的点云文件输入步骤(2)建立的点云深度学习网络，得到N1x1024维的测试集的点云特征矩阵T，从测试集的中任意选取一个点云文件作为测试点云，得到其对应的1024维特征向量T1；记录测试点云的GPS坐标信息，以备后续使用；

(5-2)令测试集包含M1张图像，将测试集的图像输入步骤(3)建立的图像卷积网络,得到M1x4096维的测试集的图像特征矩阵I；

(5-3)将步骤(5-1)得到的测试集的点云特征矩阵T乘以步骤(4)中得到的训练集点云特征矩阵对应的投影向量矩阵a，得到降维后的测试集点云特征矩阵T'，根据T'的顺序找到(5-1)中选取的测试点云对应的降维后的特征向量T1'，为一个1024维特征向量；

(5-6)将(5-5)中得到的M1个欧氏距离结果按照升序顺序排列，选取前R个结果(R可取10-50，根据数据集大小选择合适的R值)对应测试集的R张图像即为检索得到的与测试点云最相似的图像(本实例选取R＝50)；

(6-1)将(5-6)中得到的测试集的R张图像通过对应标签信息可以对应到每张图像的GPS地点信息(即每个地点的经纬度坐标信息)，然后分别利用MATLAB自带的公式计算每张图像对应地点与测试点云之间的实际距离，共得到R个实际距离；公式如下：

D＝distance(lat1,lon1,lat2,lon2)

dis＝D×6371×1000×2×pi/360

其中，lat1，lon1分别表示第一个点(即测试点云)的经纬度坐标(单位为度)；lat2，lon2分别表示第二个点(即检索结果图像)的经纬度坐标，pi＝3.1415926，6371为地球半径，dis即为两点之间的实际距离(单位m)；

Claims

1.一种移动机器人视觉-雷达图像跨模态检索方法，其特征在于，包括以下步骤：

(2-2-1)构建点云深度学习网络；

(3-1)对训练集的所有图像进行预处理，将训练集每张图像下采样至227x 227；

(3-2-1)构建图像卷积神经网络；

(3-2-2)利用图像卷积神经网络提取训练集每张图像的特征，得到训练集的图像特征矩阵；

图像卷积神经网络的输入是大小为227x 227x 3的一张训练集的图像，输出为输入图像对应的一个4096维的特征向量；令训练集包含M张图像，依次将M张图像输入图像卷积神经网络，网络输出每张图像对应的4096维特征向量，共得到M个4096维特征向量；

将X和Y表示为各自特征的线性组合：

U＝Xa

V＝Yb

X和Y的协方差矩阵为：

其中

U和V的协方差矩阵关系：

U和V的相关系数ρ的表达式如下：

(5-1)令测试集包含N1个点云文件，将测试集的点云文件输入步骤(2)建立的点云深度学习网络，得到N1x1024维的测试集的点云特征矩阵T，从测试集中任意选取一个点云文件作为测试点云，得到其对应的1024维特征向量T1；

D＝distance(lat1,lon1,lat2,lon2)

dis＝D×6371×1000×2×pi/360