CN110956651A

CN110956651A - 一种基于视觉和振动触觉融合的地形语义感知方法

Info

Publication number: CN110956651A
Application number: CN201911295083.0A
Authority: CN
Inventors: 白成超; 郭继峰; 郑红星; 刘天航
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-03
Anticipated expiration: 2039-12-16
Also published as: CN110956651B

Abstract

本发明提出一种基于视觉和振动触觉融合的地形语义感知方法，首先基于ORB_SLAM2和语义分割给出了视觉三维语义建图的实现方法；其次结合基于CNN‑LSTM的地形语义分类识别方法，给出了视/触融合的实现思路和融合策略；最后基于蓝鲸XQ无人车平台、Kinect V1.0视觉传感单元以及振动传感单元在实物环境下进行了算法测试，通过对比测试结果和真实环境可以得到所提方法的语义标记精度满足应用的需求，同时有无振动触觉的融合结果可以明显对比出对地形语义认知的好坏，故通过两者的融合可以为巡视器提供更加可靠的感知能力，即使在视觉失效的情况下，振动触觉依然可以提供有限范围内的地形认知精度。

Description

一种基于视觉和振动触觉融合的地形语义感知方法

技术领域

本发明属于地形语义感知技术领域，特别是涉及一种基于视觉和振动触觉融合的地形语义感知方法。

背景技术

针对地形语义感知技术的研究目前还未有深入报道，但是在环境语义建图、语义分割等领域有了一定的研究，下面从这几方面给出目前技术的发展现状及趋势分析。

Kostavelis给出了移动机器人语义建图的调研综述，从类别组成、发展趋势、实际应用等多个方面进行了分析。2016年Davison团队提出了基于卷积神经网络稠密三维语义建图方法，即SemanticFusion，通过CNN与稠密SLAM系统的结合实现了从传统的几何、外形地图表示到语义地图的提升，这其中采用了ElasticFusion给出了长期的帧间稠密关联，使得基于CNN的语义预测在多视点进行了概率融合，从而得到了语义三维地图，且具有较好的语义标签检测精度，同时在25Hz帧率下可以实现实时的环境交互。为了增强视觉场景的理解，Cremers团队利用RGB-D图像提出了基于深度神经网络的预测语义分割方法，其创新点在于采用了自监督网络来预测多视图一致性语义。Sunderhauf等人则给出了基于目标指向的语义地图构建方法，其中包括了环境的语义含义、目标对象实体以及基于点/网格的几何表示，整个系统的运行用到了基于稀疏特征的RGB-D SLAM、基于图像的深度学习目标检测以及三维无监督分割。Antonello等人给出了利用多视三维缠绕森林来实现语义分割和绘图的思路，提出了一种批处理方法和一种多视图融合框架，其中批处理采用离线工作，并以增量方式累积单视图的结果，最终利用多视图提高了语义标签的精度。利用卷积神经网络和空间场景分割的方法，有学者提出了一种基于混合度量拓扑图的分层语义组织结构语义图，并在服务机器人上进行了验证。Nakajima等人提出一种高效、可扩展的实时增量构建密集、语义标注的三维地图的方法，相比于针对每个元素的语义标注，该方法将类概率分配给每一个区域，整个过程包含了SLAM、基于卷积神经网络的分割、2D识别以及更新类概率。Zheng等人则给出了端到端的基于概率深度网络的大尺度语义建图方法，提出了TopoNets，即建立了一个统一的深度网络，从局部几何像素到高级别的语义表述，涵盖了多个抽象的层次和空间尺度。Narita等人在实物对象层面提出了一种在线体积语义建图系统，称为PanopticFusion。来密集预测背景区域的类标签，并能单独分割任意的前景对象，由于使用了空间散列的体积图表示，能够重建大尺度场景并提取标记网络。首先通过融合二维语义信息和实例分割输出值来预测RGB帧的像素集全景标签，包括类标签和实例的ID；其次在保证实例ID一致性的同时，将预测的全景标签与深度测量一起集成到体积图中；最后在数据集和实际环境上均得到了不错的验证效果。来自ETH-ASL实验室的研究团队针对长时间任务过程中，由于摄像机跟踪误差的累计以及闭环检测延迟导致的环境重建出现不一致的问题，提出了一种基于截断符号距离函数(TSDF)的可扩展一致性稠密建图方法，其核心是通过基于特征的相机跟踪和光束法平差进行定位，从而将环境表示为重叠的TSDF集合，从其实验结果可以看出该方法有效解决了一致性建图问题。华盛顿大学Fox团队提出了一种基于数据关联的循环神经网络语义建图方法，称为DA-RNN，其中利用RNN来对RGBD图像进行语义标签的生成，将所得结果与KinectFusion得出的重构结果进行关联，从而得到了三维环境的语义融合地图。清华大学Yu等人针对实际应用环境中的动态性问题，提出了适合于动态环境应用的DS-SLAM方法，该方法包含五个并行处理线程，即跟踪、语义检测、局部建图、回环检测和稠密语义地图构建。通过将语义分割网络与移动一致性检测方法相结合，减少了动态目标的影响，提高了在动态环境下的定位精度，并基于八叉树地图生成了环境语义地图，从而为高层次的任务执行提供了支撑。Stuckler等人提出了对象类语义的稠密实时建图方法，同时对环境表面的几何、外观和语义标记进行建模。其中基于SLAM来恢复相机的位姿状态，同时基于随机决策森林识别和分割图像中的对象类，为每一个图像产生一个稠密概率标签，最后基于贝叶斯框架，在八叉树三维地图中进行概率的融合。Wald等人基于移动平台给出了实时全增量场景理解实现方法，首先利用SLAM来重建三维场景，通过融合从全局三维模型中对应的每个输入深度所获得的分割片段来计算三维几何分割，接着将几何分割与语义标记相结合，得到了语义图形式的语义分割，并引入了快速增量的三维描述子对全局模型中的分割片段进行编码，利用随机森林来确定语义标签，最后通过连续帧预测结果进行融合，从而得到了随时间变化的有效语义分类理。

在实现了语义分割和语义建图之后，对所处环境的理解有了质的提高，但是最终的价值还要在实际应用中体现，其最直接的优势体现在了对规划系统的支撑，因为获取了更多的认知层的信息，在最优路径或者任务选择的时候会更有裕度，更倾向于做出正确的决策，故语义建图与规划的融合也是该方向的研究热点。卡内基梅隆大学的Maturana等人提出了适用于自主导航的在线语义建图方法，首先对相机获取的RGB图像进行语义分割，利用全卷积网络得到像素级别的语义标签，接着利用激光雷达获取的环境点云数据与之前获取的语义标签融合，得到2.5D的环境语义地图，最后基于滚动优化规划器通过分配每一个类的可通过代价来得出最优的规划路径，从无人车和无人机的实物测试结果可以看出该方法具备较好的在线应用能力。2019年Gupta等人则给出了用于视觉导航的认知建图和规划实现架构，不同于传统的基于学习的架构，该方法构建了自上而下的置信地图表示，利用一个可微分的神经网络规划器，来生成下一步长的执行动作，随着置信积累可以使移动平台具备了对已访问过环境的跟踪能力，从而实现了基于任务需求驱动的感知规划，这对于智能化应用来说无疑是一个很好的出发点。

综上，可以看到语义建图的研究已经有了很大的进展，除了原理性的理论研究之外，也逐渐向实际应用发展。但是大多数的语义实现还是基于视觉或者激光雷达来实现，且大多数是对环境的语义理解，并没有针对地形的语义区分进行研究。而这一点又是地外天体巡视器非常关键的部分，所以说对于地形语义建图的研究仍需要补充和加强，这也是本发明的意义所在，通过引入新的传感模式，即视觉和振动触觉的融合，实现地形的语义认知，从而为地形的可通过性判断提供全面的支撑。

发明内容

本发明目的是为了解决现有技术中感知模式对地形语义感知能力不足的问题，提出了一种基于视觉和振动触觉融合的地形语义感知方法。本发明所述方法不仅具备了对周围环境的三维重构能力，同时具备了对地形材质种类的有效识别能力，从而为巡视平台提供了对地形环境的语义认知，增加了对地形可通过性的判断。

本发明是通过以下技术方案实现的，本发明提出一种基于视觉和振动触觉融合的地形语义感知方法，所述方法包括以下步骤：

步骤一：利用视觉传感单元感知所处环境信息，得到彩色图像信息及深度图像信息值；

步骤二：利用振动触觉传感单元采集地形环境的信息，得到经过预处理后的三维振动数据；

步骤三：基于步骤一获取的彩色图像信息及深度图像信息值，利用ORB_SLAM2作为SLAM的后端进行位姿解算，得到运动过程相机的运动状态；

步骤四：基于步骤一获取的深度图像信息值进行局部点云重构，并对输入的彩色图像做图像语义分割，将语义信息与重构的局部点云进行融合从而得到局部语义点云结果；

步骤五：基于步骤三解算的位姿信息和步骤四得到的局部语义点云结果与全局语义点云进行融合，从而得到基于视觉的环境语义地图；

步骤六：基于步骤二得到的三维振动数据，利用训练完成的深度神经网络进行在线的分类检测，实现对不同软硬程度地形环境的有效分类识别，从而得到振动语义标签；

步骤七：利用步骤六获得的振动语义标签，基于位姿的关联与步骤五得到的视觉环境语义地图进行融合，最终得到带地形语义信息的三维语义地图。

进一步地，在步骤四中，局部点云重构具体为：点云是一组无序的点，每个点都包含某个参考系中该点的坐标，深度图像首先注册到彩色图像的参考帧，然后，根据每个像素在图像上的位置、深度和相机内参计算其真实世界坐标，进而生成点云信息。

进一步地，所述基于视觉的环境语义地图为八叉树地图；在八叉树地图中插入点云时，首先通过体素滤波器过滤点，以对点进行向下采样，然后将这些点插入Octomap，并利用光线投射来清理自由空间，进而更新Octomap的内部节点，即分辨率最低的体素，最后，将更新后的Octomap整理以实现可视化。

进一步地，所述图像语义分割具体为：采用金字塔场景分析网络作为实现CNN语义分割网络的模型，其输入为采集到的场景彩色图像，输出结果为含有类别信息的分数图；为了实现该语义分割的过程，首先利用ResNet将输入图像处理生成特征图；其次对于生成的特征图进行金字塔池化操作，从而获取不同分辨率的特征图；之后，对于每一个池化特征图进行卷积操作，再结合上采样特征图将结果堆叠起来形成最终的特征图；最后通过卷积处理得到类别的分数图。

进一步地，在步骤五中，所述融合采用最大置信度融合模式，该融合包括CNN语义分割网络产生的具有最高置信度的语义颜色及其对重构的点云的置信度，同样的信息存储在Octomap的每个体素中，在将点云插入Octomap时，如果一个体素有一个新的测量，则将两个语义信息融合在一起；如果两个语义颜色相同，则保持语义颜色，置信度是两个语义的置信度的平均值；如果两种语义颜色不同，则保留具有高置信度的语义。

进一步地，所述训练完成的深度神经网络为七层深度神经网络，第一、三、五层为卷积层，第二、四层为池化层，第六层为LSTM层，在网络的最后阶段采用全连接层来预测输出；所述卷积层和池化层的激活函数为ReLU函数，所述全连接层激活函数为Softmax函数；所述七层深度神经网络由三个步长为1的卷积层组成，每一个卷积操作都是通过将内核在输入向量上一次移动一个样本来执行的，在这个操作过程中，叠加的矩阵被相乘和求和，同时为了将输入表示的大小减少一半，在第一和第三卷积层之后的特征映射采用了步长为2的最大池化滤波，随后使用LSTM层从所述特征中提取时间信息，从而使得从卷积和池化过程中提取的特征被分解为顺序分量，并送入循环的LSTM单元进行时间分析，只有来自LSTM最后一步的输出被输入到全连接层中进行地形种类预测。

进一步地，在步骤七中所述融合的判断规则为：

其中P_visual和P_vibration分别为基于视觉和振动触觉的地形预测值，因为视觉探测在振动之前，故如果视觉语义重建的预测结果与之后在相同地点振动的语义分类预测结果相同，则仍以视觉的语义值进行后续处理，但是如果预测结果不同，则以振动触觉的预测结果为准。

进一步地，所述步骤七具体为：首先利用颜色空间赋予的语义信息将地形从整个环境中提取出来，同时根据ORB_SLAM2输出的轨迹信息从地形点云中提取出巡视器经过部分的点云，最后通过位姿的关联将振动分类识别得到的语义标签与视觉得到的语义地形进行融合，从而具有更加精细化的地形语义认知能力。

本发明为了实现巡视器在复杂环境中的精确导航与路径规划，提出了基于视觉和振动触觉融合的地形语义感知方法。首先基于ORB_SLAM2和语义分割给出了视觉三维语义建图的实现方法；其次结合基于CNN-LSTM的地形语义分类识别方法，给出了视/触融合的实现思路和融合策略；最后基于蓝鲸XQ无人车平台、Kinect V1.0视觉传感单元以及振动传感单元在实物环境下进行了算法测试，通过对比测试结果和真实环境可以得到所提方法的语义标记精度满足应用的需求，同时有无振动触觉的融合结果可以明显对比出对地形语义认知的好坏，故通过两者的融合可以为巡视器提供更加可靠的感知能力，即使在视觉失效的情况下，振动触觉依然可以提供有限范围内的地形认知精度。

附图说明

图1为本发明所述基于视觉和振动触觉融合的地形语义感知方法的框架图；

图2为基于RGB-D语义SLAM实现框架示意图；

图3为输入信息转换流程图；

图4为八叉树地图原理示意图；

图5为金字塔场景分析网络框架示意图；

图6为基于CNN-LSTM深度神经网络设计示意图；

图7为基于CNN-LSTM深度神经网络结构示意图；

图8为视/触语义融合原理示意图；

图9为视觉和振动触觉的语义融合实现框架图；

图10为振动信息关联方法示意图；

图11为基于ORB_SLAM2多材质地形环境建图结果示意图；

图12为基于RGBD三维语义建图结果示意图；

图13为最终结果示意及语义标签示意图；

图14为地形语义信息提取示意图；

图15为最终视觉和振动触觉语义融合地形结果示意及语义标签示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1，本发明提出一种基于视觉和振动触觉融合的地形语义感知方法，所述方法包括以下步骤：

一、基于RGBD的三维语义建图

首先求解基于视觉传感单元的的三维语义建图，如图2所示，给出了详细的实现流程。其核心思想是通过接收RGB-D相机深度配准后的彩色图和深度图，利用位姿解算、点云重构和语义分割实现三维语义融合，并将最后的语义建图结果用八叉树地图来表示。

整个实现过程将基于ROS构架实现。首先将来自Kinect V1.0相机配准后的彩色图像和深度图像作为输入数据发布。之后，彩色图和深度图都被送入两个不同的过程进行解算。一个是ORB_SLAM2过程，它根据彩色图每帧中提取的ORB特征点来定位相机，得到相机实时的三维位姿。另一个是局部语义点云生成过程，它对每帧输入的彩色图进行语义分割，同时根据输入的深度图和相机的内参矩阵生成点云，接着将语义颜色注册到生成的点云中，从而可以得到局部语义点云结果。接着，在之前生成的全局语义点云的基础上，利用相机位姿融合当前局部语义点云，从而获得全局的语义点云信息。最后通过Octomap并融合语义信息生成三维八叉树语义地图。下面对每一部分进行详细阐述。

1、ORB_SLAM2

2017年Mur-Artal等人提出了适用于单目、双目和RGB-D相机的开源SLAM解决方案，即ORB_SLAM2，相比于之前的单目ORB_SLAM系统，一是拓展了应用范围，不在局限于单目视觉，整个系统框架包括了闭环检测、重定位以及地图的重新使用；二是通过在后端引入光束法平差(BA)优化，要比基于迭代最近点(ICP)或者光度和深度误差最小化等实时方法获得更高的精度；三是通过使用远处和近处的双目点匹配以及单目观测，最终的精度要优于直接双目匹配；四是提出了一个轻量级的定位模式，它利用视觉里程计跟踪未重构区域，并匹配到允许零漂移定位的地图点，有效解决了无法建图情况下的定位问题。现目前，该系统已经被应用于多种应用场景，如手持环境重构设备、无人机环境重构以及大尺度环境下无人车的自动驾驶等，故本发明将使用ORB_SLAM2作为SLAM的后端，进行相机位姿的解算，该SLAM系统不仅在大时间尺度下仍然可以得到精确的全局定位精度，同时对于运行环境要求也很常规，基于CPU即可实现实时的解算运行。

1)系统输入

该系统的输入为相机采集到的彩色图像和深度图像，对于每一帧图像，将会提取一组特征点，对应于本发明采用的Kinect V1.0相机，即在640×480大小的图像上，每个图像将会提取1000个点。同时要指出的是对于图像数据的采集应用，采用了OpenNI和OpenCV结合的方式来实现，因为OpenCV不能直接对传感器进行操作，而OpenNI提取的图像格式不能直接进行后续操作，其运行流程见图3所示。通过OpenNI检测传感器设备的可用状态，并对数据流进行采集，经过格式转换，转换为OpenCV可用的形式，即可进行后续操作的图片格式。获得的图像信息将以彩色图片和深度图片的形式存贮。

2)系统结构和运行

在运行过程，该系统具有三个主要的并行线程：首先是通过局部地图中匹配的特征定位每一帧的相机位置，并只运用运动BA最小化重投影误差；其次是基于局部BA来实现局部地图的管理和优化；再者是执行回环检测，基于位姿图优化来矫正累积漂移；在此之后，可以进行第四个线程，即完整的BA优化，从而给出最优的机构和运动解。除此之外，同时嵌入了一个基于DBoW2的位置识别模块，用于在跟踪失败时的重新定位，或者是在已经重构的场景中的重新初始化。同时该系统还维护了共可见性图，即连接任意观察公共点的两个关键帧以及连接所有关键帧的最小生成树，这些图形结构允许检索关键帧的局部窗口，以便跟踪和局部绘图在局部进行。对于跟踪、绘图和识别任务该系统均使用相同的ORB特征，这些特征对旋转和尺度稳健，以及对于相机的自动增益、自动曝光以及照明变化均有很好的不变性。而且具备快读提取和匹配的特点，在实时性操作方面具有优势。

3)光束法平差(Bundle Adjustment)优化

地图点三维坐标

关键帧位姿T_iw∈SE(3)，这里w表示世界系，对匹配关键点

的重投影误差进行优化，使其误差和最小化。在关键帧i中观察地图点j的误差项为：

e_i,j＝x_i,j-π_i(T_iw,X_w,j)

其中π_i是投影方程：

[x_i,j y_i,j z_i,j]^T＝R_iwX_w,j+t_iw

其中R_iw∈SO(3)、

分别是T_iw的旋转和平移部分。(f_i,u,f_i,v)和(c_i,u,c_i,v)是关键帧i时刻对应的相机内参。要最小化的代价函数是：

其中ρ_h是Huber鲁棒核函数，

是与检测关键点的尺度相关的协方差矩阵。对于完整的BA，优化所有点和关键帧，第一个关键帧固定为原点。在局部BA中，局部区域中包含的所有点都是优化的，而关键帧的子集是固定的。在“位姿图优化”或“运动BA”中，所有点都是固定的，只有相机位姿是优化的。下面给出在SE(3)约束下的位姿图优化。

首先给定二元边的位姿图，将边中的误差定义为：

在闭合边计算完毕后，log_SE(3)转换到切空间，因此误差向量是

中的向量。目标是优化SE(3)空间下的关键帧姿态，使如下代价函数最小化：

式中，Λ_i,j是边的信息矩阵。虽然该方法是一个完整BA的粗略近似，但它比BA具有更快、更好的收敛性。

2、点云重构

1)三维点云

在插入三维地图之前，环境结构信息以点云的形式存储，用于执行消息传递。点云是一组无序的点，每个点都包含某个参考系中该点的坐标。深度图像首先注册到彩色图像的参考帧。然后，根据每个像素在图像上的位置、深度和相机内参计算其真实世界坐标，进而生成点云信息。

在针孔相机模型中，给定一个像素及其像素坐标(x,y)和深度d，真实世界坐在相机光心坐标系中的坐标(X,Y,Z)可通过以下方式计算：

其中f_x、f_y是相机焦距，c_x、c_y是光轴中心在图像上的像素坐标。除了位置和RGB信息外，语义信息也存储在点云中。不同的点类型用于不同的语义融合方法。在本发明将采用最大置信度融合来实现三维语义重构，故其点云数据结构包含三维位置信息，RGB颜色信息，语义颜色信息以及语义置信度信息。

2)八叉树地图

三维重构地形的表示有很多种，在形式上可以分为度量地图和拓扑地图，为了更加有效的提高大尺度环境下的地图表征，本发明将使用Octomap作为三维地图表示。Octomap将一个大的有界空间表示为占用网格(体素)的八叉树。八叉树中的每个节点表示一个特定大小的体素，这取决于它在树中的级别。八叉树的每个父节点被细分为8个子节点，直到达到最佳分辨率。八叉树的图解如图4所示。这样，大比例尺的三维地图就可以有效地存储在内存中。

Octomap利用命中率和丢失率对传感器建模，并以概率的方式基于不同测量来更新体素的占用率。通过测试，可以发现对于本发明的测试适合使用2厘米的分辨率，对于环境的表征不仅提供了很好的细节，同时保持了插入地图的实时效率。除此之外，Octomap还能够区分自由空间和未知空间。

3)点云插入地图

在三维地图中插入点云时，首先通过体素滤波器过滤点，以对点进行向下采样。然后将这些点插入Octomap。并利用光线投射来清除一定范围内的自由空间。进而更新Octomap的内部节点，即分辨率最低的体素。最后，将更新后的Octomap整理以实现可视化。

其中体素滤波器用于对点云进行向下采样。其原理是在给定的体素空间中只保留一个点(分辨率)。因为只需要一个点来更新八叉树节点，所以体素滤波器的分辨率设置为与八叉树分辨率相同的值。这种滤波器可以大大提高性能，因为它减少了很多点，特别是对于远离传感器的点，光线投射非常耗时。对应于kinect V1.0，其图像大小为640×480，则需要插入307200个点。经过体素过滤后，根据点的距离可以得到15000到60000个点，大大降低了点的存储，同时提高了对有效点的利用。

再者，在将点云插入Octomap时，仅更新分辨率最低的体素(叶节点)。它们的占用概率、RGB颜色、语义颜色和置信度都会更新。同时根据最大置信度语义融合方法来更新语义颜色和置信度。考虑到深度相机的有限测量范围和效率，这里只插入距离原点(相机的光学中心)一定距离的点。在本发明将这个最大范围设置为5米。对于占用概率，根据八叉树的推导，假设t＝1,2,…,T-1,T时刻，观测的数据为z₁,…,z_T，那么第n个叶子节点记录的信息为：

为了清理自由空间，当在Octomap中插入一个点时，可以执行光线投射以清除原点和该端点之间直线上的所有体素。为了清除必要的自由空间，同时保持合理的运行效率，本发明只在有限的范围内进行光线投射。

之后，通过更新八叉树的内部节点以获得低分辨率下的颜色和语义信息。其中将父节点的占用概率设置为其八个子节点的最大值，将父节点的颜色设置为其子节点的平均值，其父节点的语义信息是子节点语义的融合。

最后，在Octomap中，可以修剪相同的子节点以减小地图数据的大小。在Octomap的源代码实现中，如果所有这些子节点都具有相同的占用空间，则会修剪子节点。由于语义信息必须保存在叶节点上，因此只有当一个节点的所有子节点具有相同的占用概率、相同的语义颜色和相同的语义置信度时，才对其子节点进行删减。所以在实际的测试中，子节点被修剪的概率很低。

3、语义分割

语义分割的主要目的是对图像的语义信息进行区分，相比于目标识别和定位，在应用上更贴近于真实的应用，即目标识别给出的是图像中是否有需要识别的对象，定位则是给出了识别对象相对的空间关系，而语义分割则是对环境进行了语义区分，具备了对每一帧图像的理解能力。语义层面的环境感知则是实际应用中最为需要的，因为通过语义认知，结合先验知识可以更好的来判断所处环境的属性，从更多方面来考虑规划的约束，进而获得更加安全和优化的运行轨迹。

近几年随着人工智能技术的兴起，语义分割越来越受到重视，通过与神经网络的结合在很多领域已经初见成效，如智能机器人、无人驾驶、医疗影像等等，为不同任务场景的高层次理解提供了支撑，具备了从实际的测量信息到抽象的语义理解的转化。对于地外天体巡视器来说，同样需要这种能力来帮助巡视器自主开展巡视任务，在检测出前方有障碍物的同时，知道是什么障碍物，以及知道目前所处的地形如何，适不适合继续前进等等。

目前较为成熟的深度网络，如AlexNet，VGG-16，GoogleNet以及ResNet在图像语义分割实现上均表现出了不错的效果。本发明将采用金字塔场景分析网络(PSPNet)作为实现CNN语义分割网络的模型。图5给出了该网络模型的结构示意，其输入为采集到的场景彩色图像，输出结果为含有类别信息的分数图。为了实现该过程，首先利用ResNet将输入图像处理生成特征图；其次对于生成的特征图进行金字塔池化操作，从而可以获取不同分辨率的特征图；之后，对于每一个池化特征图进行卷积操作，在结合上采样特征图将结果堆叠起来形成最终的特征图；最后通过卷积处理得到类别的分数图。

对于在无人车平台上实现时，Kinect V1.0获取的图像首先要被调整到CNN语义分割网络的输入大小；同时在类别输出映射时采用了Softmax激活函数，以产生一个概率分布(分数总和为1)；然后，根据语义融合方法，对每个像素取概率最高的语义标签，这里将这些概率称为关联语义类别标签的语义置信度；最后根据颜色图将语义标签解码为RGB颜色。综上即完成了语义信息的获取和表征。

4、语义融合

通过对每一帧图像进行语义分割，可以得到每一帧图像像素所对应的语义标签，在连续运动的环境中，则需要将连续多个时刻的语义值进行融合从而实现全局的语义理解。在执行点云融合时，本发明采用了最大置信度融合模式，该融合包括CNN语义分割网络产生的具有最高置信度的语义颜色及其对生成的点云的置信度，同样的信息存储在Octomap的每个体素中。在将点云插入Octomap时，如果一个体素有一个新的测量，则将两个语义信息融合在一起。

如果两个语义颜色相同，则保持语义颜色，置信度是两个语义的置信度的平均值。在另一种情况下，如果两种语义颜色不同，则保留具有较高置信度的语义，本发明将置信度降低0.9，作为对不一致的惩罚。这样做还可以确保始终更新语义信息，即使已经具有非常高的可信度。该方法优点是只存储一个语义信息，从而提高了内存效率。其伪代码如表1所示。

表1语义融合-最大置信度融合

二、振动特征在线识别

在实际的应用过程当中，地形种类是十分复杂的，并不是理想的单一材质，往往是两种或者几种的组合，所以在完成了对单一材质分类的基础上，对复合地形的分类识别也是本发明的重点；同时为了使得算法对不同地形具有一定的鲁棒性，信号特征向量应该具有可变性，所以对于分类网络来说应该具备处理长度可变信号的能力，故与时间特性有一定的联系。针对上述的问题，本发明将初步探索基于时间因素考虑的的地形分类方法，在后续的研究中逐步完善对材质复杂、相近地形的区分。故本发明设计了基于卷积神经网络与长短期记忆网络相结合的学习模型，来验证对与五种不同地形的分类识别效果。详细设计见下：

如图6所示，本发明设计了七层深度神经网络，其中前五层为卷积池化层，第六层为LSTM层，在网络的最后阶段采用全连接层来预测输出。其中卷积池化层在提取空间特征具有很好的效果，而后续的LSTM层可以有效捕获这些特征中存在的时间特性，这样一来网络可以适应不同状态不同特征的地形应用，也同时为地形特征的设计提供了更多的选择。同时，在该网络设计中，卷积池化层的激活函数为ReLU函数，最后全连接层激活函数为Softmax函数。表2中则给出了详细的网络设计参数。

表2基于CNN-LSTM深度神经网络设计参数

该模型由三个步长为1的卷积层组成。每一个卷积操作都是通过将内核在输入向量上一次移动一个样本来执行的，在这个过程中，叠加的矩阵被相乘和求和。同时为了将输入表示的大小减少一半，在每个卷积层之后的特征映射采用了步长为2的最大池化滤波。随后使用LSTM层从这些特征中提取时间信息。这样一来从卷积和池化过程中提取的特征被分解为顺序分量，并送入循环的LSTM单元进行时间分析。只有来自LSTM最后一步的输出被输入到全连接的层中进行地形种类预测。图7给出了CNN-LSTM网络的结构示意。

训练过程中模型的过度拟合是一个必须要考虑的问题，尤其是在地形特征数很少的情况下。为了防止在训练过程中的过度拟合，本发明给出了一种丢弃正则化的思路，即在LSTM层进行随机的丢弃一些单元，本发明设定为20％。在训练阶段随机丢弃部分网络的想法是为了防止神经元对训练数据的强适应性。当神经元丢弃时，连接权值将被排除在更新之外，这迫使网络从不完美的模式中学习，从而改进模型的泛化能力。综上给出了基于CNN-LSTM的地形分类识别网络设计。

三、视触语义标签融合

1、融合思想阐述

由前面两部分可以得到基于视觉信息的三维语义建图和基于振动信息的地形语义分类的结果，单独使用时可以为巡视器提供一定的环境信息，但是都各自存在着各自的不足，其中视觉无法提供对地形材质、力学属性的识别判断，同时对于颜色、外形结构相近的环境感知具有不确定性，而振动触觉则具备通过轮地交互对地形材质、振动反馈等信息的获取，其不足之处在于振动数据量有限，且只能对局部范围进行探测，同时数据之间的时空一致性配准存在一定的难度，而这又恰恰是视觉所擅长的部分，通过特征点匹配很容易给出位姿的相对信息，可以看出视觉和触觉存在着一定的互补。为了使得巡视器平台同时具备这两种能力，本发明提出了基于视觉和触觉融合的语义地形构图思路，通过两种制式传感单元的结合，在环境适用性、探测的精确性以及丰富的语义认知三个方面实现突破。

视/触融合从其本质来说存在着两种融合的模式，一种是数据级的融合，即在底层数据中就进行融合处理，但这种模式难度较大，需要对两种数据的特征进行分析，以及在数据处理、关联等步骤中也都需要可行的方法来支撑；另一种是语义级的融合，即视觉和触觉各自完成语义信息的构建，最后通过一种关联机制实现视/触语义之间的融合，该模式对于实际的应用更容易实现，同时可以最大限度的利用两者的优势来实现最后的语义建图，其难点在于两种语义信息之间的关联机制设计。除此之外，也可以通过两种模式的混合来探索更优的融合方法。对于本发明的研究，将基于第二种模式来实现视/触语义融合，通过融合机制的设计来为后续的实物验证提供支撑。

如图8所示，给出了在运行过程中两种语义信息的融合原理示意，其中蓝色地形为视觉感知得到的语义地形表示，黄色地形为振动触觉得到的语义地形表示。在T＝0时刻，视觉对其前方区域进行检测识别，通过视觉语义可以得到对探测区域内的语义建图，如蓝色地形所示，同时解算探测区域相对于相机的位置信息，当平台在T＝1时刻运行到该位置时，则通过振动数据的分类识别可以得到该位置处的地形分类结果，即振动语义标签，当有了这两种语义信息之后，即可实现语义级的融合，需要指出的是，由于基于振动触觉的地形语义分类相对于视觉来说精度更高，所以如果语义信息相同则仍保持一致，如果不同则以振动语义结果为最终融合结果。对于巡视器，通过上述语义融合，则可以有效提高对地形环境的识别认知能力，这里通过两种可能的情况来说明，一是通过视觉识别出了前方是沙土，通过已有的经验知识则可以得出前方不能通过，那么最安全的方式就是改变规划路径；二是通过视觉无法判断前方是否安全，比如平地等，那么当巡视器逐渐靠近之前视觉探测的区域时，则可以通过实时的轮地交互振动信息的变化给出地形的预测，这样一来可以及时的获取前方地形的软硬程度等信息，提前做出危险的判断，从而停止前进更换新的探测路径。

2、语义融合方法

图9给出了语义融合的流程示意，主要分为三个部分来实现，第一部分是基于视觉的语义建图，通过Kinect V1.0相机实现探测环境的三维语义建图；第二部分是基于振动触觉的语义地形分类，通过设计的深度神经网络在线对振动数据进行分类识别，最终给出地形的语义分类标签；第三部分即视觉语义与触觉语义之间的融合，基于运动不同时刻的位置信息进行语义关联，同时以实验平台的车体宽度来近似表示振动区域的大小，这里同步给出了融合的判断规则，即

其中P_visual和P_vibration分别为基于视觉和振动触觉的地形预测值，因为视觉探测在振动之前，故如果视觉语义重建的预测结果与之后在相同地点振动的语义分类预测结果相同，则仍以视觉的语义值进行后续处理，但是如果预测结果不同，则以振动触觉的预测结果为准，因为基于振动的地形分类识别在局部精细化感知中具有更优的效果，在本发明的实验测试中也说明了该准则的有效性。

再者与基于视觉的三维语义建图流程相比，这里对生成的全局语义点云进行了后期的处理，即视觉生成的语义地图对不同类别的点云均利用颜色信息来区分，可以根据RGB分量值来提取某一类别的所有点云信息。同时振动传感器采集的地形振动数据经过预处理得到特征向量，通过加载之前训练得到的神经网络权值文件即可对特征向量进行分类识别，从而输出地形分类语义结果。最终可以对巡视器轨迹下方的地形进行更加精细化的语义分割，而对于轨迹前方的地形，由于巡视器没有经过，则无法利用振动语义分类，该情况下仍以视觉语义建图结果为准。

对于三维语义建图，基于视觉和触觉的融合主要是在地形部分，对于其它维度还是需要视觉来获取，故本发明首先利用颜色空间赋予的语义信息将其从整个环境中提取出来，同时根据ORB_SLAM2输出的轨迹信息可以从地形点云中提取出巡视器经过部分的点云，最后通过位姿的关联将振动分类识别得到的语义标签与视觉得到的语义地形进行融合，从而具有更加精细化的地形语义认知能力。如图10所示，在得到巡视器轨迹上一些离散点及其对应振动分类标签后，将轨迹下方的点云融入振动标签信息。定义轨迹上的离散点为X＝{x_i}_i＝0,1,…n，其对应振动标签为C＝{c_i}_i＝0,1,…n。

对于轨迹中任意相邻两点x_i与x_i+1，根据小车宽度构造矩形p_i1p_i2p_i3p_i4，即图中矩形宽度等于小车宽度d。最后将矩形面下方的点云类别都置为c_i+1。在实际的测试中也可以根据应用环境的不同做出相应的调整，以车体宽度为覆盖区域是一种相对保守的选择，可以适当的放大。

实施例

1、实验设置

选择蓝鲸XQ无人车平台为实验测试平台，同时搭载Kinect V1.0深度视觉相机，其内参为f_x＝517.306408，f_y＝516.469215，c_x＝318.643040，c_y＝255.313989，切向畸变系数为k₁＝0.262383，k₂＝-0.953104，径向畸变系数为p₁＝-0.005358，p₂＝0.002628，p₃＝1.163314，则由下式可以计算出有效的深度范围为：

在实物测试过程中，所用Kinect V1.0相机的彩色图像与深度图像采集频率为30Hz，振动传感器采集频率为100Hz，特征向量频率为1.6Hz，ORB_SLAM2运行频率为15Hz。

除此之外，本实验设定点云的深度尺度为DepthMapFactor＝1000；单帧图像提取的ORB特征点数量为nFeatures＝1000；图像金字塔不同层之间的尺度参数为scaleFactor＝1.2；图像金字塔的层数设为nLevels＝8；八叉树地图分辨率设为resolution＝0.02m，更新的最大范围max_range＝5.0m；实验平台宽度d＝0.4m。

2、测试结果

本发明将结合振动语义识别，对视/触融合三维语义地形重构进行验证。在实验设定环境中，共采集了81s视频数据以及三维振动数据，运行过程建图频率为1.0Hz，基于振动发的分类频率为1.5Hz。测试过程中，选择了有转弯环节的环境，并在转弯处铺设了草坪。同之前一致，先对基于ORB_SLAM2的稀疏重构进行了验证，如图11所示，图左侧为探测环境的点云重构示意，右侧给出了运行过程关键帧及特征点的识别结果，由结果可以看到对走廊环境的大致外形可以较好的重构出来，对于无人车平台来说可以大致理解环境中的空间占用情况，而且从图中放有草坪的区域可以看到，已经提取出了草坪的轮廓信息，但是基于该方法的建图无法判断出其它信息。

接下来对基于视觉的三维语义建图进行了测试，图12给出了测试过程的建图结果，左侧部分给出了不同时刻语义地图的构建结果，不同颜色对应于不同的语义标签，右侧部分则给出了无人车运行过程不同时刻的图像示意，通过重构结果与实际环境的语义表示对比，可以得出重构精度满足实际应用的需求。

图13给出了全过程的测试结果，绿色轨迹线为无人车平台走过的实际路径，该环境下具备了对墙、地板、门、草、暖气片等八种环境对象的语义分辨与重构能力，从图中可以看出对地面、门、楼梯、墙、门等信息具有较好的标记精度，而对于草坪来说，前几块的标记精度从颜色区域比例看出满足应用需求，但是在转弯过程中，基于纯视觉的识别和建图效果不佳，对于实际草坪地形的语义标记精度较差，仅在轮廓处可以看出，为了更好的评估算法的好坏，对环境随机选取了1000个点云点进行标记精度的统计，其结果如表3所示，与语义图分析结果一致。故对于巡视器来说，对于探测地形的认知是其开展自主探测任务的关键，需要其它形式的传感模式来弥补单独视觉在应用中的不足。

表3语义重构标记精度

最后基于本发明提出的基于视/触融合的语义地形重构方法进行了测试，由于振动信息只对地形的语义认知有效，周围环境的重构结果与之前RGBD重构结果一致，故这里首先对地形部分的语义建图结果进行提取，如图14所示，为基于视觉的地形语义建图结果。

之后将路径上的振动分类语义标签进行关联融合，得到了基于视/触融合的地形语义建图结果，如图15所示，其中绿色轨迹线为无人车平台运行路径，不同颜色标签为基于视觉和振动的语义识别结果，可见增加了振动触觉的融合后对于地面的认知相比之前有了优化和提升，基于地形分类学习，具备了对不同软硬程度地形材质类型的识别，在图中以蓝色区域表示，其宽度为车体的宽度，同时在草坪区域可以看到，由于振动触觉的融合，在原本视觉检测精度较低的后三个区域，平台经过的区域语义信息得到了有效的补充，由此可以说明基于视觉和触觉的语义融合对于地形的探测认知是有利的，两种模式在不同的应用场景中互为补充。与此同时，对语义重构的标记精度做了统计，其结果如表4所示，可见从实际的数据也可以得到上述的分析，尤其对于草地的语义识别，加入振动触觉后其精度从之前的70.3％提高至88.7％，有了显著的提升，如果将采样点选择在振动触觉感应范围内，该精度值则会更高。这对于未来的智能巡视器的研究来说是有价值的，同时结合激光雷达可以组成不同维度的探测体系，其中激光雷达负责远处的探测认知，视觉负责较近范围内的检测，振动触觉则对于车体覆盖区域识别，从而形成体系化感知系统，为巡视器在地外的环境感知提供更加可靠的支撑。

表4语义重构标记精度

以上对本发明所提出的一种基于视觉和振动触觉融合的地形语义感知方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于视觉和振动触觉融合的地形语义感知方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：在步骤四中，局部点云重构具体为：点云是一组无序的点，每个点都包含某个参考系中该点的坐标，深度图像首先注册到彩色图像的参考帧，然后，根据每个像素在图像上的位置、深度和相机内参计算其真实世界坐标，进而生成点云信息。

3.根据权利要求2所述的方法，其特征在于：所述基于视觉的环境语义地图为八叉树地图；在八叉树地图中插入点云时，首先通过体素滤波器过滤点，以对点进行向下采样，然后将这些点插入Octomap，并利用光线投射来清理自由空间，进而更新Octomap的内部节点，即分辨率最低的体素，最后，将更新后的Octomap整理以实现可视化。

4.根据权利要求3所述的方法，其特征在于：所述图像语义分割具体为：采用金字塔场景分析网络作为实现CNN语义分割网络的模型，其输入为采集到的场景彩色图像，输出结果为含有类别信息的分数图；为了实现该语义分割的过程，首先利用ResNet将输入图像处理生成特征图；其次对于生成的特征图进行金字塔池化操作，从而获取不同分辨率的特征图；之后，对于每一个池化特征图进行卷积操作，再结合上采样特征图将结果堆叠起来形成最终的特征图；最后通过卷积处理得到类别的分数图。

5.根据权利要求4所述的方法，其特征在于：在步骤五中，所述融合采用最大置信度融合模式，该融合包括CNN语义分割网络产生的具有最高置信度的语义颜色及其对重构的点云的置信度，同样的信息存储在Octomap的每个体素中，在将点云插入Octomap时，如果一个体素有一个新的测量，则将两个语义信息融合在一起；如果两个语义颜色相同，则保持语义颜色，置信度是两个语义的置信度的平均值；如果两种语义颜色不同，则保留具有高置信度的语义。

6.根据权利要求1所述的方法，其特征在于：所述训练完成的深度神经网络为七层深度神经网络，第一、三、五层为卷积层，第二、四层为池化层，第六层为LSTM层，在网络的最后阶段采用全连接层来预测输出；所述卷积层和池化层的激活函数为ReLU函数，所述全连接层激活函数为Softmax函数；所述七层深度神经网络由三个步长为1的卷积层组成，每一个卷积操作都是通过将内核在输入向量上一次移动一个样本来执行的，在这个操作过程中，叠加的矩阵被相乘和求和，同时为了将输入表示的大小减少一半，在第一和第三卷积层之后的特征映射采用了步长为2的最大池化滤波，随后使用LSTM层从所述特征中提取时间信息，从而使得从卷积和池化过程中提取的特征被分解为顺序分量，并送入循环的LSTM单元进行时间分析，只有来自LSTM最后一步的输出被输入到全连接层中进行地形种类预测。

7.根据权利要求1所述的方法，其特征在于：在步骤七中所述融合的判断规则为：

8.根据权利要求7所述的方法，其特征在于：所述步骤七具体为：首先利用颜色空间赋予的语义信息将地形从整个环境中提取出来，同时根据ORB_SLAM2输出的轨迹信息从地形点云中提取出巡视器经过部分的点云，最后通过位姿的关联将振动分类识别得到的语义标签与视觉得到的语义地形进行融合，从而具有更加精细化的地形语义认知能力。