CN110544307A

CN110544307A - 基于卷积神经网络的语义地图构建方法及计算机存储介质

Info

Publication number: CN110544307A
Application number: CN201910820651.8A
Authority: CN
Inventors: 柏林; 于泠汰; 刘彪
Original assignee: Guangzhou High Rising Robot Co Ltd
Current assignee: Guangzhou High Rising Robot Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-12-06

Abstract

本发明提供一种基于卷积神经网络的语义地图构建方法及计算机存储介质，所述方法包括以下步骤：S1、接收2D图像，并传入卷积神经网络模型，输出稠密像素级语义概率地图点的神经元；S2、采用贝叶斯更新模型跟踪每个曲面的分类概率分布；S3、采用ElasticFusion方法提供数据进行关联性预测，更新概率分布；S4、利用条件随机场正则化模型通过地图的尺度信息来改善语义检测。根据本发明实施例的基于卷积神经网络的语义地图构建方法能够基于卷积神经网络进行语义分割，生成语义地图，增强其在少弱纹理下的鲁棒性。

Description

基于卷积神经网络的语义地图构建方法及计算机存储介质

技术领域

本发明涉及导航系统领域，更具体地，涉及一种导航系统地图构建方法，更具体地，涉及一种基于卷积神经网络的语义地图构建方法及计算机存储介质。

背景技术

现有技术公开了一种基于深度学习与激光雷达的点云语义地图构建方法，该技术方案阐述了一种基于激光雷达特征的深度学习以及语义地图的构建方式，即基于激光雷达扫描出点云，利用K近邻或类似的方法进行无监督学习后进行数据扩维，随后引入卷积神经网络进行语义识别，在识别后对激光雷达构成的几何地图进行语义标注，而后构建成相应的地图。而除此之外，类似orb-slam，svo等一系列算法分别提出了基于词袋模型(BoW)或半稠密特征等方法去保证地图构建过程之中的鲁棒性，这些方法都各有侧重也各有缺点。而基于语义地图构建机器人导航用高精度地图的方法是比较新的一个技术领域，因此目前并没有非常成熟的技术方案。

基于激光雷达SLAM以及所衍生的一系列技术方案已经在近些年中逐渐成熟，逐渐应用在自动驾驶，机器人控制等领域。但是基于视觉传感器的SLAM技术仍然处在爆发前期，许多关键问题仍然需要解决。

按照提取特征的方法区别，视觉SLAM可以分为稠密法(直接法)，半稀疏特征法(半直接法)，和稀疏特征法三大类。其中三大类各有优缺点如下：

稀疏特征法：优点是速度非常快，基于FAST特征点或ORB特征点等可以快速检测的特征点提取稀疏特征信息，可以做到非常好的实时性以及可以在相对低成本的处理器上运行。缺点是稀疏特征忽略了视频图像中大量的结构化信息，同时也丢弃了大量的图像信息，在非复杂环境中表现不佳。

稠密法：直接采用对图像之间像素差异进行帧与帧之间的匹配，然后基于关键帧不断的进行回环检测。优点是没有忽略掉图像中的低维度特征，不容易出现无法匹配的情况。缺点是帧间匹配的过程十分消耗计算资源，无法得到推广。

半稀疏特征法：优点是结合了一定的稀疏特征法和稠密法(直接法)的特点，对于鲁棒性有所提高，速度有所加快。缺点是仍然忽略了过多的图像信息，导致遇到纹理弱的场景会出现无法定位或者位置丢失的情况。

而鲁棒的状态估计和实时稠密建图是移动机器人自主导航的两个核心功能。在没有可靠的闭环检测情况下，视觉SLAM很容易因为累积误差而带来位置的漂移。对于实时建图，如果单纯采用稠密建图的方式很容易因为计算量的问题导致实时性下降因而无法使用，而如果采用稀疏地图的方式则会在少弱纹理的环境下出现特征缺失过多导致的对避障以及路径规划的影响。因此，使用视觉传感器进行更为鲁棒，准确和实时的地图构建方法对于机器人在各种场景中的应用十分有利。单纯的几何特征或低维度肉眼可见特征包含的信息量过低，并无法直接提取出足够的信息去构建更加精确的语义地图。

发明内容

有鉴于此，本发明提供一种基于卷积神经网络的语义地图构建方法及计算机存储介质，能够利用卷积神经网络和ElasticFusion方法进行组合实现了一种实时性与鲁棒性并重的语义地图构建方法。

为解决上述技术问题，一方面，本发明提供一种基于卷积神经网络的语义地图构建方法，所述方法包括以下步骤：S1、接收2D图像，并传入卷积神经网络模型，输出稠密像素级语义概率地图点的神经元；S2、采用贝叶斯更新模型跟踪每个曲面的分类概率分布；S3、采用ElasticFusion方法提供数据进行关联性预测，更新概率分布；S4、利用条件随机场正则化模型通过地图的尺度信息来改善语义检测。

根据本发明的一些实施例，在步骤S1中，采用视觉传感器接收2D图像。

根据本发明的一些实施例，所述卷积神经网络模型为基于caffe的卷积神经网络模型或基于反卷积语义分割的网络架构和VGG 16层网络。

根据本发明的一些实施例，所述卷积神经网络模型配备最大反池化和反卷积的训练来输出稠密像素级语义概率地图点的神经元。

根据本发明的一些实施例，所述卷积神经网络模型接收所述2D图像及其深度值，素数深度值作为第四通道被输入至网络中进行训练。

根据本发明的一些实施例，输入所述卷积神经网络模型的深度值被统一缩放至预定分辨率，缩放过程中采用线性插值得到缩小后图像的深度值。

根据本发明的一些实施例，在步骤S3中，采用增量式语义信息融合的方法更新概率分布，语义信息融合的公式为：

其中，公式左边表示：给定1至k帧图像，其中第i个图像的概率分布情况；公式右边表示：公式左边的分布情况可以表示为其上一次的概率分布情况乘以更新代价值；u(s,k)表示第k帧中第s个点集的像素坐标，O表示n元向量，其中取第i元的标签向量，得到对应的l_i种类的概率分布图，取其在位置u(s,k)的概率值作为更新代价值乘以上一次的概率分布情况。

根据本发明的一些实施例，在步骤S4中，以点元或点集作为全连接图之中的节点，使用均场估计和信息传递框架推断潜在变量以估计最小化标签的吉布斯能量。

根据本发明的一些实施例，所述吉布斯能量的一部分为通过给定标签的函数得出的一元数据项，一部分为通过地图几何信息得到的途中两个连接的点元类别函数得到的成对的平滑项，所述平滑项的计算公式如下：

其中ψ_U(X_S)表示点元融合了多个CNN预测之后的内在概率分布；

ψ_P(X_S,X_S’)是指两个相互连接的点元的表征列别的函数。

第二方面，本发明实施例提供一种计算机存储介质，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令；所述处理器用于调用并执行所述一条或多条计算机指令，从而实现如上述实施例所述的方法。

本发明的上述技术方案至少具有如下有益效果之一：

(1)利用CNN(卷积神经网络)进行了语义分割，生成语义地图，增强其在少弱纹理下的鲁棒性；

(2)采用多视角融合的方式，提高了语义分割的精度；

(3)提高了整个SLAM系统的效率，使其可以在移动端以25Hz+的帧率进行实施的交互使用。

附图说明

图1为本发明实施例的基于卷积神经网络的语义地图构建方法的流程图；

图2为本发明实施例的电子设备的示意图。

附图标记：

基于卷积神经网络的语义地图构建方法100；

电子设备300；

存储器310；操作系统311；应用程序312；

处理器320；网络接口330；输入设备340；硬盘350；显示设备360。

具体实施方式

下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

下面首先结合附图具体描述根据本发明实施例的基于卷积神经网络的语义地图构建方法100。

根据本发明实施例的基于卷积神经网络的语义地图构建方法100，包括以下步骤：S1、接收2D图像，并传入卷积神经网络模型，输出稠密像素级语义概率地图点的神经元；S2、采用贝叶斯更新模型跟踪每个曲面的分类概率分布；S3、采用ElasticFusion方法提供数据进行关联性预测，更新概率分布；S4、利用条件随机场正则化模型通过地图的尺度信息来改善语义检测。

换言之，根据本发明实施例的基于卷积神经网络的语义地图构建方法100，包括以下步骤：S1，接收2D图像，并传入卷积神经网络，输出稠密级像素级语义概率地图点的申请元；S2，利用贝叶斯更新模型跟踪每个曲面的分类概率分布，作为一个典型的马尔科夫过程来说，基于贝叶斯方法是一种典型的更新信息方法，即基于有限的先验信息得出新的目标信息；S3，利用ElasticFusion方法提供数据进行关联性预测，更新概率分布(增量式语义信息融合)，需要说明的是，ElasticFusion方法自身包含了一种基于变形图和点元(神经元)的存储方式，该种存储方式对于三维信息存储带有天然的优势。同时在SLAM系统的回环检测过程之中，利用步骤S2之中得出的概率分布和回环检测综合的关联性预测从而进一步的更新概率分布(本质上是点元的深度(神经元层数)和法向量)。该过程不需要破坏原有的点元结构以及之前的概率分布信息，所以是一种典型的增量式语义信息融合过程，即步骤S3所描述的过程；S4，利用条件随机场正则化模型通过地图的尺度信息来改善语义检测，其中，在低维度的几何空间相似的像素点，与标签类别上的相似应该具有强相关性，所以可以通过条件随机场正则化模型来进行语义检测的改善。

需要说明的是，步骤S3中的ElasticFusion方法作为一个SLAM系统，可以在没有语义信息的情况下基于图像的匹配来跟踪相机姿态，从而反推出机器人的姿态。利用跟踪而来的新姿态，采取增量地图的方式将新姿态作为一个点元存入地图中，并且不断的更新已存在点元的位置法向量以及对应的位置信息。同时该ElasticFusion方法中还采用的回环检测的功能，可以介于结果优化整个地图。在这里，其实并不强调是否一定是采用ElasticFusion这一种SLAM方式作为整个方法的SLAM框架，只要是基于视觉的稠密SLAM地图方法均可以用在这里。同时匹配时的信息应该同时匹配位置信息和外表相似信息(即ICP+RGB),在这种情况下只要符合需求，均可以保证ElasticFusion方法的顺利实施。

由此，根据本发明实施例的基于卷积神经网络的语义地图构建方法100不仅可以使用SLAM系统得到位置信息，辅助深度卷积神经网络的语义判断效果，还可以使用深度卷积神经网络对视觉信息提取语义信息，使地图上内容得到标注，并且可以通过使用低维度几何相似去辅助判定语义信息。

根据本发明的一个实施例，在步骤S1中，采用视觉传感器接收2D图像，视觉传感器来源广泛，价格低廉。

在本发明的一些具体实施方式中，卷积神经网络模型为基于caffe的卷积神经网络模型或基于反卷积语义分割的网络架构(Deconvolutional Semantic Segmentation)和VGG 16层网络。

在本发明的一些具体实施方式中，卷积神经网络模型配备最大反池化和反卷积的训练来输出稠密像素级语义概率地图点的神经元。

可选地，卷积神经网络模型接收2D图像及其深度值，素数深度值作为第四通道被输入至网络中进行训练，也就是说，在卷积神经网络模型中，输入的数据是2D图像与深度值(RGBD值)，深度信息作为第四通道被输入至网络中训练。

进一步地，输入卷积神经网络模型的深度值被统一缩放至预定分辨率，缩放过程中采用线性插值得到缩小后图像的深度值，也就是说，输入的RGB值要被统一缩放到比较小的分辨率，缩放过程中可以采用线性插值得到缩小后图像的RGB值，而深度信息可以靠最邻近法来获取。

根据本发明的一个实施例，在步骤S3中，采用增量式语义信息融合的方法更新概率分布，语义信息融合的公式可为：

其中，公式(1)左边表示：给定1至k帧图像，其中第i个图像的概率分布情况；公式(2)右边表示：公式(1)左边的分布情况可以表示为其上一次的概率分布情况乘以更新代价值；u(s,k)表示第k帧中第s个点集的像素坐标，O表示n元向量，其中取第i元的标签向量，得到对应的l_i种类的概率分布图，取其在位置u(s,k)的概率值作为更新代价值乘以上一次的概率分布情况。

在步骤S3中，不断进行上述公式(1)的融合过程，可以看出本发明可以采用贝叶斯方法从多张图片中更新了标签，从而可以借用SLAM系统融合了多张图片之间的像素，构成了一个联系。进而可以对空间中相同的一个点进行反复观测，从而保证其观测值的稳定性。

根据本发明的一个实施例，在步骤S4中，以点元或点集作为全连接图之中的节点，使用均场估计和信息传递框架推断潜在变量以估计最小化标签的吉布斯能量。

地图正则化的目的是步骤S4，即对语义信息检测的一种改善，是有了地图之后一种对现有地图的语义信息的一种修正和提高。地图正则化的的核心思想是，在低维度的几何空间相似的像素点，与标签类别上的相似应该具有强相关性。因此可以使用全连接的条件随机场进行增量式的更新概率分布，用以改善语义检测的准确性。在这一过程中，以点元或点集作为全连接图之中的节点，使用均场估计和信息传递框架来高效推断潜在变量，因而可以估计最小化标签的吉布斯能量。

进一步地，吉布斯能量的一部分为通过给定标签的函数得出的一元数据项，一部分为通过地图几何信息得到的途中两个连接的点元类别函数得到的成对的平滑项，平滑项的计算公式如下：

ψ_P(X_S,X_S’)是指两个相互连接的点元的表征列别的函数。

换言之，吉布斯能量可由两部分组成，一部分是通过给定标签的函数得出的一元数据项，另一部分是通过地图几何信息得到的途中两个连接的点元类别函数得到的成对的平滑项。该平滑项与地图几何信息相关。

根据本发明实施例基于卷积神经网络的语义地图构建方法100具有以下优点：(1)不仅融合了语义分割和SLAM系统，生成带语义的3D地图；(2)采用多视角融合的方式，提高了语义标签的精度；(3)利用低维度信息，有效提高了语义精度；(4)速度更快，可以在移动设备上进行实时的计算，方便推广使用。

此外，本发明还提供一种计算机存储介质，所述计算机存储介质包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现上述任一所述的基于卷积神经网络的语义地图构建方法100。

也就是说，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述任一所述的基于卷积神经网络的语义地图构建方法100。

如图2所示，本发明实施例提供了一种电子设备300，包括存储器310和处理器320，所述存储器310用于存储一条或多条计算机指令，所述处理器320用于调用并执行所述一条或多条计算机指令，从而实现上述任一所述的方法。

也就是说，电子设备300包括：处理器320和存储器310，在所述存储器310中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器320执行上述任一所述的方法100。

进一步地，如图2所示，电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU)，以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口330，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘350中。

所述输入设备340，可以接收操作人员输入的各种指令，并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备360，可以将处理器320执行指令获得的结果进行显示。

所述存储器310，用于存储操作系统运行所必须的程序和数据，以及处理器320计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器310可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器310存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统311和应用程序312。

其中，操作系统311，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序312，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。

本发明上述实施例揭示的方法可以应用于处理器320中，或者由处理器320实现。处理器320可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310，处理器320读取存储器310中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，处理器320还用于读取所述计算机程序，执行上述任一所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于卷积神经网络的语义地图构建方法，其特征在于，所述方法包括以下步骤：

S1、接收2D图像，并传入卷积神经网络模型，输出稠密像素级语义概率地图点的神经元；

S2、采用贝叶斯更新模型跟踪每个曲面的分类概率分布；

S3、采用ElasticFusion方法提供数据进行关联性预测，更新概率分布；

S4、利用条件随机场正则化模型通过地图的尺度信息来改善语义检测。

2.根据权利要求1所述的方法，其特征在于，在步骤S1中，采用视觉传感器接收2D图像。

3.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型为基于caffe的卷积神经网络模型或基于反卷积语义分割的网络架构和VGG 16层网络。

4.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型配备最大反池化和反卷积的训练来输出稠密像素级语义概率地图点的神经元。

5.根据权利要求4所述的方法，其特征在于，所述卷积神经网络模型接收所述2D图像及其深度值，素数深度值作为第四通道被输入至网络中进行训练。

6.根据权利要求5所述的方法，其特征在于，输入所述卷积神经网络模型的深度值被统一缩放至预定分辨率，缩放过程中采用线性插值得到缩小后图像的深度值。

7.根据权利要求1所述的方法，其特征在于，在步骤S3中，采用增量式语义信息融合的方法更新概率分布，语义信息融合的公式为：

其中，公式左边表示：给定1至k帧图像，其中第i个图像的概率分布情况；

公式右边表示：公式左边的分布情况可以表示为其上一次的概率分布情况乘以更新代价值；

u(s,k)表示第k帧中第s个点集的像素坐标，O表示n元向量，其中取第i元的标签向量，得到对应的l_i种类的概率分布图，取其在位置u(s,k)的概率值作为更新代价值乘以上一次的概率分布情况。

8.根据权利要求1所述的方法，其特征在于，在步骤S4中，以点元或点集作为全连接图之中的节点，使用均场估计和信息传递框架推断潜在变量以估计最小化标签的吉布斯能量。

9.根据权利要求8所述的方法，其特征在于，所述吉布斯能量的一部分为通过给定标签的函数得出的一元数据项，一部分为通过地图几何信息得到的途中两个连接的点元类别函数得到的成对的平滑项，所述平滑项的计算公式如下：

ψ_P(X_S,X_S’)是指两个相互连接的点元的表征列别的函数。

10.一种计算机存储介质，其特征在于，包括一条或多条计算机指令，所述一条或多条计算机指令在执行时实现如权利要求1-9中任一项所述的方法。