CN113674416B

CN113674416B - 三维地图的构建方法、装置、电子设备及存储介质

Info

Publication number: CN113674416B
Application number: CN202110989097.3A
Authority: CN
Inventors: 王蓉; 孟繁乐; 顾天龙
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2024-04-26
Anticipated expiration: 2041-08-26
Also published as: CN113674416A

Abstract

本申请公开了一种三维地图的构建方法、装置、电子设备及存储介质。三维地图的构建方法，包括：获取移动摄像装置在目标区域内所拍摄的至少一帧图像；对每一帧所述图像进行语义分割，得到对应的语义分割信息；根据所述对应的语义分割信息对各所述图像进行位姿估计，得到位姿估计结果；结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图。本申请实施例提供的三维地图的构建方法，以场景语义分割所获得的高层认知信息为基础，提出能够有效应对场景极端外观变化的长期视觉SLAM方法；通过融合语义信息的地图表示及其更新、关联形成对动态环境的自适应高层认知，提升机器人系统主动认知能力。

Description

三维地图的构建方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种三维地图的构建方法、装置、电子设备及存储介质。

背景技术

现有的感知方法面临来自时间跨度大、外观变化大的真实动态场景应用的挑战，在鲁棒性和长期性方面存在局限，使得在动态物体、光照变化、季节变化、大视角变化等条件下很容易出现感知失败；语义SLAM往往只是将语义信息引入到SLAM的某一环节，在一定程度上提升算法性能，仍没有明晰语义信息在SLAM中到底发挥什么作用，如何在视觉SLAM的各个环节充分、合理、高效地利用语义信息；语义地图对后续任务起到什么作用没有明确，当前对语义SLAM 的研究完全脱离机器人认知体系，导致开发的系统很难面临真实场景的挑战。

发明内容

本申请的目的是提供一种三维地图的构建方法、装置、电子设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种三维地图的构建方法，包括：

获取移动摄像装置在目标区域内所拍摄的至少一帧图像；

对每一帧所述图像进行语义分割，得到对应的语义分割信息；

根据所述对应的语义分割信息对各所述图像进行位姿估计，得到位姿估计结果；

结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图。

在本申请的一些实施例中，所述方法还包括：对所述三维地图进行基于语义约束的捆绑调整优化。

在本申请的一些实施例中，在所述构建三维地图之前，所述方法还包括：

基于场景识别技术对所述图像进行重定位和闭环检测，得到重定位结果和闭环检测结果；

利用所述重定位结果和所述闭环检测结果修正所述位姿估计结果，得到修正的位姿估计结果。

在本申请的一些实施例中，所述结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图，替换为：

结合对应于每一帧所述图像的所述语义分割信息以及所述修正的位姿估计结果，构建三维地图。

在本申请的一些实施例中，所述场景识别技术包括：

利用胶囊网络建模特征空间关系，学习到视角不变的图像表示的特性，采用弱监督的全局难样本挖掘方法来构造三元组损失进行网络训练学习。

在本申请的一些实施例中，所述获取移动摄像装置在目标区域内所拍摄的至少一帧图像，包括：

选取所述移动摄像装置在所述目标区域内所拍摄的一帧图像作为关键帧图像；

将所述关键帧图像之后的图像依次与所述关键帧图像进行相似度比对；

当检测到相似度低于预设阈值的图像时，将所述相似度低于预设阈值的的图像确定为新的关键帧图像；

利用所述新的关键帧图像更新原来的关键帧图像，转向所述将所述关键帧图像之后的图像依次与所述关键帧图像进行相似度比对，直至不再产生新的关键帧图像为止；

将所获得的所有关键帧图像作为获取的结果。

在本申请的一些实施例中，所述根据所述对应的语义分割信息对各所述图像进行位姿估计，得到位姿估计结果，包括：

建立当前帧图像特征点与上一帧地图点间的匹配对应关系，并利用语义分割信息筛选出具有一致语义类别的匹配点对；

利用语义类别去除具有运动属性的匹配点对，获得剩余匹配点对的初始位姿估计结果；

利用初始位姿估计结果计算所有匹配点对中地图点在当前帧图像的极线，通过当前图像特征点到对应极线的距离判断所建立的匹配点对是否可靠，并为每个特征点增加标志位；

通过最小化能量函数进行位姿估计，得到位姿估计结果。

8.一种三维地图的构建装置，其特征在于，包括：

获取模块，用于获取移动摄像装置在目标区域内所拍摄的至少一帧图像；

分割模块，用于对每一帧所述图像进行语义分割，得到对应的语义分割信息；

估计模块，用于根据所述对应的语义分割信息对各所述图像进行位姿估计，得到位姿估计结果；

构建模块，用于结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的三维地图的构建方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的三维地图的构建方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的三维地图的构建方法，以场景语义分割所获得的高层认知信息为基础，提出能够有效应对场景极端外观变化的长期视觉SLAM方法；通过融合语义信息的地图表示及其更新、关联形成对动态环境的自适应高层认知，提升机器人系统主动认知能力。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了视觉SLAM主流框架图；

图2示出了本申请一个实施例的总体技术方案示意图；

图3示出了本申请一个实施例的三维地图的构建方法流程图；

图4示出了本申请一个实施例中稠密语义地图的构建方法示意图；

图5示出了本申请一个实施例中将场景中各元素转化为因子图来高效求解的示意图；

图6示出了本申请一个实施例中场景识别网络结构示意图；

图7示出了本申请一个实施例的三维地图的构建装置结构框图；

图8示出了本申请一个实施例的电子设备结构框图；

图9示出了本申请一个实施例的计算机可读存储介质示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

随着科技的飞速发展，包括无人车、无人机等在内的机器人系统均得到了广泛应用。不同于早期只是执行特定程序式作业，现今侦察、救援、服务、娱乐等领域的应用对机器人系统的自主性和智能性提出了更高的要求。机器人是一个复杂庞大的系统，感知在其中处于重中之重的地位，是后续智能决策和自主任务执行的基础。SimultaneousLocalization and Mapping(SLAM)是即时定位与地图构建技术，该项技术通过传感器在未知环境中的运动，实时获取传感器位姿，同时得到未知场景的三维地图，为复杂场景中机器人系统的环境感知提供技术支撑。SLAM中可以使用的传感器种类多样，如激光雷达、视觉相机、惯性测量单元、里程计等。视觉SLAM由于其硬件在价格、功耗、便捷性和通用性等方面的突出优势，得到了最为广泛的关注。

除了必备的感知能力，为了使机器人具有类人一样的智能(人具有感知周围环境并抽象其中要素形成高级知识的思维方式)，还应具备自主环境认知的能力，自主认知能力是真正意义上实现自主决策的基础。传统环境感知结果往往只包含颜色、几何结构等信息，没有充分利用空间中丰富的语义信息。深度学习技术的发展促使语义分割取得了卓越的进展，语义分割技术能够对场景形成丰富、细致的像素级认知结果，且该结果对场景外观变化具有鲁棒性。因此，将语义认知信息融入到视觉SLAM中就成为打通感知、认知通路的一种自然思路，这一领域也在近些年得到了广泛关注。基于感知与语义信息形成的自主认知，可以使机器人在一个较高的认知水平上实现行为规划、预测与推理。

主动认知是对自主认知的进一步深化与发展，是一个全新的概念。主动认知的架构是：对感知或观测信息进行高层分析理解，为后续决策或行为建立支撑，进而通过对相关参数的反馈控制自动获得更完整、全面的自主认知，即通过“感知-认知-决策”闭环框架实现持续自主认知。主动认知新在“主动”二字上，其含义一方面是对自主性的体现，另一方面是能够应对动态、开放的环境。通过对主动认知的架构分析可以看到，“感知-认知”这一通路是主动认知的基础，从这个角度可以提供一种全新的看待SLAM、环境认知理解的方式。

视觉SLAM主流框架(如图1所示)包括前端和后端两部分，前端主要进行系统初始化、相机位姿估计、重定位等实时环节；后端进行地图构建、局部捆绑调整(BundleAdjustment，BA)优化、闭环检测与全局优化等计算量大、耗时多的环节。当前视觉SLAM系统通常利用几何、光度、纹理信息进行计算，仅在外观条件相似、感知变化不大的场景中有较好表现，这大大限制了其在真实动态场景中的应用。对于时间跨度大的应用场景，环境受动态物体、光照变化、季节变化、视角变化等因素影响，不可避免地会呈现出完全不同的外观。为了有效应对环境极端外观变化的影响，更进一步提升机器人系统主动认知能力，本申请实施例基于SLAM框架提出语义驱动的主动认知系统。

本申请实施例的总体技术方案如图2所示。系统遵从上述视觉SLAM框架，重点是以场景语义分割为指导提出基于语义关联的相机位姿估计、基于语义融合的地图构建以及基于语义约束的捆绑调整优化，重定位或闭环检测中的场景识别则从语义特征出发提出基于特征空间位置关系编码的鲁棒场景表达。通过在视觉SLAM的各个环节中充分、合理、高效的整合场景语义信息，最大化语义信息在视觉SLAM中所能发挥的价值，构建完整、鲁棒、高性能的长期SLAM系统，实现在极端外观变化下的长期精准定位，并通过自适应语义认知地图的构建，促进机器人系统主动认知的实现。

双目相机利用人眼感知物体深度的原理，通过已知基线距离的两个摄像头直接获得场景深度图，可为场景的稠密建模提供便利。双目相机已广泛应用于室内外场景下的视觉SLAM系统中，可以消除尺度不确定性。在充分考虑系统性能、计算量与内存消耗等因素后，本申请实施例采用双目相机作为视觉传感输入，并基于特征点法实现视觉SLAM。相机通常是设置在可移动机器人身上，可移动机器人在目标区域内行进，相机拍摄图片。

本申请实施例的先决条件是得到场景语义分割结果，有很多现成的神经网络可以实现这一功能。语义分割信息被划分为物体级(人、物品等)和场景级 (地面、墙面等)两类。下面详细论述发明中各部分的具体技术方案。

如图3所示，本申请的一个实施例提供了一种三维地图的构建方法，包括以下步骤：

S10、获取移动摄像装置在目标区域内所拍摄的至少一帧图像。

移动摄像装置例如可以是具有相机的移动机器人等。移动机器人在目标区域内移动，能够通过相机拍照，获得目标区域内的多幅图像。

在某些实施方式中，步骤S10包括：

将所获得的所有关键帧图像作为获取的结果。

S20、对每一帧所述图像进行语义分割，得到对应的语义分割信息。

图像语义分割是机器自动分割并识别出图像中的内容，得到语义分割信息。图像语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。例如可以采用深度学习算法来实现图像语义分割。

S30、根据所述对应的语义分割信息对各所述图像进行位姿估计，得到位姿估计结果。

在某些实施方式中，步骤S30包括：

通过最小化能量函数进行位姿估计，得到位姿估计结果。

帧间移动摄像装置位姿估计是SLAM中的重要环节，其关键是特征匹配。为实现特征匹配，对每帧图像首先提取特征点，并建立对应的特征描述子。特征描述子通常以高维向量的形式表示，它可以提供和其它特征点间定量的相似性度量。考虑到语义特征对类内特征的区分度有限，且在权衡计算复杂度和性能表现后，本申请实施例采用ORB特征实现SLAM的帧间移动摄像装置位姿估计。同时可利用双目相机直接获得特征点在当前视角下的深度信息，简化SLAM的初始化过程。

为了估计移动摄像装置位姿，需要建立系统三维地图点和当前图像特征点间的3D-2D对应关系，然后通过最小化如下能量函数进行移动摄像装置位姿求解：

其中X_i是三维地图点，x_i是当前图像上与之匹配的二维特征点，K为移动摄像装置的内参矩阵，ξ是待求移动摄像装置旋转和平移参数R,t的代数表示。该能量函数衡量三维地图点根据移动摄像装置位姿变换投影到当前帧与当前图像特征点间的几何距离，正确的移动摄像装置位姿应能使该距离达到最小。

从上述特征点法求解移动摄像装置位姿的基本过程出发，本申请实施例提出引入语义关联来进一步提升移动摄像装置位姿估计的准确性和鲁棒性。由于移动摄像装置位姿估计中的当前帧通常是与时间间隔较短的关键帧建立关系，因此帧间移动摄像装置位姿估计过程是短时定位能力的体现，此时引入语义信息的主要目的是过滤掉场景中高动态物体(如人)的影响，提升所建立匹配的准确性。整个过程分为如下步骤：①建立当前帧图像特征点与关键帧地图点间匹配对应关系，并利用语义分割信息筛选出具有一致语义类别的匹配点对；②利用语义类别去除具有运动属性的匹配点对，对余下匹配基于RANSAC得到初始位姿估计结果；③利用第②步得到的初始位姿估计结果计算第①步所有匹配中地图点在当前图像的极线，通过当前图像特征点到对应极线的距离进一步判断所建立的匹配是否可靠，并为每个特征点增加指示其可靠性的标志位；④对所有可靠的匹配点对，基于语义概率分布的相似性对原能量函数进行加权改进：

其中ind_i是指示特征匹配是否可靠的标志位，1为可靠，否则为0。w_i是通过语义概率分布相似性计算得到的匹配点对在整个能量函数构造中的权重，具体可表示为其中/>和/>分别是地图点和特征点的离散语义概率分布，表示为属于各语义类别的概率所构成的向量。/>是基于之前观测不断更新的结果，/>是当前帧语义分割的结果，二者间的相似性由KL散度/>定义。这一权重可以充分衡量当前语义分布与之前所有观测综合的语义分布间的一致性，可有效应对物体边缘处语义错分对位姿估计的影响，从而更加有效地获取精准、鲁棒的特征关联，提升移动摄像装置位姿估计精度。

S40、结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图。

地图是视觉SLAM的重要组成部分，作为感知信息的聚集，它可以有效支撑移动摄像装置位姿估计、闭环检测、可视化与自主应用。地图构建过程是面向关键帧在SLAM后端进行的。在获得当前帧的移动摄像装置位姿后，通过将其与关键帧间相对位姿变化、共同特征点数以及时间间隔等因素进行对比分析，决定是否将当前帧设置为新关键帧。若判定为新关键帧，则将该帧插入到后端线程进行后续处理。

考虑到视觉SLAM所采用的策略和最终的目标，本申请实施例中地图表达包含稀疏地图、稠密语义地图和序列图像描述3种形式，分别用于帧间移动摄像装置位姿估计、主动认知应用和闭环检测与重定位。序列图像描述与场景识别密切相关，将在后面进行详细论述。本部分围绕稀疏地图和稠密语义地图展开，其构建方法如图4所示。为了实现可靠的长期SLAM，地图处理中主要包括如下动态过程：1)从当前视角向地图中增加或更新特征；2)移除掉已不存在的特征。

稀疏地图中的三维点是面向关键帧及其共视关键帧上的可靠特征点采用对极约束和三角化恢复的。为了提升对复杂场景处理的鲁棒性，系统中每个地图点除了存储有三维位置和特征描述外，还包含对于所有语义类别l_i∈L的离散概率分布P(L_s＝l_i)。地图点融合是地图构建中重要的一步，可以大大降低地图的冗余度。为了有效应对场景的极端外观变化，增强对特征点跟踪的长期稳定性，本申请实施例允许融合后的每个地图点对应多个具有明显差异的特征描述子。此时，将当前地图点投影到共视关键帧上与其上的图像特征点比对，通过语义类别和投影距离来确定拟被融合的地图点。此时即使所建立的拟被融合的地图点的描述子间存在差异，也认为它们对应同一点并对相应参数进行更新。更新后的地图点位置就采用融合候选中被观测次数最大的地图点，而描述的更新则是把具有差异的描述子都添加到该地图点的描述中，认为它们都是对该点的有效表示，语义概率通过如下的贝叶斯公式进行持续更新：

其中P(O_x＝l_i|I_k)是对输入图像I_k在输出像素坐标x处属于类别l_i的语义概率，这里面向所有语义类别进行，并通过常数Z的标准化以生成合适的分布。地图点删除也是对场景变化的有效应对和处理方式。本申请实施例通过最近关键帧上的可见性和对极约束分别对已不存在(如完全消失)和不可靠(如位置发生变化)的地图点进行删除。通过以上过程，可以对稀疏地图进行有效维护以适应环境的不断变化。

除了稀疏地图，本申请实施例还将构建稠密语义地图以支持机器人主动认知过程。语义地图是在几何地图中融入高层语义信息，其中稠密几何地图通过将关键帧的深度图经过相应位姿变换进行融合以及后续点云滤波得到。在对深度图的处理中，已经剔除掉不可靠特征点处的所有具有相同语义类别的深度数据。地图中的每个点同样包含离散语义概率分布，并通过贝叶斯公式进行不断更新。为了高效发现并删除稠密点云中的变化部分，本申请实施例提出基于稀疏地图点和语义类别引导的稠密点云删除方法。通过分析稀疏地图中被删除地图点的语义类别来对相应位置处聚集的具有相同语义类别的物体点云进行整体删除。这一方法从高层物体层面实现了对环境地图的高效管理。进一步，语义类别所提供的几何先验知识可以形成对物体或场景布局的参数化表示，例如，地面、墙面等场景结构可以通过平面参数表示；桌子、椅子等物体的局部区域也可通过平面表示等。参数化表示一方面可以降低模型的复杂度和数据存储量，缓解SLAM在大范围场景运行面临的数据膨胀问题，另一方面可以为后续优化过程提供更多的几何约束。包含生成、融合、删除的整个地图更新过程可以使得 SLAM中的地图保持和环境变化的一致性，以便适应长期运行的需求，更为促进主动认知的实现奠定基础。

在某些实施方式中，本实施例的方法还包括S50、对所述三维地图进行基于语义约束的捆绑调整优化。

视觉SLAM中移动摄像装置位姿估计和地图构建形成的交迭过程会随着时间的推移不断累积误差，导致位姿漂移和建图不准，进而严重影响长期SLAM的精度。捆绑调整(BA)可以通过参数联合优化的方式有效减少累积误差，是SLAM 中必不可少的环节。优化过程根据其中关键帧的覆盖范围又分为局部优化和全局优化。局部优化针对相邻的几个关键帧，通常在地图构建后进行；全局优化针对所有关键帧，往往在闭环检测后进行。

BA优化可以通过如图5所示的过程将场景中各元素转化为因子图来高效求解。对于联合优化，待优化变量既包含移动摄像装置位姿，也包含三维地图点。在因子图中，白色节点表示移动摄像装置位姿变量，由于相邻移动摄像装置位姿间存在相对变换关系，图中的相邻白色节点通过因子边连接。绿色节点表示三维地图点变量，如果在某位姿处观测到一个地图点，则在该位姿和对应地图点间建立一条因子边，表示二者间存在约束关系。为了进一步提升优化精度且充分利用场景中高层线索提供的信息，本申请实施例在BA优化中还引入对物体或场景的语义约束。通过对语义类别的先验信息以及几何构造的分析，可以建立如图中灰色节点所示的地面、墙面等语义场景参数，以及如图中红色和蓝色节点所示的语义物体的局部参数。进一步，可通过地图点与语义参数间的因子边来引入地图点位于对应区域的约束。此外，还可以在不同语义参数间建立因子边来约束它们的几何关系，如垂直、平行等。语义信息可以为几何场景提供更多、更鲁棒的约束关系以有效减少累积误差的影响并提高优化精度。

在某些实施方式中，在所述构建三维地图之前，所述方法还包括鲁棒场景识别的步骤，鲁棒场景识别的步骤具体包括以下步骤：

S30’、基于场景识别技术对所述图像进行重定位和闭环检测，得到重定位结果和闭环检测结果。

前面基于语义信息的各部分并没有涉及重定位和闭环检测环节，应对长期定位中可能存在的场景极端外观变化的能力仍较为有限。重定位和闭环检测可以有效保证SLAM的长期性能，提升长期定位的鲁棒性和精度。重定位和闭环检测中长期能力的获取基于场景识别技术，目的是建立大时间跨度、极端外观变化下的场景关联。

S30”、利用所述重定位结果和所述闭环检测结果修正所述位姿估计结果，得到修正的位姿估计结果。

得到修正的位姿估计结果之后，可以将上述的步骤S40替换为：

S40’、结合对应于每一帧所述图像的所述语义分割信息以及所述修正的位姿估计结果，构建三维地图。

当前场景识别的趋势是基于CNN进行局部特征提取以及全局图像表征，但却缺乏对高层线索和空间结构信息的有效利用。本申请实施例针的场景识别步骤包括：首先，使用系统语义分割中已获取的高层特征作为场景识别的局部特征，在利用高层线索的同时减少计算量。其次，针对CNN难以对空间位置关系进行编码，导致对一般的尺度、旋转变换不鲁棒，只能采用数据增强的训练方式来提升性能的问题，受胶囊网络的启发，利用其可以建模特征空间关系，并学习到视角不变的图像表示的特性，在场景识别中发挥其极大优势。

场景识别网络结构如图6所示。为了使网络更通用、有效，采用弱监督数据集进行网络参数训练。由于输入的语义特征是由前面已经训练好的语义分割网络提供，这里并不对该部分涉及到的参数进行更新。在训练数据集中，提供近似的空间位置信息是比较容易的(如GPS信息)。这一信息可以用来大致确定相近/较远位置的图像，但没有提供严格的正/负样本对应关系。三元组损失是图像检索领域一种常用的损失函数，这里采用弱监督的全局难样本挖掘方法来构造三元组损失进行网络训练学习。通过令匹配的图像对间距离减小，而非匹配的图像对间距离增大的方式快速学习强大的特征表示能力。

为了将场景识别用在SLAM的重定位和闭环检测中，SLAM系统将对每个关键帧进行场景识别，得到序列图像描述，基于此形成记忆机制以实现长期SLAM。该过程首先在线地在整个序列图像描述中检索与当前图像(重定位中跟踪丢失的当前帧或闭环检测中新加入的关键帧)相近的候选图像。然后，在所建立的场景识别的候选中，由语义特征图高激活区域的聚合确定图像的显著区域，通过特征匹配或深度配准的方式进行几何验证以避免错检，并恢复相对位姿变换，实现重定位或闭环检测，有效支撑长期视觉SLAM的实现。

在某些实施方式中，场景识别技术包括：利用胶囊网络建模特征空间关系，学习到视角不变的图像表示的特性，采用弱监督的全局难样本挖掘方法来构造三元组损失进行网络训练学习。

本申请实施例所提供的方法，针对当前语义SLAM往往只是将语义信息引入到SLAM的某些环节，语义在SLAM中发挥的作用有限的问题，将高层语义线索充分、合理、高效的整合到视觉SLAM的各环节，明晰并最大化语义信息在SLAM 中发挥的作用，构建能够有效应对场景极端外观变化的长期视觉SLAM方法；在基于语义关联的相机位姿估计过程中，引入语义概率分布的相似性作为特征匹配的评判准则，通过衡量语义分布间的一致性可有效应对物体边缘处语义错分对位姿估计的影响，从而更加有效地获取精准、鲁棒的特征关联，提升相机位姿估计精度；在基于语义融合的地图构建过程中，通过地图点的多个特征表示以及语义引导的地图更新方法实现对整个地图的在线维护，保持和环境变化的一致性，以便适应长期运行的需求；场景识别中对鲁棒高层线索的利用充分考虑其特征表示、空间位置、时间关联等多方面信息，通过联合编码这些信息建立大时间跨度、极端外观变化下的场景关联，以满足长时性的需求；通过将语义SLAM融入到机器人认知体系中，深化SLAM与机器人系统的关系，形成针对动态开放环境的自适应高层认知，提升机器人系统主动认知能力。

如图7所示，本申请的另一个实施例提供了一种三维地图的构建装置，包括：

在某些实施方式中，该构建装置还包括：优化模块，用于对所述三维地图进行基于语义约束的捆绑调整优化。

本申请的另一个实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述任一实施方式的三维地图的构建方法。

如图8所示，所述电子设备10可以包括：处理器100，存储器101，总线 102和通信接口103，所述处理器100、通信接口103和存储器101通过总线102 连接；所述存储器101中存储有可在所述处理器100上运行的计算机程序，所述处理器100运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。

其中，存储器101可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还可以包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器101用于存储程序，所述处理器100在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器100中，或者由处理器100实现。

处理器100可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器，可以包括中央处理器 (Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101，处理器100 读取存储器101中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述任一实施方式的三维地图的构建方法。

请参考图9，其示出的计算机可读存储介质为光盘20，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是：

术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示例一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种三维地图的构建方法，其特征在于，包括：

获取移动摄像装置在目标区域内所拍摄的至少一帧图像；

结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图；

所述获取移动摄像装置在目标区域内所拍摄的至少一帧图像，包括：

将所获得的所有关键帧图像作为获取的结果；

所述根据所述对应的语义分割信息对各所述图像进行位姿估计，得到位姿估计结果，包括：

通过最小化能量函数进行位姿估计，得到位姿估计结果；

所述能量函数为

其中ind_i是指示特征匹配是否可靠的标志位，1为可靠，否则为0；w_i是通过语义概率分布相似性计算得到的匹配点对在整个能量函数构造中的权重；

所述结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图，包括：

在获得当前帧的移动摄像装置位姿后，通过将其与关键帧间相对位姿变化、共同特征点数以及时间间隔进行对比分析，决定是否将当前帧设置为新关键帧；若判定为新关键帧，则将该帧插入到后端线程进行后续处理；

将当前地图点投影到共视关键帧上与其上的图像特征点比对，通过语义类别和投影距离来确定拟被融合的地图点；融合后的每个地图点对应多个具有明显差异的特征描述子，所述特征描述子以高维向量的形式表示。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述三维地图进行基于语义约束的捆绑调整优化。

3.根据权利要求1所述的方法，其特征在于，在所述构建三维地图之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图，替换为：

5.根据权利要求3所述的方法，其特征在于，所述场景识别技术包括：

6.一种三维地图的构建装置，其特征在于，包括：

构建模块，用于结合对应于每一帧所述图像的所述语义分割信息以及所述位姿估计结果，构建三维地图；

所述获取模块进一步用于：

将所获得的所有关键帧图像作为获取的结果；

所述估计模块进一步用于：

通过最小化能量函数进行位姿估计，得到位姿估计结果；

所述能量函数为

所述构建模块进一步用于：

7.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5中任一所述的三维地图的构建方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-5中任一所述的三维地图的构建方法。