CN113052152A

CN113052152A - 一种基于视觉的室内语义地图构建方法、装置及设备

Info

Publication number: CN113052152A
Application number: CN202110611104.6A
Authority: CN
Inventors: 张煜; 王凯强; 廖志勇; 杨景照; 王超; 张万鹏; 李鑫; 杨学科; 蒋超远
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-06-29
Anticipated expiration: 2041-06-02
Also published as: CN113052152B

Abstract

本申请涉及一种基于视觉的室内语义地图构建方法、装置和计算机设备。所述方法包括：通过相机摄像头获取室内环境的图像数据流，根据图像数据流通过预设的模型分别构建度量图、区域划分层、房间拓扑图和对象层，将度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。本发明提出的基于视觉的室内语义地图构建方法尤其适用于建立具有复杂语义信息的语义地图，其包括了物体类别、属性及物体之间的关系描述等语义信息，可以支撑复杂语义对象的检索、匹配和推理等任务，进一步提高了无人平台的感知能力和理解能力，增强了无人平台执行任务的自主性和智能性。

Description

一种基于视觉的室内语义地图构建方法、装置及设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于视觉的室内语义地图构建方法、装置和计算机设备。

背景技术

随着地面无人平台的迅速发展，尤其是室内服务机器人、工业物流调度小车等大规模应用，提升无人平台在执行任务过程中对环境的感知理解能力和自主性显得愈发重要和紧迫。语义地图可以看作无人平台对环境的形式化理解，该理解建立在无人平台探知的环境信息，以及环境中实体的语义信息上。因此，构建一种包含更多语义信息的语义地图，有利于无人平台执行更加复杂的任务，同时能够提高无人平台的自主性和适应力。

关于环境中对象的语义信息，现有的方法已经能够较为准确地识别对象的类别信息，然而在语义地图的构建过程却忽略了对象的属性、对象之间关系的信息识别，导致语义地图难以处理复杂语义对象的检索、匹配和推理等具有挑战性的任务。例如，针对“一个放在桌子上的靠近电脑的黑色杯子”，现有的语义地图无法提供准确的检索和匹配结果，因为地图中缺失对象属性、关系等语义信息。因此，现有语义地图技术存在环境表达效果不佳的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语义地图环境表达效果的基于视觉的室内语义地图构建方法、装置、计算机设备和存储介质。

一种基于视觉的室内语义地图构建方法，所述方法包括：

通过相机摄像头获取室内环境的图像数据流；所述图像数据流包括色彩图、深度图、相机位姿信息、相机参数信息、无人平台运动轨迹和姿态数据；

将所述图像数据流输入到预设的视觉SLAM模型中，构建所述室内环境的度量图；

将所述图像数据流输入到预设的区域分割模型中，将所述室内环境划分为独立的房间，得到区域划分层；

将不同区域的所述图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；根据所述区域划分层和所述场景类别标签，构建房间拓扑图；

将所述图像数据流输入到预设的场景图生成模型中，由所述图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到所述区域的全局场景图；将所述全局场景图上的语义信息实时定位并标注在所述度量图上，得到对象层；所述语义信息包括所述全局场景图中检测到的对象、所述对象的类别、所述对象的属性和所述对象间的位置关系；

将所述度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。

在其中一个实施例中，还包括：将所述图像数据流输入到预设的基于神经网络的视觉SLAM模型中，通过边界搜索算法自动构建所述室内环境的度量图；

将所述度量图栅格化后进行存储。

在其中一个实施例中，还包括：将所述图像数据流输入到预设的区域分割模型中，根据门、廊的宽度、布局、形状的特征信息，通过基于特征匹配的传统算法或基于深度网络学习算法将所述室内环境划分为独立的房间，得到区域划分层。

在其中一个实施例中，还包括：将不同区域的所述图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；所述场景识别模型为深度学习模型；

根据所述区域划分层和所述场景类别标签，构建房间拓扑图；所述房间拓扑图由边和节点构成，所述节点为所述区域划分层中的具体房间节点或两个相连区域的区域连接节点，所述边表示从一个节点到另一个节点所需要的导航行为以及距离，所述导航行为为指引所述无人平台从一个节点到另一个节点的规则信息。

在其中一个实施例中，还包括：将所述图像数据流输入到预设的场景图生成模型中，由同一区域的图像序列中提取关键帧；任意两个所述关键帧的重合度在预设的阈值之内；

通过区域候选网络得到所述关键帧中的对象候选区域；

为所述对象候选区域中的对象建立全连接图，任意两个对象之间设有双向边，所述双向边表示两个对象之间的关系，所述边的特征通过所连接的两个对象候选区域的联合框提取；

通过第一神经网络预测所述对象的类别和所述对象的属性，根据所述对象的类别和所述对象的属性，通过第二神经网络预测对象间的位置关系；

根据所述对象的类别、所述对象的属性和所述对象间的位置关系，得到局部场景图；

由同一区域的多张所述局部场景图得到所述区域的全局场景图。

在其中一个实施例中，还包括：将所述关键帧中的第一帧图像对应的局部场景图作为初始化的全局场景图；

根据图像特征计算后续局部场景图的全连接层中新增对象节点与所述全局场景图中已有对象节点的相似度；

删除重复对象节点，将所述全局场景图中没出现过的对象节点添加到更新后的全局场景图中，最后得到所述区域的全局场景图。

在其中一个实施例中，还包括：根据所述全局场景图中检测到的对象的深度信息、包围盒、相机参数和位姿信息，将所述对象以矩形框的形式映射到所述度量图对应的位置上；

将所述对象的类别、所述对象的属性和所述对象间的位置关系作为语义信息标注在所述度量图上，得到对象层。

一种基于视觉的室内语义地图构建装置，所述装置包括：

图像数据流获取模块，用于通过相机摄像头获取室内环境的图像数据流；所述图像数据流包括色彩图、深度图、相机位姿信息、相机参数信息、无人平台运动轨迹和姿态数据；

度量图构建模块，用于将所述图像数据流输入到预设的视觉SLAM模型中，构建所述室内环境的度量图；

区域划分层构建模块，用于将所述图像数据流输入到预设的区域分割模型中，将所述室内环境划分为独立的房间，得到区域划分层；

房间拓扑图构建模块，用于将不同区域的所述图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；根据所述区域划分层和所述场景类别标签，构建房间拓扑图；

对象层构建模块，用于将所述图像数据流输入到预设的场景图生成模型中，由所述图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到所述区域的全局场景图；将所述全局场景图上的语义信息实时定位并标注在所述度量图上，得到对象层；所述语义信息包括所述全局场景图中检测到的对象、所述对象的类别、所述对象的属性和所述对象间的位置关系；

级联模块，用于将所述度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于视觉的室内语义地图构建方法、装置、计算机设备和存储介质，通过相机摄像头获取室内环境的图像数据流，将图像数据流输入到预设的视觉SLAM模型中，构建度量图；将图像数据流输入到预设的区域分割模型中，得到区域划分层；将不同区域的图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签，根据区域划分层和场景类别标签，构建房间拓扑图，将图像数据流输入到预设的场景图生成模型中，由图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到区域的全局场景图，将全局场景图上的语义信息实时定位并标注在度量图上，得到对象层，将度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。本发明提出的基于视觉的室内语义地图构建方法尤其适用于建立具有复杂语义信息的语义地图，其包括了物体类别、属性及物体之间的关系描述等语义信息，可以支撑复杂语义对象的检索、匹配和推理等任务，进一步提高了无人平台的感知能力和理解能力，增强了无人平台执行任务的自主性和智能性。

附图说明

图1为一个实施例中基于视觉的室内语义地图构建方法的流程示意图；

图2为一个具体实施例中基于视觉的室内语义地图构建方法的流程示意图；

图3为一个实施例中各步骤得到的结果示意图，其中a为度量图生成结果示意图、b为区域划分层生成结果示意图、c为房间拓扑图结果示意图、d为基于视觉的室内语义地图生成结果示意图；

图4为一个实施例中基于视觉的室内语义地图构建装置的结构框图；

图5为另一个实施例中基于视觉的室内语义地图构建装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于视觉的室内语义地图构建方法，可以应用于如下应用环境中。其中，终端执行一种基于视觉的室内语义地图构建方法，通过相机摄像头获取室内环境的图像数据流，将图像数据流输入到预设的视觉SLAM模型中，构建度量图；将图像数据流输入到预设的区域分割模型中，得到区域划分层；将不同区域的图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签，根据区域划分层和场景类别标签，构建房间拓扑图，将图像数据流输入到预设的场景图生成模型中，由图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到区域的全局场景图，将全局场景图上的语义信息实时定位并标注在度量图上，得到对象层，将度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。其中，终端可以但不限于是各种个人计算机、笔记本电脑和平板电脑。

在一个实施例中，如图1所示，提供了一种基于视觉的室内语义地图构建方法，包括以下步骤：

步骤102，通过相机摄像头获取室内环境的图像数据流。

图像数据流包括色彩图、深度图、相机位姿信息、相机参数信息、无人平台运动轨迹和姿态数据。

具体地，可以通过RGB-D相机直接捕获环境的色彩图、深度图，同时读取相机参数和位姿信息，以上信息在物体识别、场景判别、实例分割、物体定位和计算空间占用时都起到重要作用；使用普通的RGB相机降低了成本，但RGB相机只能捕获环境的色彩图，深度图可以基于色彩图采用成熟的深度学习算法进行预测，在建图前载入预设的深度图生成模型即可；在无人平台建图的过程中，全程记录运行轨迹和姿态数据。

步骤104，将图像数据流输入到预设的视觉SLAM模型中，构建室内环境的度量图。

在没有任何先验知识的情况下，根据视觉传感器数据实时构建周围环境地图，同时根据这个地图推测自身的定位。只利用相机作为外部感知的传感器的SLAM系统，一般包括视觉里程计、后端优化、闭环检测和构图四个主要部分，根据生成方法的不同，可以分为间接方法和直接方法两大类。间接方法，即在对测量数据预处理来产生中间层，通过提取和匹配特征点来实现，也可采用光流法，或者提取直线和曲线特征来实现，然后计算地图点坐标或光流向量等几何量，其典型系统包括ORB-SLAM、PTAM、MonoSLAM等。直接方法，即直接使用传感器测量值，其典型系统包括DTAM、LSD-SLAM、DSO等。基于深度学习的SLAM，具备较强的环境适应性，如CNN-SLAM、LIFT等。

具体地，可以采用基于神经网络的SLAM提高系统的鲁棒性和适应性。

步骤106，将图像数据流输入到预设的区域分割模型中，将室内环境划分为独立的房间，得到区域划分层。

根据门、廊等的宽度、布局、形状等图像特征信息，实现不同房间的实时分割。可以采用基于特征匹配的传统算法和基于深度网络的学习类算法。

步骤108，将不同区域的图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；根据区域划分层和场景类别标签，构建房间拓扑图。

楼层通常由多类不同的房间构成，包括卧室、卫生间、办公室等若干类别，它们在房间布局、物品分布等方面具备不同的典型特征。基于图像数据，可以采用聚类等传统算法和基于深度网络的学习类算法对区域场景类型进行识别，打上不同的语义标签。具体地，预设场景识别模型可采用ResNet、VGG、Fast R-CNN等现有的任何可能的深度学习模型，也可以采用基于特征的分类和基于语义的分类。

语义拓扑图由边和节点构成，其中节点包括2种，分别为对应着区域划分层中的具体房间、两个相连区域的区域连接节点，边表示从某个节点转移到另一个节点所需要的导航行为以及距离。导航行为旨在指引无人平台从一个语义点前往另一个语义点。

优选地，构建房间拓扑图，具体为：

区域场景类别作为房间拓扑图中区域节点的语义标签；

按照规则定义拓扑图中点与点之间的导航行为，将导航行为存储到边的特征中；

在栅格化的度量图上，使用A*规划算法计算存在导航行为的点之间的距离，将该距离存到边的特征中，存储房间拓扑图。

步骤110，将图像数据流输入到预设的场景图生成模型中，由图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到区域的全局场景图；将全局场景图上的语义信息实时定位并标注在度量图上，得到对象层；语义信息包括全局场景图中检测到的对象、对象的类别、对象的属性和对象间的位置关系。

从图像数据流中筛选清晰的单张图像作为关键帧，可以通过计算拉普拉斯算子的方差来衡量图像中像素之间的强度；把一张清晰输入帧定义为第一个关键帧，计算其它帧与关键帧的重合度，当低于一个阈值时，该帧保留为关键帧，否则舍弃；重复上述两个步骤，直到所有帧之间的重合度均在一定阈值范围内。

由单张图像生成场景图，预设场景图生成模型可采用Factorizable Net、NeuralMotifs、MSDN等现有的任何可能的场景图生成模型。示例性地，改进后的Neural Motifs模型：图像经过预处理后，使用区域候选网络RPN生成一定数量的对象候选区域；为所有对象的候选区域建立全连接图，任意两个对象之间都存在表示它们之间关系的两个不同方向的边，边的特征通过所连接的两个对象的联合框提取；对对象、属性和关系进行分类预测，将特征向量输入到两个神经网络，先预测对象类别、属性，再利用对象类别、属性信息帮助预测对象之间的关系。

由局部场景图合并更新生成全局场景图，具体为：

抽取的第一帧图像的局部场景图作为初始化的全局场景图；通过利用对象标签、空间位置、颜色直方图等特征，计算后续图像新添加节点与之前节点的相似度，从而检测到不同图片中的相同节点；删除相同的节点并消除重复提取的信息，只有全局场景图中没有出现过的节点才会被添加到全局场景图中。

在生成度量图的同时，结合图像中对象的空间信息，例如深度信息、相对位置信息和相机姿态等，将场景图中识别出来的对象准确地定位在度量图上，并且将对象的类别、属性以及位置关系标注在对象上。优选地，在RGB-D相机捕获的图像信息中包含了环境的色彩图和深度图，同时在场景图生成过程中包含了目标检测，检测到的对象由包围盒进行限定，结合对象深度信息、包围盒、相机参数和位姿信息等，可将对象位置映射到度量图中；度量图中的对象二维空间，使用映射后得到的矩形框表示，矩形中心表示对象的位置坐标；对象的类别、属性和位置关系作为环境的语义标注信息，构建为对象层，并与度量图中的相应对象实例直接关联起来。

步骤112，将度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。

本发明构建的语义地图，可以直接在地图上准确获得对象的坐标、类别（以及属性、关系）、房间场景并可基于度量图和拓扑图规划路径。

上述基于视觉的室内语义地图构建方法中，通过相机摄像头获取室内环境的图像数据流，将图像数据流输入到预设的视觉SLAM模型中，构建度量图；将图像数据流输入到预设的区域分割模型中，得到区域划分层；将不同区域的图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签，根据区域划分层和场景类别标签，构建房间拓扑图，将图像数据流输入到预设的场景图生成模型中，由图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到区域的全局场景图，将全局场景图上的语义信息实时定位并标注在度量图上，得到对象层，将度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。本发明提出的基于视觉的室内语义地图构建方法尤其适用于建立具有复杂语义信息的语义地图，其包括了物体类别、属性及物体之间的关系描述等语义信息，可以支撑复杂语义对象的检索、匹配和推理等任务，进一步提高了无人平台的感知能力和理解能力，增强了无人平台执行任务的自主性和智能性。

在其中一个实施例中，还包括：将图像数据流输入到预设的基于神经网络的视觉SLAM模型中，通过边界搜索算法自动构建室内环境的度量图；将度量图栅格化后进行存储。

无人平台搜索建图的过程，可采用人工搜索和自动搜索两种方式。自主视觉SLAM可以实现全流程自动构建度量图的目的，其搜索策略可以采取边界搜索、主动搜索和语义搜索等。本实施例在搜索策略上选择边界搜索来最大化搜索范围，无人平台实现了自主构建度量图的全过程。为使无人平台后续能够更有效率的利用地图信息，结合运动轨迹信息将构建的度量图栅格化后再存储。

在其中一个实施例中，还包括：将图像数据流输入到预设的区域分割模型中，根据门、廊的宽度、布局、形状图像特征信息，通过基于特征匹配的传统算法或基于深度网络学习算法将室内环境划分为独立的房间，得到区域划分层。

优选地，采用基于特征匹配的传统算法进行区域分割。无人平台在两个区域之间过渡将穿过门、廊，连续图像数据流均能匹配到特征点，在模型训练之后可以得到一个临界点参数。将图像输入预设的区域分割模型中，即可实现楼层区域分割。

在其中一个实施例中，还包括：将不同区域的图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；场景识别模型为深度学习模型；根据区域划分层和场景类别标签，构建房间拓扑图；房间拓扑图由边和节点构成，节点为区域划分层中的具体房间节点或两个相连区域的区域连接节点，边表示从一个节点到另一个节点所需要的导航行为以及距离，导航行为为指引无人平台从一个节点到另一个节点的规则信息。

在其中一个实施例中，还包括：将图像数据流输入到预设的场景图生成模型中，由同一区域的图像序列中提取关键帧；任意两个关键帧的重合度在预设的阈值之内；通过区域候选网络得到关键帧中的对象候选区域；为对象候选区域中的对象建立全连接图，任意两个对象之间设有双向边，双向边表示两个对象之间的关系，边的特征通过所连接的两个对象候选区域的联合框提取；通过第一神经网络预测对象的类别和对象的属性，根据对象的类别和对象的属性，通过第二神经网络预测对象间的位置关系；根据对象的类别、对象的属性和对象间的位置关系，得到局部场景图；由同一区域的多张局部场景图得到区域的全局场景图。

在其中一个实施例中，还包括：将关键帧中的第一帧图像对应的局部场景图作为初始化的全局场景图；根据图像特征计算后续局部场景图的全连接层中新增对象节点与全局场景图中已有对象节点的相似度；删除重复对象节点，将全局场景图中没出现过的对象节点添加到更新后的全局场景图中，最后得到区域的全局场景图。

在其中一个实施例中，还包括：根据全局场景图中检测到的对象的深度信息、包围盒、相机参数和位姿信息，将对象以矩形框的形式映射到度量图对应的位置上；将对象的类别、对象的属性和对象间的位置关系作为语义标注信息标注在度量图上，得到对象层。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个具体实施例中，如图2所示，提供了一种基于视觉的室内语义地图构建方法，包括：

步骤1，初始化语义地图构建参数，通过摄像头采集周围环境的图像数据流，包括色彩图、深度图、位姿信息、相机参数等信息，并记录无人平台运行轨迹和姿态数据；

步骤2，将图像输入到预设的视觉SLAM模型中，构建楼层的度量图，如图3a所示；

步骤3，将图像输入到预设的区域分割模型中，将不同区域划分为独立的房间，构建为区域划分层，如图3b所示；

步骤4，将图像输入到预设的场景识别模型中，获得该图像所在区域的场景类别标签；

步骤5，将区域划分层与区域场景类别标签相结合，构建房间拓扑图，如图3c所示；

步骤6，将图像输入到预设的场景图生成模型中，得到由单张图像生成的局部场景图，同一区域的多个局部场景图合并更新为全局场景图；

步骤7：将场景图上的语义信息实时定位并标注在度量图上，构建为新的对象层；

步骤8：将度量图、对象层、区域划分层和房间拓扑图逐层关联，完成基于视觉的语义地图构建，如图3d所示。

在一个实施例中，如图4所示，提供了一种基于视觉的室内语义地图构建装置，包括：图像数据流获取模块402、度量图构建模块404、区域划分层构建模块406、房间拓扑图构建模块408、对象层构建模块410和级联模块412，其中：

图像数据流获取模块402，用于通过相机摄像头获取室内环境的图像数据流；图像数据流包括色彩图、深度图、相机位姿信息、相机参数信息、无人平台运动轨迹和姿态数据；

度量图构建模块404，用于将图像数据流输入到预设的视觉SLAM模型中，构建室内环境的度量图；

区域划分层构建模块406，用于将图像数据流输入到预设的区域分割模型中，将室内环境划分为独立的房间，得到区域划分层；

房间拓扑图构建模块408，用于将不同区域的图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；根据区域划分层和场景类别标签，构建房间拓扑图；

对象层构建模块410，用于将图像数据流输入到预设的场景图生成模型中，由图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到区域的全局场景图；将全局场景图上的语义信息实时定位并标注在度量图上，得到对象层；语义信息包括全局场景图中检测到的对象、对象的类别、对象的属性和对象间的位置关系；

级联模块412，用于将度量图、对象层、区域划分层和房间拓扑图逐层级联，完成基于视觉的室内语义地图构建。

度量图构建模块404还用于将图像数据流输入到预设的基于神经网络的视觉SLAM模型中，通过边界搜索算法自动构建室内环境的度量图；将度量图栅格化后进行存储。

区域划分层构建模块406还用于将图像数据流输入到预设的区域分割模型中，根据门、廊的宽度、布局、形状的特征信息，通过基于特征匹配的传统算法或基于深度网络学习算法将室内环境划分为独立的房间，得到区域划分层。

房间拓扑图构建模块408还用于将不同区域的图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；场景识别模型为深度学习模型；根据区域划分层和场景类别标签，构建房间拓扑图；房间拓扑图由边和节点构成，节点为区域划分层中的具体房间节点或两个相连区域的区域连接节点，边表示从一个节点到另一个节点所需要的导航行为以及距离，导航行为为指引无人平台从一个节点到另一个节点的规则信息。

房间拓扑图构建模块408还用于将图像数据流输入到预设的场景图生成模型中，由同一区域的图像序列中提取关键帧；任意两个关键帧的重合度在预设的阈值之内；通过区域候选网络得到关键帧中的对象候选区域；为对象候选区域中的对象建立全连接图，任意两个对象之间设有双向边，双向边表示两个对象之间的关系，边的特征通过所连接的两个对象候选区域的联合框提取；通过第一神经网络预测对象的类别和对象的属性，根据对象的类别和对象的属性，通过第二神经网络预测对象间的位置关系；根据对象的类别、对象的属性和对象间的位置关系，得到局部场景图；由同一区域的多张局部场景图得到区域的全局场景图。

房间拓扑图构建模块408还用于将关键帧中的第一帧图像对应的局部场景图作为初始化的全局场景图；根据图像特征计算后续局部场景图的全连接层中新增对象节点与全局场景图中已有对象节点的相似度；删除重复对象节点，将全局场景图中没出现过的对象节点添加到更新后的全局场景图中，最后得到区域的全局场景图。

对象层构建模块410还用于根据全局场景图中检测到的对象的深度信息、包围盒、相机参数和位姿信息，将对象以矩形框的形式映射到度量图对应的位置上；将对象的类别、对象的属性和对象间的位置关系作为语义标注信息标注在度量图上，得到对象层。

关于基于视觉的室内语义地图构建装置的具体限定可以参见上文中对于基于视觉的室内语义地图构建方法的限定，在此不再赘述。上述基于视觉的室内语义地图构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在另一个实施例中，如图5所示，提供了一种基于视觉的室内语义地图构建装置，包括：参数初始化模块、图像获取模块、度量图构建模块、对象层构建模块、区域划分层构建模块、房间拓扑图构建模块、场景判别模块、场景图生成模块、地图整合模块。

参数初始化模块，用于：初始化语义地图构建系统，设置拍摄、运动、噪声等参数；图像获取模块，用于：实时获取周围环境的图像数据，包括色彩图、深度图、位置信息等，优选地使用RGB-D摄像头拍摄直接捕获环境的深度信息，并将色彩图、深度图、相机参数、位姿信息打包提供给其他模块；度量图构建模块，用于：基于视觉SLAM构建楼层度量图，优选地使用基于神经网络的SLAM，采用边界搜索策略实现鲁棒性高适应性强的主动搜索建图；对象层构建模块，用于：将场景图中的语义信息定位并标注在度量图上，构建新的对象层，优选地结合对象深度信息、包围盒、相机参数和位姿信息将对象映射到度量上，对象类别、属性和关系等语义信息作为新的对象层直接与度量图上相应的对象实例关联；区域划分层构建模块，用于：将不同区域划分为独立的房间，构建区域划分层，优选地采用基于特征匹配的分割模型划分楼层区域；房间拓扑图构建模块，用于：将区域划分层与区域场景类别标签相结合，构建房间拓扑图，优选地将导航行为及距离信息存储到边的特征中；场景判别模块，用于：判别所在区域的场景类型，优选地使用预设的ResNet模型识别房间场景类型；场景图生成模块，用于：生成单张图像的局部场景图，而后合并更新为全局场景图，优选地使用Neural Motifs预设模型生成场景图；地图整合模块，用于：将度量图、对象层、区域划分层和房间拓扑图逐层关联，构建语义地图。

优选地，上述基于视觉的室内语义地图构建装置还包括：

模型训练模块：将采集到的图像数据流分别输入到视觉SLAM模型、区域分割模型、场景识别模型和场景图生成模型中，训练得到所述预设模型。其中，上述模型可以采用预训练过的模型，直接迁移并进行微调。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的视频采集设备、处理器、存储器、图形处理器、无人平台。其中，视频采集设备用于采集环境的图像数据流；处理器用于执行所述基于视觉的室内语义地图构建方法或任一项步骤的程序指令；存储器用于存储所述语义地图构建方法的程序和模型参数、无人平台在运行时摄像头拍摄产生的数据序列、环境地图和标注信息以及构建的语义地图等；图形处理器用于支撑上述场景判别、场景图生成等深度学习模型的大规模并行运算；无人平台用于搭载上述设备，并能够支持平稳运动，记录运行轨迹和位姿状态。其中，视频采集设备，可以是普通的RGB摄像机，也可以是RGB-D摄像机。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种基于视觉的室内语义地图构建方法。该图形处理器具有多核并发的优势，可以进行并行运算，提高实时响应能力。无人平台，能够支持平面运动，包括旋转、前进等基础动作，在实施上述语义地图构建时，被程序驱动行驶，完成楼层搜索并实现闭环。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于视觉的室内语义地图构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将所述图像数据流输入到预设的视觉SLAM模型中，构建所述室内环境的度量图，包括：

将所述图像数据流输入到预设的基于神经网络的视觉SLAM模型中，通过边界搜索算法自动构建所述室内环境的度量图；

将所述度量图栅格化后进行存储。

3.根据权利要求1所述的方法，其特征在于，将所述图像数据流输入到预设的区域分割模型中，将所述室内环境划分为独立的房间，得到区域划分层，包括：

将所述图像数据流输入到预设的区域分割模型中，根据门、廊的宽度、布局、形状的特征信息，通过基于特征匹配的传统算法或基于深度网络学习算法将所述室内环境划分为独立的房间，得到区域划分层。

4.根据权利要求1所述的方法，其特征在于，将不同区域的所述图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；根据所述区域划分层和所述场景类别标签，构建房间拓扑图，包括：

将不同区域的所述图像数据流中的图像信息输入到预设的场景识别模型中，得到对应区域的场景类别标签；所述场景识别模型为深度学习模型；

5.根据权利要求1所述的方法，其特征在于，将所述图像数据流输入到预设的场景图生成模型中，由所述图像数据流中的单张图像得到局部场景图，由同一区域的多张局部场景图得到所述区域的全局场景图，包括：

将所述图像数据流输入到预设的场景图生成模型中，由同一区域的图像序列中提取关键帧；任意两个所述关键帧的重合度在预设的阈值之内；

通过区域候选网络得到所述关键帧中的对象候选区域；

6.根据权利要求5所述的方法，其特征在于，由同一区域的多张所述局部场景图得到所述区域的全局场景图，包括：

将所述关键帧中的第一帧图像对应的局部场景图作为初始化的全局场景图；

根据图像特征计算后续局部场景图中新增对象节点与所述全局场景图中已有对象节点的相似度；

删除重复对象节点，将所述局部场景图中新出现的对象节点及属性添加到全局场景图中，最后得到所述区域的全局场景图。

7.根据权利要求1所述的方法，其特征在于，将所述全局场景图上的语义信息实时定位并标注在所述度量图上，得到对象层；所述语义信息包括所述全局场景图中检测到的对象、所述对象的类别、所述对象的属性和所述对象间的位置关系，包括：

根据所述全局场景图中检测到的对象的深度信息、包围盒、相机参数和位姿信息，将所述对象以矩形框的形式映射到所述度量图对应的位置上；

8.一种基于视觉的室内语义地图构建装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述对象层构建模块还用于：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。