CN116698017B

CN116698017B - 面向室内大尺度复杂场景的物体级环境建模方法及系统

Info

Publication number: CN116698017B
Application number: CN202310982219.5A
Authority: CN
Inventors: 王凡; 张超凡; 刘勇; 夏营威; 张文; 高震宇
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-10-31
Anticipated expiration: 2043-08-07
Also published as: CN116698017A

Abstract

面向室内大尺度复杂场景的物体级环境建模方法及系统，所述方法包括利用拓扑图的结构表征环境模型，以环境中的指定物体为路标，并设置为拓扑节点，将环境中物体之间的空间关系信息作设置为拓扑边，搭建拓扑语义环境模型；对场景流中的物体级路标进行检测，提取物体级路标的语义与几何信息并存储到拓扑节点中；对提取的物体级路标进行关联，并将物体之间的空间关系信息存储到拓扑边中；对构建的拓扑语义环境模型进行同时定位和地图更新。该发明的优点在于：通过拓扑结构和物体的语义与空间关系信息对环境模型进行表征，从而构建轻量化、高鲁棒的拓扑语义模型。

Description

面向室内大尺度复杂场景的物体级环境建模方法及系统

技术领域

本发明属于机器人视觉环境感知的技术领域，尤其涉及面向室内大尺度复杂场景的物体级环境建模方法及系统。

背景技术

近年来，智能移动机器人的研究和应用受到了广泛的关注，并开始融入人们的日常生活，如在室内服务、智慧医疗和物流运输等众多领域得到了广泛的应用。室内机器人的长期自主导航能力是其安全、可靠地执行各项任务的前提，而环境建模是机器人实现自主化和智能化导航的基础。当前基于视觉的环境建模方法由于视觉传感器轻廉、采集信息量丰富以及高性价比等优势受到研究人员的广泛关注。

面向室内大尺度复杂场景的长期导航时，基于视觉环境建模方法仍面临众多挑战。例如发明专利CN202110055610.1《一种基于全景相机的主动视觉SLAM系统》基于像素级特征进行了环境模型构建，然而，像素级特征易受光照及视角变化、动态物体及遮挡等弱视觉情况影响，鲁棒性较差，继而影响环境建模的准确性。为此，发明专利CN202210316142.3《室内场景下的三维语义地图构建方法、装置、设备及介质》、发明专利CN202010108398.6《一种室内三维语义地图构建方法》及发明专利CN202210906765.6《一种面向动态场景的轻量级视觉语义里程计方法》等都通过添加语义信息在一定程度提升的建模的鲁棒性，但是，基于点云的环境模型其模型内存占用量大，不利于机器人在有限资源下的长期导航。而发明专利CN201710551277.7《基于拓扑地图和度量地图融合的自主探索方法和导航方法》通过融合拓扑结构和度量地图进一步提升了环境模型的轻量化性能，但是传统度量模型对精度要求高，可扩展性差。

发明内容

为了解决了上述技术问题，本发明提出了面向室内大尺度复杂场景的物体级环境建模方法及系统，具体技术方案如下：

面向室内大尺度复杂场景的物体级环境建模方法，包括:

利用拓扑图的结构表征环境模型，以环境中的指定物体为路标，并设置为拓扑节点，将环境中物体之间的空间关系信息作设置为拓扑边，搭建拓扑语义环境模型；

对场景流中的指定物体进行检测识别，设置为物体级路标，并提取物体级路标的语义和几何信息并存储到拓扑节点中；对提取的物体级路标进行关联，并将关联的空间关系信息存储到拓扑边中；

对构建的拓扑语义环境模型进行同时定位和地图更新。

具体地说，所述利用拓扑图的结构表征环境模型，以环境中的指定物体为路标，并设置为拓扑节点，将环境中物体之间的空间关系信息作设置为拓扑边，搭建拓扑语义环境模型，包括：

环境模型被定义为，其中N表示拓扑节点，E表示拓扑边；

第个所述拓扑节点N包括的信息用公式表示为：/>；其中，/>表示其顺序添加到图中的序列号；/>表示通过融合深度信息得到的目标物体中心点的3D坐标；/>表示类别；/>被定义为节点的附加属性的代理；

对于每组相邻节点和/>构建的边的定义为：/>，其中，/>表示节点之间的相对距离，被用于拓扑图的权值；/>表示节点/>和/>的相对方向关系；/>被定义为拓扑边的附加属性的代理。

具体地说，所述场景流中的物体级路标进行检测识别的方法包括联合2D目标检测网络和对应的深度图进行获取，或通过3D目标检测网络直接获取两种方法；

设置为物体级路标，并提取物体级路标的语义和几何信息的方法是通过深度学习方法。

具体地说，所述对提取的物体级路标进行关联，包括：

通过由粗到细的物体级路标关联方法包括依次实施的基于多帧实例跟踪的粗关联和基于图神经网络的精关联，实现对提取的物体级路标进行关联。

具体地说，所述基于多帧实例跟踪的粗关联，包括：

通过将实例特征的掩码IoU值、语义特征置信度及度量距离等融合进行改进优化。

具体地说，所述基于图神经网络的精关联，为：

通过联合自注意力机制和交叉注意力机制实现从语义关系和空间布局上对局部特征进行特异性描述和图间关联，以实现特征的精关联。

具体地说，所述对构建的拓扑语义环境模型进行同时定位和地图更新使用的方法是通过一种基于3D场景语义图匹配的物体级全局定位方法，所述全局定位方法包括首先通过自底向上的分层记忆管理机制提高场景语义图匹配的效率；之后通过耦合物体级特征的语义信息和拓扑空间关联信息，并联合多约束条件的图匹配方法实现精确的匹配检索；最后通过物体级位姿图优化，通过联合多约束条件实现对刚体和物体的位姿进行联合优化。

具体地说，所述自底向上的分层记忆管理机制，包括：

将全局场景语义图划分成顶层的长期拓扑图、中层的工作拓扑图和底层的短期拓扑图三个层次，通过一种自底向上的分层匹配更新策略来减少匹配时的检索区域，提高在有限计算资源下检索的效率。

具体地说，通过耦合物体级特征的语义信息和拓扑空间关联信息的方法，包括：

对于给定的局部目标图和全局查询图/>，通过耦合物体级特征的语义信息和拓扑空间关联信息进行相似性度量：

其中，A是N×M的赋值矩阵，C是N×M×N×M的代价矩阵，和/>分别是顶点和边的相似性矩阵，j和K分别为局部目标图和全局查询图中的节点，1和2表示对应边的起始和末端节点。

实现上述的面向室内大尺度复杂场景的物体级环境建模方法的系统，包括：

拓扑语义环境模型搭建模块，被配置为利用拓扑图的结构表征环境模型，以环境中的物体级路标作为拓扑节点，以环境中物体之间的关联信息作为拓扑边，搭建拓扑语义环境模型；

拓扑信息获取模块，被配置为对场景流中的物体级路标进行检测，提取物体级路标的语义和几何信息并存储到拓扑节点中；对提取的物体级路标进行关联，并将关联信息存储到拓扑边中；

拓扑语义环境模型更新模块，被配置为对构建的拓扑语义环境模型进行同时定位和地图更新。

本发明的优点在于：

（1）本发明仿照人类对环境的感知方式，通过对环境物体本身语义及相互间的关系认知所处环境，以此实现环境建模。

（2）本发明通过拓扑结构和物体的语义与几何信息对环境模型进行表征，从而构建轻量化、高鲁棒的拓扑语义模型。

（3）本发明提出通过联合多帧实例跟踪和图神经网络，实现由粗到细物体级路标关联方法。

（4）本发明通过引入图神经网络，并联合交互交叉注意力机制，实现对物体级特征的特征描述和关联，以构建轻量化3D环境模型。

（5）本发明将分层记忆管理机制应用到图匹配定位上，能够有效提高在大规模复杂场景中计算的效率。

附图说明

图1为本发明的一种面向室内大尺度复杂场景的物体级环境建模方法的流程示意图。

具体实施方式

下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，一种面向室内大尺度复杂场景的物体级环境建模方法，包括以下步骤：

S10、利用拓扑图的结构表征环境模型，以环境中的指定物体为路标，并设置为拓扑节点，将环境中物体之间的空间关系信息作设置为拓扑边，搭建拓扑语义环境模型；所述指定物体例如椅子、桌子、门等。

S20、对场景流中的物体级路标进行检测，提取物体级路标的语义和几何信息并存储到拓扑节点中；对提取的物体级路标进行关联，并将关联的空间关系存储到拓扑边中；

S30、对构建的拓扑语义环境模型进行同时定位和地图更新。具体地说，将构建的拓扑语义环境模型进行定位和地图更新使用的方法是通过一种基于3D场景语义图匹配的物体级全局定位方法，所述全局定位方法包括：首先通过自底向上的分层记忆管理机制提高场景语义图匹配的效率；之后通过耦合物体级特征的语义信息和拓扑空间关联信息，并联合空间几何约束、语义一致性约束等多种约束的图匹配方法实现精确的匹配检索；最后通过物体级位姿图优化，通过联合多约束条件实现对刚体和物体的位姿进行联合优化。

其中步骤S10中所述利用拓扑图的结构表征环境模型，以环境中的指定物体为路标，并设置为拓扑节点，将环境中物体之间的空间关系信息作设置为拓扑边，搭建拓扑语义环境模型，包括：

环境模型被定义为，其中N表示拓扑节点，E表示拓扑边；

所述拓扑节点对应的存储信息包括但不限于物体级路标本身的语义和几何信息的集合属性，例如类别、颜色、纹理、尺度等。第个所述拓扑节点N包括的信息用公式表示为：/>；其中，/>表示其顺序添加到图中的序列号；/>表示通过融合深度信息得到的目标物体中心点的3D坐标；/>表示类别；/>被定义为节点的附加属性的代理，例如，功能和操作属性(可移动的，静态的等)，6D位姿(位置和方向)等；

所述拓扑边对应的存储信息包括但不限于如路标之间的相对方向和距离等，对于每组相邻节点和/>构建的边的定义为：/>，其中，/>表示节点之间的相对距离，被用于拓扑图的权值；/>表示节点/>和/>的相对方向关系；/>被定义为拓扑边的附加属性的代理。

基于搭建的拓扑语义环境模型，步骤S20中所述场景流中的物体级路标进行检测，并提取物体级路标的语义和几何信息的方法包括两种：

一种是：通过深度学习方法对场景流中的物体级路标进行检测，提取物体级路标的语义和几何信息；对场景流中的物体级路标进行检测的方法为利用2D目标检测网络，并结合对应的深度图获取物体的信息。

另外一种是：通过3D目标检测网络获取语义和几何信息。

步骤S20中，所述对提取的物体级路标进行关联，包括：

通过一种由粗到细的物体级路标关联方法实现对提取的物体级路标进行关联，所述由粗到细物体级路标关联方法包括依次实施基于多帧实例跟踪的粗关联和基于图神经网络的精关联。

具体地说，所述基于多帧实例跟踪的粗关联，包括：

通过将实例特征的掩码IoU值、语义特征置信度及度量距离等融合进行改进优化，以消除模型噪声等干扰，实现对实例特征的数据粗关联。

其中，A是N×M的赋值矩阵，C是N×M的代价矩阵。是实例特征的掩码置信度，是实例特征间的度量距离，/>对应语义特征检测中的混淆矩阵。

具体地说，所述基于图神经网络的精关联，为：

首先通过图神经网络对粗关联的物体级路标进行组织；之后通过一种自注意力机制对图内的多模态局部特征进行特异性描述，以提高局部特征的区分度；最后采用一种交叉注意力机制对具备特异性描述的局部特征进行图间关联，以降低遮挡、动态物体等影响。

步骤S30中，自底向上的分层记忆管理机制、物体级特征的语义信息和拓扑空间关联信息耦合方法及物体级位姿图优化的方法介绍如下：

自底向上的分层记忆管理机制

分层记忆管理机制是通过自底向上的分层匹配更新策略来减少场景语义图匹配的检索区域，以提高场景语义图匹配的效率。该机制将地图划分成:短期图、工作图和长期图。短期图是由当前帧序列中先前添加的节点和对象构造的底层临时局部子图；工作图是以短期图中的节点为根节点，在一定半径内构建的局部子图；长期图是一个已经构造好的全局图。

物体级特征的语义信息和拓扑空间关联信息耦合方法

通过耦合3D实例特征的语义信息和拓扑空间关联信息以提升视觉定位对室内复杂环境变化的鲁棒性，并融合空间几何约束、语义一致性约束等多级约束进行局部目标图和全局查询图之间的相似性度量，从而实现精确的匹配检索。对于给定的局部目标图和全局查询图/>，具体融合如下：

其中，A是N×M的赋值矩阵，C是N×M×N×M的代价矩阵，和/>分别是顶点和边的相似性矩阵，j和K分给为局部目标图和全局查询图中的节点，1和2表示对应边的起始和末端节点。

物体级位姿图优化的方法由于机器人和相机之间保持刚性连接，因此，对于对象级位姿图优化中的相机轨迹和物体/>，可将所有测量约束的误差项最小化如下:

其中，，/>和/>分别是相机-相机，相机-物体以及物体-物体间的测量误差，。之后通过Levenberg-Marquart算法求解上式的最小二乘问题，并对上述约束关系进行修正，i表示时刻，j表示物体。

拓扑语义环境模型更新模块，被配置为将构建的拓扑语义环境模型进行定位和地图更新。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.面向室内大尺度复杂场景的物体级环境建模方法，其特征在于，包括:

对构建的拓扑语义环境模型进行同时定位和地图更新；

所述场景流中的物体级路标进行检测识别的方法包括联合2D目标检测网络和对应的深度图进行获取，或通过3D目标检测网络直接获取两种方法；

设置为物体级路标，并提取物体级路标的语义和几何信息的方法是通过深度学习方法；

所述对提取的物体级路标进行关联，包括：

通过由粗到细的物体级路标关联方法包括依次实施的基于多帧实例跟踪的粗关联和基于图神经网络的精关联，实现对提取的物体级路标进行关联；

所述基于多帧实例跟踪的粗关联，包括

通过将实例特征的掩码IoU值、语义特征置信度及度量距离融合进行改进优化；

所述基于图神经网络的精关联，为：

2.根据权利要求1所述的面向室内大尺度复杂场景的物体级环境建模方法，其特征在于，所述利用拓扑图的结构表征环境模型，以环境中的指定物体为路标，并设置为拓扑节点，将环境中物体之间的空间关系信息作设置为拓扑边，搭建拓扑语义环境模型，包括：

环境模型被定义为，其中N表示拓扑节点，E表示拓扑边；

第个所述拓扑节点N包括的信息用公式表示为：/>；其中，表示其顺序添加到图中的序列号；/>表示通过融合深度信息得到的目标物体中心点的3D坐标；/>表示类别；/>被定义为节点的附加属性的代理；

对于每组相邻节点和/>构建的边的定义为：/>，其中，/>表示节点之间的相对距离，被用于拓扑图的权值；/>表示节点/>和/>的相对方向关系；被定义为拓扑边的附加属性的代理。

3.根据权利要求1所述的面向室内大尺度复杂场景的物体级环境建模方法，其特征在于，所述对构建的拓扑语义环境模型进行同时定位和地图更新使用的方法是通过一种基于3D场景语义图匹配的物体级全局定位方法，所述全局定位方法包括首先通过自底向上的分层记忆管理机制提高场景语义图匹配的效率；之后通过耦合物体级特征的语义信息和拓扑空间关联信息，并联合多约束条件的图匹配方法实现精确的匹配检索；最后通过物体级位姿图优化，通过联合多约束条件实现对刚体和物体的位姿进行联合优化。

4.根据权利要求3所述的面向室内大尺度复杂场景的物体级环境建模方法，其特征在于，所述自底向上的分层记忆管理机制，包括：

5.根据权利要求3所述的面向室内大尺度复杂场景的物体级环境建模方法，其特征在于，通过耦合物体级特征的语义信息和拓扑空间关联信息的方法，包括：

；

其中，是N×M的赋值矩阵，C是N×M×N×M的代价矩阵，/>和/>分别是顶点和边的相似性矩阵，j和K分别为局部目标图和全局查询图中的节点，1和2表示对应边的起始和末端节点。

6.实现权利要求1-5任意一项所述的面向室内大尺度复杂场景的物体级环境建模方法的系统，其特征在于，包括：

所述对提取的物体级路标进行关联，包括：

所述基于多帧实例跟踪的粗关联，包括

所述基于图神经网络的精关联，为：

通过联合自注意力机制和交叉注意力机制实现从语义关系和空间布局上对局部特征进行特异性描述和图间关联，以实现特征的精关联；