CN113505646B

CN113505646B - 一种基于语义地图的目标搜索方法

Info

Publication number: CN113505646B
Application number: CN202110648665.3A
Authority: CN
Inventors: 刘华平; 周方波; 赵怀林; 袁小虎; 张新钰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2024-04-12
Anticipated expiration: 2041-06-10
Also published as: CN113505646A

Abstract

本发明提出一种基于语义地图的目标搜索方法，属于机器人导航、计算机视觉领域。该方法首先建立语义关系图，对待进行目标搜索的空间建立导航图并选取采样点，在各采样点从多视角采集RGB图和深度图；机器人根据任一采样点单个视角的RGB图获得该视角中物体的语义掩膜，结合深度图完成该视角局部的三维语义重建；整合所有局部的三维语义重建，得到待进行目标搜索的空间的语义点云；去除点云中的z维数据并去噪，得到该空间的语义地图；机器人在语义地图中查询待搜索的目标物体是否为已知物体并执行相应的搜索策略；搜索完成后，更新未知目标物体与各父类物体的语义关系图。本发明可使机器人对真实环境具有良好感知能力，提高目标搜索的效率。

Description

一种基于语义地图的目标搜索方法

技术领域

本发明涉及机器人导航、计算机视觉领域，特别涉及一种基于语义地图的目标搜索方法。

背景技术

随着计算机视觉与移动机器人领域的快速发展，智能服务机器人将逐渐进入人类的生活，机器人智能化体现在生活中的各个方面，例如如何让一个机器人去厨房拿一个香蕉，实现这个看似简单实际复杂的任务需要机器人首先根据环境中的信息来明确自己的位置以及它的周围是什么环境；其次机器人靠自身携带的视觉传感器识别出物体的位置与类别信息，即要找到香蕉。在这个任务中，机器人首先要发现香蕉，并走到香蕉旁边，这个子任务就是目标搜索任务。

当前的研究者们大多在仿真环境中提高机器人对目标搜索的正确率，但是在现实场景中，由于环境的复杂，机器人在导航的过程中往往遇到障碍物的阻挡，仅依靠局部的视觉信息，机器人往往无法避开障碍物。此外当前目标搜索所用的方法大多是采用端到端的深度强化学习进行的，该方法是在不断试错的基础上实现的，但是实际机器人的试错的成本是非常高的，因此迁移到实际的机器人上将带来很大的问题。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于语义地图的目标搜索方法。本发明可使机器人对真实环境具有良好的感知能力，提高目标搜索的效率。

本发明提出一种基于语义地图的目标搜索方法，其特征在于，该方法首先建立各目标物体与父类物体的语义关系图，然后对待进行目标搜索的空间建立导航图并选取采样点，在各采样点上每隔一定的角度采集该视角的RGB图和深度图；执行搜索任务的机器人根据RGB图获得对应视角中物体的语义掩膜，结合该视角的深度图完成该视角局部的三维语义重建；对每个采样点所有视角局部的三维语义重建进行整合，完成待进行目标搜索的空间的三维语义重建，得到对应该空间的语义点云；去除点云中的z维的数据并去噪后，得到待进行目标搜索的空间的语义地图；机器人查询待搜索的目标物体是否为语义地图中三维语义重建的物体并执行相应的搜索策略；搜索完成后，更新未在语义地图中查询到的目标物体与各父类物体的语义关系图。该方法包括以下步骤：

1)建立各目标物体对应的语义关系图；具体方法如下：

首先，选取各父类物体构建父类物体的集合，从视觉基因组数据集的图像标题中提取各目标物体和各父类物体的关系强度来构建该目标物体对应的语义关系图；其中，在该数据集中任一目标物体与任一父类物体在图像标题中同时出现次数与该目标物体在图像标题中出现总次数的比例即为该目标物体与该父类物体的关系强度；

2)利用同步定位与建图SLAM方法对待进行目标搜索的空间建立导航图，然后对该导航图进行栅格化，将栅格上的点作为导航点，从导航点中选取采样点并在采样点上每隔一定的角度采集该视角的图像数据，包括：RGB图和深度图；

3)执行搜索任务的机器人首先使用Mask RCNN分割模型根据任一采样点单个视角的RGB图获得该视角中物体的语义掩膜；然后将该视角的深度图像素坐标系转化为世界坐标系，形成点云；将语义掩膜与点云结合形成语义点云，完成该视角局部的三维语义重建，得到该视角中物体各体素在房间中的位置；然后通过多视角的连续性，对每个采样点所有视角局部的三维语义重建进行整合，完成待进行目标搜索的空间的三维语义重建，得到对应该空间的语义点云；

4)对步骤3)得到的空间的语义点云，每个点包含四种维度的信息x，y，z，c，其中x，y，z分别为每个点的坐标，c是对应的语义类别；去除每个点z维的数据，得到该待进行目标搜索的空间的自上而下的初始语义地图；对初始语义地图进行去噪，得到该待进行目标搜索的空间最终的语义地图；

5)对机器人布置待搜索的目标物体，机器人在步骤4)得到的语义地图中查询该目标物体是否为已知物体，其中若该物体是语义地图中三维语义重建的物体，则该物体为已知物体，否则为未知物体；

若该目标物体是已知物体，则执行步骤6)；若该目标物体是未知物体，则执行步骤7)；

6)利用语义地图进行已知的目标物体的搜索，具体步骤如下：

6-1)机器人在语义地图中查询距离该目标物体最近的导航点以及在该导航点观察到物体的角度，机器人到达查询到的导航点，并在该导航点按照计算查询的角度朝向该目标物体；

6-2)机器人靠近该目标物体，直至与目标物体之间的距离小于设定的距离阈值，搜索任务完成；

7)利用语义地图进行未知的目标物体的搜索，具体步骤如下：

7-1)机器人通过该目标物体对应的语义关系图查询与该物体关系强度最大的父类物体并作为选中的父类物体；

7-2)机器人在语义地图中查询距离该选中的父类物体最近的导航点，然后到达该查询得到的导航点；

7-3)机器人在该导航点旋转一周，寻找该目标物体；

如果在旋转中检测到该目标物体，则机器人在该导航点朝向目标物体，然后进入步骤7-4)；

如果在旋转中未检测到该目标物体，则机器人排除所有选中过的父类物体，并通过该目标物体对应的语义关系图查询在剩余的父类物体中与该物体关系强度最大的父类物体并作为新的选中的父类物体，然后重新返回步骤7-2)；

如果在所有父类物体对应的导航点旋转一周后均未找到该目标物体，则搜索任务失败，然后进入步骤8)；

7-4)机器人靠近目标物体，直至与目标物体之间的距离小于设定的距离阈值，搜索任务完成，然后进入步骤8)；

8)根据搜索任务的结果更新目标物体的语义关系图；更新策略如下：

其中，R′_p为更新后目标物体与父类物体p的关系强度，R_p为更新前目标物体与父类物体p的关系强度；S_p是一个二进制数，表示是否在该父类物体p找到目标物体；S是一个二进制数，表示在所有的父类物体中是否能找到目标物体。

本发明提出一种基于语义地图的目标搜索方法，与现有技术相比，本发明主要优点如下：

1)传统方法如SLAM建的图只能满足移动机器人避障、路径规划等简单的任务。然而在机器人智能化操作任务中，不仅需要对所处环境建立几何地图，还要知道地图中物体的语义类别信息，本发明提出一种基于语义地图的目标搜索方法，有了准确的语义地图，机器人可以清楚知道已知物体的位置，或者预测未知物体的位置。

2)针对当前目标搜索任务应用于现实环境中，由于环境的复杂，机器人仅仅依靠当前的局部视觉信息，无法快速地寻找到物体。本发明提出一种基于语义地图的目标搜索方法，机器人可以利用建好的语义地图，可以走到距离目标物体最近的导航点。

3)为了弥补动态环境下仅依靠语义地图进行未知目标搜索存在的不足，本方法提出了一种语义关系图的更新策略，可适应动态环境下机器人对未知物体的寻找。

4)不同于采用端到端的深度强化学习方法，本发明方法通过严格的目标搜索流程可以在现实环境中实现有效地进行目标搜索，可以广泛应用于家居服务机器人、安全救援机器人上。

附图说明

图1是本发明方法的整体流程图。

图2是本发明实施例中的语义关系图。

图3是本发明实施例中的在采样点进行图像数据采集的示意图。

图4是本发明实施例中的三维语义重建的原理图。

图5是本发明实施例中的语义地图构建原理图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提出一种基于语义地图的目标搜索方法，首先建立各目标物体与父类物体的语义关系图，然后对待进行目标搜索的空间建立导航图并选取采样点，在各采样点上每隔一定的角度采集该视角的RGB图和深度图；执行搜索任务的机器人根据RGB图获得对应视角中物体的语义掩膜，结合该视角的深度图完成该视角局部的三维语义重建；对每个采样点所有视角局部的三维语义重建进行整合，完成待进行目标搜索的空间的三维语义重建，得到对应该空间的语义点云；去除点云中的z维的数据并去噪后，得到待进行目标搜索的空间的语义地图；机器人查询待搜索的目标物体是否为语义地图中三维语义重建的物体并执行相应的搜索策略；搜索完成后，更新未在语义地图中查询到的目标物体与各父类物体的语义关系图。该方法整体流程如图1所示，包括以下步骤：

1)建立各目标物体对应的语义关系图；具体方法如下：

首先选取各父类物体构建父类物体的集合，本发明将各空间中大型且不易移动的物体称为父类物体，例如，冰箱是厨房场景的父类物体，然而床是卧室的父类物体。并根据视觉基因组(VG)数据集的图像标题中目标物体和父类物体的关系强度来构建语义关系图。

2)利用同步定位与建图(SLAM)方法对待进行目标搜索的空间建立导航图，然后对该导航图进行栅格化，获取导航点，从导航点中选取采样点并在采样点上每隔一定的角度采集该视角的图像数据，包括：RGB图和深度图。

3)执行搜索任务的机器人首先使用Mask RCNN分割模型根据RGB图获得各采样点单个视角中物体的掩膜，结合该视角的深度图将像素坐标系转化为世界坐标系，完成该视角局部的三维语义重建。然后通过多视角的连续性，对每个采样点所有视角局部的三维语义重建整合到一起，完成待进行目标搜索的空间的三维语义重建，得到对应该空间的语义点云。

4)待进行目标搜索的空间的三维语义重建结果通过点云(每个点的信息包括该点的三维坐标以及类别标签)的形式保存下来，去除每个点z维的数据，得到该待进行目标搜索的空间的自上而下的初始语义地图。对初始语义地图进行去噪，得到该待进行目标搜索的空间最终的语义地图。

5)告诉机器人所要搜寻的物体(在本实施例中待进行目标搜索的空间包含多个房间，每个房间中存在重复的物体，因此还需要告诉机器人待搜寻的物体所在的房间)。机器人在步骤4)得到的语义地图中查询该物体是否已知物体(即判定该物体是否是语义地图中三维语义重建的物体，若是则为已知物体，若否则为未知物体)。若该目标物体是已知物体，则执行步骤6)。若该目标物体是是未知物体则执行步骤7)。

6-1)机器人在已经建好的语义地图中查询距离该已知物体最近的导航点以及在该导航点以何种角度可以观察到物体，到达查询到的导航点，并在该导航点按照查询的角度朝向该目标母体。

6-2)机器人通过一种递归的方式靠近该目标物体，直至与目标物体之间的距离小于1米，搜索任务完成。

7)利用语义地图进行未知目标的搜索，具体步骤如下：

7-1)机器人通过该未知目标物体对应的语义关系图查询与该物体关系最密切(即关系强度最大)的父类物体并作为选中的父类物体；

7-2)机器人在已经建好的语义地图中查询距离该选中的父类物体最近的导航点，然后到达该查询得到的导航点。

7-3)机器人在该导航点旋转一周，寻找该未知目标物体；

如果在旋转中检测到该未知目标物体，则机器人在该导航点朝向目标物体，然后进入步骤7-4)；

如果在旋转中未检测到该未知目标物体，则机器人排除所有选中过的父类物体，并通过该未知目标物体对应的语义关系图查询在剩余的父类物体中与该物体关系最密切的父类物体并作为新的选中的父类物体，然后重新返回步骤7-2)；

如果在所有父类物体对应的导航点旋转一周后均未找到该未知目标，则搜索任务失败，然后进入步骤8)。

7-4)机器人通过一种递归的方式靠近目标物体，直至与目标物体之间的距离小于1米，搜索任务完成，然后进入步骤8)。

8)根据搜索任务的结果更新目标物体的语义关系图。

本方法提出的语义关系图是在不停的更新的，如果目标物体是在某个父类物体对应的导航点附近找到，就增加目标物体与该父类物体该关系的强度，同时更新该目标物体与其它父类物体的关系强度。如果在所有父类物体对应的导航点都没找到该目标物体，则不更新语义关系图，及原有的关系强度不更新。其具体的更新的策略如下：

其中，R′_p为更新后目标物体与父类物体p的关系强度，R_p为更新前目标物体与父类物体p的关系强度，S_p是一个二进制数，表示是否在该父类物体p找到目标物体，S也是一个二进制数，表示在所有的父类物体中是否能找到目标物体。

所述步骤1)中，所述的语义关系图是从视觉基因组(VG)数据集的图像标题中提取各目标物体(目标物体是机器人所要寻找的物体)和各父类物体的关系强度来构建的，即将在该数据集中任一目标物体与某个父类物体在图像标题中同时出现次数与该目标物体出现在图像标题总次数的比例作为该目标物体与该父类物体的关系强度(操作时，我们先找到数据集中出现目标物体的图像标题，再在其中找到与某个父类物体同时出现的图像标题，图像标题是一个英语句子)。利用该关系强度，构建每个目标物体对应的语义关系图。

如图2所示，展示了目标物体“苹果”与父类物体的语义关系图，中间节点表示目标物体，其余节点表示父类物体。节点之间的边表示目标物体与父类物体的关系强度。例如苹果与桌子的关系强度为0.3。

所述步骤2)中，执行导航任务的机器人获取周围环境的信息，并根据自身位置及传感器获取的信息，获取出当下所在环境的导航图。在机器人运行过程中，通过同步定位与建图(SLAM)技术可以回答机器人两个问题，“我在那里？”“我可以往哪里走”。但是依靠这种方法建立的栅格地图，只描述了未知环境的几何特征信息并没用包含环境中的语义信息，因此为了能够标记每个物体的位置，还需要采集环境的语义信息。

如图3所示，将建立的导航图进行栅格化，栅格上的点为导航点，在本实施例中栅格大小为0.25m。在所有导航点的每一条边界上，按照该边界上所有导航点的坐标中位数来选择该边界中间的导航点作为采样点(本实施例为4个，其具体位置在图3中标明)。机器人在每个采样点上每隔22.5度采集该视角的RGB图和深度图。通过这种方法，机器人可以充分捕获整个房间的信息，用于接下来的三维语义重建。

所述步骤3)，如图4所示，机器人使用在CoCo数据集上经过预训练的Mask RCNN分割模型，由于数据集和实验场景的局限性，这导致我们能够重建的物体有限，当前能够重建的物体包括：“香蕉”“杯子”，“瓶子”、“笔记本电脑”、“键盘”、“微波炉”、“冰箱”、“椅子，电视机”，床”。图4中，将任一采样点单个视角的RGB图通过Mask RCNN分割模型进行目标检测和实例分割获得该采样点对应视角中物体的语义掩膜，如图中的局部放大的语义掩膜所示，杯子和香蕉周围的识别框表示能够包含物体的边界框，cupl00％表示对该物体识别为杯子的置信度为100％，banana 99％表示对该物体识别为香蕉的置信度为99％。然后将该视角的深度图像素坐标系转化为世界坐标系，形成点云。将获得的语义掩膜与点云结合，即对点云的每个体素固定对应的标签形成语义点云，完成该视角局部的三维语义重建，得到该视角中物体各体素在房间中的位置。

如图5所示，机器人在每个采样点的每个视角下都进行局部的三维语义重建，为克服单一视角获取环境信息不足的缺点，我们采用多视角连续性，将多个采样点多个视角生成的语义点云整合在一起，完成局部到全局的语义重建。所述的多视角连续性是指在单个采样点的单个视角只能重建一个视角的语义点云，我们将该采样点多个视角重建的语义点云放在一起组成了在该单个采样点重建的语义点云。然后再将多个采样点重建的语义点云整合到一起，便是整个房间的语义点云。通过这种方式，重建的语义点云信息更加的完善。图5中展示了在三个采样点分别重建的局部语义点云，整合在一起可以获得全局的语义点云，可以发现全局的语义点云相比于局部语义点云包含的信息更多。

所述步骤4)，三维语义重建的结果，我们通过点云的形式保存下来，每个点保存四种维度的信息x，y，z，c，其中x，y，z分别为每个点的坐标，c是对应的语义类别。将保存的语义点云，去除z维的数据，可以得到自上而下的语义地图。

虽然建的语义地图能够表示物体的大致位置，由于检测的精度、传感器的误差，位置误差等因素，建的语义图有一些的噪点，因此我们对语义地图进行去噪，并进行了其它处理方便机器人寻找，具体步骤如下：

a)计算绝对位置：对于语义地图中的物体，给一个相应的绝对位置，因此计算一个物体的质心，来表示该物体的位置。

b)计算最近的导航点：根据每个物体的绝对位置，找到与该绝对位置最近的导航点。

c)计算合适角度：根据物体的位置和最近的导航点，可以算出机器人移动到导航点后以何种角度可以观察到物体。

通过上述步骤1)，2)，3)，4)完成了语义地图的构建，接下来机器人便可以通过建好的语义地图来寻找目标物体。

所述步骤5)，给机器人下达任务所要搜寻的目标物体，以及该目标物体所在的房间。在已经建好的语义地图中查询该目标物体是已知物体还是未知物体，然后执行相应的步骤。

所述步骤6)中，机器人在已经建好的语义地图中查询距离该已知物体最近的导航点以及以何种角度可以观察到物体这个导航点和对应的角度就是机器人下一步所要先到达的目标点及朝向。所述的朝向的计算包含以下过程：(1)根据目标点(即查询得到的导航点)的位置(x_n,y_n)，已知物体的位置(x_t,y_t)得到两点组成的向量a，(2)计算向量a与向量(1,0)之间的夹角α，即机器人在目标导航点的朝向。在本实施例中机器人依靠A*算法和导航图来进行路径规划，躲避行进过程中的障碍物，准确地到达目标导航点和朝向，然后获取一张深度图作为当前深度图。

虽然在导航点可以看到目标物体，但是由于导航点并没有真正地靠近目标物体，因此还需要靠近物体。这一步骤首先通过目标检测的方式检测目标物体的边界框，在本实施例中，因为检测速度和节约电量的原因，寻找物体阶段进行目标检测方法并没有用两阶段Mask-RCNN，而是使用一阶段的YOLOv5，在仅使用目标检测方面，其速度和精度相比于Mask RCNN都会有所提高。然后利用目标物体的边界框坐标计算该物体的中心坐标，再映射到获取的深度图中，计算该物体中心坐标点周围121(11*11)个深度距离的平均值，并将其做作为机器人到目标物体的当前距离。

如果机器人到目标物体的距离大于等于1米，则机器人沿当前朝向前进一步，然后重新获取深度图并更新的机器人到目标物体的距离；在本实施例中，机器人的一步是0.1米。倘若机器人到目标物体的距离依然大于1米，则继续前进。采用这种递归的方式，直至目标物体的距离小于一米，任务完成。

所述步骤7)中，告诉机器人所需要寻找的具体物体，机器人在已经建好的语义地图中查询不到该物体，则该物体被判定为未知物体，便执行未知物体的目标搜索。机器人通过语义关系图查询与该物体关系最密切的父类物体，并在已经建好的语义地图中距离该父类物体最近的导航点。机器人依据建立好的导航图，到达所选择的导航点，旋转一周，寻找目标物体。

如果寻找不到该目标物体，则走到与该物体关系次密切的父类物体附近的导航点，重复此步骤继续寻找，直到找到该物体或者遍历所有父类物体所对应的导航点。若机器人发现了目标物体，机器人便通过一种递归的方式靠近目标物体，直至与目标物体之间的距离小于1米。

Claims

1.一种基于语义地图的目标搜索方法，其特征在于，该方法包括以下步骤：

1)建立各目标物体对应的语义关系图；具体方法如下：

4)对步骤3)得到的空间的语义点云，每个点包含四种维度的信息x,y,z,c，其中x,y,z分别为每个点的坐标，c是对应的语义类别；去除每个点z维的数据，得到该待进行目标搜索的空间的自上而下的初始语义地图；对初始语义地图进行去噪，得到该待进行目标搜索的空间最终的语义地图；

7-3)机器人在该导航点旋转一周，寻找该目标物体；

其中，R'_p为更新后目标物体与父类物体p的关系强度，R_p为更新前目标物体与父类物体p的关系强度；S_p是一个二进制数，表示是否在该父类物体p找到目标物体；S是一个二进制数，表示在所有的父类物体中是否能找到目标物体。

2.如权利要求1所述的方法，其特征在于，所述步骤2)中选取采样点的具体方法为：

在所有导航点的每一条边界上，按照该边界上所有导航点的坐标中位数来选择该边界中间的导航点作为采样点。

3.如权利要求1所述的方法，其特征在于，所述步骤6-2)和7-4)中机器人靠近目标物体的具体方法为：

1)机器人在当前导航点朝向目标物体后获取一张深度图作为当前深度图；

2)通过目标检测的方式检测目标物体的边界框，然后利用目标物体的边界框坐标计算该目标物体的中心坐标，再映射到当前深度图中，计算该物体中心坐标点周围多个深度距离的平均值，并将该平均值做作为机器人到目标物体的当前距离；

3)判定：如果该当前距离小于设定的距离阈值，则搜索任务完成；如果该当前距离大于等于设定的距离阈值，则机器人沿当前朝向前进一步，然后重新获取深度图作为当前深度图，然后重新返回步骤2)，直至当前距离小于设定的距离阈值，搜索任务完成。