CN114859932A

CN114859932A - 基于强化学习的探索方法、装置和智能设备

Info

Publication number: CN114859932A
Application number: CN202210556611.9A
Authority: CN
Inventors: 牛建伟; 左顺; 孙钢灿
Original assignee: Zhengzhou University Industrial Research Institute Co ltd; Hangzhou Innovation Research Institute of Beihang University
Current assignee: Zhengzhou University Industrial Research Institute Co ltd; Hangzhou Innovation Research Institute of Beihang University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-05

Abstract

本申请提供一种基于强化学习的探索方法、装置和智能设备，在基于获得的雷达数据构建待探索空间的地图信息后，根据地图信息构建局部地图，并获得局部边界点。基于优化的强化学习模型得到下一个目标边界点，控制机器人行进至目标边界点，并更新地图信息和局部地图，直至局部地图不具有可供探索的局部边界点时，确定出未被探索的全局边界点。控制机器人对未被探索的全局边界点进行探索，直至遍历所有全局边界点时完成探索。本方案中，将探索任务分为局部和全局两个部分，局部部分使用强化学习规划目标点，计算量小、决策精准且易于收敛，而全局部分维持一个未访问区域的地图，在局部嵌入收敛时，启用全局规划，避免探索不完整的问题。

Description

基于强化学习的探索方法、装置和智能设备

技术领域

本发明涉及机器人技术领域，具体而言，涉及一种基于强化学习的探索方法、装置和智能设备。

背景技术

机器人发展的趋势是智能化，并能在一定程度上拥有类人的思考决策能力。所以，无论是城市搜救、还是无人巡检，都对移动机器人的自主探索能力提出了新的要求。机器人需要明白两个问题：“我去哪”，“我该如何去”。总体而言，移动机器人需要具备从当前位置去往另一个未知环境的能力，并且能够完成对未知区域的自主探索，最终可以生成供机器人导航的3D点云地图和2D占据栅格图或供人类阅读查看的高清环境地图。

目前很多机器人探索环境仍然需要人工辅助，即先操纵机器人在一个环境中探索一圈，通过即时定位与建图技术(Simultaneous Localization and Mapping，SLAM)获得环境地图。这种不够“完全自主”的机器人不能在地下勘探、外空探索等完全无人化的环境中完成相应的任务，也不符合智能机器人的要求。此外，环境的空间局部可能会随着时间发生变化，原先的地图就失去了效用，如果没有自主探索，机器人就无法发挥应有的作用。自主探索机器人还能够在各种复杂恶劣的场景下代替人类去进行数据采集、环境测绘等任务，不仅可以减少对劳动力的依赖，还可以更好更精准地完成任务。

机器人自主探索目的是在没有任何先验知识的情况下，主动构建整个环境的地图，主要可以分为三个模块。首先，机器人利用携带的传感器构建环境地图。其次，自主决策模块提取地图信息并决策出下一个目标点。最后，导航模块将机器人导航至目标点。所以，自主探索中的决策方法在近20年来一直是机器人研究的大热门之一，主流的决策思路主要有两种：第一是基于边界点信息进行决策；第二是基于信息论的视角采样方法进行决策。

基于边界信息的自主探索方案，通过检测环境中已知区域和未知区域的交叉边界，并对这些边界点进行聚类，作为机器人下一步的目标点。很多人对此进行了优化，如更改边界点的搜索方式；让边界点的选取可以更加多样，综合考虑每个边界点的信息增益、路径代价等。

基于视角采样的方法是以地图信息的不确定性(地图熵)作为下一步决策优化目标，Cyrill Stachniss等人提出了用Rao-Blackwellized粒子滤波器来计算机器人下一步可能的信息增益，并在仿真与现实中进行了验证。也有人提出2D地图是一个二元随机变量场，机器人的动作与贝叶斯滤波器推理的互信息(mutual information)通过传感器测量的数据关联起来。

目前用强化学习解决机器人探索的思路有以下几种：1)以机器人为采样中心，用强化学习在占据栅格图中进行采样，采样的目标点合理则为下一个目标点，否则重新采样；2)基于边界点的探索方案都是以各种方式计算各个边界点潜在的信息增益，强化学习可以替代这种计算方式，可以用基于值函数的Q值估计每个点的信息增益。

基于边界信息和地图熵的方法主要是根据贪心原则，难以规划出一条全局最优的探索路径，探索轨迹容易出现大量的折返痕迹。而且随着环境的动态增长，计算量也随之增大，难以探索完整拓扑结构复杂的环境。最后，这些方法在面对不同的环境时还需要对目标优化函数进行参数修改，不能自适应调整。

发明内容

本发明的目的包括，例如，提供了一种基于强化学习的探索方法、装置和智能设备，其能够避免探索陷入局部最优、探索不完整的问题。

本发明的实施例可以这样实现：

第一方面，本发明提供一种基于强化学习的探索方法，所述方法包括：

基于获得的雷达数据构建待探索空间的地图信息；

根据所述地图信息，并以机器人当前位置为中心构建预设范围内的局部地图，并获得局部地图的局部边界点；

将所述局部地图和局部边界点导入强化学习模型以对强化学习模型进行优化，并基于优化得到的强化学习模型输出下一个目标边界点；

控制所述机器人行进至所述下一个目标边界点，并更新地图信息和局部地图，直至所述局部地图不具有可供探索的局部边界点时，确定未被探索的全局边界点；

控制所述机器人对未被探索的全局边界点进行探索，直至遍历所有全局边界点时完成探索。

在可选的实施方式中，所述地图信息包括2D栅格图，所述2D栅格图包含多个栅格点；

所述获得局部地图的局部边界点的步骤，包括：

针对局部地图中的各个栅格点，获得所述栅格点的多个邻域点；

针对各所述邻域点，若所述邻域点处于已知区域且该邻域点具有处于未知区域的邻域点，则将该邻域点标记为边界点，其中，所述已知区域为当前所有局部地图共同所占据的区域，所述未知区域为当前所有局部地图之外的区域。

在可选的实施方式中，所述强化学习模型为双层网络架构，包括网络一和网络二；

所述将所述局部地图和局部边界点导入强化学习模型以对强化学习模型进行优化的步骤，包括：

基于局部地图、局部边界点以及机器人的当前位姿信息得到当前观测状态；

根据所述当前观测状态以及强化学习模型拟合得到多个执行动作，得到在各个执行动作下所述机器人的下一个目标边界点，并获得在各个下一个目标边界点时的新的观测状态；

获得所述网络一得到的基于当前观测状态下的目标执行动作的当前得分，其中，所述目标执行动作为对应得分最大的执行动作；

获得所述网络二得到的在所述目标执行动作下得到的新的观测状态下的执行动作的下一得分；

基于所述当前得分和下一得分构建损失函数，并基于所述损失函数对所述强化学习模型进行优化。

在可选的实施方式中，所述损失函数中还包括奖励函数，所述奖励函数包括信息增益，所述信息增益通过以下方式获得：

基于当前所有局部地图中各个栅格点被占据的概率信息，计算得到当前所有局部地图的地图熵；

计算相邻时刻当前所有局部地图的地图熵的差异信息，作为所述信息增益。

根据当前所有局部地图中处于自由空间栅格点的数量，以及处于占据状态的栅格点的数量，计算得到当前所有局部地图构成的已知区域的面积；

计算相邻时刻已知区域的面积之间的差异信息，作为所述信息增益。

在可选的实施方式中，所述控制所述机器人行进至所述下一个目标边界点的步骤，包括：

基于所述机器人当前位置和下一个目标边界点规划得到行进路径；

将所述行进路径切分为多个路标点；

控制所述机器人按所述多个路标点的顺序，依次行进至各个路标点，以行进至所述下一个目标边界点。

在可选的实施方式中，所述地图信息还包括3D点云数据，所述确定全局边界点的步骤之后，所述方法还包括：

基于所述3D点云数据确定全局边界点中被障碍物所覆盖的全局边界点；

将确定出的被障碍物所覆盖的全局边界点进行过滤。

在可选的实施方式中，所述控制机器人对未被探索的全局边界点进行探索的步骤，包括：

构造未被探索的所有全局边界点与机器人当前位置的距离矩阵；

根据所有全局边界点对应的距离矩阵，确定出探索各个全局边界点的顺序；

按顺序开始探索各个全局边界点，并在机器人探索至各个全局边界点时更新全局地图。

第二方面，本发明提供一种基于强化学习的探索装置，所述装置包括：

第一构建模块，用于基于获得的雷达数据构建待探索空间的地图信息；

第二构建模块，用于根据所述地图信息，并以机器人当前位置为中心构建预设范围内的局部地图，并获得局部地图的局部边界点；

优化模块，用于将所述局部地图和局部边界点导入强化学习模型以对强化学习模型进行优化，并基于优化得到的强化学习模型输出下一个目标边界点；

控制模块，用于控制所述机器人行进至所述下一个目标边界点，并更新地图信息和局部地图，直至所述局部地图不具有可供探索的局部边界点时，确定未被探索的全局边界点；

探索模块，用于控制所述机器人对确定出的全局边界点进行探索，直至遍历所有全局边界点时完成探索。

第三方面，本发明提供一种智能设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当智能设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的方法步骤。

本发明实施例的有益效果包括，例如：

本申请提供一种基于强化学习的探索方法、装置和智能设备，在基于获得的雷达数据构建待探索空间的地图信息后，根据地图新并以机器人当前位置为中心构建预设范围内的局部地图，并获得局部地图的局部边界点。基于优化的强化学习模型得到下一个目标边界点，控制机器人行进至下一个目标边界点，并更新地图信息和局部信息，直至局部地图不具有可供探索的布局边界点时，确定出未被探索的全局边界点。控制机器人对未被探索的全局边界点进行探索，直至遍历所有全局边界点时完成探索。本方案中，将探索任务分为局部和全局两个部分，局部部分使用强化学习规划目标点，计算量小、决策精准且易于收敛，而全局部分位置一个未访问区域的地图，在布局嵌入收敛时，启用全局规划，避免探索不完整的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的基于强化学习的探索方法的流程图；

图2为本申请实施例提供的局部地图和局部边界示意图；

图3为图1中步骤S102包含的子步骤的流程图；

图4为图1中步骤S103包含的子步骤的流程图；

图5为DQN网络的架构示意图；

图6为本申请实施例提供的奖励函数的伪代码的示意图；

图7为本申请实施例提供的强化学习模型的网络架构示意图；

图8为本申请实施例提供的局部滑动窗口示意图；

图9为图1中步骤S104包含的子步骤的流程图；

图10为本申请实施例提供的边界快速检测示意图之一；

图11为本申请实施例提供的边界快速检测示意图之二；

图12为2D栅格图误差示意图；

图13为本申请实施例提供的过滤方法的流程图；

图14为3D点云框架过滤示意图；

图15为图1中步骤S105包含的子步骤的流程图；

图16为探索面积随着时间变化的曲线示意图；

图17为探索路程随着时间变化的曲线示意图；

图18为本申请实施例实验效果的3D和2D图；

图19为本申请实施例提供的智能设备的结构框图；

图20为本申请实施例提供的基于强化学习的探索装置的功能模块框图。

图标：110-存储介质；120-处理器；130-基于强化学习的探索装置；131-第一构建模块；132-第二构建模块；133-优化模块；134-控制模块；135-探索模块；140-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的基于强化学习的探索方法的流程图，该基于强化学习的探索方法有关的流程所定义的方法步骤可以由具备数据处理功能的智能设备，例如，机器人来实现。下面将对图1所示的具体流程进行详细阐述。

S101，基于获得的雷达数据构建待探索空间的地图信息。

S102，根据所述地图信息，并以机器人当前位置为中心构建预设范围内的局部地图，并获得局部地图的局部边界点。

S103，将所述局部地图和局部边界点导入强化学习模型以对强化学习模型进行优化，并基于优化得到的强化学习模型输出下一个目标边界点。

S104，控制所述机器人行进至所述下一个目标边界点，并更新地图信息和局部地图，直至所述局部地图不具有可供探索的局部边界点时，确定出未被探索的全局边界点。

S105，控制所述机器人对未被探索的全局边界点进行探索，直至遍历所有全局边界点时完成探索。

本实施例中，所述的待探索空间为一个封闭的空间，在该空间内可具有障碍物等，将机器人放置于该待探索空间内，基于机器人的自主探索能力，实现对该空间的探索。机器人上可搭载有雷达设备，如单线激光雷达、多线激光雷达等。机器人上的雷达设备可持续工作，进而实现一定范围的探测。

本实施例中，可以基于雷达设备持续所采集到的雷达数据，以构建待探索空间的地图信息。应当理解，待探索空间整体的空间范围可能很大，而雷达设备的探测距离有限，因此，在机器人处于某个位置时，探测到的雷达数据仅为以该位置为中心点的该待探索空间内的一部分区域的信息。而在机器人不断行进的过程中，总的探测到的区域信息也在不断变化以及增多。

本实施例中，在每次获得雷达设备的雷达数据后，可以基于雷达数据构建待探索空间的地图信息，该地图信息为待探索空间内的一部分区域的地图信息。

本实施例中，假设机器人初始位于环境中某一点X(x,y,θ)，其中，x、y表示2D坐标信息，θ表示机器人的朝向。此时雷达设备采集的数据为Z₀，机器人需要根据当前的位姿信息和雷达测量数据得到自身的定位信息和地图信息。实时定位与建图技术(SimultaneousLocalization and Mapping，SLAM)的核心思想是根据雷达观测值和里程计测量信息去估计联合后验概率密度函数，即p(x_1:t,m|z_1:t,u_0:t)＝p(m|x_1:t,z_1:t)p(x_1:t|z_1:t,u_0:t)。其中x_1:t代表机器人历史位姿序列，m代表需要求解的地图，z_1:t代表历史雷达观测序列，u_0:t为历史传感器(里程计、惯导)数据序列。SLAM技术使得机器人具备感知环境的能力，如自身位姿、障碍物的距离信息等，其生成的地图将用于自主探索中的导航和决策模块。本实施例中，可以采用最新的基于图优化的2D激光cartographer算法和轻量级的3D点云lego-loam算法来获得环境的2D占据栅格图和3D点云地图。

本实施例中，基于雷达数据获得的地图信息可包含2D栅格图，而2D栅格图的分辨率易于调整且搜索空间较小，本实施例中，主要根据2D栅格图进行局部地图的构建以及边界点的搜索和聚类。

本实施例中，可以机器人当前位置为中心按预设范围进行局部地图的构建，例如以机器人位姿X(x,y,θ)为中心，边长为L的正方形为局部2D地图。如图2中所示，局部地图是以机器人为中心的局部视野。边界的多个密集的点为当前地图检测出的边界点，黑色代表膨胀之后的障碍物轮廓，灰白色代表已探索的自由区域(无障碍物)，灰黑色代表未被探索的区域，大的点代表局部边界聚类之后的点。

本实施例中，将边界定义为已知区域与未知区域的交界，即交界是一组未知区域点集，且每个点都具有自由空间邻域点。其中，已知区域可以是当前所有局部地图共同所占据的区域，未知区域为当前所有局部地图之外的区域。

传统边界检测算法会广度优先搜索整个2D地图，将边界点添加到一个队列中，然后以这个点为搜索起点，继续广度优先遍历整个地图，将相互连接的边界点组成边界放入同一个队列之中。本实施例中，采用(Wavefront Frontier Detector，WFD)波前边界检测算法进行边界搜索和聚类，其主要改进在于每次只搜索已知区域而非遍历整个2D地图，极大地减少了运算量。

本实施例中，在构建局部地图后确定局部地图的局部边界点，请参阅图3，可以按照如下方式确定局部边界点：

S1021，针对局部地图中的各个栅格点，获得所述栅格点的多个邻域点。

S1022，针对各所述邻域点，若所述邻域点处于已知区域且该邻域点具有处于未知区域的邻域点，则将该邻域点标记为边界点。

本实施例中，假设当前占据的2D栅格图为m，边界点集为F，初始时刻F可以认为为空，机器人起点为c₀∈m。其中，c₀即为局部地图中的任意一个栅格点。以c₀作为搜索起点并加入搜索队列queue，每次从queue取出一个点c_a。针对c_a的邻域点c，如果c处于已知区域且具有处于未知区域的邻域点，就将c标记为边界点f，然后以c为起点继续搜索，将与其相连的边界点加入一个队列f′，将f′加入点集F。如果c不满足上述的条件，将c加入搜索队列queue。按上述方式进行探测和检测，直到queue为空，搜索完成。

本实施例中的强化学习模型采用基于值函数的强化学习算法，Deep-Q-learning(DQN)算法。Q-learning算法采用Q-table存储每个状态的Q值，难以用于高维状态空间。其中，Q值可以理解为在某个状态下执行某个动作后的得分。DQN通过把深度学习和Q-learning结合起来，用神经网络拟合一个估计Q值的函数。需要说明的是，本实施例中，除了可采用DQN算法外，也可以采用其他的可以用于离散动作空间的强化学习算法，例如近端策略优化算法(Proximal Policy Optimization，PPO)、ACKTR等。

强化学习模型采用双层网络架构：网络一(Local网络)和网络二(Target网络)。在基于局部地图和局部边界点实现强化学习模型的优化时，可以通过以下方式实现，请参阅图4：

S1031，基于局部地图、局部边界点以及机器人的当前位姿信息得到当前观测状态。

S1032，根据所述当前观测状态以及强化学习模型拟合得到多个执行动作，得到在各个执行动作下所述机器人的下一个目标边界点，并获得在各个下一个目标边界点时的新的观测状态。

S1033，获得所述网络一得到的基于当前观测状态下的目标执行动作的当前得分，其中，所述目标执行动作为对应得分最大的执行动作。

S1034，获得所述网络二得到的在所述目标执行动作下得到的新的观测状态下的执行动作的下一得分。

S1035，基于所述当前得分和下一得分构建损失函数，并基于所述损失函数对所述强化学习模型进行优化。

本实施例中，强化学习模型的输入为局部边界点P{p₁,p₂,p₃,…,p_n}、机器人的当前位姿P_c和局部地图m_local，基于输出可以得到下一个要探索的边界点{p_i|i∈n}。

如图5中所示，将局部边界点、当前位姿信息和局部地图构成当前观测状态s(m_local,P_c,P)，输出经过神经网络拟合计算的执行动作a(p_i)，机器人根据执行动作a选择下一步探索的目标边界点，之后会得到新的观测状态s_，不断重复这个过程直到探索完成。神经网络的更新主要是通过经验回放，经验池会存储元组(s,a,r,s_{_})，其中，r表示奖励项。

本实施例中，强化学习模型中的网络一用于估计当前Q值，也即，基于当前观测状态下的执行动作的当前得分。而网络二用于估计下一个状态Q值，也即得到基于新的观测状态下的执行动作的下一得分。

本实施例中，网络一和网络二可分别为Local网络和Target网络。当经验池存储的元组达到一定阈值之后，会计算Local网络和Target网络的交叉熵损失，去更新Local网络，并每隔n步同步两个网络之间的参数。

DQN的重大改进在于使用了两个估计Q值的网络和经验回放。其中经验回放利用随机抽样解决了数据相关性及非静态分布问题。

基于上述思路，构建的损失函数可如下所示：

Loss＝[r+γmaxQ(s′,a′)-Q(s,a)]²

强化学习一般需要假设环境符合马尔可夫性质，即机器人从环境观测到的状态是全面的，下一个状态只与当前状态有关，不受历史状态的影响。本实施例中，设计的观测状态state(P_c,P,n_local)，将环境地图、边界点以及机器人位姿聚合为一个向量s，包含了机器人能够从环境获得的全部信息，符合马尔可夫性质。根据贝尔曼方程，可以得到如下公式：

Q(s,a)←r+γmaxQ(s′,a′)(γ∈[0,1])

其中Q(s,a)代表模型在状态s采取动作a获得的Q值，是对动作a的一个衡量标准。强化学习的主要目标是使Q值收敛至最大值。从上述公式可以看出，Q值不仅与当前时刻获得的回报r(奖励项)有关，也和后续状态的Q值有关。γ是一个衰减系数，γ越接近1，模型越看重累计回报，反之则仅注重当前回报。环境反馈r对强化学习影响很大，合理的奖励设计能够加快模型收敛。

由上述可知，本实施例中，在损失函数中加入了奖励函数reward(即奖励项)，而奖励函数的设计综合考虑了信息增益、移动距离、边界可达性以及是否触发全局救援等信息。请结合参阅图6，本实施例中，按照图6所示的方式，基于上述的损失函数可以更新Local和Target网络参数。当神经网络的经验池存储的元组达到一定阈值后，会计算Local和Target网络的交叉熵损失，进而更新Local网络，并每隔n步同步两个网络之间的参数。

其中，信息增益是设置reward的一个关键因素。信息增益一般有两种方式可以计算得到。

在一种可能的实现方式中，信息增益可以按如下所示的根据地图熵的变化进行计算：

基于当前所有局部地图中各个栅格点被占据的概率信息，计算得到当前所有局部地图的地图熵，计算相邻时刻当前所有局部地图的地图熵的差异信息，作为所述信息增益。

本实施例中，地图熵的计算公式具体可如下所示：

H(m)是地图熵的一个度量，p(m_i,j)代表当前2D栅格图中第i列和j行的栅格点是否被占据的概率。

熵反映的是一个系统无序程度的指标，稳定系统的熵都比较小。地图的熵减变化代表地图正在被探索，故信息增益的计算可以如下所示：

Information＝H(m_t-1)-H(m_t)

此外，在另一种可能的实现方式中，可以按照如下的根据探索区域面积的变化进行信息增益的计算：

根据当前所有局部地图中处于自由空间栅格点的数量，以及处于占据状态的栅格点的数量，计算得到当前所有局部地图构成的已知区域的面积，计算相邻时刻已知区域的面积之间的差异信息，作为所述信息增益。

本实施例中，当前2D栅格图中已知区域的面积可以按照如下公式计算：

S(m)＝Count(m_free)+Count(m_occupied)

其中，Count(m_free)表示栅格图中处于自由空间栅格点的数量，Count(m_occupied)表示栅格图中处于占据状态的栅格点的数量。

信息增益的计算公式如下所示：

Information＝S(m_t)-S(m_t-1)

卷积神经网络擅长处理图像，不仅能够有效的将大数据量的图片降维成小数据量，而且能够有效的保留图片特征，符合图片处理的基本原则。本实施例中，使用多层全卷积神经网络提取特征，并通过全连接层输出所有Q(s,a)的值。本实施例可以采取的DQN网络架构如图7所示，观测状态s作为输入进入网络模型，通过三层全卷积神经网络提取特征在经过两层全连接层对特征进行计算，最后通过softmax函数采样输出最大的Q值。

基于输出的最大Q值，可以确定在该最大Q值之下的下一个目标边界点。

本实施例中，将局部探索过程类比为一个不断滑动的窗口，如图8所示，只要局部地图还存在边界点，强化学习模型就驱动机器人一直探索。这样做的好处是，地图信息丰富，方便作为网络输入。其次，局部边界点数目较少，强化学习动作空间维度较低，易于收敛。

传统方法一般是通过构造一个信息增益函数预估每个边界的信息增益，这样的贪心搜索容易陷入局部最优和多重折返。用强化学习模型取代这个预估函数不仅可以避免纯贪心搜索，还可以综合考虑全局信息带来的探索回报最大化。

本实施例中，在通过以上方式确定下一个目标边界点后，机器人能够从当前位置移动至确定出的目标边界点，主要是依靠机器人的自主导航模块予以实现。

本实施例中的机器人的导航涉及到局部导航和全局导航。其中，全局导航中本实施例中采用了改进的A*算法，传统的A*算法每次搜索路径时，需要利用广度优先搜索综合考虑起点与终点对当前搜索路径的影响并构造启发式函数。但是机器人在未知空间探索时，每次导航规划的起点动态变化，但终点不变。所以，反向搜索(从终点往起点搜索可达路径)策略更加合理，其次，考虑利用历史搜索信息，能够加快再次规划的速度。

关于局部导航算法，本实施例采用离线采样路径组算法作为局部导航规划算法，该模块将完成路径优化、避障、轨迹跟踪等任务。该算法根据车辆的动力学约束和预定的参数(采样距离、采样角度等)生成一系列备选的路径组。在使用时，只需根据雷达设备的点云数据阻塞相应的路径，然后选择最可能抵达终点的路径。

需要说明的是，本实施例中，全局和局部导航也可以采用其他的导航算法进行替代。

请参阅图9，本实施例中，在控制机器人行进至下一个目标边界点时，可以通过以下方式实现：

S1041，基于所述机器人当前位置和下一个目标边界点规划得到行进路径。

S1042，将所述行进路径切分为多个路标点。

S1043，控制所述机器人按所述多个路标点的顺序，依次行进至各个路标点，以行进至所述下一个目标边界点。

本实施例中，机器人在获得规划出的下一个目标边界点后，调用全局导航算法可以粗略规划出一条从其当前位置到目标边界点的行进路径，并把这条路径切分为n个路标点(w₁,w₂,w₃,…,x_n)。此时，再调用局部导航算法，局部导航的目标点是全局规划出的路标点。不断调用局部导航依次跟随各个路标点，最终可到达目标边界点。在该导航的过程中，还需要不断调整建图算法，不断更新地图信息。

本实施例中，全局边界点的检测与局部有所不同，需要更高效、更精密的检测算法。首先，全局地图范围更大，每次广度优先遍历会耗费大量算力。其次，由于传感器的误差不可预估，全局地图不一定精确，单纯广度优先搜索地图得到的点可能不符合预期，有一部分点不是边界却被归类为边界，有一部分不符合边界定义的点也被定义为边界。把不是边界的点当成边界，会导致全局边界冗余，机器人去往已经探索过的区域，浪费探索时间。而有一部分不符合边界定义的点，如太靠近障碍物或者本身该点不可达，也会导致机器人在一个地方踏步不前，影响整个探索进程。

为了解决上述问题，本实施例中，对边界检测算法进行了优化，加速了边界检测的速度。每次更新边界时只更新本次雷达设备更新的区域，未在更新区域的边界不进行更新，然后对所有边界进行聚类。

如图10和图11所示，假设本次雷达设备更新的区域为((x_min,x_max),(y_min,y_max))，广度优先搜索地图时只会检测更新区域的边界点，未更新区域的边界直接加入边界集F中。

本实施例中，针对实际探索过程中可能出现的不可达边界问题，提出了检测/过滤同步思想，利用多线程同时检测和过滤掉不合理的边界。

首先是针对由于机器人速度比更新地图快时，机器人周围很容易出现未被探索的假象，如图12所示。机器人的运动轨迹附近会出现一些较小的空心区域，但这些空心区域不是实质意义的边界，而是由建图算法的误差导致，需要把这些区域过滤掉。其次，由于2D地图有不可预估误差存在，本实施例采用了2D检测为主，3D点云辅助过滤的框架。

请参阅图13，具体地，本实施例中，可以通过以下方式实现边界点的过滤：

S201，基于所述3D点云数据确定全局边界点中被障碍物所覆盖的全局边界点。

S202，将确定出的被障碍物所覆盖的全局边界点进行过滤。

本实施例中，如图14所示，对于可能覆盖障碍物的边界，使用3D点云数据进行辅助过滤。可先将3D点云数据进行高度过滤，去除地面点云。然后根据边界的位置，如果附近有障碍物的点云，则将其过滤点。

本实施例中，在局部探索已经陷入困境时，也即局部地图不具有可供探索的局部边界点时，触发了全局救援模块。根据上述的局部探索，已检测出了所有合理存在的边界，而若还存在全局的未被探索的全局边界点，可以按照以下方式实现全局的探索，请结合参阅图15：

S1051，构造未被探索的所有全局边界点与机器人当前位置的距离矩阵。

S1052，根据所有全局边界点对应的距离矩阵，确定出探索各个全局边界点的顺序。

S1053，按顺序开始探索各个全局边界点，并在机器人探索至各个全局边界点时更新全局地图。

本实施例中，假设当前未被探索的全局边界点集为F(f₁,f₂,f₃,…,f_n)，首先，可构造所有全局边界点与机器人当前位置的距离矩阵d_i,j。然后按照单货郎算法得到访问各个全局边界点的顺序，按照该顺序从第一个全局边界点开始作为目标点，然后按照上述的行进控制的方式控制机器人行进至目标点，并不断更新全局地图。当然，本实施例中，除了采用单货郎算法外，还可以用其他的能保障覆盖所有边界点的算法进行替代。

本实施例所提供的探索方法，用于解决大规模室内环境中自主探索容易陷入局部最优、探索路线存在大量折返、多目标优化函数计算复杂度高等问题。本实施例基于强化学习的局部探索规划和全局救援能够规划出全局最优探索轨迹，计算量小，能够有效提升探索质量。

将本实施例所提供的探索方法从探索距离/时间、探索面积/时间等多个实验指标与传统算法在Gazebo仿真环境中进行对比验证，如图16、图17所示。其中HI-RL是本实施例提出的基于强化学习的分层探索框架，NBVT是基于视角采样的启发式搜索方法，Explore_lite是基于贪心边界探索的传统方法，从实验数值可以看出本实施例提出的方法探索效率、探索面积完整性比传统方法有较大改进。图18显示了机器人自主探索环境的3D地图和2D地图，也证明了自主探索方案的可行性、完备性，可以完整地自主探索未知环境。

本实施例提供的自主探索方案将传统方法的多目标优化函数融入强化学习的奖励函数之中，将机器学习和探索任务结合，有效地提升了未知环境中机器人自主探索的效率。

请参阅图19，为本申请实施例提供的智能设备的示例性组件示意图，该智能设备可以是上述的机器人。该智能设备可包括存储介质110、处理器120、基于强化学习的探索装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于智能设备之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

基于强化学习的探索装置130可以理解为上述智能设备，或智能设备的处理器120，也可以理解为独立于上述智能设备或处理器120之外的在智能设备控制下实现上述基于强化学习的探索方法的软件功能模块。

需要说明的是，智能设备除了包含上述部件外，还可包含其他部件，例如雷达设备等传感器。

如图20所示，上述基于强化学习的探索装置130可以包括第一构建模块131、第二构建模块132、优化模块133、控制模块134和探索模块135。下面分别对该基于强化学习的探索装置130的各个功能模块的功能进行详细阐述。

第一构建模块131，用于基于获得的雷达数据构建待探索空间的地图信息；

可以理解，该第一构建模块131可以用于执行上述步骤S101，关于该第一构建模块131的详细实现方式可以参照上述对步骤S101有关的内容。

第二构建模块132，用于根据所述地图信息，并以机器人当前位置为中心构建预设范围内的局部地图，并获得局部地图的局部边界点；

可以理解，该第二构建模块132可以用于执行上述步骤S102，关于该第二构建模块132的详细实现方式可以参照上述对步骤S102有关的内容。

优化模块133，用于将所述局部地图和局部边界点导入强化学习模型以对强化学习模型进行优化，并基于优化得到的强化学习模型输出下一个目标边界点；

可以理解，该优化模块133可以用于执行上述步骤S103，关于该优化模块133的详细实现方式可以参照上述对步骤S103有关的内容。

控制模块134，用于控制所述机器人行进至所述下一个目标边界点，并更新地图信息和局部地图，直至所述局部地图不具有可供探索的局部边界点时，确定出未被探索的全局边界点；

可以理解，该控制模块134可以用于执行上述步骤S104，关于该控制模块134的详细实现方式可以参照上述对步骤S104有关的内容。

探索模块135，用于控制所述机器人对未被探索的全局边界点进行探索，直至遍历所有全局边界点时完成探索。

可以理解，该探索模块135可以用于执行上述步骤S105，关于该探索模块135的详细实现方式可以参照上述对步骤S105有关的内容。

在一种可能的实施方式中，所述地图信息包括2D栅格图，所述2D栅格图包含多个栅格点，上述第二构建模块132可以用于：

针对局部地图中的各个栅格点，获得所述栅格点的多个邻域点；针对各所述邻域点，若所述邻域点处于已知区域且该邻域点具有处于未知区域的邻域点，则将该邻域点标记为边界点，其中，所述已知区域为当前所有局部地图共同所占据的区域，所述未知区域为当前所有局部地图之外的区域。

在一种可能的实施方式中，所述强化学习模型为双层网络架构，包括网络一和网络二，上述优化模块133可以用于：

基于局部地图、局部边界点以及机器人的当前位姿信息得到当前观测状态；根据所述当前观测状态以及强化学习模型拟合得到多个执行动作，得到在各个执行动作下所述机器人的下一个目标边界点，并获得在各个下一个目标边界点时的新的观测状态；获得所述网络一得到的基于当前观测状态下的目标执行动作的当前得分，所述目标执行动作为对应得分最大的执行动作；获得所述网络二得到的在所述目标执行动作下得到的新的观测状态下的执行动作的下一得分；基于所述当前得分和下一得分构建损失函数，并基于所述损失函数对所述强化学习模型进行优化。

在一种可能的实施方式中，所述损失函数中还包括奖励函数，所述奖励函数包括信息增益，所述优化模块133可以通过以下方式获得信息增益：

基于当前所有局部地图中各个栅格点被占据的概率信息，计算得到当前所有局部地图的地图熵；计算相邻时刻当前所有局部地图的地图熵的差异信息，作为所述信息增益。

根据当前所有局部地图中处于自由空间栅格点的数量，以及处于占据状态的栅格点的数量，计算得到当前所有局部地图构成的已知区域的面积；计算相邻时刻已知区域的面积之间的差异信息，作为所述信息增益。

在一种可能的实施方式中，上述控制模块134可以用于：

基于所述机器人当前位置和下一个目标边界点规划得到行进路径；将所述行进路径切分为多个路标点；控制所述机器人按所述多个路标点的顺序，依次行进至各个路标点，以行进至所述下一个目标边界点。

在一种可能的实施方式中，所述地图信息还包括3D点云数据，所述基于强化学习的探索装置130还可包括过滤模块，该过滤模块可以用于：

基于所述3D点云数据确定全局边界点中被障碍物所覆盖的全局边界点；将确定出的被障碍物所覆盖的全局边界点进行过滤。

在一种可能的实施方式中，上述探索模块135可以用于：

构造未被探索的所有全局边界点与机器人当前位置的距离矩阵；根据所有全局边界点对应的距离矩阵，确定出探索各个全局边界点的顺序；按顺序开始探索各个全局边界点，并在机器人探索至各个全局边界点时更新全局地图。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的基于强化学习的探索方法。

具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上的计算机程序被运行时，能够执行上述基于强化学习的探索方法。关于计算机可读存储介质中的及其可执行指令被运行时，所涉及的过程，可以参照上述方法实施例中的相关说明，这里不再详述。

综上所述，本申请实施例提供的基于强化学习的探索方法、装置和智能设备，在基于获得的雷达数据构建待探索空间的地图信息后，根据地图信息并以机器人当前位置为中心构建预设范围内的局部地图，并获得局部地图的局部边界点。基于优化的强化学习模型得到下一个目标边界点，控制机器人行进至下一个目标边界点，并更新地图信息和局部地图，直至局部地图不具有可供探索的局部边界点时，确定出未被探索的全局边界点。控制机器人对未被探索的全局边界点进行探索，直至遍历所有全局边界点时完成探索。本方案中，将探索任务分为局部和全局两个部分，局部部分使用强化学习规划目标点，计算量小、决策精准且易于收敛，而全局部分维持一个未访问区域的地图，在局部嵌入收敛时，启用全局规划，避免探索不完整的问题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于强化学习的探索方法，其特征在于，所述方法包括：

基于获得的雷达数据构建待探索空间的地图信息；

控制所述机器人行进至所述下一个目标边界点，并更新地图信息和局部地图，直至所述局部地图不具有可供探索的局部边界点时，确定出未被探索的全局边界点；

控制所述机器人对未被探索的各个全局边界点进行探索，直至遍历所有全局边界点时完成探索。

2.根据权利要求1所述的基于强化学习的探索方法，其特征在于，所述地图信息包括2D栅格图，所述2D栅格图包含多个栅格点；

所述获得局部地图的局部边界点的步骤，包括：

3.根据权利要求1所述的基于强化学习的探索方法，其特征在于，所述强化学习模型为双层网络架构，包括网络一和网络二；

4.根据权利要求3所述的基于强化学习的探索方法，其特征在于，所述损失函数中还包括奖励函数，所述奖励函数包括信息增益，所述信息增益通过以下方式获得：

5.根据权利要求3所述的基于强化学习的探索方法，其特征在于，所述损失函数中还包括奖励函数，所述奖励函数包括信息增益，所述信息增益通过以下方式获得：

6.根据权利要求1所述的基于强化学习的探索方法，其特征在于，所述控制所述机器人行进至所述下一个目标边界点的步骤，包括：

将所述行进路径切分为多个路标点；

7.根据权利要求1所述的基于强化学习的探索方法，其特征在于，所述地图信息还包括3D点云数据，所述确定出未被探索的全局边界点的步骤之后，所述方法还包括：

将确定出的被障碍物所覆盖的全局边界点进行过滤。

8.根据权利要求1所述的基于强化学习的探索方法，其特征在于，所述控制机器人对未被探索的各个全局边界点进行探索的步骤，包括：

9.一种基于强化学习的探索装置，其特征在于，所述装置包括：

探索模块，用于控制所述机器人对未被探索的全局边界点进行探索，直至遍历所有全局边界点时完成探索。

10.一种智能设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当智能设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-8中任意一项所述的方法步骤。