CN115790600A

CN115790600A - 一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法

Info

Publication number: CN115790600A
Application number: CN202211511543.0A
Authority: CN
Inventors: 何斌; 耿书城; 陆萍; 王志鹏; 周艳敏
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-14

Abstract

本发明公开了一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，包括：S1、通过数字孪生技术构建与真实场景一一对应的虚拟场景；S2、在虚拟场景中通过机器人的传感器获取周围环境信息，建立局部地图；S3、定期根据局部地图选取一个未探索区域全局目标点，在全局目标点路径上选取局部目标点；S4、利用深度强化学习算法来完成机器人从当前位置到达选定的局部目标点的导航任务；S5、重复步骤S3，直到所有的区域都已经被覆盖，此时机器人在虚拟场景中完成巡检覆盖任务。根据本发明可以在不需要先验地图的情况下，完成对某区域的高效探索；同时，基于深度强化学习算法的局部导航可以规避动态行人和车辆，基于数字孪生的虚实融合的工作模式使得探索更加高效。

Description

一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法

技术领域

本发明涉及数字孪生和巡检机器人的技术领域，特别涉及一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法。

背景技术

数字孪生是充分利用物理模型、传感器更新、运行历史等数据，集成多学科、多物理量、多尺度、多概率的仿真过程，在虚拟空间中完成映射，从而反映相对应的实体装备的全生命周期过程。利用数字孪生技术可以实现对物理空间的建模、仿真和监控功能。数字孪生是个普遍适应的理论技术体系，可以在众多领域应用，在产品设计、产品制造、医学分析、工程建设等领域应用较多。在国内应用最深入的是工程建设领域，关注度最高、研究最热的是智能制造领域。例如对于一座城市进行仿真建模，可以从全局观测到城市的各种信息，还可以根据构建的模型对城市进行仿真，例如增加外界干扰因素来观测城市的反应情况，从而找到此城市存在的问题，进行提前预防。

无人车的自主导航是其一项基本能力。它可以被粗略地描述为在不与障碍物发生碰撞的情况下，从当前位置规划并遵循路径或输出实时策略到所需目标的能力。传统的方法在某种程度上是零散的；导航部分更关注运动规划，它在工作空间中寻求无碰撞的路径。运动规划方法依赖于精确的环境几何模型和完美的定位，限制了这些方法的使用。无地图环境下的无人车导航是移动机器人的基本问题和挑战之一。

由于强化学习需要大量的探索，通常需要在模拟器中训练agent，然后再迁移到真实环境中。而数字孪生建立的虚拟空间在视觉和物理的保真度上都十分接近真实场景，因此是使用深度强化学习训练agent的合适场所，因此本发明拟将数字孪生和深度强化学习相结合，训练出可以让无人车实现自主导航的算法。

发明内容

针对现有技术中存在的不足之处，本发明的目的是提供一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，可以让无人车实现自主导航的算法，同时无人车装配传感器得到的信息反过来用于更新虚拟场景，并且通过虚拟场景就可以在线实时监测真实场景中无人车的位置、速度、状态的信息。为了实现根据本发明的上述目的和其他优点，提供了一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，包括：

S1、通过数字孪生技术构建与真实场景一一对应的虚拟场景；

S2、在虚拟场景中通过机器人的传感器获取周围环境信息，建立局部地图；

S3、定期根据局部地图选取一个未探索区域全局目标点，在全局目标点路径上选取局部目标点；

S4、利用深度强化学习算法来完成机器人从当前位置到达选定的局部目标点的导航任务；

S5、重复步骤S3，直到所有的区域都已经被覆盖，此时机器人在虚拟场景中完成巡检覆盖任务；

S6、将步骤S5得到的算法应用到真实场景的机器人上，然后在虚拟场景和真实场景中完成数据的同步，可让机器人完成某个区域的巡检覆盖任务，同时也可在虚拟场景中指定巡检的目标点，指引机器人直接前往。

优选的，机器人的传感器为相机或激光雷达，通过相机或激光雷达信息获取周围环境信息，然后利用Neural SLAM或者Gmmaping的方法来建立局部地图。

优选的，步骤S4中利用深度强化学习来完成机器人导航到长期目标点的任务，任务的输入包含当前的局部地图、传感器的观测、机器人当前的状态、位姿信息以及目标点的位置信息。

优选的，长期目标点的选取为在未探索过的区域，其次可以每隔一定的时间进行选取，选取的距离不能距离机器人超过10m。

优选的，强化学习算法的奖励函数包括碰撞奖励、到达奖励、距离奖励和松弛奖励，根据具体的场景进行调整。

优选的，大范围内的探索基于SLAM和分层强化学习的导航方法的结合，探索过程中根据传感器信息建立局部地图，根据地图来区分探索过的区域、未探索的区域、有障碍的区域及可通行区域，根据获取的局部地图，每过一段时间选取一个在未探索区域的长期目标点，将整个探索任务划分为一个个目标点的任务，利用强化学习的局部避障和导航策略到达设定的长期目标点。

本发明与现有技术相比，其有益效果是：

(1)本发明将数字孪生和深度强化学习相结合，训练出可以让无人车实现自主导航的算法，同时无人车装配传感器得到的信息反过来用于更新虚拟场景，并且通过虚拟场景就可以在线实时监测真实场景中无人车的位置、速度、状态的信息。

(2)通过在虚拟场景中构建出要巡检的区域，然后让机器人首先在虚拟场景中做训练，训练完成后可以将算法应用到真实机器人场景中。然后再虚拟和现实中进行机器人的运动映射，当机器人巡检时，可以将观测的信息传输到虚拟场景，工作人员可以根据虚拟场景中的机器人观测机器人当前的状态，已经哪些区域有异常发生，从而在巡检任务中快读定位到异常区域。

(3)利用数字孪生构建的虚拟场景，将SLAM和基于分层强化学习的导航算法相结合，完成机器人在某个区域内高效地巡检覆盖策略，在确保巡检区域完全覆盖的情况下节约机器人的巡检时间和能量消耗。

(4)可以在不需要先验地图的情况下，完成对某区域的高效探索；同时，基于深度强化学习算法的局部导航可以规避动态行人和车辆，基于数字孪生的虚实融合的工作模式使得探索更加高效。

附图说明

图1为根据本发明的基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，包括：S1、通过数字孪生技术构建与真实场景一一对应的虚拟场景，基于数字孪生构造的虚拟场景要和真实场景保持视觉和物理的高度一致性，并且能够仿真和更新真实场景中的动态信息，例如行人和车辆的运动，这样在训练过程中机器人可以规避动态障碍物，该算法可以应用在机器人和行人共存的环境中；

S4、利用深度强化学习算法来完成机器人从当前位置到达选定的局部目标点的导航任务，过程中需要规避静态障碍物和行人、车辆等动态障碍物。此过程需要依靠基于AC的深度强化学习算法，将图像、位置、目标点位置和机器人的速度等信息作为输入，奖励函数包含碰撞奖励、到达奖励、松弛奖励和速度突变奖励等，输出为机器人的线速度和角速度的值，来控制机器人的运动；

进一步的，机器人的传感器为相机或激光雷达，通过相机或激光雷达信息获取周围环境信息，然后利用Neural SLAM或者Gmmaping的方法来建立局部地图。

进一步的，步骤S4中利用深度强化学习来完成机器人导航到长期目标点的任务，任务的输入包含当前的局部地图、传感器的观测、机器人当前的状态、位姿信息以及目标点的位置信息，长期目标点的选取为在未探索过的区域，其次可以每隔一定的时间进行选取，选取的距离不能距离机器人超过10m。

进一步的，强化学习算法的奖励函数包括碰撞奖励、到达奖励、距离奖励和松弛奖励，根据具体的场景进行调整，例如如果关注社交导航，要对行人的私人距离进行约束；还有是否符合靠右行驶、礼让行人的特点进行奖励约束。

进一步的，大范围内的探索基于SLAM和分层强化学习的导航方法的结合，探索过程中根据传感器信息建立局部地图，根据地图来区分探索过的区域、未探索的区域、有障碍的区域及可通行区域，根据获取的局部地图，每过一段时间选取一个在未探索区域的长期目标点，将整个探索任务划分为一个个目标点的任务，利用强化学习的局部避障和导航策略到达设定的长期目标点，SLAM算法可以使用各种SLAM算法，它是和整体模块解耦的，可以根据环境情况使用ORB SLAM2、Neural-SLAM和Gmapping。此外，获取的局部地图要输入到基于强化学习的局部导航算法的网络中。

大范围区域指的是面积相对较大的待巡检区域，在没有先验地图的情况下即可在较小的误差内完成高效探索。传统的方法可以在拥有先验地图和辅助定位的情况下完成固定路线的巡检任务，这些巡检路线需要认为指定，一旦区域变化又要重新规划路线；而基于学习的方法可以不基于先验地图，但是只能在小范围内完成导航或者探索任务，一旦探索区域变大或者路径边长，其累计误差变大，导致无法工作。

这里说明的设备数量和处理规模是用来简化本发明的说明的，对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，其特征在于，机器人的传感器为相机或激光雷达，通过相机或激光雷达信息获取周围环境信息，然后利用Neural SLAM或者Gmmaping的方法来建立局部地图。

3.如权利要求1所述的一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，其特征在于，步骤S4中利用深度强化学习来完成机器人导航到长期目标点的任务，任务的输入包含当前的局部地图、传感器的观测、机器人当前的状态、位姿信息以及目标点的位置信息。

4.如权利要求3所述的一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，其特征在于，长期目标点的选取为在未探索过的区域，其次可以每隔一定的时间进行选取，选取的距离不能距离机器人超过10m。

5.如权利要求3所述的一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，其特征在于，强化学习算法的奖励函数包括碰撞奖励、到达奖励、距离奖励和松弛奖励，根据具体的场景进行调整。

6.如权利要求1所述的一种基于数字孪生的机器人大范围长期巡检任务覆盖策略的算法，其特征在于，大范围内的探索基于SLAM和分层强化学习的导航方法的结合，探索过程中根据传感器信息建立局部地图，根据地图来区分探索过的区域、未探索的区域、有障碍的区域及可通行区域，根据获取的局部地图，每过一段时间选取一个在未探索区域的长期目标点，将整个探索任务划分为一个个目标点的任务，利用强化学习的局部避障和导航策略到达设定的长期目标点。