CN116382304B

CN116382304B - 基于dqn模型的多巡检机器人协同路径规划方法及系统

Info

Publication number: CN116382304B
Application number: CN202310604238.4A
Authority: CN
Inventors: 陈昊; 方国权; 钱其隆; 戚满顺; 蔡彪; 张海华; 韩祥政; 张锐
Original assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-09-15
Anticipated expiration: 2043-05-26
Also published as: CN116382304A

Abstract

基于DQN模型的多巡检机器人协同路径规划方法及系统，获取所有巡检机器人位置坐标及各任务点抵达状态构建多巡检机器人协同的状态空间；获取所有巡检机器人选择的移动方向构建多巡检机器人协同的动作空间；以巡检机器人与障碍物之间触发防碰撞机制、巡检机器人之间触发防碰撞机制为约束条件对状态进行分类，并定义各类状态对应的奖励值；根据状态、动作以及奖励值，DQN模型计算在设定状态下执行设定动作后获得的回报值的期望，并通过深度神经网络参数训练对期望进行优化，以最大期望对应的状态和动作构成多巡检机器人协同路径。本发明不仅能避开障碍物而且多巡检机器人间不触发防碰撞机制，从而减少能耗损失，提升多机器人协同巡检效率。

Description

基于DQN模型的多巡检机器人协同路径规划方法及系统

技术领域

本发明属于变电站巡检技术领域，具体地，涉及基于DQN模型的多巡检机器人协同路径规划方法及系统。

背景技术

巡检工作是保障变电站安全运行的基础。传统的人工巡检劳动强度大、工作效率低、巡检质量难以保障；雷雨、台风等极端天气条件下，存在安全风险。

巡检机器人借助现代信息通信技术、人工智能技术以及高性能计算技术，实现对站内一、二次设备的状态巡视、红外测温、局放检测、数据传输等功能。当前，巡检机器人在变电站巡检实际工作中得到广泛应用。

变电站室外场地巡视时，通过协同多巡检机器人完成巡检任务可以进一步地提升站内巡检资源的利用率、缩短巡检时间、提高巡检效率。但是，现有技术在实现多巡检机器人协同依然存在一些制约因素，最主要的是不同厂家巡检机器人的移动路径一般基于厂家预先设置的模板，其路径较为固定，若直接应用于多机器人协同巡检场景则或将出现任务重复、路径重复、耗时较长等问题。

现有技术关于变电站内巡检机器人巡视路径规划的方法中，基于蚁群优化算法与人工势场算法结合的优化方法，实现了单个巡检机器人的最优路径查找。基于改进蚁群-模拟退火算法的优化方法，改善了路径规划在复杂工作环境下收敛速度慢、易陷入局部最优的问题。但是均以单一巡检机器人作为主体，而没有考虑通过协同多巡检机器人完成巡检任务的应用场景，对于变电站内智能巡检机器人的巡检效率提升效果有限。基于激光及视觉导航技术触发的防碰撞机制，巡检机器人在实际应用环境中虽然可以通过激光及视觉导航技术触发其防碰撞机制从而避免与障碍物发生碰撞，但将导致额外的能量与时间损耗，并且这种仅考虑巡检机器人能够在路径上避开障碍物区域这一约束，对于变电站内智能巡检机器人的巡检效率提升效果有限。

发明内容

为解决现有技术中存在的不足，本发明提供一种基于DQN模型的多巡检机器人协同路径规划方法及系统，对巡检机器人协同巡检进行路径规划，不仅能够在路径上避开障碍物区域，提升变电站多机器人协同巡检的效率，而且多巡检机器人之间还能够不触发防碰撞机制，从而减少能耗损失。

本发明采用如下的技术方案。

一种基于DQN模型的多巡检机器人协同路径规划方法，其中各巡检机器人已明确了各自对应的任务点及遍历顺序，包括：

步骤1，获取所有巡检机器人的位置坐标及各任务点的抵达状态，构建多巡检机器人协同的状态空间；

步骤2，获取所有巡检机器人选择的移动方向，构建多巡检机器人协同的动作空间；

步骤3，以巡检机器人与障碍物之间触发防碰撞机制、巡检机器人之间触发防碰撞机制为约束条件对状态进行分类，并定义各类状态对应的奖励值；

步骤4，根据多巡检机器人协同的状态、动作以及各类状态对应的奖励值，DQN模型计算在设定状态下执行设定动作后获得的回报值的期望；

步骤5，DQN模型通过深度神经网络的参数训练对回报值的期望进行优化，以最大期望对应的状态和动作构成多巡检机器人协同路径。

状态空间如下：

（1）

式中，

表征第/>个任务点的抵达状态，当/>时表示第/>个任务点尚未被对应的巡检机器人抵达，/>时则表示第/>个任务点已被对应的巡检机器人抵达；

表征第/>个巡检机器人的位置坐标；

，/>为巡检机器人的总数；

，/>为任务点的总数。

巡检机器人的位置坐标如下所示：

（2）

式中，

与/>分别表示第/>个巡检机器人在栅格状地图中的横坐标与纵坐标；

与/>分别表示基于变电站内电力设备平面布置所生成的栅格状地图的总长度与总宽度。

动作空间为：

（3）

式中，

表示第/>个巡检机器人选择的移动方向或停留在原位置，移动方向包括：北N、东北NE、东E、南北SE、南S、西南SW、西W以及西北NW，每个巡检机器人在选择的移动方向上移动一个单位。

状态包括游离状态，半成功状态，失败状态，成功状态；具体如下：

1）、游离状态（Free State，FS）：所有巡检机器人均未触发各自的防碰撞机制，同时所有巡检机器人也均未抵达各自对应需要抵达的第一个任务点；

2）、半成功状态（Semi-success State，SS）：部分任务点已被其对应巡检机器人抵达，但环境中仍存在尚未被其对应巡检机器人抵达的任务点或仍存在部分巡检机器人尚未回到充电室；

3）、失败状态（Defeated State，DS）：巡检机器人与障碍物之间触发防碰撞机制或巡检机器人之间触发防碰撞机制；

4）、成功状态（Completed State，CS）：所有的任务点均已被其对应巡检机器人抵达且所有巡检机器人均已回到充电室。

以四类状态对应的奖励值构建奖惩函数，如下：

（4）

式中，为第/>个巡检机器人已抵达的任务点数量，/>为状态。

回报值的期望如下：

（5）

式中，

表示时刻/>下的回报函数，

表示时刻/>下的状态空间，

表示时刻/>下的动作空间，

表示期望函数。

回报函数是在设定状态下执行设定动作后，后续状态的奖励值的总和，满足如下关系式：

（6）

式中，

表示时刻/>下的回报函数，

表示时刻/>下的奖励值，反映了在设定状态下执行设定动作后进入后续状态所得的奖励值，

表示时刻/>下第/>个任务点对应的奖励值，反映了在设定状态下执行设定动作后进入后续状态所得的奖励值，

表示第/>个任务点对应的折扣因子，/>，

为折扣因子，/>。

DQN模型构建结构一致的估计网络和目标网络，并对对应的网络参数和/>进行参数优化。

估计网络和目标网络的输入均为状态—动作对，其中，估计网络的输出为，用于估计当前时刻的状态—动作对/>对应的Q值；目标网络输出为，用于在参数训练过程中保存最优Q值，其中，最优Q值是目标网络中最大的Q值。

估计网络以目标网络保存的最优Q值为学习目标对参数进行更新，并利用更新后的参数/>参与估计网络损失函数的计算，估计网络损失函数如下：

（7）

式中，

为估计网络损失函数，

为优化目标，

以优化目标的最大值对应的Q值作为最优Q值。

本发明还提出一种多巡检机器人协同路径规划系统，其中各巡检机器人已明确了各自对应的任务点及遍历顺序，包括：

状态模块，动作模块，状态动作对评价模块，协同规划模块；

状态模块，用于获取所有巡检机器人的位置坐标及各任务点的抵达状态，构建多巡检机器人协同的状态空间；

动作模块，用于获取所有巡检机器人选择的移动方向，构建多巡检机器人协同的动作空间；

状态动作对评价模块，用于以巡检机器人与障碍物之间触发防碰撞机制、巡检机器人之间触发防碰撞机制为约束条件对状态进行分类，并定义各类状态对应的奖励值；根据多巡检机器人协同的状态、动作以及各类状态对应的奖励值，DQN模型计算在设定状态下执行设定动作后获得的回报值的期望；

协同规划模块，用于DQN模型通过深度神经网络的参数训练对回报值的期望进行优化，以最大期望对应的状态和动作构成多巡检机器人协同路径。

一种终端，包括处理器及存储介质；所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行所述方法的步骤。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述方法的步骤。

本发明的有益效果在于，与现有技术相比，本发明面向多个巡检机器人协同的场景，实现了多机器人面向多巡检目标的路径规划，提升多巡检机器人协同巡检的效率。

本发明不仅考虑了巡检机器人能够在路径上避开障碍物区域这一约束，在这一约束的基础上还考虑了多巡检机器人间不触发防碰撞机制这一额外的约束条件，显著降低机器人的能耗，更加有利于多巡检机器人协同巡检。

本发明采用DQN（Deep Q-Network）模型实现大尺度、复杂地图下的多巡检机器人协同路径的规划。

附图说明

图1是本发明提出的基于DQN模型的多巡检机器人协同路径规划方法的流程图；

图2是本发明实施例中某500kV变电站设备平面布置图；

图3是本发明实施例中变电站设备区域划分及任务点分布示意图；

图4是本发明实施例中栅格化地图；

图5是本发明实施例中模型奖励值变化曲线图；

图6是本发明实施例中多巡检机器人协同路径图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本发明一部分的实施例，而不是全部实施例。基于本发明精神，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明的保护范围。

本发明在多巡检机器人已明确了各自对应的任务点及遍历顺序的基础上，采用深度学习网络（Deep Q-learning Network，DQN）模型对多巡检机器人协同路径进行规划，提出了一种基于DQN模型的多巡检机器人协同路径规划方法，如图1所示，包括：

步骤1，获取所有巡检机器人的位置坐标及各任务点的抵达状态，构建多巡检机器人协同的状态空间。

具体地，定义协同的状态空间，表征当前个巡检机器人的位置坐标以及/>个任务点被对应的巡检机器人抵达的状态。状态空间/>如下：

（1）

式中，

表征第/>个巡检机器人的位置坐标，如下所示：

（2）

式中，

，/>为巡检机器人的总数；/>，/>为任务点的总数。

步骤2，获取所有巡检机器人选择的移动方向，构建多巡检机器人协同的动作空间。

具体地，定义协同的动作空间，表征巡检机器人选择的移动方向，动作空间为：

（3）

式中，

步骤3，以巡检机器人与障碍物之间触发防碰撞机制、巡检机器人之间触发防碰撞机制为约束条件，对状态进行分类，并定义各类状态对应的奖励值。

具体地，基于实际情况，状态包括游离状态，半成功状态，失败状态，成功状态；具体如下：

1）游离状态（Free State，FS）：所有巡检机器人均未触发各自的防碰撞机制，同时所有巡检机器人也均未抵达各自对应需要抵达的第一个任务点；

2）半成功状态（Semi-success State，SS）：部分任务点已被其对应巡检机器人抵达，但环境中仍存在尚未被其对应巡检机器人抵达的任务点或仍存在部分巡检机器人尚未回到充电室；

3）失败状态（Defeated State，DS）：巡检机器人与障碍物之间触发防碰撞机制或巡检机器人之间触发防碰撞机制；

4）成功状态（Completed State，CS）：所有的任务点均已被其对应巡检机器人抵达且所有巡检机器人均已回到充电室。

以四类状态空间对应的奖励值构建奖惩函数，如下：

（4）

式中，为第/>个巡检机器人已抵达的任务点数量。

本发明在状态空间的定义阶段对于状态空间进行了改进，将不同巡检机器人之间防碰撞机制的触发（即多个巡检机器人在同一时刻在栅格状地图上的坐标重合）与巡检机器人与静态障碍物发生碰撞一并定义为失败状态，并在定义奖惩函数时，对失败状态进行了扣除奖励值的惩罚。由于后续的DQN模型在训练过程中不断寻求奖励值的增长，因此，DQN模型通过不断试错能够避免进入失败状态，可见，本发明不仅考虑了巡检机器人能够在路径上避开障碍物区域这一约束，在这一约束的基础上还考虑了多巡检机器人间不触发防碰撞机制这一额外的约束条件，显著降低机器人的能耗，更加有利于多巡检机器人协同巡检。

步骤4，根据多巡检机器人协同的状态空间、动作空间以及各类状态空间对应的奖励值，DQN模型计算在设定状态下执行设定动作后获得的回报值的期望。

具体地，回报值的期望如下：

（5）

式中，

表示时刻/>下的回报函数，

表示时刻/>下的状态空间，

表示时刻/>下的动作空间，

表示期望函数。

由于巡检机器人的不同状态与时间相关，因此可以使用时刻来表征不同的状态。

从式（5）来看，使用奖惩函数计算在设定状态下执行设定动作所产生的回报值，利用回报值来对状态－动作对的好坏进行评价。

回报函数是在设定状态下执行设定动作后，后续状态的奖励值的总和满足如下关系式：

（6）

式中，

表示第/>个任务点对应的折扣因子，/>。

对式（6）推导如下：

从上式可以看出，时刻下的回报函数/>是关于奖励值的迭代函数，时刻/>每加1，则对应的奖励值需乘以一个折扣因子，可见后续状态与当前状态之间间隔越大，则后续状态对应的奖励值对当前状态回报函数的影响越小。

由于多巡检机器人协同工作时，在设定状态下执行设定动作后获得的回报值的期望不唯一，因此构成值表。

步骤5，DQN模型通过深度神经网络的参数训练对回报值的期望进行优化，以最大期望对应的状态和动作作为多巡检机器人协同路径。

具体地，DQN模型构建结构一致的估计网络和目标网络，并对对应的网络参数和进行参数优化。

估计网络和目标网络的输入均为状态—动作对，其中，估计网络的输出为，用于估计当前时刻的状态—动作对/>对应的Q值；目标网络输出为，用于在参数训练过程中保存最优Q值，其中，最优Q值是目标网络中最大的Q值；估计网络以目标网络保存的最优Q值为学习目标对参数/>进行更新，并利用更新后的参数/>参与估计网络损失函数的计算，估计网络损失函数如下：

（7）

式中，

为估计网络损失函数，从式（7）可以看出估计网络损失函数是估计网络参数/>的连续函数，

为优化目标，其计算公式为：

（8）

式中，为在设定状态下执行设定动作后进入后续状态所得的奖励值，/>为折扣因子，/>，/>为后续状态。

以优化目标的最大值对应的Q值作为最优Q值。

进一步，DQN模型引入经验存储机制，当多巡检机器人与环境交互后，会将交互后表征状态、动作和奖励值的转移样本存储到经验池中，当经验池存储满后则从中随机抽取一部分样本用以计算损失函数，并采用随机梯度下降算法更新网络参数，以此打破数据之间的关联性。

下面基于某500kV变电站的实际情况对本发明作进一步说明。

该变电站的设备平面布置如图2所示；首先将巡检区域以不同电压等级设备区进行划分，并对巡检任务点进行标定如图3中黑色圆点所示；接着以10米为一个单位进行栅格化区域划分并对任务点进行编号，共计56个任务点，其地理坐标可由栅格化地图横向、纵向的格点序号表示，如图4所示，五边形表示充电室，黑色方块表示任务点，每个任务点都有编号，白色方块表示可移动区域，灰色长方形表示不可移动区域。

给定3个巡检机器人的任务点划分以及每个巡检机器人的巡检顺序如表1所示。

表1 多巡检机器人的协同巡检方案

对于多巡检机器人的协同避障路径规划构建DQN模型并进行模型训练，相关参数设置如表2所示：

表2 DQN模型及训练参数设置

训练过程中奖励值变化过程如图5所示，由图5可知，模型开始训练时由于经验池没有记录，所以在开始阶段不断探索，奖励值较低且处于振荡状态；当200次训练结束后，开始通过随机取出经验池中的记录进行网络参数优化，此后奖励值缓慢上升；在约第500至700次迭代时模型一度陷入局部最优；当迭代次数接近于1700 时模型收敛，奖励值趋于稳定，这表示多巡检机器人完成路径规划所消耗的无用动作逐渐减小。

最终获得协同巡检路径如图6所示。由图6可知，三台巡检机器人相互协同，各独立的巡检路径依次遍历所分配的巡检任务点，且巡检机器人与障碍物间、巡检机器人间均不触发防碰撞机制。三台巡检机器人各自的巡检路线详见表1。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其它自由传播的电磁波、通过波导或其它传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于DQN模型的多巡检机器人协同路径规划方法，其中各巡检机器人已明确了各自对应的任务点及遍历顺序，其特征在于，包括：

2.根据权利要求1所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

状态空间如下：

（1）

式中，

表征第/>个巡检机器人的位置坐标；

，/>为巡检机器人的总数；

，/>为任务点的总数。

3.根据权利要求2所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

巡检机器人的位置坐标如下所示：

（2）

式中，

4.根据权利要求1所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

动作空间为：

（3）

式中，

5.根据权利要求1所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

1）、游离状态：所有巡检机器人均未触发各自的防碰撞机制，同时所有巡检机器人也均未抵达各自对应需要抵达的第一个任务点；

2）、半成功状态：部分任务点已被其对应巡检机器人抵达，但环境中仍存在尚未被其对应巡检机器人抵达的任务点或仍存在部分巡检机器人尚未回到充电室；

3）、失败状态：巡检机器人与障碍物之间触发防碰撞机制或巡检机器人之间触发防碰撞机制；

4）、成功状态：所有的任务点均已被其对应巡检机器人抵达且所有巡检机器人均已回到充电室。

6.根据权利要求5所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

以四类状态对应的奖励值构建奖惩函数，如下：

（4）

式中，为第/>个巡检机器人已抵达的任务点数量，/>为状态，FS表示游离状态，SS表示半成功状态，DS表示失败状态，CS表示成功状态。

7.根据权利要求1所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

回报值的期望如下：

（5）

式中，

表示时刻/>下的回报函数，

表示时刻/>下的状态空间，

表示时刻/>下的动作空间，

表示期望函数。

8.根据权利要求7所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

（6）

式中，

表示时刻/>下的回报函数，

表示第/>个任务点对应的折扣因子，/>，

为折扣因子，/>。

9.根据权利要求1所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

10.根据权利要求9所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

11.根据权利要求10所述的基于DQN模型的多巡检机器人协同路径规划方法，其特征在于，

（7）

式中，

为估计网络损失函数，

为优化目标，

表示期望函数，

以优化目标的最大值对应的Q值作为最优Q值。

12.一种多巡检机器人协同路径规划系统，用于实现权利要求1至11中任一项所述方法，其中各巡检机器人已明确了各自对应的任务点及遍历顺序，其特征在于，包括：

13.一种终端，包括处理器及存储介质；其特征在于：

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-11任一项所述方法的步骤。

14.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-11任一项所述方法的步骤。