CN112558601A

CN112558601A - 一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统

Info

Publication number: CN112558601A
Application number: CN202011243108.5A
Authority: CN
Inventors: 方健; 胡帆; 钟连宏; 李志强; 尹旷; 莫文雄; 王红斌; 覃煜; 林李波; 陈曦; 喇元
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-03-26
Anticipated expiration: 2040-11-09
Also published as: CN112558601B

Abstract

一种基于Q‑learning算法和水滴算法的机器人实时调度方法及系统，采集所有需要检测的变电站信息和计划派出的机器人信息；设置机器人调度规划的目标函数和约束条件，并据此构建机器人实时调度规划模型，利用Q‑learning算法生成初始计算矩阵，使用水滴算法对初始解进行二次规划调整；调度中心根据机器人当前状态故障存在与否来判断是否对机器人路线进行重新调整；对变更后的计算条件进行计算以规划新的路线，如所有机器人均正常工作，则机器人完成所有检测后返回调度中心。本发明通过机器人自身实时状态的变化与变电站检测的实时需求不断动态调整机器人出行路线，提高程序应变能力与检测效率，降低开关柜漏检、错检的概率，符合实际需求。

Description

一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统

技术领域

本发明属于电力检测技术领域，涉及一种基于Q-learning算法和水滴算法的机器人实时调度方法及系统。

背景技术

随着社会的发展，人们需要建造更多与电能相关的配套设施，开关柜作为在电力系统中一种极为重要的用电设备，因其人工检测效率低下，故需使用机器人对其进行检测维修。但开关柜数量众多且集中在变电站中进行管理，因此分布位置错落分散，仅凭人工调度机器人对开关柜进行检测容易出现机器人派出效率低下、开关柜漏检等问题，严重影响着电网安全稳定运行。

现有算法中应用了诸如蚁群算法，模拟退火算法和遗传算法等等对机器人进行规划。但这些方法普遍存在如下的一种或几种缺陷：1.需要花费大量的时间以及计算成本优化路径；2.规划时容易陷入局部最优；3.收敛性能差，无法真正寻找到最优路线；4.规划好路径并派出机器人执行检测任务后无法根据实时情况对路径进行调整，当碰到意外情况的发生，如某变电站中的开关柜突发紧急故障需要维修，或是机器人自身发生问题从而无法继续执行任务的情况，则会造成变电站中开关柜的漏检或者错检。

发明内容

为了解决现有技术存在的问题，本发明的目的在于，提供了一种基于Q- learning算法和水滴算法混合的检测机器人实时调度方法，该方法前期采用Q- learning算法对机器人的调度路径进行一个范围寻优，再通过使用水滴算法寻得最优解。通过Q-learning算法前期的全局探索寻优，并用寻优结果指导水滴算法进行机器人调度寻优的方式。

本发明采用如下的技术方案：

一种基于Q-learning算法和水滴算法的机器人实时调度方法，所述机器人实时调度方法包括以下步骤：

步骤1，采集所检测的变电站信息和预定派出的机器人信息；

步骤2，根据步骤1所采集的变电站信息和机器人信息设置机器人调度规划的目标函数和约束条件，并构建机器人实时调度规划模型；

步骤3，基于步骤2所构建机器人实时调度规划模型，根据步骤1所述变电站信息及机器人信息使用Q-learning算法生成初始计算矩阵，并使用Q- learning迭代公式对矩阵进行更新；

步骤4，基于步骤3所得的初始计算矩阵，使用水滴算法对步骤3中初始计算矩阵迭代后的初始解进行二次规划调整；

步骤5，调度中心根据机器人当前状态，即存在故障与否，来判断是否对机器人路线进行重新调整；

步骤6，当机器人发生故障时，变更计算条件，即重新分配未发生故障机器人需要检测变电站的数量，并设置水滴规模为剩余未检测变电站数量，然后返回步骤4重新使用水滴算法对变更后的计算条件进行计算以规划新的路线，当机器人正常工作，则跳过步骤6直接进入步骤7；

步骤7，机器人完成所有检测后返回调度中心。

在所述步骤1中，所述变电站信息包括变电站中开关柜的型号、编号和经纬度信息，其中，经纬度信息经数据处理后转为横纵坐标；

所述机器人信息包括机器人的编号、机器人存放地经纬度信息和机器人部件状态，其中，机器人存放地经纬度信息经数据处理后转为横纵坐标，部件包括液压升降台、旋转平台、电源、液压泵、滚筒和UR机械臂。

步骤2中机器人规划调度的目标函数、约束条件，具体步骤如下：

步骤2.1，设置机器人调度规划的目标函数，目标函数要求机器人完成所有变电站的检测任务后所产生的相关费用最少，该目标函数为：

其中，正整数N为变电站数目，M为机器人的数目，a为派出每台机器人的固定成本，b为机器人行驶每公里的成本，d_ij为机器人从变电站i到j的距离，

为第m机器人行驶路径包括从变电站i到j，y^m代表m机器人负责有一整条路线的检测任务；

步骤2.2，设置机器人调度规划的约束条件：

约束条件1：

约束条件2：

约束条件3：

其中，D代表每个机器人的最大行驶距离；

约束条件4：

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

为第k机器人行驶路径包括从变电站j到i，该约束条件仅在有机器人突发故障无法继续进行剩余检测任务时加入实时调度规划模型中，并进行计算；

步骤2.3，根据目标函数和约束函数构建机器人实时调度规划模型。

所述步骤3使用Q-learning算法，以变电站信息及机器人信息形成的矩阵作为变量，对机器人实时调度规划模型进行求解，机器人调度的线路不唯一，排除所选择的最优线路即最优解的其余解可统称之为次优解，次优解与最优解的数值的差值越小则越优异，反之则越差。

所述步骤3中通过迭代更新得到关于机器人对变电站检测路线的初始解的具体步骤如下：

步骤3.1，建立变电站信息及机器人信息形成的矩阵，矩阵由路径编号、动作编号和表格中的数值这三种元素组成，其中纵列代表的是路径编号，横列代表的是动作编号，表格中的数值则代表在某一路径编号情况下机器人下一步采用何种动作能够获得最大值，

其中，路径编号的编码规则如下：设一共有X个机器人，Y个变电站，则其路径编号共有2X位，其中的前2X个编号分别对应第X台机器人所需要检测的变电站数量根据步骤3.2所述ε-greedy策略选择变化形式，第2X+1个编号对应路径不变，由此组成一个记录规律的矩阵；

步骤3.2，根据ε-greedy策略选择动作编号，使矩阵执行动作后到达新的状态，即得到一个新的路径编号；

ε-greedy策略如下：

其中，ε为概率，Q(s,a_k)为矩阵中的值，s为路径编号，a_i和a_k为动作编号，ε-greedy策略的含义是指以ε的概率随机选择动作，以1-ε的概率按照最优值函数选择动作，argmax为求最大值自变量点集的函数，prob(a_i)为动作编号a_i的概率；

步骤3.3，对矩阵进行迭代更新；

算法根据ε-greedy策略选择动作执行后到达新的状态，再通过Q-learning 迭代公式得到实际迭代值并将迭代值用于矩阵进行更新，

Q-learning迭代公式如下，在路径编号s下选择编号为a的动作，转移到状态S_t并获得奖赏r，奖赏值计算方式为步骤2.1的式(1)，利用新旧状态的矩阵值以及所获得的奖赏r更新原有的矩阵值：

Q(s,a)＝Q(s,a)+α(r+γmaxQ(s_t,a_t)-Q(s,a)) (8)

其中，Q为矩阵，s和a分别为旧路径编号和旧动作编号，对应s_t和a_t为新路径编号和新动作编号，α为学习率，γ为折扣；

步骤3.4，结束迭代得到初始解；

结束迭代的条件是矩阵达到收敛状态，收敛定义为最近5个更新后的矩阵的平均标准差小于设定阈值。

步骤3.4中所述设定阈值为0.005。

步骤4所述的使用水滴算法对初始解进行二次规划调整，使得在机器人对变电站的检测路线的更新过程中，能够寻求到调度路径的最优解，具体如下：

步骤4.1，设置算法所需的水滴规模等于所需检测变电站的数量；水滴速度变化系数a_v，b_v，c_v可以定义为1、0.01、1；泥土量的更新参数a_s，b_s，c_s定义为1、0.01、1；局部泥土量更新系数ρ设置为0.9，根据实际应用时对机器人路径的规划速度需求设置全局最大迭代次数N，当需要越快规划出结果时则将N缩小；

步骤4.2，在解空间内随机初始化两个变电站之间的泥土量以及每个水滴初始速度，设置水滴初始携带的泥土量为0；

步骤4.3，按照步骤3所给的初始解对解群体进行划分，记录每个群内的全局最优解；

步骤4.4，水滴根据两个变电站之间泥土量选择下一个变电站所在地点进行移动，并计算到达新变电站后水滴的速度和所携带的泥土量的变化；

选择下一变电站的规则如下：

式中，drip(p,q,l)指水滴的转移概率，

即为水滴选择最优转移地点的概率，random表示水滴随机选择所有可能的地点中的任一地点进行转移，p代表水滴当前所在的变电站地点，q代表水滴可能去向的下一变电站地点，l代表水滴从此时所处的变电站地点p到可能去向的变电站地点上泥土量最小的变电站地点，soil(p,k)代表变电站地点p和k之间的泥土量， soil(p,l)代表变电站地点p和l之间的泥土量；

步骤4.5，水滴从地点p移动到q后对水滴的速度、地点p和q之间的泥土量进行更新；

水滴速度的更新公式为：

其中V_q是水滴移动到新地点后的速度，V_p是水滴移动前的速度，a_v，b_v和 c_v为水滴速度变化系数，soil(p,q)代表变电站地点p和q之间的泥土量；

地点p和q之间的泥土量的更新速度公式为：

其中，soil(p_h,q_h)为水滴从地点p_h到地点q_h之后两个地点之间剩余的泥土量，soil(p,q)为水滴从地点p到地点q之后两个地点之间剩余的泥土量， dist(p,q)是地点p到q之间的距离，ρ为局部泥土量更新系数，a_s、b_s、c_s为泥土量的更新参数，V_i为水滴速度；

步骤4.6，将水滴从起点到达终点所经过的路径中泥土量之和最小的值作为适应度值进行计算，如新适应度值的值小于旧适应度值，则用新适应度值取代旧适应度值，否则保持不变；

步骤4.7，重复步骤4.3，直至迭代次数达到全局最大迭代次数N。

步骤5所述派出机器人后，机器人通过GPS装置和远程通信装置将机器人实时位置和状态不断报给调度中心，调度中心可以根据机器人当前状态判断是否能够继续执行检测任务，并对机器人路线进行重新调整，具体如下：

机器人中液压升降台、旋转平台、电源、液压泵、滚筒、UR机械臂中任一部件或者多个部件发生故障，机器人就无法完成整套检测流程，调度中心会搜集所有机器人当前所处位置的经纬度信息和检测进度信息，并将式(6)加入机器人实时调度规划模型，

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

为第k机器人行驶路径包括从变电站j到i，正整数N 为变电站数目。

步骤6所述机器人发生故障时，将故障机器人未检测的变电站站点嵌入未发生故障机器人检测路线顺序中，变更计算条件，使用水滴算法对变更后的计算条件再次进行计算以规划新的路线，具体如下：

步骤6.1，对未发生故障机器人剩余需要检测的变电站站点数量按从小到大进行排列；

步骤6.2，按照故障机器人未检测的变电站站点的数量依次对正常机器人的路线进行扩容；

步骤6.3，重复步骤4。

基于Q-learning算法和水滴算法的机器人实时调度方法的调度系统，所述调度系统包括信息采集模块、机器人实时调度规划模型模块、计算矩阵模块、二次规划调整模块和机器人路线判断模块，

所述信息采集模块采集所需检测的变电站信息和预定派出的机器人信息；

所述机器人实时调度规划模型模块根据所采集的变电站信息和机器人信息设置机器人调度规划的目标函数和约束条件，并据此构建机器人实时调度规划模型；

所述计算矩阵模块基于所构建机器人实时调度规划模型，根据步骤1所述变电站信息及机器人信息使用Q-learning算法生成初始计算矩阵，并使用Q- learning迭代公式对矩阵进行更新；

所述二次规划调整模块基于所得的初始计算矩阵，使用水滴算法对初始解进行二次规划调整；

所述机器人路线判断模块调度中心根据机器人当前状态即存在故障与否来判断是否对机器人路线进行重新调整；当机器人发生故障时，变更计算条件，返回重新使用水滴算法对变更后的计算条件进行计算以规划新的路线，当机器人正常工作，则机器人完成所有检测后返回调度中心。

本发明的有益效果在于，与现有技术相比：

1.弥补水滴算法前期容易陷入局部收敛的不足；

2.通过Q-learning所得的初始解能够加速水滴算法的寻优速度；

3.在多次对路径进行规划过程中反复通过Q-learning算法对矩阵进行不断更新，使矩阵最终趋于一个稳定值，大大提升了水滴算法的性能。同时，与绝大部分现有静态调度方法相比，该方法可以通过机器人自身实时状态的变化与变电站检测的实时需求不断动态调整机器人出行路线，从而提高程序应变能力与检测效率，降低变电站中开关柜漏检、错检的概率，同时减小成本支出，更加符合实际需求。

附图说明

图1为机器人调度流程图；

图2为初始解寻优规划后得到算法迭代收敛图；

图3为机器人路径轨迹图；

图4为基于Q-learning算法和水滴算法的机器人实时调度方法及系统工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明的技术方案进行清楚、完整地描述。本申请所描述的实施例仅仅是本发明一部分的实施例，而不是全部实施例。基于本发明精神，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明的保护范围。

本发明的目的是提供一种计算精度高、实用性强的基于Q-learning和水滴算法的机器人实时调度方法，来解决机器人调度时对最优路径规划不准确，实时性低，对特殊情况反应慢的问题。

为实现检测机器人实时的智能调度，本发明采用水滴算法作为程序核心规划机器人派出路线，在运算前期采用Q-learning算法进行全局探索，给水滴算法提供一个质量优良的初始解。同时，派出检测机器人后，通过GPS对机器人进行定位并随时监控机器人的状态，从而根据机器人状态变化对原有的路线规划进行调整，以应对实时的情况变化。完成以上功能的流程图如图1所示。

其具体步骤如下所示：

步骤1，确定所有需要检测的变电站信息和计划派出的机器人信息。

进一步地，步骤1中所述变电站信息和机器人信息，具体如下：变电站信息参数有变电站中开关柜的型号、编号、经纬度信息(经数据处理后转为横纵坐标)；机器人信息有机器人的编号、机器人存放地经纬度信息(经数据处理后转为横纵坐标)、机器人部件状态，部件包括有：液压升降台、旋转平台、电源、液压泵、滚筒、UR机械臂。

步骤2，设置机器人调度规划的目标函数和约束条件，并据此构建机器人实时调度规划模型；

进一步地，步骤2中机器人规划调度的目标函数、约束条件具体如下：

步骤2.2，设置机器人调度规划的约束条件：

约束条件1：

该约束条件表示在所有变电站进行检测任务的机器人数目之和小于或等于机器人总数；

约束条件2：

该约束条件表示每个变电站仅由一个进行检测任务的机器人检测；

约束条件3：

其中，D代表每个机器人的最大行驶距离，该约束条件表示机器人的出行路线总长度不能超过一个规定的最大行驶值；

约束条件4：

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

为第k机器人行驶路径包括从变电站j到i，该约束条件仅在有机器人突发故障无法继续进行剩余检测任务时加入实时调度规划模型中进行计算，表示在后续规划中机器人无须回到存放地，而是直接从现有的位置重新开始规划；

步骤3，根据变电站及机器人信息使用Q-learning算法形成初始计算矩阵；

进一步地，步骤3所述的使用Q-learning算法，以变电站及机器人信息形成的矩阵作为变量，对机器人调度规划模型进行求解。因为机器人调度的线路不唯一，围绕着最优线路即最优解的另一批解可统称之为次优解，次优解与最优解越相似则越优异，反之则越差。由于在步骤4中需要对调度规划进行二次调整，因此，步骤3中只需要确定最优解的范围即可，因此通过迭代更新得到关于机器人对变电站检测路线的初始解，具体如下：

步骤3.1，建立变电站及机器人信息形成的矩阵，矩阵由三种元素组成，其中纵列代表的是路径编号，横列代表的是动作编号，表格中的数值则代表在某一路径编号情况下下一步采用何种动作能够获得最大值。其中，路径编号的编码规则如下：设一共有X个机器人，Y个变电站，则其路径编号共有2X位，其中的前2X个编号分别对应第X台机器人所需要检测的变电站数量加一和减一，第2X+1个编号对应路径不变，由此组成一个记录规律的矩阵。

步骤3.2，根据ε-greedy策略选择动作编号，使矩阵执行动作后到达新的状态，即得到一个新的路径编号。ε-greedy策略如下：

该策略可保证算法模型可以尽可能多的探索到整个环境中的所有状态。

步骤3.3，对矩阵进行迭代更新。算法根据ε-greedy策略选择动作执行后到达新的状态，再通过Q-learning迭代公式得到实际迭代值并将迭代值用于矩阵进行更新。Q-learning迭代公式如下，解释为在路径编号s下选择编号为a的动作，转移到状态S_t并获得奖赏r，奖赏值计算方式为步骤2.1的式(1)，利用新旧状态的矩阵值以及所获得的奖赏r更新原有的矩阵值：

Q(s,a)＝Q(s,a)+α(r+γmaxQ(s_t,a_t)-Q(s,a)) (8)

步骤3.4，结束迭代得到初始解。结束迭代的条件是矩阵达到收敛状态，收敛定义为最近5个更新后的矩阵的平均标准差小于0.005。

步骤4，使用水滴算法对初始解进行二次规划调整；

进一步地，步骤4所述的使用水滴算法对初始解进行二次规划调整，使得在机器人对变电站的检测路线的更新过程中，能够寻求到调度路径的最优解。

具体如下：

步骤4.1，设置算法所需的水滴规模、水滴速度变化系数a_v，b_v，c_v，泥土量的更新参数a_s，b_s，c_s，局部泥土量更新系数ρ，全局最大迭代次数 N；

选择下一变电站的规则如下：

式中，drip(p,q,l)指水滴的转移概率，

水滴速度的更新公式为：

地点p和q之间的泥土量的更新速度公式为：

步骤4.6，将水滴从起点到达终点所经过的路径中泥土量之和最小的值作为适应度值进行计算，如新适应度值的值优于旧适应度值，则用新适应度值取代旧适应度值，否则保持不变；

步骤5，调度中心根据机器人当前状态判断是否对机器人路线进行重新调整；

进一步地，步骤5所述派出机器人后，机器人通过GPS装置和远程通信装置将自己实时位置和状态不断报给调度中心，调度中心可以根据机器人当前状态判断是否能够继续执行检测任务，并对机器人路线进行重新调整，具体如下：

如果机器人的部件，包括液压升降台、旋转平台、电源、液压泵、滚筒、 UR机械臂中任一部件或者多个部件发生故障，机器人就无法完成整套检测流程。此时，调度中心会搜集所有机器人当前所处位置的经纬度信息和检测进度信息，并将式(6)加入机器人实时调度规划模型；

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

步骤6，机器人发生故障时，变更计算模型，使用水滴算法对变更后的计算模型再次进行计算以规划新的路线，如所有机器人均正常工作，则跳过该步骤；

进一步地，步骤6所述机器人发生故障时，将故障机器人未检测的变电站站点嵌入未发生故障机器人检测路线顺序中，变更计算模型，使用水滴算法对变更后的计算模型再次进行计算以规划新的路线，具体如下：

步骤6.2，按照故障机器人未检测的变电站站点的数量依次对正常机器人的路线进行扩容，例如，共有三台机器人进行检测任务，其中一台机器人发生故障还剩3个变电站未进行检测，剩余两台正常机器人所剩需要检测的变电站数量分别为2和3，则扩容后的数量为4和4；

步骤6.3，重复步骤4。

步骤7，机器人完成所有检测后选择离调度中心最接近的路线返回调度中心。

本发明与现有技术相比，其显著优点为：(1)通过采用Q-learning算法进行初始搜索，扩大了解空间的搜索范围，最终确定包括有最优解的一个解空间，水滴算法在得到一个较好的初始解后可提高收敛速度，快速得到最优解，有效避免不成熟收敛，兼顾了计算精度和计算时间，提高了在定时条件下的计算精度；(2)Q-learning算法完成初步搜索并将初始解传递给水滴算法后仍可根据迭代公式继续搜索迭代，即步骤三和步骤四可以同时进行，以进一步优化初始解的精度；(3)针对机器人出现故障的特殊情况，提供了修改计算模型的方法，并利用水滴算法快速收敛的优点重新规划机器人调度路线，确保不会因为突发故障而打乱所有检测计划，在保持原有机器人调度的基础上，实现了实时调度功能，提高了应对紧急情况的反应力。

本实施例采用了一组随机抽选自国内某地变电站分布站点的数据进行仿真研究，其中位置数据已经经过预处理。

步骤一：确定所有需要检测的变电站信息和计划派出的机器人信息。其中表1列出所有变电站编号和位置数据。

表1变电站分布站点位置信息

设置共有3台机器人执行检测任务，其出发坐标设置为(9.56，6.03)，三台机器人初始时刻液压升降台、旋转平台、电源、液压泵、滚筒、UR机械臂部件均能够正常工作。

步骤二：根据目标函数和约束条件构建机器人实时调度规划模型，其中目标函数为：

目标函数实际上为机器人出行得成本函数，当目标函数取得最小时，则机器人出行得成本最小。

约束条件为：

约束条件1：

约束条件2：

约束条件3：

其中，D代表每个机器人的最大行驶距离；

约束条件4：

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

步骤三：使用Q-learning算法，以变电站及机器人信息形成的矩阵作为变量，对机器人调度规划模型进行求解，得到关于机器人对变电站检测路线的初始解，具体如下：

步骤3.1，建立变电站及机器人信息形成的矩阵，矩阵由三种元素组成，其中纵列代表的是路径编号，横列代表的是动作编号，表格中的数值则代表在某一路径编号情况下下一步采用何种动作能够获得最大值。其中，路径编号的编码规则如下：设一共有X个机器人，Y个变电站，则其路径编号共有2X位。在此实施例中，共有20个变电站，3台机器人，第一台机器人检测7个变电站，第二台机器人检测6个变电站，第三台机器人检测7个变电站，则其路径编号为070607。最极端的情况则是所有变电站都只有一个机器人进行检测，如为编号3的机器人进行检测，则路径编为000020。动作编号的编码规则如下：动作编号共有2X+1个，其中的前2X个编号分别对应第X台机器人所需要检测的变电站数量加一和减一，第2X+1个编号对应路径不变，由此组成一个记录规律的矩阵。初始化表格示意如下：

步骤3.3，对表格进行迭代更新。算法根据ε-greedy策略选择动作执行后到达新的状态，再通过Q-learning迭代公式得到实际迭代值并将迭代值用于矩阵进行更新。Q-learning迭代公式如下，解释为在路径编号s下选择编号为a的动作，转移到状态S_t并获得奖赏r，奖赏值计算方式为步骤2.1的式(1)，利用新旧状态的矩阵值以及所获得的奖赏r更新原有的矩阵值：

Q(s,a)＝Q(s,a)+α(r+γmaxQ(s_t,a_t)-Q(s,a)) (8)

步骤四：使用水滴算法对初始解进行二次规划调整，使得在机器人对变电站的检测路线的更新过程中，能够寻求到调度路径的最优解。具体如下：

选择下一变电站的规则如下：

式中，drip(p,q,l)指水滴的转移概率，

水滴速度的更新公式为：

地点p和q之间的泥土量的更新速度公式为：

通过水滴算法对Q-learing算法得到的初始解寻优规划后得到算法迭代收敛图如2所示。

从图2中可以看出，在迭代次数达到70次时基本就已经完成收敛，说明了该方法的收敛速度快，因此在实际应用时可以根据时间条件适当减少其迭代次数从而减少计算量提高计算速度。

机器人路径轨迹图和规划表分别如图3和表2所示：

表2机器人路径规划表

从表2中可以看出，三台机器人所需要检测的变电站数量基本相同，因此任务量相差不大，并没有出现某个机器人的任务量过多而另外的机器人任务量过少的情况，从而确保了机器人的利用率。

表3列出三种不同方法对机器人进行路径规划后的数据进行对比，除了本文提出的方法和水滴算法之外，由于单独的Q-learing算法自身的局限性，一旦需要计算的变电站数量过多会造成维度爆炸问题，无法单独作为一种方法规划机器人路径，因此我们引入另一种常用来解决规划问题的粒子群算法进行对比，其中计算适应度时设定迭代200次；计算收敛时间时设定当适应度值小于 12500即满足结束循环条件。

表3三种路径规划方法对比

从表中可以看出，相同迭代次数下，应用本文所提出的方法计算出来的适应度值小于另外两种算法计算所得的适应度值，即规划出来的路线更优。而在满足相同适应度值的条件下，应用本文所提出的方法相比于粒子群算法所需要的时间更少，而相对于水滴算法也差别不大。因此采用本文方法能够兼顾计算精度和计算时间两方面的因素来对机器人的调度进行规划。

同时，该方法针对传统路径规划无法根据实时状况进行调整的问题做出改进，使得在派出机器人后会根据机器人能否执行任务进行路径的重新规划。例如，在机器人执行表2所示路径规划时，机器人B突发故障，此时三台巡检机器人已经完成了对变电站16、11、10、19、9、18、2、5、14、20、1、8的检查，因此需要针对还未检查的变电站重新进行规划路径。

步骤五：机器人通过GPS装置和远程通信装置将自己实时位置和状态不断报给调度中心，调度中心可以根据机器人当前状态判断是否能够继续执行检测任务，并对机器人路线进行重新调整。

1.步骤六：将故障机器人未检测的变电站站点嵌入未发生故障机器人检测路线顺序中，变更计算模型，需要将下式加入原有的计算模型组成新的计算模型：

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

该约束条件仅在有机器人突发故障无法继续进行剩余检测任务时加入实时调度规划模型中进行计算，表示在后续规划中机器人无须回到存放地，而是直接从现有的位置重新开始规划

步骤6.1，对未发生故障机器人剩余需要检测的变电站站点数量按从小到大进行排列，本实施例中，机器人A还剩余3个变电站站点需要检测，机器人B 还剩余2个；

步骤6.2，按照故障机器人未检测的变电站站点的数量依次对正常机器人的路线进行扩容，本实施例中，机器人B发生故障还剩3个变电站未进行检测，由步骤6.1可知剩余两台正常机器人所剩需要检测的变电站数量分别为3和2，则扩容后的数量为4和4；

步骤6.3，重复步骤4使用水滴算法对变更后的计算模型再次进行计算以规划新的路线。

计算得到新的路径规划表如表4所示。

表4调整后巡检机器人路径轨迹

由以上分析可知，本文所提出的巡检机器人的路径规划方法与传统方法相比有更高的合理性，针对机器人的工作状态进行实时的路径调整，与实际生活情况更为接近，能够更好的投入到实际的应用当中。

本申请还同时公开了一种基于Q-learning算法和水滴算法的机器人实时调度方法的调度系统，具体工作流程如图4所示。

基于Q-learning算法和水滴算法的机器人实时调度方法的调度系统包括信息采集模块、机器人实时调度规划模型模块、计算矩阵模块、二次规划调整模块和机器人路线判断模块，

信息采集模块采集所需检测的变电站信息和预定派出的机器人信息；

机器人实时调度规划模型模块根据所采集的变电站信息和机器人信息设置机器人调度规划的目标函数和约束条件，并据此构建机器人实时调度规划模型；

计算矩阵模块基于所构建机器人实时调度规划模型，根据步骤1所述变电站信息及机器人信息使用Q-learning算法生成初始计算矩阵，并使用Q-learning 迭代公式对矩阵进行更新；

二次规划调整模块基于所得的初始计算矩阵，使用水滴算法对初始解进行二次规划调整；

机器人路线判断模块调度中心根据机器人当前状态即存在故障与否来判断是否对机器人路线进行重新调整；

当机器人发生故障时，变更计算条件，返回重新使用水滴算法对变更后的计算条件进行计算以规划新的路线，当机器人正常工作，则机器人完成所有检测后返回调度中心。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于，所述机器人实时调度方法包括以下步骤：

步骤1，采集所检测的变电站信息和预定派出的机器人信息；

步骤3，基于步骤2所构建机器人实时调度规划模型，根据步骤1所述变电站信息及机器人信息使用Q-learning算法生成初始计算矩阵，并使用Q-learning迭代公式对矩阵进行更新；

步骤7，机器人完成所有检测后返回调度中心。

2.根据权利要求1所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

3.根据权利要求1所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

步骤2.2，设置机器人调度规划的约束条件：

约束条件1：

约束条件2：

约束条件3：

其中，D代表每个机器人的最大行驶距离；

约束条件4：

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

4.根据权利要求1所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

5.根据权利要求1所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

ε-greedy策略如下：

步骤3.3，对矩阵进行迭代更新；

算法根据ε-greedy策略选择动作执行后到达新的状态，再通过Q-learning迭代公式得到实际迭代值并将迭代值用于矩阵进行更新，

Q(s,a)＝Q(s,a)+α(r+γmaxQ(s_t,a_t)-Q(s,a)) (8)

步骤3.4，结束迭代得到初始解；

6.根据权利要求5所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

步骤3.4中所述设定阈值为0.005。

7.根据权利要求1所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

选择下一变电站的规则如下：

式中，drip(p,q,l)指水滴的转移概率，

即为水滴选择最优转移地点的概率，random表示水滴随机选择所有可能的地点中的任一地点进行转移，p代表水滴当前所在的变电站地点，q代表水滴可能去向的下一变电站地点，l代表水滴从此时所处的变电站地点p到可能去向的变电站地点上泥土量最小的变电站地点，soil(p,k)代表变电站地点p和k之间的泥土量，soil(p,l)代表变电站地点p和l之间的泥土量；

水滴速度的更新公式为：

其中V_q是水滴移动到新地点后的速度，V_p是水滴移动前的速度，a_v，b_v和c_v为水滴速度变化系数，soil(p,q)代表变电站地点p和q之间的泥土量；

地点p和q之间的泥土量的更新速度公式为：

其中，soil(p_h,q_h)为水滴从地点p_h到地点q_h之后两个地点之间剩余的泥土量，soil(p,q)为水滴从地点p到地点q之后两个地点之间剩余的泥土量，dist(p,q)是地点p到q之间的距离，ρ为局部泥土量更新系数，a_s、b_s、c_s为泥土量的更新参数，V_i为水滴速度；

8.根据权利要求1所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

其中，K为现有能够继续进行检测的机器人数目，

为第k机器人行驶路径包括从变电站i到j，

为第k机器人行驶路径包括从变电站j到i，正整数N为变电站数目。

9.根据权利要求1所述的一种基于Q-learning算法和水滴算法的机器人实时调度方法，其特征在于：

步骤6.3，重复步骤4。

10.一种利用权利要求1-9中任一权利要求所述基于Q-learning算法和水滴算法的机器人实时调度方法的调度系统，所述调度系统包括信息采集模块、机器人实时调度规划模型模块、计算矩阵模块、二次规划调整模块和机器人路线判断模块，其特征在于：

所述计算矩阵模块基于所构建机器人实时调度规划模型，根据步骤1所述变电站信息及机器人信息使用Q-learning算法生成初始计算矩阵，并使用Q-learning迭代公式对矩阵进行更新；