CN114371728B

CN114371728B - 一种基于多智能体协同优化的无人机资源调度方法

Info

Publication number: CN114371728B
Application number: CN202111525070.5A
Authority: CN
Inventors: 周毅; 程翔; 刘志祥; 李思; 石华光; 宁念文; 张西镚
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2023-06-30
Anticipated expiration: 2041-12-14
Also published as: CN114371728A

Abstract

本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法，优化多无人机系统的协同调度能力，首先以任务环境中智能体状态s_t作为多智能体系统输入，然后通过策略网络输出动作a_t并由评价网络评估，最后输出由连续动作组成的调度策略π；针对连续覆盖和持续性服务两个目标，提出了特殊状态空间和动作空间，通过动作评估机制确定最优调度策略，构造了合理的动作奖励函数r_t，使低能耗和连续覆盖的策略成为多智能体系统更好的选择，在算法中设置的经验回放单元随状态和动作空间的更新而改变，通过误差

和损失函数L(θ^Q)来训练输出高评估值动作a_t，并以此方式共同更新其他智能体，对任务环境中其他智能体的策略进行联合评估，提高多无人机系统的协同调度能力。

Description

一种基于多智能体协同优化的无人机资源调度方法

技术领域

本发明属于无人机调度技术领域，具体涉及一种基于多智能体协同优化的无人机资源调度方法。

背景技术

随着智能交通系统的迅速发展，道路固定式监测设备将逐渐跟不上交通监测的需求，不仅存在监测盲区的问题，而且大量布置监测设备也会导致冗余问题。由于无人机具有灵活和便携等优点，可装配监测设备在道路中进行大范围覆盖监测，以辅助固定监测设备，然而在部署过程中，需满足连续覆盖和持续性服务，由于机载能源的局限性，应考虑合理的充电调度。因此无人机资源调度问题便成了重要的研究点，特别是针对道路交通环境下，考虑连续覆盖任务和资源调度问题亟待解决。

目前针对覆盖任务下无人机持续服务的方法很多，从部署方式和任务区域两方面出发，有不同的覆盖方式。根据部署方式可分为随机覆盖和确定性覆盖，根据任务区域不同需求，分为点覆盖和区域覆盖。确定性覆盖和区域覆盖结合的方式在考虑持续性服务的部署中应用较广，主要利用k-means算法，得到无人机二维坐标和覆盖半径。在覆盖的同时考虑连续任务，通过将充电调度与覆盖任务结合的方式来满足连续任务，主要思路是利用能量充足的无人机代替能量不足的无人机，从调度策略方面出发，循环调度应用较广，即低电量无人机充电，由满电量或高电量无人机代替其执行任务，当能量补充结束再返回执行任务。

虽然针对覆盖和持续性服务的方法在部署和充电调度方面都能得到最优调度策略，但仍存在待解决的问题。大多数考虑飞行高度和用户数量的覆盖任务部署都属于静态部署；涉及动态部署和调度时，需考虑部署中飞行与通信能耗，以及移动用户的负载，会导致优化目标的计算难度增大；在持续性服务上，充电调度以能耗为主要约束，同时考虑目标区域位置，充电站位置及覆盖半径等因素，利用粒子群算法寻找近似最优调度策略，由于算法收敛速度过快，导致局部搜索精度不高，容易陷入局部最优。

大多数无人机覆盖任务部署和持续服务方法针对静态单体部署，而且其简单的环境约束并不适用于复杂多变的城市智能交通场景。随着智能交通系统的迅速发展，在道路交通环境下，基于多智能体协同优化的无人机资源调度策略的研究十分必要。

发明内容

本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法，使任务中资源调度过程满足连续覆盖和最小能耗。

本发明解决其技术问题的技术方案为：一种基于多智能体协同优化的无人机资源调度方法，其特征在于，包括以下步骤：

S1：收集任务环境中智能体所获得的观测信息ob_t，将其集合作为智能体的状态信息s_t；

S2：由s_t通过当前策略层Actor得到智能体当前动作a_t；

S3：智能体执行a_t得到奖励值r_t同时获得下一步状态信息s_t+1，并通过目标策略层Actor’获得目标动作a_t+1；

S4：将S1到S3智能体与环境的交互中获得的当前状态s_t，当前动作a_t，执行a_t所得到的奖励r_t，下一步状态s_t+1，和目标动作a_t+1组成Transition{s_t,a_t,r_t,s_t+1,a_t+1}；

S4.1：将Transition存入经验回放池Experience replay；

S4.2：从Experience replay中分批采样，并通过当前评价层Critic和目标评价层Critic’分别得到对a_t的评估值Q和a_t+1的评估值Q'；

S5：根据Q和Q'的误差

形成损失函数Loss functionL(θ^Q)以更新Critic，从而训练Actor输出高评估值动作；

S6：Transition不断向前更新，输入Actor和Critic中的参数、Q以及L(θ^Q)随之更新，智能体获得训练过程中的最优策略；

S7：以训练获得高评估值策略为前提，开始系统的执行部分，在同一任务环境不同初始状态下，利用此策略部署无人机执行连续任务并兼顾充电调度。

多无人机资源调度策略建立在任务部署已就绪的前提下，所述步骤S1中观测信息ob_t由任务无人机通过传感器采集的实时数据所组成，ob_t包括充电站位置S_e、充电站状态Φ、目标区域位置T_p、各无人机剩余能量

和各无人机位置/>

其集合/>

其中S_e＝(x_e,y_e)，T_p＝(x_o,y_o)，/>

N表示任务无人机数量。

所述的智能体a_i获得的状态信息

为任务无人机的充电调度分别设置三个状态，s_mon、s_rec和s_rep分别表示任务、充电和待机，其中

以及/>

所述步骤S2中s_t通过Actor输出a_t并执行，使调度过程满足任务交接时的连续覆盖和最小能耗E_λ；

a_t由基本动作空间a组成，表示第a_i架无人机在第t个时间间隙的飞行角度和距离，/>

T表示时间间隔的数量，其中

M为N架无人机的集合，/>

为无人机的初始能量。

所述的智能体a_t执行时状态转移，若a_i在t_j-1时刻状态为s_mon，a_t＝{Go,Stay}包括两个动作，即

其中E_thr为能耗阈值，

为最大电池容量，Φ＝0表示S_e空闲，相反则之；若a_i在t_j-1时刻处于s_rec，则a_t＝{Back,Keep}，即/>

当a_i在t_j-1时刻处于s_mon状态，且下一时隙将执行动作Go，在当前时刻处于s_rep状态的a_i动作空间a_t＝{Replace,Await}，即/>

所述步骤S3中的智能体执行a_t得到的奖励值

所述的

表示任务无人机总能耗，其中/>

表示惩罚值；/>

为剩余能量函数，其更新等式为E(a_i,t_j)＝E(a_i,t_j-1)-E_flying+E_recharge-E_change，E(a_i,t_j-1)为上一时刻剩余能量，E_flying，E_recharge和E_change分别表示任务能耗，s_rec获得的能量和状态变化时的总能耗，展开如下：

π(a_i,t_j)表示调度函数，定义了a_i∈M在t_j∈Γ的状态；G(a_i,t_j)，B(a_i,t_j)和R(a_i,t_j)分别表示a_i在时隙t_j的动作状态；α_t、β_t、γ_h、δ_h和ψ_h分别表示a_i处于不同状态时的能量开支。

所述步骤S4.2中的Q＝Q(s_t,a_t)＝E[R_t|s_t,a_t]，由critic中神经网络DNN获得，其中

γ∈(0,1)表示折扣因子；Q'＝r_t+γQ(s_t+1,a_t+1|θ^Q')，θ^Q'为Critic’中神经网络DNN的参数；

所述步骤S5中的误差

损失函数/>

智能体a_i的Critic由L(θ^Q)更新，Actor由更新过参数的Critic通过梯度下降训练。

本发明的有益效果为：本发明基于多智能体系统的无人机调度框架，分为训练和执行两部分。在训练部分，通过传感器对道路环境进行观测，根据观测的信息得出各智能体的连续状态信息，将其作为多智能体系统的输入值，而最后由系统输出理想的连续动作，即策略；在整个过程中，状态值通过策略层神经网络Actor生成以能耗最低为优化目标的动作，之后由新的状态值产生下一步动作，期间每个动作都经过Critic网络得到对该动作的评估值，由评估值误差形成的损失函数经过梯度下降反馈给策略层Actor，然后由Actor更新网络参数并输出高评估值动作供智能体执行，最后将所有高评估值动作集合起来形成策略。执行部分，处在相同环境不同初始状态下的智能体将以训练好的策略执行任务。相比传统离散空间环境下的调度方法，该方法能在连续状态和动作空间下避免陷入局部最优解，可达到全局最优。

附图说明

图1是本发明的流程图。

图2是本发明的资源调度状态转移示意图。

图3是本发明的多无人机资源调度示意图。

图4是本发明的多无人机资源调度仿真实验图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的核心思想是在智能交通环境下基于多智能体协同优化的无人机资源调度策略，考虑各无人机已由起点完全部署至目标区域的任务初始位置，并开始执行覆盖监测任务。在任务过程中，以任务环境中智能体的状态空间s_t作为多智能体系统的输入，最后输出由连续动作空间a_t组成的充电调度策略，即最优策略π＝(π₁,π₂,...,π_n)，针对连续覆盖和持续性服务两个目标，提出了特殊状态空间和动作空间，并通过动作评估机制更快确定最优调度策略，构造了合理的动作奖励函数r_t，使低能耗和连续覆盖的调度策略成为多智能体系统更好的选择，在算法中设置的经验回放单元随状态和动作空间的更新而改变，通过误差

图1为基于多智能体协同优化的无人机资源调度流程图，结合流程图对本发明的具体实施方案进行说明，包括以下步骤：

所述步骤S1中ob_t由任务无人机通过传感器采集的实时数据组成，ob_t包括充电站位置S_e、充电站状态Φ、目标区域位置T_p、无人机剩余能量

以及无人机位置/>

其集合

其中S_e＝(x_e,y_e)，T_p＝(x_o,y_o)，/>

N为任务无人机数量。

所述的智能体a_i获得的状态信息s_t，为任务无人机的充电调度分别设置三个状态，s_mon、s_rec和s_rep，表示任务、充电和待机，其中

以及

S2：由s_t通过当前策略层Actor得到智能体当前动作a_t；

所述步骤S2中,s_t通过Actor输出a_t并执行，使调度过程满足任务交接时的连续覆盖和最小能耗E_λ；基本动作空间

表示第a_i架无人机在第t个时间间隙的飞行角度和距离，动作空间a_t由a所构成，其中/>

M为N架无人机集合，

T表示时间间隔的数量；/>

为无人机的初始能量。

所述的a_t执行时状态转移，若a_i在t_j-1时刻状态为s_mon，a_t＝{Go,Stay}包括两个动作，即

其中E_thr为能耗阈值，/>

为最大电池容量，Φ＝0表示S_e处于空闲状态，Φ＝1则表示S_e已被占用；若a_i在t_j-1时刻处于s_rec，则a_t＝{Back,Keep}，即/>

所述步骤S3中，智能体执行a_t得到的奖励值

所述的

表示任务无人机总能耗，其中/>

表示对某动作的惩罚值；/>

为剩余能量函数，更新等式：E(a_i,t_j)＝E(a_i,t_j-1)-E_flying+E_recharge-E_change，E(a_i,t_j-1)为上一时刻剩余能量，E_flying，E_recharge和E_change分别为任务能耗，s_rec获得的能量和状态改变时的总能耗，展开如下：

π(a_i,t_j)为调度函数，定义了a_i∈M在t_j∈Γ的状态；G(a_i,t_j)，B(a_i,t_j)和R(a_i,t_j)表示a_i在时隙t_j各动作的执行状态；α_t、β_t、γ_h、δ_h和ψ_h表示a_i处于不同状态时的能量开支。

S4.1：将Transition存入经验回放池Experience replay；

γ∈(0,1)表示折扣因子；Q'＝r_t+γQ(s_t+1,a_t+1|θ^Q')，θ^Q'表示Critic’中神经网络DNN的参数；

S5：根据Q和Q'的误差

所述步骤S5中的误差

损失函数/>

如图2所示为本发明资源调度状态转移示意图，所述步骤S1中的状态空间

由此设定了三个特殊状态/>

和/>

所述步骤S2中a_t执行时状态改变，图2中箭头表示状态的转移，当s_mon状态的a_i满足/>

条件时，动作Go被执行，即达到充电条件的a_i到充电站充电，且当前状态变为s_rec，与此同时处于s_rep的a_i执行Replace，状态变为s_mon，即代替充电a_i执行任务；当处于s_rec的a_i满足/>

条件，即已满电且出现了下一个需要充电的a_i+1，此时执行Back，满电a_i返回任务区域代替需要充电的a_i+1执行任务，状态恢复为s_mon。相似的，当s_mon状态的a_i满足/>

条件，即能量仍充足，Stay表示继续执行任务，保持s_mon，同时处于s_rep的a_i未检测到有充电需求的任务a_i，所以Await表示继续待机，保持s_rep；当处于s_rec的a_i满足/>

则表示未充满电，Keep为继续充电，保持s_rec。

本发明目的在于利用由多智能体系统输出合理策略调度多无人机，以达到连续性覆盖和持续服务的目标。如图3所示为本发明的多无人机资源调度实例示意图，结合实例示意图对本发明的具体调度过程进行说明，所述步骤S7中多智能体系统开始执行部分，在相同任务环境但不同初始状态下以训练好的策略调度多无人机执行任务。本实例中，大小为Sm²的圆形区域内共有集合为A＝{a₁,a₂,a₃,a₄,a₅,a₆}的6架无人机，充电站S_E位置为S_e＝(x_e,y_e)且初始状态Φ＝0。任务区域中各智能体将其他智能体、目标区域和S_E的位置，S_E的状态Φ以及各智能体剩余电量

作为观测值，且彼此间存在无线通信，任务无人机在距地面h的高度处形成协同网络，在连续时间间隔/>

以相同初始能量在保证监测任务时兼顾资源调度。

所述步骤S2中a_i根据s_t产生动作，参考图2状态转移示意图，动作Go表示达到能耗阈值且S_e空闲，a_i停止任务去充电，Stay表示a_i电量充足，保持任务状态；Back表示在出现需要充电的a_i+1时，满电a_i离开S_e取代a_i+1继续执行任务，Keep表示暂未满电，继续保持充电；Replace表示同一时隙a_i执行动作Go同时待机a_i开始执行代替任务，Await表示无充电需要，待机a_i继续待命。所述步骤S4中执行动作奖励函数

利用剩余能量函数计算各无人机的剩余能量：E(a_i,t_j)＝E(a_i,t_j-1)-E_flying+E_recharge-E_change，飞行能耗：E_flying＝π(a_i,t_j)·α_t，充电获得的能量：E_recharge＝(1-π(a_i,t_j))·β_t，状态变化时的总能耗：E_change＝G(a_i,t_j)·γ_h+B(a_i,t_j)·δ_h+R(a_i,t_j)·ψ_h；当π(a_i,t_j)＝1，a_i在t_j处于s_mon状态，反之a_i处于s_rec状态；G(a_i,t_j)、B(a_i,t_j)和R(a_i,t_j)表示动作执行的状态，G(a_i,t_j)＝1，B(a_i,t_j)＝1和R(a_i,t_j)＝1表示执行动作Go，Back以及Replace，能耗因子α_t、β_t、γ_h、δ_h和ψ_h分别表示s_mon状态a_i的能耗、s_rec状态a_i获得的能量、从s_mon到s_rec的能耗、s_rec到s_mon的能耗以及s_rep到s_mon的能耗。

在该实例中，当任务无人机在某个时隙内出现充电调度需求时，训练过的策略π＝(π₁,π₂,...,π_n)。如图3所示，三架任务无人机A₁，A₂和A₃分别以相同初始能量

被部署至目标区域C₁，C₂和C₃并开始执行覆盖监测任务；待机无人机A₄，A₅和A₆待命以协助任务；地面充电站S_E的初始状态Φ＝0；各无人机任务能耗不同，导致剩余能量不同，即/>

所述步骤S1中由s_t衍生的s_mon，s_rec和s_rep分别为任务、充电和待机状态；其中A₁、A₂和A₃处于s_mon状态，在t_j-1时隙内A₃满足充电条件

相同时隙内s_rep状态的A₄观测到A₃的异常状态；下一时隙A₃将执行动作Go，G(a_i,t_j)＝1，同时A₄执行Replace，R(a_i,t_j)＝1，图中两处①表示相同时隙内的调度，即A₁、A₂保持s_mon，A₃由s_mon变为s_rec，A₄由s_rep变为s_mon，调度策略为π₁＝1，π₂＝1，π₃＝0和π₄＝1；考虑在无惩罚的前提下，即两任务无人机相对距离在限制距离外；A₃执行动作Go的奖励函数/>

A₄执行Replace的奖励/>

Go和Replace确定了初步的资源调度；A₃与A₄分别执行两动作后S_E状态改变，即Φ＝1；处于s_rec的A₃返回任务的条件为/>

假设某一时隙处于s_mon的A₂满足/>

满电A₃将离开S_E执行Back，B(a_i,t_j)＝1，奖励函数/>

此时S_E状态重置，Φ＝0，且A₂将执行Go；图中②表示A₃的调度，即A₁、A₄保持s_mon，A₂由s_mon变为s_rec，A₃由s_rec变为s_mon，该时隙内调度策略为π₁＝1，π₂＝0，π₃＝1和π₄＝1；若在同一时隙内无满足充电条件的无人机，则满电A₃执行Stay保持s_rec。A₃在执行Go且A₄执行Replace的调度为第一轮调度，而A₂执行Go的同时A₃执行Back的调度为下一轮调度；当各个任务无人机第一次出现了充电需求时，该多智能体系统所执行的策略为π＝(π₁＝1,π₂＝1,π₃＝0,π₄＝1)，直到下一次出现充电需求，应当执行的下一轮策略变为π＝(π₁＝1,π₂＝0,π₃＝1,π₄＝1)，以此作为循环，调度无人机满足持续性服务。

如图4所示为本发明的多无人机资源调度仿真实验图，该结果是在Python3.6环境下通过编写程序与仿真环境运行得到，下面结合仿真实验图对本发明的调度过程进行补充说明，所述步骤S7中开始系统的执行部分，利用高评估值策略部署无人机执行连续任务同时兼顾充电调度。本仿真实验中，主要模拟在交通十字路口场景下，部署各无人机从地面到达目标区域上空，为执行监测任务做准备，当任务执行过程中出现需要充电的无人机，则调度开始，且调度过程中需要协调各无人机以满足连续覆盖和持续性服务的目标。如图4a所示，地面待机无人机A₁,A₂,A₃和A₄分别被部署至目标区域C₁,C₂,C₃和C₄，并开始执行覆盖监测任务；随着监测任务的进行，出现剩余能量接近设定阈值的无人机，此时执行调度策略π进行充电与任务替代。如图4b所示，A₄满足充电条件，即将前往充电站S_E进行充电，同时待机A₅在检测到A₄的状态后，也将前往A₄所负责的目标区域C₄之上进行任务替代；其中充电和替代任务为第一轮调度，其策略为π＝(π₁＝1,π₂＝1,π₃＝1,π₄＝0,π₅＝1)，当出现其他满足充电要求的无人机，则开始第二轮调度，即需要充电的无人机离开目标区域前往充电站，而充满电的无人机返回目标区域代替充电无人机执行监测任务，第二轮调度策略为π＝(π₁＝1,π₂＝1,π₃＝0,π₄＝1,π₅＝1)。如图4c所示，A₅替代A₄执行监测任务，且A₄充电完成，同时A₃满足充电条件，即将离开目标区域C₃前往充电站S_E充电，满电A₄返回到目标区域C₃代替A₃继续执行监测任务，以保证任务的连续覆盖。

本发明基于多智能体系统的无人机调度框架，分为训练和执行两部分。在训练部分，通过传感器对道路环境进行观测，根据观测的信息得出各智能体的连续状态信息，将其作为多智能体系统的输入值，而最后由系统输出理想的连续动作，即策略；在整个过程中，状态值通过策略层神经网络Actor生成以能耗最低为优化目标的动作，之后由新的状态值产生下一步动作，期间每个动作都经过Critic网络得到对该动作的评估值，由评估值误差形成的损失函数经过梯度下降反馈给策略层Actor，然后由Actor更新网络参数并输出高评估值动作供智能体执行，最后将所有高评估值动作集合起来形成策略。执行部分，处在相同环境不同初始状态下的智能体将以训练好的策略执行任务。相比传统离散空间环境下的调度方法，该方法能在连续状态和动作空间下避免陷入局部最优解，可达到全局最优。