CN114371728B - 一种基于多智能体协同优化的无人机资源调度方法 - Google Patents

一种基于多智能体协同优化的无人机资源调度方法 Download PDF

Info

Publication number
CN114371728B
CN114371728B CN202111525070.5A CN202111525070A CN114371728B CN 114371728 B CN114371728 B CN 114371728B CN 202111525070 A CN202111525070 A CN 202111525070A CN 114371728 B CN114371728 B CN 114371728B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
resource scheduling
agent
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111525070.5A
Other languages
English (en)
Other versions
CN114371728A (zh
Inventor
周毅
程翔
刘志祥
李思
石华光
宁念文
张西镚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202111525070.5A priority Critical patent/CN114371728B/zh
Publication of CN114371728A publication Critical patent/CN114371728A/zh
Application granted granted Critical
Publication of CN114371728B publication Critical patent/CN114371728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法,优化多无人机系统的协同调度能力,首先以任务环境中智能体状态st作为多智能体系统输入,然后通过策略网络输出动作at并由评价网络评估,最后输出由连续动作组成的调度策略π;针对连续覆盖和持续性服务两个目标,提出了特殊状态空间和动作空间,通过动作评估机制确定最优调度策略,构造了合理的动作奖励函数rt,使低能耗和连续覆盖的策略成为多智能体系统更好的选择,在算法中设置的经验回放单元随状态和动作空间的更新而改变,通过误差
Figure DDA0003408702750000011
和损失函数L(θQ)来训练输出高评估值动作at,并以此方式共同更新其他智能体,对任务环境中其他智能体的策略进行联合评估,提高多无人机系统的协同调度能力。

Description

一种基于多智能体协同优化的无人机资源调度方法
技术领域
本发明属于无人机调度技术领域,具体涉及一种基于多智能体协同优化的无人机资源调度方法。
背景技术
随着智能交通系统的迅速发展,道路固定式监测设备将逐渐跟不上交通监测的需求,不仅存在监测盲区的问题,而且大量布置监测设备也会导致冗余问题。由于无人机具有灵活和便携等优点,可装配监测设备在道路中进行大范围覆盖监测,以辅助固定监测设备,然而在部署过程中,需满足连续覆盖和持续性服务,由于机载能源的局限性,应考虑合理的充电调度。因此无人机资源调度问题便成了重要的研究点,特别是针对道路交通环境下,考虑连续覆盖任务和资源调度问题亟待解决。
目前针对覆盖任务下无人机持续服务的方法很多,从部署方式和任务区域两方面出发,有不同的覆盖方式。根据部署方式可分为随机覆盖和确定性覆盖,根据任务区域不同需求,分为点覆盖和区域覆盖。确定性覆盖和区域覆盖结合的方式在考虑持续性服务的部署中应用较广,主要利用k-means算法,得到无人机二维坐标和覆盖半径。在覆盖的同时考虑连续任务,通过将充电调度与覆盖任务结合的方式来满足连续任务,主要思路是利用能量充足的无人机代替能量不足的无人机,从调度策略方面出发,循环调度应用较广,即低电量无人机充电,由满电量或高电量无人机代替其执行任务,当能量补充结束再返回执行任务。
虽然针对覆盖和持续性服务的方法在部署和充电调度方面都能得到最优调度策略,但仍存在待解决的问题。大多数考虑飞行高度和用户数量的覆盖任务部署都属于静态部署;涉及动态部署和调度时,需考虑部署中飞行与通信能耗,以及移动用户的负载,会导致优化目标的计算难度增大;在持续性服务上,充电调度以能耗为主要约束,同时考虑目标区域位置,充电站位置及覆盖半径等因素,利用粒子群算法寻找近似最优调度策略,由于算法收敛速度过快,导致局部搜索精度不高,容易陷入局部最优。
大多数无人机覆盖任务部署和持续服务方法针对静态单体部署,而且其简单的环境约束并不适用于复杂多变的城市智能交通场景。随着智能交通系统的迅速发展,在道路交通环境下,基于多智能体协同优化的无人机资源调度策略的研究十分必要。
发明内容
本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法,使任务中资源调度过程满足连续覆盖和最小能耗。
本发明解决其技术问题的技术方案为:一种基于多智能体协同优化的无人机资源调度方法,其特征在于,包括以下步骤:
S1:收集任务环境中智能体所获得的观测信息obt,将其集合作为智能体的状态信息st
S2:由st通过当前策略层Actor得到智能体当前动作at
S3:智能体执行at得到奖励值rt同时获得下一步状态信息st+1,并通过目标策略层Actor’获得目标动作at+1
S4:将S1到S3智能体与环境的交互中获得的当前状态st,当前动作at,执行at所得到的奖励rt,下一步状态st+1,和目标动作at+1组成Transition{st,at,rt,st+1,at+1};
S4.1:将Transition存入经验回放池Experience replay;
S4.2:从Experience replay中分批采样,并通过当前评价层Critic和目标评价层Critic’分别得到对at的评估值Q和at+1的评估值Q';
S5:根据Q和Q'的误差
Figure GDA0003470535760000021
形成损失函数Loss functionL(θQ)以更新Critic,从而训练Actor输出高评估值动作;
S6:Transition不断向前更新,输入Actor和Critic中的参数、Q以及L(θQ)随之更新,智能体获得训练过程中的最优策略;
S7:以训练获得高评估值策略为前提,开始系统的执行部分,在同一任务环境不同初始状态下,利用此策略部署无人机执行连续任务并兼顾充电调度。
多无人机资源调度策略建立在任务部署已就绪的前提下,所述步骤S1中观测信息obt由任务无人机通过传感器采集的实时数据所组成,obt包括充电站位置Se、充电站状态Φ、目标区域位置Tp、各无人机剩余能量
Figure GDA0003470535760000031
和各无人机位置/>
Figure GDA0003470535760000032
其集合/>
Figure GDA0003470535760000033
其中Se=(xe,ye),Tp=(xo,yo),/>
Figure GDA0003470535760000034
N表示任务无人机数量。
所述的智能体ai获得的状态信息
Figure GDA0003470535760000035
为任务无人机的充电调度分别设置三个状态,smon、srec和srep分别表示任务、充电和待机,其中
Figure GDA0003470535760000036
以及/>
Figure GDA0003470535760000037
所述步骤S2中st通过Actor输出at并执行,使调度过程满足任务交接时的连续覆盖和最小能耗Eλ
Figure GDA0003470535760000038
at由基本动作空间a组成,表示第ai架无人机在第t个时间间隙的飞行角度和距离,/>
Figure GDA0003470535760000039
T表示时间间隔的数量,其中
Figure GDA00034705357600000310
Figure GDA00034705357600000311
M为N架无人机的集合,/>
Figure GDA00034705357600000312
为无人机的初始能量。
所述的智能体at执行时状态转移,若ai在tj-1时刻状态为smon,at={Go,Stay}包括两个动作,即
Figure GDA00034705357600000313
其中Ethr为能耗阈值,
Figure GDA00034705357600000314
Figure GDA00034705357600000315
为最大电池容量,Φ=0表示Se空闲,相反则之;若ai在tj-1时刻处于srec,则at={Back,Keep},即/>
Figure GDA00034705357600000316
当ai在tj-1时刻处于smon状态,且下一时隙将执行动作Go,在当前时刻处于srep状态的ai动作空间at={Replace,Await},即/>
Figure GDA0003470535760000041
所述步骤S3中的智能体执行at得到的奖励值
Figure GDA0003470535760000042
所述的
Figure GDA0003470535760000043
表示任务无人机总能耗,其中/>
Figure GDA0003470535760000044
表示惩罚值;/>
Figure GDA0003470535760000045
为剩余能量函数,其更新等式为E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,E(ai,tj-1)为上一时刻剩余能量,Eflying,Erecharge和Echange分别表示任务能耗,srec获得的能量和状态变化时的总能耗,展开如下:
Figure GDA0003470535760000046
π(ai,tj)表示调度函数,定义了ai∈M在tj∈Γ的状态;G(ai,tj),B(ai,tj)和R(ai,tj)分别表示ai在时隙tj的动作状态;αt、βt、γh、δh和ψh分别表示ai处于不同状态时的能量开支。
所述步骤S4.2中的Q=Q(st,at)=E[Rt|st,at],由critic中神经网络DNN获得,其中
Figure GDA0003470535760000047
γ∈(0,1)表示折扣因子;Q'=rt+γQ(st+1,at+1Q'),θQ'为Critic’中神经网络DNN的参数;
所述步骤S5中的误差
Figure GDA0003470535760000048
损失函数/>
Figure GDA0003470535760000049
智能体ai的Critic由L(θQ)更新,Actor由更新过参数的Critic通过梯度下降训练。
本发明的有益效果为:本发明基于多智能体系统的无人机调度框架,分为训练和执行两部分。在训练部分,通过传感器对道路环境进行观测,根据观测的信息得出各智能体的连续状态信息,将其作为多智能体系统的输入值,而最后由系统输出理想的连续动作,即策略;在整个过程中,状态值通过策略层神经网络Actor生成以能耗最低为优化目标的动作,之后由新的状态值产生下一步动作,期间每个动作都经过Critic网络得到对该动作的评估值,由评估值误差形成的损失函数经过梯度下降反馈给策略层Actor,然后由Actor更新网络参数并输出高评估值动作供智能体执行,最后将所有高评估值动作集合起来形成策略。执行部分,处在相同环境不同初始状态下的智能体将以训练好的策略执行任务。相比传统离散空间环境下的调度方法,该方法能在连续状态和动作空间下避免陷入局部最优解,可达到全局最优。
附图说明
图1是本发明的流程图。
图2是本发明的资源调度状态转移示意图。
图3是本发明的多无人机资源调度示意图。
图4是本发明的多无人机资源调度仿真实验图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的核心思想是在智能交通环境下基于多智能体协同优化的无人机资源调度策略,考虑各无人机已由起点完全部署至目标区域的任务初始位置,并开始执行覆盖监测任务。在任务过程中,以任务环境中智能体的状态空间st作为多智能体系统的输入,最后输出由连续动作空间at组成的充电调度策略,即最优策略π=(π12,...,πn),针对连续覆盖和持续性服务两个目标,提出了特殊状态空间和动作空间,并通过动作评估机制更快确定最优调度策略,构造了合理的动作奖励函数rt,使低能耗和连续覆盖的调度策略成为多智能体系统更好的选择,在算法中设置的经验回放单元随状态和动作空间的更新而改变,通过误差
Figure GDA0003470535760000051
和损失函数L(θQ)来训练输出高评估值动作at,并以此方式共同更新其他智能体,对任务环境中其他智能体的策略进行联合评估,提高多无人机系统的协同调度能力。
图1为基于多智能体协同优化的无人机资源调度流程图,结合流程图对本发明的具体实施方案进行说明,包括以下步骤:
S1:收集任务环境中智能体所获得的观测信息obt,将其集合作为智能体的状态信息st
所述步骤S1中obt由任务无人机通过传感器采集的实时数据组成,obt包括充电站位置Se、充电站状态Φ、目标区域位置Tp、无人机剩余能量
Figure GDA0003470535760000061
以及无人机位置/>
Figure GDA0003470535760000062
其集合
Figure GDA0003470535760000063
其中Se=(xe,ye),Tp=(xo,yo),/>
Figure GDA0003470535760000064
N为任务无人机数量。
所述的智能体ai获得的状态信息st,为任务无人机的充电调度分别设置三个状态,smon、srec和srep,表示任务、充电和待机,其中
Figure GDA0003470535760000065
Figure GDA0003470535760000066
以及
Figure GDA0003470535760000067
S2:由st通过当前策略层Actor得到智能体当前动作at
所述步骤S2中,st通过Actor输出at并执行,使调度过程满足任务交接时的连续覆盖和最小能耗Eλ;基本动作空间
Figure GDA0003470535760000068
表示第ai架无人机在第t个时间间隙的飞行角度和距离,动作空间at由a所构成,其中/>
Figure GDA0003470535760000069
M为N架无人机集合,
Figure GDA00034705357600000610
T表示时间间隔的数量;/>
Figure GDA00034705357600000611
Figure GDA00034705357600000612
为无人机的初始能量。
所述的at执行时状态转移,若ai在tj-1时刻状态为smon,at={Go,Stay}包括两个动作,即
Figure GDA00034705357600000613
其中Ethr为能耗阈值,/>
Figure GDA00034705357600000614
Figure GDA00034705357600000615
为最大电池容量,Φ=0表示Se处于空闲状态,Φ=1则表示Se已被占用;若ai在tj-1时刻处于srec,则at={Back,Keep},即/>
Figure GDA00034705357600000616
当ai在tj-1时刻处于smon状态,且下一时隙将执行动作Go,在当前时刻处于srep状态的ai动作空间at={Replace,Await},即/>
Figure GDA0003470535760000071
S3:智能体执行at得到奖励值rt同时获得下一步状态信息st+1,并通过目标策略层Actor’获得目标动作at+1
所述步骤S3中,智能体执行at得到的奖励值
Figure GDA0003470535760000072
所述的
Figure GDA0003470535760000073
表示任务无人机总能耗,其中/>
Figure GDA0003470535760000074
表示对某动作的惩罚值;/>
Figure GDA0003470535760000075
为剩余能量函数,更新等式:E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,E(ai,tj-1)为上一时刻剩余能量,Eflying,Erecharge和Echange分别为任务能耗,srec获得的能量和状态改变时的总能耗,展开如下:
Figure GDA0003470535760000076
π(ai,tj)为调度函数,定义了ai∈M在tj∈Γ的状态;G(ai,tj),B(ai,tj)和R(ai,tj)表示ai在时隙tj各动作的执行状态;αt、βt、γh、δh和ψh表示ai处于不同状态时的能量开支。
S4:将S1到S3智能体与环境的交互中获得的当前状态st,当前动作at,执行at所得到的奖励rt,下一步状态st+1,和目标动作at+1组成Transition{st,at,rt,st+1,at+1};
S4.1:将Transition存入经验回放池Experience replay;
S4.2:从Experience replay中分批采样,并通过当前评价层Critic和目标评价层Critic’分别得到对at的评估值Q和at+1的评估值Q';
所述步骤S4.2中的Q=Q(st,at)=E[Rt|st,at],由critic中神经网络DNN获得,其中
Figure GDA0003470535760000081
γ∈(0,1)表示折扣因子;Q'=rt+γQ(st+1,at+1Q'),θQ'表示Critic’中神经网络DNN的参数;
S5:根据Q和Q'的误差
Figure GDA0003470535760000082
形成损失函数Loss functionL(θQ)以更新Critic,从而训练Actor输出高评估值动作;
所述步骤S5中的误差
Figure GDA0003470535760000083
损失函数/>
Figure GDA0003470535760000084
智能体ai的Critic由L(θQ)更新,Actor由更新过参数的Critic通过梯度下降训练。
S6:Transition不断向前更新,输入Actor和Critic中的参数、Q以及L(θQ)随之更新,智能体获得训练过程中的最优策略;
S7:以训练获得高评估值策略为前提,开始系统的执行部分,在同一任务环境不同初始状态下,利用此策略部署无人机执行连续任务并兼顾充电调度。
如图2所示为本发明资源调度状态转移示意图,所述步骤S1中的状态空间
Figure GDA0003470535760000085
由此设定了三个特殊状态/>
Figure GDA0003470535760000086
Figure GDA0003470535760000087
和/>
Figure GDA0003470535760000088
所述步骤S2中at执行时状态改变,图2中箭头表示状态的转移,当smon状态的ai满足/>
Figure GDA0003470535760000089
条件时,动作Go被执行,即达到充电条件的ai到充电站充电,且当前状态变为srec,与此同时处于srep的ai执行Replace,状态变为smon,即代替充电ai执行任务;当处于srec的ai满足/>
Figure GDA00034705357600000810
条件,即已满电且出现了下一个需要充电的ai+1,此时执行Back,满电ai返回任务区域代替需要充电的ai+1执行任务,状态恢复为smon。相似的,当smon状态的ai满足/>
Figure GDA00034705357600000811
条件,即能量仍充足,Stay表示继续执行任务,保持smon,同时处于srep的ai未检测到有充电需求的任务ai,所以Await表示继续待机,保持srep;当处于srec的ai满足/>
Figure GDA00034705357600000812
则表示未充满电,Keep为继续充电,保持srec
本发明目的在于利用由多智能体系统输出合理策略调度多无人机,以达到连续性覆盖和持续服务的目标。如图3所示为本发明的多无人机资源调度实例示意图,结合实例示意图对本发明的具体调度过程进行说明,所述步骤S7中多智能体系统开始执行部分,在相同任务环境但不同初始状态下以训练好的策略调度多无人机执行任务。本实例中,大小为Sm2的圆形区域内共有集合为A={a1,a2,a3,a4,a5,a6}的6架无人机,充电站SE位置为Se=(xe,ye)且初始状态Φ=0。任务区域中各智能体将其他智能体、目标区域和SE的位置,SE的状态Φ以及各智能体剩余电量
Figure GDA0003470535760000091
作为观测值,且彼此间存在无线通信,任务无人机在距地面h的高度处形成协同网络,在连续时间间隔/>
Figure GDA0003470535760000092
以相同初始能量在保证监测任务时兼顾资源调度。
所述步骤S2中ai根据st产生动作,参考图2状态转移示意图,动作Go表示达到能耗阈值且Se空闲,ai停止任务去充电,Stay表示ai电量充足,保持任务状态;Back表示在出现需要充电的ai+1时,满电ai离开Se取代ai+1继续执行任务,Keep表示暂未满电,继续保持充电;Replace表示同一时隙ai执行动作Go同时待机ai开始执行代替任务,Await表示无充电需要,待机ai继续待命。所述步骤S4中执行动作奖励函数
Figure GDA0003470535760000093
利用剩余能量函数计算各无人机的剩余能量:E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,飞行能耗:Eflying=π(ai,tj)·αt,充电获得的能量:Erecharge=(1-π(ai,tj))·βt,状态变化时的总能耗:Echange=G(ai,tj)·γh+B(ai,tj)·δh+R(ai,tj)·ψh;当π(ai,tj)=1,ai在tj处于smon状态,反之ai处于srec状态;G(ai,tj)、B(ai,tj)和R(ai,tj)表示动作执行的状态,G(ai,tj)=1,B(ai,tj)=1和R(ai,tj)=1表示执行动作Go,Back以及Replace,能耗因子αt、βt、γh、δh和ψh分别表示smon状态ai的能耗、srec状态ai获得的能量、从smon到srec的能耗、srec到smon的能耗以及srep到smon的能耗。
在该实例中,当任务无人机在某个时隙内出现充电调度需求时,训练过的策略π=(π12,...,πn)。如图3所示,三架任务无人机A1,A2和A3分别以相同初始能量
Figure GDA0003470535760000101
被部署至目标区域C1,C2和C3并开始执行覆盖监测任务;待机无人机A4,A5和A6待命以协助任务;地面充电站SE的初始状态Φ=0;各无人机任务能耗不同,导致剩余能量不同,即/>
Figure GDA0003470535760000102
所述步骤S1中由st衍生的smon,srec和srep分别为任务、充电和待机状态;其中A1、A2和A3处于smon状态,在tj-1时隙内A3满足充电条件
Figure GDA0003470535760000103
相同时隙内srep状态的A4观测到A3的异常状态;下一时隙A3将执行动作Go,G(ai,tj)=1,同时A4执行Replace,R(ai,tj)=1,图中两处①表示相同时隙内的调度,即A1、A2保持smon,A3由smon变为srec,A4由srep变为smon,调度策略为π1=1,π2=1,π3=0和π4=1;考虑在无惩罚的前提下,即两任务无人机相对距离在限制距离外;A3执行动作Go的奖励函数/>
Figure GDA0003470535760000104
A4执行Replace的奖励/>
Figure GDA0003470535760000105
Go和Replace确定了初步的资源调度;A3与A4分别执行两动作后SE状态改变,即Φ=1;处于srec的A3返回任务的条件为/>
Figure GDA0003470535760000106
假设某一时隙处于smon的A2满足/>
Figure GDA0003470535760000107
满电A3将离开SE执行Back,B(ai,tj)=1,奖励函数/>
Figure GDA0003470535760000108
此时SE状态重置,Φ=0,且A2将执行Go;图中②表示A3的调度,即A1、A4保持smon,A2由smon变为srec,A3由srec变为smon,该时隙内调度策略为π1=1,π2=0,π3=1和π4=1;若在同一时隙内无满足充电条件的无人机,则满电A3执行Stay保持srec。A3在执行Go且A4执行Replace的调度为第一轮调度,而A2执行Go的同时A3执行Back的调度为下一轮调度;当各个任务无人机第一次出现了充电需求时,该多智能体系统所执行的策略为π=(π1=1,π2=1,π3=0,π4=1),直到下一次出现充电需求,应当执行的下一轮策略变为π=(π1=1,π2=0,π3=1,π4=1),以此作为循环,调度无人机满足持续性服务。
如图4所示为本发明的多无人机资源调度仿真实验图,该结果是在Python3.6环境下通过编写程序与仿真环境运行得到,下面结合仿真实验图对本发明的调度过程进行补充说明,所述步骤S7中开始系统的执行部分,利用高评估值策略部署无人机执行连续任务同时兼顾充电调度。本仿真实验中,主要模拟在交通十字路口场景下,部署各无人机从地面到达目标区域上空,为执行监测任务做准备,当任务执行过程中出现需要充电的无人机,则调度开始,且调度过程中需要协调各无人机以满足连续覆盖和持续性服务的目标。如图4a所示,地面待机无人机A1,A2,A3和A4分别被部署至目标区域C1,C2,C3和C4,并开始执行覆盖监测任务;随着监测任务的进行,出现剩余能量接近设定阈值的无人机,此时执行调度策略π进行充电与任务替代。如图4b所示,A4满足充电条件,即将前往充电站SE进行充电,同时待机A5在检测到A4的状态后,也将前往A4所负责的目标区域C4之上进行任务替代;其中充电和替代任务为第一轮调度,其策略为π=(π1=1,π2=1,π3=1,π4=0,π5=1),当出现其他满足充电要求的无人机,则开始第二轮调度,即需要充电的无人机离开目标区域前往充电站,而充满电的无人机返回目标区域代替充电无人机执行监测任务,第二轮调度策略为π=(π1=1,π2=1,π3=0,π4=1,π5=1)。如图4c所示,A5替代A4执行监测任务,且A4充电完成,同时A3满足充电条件,即将离开目标区域C3前往充电站SE充电,满电A4返回到目标区域C3代替A3继续执行监测任务,以保证任务的连续覆盖。
本发明基于多智能体系统的无人机调度框架,分为训练和执行两部分。在训练部分,通过传感器对道路环境进行观测,根据观测的信息得出各智能体的连续状态信息,将其作为多智能体系统的输入值,而最后由系统输出理想的连续动作,即策略;在整个过程中,状态值通过策略层神经网络Actor生成以能耗最低为优化目标的动作,之后由新的状态值产生下一步动作,期间每个动作都经过Critic网络得到对该动作的评估值,由评估值误差形成的损失函数经过梯度下降反馈给策略层Actor,然后由Actor更新网络参数并输出高评估值动作供智能体执行,最后将所有高评估值动作集合起来形成策略。执行部分,处在相同环境不同初始状态下的智能体将以训练好的策略执行任务。相比传统离散空间环境下的调度方法,该方法能在连续状态和动作空间下避免陷入局部最优解,可达到全局最优。

Claims (9)

1.一种基于多智能体协同优化的无人机资源调度方法,其特征在于,包括以下步骤:
S1:收集任务环境中智能体所获得的观测信息obt,将其集合作为智能体状态信息st
S2:由st通过当前策略层Actor得到当前动作at
S3:智能体执行at得到奖励值rt同时获得下步状态信息st+1,并通过目标策略层Actor’获得目标动作at+1
S4:将S1到S3智能体与环境的交互中获得的当前状态st,当前动作at,执行at所得到的奖励rt,下一步状态st+1,和目标动作at+1组成Transition{st,at,rt,st+1,at+1};
S4.1:将Transition存入经验回放池Experience replay;
S4.2:从Experience replay中分批采样,并通过当前评价层Critic和目标评价层Critic’分别得到对at的评估值Q和at+1的评估值Q';
S5:根据Q和Q'的误差
Figure QLYQS_1
形成损失函数Loss functionL(θQ)以更新Critic,从而训练Actor输出高评估值动作;
S6:Transition不断向前更新,输入Actor和Critic中的参数、Q以及L(θQ)随之更新,智能体获得训练过程中的最优策略;
S7:以训练获得高评估值策略为前提,开始系统的执行部分,在同一任务环境不同初始状态下,利用此策略调度任务无人机。
2.根据权利要求1所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S1中,obt由任务无人机通过传感器采集的实时数据组成,obt包括充电站位置Se、充电站状态Φ、目标区域位置Tp、无人机剩余能量
Figure QLYQS_2
以及无人机位置/>
Figure QLYQS_3
其集合
Figure QLYQS_4
其中Se=(xe,ye),Tp=(xo,yo),/>
Figure QLYQS_5
N为任务无人机数量。
3.根据权利要求2所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S2中,st通过Actor输出at并执行,使调度过程满足任务交接时的连续覆盖和最小能耗Eλ;基本动作空间
Figure QLYQS_6
at由a组成,表示第ai架无人机在第t个时间间隙的飞行角度和距离,/>
Figure QLYQS_7
T表示时间间隔数量,其中
Figure QLYQS_8
M为N架无人机的集合,/>
Figure QLYQS_9
为无人机的初始能量。
4.根据权利要求3所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S3中,智能体执行动作at所得到的奖励值
Figure QLYQS_10
5.根据权利要求4所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S4.2中,Q=Q(st,at)=Ε[Rt|st,at],由Critic中神经网络DNN获得,其中
Figure QLYQS_11
γ∈(0,1)表示折扣因子;Q'=rt+γQ(st+1,at+1Q'),θQ'为Critic’神经网络DNN的参数。
6.根据权利要求5所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S5中,误差
Figure QLYQS_12
Figure QLYQS_13
损失函数
Figure QLYQS_14
智能体ai的Critic由L(θQ)更新,Actor由更新过参数的Critic通过梯度下降训练。
7.根据权利要求2所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述S1中ai获得的状态信息
Figure QLYQS_15
为任务无人机的资源调度设置三个状态,smon、srec和srep分别表示任务、充电和待机,其中/>
Figure QLYQS_16
以及/>
Figure QLYQS_17
8.根据权利要求3所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S2中,at执行同时状态转移;若ai在tj-1时隙状态为smon,at={Go,Stay}包括两个动作,即
Figure QLYQS_18
其中Ethr为能耗阈值,/>
Figure QLYQS_19
Figure QLYQS_20
为最大电池容量,Φ=0表示Se空闲,相反则之;若ai在tj-1时隙处于srec,则at={Back,Keep},即/>
Figure QLYQS_21
当ai在tj-1时隙处于smon状态,且下一时隙将执行动作Go,当前时刻处于srep状态的ai动作空间为at={Replace,Await},即/>
Figure QLYQS_22
9.根据权利要求8所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S4中,
Figure QLYQS_23
表示任务无人机总能耗,其中/>
Figure QLYQS_24
表示惩罚值;/>
Figure QLYQS_25
为剩余能量函数,其更新等式为E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,E(ai,tj-1)为上一时刻剩余能量,Eflying,Erecharge和Echange分别表示任务能耗,srec获得的能量和状态变化时的总能耗,展开如下:
Figure QLYQS_26
π(ai,tj)表示调度函数,其定义了ai∈Μ在tj∈Γ的状态;G(ai,tj),B(ai,tj)和R(ai,tj)分别为ai在时隙tj的动作状态;αt、βt、γh、δh和ψh分别表示ai处于不同状态时的能量开支。
CN202111525070.5A 2021-12-14 2021-12-14 一种基于多智能体协同优化的无人机资源调度方法 Active CN114371728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111525070.5A CN114371728B (zh) 2021-12-14 2021-12-14 一种基于多智能体协同优化的无人机资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111525070.5A CN114371728B (zh) 2021-12-14 2021-12-14 一种基于多智能体协同优化的无人机资源调度方法

Publications (2)

Publication Number Publication Date
CN114371728A CN114371728A (zh) 2022-04-19
CN114371728B true CN114371728B (zh) 2023-06-30

Family

ID=81141113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111525070.5A Active CN114371728B (zh) 2021-12-14 2021-12-14 一种基于多智能体协同优化的无人机资源调度方法

Country Status (1)

Country Link
CN (1) CN114371728B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116302898A (zh) * 2023-05-17 2023-06-23 之江实验室 一种任务治理方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068638A1 (zh) * 2019-10-12 2021-04-15 中国海洋大学 结合tamer框架和面部表情反馈的交互强化学习方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068638A1 (zh) * 2019-10-12 2021-04-15 中国海洋大学 结合tamer框架和面部表情反馈的交互强化学习方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于延迟策略的最大熵优势演员评论家算法;祁文凯;桑国明;;小型微型计算机系统(第08期);全文 *

Also Published As

Publication number Publication date
CN114371728A (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
Liu et al. Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning
CN106020189B (zh) 基于邻域约束的空地异构机器人系统路径规划方法
CN112016812B (zh) 多无人机任务调度方法、系统及存储介质
CN110659796B (zh) 一种可充电群车智能中的数据采集方法
CN108256671A (zh) 一种基于学习型遗传算法的多任务多资源滚动分配方法
CN109583665A (zh) 一种无线传感器网络中的无人机充电任务调度方法
CN108762294A (zh) 用于航拍的无人机路径规划方法及管理系统
CN109495945A (zh) 一种WSNs中基于聚类分簇的协同充电方法
CN114371728B (zh) 一种基于多智能体协同优化的无人机资源调度方法
Ghazzai et al. A generic spatiotemporal UAV scheduling framework for multi-event applications
CN111752304B (zh) 无人机数据采集方法及相关设备
Bouhamed et al. A generic spatiotemporal scheduling for autonomous UAVs: A reinforcement learning-based approach
CN113671986B (zh) 空地协同下无人机与车辆的任务分配方法和系统
CN115361689A (zh) 固定站点与无人机搭载边缘服务器的协同部署方法
CN111277951B (zh) 基于贪婪子模的无线可充电传感器网络充电器部署方法
CN116451934A (zh) 多无人机边缘计算路径优化与依赖任务调度优化方法及系统
Liu et al. Task offloading optimization of cruising UAV with fixed trajectory
CN108830449A (zh) 航拍无人机选取方法及系统
Shi et al. Deep q-network based route scheduling for transportation network company vehicles
CN113934228B (zh) 基于协商共识的集群四旋翼无人机任务规划方法
CN113283013B (zh) 一种基于深度强化学习的多无人机充电及任务调度方法
CN114205769A (zh) 基于无人机数据采集系统的联合轨迹优化与带宽分配方法
CN115574826B (zh) 基于强化学习的国家公园无人机巡护路径优化方法
Han et al. Dynamic collaborative charging algorithm for mobile and static nodes in Industrial Internet of Things
CN116578120A (zh) 无人机调度方法、装置、无人机系统和算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant