CN114371728B - 一种基于多智能体协同优化的无人机资源调度方法 - Google Patents
一种基于多智能体协同优化的无人机资源调度方法 Download PDFInfo
- Publication number
- CN114371728B CN114371728B CN202111525070.5A CN202111525070A CN114371728B CN 114371728 B CN114371728 B CN 114371728B CN 202111525070 A CN202111525070 A CN 202111525070A CN 114371728 B CN114371728 B CN 114371728B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- resource scheduling
- agent
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000005457 optimization Methods 0.000 title claims description 21
- 230000009471 action Effects 0.000 claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims abstract description 32
- 238000005265 energy consumption Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 44
- 238000012544 monitoring process Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000004088 simulation Methods 0.000 description 5
- 230000002688 persistence Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 102000034354 Gi proteins Human genes 0.000 description 1
- 108091006101 Gi proteins Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000178 monomer Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法,优化多无人机系统的协同调度能力,首先以任务环境中智能体状态st作为多智能体系统输入,然后通过策略网络输出动作at并由评价网络评估,最后输出由连续动作组成的调度策略π;针对连续覆盖和持续性服务两个目标,提出了特殊状态空间和动作空间,通过动作评估机制确定最优调度策略,构造了合理的动作奖励函数rt,使低能耗和连续覆盖的策略成为多智能体系统更好的选择,在算法中设置的经验回放单元随状态和动作空间的更新而改变,通过误差和损失函数L(θQ)来训练输出高评估值动作at,并以此方式共同更新其他智能体,对任务环境中其他智能体的策略进行联合评估,提高多无人机系统的协同调度能力。
Description
技术领域
本发明属于无人机调度技术领域,具体涉及一种基于多智能体协同优化的无人机资源调度方法。
背景技术
随着智能交通系统的迅速发展,道路固定式监测设备将逐渐跟不上交通监测的需求,不仅存在监测盲区的问题,而且大量布置监测设备也会导致冗余问题。由于无人机具有灵活和便携等优点,可装配监测设备在道路中进行大范围覆盖监测,以辅助固定监测设备,然而在部署过程中,需满足连续覆盖和持续性服务,由于机载能源的局限性,应考虑合理的充电调度。因此无人机资源调度问题便成了重要的研究点,特别是针对道路交通环境下,考虑连续覆盖任务和资源调度问题亟待解决。
目前针对覆盖任务下无人机持续服务的方法很多,从部署方式和任务区域两方面出发,有不同的覆盖方式。根据部署方式可分为随机覆盖和确定性覆盖,根据任务区域不同需求,分为点覆盖和区域覆盖。确定性覆盖和区域覆盖结合的方式在考虑持续性服务的部署中应用较广,主要利用k-means算法,得到无人机二维坐标和覆盖半径。在覆盖的同时考虑连续任务,通过将充电调度与覆盖任务结合的方式来满足连续任务,主要思路是利用能量充足的无人机代替能量不足的无人机,从调度策略方面出发,循环调度应用较广,即低电量无人机充电,由满电量或高电量无人机代替其执行任务,当能量补充结束再返回执行任务。
虽然针对覆盖和持续性服务的方法在部署和充电调度方面都能得到最优调度策略,但仍存在待解决的问题。大多数考虑飞行高度和用户数量的覆盖任务部署都属于静态部署;涉及动态部署和调度时,需考虑部署中飞行与通信能耗,以及移动用户的负载,会导致优化目标的计算难度增大;在持续性服务上,充电调度以能耗为主要约束,同时考虑目标区域位置,充电站位置及覆盖半径等因素,利用粒子群算法寻找近似最优调度策略,由于算法收敛速度过快,导致局部搜索精度不高,容易陷入局部最优。
大多数无人机覆盖任务部署和持续服务方法针对静态单体部署,而且其简单的环境约束并不适用于复杂多变的城市智能交通场景。随着智能交通系统的迅速发展,在道路交通环境下,基于多智能体协同优化的无人机资源调度策略的研究十分必要。
发明内容
本发明的目的是提供一种基于多智能体协同优化的无人机资源调度方法,使任务中资源调度过程满足连续覆盖和最小能耗。
本发明解决其技术问题的技术方案为:一种基于多智能体协同优化的无人机资源调度方法,其特征在于,包括以下步骤:
S1:收集任务环境中智能体所获得的观测信息obt,将其集合作为智能体的状态信息st;
S2:由st通过当前策略层Actor得到智能体当前动作at;
S3:智能体执行at得到奖励值rt同时获得下一步状态信息st+1,并通过目标策略层Actor’获得目标动作at+1;
S4:将S1到S3智能体与环境的交互中获得的当前状态st,当前动作at,执行at所得到的奖励rt,下一步状态st+1,和目标动作at+1组成Transition{st,at,rt,st+1,at+1};
S4.1:将Transition存入经验回放池Experience replay;
S4.2:从Experience replay中分批采样,并通过当前评价层Critic和目标评价层Critic’分别得到对at的评估值Q和at+1的评估值Q';
S6:Transition不断向前更新,输入Actor和Critic中的参数、Q以及L(θQ)随之更新,智能体获得训练过程中的最优策略;
S7:以训练获得高评估值策略为前提,开始系统的执行部分,在同一任务环境不同初始状态下,利用此策略部署无人机执行连续任务并兼顾充电调度。
多无人机资源调度策略建立在任务部署已就绪的前提下,所述步骤S1中观测信息obt由任务无人机通过传感器采集的实时数据所组成,obt包括充电站位置Se、充电站状态Φ、目标区域位置Tp、各无人机剩余能量和各无人机位置/>其集合/>其中Se=(xe,ye),Tp=(xo,yo),/>N表示任务无人机数量。
所述步骤S2中st通过Actor输出at并执行,使调度过程满足任务交接时的连续覆盖和最小能耗Eλ;at由基本动作空间a组成,表示第ai架无人机在第t个时间间隙的飞行角度和距离,/>T表示时间间隔的数量,其中 M为N架无人机的集合,/>为无人机的初始能量。
所述的智能体at执行时状态转移,若ai在tj-1时刻状态为smon,at={Go,Stay}包括两个动作,即其中Ethr为能耗阈值, 为最大电池容量,Φ=0表示Se空闲,相反则之;若ai在tj-1时刻处于srec,则at={Back,Keep},即/>当ai在tj-1时刻处于smon状态,且下一时隙将执行动作Go,在当前时刻处于srep状态的ai动作空间at={Replace,Await},即/>
所述的表示任务无人机总能耗,其中/>表示惩罚值;/>为剩余能量函数,其更新等式为E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,E(ai,tj-1)为上一时刻剩余能量,Eflying,Erecharge和Echange分别表示任务能耗,srec获得的能量和状态变化时的总能耗,展开如下:π(ai,tj)表示调度函数,定义了ai∈M在tj∈Γ的状态;G(ai,tj),B(ai,tj)和R(ai,tj)分别表示ai在时隙tj的动作状态;αt、βt、γh、δh和ψh分别表示ai处于不同状态时的能量开支。
所述步骤S4.2中的Q=Q(st,at)=E[Rt|st,at],由critic中神经网络DNN获得,其中γ∈(0,1)表示折扣因子;Q'=rt+γQ(st+1,at+1|θQ'),θQ'为Critic’中神经网络DNN的参数;
本发明的有益效果为:本发明基于多智能体系统的无人机调度框架,分为训练和执行两部分。在训练部分,通过传感器对道路环境进行观测,根据观测的信息得出各智能体的连续状态信息,将其作为多智能体系统的输入值,而最后由系统输出理想的连续动作,即策略;在整个过程中,状态值通过策略层神经网络Actor生成以能耗最低为优化目标的动作,之后由新的状态值产生下一步动作,期间每个动作都经过Critic网络得到对该动作的评估值,由评估值误差形成的损失函数经过梯度下降反馈给策略层Actor,然后由Actor更新网络参数并输出高评估值动作供智能体执行,最后将所有高评估值动作集合起来形成策略。执行部分,处在相同环境不同初始状态下的智能体将以训练好的策略执行任务。相比传统离散空间环境下的调度方法,该方法能在连续状态和动作空间下避免陷入局部最优解,可达到全局最优。
附图说明
图1是本发明的流程图。
图2是本发明的资源调度状态转移示意图。
图3是本发明的多无人机资源调度示意图。
图4是本发明的多无人机资源调度仿真实验图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的核心思想是在智能交通环境下基于多智能体协同优化的无人机资源调度策略,考虑各无人机已由起点完全部署至目标区域的任务初始位置,并开始执行覆盖监测任务。在任务过程中,以任务环境中智能体的状态空间st作为多智能体系统的输入,最后输出由连续动作空间at组成的充电调度策略,即最优策略π=(π1,π2,...,πn),针对连续覆盖和持续性服务两个目标,提出了特殊状态空间和动作空间,并通过动作评估机制更快确定最优调度策略,构造了合理的动作奖励函数rt,使低能耗和连续覆盖的调度策略成为多智能体系统更好的选择,在算法中设置的经验回放单元随状态和动作空间的更新而改变,通过误差和损失函数L(θQ)来训练输出高评估值动作at,并以此方式共同更新其他智能体,对任务环境中其他智能体的策略进行联合评估,提高多无人机系统的协同调度能力。
图1为基于多智能体协同优化的无人机资源调度流程图,结合流程图对本发明的具体实施方案进行说明,包括以下步骤:
S1:收集任务环境中智能体所获得的观测信息obt,将其集合作为智能体的状态信息st;
所述步骤S1中obt由任务无人机通过传感器采集的实时数据组成,obt包括充电站位置Se、充电站状态Φ、目标区域位置Tp、无人机剩余能量以及无人机位置/>其集合其中Se=(xe,ye),Tp=(xo,yo),/>N为任务无人机数量。
S2:由st通过当前策略层Actor得到智能体当前动作at;
所述步骤S2中,st通过Actor输出at并执行,使调度过程满足任务交接时的连续覆盖和最小能耗Eλ;基本动作空间表示第ai架无人机在第t个时间间隙的飞行角度和距离,动作空间at由a所构成,其中/>M为N架无人机集合,T表示时间间隔的数量;/> 为无人机的初始能量。
所述的at执行时状态转移,若ai在tj-1时刻状态为smon,at={Go,Stay}包括两个动作,即其中Ethr为能耗阈值,/> 为最大电池容量,Φ=0表示Se处于空闲状态,Φ=1则表示Se已被占用;若ai在tj-1时刻处于srec,则at={Back,Keep},即/>当ai在tj-1时刻处于smon状态,且下一时隙将执行动作Go,在当前时刻处于srep状态的ai动作空间at={Replace,Await},即/>
S3:智能体执行at得到奖励值rt同时获得下一步状态信息st+1,并通过目标策略层Actor’获得目标动作at+1;
所述的表示任务无人机总能耗,其中/>表示对某动作的惩罚值;/>为剩余能量函数,更新等式:E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,E(ai,tj-1)为上一时刻剩余能量,Eflying,Erecharge和Echange分别为任务能耗,srec获得的能量和状态改变时的总能耗,展开如下:π(ai,tj)为调度函数,定义了ai∈M在tj∈Γ的状态;G(ai,tj),B(ai,tj)和R(ai,tj)表示ai在时隙tj各动作的执行状态;αt、βt、γh、δh和ψh表示ai处于不同状态时的能量开支。
S4:将S1到S3智能体与环境的交互中获得的当前状态st,当前动作at,执行at所得到的奖励rt,下一步状态st+1,和目标动作at+1组成Transition{st,at,rt,st+1,at+1};
S4.1:将Transition存入经验回放池Experience replay;
S4.2:从Experience replay中分批采样,并通过当前评价层Critic和目标评价层Critic’分别得到对at的评估值Q和at+1的评估值Q';
所述步骤S4.2中的Q=Q(st,at)=E[Rt|st,at],由critic中神经网络DNN获得,其中γ∈(0,1)表示折扣因子;Q'=rt+γQ(st+1,at+1|θQ'),θQ'表示Critic’中神经网络DNN的参数;
S6:Transition不断向前更新,输入Actor和Critic中的参数、Q以及L(θQ)随之更新,智能体获得训练过程中的最优策略;
S7:以训练获得高评估值策略为前提,开始系统的执行部分,在同一任务环境不同初始状态下,利用此策略部署无人机执行连续任务并兼顾充电调度。
如图2所示为本发明资源调度状态转移示意图,所述步骤S1中的状态空间由此设定了三个特殊状态/> 和/>所述步骤S2中at执行时状态改变,图2中箭头表示状态的转移,当smon状态的ai满足/>条件时,动作Go被执行,即达到充电条件的ai到充电站充电,且当前状态变为srec,与此同时处于srep的ai执行Replace,状态变为smon,即代替充电ai执行任务;当处于srec的ai满足/>条件,即已满电且出现了下一个需要充电的ai+1,此时执行Back,满电ai返回任务区域代替需要充电的ai+1执行任务,状态恢复为smon。相似的,当smon状态的ai满足/>条件,即能量仍充足,Stay表示继续执行任务,保持smon,同时处于srep的ai未检测到有充电需求的任务ai,所以Await表示继续待机,保持srep;当处于srec的ai满足/>则表示未充满电,Keep为继续充电,保持srec。
本发明目的在于利用由多智能体系统输出合理策略调度多无人机,以达到连续性覆盖和持续服务的目标。如图3所示为本发明的多无人机资源调度实例示意图,结合实例示意图对本发明的具体调度过程进行说明,所述步骤S7中多智能体系统开始执行部分,在相同任务环境但不同初始状态下以训练好的策略调度多无人机执行任务。本实例中,大小为Sm2的圆形区域内共有集合为A={a1,a2,a3,a4,a5,a6}的6架无人机,充电站SE位置为Se=(xe,ye)且初始状态Φ=0。任务区域中各智能体将其他智能体、目标区域和SE的位置,SE的状态Φ以及各智能体剩余电量作为观测值,且彼此间存在无线通信,任务无人机在距地面h的高度处形成协同网络,在连续时间间隔/>以相同初始能量在保证监测任务时兼顾资源调度。
所述步骤S2中ai根据st产生动作,参考图2状态转移示意图,动作Go表示达到能耗阈值且Se空闲,ai停止任务去充电,Stay表示ai电量充足,保持任务状态;Back表示在出现需要充电的ai+1时,满电ai离开Se取代ai+1继续执行任务,Keep表示暂未满电,继续保持充电;Replace表示同一时隙ai执行动作Go同时待机ai开始执行代替任务,Await表示无充电需要,待机ai继续待命。所述步骤S4中执行动作奖励函数利用剩余能量函数计算各无人机的剩余能量:E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,飞行能耗:Eflying=π(ai,tj)·αt,充电获得的能量:Erecharge=(1-π(ai,tj))·βt,状态变化时的总能耗:Echange=G(ai,tj)·γh+B(ai,tj)·δh+R(ai,tj)·ψh;当π(ai,tj)=1,ai在tj处于smon状态,反之ai处于srec状态;G(ai,tj)、B(ai,tj)和R(ai,tj)表示动作执行的状态,G(ai,tj)=1,B(ai,tj)=1和R(ai,tj)=1表示执行动作Go,Back以及Replace,能耗因子αt、βt、γh、δh和ψh分别表示smon状态ai的能耗、srec状态ai获得的能量、从smon到srec的能耗、srec到smon的能耗以及srep到smon的能耗。
在该实例中,当任务无人机在某个时隙内出现充电调度需求时,训练过的策略π=(π1,π2,...,πn)。如图3所示,三架任务无人机A1,A2和A3分别以相同初始能量被部署至目标区域C1,C2和C3并开始执行覆盖监测任务;待机无人机A4,A5和A6待命以协助任务;地面充电站SE的初始状态Φ=0;各无人机任务能耗不同,导致剩余能量不同,即/>
所述步骤S1中由st衍生的smon,srec和srep分别为任务、充电和待机状态;其中A1、A2和A3处于smon状态,在tj-1时隙内A3满足充电条件相同时隙内srep状态的A4观测到A3的异常状态;下一时隙A3将执行动作Go,G(ai,tj)=1,同时A4执行Replace,R(ai,tj)=1,图中两处①表示相同时隙内的调度,即A1、A2保持smon,A3由smon变为srec,A4由srep变为smon,调度策略为π1=1,π2=1,π3=0和π4=1;考虑在无惩罚的前提下,即两任务无人机相对距离在限制距离外;A3执行动作Go的奖励函数/>A4执行Replace的奖励/>Go和Replace确定了初步的资源调度;A3与A4分别执行两动作后SE状态改变,即Φ=1;处于srec的A3返回任务的条件为/>假设某一时隙处于smon的A2满足/>满电A3将离开SE执行Back,B(ai,tj)=1,奖励函数/>此时SE状态重置,Φ=0,且A2将执行Go;图中②表示A3的调度,即A1、A4保持smon,A2由smon变为srec,A3由srec变为smon,该时隙内调度策略为π1=1,π2=0,π3=1和π4=1;若在同一时隙内无满足充电条件的无人机,则满电A3执行Stay保持srec。A3在执行Go且A4执行Replace的调度为第一轮调度,而A2执行Go的同时A3执行Back的调度为下一轮调度;当各个任务无人机第一次出现了充电需求时,该多智能体系统所执行的策略为π=(π1=1,π2=1,π3=0,π4=1),直到下一次出现充电需求,应当执行的下一轮策略变为π=(π1=1,π2=0,π3=1,π4=1),以此作为循环,调度无人机满足持续性服务。
如图4所示为本发明的多无人机资源调度仿真实验图,该结果是在Python3.6环境下通过编写程序与仿真环境运行得到,下面结合仿真实验图对本发明的调度过程进行补充说明,所述步骤S7中开始系统的执行部分,利用高评估值策略部署无人机执行连续任务同时兼顾充电调度。本仿真实验中,主要模拟在交通十字路口场景下,部署各无人机从地面到达目标区域上空,为执行监测任务做准备,当任务执行过程中出现需要充电的无人机,则调度开始,且调度过程中需要协调各无人机以满足连续覆盖和持续性服务的目标。如图4a所示,地面待机无人机A1,A2,A3和A4分别被部署至目标区域C1,C2,C3和C4,并开始执行覆盖监测任务;随着监测任务的进行,出现剩余能量接近设定阈值的无人机,此时执行调度策略π进行充电与任务替代。如图4b所示,A4满足充电条件,即将前往充电站SE进行充电,同时待机A5在检测到A4的状态后,也将前往A4所负责的目标区域C4之上进行任务替代;其中充电和替代任务为第一轮调度,其策略为π=(π1=1,π2=1,π3=1,π4=0,π5=1),当出现其他满足充电要求的无人机,则开始第二轮调度,即需要充电的无人机离开目标区域前往充电站,而充满电的无人机返回目标区域代替充电无人机执行监测任务,第二轮调度策略为π=(π1=1,π2=1,π3=0,π4=1,π5=1)。如图4c所示,A5替代A4执行监测任务,且A4充电完成,同时A3满足充电条件,即将离开目标区域C3前往充电站SE充电,满电A4返回到目标区域C3代替A3继续执行监测任务,以保证任务的连续覆盖。
本发明基于多智能体系统的无人机调度框架,分为训练和执行两部分。在训练部分,通过传感器对道路环境进行观测,根据观测的信息得出各智能体的连续状态信息,将其作为多智能体系统的输入值,而最后由系统输出理想的连续动作,即策略;在整个过程中,状态值通过策略层神经网络Actor生成以能耗最低为优化目标的动作,之后由新的状态值产生下一步动作,期间每个动作都经过Critic网络得到对该动作的评估值,由评估值误差形成的损失函数经过梯度下降反馈给策略层Actor,然后由Actor更新网络参数并输出高评估值动作供智能体执行,最后将所有高评估值动作集合起来形成策略。执行部分,处在相同环境不同初始状态下的智能体将以训练好的策略执行任务。相比传统离散空间环境下的调度方法,该方法能在连续状态和动作空间下避免陷入局部最优解,可达到全局最优。
Claims (9)
1.一种基于多智能体协同优化的无人机资源调度方法,其特征在于,包括以下步骤:
S1:收集任务环境中智能体所获得的观测信息obt,将其集合作为智能体状态信息st;
S2:由st通过当前策略层Actor得到当前动作at;
S3:智能体执行at得到奖励值rt同时获得下步状态信息st+1,并通过目标策略层Actor’获得目标动作at+1;
S4:将S1到S3智能体与环境的交互中获得的当前状态st,当前动作at,执行at所得到的奖励rt,下一步状态st+1,和目标动作at+1组成Transition{st,at,rt,st+1,at+1};
S4.1:将Transition存入经验回放池Experience replay;
S4.2:从Experience replay中分批采样,并通过当前评价层Critic和目标评价层Critic’分别得到对at的评估值Q和at+1的评估值Q';
S6:Transition不断向前更新,输入Actor和Critic中的参数、Q以及L(θQ)随之更新,智能体获得训练过程中的最优策略;
S7:以训练获得高评估值策略为前提,开始系统的执行部分,在同一任务环境不同初始状态下,利用此策略调度任务无人机。
9.根据权利要求8所述的一种基于多智能体协同优化的无人机资源调度方法,其特征在于:所述步骤S4中,表示任务无人机总能耗,其中/>表示惩罚值;/>为剩余能量函数,其更新等式为E(ai,tj)=E(ai,tj-1)-Eflying+Erecharge-Echange,E(ai,tj-1)为上一时刻剩余能量,Eflying,Erecharge和Echange分别表示任务能耗,srec获得的能量和状态变化时的总能耗,展开如下:π(ai,tj)表示调度函数,其定义了ai∈Μ在tj∈Γ的状态;G(ai,tj),B(ai,tj)和R(ai,tj)分别为ai在时隙tj的动作状态;αt、βt、γh、δh和ψh分别表示ai处于不同状态时的能量开支。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111525070.5A CN114371728B (zh) | 2021-12-14 | 2021-12-14 | 一种基于多智能体协同优化的无人机资源调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111525070.5A CN114371728B (zh) | 2021-12-14 | 2021-12-14 | 一种基于多智能体协同优化的无人机资源调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114371728A CN114371728A (zh) | 2022-04-19 |
CN114371728B true CN114371728B (zh) | 2023-06-30 |
Family
ID=81141113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111525070.5A Active CN114371728B (zh) | 2021-12-14 | 2021-12-14 | 一种基于多智能体协同优化的无人机资源调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114371728B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116302898A (zh) * | 2023-05-17 | 2023-06-23 | 之江实验室 | 一种任务治理方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021068638A1 (zh) * | 2019-10-12 | 2021-04-15 | 中国海洋大学 | 结合tamer框架和面部表情反馈的交互强化学习方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
-
2021
- 2021-12-14 CN CN202111525070.5A patent/CN114371728B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021068638A1 (zh) * | 2019-10-12 | 2021-04-15 | 中国海洋大学 | 结合tamer框架和面部表情反馈的交互强化学习方法 |
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于延迟策略的最大熵优势演员评论家算法;祁文凯;桑国明;;小型微型计算机系统(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114371728A (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Distributed and energy-efficient mobile crowdsensing with charging stations by deep reinforcement learning | |
CN106020189B (zh) | 基于邻域约束的空地异构机器人系统路径规划方法 | |
CN112016812B (zh) | 多无人机任务调度方法、系统及存储介质 | |
CN110659796B (zh) | 一种可充电群车智能中的数据采集方法 | |
CN108256671A (zh) | 一种基于学习型遗传算法的多任务多资源滚动分配方法 | |
CN109583665A (zh) | 一种无线传感器网络中的无人机充电任务调度方法 | |
CN108762294A (zh) | 用于航拍的无人机路径规划方法及管理系统 | |
CN109495945A (zh) | 一种WSNs中基于聚类分簇的协同充电方法 | |
CN114371728B (zh) | 一种基于多智能体协同优化的无人机资源调度方法 | |
Ghazzai et al. | A generic spatiotemporal UAV scheduling framework for multi-event applications | |
CN111752304B (zh) | 无人机数据采集方法及相关设备 | |
Bouhamed et al. | A generic spatiotemporal scheduling for autonomous UAVs: A reinforcement learning-based approach | |
CN113671986B (zh) | 空地协同下无人机与车辆的任务分配方法和系统 | |
CN115361689A (zh) | 固定站点与无人机搭载边缘服务器的协同部署方法 | |
CN111277951B (zh) | 基于贪婪子模的无线可充电传感器网络充电器部署方法 | |
CN116451934A (zh) | 多无人机边缘计算路径优化与依赖任务调度优化方法及系统 | |
Liu et al. | Task offloading optimization of cruising UAV with fixed trajectory | |
CN108830449A (zh) | 航拍无人机选取方法及系统 | |
Shi et al. | Deep q-network based route scheduling for transportation network company vehicles | |
CN113934228B (zh) | 基于协商共识的集群四旋翼无人机任务规划方法 | |
CN113283013B (zh) | 一种基于深度强化学习的多无人机充电及任务调度方法 | |
CN114205769A (zh) | 基于无人机数据采集系统的联合轨迹优化与带宽分配方法 | |
CN115574826B (zh) | 基于强化学习的国家公园无人机巡护路径优化方法 | |
Han et al. | Dynamic collaborative charging algorithm for mobile and static nodes in Industrial Internet of Things | |
CN116578120A (zh) | 无人机调度方法、装置、无人机系统和算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |