CN113283013A - 一种基于深度强化学习的多无人机充电及任务调度方法 - Google Patents

一种基于深度强化学习的多无人机充电及任务调度方法 Download PDF

Info

Publication number
CN113283013A
CN113283013A CN202110646077.6A CN202110646077A CN113283013A CN 113283013 A CN113283013 A CN 113283013A CN 202110646077 A CN202110646077 A CN 202110646077A CN 113283013 A CN113283013 A CN 113283013A
Authority
CN
China
Prior art keywords
unmanned aerial
charging
aerial vehicle
task
aerial vehicles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110646077.6A
Other languages
English (en)
Other versions
CN113283013B (zh
Inventor
赵东
马华东
曹铭喆
丁立戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110646077.6A priority Critical patent/CN113283013B/zh
Publication of CN113283013A publication Critical patent/CN113283013A/zh
Application granted granted Critical
Publication of CN113283013B publication Critical patent/CN113283013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Water Supply & Treatment (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

一种基于深度强化学习的多无人机充电及任务调度方法涉及无人机调度技术领域,解决了现有没有考虑充电站的负载和无人机的充电策略对任务调度的影响的问题,方法为:根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度;待无人机执行任务后,根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。本发明有效解决了多无人机充电及任务调度需要优化提高的问题,能够在保证无人机不会能量耗尽的前提下,实现最小化执行任务总体时间的目标,最终得到各个无人机的调度序列,从而能够让相应的多无人机从出发点出发按顺序遍历这些任务点,并在对应的充电站进行自适应充电。

Description

一种基于深度强化学习的多无人机充电及任务调度方法
技术领域
本发明涉及无人机调度技术领域,具体涉及一种基于深度强化学习的多无人机充电及任务调度方法。
背景技术
当前用于多无人机充电及任务调度的方法主要有启发式算法和基于强化学习的算法。启发式算法一般通过人为设计的规则来对无人机的充电和任务调度进行优化。这种方法的不足之处在于它需要人为设计规则,当问题比较复杂,需要考虑多种因素时,这个规则往往无法进行有效的设计,得到的解离最优解较远。基于此,引入交换算子的启发式算法在得到初始解后不断对解进行更新以得到更优的解,但这就会导致时间复杂度的上升,不适用于大规模实时调度系统。
针对以上问题,强化学习技术被用来解决多无人机充电及任务调度问题。深度强化学习方法无需人工设计规则,它可以通过一个深度神经网络学习各种因素之间的关联。训练好的深度强化学习模型在进行动作选择时也可以满足实时性的要求。然而,这类方法也大多忽略了一个重要的客观事实,即一个充电站可以同时为有限的多架无人机充电。它们没有考虑充电站的负载和无人机的充电策略对任务调度的影响,因而不能有效解决我们的多无人机充电及任务调度问题。
发明内容
为了解决现有多无人机充电及任务调度方法仍需要改进的问题,本发明提供一种基于深度强化学习的多无人机充电及任务调度方法。
本发明为解决技术问题所采用的技术方案如下:
一种基于深度强化学习的多无人机充电及任务调度方法,根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度;待无人机执行任务后,根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。
本发明的有益效果是:
本发明的一种基于深度强化学习的多无人机充电及任务调度方法,考虑了充电站的负载和无人机的充电策略对任务调度的影响,有效解决多无人机充电及任务调度需要优化提高的问题,本方法通过深度强化学习模型,无人机调度模块在考虑充电站的负载的情况下调度无人机;同时充电站的充电考虑了剩余任务数量优化了充电策略、提高了充电效率,缓解或避免了充电排队问题,缩短了任务完成时间,提高了任务完成效率。基于本发明,能够在保证无人机不会能量耗尽的前提下,实现最小化执行任务总体时间的目标,最终得到各个无人机的调度序列,从而能够让相应的多无人机从出发点出发按顺序遍历这些任务点,并在对应的充电站进行自适应充电。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
一种基于深度强化学习的多无人机充电及任务调度方法,方法为:根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度;待无人机执行任务后,根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。
多无人机充电及任务调度方法的具体过程为:
步骤一、无人机调度模块根据所有待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度,所述无人机调度模块上载有训练好的深度强化学习模型;
步骤二、待无人机执行任务后,充电站判断所有待执行任务是否完成,如未完成,则充电站根据未执行任务(即剩余任务)的数量、可调度无人机数量和无人机剩余电量对待充电无人机进行充电,进行步骤三;如已完成,则充电站对其上所有待充电无人机进行充电,调度完成;
步骤三、无人机调度模块根据未执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度,返回步骤二。
也就是,无人机调度模块根据任务、无人机群的可调度时刻、充电站的负载,通过训练好的深度强化学习模型,按照时序规划无人机的访问任务点的动作和返回充电站的动作,直到完成所有任务。步骤一中无人机调度模块对可调度无人机进行调度,包括如何调度无人机执行任务和无人机执行某一或某几个任务后航至哪个充电站,即为无人机规划访问任务点和无人机访问某一或某几个任务点后航至哪个充电站,避免部分充电站充电需排队另一部分充电站存在空余充电位的问题。
上述充电站连接无人机调度模块,充电站能够获得无人机调度模块的未执行任务,也就能够获得未执行的任务的数量。
上述深度强化学习模型的建立方法为:
无人机的调度过程可以建模为一个由五元组<S,A,P,R,γ>表示的马尔可夫决策过程,其中S为状态空间,A为动作空间,P为状态转移矩阵;R为即时奖励函数,用于获得在前一状态下采取某一动作并转移到下一个状态的即时奖励;γ∈[0,1]为折扣因子。调度策略是给定状态下的动作概率分布,调度策略π在状态s时选择动作a的概率通过公式(1)计算,公式(1)中P[at=a|st=s]表示在状态s时选择动作a的概率,
π(a|s)=P[at=a|st=s] (1)
st表示时隙t时的状态,at表示状态st时对应的动作。在时隙t时,一个无人机的状态为st,根据策略π采取动作at并转移到状态s(t+1),获得了即时奖励rt,依此能够得到rt+1、rt+2、…、rT,那么该动作at的长期收益Ut根据公式(2)计算,
Figure BDA0003109696140000031
其中,即:rt+m表示时隙t+m时采取动作at+m的即时奖励,m=0、1、…、T-t,T表示最后一个时隙。
公式(3)为最佳长期价值函数,描述在状态st时根据策略π采取动作at的最大长期收益,Q(st,at)为在状态st时选择动作at的最大Q值,Q值为预期未来获得的累计奖励的大小:
Q(st,at)=maxπEπ[Ut|st,at] (3)
其中,Eπ[Ut|st,at]表示在状态st时根据策略π采取动作at的长期收益。
借助公式(3)可以得到相应的最优选择策略(4),即在当前状态st下,采取具有最大长期收益的动作
Figure BDA0003109696140000041
Figure BDA0003109696140000042
其中,Q(st,a)为在状态st时选择动作a的预期未来获得的累计奖励的大小,arg表示求下角标的意思,公式(4)的含义为在时隙t、状态为st的前提下,遍历所有能采取的动作a,将使取得最大值的Q的a作为时隙t所采取的动作at
得到公式(4)则基础建模完成,无人机调度模块对基础建模进行进一步优化,得到最终的建模模型:
设定动作有效性因子G(at)表示动作at是否满足能量约束的要求,其取值定义如下:
Figure BDA0003109696140000043
借助公式(4)可得引入动作有效因子G(at)的最优策略
Figure BDA0003109696140000044
为:
Figure BDA0003109696140000045
然后对马尔可夫决策过程的状态S、动作A和奖励R进行具体的设计。
设充电站集合C={c1,c2,...,cJ},充电站集合中共J个充电站,任务集合D={d1,d2,...,dK},共有K个,无人机群U={u1,u2,...,uI},无人机群中共I个无人机,ui表示无人机群中第i个无人机,T’=[t1,t2,…,tI]记录各无人机可进行调度的时刻,ti表示无人机ui的可调度时间。J、K、I、i均为正整数。
状态S的设计:在无人机ui的可调度时间ti,无人机ui的状态由两部分组成,即无人机ui的状态
Figure BDA0003109696140000046
为无人机ui的全局状态,描述各任务的位置、各任务的完成状态、除无人机ui外其他无人机的位置、除无人机ui外其他无人机的剩余电量、充电站位置及充电站停靠的无人机数量。
Figure BDA0003109696140000047
为无人机ui的局部状态,描述无人机ui的位置、无人机ui的剩余电量、无人机ui与各个任务的相对距离、无人机ui与各个充电站的相对距离。
动作A的设计:动作描述无人机可以去哪里执行任务或者充电。则动作空间可表示为充电站与任务的结合,A={c1,C2,...,cJ,d1,d2,...,dK}。
奖励R的设计:在状态
Figure BDA0003109696140000051
采取动作a后并转移到下一个状态,无人机ui获得一个即时奖励
Figure BDA0003109696140000052
Figure BDA0003109696140000053
当动作a是一个任务时,x=1,y=0;否则,x=0,y=1。β表示当动作a使得无人机电量耗尽时的惩罚,
Figure BDA0003109696140000054
是无人机ui与各个任务的相对距离,
Figure BDA0003109696140000055
即无人机ui与相距最近任务之间的距离,
Figure BDA0003109696140000056
是无人机ui与动作a对应的任务之间的距离,
Figure BDA0003109696140000057
是无人机ui与各个充电站的相对距离,
Figure BDA0003109696140000058
即无人机ui与相距最远充电站之间的距离,
Figure BDA0003109696140000059
是无人机ui与动作a对应的充电站之间的距离,
Figure BDA00031096961400000510
是各个充电站停靠的无人机数量,
Figure BDA00031096961400000511
即各个充电站所停靠无人机数量中的最大值,
Figure BDA00031096961400000512
是停靠在动作a对应的充电站的无人机的数量。
以训练好的最优选择策略
Figure BDA00031096961400000513
作为深度强化学习模型对无人机进行调度。具体为:采用一个集中式训练,分布式执行的方法对最优选择策略
Figure BDA00031096961400000514
进行训练,无人机调度模块基于训练好的最优选择策略
Figure BDA00031096961400000515
为各无人机按照时序规划相应动作。无人机调度模块根据无人机群的可调度时刻T′,针对可以进行任务调度的无人机,为其规划访问任务点和返回充电站充电的动作,直到完成所有任务。
充电站具有自适应充电控制模块,简称充电控制模块。当无人机返回充电站进行充电时,根据充电控制模块的策略进行充电。充电控制模块自适应充电的方法为:充电站根据当前剩余的任务数量决定充电电量,同时充电站选择充电的无人机。
充电站选择充电的无人机:充电站在停靠于该充电站的无人机中,选取剩余能量最多的无人机进行充电,以保证无人机能够更早地起飞来完成任务。
充电站根据当前剩余的任务数量决定无人机的充电电量:当剩余任务数量小于可调度的无人机数量时,为待充电的可调度的无人机充满电,这可以帮助无人机在返回充电站之前完成更多任务;当剩余任务数量大于等于可调度的无人机数量时,充电站为待充电的无人机充电到其足够完成最近的任务并返航,此时充电电量e的计算公式如式(8),这可以帮助节约无人机的充电时间。
Figure BDA0003109696140000061
其中,v为该待充电的无人机的飞行速度,P′为当前待充电的无人机的飞行功率,e(dn)为待充电的无人机完成相距最近任务dn的能耗,dn∈D,为D中的距离待充电无人机最近的一个剩余任务,ei为当前待充电的无人机ui的剩余电量。
上述可调度的无人机为能执行任务的无人机,该无人机有一定电量,且其具有的电量能够执行某一任务。待充电的无人机为位于充电站上由于电量过低导致不可调度的无人机。
本发明提出了基于上下文深度强化学习的多无人机充电及任务调度方法,考虑了充电站的负载和无人机的充电策略对任务调度的影响,有效解决多无人机充电及任务调度需要优化提高的问题,通过无人机调度模块和自适应充电控制模块解决了现有调度方法不能有效解决多无人机充电及任务调度的问题,本方法通过深度强化学习模型,无人机调度模块在考虑充电站的负载的情况下调度无人机;同时充电站的充电考虑了剩余任务数量优化了充电策略、提高了充电效率,缓解或避免了充电排队问题,缩短了任务完成时间,提高了任务完成效率。
本发明提出的一种基于深度强化学习的多无人机充电及任务调度方法,缩短了执行任务总体时间、减低无人机的充电时间,在保证无人机不会能量耗尽的前提下,实现最小化执行任务总体时间的目标,最终得到各个无人机的调度序列,从而能够让相应的多无人机从出发点出发按顺序遍历这些任务点,并在对应的充电站进行自适应充电。
现有的方法没有考虑充电站有限的负载,本方法针对这一点,在深度强化学习的调度模块中对状态空间和奖励函数进行了设计,使得在调度过程中各个充电站的负载更加均衡,进而减少无人机的充电排队时长。此外,动作有效性因子的引入保证了无人机的电量不会耗尽。本方法相比于原有方法引入了自适应充电策略,它选择剩余电量最多的无人机进行充电,使得无人机能尽快去执行任务;并且充电电量根据剩余任务数量和可调度无人机数量进行自适应调整,进一步减少了执行任务的总体时间。

Claims (10)

1.一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,
根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度;
待无人机执行任务后,根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。
2.如权利要求1所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,所述调度方法的具体过程为:
步骤一、无人机调度模块根据所有待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度,所述无人机调度模块上载有训练好的深度强化学习模型;
步骤二、待无人机执行任务后,充电站判断所有待执行任务是否完成,如未完成,则充电站根据未执行任务的数量、可调度无人机数量和无人机剩余电量对待充电无人机进行充电,进行步骤三;如已完成,则充电站对其上所有待充电无人机进行充电,调度完成;
步骤三、无人机调度模块根据未执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度,返回步骤二。
3.如权利要求1所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,所述深度强化学习模型的建立过程为:
深度强化学习模型建模为一个由五元组<S,A,P,R,γ>表示的马尔可夫决策过程,其中S为状态空间,A为动作空间,P为状态转移矩阵;R为即时奖励函数,γ为折扣因子;
调度策略为π(a|s)=P[at=a|st=s],st表示时隙t时的状态,at表示状态st时对应的动作,P[at=a|st=s]表示在状态s时选择动作a的概率;
根据π能够得到动作at的长期收益Ut
Figure FDA0003109696130000011
其中rt+m表示时隙t+m时采取动作at+m的即时奖励,m=t、t+1、…、T,T表示最后一个时隙;
在状态st时根据π采取动作at的最大长期收益为
Q(st,at)=maxπEπ[Ut|st,at]
其中,Eπ[Ut|st,at]表示在状态st时根据策略π采取动作at的长期收益;
根据q(st,at),得到在状态st下的具有最大长期收益的动作
Figure FDA0003109696130000021
Figure FDA0003109696130000022
其中,Q(st,a)为在状态st时选择动作a的预期未来获得的累计奖励的大小。
4.如权利要求3所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,在得到
Figure FDA0003109696130000023
后还包括如下步骤:
设定动作有效性因子G(at)表示动作at是否满足能量约束的要求,其取值定义如下:
Figure FDA0003109696130000024
根据G(at)和
Figure FDA0003109696130000025
得到引入动作有效因子G(at)的最优策略为:
Figure FDA0003109696130000026
5.如权利要求3或4所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,所述马尔可夫决策过程的状态空间S为:设充电站集合C={c1,c2,...,cJ},任务集合D={d1,d2,...,dK},无人机群U={u1,u2,...,uI},ui表示无人机群中第i个无人机,各无人机可进行调度的时刻T′=[t1,t2,…,tI],ti表示无人机ui的可调度时间;在无人机ui的可调度时间ti,ui的状态
Figure FDA0003109696130000027
Figure FDA0003109696130000028
表示各任务的位置和完成状态、除无人机ui外其他无人机的位置和剩余电量、充电站位置和停靠的无人机数量;
Figure FDA0003109696130000029
表示无人机ui的位置和剩余电量、无人机ui与各个任务的相对距离、无人机ui与各个充电站的相对距离。
6.如权利要求5所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,所述无人机调度模块根据任务、无人机群U的可调度时刻T′,通过训练好的
Figure FDA00031096961300000210
按照时序规划无人机的访问任务点的动作和返回充电站的动作,直到完成所有任务。
7.如权利要求5所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,所述马尔可夫决策过程的动作A为:动作描述无人机可以去哪里执行任务或者充电,A={c1,c2,...,cJ,d1,d2,...,dK}。
8.如权利要求5所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,所述马尔可夫决策过程的奖励R为:在状态
Figure FDA0003109696130000031
采取动作a后并转移到下一个状态,无人机ui获得一个即时奖励
Figure FDA0003109696130000032
Figure FDA0003109696130000033
当动作a是一个任务时,x=1,y=0,否则x=0,y=1;β表示当动作a使得无人机电量耗尽时的惩罚,
Figure FDA0003109696130000034
是无人机ui与各个任务的相对距离,
Figure FDA0003109696130000035
即无人机ui与相距最近任务之间的距离,
Figure FDA0003109696130000036
是无人机ui与动作a对应的任务之间的距离,
Figure FDA0003109696130000037
是无人机ui与各个充电站的相对距离,
Figure FDA0003109696130000038
即无人机ui与相距最远充电站之间的距离,
Figure FDA0003109696130000039
是无人机ui与动作a对应的充电站之间的距离,
Figure FDA00031096961300000310
是各个充电站停靠的无人机数量,
Figure FDA00031096961300000311
即各个充电站所停靠无人机数量中的最大值,
Figure FDA00031096961300000312
是停靠在动作a对应的充电站的无人机的数量。
9.如权利要求1所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,所述充电站对待充电无人机进行充电的具体方法为:当剩余任务数量小于可调度无人机数量时,充电站为待充电的可调度无人机充满电,且充电站对待充电的无人机中剩余电量最多的无人机优先进行充电;当剩余任务数量大于等于可调度无人机数量时,充电站为待充电的无人机充电到其足够完成最近的任务并返航的电量,且充电站对待充电的无人机中剩余电量最多的无人机优先进行充电。
10.如权利要求9所述的一种基于深度强化学习的多无人机充电及任务调度方法,其特征在于,当剩余任务数量大于等于可调度的无人机数量时,所述充电站为待充电的无人机充电的充电电量e为
Figure FDA00031096961300000313
其中,v为当前待充电的无人机的飞行速度,P′为当前待充电的无人机的飞行功率,e(dn)为当前待充电的无人机完成相距最近任务dn的能耗,ei为当前无人机ui的剩余电量。
CN202110646077.6A 2021-06-10 2021-06-10 一种基于深度强化学习的多无人机充电及任务调度方法 Active CN113283013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110646077.6A CN113283013B (zh) 2021-06-10 2021-06-10 一种基于深度强化学习的多无人机充电及任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110646077.6A CN113283013B (zh) 2021-06-10 2021-06-10 一种基于深度强化学习的多无人机充电及任务调度方法

Publications (2)

Publication Number Publication Date
CN113283013A true CN113283013A (zh) 2021-08-20
CN113283013B CN113283013B (zh) 2022-07-19

Family

ID=77284134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110646077.6A Active CN113283013B (zh) 2021-06-10 2021-06-10 一种基于深度强化学习的多无人机充电及任务调度方法

Country Status (1)

Country Link
CN (1) CN113283013B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091754A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种多无人机移动基站协同部署及调度方法
CN116415480A (zh) * 2022-09-06 2023-07-11 中国人民解放军海军航空大学 一种基于ipso的飞机海上平台出动离场规划方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846522A (zh) * 2018-07-11 2018-11-20 重庆邮电大学 无人机系统联合充电站部署及路由选择方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111752304A (zh) * 2020-06-23 2020-10-09 深圳清华大学研究院 无人机数据采集方法及相关设备
US20200372410A1 (en) * 2019-05-23 2020-11-26 Uber Technologies, Inc. Model based reinforcement learning based on generalized hidden parameter markov decision processes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846522A (zh) * 2018-07-11 2018-11-20 重庆邮电大学 无人机系统联合充电站部署及路由选择方法
US20200372410A1 (en) * 2019-05-23 2020-11-26 Uber Technologies, Inc. Model based reinforcement learning based on generalized hidden parameter markov decision processes
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111752304A (zh) * 2020-06-23 2020-10-09 深圳清华大学研究院 无人机数据采集方法及相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINWEI XU 等: ""RF Aerialy Charging Scheduling for UAV Fleet: A Q-Learning Approach"", 《2019 15TH INTERNATIONAL CONFERENCE ON MOBILE AD-HOC AND SENSOR NETWORKS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091754A (zh) * 2021-11-23 2022-02-25 北京邮电大学 一种多无人机移动基站协同部署及调度方法
CN116415480A (zh) * 2022-09-06 2023-07-11 中国人民解放军海军航空大学 一种基于ipso的飞机海上平台出动离场规划方法
CN116415480B (zh) * 2022-09-06 2024-01-19 中国人民解放军海军航空大学 一种基于ipso的飞机海上平台出动离场规划方法

Also Published As

Publication number Publication date
CN113283013B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN109388484B (zh) 一种基于Deep Q-network算法的多资源云作业调度方法
CN113283013B (zh) 一种基于深度强化学习的多无人机充电及任务调度方法
CN112766813A (zh) 一种空天协同观测复杂任务调度方法及系统
CN113395676B (zh) 一种基于重叠联盟形成博弈的无人机任务协作方法
CN116001624A (zh) 基于深度强化学习的一桩多联电动汽车有序充电方法
CN113283623A (zh) 兼容储能充电桩的电动运载工具电量路径规划方法
CN113283827B (zh) 一种基于深度强化学习的两阶段无人机物流路径规划方法
CN114091754B (zh) 一种多无人机移动基站协同部署及调度方法
CN113487220A (zh) 面向静态目标观测的空天异构对地观测资源协同调度方法
CN117196169A (zh) 一种基于深度强化学习的机位调度方法
CN118195471A (zh) 一种机器人运输任务调动优化管理方法及系统
CN114201303A (zh) 工业物联网环境下固定路径agv的任务卸载优化方法
CN112566209A (zh) 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN115574826B (zh) 基于强化学习的国家公园无人机巡护路径优化方法
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN115187056A (zh) 一种考虑公平性原则的多智能体协同资源分配方法
CN114371728B (zh) 一种基于多智能体协同优化的无人机资源调度方法
CN114399185A (zh) 一种基于强化学习的电动物流车队行为调度方法
Ma et al. Improved DRL-based energy-efficient UAV control for maximum lifecycle
CN118798682A (zh) 一种基于非合作博弈的电动重卡换电调度方法
CN118261400B (zh) 一种基于改进Q_Learning算法的协同无人机集群资源调度方法
CN116909717B (zh) 一种任务调度方法
CN118521118B (zh) 一种计及车路网交互特性的电动汽车车队调控方法及系统
CN118297357B (zh) 一种基于图注意力神经网络的飞机保障作业调度方法和装置
CN111049125B (zh) 一种基于机器学习的电动车智能接入控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant