CN113283013A

CN113283013A - 一种基于深度强化学习的多无人机充电及任务调度方法

Info

Publication number: CN113283013A
Application number: CN202110646077.6A
Authority: CN
Inventors: 赵东; 马华东; 曹铭喆; 丁立戈
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-20
Anticipated expiration: 2041-06-10
Also published as: CN113283013B

Abstract

一种基于深度强化学习的多无人机充电及任务调度方法涉及无人机调度技术领域，解决了现有没有考虑充电站的负载和无人机的充电策略对任务调度的影响的问题，方法为：根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度；待无人机执行任务后，根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。本发明有效解决了多无人机充电及任务调度需要优化提高的问题，能够在保证无人机不会能量耗尽的前提下，实现最小化执行任务总体时间的目标，最终得到各个无人机的调度序列，从而能够让相应的多无人机从出发点出发按顺序遍历这些任务点，并在对应的充电站进行自适应充电。

Description

一种基于深度强化学习的多无人机充电及任务调度方法

技术领域

本发明涉及无人机调度技术领域，具体涉及一种基于深度强化学习的多无人机充电及任务调度方法。

背景技术

当前用于多无人机充电及任务调度的方法主要有启发式算法和基于强化学习的算法。启发式算法一般通过人为设计的规则来对无人机的充电和任务调度进行优化。这种方法的不足之处在于它需要人为设计规则，当问题比较复杂，需要考虑多种因素时，这个规则往往无法进行有效的设计，得到的解离最优解较远。基于此，引入交换算子的启发式算法在得到初始解后不断对解进行更新以得到更优的解，但这就会导致时间复杂度的上升，不适用于大规模实时调度系统。

针对以上问题，强化学习技术被用来解决多无人机充电及任务调度问题。深度强化学习方法无需人工设计规则，它可以通过一个深度神经网络学习各种因素之间的关联。训练好的深度强化学习模型在进行动作选择时也可以满足实时性的要求。然而，这类方法也大多忽略了一个重要的客观事实，即一个充电站可以同时为有限的多架无人机充电。它们没有考虑充电站的负载和无人机的充电策略对任务调度的影响，因而不能有效解决我们的多无人机充电及任务调度问题。

发明内容

为了解决现有多无人机充电及任务调度方法仍需要改进的问题，本发明提供一种基于深度强化学习的多无人机充电及任务调度方法。

本发明为解决技术问题所采用的技术方案如下：

一种基于深度强化学习的多无人机充电及任务调度方法，根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度；待无人机执行任务后，根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。

本发明的有益效果是：

本发明的一种基于深度强化学习的多无人机充电及任务调度方法，考虑了充电站的负载和无人机的充电策略对任务调度的影响，有效解决多无人机充电及任务调度需要优化提高的问题，本方法通过深度强化学习模型，无人机调度模块在考虑充电站的负载的情况下调度无人机；同时充电站的充电考虑了剩余任务数量优化了充电策略、提高了充电效率，缓解或避免了充电排队问题，缩短了任务完成时间，提高了任务完成效率。基于本发明，能够在保证无人机不会能量耗尽的前提下，实现最小化执行任务总体时间的目标，最终得到各个无人机的调度序列，从而能够让相应的多无人机从出发点出发按顺序遍历这些任务点，并在对应的充电站进行自适应充电。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

一种基于深度强化学习的多无人机充电及任务调度方法，方法为：根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度；待无人机执行任务后，根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。

多无人机充电及任务调度方法的具体过程为：

步骤一、无人机调度模块根据所有待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度，所述无人机调度模块上载有训练好的深度强化学习模型；

步骤二、待无人机执行任务后，充电站判断所有待执行任务是否完成，如未完成，则充电站根据未执行任务(即剩余任务)的数量、可调度无人机数量和无人机剩余电量对待充电无人机进行充电，进行步骤三；如已完成，则充电站对其上所有待充电无人机进行充电，调度完成；

步骤三、无人机调度模块根据未执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度，返回步骤二。

也就是，无人机调度模块根据任务、无人机群的可调度时刻、充电站的负载，通过训练好的深度强化学习模型，按照时序规划无人机的访问任务点的动作和返回充电站的动作，直到完成所有任务。步骤一中无人机调度模块对可调度无人机进行调度，包括如何调度无人机执行任务和无人机执行某一或某几个任务后航至哪个充电站，即为无人机规划访问任务点和无人机访问某一或某几个任务点后航至哪个充电站，避免部分充电站充电需排队另一部分充电站存在空余充电位的问题。

上述充电站连接无人机调度模块，充电站能够获得无人机调度模块的未执行任务，也就能够获得未执行的任务的数量。

上述深度强化学习模型的建立方法为：

无人机的调度过程可以建模为一个由五元组<S,A,P,R,γ>表示的马尔可夫决策过程，其中S为状态空间，A为动作空间，P为状态转移矩阵；R为即时奖励函数，用于获得在前一状态下采取某一动作并转移到下一个状态的即时奖励；γ∈[0,1]为折扣因子。调度策略是给定状态下的动作概率分布，调度策略π在状态s时选择动作a的概率通过公式(1)计算，公式(1)中P[a_t＝a|s_t＝s]表示在状态s时选择动作a的概率，

π(a|s)＝P[a_t＝a|s_t＝s] (1)

s_t表示时隙t时的状态，a_t表示状态s_t时对应的动作。在时隙t时，一个无人机的状态为s_t，根据策略π采取动作a_t并转移到状态s_(t+1)，获得了即时奖励r_t，依此能够得到r_t+1、r_t+2、…、r_T，那么该动作a_t的长期收益U_t根据公式(2)计算，

其中，即：r_t+m表示时隙t+m时采取动作a_t+m的即时奖励，m＝0、1、…、T-t，T表示最后一个时隙。

公式(3)为最佳长期价值函数，描述在状态s_t时根据策略π采取动作a_t的最大长期收益，Q(s_t,a_t)为在状态s_t时选择动作a_t的最大Q值，Q值为预期未来获得的累计奖励的大小：

Q(s_t，a_t)＝max_πEπ[U_t|s_t，a_t] (3)

其中，E_π[U_t|s_t，a_t]表示在状态s_t时根据策略π采取动作a_t的长期收益。

借助公式(3)可以得到相应的最优选择策略(4)，即在当前状态s_t下，采取具有最大长期收益的动作

其中，Q(s_t，a)为在状态s_t时选择动作a的预期未来获得的累计奖励的大小，arg表示求下角标的意思，公式(4)的含义为在时隙t、状态为s_t的前提下，遍历所有能采取的动作a，将使取得最大值的Q的a作为时隙t所采取的动作a_t。

得到公式(4)则基础建模完成，无人机调度模块对基础建模进行进一步优化，得到最终的建模模型：

设定动作有效性因子G(a_t)表示动作a_t是否满足能量约束的要求，其取值定义如下：

借助公式(4)可得引入动作有效因子G(a_t)的最优策略

为：

然后对马尔可夫决策过程的状态S、动作A和奖励R进行具体的设计。

设充电站集合C＝{c₁，c₂，...，c_J}，充电站集合中共J个充电站，任务集合D＝{d₁，d₂，...，d_K}，共有K个，无人机群U＝{u₁，u₂，...，u_I}，无人机群中共I个无人机，u_i表示无人机群中第i个无人机，T’＝[t₁，t₂，…，t_I]记录各无人机可进行调度的时刻，t_i表示无人机u_i的可调度时间。J、K、I、i均为正整数。

状态S的设计：在无人机u_i的可调度时间t_i，无人机u_i的状态由两部分组成，即无人机u_i的状态

为无人机u_i的全局状态，描述各任务的位置、各任务的完成状态、除无人机u_i外其他无人机的位置、除无人机u_i外其他无人机的剩余电量、充电站位置及充电站停靠的无人机数量。

为无人机u_i的局部状态，描述无人机u_i的位置、无人机u_i的剩余电量、无人机u_i与各个任务的相对距离、无人机u_i与各个充电站的相对距离。

动作A的设计：动作描述无人机可以去哪里执行任务或者充电。则动作空间可表示为充电站与任务的结合，A＝{c₁，C₂，...，c_J，d₁，d₂，...，d_K}。

奖励R的设计：在状态

采取动作a后并转移到下一个状态，无人机u_i获得一个即时奖励

当动作a是一个任务时，x＝1，y＝0；否则，x＝0，y＝1。β表示当动作a使得无人机电量耗尽时的惩罚，

是无人机u_i与各个任务的相对距离，

即无人机u_i与相距最近任务之间的距离，

是无人机u_i与动作a对应的任务之间的距离，

是无人机u_i与各个充电站的相对距离，

即无人机u_i与相距最远充电站之间的距离，

是无人机u_i与动作a对应的充电站之间的距离，

是各个充电站停靠的无人机数量，

即各个充电站所停靠无人机数量中的最大值，

是停靠在动作a对应的充电站的无人机的数量。

以训练好的最优选择策略

作为深度强化学习模型对无人机进行调度。具体为：采用一个集中式训练，分布式执行的方法对最优选择策略

进行训练，无人机调度模块基于训练好的最优选择策略

为各无人机按照时序规划相应动作。无人机调度模块根据无人机群的可调度时刻T′，针对可以进行任务调度的无人机，为其规划访问任务点和返回充电站充电的动作，直到完成所有任务。

充电站具有自适应充电控制模块，简称充电控制模块。当无人机返回充电站进行充电时，根据充电控制模块的策略进行充电。充电控制模块自适应充电的方法为：充电站根据当前剩余的任务数量决定充电电量，同时充电站选择充电的无人机。

充电站选择充电的无人机：充电站在停靠于该充电站的无人机中，选取剩余能量最多的无人机进行充电，以保证无人机能够更早地起飞来完成任务。

充电站根据当前剩余的任务数量决定无人机的充电电量：当剩余任务数量小于可调度的无人机数量时，为待充电的可调度的无人机充满电，这可以帮助无人机在返回充电站之前完成更多任务；当剩余任务数量大于等于可调度的无人机数量时，充电站为待充电的无人机充电到其足够完成最近的任务并返航，此时充电电量e的计算公式如式(8)，这可以帮助节约无人机的充电时间。

其中，v为该待充电的无人机的飞行速度，P′为当前待充电的无人机的飞行功率，e(d_n)为待充电的无人机完成相距最近任务d_n的能耗，d_n∈D，为D中的距离待充电无人机最近的一个剩余任务，e_i为当前待充电的无人机u_i的剩余电量。

上述可调度的无人机为能执行任务的无人机，该无人机有一定电量，且其具有的电量能够执行某一任务。待充电的无人机为位于充电站上由于电量过低导致不可调度的无人机。

本发明提出了基于上下文深度强化学习的多无人机充电及任务调度方法，考虑了充电站的负载和无人机的充电策略对任务调度的影响，有效解决多无人机充电及任务调度需要优化提高的问题，通过无人机调度模块和自适应充电控制模块解决了现有调度方法不能有效解决多无人机充电及任务调度的问题，本方法通过深度强化学习模型，无人机调度模块在考虑充电站的负载的情况下调度无人机；同时充电站的充电考虑了剩余任务数量优化了充电策略、提高了充电效率，缓解或避免了充电排队问题，缩短了任务完成时间，提高了任务完成效率。

本发明提出的一种基于深度强化学习的多无人机充电及任务调度方法，缩短了执行任务总体时间、减低无人机的充电时间，在保证无人机不会能量耗尽的前提下，实现最小化执行任务总体时间的目标，最终得到各个无人机的调度序列，从而能够让相应的多无人机从出发点出发按顺序遍历这些任务点，并在对应的充电站进行自适应充电。

现有的方法没有考虑充电站有限的负载，本方法针对这一点，在深度强化学习的调度模块中对状态空间和奖励函数进行了设计，使得在调度过程中各个充电站的负载更加均衡，进而减少无人机的充电排队时长。此外，动作有效性因子的引入保证了无人机的电量不会耗尽。本方法相比于原有方法引入了自适应充电策略，它选择剩余电量最多的无人机进行充电，使得无人机能尽快去执行任务；并且充电电量根据剩余任务数量和可调度无人机数量进行自适应调整，进一步减少了执行任务的总体时间。

Claims

1.一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，

根据待执行任务和充电站的负载、通过深度强化学习模型对可调度无人机进行调度；

待无人机执行任务后，根据未执行任务的数量、可调度无人机数量和无人机剩余电量对停留在充电站上的待充电无人机进行充电。

2.如权利要求1所述的一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，所述调度方法的具体过程为：

步骤二、待无人机执行任务后，充电站判断所有待执行任务是否完成，如未完成，则充电站根据未执行任务的数量、可调度无人机数量和无人机剩余电量对待充电无人机进行充电，进行步骤三；如已完成，则充电站对其上所有待充电无人机进行充电，调度完成；

3.如权利要求1所述的一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，所述深度强化学习模型的建立过程为：

深度强化学习模型建模为一个由五元组<S,A,P,R,γ>表示的马尔可夫决策过程，其中S为状态空间，A为动作空间，P为状态转移矩阵；R为即时奖励函数，γ为折扣因子；

调度策略为π(a|s)＝P[a_t＝a|s_t＝s]，s_t表示时隙t时的状态，a_t表示状态s_t时对应的动作，P[a_t＝a|s_t＝s]表示在状态s时选择动作a的概率；

根据π能够得到动作a_t的长期收益U_t，

其中r_t+m表示时隙t+m时采取动作a_t+m的即时奖励，m＝t、t+1、…、T，T表示最后一个时隙；

在状态s_t时根据π采取动作a_t的最大长期收益为

Q(s_t，a_t)＝max_πE_π[U_t|s_t，a_t]

其中，E_π[U_t|s_t，a_t]表示在状态s_t时根据策略π采取动作a_t的长期收益；

根据q(s_t，a_t)，得到在状态s_t下的具有最大长期收益的动作

其中，Q(s_t，a)为在状态s_t时选择动作a的预期未来获得的累计奖励的大小。

4.如权利要求3所述的一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，在得到

后还包括如下步骤：

根据G(a_t)和

得到引入动作有效因子G(a_t)的最优策略为：

5.如权利要求3或4所述的一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，所述马尔可夫决策过程的状态空间S为：设充电站集合C＝{c₁，c₂，...，c_J}，任务集合D＝{d₁，d₂，...，d_K}，无人机群U＝{u₁，u₂，...，u_I}，u_i表示无人机群中第i个无人机，各无人机可进行调度的时刻T′＝[t₁，t₂，…，t_I]，t_i表示无人机u_i的可调度时间；在无人机u_i的可调度时间t_i，u_i的状态

表示各任务的位置和完成状态、除无人机u_i外其他无人机的位置和剩余电量、充电站位置和停靠的无人机数量；

表示无人机u_i的位置和剩余电量、无人机u_i与各个任务的相对距离、无人机u_i与各个充电站的相对距离。

6.如权利要求5所述的一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，所述无人机调度模块根据任务、无人机群U的可调度时刻T′，通过训练好的

按照时序规划无人机的访问任务点的动作和返回充电站的动作，直到完成所有任务。

7.如权利要求5所述的一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，所述马尔可夫决策过程的动作A为：动作描述无人机可以去哪里执行任务或者充电，A＝{c₁，c₂，...，c_J，d₁，d₂，...，d_K}。

8.如权利要求5所述的一种基于深度强化学习的多无人机充电及任务调度方法，其特征在于，所述马尔可夫决策过程的奖励R为：在状态

当动作a是一个任务时，x＝1，y＝0，否则x＝0，y＝1；β表示当动作a使得无人机电量耗尽时的惩罚，