CN114048689B

CN114048689B - 基于深度强化学习的多无人机空中充电和任务调度方法

Info

Publication number: CN114048689B
Application number: CN202210034831.5A
Authority: CN
Inventors: 夏景明; 王亮; 李斌; 谈玲
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-15
Anticipated expiration: 2042-01-13
Also published as: CN114048689A

Abstract

本发明公开了一种基于深度强化学习的多无人机空中充电和任务调度方法，包括：构建多无人机群辅助边缘计算模型；预设每个无人机的计算资源；构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型；以无人机群能耗最小为优化目标，采用DDQN算法求解用户设备的卸载决策；采用差分进化算法求解无人机的计算资源分配策略；再次利用差分进化算法对无人机部署策略进行优化；迭代直至获得无人机的部署策略、无人机的计算资源最优分配策略，以及用户设备的最优卸载决策。本发明考虑到了多无人机之间的协作，无人机之间计算资源的平衡，使部分无人机充当中继站，将任务传输给其他无人机来计算，以获得无人机系统能耗最小的最优卸载决策。

Description

基于深度强化学习的多无人机空中充电和任务调度方法

技术领域

本发明涉及多无人机协同的任务调度和空中能量捕获技术领域，具体而言涉及一种基于深度强化学习的多无人机空中充电和任务调度方法。

背景技术

随着第五代（5G）移动网络的大规模商业运营，需要高速网络支持的软件相续出现，如移动应用，移动在线游戏、增强现实和智能导航等。然而，这些应用程序大多数都是需要大量密集资源以及高质量网络服务，这使得只靠用户自身的移动设备是很难能够处理这些软件数据的，因为一般移动设备的电池容量和计算资源都十分有限，短时间内处理不了如此庞大的数据，电量消耗上也不允许，而移动边缘计算主要通过部署在高空无人机上的服务器来给附件的用户提供服务，用户通过自身设备将任务卸载给附近的高空无人机，让无人机来处理任务并传回计算结果；与传统的地面基站相比，移动边缘计算不仅在资源密集型任务中表现优秀，还对于突发性灾难和高密度人群区域的网络卡顿以及信号差等问题带来了解决方案；同时基于无人机本身的灵活性、易部署性和低成本等特点，移动边缘计算在自然灾害、紧急事件、时变热点人群聚集区和附近没有基站的边远山区时使用效果非常突出。近年来，移动边缘计算也自然成为了热点研究项目之一。

移动边缘计算的问题主要聚焦在以下几点：降低能耗、计算资源分配以及无人机续航等。国内外大多数研究中都会针对能耗问题进行一定的优化，而计算资源分配和无人机续航则少有研究涉及。一般情况下用户都会把任务传输给最近的无人机或基站等计算节点进行计算，而在人群聚集区，单无人机或基站的计算资源和服务覆盖范围总归是有限的，无法服务数量庞大的任务数据。同时，远处的无人机或基站由于没有用户上传任务导致机器空闲，计算资源浪费。所以，部署多个无人机并使之相互合作，配合基站传输任务给空闲的计算节点是非常有必要的。

多无人机协同是指部署多架无人机，无人机不仅可以计算任务，还能相互卸载任务给对方，同时也能接受或传输任务给地面基站，由于一般无人机上都附有天线设备，传输速度和传输范围都比用户的移动设备要快和广。当多无人机系统中有部分无人机出现任务量过载，整个系统会自动调配平衡各个无人机之间的任务量，将任务数据量与计算资源相匹配，把过载无人机上的多余任务传输给其他闲置的无人机，使得计算资源能够有效的利用，最大程度上的降低能耗；但多无人机的部署位置，各无人机与用户之间的关联性，以及如何得到平衡有效的任务调度，都是多无人机系统需要面临的问题。

在续航方面，一般无人机都会自带充满电的电池在高空中为用户服务。一般服务几个小时之后就会因为电量不足飞回充电处充电然后再次飞向高空服务用户。目前有部分研究对于续航的解决方案是给无人机装上太阳能电池板，使无人机在空闲状态下可以通过太阳能来给自身恢复电量，延长服务时间；而面临的问题也很显然，一旦天气不好或在夜间服务时，太阳能板的能量转化率很低，无法有效为无人机供电，使无人机的自动续航功能限制在了白天。

2021.02.19公开的发明（CN112381265A）中提及一种基于无人机的充电和任务卸载系统及其任务耗时优化方法，向用户设备提供本地计算的消耗电量和将任务卸载的消耗电量，通过对用户设备所具备资源的最大化利用，使用户设备能在最短时间内处理或传输其任务数据，在这个前提下，通过对本地计算和卸载计算两种模式下任务总耗时的比较权衡，选择最优于用户设备体验的策略方案，实现了系统任务完成总耗时最小化的目标。该发明不涉及无人机空中充电情形下的最优任务调度。

2021.08.24公开的发明（CN113296963A）中提及一种考虑用户移动性的无人机辅助的边缘计算方法，包括：建立由数字孪生驱动的无人机辅助计算网络；由无人机辅助计算网络实时反馈用户、无人机和空闲设备的实时数据、位置和状态；以降低用户总时延为目标，采用分布式深度学习求解用户的卸载策略；利用差分进化学习求解无人机的位置部署。本发明可以有效的利用孪生网络反馈用户实时数据，获得全局近优解的无人机部署和卸载策略，降低用户的处理时延。该发明同样不涉及无人机空中充电情形下的最优任务调度。

发明内容

本发明针对现有技术中的不足，提供一种基于深度强化学习的多无人机空中充电和任务调度方法，根据各无人机的位置、用户位置、待执行任务数量，通过深度强化学习模型进行任务调度，得到最佳卸载决策。在无人机闲置的时候，无人机上的能量板能够吸收太阳能或地面基站发射的能量波来转化为自身电量，提高无人机的续航能力。本发明考虑到了多无人机之间的协作，无人机之间计算资源的平衡，使部分无人机充当中继站，将任务传输给其他无人机来计算，以获得无人机系统能耗最小的最优卸载决策。

为实现上述目的，本发明采用以下技术方案：

本发明实施例提出了一种基于深度强化学习的多无人机空中充电和任务调度方法，所述多无人机空中充电和任务调度方法包括以下步骤：

S1，根据第三方收集的数据，得到环境中各个用户和基站的位置，构建多无人机群辅助边缘计算模型；

S2，初始化无人机群的部署位置，预设每个无人机的计算资源；

S3，构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型；每个用户设备的计算任务有三种不同的卸载方式: 本地计算、近端卸载和远端卸载；本地计算是指计算任务在用户设备上执行；近端卸载是指用户设备将计算任务卸载到其最近无人机节点；远端卸载是指用户设备将计算任务先卸载到最近的无人机节点，以此无人机作为中继站，帮助用户把任务传输给其他无人机进行计算；当无人机电量不足时，此无人机会中止计算服务，将全部任务传给其他无人机后专心吸收太阳能和能量波来充电，同时充当任务中继站；

S4，基于步骤S3的优化模型，以无人机群能耗最小为优化目标，采用DDQN算法求解用户设备的卸载决策；

S5，基于无人机的当前位置和S4得到的卸载决策，采用差分进化算法求解无人机的计算资源分配策略；

S6，基于求解出的用户设备的卸载决策和无人机的计算资源分配策略，再次利用差分进化算法对无人机部署策略进行优化；

S7，循环执行步骤S4至步骤S6，直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值，或者达到最大预设迭代次数时，迭代结束，获得无人机的部署策略、无人机的计算资源最优分配策略，以及用户设备的最优卸载决策。

进一步地，步骤S2中，根据区域范围内的用户密度，初始化无人机群的部署位置。

进一步地，S3，构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型的过程包括以下步骤：

S31，设环境中的用户设备总数量为

，

是指第

个用户设备，

，无人机总数量为𝑁，第𝑛架无人机的编号为𝑛,∀𝑛∈𝑁；

构造三维坐标欧几里得坐标系模型，其中用户设备i的位置为

，

，无人机j的位置为

，

，无人机固定高度为H；每个用户设备都有一个要执行的任务

，

，其中

表示完成

的CPU周期总数，

表示用户设备输入数据的大小，

表示计算任务

的最大时延；

每个无人机均配备两个通信模块；其中一个通信模块包括半功率波束宽度仰角为2θ∈(0，π)的定向天线，用于与用户设备传输通信，另一个通信模块包括全向天线，用于与其他无人机传输通信；

S32，设

表示用户i的近端无人机边缘节点集，

表示远端无人机边缘节点集

；它产生以下约束:

；

设

表示处于充电过程中的无人机集合，

表示处于正常工作状态中的无人机集合，用户设备i的近端无人机边缘节点集

和远端无人机边缘节点集

表示为：

它产生以下约束：

；

设无人机j覆盖的用户设备集合为

，未覆盖的用户设备集合为

，每个无人机同时执行的最大任务数为

，产生以下约束：

；

S33，设

表示用户的卸载决策；其中，

表示用户i的任务自己执行，否则为0；

表示用户i的任务卸载到近端无人机边缘节点j，否则为0；

表示用户i的任务通过近端无人机边缘节点

的中继卸载到远端无人机边缘节点k，否则为0；同时用户的计算任务只能在一个设备上执行，不能多设备执行同一个任务；计算任务卸载决策有以下限制:

；

S34，无人机j到无人机k的传输数据速率为：

；

其中

为信道带宽，

为无人机j的发射功率，

为参考距离1m处的信道功率增益，

为无人机k与无人机j之间的距离平方，

为噪声功率谱密度；

用户i到无人机j的上传数据速率为:

其中，

是用户i的信道带宽，

是用户i的传输功率，

是参考距离1 m处的信道功率增益，

是M用户i和无人机j之间的距离平方，

是噪声功率谱密度，

为正常数，G₀≈ 2.2846；

S35，当用户的卸载决策为本地卸载时，其计算时延和计算能耗的公式为：

其中

为用户i的有效交换电容，

为用户i本身的计算资源；

当用户的卸载决策为近端卸载时，其计算时延和计算能耗的公式为：

其中

为近端无人机j的有效切换电容，

为近端无人机j为用户i分配的计算资源，

为用户i本身设备的传输发射功率；

当用户的卸载决策为远端卸载时，其计算时延和计算能耗的公式为：

其中

是远端无人机k为用户 i分配的计算资源，

是中继无人机j的发射功率；

用户设备i对应的能耗公式以及时延公式如下所示：

其中

是用户选择本地卸载时的能耗，

是用户选择本地卸载时的时延；

是用户选择近端卸载时的能耗；

是用户选择远端卸载时的能耗；

S36,设无人机自带大小容量为

的电池，无人机空中捕获能量的效率公式表示为：

其中，

为每个无人机在

时间内所捕获的能量，

为第n个子信道的增益，

为基站向第n个子信道广播发射功率；

无人机的太阳能板充电效率为：

其中

代表能量转换效率，

代表太阳能电池板的面积，

代表地球上的平均太阳辐射，

是大气透过率的最大值，

是大气的消光系数，

地球的尺度高度；

无人机电量警戒值设为满电量的20%，即：

无人机从警戒值到满电所需要的充电时间为：

其中

是无人机飞行时的能量消耗速率；

无人机充当中继站的同时从警戒值到满电所需要的充电时间为：

充电约束如下：

；

S37，总系统能耗优化问题如下：

其中目标函数表示整个系统的能耗，

表示的是无人机的悬停能耗；约束C1和C2 表示用户的位置在规定范围内，约束C3和C4表示无人机的位置在规定范围内，约束C5表示所有任务的处理时延不能超过最大时延

。

进一步地，步骤S4中，采用DDQN算法求解用户设备的卸载决策的过程包括以下步骤：

S41，建模深度强化学习模型，模型参数包括：迭代轮数T、状态特征维度n、动作集 A、步长α、衰减因子γ、探索率

、网络结构Q、用于表示马尔可夫决策过程的批量梯度下降的样本数m、状态S、动作A、执行完A后的奖励函数R和执行完A后的下一状态S′；

S42, 初始化S为当前状态序列的第一个状态, 获取其特征向量

；

S43，在Q网络中使用

作为输入，得到Q网络的所有动作对应的Q值输出；用

− 贪婪法在当前Q值输出中选择对应的动作A；

S44，在状态S执行当前动作A,得到新状态S′对应的特征向量

和奖励R；

S45，将

这个五元组存入经验回放集合D；

S46，令S=S′；

S47，从经验回放集合D中采样m个样本

，计算当前目标Q值

：

；

S48，使用均方差损失函数

，通过神经网络的梯度反向传播来更新Q网络的所有参数w；

S49，如果S′是终止状态，当前轮迭代完毕，否则转到S43；

S410，迭代执行S42 至S49，直到满足预设终止条件时为止，输出基于当前无人机部署和资源分配的最优卸载决策。

进一步地，步骤S5中，采用差分进化算法求解无人机的计算资源分配策略的过程包括以下步骤：

S51，将每个无人机的坐标当作一个个体，所有无人机的个体组合起来，生成无人机种群；基于步骤S4得到的卸载决策，将所有无人机的资源分配表示为一个种群，每个无人机分给任务的资源被编码成一个个体；

代表第

代无人机的资源分配：

其中

表示无人机j分给所有在此无人机上计算的任务的计算资源,

;

S52，初始化生成无人机的资源分配策略为

，构造种群P(X，1)；在第

代中，每个个体

执行变异和交叉操作以生成新的个体

；

S53，基于卸载决策分别评估新的和旧的资源分配决策，选择最佳个体作为下一代，表述为:

其中

代表

取代

，

表示基于之前的卸载决策，给定资源分配后整体系统的能耗情况，当

比

表现的要优秀时，

；

S54，循环步骤S52和S53直到达到迭代次数上线或满足相应的预设条件时为止。

进一步地，步骤S6中，基于求解出的用户设备的卸载决策和无人机的计算资源分配策略，再次利用差分进化算法对无人机部署策略进行优化的过程包括以下步骤：

S61，基于S5步骤得到的资源分配，将所有无人机的位置表示为一个种群，每个无人机的坐标被编码成一个个体，

代表第

代无人机的x，y轴坐标；

S62，令无人机的位置为

，构造种群P(X，1)；在第

代中，每个个体

执行变异和交叉操作以生成新的个体

；

S63，基于卸载决策和任务调度分别评估新的和旧的无人机部署位置，并选择最佳个体作为下一代，其表述为:

其中

代表

取代

，

表示基于之前的卸载决策和资源分配，根据相应无人机位置求出整体系统的能耗情况，当

比

表现的优秀时，

。

进一步地，所述多无人机空中充电和任务调度方法还包括以下步骤：

S8,在无人机自身空闲的情况下，无人机发送充电需求至地面基站或其他设施，地面基站或其他设施向空中发射能量波供无人机吸收充电，同时无人机也能够通过自身的太阳能板来吸收太阳能，以此恢复自身电量；

其中，在无人机正在处理任务时，若电量小于设定的电量警戒值，停止当前任务，将自身所有任务传输给其他无人机，自身开始专心吸收能量充电，直至电量高于80%，期间该无人机充当中继站帮助其他无人机转发任务。

进一步地，所述电量警戒值为20%总电量。

本发明的有益效果是：

本发明公开的一种基于深度强化学习的多无人机空中充电和任务调度方法，涉及多无人机协同的任务调度和空中能量捕获，具体而言为一种多无人机相互合作卸载任务，在空闲时间会捕获太阳能或基站发射的能量波来给无人机自身充电。本发明考虑到了多无人机之间的协作，无人机之间计算资源的平衡，使部分无人机充当中继站，将任务传输给其他无人机来计算，以获得无人机系统能耗最小的最优卸载决策。

附图说明

图1是本发明实施例的基于深度强化学习的多无人机空中充电和任务调度方法流程图。

图2是本发明实施例的多无人机协同计算模型图。

图3是本发明实施例的深度强化学习网络结构示意图。

图4是本发明实施例的深度强化学习结果收敛情况示意图。

图5是本发明实施例的差分进化学习种群示意图。

图6是在完成多无人机协同计算的同时，考虑到无人机空中蓄能的流程示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

图1是本发明实施例的基于深度强化学习的多无人机空中充电和任务调度方法流程图。参见图1，该多无人机空中充电和任务调度方法根据自身任务数量和电量，通过深度强化学习模型来对无人机进行调度，无人机会将多余的任务传输给附近有多余计算资源的无人机来计算；当无人机电量不足时，此无人机会中止计算服务，将全部任务传给其他无人机后专心吸收太阳能和能量波来充电，同时充当任务中继站。具体步骤为：

S1，根据第三方收集的数据，得到环境中各个用户和基站的位置，构建多无人机群辅助边缘计算模型；该模型可以使无人机之间相互协作，可以相互卸载来自用户的任务，减少无人机的空闲状态，降低计算资源的浪费。

S2，先初始化一组无人机的部署位置，预设好每个无人机的计算资源，之后的步骤将通过此步骤初始化的无人机位置和计算资源来求得用户的卸载决策和任务调度；一开始拟定的无人机位置是尽可能人为的把无人机安排在用户密集的区域，同时通过固定计算资源给下一步的深度强化学习提供一个相对简单的环境来得出卸载决策。

S3，基于步骤S1和S2获得的用户位置及任务等信息，无人机位置及计算资源等信息，构建多无人机位置部署，用户设备卸载决策和计算资源分配的优化模型。

S4，基于步骤S3构建的优化模型，使用DDQN算法求解用户设备的卸载决策，DDQN是深度强化学习的一种， DDQN是基于DQN的算法，与DQN的最大不同之处就是解决了DQN的过估计问题；在DQN的基础上，将动作的选择和动作的评估分别用不同的值函数来实现，解决了DQN在每次学习时，不是使用下一次交互的真实动作，而是使用当前认为价值最大的动作来更新目标值函数（对于真实的策略来说并在给定的状态下并不是每次都选择使得Q值最大的动作，所以在这里目标值直接选择动作最大的Q值往往会导致目标值要高于真实值），使得目标Q值的计算更加准确。

S5，基于步骤S2的无人机初始位置和S4得到的卸载决策，应用差分进化算法求解无人机的计算资源分配策略。

S6，基于步骤S5求解出的用户设备卸载决策和无人机的计算资源分配策略，再次利用差分进化算法得到更好的无人机部署策略。

S7，循环执行步骤S4和步骤S6，直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值，或者达到最大预设迭代次数时，迭代结束，即获得无人机的部署策略，无人机的计算资源最优分配策略，以及获得用户设备的最优卸载决策。

可选地，步骤S3中，基于第三方收集和S2中拟定的数据来得到环境中的信息来建立优化模型，包括：

利用自第三方收集的数据中得到环境中各用户设备数量

，和其位置信息，假设最终的无人机数量为𝑁，第𝑛架无人机的编号为𝑛,∀𝑛∈𝑁。

S31，构造了一个三维坐标欧几里得坐标系模型，其中用户位置由

给出，

，无人机位置由

，

，无人机固定高度为H给出。此外，本实施例假定每个用户设备都有一个要执行的任务

，

可以描述为

，其中

描述完成

的CPU周期总数，

表示用户设备输入数据的大小，

表示计算任务

的最大时延。至于无人机边缘节点，我们假设它们配备了两个通信模块。一个通信模块有一个半功率波束宽度仰角为2θ∈(0，π)的定向天线，用于与用户设备传输通信，另一个通信模块有一个全向天线，用于与其他无人机传输通信。

S32，参见图2，在上述多无人机边缘网络系统中每个用户设备的计算任务可以有三种不同的卸载方式: 本地计算、近端卸载和远端卸载。本地计算意味着计算任务在用户设备上执行；近端卸载意味着用户设备将计算任务卸载到其最近无人机节点。远端卸载意味着用户设备将计算任务先卸载到最近的无人机节点，然后此无人机作为中继站，帮助用户把任务传输给其他无人机进行计算；为了更清楚地表达计算任务卸载策略，我们引入

来表示用户i的近端无人机边缘节点集，

来表示远端无人机边缘节点集

；它产生以下约束:

。

S33，考虑到无人机在空中进行能量捕获时，只能作为中继站给用户提供任务传输服务，而不能够给用户提供计算任务服务，引入

表示处于充电过程中的无人机集合，

表示处于正常工作状态中的无人机集合，所以用户i的近端无人机边缘节点集

和远端无人机边缘节点集

进一步表示为：

；

它产生以下约束：

；

同时，假设无人机j覆盖的用户设备集合为

，未覆盖的用户设备集合为

，每个无人机同时执行的最大任务数为

，产生以下约束：

。

S34，引入

来表示用户的卸载决策，

表示用户i的任务自己执行，否则为0；

表示用户i的任务卸载到近端无人机边缘节点j，否则为0；

表示用户i的任务通过近端无人机边缘节点

的中继卸载到远端无人机边缘节点k，否则为0。同时用户的计算任务只能在一个设备上执行，不能多设备执行同一个任务。计算任务卸载决策有以下限制：

。

S35，在本实施例的优化模型中，每个无人机边缘节点配备有两个通信模块。考虑到空中没有障碍物，无人机通信链路的视线通道占优势。因此，从无人机到无人机的信道增益被描述为自由空间路径损耗模型。然后，无人机j到无人机k的传输数据速率给出为：

；

其中

为信道带宽，

为无人机j的发射功率，

为参考距离1m处的信道功率增益，

为无人机k与无人机j之间的距离平方，

为噪声功率谱密度。

用户i到无人机j的上传数据速率给定为:

；

其中，

是用户i的信道带宽，

是用户i的传输功率，

是参考距离1 m处的信道功率增益，

是M用户i和无人机j之间的距离平方，

是噪声功率谱密度。

为正常数(≈ 2.2846)。

S36，当用户的卸载决策为本地卸载时，其计算时延和计算能耗的公式为：

其中

为用户i的有效交换电容，

为用户i本身的计算资源。

其中

为近端无人机j的有效切换电容，

为近端无人机j为用户i分配的计算资源，

为用户i本身设备的传输发射功率。

其中

是远端无人机k为用户 i分配的计算资源，

是中继无人机j的发射功率。

本实施例的能耗公式以及时延公式如下所示：

其中

是用户选择本地卸载时的能耗，时延

同理；

是用户选择近端卸载时的能耗；

是用户选择远端卸载时的能耗。

S37,无人机自带大小容量为

的电池，无人机空中捕获能量的效率公式可以表示为：

其中，

为每个无人机在

时间内所捕获的能量，

为第n个子信道的增益，

为基站向第n个子信道广播发射功率。

无人机的太阳能板充电效率为：

其中

代表能量转换效率，

代表太阳能电池板的面积，

代表地球上的平均太阳辐射，

是大气透过率的最大值，

是大气的消光系数，

地球的尺度高度。可以看出，海拔越高，总是越好获得的太阳能。

无人机电量警戒值设为满电量的20%，即：

无人机从警戒值到满电所需要的充电时间为：

其中

是无人机飞行时的能量消耗速率。

。

为了防止充电时，继续充当中继站的无人机在传输时消耗的能量比充电获得的能量还大，现有以下约束：

。

S38总系统能耗优化问题如下：

本优化问题主要是为了使无人机能耗最小化，间接延长无人机空中工作时间，其中目标函数表示整个系统的能耗，

表示的是无人机的悬停能耗。约束C1和C2表示用户的位置在规定范围内，约束C3和C4表示无人机的位置在规定范围内，约束C5表示所有任务的处理时延不能超过最大时延

。

参见图3，步骤S4中，应用深度强化学习里的DDQN算法求解用户设备的卸载决策，选择DDQN算法而不选择其他的深度强化学习算法主要是因为DDQN在DQN的基础上，将动作的选择和动作的评估分别用不同的值函数来实现，解决了DQN在每次学习时，不是使用下一次交互的真实动作，而是使用当前认为价值最大的动作来更新目标值函数，使得目标Q值的计算更加准确；具体操作内容包括：

S41，深度强化学习模型建模为迭代轮数T，状态特征维度n, 动作集A, 步长α，衰减因子γ, 探索率

，网络结构Q, 批量梯度下降的样本数m表示的马尔可夫决策过程，S为状态，A为动作，R为执行完A后的奖励函数，S′为执行完A后的下一状态.

S42, 初始化S为当前状态序列的第一个状态, 拿到其特征向量

。

S43，在Q网络中使用

作为输入，得到Q网络的所有动作对应的Q值输出。用

− 贪婪法在当前Q值输出中选择对应的动作A。

S44，在状态S执行当前动作A,得到新状态S′对应的特征向量

和奖励R。

S45，将

这个五元组存入经验回放集合D。

S46，S=S′。

S47，从经验回放集合D中采样m个样本

，计算当前目标Q值

：

。

S48，使用均方差损失函数

，通过神经网络的梯度反向传播来更新Q网络的所有参数w。

S49，如果S′是终止状态，当前轮迭代完毕，否则转到S43。

S410，迭代进行S42 至S49，直到满足条件时为止，最终深度强化学习模型输出的是基于当前无人机部署和资源分配的最优卸载决策。

步骤S5中，应用差分进化算法求解无人机的计算资源分配策略。

S51，原本求解无人机的部署是一个十分复杂的问题，使用传统的凸优化办法求解，复杂度太高。相反，差分进化学习虽然不一定能求解出全局最优解，但是该方法能够以较小的复杂度求解出全局近优解，在可以接受的情况下，差分进化学习更加具有实用性。具体来说，每个无人机的坐标当作一个个体。所有无人机的个体组合起来，生成无人机种群。基于S4步骤得到的卸载决策，本实施例将所有无人机的资源分配表示为一个种群，每个无人机分给任务的资源被编码成一个个体。P(X，g)代表第g代无人机的资源分配：

其中

，表示无人机j分给所有在此无人机上计算的任务的计算资源。

S52，本实施例初始化生成无人机的资源分配策略为

，构造种群P(X，1)；然后，在第g代中，每个个体

执行变异和交叉操作以生成新的个体

。

S53，本实施例基于卸载决策分别评估新的和旧的资源分配决策，并选择最佳个体作为下一代，其可以表述为:

其中

代表

取代

，

比

表现的要优秀时，

。

S54，循环步骤S5-2和S5-3直到达到迭代次数上线或满足条件时为止。

步骤S6中，基于步骤S5求解出的用户设备卸载决策和无人机的计算资源分配策略，再次利用差分进化算法得到更好的无人机部署策略，具体包括：

S61，基于S5步骤得到的资源分配，将所有无人机的位置表示为一个种群，每个无人机的坐标被编码成一个个体。P(X，g)代表第g代无人机的x，y轴坐标，具体公式同S51。

S62，本实施例使用步骤S2中拟定的出书无人机的位置为

，构造种群P(X，1)；然后，在第g代中，每个个体

执行变异和交叉操作以生成新的个体

。

S63，本实施例基于卸载决策和任务调度分别评估新的和旧的无人机部署位置，并选择最佳个体作为下一代，其表述为:

其中

代表

取代

，

比

表现的优秀时，

。

图4是本发明实施例的深度强化学习结果收敛情况示意图。

步骤S7中，循环执行步骤S4和步骤S6，直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值，或者达到最大预设迭代次数时，迭代结束，即获得无人机的部署策略，无人机的计算资源最优分配策略，以及获得用户设备的最优卸载决策。

参见图6，此外，前述空中蓄能方法，具体包括：

在无人机自身有计算任务时，不进行吸收能量的充电操作，在无人机自身空闲的情况下，自动进行吸收能量并转化成自身电量的充电操作；在无人机充电的同时，无人机也可以通过充当中继站来帮助用户将任务传输给其他无人机；一旦无人机有充电需求，地面基站或其他设施向空中发射能量波供无人机吸收充电，同时无人机也能够通过自身的太阳能板来吸收太阳能，以此恢复自身电量；在无人机正在处理任务时，若电量小于设定的警戒值（例如20%），立马停止任务，并将自身所有任务传输给其他无人机，自身开始专心吸收能量充电，直至电量高于80%，期间依旧可充当中继站帮助其他无人机。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的多无人机空中充电和任务调度方法，其特征在于，所述多无人机空中充电和任务调度方法包括以下步骤：

S3，构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型；每个用户设备的计算任务有三种不同的卸载方式:本地计算、近端卸载和远端卸载；本地计算是指计算任务在用户设备上执行；近端卸载是指用户设备将计算任务卸载到其最近无人机节点；远端卸载是指用户设备将计算任务先卸载到最近的无人机节点，以此无人机作为中继站，帮助用户把任务传输给其他无人机进行计算；当无人机电量不足时，此无人机会中止计算服务，将全部任务传给其他无人机后专心吸收太阳能和能量波来充电，同时充当任务中继站；

S7，循环执行步骤S4至步骤S6，直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值，或者达到最大预设迭代次数时，迭代结束，获得无人机的部署策略、无人机的计算资源最优分配策略，以及用户设备的最优卸载决策；

步骤S4中，采用DDQN算法求解用户设备的卸载决策的过程包括以下步骤：

S41，建模深度强化学习模型，模型参数包括：迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、网络结构Q、用于表示马尔可夫决策过程的批量梯度下降的样本数m、状态S、动作A、执行完A后的奖励函数R和执行完A后的下一状态S′；

S42,初始化S为当前状态序列的第一个状态,获取其特征向量φ(S)；

S43，在Q网络中使用φ(S)作为输入，得到Q网络的所有动作对应的Q值输出；用∈-贪婪法在当前Q值输出中选择对应的动作A；

S44，在状态S执行当前动作A,得到新状态S′对应的特征向量φ(S′)和奖励R；

S45，将{φ(S)，A，R，φ(S′)，end}这个五元组存入经验回放集合D；

S46，令S＝S′；

S47，从经验回放集合D中采样m个样本{φ(S_j)，A_j，R_j，φ(S′_j)，end_j},j＝1,2…,m，计算当前目标Q值y_j：

S48，使用均方差损失函数

通过神经网络的梯度反向传播来更新Q网络的所有参数w；

S49，如果S′是终止状态，当前轮迭代完毕，否则转到S43；

S410，迭代执行S42至S49，直到满足预设终止条件时为止，输出基于当前无人机部署和资源分配的最优卸载决策。

2.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法，其特征在于，步骤S2中，根据区域范围内的用户密度，初始化无人机群的部署位置。

3.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法，其特征在于，S3，构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型的过程包括以下步骤：

S31，设环境中的用户设备总数量为M，m是指第m个用户设备，

无人机总数量为N，第n架无人机的编号为n,

构造三维坐标欧几里得坐标系模型，其中用户设备i的位置为(x_i,y_i,0)，i∈M，无人机j的位置为(X_j,Y_j,H)，j∈N，无人机固定高度为H；每个用户设备都有一个要执行的任务U_i，

其中C_i表示完成U_i的CPU周期总数，D_i表示用户设备输入数据的大小，

表示计算任务U_i的最大时延；

S32，设N_i表示用户i的近端无人机边缘节点集，N′_i表示远端无人机边缘节点集i∈M；它产生以下约束:

设U₀表示处于充电过程中的无人机集合，U₁表示处于正常工作状态中的无人机集合，用户设备i的近端无人机边缘节点集U_i和远端无人机边缘节点集U′_i表示为：

N_i∪U₁＝U_i,N′_i∪U₁＝U′_i

它产生以下约束：

设无人机j覆盖的用户设备集合为M_j，未覆盖的用户设备集合为M′_j，每个无人机同时执行的最大任务数为n_max，产生以下约束：

S33，设a_i,j,k表示用户的卸载决策；其中，a_i,0,0＝1表示用户i的任务自己执行，否则为0；a_i,j,0＝1表示用户i的任务卸载到近端无人机边缘节点j，否则为0；a_i,j,k＝1表示用户i的任务通过近端无人机边缘节点j的中继卸载到远端无人机边缘节点k，否则为0；同时用户的计算任务只能在一个设备上执行，不能多设备执行同一个任务；计算任务卸载决策有以下限制: