CN116669071A

CN116669071A - 一种可持续无人机通信网络中的太阳能充电决策方法

Info

Publication number: CN116669071A
Application number: CN202310574894.4A
Authority: CN
Inventors: 承楠; 王龙鑫; 孙瑞锦; 尹志胜; 惠一龙
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-29

Abstract

本发明公开了一种可持续无人机通信网络中的太阳能充电决策方法，包括：为无人机群建立网络模型；基于OFDMA完成频谱接入；对无人机功耗及收获的太阳能建模；利用建立的模型以预设工作时段内最大化服务用户总数、最大化收获的太阳能总量和最小化无人机网络能耗为优化目标，以网络可持续性约束和用户流量需求为约束条件构建优化问题并解耦为两个子问题；利用获取的服务中无人机的数量、用户在各时隙下的分布情况以及第一深度强化学习算法，求解第一子问题得到各时隙下无人机数量与最大服务用户数之间的映射；基于第一子问题的求解结果、获取的预设工作时段内变化的太阳辐射强度及第二深度强化学习算法，求解第二子问题得到无人机最佳充电策略。

Description

一种可持续无人机通信网络中的太阳能充电决策方法

技术领域

本发明属于无人机通信领域，具体涉及一种可持续无人机通信网络中的太阳能充电决策方法。

背景技术

无人机由于其高机动性和低成本在很多领域得到了广泛的应用。历史上，无人机主要体现在军事上的应用，而近些年来，随着成本的不断降低和设备的小型化，小型无人机现在更容易被公众使用。在民用和商业领域都出现了许多新的应用，典型的案例包括天气检测、森林火灾检测、交通控制、紧急搜索、通信中继等。在无人机支持的各种应用中，使用无人机实现的高速无线通信有望在未来的移动通信网络中发挥重要作用。在实际的应用中，装备有无线收发器的无人机可被用做移动基站，为地面用户提供按需服务，形成基于无人机的通信网络，可以为没有基础设施覆盖的设备提供无线连接，例如为偏远地区或自然灾害对通信基础设施造成严重损害的地区的设备进行服务。而相较于其他的无线连接手段如借助高空平台等，基于无人机的通信网络具有以下几个重要优势。

首先，按需的无人机系统更具成本效益，并且部署速度更快，这使得该系统非常适配意外或持续时间有限的任务。其次，在低空无人机的帮助下，在大多数情况下该系统都可以建立短距离视距通信链路，相较于长距离视距链路或源和目的地之间的直接通信都会显著提高性能。此外，无人机的机动性为动态调整无人机的状态以适应不断变化的通信环境提供更大的可能。

目前无人机通信网络面对的一大挑战是能量问题，无人机系统的性能和运行时间受到机载能量的限制，系统有限的能源供应严重阻碍了无人机的续航能力。为解决该问题，一方面需要考虑减少无人机不必要的能耗，无人机的移动应通过考虑与每一次机动相关的能耗谨慎地进行控制，例如避免一些不必要的飞机机动或上升下降。另一方面，越来越多的系统考虑设计一种智能能源管理系统以提升能源的使用效率，例如利用无人机间的合作，实现系统中连续的能源补充。

目前，当考虑使用一组数量固定的无人机群时，国内外现有的工作主要集中在无人机群的控制上，很少有工作研究当无人机组成员发生动态变化时，无人机通信系统应如何达到最佳响应。基于此，在2021年，来自Miami University的Ran Zhang教授提出一种新型响应式的无人机目标控制策略，一方面，使得无人机可由电池供电，当一些无人机在服务期间电池耗尽后，退出网络进行充电，另一方面可以随时补充无人机加入现有的机组成员，以提高网络性能，最终使得该系统在一段时间内，满足至少一个无人机退出或加入网络中，可以最大化服务用户的累计数量，从而使得无人机通信系统达到最佳响应。但是该策略在本质上仍然是一个受条件约束的被动改变策略，只能接收和被动的应对变化，而不能主动地控制变化。

而随着绿色能源的广泛使用，除了常用的能源(如电池或液体燃料)外，人们对通过太阳能等可再生能源为无人机提供动力的兴趣越来越大。太阳能充电使无人机的主动控制成为可能，其可以实现的原因之一在于，一个地区的用户流量需求通常是随时间变化的，当需求量较低时，如果无人机不需要充电，它们可以被迅速派往高处，以获得太阳能充电，在补充一定能量后被召回，以取代其他无人机或满足日益增长的用户需求。因此，越来越多的研究者开始将下一阶段的研究方向对准使用太阳能充电的无人机通信系统。

近些年来，国内外的一些开创性的工作已经研究了使用太阳能充电的无人机通信系统。例如：2019年，德国纽伦堡大学的Yan Sun团队开发了一种最优的3D轨迹控制和资源分配策略。2020年，加拿大曼尼托巴大学通过建模太阳能和风能收集，研究了无人机能源中断和用户的服务中断问题。2020年，华中科技大学的张靖教授提出了一种新的功率认知方案，以提高无人机通信性能。而有关多无人机的通信网络研究自2020年来也开始受到高度的关注，比如，美国伊利诺伊理工大学的Sami Khairy博士研究了联合动态无人机高度控制和多单位无线信道的接入管理，以在太阳能充电和通信吞吐量提高之间实现最佳平衡。美国雪城大学的Esma Turgut博士基于收获功率模型和3D天线辐射模式，对无人机网络的用户覆盖性能进行了表征分析。但目前对使用太阳能充电的无人机通信系统的研究中，并未考虑实际供能中的时变因素，因此导致给出的充电策略与实际情况并不相符。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种可持续无人机通信网络中的太阳能充电决策方法，应用于服务器。本发明要解决的技术问题通过以下技术方案实现：

针对预设工作时段内为目标区域中的用户提供通信服务的无人机群建立网络模型，包括：所述无人机群内各无人机通过回程网络与所述服务器通信；各无人机搭载有太阳能充电电池并作为通信基站，将传输能量集中在自身下方孔径所对应的区域内；各无人机所处高度包括地面、固定的服务高度和充电高度；所述充电高度位于云层的上边界上方；所述预设工作时段被均分为多个时隙，任一时隙内用户、热点的数量和空间分布不变，但随时隙变化而变化；

基于OFDMA完成所述网络模型中各时隙下用户针对无人机的频谱接入；

针对每个时隙，对完成用户频谱接入的无人机的功耗以及收获的太阳能进行建模，得到能量模型；

利用所述能量模型，以所述预设工作时段内，最大化服务用户总数、最大化收获的太阳能总量和最小化无人机网络能耗为优化目标，以网络可持续性约束和用户流量需求为约束条件，构建优化问题；

将所述优化问题解耦为第一子问题和第二子问题；

利用获取的服务中无人机的数量、用户在各时隙下的分布情况以及第一深度强化学习算法，求解所述第一子问题得到各时隙下无人机数量与最大服务用户数之间的映射；

基于第一子问题的求解结果、获取的预设工作时段内变化的太阳辐射强度以及第二深度强化学习算法，求解所述第二子问题，得到所述预设工作时段内无人机的最佳充电策略，包括每个时隙下各无人机的动作决策；其中，所述动作包括充电、服务或者着陆。

在本发明的一个实施例中，所述预设工作时段包括24小时；每个时隙为1小时；

所述基于OFDMA完成所述网络模型中各时隙下用户针对无人机的频谱接入，包括：

按照启发式的两阶段用户关联策略，在每一时隙内，用户在第一阶段向提供最佳SINR的服务中的无人机发送连接请求，收到请求的无人机若带宽满足用户最低的吞吐量需求则接纳用户完成关联，反之则拒绝用户；

在第二阶段，被拒绝的用户向提供次优SINR的服务中的无人机发送连接请求，收到请求的无人机若带宽满足用户最低的吞吐量需求则接纳用户完成关联，反之则拒绝用户；其中，在每一阶段中，当无人机接纳用户完成关联后，为用户分配满足预定要求的正交频谱数量；

对每个没有被关联的用户重复第二阶段的过程，直到其被无人机接纳或者确认无法被无人机接纳。

在本发明的一个实施例中，当无人机接纳用户完成关联后，为用户分配的正交频谱数量所满足的预定要求，包括：

其中，表示为用户分配的正交频谱数量；W^RB表示每个正交频谱的带宽；P_t表示无人机的发射功率谱密度；G_iu表示无人机到用户的信道增益；n₀表示噪声功率谱密度；j∈S_u'\{i}中S_u'表示能够覆盖用户u的一组无人机；r_u表示用户u最低的吞吐量需求；f_c表示中心频率；c表示光速；d_iu表示无人机i和用户u之间的距离；η表示视距相关参数。

在本发明的一个实施例中，所述针对每个时隙，对完成用户频谱接入的无人机的功耗以及收获的太阳能进行建模，得到能量模型，包括：

针对每个时隙，对完成用户频谱接入的无人机的运动学功耗进行建模，并在运动学功耗建模结果中加入无人机在通信和机载操作中的耗能，得到无人机的总功耗建模结果；

考虑云层上方的太阳辐射强度在预设工作时段内随时间变化的情况，对每个时隙无人机收获的太阳能进行建模，得到太阳能建模结果，并由所述无人机的总功耗建模结果和所述太阳能建模结果构成能量模型。

在本发明的一个实施例中，所述运动学功耗建模结果，包括：

P_kine＝P_lv+P_vt+P_drag

P_vt＝Wv_vt

其中，P_kine表示运动学功耗；P_lv表示水平飞行功耗；P_vt表示垂直飞行功耗；P_drag表示叶片型面功耗；W表示无人机的重量；ρ表示空气密度；A表示无人机水平旋翼盘的总面积；v_lv表示水平速度；v_vt表示垂直速度，对于无人机爬升为正，对于无人机着陆为负；v_T表示叶尖速度；C_D0表示剖面阻力系数；σA表示总叶片面积；

所述无人机的总功耗建模结果，包括：

P_Tot＝P_kine+P_tx+P_static

其中，P_Tot表示无人机的总功耗；P_tx表示无人机在通信中的耗能；P_static表示无人机在机载操作中的耗能。

在本发明的一个实施例中，云层上方的太阳辐射强度在预设工作时段内随时间变化的情况被描述为：

I_rad(t)＝max{0,I_max(-1/36t²+2/3t-3)},0≤t<24

其中，I_max表示一天中的最大光照强度；t表示小时；

所述太阳能建模结果，包括：

其中，P_h(t)表示时隙t单个无人机收获的太阳能；A_c表示太阳能电池板的面积；η_c表示充电效率系数；K_c表示强度阈值。

在本发明的一个实施例中，所述优化问题表示为：

s.t.

其中，表示a_t的求解值，a_t＝(a_1,t，a_2,t，...，a_N,t)表示决策变量向量，其中a_i,t表示第i个无人机是否应在时隙t着陆、开始服务或者开始充电，N表示无人机总数；/>表示p_t的求解值，/>表示在时隙t服务的无人机的水平位置向量，k_m(t),m∈{1,...,M}用来索引时隙t内服务的无人机数，M表示时隙t内服务的全部无人机数；表示/>的求解值，表示时隙t被所有无人机接纳和服务的用户集合，是关于a_t和p_t的函数；T表示预设工作时段对应的24小时；t表示当前时隙；C表示用于有效平衡用户覆盖和能量获得与损失之间权重的系数；S_UAV表示无人机群；E_h表示无人机i在时隙t下通过太阳能充电获取到的能量；P_h(t)表示时隙t单个无人机收获的太阳能；/>表示无人机在时隙t-1的电池剩余电量；E_c表示无人机i在时隙t下消耗的能量；s.t.下的三项表示约束条件，前一项表示网络的可持续性要求，后两项表示用户数据流量需求；E_min(a_i,t)表示任何无人机的电池剩余电量在任何时隙t下都不得小于一个阈值，该阈值为无人机从地面飞到充电高度所需的电量；p_min表示服务用户数的百分比阈值；Eq.(1)代表当无人机接纳用户完成关联后，为用户分配的正交频谱数量所满足的预定要求所对应的表达式。

在本发明的一个实施例中，所述第一子问题表示为：

其中，表示服务中的无人机数量；

所述第二子问题表示为：

其中，表示服务中的无人机的最佳水平位置；I(·)为一个二进制指示符，如果内部条件为1，则取1，否则取0。

在本发明的一个实施例中，所述第二深度强化学习算法是通过设计无人机的状态空间、动作空间、奖励函数，并设计离散动作空间的松弛机制改良DDPG算法实现的。

在本发明的一个实施例中，所述状态空间表示为：其中，H_i,t表示无人机i在时隙t的高度，为地面、固定的服务高度和充电高度中任一种；

所述动作空间表示为：A_t＝{a_i,t}，如果无人机到达地面，则取值为0；如果无人机开始服务，则取值为1；如果无人机开始充电，则取值为2；

所述奖励函数表示为r_t＝r_1,t+r_2,t+r_3,t，其中，r_1,t对应所述第二子问题中的约束；r_2,t对应最大化预设工作时段内用户服务总数，被设置等于r_3,t对应最大化总收获能量与总消耗能量之间的差值，被设置为/>若若充着陆电在在tt有有利利；c1和c2是在所述优化问题中A₁和A₃-A₂之间进行权衡的奖励系数，用来取代A₁中的系数C；/>和/>分别表示在地面和充电的无人机数量。

本发明的有益效果：

本发明实施例所提供的方案中，首先针对预设工作时段内为目标区域中的用户提供通信服务的无人机群建立网络模型；其次基于OFDMA完成所述网络模型中各时隙下用户针对无人机的频谱接入；然后对无人机的功耗以及收获的太阳能进行建模得到能量模型；接下来利用所述能量模型，以所述预设工作时段内，最大化服务用户总数、最大化收获的太阳能总量和最小化无人机网络能耗为优化目标，以网络可持续性约束和用户流量需求为约束条件，构建优化问题；然后进一步解耦为两个子问题，分别利用对应的深度强化学习算法求解得到所述预设工作时段内无人机的最佳充电策略。本发明实施例针对太阳能驱动的可持续无人机通信网络，首次联合考虑动态变化的太阳辐射和用户服务需求，研究可持续无人机通信网络中的最优太阳能充电问题，因此，所给出的最佳充电策略更符合实际情况，能够保证在通信性能和净能量损失之间作出最优权衡。

附图说明

图1为本发明实施例所提供的一种可持续无人机通信网络中的太阳能充电决策方法的流程示意图；

图2为本发明实施例中太阳能充电的可持续无人机通信网络系统建模示意图；

图3为本发明实施例仿真实验中一天内太阳辐射和用户需求的动态变化示意图；

图4为本发明实施例仿真实验中深度强化学习算法中episode reward收敛性的对比图；

图5为本发明实施例仿真实验中所提算法在不同参数下的性能指标。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解本发明实施例方案，首先对现有技术的缺陷和本发明的构思予以简要说明。

在现有的无人机通信网络研究中，尽管太阳能充电可以为无人机通信网络提供一种高度集成的燃料，但大多数相关的工作没有考虑到一天中随时间变化下的太阳辐射或用户流量需求，而这些均是实际供能中不可忽视的时变因素，因此现有研究会往往导致给出的充电策略与实际情况并不相符，无法满足实际需求。

本发明实施例正是基于上述考量，在实际使用太阳能为无人机通信网络进行供能中，联合考虑时变的太阳辐射和用户服务需求，主要研究了考虑时变太阳辐射和用户数据流量需求的无人机通信网络中的最优化太阳能充电策略，旨在根据无人机可持续性和用户服务需求的限制，使用深度强化学习的方式主动分配无人机在不同的时段进行服务、充电或降落，使得无人机群在一定时间范围内，在最优化用户覆盖性能和最小化网络的净能量损失之间作出最佳权衡，因此提出一种可持续无人机通信网络中的太阳能充电决策方法。

如图1所示，本发明实施例所提供的一种可持续无人机通信网络中的太阳能充电决策方法，应用于服务器，可以包括如下步骤：

S1，针对预设工作时段内为目标区域中的用户提供通信服务的无人机群建立网络模型，包括：所述无人机群内各无人机通过回程网络与所述服务器通信；各无人机搭载有太阳能充电电池并作为通信基站，将传输能量集中在自身下方孔径所对应的区域内；各无人机所处高度包括地面、固定的服务高度和充电高度；所述充电高度位于云层的上边界上方；所述预设工作时段被均分为多个时隙，任一时隙内用户、热点的数量和空间分布不变，但随时隙变化而变化；

建立的网络模型具体如图2所示，图2为本发明实施例中太阳能充电的可持续无人机通信网络系统建模示意图；其中，UAV表示无人机；UAV Battery表示无人机电池；GroundUsers表示地面用户；Backhaul links表示回程网络(回程链路)；GROUND IDLE表示地平面；SERVING ALTITUDE表示服务高度；CHARGING ALTITUDE表示充电高度；SERVER ViaBACKHAUL NETWORK表示通过后台网络的服务器。

具体的，本发明实施例考虑N个可以太阳能充电的无人机，该无人集群可以表示为S_UAV。该无人集群为目标区域提供通信服务，所述目标区域比如可以是一个商区、一个小区等等。所有无人机都可以通过回程网络，例如：卫星或者蜂窝网络等与服务器通信。每架无人机均搭载有太阳能充电电池并作为通信基站为用户提供通信服务，每架无人机都将其传输能量集中在其下方的孔径对应的区域内，具体的，无人机的孔径在地面形成一个圆形的覆盖区域，以便于无人机和该覆盖区域内的用户进行通信。无人机主要位于三个高度：地面、固定的服务高度(表示为H_Srv)和充电高度服务高度(表示为H_Chg)。当无人机在地面时，仅在无人机与服务器通信时消耗可忽略不计的电力。无人机仅在固定高度H_Srv和H_Chg分别进行服务和充电。本发明实施例设置一个较低的H_Srv，如300米等，以保持良好的无人机-用户通信质量，而H_Chg正好位于云层的上边界上方，以最大限度地减少云层对太阳辐射的衰减。本发明实施例考虑仅在H_Chg向无人机进行充电的理由如下：太阳辐射随着太阳和太阳能电池板之间的云层厚度呈指数衰减，在最初300米后仅剩下最初的十分之一。当无人机垂直移动300米不需要很长时间(例如：1到2分钟)，因此无人机可以合理设置为在云层上方的固定高度进行充电。

本发明实施例中，预设工作时段可以用T表示，其可以为任意设置的一个时间段，比如，可以为一天，即24小时。当然，也可以根据需要进行合理设置，在此不做限制。

T被平均划分为多个时隙t，在任一时隙t，一定百分比的用户随机分布在目标区域中的一些热点中心附近，而其余的用户则均匀分布在整个目标区域。可以理解的是，热点为某区域内用户集中分布的一片范围，比如商区中热度较高的区域，等等。

用户和热点的数量和空间分布被认为在一个时隙t内不变，但随着t变化而变化。本发明实施例中，服务器可以了解到用户的动态分布，执行该可持续无人机通信网络中的太阳能充电决策方法，以获得离线无人机的充电策略，然后被训练好的策略将通过服务器的回程链路执行在无人机通信网络中。

为了便于理解，以下以所述预设工作时段包括24小时；每个时隙为1小时为例进行说明。

S2，基于OFDMA完成所述网络模型中各时隙下用户针对无人机的频谱接入；

本发明实施例中，用户按照LTE正交频分多址(OFDMA)访问无人机频谱，该技术为一个无人机的不同用户分配至少一个正交频谱(简称RBs)，以使它们不会相互干扰。

可选的一种实施方式中，S2可以包括：

S21，按照启发式的两阶段用户关联策略，在每一时隙内，用户在第一阶段向提供最佳SINR的服务中的无人机发送连接请求，收到请求的无人机若带宽满足用户最低的吞吐量需求则接纳用户完成关联，反之则拒绝用户；

其中，SINR表示信干噪比，可以通过参考信号测量各无人机提供的SINR，以此确定提供最佳SINR的服务中的无人机，可以理解的是，此时所确定的无人机可能不止一个。该确定过程可以参见相关技术理解，在此不做详细说明。

接收到连接请求的无人机根据其带宽决定是否接纳用户，具体的，若其带宽大于或等于用户最低的吞吐量需求，则可以接纳用户，一旦接纳用户，则无人机和用户完成关联，完成关联后，需要为用户分配满足预定要求的正交频谱数量，关于分配满足预定要求的正交频谱数量这部分将在S22集中说明。

S22，在第二阶段，被拒绝的用户向提供次优SINR的服务中的无人机发送连接请求，收到请求的无人机若带宽满足用户最低的吞吐量需求则接纳用户完成关联，反之则拒绝用户；

该步骤和S21类似，次优SINR的服务中的无人机是排除S21所选的无人机后，剩余能够提供最佳SINR的服务中的无人机。确定过程请参考S21理解，在此不再详细说明。

其中，在每一阶段中，当无人机接纳用户完成关联后，为用户分配满足预定要求的正交频谱数量。

具体的，每个用户拥有最低的吞吐量需求r_u，该数值是已知的。当无人机接纳用户完成关联后，为用户分配的正交频谱数量所满足的预定要求，包括：

S23，对每个没有被关联的用户重复第二阶段的过程，直到其被无人机接纳或者确认无法被无人机接纳。

可以理解的是，经过S2上述过程，每个时隙下，用户或者被无人机接纳，被分配RBs，或者是确认无法被任何无人机接纳，从而无法进行无人机关联通信。

S3，针对每个时隙，对完成用户频谱接入的无人机的功耗以及收获的太阳能进行建模，得到能量模型；

可选的一种实施方式中，S3可以包括：

S31，针对每个时隙，对完成用户频谱接入的无人机的运动学功耗进行建模，并在运动学功耗建模结果中加入无人机在通信和机载操作中的耗能，得到无人机的总功耗建模结果；

其中，所述运动学功耗建模结果，包括：

P_kine＝P_lv+P_vt+P_drag

P_vt＝Wv_vt

可以理解的是，除了运动学功耗外，无人机还在通信和机载操作(如计算)中耗能，因此，所述无人机的总功耗建模结果，可以包括：

P_Tot＝P_kine+P_tx+P_static

需要注意的是，注意，与P_kine相比，覆盖数百米的小型基站的传输功率通常在0.25W到6W之间，操作功耗也为个位数，因此，P_tx和P_static通常在实践中可以被忽略不计。

S32，考虑云层上方的太阳辐射强度在预设工作时段内随时间变化的情况，对每个时隙无人机收获的太阳能进行建模，得到太阳能建模结果，并由所述无人机的总功耗建模结果和所述太阳能建模结果构成能量模型。

其中，云层上方的太阳辐射强度在预设工作时段内随时间变化的情况被描述为：

I_rad(t)＝max{0,I_max(-1/36t²+2/3t-3)},0≤t<24

其中，I_max表示一天中的最大光照强度；t表示小时；可以理解的是，本发明实施例中的t表示时隙，由于以预设工作时段为24小时为例说明，每个时隙为1小时，因此，t为一小时；

那么，根据I_rad(t)可以计算收获的太阳能，得到所述太阳能建模结果，包括：

S4，利用所述能量模型，以所述预设工作时段内，最大化服务用户总数、最大化收获的太阳能总量和最小化无人机网络能耗为优化目标，以网络可持续性约束和用户流量需求为约束条件，构建优化问题；

本发明实施例的目标主要是在时间范围T内，在最大化服务用户总数、最大化收获的太阳能总量和最小化无人机网络能耗之间实现最优化权衡。优化受到网络可持续性约束和用户流量需求的影响，基于以上因素，所述优化问题表示为：

s.t.

其中，表示a_t的求解值，a_t＝(a_1,t，a_2,t，...，a_N,t)表示决策变量向量，其中a_i,t表示第i个无人机是否应在时隙t着陆、开始服务或者开始充电，N表示无人机总数；/>表示p_t的求解值，/>表示在时隙t服务的无人机的水平位置向量，k_m(t),m∈{1,...,M}用来索引时隙t内服务的无人机数，M表示时隙t内服务的全部无人机数；表示/>的求解值，表示时隙t被所有无人机接纳和服务的用户集合，是关于a_t和p_t的函数；T表示预设工作时段对应的24小时；t表示当前时隙；C表示用于有效平衡用户覆盖和能量获得与损失之间权重的系数；S_UAV表示无人机群；E_h表示无人机i在时隙t下通过太阳能充电获取到的能量；P_h(t)表示时隙t单个无人机收获的太阳能；/>表示无人机在时隙t-1的电池剩余电量；E_c表示无人机i在时隙t下消耗的能量；s.t.下的三项表示约束条件，前一项表示网络的可持续性要求，后两项表示用户数据流量需求；E_min(a_i,t)表示任何无人机的电池剩余电量在任何时隙t下都不得小于一个阈值，该阈值为无人机从地面飞到充电高度所需的电量；p_min表示服务用户数的百分比阈值；Eq.(1)代表当无人机接纳用户完成关联后，为用户分配的正交频谱数量所满足的预定要求所对应的表达式。/>

为了便于描述，上述优化问题可以表示为P1。具体的，在P1中，决策变量包括无人机是否应在任何时隙t着陆、开始服务或开始充电，即a_t＝(a_1,t，a_2,t，...，a_N,t)，在任何时隙服务的无人机水平位置即其中k_m(t),m∈{1,...,M}用来索引时隙t内服务的无人机数。/>部分表示无人机i在时隙t内通过太阳能充电获取的能量。这一部分由a_i,t,a_i,t-1决定，因为无人机从最后一个高度移动到当前高度需要一些时间，收获的太阳能P_h(t)和电池在时隙t-1时退出/>因为在充电过程中可能会达到电池容量。/>部分表示无人机i在时隙t的能量消耗，这一部分由/>决定。/>部分中，/>是时隙t被所有无人机接纳和服务的用户集合，这是一个关于a_t,p_t的函数。

s.t.以下部分表示约束条件，其中，约束条件1)表示网络的可持续性要求，任何无人机的电池剩余量都不得小于高度相关的阈值E_min(a_i,t)，这是为了确保每架无人机在每次飞行结束时都有足够的能量提升到H_CHg，以便在未来的时段充电，避免完全退出无人机群。E_min(a_i,t)的定义如下：

其中，当a_i,t＝0时ΔH为H_CHg，当a_i,t＝1时ΔH为H_CHg-H_Srv，当a_i,t＝2时ΔH为0；v_up表示无人机向上飞行速度；表示当v_lv＝0,v_vt＝v_up时无人机的总功耗。

约束条件2)和3)表示用户数据流量需求，约束条件2)要求任何时隙t内服务用户的百分比都不得低于p_min。约束条件3)要求任何时候都应满足任何服务用户的个人用户流量需求。

S5，将所述优化问题解耦为第一子问题和第二子问题；

问题P1是一个具有非线性约束的混合证书非线性非凸运算定时问题。目标函数中的不同的时隙t与无人机剩余电量相互关联。这导致后续决策问题变得困难。因此，本发明实施例考虑将P1解耦为两个子问题，即第一子问题和第二子问题，为了便于描述，两者分别以P2和P3表示，每个子问题都可以通过深度强化学习算法来解决。

所述第一子问题表示为：

其中，表示服务中的无人机数量；

在第一子问题P2中，本发明实施例给定每个位置的用户分布和服务中的无人机数量通过无人机数量和用户分布最优化无人机所在的水平位置，即/>从而达到最大化被服务用户总数的优化目标。/>

所述第二子问题表示为：

s.t.

在第二子问题P3中，根据从子问题P2中得到有关最大服务用户数与无人机数量/>所得的映射，仅通过优化a_t从而最大化P1中相同的目标。P3的第三项约束条件中给出了/>a_t之间的关系；/>表示服务中的无人机的最佳水平位置；I(·)为一个二进制指示符，如果内部条件为1，则取1，否则取0。

S6，利用获取的服务中无人机的数量、用户在各时隙下的分布情况以及第一深度强化学习算法，求解所述第一子问题得到各时隙下无人机数量与最大服务用户数之间的映射；

针对第一子问题P2的求解，其输入为服务中无人机的数量和用户在各时隙下的分布情况，这两部分是可以预先获知的；所使用的第一深度强化学习算法基于论文《Learningto be proactive:Self-regulation of uav based networks with uav and userdynamics》中所设计的算法，其具体考虑了一组在固定高度飞行的无人机，以最低吞吐量要求为地面用户提供通信服务。且认为，由于电池耗尽或补充无人机的加入，训练期间无人机机组成员会发生动态的变化，因此设计出一种DDPG算法，通过在没有机组成员变化的稳定期和机组成员变化时的过渡期获得最佳无人机轨迹，最大化用户满意度分数。为了将该算法适合于求解本发明实施例的子问题P2，不考虑更换机组成员以保证状态空间可缩减至仅包括无人机的位置。动作空间保持不变，允许无人机以最大步距向任何方向移动。奖励函数从逐步的用户满意度得分变为逐步的服务用户数，并调整基于SINR的最近用户关联策略。

本发明实施例的第一深度强化学习算法根据各个时隙下给定的用户分布和无人机最佳位置，以求解出每个时隙t下最大服务用户数与无人机数量之间的映射，作为第一子问题的求解结果。

关于该部分内容，请参见相关技术理解，在此不做详细说明。

S7，基于所述第一子问题的求解结果、获取的预设工作时段内变化的太阳辐射强度以及第二深度强化学习算法，求解所述第二子问题，得到所述预设工作时段内无人机的最佳充电策略，包括每个时隙下各无人机的动作决策；其中，所述动作包括充电、服务或者着陆。

P3利用了P2中所获得的在不同小时中之间的映射，旨在通过优化所考虑时间范围内的无人机充电策略来最大化目标函数。在每小时内，深度强化学习的智能体需要根据无人机当前的电池剩余量、无人机当前高度、太阳辐射强度和用户流量需求来确定无人机是去充电、服务还是着陆，从而节省能量。在设计深度强化学习算法时，本发明实施例将变化的太阳辐射和用户流量需求作为动态的底层环境。其中，所述第二深度强化学习算法是通过设计无人机的状态空间、动作空间、奖励函数，并设计离散动作空间的松弛机制改良DDPG算法实现的。

所述第二深度强化学习算法的关键步骤如下：

(1)设计无人机的状态空间

无人机的电池剩余量是决定其下一步移动的关键因素，因此被包含在状态空间中，表示无人机在小时开始时的剩余电量。当前无人机高度是另一个不可忽略的因素，因为海拔变化将导致磨损能量消耗，这种能耗如果被累积起来将严重影响整体调度。所以最小化无人机不必要的高度变化会满足约束条件，并对优化目标做出积极贡献。因此/>需要包含在状态空间中，其取值一般为H_Chg，H_Srv或0。最后，需要考虑一天中所处的小时，这可以帮助捕捉环境的动态变化如太阳辐射和用户交通需求，以便即使其他状态相同，也可以在不同的时间采取不同的行动。

具体的，所述状态空间表示为：

其中，H_i,t表示无人机i在时隙t的高度，为地面、固定的服务高度和充电高度中任一种；基数为2N+1。

(2)设计无人机的动作空间

子问题P3的决策变量为a_t＝(a_1,t，a_2,t，...，a_N,t)，表示在任何时隙t是着陆、开始服务或开始充电，可以理解其也表示每个无人机在当前时间开始时将达到的高度。

动作空间表示为：

如果无人机到达地面，则取值为0；如果无人机开始服务，则取值为1；如果无人机开始充电，则取值为2。动作空间的基数为3^N。

(3)设计奖励函数

所述奖励函数表示为r_t＝r_1,t+r_2,t+r_3,t，表示总的实时奖励；其中，

r_1,t对应所述第二子问题P3中的约束；当任何无人机破坏可持续性约束，即所述第二子问题P3中的第一项约束时，将采用的恒定惩罚，其中/>为一个小于0的常数。当所述第二子问题P3中的第二项约束被打破时，服务中的无人机数量无法满足最小用户服务率，则将施加相应的惩罚/>此外，当服务的无人机数量大于导致100％用户服务率的最小服务无人机数量时，将给予0奖励，以防止服务过度供应导致的能量损耗。

r_2,t对应最大化预设工作时段内用户服务总数，因此，r_2,t被设置等于

r_3,t对应最大化总收获能量(意为收获的太阳能)与总消耗能量(意为无人机的总功耗)之间的差值，由于太阳辐射强度虽时间变化，如果无人机在一天中的某些时间(例如，在夜间或日落/日出前后)不工作，则无人机降落到地面是有益的，而在一天的其他时间充电则是有益的。在前一种情况下，对前往地面的无人机给予正向奖励，而在后一种情况下，对正在充电的无人机给予正向奖励。以鼓励节省无人机网络的能量。因此，

其中，c1和c2是在所述优化问题中A₁和A₃-A₂之间进行权衡的奖励系数，用来取代A₁中的系数C；和/>分别表示在地面和充电的无人机数量。

(4)设计离散动作空间的松弛机制

此外，结合该问题，本发明实施例设计了一种离散动作空间的松弛机制将DDPG算法改良，使得其适用于解决大规模离散动作空间的问题。

由于状态空间S_t是连续和离散的混合，动作空间A_t为离散的动作空间，在这种情况下一般考虑采用DQN算法。然而，动作空间的基数为3^N，随着无人机总数N的增长，动作空间将呈指数增长。对于N＝15的情况，无人机群的所有动作数将为3¹⁵≈1.4e⁷。由于DQN的输出数量等于所有可能的动作数，该DQN输出的结果将十分复杂，更不用说考虑时间上不同的小时数。因此，DQN算法在技术上可行，但实际操作中是不可能实现的。而DDPG算法解决的是连续动作空间的问题，不适配离散动作空间的问题。

因此，本发明实施例考虑将原始的离散动作空间放松到连续动作空间，从而能够使用DDPG算法来得到无人机充电的最佳方案。每个动作a_i,t从离散值{0,1,2}被放松到连续的范围(-0.5，2.5)。因此，放松的动作空间变为A_t＝{a_i,t}∈(-1.5，2.5)^N。使用DDPG，actor网络的输出数等于动作空间的维数，即N，它仅随着N的增加线性增加而非DQN中的指数增加。每次当actor网络确定集合动作并添加噪声时，该动作将被离散为{0,1,2}内最接近值。具体的，在算法执行过程中，每个step当actor网络输出集合动作时，将每个连续动作区间三等分，每个区间作为一个离散动作进行处理。离散化动作将是应用于当前状态的实际动作，并存储到经验回放缓冲区中，通过这种方式，探索的复杂度会大大降低。

本发明实施例可以通过迭代完成最佳充电策略输出，具体的，可以设置一个下限值，在当前episode的reward超过该下限值时，当前迭代完成，输出当前episode的一个最佳充电策略；并且，可以使用sys库存储全部当前episode下的最佳充电策略，最终选择覆盖用户最多的一个策略作为训练好的最佳策略，并将该训练好的最佳策略通过无人机与服务器之间的回程网络分配给无人机执行。

以下，给出仿真结果以验证本发明实施例方法的有效性。

①设置仿真

对于子问题P2，复用了前述论文中的仿真设置与参数配置，以获得每小时下无人机数量和最大服务用户之间的映射。对于子问题P3，环境参数和强化学习参数分别汇总在表1和表2中，各参数的含义请见表格中的对应释义，在此不再一一说明。一个24小时的时间范围被认为是一个episode，每一个小时认为是一个step。

需要注意的是，仅考虑24小时并不能保证同一组无人机连续工作几天，而只能确保所涉及的无人机有足够的电池余量，以便在第二天进行充电。一旦验证了一组给定的无人机可以持续完成工作一整天，两组无人机将在不同的时间内运行，以实现完全的可持续性。

表1主要的环境参数

表2主要的强化学习参数

②仿真结果

环境的主要动态变化见图3，图3表示一天内太阳辐射和用户需求的动态变化。其中，(a)图表示太阳辐射的变化，其中，紫色柱形表示云层上方的太阳辐射强度，红色曲线表示无人机太阳能充电电源；可见，太阳辐射集中在一天早上7点到下午5点之间。云层上的无人机充电效率与太阳辐射呈正相关。(b)图表示用户需求的变化，其中，左侧竖轴表示用户总数，右侧竖轴表示最小服务无人机数。可见，更多的用户在上午的晚些时间和下午有通信需求，这与人们的日常工作时间是一致的。为了满足每小时最低85％的用户服务率，红色条显示了所需的最少无人机数量。

考虑到上述动态变化以及可持续性和用户需求的约束，图4提供了本发明实施例涉及的深度强化学习算法中episode reward收敛性。图4具体表示不同数量无人机和奖励系数下episode reward的收敛性。剧集奖励在窗口大小为300的范围内进行平均，信用区间为95％。从中可以看出，对于相同数量的无人机，对于不同的奖励系数c₁,c₂，收敛几乎是相同的，然而，随着状态动作空间的维数增加，更大的无人机群将耗费更长的时间来保证收敛。

图5给出了所提出的算法在不同参数下的性能指标，显示了在每小时服务的无人机数量和一天内累计服务用户数量之间实现的最佳充电策略的细节。其中(a)图表示每小时服务的无人机数量，基线给出了为满足每小时下85％的用户服务率，每小时服务无人机的最低数量要求。可以看到，随着奖励系数的减小，每小时服务的无人机数量趋于增加，原因是奖励系数的减小将导致P1优化问题中权重C的减小。因此强化学习智能体倾向于派遣更多的无人机来服务更多的用户，以获得更多的奖励，而不是让无人机充电或闲置。当有更多的无人机可用(如：17架无人机)且c₁,c₂相对较小时，每小时就会有更多的无人机进行服务。每小时服务的无人机将带来更多的服务用户，这可以从(b)图表示的累计服务用户数中看出。

以上仿真实验可以看出，本发明实施例所涉及算法在通信性能和净能量损失之间可以做出最优权衡，具有一定的有效性。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种可持续无人机通信网络中的太阳能充电决策方法，其特征在于，应用于服务器，所述方法包括：

将所述优化问题解耦为第一子问题和第二子问题；

2.根据权利要求1所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，所述预设工作时段包括24小时；每个时隙为1小时；

3.根据权利要求2所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，当无人机接纳用户完成关联后，为用户分配的正交频谱数量所满足的预定要求，包括：

4.根据权利要求3所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，所述针对每个时隙，对完成用户频谱接入的无人机的功耗以及收获的太阳能进行建模，得到能量模型，包括：

5.根据权利要求4所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，所述运动学功耗建模结果，包括：

P_kine＝P_lv+P_vt+P_drag

P_vt＝Wv_vt

所述无人机的总功耗建模结果，包括：

P_Tot＝P_kine+P_tx+P_static

6.根据权利要求5所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，云层上方的太阳辐射强度在预设工作时段内随时间变化的情况被描述为：

I_rad(t)＝max{0,I_max(-1/36t²+2/3t-3)},0≤t<24

其中，I_max表示一天中的最大光照强度；t表示小时；

所述太阳能建模结果，包括：

7.根据权利要求6所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，所述优化问题表示为：

s.t.

1)

2)

3)

其中，表示a_t的求解值，/>表示决策变量向量，其中a_i,t表示第i个无人机是否应在时隙t着陆、开始服务或者开始充电，N表示无人机总数；/>表示p_t的求解值，/>表示在时隙t服务的无人机的水平位置向量，k_m(t),m∈{1,...,M}用来索引时隙t内服务的无人机数，M表示时隙t内服务的全部无人机数；/>表示/>的求解值，表示时隙t被所有无人机接纳和服务的用户集合，是关于a_t和p_t的函数；T表示预设工作时段对应的24小时；t表示当前时隙；C表示用于有效平衡用户覆盖和能量获得与损失之间权重的系数；S_UAV表示无人机群；E_h表示无人机i在时隙t下通过太阳能充电获取到的能量；P_h(t)表示时隙t单个无人机收获的太阳能；/>表示无人机在时隙t-1的电池剩余电量；E_c表示无人机i在时隙t下消耗的能量；s.t.下的三项表示约束条件，前一项表示网络的可持续性要求，后两项表示用户数据流量需求；E_min(a_i,t)表示任何无人机的电池剩余电量在任何时隙t下都不得小于一个阈值，该阈值为无人机从地面飞到充电高度所需的电量；p_min表示服务用户数的百分比阈值；Eq.(1)代表当无人机接纳用户完成关联后，为用户分配的正交频谱数量所满足的预定要求所对应的表达式。

8.根据权利要求7所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，所述第一子问题表示为：

其中，表示服务中的无人机数量；

所述第二子问题表示为：

s.t.

9.根据权利要求8所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，所述第二深度强化学习算法是通过设计无人机的状态空间、动作空间、奖励函数，并设计离散动作空间的松弛机制改良DDPG算法实现的。

10.根据权利要求9所述的可持续无人机通信网络中的太阳能充电决策方法，其特征在于，

所述状态空间表示为：其中，H_i,t表示无人机i在时隙t的高度，为地面、固定的服务高度和充电高度中任一种；

所述奖励函数表示为r_t＝r_1,t+r_2,t+r_3,t，其中，r_1,t对应所述第二子问题中的约束；r_2,t对应最大化预设工作时段内用户服务总数，被设置等于r_3,t对应最大化总收获能量与总消耗能量之间的差值，被设置为/>c1和c2是在所述优化问题中A₁和A₃-A₂之间进行权衡的奖励系数，用来取代A₁中的系数C；和/>分别表示在地面和充电的无人机数量。