CN116882270A

CN116882270A - 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统

Info

Publication number: CN116882270A
Application number: CN202310754721.0A
Authority: CN
Inventors: 林绍福; 陈盈盈; 李硕朋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-10-13

Abstract

本发明公开了一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统，采用一组配有射频能量发射部件、边缘计算服务器及大规格电池的大型无人机作为空中智能飞行能源为多个空中执勤无人机UAV提供能量和计算资源保证执行效率。资源供采用无线功率传输WPT与移动边缘计算MEC技术相结合实现，通过联合无人机三维位置、电量、任务量信息构建基于无线能量传输的多无人机边缘计算系统模型、信道模型、能耗模型等。以固定服务时长内系统吞吐量和能量传输效率最大化、同时能耗最小化为目标，建立多无人机能量与算力联合优化模型。采用多智能体深度Q网络算法实现智能飞行能源IFES最优服务位置点和能量发射功率达到优化目标的智能决策。

Description

一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统

技术领域

本发明涉及无人机、无线功率传输、移动边缘计算技术，具体涉及一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统。

背景技术

无人机因其机动性和高度灵活性应用广泛，但是目前空中无人机面临着硬件规格、续航时间、计算能力等客观因素限制，难以满足大范围区域的网络覆盖，也无法对计算密集型任务做出及时响应。随着通信技术的高速发展，用户数据爆炸式增长，无人机越来越多面向计算密集型应用。算力有限的无人机在执行此类任务时不但会产生过高的时延，还会增加能耗，更进一步导致续航时间降低。为了延长无人机续航时间主要采用的方法包括部署地面固定充电站、定期手动替换电池、利用车辆作为移动充电站、安装太阳能能量收集板等，但是这些方法并不能高效地延长无人机续航时间，反而还会带来一些新的问题。比如部署地面充电站会迫使无人机中断任务偏离工作轨迹到地面充电，不但降低了任务执行效率还增加了飞行能耗。

近年来，基于射频信号的无线功率传输技术的研究和应用为解决空中无人机能源供应问题提供了新思路。射频能量收集是一种新型的绿色供电方式，可以持续稳定地收集能量，而无线功率传输技术可以通过无线链路稳定和持续的传输能源。符钰婧等人研究了一种UAV辅助的WPT系统，其中UAV能够给配有能量接收器的设备进行能量传输,以保证其能量供应充足。基于无人机的移动边缘计算系统将移动边缘计算与无人机网络结合，能够显著地改善无人机算力不足的问题。通过将任务从移动边缘设备卸载到静态或移动边缘服务器上，可以在有限计算资源约束下完成计算密集型任务。Z.Yang等人研究了一个支持无人机的MEC平台为多个移动地面用户提供随机移动和任务到达，在无人机平均能耗和数据队列稳定性约束下最小化所有用户的平均加权能耗。可以看出将WPT和MEC相结合的确可以有效解决无人机机载资源有限的问题，但这种技术结合也面临着一些新的问题和挑战。WPT系统中能量传输范围的限制是一个严重的问题，因此如何控制能量发射器的位置使得UAV合理分布在传输范围内是一个关键问题；WPT与MEC结合的无人机资源分配系统中还面临着不同无人机用户对于资源的需求不同的问题，有的用户需要更多的能量，有的需要更多的算力，这需要系统能够快速地响应多个无人机的不同需求，并同时确保能够公平有效地分配整个系统的资源，因此设计高效的资源分配算法也是一项重要挑战；此外系统信道质量和无线功率传输效率通常受到距离的影响，与距离成负相关，因此如何平衡多个无人机的距离以保证整体信道质量也是一个挑战。

为此，本专利提出一种基于深度强化学习的能量传输无人机辅助边缘计算联合优化方法，采用一组空中智能飞行能源为多个空中执勤无人机提供能量和计算等资源保证它们的任务执行效率，并提出了一种基于无线能量传输的多无人机边缘计算系统，该系统由N个配有射频能量发射部件、边缘计算服务器及大规格电池的大型无人机作为IFES以及M个服务于地面用户的具有能量收集部件的空中执勤无人机构成。在UAV执行任务期间，IFES采用MADQN实现最优服务位置点和能量发射功率的智能决策，采用WPT和MEC为服务覆盖范围内有充电和卸载需求的UAV提供充电和边缘计算服务，以达到固定服务时长内系统吞吐量和能量传输效率的最大化、同时能耗最小化的目标。

发明内容

本发明拟解决的技术解决问题是：提出一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统，同步实现无人机无线充电和任务卸载，有效解决当前无人机机载资源有限难以长时间续航和应对计算密集型任务的问题，有效弥补传统无人机资源分配方案效率低、公平性差的缺陷。

本发明的技术解决方案为：本发明提出一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统，采用一组空中智能飞行能源(Intelligent FlightEnergy Source，IFES)为多个空中执勤无人机(UnmannedAerial Vehicle，UAV)提供能量和计算等资源保证它们的任务执行效率。首先联合无线功率传输(Wireless PowerTransmission，WPT)和移动边缘计算(Mobile Edge Computing，MEC)技术构建系统模型、信道模型、计算与卸载模型、无线功率传输及能量收集模型和能耗模型，其次基于系统吞吐量和能量传输效率最大化和所有IFES能耗最小化的优化目标构建优化问题模型，再将优化问题转换成马尔可夫决策过程(Markov Decision Process，MDP)，最后利用多智能体深度Q网络算法(Multi-AgentDeep Q Network，MADQN)求解。其具体步骤如下：

(1)联合无线功率传输和移动边缘计算技术构建系统模型、信道模型、计算与卸载模型、无线功率传输及能量收集模型和能耗模型。

(a)系统模型。提出一个多无人机组成的移动边缘计算系统，由N个装有边缘计算服务器、射频能量发射器和大规格电池与存储器的大型无人机作为IFES，以及M个带有能量接收器且电池与存储器规格有限的小型UAV构成，IFES在固定服务时长T内为UAV同时提供边缘计算和无线充电服务。将总时长分为T_N个服务时隙，并且设置T_N足够大使得单个时隙很小，可以认为一个时隙内无人机位置不变。在每个服务时隙内，UAV会从地面用户接收到计算任务并根据计算能力以及电池余量大小选择本地计算或者卸载到IFES的移动边缘服务上计算，系统具体实现步骤如下：

a1：无人机用户端通过广播形式向IFES服务端发送充电和卸载需求、3D位置、电量信息及任务量信息；

a2：IFES端收集环境状态数据，并通过微服务器对环境状态数据进行缓存和处理；

a3：IFES将环境状态数据输入预先训练好的MADQN模型，获得最优动作决策序列(3D位置和能量发射功率)；

a4：IFES将模型输出的3D位置和能量发射功率数字信号在数据服务层转换为相应的方向、速度、功率控制指令，IFES设备控制器实现各自位置轨迹和功率控制，为与其关联的无人机用户提供无线充电和边缘计算服务；

a5：有能量需求的无人机用户从IFES端接收功率信号，在射频能量接收部件内将信号转化为能量；有卸载需求的无人机用户上传数据到IFES端边缘服务器；

a6：IFES端边缘服务器收到任务数据计算并发送结果，再次执行a1-a6。

(b)信道模型。服从设计为全双工工作模式，有数据卸载需求的UAV向提供服务的IFES卸载数据，同时IFES以发射功率P_nt为服务覆盖范围内的UAV提供无线充电服务。为了防止无人机间信道的相互干扰，我们采用时分多址(Time DivisionMultipleAccess，TDMA)协议将每个IFES的上行数据卸载时隙按该时隙内服务覆盖范围内无人机情况进行划分；

(c)计算与卸载模型。UAV每个时隙内会收到地面用户大小随机的计算任务，UAV需要根据本地计算能力、时隙内数据任务量以及当前能耗情况判断是否将任务卸载到边缘服务器。卸载采用二进制卸载方式进行，即任务全部本地计算或全部卸载到服务器。我们用二进制变量来表示t时隙UAVm是否需要进行任务卸载，/>表示要将任务进行卸载，否则就本地计算。有卸载需求的UAV会广播发射卸载需求信号，IFES会综合接收到的信息进行决策；

(d)无线功率传输及能量收集模型。每个时隙内，IFES以恒定功率持续发射RF信号以广播的形式为服务覆盖范围内的UAV提供充电服务，UAVm接收为其提供充电服务的IFESn发射的功率信号，以线性的方式将功率转换为能量；

(e)能耗模型。UAV能量变化情况：UAVm在t时隙内的能量变化可由三部分能量决定，分别是：t-1时隙剩余能量t时隙接收能量/>t时隙消耗能量/>IFES能量变化情况：IFESn在t时隙内的能量变化可由为两部分能量决定，分别为：t-1时隙剩余能量t时隙消耗能量/>t时隙IFESn消耗的能量/>由通信及推进等其他能耗E_other_n、计算能耗/>和能量发射能耗/>组成；

(2)基于优化目标构建优化问题，目标是实现IFES-UAV间能量传输效率以及系统吞吐量最大化、同时所有IFES能耗最小化。由于IFES与UAV位置在每个时隙动态变化导致信道质量也随着二者距离改变而改变，每个时隙IFES需要智能决策以确定最优服务位置点使得服务覆盖率更高且总体信道质量更优。同时为了降低系统能耗及避免因接收能量超过电池容量而导致电量溢出的情况，IFES需要智能决策以使得能量发射功率大小/>达到既获得更高能量传输效率又降低能耗的目标。即在每个时隙，N个IFES需要根据M个UAV位置、电余量、任务数据大小等信息联合做出服务位置点及能量发射功率的最优智能决策，以达到优化目标，包括：

(a)系统吞吐量最大化，根据式二进制变量判断t时隙UAVm的计算任务是否完成，从而计算总服务时长T内的系统吞吐量C_total；

(b)能量传输效益最大化，计算UAVs的总有效接收能量值近似表示总服务时长T内IFES-UAV间的能量传输效率；

(c)所有智能飞行能源能耗最小化，为了有效降低IFES能耗且保证IFES-UAV的能量传输效益，对发射功率进行控制。IFES的能耗中通信消耗占比极小因此忽略不计，与推进消耗、计算消耗相关的飞行速度、CPU频率设为定值，因此可认为能量传输的发射功率/>是影响IFES能耗变化的唯一变量。所以可以用经过总服务时长T后IFES的总电余量/>来近似判断功率控制的效益。

多IFES联合优化问题可表述为：

限制如下：

C1:C2:/>C3:C4:/>C5：C6：/>C7:H_m-H_n＜R

约束C1、C2表示IFES-UAV间的服务关联情况，我们限制每个UAV只能与一个IFES关联得到服务以保证公平性。C3保证了在电池容量B_m限制下每个时隙内UAV能量的正确性并限制UAV消耗能量不超出现有能量。C4对IFES能量发射功率做出了限制。C5和C6分别限制了IFES与UAV的飞行范围。C7保证了IFES与UAV的高度差不会超出服务半径。

(3)将优化问题转换成MDP，基于MADQN的算法MDP可由一个多元组(S,A,r,f,γ)表示，分别表示状态空间、动作空间、奖励空间、转移概率空间、奖励折扣因子。

(a)环境状态:N个智能体的状态空间S描述了规定工作区域内的所有UAV包含的相关信息，包括M个UAV的位置信息、电量存储情况和时变任务大小；

(b)动作：其中组成了t时隙IFESn决策的最优服务点位置，/>为决定了IFESn能量发射功率；

(c)奖励：奖励是状态和动作的函数，它衡量的是在给定状态下智能体所采取动作的效果。奖励函数的设计会很大程度影响智能体的学习效率。基于优化目标，奖励函数的重点是提升任务吞吐量、能量传输效率和降低能耗，尽可能覆盖有充电或卸载需求的UAV为其服务。基于三个优化目标为IFESn设计三个奖励元素，针对它们重要性不同，我们分别设置权值对应1.5、1、1。此外，我们还设置了碰撞惩罚以防止IFES发生碰撞。

(4)利用多智能体深度Q网络算法求解，具体步骤包括：

(a)初始化：初始化经验回放池D及其容量，设置训练轮数，随机初始化观察状态，初始化IFES-UAV网络参数，初始化在线网络Q和目标网络Q₀；

(b)通过公式ε＝ε_max-ε_decrease初始化ε，逐步减小探索概率；

(c)将(n,m)维观测状态S输入到预测神经网络中，输出当前状态对应的动作Q值，用Q(s,a)表示。由于状态和动作空间较大，我们利用深度Q网络从当前状态s作为输入估计Q值。用Q(s,a|θ)和Q′(s′,a′|θ′)表示近似的Q值及其目标Q值各自的权重θ和θ′，其定义如下：

(d)智能体的联合动作a＝a₁×...×a_N决定了下一个状态和每个智能体获得的奖励。所有智能体的目标都是找到最优的行动选择策略以最大化未来折扣奖励的期望总和。每个agent选择动作，根据概率ε随机选择动作进行探索，或采用贪婪策略从神经网络计算的结果中选择Q值最大的动作作为最优动作；

(e)根据联合动作中IFES的决策位置采用距离最小原则定义IFES-UAV关联矩阵b[n][m]；

(f)agent执行各自动作，通过reward函数获得环境反馈的奖励信号(用R表示)和下一个状态(用s'表示)；

(g)更新状态s，并将状态、动作执行后产生的下一个状态、相应的动作、相应的奖励信号、动作完成标志存储在经验池中；

(h)从经验池中随机抽取m个小批量样本的相关信息，计算每个状态的目标值。在目标网络Q₀执行动作后通过奖励更新Q值；

(i)基于小批量样本，使用随机梯度下降算法更新预测神经网络中的权重参数。我们通过最小化损失函数来更新θ，损失函数用于测量预测值与目标值之间的误差，可表示为:

L(θ)＝E[Q′(s,a′|θ′)-Q(s,a|θ)]² (3)

Q网络需要在训练过程的每次迭代中不断优化使损失函数最小化。为了保证计算效率，采用随机梯度下降优化损失函数和更新权重参数；

(j)重复(b)-(i)，直到轮次结束。

附图说明

图1为本发明流程图。

图2为本发明系统流程图。

图3为本发明系统模型示意图。

图4为本发明提供的基于MADQN的决策模型流程图。

图5为本发明提供的基于MADQN的决策模型结构图。

图6本发明提供的基于MADQN的模型训练奖励变化图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

如图1所示，本发明的具体实施方法如下：

(1)联合无线功率传输和移动边缘计算技术构建系统模型、信道模型、计算与卸载模型、无线功率传输及能量收集模型和能耗模型，具体步骤如下：

(a)构建系统模型，针对空中无人机续航有限的问题，提出一种基于射频信号的多无人机空对空无线能量传输模式。基于该模式构建取值参考模型，提取无人机数量、服务半径、飞行高度、飞行速度等关键网络架构指标，实现各指标对比计算和分析并确定相关网络指标数值。根据各指标数值对无人机群进行分组设计出一种基于无线能量传输的多无人机分组网络架构，并对该架构的服务覆盖性和碰撞率进行计算和验证；针对空中无人机计算能力不足导致的计算密集型任务延迟响应的问题，在对当前无人机辅助移动物联网架构研究基础上提出一种多无人机空对空数据卸载模式，通过分析无人机数、分组数、分层数、服务覆盖半径、各层飞行高度差、飞行速度等指标构建取值参考模型，从而根据卸载效率的影响确定各指标参数。考虑上下层无人机间传输能量值和数据量受到信道质量和服务覆盖无人机个数的约束，对该结构中各网络参数进行对比分析构建取值参考模型确定各指标参数，从而构建出多层空中无人机群能量与算力协同分配的整体网络拓扑结构，并对该架构的无线充电与边缘计算服务覆盖性和碰撞率计算分析和验证。最终构建出多无人机无线充电与边缘计算联合优化系统。

(b)采用MEC技术实现算力分配，设计无线传输信道实现多无人机数据和通信。针对上行数据卸载多无人机间的干扰问题采用TDMA协议将上行数据传输信道按服务覆盖情况进行时隙划分，从而构建信道模型；

(c)采用二进制卸载方式构建移动边缘计算与卸载模型；

(d)采用WPT技术实现能量传输，并构建无线功率传输及线性能量收集模型；

(e)分别针对IFES和UAV能量变化情况构建能耗模型，具体内容如下：

e1：UAV能量变化情况，UAVm在t时隙内的能量变化可由三部分能量决定，分别是：t-1时隙剩余能量t时隙接收能量/>t时隙消耗能量/>t时隙UAVm接收的能量表示为：

其中η为能量损耗系数满足η∈(0,1)，τ为单位时隙大小。UAVm消耗的能量可被分为和包括完成任务消耗和推进及通信能耗的其他能耗其中任意时隙UAVm完成任务的能耗仅能为本地计算消耗/>或卸载消耗/>可表示为：

其中表示t时隙UAVm任务不进行卸载，即会产生本地计算能耗，λ为计算消耗系数，f_m为UAVm的CPU频率。

由于UAV实际消耗能量不能大于现有能量，即上一时隙剩余和本时隙获取的总能量，需满足因此/>可由下式得出：

综上，在UAV电池容量B_m的限制下，即因此UAVm在t时隙的能量可表示为：

(e2)IFES能量变化情况：IFESn在t时隙内的能量变化可由为两部分能量决定，分别为：t-1时隙剩余能量t时隙消耗能量/>t时隙IFESn消耗的能量/>由通信及推进等其他能耗E_other_n、计算能耗/>和能量发射能耗/>组成。

IFESn通过决策以发射功率为服务覆盖范围内的UAV提供无线充电服务，发射能耗/>可表示为:

计算消耗

其中λ为计算消耗系数，为IFESn的CPU频率

综上，IFES在t时隙的能量可表示为：

(2)针对固定服务时长内系统吞吐量和能量传输效率的最大化、能耗最小化的优化目标构建联合优化问题模型：

由于IFES与UAV位置在每个时隙动态变化导致信道质量也随着二者距离改变而改变，每个时隙IFES需要智能决策以确定最优服务位置点使得服务覆盖率更高且总体信道质量更优。同时为了减少系统能耗和避免因接收能量超过电池容量而导致电量溢出的情况，IFES需要智能决策以使得能量发射功率大小/>达到既获得更高能量传输效率又降低能耗的目标。即在每个时隙，N个IFES需要根据M个UAV位置、电余量、任务数据大小等信息联合决策最优服务位置点及能量发射功率大小，以达到优化目标。

(a)根据二进制变量可以判断t时隙UAVm的计算任务是否完成，因此总服务时长T内的系统吞吐量可表述为：

根据式(4)我们可以得出t时隙UAVm接收的能量但在UAV电池容量B_m的限制下，UAVm在该时隙实际有效接收能量不能超出电池剩余容量/>即应表示为：/>因此总服务时长T内IFES-UAV间的能量传输效率可近似表示为UAV的总有效接收能量值/>由下式表示：

为了有效降低IFES能耗且保证IFES-UAV的能量传输效益，需要对发射功率进行控制。根据式(9-12)得出IFES电余量变化情况，IFES的能耗中通信消耗占比极小因此忽略不计，与推进消耗、计算消耗相关的飞行速度、CPU频率设为定值，因此可认为能量传输的发射功率/>是影响IFES能耗变化的唯一变量。所以可以用经过总服务时长T后IFES的总电余量/>来近似判断功率控制的效益，可表示为：

综上，多IFES联合优化问题可表述为：

(3)将联合目标优化问题转换为马尔可夫决策过程；

(4)提出了一种基于MADQN的算法来决策IFES的服务位置和能量发射功率大小，实现所有UAV的能量传输效率以及任务吞吐量最大化和所有IFES的能耗最小化的目标。

如图2所示，本发明提供了一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统，具体步骤如下：

a1：无人机用户广播发送充电和卸载需求、3D位置、电量信息及任务量信息；

a2：IFES收集环境状态数据，并通过微服务器对环境状态数据进行缓存和处理；

a3：IFES将环境状态数据输入预先训练好的MADQN模型；

a4：获得最优动作决策序列(3D位置和能量发射功率)；

a5：IFES将模型输出的3D位置和能量发射功率数字信号在数据服务层转换为相应的方向、速度、功率控制指令；

a6：IFES设备控制器实现各自位置轨迹和功率控制；

a7：如果UVA能够与任意IFES关联即可获得服务，无人机用户从IFES端接收功率信号，在射频能量接收部件内将信号转化为能量；

a8：有卸载需求的无人机用户上传数据到IFES端边缘服务器，否则本地计算任务；

a9：IFES边缘服务器收到任务数据计算并发送结果，训练轮次内再次执行a1-a9。

图3为本发明系统模型示意图。如图1所示，考虑一个多无人机组成的MEC系统，由N＝{1,2,..,N}个装有边缘计算服务器、射频能量发射器和大规格电池与存储器的大型无人机作为IFES，以及M＝{1,2,..,M}个带有能量接收器且电池与存储器规格有限的小型UAV构成。在每个服务时隙内，UAV会从地面用户接收到计算任务并根据计算能力以及电池余量大小选择本地计算或者卸载到IFES的移动边缘服务上计算。假设所有飞行设备工作在固定大小x×y区域内，由于IFES-UAV间上下行信道质量受到传输距离的影响，随着传输距离的增大信道质量逐渐降低，因此可以合理地假设IFES的服务覆盖范围有限，并通过测试设定IFES的服务覆盖半径为R。为了降低计算维度且避免IFES与UAV发生碰撞，我们假设IFES飞行在固定高度H_n，UAV飞行在固定高度H_m，其中H_n＞H_m，且高度差H＝H_n-H_m小于IFES服务半径R。利用三维笛卡尔坐标系定义IFESn及UAVm坐标位置分别为和n∈N，m∈M。

如图4所示，本发明提供了基于MADQN的决策模型结构图。

算法模型中主要包括IFES-UAV构成的环境模块、深度神经网络模块以及智能体IFES与网络和环境的交互模块。环境模块组成了MADQN的状态空间，其中包含所有UAV实时3D位置、电量、任务数据量。深度神经网络模块由经验回放池存储空间和神经网络两部分组成，经验回放池存储的是状态、动作执行后产生的一组数据，包括下一个状态、相应的动作、相应的奖励信号、动作完成标志。神经网络部分包含一个在线网络和一个目标网络，以及触发网络学习更新的损失函数。智能体IFES与网络和环境的交互包括从环境获取当前环境状态、通过网络决策动作、执行动作改变环境状态、从环境获取新状态和奖励、将本轮数据存储到经验回放池。

图5为本发明提供的基于MADQN的决策模型流程图，具体步骤如下：

(1)初始化：初始化经验回放池D及其容量，设置训练轮数，随机初始化观察状态，初始化IFES-UAV网络参数，初始化在线网络Q和目标网络Q₀；

(2)通过公式ε＝ε_max-ε_decrease初始化ε，逐步减小探索概率；

(3)将(n,m)维观测状态S输入到预测神经网络中，输出当前状态对应的动作Q值，用Q(s,a)表示。由于状态和动作空间较大，利用深度Q网络从当前状态s作为输入估计Q值。用Q(s,a|θ)和Q′(s′,a′|θ′)表示近似的Q值及其目标Q值各自的权重θ和θ′；

(4)每个agent选择动作，根据概率ε随机选择动作进行探索，或采用贪婪策略从神经网络计算的结果中选择Q值最大的动作作为最优动作；

(5)根据联合动作中IFES的决策位置采用距离最小原则定义IFES-UAV关联矩阵b[n][m]；

(6)agent执行各自动作，通过reward函数获得环境反馈的奖励R和下一个状态；

(7)更新状态s，并将状态、动作执行后产生的下一个状态、相应的动作、相应的奖励信号、动作完成标志存储在经验池中；

(8)从经验池中随机抽取m个小批量样本的相关信息，计算每个状态的目标值。在目标网络Q₀执行动作后通过奖励更新Q值；

(9)基于小批量样本，使用随机梯度下降算法更新预测神经网络中的权重参数；

(10)重复(1)-(9)，直到轮次结束。

图6为本发明提供的基于MADQN的算法模型训练奖励变化图。奖励是状态和动作的函数，它衡量的是在给定状态下智能体所采取动作的效果。奖励函数的设计会很大程度影响智能体的学习效率。在我们提出的优化问题中，有三个优化目标，分别为：系统吞吐量最大化、能量传输效益最大化和所有IFES能耗最小化。

奖励函数的重点是提升任务吞吐量、能量传输效率和降低能耗，服务尽可能覆盖有充电或卸载需求的UAV。因此为IFESn设计了三个奖励元素对应式子(13-15)，即C_total、和/>针对三个优化目标的重要性不同，我们分别设置权值对应1.5、1、1。我们计算每一轮次获得的累计奖励，可以看到获得的奖励在每一轮次中缓慢增加，在25000轮次训练后奖励基本维持为正数，并达到峰值。MIUD在初始阶段累积奖励并不稳定，主要保持在一个较低的水平还有下降波动，这是由于前期设置探索率较高导致。随着探索率的降低和训练次数的增加，累计奖励持续增加，并在20000轮次后开始稳定达到峰值。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法，其特征在于，实施步骤如下：

(1)联合采用无线功率传输和移动边缘计算技术构建系统模型、信道模型、计算与卸载模型、无线功率传输及能量收集模型和能耗模型；

(2)在系统资源和IFES服务范围下，针对固定服务时长内系统吞吐量和能量传输效率的最大化、能耗最小化的优化目标构建联合优化问题模型；

(3)将联合优化问题转换为马尔可夫决策过程；

(4)基于MADQN的算法来决策IFES的服务位置和能量发射功率大小，实现所有UAV的能量传输效率和任务吞吐量最大化及所有IFES能耗最小化的目标。

2.根据权利要求1所述的基于深度强化学习的多无人机无线充电与边缘计算联合优化方法，其特征在于，所述步骤(1)中，采用全双工模式构建信道，能够实现无线充电和卸载工作同步进行。保证有数据卸载需求的无人机向提供服务的IFES卸载数据，同时IFES以发射功率为服务覆盖范围内的无人机提供无线充电服务。

3.根据权利要求1所述的基于深度强化学习的多无人机无线充电与边缘计算联合优化方法，其特征在于，所述步骤(2)中，优化目标包括：

(1)系统吞吐量最大化；

(2)能量传输效益最大化；

(3)所有智能飞行能源能耗最小化。

针对三个优化目标的重要性不同，分别设置权值对应1.5、1、1。

4.根据权利要求1所述的基于深度强化学习的多无人机无线充电与边缘计算联合优化方法，其特征在于，所述步骤(3)中，将每个IFES视为一个智能体。MADQN模型有以下三个基本部分：

(1)包含每个无人机三维位置信息、电量信息、任务量信息的环境状态；

(2)智能体决策最优服务位置和能量发射功率的动作；

(3)基于要求3中的三个优化目标所设计的奖励。

5.根据权利要求1所述的基于深度强化学习的多无人机无线充电与边缘计算联合优化方法，其特征在于，所述步骤(4)中包括：

(1)初始化经验池，设置训练轮数，随机初始化观察状态；

(2)将(n,m)维观测状态s输入到预测神经网络中，输出当前状态对应的动作Q值，用Q(s,a)表示；

(3)每个agent选择动作，根据概率ε随机选择动作进行探索，或采用贪婪策略从神经网络计算的结果中选择Q值最大的动作作为最优动作，用a表示所有agent联合动作；

(4)agent执行各自动作，通过reward函数获得环境反馈的联合奖励信号用R表示和下一个状态用s'表示；

(5)更新状态s，并将状态s、动作执行后产生的下一个状态s'、相应的动作a、相应的奖励信号R、动作完成标志done存储在经验池中；

(6)从经验池中随机抽取m个小批量样本的相关信息，计算每个状态的目标值。在目标网络Q执行动作后通过奖励更新Q值；

(7)基于小批量样本，使用随机梯度下降算法更新预测神经网络中的权重参数；

(8)重复(1)-(7)，直到轮次结束。

经过训练后，每个智能体根据实际环境状态数据自动决策出一个最优服务位置点和能量发射功率，使能耗最小，并实现系统吞吐量和能量传输效益最大化。