CN116080407B

CN116080407B - 一种基于无线能量传输的无人机能耗优化方法与系统

Info

Publication number: CN116080407B
Application number: CN202211555066.8A
Authority: CN
Inventors: 庄伟�; 邢发男; 申义贤; 纪兆辉; 李之恒; 樊继利; 江文; 邵煜文
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-07-28
Anticipated expiration: 2042-12-06
Also published as: CN116080407A

Abstract

本发明提供一种基于无线能量传输的无人机能耗优化方法与系统，涉及移动边缘计算领域。该基于无线能量传输的无人机能耗优化方法，基于WPT能量发射器与无人机之间的通信方式构建应急救援系统模型；基于应急救援系统模型，计算无人机收集到的无线能量以及无人机飞行的能量消耗；计算无人机在本地计算模式下的能量消耗以及无人机剩余能量，无人机在本地计算模式下的能量消耗包括飞行能耗和计算能耗；计算无人机在卸载计算模式下的能量消耗以及无人机剩余能量，无人机在卸载计算模式下的能量消耗包括飞行能耗和通信能耗。本发明在确保完成应急救援任务的同时，使无人机能够充分利用收集到的无线能量，提高无人机剩余能量，延长无人机工作时间。

Description

一种基于无线能量传输的无人机能耗优化方法与系统

技术领域

本发明涉及移动边缘计算技术领域，具体为一种基于无线能量传输的无人机能耗优化方法与系统。

背景技术

随着无人机技术的快速发展，其凭借着便携、安全、适应性强等特点已经在全球得到了广泛的应用，包括游戏、地图绘制、矿产勘探、沿海监测、边境巡逻、火灾探测、农业成像、交通监测和应急救援等。例如，地质灾害往往具有突发性且影响范围广泛，一旦发生很难确保应急救援的效率。无人机在白天采用视频图像技术，夜间使用红外探测技术，可为救援工作提供24小时不间断的人员搜救、灾害监测等服务。与此同时借助于无人机航拍能力可以消除地形障碍，依靠遥感成像技术可以获取灾害地质信息，救援人员能够高效地开展救援行动。

考虑到无人机的电池容量、计算能力和存储资源往往是有限的，虽然WPT为无人机提供了一种有效方法，但无人机往往不能充分利用收集到无线能量，因此在借助无人机完成应急救援任务时，要合理选择任务卸载策略，尽可能减少无人机能耗，获得最大限度的剩余能量，从而延长无人机的工作时间。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于无线能量传输的无人机能耗优化方法与系统，为无人机设计一种全新的计算卸载策略，在确保完成应急救援任务的同时，通过联合优化无人机的通信时间分配和计算模式选择，使无人机能够充分利用收集到的无线能量，最大限度地提高无人机剩余能量，延长无人机的工作时间。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，提供了一种基于无线能量传输的无人机能耗优化方法，所述方法包括：

基于WPT能量发射器与无人机之间的通信方式构建应急救援系统模型；

基于应急救援系统模型，计算无人机收集到的无线能量以及无人机飞行的能量消耗；

计算无人机在本地计算模式下的能量消耗以及无人机剩余能量，无人机在本地计算模式下的能量消耗包括飞行能耗和计算能耗；

计算无人机在卸载计算模式下的能量消耗以及无人机剩余能量，无人机在卸载计算模式下的能量消耗包括飞行能耗和通信能耗；

根据所求得的无人机在本地计算模式下的能量消耗和无人机在卸载计算模式下的能量消耗，以无人机在本地计算模式下的无人机剩余能量和无人机在卸载计算模式下的无人机剩余能量最大化为目标函数，构建应急救援系统中的无人机能耗模型；

求解满足目标函数的最优的无人机计算任务卸载策略、系统通信时间分配，用于使无人机在本地计算模式下的无人机剩余能量和无人机在卸载计算模式下的无人机剩余能量最大。

所述基于应急救援系统模型，计算无人机收集到的无线能量以及无人机飞行的能量消耗，具体包括：

基于同一时隙内无线信道增益不变，则第k个无人机对应第t时隙收集到的无线能量为：

E_tk＝ηPh_tkωT

其中，η∈(0,1)为能量收集效率，P为WPT能量传输功率，h_tk表示在第t时隙AP与第k个无人机之间的信道增益，ω∈(0,1)表示无线能量传输时间占比；

无人机在整个时间块T内都需工作，则无人机的飞行能耗为：

E_f＝P_fT

其中，P_f为无人机的飞行功率，设所有无人机飞行功率相等。

优选的，所述计算无人机在本地计算模式下的能量消耗以及无人机剩余能量，无人机在本地计算模式下的能量消耗包括飞行能耗和计算能耗，具体包括：

当选择任务在本地计算时，计算能耗取决于无人机的计算能力，第i个无人机需计算的任务数据量大小为B_i，无人机处理器计算一个单位数据所需的CPU周期数为α，其大小由计算任务的性质决定，所以无人机i处理器的计算速度为：

其中，t_i∈[0,T]表示第i个无人机本地计算时间，且f_i≤f_max约束无人机处理器的计算能力；则第i个无人机对应第t时隙的计算能耗为：

其中c_i表示无人机i处理器的计算能量效率系数；

为保证无人机的持续工作，则第i个无人机对应第t时隙的剩余能量为：

所述计算无人机在卸载计算模式下的能量消耗以及无人机剩余能量，无人机在卸载计算模式下的能量消耗包括飞行能耗和通信能耗，具体包括：

当选择任务卸载到MEC服务器计算时，计算能耗取决于无人机的卸载传输功率；在任意时隙所有无人机与WPT能量发射器采用OFDM方式通信，第j个无人机需卸载的任务数据量大小为B_j，根据香农公式，第j个无人机对应第t时隙的卸载传输功率为：

其中φ＞1表示任务卸载过程中通信开销系数，σ表示通信信道内的高斯白噪声，B表示通信信道带宽，τ_j∈(0,1)表示第j个无人机卸载传输时间占比；则第j个无人机对应第t时隙的通信能耗为：

为保证无人机可持续工作，则第j个无人机对应第t时隙的剩余能量为：

所述根据所求得的无人机在本地计算模式下的能量消耗和无人机在卸载计算模式下的能量消耗，以无人机在本地计算模式下的无人机剩余能量和无人机在卸载计算模式下的无人机剩余能量最大化为目标函数，构建应急救援系统中的无人机能耗模型，具体包括：

无人机对应第t时隙的卸载决策优化和通信时间分配问题建模为:

其中，C1、C2为TDMA协议下系统通信时间约束，C3为本地计算任务模式下计算时间约束和处理器计算能力约束，C4是本地计算任务模式下的无人机能耗约束，C5是卸载计算任务模式下的无人机能耗约束，C6为两种计算任务模式之间的互斥约束。

求解满足目标函数的最优的无人机计算任务卸载策略、系统通信时间分配，用于使无人机在本地计算模式下的无人机剩余能量和无人机在卸载计算模式下的无人机剩余能量最大，具体包括：

每个时隙开始都需初始化无线信道增益，随机初始系统第t个时隙内的无线信道增益h_t＝{h_t1,h_t2,…,h_tN}，其中h_ti表示第t个时隙内第i个无人机与AP之间的无线信道增益，系统第t个时隙的卸载决策动作为a_t＝a_t1,a_t2,…,a_tN}，其中当a_ti＝0表示第t时隙内第i个无人机选择本地计算任务模式，当a_ti＝1表示第t时隙内第i个无人机选择卸载计算任务模式，据此构建系统第t时隙的状态空间和动作空间；

基于构建的系统第t时隙的状态空间和动作空间，采用深度强化学习中的TD3算法，以无人机的剩余能量最大化为目标函数，求解应急救援系统中的无人机能耗模型，获得系统第t时隙最优的计算任务卸载策略和系统通信时间分配。

所述基于构建的系统第t时隙的状态空间和动作空间，采用深度强化学习中的TD3算法，以无人机的剩余能量最大化为目标函数，求解应急救援系统中的无人机能耗模型，获得系统第t时隙最优的计算任务卸载策略和系统通信时间分配，具体执行操作为：

构建六个神经网络，六个神经网络分别是参数为φ的Actor网络、参数为θ₁的Critic_1网络、参数为θ₂的Critic_2网络、参数为φ'的Actor目标网络、参数为θ'₁的Critic_1目标网络和参数为θ'₂的Critic_2目标网络，初始化网络参数φ＝φ'、θ₁＝θ'₁、θ₂＝θ'₂以及经验缓存区；

在第t时隙内，Actor网络根据输入系统当前状态s_t输出策略π_φ(s_t)附加随机噪声ε选择行动a_t＝π_φ(s_t)+ε，所有无人机执行动作后得到奖励r_t并进入系统下一个时隙状态s_t+1，同时将这一状态转移记录存储到经验缓存区中；

其中，系统第t时隙状态空间s_t、动作空间a_t以及奖励函数r_t分别为：

s_t＝{h_t1,h_t2,…,h_tN}

基于当前系统状态空间可选择的动作空间为：

a_t＝{a_t1,a_t2,…,a_tN}

基于上述系统当前状态空间及动作空间，定义奖励函数r_t为：

从第一个时隙开始，重复完成上述操作，直至经验缓存区被存满；

从经验缓存区随机抽取B_N个样本，并记其中一个样本为{s_i,a_i,r_i,s_i+1}，作为Actor网络和Critic网络的一个小批量训练数据；

为防止Q值被过度估计，在Actor目标网络输出π_φ'(s_i+1)后添加随机噪声ε以鼓励探索，得到更精确的Q值，目标动作为：

基于双重网络的思想，目标动作值应为：

其中γ∈[0,1]为折扣因子；

根据策略π_φ(s_i)得到Critic_1网络和Critic_2网络的Q值分别为和/>通过最小化损失函数对Critic_1网络和Critic_2网络进行梯度下降来更新网络参数θ_i:

在Critic_1网络和Critic_2网络每更新d次后，使用策略梯度函数更新Actor网络的参数φ：

其中π_φ(s_i)为s_i输入到Actor网络生成的任务卸载策略；

采用延迟软更新方法定时更新Actor目标网络参数φ'、Critic_1目标网络参数θ'₁和Critic_2目标网络参数θ'₂：

φ'＝λφ+(1-λ)φ'

θ′_i＝λθ_i+(1-λ)θ′_i；i＝1,2

其中λ为软更新系数。

第二方面，提供了一种基于无线能量传输的无人机能耗优化系统，所述系统包括：

应急救援车；

MEC服务器，配有高速多核CPU；

无人机，遵循二进制计算卸载策略，即一个计算任务作为一个整体在所述无人机本地计算或全部卸载到所述MEC服务器计算；

WPT能量发射器，配备有稳定电源搭载在所述应急救援车上，与所述无人机通信连接，采用能量波束成形技术将能量无线传输给无人机。

第三方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。

第四方面，提供了一种计算设备，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

(三)有益效果

本发明一种基于无线能量传输的无人机能耗优化方法与系统，采用WPT无人机执行应急救援任务，以最大化系统无人机的剩余能量为目标，采用深度强化学习中的TD3算法求解系统任务卸载决策方案，在降低无人机自身能耗的基础上，确保无人机在完成应急救援任务时剩余能量最大，大大延长了无人机的工作时间；其中考虑到地质灾害应急救援行动中的复杂因素设计采用WPT无人机辅助行动开展进行，提高了救援效率；设计了基于双延迟深度确定性策略梯度(TD3)的最大化无人机剩余能量算法(TD3-MURE)求解系统任务卸载决策方案，该方法适用于处理可变状态空间和高维数据，具有较强的学习能力和决策能力，保证了系统决策的准确性。

附图说明

图1为本发明方法流程图；

图2为本发明实施例中基于无线能量传输的无人机应急救援系统模型图；

图3为本发明实施例中基于无线能量传输的无人机应急救援系统时隙框架图；

图4为本发明实施例中用于求解无人机计算任务卸载策略以及通信时间分配的TD3示意图；

图5为本发明实施例的TD3-MURE算法收敛情况表现图；

图6为本发明实施例中不同算法在对应不同无人机数量下的所有无人机平均能量对比图。

具体实施方式

下面将结合本发明的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本发明实施例提供一种基于无线能量传输的无人机能耗优化方法，该方法包括：

步骤S1.基于AP与无人机的通信工作方式，构建由应急救援车和无人机组成的应急救援系统模型，其中，WPT使用能量发射器将能量传输给无人机，无人机可以将收集到的能量用于自身动力支持、本地计算任务或卸载计算任务。

具体应用中，所述步骤S1具体包括：

步骤S1-1.基于时分多址(TDMA)协议将系统时间划分为长度为T的无线信道互不干扰的连续时隙，时隙框架如图3所示，无人机任务卸载过程和无线能量传输过程在相同的频带中执行。其中MEC服务器配有高速多核CPU，有足够的计算资源，所以我们在此忽略了服务器计算任务时间和回传结果的时间；WPT能量发射器采用能量波束成形技术将能量无线传输给无人机，其中无线信道增益在同一时隙内保持不变，在不同时隙之间可能会有所改变。

步骤S1-2.D＝{1…N}表示N个无人机的集合且无人机遵循二进制计算卸载策略，决定计算任务在无人机本地计算或全部卸载到MEC服务器计算，其中Di＝0表示任务在本地计算，Di＝1表示任务卸载到MEC服务器计算。同时使用两个互斥集D0和D1分别表示在本地计算任务模式下和卸载计算任务模式下的无人机集合，D＝D0∪D1。

步骤S2.基于上述系统模型，计算无人机在第t时隙收集到的无线能量以及在时间块T内无人机用于完成救援行动的飞行能耗。

具体应用中，所述步骤S2具体包括：

步骤S2-1.基于同一时隙内无线信道增益不变，则第k个无人机对应第t时隙收集到的无线能量为：

E_tk＝ηPh_tkωT

其中η∈(0,1)为能量收集效率，P为WPT能量传输功率，h_tk表示在第t时隙AP与第k个无人机之间的信道增益，ω∈(0,1)表示无线能量传输时间占比。

步骤S2-2.无人机在整个时间块T内都需工作，所以无人机的飞行能耗为：

E_f＝P_fT

其中P_f为无人机的飞行功率，设所有无人机飞行功率相等。

步骤S3.在本地计算任务模式下，计算无人机在第t时隙的能量消耗以及剩余能量，所述能量消耗包括飞行能耗和计算能耗。

具体应用中，所述步骤S3具体包括：

步骤S3-1.当选择任务在本地计算时，计算能耗取决于无人机的计算能力，第i个无人机需计算的任务数据量大小为B_i，无人机处理器计算一个单位数据所需的CPU周期数为α，其大小由计算任务的性质决定，所以无人机i处理器的计算速度为：

其中t_i∈[0,T]表示第i个无人机本地计算时间，且f_i≤f_max约束无人机处理器的计算能力。则第i个无人机对应第t时隙的计算能耗为：

其中c_i表示无人机i处理器的计算能量效率系数。

步骤S3-2.为保证无人机的持续工作，由步骤S3-1可得，则第i个无人机对应第t时隙的剩余能量为：

步骤S4.在卸载计算任务模式下，计算在第t时隙无人机的能量消耗以及剩余能量，所述能量消耗包括飞行能耗和通信能耗。

具体应用中，所述步骤S4具体包括：

步骤S4-1.当选择任务卸载到MEC服务器计算时，计算能耗取决于无人机的卸载传输功率。在任意时隙所有无人机与AP采用OFDM方式通信，第j个无人机需卸载的任务数据量大小为B_j，根据香农公式，第j个无人机对应第t时隙的卸载传输功率为：

其中φ＞1表示任务卸载过程中通信开销系数，σ表示通信信道内的高斯白噪声，B表示通信信道带宽，τ_j∈(0,1)表示第j个无人机卸载传输时间占比。则第j个无人机对应第t时隙的通信能耗为：

步骤S4-2.为保证无人机可持续工作，由步骤S4-1可得，则第j个无人机对应第t时隙的剩余能量为：

步骤S5.基于上述求得的所有无人机剩余能量，以所有所述无人机的总剩余能量最大化为目标函数，则所有无人机对应第t时隙的卸载决策优化和通信时间分配问题建模为:

其中C1、C2为TDMA协议下系统通信时间约束，C3为本地计算任务模式下计算时间约束和处理器计算能力约束，C4是本地计算任务模式下的无人机能耗约束，C5是卸载计算任务模式下的无人机能耗约束，C6为两种计算任务模式之间的互斥约束。

步骤S6.基于上述能耗模型，采用深度强化学习中的TD3算法，请参阅图4，求解所述目标函数的最优的无人机的计算任务卸载策略和系统通信时间分配，从而使所有所述无人机的总剩余能量最大，工作时间更长。

具体应用中，所述步骤S6具体包括：

步骤S6-1.每个时隙开始都需初始化无线信道增益，随机初始系统第t个时隙内的无线信道增益h_t＝{h_t1,h_t2,…,h_tN}，其中h_ti表示第t个时隙内第i个无人机与AP之间的无线信道增益，系统第t个时隙的卸载决策动作为a_t＝{a_t1,a_t2,…,a_tN}，其中当a_ti＝0表示第t时隙内第i个无人机选择本地计算任务模式，当a_ti＝1表示第t时隙内第i个无人机选择卸载计算任务模式。据此构建系统第t时隙的状态空间和动作空间。

步骤S6-2.基于第t时隙的状态空间和动作空间，采用深度强化学习中的TD3算法，以所有所述无人机的总剩余能量最大化为目标函数，求解所述能耗模型，获得系统第t时隙最优的计算任务卸载策略和系统通信时间分配。

关于上述步骤S6-2，具体执行如下操作：

步骤S6-2-1.构建六个神经网络，分别是参数为φ的Actor网络、参数为θ₁的Critic_1网络、参数为θ₂的Critic_2网络、参数为φ'的Actor目标网络、参数为θ'₁的Critic_1目标网络和参数为θ'₂的Critic_2目标网络，初始化网络参数φ＝φ'、θ₁＝θ'₁、θ₂＝θ'₂以及经验缓存区。

步骤S6-2-2.在第t时隙内，Actor网络根据输入系统当前状态s_t输出策略π_φ(s_t)附加随机噪声ε选择行动a_t＝π_φ(s_t)+ε，所有无人机执行动作后得到奖励r_t并进入系统下一个时隙状态s_t+1，同时将这一状态转移记录存储到经验缓存区中；

其中，系统第t时隙状态空间s_t、动作空间a_t以及奖励函数r_t分别如下所示：

s_t＝{h_t1,h_t2,…,h_tN}

基于当前系统状态空间可选择的动作空间为：

a_t＝{a_t1,a_t2,…,a_tN}

步骤S6-2-3.从第一个时隙开始，重复完成上述操作，直至经验缓存区被存满；

步骤S6-2-4.从经验缓存区随机抽取B_N个样本，并记其中一个样本为{s_i,a_i,r_i,s_i+1}，作为Actor网络和Critic网络的一个小批量训练数据。

步骤S6-2-5.为防止Q值被过度估计，在Actor目标网络输出π_φ'(s_i+1)后添加随机噪声ε以鼓励探索，得到更精确的Q值。目标动作如下所示：

基于双重网络的思想，目标动作值应为：

其中γ∈[0,1]为折扣因子。

步骤S6-2-6.在Critic_1网络和Critic_2网络每更新d次后，使用策略梯度函数更新Actor网络的参数φ：

其中π_φ(s_i)为s_i输入到Actor网络生成的任务卸载策略。

步骤S6-2-7.采用延迟软更新方法定时更新Actor目标网络参数φ'、Critic_1目标网络参数θ'₁和Critic_2目标网络参数θ'₂：

φ'＝λφ+(1-λ)φ'

θ′_i＝λθ_i+(1-λ)θ′_i；i＝1,2

其中λ为软更新系数。

将本发明所设计基于无线能量传输的无人机能耗优化方法，应用于实际当中，如图5所示是本发明所设计的TD3-MURE算法收敛情况，由于训练前期TD3-MURE的网络参数是随机初始化的，所以此时不能对系统状态进行准确评估，奖励值也呈现下降趋势，但是随着训练次数不断增加，任务卸载决策逐渐优化，奖励回报也快速上升至最高平均值，同时奖励回报值波动平缓起伏。从图5可以看出，本发明所设计的TD3-MURE算法大约在训练240次之后趋于收敛。

如图6所示，对比了不同算法在对应不同无人机数量下所有无人机平均剩余能量变化，其中算法包括TD3-MURE、DDPG、DQN和AC算法。随着无人机数量的增加，其所需计算或卸载的系统通信时间也随之增加，而无线能量传输时间则会相应减少，所以所有无人机的平均剩余能量呈现下降的趋势。相较于其他三种算法，本发明所设计的TD3-MURE算法表现最优。当无人机数量较少时，TD3-MURE和DDPG两种算法表现差距并不明显，但随着无人机数量的增加，两者差距逐渐明显，这是因为TD3-MURE引入了双重网络的思想有效地缓解了DDPG中Q值过高估计地问题；同时AC算法和DQN算法都略有波动，这是因为当样本输入到DNN训练时，DNN往往会输出更大的Q值，而TD3-MURE的Actor网络输出多维动作，保证了其收敛性和稳定性。

请参阅图2，一种基于无线能量传输的无人机能耗优化系统，所述系统包括：

应急救援车；

MEC服务器，配有高速多核CPU；

本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于无线能量传输的无人机能耗优化方法，其特征在于，所述方法包括：

基于应急救援系统模型，计算无人机收集到的无线能量以及无人机飞行的能量消耗，具体包括：

E_tk＝ηPh_tkωT

无人机在整个时间块T内都需工作，则无人机的飞行能耗为：

E_f＝P_fT

其中，P_f为无人机的飞行功率，设所有无人机飞行功率相等；

计算无人机在本地计算模式下的能量消耗以及无人机剩余能量，无人机在本地计算模式下的能量消耗包括飞行能耗和计算能耗，具体包括：

其中c_i表示无人机i处理器的计算能量效率系数；

计算无人机在卸载计算模式下的能量消耗以及无人机剩余能量，无人机在卸载计算模式下的能量消耗包括飞行能耗和通信能耗，具体包括：

其中φ>1表示任务卸载过程中通信开销系数，σ表示通信信道内的高斯白噪声，B表示通信信道带宽，τ_j∈(0,1)表示第j个无人机卸载传输时间占比；则第j个无人机对应第t时隙的通信能耗为：

根据所求得的无人机在本地计算模式下的能量消耗和无人机在卸载计算模式下的能量消耗，以无人机在本地计算模式下的无人机剩余能量和无人机在卸载计算模式下的无人机剩余能量最大化为目标函数，构建应急救援系统中的无人机能耗模型，具体包括：

其中，C1、C2为TDMA协议下系统通信时间约束，C3为本地计算任务模式下计算时间约束和处理器计算能力约束，C4是本地计算任务模式下的无人机能耗约束，C5是卸载计算任务模式下的无人机能耗约束，C6为两种计算任务模式之间的互斥约束；

每个时隙开始都初始化无线信道增益，随机初始系统第t个时隙内的无线信道增益h_t＝{h_t1,h_t2,…,h_tN}，其中h_ti表示第t个时隙内第i个无人机与AP之间的无线信道增益，系统第t个时隙的卸载决策动作为a_t＝{a_t1,a_t2,…,a_tN}，其中当a_ti＝0表示第t时隙内第i个无人机选择本地计算任务模式，当a_ti＝1表示第t时隙内第i个无人机选择卸载计算任务模式，据此构建系统第t时隙的状态空间和动作空间；

2.根据权利要求1所述的一种基于无线能量传输的无人机能耗优化方法，其特征在于：所述基于构建的系统第t时隙的状态空间和动作空间，采用深度强化学习中的TD3算法，以无人机的剩余能量最大化为目标函数，求解应急救援系统中的无人机能耗模型，获得系统第t时隙最优的计算任务卸载策略和系统通信时间分配，具体执行操作为：

s_t＝{h_t1，h_t2，…，h_tN}

基于当前系统状态空间可选择的动作空间为：

a_t＝{a_t1，a_t2，…，a_tN}

基于双重网络的思想，目标动作值应为：

其中，γ∈[0,1]为折扣因子；

根据策略π_φ(s_i)得到Critic_1网络和Critic_2网络的Q值分别为和通过最小化损失函数对Critic_1网络和Critic_2网络进行梯度下降来更新网络参数θ_i:

其中，π_φ(s_i)为s_i输入到Actor网络生成的任务卸载策略；

φ′＝λφ+(1-λ)φ′

θ′_i＝λθ_i+(1-λ)θ′_i；i＝1，2

其中，λ为软更新系数。

3.一种基于权利要求1-2所述的方法中的任一方法的基于无线能量传输的无人机能耗优化系统，其特征在于，所述系统包括：

应急救援车；

MEC服务器，配有高速多核CPU；

4.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-2所述的方法中的任一方法。

5.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-2所述的方法中的任一方法的指令。