CN112752357B

CN112752357B - 基于能量收割技术的在线无人机辅助数据收集方法及装置

Info

Publication number: CN112752357B
Application number: CN202011392994.8A
Authority: CN
Inventors: 张宁; 刘娟; 谢玲富; 童鹏
Original assignee: Ningbo University
Current assignee: Dragon Totem Technology Hefei Co ltd; Hefei Wisdom Dragon Machinery Design Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2022-06-17
Anticipated expiration: 2040-12-02
Also published as: CN112752357A

Abstract

本发明公开了一种基于能量收割技术的在线无人机辅助数据收集方法，该包括：无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将所述信息年龄、生命长度、队列长度、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于第一阈值E_th，若是，执行步骤S3进入等待模式，若否，执行步骤S4进入工作模式。该方法能保证采样数据的新鲜度，通过联合优化无人机飞行轨迹和服务节点的选择，采用能量收割技术为无人机实时补充能量，在线学习方法可以实时收集网络和能量收割信息，最小化传感节点数据的信息年龄，提高无人机能量效率，减少不必要的无人机能耗开支。

Description

基于能量收割技术的在线无人机辅助数据收集方法及装置

技术领域

本发明实施例涉及无人机技术，特别涉及基于能量收割技术的在线无人机辅助数据收集方法及装置。

背景技术

无人机具有高机动性，可以灵活部署以辅助无线通信。一个典型的例子是在无线传感网络中使用无人机作为空中中继进行数据采集。在无线传感网络中，由于传感器节点的携带能量有限，很难保持节点之间稳定可靠的连接。相比之下，使用无人机作为中继，首先节点采样数据并发送到无人机，然后无人机将数据转发到数据中心，极大地缩短了节点传输距离，可以有效地保证无线传感网络的稳定运行，延长其网络寿命。

无人机的能量消耗主要发生在其飞行和数据传输过程中，然而无人机所携带的电池容量非常有限，导致无人机可持续工作时间极其短暂，这是无人机辅助的无线传感器网络所面临的一个重大挑战。为了保证数据收集的可持续性，无人机可能从充电站获取能量补充或通过设计高能效方法来节约能源是非常重要的。

现有的与无人机数据收集相关的研究主要集中在设计高能效的无人机飞行轨迹，通过平衡无人机数据传输时间和飞行时间来最小化传感节点所采样数据的信息年龄的信息年龄，从而保证采样数据的时效性。以及通过设计高能效的多无人机数据收集方案，采用分簇方法来确定每架无人机数据采集点位置，有效地平衡了无人机对所有传感节点数据收集的能耗问题。

然而，现有无人机能量补充或提高能效的技术存在以下问题：

(1)无人机仅利用高能效的数据通信方法，可以适当延长工作时间，仍然不能得到有效能量补充，因此时间仍不能满足数据收集应用需求

(2)无人机可以从充电站得到能量补充，然而，可充电的无人机需要牺牲时间和能量频繁前往充电站进行充电，以致不能充分利用有限能量资源来进行正常的数据采集活动。

发明内容

为解决现有技术中存在的问题，本发明实施方式的目的在于提供一种基于能量收割技术的在线无人机辅助数据收集方法及装置，能够通过能量收割技术对无人机进行能量收集，同时通过无人机多工作模式的转换和路径规划方法实现无人机能量的补充，进而实现无人机数据收集能效的提升。

根据本发明的一个方面，种基于能量收割技术的在线无人机辅助数据收集方法，包括：初始化：无人机的无线传感器网络中，有1架无人机和M个随机分布的地面传感器节点，无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心，在一定时间内按照一定路径飞行，在每一个飞行时刻，无人机节点向当前时刻调度出的地面传感器节点发射无线信号，确认无人机是否需要进行数据收集和能量补充；以传感器节点所处平面为X轴和Y轴，以所述平面垂直方向为Z轴进行三维立体图初始化设计；每个所述传感器节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,……,M)，作为接收无人机传输数据的数据中心位置记为L₀；设定无人机在空中的水平飞行高度是h米；无线传感网络中以时隙划分时间，设T_ts表示一个时隙长度；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子网络的策略网络参数θ’_a＝θ_a和评价网络参数设置为θ’_c＝θ_c；无人机的飞行模式包括工作模式和等待模式，所述工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据；所述等待模式为当所述无人机剩余能量低于第一阈值E_th，无人机降落在地面上以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des；设定所述工作模式和等待模式切换的第一阈值为E_th，初始化时隙数为n＝1，每经过一个时隙n自增1；初始化无人机飞行的最长时隙数为N；步骤S1：初始化所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0；初始化更新全局网络的时间间隔n_up个时隙；无人机携带能量用E(n)表示，能耗用e(n)表示，n为时隙数；无人机初始位置所携带电量为满电量E(1)＝E_{u max}，初始位置为L_u(1)＝[x₁，y₁]；初始化传感器节点数据的信息年龄A_m(n)，m＝1,2,3,……,M；生命长度U_m(n)，m＝1,2,3,……M和队列长度q_m(n)，m＝1,2,3,……,M；步骤S2：无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将所述信息年龄、生命长度、队列长度、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于无人机能量的第一阈值E_th，若是，执行步骤S3进入等待模式，若否，执行步骤S4进入工作模式；步骤S3：无人机停止在空中飞行，选择降落在地面上，无人机依靠太阳能、风能进行能量收集，待无人机能量超过第二阈值E_fl后执行步骤S4，时隙数n自增1；步骤S4：子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n)；θ′_a)，子网络的评价网络给出状态s(n)下的评价价值V(s(n)；θ'_c)，无人机执行子网络的策略网络决定的动作a(n)，所述动作包括飞行动作a_f(n)和或选取节点传输动作a_i(n)；步骤S5：判断动作a(n)中是否包括选取节点传输动作a_i(n)，若是，则传感器节点将其缓存内所有数据上传至无人机，由无人机转发所述数据至所述数据中心；若否，则无人机将在整个时隙内用于飞行，时隙数n自增1；步骤S6：判断n是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0，更新全局网络参数θ_a和θ_c，子网络获取全局参数θ'_a＝θ_a，θ'_c＝θ_c；若否，则执行步骤S6；步骤S7：判断n是否小于无人机飞行的最长时隙数N，若是，则返回步骤S2；若否，则停止数据收集，返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。

进一步可选的，所述传感器节点采集采样数据的方式包括：每个传感器节点根据采样策略从周围环境中采集数据，并将其整理成带有时间戳的数据包；所述数据包存储并排队在节点的缓存中形成队列；传感器节点m在时隙n的采样动作表示为C_m(n)∈{0,1}，其中C_m(n)＝1指传感器节点执行采样动作并将采集的所述数据包放置在缓存中，反之，则表示为C_m(n)＝0。

进一步可选的，所述传感器节点数据的队列长度、生命长度和信息年龄表示为：用Z_m(n)∈{0,1}表示节点m在时隙n的服务状态；其中Z_m(n)＝1表示传感器节点m的数据上传到无人机并由无人机转发数据至数据中心，反之Z_m(n)＝0；因此传感器节点m的队列长度更新为：

q_m(n+1)＝max{q_m(n)-Z_m(n)q_m(n),0}+C_m(n)

用

表示传感器节点m最新采样的数据包在时隙n的生命长度；在时隙n，若有一个新的数据包到达，则其生命长度记为1，即U_m(n)＝1；若没有新的数据包到达，且节点将数据上传到无人机，那么传感器节点数据为空，即U_m(n)＝0；否则生命周期随着时隙数以1为起点递增，其更新过程为：

信息年龄表示采样数据的新鲜程度，若无人机在时隙n将节点m的数据转发至数据中心，该节点信息年龄记为节点的生命长度U_m(n)，否则随着时隙数以1递增，其更新过程为

进一步可选的，所述无人机执行飞行动作时，从一个位置根据飞行动作飞到另一个位置或者悬停在原地。

进一步可选的，所述步骤S2还包括：所述等待模式中，无人机停止在空中飞行，降落在地面对应能耗为降落能耗e_des(n)；当所述无人机收集能量超过第二阈值E_fl时，无人机切换为工作模式，对应能耗为上升能耗e_as(n)。

进一步可选的，所述上升能耗e_as(n)和降落能耗e_des(n)的计算公式如下：无人机垂直上升和垂直下降的功率分别为:

所以对应能耗为:

其中，v_s是无人机垂直方向上的飞行速度，W是无人机质量，ρ是空气密度，R是转子半径。

进一步可选的，所述步骤S5包括：步骤S51：传感器节点将其缓存内所有数据上传至无人机，由无人机转发数据至数据中心，以上过程无人机均保持悬停状态，时间长度记为T_c；步骤S52：根据传输数据长度、数据大小以及传输距离计算无人机的传输能耗e_tx(n)，根据无人机悬停功率以及悬停时间计算无人机的悬停能耗e_f,h(n)；在该时隙的剩余时间T_ts-T_c内，无人机完成飞行动作，并计算其飞行能耗e_tf(n)；步骤S53：时隙n没有数据转发任务时，无人机将在整个时隙内用于飞行，计算无人机的飞行能耗e_f(n)；步骤S54：计算时隙n初始时刻的状态s(n)采取动作a(n)的代价函数

其中，

为各传感器节点的平均信息年龄，e(n)为无人机能耗，ζ是能耗的权重系数。

进一步可选的，所述飞行能耗e_f(n)的计算公式如下：无人机水平飞行功率与水平飞行速度有关，表示为：

其中，N_b是旋桨个数，c_b是叶旋，C_D0是阻力系数，ω_b是角速度，A_e是无人机前额参考面积；λ_b满足以下等式：

因此，无人机的水平飞行能耗为e_f(n)＝P_H(v_h(n))T_ts，传输数据时的悬停能耗为e_f,h(n)＝P_H(0)T_c。

进一步可选的，所述数据传输能耗e_tx(n)的计算公式如下：当时隙为n时，无人机与数据中心间信道增益为h₀(n)，无人机传输大小为w(n)的数据包时的功率为：

其中，R_m(n)是无人机在时隙n的数据传输速率，B是信道带宽，σ²是噪声功率；无人机转发数据到数据中心的能耗包括传输能耗和悬停能耗，即

进一步可选的，所述全局网络的策略网络参数梯度dθ_a和评价网络参数梯度dθ_c的累积计算方式包括：无人机执行a(n)后达到时隙数n为n_up的倍数或n等于无人机飞行的最长时隙数N时，利用无人机所得到的n_up个时隙下作出的每个动作的代价值集合c、状态集合s和动作集合a来计算相应的梯度，时隙j梯度的累积计算方式如下：

其中

表示从时隙j起始的长期回报，γ为折扣因子，β为熵的权重，利用熵H(π(s(j)；θ'_a))来加大动作探索。

根据本发明的另一个方面，一种基于能量收割技术的在线无人机辅助数据收集装置，包括：初始化模块，用于在一种基于能量收割技术的在线无人机辅助数据收集方法，无人机的无线传感器网络中，有1架无人机和M个随机分布的地面传感器节点，无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心，在一定时间内按照一定路径飞行，在每一个飞行时刻，无人机节点向当前时刻调度出的地面传感器节点发射无线信号，确认无人机是否需要进行数据收集和能量补充；以传感器节点所处平面为X轴和Y轴，以所述平面垂直方向为Z轴进行三维立体图初始化设计；每个所述传感器节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,……,M)，作为接收无人机传输数据的数据中心位置记为L₀；设定无人机在空中的水平飞行高度是h米；无线传感网络中以时隙划分时间，设T_ts表示一个时隙长度；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子网络的策略网络参数θ’_a＝θ_a和评价网络参数设置为θ’_c＝θ_c；无人机的飞行模式包括工作模式和等待模式，所述工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据；所述等待模式为当所述无人机剩余能量低于第一阈值E_th，无人机降落在地面上以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des；设定所述工作模式和等待模式切换的第一阈值为E_th，初始化时隙数为n＝1，每经过一个时隙n自增1；初始化无人机飞行的最长时隙数为N；初始化所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0；初始化更新全局网络的时间间隔n_up个时隙；无人机携带能量用E(n)表示，能耗用e(n)表示，n为时隙数；无人机初始位置所携带电量为满电量E(1)＝E_{u max}，初始位置为L_u(1)＝[x₁，y₁]；初始化传感器节点数据的信息年龄A_m(n)，m＝1,2,3,……,M；生命长度U_m(n)，m＝1,2,3,……M和队列长度q_m(n)，m＝1,2,3,……,M；获取模块，其用于无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将所述信息年龄、生命长度、队列长度、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于无人机能量的第一阈值E_th，若是，执行等待模式模块，若否，执行工作模式模块；等待模式模块，其用于无人机停止在空中飞行，选择降落在地面上，无人机依靠太阳能、风能进行能量收集，等待能量超过第二阈值E_fl后执行工作模式模块，时隙数n自增1；工作模式模块，其用于子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n)；θ′_a)，子网络的评价网络给出状态s(n)下的评价价值V(s(n)；θ'_c)，无人机执行子网络的策略网络决定的动作a(n)，所述动作包括飞行动作a_f(n)和或选取节点传输动作a_i(n)；无人机飞行判断模块，其用于判断动作a(n)中是否包括选取节点传输动作a_i(n)，若是，则传感器节点将其缓存内所有数据上传至无人机，由无人机转发所述数据至所述数据中心；若否，则无人机将在整个时隙内用于飞行，时隙数n自增1；无人机全局网络更新模块，其用于判断n是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0，更新全局网络参数θ_a和θ_c，子网络获取全局参数θ'_a＝θ_a，θ'_c＝θ_c；若否，则执行能耗计算模块；

能耗计算模块，其用于判断n是否小于无人机飞行的最长时隙数N，若是，则返回初始化模块；若否，则停止数据收集，返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。

本发明的有益效果：

1.本发明的技术方案通过在等待模式下引入能量收割技术，从环境中源源不断获取可再生能源，同时全局网络和子网络的策略网络参数和评价网络参数解决无人机的路径规划，采用高能效的数据收集方法，可以有效延长无人机的持续工作时间，提高所采集数据的新鲜度。

2.本发明的技术方案通过工作模式和等待模式的切换，利用迫降技术保证无人机的安全，无人机能量低于第一阈值时，会选择降落在地面上，等待能量到达，直至收集足够能量达到第二阈值时，无人机继续数据收集任务，这样使得无人机不会因为能量突降而坠毁，同时能够进一步提升无人机收集数据的效率。

附图说明

图1示出的是本发明的系统模型结构示意图；

图2示出的是本发明的A3C和DQN算法的收敛性比较图；

图3示出的是本发明的能量收割速度影响图；

图4示出的是本发明的无人机通信范围影响图；

图5示出的是本发明的实施例1的流程图。

图6示出的是本发明的实施例3的流程图。

具体实施方式

现在将参照若干示例性实施例来论述本发明的内容。应当理解，论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。

实施例1：

根据本实施例所提出的一种基于能量收割技术的在线无人机辅助数据收集方法，图5示出了一种基于能量收割技术的在线无人机辅助数据收集方法的具体流程，具体步骤包括：

步骤101、初始化：无人机的无线传感器网络中，有1架无人机和M个随机分布的地面传感器节点，无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心，在一定时间内按照一定路径飞行，在每一个飞行时刻，无人机节点向当前时刻调度出的地面传感器节点发射无线信号，确认无人机是否需要进行数据收集和能量补充；以传感器节点所处平面为X轴和Y轴，以平面垂直方向为Z轴进行三维立体图初始化设计；每个传感器节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,……,M)，作为接收无人机传输数据的数据中心位置记为L₀；设定无人机在空中的水平飞行高度是h米；无线传感网络中以时隙划分时间，设T_ts表示一个时隙长度；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子网络的策略网络参数θ’_a＝θ_a和评价网络参数设置为θ’_c＝θ_c；无人机的飞行模式包括工作模式和等待模式，工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据；等待模式为当无人机剩余能量低于第一阈值E_th，无人机降落在地面上以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des；设定工作模式和等待模式切换能量阈值包括第一阈值为E_th和第二阈值为E_fl，第一阈值为当无人机从工作模式判定剩余能量时，如果低于第一阈值E_th，则无人机执行等待模式；第二阈值表示为当无人机在等待模式判定是否可以执行工作模式时，如果剩余能量高于第二阈值E_fl，则执行工作模式。初始化时隙数为n＝1，每经过一个时隙n自增1；初始化无人机飞行的最长时隙数为N；

步骤102、初始化全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0；初始化更新全局网络的时间间隔n_up个时隙；无人机携带能量用E(n)表示，能耗用e(n)表示，n为时隙数；无人机初始位置所携带电量为满电量E(1)＝E_u _max，初始位置为L_u(1)＝[x₁，y₁]；初始化传感器节点数据的信息年龄A_m(n)，m＝1,2,3,……,M；生命长度U_m(n)，m＝1,2,3,……M和队列长度q_m(n)，m＝1,2,3,……,M；

步骤103、无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将信息年龄、生命长度、队列长度、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于能量的第一阈值E_th，若是，执行步骤104进入等待模式，若否，执行步骤105进入工作模式；

步骤104、无人机停止在空中飞行，选择降落在地面上，无人机依靠太阳能、风能进行能量收集，等待能量超过第二阈值E_fl后执行步骤S4，时隙数n自增1；

步骤105、无人机执行工作模式，子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n)；θ′_a)，子网络的评价网络给出状态s(n)下的评价价值V(s(n)；θ'_c)，无人机执行子网络的策略网络决定的动作a(n)，动作包括飞行动作a_f(n)和或选取节点传输动作a_i(n)；

步骤106、判断动作a(n)中是否包括选取节点传输动作a_i(n)，若是，则传感器节点将其缓存内所有数据上传至无人机，由无人机转发数据至数据中心；若否，则无人机将在整个时隙内用于飞行，时隙数n自增1；执行步骤107；

步骤107、判断n是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0，更新全局网络参数θ_a和θ_c，子网络获取全局参数θ'_a＝θ_a，θ'_c＝θ_c，并执行步骤108；若否，则执行步骤108；

步骤108、判断n是否小于无人机飞行的最长时隙数N，若是，则返回步骤102；若否，则停止数据收集，返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。

本实施例的有益效果在于：本实施例通过在等待模式下引入能量收割技术，从环境中源源不断获取可再生能源，同时全局网络和子网络的策略网络参数和评价网络参数解决无人机的路径规划，采用高能效的数据收集方法，可以有效延长无人机的持续工作时间，提高所采集数据的新鲜度。本实施例通过工作模式和等待模式的切换，利用迫降技术保证无人机的安全，无人机能量低于第一阈值时，会选择降落在地面上，等待能量到达，直至收集足够能量达到第二阈值时，无人机继续数据收集任务，这样使得无人机不会因为能量突降而坠毁，同时能够进一步提升无人机收集数据的效率。

实施例2：

根据本实施例所提出的一种基于能量收割技术的在线无人机辅助数据收集方法，具体步骤包括：

步骤201、初始化：无人机的无线传感器网络中，有1架无人机和M个随机分布的地面传感器节点，无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心，在一定时间内按照一定路径飞行，在每一个飞行时刻，无人机节点向当前时刻调度出的地面传感器节点发射无线信号，确认无人机是否需要进行数据收集和能量补充；

2011、在无人机传感网络中，以传感器节点所处平面为X轴和Y轴，以平面垂直方向为Z轴进行三维立体图初始化设计；每个传感器节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,……,M)，作为接收无人机传输数据的数据中心位置记为L₀；设定无人机在空中的水平飞行高度是h米；无线传感网络中以时隙划分时间，设T_ts表示一个时隙长度；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子网络的策略网络参数θ’_a＝θ_a和评价网络参数设置为θ’_c＝θ_c；全局网络参数和自网络参数用以评价和决定无人机的飞行动作a(n)；

2012、无人机的飞行模式包括工作模式和等待模式，工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据；等待模式为当无人机剩余能量低于第一阈值E_th，无人机降落在地面上以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des；设定工作模式和等待模式切换能量阈值包括第一阈值为E_th和第二阈值为E_fl，第一阈值为当无人机从工作模式判定剩余能量时，如果低于第一阈值E_th，则无人机执行等待模式；第二阈值表示为当无人机在等待模式判定是否可以执行工作模式时，如果剩余能量高于第二阈值E_fl，则执行工作模式。初始化时隙数为n＝1，每经过一个时隙n自增1；初始化无人机飞行的最长时隙数为N；

2013、每个传感器节点根据采样策略从周围环境中采集数据，并将其整理成带有时间戳的数据包；这里所说的采样策略是节点采集周围数据的采样策略，可以使用等间隔采样或随机采样的方式进行数据采集。

2014、收集好的数据包存储并排队在节点的缓存中形成队列；传感器节点m在时隙n的采样动作表示为C_m(n)∈{0,1}，其中C_m(n)＝1指传感器节点执行采样动作并将采集的数据包放置在缓存中，反之，则表示为C_m(n)＝0；

步骤202、初始化全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0；初始化更新全局网络的时间间隔n_up个时隙；无人机携带能量用E(n)表示，能耗用e(n)表示，n为时隙数；无人机初始位置所携带电量为满电量E(1)＝E_u _max，初始位置为L_u(1)＝[x₁，y₁]；初始化传感器节点数据的信息年龄A_m(n)，m＝1,2,3,……,M；生命长度U_m(n)，m＝1,2,3,……M和队列长度q_m(n)，m＝1,2,3,……,M；

在本实施例中，用Z_m(n)∈{0,1}表示节点m在时隙n的服务状态；其中Z_m(n)＝1表示传感器节点m的数据上传到无人机并由无人机转发数据至数据中心，反之Z_m(n)＝0；因此传感器节点m的队列长度更新为：

q_m(n+1)＝max{q_m(n)-Z_m(n)q_m(n),0}+C_m(n)

用

用A_m(n)表示信息年龄表示采样数据的新鲜程度，若无人机在时隙n将节点m的数据转发至数据中心，该节点信息年龄记为节点的生命长度U_m(n)，否则随着时隙数以1递增，其更新过程为

步骤203、无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将信息年龄A_m(n)、生命长度U_m(n)和队列长度q_m(n)、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于能量阈值E_th，若是，执行步骤204进入等待模式，若否，执行步骤205进入工作模式；此种工作模式切换设计能够使得无人机在一次飞行即可最大程度上采集更多的数据量，提高无人机数据收集的效率。

步骤204、无人机停止在空中飞行，选择降落在地面上，无人机依靠太阳能、风能进行能量收集，等待能量超过第二阈值E_fl后执行步骤S4，时隙数n自增1；

在本实施例的等待模式中，无人机停止在空中飞行，降落在地面对应能耗为降落能耗e_des(n)；

当无人机收集能量超过第二阈值E_fl时，无人机切换为工作模式，对应能耗为上升能耗e_as(n)。

上升能耗e_as(n)和降落能耗e_des(n)的计算公式如下：

无人机垂直上升和垂直下降的功率分别为:

所以对应能耗为:

步骤205、无人机进入工作模式，子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n)；θ′_a)，子网络的评价网络给出状态s(n)下的评价价值V(s(n)；θ'_c)，无人机执行子网络的策略网络决定的动作a(n)，动作包括飞行动作a_f(n)和或选取节点传输动作a_i(n)；

步骤206、判断动作a(n)中是否包括选取节点传输动作a_i(n)，若是，则传感器节点将其缓存内所有数据上传至无人机，由无人机转发数据至数据中心；若否，则无人机将在整个时隙内用于飞行，时隙数n自增1；无人机执行飞行动作时，无人机与传感器之间的通信可以在一定范围内实现，因此在其飞行动作为从无人机通讯范围所覆盖的传感器节点位置L_m，通过最短距离飞行到动作a(n)指定的更够被无人机通讯范围所覆盖的传感器节点。

2061、传感器节点将其缓存内所有数据上传至无人机，由无人机转发数据至数据中心，以上过程无人机均保持悬停状态，时间长度记为T_c；

2062、根据传输数据长度、数据大小以及传输距离计算无人机的传输能耗e_tx(n)，根据无人机悬停功率以及悬停时间计算无人机的悬停能耗e_f,h(n)；在该时隙的剩余时间T_ts-T_c内，无人机完成飞行动作，并计算其飞行能耗e_tf(n)；

数据传输能耗e_tx(n)的计算公式如下：当时隙为n时，无人机与数据中心间信道增益为h₀(n)，无人机传输大小为w(n)的数据包时的功率为：

飞行能耗e_f(n)的计算公式如下：无人机水平飞行功率与水平飞行速度有关，表示为：

2063、时隙n没有数据转发任务时，无人机将在整个时隙内用于飞行，计算无人机的飞行能耗e_f(n)；

2064、计算时隙n初始时刻的状态s(n)采取动作a(n)的代价函数

其中，

步骤207、判断n是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0，更新全局网络参数θ_a和θ_c，子网络获取全局参数θ'_a＝θ_a，θ'_c＝θ_c；若否，则执行步骤208；

全局网络的策略网络参数梯度dθ_a和评价网络参数梯度dθ_c的累积计算方式包括：无人机执行a(n)后达到时隙数n为n_up的倍数或n等于无人机飞行的最长时隙数N时，利用无人机所得到的n_up个时隙下作出的每个动作的代价值集合c、状态集合s和动作集合a来计算相应的梯度，时隙j梯度的累积计算方式如下：

其中

步骤208：判断n是否小于无人机飞行的最长时隙数N，若是，则返回步骤S2；若否，则停止数据收集，返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。

实施例3：

根据本实施例所提出的一种基于能量收割技术的在线无人机辅助数据收集方法，图6示出了另一种基于能量收割技术的在线无人机辅助数据收集方法的具体流程，具体步骤包括：

初始化：一种无人机辅助的无线传感器网络有M个随机分布的地面传感器节点，一架旋翼无人机作为移动中继收集每个节点的采样数据并转发到数据中心。节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,…M)，数据中心位置记为L₀。将目标区域划分为相同大小的网格。网格i的中心坐标为Ω_i＝[X_i,Y_i](i＝1,2,3,…I)，其中i为总网格数。网格的长度和宽度分别用x_s和y_s表示。假设WSN以时隙划分，设T_ts表示一个时隙长度。设定无人机在空中的水平飞行高度是h米。初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子线程的策略网络和评价网络参数置为θ'_a＝θ_a，θ'_c＝θ_c。无人机工作模式和等待模式的切换阈值为E_th，累积时隙数为n。

步骤S1：初始化梯度dθ_a＝0，dθ_c＝0。初始化更新神经网络的时间间隔n_up，初始时隙数n＝1，n_st＝1。无人机携带能量为满电量E(n)＝E_u,max，初始位置为L_u(n)＝[x₁,y₁]。初始化节点数据的信息年龄A_m(n),(m＝1,2,…M)、生命长度U_m(n),(m＝1,2,…M)和队列长度q_m(n),(m＝1,2,…M)。

节点数据的队列长度、生命长度和信息年龄表示为用Z_m(n)∈{0,1}表示节点m在时隙n的服务状态。其中Z_m(n)＝1表示节点m的数据上传到无人机并由无人机转发数据至数据中心，反之Z_m(n)＝0。因此节点m的队列长度更新为

q_m(n+1)＝max{q_m(n)-Z_m(n)q_m(n),0}+C_m(n)

用

来表示节点m最新采样的数据包在时隙n的生命长度。如果时隙n有一个新的数据包到达，则其生命长度记为1，即U_m(n)＝1。如果节点数据为空，则令U_m(n)＝0。否则生命周期随着时隙数以1递增，其更新过程为

信息年龄用来衡量信息的新鲜程度。如果无人机在时隙n将节点m的数据转发至数据中心，该节点信息年龄记为节点的生命长度U_m(n)，否则随着时隙数以1递增。其更新过程为

步骤S2：无人机获取节点数据的信息年龄A_m(n),(m＝1,2,…M)、生命长度U_m(n),(m＝1,2,…M)和队列长度q_m(n),(m＝1,2,…M)。并将以上信息和无人机位置与剩余能量作为该时隙的状态s(n)。判断无人机剩余能量是否小于门限E_th，若是执行步骤S3进入等待模式，若否，执行步骤S4进入工作模式。

无人机的运转模式有两种，一种是工作模式一种是等待模式。这两种模式的选择取决于无人机的剩余能量。在工作模式中，无人机可以飞行和转发其服务范围内的节点数据。当剩余能量低于阈值E_th时，无人机从工作模式切换到等待模式，也就是说降落在地面上，以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des。当收割到足够的能量，即剩余能量超过阈值时，无人机切换为工作模式，对应能耗为上升能耗e_as。

步骤S3：无人机停止在空中飞行，选择降落在地面上，等待能量到达，并更新状态得到s(n+1)。

无人机在每个时隙初始时刻的动作选择a(n)包括两部分。第一部分是选择水平飞行方向，例如东、南、西和北等。第二部分是选择转发哪个节点的数据或者选择不转发节点数据。

步骤S4：将状态s(n)输入策略网络，得到选取各个动作的概率π(a(n)s(n)；θ'_a)，以此概率随机从动作空间中选取动作a(n)并执行。得到更新后的状态s(n+1)。

步骤S5：判断n-n_st是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用累积梯度dθ_a和dθ_c更新全局网络参数θ_a和θ_c，子线程获取全局参数θ'_a＝θ_a，θ'_c＝θ_c。若否，则执行步骤S6。步骤S6：判断n是否小于无人机飞行的最长时隙数N，如果是，则返回步骤S2；若否，则停止数据收集，返回节点数据的平均信息年龄和无人机能耗。

动作决策算法

策略网络给出状态s(n)下采取各个动作的概率π(s(n)；θ'_a)，评价网路则是评价状态s(n)的价值V(s(n)；θ'_c)。时隙n初始时刻的状态s(n)采取动作a(n)代价函数定义为各节点的平均信息年龄和无人机能耗的加权和

其中，

为各节点的平均信息年龄，e(n)为无人机能耗，ζ是能耗的权重系数。将状态s(n)输入到策略网络，得到状态s(n)下选取动作的概率值π(s(n)；θ'_a)，然后根据该概率权重随机选择一个动作a(n)，执行a(n)后得到状态s(n+1)，直到n_up步(或终止状态s(N))，可以得到的n_up个c。利用这n_up个状态s、动作a和代价c来计算相应的梯度，梯度的累积过程如下

其中

β为熵的权重。利用熵H(π(s(j)；θ'_a))来加大动作探索。

步骤S6：步骤S61：每个传感节点以一定采样策略从周围环境中采集数据，并将其整理成带有时间戳的数据包。该数据包存储并排队在节点的缓存中。节点m在时隙n的采样动作表示为C_m(n)∈{0,1}，其中C_m(n)＝1是指节点有采样动作并将新采来的数据包放置在缓冲区中，反之，则表示为C_m(n)＝0。

步骤S62：在一个时隙内，无人机从一个网格中心飞到另一个网格中心或者悬停在原网格中。每个时隙内，若无人机选择其通信范围内一个节点进行数据传输并且该节点内数据不为空，执行步骤S63，否则，执行步骤S64。

步骤S63：节点将其缓冲区内所有数据都上传至无人机，然后由无人机转发数据至数据中心。以上过程无人机均保持悬停状态，时间长度记为T_c。根据传输数据长度、数据大小以及传输距离计算无人机的传输能耗e_tx(n)，根据无人机悬停功率以及悬停时间计算无人机的悬停能耗。在该时隙的剩余时间内，无人机完成飞行动作，并计算其飞行能耗e_tf(n)。

步骤S64：时隙n没有数据转发任务时，无人机将在整个时隙内用于飞行。计算无人机的飞行能耗e_f(n)。

上升能耗e_as(n)和降落能耗e_des(n)的计算公式如下：无人机垂直上升和垂直下降的功率分别为

所以对应能耗为

能耗计算

飞行能耗e_f(n)的计算公式如下：无人机水平飞行功率与水平飞行速度有关，由轮廓功率、诱导功率和寄生功率组成：

其中，N_b是旋桨个数，c_b是叶旋，ρ是空气密度，

是阻力系数，ω_b是角速度，R是转子半径，W是无人机质量，A_e是无人机前额参考面积。λ_b满足以下等式：

因此，无人机的水平飞行能耗为e_f(n)＝P_H(v_h(n))T_ts。

数据传输能耗e_tx(n)的计算公式如下：时隙n时，无人机与数据中心间信道增益为h₀(n)，无人机传输大小为w(n)的数据包时的功率为

其中，R_m(n)是无人机在时隙n的数据传输速率，B是信道带宽，σ²是噪声功率。无人机转发数据到数据中心的能耗包括传输能耗和悬停能耗，即

实施例4：

根据本实施例所提出的一种基于能量收割技术的在线无人机辅助数据收集装置，具体包括：

初始化：无人机的无线传感器网络中，有1架无人机和M个随机分布的地面传感器节点，无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心，在一定时间内按照一定路径飞行，在每一个飞行时刻，无人机节点向当前时刻调度出的地面传感器节点发射无线信号，确认无人机是否需要进行数据收集和能量补充；以传感器节点所处平面为X轴和Y轴，以平面垂直方向为Z轴进行三维立体图初始化设计；每个传感器节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,……,M)，作为接收无人机传输数据的数据中心位置记为L₀；设定无人机在空中的水平飞行高度是h米；无线传感网络中以时隙划分时间，设T_ts表示一个时隙长度；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子网络的策略网络参数θ’_a＝θ_a和评价网络参数设置为θ’_c＝θ_c；无人机的飞行模式包括工作模式和等待模式，工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据；等待模式为当无人机剩余能量低于第一阈值E_th，无人机降落在地面上以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des；设定工作模式和等待模式切换的第一阈值为E_th，初始化时隙数为n＝1，每经过一个时隙n自增1；初始化无人机飞行的最长时隙数为N；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0；初始化更新全局网络的时间间隔n_up个时隙；无人机携带能量用E(n)表示，能耗用e(n)表示，n为时隙数；无人机初始位置所携带电量为满电量E(1)＝E_u _max，初始位置为L_u(1)＝[x₁，y₁]；初始化传感器节点数据的信息年龄A_m(n)，m＝1,2,3,……,M；生命长度U_m(n)，m＝1,2,3,……M和队列长度q_m(n)，m＝1,2,3,……,M；

获取模块，其用于无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将信息年龄、生命长度、队列长度、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于第一阈值E_th，若是，执行步骤S3进入等待模式，若否，执行步骤S4进入工作模式；

等待模式模块，其用于无人机停止在空中飞行，选择降落在地面上，无人机依靠太阳能、风能进行能量收集，等待能量超过第二阈值E_fl后执行步骤S4，时隙数n自增1；

工作模式模块，其用于子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n)；θ′a)，子网络的评价网络给出状态s(n)下的评价价值V(s(n)；θ'_c)，无人机执行子网络的策略网络决定的动作a(n)，动作包括飞行动作a_f(n)和或选取节点传输动作a_i(n)；

无人机飞行判断模块，其用于判断动作a(n)中是否包括选取节点传输动作a_i(n)，若是，则传感器节点将其缓存内所有数据上传至无人机，由无人机转发数据至数据中心；若否，则无人机将在整个时隙内用于飞行，时隙数n自增1；

无人机全局网络更新模块，其用于判断n是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0，更新全局网络参数θ_a和θ_c，子网络获取全局参数θ'_a＝θ_a，θ'_c＝θ_c；若否，则执行步骤S6；

能耗计算模块，其用于判断n是否小于无人机飞行的最长时隙数N，若是，则返回步骤S2；若否，则停止数据收集，返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束个件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

应理解，本发明的发明内容及实施例中各步骤的序号的大小并不绝对意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

Claims

1.一种基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，包括：

初始化：无人机的无线传感器网络中，有1架无人机和M个随机分布的地面传感器节点，无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心，在一定时间内按照一定路径飞行，在每一个飞行时刻，无人机节点向当前时刻调度出的地面传感器节点发射无线信号，确认无人机是否需要进行数据收集和能量补充；以传感器节点所处平面为X轴和Y轴，以所述平面垂直方向为Z轴进行三维立体图初始化设计；每个所述传感器节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,……,M)，作为接收无人机传输数据的数据中心位置记为L₀；设定无人机在空中的水平飞行高度是h米；无线传感网络中以时隙划分时间，设T_ts表示一个时隙长度；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子网络的策略网络参数θ’_a＝θ_a和评价网络参数设置为θ’_c＝θ_c；无人机的飞行模式包括工作模式和等待模式，所述工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据；所述等待模式为当所述无人机在所述工作模式下剩余能量低于第一阈值E_th，无人机降落在地面上以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des；设定所述工作模式和等待模式切换的第一阈值为E_th，初始化时隙数为n＝1，每经过一个时隙n自增1；初始化无人机飞行的最长时隙数为N；

步骤S1：初始化所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0；初始化更新全局网络的时间间隔n_up个时隙；无人机携带能量用E(n)表示，能耗用e(n)表示，n为时隙数；无人机初始位置所携带电量为满电量E(1)＝E_umax，初始位置为L_u(1)＝[x₁，y₁]；初始化传感器节点数据的信息年龄A_m(n)，m＝1,2,3,……,M；生命长度U_m(n)，m＝1,2,3,……M和队列长度q_m(n)，m＝1,2,3,……,M；

步骤S2：无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将所述信息年龄、生命长度、队列长度、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于能量阈值E_th，若是，执行步骤S3进入等待模式，若否，执行步骤S4进入工作模式，用Z_m(n)∈{0,1}表示节点m在时隙n的服务状态；其中Z_m(n)＝1表示传感器节点m的数据上传到无人机并由无人机转发数据至数据中心，反之Z_m(n)＝0；因此传感器节点m的队列长度更新为：

q_m(n+1)＝max{q_m(n)-Z_m(n)q_m(n),0}+C_m(n)；

用

步骤S3：无人机停止在空中飞行，选择降落在地面上，无人机依靠太阳能、风能进行能量收集，待无人机能量超过等待模式切换至工作模式的第二阈值E_fl后执行步骤S4，时隙数n自增1；

步骤S4：子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n)；θ′_a)，子网络的评价网络给出状态s(n)下的评价价值V(s(n)；θ'_c)，无人机执行子网络的策略网络决定的动作a(n)，所述动作包括飞行动作a_f(n)和或选取节点传输动作a_i(n)；

步骤S5：判断动作a(n)中是否包括选取节点传输动作a_i(n)，若是，则传感器节点将其缓存内所有数据上传至无人机，由无人机转发所述数据至所述数据中心；若否，则无人机将在整个时隙内用于飞行，时隙数n自增1；

步骤S6：判断n是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0，更新全局网络参数θ_a和θ_c，子网络获取全局参数θ'_a＝θ_a，θ'_c＝θ_c,无人机执行a(n)后达到时隙数n为n_up的倍数或n等于无人机飞行的最长时隙数N时，利用无人机所得到的n_up个时隙下作出的每个动作的代价值集合c、状态集合s和动作集合a来计算相应的梯度，时隙j梯度的累积计算方式如下：

其中

表示从时隙j起始的长期回报，γ为折扣因子，β为熵的权重，利用熵H(π(s(j)；θ'_a))来加大动作探索；若否，则执行步骤S7；

步骤S7：判断n是否小于无人机飞行的最长时隙数N，若是，则返回步骤S2；若否，则停止数据收集，返回无人机所采集的所有传感器节点信息年龄的平均值和无人机采集过程中的能耗e(n)。

2.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，所述传感器节点采集采样数据的方式包括：

每个传感器节点根据采样策略从周围环境中采集数据，并将其整理成带有时间戳的数据包；所述数据包存储并排队在节点的缓存中形成队列；传感器节点m在时隙n的采样动作表示为C_m(n)∈{0,1}，其中C_m(n)＝1指传感器节点执行采样动作并将采集的所述数据包放置在缓存中，反之，则表示为C_m(n)＝0。

3.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，所述无人机执行飞行动作时，从一个位置根据飞行动作飞到另一个位置或者悬停在原地。

4.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，所述步骤S2还包括：

所述等待模式中，无人机停止在空中飞行，降落在地面对应能耗为降落能耗e_des(n)；

当所述无人机收集能量超过等待模式的第二阈值E_fl时，无人机切换为工作模式，对应能耗为上升能耗e_as(n)。

5.如权利要求4所述的基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，所述上升能耗e_as(n)和降落能耗e_des(n)的计算公式如下：

无人机垂直上升和垂直下降的功率分别为:

所以对应能耗为:

6.如权利要求1所述的基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，所述步骤S5包括：

步骤S51：传感器节点将其缓存内所有数据上传至无人机，由无人机转发数据至数据中心，以上过程无人机均保持悬停状态，时间长度记为T_c；

步骤S52：根据传输数据长度、数据大小以及传输距离计算无人机的传输能耗e_tx(n)，根据无人机悬停功率以及悬停时间计算无人机的悬停能耗e_f,h(n)；在该时隙的剩余时间T_ts-T_c内，无人机完成飞行动作，并计算其飞行能耗e_tf(n)；

步骤S53：时隙n没有数据转发任务时，无人机将在整个时隙内用于飞行，计算无人机的飞行能耗e_f(n)；

步骤S54：计算时隙n初始时刻的状态s(n)采取动作a(n)的代价函数

其中，

7.如权利要求6所述的基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，所述飞行能耗e_f(n)的计算公式如下：

无人机水平飞行功率与水平飞行速度有关，表示为：

其中，N_b是旋桨个数，c_b是叶旋，

是阻力系数，ω_b是角速度，A_e是无人机前额参考面积；λ_b满足以下等式：

8.如权利要求6所述的基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，所述数据传输能耗e_tx(n)的计算公式如下：

当时隙为n时，无人机与数据中心间信道增益为h₀(n)，无人机传输大小为w(n)的数据包时的功率为：

9.一种基于能量收割技术的在线无人机辅助数据收集装置，其特征在于，包括：

初始化模块，用于在一种基于能量收割技术的在线无人机辅助数据收集方法，其特征在于，包括：

初始化：无人机的无线传感器网络中，有1架无人机和M个随机分布的地面传感器节点，无人机作为移动中继收集每个传感器节点采集到的采样数据并转发到数据中心，在一定时间内按照一定路径飞行，在每一个飞行时刻，无人机节点向当前时刻调度出的地面传感器节点发射无线信号，确认无人机是否需要进行数据收集和能量补充；以传感器节点所处平面为X轴和Y轴，以所述平面垂直方向为Z轴进行三维立体图初始化设计；每个所述传感器节点的位置记为L_m＝[x_m,y_m](m＝1,2,3,……,M)，作为接收无人机传输数据的数据中心位置记为L₀；设定无人机在空中的水平飞行高度是h米；无线传感网络中以时隙划分时间，设T_ts表示一个时隙长度；初始化全局网络的策略网络参数θ_a和评价网络参数θ_c，子网络的策略网络参数θ’_a＝θ_a和评价网络参数设置为θ’_c＝θ_c；无人机的飞行模式包括工作模式和等待模式，所述工作模式为无人机进行正常飞行和转发其服务范围内的传感器节点数据；所述等待模式为当所述无人机在所述工作模式下剩余能量低于第一阈值E_th，无人机降落在地面上以避免能量不足引起意外坠毁，对应能耗为降落能耗e_des；设定所述工作模式和等待模式切换的第一阈值为E_th，初始化时隙数为n＝1，每经过一个时隙n自增1；初始化无人机飞行的最长时隙数为N；初始化所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0；初始化更新全局网络的时间间隔n_up个时隙；无人机携带能量用E(n)表示，能耗用e(n)表示，n为时隙数；无人机初始位置所携带电量为满电量E(1)＝E_umax，初始位置为L_u(1)＝[x₁，y₁]；初始化传感器节点数据的信息年龄A_m(n)，m＝1,2,3,……,M；生命长度U_m(n)，m＝1,2,3,……M和队列长度q_m(n)，m＝1,2,3,……,M；

获取模块，其用于无人机遍历获取时隙n初始时刻所有传感器节点数据的信息年龄、生命长度和队列长度；并将所述信息年龄、生命长度、队列长度、无人机的位置L_u与无人机携带能量E(n)作为该时隙的状态s(n)，判断无人机携带能量E(n)是否小于无人机能量的第一阈值E_th，若是，执行步骤S3进入等待模式，若否，执行步骤S4进入工作模式，用Z_m(n)∈{0,1}表示节点m在时隙n的服务状态；其中Z_m(n)＝1表示传感器节点m的数据上传到无人机并由无人机转发数据至数据中心，反之Z_m(n)＝0；因此传感器节点m的队列长度更新为：

q_m(n+1)＝max{q_m(n)-Z_m(n)q_m(n),0}+C_m(n)；

用

工作模式模块，其用于子网络的策略网络给出状态s(n)下采取各个动作的概率π(a(n)|s(n)；θ′_a)，子网络的评价网络给出状态s(n)下的评价价值V(s(n)；θ′_c)，无人机执行子网络的策略网络决定的动作a(n)，所述动作包括飞行动作a_f(n)和或选取节点传输动作a_i(n)；

无人机飞行判断模块，其用于判断动作a(n)中是否包括选取节点传输动作a_i(n)，若是，则传感器节点将其缓存内所有数据上传至无人机，由无人机转发所述数据至所述数据中心；若否，则无人机将在整个时隙内用于飞行，时隙数n自增1；

无人机全局网络更新模块，其用于判断n是否为n_up的倍数或n是否等于无人机飞行的最长时隙数N，若是，则分别利用所述全局网络的策略网络参数θ_a和评价网络参数θ_c的梯度dθ_a＝0，dθ_c＝0，更新全局网络参数θ_a和θ_c，子网络获取全局参数θ'_a＝θ_a，θ'_c＝θ_c,无人机执行a(n)后达到时隙数n为n_up的倍数或n等于无人机飞行的最长时隙数N时，利用无人机所得到的n_up个时隙下作出的每个动作的代价值集合c、状态集合s和动作集合a来计算相应的梯度，时隙j梯度的累积计算方式如下：

其中

表示从时隙j起始的长期回报，γ为折扣因子，β为熵的权重，利用熵H(π(s(j)；θ'_a))来加大动作探索；若否，则执行步骤S6；