CN112902969B

CN112902969B - 一种无人机在数据收集过程中的路径规划方法

Info

Publication number: CN112902969B
Application number: CN202110148205.4A
Authority: CN
Inventors: 付澍; 郭小辉; 杨祥月
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2023-08-01
Anticipated expiration: 2041-02-03
Also published as: CN112902969A

Abstract

本发明涉及无人机数据收集技术领域，具体公开了一种无人机在数据收集过程中的路径规划方法，将物联网数据收集的无人机系统模型中无人机的全局路径规划问题建模为一个定向问题，并利用指针网络深度学习模型对该模型求解，进而得到了无人机在能量约束下的全局路径规划；然后通过根据传感器节点参考信号的强弱来指导无人机的飞行动作的思想，利用深度Q网络学习对无人机的局部飞行路径进行规划，使无人机逼近节点位置并服务各节点，从而能够在无人机能量约束下有效地提升其数据收集的收益。

Description

一种无人机在数据收集过程中的路径规划方法

技术领域

本发明涉及无人机数据收集技术领域，尤其涉及一种无人机在数据收集过程中的路径规划方法。

背景技术

无线传感器网络中存在大量的数据需要被收集，根据收集方式的不同，可将其划分为两种类型，静态数据收集和移动数据收集。静态数据收集是指传感器网络中的节点通过自组网，将自身采集的传感器数据经过多跳上传到数据中心。移动数据收集是指在被监测环境中设置一个可移动的数据收集器进行数据收集。针对部署在地表交通困难的大规模无线传感网络，无人机提供了一种有效的方式对传感器设备移动式的进行数据辅助收集。与静态数据收集方法相比，基于无人机的移动数据收集可以显著降低数据传输的能耗，减少多跳间数据路由中存在的隐藏终端及其发送冲突问题带来的射频干扰，并有效延长了网络的使用寿命。无人机数据收集克服了地面数据采集的局限性，但仍然有一些关键的问题需要解决。具体而言，无人机数据收集包括网络节点部署、节点定位、锚点搜索、无人机路径规划、网络数据采集五个部分，其中，无人机最致命的缺点是续航时间短，其能耗问题是系统稳定性的关键，而如何通过优化无人机收集数据的路径来实现节能，至今仍是一个难题。

发明内容

本发明提供一种无人机在数据收集过程中的路径规划方法，解决的技术问题在于：如何在无人机能量有限的情况下确定其服务节点集合及服务顺序，以及在簇内如何实现无人机逼近目标传感器节点。

为解决以上技术问题，本发明提供一种无人机在数据收集过程中的路径规划方法，包括步骤：

(1)无人机系统模型

S1：建立物联网数据收集的无人机系统模型；无人机系统模型包括一架无人机、一个无人机服务站和通过无人机收集数据的多个节点；

(2)全局路径规划

S2：以最大化数据收集的奖励值以及最小化无人机的飞行路径为目标，构建无人机的全局路径规划问题模型；

S3：采用指针网络深度学习模型对所述全局路径规划问题模型进行求解，得到在无人机能量约束下的服务节点集合及服务顺序；

(3)局部路径规划

S4：设定无人机以固定高度飞行，只考虑二维平面运动，并将无人机的运动方向均分为8个方向；

S5：基于目标节点的参考信号强度和无人机与目标节点的水平距离，通过深度Q网络学习对无人机的局部飞行路径进行规划，使无人机逼近步骤S3得到的节点集合中的各节点位置并服务各节点。

进一步地，所述步骤S2具体包括步骤：

S21：通过聚类算法对随机分布的节点进行分簇，并得到簇的中心坐标；

S22：令S∈{1,2,…,K}表示簇的集合，其中K表示簇的数目，第k个簇的奖励值表示为p_k，簇i的中心坐标到簇j的中心坐标的距离表示为dist_i,j，l_i,j表示簇i和簇j之间是否有路径，有路径则l_i,j＝1，没路径则l_i,j＝0，l_depot,j、l_i,depot、l_i,s、l_s,j与l_i,j同理，s表示被服务的簇，depot表示无人机服务站，构建全局路径规划问题模型：

s.t.N＝Kδ(0≤δ≤1)， (2)

其中，目标函数(1)表示最大化数据收集的奖励值，并且最小化无人机的飞行路径；约束(2)表示无人机可服务簇的份额值；约束(3)表示无人机的起点和终点均为无人机服务站D_depot；约束(4)表示每个簇最多被服务一次；第k个簇的奖励值p_k设置为：

其中，I_k表示第k个簇内所有节点存储数据的总和，dist_0,k表示无人机服务站D_depot到第k个簇的距离，dist_0,j表示无人机服务站D_depot到簇j之间的距离。

进一步地，所述步骤S3具体包括步骤：

S31：构建指针网络深度学习模型与主动搜索策略相结合的求解模型；

S32：基于无人机系统模型组建源输入序列；

S33：将所述源输入序列输入至所述求解模型中进行求解，得到在无人机能量约束下、包括服务节点集合及服务顺序的输出序列。

进一步地，步骤S31中所述指针网络深度学习模型包括编码器和解码器；所述编码器使用长短期记忆网络记为LSTM-e网络，所述解码器使用长短期记忆网络记为LSTM-d网络；

所述编码器进行编码的步骤包括：

1)将源输入序列经过K+1步依次输送至LSTM-e网络，得到每一步输入所对应的LSTM-e网络状态；

2)当源输入序列输入完毕之后，将得到的隐藏层状态进行编码后输入到所述解码器；

所述解码器进行解码的步骤包括：

1)计算出LSTM-d网络的隐藏层状态；

2)由LSTM-e网络的隐藏层状态和LSTM-d网络的隐藏层状态分别计算出每个输入对当前输出带来的影响；

3)将LSTM-d网络的softmax归一化后得到注意力矩阵；

4)选择注意力矩阵中权重占比最大的指针作为输出。

进一步地，步骤S31中，所述主动搜索策略是指：将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列，再通过梯度下降法优化目标函数(1)，最后选择最小目标函数值所对应的路径作为输出路径。

进一步地，步骤S33的求解过程具体包括：

S331：初始化源输入序列，将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列；

S332：将所述再输入序列输入构建的指针网络深度学习模型，得到初步结果；

S333：通过多目标优化中的线性加权法将目标函数(1)改写成下式(19)，并使用梯度下降法优化目标函数：

其中，ω₁、ω₂代表对应的权重，表示在减少无人机飞行距离与提升无人机服务奖励之间的折衷关系，ω₁+ω₂＝1；

S333：重复执行步骤S331至S333，直至达到终止条件——无人机与目标节点的距离d小于预设距离时；

S334：选择最小目标函数值所对应的路径作为输出路径。

进一步地，在步骤S4中，只考虑二维平面运动，无人机与目标节点的距离为：

其中，(x,y)表示目标节点的位置坐标，(x_i,y_i)表示无人机当前状态的位置坐标；

而目标节点的参考信号强度P_R与距离d有关，具体为：

P_R＝P_T-PL(d)-f (7)

其中，P_T为目标节点的发射功率，PL(d)为距离d处的路径损耗，f为捕获信道衰落变量。

进一步地，在所述步骤S5中，深度Q网络学习的Q值函数的更新公式为：

Q(s,a)＝Q(s,a)+α[r(s,a)+γmaxQ(s',a')-Q(s,a)] (9)

其中，α是学习率，α∈[0,1]，γ是折扣因子，γ∈[0,1]；Q(s,a)、r(s,a)表示无人机当前状态s和动作a下的Q值和奖励值，Q(s',a')表示下个状态s'和下个动作a'下的Q值。

进一步地，深度Q网络学习的奖励值设定为：

表示如果当前位置各方向测量的平均RSS值中的最大值减去上一位置的各方向测量的平均RSS值中的最大值为正，则给一个固定的正奖励值“2”，如果为负，则给一个固定的负奖励值“-2”；如果无人机达到终止条件d＜7m，则给其较大奖励值“100”；

其中，无人机的当前状态s取决于各个方向测量的平均RSS值中最大的RSS值，无人机的当前动作a∈{a₁,a₂,a₃,a₄,a₅,a₆,a₇,a₈}，a₁,a₂,a₃,a₄,a₅,a₆,a₇,a₈分别表示无人机运动的8个方向，RSS值表示节点广播参考信号的强度。

进一步地，深度Q网络学习的目标方程为：

Q_target＝r+γ×(maxQ(s′,a′)-Q(s,a)) (11)

其中，r表示深度Q网络学习设定的奖励值；

通过目标方程(11)的迭代，直至达到终止条件d＜7m，就认定对目标节点定位成功。

本发明提供的一种无人机在数据收集过程中的路径规划方法，将物联网数据收集的无人机系统模型中无人机的全局路径规划问题建模为一个定向问题，并利用指针网络深度学习模型对该模型求解，进而得到了无人机在能量约束下的全局路径规划；然后通过根据传感器节点参考信号的强弱来指导无人机的飞行动作的思想，利用深度Q网络学习对无人机的局部飞行路径进行规划，使无人机逼近节点位置并服务各节点。

本发明将无人机在数据收集过程中的路径规划问题分为全局路径规划和局部路径规划，并利用指针网络深度学习模型和深度Q学习分别解决两种情况，从而能够在无人机能量约束下有效地提升其数据收集的收益，具有很好的实际意义。

附图说明

图1是本发明实施例提供的一种无人机在数据收集过程中的路径规划方法的步骤流程图；

图2是本发明实施例提供的无人机系统模型图；

图3是本发明实施例提供的无人机的8个移动方向示意图；

图4是本发明实施例提供的强化学习智能体与环境间交互过程示意图；

图5是本发明实施例提供的深度Q网络学习的原理图；

图6是本发明实施例提供的指针网络深度学习模型的架构图；

图7是本发明实施例提供的PN、AS、GP的全局路径规划(D₅₀)图；

图8是本发明实施例提供的PN、AS、GP的全局路径规划(D₁₀₀)图；

图9是本发明实施例提供的AS训练指针网络的损失值的变化图；

图10是本发明实施例提供的Q学习和DQN的成功步数变化图；

图11是本发明实施例提供的DQN与Q学习最优路径对比图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

为了在无人机能量有限的情况下确定其服务节点集合及服务顺序，以及在簇内如何实现无人机逼近目标传感器节点，本发明实施例提供一种无人机在数据收集过程中的路径规划方法，如图1的步骤流程所示，具体包括步骤：

(1)无人机系统模型

S1：建立物联网数据收集的无人机系统模型；无人机系统模型包括一架无人机、一个无人机服务站和通过无人机收集数据的多个节点。

在图2所示的系统模型中，无人机的起点和终点均为无人机服务站D_depot，D_depot可对无人机收集到的数据进行处理，并对无人机进行充电。需要收集数据的传感器节点(简称节点)随机分布在地图上。下面基于该模型对无人机进行路径规划，包括全局路径规划和局部路径规划。

(2)全局路径规划

具体包括步骤：

S3：采用指针网络深度学习模型对所述全局路径规划问题模型进行求解，得到在无人机能量约束下的服务节点集合及服务顺序。

无人机的能量消耗不仅与航行时间、航行速度有关，还与所处环境中的风速及障碍物等有关。本实施例采用HMS(悬停最大服务时间)的路由方法，即无人机悬停在相应节点上方，并以最大悬停时间t_max对用户进行数据传输，且假设无人机以恒定的速度v飞行。

步骤S2进一步包括步骤：

S22：构建全局路径规划问题模型。

步骤S21中，在构建全局路径规划问题模型时，可先通过聚类算法对随机分布的传感器节点进行分簇，并得到簇的中心坐标(图2中黑点)。关于无人机以什么样的顺序访问这些簇，才能使得在有限的能量约束下取得最大的收益，该问题可以被建模为一个定向问题，即“选取点”和“确定最短路径”两种问题的结合。由于无人机数据收集存在无人机能量限制，所以不是所有的簇都会被服务。

步骤S22中，令S∈{1,2,…,K}表示簇的集合，其中K表示簇的数目，第k个簇的奖励值表示为p_k，簇i的中心坐标到簇j的中心坐标的距离表示为dist_i,j，l_i,j表示簇i和簇j之间是否有路径，有路径则l_i,j＝1，没路径则l_i,j＝0，l_depot,j、l_i,depot、l_i,s、l_s,j与l_i,j同理，s表示被服务的簇，depot表示无人机服务站，构建全局路径规划问题模型：

s.t.N＝Kδ(0≤δ≤1)， (2)

其中，目标函数(1)表示最大化数据收集的奖励值，并且最小化无人机的飞行路径；约束(2)表示无人机可服务簇的份额；约束(3)表示无人机的起点和终点均为无人机服务站D_depot；约束(4)表示每个簇最多被服务一次；第k个簇的奖励值p_k设置为：

其中，I_k表示第k个簇内所有节点存储数据的总和，dist_0,k表示无人机服务站D_depot到第k个簇的距离，dist_0,j表示无人机服务站D_depot到簇j之间的距离。因此，奖励值的设定不仅与节点到服务站的距离有关，还与数据的存储量有关。

(3)局部路径规划

具体包括步骤：

在步骤S4中，假设无人机对目标传感器的位置是未知的，无人机以固定的高度飞行，只考虑二维平面运动，无人机与目标节点的距离为：

其中，(x,y)表示目标节点的位置坐标，(x_i,y_i)表示无人机当前状态的位置坐标。

无人机通过配备天线来测量目标节点的RSS(节点广播参考信号的强度)，无人机可移动方向被相等的划分为8个方向，具体如图3所示。RSS值P_R可以通过以下公式求得，它与距离d(m)有关，具体为：

P_R＝P_T-PL(d)-f (7)

其中，P_T为目标节点的发射功率，PL(d)为距离d处的路径损耗，此处的路径损耗模型采用3GPP TR 38.814，本实施例主要是参考天线接收信号强度值，为简化系统模型，只考虑了地对地大尺度信道衰落，f为捕获信道衰落变量。

步骤S5中，深度Q网络学习(DQN)融合了神经网络和Q学习的方法，它属于强化学习的一种，当然也应该具有强化学习的基本组成部分，即智能体、环境、动作、奖励、策略、值函数等。其智能体与环境的交互如图4所示，智能体通过与环境进行交互，通过循环迭代产生新的状态并结合环境给出奖励值。

本实施例深度Q网络学习的Q值函数的更新公式为：

Q(s,a)＝Q(s,a)+α[r(s,a)+γmaxQ(s',a')-Q(s,a)] (9)

本实施例深度Q网络学习的奖励值设定为：

表示如果当前位置各方向测量的平均RSS值中的最大值减去上一位置的各方向测量的平均RSS值中的最大值为正，则给一个固定的正奖励值“2”，如果为负，则给一个固定的负奖励值“-2”；如果无人机达到终止条件d＜7m，则给其较大奖励值“100”。其中，无人机的当前状态s取决于各个方向测量的平均RSS值中最大的RSS值，无人机的当前动作a∈{a₁,a₂,a₃,a₄,a₅,a₆,a₇,a₈}，a₁,a₂,a₃,a₄,a₅,a₆,a₇,a₈分别表示无人机运动的8个方向，RSS值表示节点广播参考信号的强度。

深度Q网络学习的目标方程为：

Q_target＝r+γ×(maxQ(s′,a′)-Q(s,a)) (11)

其中，r表示深度Q网络学习设定的奖励值；

深度Q学习的原理图如图5所示，其DQN算法可以描述为：

1)初始化经验重放缓存区；

2)预处理环境：把状态-动作输入DQN，返还所有可能动作对应的Q值；

3)利用ε贪心策略选取一个动作a，有概率ε随机选择动作，有概率1-ε选取具有最大Q值的动作；

4)选择动作a后，智能体在状态s执行所选的动作，得到新的状态s′，得到奖励r；

5)把该组数据存储到经验重放缓冲区中，并将其记做s,a,r,s'；

6)计算目标方程(11)，更新Q网络权重；

7)重复执行步骤3)至步骤6)，直至达到终止条件。

关于步骤S3和S4，下面进行更进一步的说明。

步骤S3具体包括步骤：

S32：基于无人机系统模型组建源输入序列；

步骤S31中指针网络深度学习模型的结构图如图6所示，它是由序列到序列模型和注意力机制结合改进得到，由Encoder(编码器或编码模块)和Decoder(解码器或解码模块)两个部分组成。在编码阶段只考虑输入x_j对输出y_i的影响，在解码阶段解码输出注意力概率矩阵，并通过softmax得到序列的输出概率分布。由于长短期记忆网络(Long Short-TermMemory，LSTM)能够成功学习具有远距离时间依赖性数据的特征，其被用作网络单元构建指针网络深度学习模型模型。本实施例Encoder使用LSTM多层神经网络(记为LSTM-e)，Decoder使用LSTM多层神经网络(记为LSTM-d)。

现在确定指针网络(PN，Pointer Networks)深度学习模型的输入输出分别为：

1)输入：

D_coords＝{(x₀,y₀),(x₁,y₁),…,(x_K,y_K)}为无人机服务站D_depot和每个簇中心坐标D_loc的并集。假设D_depot处的奖励值p₀＝0，P_prize＝{p₀,p₁,…,p_K}为p₀和p_k的并集，源输入序列D_inputs＝{(x₀,y₀,p₀),(x₁,y₁,p₁),…,(x_K,y_K,p_K)}。

2)输出：

输出序列D_roads＝{P₀,P₁,…,P_n}表示无人机数据收集过程中簇的收集顺序，P₀,P₁,…,P_n对应D_inputs值的索引(n＝K)。指针网络深度学习的编解码过程为：输入序列D_inputs经过K+1步依次输入到Encoder，然后通过Decoder依次输出D_roads中的元素。

编码器进行编码的步骤包括：

1)将源输入序列D_inputs经过K+1(即n+1)步依次输送至LSTM-e网络，根据如下式(12)得到每一步输入所对应的LSTM-e网络状态e_j(j＝0,1,…,n)；

2)当源输入序列D_inputs输入完毕之后，并将得到的隐藏层状态Enc＝(e₁,…,e_j,…,e_n)(这里的e_j表示LSTM-e网络中的第j个隐藏层的状态)进行编码后输入到所述解码器。

解码器进行解码的步骤包括：

1)根据如下式(13)计算出LSTM-d网络的隐藏层状态Dec＝(d₁,…,d_i,…,d_m)(这里的d_i表示LSTM-d网络中的第i个隐藏层的状态，本实施例m＝n＝K)；

2)采用如下式(14)～(16)由LSTM-e网络的隐藏层状态和LSTM-d网络的隐藏层状态分别计算出每个输入对当前输出带来的影响；

3)根据如下式(17)将LSTM-d网络的softmax归一化后得到注意力矩阵；

4)根据如下式(18)选择注意力矩阵中权重占比最大的指针作为输出。

e_j＝f((x_j,y_j,p_j),e_j-1)， (12)

d_i＝f(P_i-1,d_i-1)， (13)

u_ij＝v^Ttanh(W₁e_j+W₂d_i)， (14)

p(P_i|P₀,…,P_i-₁,D_inputs)＝a_i， (15)

a_i＝{a_i1,a_i2,…,a_ij,…,a_in}， (16)

P_i＝arg max p(P_i|P₀,…,P_i-1,D_inputs)， (18)

其中，f为非线性激活函数，v、W₁和W₂是输出模型的可学习参数，tanh表示tanh激活函数，a_ij由u_ij经过softmax后得到，其作用是将输出u_ij标准化为输入字典上的输出分布，exp表示exp函数(以自然常数e为底的指数函数)。

在解码过程中，还要考虑到定向问题模型中的约束问题。首先，对于约束(2)，预设一个服务份额值δ。对于约束(3)，无人机的起点和终点均为无人机服务站D_depot，因此，第一步和最后一步将P₀和P_n设置为0。对于约束(4)，根据禁忌搜索的思想，在每一步添加D_roads元素时，将其作为禁忌元素添加到D_action列表中，每一步输出将根据D_action表，在注意力矩阵中选择非D_action表中权值最大的作为输出。

步骤S31中主动搜索策略是指：将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列，再通过梯度下降法优化目标函数(1)，最后选择最小目标函数值所对应的路径作为输出路径。

故结合指针网络深度学习模型与主动搜索策略，步骤S33中求解过程具体包括：

S333：重复执行步骤S331至S333，直至达到终止条件——无人机与目标节点的距离d<预设距离7m时；

S334：选择最小目标函数值所对应的路径作为输出路径。

本发明实施例将无人机在数据收集过程中的路径规划问题分为全局路径规划和局部路径规划，并利用指针网络深度学习模型和深度Q学习分别解决两种情况，从而能够在无人机能量约束下有效地提升其数据收集的收益，具有很好的实际意义。

为验证指针网络模型对无人机全局路径规划的优化性能，本实施例根据上述理论内容进行了实验。实验主要对指针网络深度学习(pointer networks,PN)、基于随机搜索(Active Search,AS)策略的指针网络深度学习方法，为了对比AS方法的效果，实验中设计贪婪奖励(greed prize,GP)方法和其进行比较，GP方法是受贪婪优化方法的影响，先贪婪地选择奖励值大小为前N簇的坐标，然后通过PN+AS方法求这些簇的最短路径。

实验令无人机服务站D_depot的坐标为(0,0)，在[0,1]×[0,1](单位：km)的范围内分别随机生成50个簇和100个簇的中心位置坐标，分别为D₅₀和D₁₀₀。每个簇的奖励值设定按照公式(5)得到。

表1、表2分别列出了AS方法和GP方法使用的参数及其相应值的设定。

表1 AS的参数

表2 GP的参数

为验证DQN的性能，本实施例还对Q学习和DQN两种方法在无人机数据收集中单个节点定位的仿真效果进行了对比实验。为模拟无人机接收信号强度值，采用网格法确定当前位置距离目标节点的距离，通过公式(7)和公式(8)计算接收信号强度值，实现DQN状态输入。本次实验主要对两种方法迭代次数内的成功率、步数及其最优路径进行比较。两种算法均使用ε贪心策略，在仿真中设置的成功条件为无人机离目标节点的距离小于7m视为成功，防止算法无限次迭代，将无人机步数大于200步视为失败。仿真结果表明DQN的性能优于Q学习，能够达到一个较高的成功率。仿真各参数的设置如表3所示。

表3 DQN参数设置

图7、图8分别是D₅₀和D₁₀₀下分别使用PN、AS、GP的路径规划效果图，表4是D₅₀和D₁₀₀下分别使用PN、AS、GP的距离和奖励值的记录表，其中距离的单位为km，根据目标公式(1)可知，奖励值越大越好，距离越小越好，这样可以使得模型的收益能效高。从图7、图8和表4中可以直观地看出，使用PN方法相比于AS方法的路径规划图交叉点较多，总路径距离较大，总奖励值较小。AS方法与GP方法比较，GP方法交叉点较少，总路径距离较小，不过该算法存在贪婪的性质达到收集数据奖励的最大值，将路径规划问题变为一个简单的旅行商问题来解决，使得该算法的效果比较好，GP方法与AS方法相比较，AS方法虽然不能完全达到GP方法的效果，但AS方法的效果接近GP方法，且AS方法最大的特点就是更具随机性，更适合动态环境中的无人机路径规划。

表4 PN、AS、GP结果数据(单位：km)

图9是AS策略下使用梯度下降法训练PN的训练损失图，从图9中可以看出训练指针网络损失值随着迭代次数快速下降，随着迭代次数的增加训练损失的值趋于稳定，在0值上下波动，这表明该深度模型可以在训练后达到收敛，该网络性能可靠。

图10为Q学习和DQN两种算法的成功次数的步数的变化波动图，从图10中可以明显看出，DQN步数的变化只在一开始波动较大，经过一个更新周期(30)后波动趋于平稳，且步数较小，迭代次数为100次，DQN的成功率接近100％，而Q学习的成功次数只有7次，其余均大于200步。从图11可以更清晰地看到DQN的最优路径与Q学习的最优路径相比，更平缓，拐点较少。表5为不同起点和目标位置时Q学习和DQN两种算法的最优步长比较，可看出针对不同起点和目标位置，除了第三组(0,0)—>(68,78)两种方法效果一样，场景大的DQN优于Q学习，可见DQN的泛化性能强，可以适应不同的场景。

表5 不同目标最优步长

实验表明，本实施例所提智能方法(指针网络深度学习模型结合深度Q学习)能够在无人机能量约束下有效提升其数据收集的收益。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种无人机在数据收集过程中的路径规划方法，其特征在于，包括步骤：

(1)无人机系统模型

S1：建立物联网数据收集的无人机系统模型；无人机系统模型包括一架无人机、一个无人机服务站和通过无人机收集数据的多个节点，无人机一次只能服务一个节点；

(2)全局路径规划

S2：以最大化数据收集的奖励值以及最小化无人机的飞行路径为目标，构建无人机的全局路径规划问题模型；所述步骤S2具体包括步骤：

s.t.N＝Kδ (0≤δ≤1)， (2)

其中，I_k表示第k个簇内所有节点存储数据的总和，dist_0,k表示无人机服务站D_depot到第k个簇的距离，dist_0,j表示无人机服务站D_depot到簇j之间的距离；

S3：采用指针网络深度学习模型对所述全局路径规划问题模型进行求解，得到在无人机能量约束下的服务节点集合及服务顺序；所述步骤S3具体包括步骤：

S32：基于无人机系统模型组建源输入序列；

S33：将所述源输入序列输入至所述求解模型中进行求解，得到在无人机能量约束下、包括服务节点集合及服务顺序的输出序列；

(3)局部路径规划

S4：设定无人机以固定高度飞行，只考虑二维平面运动，并将无人机的运动方向均分为8个方向；在步骤S4中，只考虑二维平面运动，无人机与目标节点的距离为：

而目标节点的参考信号强度P_R与距离d有关，具体为：

P_R＝P_T-PL(d)-f (7)

其中，P_T为目标节点的发射功率，PL(d)为距离d处的路径损耗，f为捕获信道衰落变量；

2.如权利要求1所述的一种无人机在数据收集过程中的路径规划方法，其特征在于：步骤S31中所述指针网络深度学习模型包括编码器和解码器；所述编码器使用长短期记忆网络记为LSTM-e网络，所述解码器使用长短期记忆网络记为LSTM-d网络；

所述编码器进行编码的步骤包括：

所述解码器进行解码的步骤包括：

1)计算出LSTM-d网络的隐藏层状态；

3)将LSTM-d网络的softmax归一化后得到注意力矩阵；

4)选择注意力矩阵中权重占比最大的指针作为输出。

3.如权利要求2所述的一种无人机在数据收集过程中的路径规划方法，其特征在于，步骤S31中，所述主动搜索策略是指：将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列，再通过梯度下降法优化目标函数(1)，最后选择最小目标函数值所对应的路径作为输出路径。

4.如权利要求1～3任一项所述的一种无人机在数据收集过程中的路径规划方法，其特征在于，步骤S33的求解过程具体包括：

S334：选择最小目标函数值所对应的路径作为输出路径。

5.如权利要求1所述的一种无人机在数据收集过程中的路径规划方法，其特征在于：在所述步骤S5中，深度Q网络学习的Q值函数的更新公式为：

Q(s,a)＝Q(s,a)+α[r(s,a)+γmaxQ(s',a')-Q(s,a)] (9)

其中，α是学习率，α∈[0,1]，γ是折扣因子，γ∈[0,1]；Q(s,a)、r(s,a)分别表示无人机当前状态s和动作a下的Q值和奖励值，Q(s',a')表示下个状态s'和下个动作a'下的Q值。

6.如权利要求5所述的一种无人机在数据收集过程中的路径规划方法，其特征在于，深度Q网络学习的奖励值设定为：

7.如权利要求6所述的一种无人机在数据收集过程中的路径规划方法，其特征在于，深度Q网络学习的目标方程为：

Q_target＝r+γ×(maxQ(s′,a′)-Q(s,a)) (11)

其中，r表示深度Q网络学习设定的奖励值；