CN112902969B - 一种无人机在数据收集过程中的路径规划方法 - Google Patents

一种无人机在数据收集过程中的路径规划方法 Download PDF

Info

Publication number
CN112902969B
CN112902969B CN202110148205.4A CN202110148205A CN112902969B CN 112902969 B CN112902969 B CN 112902969B CN 202110148205 A CN202110148205 A CN 202110148205A CN 112902969 B CN112902969 B CN 112902969B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
network
data collection
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110148205.4A
Other languages
English (en)
Other versions
CN112902969A (zh
Inventor
付澍
郭小辉
杨祥月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110148205.4A priority Critical patent/CN112902969B/zh
Publication of CN112902969A publication Critical patent/CN112902969A/zh
Application granted granted Critical
Publication of CN112902969B publication Critical patent/CN112902969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及无人机数据收集技术领域,具体公开了一种无人机在数据收集过程中的路径规划方法,将物联网数据收集的无人机系统模型中无人机的全局路径规划问题建模为一个定向问题,并利用指针网络深度学习模型对该模型求解,进而得到了无人机在能量约束下的全局路径规划;然后通过根据传感器节点参考信号的强弱来指导无人机的飞行动作的思想,利用深度Q网络学习对无人机的局部飞行路径进行规划,使无人机逼近节点位置并服务各节点,从而能够在无人机能量约束下有效地提升其数据收集的收益。

Description

一种无人机在数据收集过程中的路径规划方法
技术领域
本发明涉及无人机数据收集技术领域,尤其涉及一种无人机在数据收集过程中的路径规划方法。
背景技术
无线传感器网络中存在大量的数据需要被收集,根据收集方式的不同,可将其划分为两种类型,静态数据收集和移动数据收集。静态数据收集是指传感器网络中的节点通过自组网,将自身采集的传感器数据经过多跳上传到数据中心。移动数据收集是指在被监测环境中设置一个可移动的数据收集器进行数据收集。针对部署在地表交通困难的大规模无线传感网络,无人机提供了一种有效的方式对传感器设备移动式的进行数据辅助收集。与静态数据收集方法相比,基于无人机的移动数据收集可以显著降低数据传输的能耗,减少多跳间数据路由中存在的隐藏终端及其发送冲突问题带来的射频干扰,并有效延长了网络的使用寿命。无人机数据收集克服了地面数据采集的局限性,但仍然有一些关键的问题需要解决。具体而言,无人机数据收集包括网络节点部署、节点定位、锚点搜索、无人机路径规划、网络数据采集五个部分,其中,无人机最致命的缺点是续航时间短,其能耗问题是系统稳定性的关键,而如何通过优化无人机收集数据的路径来实现节能,至今仍是一个难题。
发明内容
本发明提供一种无人机在数据收集过程中的路径规划方法,解决的技术问题在于:如何在无人机能量有限的情况下确定其服务节点集合及服务顺序,以及在簇内如何实现无人机逼近目标传感器节点。
为解决以上技术问题,本发明提供一种无人机在数据收集过程中的路径规划方法,包括步骤:
(1)无人机系统模型
S1:建立物联网数据收集的无人机系统模型;无人机系统模型包括一架无人机、一个无人机服务站和通过无人机收集数据的多个节点;
(2)全局路径规划
S2:以最大化数据收集的奖励值以及最小化无人机的飞行路径为目标,构建无人机的全局路径规划问题模型;
S3:采用指针网络深度学习模型对所述全局路径规划问题模型进行求解,得到在无人机能量约束下的服务节点集合及服务顺序;
(3)局部路径规划
S4:设定无人机以固定高度飞行,只考虑二维平面运动,并将无人机的运动方向均分为8个方向;
S5:基于目标节点的参考信号强度和无人机与目标节点的水平距离,通过深度Q网络学习对无人机的局部飞行路径进行规划,使无人机逼近步骤S3得到的节点集合中的各节点位置并服务各节点。
进一步地,所述步骤S2具体包括步骤:
S21:通过聚类算法对随机分布的节点进行分簇,并得到簇的中心坐标;
S22:令S∈{1,2,…,K}表示簇的集合,其中K表示簇的数目,第k个簇的奖励值表示为pk,簇i的中心坐标到簇j的中心坐标的距离表示为disti,j,li,j表示簇i和簇j之间是否有路径,有路径则li,j=1,没路径则li,j=0,ldepot,j、li,depot、li,s、ls,j与li,j同理,s表示被服务的簇,depot表示无人机服务站,构建全局路径规划问题模型:
s.t.N=Kδ(0≤δ≤1), (2)
其中,目标函数(1)表示最大化数据收集的奖励值,并且最小化无人机的飞行路径;约束(2)表示无人机可服务簇的份额值;约束(3)表示无人机的起点和终点均为无人机服务站Ddepot;约束(4)表示每个簇最多被服务一次;第k个簇的奖励值pk设置为:
其中,Ik表示第k个簇内所有节点存储数据的总和,dist0,k表示无人机服务站Ddepot到第k个簇的距离,dist0,j表示无人机服务站Ddepot到簇j之间的距离。
进一步地,所述步骤S3具体包括步骤:
S31:构建指针网络深度学习模型与主动搜索策略相结合的求解模型;
S32:基于无人机系统模型组建源输入序列;
S33:将所述源输入序列输入至所述求解模型中进行求解,得到在无人机能量约束下、包括服务节点集合及服务顺序的输出序列。
进一步地,步骤S31中所述指针网络深度学习模型包括编码器和解码器;所述编码器使用长短期记忆网络记为LSTM-e网络,所述解码器使用长短期记忆网络记为LSTM-d网络;
所述编码器进行编码的步骤包括:
1)将源输入序列经过K+1步依次输送至LSTM-e网络,得到每一步输入所对应的LSTM-e网络状态;
2)当源输入序列输入完毕之后,将得到的隐藏层状态进行编码后输入到所述解码器;
所述解码器进行解码的步骤包括:
1)计算出LSTM-d网络的隐藏层状态;
2)由LSTM-e网络的隐藏层状态和LSTM-d网络的隐藏层状态分别计算出每个输入对当前输出带来的影响;
3)将LSTM-d网络的softmax归一化后得到注意力矩阵;
4)选择注意力矩阵中权重占比最大的指针作为输出。
进一步地,步骤S31中,所述主动搜索策略是指:将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列,再通过梯度下降法优化目标函数(1),最后选择最小目标函数值所对应的路径作为输出路径。
进一步地,步骤S33的求解过程具体包括:
S331:初始化源输入序列,将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列;
S332:将所述再输入序列输入构建的指针网络深度学习模型,得到初步结果;
S333:通过多目标优化中的线性加权法将目标函数(1)改写成下式(19),并使用梯度下降法优化目标函数:
其中,ω1、ω2代表对应的权重,表示在减少无人机飞行距离与提升无人机服务奖励之间的折衷关系,ω12=1;
S333:重复执行步骤S331至S333,直至达到终止条件——无人机与目标节点的距离d小于预设距离时;
S334:选择最小目标函数值所对应的路径作为输出路径。
进一步地,在步骤S4中,只考虑二维平面运动,无人机与目标节点的距离为:
其中,(x,y)表示目标节点的位置坐标,(xi,yi)表示无人机当前状态的位置坐标;
而目标节点的参考信号强度PR与距离d有关,具体为:
PR=PT-PL(d)-f (7)
其中,PT为目标节点的发射功率,PL(d)为距离d处的路径损耗,f为捕获信道衰落变量。
进一步地,在所述步骤S5中,深度Q网络学习的Q值函数的更新公式为:
Q(s,a)=Q(s,a)+α[r(s,a)+γmaxQ(s',a')-Q(s,a)] (9)
其中,α是学习率,α∈[0,1],γ是折扣因子,γ∈[0,1];Q(s,a)、r(s,a)表示无人机当前状态s和动作a下的Q值和奖励值,Q(s',a')表示下个状态s'和下个动作a'下的Q值。
进一步地,深度Q网络学习的奖励值设定为:
表示如果当前位置各方向测量的平均RSS值中的最大值减去上一位置的各方向测量的平均RSS值中的最大值为正,则给一个固定的正奖励值“2”,如果为负,则给一个固定的负奖励值“-2”;如果无人机达到终止条件d<7m,则给其较大奖励值“100”;
其中,无人机的当前状态s取决于各个方向测量的平均RSS值中最大的RSS值,无人机的当前动作a∈{a1,a2,a3,a4,a5,a6,a7,a8},a1,a2,a3,a4,a5,a6,a7,a8分别表示无人机运动的8个方向,RSS值表示节点广播参考信号的强度。
进一步地,深度Q网络学习的目标方程为:
Qtarget=r+γ×(maxQ(s′,a′)-Q(s,a)) (11)
其中,r表示深度Q网络学习设定的奖励值;
通过目标方程(11)的迭代,直至达到终止条件d<7m,就认定对目标节点定位成功。
本发明提供的一种无人机在数据收集过程中的路径规划方法,将物联网数据收集的无人机系统模型中无人机的全局路径规划问题建模为一个定向问题,并利用指针网络深度学习模型对该模型求解,进而得到了无人机在能量约束下的全局路径规划;然后通过根据传感器节点参考信号的强弱来指导无人机的飞行动作的思想,利用深度Q网络学习对无人机的局部飞行路径进行规划,使无人机逼近节点位置并服务各节点。
本发明将无人机在数据收集过程中的路径规划问题分为全局路径规划和局部路径规划,并利用指针网络深度学习模型和深度Q学习分别解决两种情况,从而能够在无人机能量约束下有效地提升其数据收集的收益,具有很好的实际意义。
附图说明
图1是本发明实施例提供的一种无人机在数据收集过程中的路径规划方法的步骤流程图;
图2是本发明实施例提供的无人机系统模型图;
图3是本发明实施例提供的无人机的8个移动方向示意图;
图4是本发明实施例提供的强化学习智能体与环境间交互过程示意图;
图5是本发明实施例提供的深度Q网络学习的原理图;
图6是本发明实施例提供的指针网络深度学习模型的架构图;
图7是本发明实施例提供的PN、AS、GP的全局路径规划(D50)图;
图8是本发明实施例提供的PN、AS、GP的全局路径规划(D100)图;
图9是本发明实施例提供的AS训练指针网络的损失值的变化图;
图10是本发明实施例提供的Q学习和DQN的成功步数变化图;
图11是本发明实施例提供的DQN与Q学习最优路径对比图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制,因为在不脱离本发明精神和范围基础上,可以对本发明进行许多改变。
为了在无人机能量有限的情况下确定其服务节点集合及服务顺序,以及在簇内如何实现无人机逼近目标传感器节点,本发明实施例提供一种无人机在数据收集过程中的路径规划方法,如图1的步骤流程所示,具体包括步骤:
(1)无人机系统模型
S1:建立物联网数据收集的无人机系统模型;无人机系统模型包括一架无人机、一个无人机服务站和通过无人机收集数据的多个节点。
在图2所示的系统模型中,无人机的起点和终点均为无人机服务站Ddepot,Ddepot可对无人机收集到的数据进行处理,并对无人机进行充电。需要收集数据的传感器节点(简称节点)随机分布在地图上。下面基于该模型对无人机进行路径规划,包括全局路径规划和局部路径规划。
(2)全局路径规划
具体包括步骤:
S2:以最大化数据收集的奖励值以及最小化无人机的飞行路径为目标,构建无人机的全局路径规划问题模型;
S3:采用指针网络深度学习模型对所述全局路径规划问题模型进行求解,得到在无人机能量约束下的服务节点集合及服务顺序。
无人机的能量消耗不仅与航行时间、航行速度有关,还与所处环境中的风速及障碍物等有关。本实施例采用HMS(悬停最大服务时间)的路由方法,即无人机悬停在相应节点上方,并以最大悬停时间tmax对用户进行数据传输,且假设无人机以恒定的速度v飞行。
步骤S2进一步包括步骤:
S21:通过聚类算法对随机分布的节点进行分簇,并得到簇的中心坐标;
S22:构建全局路径规划问题模型。
步骤S21中,在构建全局路径规划问题模型时,可先通过聚类算法对随机分布的传感器节点进行分簇,并得到簇的中心坐标(图2中黑点)。关于无人机以什么样的顺序访问这些簇,才能使得在有限的能量约束下取得最大的收益,该问题可以被建模为一个定向问题,即“选取点”和“确定最短路径”两种问题的结合。由于无人机数据收集存在无人机能量限制,所以不是所有的簇都会被服务。
步骤S22中,令S∈{1,2,…,K}表示簇的集合,其中K表示簇的数目,第k个簇的奖励值表示为pk,簇i的中心坐标到簇j的中心坐标的距离表示为disti,j,li,j表示簇i和簇j之间是否有路径,有路径则li,j=1,没路径则li,j=0,ldepot,j、li,depot、li,s、ls,j与li,j同理,s表示被服务的簇,depot表示无人机服务站,构建全局路径规划问题模型:
s.t.N=Kδ(0≤δ≤1), (2)
其中,目标函数(1)表示最大化数据收集的奖励值,并且最小化无人机的飞行路径;约束(2)表示无人机可服务簇的份额;约束(3)表示无人机的起点和终点均为无人机服务站Ddepot;约束(4)表示每个簇最多被服务一次;第k个簇的奖励值pk设置为:
其中,Ik表示第k个簇内所有节点存储数据的总和,dist0,k表示无人机服务站Ddepot到第k个簇的距离,dist0,j表示无人机服务站Ddepot到簇j之间的距离。因此,奖励值的设定不仅与节点到服务站的距离有关,还与数据的存储量有关。
(3)局部路径规划
具体包括步骤:
S4:设定无人机以固定高度飞行,只考虑二维平面运动,并将无人机的运动方向均分为8个方向;
S5:基于目标节点的参考信号强度和无人机与目标节点的水平距离,通过深度Q网络学习对无人机的局部飞行路径进行规划,使无人机逼近步骤S3得到的节点集合中的各节点位置并服务各节点。
在步骤S4中,假设无人机对目标传感器的位置是未知的,无人机以固定的高度飞行,只考虑二维平面运动,无人机与目标节点的距离为:
其中,(x,y)表示目标节点的位置坐标,(xi,yi)表示无人机当前状态的位置坐标。
无人机通过配备天线来测量目标节点的RSS(节点广播参考信号的强度),无人机可移动方向被相等的划分为8个方向,具体如图3所示。RSS值PR可以通过以下公式求得,它与距离d(m)有关,具体为:
PR=PT-PL(d)-f (7)
其中,PT为目标节点的发射功率,PL(d)为距离d处的路径损耗,此处的路径损耗模型采用3GPP TR 38.814,本实施例主要是参考天线接收信号强度值,为简化系统模型,只考虑了地对地大尺度信道衰落,f为捕获信道衰落变量。
步骤S5中,深度Q网络学习(DQN)融合了神经网络和Q学习的方法,它属于强化学习的一种,当然也应该具有强化学习的基本组成部分,即智能体、环境、动作、奖励、策略、值函数等。其智能体与环境的交互如图4所示,智能体通过与环境进行交互,通过循环迭代产生新的状态并结合环境给出奖励值。
本实施例深度Q网络学习的Q值函数的更新公式为:
Q(s,a)=Q(s,a)+α[r(s,a)+γmaxQ(s',a')-Q(s,a)] (9)
其中,α是学习率,α∈[0,1],γ是折扣因子,γ∈[0,1];Q(s,a)、r(s,a)表示无人机当前状态s和动作a下的Q值和奖励值,Q(s',a')表示下个状态s'和下个动作a'下的Q值。
本实施例深度Q网络学习的奖励值设定为:
表示如果当前位置各方向测量的平均RSS值中的最大值减去上一位置的各方向测量的平均RSS值中的最大值为正,则给一个固定的正奖励值“2”,如果为负,则给一个固定的负奖励值“-2”;如果无人机达到终止条件d<7m,则给其较大奖励值“100”。其中,无人机的当前状态s取决于各个方向测量的平均RSS值中最大的RSS值,无人机的当前动作a∈{a1,a2,a3,a4,a5,a6,a7,a8},a1,a2,a3,a4,a5,a6,a7,a8分别表示无人机运动的8个方向,RSS值表示节点广播参考信号的强度。
深度Q网络学习的目标方程为:
Qtarget=r+γ×(maxQ(s′,a′)-Q(s,a)) (11)
其中,r表示深度Q网络学习设定的奖励值;
通过目标方程(11)的迭代,直至达到终止条件d<7m,就认定对目标节点定位成功。
深度Q学习的原理图如图5所示,其DQN算法可以描述为:
1)初始化经验重放缓存区;
2)预处理环境:把状态-动作输入DQN,返还所有可能动作对应的Q值;
3)利用ε贪心策略选取一个动作a,有概率ε随机选择动作,有概率1-ε选取具有最大Q值的动作;
4)选择动作a后,智能体在状态s执行所选的动作,得到新的状态s′,得到奖励r;
5)把该组数据存储到经验重放缓冲区中,并将其记做s,a,r,s';
6)计算目标方程(11),更新Q网络权重;
7)重复执行步骤3)至步骤6),直至达到终止条件。
关于步骤S3和S4,下面进行更进一步的说明。
步骤S3具体包括步骤:
S31:构建指针网络深度学习模型与主动搜索策略相结合的求解模型;
S32:基于无人机系统模型组建源输入序列;
S33:将所述源输入序列输入至所述求解模型中进行求解,得到在无人机能量约束下、包括服务节点集合及服务顺序的输出序列。
步骤S31中指针网络深度学习模型的结构图如图6所示,它是由序列到序列模型和注意力机制结合改进得到,由Encoder(编码器或编码模块)和Decoder(解码器或解码模块)两个部分组成。在编码阶段只考虑输入xj对输出yi的影响,在解码阶段解码输出注意力概率矩阵,并通过softmax得到序列的输出概率分布。由于长短期记忆网络(Long Short-TermMemory,LSTM)能够成功学习具有远距离时间依赖性数据的特征,其被用作网络单元构建指针网络深度学习模型模型。本实施例Encoder使用LSTM多层神经网络(记为LSTM-e),Decoder使用LSTM多层神经网络(记为LSTM-d)。
现在确定指针网络(PN,Pointer Networks)深度学习模型的输入输出分别为:
1)输入:
Dcoords={(x0,y0),(x1,y1),…,(xK,yK)}为无人机服务站Ddepot和每个簇中心坐标Dloc的并集。假设Ddepot处的奖励值p0=0,Pprize={p0,p1,…,pK}为p0和pk的并集,源输入序列Dinputs={(x0,y0,p0),(x1,y1,p1),…,(xK,yK,pK)}。
2)输出:
输出序列Droads={P0,P1,…,Pn}表示无人机数据收集过程中簇的收集顺序,P0,P1,…,Pn对应Dinputs值的索引(n=K)。指针网络深度学习的编解码过程为:输入序列Dinputs经过K+1步依次输入到Encoder,然后通过Decoder依次输出Droads中的元素。
编码器进行编码的步骤包括:
1)将源输入序列Dinputs经过K+1(即n+1)步依次输送至LSTM-e网络,根据如下式(12)得到每一步输入所对应的LSTM-e网络状态ej(j=0,1,…,n);
2)当源输入序列Dinputs输入完毕之后,并将得到的隐藏层状态Enc=(e1,…,ej,…,en)(这里的ej表示LSTM-e网络中的第j个隐藏层的状态)进行编码后输入到所述解码器。
解码器进行解码的步骤包括:
1)根据如下式(13)计算出LSTM-d网络的隐藏层状态Dec=(d1,…,di,…,dm)(这里的di表示LSTM-d网络中的第i个隐藏层的状态,本实施例m=n=K);
2)采用如下式(14)~(16)由LSTM-e网络的隐藏层状态和LSTM-d网络的隐藏层状态分别计算出每个输入对当前输出带来的影响;
3)根据如下式(17)将LSTM-d网络的softmax归一化后得到注意力矩阵;
4)根据如下式(18)选择注意力矩阵中权重占比最大的指针作为输出。
ej=f((xj,yj,pj),ej-1), (12)
di=f(Pi-1,di-1), (13)
uij=vTtanh(W1ej+W2di), (14)
p(Pi|P0,…,Pi-1,Dinputs)=ai, (15)
ai={ai1,ai2,…,aij,…,ain}, (16)
Pi=arg max p(Pi|P0,…,Pi-1,Dinputs), (18)
其中,f为非线性激活函数,v、W1和W2是输出模型的可学习参数,tanh表示tanh激活函数,aij由uij经过softmax后得到,其作用是将输出uij标准化为输入字典上的输出分布,exp表示exp函数(以自然常数e为底的指数函数)。
在解码过程中,还要考虑到定向问题模型中的约束问题。首先,对于约束(2),预设一个服务份额值δ。对于约束(3),无人机的起点和终点均为无人机服务站Ddepot,因此,第一步和最后一步将P0和Pn设置为0。对于约束(4),根据禁忌搜索的思想,在每一步添加Droads元素时,将其作为禁忌元素添加到Daction列表中,每一步输出将根据Daction表,在注意力矩阵中选择非Daction表中权值最大的作为输出。
步骤S31中主动搜索策略是指:将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列,再通过梯度下降法优化目标函数(1),最后选择最小目标函数值所对应的路径作为输出路径。
故结合指针网络深度学习模型与主动搜索策略,步骤S33中求解过程具体包括:
S331:初始化源输入序列,将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列;
S332:将所述再输入序列输入构建的指针网络深度学习模型,得到初步结果;
S333:通过多目标优化中的线性加权法将目标函数(1)改写成下式(19),并使用梯度下降法优化目标函数:
S333:重复执行步骤S331至S333,直至达到终止条件——无人机与目标节点的距离d<预设距离7m时;
S334:选择最小目标函数值所对应的路径作为输出路径。
本发明实施例将无人机在数据收集过程中的路径规划问题分为全局路径规划和局部路径规划,并利用指针网络深度学习模型和深度Q学习分别解决两种情况,从而能够在无人机能量约束下有效地提升其数据收集的收益,具有很好的实际意义。
为验证指针网络模型对无人机全局路径规划的优化性能,本实施例根据上述理论内容进行了实验。实验主要对指针网络深度学习(pointer networks,PN)、基于随机搜索(Active Search,AS)策略的指针网络深度学习方法,为了对比AS方法的效果,实验中设计贪婪奖励(greed prize,GP)方法和其进行比较,GP方法是受贪婪优化方法的影响,先贪婪地选择奖励值大小为前N簇的坐标,然后通过PN+AS方法求这些簇的最短路径。
实验令无人机服务站Ddepot的坐标为(0,0),在[0,1]×[0,1](单位:km)的范围内分别随机生成50个簇和100个簇的中心位置坐标,分别为D50和D100。每个簇的奖励值设定按照公式(5)得到。
表1、表2分别列出了AS方法和GP方法使用的参数及其相应值的设定。
表1 AS的参数
表2 GP的参数
为验证DQN的性能,本实施例还对Q学习和DQN两种方法在无人机数据收集中单个节点定位的仿真效果进行了对比实验。为模拟无人机接收信号强度值,采用网格法确定当前位置距离目标节点的距离,通过公式(7)和公式(8)计算接收信号强度值,实现DQN状态输入。本次实验主要对两种方法迭代次数内的成功率、步数及其最优路径进行比较。两种算法均使用ε贪心策略,在仿真中设置的成功条件为无人机离目标节点的距离小于7m视为成功,防止算法无限次迭代,将无人机步数大于200步视为失败。仿真结果表明DQN的性能优于Q学习,能够达到一个较高的成功率。仿真各参数的设置如表3所示。
表3 DQN参数设置
图7、图8分别是D50和D100下分别使用PN、AS、GP的路径规划效果图,表4是D50和D100下分别使用PN、AS、GP的距离和奖励值的记录表,其中距离的单位为km,根据目标公式(1)可知,奖励值越大越好,距离越小越好,这样可以使得模型的收益能效高。从图7、图8和表4中可以直观地看出,使用PN方法相比于AS方法的路径规划图交叉点较多,总路径距离较大,总奖励值较小。AS方法与GP方法比较,GP方法交叉点较少,总路径距离较小,不过该算法存在贪婪的性质达到收集数据奖励的最大值,将路径规划问题变为一个简单的旅行商问题来解决,使得该算法的效果比较好,GP方法与AS方法相比较,AS方法虽然不能完全达到GP方法的效果,但AS方法的效果接近GP方法,且AS方法最大的特点就是更具随机性,更适合动态环境中的无人机路径规划。
表4 PN、AS、GP结果数据(单位:km)
图9是AS策略下使用梯度下降法训练PN的训练损失图,从图9中可以看出训练指针网络损失值随着迭代次数快速下降,随着迭代次数的增加训练损失的值趋于稳定,在0值上下波动,这表明该深度模型可以在训练后达到收敛,该网络性能可靠。
图10为Q学习和DQN两种算法的成功次数的步数的变化波动图,从图10中可以明显看出,DQN步数的变化只在一开始波动较大,经过一个更新周期(30)后波动趋于平稳,且步数较小,迭代次数为100次,DQN的成功率接近100%,而Q学习的成功次数只有7次,其余均大于200步。从图11可以更清晰地看到DQN的最优路径与Q学习的最优路径相比,更平缓,拐点较少。表5为不同起点和目标位置时Q学习和DQN两种算法的最优步长比较,可看出针对不同起点和目标位置,除了第三组(0,0)—>(68,78)两种方法效果一样,场景大的DQN优于Q学习,可见DQN的泛化性能强,可以适应不同的场景。
表5 不同目标最优步长
实验表明,本实施例所提智能方法(指针网络深度学习模型结合深度Q学习)能够在无人机能量约束下有效提升其数据收集的收益。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种无人机在数据收集过程中的路径规划方法,其特征在于,包括步骤:
(1)无人机系统模型
S1:建立物联网数据收集的无人机系统模型;无人机系统模型包括一架无人机、一个无人机服务站和通过无人机收集数据的多个节点,无人机一次只能服务一个节点;
(2)全局路径规划
S2:以最大化数据收集的奖励值以及最小化无人机的飞行路径为目标,构建无人机的全局路径规划问题模型;所述步骤S2具体包括步骤:
S21:通过聚类算法对随机分布的节点进行分簇,并得到簇的中心坐标;
S22:令S∈{1,2,…,K}表示簇的集合,其中K表示簇的数目,第k个簇的奖励值表示为pk,簇i的中心坐标到簇j的中心坐标的距离表示为disti,j,li,j表示簇i和簇j之间是否有路径,有路径则li,j=1,没路径则li,j=0,ldepot,j、li,depot、li,s、ls,j与li,j同理,s表示被服务的簇,depot表示无人机服务站,构建全局路径规划问题模型:
s.t.N=Kδ (0≤δ≤1), (2)
其中,目标函数(1)表示最大化数据收集的奖励值,并且最小化无人机的飞行路径;约束(2)表示无人机可服务簇的份额;约束(3)表示无人机的起点和终点均为无人机服务站Ddepot;约束(4)表示每个簇最多被服务一次;第k个簇的奖励值pk设置为:
其中,Ik表示第k个簇内所有节点存储数据的总和,dist0,k表示无人机服务站Ddepot到第k个簇的距离,dist0,j表示无人机服务站Ddepot到簇j之间的距离;
S3:采用指针网络深度学习模型对所述全局路径规划问题模型进行求解,得到在无人机能量约束下的服务节点集合及服务顺序;所述步骤S3具体包括步骤:
S31:构建指针网络深度学习模型与主动搜索策略相结合的求解模型;
S32:基于无人机系统模型组建源输入序列;
S33:将所述源输入序列输入至所述求解模型中进行求解,得到在无人机能量约束下、包括服务节点集合及服务顺序的输出序列;
(3)局部路径规划
S4:设定无人机以固定高度飞行,只考虑二维平面运动,并将无人机的运动方向均分为8个方向;在步骤S4中,只考虑二维平面运动,无人机与目标节点的距离为:
其中,(x,y)表示目标节点的位置坐标,(xi,yi)表示无人机当前状态的位置坐标;
而目标节点的参考信号强度PR与距离d有关,具体为:
PR=PT-PL(d)-f (7)
其中,PT为目标节点的发射功率,PL(d)为距离d处的路径损耗,f为捕获信道衰落变量;
S5:基于目标节点的参考信号强度和无人机与目标节点的水平距离,通过深度Q网络学习对无人机的局部飞行路径进行规划,使无人机逼近步骤S3得到的节点集合中的各节点位置并服务各节点。
2.如权利要求1所述的一种无人机在数据收集过程中的路径规划方法,其特征在于:步骤S31中所述指针网络深度学习模型包括编码器和解码器;所述编码器使用长短期记忆网络记为LSTM-e网络,所述解码器使用长短期记忆网络记为LSTM-d网络;
所述编码器进行编码的步骤包括:
1)将源输入序列经过K+1步依次输送至LSTM-e网络,得到每一步输入所对应的LSTM-e网络状态;
2)当源输入序列输入完毕之后,将得到的隐藏层状态进行编码后输入到所述解码器;
所述解码器进行解码的步骤包括:
1)计算出LSTM-d网络的隐藏层状态;
2)由LSTM-e网络的隐藏层状态和LSTM-d网络的隐藏层状态分别计算出每个输入对当前输出带来的影响;
3)将LSTM-d网络的softmax归一化后得到注意力矩阵;
4)选择注意力矩阵中权重占比最大的指针作为输出。
3.如权利要求2所述的一种无人机在数据收集过程中的路径规划方法,其特征在于,步骤S31中,所述主动搜索策略是指:将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列,再通过梯度下降法优化目标函数(1),最后选择最小目标函数值所对应的路径作为输出路径。
4.如权利要求1~3任一项所述的一种无人机在数据收集过程中的路径规划方法,其特征在于,步骤S33的求解过程具体包括:
S331:初始化源输入序列,将源输入序列中索引位置0以外的其他元素随机排列组合生成B个批次的再输入序列;
S332:将所述再输入序列输入构建的指针网络深度学习模型,得到初步结果;
S333:通过多目标优化中的线性加权法将目标函数(1)改写成下式(19),并使用梯度下降法优化目标函数:
其中,ω1、ω2代表对应的权重,表示在减少无人机飞行距离与提升无人机服务奖励之间的折衷关系,ω12=1;
S333:重复执行步骤S331至S333,直至达到终止条件——无人机与目标节点的距离d小于预设距离时;
S334:选择最小目标函数值所对应的路径作为输出路径。
5.如权利要求1所述的一种无人机在数据收集过程中的路径规划方法,其特征在于:在所述步骤S5中,深度Q网络学习的Q值函数的更新公式为:
Q(s,a)=Q(s,a)+α[r(s,a)+γmaxQ(s',a')-Q(s,a)] (9)
其中,α是学习率,α∈[0,1],γ是折扣因子,γ∈[0,1];Q(s,a)、r(s,a)分别表示无人机当前状态s和动作a下的Q值和奖励值,Q(s',a')表示下个状态s'和下个动作a'下的Q值。
6.如权利要求5所述的一种无人机在数据收集过程中的路径规划方法,其特征在于,深度Q网络学习的奖励值设定为:
表示如果当前位置各方向测量的平均RSS值中的最大值减去上一位置的各方向测量的平均RSS值中的最大值为正,则给一个固定的正奖励值“2”,如果为负,则给一个固定的负奖励值“-2”;如果无人机达到终止条件d<7m,则给其较大奖励值“100”;
其中,无人机的当前状态s取决于各个方向测量的平均RSS值中最大的RSS值,无人机的当前动作a∈{a1,a2,a3,a4,a5,a6,a7,a8},a1,a2,a3,a4,a5,a6,a7,a8分别表示无人机运动的8个方向,RSS值表示节点广播参考信号的强度。
7.如权利要求6所述的一种无人机在数据收集过程中的路径规划方法,其特征在于,深度Q网络学习的目标方程为:
Qtarget=r+γ×(maxQ(s′,a′)-Q(s,a)) (11)
其中,r表示深度Q网络学习设定的奖励值;
通过目标方程(11)的迭代,直至达到终止条件d<7m,就认定对目标节点定位成功。
CN202110148205.4A 2021-02-03 2021-02-03 一种无人机在数据收集过程中的路径规划方法 Active CN112902969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110148205.4A CN112902969B (zh) 2021-02-03 2021-02-03 一种无人机在数据收集过程中的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110148205.4A CN112902969B (zh) 2021-02-03 2021-02-03 一种无人机在数据收集过程中的路径规划方法

Publications (2)

Publication Number Publication Date
CN112902969A CN112902969A (zh) 2021-06-04
CN112902969B true CN112902969B (zh) 2023-08-01

Family

ID=76121782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110148205.4A Active CN112902969B (zh) 2021-02-03 2021-02-03 一种无人机在数据收集过程中的路径规划方法

Country Status (1)

Country Link
CN (1) CN112902969B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113543068B (zh) * 2021-06-07 2024-02-02 北京邮电大学 一种基于层次化分簇的林区无人机网络部署方法与系统
CN113433967B (zh) * 2021-06-07 2022-11-25 北京邮电大学 一种可充电无人机路径规划方法及系统
CN113377131B (zh) * 2021-06-23 2022-06-03 东南大学 一种使用强化学习获得无人机收集数据轨迹的方法
CN113919188B (zh) * 2021-07-27 2024-05-24 北京理工大学 一种基于上下文-mab的中继无人机路径规划方法
CN114237281B (zh) * 2021-11-26 2023-11-21 国网北京市电力公司 无人机巡检的控制方法、控制装置以及巡检系统
CN114167898B (zh) * 2021-12-15 2023-10-03 南京航空航天大学 一种无人机收集数据的全局路径规划方法及系统
CN114200964B (zh) * 2022-02-17 2022-04-26 南京信息工程大学 一种无人机集群协同侦察覆盖分布式自主优化方法
CN115454148B (zh) * 2022-11-08 2023-02-17 四川腾盾科技有限公司 固定翼集群无人机区域覆盖路径规划方法、介质及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107819496A (zh) * 2017-10-30 2018-03-20 重庆大学 一种sdn化的5g网络系统及其协作控制方法
CN108444482A (zh) * 2018-06-15 2018-08-24 东北大学 一种无人机自主寻路避障方法及系统
CN109257825A (zh) * 2018-10-15 2019-01-22 重庆大学 一种基于二元逻辑关系的无线数据发送方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
KR20190103078A (ko) * 2019-07-11 2019-09-04 엘지전자 주식회사 자율주행시스템에서 차량의 서비스 제공방법 및 이를 위한 장치
CN110214264A (zh) * 2016-12-23 2019-09-06 御眼视觉技术有限公司 具有施加的责任约束的导航系统
KR102032067B1 (ko) * 2018-12-05 2019-10-14 세종대학교산학협력단 강화학습 기반 무인 항공기 원격 제어 방법 및 장치
CN110514206A (zh) * 2019-08-02 2019-11-29 中国航空无线电电子研究所 一种基于深度学习的无人机飞行路径预测方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、系统、计算机设备及可读存储介质
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN111867139A (zh) * 2020-07-06 2020-10-30 上海交通大学 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN111860126A (zh) * 2020-06-04 2020-10-30 北京航空航天大学 一种多节点协同无人机通信信号检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537954B2 (en) * 2018-09-04 2022-12-27 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for ride order dispatching and vehicle repositioning

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110214264A (zh) * 2016-12-23 2019-09-06 御眼视觉技术有限公司 具有施加的责任约束的导航系统
CN107065881A (zh) * 2017-05-17 2017-08-18 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107819496A (zh) * 2017-10-30 2018-03-20 重庆大学 一种sdn化的5g网络系统及其协作控制方法
CN108444482A (zh) * 2018-06-15 2018-08-24 东北大学 一种无人机自主寻路避障方法及系统
CN109257825A (zh) * 2018-10-15 2019-01-22 重庆大学 一种基于二元逻辑关系的无线数据发送方法
KR102032067B1 (ko) * 2018-12-05 2019-10-14 세종대학교산학협력단 강화학습 기반 무인 항공기 원격 제어 방법 및 장치
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
KR20190103078A (ko) * 2019-07-11 2019-09-04 엘지전자 주식회사 자율주행시스템에서 차량의 서비스 제공방법 및 이를 위한 장치
CN110514206A (zh) * 2019-08-02 2019-11-29 中国航空无线电电子研究所 一种基于深度学习的无人机飞行路径预测方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110856134A (zh) * 2019-10-16 2020-02-28 东南大学 一种基于无人机的大规模无线传感器网络数据收集方法
CN110703766A (zh) * 2019-11-07 2020-01-17 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN110977967A (zh) * 2019-11-29 2020-04-10 天津博诺智创机器人技术有限公司 一种基于深度强化学习的机器人路径规划方法
CN111142557A (zh) * 2019-12-23 2020-05-12 清华大学 无人机路径规划方法、系统、计算机设备及可读存储介质
CN111860126A (zh) * 2020-06-04 2020-10-30 北京航空航天大学 一种多节点协同无人机通信信号检测方法
CN111867139A (zh) * 2020-07-06 2020-10-30 上海交通大学 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Energy-efficient UAV-enabled data collection via wireless charging: A reinforcement learning approach;Fu, S., Tang, Y., Wu, Y., Zhang, N., Gu, H., Chen, C., & Liu, M;《IEEE Internet of Things Journal》;第8卷(第12期);10209-10219 *
Joint unmanned aerial vehicle (UAV) deployment and power control for Internet of Things networks;Fu, S., Tang, Y., Zhang, N., Zhao, L., Wu, S., & Jian, X;《IEEE Transactions on Vehicular Technology》;第69卷(第4期);4367-4378 *
Modeling of a UAV-based data collection system;A.Arvanitaki, N. Pappas;《2017 IEEE 22nd International Workshop on Computer Aided Modeling and Design of Communication Links and Networks》;1-6 *
基于回溯蚁群-粒子群混合算法的多点路径规划;刘丽珏等;《通信学报》;第40卷(第2期);102-110 *
带冲突检测的两阶段无连接接入协议最优资源分配;简鑫;王芳;宋健;付澍;谭晓衡;曾孝平;;《通信学报》(第05期);121-128 *
无人机路径规划算法研究综述;麒杰等;《飞航导弹》(第5期);54-58 *
窄带物联网覆盖类别更新机制性能分析与优化;简鑫;刘钰芩;韦一笑;宋健;王芳;付澍;谭晓衡;;《通信学报》(第11期);74-83 *

Also Published As

Publication number Publication date
CN112902969A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112902969B (zh) 一种无人机在数据收集过程中的路径规划方法
CN110809274B (zh) 一种面向窄带物联网的无人机基站增强网络优化方法
Qiu et al. Placement optimization of aerial base stations with deep reinforcement learning
CN112511250B (zh) 一种基于drl的多无人机空中基站动态部署方法及系统
Xie et al. Connectivity-aware 3D UAV path design with deep reinforcement learning
CN105429877A (zh) 一种基于粒子群优化的路径寻优方法
CN111757266B (zh) 基于太阳能供电型农业物联网的uav数据采集轨迹算法
Chen et al. A method for indoor Wi-Fi location based on improved back propagation neuralNetwork
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN114339842A (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
Zhao et al. Indoor localization algorithm based on hybrid annealing particle swarm optimization
CN117053790A (zh) 面向单天线无人机辅助通信飞行路线的规划方法
CN116321237A (zh) 一种基于深度强化学习的无人机辅助车联网数据收集方法
Bhandarkar et al. User coverage maximization for a uav-mounted base station using reinforcement learning and greedy methods
CN113919188B (zh) 一种基于上下文-mab的中继无人机路径规划方法
CN114879726A (zh) 一种基于多无人机辅助数据收集的路径规划方法
CN115545106A (zh) 一种多无人机中的AoI敏感的数据收集方法及系统
CN115119174A (zh) 灌区场景中基于能耗优化的无人机自主部署方法
Wei et al. Satellite-controlled uav-assisted iot information collection with deep reinforcement learning and device matching
Gad et al. Communication-efficient federated learning in drone-assisted iot networks: Path planning and enhanced knowledge distillation techniques
Gu et al. UAV-enabled mobile radiation source tracking with deep reinforcement learning
Tarekegn et al. Channel Quality Estimation in 3D Drone Base Station for Future Wireless Network
CN116321219B (zh) 自适应蜂窝基站联邦形成方法、联邦学习方法及装置
Zhao et al. Machine learning for position prediction and determination in aerial base station system
Lyu et al. Spatial Deep Learning for Site-Specific Movement Optimization of Aerial Base Stations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant