CN114879726A - 一种基于多无人机辅助数据收集的路径规划方法 - Google Patents

一种基于多无人机辅助数据收集的路径规划方法 Download PDF

Info

Publication number
CN114879726A
CN114879726A CN202210468940.8A CN202210468940A CN114879726A CN 114879726 A CN114879726 A CN 114879726A CN 202210468940 A CN202210468940 A CN 202210468940A CN 114879726 A CN114879726 A CN 114879726A
Authority
CN
China
Prior art keywords
unmanned aerial
user
aerial vehicle
drone
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210468940.8A
Other languages
English (en)
Inventor
张广驰
苏天赐
崔苗
刘圣海
王日明
王昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210468940.8A priority Critical patent/CN114879726A/zh
Publication of CN114879726A publication Critical patent/CN114879726A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于多无人机辅助数据收集的路径规划方法,包括以下步骤:在目标区域内目标被分为若干集群,用户坐标在集群中随机产生,集群中有若干用户,且用户随机运动但并不会超过区域边界;无人机和用户的通信通道由时限链接主导,使用多无人机在无模型的情况下进行动态规划;使用Dueling‑DDQN算法优化无人机轨迹从而最大化用户覆盖。当用户的分布分散且可以在整个目标区域内自由移动,为了弥补单无人机在用户更分散的情况下覆盖不足的问题,使用多无人机辅助数据收集实现了更多的用户覆盖并能够优化出一条到达终点的最短路径,从而实现最大化用户覆盖;还提出Dueling‑DDQN算法,可以准确的估算神经网络输出值,规划无人机每步移动的动作,适用于其他不同的场景。

Description

一种基于多无人机辅助数据收集的路径规划方法
技术领域
本发明涉及路径规划领域,更具体地,涉及一种基于多无人机辅助数据收集的路径规划方法。
背景技术
为了提高无线通信的网络性能和覆盖范围,无人机现已在各个通信领域开始部署,如无线传感器网络、高速缓存、异构蜂窝网络、大规模多输入多输出(MIMO)、灾难通信、和设备到设备通信(D2D)。例如,在L.D.Nguyen,A.Kortun,and T.Q.Duong,“Anintroduction of real-time embedded optimisation programming for UAV systemsunder disaster communication,”EAI Endorsed Transactions on IndustrialNetworks and Intelligent Systems,vol.5,no.17,pp.1–8,Dec.2018中,部署了无人机,为偏远地区和灾区的人们提供网络覆盖。在J.Gong,T.-H.Chang,C.Shen,and X.Chen,“Flight time minimization of UAV for data collection over wireless sensornetworks,”IEEE J.Select.Areas Commun.,vol.36,no.9,pp.1942–1954,Sept.2018中,无人机也用于在无线传感器网络中收集数据。
然而,以上的研究不是忽略了现实应用中严格的飞行时间限制,就是通常把环境设置为静态环境,或者用户太过于集中,但是一般事实上我们所要覆盖的用户或者目标都是自由运动的,且一般比较分散。由于无人机的机载功率和飞行时间的限制,如何在最快到达目的地的前提下获得最优的资源分配方案,实现用户覆盖最大化是一个挑战。
现有的技术中,中国发明专利公开了一种用于信息采集的无人机群路径规划方法,通过对需要进行监测的环境监测点进行建模,然后将各个区域和无人机基地进行一一对应进行任务分配,最后对单个无人机执行监测任务进行路径规划,采用基于模拟退火改进的K均值任务分群算法求解该评估模型下代价最小的无人机飞行路径,从而得到多无人机协同的路径规划方法。该发明采用模拟退火算法对K均值聚类算法进行改进,使得得到的分群结果更加均衡,能够更有效的提高任务分群的效果,缩短了路径规划的距离,但是没有考虑到区域内用户可以自由移动,无法解决无模型的动态规划问题。
发明内容
本发明为解决现有的单无人机在用户更分散的情况下覆盖不足且传统优化决策方法无法解决无模型动态规划问题的技术缺陷,提供了一种基于多无人机辅助数据收集的路径规划方法。
为实现以上发明目的,采用的技术方案是:
一种基于多无人机辅助数据收集的路径规划方法,包括以下步骤:
S1:在目标区域内目标被分为若干集群,用户坐标在集群中随机产生,集群中有若干用户,且用户随机运动但并不会超过区域边界;
S2:无人机和用户的通信通道由时限链接主导,使用多无人机在无模型的情况下进行动态规划;
S3:使用Dueling-DDQN算法优化无人机轨迹从而最大化用户覆盖。
上述方案中,当用户的分布分散且可以在整个目标区域内自由移动,为了弥补单无人机在用户更分散的情况下覆盖不足的问题,使用多无人机实现了更多的用户覆盖并能够优化出一条到达终点的最短路径,从而实现最大化用户覆盖;还提出的基于深度强化学习的Dueling-DDQN算法,可以准确的估算神经网络输出值,做出准确的策略,规划无人机每步移动的动作,适用于其他不同的场景。
优选的,在步骤S1中,在目标区域内,用户被分为M个集群,每个集群相当于半径为R的圆,用户的坐标在这些圆内随机生成,每个集群内有K个用户,时间步长t时第k个用户在第m个集群中的位置为
Figure BDA0003625746790000021
同时用户以低于最大速度v进行随机移动,但不会超出目标区域边界,即
Figure BDA0003625746790000022
Figure BDA0003625746790000023
上述方案中,无人机飞行高度为H,依靠单个天线访问所有集群以最大化覆盖用户,在时间步长t时无人机的三维坐标定义为
Figure BDA0003625746790000024
Figure BDA0003625746790000025
两个无人机的起点与终点均相同,最大覆盖范围由无人机的飞行高度H和天线发射角度θ决定,即Rmax=H·tan(θ),同时无人机只能在规定的区域飞行,即0≤X(t)≤Xmax和0≤Y(t)≤Ymax,其中Xmax和Ymax为该区域的长度和宽度。
优选的,在步骤S2中,无人机和用户之间的通信通道由视线链接主导,时间步长t时,第m个集群中第k个用户到第一个无人机的距离为:
Figure BDA0003625746790000026
在时间步长t时,第一个无人机与第m个簇中的第k个用户之间的信道遵循自由空间路径损耗模型,表示为
Figure BDA0003625746790000031
其中β0表示信道在参考距离d=1m时的功率增益。
优选的,在步骤S3中,当用户满足距离约束并处于无人机覆盖范围内时,第m个集群中的第k个用户在t时刻到无人机的实现吞吐量,定义如下:
Figure BDA0003625746790000032
若同时处于多个无人机的重叠的覆盖范围内,则此用户在t时刻的吞吐量是分别与两个无人机通信产生的吞吐量之和,其中B和α2分别是带宽和噪声功率,集群m中的第k个用户到无人机的总吞吐量和在T时间步长时为:
Figure BDA0003625746790000033
优选的,在多无人机数据收集系统下,由于两个无人机都会受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束,通过优化两个无人机轨迹,实现用户覆盖最大化,得到目标问题如下
Figure BDA0003625746790000034
s.tRfinal1=Xtarget
dm,k≤dcons
Rm,k≥rmin
P(m,k)={0,1},
0≤X(t)≤Xmax,
0≤Y(t)≤Ymax,
距离约束dcons表示被服务用户
Figure BDA0003625746790000035
与无人机的直线距离,Xnow,Xnow1,Xnow2和Xtarget分别表示单无人机数据收集系统下无人机的目前位置、多无人机数据收集系统下两个无人机的目前位置以及重点位置;若无人机触碰边界,将受到边界惩罚Rbp=-100,同时定义Rsp=-1000为步数惩罚,无人机每多走一步都将会受到一个负奖励,无人机只能在规定的区域飞行,即0≤X(t)≤Xmax和0≤Y(t)≤Ymax,其中Xmax和Ymax为该区域的长度和宽度,X(t),Y(t)分别表示无人机的当前位置的横坐标和纵坐标。
上述方案中,当系统中只有一个无人机时,若无人机到达终点将会直接获得终点奖励Rfinal1,在多无人机数据收集系统下只有两个无人机都到达终点才能获得终点奖励Rfinal2,即
Figure BDA0003625746790000041
Figure BDA0003625746790000042
当系统中只存在一个无人机时,无人机受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束,通过优化无人机轨迹,实现用户覆盖最大化,我们能得到以下目标问题,即
Figure BDA0003625746790000043
s.tRfinal1Xfinal=Xtarget,
dm,k≤dcons
Rm,k≥rmin
P(m,k)={0,1},
0≤X(t)≤Xmax,
0≤Y(t)≤Ymax
上述方案中,旨在最大化覆盖用户,为其提供通信服务,同时无人机要在最短时间内从起点起飞到达终点。因此我们定义P(m,k)={0,1},当第m个集群中第k个用户的总吞吐量Rm,k大于阈值rmin时,表示此用户已和无人机取得联系,此轮任务不再与无人机进行通信,同时被标记为P(m,k)=1,反之P(m,k)=0。
优选的,步骤S3中的Dueling-DDQN算法,其每一幕无人机从起点出发,到达目的地结束;
在训练阶段,每一幕开始之前先初始化无人机的起点位置和终点位置,以及随机初始化M*K个用户的位置;在每个时间步长t,无人机根据观测的状态信息st输出动作a(t),即无人机的飞行方向,此时若用户处于无人机的覆盖范围以内,智能体将分别计算与每个用户通信的吞吐量,并一直累积到一步,直到Rm,k≥rmin,若无人机的下一个位置超出规定区域则取消该飞行动作;根据动作得到相应的回报rt和下一时刻的状态信息st+1,将
Figure BDA0003625746790000044
储存在经验缓冲区buffer,在每一时刻结束时从经验缓冲区中随机采样N组经验进行网络参数的更新。
优选的,所述Dueling-DDQN算法是一种迭代求解贝尔曼方程的无模型强化学习算法,其状态动作价值函数为:
Figure BDA0003625746790000051
其中
Figure BDA0003625746790000052
表示智能体在状态s采取动作a后转移到状态s'的概率,π(·)表示智能体的选择策略。
优选的,所述Dueling-DDQN算法设置有带有参数θ-的目标网络Q2(s',amax;θ-)和带有参数θ的估计网络Q1(s',a;θ),其目标网络是估计网络的复制,目标网络的参数θ-更新频率慢于估计网络;
同时所述Dueling-DDQN算法也设置了经验缓冲区,当前状态-动作-奖励-下个状态
Figure BDA0003625746790000053
存储到经验缓冲区中,稍后随机访问以进行权重更新。
上述方案中,本文提出基于强化学习的Dueling-DDQN算法计算最优轨迹,实现在最短时间内到达终点的同时最大化用户覆盖。不管是单无人机还是多无人机都是采用单一智能体通过不断地与环境交互来学习状态空间到动作空间的映射,并根据环境的反馈信息进行学习。无人机每走一步都会从环境中观测到当前状态s(t),将状态s(t)输入到深度神经网络中获得相应动作a(t),通过动作a(t)与环境进行交互,环境返给智能体当前的回报r(t),以及新的状态s(t+1)。随后将上述过程得到的经(s(t),a(t),r(t),s(t+1))储存在经验缓冲区,进行深度神经网络的训练。
在系统中只有一个无人机执行任务时,无人机就是一个智能体,与环境互动,寻找奖励的峰值;多无人机情况下,两个无人机同属一个智能体。
本专利把无人机的位置定义为状态空间,即S={x,y,H},多无人机数据收集系统下S={x1,y1,H1,x2,y2,H2}。在时间步长t时,分别将以上场景的无人机的状态定义为st={xt,yt,Ht}和
Figure BDA0003625746790000054
当系统中只有一个无人机执行任务时,在时间步长t,处于状态st的无人机可以根据策略选择属于动作空间A的一个动作at,通过将区域划分成网格
A={left,right,forward,backward}
在多无人机数据收集系统下,两个无人机同属一个智能体,每个动作同时控制两个无人机的移动,例如at={forward,right},表示第一个无人机向前(上)移动,同时第二个无人机向右移动。当用户在无人机的覆盖范围内时,无人机在环境中移动并开始从用户
Figure BDA0003625746790000061
中收集信息,然而当收集信息足够多时,即Rm,k≥rmin,该用户将被标记为已收集,即P(m,k)=1,同时无人机可能不会再访问该用户。
在深度强化学习中,回报用于评估智能体在当前状态下采取的动作的好坏,在联合轨迹和数据收集优化中,设计的奖励功能既依赖于用户覆盖的比率,同时也跟无人机整条路径上所收集的奖励有关。优化目标是要最大化用户覆盖,同时无人机要在最短时间内从起点飞到终点。每步若多覆盖一个用户,平均吞吐量带来的奖励会越大。同时在单无人机场景下越快到达终点,不仅会获得较大的终点奖励Rfinal,而且Rsp带来的总的步数惩罚也会越少;对于多无人机,两个无人机都到达终点(不要求同时到达)获得奖励Rfinal,任何一个无人机多走一步,都会导致总的Rsp越多。当约束不满足时,设置一系列惩罚,即无人机飞出规定区域时惩罚为Rbp。因此回报表达式为:
Figure BDA0003625746790000062
与现有技术相比,本发明的有益效果是:
本发明提供的一种基于多无人机辅助数据收集的路径规划方法,当用户的分布分散且可以在整个目标区域内自由移动,为了弥补单无人机在用户更分散的情况下覆盖不足的问题,使用多无人机实现了更多的用户覆盖并能够优化出一条到达终点的最短路径,从而实现最大化用户覆盖;还提出的基于深度强化学习的Dueling-DDQN算法,可以准确的估算神经网络输出值,做出准确的策略,规划无人机每步移动的动作,适用于其他不同的场景。
附图说明
图1为本发明的方法流程图;
图2为本发明的DQN(左)和Dueling-DDQN(右)中神经网络的结构图;
图3为不使用深度强化学习的方法轨迹图;
图4为使用深度强化学习的方法轨迹图;
图5为与图4相比在波形收敛后的对比图;
图6为使用Dueling-DDQN算法与常规算法的对比图;
图7为多无人机轨迹图;
图8为多无人机与单无人机每步均覆盖率对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,一种基于多无人机辅助数据收集的路径规划方法,包括以下步骤:
S1:目标在目标区域内被分为若干集群,用户坐标在集群中随机产生,集群中有若干用户,且用户随机运动但并不会超过区域边界;
S2:无人机和用户的通信通道由时限链接主导,使用多无人机在无模型的情况下进行动态规划;
S3:使用Dueling-DDQN算法优化无人机轨迹从而最大化用户覆盖。
上述方案中,当用户的分布分散且可以在整个目标区域内自由移动,为了弥补单无人机在用户更分散的情况下覆盖不足的问题,使用多无人机实现了更多的用户覆盖并能够优化出一条到达终点的最短路径,从而实现最大化用户覆盖;还提出的基于深度强化学习的Dueling-DDQN算法,可以准确的估算神经网络输出值,做出准确的策略,规划无人机每步移动的动作,适用于其他不同的场景。
优选的,在步骤S1中,在目标区域内,用户被分为M个集群,每个集群相当于半径为R的圆,用户的坐标在这些圆内随机生成,每个集群内有K个用户,时间步长t时第k个用户在第m个集群中的位置为
Figure BDA0003625746790000071
同时用户以低于最大速度v进行随机移动,但不会超出目标区域边界,即
Figure BDA0003625746790000072
Figure BDA0003625746790000073
上述方案中,无人机飞行高度为H,依靠单个天线访问所有集群以最大化覆盖用户,在时间步长t时无人机的三维坐标定义为
Figure BDA0003625746790000074
Figure BDA0003625746790000075
两个无人机的起点与终点均相同,最大覆盖范围由无人机的飞行高度H和天线发射角度θ决定,即Rmax=H·tan(θ),同时无人机只能在规定的区域飞行,即0≤X(t)≤Xmax和0≤Y(t)≤Ymax,其中Xmax和Ymax为该区域的长度和宽度。
优选的,在步骤S2中,无人机和用户之间的通信通道由视线链接主导,时间步长t时,第m个集群中第k个用户到第一个无人机的距离为:
Figure BDA0003625746790000081
在时间步长t时,第一个无人机与第m个簇中的第k个用户之间的信道遵循自由空间路径损耗模型,表示为
Figure BDA0003625746790000082
其中β0表示信道在参考距离d=1m时的功率增益。
优选的,在步骤S3中,当用户满足距离约束并处于无人机覆盖范围内时,第m个集群中的第k个用户在t时刻到无人机的实现吞吐量,定义如下:
Figure BDA0003625746790000083
若同时处于多个无人机的重叠的覆盖范围内,则此用户在t时刻的吞吐量是分别与两个无人机通信产生的吞吐量之和,其中B和α2分别是带宽和噪声功率,集群m中的第k个用户到无人机的总吞吐量和在T时间步长时为:
Figure BDA0003625746790000084
优选的,在多无人机数据收集系统下,由于两个无人机都会受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束,通过优化两个无人机轨迹,实现用户覆盖最大化,得到目标问题如下
Figure BDA0003625746790000085
s.tRfinal1=Xtarget
dm,k≤dcons
Rm,k≥rmin
P(m,k)={0,1},
0≤X(t)≤Xmax,
0≤Y(t)≤Ymax,
距离约束dcons表示被服务用户
Figure BDA0003625746790000086
与无人机的直线距离,Xnow,Xnow1,Xnow2和Xtarget分别表示单无人机数据收集系统下无人机的目前位置、多无人机数据收集系统下两个无人机的目前位置以及重点位置;若无人机触碰边界,将受到边界惩罚Rbp=-100,同时定义Rsp=-1000为步数惩罚,无人机每多走一步都将会受到一个负奖励,无人机只能在规定的区域飞行,即0≤X(t)≤Xmax和0≤Y(t)≤Ymax,其中Xmax和Ymax为该区域的长度和宽度,X(t),Y(t)分别表示无人机的当前位置的横坐标和纵坐标。
上述方案中,当系统中只有一个无人机时,若无人机到达终点将会直接获得终点奖励Rfinal1,在多无人机数据收集系统下只有两个无人机都到达终点才能获得终点奖励Rfinal2,即
Figure BDA0003625746790000091
Figure BDA0003625746790000092
当系统中只存在一个无人机时,无人机受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束,通过优化无人机轨迹,实现用户覆盖最大化,我们能得到以下目标问题,即
Figure BDA0003625746790000093
s.tRfinal1Xfinal=Xtarget,
dm,k≤dcons
Rm,k≥rmin
P(m,k)={0,1},
0≤X(t)≤Xmax,
0≤Y(t)≤Ymax
上述方案中,旨在最大化覆盖用户,为其提供通信服务,同时无人机要在最短时间内从起点起飞到达终点。因此我们定义P(m,k)={0,1},当第m个集群中第k个用户的总吞吐量Rm,k大于阈值rmin时,表示此用户已和无人机取得联系,此轮任务不再与无人机进行通信,同时被标记为P(m,k)=1,反之P(m,k)=0。
优选的,步骤S3中的Dueling-DDQN算法,其每一幕无人机从起点出发,到达目的地结束;
在训练阶段,每一幕开始之前先初始化无人机的起点位置和终点位置,以及随机初始化M*K个用户的位置;在每个时间步长t,无人机根据观测的状态信息st输出动作a(t),即无人机的飞行方向,此时若用户处于无人机的覆盖范围以内,智能体将分别计算与每个用户通信的吞吐量,并一直累积到一步,直到Rm,k≥rmin,若无人机的下一个位置超出规定区域则取消该飞行动作;根据动作得到相应的回报rt和下一时刻的状态信息st+1,将
Figure BDA0003625746790000101
储存在经验缓冲区buffer,在每一时刻结束时从经验缓冲区中随机采样N组经验进行网络参数的更新。
优选的,所述Dueling-DDQN算法是一种迭代求解贝尔曼方程的无模型强化学习算法,其状态动作价值函数为:
Figure BDA0003625746790000102
其中
Figure BDA0003625746790000103
表示智能体在状态s采取动作a后转移到状态s'的概率,π(·)表示智能体的选择策略。
优选的,所述Dueling-DDQN算法设置有带有参数θ-的目标网络Q2(s',amax;θ-)和带有参数θ的估计网络Q1(s',a;θ),其目标网络是估计网络的复制,目标网络的参数θ-更新频率慢于估计网络;
同时所述Dueling-DDQN算法也设置了经验缓冲区,当前状态-动作-奖励-下个状态
Figure BDA0003625746790000104
存储到经验缓冲区中,稍后随机访问以进行权重更新。
实施例2
如图2所示,本文提出基于强化学习的Dueling-DDQN算法计算最优轨迹,实现在最短时间内到达终点的同时最大化用户覆盖。不管是单无人机还是多无人机都是采用单一智能体通过不断地与环境交互来学习状态空间到动作空间的映射,并根据环境的反馈信息进行学习。无人机每走一步都会从环境中观测到当前状态s(t),将状态s(t)输入到深度神经网络中获得相应动作a(t),通过动作a(t)与环境进行交互,环境返给智能体当前的回报r(t),以及新的状态s(t+1)。随后将上述过程得到的经(s(t),a(t),r(t),s(t+1))储存在经验缓冲区,进行深度神经网络的训练。
如图2,在神经网络中,Vπ(s)和Aπ(s,a)是在输出层和最后一个隐藏层之间,且Vπ(s)和Aπ(s,a)的维数与输出层相同。相比DQN,Dueling-DDQN有了很大的改善,不仅能减少过估计,也能加快收敛。
在系统中只有一个无人机执行任务时,无人机就是一个智能体,与环境互动,寻找奖励的峰值;多无人机情况下,两个无人机同属一个智能体。
本专利把无人机的位置定义为状态空间,即S={x,y,H},多无人机数据收集系统下S={x1,y1,H1,x2,y2,H2}。在时间步长t时,分别将以上场景的无人机的状态定义为st={xt,yt,Ht}和
Figure BDA0003625746790000111
当系统中只有一个无人机执行任务时,在时间步长t,处于状态st的无人机可以根据策略选择属于动作空间A的一个动作at,通过将区域划分成网格
A={left,right,forward,backward}
在多无人机数据收集系统下,两个无人机同属一个智能体,每个动作同时控制两个无人机的移动,例如at={forward,right},表示第一个无人机向前(上)移动,同时第二个无人机向右移动。当用户在无人机的覆盖范围内时,无人机在环境中移动并开始从用户
Figure BDA0003625746790000112
中收集信息,然而当收集信息足够多时,即Rm,k≥rmin,该用户将被标记为已收集,即P(m,k)=1,同时无人机可能不会再访问该用户。
在深度强化学习中,回报用于评估智能体在当前状态下采取的动作的好坏,在联合轨迹和数据收集优化中,设计的奖励功能既依赖于用户覆盖的比率,同时也跟无人机整条路径上所收集的奖励有关。优化目标是要最大化用户覆盖,同时无人机要在最短时间内从起点飞到终点。每步若多覆盖一个用户,平均吞吐量带来的奖励会越大。同时在单无人机场景下越快到达终点,不仅会获得较大的终点奖励Rfinal,而且Rsp带来的总的步数惩罚也会越少;对于多无人机,两个无人机都到达终点(不要求同时到达)获得奖励Rfinal,任何一个无人机多走一步,都会导致总的Rsp越多。当约束不满足时,设置一系列惩罚,即无人机飞出规定区域时惩罚为Rbp。因此回报表达式为:
Figure BDA0003625746790000113
实施例3
如图3~图8所示,本专利将以无人机每步均覆盖率
Figure BDA0003625746790000114
来衡量性能的好坏,Usersc表示每一幕覆盖的用户数量,Steps表示每一幕无人机飞行总步数。
由于步数惩罚的约束,Steps会在训练开始时很大,但是之后越来越小,直到以最少步数到达终点。而在开始训练时由于Steps较大,无人机飞行轨迹较长,每一幕覆盖的用户数量Usersc也会较大(Usersc最大为用户总数50,而无人机最大飞行总步数远大于50),导致每步均覆盖率C较小,随着训练的进行,无人机将权衡轨迹以及用户的位置,在以越小飞行步数到达终点的同时,使得优化目标——平均吞吐量
Figure BDA0003625746790000121
越大,直到达到收敛以后优化出一条到达终点的最短路径,同时最大化用户覆盖。其中
Figure BDA0003625746790000122
表示当前无人机已覆盖用户的数量,当无人机到达终点时
Figure BDA0003625746790000123
等价于Usersc
本文以50个用户为例,也就是每个集群随机产生10个用户,共5个集群。同时Xmax=1000和Ymax=1000为该目标区域的长度和宽度。不论是单无人机还是多无人机场景时,每个无人机的起点设置为(0,0,200),终点为(1000,10000,200),无人机每一步移动距离为40。
当数据收集系统中只有一个无人机执行任务时,我们先与不使用深度强化学习的方法作了对比,以凸显强化学习的优势,图3为不使用深度强化学习的方法轨迹图,图4为使用深度强化学习的方法轨迹图。图4和图5实验结果表明当使用深度强化学习的方法时,在波形收敛以后无人机能在以最少步数到达终点的前提下覆盖更多用户,无人机每步均覆盖率更大,即
Figure BDA0003625746790000124
更大,因此效果更好。其次本文将Dueling-DDQN算法与传统DQN算法作了对比,如图6所示,使用Dueling-DDQN算法时,无人机每步均覆盖率
Figure BDA0003625746790000125
在训练时上升更快,且更快稳定,即无人机能更快找到到达终点的最短路径,同时更好的权衡无人机轨迹和用户位置,使得覆盖的用户数量最大化。因此我们得出结论,Dueling-DDQN算法性能更好,收敛更快。
最后在多无人机数据收集系统下,本文与图6同样使用Dueling-DDQN算法的单无人机场景作了对比,在训练收敛以后,无人机每步均覆盖率
Figure BDA0003625746790000126
的值接近1.0,即Usersc=Steps=50,由于无人机至少需要50步才能到达终点,因此相比单无人机,多无人机既能够优化出一条最短时间内到达终点的路径,同时可以覆盖更多用户,甚至能实现用户全覆盖,性能提升明显。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于多无人机辅助数据收集的路径规划方法,其特征在于,包括以下步骤:
S1:在目标区域内用户被分为若干集群,用户坐标在集群中随机产生,集群中有若干用户,且用户随机运动但并不会超过区域边界;
S2:无人机和用户的通信通道由时限链接主导,使用多无人机在无模型的情况下进行动态规划;
S3:使用Dueling-DDQN算法优化无人机轨迹从而最大化用户覆盖。
2.根据权利要求1所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,在步骤S1中,在目标区域内,用户被分为M个集群,每个集群相当于半径为R的圆,用户的坐标在这些圆内随机生成,每个集群内有K个用户,时间步长t时第k个用户在第m个集群中的位置为
Figure FDA0003625746780000011
同时用户以低于最大速度v进行随机移动,但不会超出目标区域边界,即
Figure FDA0003625746780000012
Figure FDA0003625746780000013
3.根据权利要求2所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,在步骤S2中,无人机和用户之间的通信通道由视线链接主导,时间步长t时,第m个集群中第k个用户到第一个无人机的距离为:
Figure FDA0003625746780000014
在时间步长t时,第一个无人机与第m个簇中的第k个用户之间的信道遵循自由空间路径损耗模型,表示为
Figure FDA0003625746780000015
其中β0表示信道在参考距离d=1m时的功率增益。
4.根据权利要求3所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,在步骤S3中,当用户满足距离约束并处于无人机覆盖范围内时,第m个集群中的第k个用户在t时刻到无人机的实现吞吐量,定义如下:
Figure FDA0003625746780000016
若同时处于多个无人机的重叠的覆盖范围内,则此用户在t时刻的吞吐量是分别与两个无人机通信产生的吞吐量之和,其中B和α2分别是带宽和噪声功率,集群m中的第k个用户到无人机的总吞吐量和在T时间步长时为:
Figure FDA0003625746780000021
5.根据权利要求4所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,在多无人机数据收集系统下,由于两个无人机都会受到终点位置、无人机覆盖范围、吞吐量阈值、步数惩罚以及边界约束,通过优化两个无人机轨迹,实现用户覆盖最大化,得到目标问题如下
Figure FDA0003625746780000022
s.tRfinal1=Xtarget
dm,k≤dcons
Rm,k≥rmin
P(m,k)={0,1},
0≤X(t)≤Xmax,
0≤Y(t)≤Ymax,
距离约束dcons表示被服务用户
Figure FDA0003625746780000023
与无人机的直线距离,Xnow,Xnow1,Xnow2和Xtarget分别表示单无人机数据收集系统下无人机的目前位置、多无人机数据收集系统下两个无人机的目前位置以及重点位置;若无人机触碰边界,将受到边界惩罚Rbp=-100,同时定义Rsp=-1000为步数惩罚,无人机每多走一步都将会受到一个负奖励,无人机只能在规定的区域飞行,即0≤X(t)≤Xmax和0≤Y(t)≤Ymax,其中Xmax和Ymax为该区域的长度和宽度,X(t),Y(t)分别表示无人机的当前位置的横坐标和纵坐标,在多无人机数据收集系统下只有两个无人机都到达终点才能获得终点奖励Rfinal2
6.根据权利要求1所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,所述步骤S3中的Dueling-DDQN算法,其每一幕无人机从起点出发,到达目的地结束。
7.根据权利要求6所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,在训练阶段,每一幕开始之前先初始化无人机的起点位置和终点位置,以及随机初始化M*K个用户的位置;在每个时间步长t,无人机根据观测的状态信息st输出动作a(t),即无人机的飞行方向,此时若用户处于无人机的覆盖范围以内,智能体将分别计算与每个用户通信的吞吐量,并一直累积到一步,直到Rm,k≥rmin,若无人机的下一个位置超出规定区域则取消该飞行动作;根据动作得到相应的回报rt和下一时刻的状态信息st+1,将[st,at,rt,st+1]储存在经验缓冲区buffer,在每一时刻结束时从经验缓冲区中随机采样N组经验进行网络参数的更新。
8.根据权利要求7所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,所述Dueling-DDQN算法是一种迭代求解贝尔曼方程的无模型强化学习算法,其状态动作价值函数为:
Figure FDA0003625746780000031
其中
Figure FDA0003625746780000032
表示智能体在状态s采取动作a后转移到状态s'的概率,π(·)表示智能体的选择策略。
9.根据权利要求8所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,所述Dueling-DDQN算法设置有带有参数θ-的目标网络Q2(s',amax;θ-)和带有参数θ的估计网络Q1(s',a;θ),其目标网络是估计网络的复制,目标网络的参数θ-更新频率慢于估计网络。
10.根据权利要求9所述的一种基于多无人机辅助数据收集的路径规划方法,其特征在于,所述Dueling-DDQN算法也设置了经验缓冲区,当前状态-动作-奖励-下个状态[st,at,rt,st+1]存储到经验缓冲区中,稍后随机访问以进行权重更新。
CN202210468940.8A 2022-04-29 2022-04-29 一种基于多无人机辅助数据收集的路径规划方法 Pending CN114879726A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210468940.8A CN114879726A (zh) 2022-04-29 2022-04-29 一种基于多无人机辅助数据收集的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210468940.8A CN114879726A (zh) 2022-04-29 2022-04-29 一种基于多无人机辅助数据收集的路径规划方法

Publications (1)

Publication Number Publication Date
CN114879726A true CN114879726A (zh) 2022-08-09

Family

ID=82674338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210468940.8A Pending CN114879726A (zh) 2022-04-29 2022-04-29 一种基于多无人机辅助数据收集的路径规划方法

Country Status (1)

Country Link
CN (1) CN114879726A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116318346A (zh) * 2023-03-07 2023-06-23 中国科学院软件研究所 多无人机间数据实时汇聚路径选择方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116318346A (zh) * 2023-03-07 2023-06-23 中国科学院软件研究所 多无人机间数据实时汇聚路径选择方法及装置
CN116318346B (zh) * 2023-03-07 2024-04-16 中国科学院软件研究所 多无人机间数据实时汇聚路径选择方法及装置

Similar Documents

Publication Publication Date Title
CN111786713B (zh) 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN112511250B (zh) 一种基于drl的多无人机空中基站动态部署方法及系统
CN111432433B (zh) 基于强化学习的无人机中继智能流量卸载方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN111935303A (zh) 空地一体化车联网中基于意图感知的任务卸载方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
CN114025330A (zh) 一种空地协同的自组织网络数据传输方法
CN114169234A (zh) 一种无人机辅助移动边缘计算的调度优化方法及系统
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114879726A (zh) 一种基于多无人机辅助数据收集的路径规划方法
CN112929849A (zh) 一种基于强化学习的可靠车载边缘计算卸载方法
CN114828146A (zh) 一种基于神经网络和迭代学习的无人集群地理位置路由方法
CN114339842A (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN116704823B (zh) 基于强化学习的无人机智能轨迹规划和通感资源分配方法
Singh et al. Energy-efficient uav trajectory planning in rechargeable iot networks
Wang et al. Integration of software defined radios and software defined networking towards reinforcement learning enabled unmanned aerial vehicle networks
CN116847293A (zh) 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法
CN116208968B (zh) 基于联邦学习的轨迹规划方法及装置
CN112566209A (zh) 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN116546421A (zh) 基于边缘计算的无人机位置部署和最低能耗的awaq算法
CN116074974A (zh) 一种分层架构下的多无人机群通道接入控制方法
CN113919188B (zh) 一种基于上下文-mab的中继无人机路径规划方法
Gao et al. Multi-UAV assisted offloading optimization: A game combined reinforcement learning approach
CN114520991B (zh) 基于无人机集群的边缘网络自适应部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination