CN116257089A - 一种基于深度强化学习的无人机路径优化方法、存储介质及设备 - Google Patents

一种基于深度强化学习的无人机路径优化方法、存储介质及设备 Download PDF

Info

Publication number
CN116257089A
CN116257089A CN202310377117.0A CN202310377117A CN116257089A CN 116257089 A CN116257089 A CN 116257089A CN 202310377117 A CN202310377117 A CN 202310377117A CN 116257089 A CN116257089 A CN 116257089A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
flight
probability
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310377117.0A
Other languages
English (en)
Inventor
王鑫
仲伟志
王俊智
肖丽君
朱秋明
林志鹏
王洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202310377117.0A priority Critical patent/CN116257089A/zh
Publication of CN116257089A publication Critical patent/CN116257089A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于深度强化学习的无人机路径优化方法、存储介质及设备,包括S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,S2:根据步骤S1的通信模型计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。本申请通过以上方案完成对无人机的飞行路径优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性;同时采用深度强化学习算法提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。

Description

一种基于深度强化学习的无人机路径优化方法、存储介质及 设备
技术领域
本发明涉及蜂窝网络下无人机与基站之间的通信连通性增强技术,属于无线信息传输领域;具体是针对一种基于深度强化学习的无人机路径优化方法、存储介质及设备。
背景技术
近年来,蜂窝网络与无人机结合的通信方式受到广泛关注。首先,蜂窝网络基础设施遍布全球,可提供经济高效的通信链路,减少通信范围的限制。其次,可以降低延迟,提高数据传输速率,补充定位精度。然而蜂窝连接无人机的通信形式也存在一些问题。由于现有的蜂窝网络主要面向地面用户,基站天线通常是朝向地面倾斜的,导致无法保证完善的空中通信覆盖。同时,蜂窝连接的无人机易受到其它非关联基站的严重干扰。为了保证无人机的飞行安全以及任务完成效率,需要利用无人机的可控移动性,对无人机的飞行路径进行优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性。
目前,在路径规划领域广泛使用的DQN算法存在以下问题:样本利用率低,即在回放经验池中进行重采样数据训练,原本的随机采样机制会导致训练样本种类比较单一,进而导致智能体对环境探索率较低,易获取局部最优解,降低训练速度。本发明提出了一种基于深度强化学习的无人机路径优化方法、存储介质及设备,该方法采用优先经验回放机制代替传统的均匀采样,在保证样本多样性的同时提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。
发明内容
本发明针对现有技术中的不足,提供一种基于深度强化学习的无人机路径优化方法、存储介质及设备;通过在保证样本多样性的同时提高了重要样本的利用率,能够获取更精确的回报值,更加有效地对无人机路径进行优化。
为实现上述目的,本发明采用以下技术方案:
一种基于深度强化学习的无人机路径优化方法,包括以下步骤:
S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,其中,
(一)场景模型:
设定无人机飞行区域范围D×D,以及在该范围内的障碍物高度和位置;
定义无人机在时刻t的位置为q(t)=(xt,yt),t∈[0,T],xt∈[0,D],yt∈[0,D],式中xt和yt表示无人机在时刻t位置的x坐标和y坐标;T表示无人机从起点位置至终点位置所用的飞行总时间;
(二)基站天线辐射模型:
设定基站扇区共有M个,并构建出基站天线辐射模型AA(θ,φ),其中基站天线为多阵元均匀线阵;
(三)信号模型:
分析无人机在q(t)位置与小区m,m∈M之间的路径损耗模型,包括视距路径损耗
Figure BDA0004170732880000023
和非视距路径损耗/>
Figure BDA0004170732880000024
S2:计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,具体方法如下:
S2.1:根据步骤S1建立的通信模型,分析无人机在时刻t位置从小区m接收到的瞬时信号功率为ym(t)
S2.2:根据ym(t)计算时刻t的信号干扰比SIR(t);
S2.3:根据信号干扰比SIR(t)测量无人机在时刻t所在位置q(t)与每个关联小区b(t)间的通信中断概率Pout(q(t),b(t));
S2.4:根据测量的通信中断概率,确定在q(t)位置的最佳关联小区b(t)*
Figure BDA0004170732880000021
S2.5:因此q(t)位置的通信覆盖概率=1-无人机在q(t)位置的中断概率,并将通信覆盖概率值保存到无线电覆盖概率图E中;其中无人机在q(t)位置的中断概率为Pout(q(t)):
Figure BDA0004170732880000022
S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。
为优化上述技术方案,采取的具体措施还包括:
进一步地,在步骤S1中,基站天线辐射模型中AA(θ,φ)构建过程如下:
AA(θ,φ)=GE,max-min{-[AE,V(θ)+AE,H(φ)],Am}+10log10[1+ρ(|a·wT|2-1)]
式中,θ和φ分别是基站天线的俯仰角和方位角;GE,max是天线阵元在主瓣方向上的最大方向增益,AE,V(θ)和AE,H(φ)分别是天线的垂直和水平辐射图,Am是前后比,ρ为相关系数,a表示幅度向量,w为波束成形向量;
参量AE,V(θ)和AE,H(φ)的具体计算公式为:
Figure BDA0004170732880000031
Figure BDA0004170732880000032
式中,θ3dB和φ3dB分别是天线在垂直和水平方向的半功率波束宽度;SLAV是天线的旁瓣电平限制。
进一步地,在步骤S1中信号模型对于视距路径损耗
Figure BDA0004170732880000033
和非视距路径损耗
Figure BDA0004170732880000034
的计算内容如下:
Figure BDA0004170732880000035
Figure BDA0004170732880000036
/>
式中,dm(q(t))是无人机在q(t)位置与小区m之间的距离;fc是载波频率;h是无人机在q(t)位置时所处的高度。
进一步地,在步骤S2.1中无人机在q(t)位置从小区m接收到的瞬时信号功率为ym(t)具体计算公式为:
Figure BDA0004170732880000037
式中,Pm是小区m的发射功率;hm(t)是t时刻的信道功率增益;β(q(t))表示在q(t)位置的基站天线增益,
Figure BDA0004170732880000038
是一个随机变量,表示t时刻无人机与小区m之间的小尺度衰落;/>
Figure BDA00041707328800000310
表示无人机在q(t)位置时与小区m之间的大尺度信道功率增益,
Figure BDA0004170732880000039
其中LoS link表示是在视距路径链接下,NLoS link表示是在非视距路径链接下。
进一步地,在步骤S2.2中计算时刻t的信号干扰比SIR(t)的具体内容为:
Figure BDA0004170732880000041
式中,b(t)表示t时刻无人机的某个关联小区;yb(t)(t)表示t时刻无人机从关联小区b(t)接收到的瞬时信号功率。
进一步地,在步骤S2.3中,计算Pout(q(t),b(t))的具体内容如下:
S2.3.1:定义无人机在q(t)位置与某个关联小区b(t)之间通信的中断概率为Pout(q(t),b(t)):
Figure BDA0004170732880000042
式中,Pr(·)表示事件发生的概率;γth为设置的阈值,当信号干扰比SIR(t)低于γth时,视为无人机处于通信中断状态;
S2.3.2:将信号干扰比SIR(t)改写为SIR(q(t),b(t),
Figure BDA0004170732880000043
即将变量时刻t改为对应时刻下的无人机位置q(t)、关联小区b(t)、无人机与关联小区b(t)之间小尺度衰落
Figure BDA0004170732880000044
定义中断指示函数为c(q(t),b(t),/>
Figure BDA0004170732880000045
Figure BDA0004170732880000046
S2.3.3:根据步骤S2.3.2的内容将S2.3.1的中断概率Pout(q(t),b(t))改写为
Figure BDA00041707328800000411
的期望值:
Figure BDA0004170732880000047
然后在一定时间内测量无人机与每个关联小区b(t)的信号干扰比SIR值J次,获得该位置无人机与每个关联小区b(t)的中断概率:
Figure BDA0004170732880000048
式中,
Figure BDA0004170732880000049
表示为t时刻无人机与关联小区b(t)之间小尺度衰落的第j个测量值。
进一步地,在步骤S3,所述设定无人机飞行路径的优化目标的具体内容为:
S3.1:构建连续优化目标函数:
Figure BDA00041707328800000410
s.t.q(0)=qs
q(T)=qf
式中,T表示从无人机从起点到终点的飞行时间;μ是一个非负系数;q(0)表示初始时刻下无人机所在位置;qs代表无人机起始位置;q(T)表示末点时刻下无人机所在位置;qf代表无人机终点位置;
S3.2:将步骤S3.1中对连续优化问题进行离散化处理,将无人机飞行区域划分为一系列相邻的网格点,最终目标函数等价于最小化无人机经过的网格点数N和预期中断概率的加权和:
Figure BDA0004170732880000051
s.t.q0=qs
qN=qf
式中,qn表示无人机在划分网格中n,(n∈N)点的所在位置;Pout(qn)表示无人机在n点位置时中断概率;q0表示无人机起始点所在位置;qf表示无人机终点所在位置。
进一步地,在步骤S3中,所述基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化具体内容为:
(一)、先让无人机从起点至终点进行实际试飞行,内容如下:
1):设置无人机实际试飞行的最大迭代次数为Nepi、每次迭代中无人机经过网格点的最大数也即称无人机走的最大步数为Nstep,初始化无人机探索概率ε→ε0,设置无人机探索概率衰减率α、无人机到达终点奖励值Rdes、无人机出界飞行区域围D×D的惩罚值Pob、非负系数μ、容量为C的重放经验池D,无线电覆盖概率图E,设置地图神经网络及其参数ξ、深度Q网络及其参数θ、目标深度Q′网络及其参数θ-=θ;设置并初始化经验回放求和树的默认数据结构,并将每个求和树叶子节点的优先级pi初始化为ps,即pi→ps
2):无人机开始执行实际试飞行任务、设循环变量nepi=1,其表示实际试飞行任务中的第1次迭代;
3):初始化大小为N1的滑窗W、初始化无人机实际试飞行初始位置qn=qs,此时qn中的n=0,表示无人机此时所经过网格点或走无人机探索的步数为0;
4):以ε-greedy策略选择动作vn,具体是以ε的概率在动作空间中随机选择动作,以1-ε的概率选择到最优动作;
5):执行动作vn,得到无人机在下一状态的位置qn+1,通过无线电覆盖概率图E中测量获得的qn+1位置的中断概率Pout(qn+1),设置单步奖励Rn
Rn=-1-μPout(qn+1)
6):将(qn,vn,Rn,qn+1)存储在滑窗W中;其中当n≥N1时,计算n-N1至n步的累计奖励
Figure BDA0004170732880000061
然后将第n-N1步的位置、动作、n-N1至n步的累计奖励以及第n步位置
Figure BDA0004170732880000062
的数据样本存储到求和树节点中;
7):更新无人机探索的步数n,循环步骤4)-7)得到多个数据样本;
8):从求和树中采样k个节点的样本
Figure BDA0004170732880000063
其中每个样本j被采样的几率为/>
Figure BDA0004170732880000064
pj表示节点样本j的优先级,/>
Figure BDA0004170732880000065
表示求和树所有节点优先级总和,求和树节点样本损失函数权重ωj=(P(j)/miniP(i)),β决定了优先经验回放对收敛结果的影响;
9):计算求和树k个节点样本中各个节点样本j的当前奖励值yj,具体方法如下:
Figure BDA0004170732880000066
式中,
Figure BDA0004170732880000067
表示无人机从j步至j+N1步的累计奖励;/>
Figure BDA0004170732880000068
表示无人机在j+N1步时候的位置,S表示无人机飞行区域D×D,γ表示回报折扣率,/>
Figure BDA0004170732880000069
表示目标深度Q′网络对深度Q网络在qj+N1位置选择最优动作v*的评估奖励值;
10):对损失函数
Figure BDA00041707328800000610
执行梯度下降,并更新深度Q网络参数θ;其中ωj表示损失函数权重、/>
Figure BDA00041707328800000611
表示目标Q′网络对Q网络在qj位置选择动作vj的评估奖励值;
11):基于无线电覆盖概率图E,并更新地图神经网络参数ξ;然后进行无人机的模拟试飞行任务:
步骤1:初始化无人机模拟试飞行任务的初始位置
Figure BDA00041707328800000612
其中各参量上方的标号“~”是表示当前状态处于模拟试飞行任务,以区分实际飞行中的参量,此时/>
Figure BDA0004170732880000071
中的/>
Figure BDA0004170732880000072
表示无人机在模拟试飞行任务中此时所经过网格点或走无人机探索的步数为0;设置循环变量/>
Figure BDA0004170732880000073
表示在模拟试飞行任务中的第1次迭代;
步骤2:同步骤4)-10)处理过程,其中有区别的是在步骤5)中的中断概率由地图神经网络预测输出得到,而地图神经网络的输入参量是无线电覆盖概率图E中的数据;
步骤3:判断无人机是否到达终点、或出界、或达到最大步数Nstep时,执行步骤4;否则,令
Figure BDA0004170732880000074
重复循环到步骤2中;
步骤4:分析迭代次数
Figure BDA0004170732880000075
每迭代循环B次,更新目标深度Q′网络参数θ-→θ,然后到步骤5;
步骤5:若
Figure BDA0004170732880000076
则循环结束;若/>
Figure BDA0004170732880000077
则令/>
Figure BDA0004170732880000078
并返回步骤1中;
12)回到实际试飞行任务中,判断无人机是否到达终点、或出界、或达到最大步数Nstep,若是则执行步骤13);否则,令n=n+1且无人机探索概率ε→εα,并重复循环到步骤4)中;
13)分析迭代次数nepi,每迭代循环B次,更新目标深度Q′网络参数θ-→θ;然后到步骤14);
14)若nepi=Nepi,则循环结束;若nepi<Nepi,则令nepi=nepi+1并返回步骤3)中;
(二)、通过步骤1)-14)的整个过程能够不断完善目标深度Q′网络的参数θ-,因此目标深度Q′网络针对深度Q网络对于无人机在某一位置qn选择动作vn的评估奖励值也逐渐达到最优;此时不再进行实际试飞行,直接通过最终训练完成后的目标深度Q′网络指导无人机从不同的起点飞到不同的终点,期间通过目标深度Q′网络指导飞行动作的选择,使得无人机选择奖励值最大的动作,完成路径规划。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行如上述任一项所述的无人机路径优化方法。
一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如上述任一项所述的无人机路径优化方法。
本发明的有益效果是:
1、本申请对无人机的飞行路径进行优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性。
2、本发明提出了一种基于深度强化学习的无人机路径优化方法、存储介质及设备;通过使用了基于求和树的优先经验回放机制,打破了均匀采样,赋予学习效率高的样本以更大的采样权重。然后本申请方案在保证样本多样性的同时提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。
附图说明
图1是本发明无人机与蜂窝网络基站通信场景示意图。
图2是本发明基于深度强化学习的无人机路径优化流程示意图。
图3是本发明一种具体案例产生的无人机飞行路径示意图。
图4是本发明一种具体案例无人机任务完成时间与其它方法对比示意图。
具体实施方式
下面具体通过附图和实施例来说明本发明基于深度强化学习的无人机路径优化方法、存储介质及设备。
本案例采用密集城市区域蜂窝网络场景,具体仿真参数如表1所示。
表1仿真参数
D 2 M 21 fc 2GHz Dtol 20m
αbd 0.3 hbs 25m h 100m ε0 0.5
βbd 300 GE,max 3dBi Pm 0.1W α 0.998
σbd 50 Am 30dB γth 0dB Rdes 200
(xs,ys) 随机值 ρ 1 J 1000 Pob 10000
(xf,yf) (1400,1600) θ3dB 65° μ 40 C 100000
V 8 φ3dB 65° Nepi 5000 N1 30
X 7 SLAV 30dB Nstep 300 γ 0.9999
本实施例包括以下步骤:
第一步:建立无人机与蜂窝网络的通信模型,包括场景模型、天线模型以及信号模型,具体步骤如下:
1)如图1所示,针对密集城市区域建立无人机与蜂窝网络通信的场景模型。具体包括
步骤一:考虑飞行区域范围为D×D km2,根据国际电信联盟建议的统计模型来生成建筑物的高度和位置。该模型涉及三个参数:αbd、βbd和γbd。其中,αbd为建筑物覆盖面积与总土地面积的比值;βbd为单位面积内建筑物的平均数量;γbd值决定了建筑物的高度分布,即服从均值为σbd的瑞利分布;
步骤二:定义无人机在时刻t的位置为q(t)=(xt,yt),t∈[0,T],xt∈[0,D],yt∈[0,D],xt和yt表示无人机的x坐标和y坐标。qs=(xs,ys)以及qf=(xf,yf)分别代表起始位置和终点,无人机飞行速度为Vm/s。
2)计算基站天线辐射模型
本场景设置有X=7个基站,基站位置分别为(1000,1000),(1577.4,1333),(1000,1666.7),(422.6,1333.3),(422.6,666.7),(1000,333.3),(1577.4,666.7),基站扇区共有21个,天线为8阵元均匀线阵,基站具有相同高度hbs=25m,天线的阵列辐射方向图建模为
AA(θ,φ)=3-min{-[AE,V(θ)+AE,H(φ)],30}+10log10[1+(|a·wT|2-1)]
其中a表示幅度向量,w为波束成形向量,AE,V(θ)和AE,H(φ)分别是天线的垂直和水平辐射图
Figure BDA0004170732880000091
Figure BDA0004170732880000092
3)计算无人机在q(t)位置时与小区m之间的路径损耗模型,具体方法如下:
Figure BDA0004170732880000093
Figure BDA0004170732880000094
其中,dm(q(t))是无人机在q(t)位置时与小区m之间的距离。
第二步:计算各个位置的中断概率,构建无线电覆盖概率图,具体方法如下:
1)计算无人机在q(t)位置从小区m接收到的瞬时信号功率为
Figure BDA0004170732880000095
其中,hm(t)是信道功率增益,β(q(t))表示在q(t)位置时基站的天线增益,
Figure BDA0004170732880000101
Figure BDA0004170732880000102
是一个随机变量,表示t时刻无人机与小区m之间的小尺度衰落,
Figure BDA0004170732880000103
表示在q(t)位置无人机与小区m之间的大尺度信道功率增益,确定方法如下:/>
Figure BDA0004170732880000104
2)计算时刻t的信号干扰比
Figure BDA0004170732880000105
其中,b(t)表示时刻t无人机的关联小区,yb(t)(t)表示t时刻从关联小区b(t)接收到的瞬时信号功率。
3)根据前述中断指示函数,测量每个小区的SIR值1000次,计算该位置与每个小区的中断概率
Figure BDA0004170732880000106
4)根据测量的中断概率,确定最佳关联基站
Figure BDA0004170732880000107
5)无人机在q(t)位置的通信覆盖概率=1-中断概率,将覆盖概率值保存到无线电覆盖概率图中:
Figure BDA0004170732880000108
第三步:基于以上分析,构建需要优化的目标函数,具体方法如下:
1)构建连续优化目标函数
Figure BDA0004170732880000109
s.t.q(0)=qs
q(T)=qf
其中,T表示从起点到终点的飞行时间,μ是一个非负系数,值越高,越关注无人机的连通性,代价是无人机轨迹可能更加迂回。
2)对连续优化问题进行离散化处理,将无人机飞行区域划分为一系列相邻的网格点,最终目标等价于最小化无人机经过的网格点数N和预期中断概率的加权和:
Figure BDA0004170732880000111
s.t.q0=qs
qN=qf
第四步:如图2所示,利用深度强化学习算法对无人机路径进行优化,具体步骤如下:
1)根据表1中的参数,对变量进行初始化处理;其中Dtol表示为容错距离;
2)无人机开始执行飞行任务,表示迭代次数的循环变量nepi=1;
3)初始化大小为30的滑窗W,假设实际初始位置qs=(1000,1000),无人机探索步数n=0;
4)以ε-greedy策略选择动作,假设选定动作vn=(0,10);
5)执行动作,得到下一状态qn+1=(1000,1010),测量获得当前中断概率Pout(qn+1),计算单步奖励Rn=-1-40Pout(qn+1);
6)将(qn,vn,Rn,qn+1)存储在滑窗W中,当n≥30时,计算R(n-30):n,并将(qn-30,vn-30,R(n-30):n,qn)存储到求和树中;循环步骤4)-6)得到多个样本;
7)从求和树中采样32个样本(qj,vj,Rj:j+30,qj+30),...,(qj+32,vj+32,Rj+32:j+30+32,qj+30+32),每个样本被采样的机率基于
Figure BDA0004170732880000112
pj表示样本j的优先级,/>
Figure BDA0004170732880000113
表示求和树所有节点优先级总和。计算损失函数权重ωj=(P(j)/miniP(i))-0.4
8)计算各个样本的当前奖励值,具体方法如下:
Figure BDA0004170732880000114
其中,S表示无人机飞行区域,
Figure BDA0004170732880000115
表示目标Q′网络对Q网络在/>
Figure BDA0004170732880000116
位置选择的最优动作v*的评估奖励值;
9)对损失函数
Figure BDA0004170732880000117
执行梯度下降,更新Q网络参数θ;
10)将测量的中断概率数据添加到E中,并更新地图网络参数ξ;
11)进行模拟飞行步骤(模拟飞行独立于前文的实际飞行,模拟飞行的作用是创造更多样本来更新两个网络的参数,使训练效果更佳),表示模拟飞行情节数的循环变量
Figure BDA0004170732880000121
具体步骤如下:
步骤一:随机初始化模拟初始位置
Figure BDA0004170732880000122
步骤二:同4)-10),不同的是,此时5)的中断概率由地图神经网络模型预测得到;
步骤三:当到达终点、出界或达到最大步数时,执行步骤四;否则,令
Figure BDA0004170732880000123
重复步骤二;
步骤四:每循环5次,设置目标Q′网络参数θ-→θ;
步骤五:若
Figure BDA0004170732880000124
则循环结束;若/>
Figure BDA0004170732880000125
则令/>
Figure BDA0004170732880000126
并返回步骤一,其中
Figure BDA0004170732880000127
12)当到达终点、出界或达到最大步数时,执行13);否则,令n=n+1,ε→0.998ε并返回4);
13)每循环B次,设置目标Q′网络参数θ-→θ;
14)若nepi=5000,则循环结束;若nepi<5000,则令nepi=nepi+1并返回3)。
本实施例得到的效果可以通过图3-图4仿真实验中所获得的具体数据进行进一步说明。可以看到:1)图3给出了最后100集无人机从随机起点到终点的路径,从图中可以看出,无人机避开了弱覆盖区域,沿着通信中断概率更高的路径进行飞行;2)图4给出了本发明方法与其它算法在飞行时间、通信中断时间以及两者加权和的对比结果,可以看出本发明可以用最少的加权和时间完成任务,达到预期目的。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (10)

1.一种基于深度强化学习的无人机路径优化方法,其特征在于,包括以下步骤:
S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,其中,
(一)场景模型:
设定无人机飞行区域范围D×D,以及在该范围内的障碍物高度和位置;
定义无人机在时刻t的位置为q(t)=(xt,yt),t∈[0,T],xt∈[0,D],yt∈[0,D],式中xt和yt表示无人机在时刻t位置的x坐标和y坐标;T表示无人机从起点位置至终点位置所用的飞行总时间;
(二)基站天线辐射模型:
设定基站扇区共有M个,并构建出基站天线辐射模型AA(θ,φ),其中基站天线为多阵元均匀线阵;
(三)信号模型:
分析无人机在q(t)位置与小区m,m∈M之间的路径损耗模型,包括视距路径损耗
Figure FDA0004170732870000013
和非视距路径损耗/>
Figure FDA0004170732870000014
S2:计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,具体方法如下:
S2.1:根据步骤S1建立的通信模型,分析无人机在时刻t位置从小区m接收到的瞬时信号功率为ym(t)
S2.2:根据ym(t)计算时刻t的信号干扰比SIR(t);
S2.3:根据信号干扰比SIR(t)测量无人机在时刻t所在位置q(t)与每个关联小区b(t)间的通信中断概率Pout(q(t),b(t));
S2.4:根据测量的通信中断概率,确定在q(t)位置的最佳关联小区b(t)*
Figure FDA0004170732870000011
S2.5:因此q(t)位置的通信覆盖概率=1-无人机在q(t)位置的中断概率,并将通信覆盖概率值保存到无线电覆盖概率图E中;其中无人机在q(t)位置的中断概率为Pout(q(t)):
Figure FDA0004170732870000012
S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。
2.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S1中,基站天线辐射模型中AA(θ,φ)构建过程如下:
AA(θ,φ)=GE,max-min{-[AE,V(θ)+AE,H(φ)],Am}+10log10[1+ρ(|a·wT|2-1)]
式中,θ和φ分别是基站天线的俯仰角和方位角;GE,max是天线阵元在主瓣方向上的最大方向增益,AE,V(θ)和AE,H(φ)分别是天线的垂直和水平辐射图,Am是前后比,ρ为相关系数,a表示幅度向量,w为波束成形向量;
参量AE,V(θ)和AE,H(φ)的具体计算公式为:
Figure FDA0004170732870000021
/>
Figure FDA0004170732870000022
式中,θ3dB和φ3dB分别是天线在垂直和水平方向的半功率波束宽度;SLAV是天线的旁瓣电平限制。
3.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S1中信号模型对于视距路径损耗
Figure FDA0004170732870000027
和非视距路径损耗/>
Figure FDA0004170732870000023
的计算内容如下:
Figure FDA0004170732870000024
Figure FDA0004170732870000025
式中,dm(q(t))是无人机在q(t)位置与小区m之间的距离;fc是载波频率;h是无人机在q(t)位置时所处的高度。
4.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S2.1中无人机在q(t)位置从小区m接收到的瞬时信号功率为ym(t)具体计算公式为:
Figure FDA0004170732870000026
式中,Pm是小区m的发射功率;hm(t)是t时刻的信道功率增益;β(q(t))表示在q(t)位置的基站天线增益,
Figure FDA0004170732870000031
Figure FDA0004170732870000032
是一个随机变量,表示t时刻无人机与小区m之间的小尺度衰落;/>
Figure FDA0004170732870000033
表示无人机在q(t)位置时与小区m之间的大尺度信道功率增益,
Figure FDA0004170732870000034
其中LoS link表示是在视距路径链接下,NLoS link表示是在非视距路径链接下。
5.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S2.2中计算时刻t的信号干扰比SIR(t)的具体内容为:
Figure FDA0004170732870000035
式中,b(t)表示t时刻无人机的某个关联小区;yb(t)(t)表示t时刻无人机从关联小区b(t)接收到的瞬时信号功率。
6.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S2.3中,计算Pout(q(t),b(t))的具体内容如下:
S2.3.1:定义无人机在q(t)位置与某个关联小区b(t)之间通信的中断概率为Pout(q(t),b(t)):
Figure FDA0004170732870000036
式中,Pr(·)表示事件发生的概率;γth为设置的阈值,当信号干扰比SIR(t)低于γth时,视为无人机处于通信中断状态;
S2.3.2:将信号干扰比SIR(t)改写为
Figure FDA0004170732870000037
即将变量时刻t改为对应时刻下的无人机位置q(t)、关联小区b(t)、无人机与关联小区b(t)之间小尺度衰落/>
Figure FDA0004170732870000038
定义中断指示函数为/>
Figure FDA0004170732870000039
Figure FDA00041707328700000310
S2.3.3:根据步骤S2.3.2的内容将S2.3.1的中断概率Pout(q(t),b(t))改写为
Figure FDA00041707328700000311
的期望值:
Figure FDA00041707328700000312
然后在一定时间内测量无人机与每个关联小区b(t)的信号干扰比SIR值J次,获得该位置无人机与每个关联小区b(t)的中断概率:
Figure FDA0004170732870000041
式中,
Figure FDA0004170732870000042
表示为t时刻无人机与关联小区b(t)之间小尺度衰落的第j个测量值。
7.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S3,所述设定无人机飞行路径的优化目标的具体内容为:
S3.1:构建连续优化目标函数:
Figure FDA0004170732870000043
s.t.q(0)=qs
q(T)=qf
式中,T表示从无人机从起点到终点的飞行时间;μ是一个非负系数;q(0)表示初始时刻下无人机所在位置;qs代表无人机起始位置;q(T)表示末点时刻下无人机所在位置;qf代表无人机终点位置;
S3.2:将步骤S3.1中对连续优化问题进行离散化处理,将无人机飞行区域划分为一系列相邻的网格点,最终目标函数等价于最小化无人机经过的网格点数N和预期中断概率的加权和:
Figure FDA0004170732870000044
s.t.q0=qs
qN=qf
式中,qn表示无人机在划分网格中n,(n∈N)点的所在位置;Pout(qn)表示无人机在n点位置时中断概率;q0表示无人机起始点所在位置;qf表示无人机终点所在位置。
8.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S3中,所述基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化具体内容为:
(一)、先让无人机从起点至终点进行实际试飞行,内容如下:
1):设置无人机实际试飞行的最大迭代次数为Nepi、每次迭代中无人机经过网格点的最大数也即称无人机走的最大步数为Nstep,初始化无人机探索概率ε→ε0,设置无人机探索概率衰减率α、无人机到达终点奖励值Rdes、无人机出界飞行区域围D×D的惩罚值Pob、非负系数μ、容量为C的重放经验池D,无线电覆盖概率图E,设置地图神经网络及其参数ξ、深度Q网络及其参数θ、目标深度Q′网络及其参数θ-=θ;设置并初始化经验回放求和树的默认数据结构,并将每个求和树叶子节点的优先级pi初始化为ps,即pi→ps
2):无人机开始执行实际试飞行任务、设循环变量nepi=1,其表示实际试飞行任务中的第1次迭代;
3):初始化大小为N1的滑窗W、初始化无人机实际试飞行初始位置qn=qs,此时qn中的n=0,表示无人机此时所经过网格点或走无人机探索的步数为0;
4):以ε-greedy策略选择动作vn,具体是以ε的概率在动作空间中随机选择动作,以1-ε的概率选择到最优动作;
5):执行动作vn,得到无人机在下一状态的位置qn+1,通过无线电覆盖概率图E中测量获得的qn+1位置的中断概率Pout(qn+1),设置单步奖励Rn
Rn=-1-μPout(qn+1)
6):将(qn,vn,Rn,qn+1)存储在滑窗W中;其中当n≥N1时,计算n-N1至n步的累计奖励
Figure FDA0004170732870000051
然后将第n-N1步的位置、动作、n-N1至n步的累计奖励以及第n步位置
Figure FDA0004170732870000052
的数据样本存储到求和树节点中;
7):更新无人机探索的步数n,循环步骤4)-7)得到多个数据样本;
8):从求和树中采样k个节点的样本
Figure FDA0004170732870000053
其中每个样本j被采样的几率为/>
Figure FDA0004170732870000054
pj表示节点样本j的优先级,/>
Figure FDA0004170732870000055
表示求和树所有节点优先级总和,求和树节点样本损失函数权重ωj=(P(j)/miniP(i)),β决定了优先经验回放对收敛结果的影响;
9):计算求和树k个节点样本中各个节点样本j的当前奖励值yj,具体方法如下:
Figure FDA0004170732870000061
式中,
Figure FDA0004170732870000062
表示无人机从j步至j+N1步的累计奖励;/>
Figure FDA00041707328700000616
表示无人机在j+N1步时候的位置,S表示无人机飞行区域D×D,γ表示回报折扣率,/>
Figure FDA0004170732870000063
表示目标深度Q′网络对深度Q网络在/>
Figure FDA0004170732870000064
位置选择最优动作v*的评估奖励值;
10):对损失函数
Figure FDA0004170732870000065
执行梯度下降,并更新深度Q网络参数θ;其中ωj表示损失函数权重、/>
Figure FDA0004170732870000066
表示目标Q′网络对Q网络在qj位置选择动作vj的评估奖励值;
11):基于无线电覆盖概率图E,并更新地图神经网络参数ξ;然后进行无人机的模拟试飞行任务:
步骤1:初始化无人机模拟试飞行任务的初始位置
Figure FDA0004170732870000067
其中各参量上方的标号“~”是表示当前状态处于模拟试飞行任务,以区分实际飞行中的参量,此时/>
Figure FDA0004170732870000068
中的/>
Figure FDA0004170732870000069
表示无人机在模拟试飞行任务中此时所经过网格点或走无人机探索的步数为0;设置循环变量
Figure FDA00041707328700000610
表示在模拟试飞行任务中的第1次迭代;
步骤2:同步骤4)-10)处理过程,其中有区别的是在步骤5)中的中断概率由地图神经网络预测输出得到,而地图神经网络的输入参量是无线电覆盖概率图E中的数据;
步骤3:判断无人机是否到达终点、或出界、或达到最大步数Nstep时,执行步骤4;否则,令
Figure FDA00041707328700000611
重复循环到步骤2中;
步骤4:分析迭代次数
Figure FDA00041707328700000612
每迭代循环B次,更新目标深度Q′网络参数θ-→θ,然后到步骤5;
步骤5:若
Figure FDA00041707328700000613
则循环结束;若/>
Figure FDA00041707328700000614
则令/>
Figure FDA00041707328700000615
并返回步骤1中;
12)回到实际试飞行任务中,判断无人机是否到达终点、或出界、或达到最大步数Nstep,若是则执行步骤13);否则,令n=n+1且无人机探索概率ε→εα,并重复循环到步骤4)中;
13)分析迭代次数nepi,每迭代循环B次,更新目标深度Q′网络参数θ-→θ;然后到步骤14);
14)若nepi=Nepi,则循环结束;若nepi<Nepi,则令nepi=nepi+1并返回步骤3)中;
(二)、通过步骤1)-14)的整个过程能够不断完善目标深度Q′网络的参数θ-,因此目标深度Q′网络针对深度Q网络对于无人机在某一位置qn选择动作vn的评估奖励值也逐渐达到最优;此时不再进行实际试飞行,直接通过最终训练完成后的目标深度Q′网络指导无人机从不同的起点飞到不同的终点,期间通过目标深度Q′网络指导飞行动作的选择,使得无人机选择奖励值最大的动作,完成路径规划。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-8任一项所述的无人机路径优化方法。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-8任一项所述的无人机路径优化方法。
CN202310377117.0A 2023-04-11 2023-04-11 一种基于深度强化学习的无人机路径优化方法、存储介质及设备 Pending CN116257089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310377117.0A CN116257089A (zh) 2023-04-11 2023-04-11 一种基于深度强化学习的无人机路径优化方法、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310377117.0A CN116257089A (zh) 2023-04-11 2023-04-11 一种基于深度强化学习的无人机路径优化方法、存储介质及设备

Publications (1)

Publication Number Publication Date
CN116257089A true CN116257089A (zh) 2023-06-13

Family

ID=86679500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310377117.0A Pending CN116257089A (zh) 2023-04-11 2023-04-11 一种基于深度强化学习的无人机路径优化方法、存储介质及设备

Country Status (1)

Country Link
CN (1) CN116257089A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118091537A (zh) * 2024-04-24 2024-05-28 陕西山利科技发展有限责任公司 面向非视距环境下的无人机目标直接定位方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118091537A (zh) * 2024-04-24 2024-05-28 陕西山利科技发展有限责任公司 面向非视距环境下的无人机目标直接定位方法

Similar Documents

Publication Publication Date Title
Challita et al. Deep reinforcement learning for interference-aware path planning of cellular-connected UAVs
Challita et al. Cellular-connected UAVs over 5G: Deep reinforcement learning for interference management
CN111683375B (zh) 一种针对无人机辅助无线蜂窝网络的无人机部署优化方法
Xie et al. Connectivity-aware 3D UAV path design with deep reinforcement learning
CN113258989B (zh) 一种使用强化学习获得无人机中继轨迹的方法
CN113300749A (zh) 基于机器学习赋能的智慧传输波束优化方法
Luo et al. A two-step environment-learning-based method for optimal UAV deployment
Hashimoto et al. SICNN: Spatial interpolation with convolutional neural networks for radio environment mapping
Parada et al. Cell discovery based on historical user's location in mmWave 5G
Nemer et al. A game theoretic approach of deployment a multiple UAVs for optimal coverage
Zhan et al. Tradeoff between age of information and operation time for uav sensing over multi-cell cellular networks
CN116782269A (zh) 基于仿生算法和bp神经网络的无人机轨迹优化方法及系统
Fonseca et al. Adaptive height optimization for cellular-connected UAVs: A deep reinforcement learning approach
CN116546559A (zh) 分布式多目标空地联合轨迹规划和卸载调度方法及系统
CN116257089A (zh) 一种基于深度强化学习的无人机路径优化方法、存储介质及设备
CN114584992B (zh) 一种测控站备选站址获取方法、测控站布设规划方法
Fotouhi Towards intelligent flying base stations in future wireless network
Dandekar et al. Computational electromagnetic simulation of smart antenna systems in urban microcellular environments
Shen et al. Monte Carlo tree search for network planning for next generation mobile communication networks
TWI718016B (zh) 細胞佈建之方法與相關的電腦程式產品
Yang et al. Coverage analysis of heterogeneous cellular networks in urban areas
Zhang et al. Trajectory design for UAV-based inspection system: A deep reinforcement learning approach
Li et al. Path-optimization method for UAV-aided relay broadcast communication system
Wang et al. A distributed 3D UAV placement algorithm for integrated ground-air cellular networks
Chen et al. Planning optimization of the distributed antenna system in high‐speed railway communication network based on improved cuckoo search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination