CN116257089A - 一种基于深度强化学习的无人机路径优化方法、存储介质及设备 - Google Patents
一种基于深度强化学习的无人机路径优化方法、存储介质及设备 Download PDFInfo
- Publication number
- CN116257089A CN116257089A CN202310377117.0A CN202310377117A CN116257089A CN 116257089 A CN116257089 A CN 116257089A CN 202310377117 A CN202310377117 A CN 202310377117A CN 116257089 A CN116257089 A CN 116257089A
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- flight
- probability
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims abstract description 42
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000004891 communication Methods 0.000 claims abstract description 37
- 230000005855 radiation Effects 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 7
- 238000005562 fading Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000001351 cycling effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000005251 gamma ray Effects 0.000 claims description 2
- 230000001413 cellular effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于深度强化学习的无人机路径优化方法、存储介质及设备,包括S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,S2:根据步骤S1的通信模型计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。本申请通过以上方案完成对无人机的飞行路径优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性;同时采用深度强化学习算法提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。
Description
技术领域
本发明涉及蜂窝网络下无人机与基站之间的通信连通性增强技术,属于无线信息传输领域;具体是针对一种基于深度强化学习的无人机路径优化方法、存储介质及设备。
背景技术
近年来,蜂窝网络与无人机结合的通信方式受到广泛关注。首先,蜂窝网络基础设施遍布全球,可提供经济高效的通信链路,减少通信范围的限制。其次,可以降低延迟,提高数据传输速率,补充定位精度。然而蜂窝连接无人机的通信形式也存在一些问题。由于现有的蜂窝网络主要面向地面用户,基站天线通常是朝向地面倾斜的,导致无法保证完善的空中通信覆盖。同时,蜂窝连接的无人机易受到其它非关联基站的严重干扰。为了保证无人机的飞行安全以及任务完成效率,需要利用无人机的可控移动性,对无人机的飞行路径进行优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性。
目前,在路径规划领域广泛使用的DQN算法存在以下问题:样本利用率低,即在回放经验池中进行重采样数据训练,原本的随机采样机制会导致训练样本种类比较单一,进而导致智能体对环境探索率较低,易获取局部最优解,降低训练速度。本发明提出了一种基于深度强化学习的无人机路径优化方法、存储介质及设备,该方法采用优先经验回放机制代替传统的均匀采样,在保证样本多样性的同时提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。
发明内容
本发明针对现有技术中的不足,提供一种基于深度强化学习的无人机路径优化方法、存储介质及设备;通过在保证样本多样性的同时提高了重要样本的利用率,能够获取更精确的回报值,更加有效地对无人机路径进行优化。
为实现上述目的,本发明采用以下技术方案:
一种基于深度强化学习的无人机路径优化方法,包括以下步骤:
S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,其中,
(一)场景模型:
设定无人机飞行区域范围D×D,以及在该范围内的障碍物高度和位置;
定义无人机在时刻t的位置为q(t)=(xt,yt),t∈[0,T],xt∈[0,D],yt∈[0,D],式中xt和yt表示无人机在时刻t位置的x坐标和y坐标;T表示无人机从起点位置至终点位置所用的飞行总时间;
(二)基站天线辐射模型:
设定基站扇区共有M个,并构建出基站天线辐射模型AA(θ,φ),其中基站天线为多阵元均匀线阵;
(三)信号模型:
S2:计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,具体方法如下:
S2.1:根据步骤S1建立的通信模型,分析无人机在时刻t位置从小区m接收到的瞬时信号功率为ym(t)
S2.2:根据ym(t)计算时刻t的信号干扰比SIR(t);
S2.3:根据信号干扰比SIR(t)测量无人机在时刻t所在位置q(t)与每个关联小区b(t)间的通信中断概率Pout(q(t),b(t));
S2.4:根据测量的通信中断概率,确定在q(t)位置的最佳关联小区b(t)*:
S2.5:因此q(t)位置的通信覆盖概率=1-无人机在q(t)位置的中断概率,并将通信覆盖概率值保存到无线电覆盖概率图E中;其中无人机在q(t)位置的中断概率为Pout(q(t)):
S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。
为优化上述技术方案,采取的具体措施还包括:
进一步地,在步骤S1中,基站天线辐射模型中AA(θ,φ)构建过程如下:
AA(θ,φ)=GE,max-min{-[AE,V(θ)+AE,H(φ)],Am}+10log10[1+ρ(|a·wT|2-1)]
式中,θ和φ分别是基站天线的俯仰角和方位角;GE,max是天线阵元在主瓣方向上的最大方向增益,AE,V(θ)和AE,H(φ)分别是天线的垂直和水平辐射图,Am是前后比,ρ为相关系数,a表示幅度向量,w为波束成形向量;
参量AE,V(θ)和AE,H(φ)的具体计算公式为:
式中,θ3dB和φ3dB分别是天线在垂直和水平方向的半功率波束宽度;SLAV是天线的旁瓣电平限制。
式中,dm(q(t))是无人机在q(t)位置与小区m之间的距离;fc是载波频率;h是无人机在q(t)位置时所处的高度。
进一步地,在步骤S2.1中无人机在q(t)位置从小区m接收到的瞬时信号功率为ym(t)具体计算公式为:
式中,Pm是小区m的发射功率;hm(t)是t时刻的信道功率增益;β(q(t))表示在q(t)位置的基站天线增益,是一个随机变量,表示t时刻无人机与小区m之间的小尺度衰落;/>表示无人机在q(t)位置时与小区m之间的大尺度信道功率增益,其中LoS link表示是在视距路径链接下,NLoS link表示是在非视距路径链接下。
进一步地,在步骤S2.2中计算时刻t的信号干扰比SIR(t)的具体内容为:
式中,b(t)表示t时刻无人机的某个关联小区;yb(t)(t)表示t时刻无人机从关联小区b(t)接收到的瞬时信号功率。
进一步地,在步骤S2.3中,计算Pout(q(t),b(t))的具体内容如下:
S2.3.1:定义无人机在q(t)位置与某个关联小区b(t)之间通信的中断概率为Pout(q(t),b(t)):
式中,Pr(·)表示事件发生的概率;γth为设置的阈值,当信号干扰比SIR(t)低于γth时,视为无人机处于通信中断状态;
S2.3.2:将信号干扰比SIR(t)改写为SIR(q(t),b(t),即将变量时刻t改为对应时刻下的无人机位置q(t)、关联小区b(t)、无人机与关联小区b(t)之间小尺度衰落定义中断指示函数为c(q(t),b(t),/>
然后在一定时间内测量无人机与每个关联小区b(t)的信号干扰比SIR值J次,获得该位置无人机与每个关联小区b(t)的中断概率:
进一步地,在步骤S3,所述设定无人机飞行路径的优化目标的具体内容为:
S3.1:构建连续优化目标函数:
s.t.q(0)=qs
q(T)=qf
式中,T表示从无人机从起点到终点的飞行时间;μ是一个非负系数;q(0)表示初始时刻下无人机所在位置;qs代表无人机起始位置;q(T)表示末点时刻下无人机所在位置;qf代表无人机终点位置;
S3.2:将步骤S3.1中对连续优化问题进行离散化处理,将无人机飞行区域划分为一系列相邻的网格点,最终目标函数等价于最小化无人机经过的网格点数N和预期中断概率的加权和:
s.t.q0=qs
qN=qf
式中,qn表示无人机在划分网格中n,(n∈N)点的所在位置;Pout(qn)表示无人机在n点位置时中断概率;q0表示无人机起始点所在位置;qf表示无人机终点所在位置。
进一步地,在步骤S3中,所述基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化具体内容为:
(一)、先让无人机从起点至终点进行实际试飞行,内容如下:
1):设置无人机实际试飞行的最大迭代次数为Nepi、每次迭代中无人机经过网格点的最大数也即称无人机走的最大步数为Nstep,初始化无人机探索概率ε→ε0,设置无人机探索概率衰减率α、无人机到达终点奖励值Rdes、无人机出界飞行区域围D×D的惩罚值Pob、非负系数μ、容量为C的重放经验池D,无线电覆盖概率图E,设置地图神经网络及其参数ξ、深度Q网络及其参数θ、目标深度Q′网络及其参数θ-=θ;设置并初始化经验回放求和树的默认数据结构,并将每个求和树叶子节点的优先级pi初始化为ps,即pi→ps;
2):无人机开始执行实际试飞行任务、设循环变量nepi=1,其表示实际试飞行任务中的第1次迭代;
3):初始化大小为N1的滑窗W、初始化无人机实际试飞行初始位置qn=qs,此时qn中的n=0,表示无人机此时所经过网格点或走无人机探索的步数为0;
4):以ε-greedy策略选择动作vn,具体是以ε的概率在动作空间中随机选择动作,以1-ε的概率选择到最优动作;
5):执行动作vn,得到无人机在下一状态的位置qn+1,通过无线电覆盖概率图E中测量获得的qn+1位置的中断概率Pout(qn+1),设置单步奖励Rn:
Rn=-1-μPout(qn+1)
6):将(qn,vn,Rn,qn+1)存储在滑窗W中;其中当n≥N1时,计算n-N1至n步的累计奖励然后将第n-N1步的位置、动作、n-N1至n步的累计奖励以及第n步位置的数据样本存储到求和树节点中;
7):更新无人机探索的步数n,循环步骤4)-7)得到多个数据样本;
8):从求和树中采样k个节点的样本其中每个样本j被采样的几率为/>pj表示节点样本j的优先级,/>表示求和树所有节点优先级总和,求和树节点样本损失函数权重ωj=(P(j)/miniP(i))-β,β决定了优先经验回放对收敛结果的影响;
9):计算求和树k个节点样本中各个节点样本j的当前奖励值yj,具体方法如下:
式中,表示无人机从j步至j+N1步的累计奖励;/>表示无人机在j+N1步时候的位置,S表示无人机飞行区域D×D,γ表示回报折扣率,/>表示目标深度Q′网络对深度Q网络在qj+N1位置选择最优动作v*的评估奖励值;
11):基于无线电覆盖概率图E,并更新地图神经网络参数ξ;然后进行无人机的模拟试飞行任务:
步骤1:初始化无人机模拟试飞行任务的初始位置其中各参量上方的标号“~”是表示当前状态处于模拟试飞行任务,以区分实际飞行中的参量,此时/>中的/>表示无人机在模拟试飞行任务中此时所经过网格点或走无人机探索的步数为0;设置循环变量/>表示在模拟试飞行任务中的第1次迭代;
步骤2:同步骤4)-10)处理过程,其中有区别的是在步骤5)中的中断概率由地图神经网络预测输出得到,而地图神经网络的输入参量是无线电覆盖概率图E中的数据;
12)回到实际试飞行任务中,判断无人机是否到达终点、或出界、或达到最大步数Nstep,若是则执行步骤13);否则,令n=n+1且无人机探索概率ε→εα,并重复循环到步骤4)中;
13)分析迭代次数nepi,每迭代循环B次,更新目标深度Q′网络参数θ-→θ;然后到步骤14);
14)若nepi=Nepi,则循环结束;若nepi<Nepi,则令nepi=nepi+1并返回步骤3)中;
(二)、通过步骤1)-14)的整个过程能够不断完善目标深度Q′网络的参数θ-,因此目标深度Q′网络针对深度Q网络对于无人机在某一位置qn选择动作vn的评估奖励值也逐渐达到最优;此时不再进行实际试飞行,直接通过最终训练完成后的目标深度Q′网络指导无人机从不同的起点飞到不同的终点,期间通过目标深度Q′网络指导飞行动作的选择,使得无人机选择奖励值最大的动作,完成路径规划。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行如上述任一项所述的无人机路径优化方法。
一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如上述任一项所述的无人机路径优化方法。
本发明的有益效果是:
1、本申请对无人机的飞行路径进行优化,避开弱覆盖区域,从而保证无人机与基站之间的连通性。
2、本发明提出了一种基于深度强化学习的无人机路径优化方法、存储介质及设备;通过使用了基于求和树的优先经验回放机制,打破了均匀采样,赋予学习效率高的样本以更大的采样权重。然后本申请方案在保证样本多样性的同时提高了重要样本的利用率,获取更精确的回报值,更加有效地对无人机路径进行优化。
附图说明
图1是本发明无人机与蜂窝网络基站通信场景示意图。
图2是本发明基于深度强化学习的无人机路径优化流程示意图。
图3是本发明一种具体案例产生的无人机飞行路径示意图。
图4是本发明一种具体案例无人机任务完成时间与其它方法对比示意图。
具体实施方式
下面具体通过附图和实施例来说明本发明基于深度强化学习的无人机路径优化方法、存储介质及设备。
本案例采用密集城市区域蜂窝网络场景,具体仿真参数如表1所示。
表1仿真参数
D | 2 | M | 21 | fc | 2GHz | Dtol | 20m |
αbd | 0.3 | hbs | 25m | h | 100m | ε0 | 0.5 |
βbd | 300 | GE,max | 3dBi | Pm | 0.1W | α | 0.998 |
σbd | 50 | Am | 30dB | γth | 0dB | Rdes | 200 |
(xs,ys) | 随机值 | ρ | 1 | J | 1000 | Pob | 10000 |
(xf,yf) | (1400,1600) | θ3dB | 65° | μ | 40 | C | 100000 |
V | 8 | φ3dB | 65° | Nepi | 5000 | N1 | 30 |
X | 7 | SLAV | 30dB | Nstep | 300 | γ | 0.9999 |
本实施例包括以下步骤:
第一步:建立无人机与蜂窝网络的通信模型,包括场景模型、天线模型以及信号模型,具体步骤如下:
1)如图1所示,针对密集城市区域建立无人机与蜂窝网络通信的场景模型。具体包括
步骤一:考虑飞行区域范围为D×D km2,根据国际电信联盟建议的统计模型来生成建筑物的高度和位置。该模型涉及三个参数:αbd、βbd和γbd。其中,αbd为建筑物覆盖面积与总土地面积的比值;βbd为单位面积内建筑物的平均数量;γbd值决定了建筑物的高度分布,即服从均值为σbd的瑞利分布;
步骤二:定义无人机在时刻t的位置为q(t)=(xt,yt),t∈[0,T],xt∈[0,D],yt∈[0,D],xt和yt表示无人机的x坐标和y坐标。qs=(xs,ys)以及qf=(xf,yf)分别代表起始位置和终点,无人机飞行速度为Vm/s。
2)计算基站天线辐射模型
本场景设置有X=7个基站,基站位置分别为(1000,1000),(1577.4,1333),(1000,1666.7),(422.6,1333.3),(422.6,666.7),(1000,333.3),(1577.4,666.7),基站扇区共有21个,天线为8阵元均匀线阵,基站具有相同高度hbs=25m,天线的阵列辐射方向图建模为
AA(θ,φ)=3-min{-[AE,V(θ)+AE,H(φ)],30}+10log10[1+(|a·wT|2-1)]
其中a表示幅度向量,w为波束成形向量,AE,V(θ)和AE,H(φ)分别是天线的垂直和水平辐射图
3)计算无人机在q(t)位置时与小区m之间的路径损耗模型,具体方法如下:
其中,dm(q(t))是无人机在q(t)位置时与小区m之间的距离。
第二步:计算各个位置的中断概率,构建无线电覆盖概率图,具体方法如下:
1)计算无人机在q(t)位置从小区m接收到的瞬时信号功率为
其中,hm(t)是信道功率增益,β(q(t))表示在q(t)位置时基站的天线增益, 是一个随机变量,表示t时刻无人机与小区m之间的小尺度衰落,表示在q(t)位置无人机与小区m之间的大尺度信道功率增益,确定方法如下:/>
2)计算时刻t的信号干扰比
其中,b(t)表示时刻t无人机的关联小区,yb(t)(t)表示t时刻从关联小区b(t)接收到的瞬时信号功率。
3)根据前述中断指示函数,测量每个小区的SIR值1000次,计算该位置与每个小区的中断概率
4)根据测量的中断概率,确定最佳关联基站
5)无人机在q(t)位置的通信覆盖概率=1-中断概率,将覆盖概率值保存到无线电覆盖概率图中:
第三步:基于以上分析,构建需要优化的目标函数,具体方法如下:
1)构建连续优化目标函数
s.t.q(0)=qs
q(T)=qf
其中,T表示从起点到终点的飞行时间,μ是一个非负系数,值越高,越关注无人机的连通性,代价是无人机轨迹可能更加迂回。
2)对连续优化问题进行离散化处理,将无人机飞行区域划分为一系列相邻的网格点,最终目标等价于最小化无人机经过的网格点数N和预期中断概率的加权和:
s.t.q0=qs
qN=qf
第四步:如图2所示,利用深度强化学习算法对无人机路径进行优化,具体步骤如下:
1)根据表1中的参数,对变量进行初始化处理;其中Dtol表示为容错距离;
2)无人机开始执行飞行任务,表示迭代次数的循环变量nepi=1;
3)初始化大小为30的滑窗W,假设实际初始位置qs=(1000,1000),无人机探索步数n=0;
4)以ε-greedy策略选择动作,假设选定动作vn=(0,10);
5)执行动作,得到下一状态qn+1=(1000,1010),测量获得当前中断概率Pout(qn+1),计算单步奖励Rn=-1-40Pout(qn+1);
6)将(qn,vn,Rn,qn+1)存储在滑窗W中,当n≥30时,计算R(n-30):n,并将(qn-30,vn-30,R(n-30):n,qn)存储到求和树中;循环步骤4)-6)得到多个样本;
7)从求和树中采样32个样本(qj,vj,Rj:j+30,qj+30),...,(qj+32,vj+32,Rj+32:j+30+32,qj+30+32),每个样本被采样的机率基于pj表示样本j的优先级,/>表示求和树所有节点优先级总和。计算损失函数权重ωj=(P(j)/miniP(i))-0.4;
8)计算各个样本的当前奖励值,具体方法如下:
10)将测量的中断概率数据添加到E中,并更新地图网络参数ξ;
步骤二:同4)-10),不同的是,此时5)的中断概率由地图神经网络模型预测得到;
步骤四:每循环5次,设置目标Q′网络参数θ-→θ;
12)当到达终点、出界或达到最大步数时,执行13);否则,令n=n+1,ε→0.998ε并返回4);
13)每循环B次,设置目标Q′网络参数θ-→θ;
14)若nepi=5000,则循环结束;若nepi<5000,则令nepi=nepi+1并返回3)。
本实施例得到的效果可以通过图3-图4仿真实验中所获得的具体数据进行进一步说明。可以看到:1)图3给出了最后100集无人机从随机起点到终点的路径,从图中可以看出,无人机避开了弱覆盖区域,沿着通信中断概率更高的路径进行飞行;2)图4给出了本发明方法与其它算法在飞行时间、通信中断时间以及两者加权和的对比结果,可以看出本发明可以用最少的加权和时间完成任务,达到预期目的。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (10)
1.一种基于深度强化学习的无人机路径优化方法,其特征在于,包括以下步骤:
S1:建立无人机与无线电网络的通信模型,包括场景模型、基站天线辐射模型以及信号模型,其中,
(一)场景模型:
设定无人机飞行区域范围D×D,以及在该范围内的障碍物高度和位置;
定义无人机在时刻t的位置为q(t)=(xt,yt),t∈[0,T],xt∈[0,D],yt∈[0,D],式中xt和yt表示无人机在时刻t位置的x坐标和y坐标;T表示无人机从起点位置至终点位置所用的飞行总时间;
(二)基站天线辐射模型:
设定基站扇区共有M个,并构建出基站天线辐射模型AA(θ,φ),其中基站天线为多阵元均匀线阵;
(三)信号模型:
S2:计算无人机在不同位置的信号中断概率,以此构建无线电覆盖概率图E,具体方法如下:
S2.1:根据步骤S1建立的通信模型,分析无人机在时刻t位置从小区m接收到的瞬时信号功率为ym(t)
S2.2:根据ym(t)计算时刻t的信号干扰比SIR(t);
S2.3:根据信号干扰比SIR(t)测量无人机在时刻t所在位置q(t)与每个关联小区b(t)间的通信中断概率Pout(q(t),b(t));
S2.4:根据测量的通信中断概率,确定在q(t)位置的最佳关联小区b(t)*:
S2.5:因此q(t)位置的通信覆盖概率=1-无人机在q(t)位置的中断概率,并将通信覆盖概率值保存到无线电覆盖概率图E中;其中无人机在q(t)位置的中断概率为Pout(q(t)):
S3:综合考虑无人机飞行时间和不同位置的通信覆盖概率设定无人机飞行路径的优化目标;基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化。
2.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S1中,基站天线辐射模型中AA(θ,φ)构建过程如下:
AA(θ,φ)=GE,max-min{-[AE,V(θ)+AE,H(φ)],Am}+10log10[1+ρ(|a·wT|2-1)]
式中,θ和φ分别是基站天线的俯仰角和方位角;GE,max是天线阵元在主瓣方向上的最大方向增益,AE,V(θ)和AE,H(φ)分别是天线的垂直和水平辐射图,Am是前后比,ρ为相关系数,a表示幅度向量,w为波束成形向量;
参量AE,V(θ)和AE,H(φ)的具体计算公式为:
式中,θ3dB和φ3dB分别是天线在垂直和水平方向的半功率波束宽度;SLAV是天线的旁瓣电平限制。
6.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S2.3中,计算Pout(q(t),b(t))的具体内容如下:
S2.3.1:定义无人机在q(t)位置与某个关联小区b(t)之间通信的中断概率为Pout(q(t),b(t)):
式中,Pr(·)表示事件发生的概率;γth为设置的阈值,当信号干扰比SIR(t)低于γth时,视为无人机处于通信中断状态;
然后在一定时间内测量无人机与每个关联小区b(t)的信号干扰比SIR值J次,获得该位置无人机与每个关联小区b(t)的中断概率:
7.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S3,所述设定无人机飞行路径的优化目标的具体内容为:
S3.1:构建连续优化目标函数:
s.t.q(0)=qs
q(T)=qf
式中,T表示从无人机从起点到终点的飞行时间;μ是一个非负系数;q(0)表示初始时刻下无人机所在位置;qs代表无人机起始位置;q(T)表示末点时刻下无人机所在位置;qf代表无人机终点位置;
S3.2:将步骤S3.1中对连续优化问题进行离散化处理,将无人机飞行区域划分为一系列相邻的网格点,最终目标函数等价于最小化无人机经过的网格点数N和预期中断概率的加权和:
s.t.q0=qs
qN=qf
式中,qn表示无人机在划分网格中n,(n∈N)点的所在位置;Pout(qn)表示无人机在n点位置时中断概率;q0表示无人机起始点所在位置;qf表示无人机终点所在位置。
8.根据权利要求1所述的一种基于深度强化学习的无人机路径优化方法,其特征在于,在步骤S3中,所述基于优化目标,利用深度强化学习算法对无人机飞行路径进行优化具体内容为:
(一)、先让无人机从起点至终点进行实际试飞行,内容如下:
1):设置无人机实际试飞行的最大迭代次数为Nepi、每次迭代中无人机经过网格点的最大数也即称无人机走的最大步数为Nstep,初始化无人机探索概率ε→ε0,设置无人机探索概率衰减率α、无人机到达终点奖励值Rdes、无人机出界飞行区域围D×D的惩罚值Pob、非负系数μ、容量为C的重放经验池D,无线电覆盖概率图E,设置地图神经网络及其参数ξ、深度Q网络及其参数θ、目标深度Q′网络及其参数θ-=θ;设置并初始化经验回放求和树的默认数据结构,并将每个求和树叶子节点的优先级pi初始化为ps,即pi→ps;
2):无人机开始执行实际试飞行任务、设循环变量nepi=1,其表示实际试飞行任务中的第1次迭代;
3):初始化大小为N1的滑窗W、初始化无人机实际试飞行初始位置qn=qs,此时qn中的n=0,表示无人机此时所经过网格点或走无人机探索的步数为0;
4):以ε-greedy策略选择动作vn,具体是以ε的概率在动作空间中随机选择动作,以1-ε的概率选择到最优动作;
5):执行动作vn,得到无人机在下一状态的位置qn+1,通过无线电覆盖概率图E中测量获得的qn+1位置的中断概率Pout(qn+1),设置单步奖励Rn:
Rn=-1-μPout(qn+1)
6):将(qn,vn,Rn,qn+1)存储在滑窗W中;其中当n≥N1时,计算n-N1至n步的累计奖励然后将第n-N1步的位置、动作、n-N1至n步的累计奖励以及第n步位置的数据样本存储到求和树节点中;
7):更新无人机探索的步数n,循环步骤4)-7)得到多个数据样本;
8):从求和树中采样k个节点的样本其中每个样本j被采样的几率为/>pj表示节点样本j的优先级,/>表示求和树所有节点优先级总和,求和树节点样本损失函数权重ωj=(P(j)/miniP(i))-β,β决定了优先经验回放对收敛结果的影响;
9):计算求和树k个节点样本中各个节点样本j的当前奖励值yj,具体方法如下:
式中,表示无人机从j步至j+N1步的累计奖励;/>表示无人机在j+N1步时候的位置,S表示无人机飞行区域D×D,γ表示回报折扣率,/>表示目标深度Q′网络对深度Q网络在/>位置选择最优动作v*的评估奖励值;
11):基于无线电覆盖概率图E,并更新地图神经网络参数ξ;然后进行无人机的模拟试飞行任务:
步骤1:初始化无人机模拟试飞行任务的初始位置其中各参量上方的标号“~”是表示当前状态处于模拟试飞行任务,以区分实际飞行中的参量,此时/>中的/>表示无人机在模拟试飞行任务中此时所经过网格点或走无人机探索的步数为0;设置循环变量表示在模拟试飞行任务中的第1次迭代;
步骤2:同步骤4)-10)处理过程,其中有区别的是在步骤5)中的中断概率由地图神经网络预测输出得到,而地图神经网络的输入参量是无线电覆盖概率图E中的数据;
12)回到实际试飞行任务中,判断无人机是否到达终点、或出界、或达到最大步数Nstep,若是则执行步骤13);否则,令n=n+1且无人机探索概率ε→εα,并重复循环到步骤4)中;
13)分析迭代次数nepi,每迭代循环B次,更新目标深度Q′网络参数θ-→θ;然后到步骤14);
14)若nepi=Nepi,则循环结束;若nepi<Nepi,则令nepi=nepi+1并返回步骤3)中;
(二)、通过步骤1)-14)的整个过程能够不断完善目标深度Q′网络的参数θ-,因此目标深度Q′网络针对深度Q网络对于无人机在某一位置qn选择动作vn的评估奖励值也逐渐达到最优;此时不再进行实际试飞行,直接通过最终训练完成后的目标深度Q′网络指导无人机从不同的起点飞到不同的终点,期间通过目标深度Q′网络指导飞行动作的选择,使得无人机选择奖励值最大的动作,完成路径规划。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序使计算机执行如权利要求1-8任一项所述的无人机路径优化方法。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如权利要求1-8任一项所述的无人机路径优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310377117.0A CN116257089A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度强化学习的无人机路径优化方法、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310377117.0A CN116257089A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度强化学习的无人机路径优化方法、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116257089A true CN116257089A (zh) | 2023-06-13 |
Family
ID=86679500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310377117.0A Pending CN116257089A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度强化学习的无人机路径优化方法、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116257089A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118091537A (zh) * | 2024-04-24 | 2024-05-28 | 陕西山利科技发展有限责任公司 | 面向非视距环境下的无人机目标直接定位方法 |
-
2023
- 2023-04-11 CN CN202310377117.0A patent/CN116257089A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118091537A (zh) * | 2024-04-24 | 2024-05-28 | 陕西山利科技发展有限责任公司 | 面向非视距环境下的无人机目标直接定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Challita et al. | Deep reinforcement learning for interference-aware path planning of cellular-connected UAVs | |
Challita et al. | Cellular-connected UAVs over 5G: Deep reinforcement learning for interference management | |
CN111683375B (zh) | 一种针对无人机辅助无线蜂窝网络的无人机部署优化方法 | |
Xie et al. | Connectivity-aware 3D UAV path design with deep reinforcement learning | |
CN113258989B (zh) | 一种使用强化学习获得无人机中继轨迹的方法 | |
CN113300749A (zh) | 基于机器学习赋能的智慧传输波束优化方法 | |
Luo et al. | A two-step environment-learning-based method for optimal UAV deployment | |
Hashimoto et al. | SICNN: Spatial interpolation with convolutional neural networks for radio environment mapping | |
Parada et al. | Cell discovery based on historical user's location in mmWave 5G | |
Nemer et al. | A game theoretic approach of deployment a multiple UAVs for optimal coverage | |
Zhan et al. | Tradeoff between age of information and operation time for uav sensing over multi-cell cellular networks | |
CN116782269A (zh) | 基于仿生算法和bp神经网络的无人机轨迹优化方法及系统 | |
Fonseca et al. | Adaptive height optimization for cellular-connected UAVs: A deep reinforcement learning approach | |
CN116546559A (zh) | 分布式多目标空地联合轨迹规划和卸载调度方法及系统 | |
CN116257089A (zh) | 一种基于深度强化学习的无人机路径优化方法、存储介质及设备 | |
CN114584992B (zh) | 一种测控站备选站址获取方法、测控站布设规划方法 | |
Fotouhi | Towards intelligent flying base stations in future wireless network | |
Dandekar et al. | Computational electromagnetic simulation of smart antenna systems in urban microcellular environments | |
Shen et al. | Monte Carlo tree search for network planning for next generation mobile communication networks | |
TWI718016B (zh) | 細胞佈建之方法與相關的電腦程式產品 | |
Yang et al. | Coverage analysis of heterogeneous cellular networks in urban areas | |
Zhang et al. | Trajectory design for UAV-based inspection system: A deep reinforcement learning approach | |
Li et al. | Path-optimization method for UAV-aided relay broadcast communication system | |
Wang et al. | A distributed 3D UAV placement algorithm for integrated ground-air cellular networks | |
Chen et al. | Planning optimization of the distributed antenna system in high‐speed railway communication network based on improved cuckoo search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |