CN113258989B - 一种使用强化学习获得无人机中继轨迹的方法 - Google Patents
一种使用强化学习获得无人机中继轨迹的方法 Download PDFInfo
- Publication number
- CN113258989B CN113258989B CN202110532993.7A CN202110532993A CN113258989B CN 113258989 B CN113258989 B CN 113258989B CN 202110532993 A CN202110532993 A CN 202110532993A CN 113258989 B CN113258989 B CN 113258989B
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- action
- state
- epsilon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002787 reinforcement Effects 0.000 title claims abstract description 13
- 238000013461 design Methods 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 12
- 230000001413 cellular effect Effects 0.000 claims abstract description 10
- 238000005265 energy consumption Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 63
- 230000006870 function Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 6
- 235000001892 vitamin D2 Nutrition 0.000 claims description 4
- 230000001965 increasing effect Effects 0.000 claims description 3
- 238000000137 annealing Methods 0.000 claims description 2
- 230000005855 radiation Effects 0.000 abstract description 17
- 230000008569 process Effects 0.000 abstract description 10
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W40/00—Communication routing or communication path finding
- H04W40/02—Communication route or path selection, e.g. power-based or shortest path routing
- H04W40/04—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
- H04W40/10—Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. Transmission Power Control [TPC] or power classes
- H04W52/04—Transmission power control [TPC]
- H04W52/30—Transmission power control [TPC] using constraints in the total amount of available transmission power
- H04W52/34—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
- H04W52/346—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开了一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,输入无人机起始位置,无人机电池最大容量,最大回合数,折扣因子,学习率,动作利用率,采用Q学习设计能量受限的无人机轨迹。本发明综合考虑基站的天线辐射模式、回程约束、无人机能量消耗,建立了一个有实际意义的无人机电池能量受限的轨迹优化问题,分析待解决的轨迹设计问题,将无人机轨迹设计问题转化为离散时间决策过程并转用Q学习解决问题,能设计无人机最佳轨迹,充分利用无人机电池能量带来最大用户频谱效率的提升。
Description
技术领域
本发明属于移动通信技术领域,尤其涉及一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法。
背景技术
现有的蜂窝网络通常通过调整基站天线参数来优化覆盖范围和减少干扰,然而仅依靠传统网络架构和设计方案很难实质性解决通信系统所存在的问题。新兴的解决方案是采用无人机辅助网络的方式,通过控制无人机的运动,可以利用无人机高移动性,灵活部署以及更高概率与地面用户和基站建立视距通信极大地改善系统性能。
当前在设计无人机轨迹辅助网络通信解决干扰、提高能效时,并没有综合考虑天线辐射、回路限制以及无人机有限电池容量的影响,无法投入实际。
鉴于无人机的多功能性和可操作性,基于人工智能的无人机辅助解决方案能够显著增强下一代无线网络。考虑到无人机机载电池的有限性,无人机的飞行时间是一项重要的考虑因素。一种思路是一些研究提出的通过激光束的单色性和方向性来设计无人机无线充电模型或无人机替换策略,但通常解决方案成本较高、更复杂且需要定期监控无人机电量消耗,当前主流思路是如何高效的利用无人机有限的电量。
本发明在综合考虑回程约束,天线辐射和无人机电池能耗影响同时确保无人机电池有足够的能量返回到原始点充电的实际意义条件下,提出了一种利用强化学习方法来设计无人机最佳轨迹,充分利用无人机电池能量以实现其一个工作周期最大化提升用户频谱效率,将无人机连续时间轨迹转化为离散时间马尔可夫决策过程。
发明内容
本发明目的在于提供一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,以解决无法确保无人机电池有足够的能量返回到原始点充电,用户频谱效率低的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,其特征在于,输入无人机起始位置,无人机电池最大容量,最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε;采用Q学习设计能量受限的无人机轨迹,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,,即随着训练回合的增加ε逐渐增加至1,以充分利用训练记录的状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
ri=effchange-Ι1p1+Ι2p2
上式中effchange代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励;这里,I是指示函数,即事件成立时返回1,否则为0;I1指示执行动作后无人机是否违反边界限制和电量限制,p1是无人机违反约束事件(边界和电量限制)的惩罚参数,即当执行动作后无人机违反边界限制和电量限制时,奖励函数减去较大惩罚因子p1;I2为执行动作后无人机返回起始点且剩余电量为0的指示,p2为激励无人机返回起始点的奖励参数。
步骤8、按照下列公式更新状态价值表:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)];
采用时序差分方式更新更新状态价值表,直接使用下一状态s′当前对应最大状态动作值maxa′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例。
步骤9、无人机更新状态(包括当前位置和剩余电量),每个时隙i消耗能量分为悬停消耗能量Ehover和水平面飞行消耗能量Emove两种;
当剩余电量E(i)≤0时结束本回合。
本发明的一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法具有以下优点:
在下行链路蜂窝网络中,综合考虑基站的天线辐射模式、回程约束、无人机能量消耗,建立了一个有实际意义的无人机电池能量受限(需返回起始点充电)的轨迹优化问题,分析待解决的轨迹设计问题,将无人机轨迹设计问题转化为离散时间决策过程并转用Q-learning解决问题,能设计无人机最佳轨迹,充分利用无人机电池能量带来最大用户频谱效率的提升。
附图说明
图1为本发明的比较同样充分利用有点电池容量并返回起始点的无人机中继轨迹频谱效率增益对比结构示意图;
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法做进一步详细的描述。
设计无人机中继轨迹时主要包括以下影响因素:
1、路径损失
(1)、基站到用户路径损失
考虑采用适用于基站高度不变化的Okumura-Hata(OHPLM)路径损耗模型,dk,m,t表示在时刻t基站m与用户k间的欧氏距离。用户k在时刻t观察到的从基站m的路径损失(单位为dB)可表示为:
ξk,m(t)=A+Blog10(dk,m,t)+C
在郊区环境中,参数A,B和C的计算公式为:
A=69.55+26.16log10(fc)-13.82log10(hbs)-a(hue)
B=44.9-6.55log10(hbs)
C=-2log10(fc/28)2-5.4
校正因子a(hue)定义为:a(hue)==[1.1log10(fc)-0.7]hue-1.56log10(fc)-0.8
这里,fc表示载波频率,hbs和hue分别表示基站和用户高度。因为基站高度和用户高度不随时间变化,所以参数A,B,C始终是常数。
(2)无人机到用户路径损失
考虑采用视距通信(LoS)和非视距通信(NLoS)混合传播模型(MPLM),因为无人机飞行在空中,有更高概率获得LoS信道。若用zk,u,t表示在时刻t用户k与无人机u间的水平距离,根据相关研究,无人机到用户视距通信概率可表示为:
huav表示无人机高度;
δh=huav-hue表示无人机高度与用户高度的差值;
用户k在时间t接收到无人机的路径损耗(单位为dB)可表示为:
αL和αN表示视距通信和非视距通信的路径损耗函数;PUAV表示无人机发射功率;τL(zk,u,t)表示上文计算的无人机到用户的视距通信概率;τN(zk,u,t)=1-τL(zk,u,t)表示非视距通信概率;dk,u,t表示用户k在时刻t与无人机间的欧氏距离。
(3)基站到无人机路径损失
考虑3GPP标准中指定的视距信道模型模拟基站到无人机的路径损失。因为无人机高度在40米到300m,所以获得视距通信信道的概率为1.若用dm,u,t表示时刻t无人机u与基站m间的欧氏距离,则无人机与基站m间的瞬时路径损耗(单位为dB)可表示为:
2、天线辐射模型
使用3GPP标准天线辐射模型来表征基站的天线辐射。根据该模型,每个基站分为三个扇区,并且每个扇区都配备有八个交叉极化天线(±45°双极化天线),放置在均匀线性阵列上。这些天线元件模式中的每一个都提供高指向性,主瓣方向的最大增益Gmax约为8dBi,它们共同形成天线阵列,向转向方向提供高增益。
(1)元素辐射模型
每个交叉极化天线包含水平辐射模型AE,H(φ′)和垂直辐射模型AE,V(θ′)。
φ′3dB和θ′3dB都是指具有相同角度65°的3dB波束宽度。Am表示前后比(front-backratio),SLAV表示旁瓣电平限制,通过将每个元素的垂直辐射方向图和水平辐射方向图组合在一起,计算出每个角度(θ′,φ′)的天线元素增益为
AE(θ′,φ′)=Gmax-min{-[AE,H(φ′)+[AE,V(θ′)],Am}
这里,Gmax表示天线元素主瓣方向最大增益;
(2)阵列辐射模型
天线阵列的辐射方向图AA(θ′,φ′)显示从天线阵列向转向方向(θ′,φ′)辐射了多少功率,阵列辐射模型可表示为:
AA(θ′,φ′)=AE(θ′,φ′)+AF(θ′,φ′,n)
AE(θ′,φ′)表示天线元素在(θ′,φ′)方向的元素辐射模型,AF(φ′,θ′,n)是具有n个天线的阵列因子,可表示为:
AF(φ′,θ′,n)=10log10[1+ρ(|a·wT|2-1)]
包含主瓣转向方向的波束成形矢量w可表示为,
3、回路限制
无人机中继需要始终与核心网络保持安全可靠的连接,以实现可靠的通信。另一方面,当无人机在下行链路中充当基站时,无人机必须通过回程链路从核心网络收集数据。因此,将无人机视为下行链路中基站和用户终端之间的中继,并研究网络性能。计算无人机到用户链路和基站到无人机链路的最小值作为用户k信噪比γk:
γk=max{min{γbs-uav,γuav-ue},γbs-ue}.
γbs-uav表示基站到用户信噪比;
γuav-ue表示无人机到用户信噪比;
γbs-ue表示基站到用户信噪比。
4、电量消耗模型
本发明在设计最佳轨迹时,将无人机连续时间轨迹设计问题转化为离散时间马尔可夫决策过程,即通过Q学习为每个间隔找到累积奖励最大的动作。无人机在时隙n的速度可表示为:v[n]=[vx[n],vy[n],vz[n]],vx[n],vy[n],vz[n]分别表示速度v[n]在x轴,y轴和z轴的分量。
时隙n中无人机水平飞行的感应功率可表示为:
W=mg表示无人机的重量,g表示重力加速度,ρ表示空气密度,A是无人机转片的总面积,
时隙n中垂直飞行的功耗建模为Pvertical[n]=Wvz[n]
总而言之,可以将n时隙中的无人机的空气动力消耗建模为:
查阅相关参考文献,无人机作为中继消耗的功率Prelay[n]与用于无人机飞行或悬停的功率相比可以忽略不计(相差100倍以上)。同时,由于考虑场景下无人机在同一水平面运动,所以功率消耗主要考虑悬停和水平飞行功率。
本发明利用强化学习,在综合考虑路径损失、天线辐射、回路限制、无人机电量消耗情况下获得受限于有限电池容量需返回起始点充电的情况下能为网络性能(频谱效率)带来最大提升的无人机中继的轨迹。
无人机起点Ls=[xs,ys,zs],终点Lf=[xf,yf,zf]=[xs,ys,zs],即返回起始点。
无人机在时刻t的坐标表示为r(t)=[x(t),y(t),z(t)]T∈R3×1
考虑干扰受限的下行蜂窝网络的6GHz以下频段,即与干扰功率相比,接收机处的热噪声功率可以忽略不计。我们还假设基站和无人机共享公共的传输带宽,并且每一个基站都使用全缓冲流量模型。在所有下行链路传输中都考虑了循环调度算法,还假定接收机可以整合由于无人机的移动性引起的多普勒效应。
Pbs,Puav分别表示基站和无人机发射功率,ξk,m(t)表示基站m到用户路径损失,ξk,u(t)表示无人机到用户k路径损失。
在每个时刻t,用户或无人机连接到提供最佳的信噪比的用户或无人机。
假设采用循环调度,根据香农定理可以获得用户k在时刻t的频谱效率:
网络在时间t的瞬时总频谱效率可以表示为:
mk表示用户k的权重,得以在后续仿真方案中区分质心和中心。
优化问题如下:
C1:Ls=[xs,ys,zs]
C2:Lf=[xf,yf,zf]
C3:Ls=Lf
C1,C2分别描述无人机出发位置和结束位置,由于无人机需要返回起始点充电,C3描述了无人机的初始位置和结束位置相同,即,Ls=[x_s,y_s,z_s]=Lf。C4表示无人机有足够的电量返回到初始位置以进行充电,任意时刻无人机剩余电量不小于0。我们的目标是找到最佳轨迹,在保证能飞回原点的前提下最大化提升网络性能。解法如下:
Q-learning(Watkins,1989)是强化学习算法中的一种基于值的算法,该算法的主要思想是建立状态和动作的状态价值表来存储状态动作值,然后选择能够获得最大值的动作,根据Q值获利。这是让智能体学习如何在马尔科夫决策过程中学习最佳行为的一种简单方法,相当于一种动态编程的增量方法,其施加了有限的计算需求,其工作原理是通过不断改进其对特定行为的评估来工作。只要在所有状态下重复采样所有动作并且离散地表示动作值,它就会以1的概率覆盖到最佳动作值。
Q学习的主要优点是它使用时差方法TD(结合了蒙特卡罗和动态规划)来学习离线(离线策略),并使用伯努利方程解决了马尔可夫过程的最优策略。当我们开始探索环境时,通过不断更新表中的Q值,Q函数为我们提供了越来越好的逼近度。完成训练后,我们将得到一个完美的Q形式,希望只要无人机根据当前状态找到对应的行,并选择具有较大效用值的动作作为当前帧的动作即可。
为解决上述技术问题,本发明结合Q-learning获得无人机中继最佳轨迹:将待仿真区域以100m为步长划分,将目标函数离散化(时间步长δt),将其构造为离散时间决策过程的最优决策问题,并使用强化学习方法来找到此离散时间决策过程的最优决策问题。
在每个间隔内,将无人机的位置视为是恒定的。在时间间隔i,根据此时间间隔无人机的位置获得用户频谱效率Rk(i),写出离散时间决策过程状态更新如下所示:
ri+1=ri+f(i,ri,ui)
ri=[xi,yi,E(i)]T表示无人机在时隙i的状态,(xi,yi)表示时隙i时结束时无人机的坐标,E(i)表示时隙i结束时无人机剩余电量;
ui=[vi,φi]代表控制动作;vi表示速度大小,φi表示水平面方位角,两者结合用来表示无人机运动方向;
即在每一状态,无人机可以选择悬停或水平面45°为间隔的8个方向运动。
通过执行相应动作,无人机将转移到下一状态。从初始状态开始,可以通过将当前状态与当前状态相加来计算后续状态。f(i,ri,ui)表示执行动作后无人机位置和剩余电量的变化量。
无人机初始状态可表示为r0=[xs,ys,Bmax],Ei表示时间间隔i无人机消耗的电量(分为悬停和水平运动)。
当无人机到达最终状态时,任务结束。通过使用Q-learning,我们的目标是找到最佳决策序列,以找寻单个工作周期内能最大化提升用户平均频谱效率的无人机轨迹。
由于无人机电池容量有限,其不可能始终充当中继,本发明考虑如何设计无人机轨迹以在充分考虑天线辐射模型、回路限制、无人机运动模型实现无人机一个工作周期内最大化提升系统用户频谱效率。
输入无人机起始位置(也是结束位置),无人机电池最大容量,最大回合数(episode_max),折扣因子γ,学习率α,动作利用率ε。
采用Q学习(Q-learning)设计能量受限的最佳无人机轨迹包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,,即随着训练回合的增加ε逐渐增加至1,以充分利用训练记录的状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
ri=effchange-Ι1p1+Ι2p2
上式中effchange代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励;这里,I是指示函数,即事件成立时返回1,否则为0;I1指示执行动作后无人机是否违反边界限制和电量限制,p1是无人机违反约束事件(边界和电量限制)的惩罚参数,即当执行动作后无人机违反边界限制和电量限制时,奖励函数减去较大惩罚因子p1;I2为执行动作后无人机返回起始点且剩余电量为0的指示,p2为激励无人机返回起始点的奖励参数。
步骤8、按照下列公式更新状态价值表:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)];
采用时序差分方式更新状态价值表,直接使用下一状态s′当前对应最大状态动作值maxa′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例。
步骤9、无人机更新状态(包括当前位置和剩余电量),每个时隙i消耗能量分为悬停消耗能量Ehover和水平面飞行消耗能量Emove两种;
当E(i)≤0时结束本回合。
为了比较性能,我们将Q-learning学得的无人机中继轨迹与以下几种充分利用无人机电容量并返回起始点的无人机飞行方案比较:
1、随机运动轨迹:每次无人机从9种动作中随机选择一种,并保证有足够电量能够返回起始点;
2、固定轨迹:从起点出发,充分利用无人机电量以固定的圆形轨迹或矩形轨迹飞行并返回起始点;
3、定向悬停:无人机定向飞向所有用户的中心或重心(区别在于用户的不同权重)悬停充当中继,并保证有足够电量能够返回起始点。
如图1所示,相较于同样充分利用无人机电池容量并返回起始点的无人机轨迹,本发明采用Q-learning获得的无人机中继轨迹可以获得更高的用户频谱效率提升。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。
Claims (1)
1.一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,其特征在于,输入无人机起始位置,无人机电池最大容量,最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε;采用Q学习设计能量受限的无人机轨迹,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,即随着训练回合的增加ε逐渐增加至1,以利用训练记录状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
ri=effchange-Ι1p1+Ι2p2
上式中effchange代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励;I是指示函数,即事件成立时返回1,否则为0;即执行动作后无人机违反边界限制和电量限制时I1为1,p1是无人机违反约束事件的惩罚参数,即当执行动作后无人机违反边界限制和电量限制时,奖励函数减去惩罚因子p1;当执行动作后无人机返回起始点且剩余电量为0时I2为1,p2为激励无人机返回起始点的奖励因子;
步骤8、按照下列公式更新状态价值表:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)];
采用时序差分方式更新状态价值表,直接使用下一状态s′当前对应最大状态动作值maxa′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例;
步骤9、无人机更新状态,包括当前位置和剩余电量,每个时隙i消耗能量分为悬停消耗能量Ehover和水平面飞行消耗能量Emove两种;
当无人机剩余能量E(i)≤0时结束本回合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110532993.7A CN113258989B (zh) | 2021-05-17 | 2021-05-17 | 一种使用强化学习获得无人机中继轨迹的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110532993.7A CN113258989B (zh) | 2021-05-17 | 2021-05-17 | 一种使用强化学习获得无人机中继轨迹的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113258989A CN113258989A (zh) | 2021-08-13 |
CN113258989B true CN113258989B (zh) | 2022-06-03 |
Family
ID=77182208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110532993.7A Active CN113258989B (zh) | 2021-05-17 | 2021-05-17 | 一种使用强化学习获得无人机中继轨迹的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113258989B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113993107A (zh) * | 2021-10-26 | 2022-01-28 | 南京航空航天大学 | 一种基于多约束构建穿越障碍区域的无人机中继网络方法 |
CN114115304A (zh) * | 2021-10-26 | 2022-03-01 | 南京航空航天大学 | 一种航空器四维爬升航迹规划方法及系统 |
CN116233869B (zh) * | 2023-05-10 | 2023-07-18 | 湖北工业大学 | 计算激励、任务分配及无人机位置联合优化方法及系统 |
CN117970952B (zh) * | 2024-03-28 | 2024-06-04 | 中国人民解放军海军航空大学 | 无人机机动策略离线建模方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110488861B (zh) * | 2019-07-30 | 2020-08-28 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN112737985B (zh) * | 2020-12-25 | 2023-04-07 | 东南大学 | 基于深度学习的大规模mimo信道联合估计和反馈方法 |
-
2021
- 2021-05-17 CN CN202110532993.7A patent/CN113258989B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113258989A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113258989B (zh) | 一种使用强化学习获得无人机中继轨迹的方法 | |
CN113645635B (zh) | 智能反射面辅助的高能效无人机通信系统的设计方法 | |
Wu et al. | Cooperative UAV cluster-assisted terrestrial cellular networks for ubiquitous coverage | |
Fotouhi et al. | Dynamic base station repositioning to improve spectral efficiency of drone small cells | |
Song et al. | A survey of prototype and experiment for UAV communications | |
Fotouhi et al. | DroneCells: Improving spectral efficiency using drone-mounted flying base stations | |
Chowdhury et al. | 3-D trajectory optimization in UAV-assisted cellular networks considering antenna radiation pattern and backhaul constraint | |
Fotouhi et al. | Dynamic base station repositioning to improve performance of drone small cells | |
Xie et al. | Connectivity-aware 3D UAV path design with deep reinforcement learning | |
Moorthy et al. | Beam learning in mmWave/THz-band drone networks under in-flight mobility uncertainties | |
WO2020015214A1 (zh) | 一种基于无人机的无线信息和能量传输的优化方法 | |
CN111970709B (zh) | 一种基于粒子群优化算法的无人机中继部署方法及系统 | |
Hoseini et al. | Trajectory optimization of flying energy sources using q-learning to recharge hotspot uavs | |
CN113518361B (zh) | 一种无人机辅助无线通信的轨迹优化方法、设备及介质 | |
CN110730031A (zh) | 一种用于多载波通信的无人机轨迹与资源分配联合优化方法 | |
Ranjha et al. | URLLC in UAV-enabled multicasting systems: A dual time and energy minimization problem using UAV speed, altitude and beamwidth | |
Chen et al. | Joint trajectory design and BS association for cellular-connected UAV: An imitation-augmented deep reinforcement learning approach | |
CN113784314B (zh) | 一种智能反射表面辅助下的无人机数据与能量传输方法 | |
CN114980169B (zh) | 一种基于轨迹与相位联合优化的无人机辅助地面通信方法 | |
Li et al. | Deep reinforcement learning for real-time trajectory planning in UAV networks | |
Li et al. | A UAV real-time trajectory optimized strategy for moving users | |
Fu et al. | Joint speed and bandwidth optimized strategy of UAV-assisted data collection in post-disaster areas | |
Chenxiao et al. | Energy-efficiency maximization for fixed-wing UAV-enabled relay network with circular trajectory | |
Babu et al. | Fairness-based energy-efficient 3-D path planning of a portable access point: A deep reinforcement learning approach | |
Pandey et al. | UAV-assisted communications with RF energy harvesting: A comprehensive survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |