CN113258989A - 一种使用强化学习获得无人机中继轨迹的方法 - Google Patents

一种使用强化学习获得无人机中继轨迹的方法 Download PDF

Info

Publication number
CN113258989A
CN113258989A CN202110532993.7A CN202110532993A CN113258989A CN 113258989 A CN113258989 A CN 113258989A CN 202110532993 A CN202110532993 A CN 202110532993A CN 113258989 A CN113258989 A CN 113258989A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
action
state
epsilon
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110532993.7A
Other languages
English (en)
Other versions
CN113258989B (zh
Inventor
刘楠
慕红伟
潘志文
尤肖虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110532993.7A priority Critical patent/CN113258989B/zh
Publication of CN113258989A publication Critical patent/CN113258989A/zh
Application granted granted Critical
Publication of CN113258989B publication Critical patent/CN113258989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • H04W40/10Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • H04W52/346TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开了一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,输入无人机起始位置,无人机电池最大容量,最大回合数,折扣因子,学习率,动作利用率,采用Q学习设计能量受限的无人机轨迹。本发明综合考虑基站的天线辐射模式、回程约束、无人机能量消耗,建立了一个有实际意义的无人机电池能量受限的轨迹优化问题,分析待解决的轨迹设计问题,将无人机轨迹设计问题转化为离散时间决策过程并转用Q学习解决问题,能设计无人机最佳轨迹,充分利用无人机电池能量带来最大用户频谱效率的提升。

Description

一种使用强化学习获得无人机中继轨迹的方法
技术领域
本发明属于移动通信技术领域,尤其涉及一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法。
背景技术
现有的蜂窝网络通常通过调整基站天线参数来优化覆盖范围和减少干扰,然而仅依靠传统网络架构和设计方案很难实质性解决通信系统所存在的问题。新兴的解决方案是采用无人机辅助网络的方式,通过控制无人机的运动,可以利用无人机高移动性,灵活部署以及更高概率与地面用户和基站建立视距通信极大地改善系统性能。
当前在设计无人机轨迹辅助网络通信解决干扰、提高能效时,并没有综合考虑天线辐射、回路限制以及无人机有限电池容量的影响,无法投入实际。
鉴于无人机的多功能性和可操作性,基于人工智能的无人机辅助解决方案能够显著增强下一代无线网络。考虑到无人机机载电池的有限性,无人机的飞行时间是一项重要的考虑因素。一种思路是一些研究提出的通过激光束的单色性和方向性来设计无人机无线充电模型或无人机替换策略,但通常解决方案成本较高、更复杂且需要定期监控无人机电量消耗,当前主流思路是如何高效的利用无人机有限的电量。
本发明在综合考虑回程约束,天线辐射和无人机电池能耗影响同时确保无人机电池有足够的能量返回到原始点充电的实际意义条件下,提出了一种利用强化学习方法来设计无人机最佳轨迹,充分利用无人机电池能量以实现其一个工作周期最大化提升用户频谱效率,将无人机连续时间轨迹转化为离散时间马尔可夫决策过程。
发明内容
本发明目的在于提供一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,以解决无法确保无人机电池有足够的能量返回到原始点充电,用户频谱效率低的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,其特征在于,输入无人机起始位置,无人机电池最大容量,最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε;采用Q学习设计能量受限的无人机轨迹,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,,即随着训练回合的增加ε逐渐增加至1,以充分利用训练记录的状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
ri=effchange1p12p2
上式中effchange代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励;这里,I是指示函数,即事件成立时返回1,否则为0;I1指示执行动作后无人机是否违反边界限制和电量限制,p1是无人机违反约束事件(边界和电量限制)的惩罚参数,即当执行动作后无人机违反边界限制和电量限制时,奖励函数减去较大惩罚因子p1;I2为执行动作后无人机返回起始点且剩余电量为0的指示,p2为激励无人机返回起始点的奖励参数。
步骤8、按照下列公式更新状态价值表:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)];
采用时序差分方式更新更新状态价值表,直接使用下一状态s′当前对应最大状态动作值maxa′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例。
步骤9、无人机更新状态(包括当前位置和剩余电量),每个时隙i消耗能量分为悬停消耗能量Ehover和水平面飞行消耗能量Emove两种;
当剩余电量E(i)≤0时结束本回合。
本发明的一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法具有以下优点:
在下行链路蜂窝网络中,综合考虑基站的天线辐射模式、回程约束、无人机能量消耗,建立了一个有实际意义的无人机电池能量受限(需返回起始点充电)的轨迹优化问题,分析待解决的轨迹设计问题,将无人机轨迹设计问题转化为离散时间决策过程并转用Q-learning解决问题,能设计无人机最佳轨迹,充分利用无人机电池能量带来最大用户频谱效率的提升。
附图说明
图1为本发明的比较同样充分利用有点电池容量并返回起始点的无人机中继轨迹频谱效率增益对比结构示意图;
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法做进一步详细的描述。
设计无人机中继轨迹时主要包括以下影响因素:
1、路径损失
(1)、基站到用户路径损失
考虑采用适用于基站高度不变化的Okumura-Hata(OHPLM)路径损耗模型,dk,m,t表示在时刻t基站m与用户k间的欧氏距离。用户k在时刻t观察到的从基站m的路径损失(单位为dB)可表示为:
ξk,m(t)=A+Blog10(dk,m,t)+C
在郊区环境中,参数A,B和C的计算公式为:
A=69.55+26.16log10(fc)-13.82log10(hbs)-a(hue)
B=44.9-6.55log10(hbs)
C=-2log10(fc/28)2-5.4
校正因子a(hue)定义为:a(hue)==[1.1log10(fc)-0.7]hue-1.56log10(fc)-0.8
这里,fc表示载波频率,hbs和hue分别表示基站和用户高度。因为基站高度和用户高度不随时间变化,所以参数A,B,C始终是常数。
(2)无人机到用户路径损失
考虑采用视距通信(LoS)和非视距通信(NLoS)混合传播模型(MPLM),因为无人机飞行在空中,有更高概率获得LoS信道。若用zk,u,t表示在时刻t用户k与无人机u间的水平距离,根据相关研究,无人机到用户视距通信概率可表示为:
Figure BDA0003068662990000051
Figure BDA0003068662990000052
huav表示无人机高度;
δh=huav-hue表示无人机高度与用户高度的差值;
Figure BDA0003068662990000053
表示建筑物占用的总土地面积的比例;
Figure BDA0003068662990000054
表示每平方公里平均建筑物的数量,所有建筑物的高度用服从瑞丽分布的
Figure BDA0003068662990000055
表示;
用户k在时间t接收到无人机的路径损耗(单位为dB)可表示为:
Figure BDA0003068662990000056
αL和αN表示视距通信和非视距通信的路径损耗函数;PUAV表示无人机发射功率;τL(zk,u,t)表示上文计算的无人机到用户的视距通信概率;τN(zk,u,t)=1-τL(zk,u,t)表示非视距通信概率;dk,u,t表示用户k在时刻t与无人机间的欧氏距离。
(3)基站到无人机路径损失
考虑3GPP标准中指定的视距信道模型模拟基站到无人机的路径损失。因为无人机高度在40米到300m,所以获得视距通信信道的概率为1.若用dm,u,t表示时刻t无人机u与基站m间的欧氏距离,则无人机与基站m间的瞬时路径损耗(单位为dB)可表示为:
Figure BDA0003068662990000061
2、天线辐射模型
使用3GPP标准天线辐射模型来表征基站的天线辐射。根据该模型,每个基站分为三个扇区,并且每个扇区都配备有八个交叉极化天线(±45°双极化天线),放置在均匀线性阵列上。这些天线元件模式中的每一个都提供高指向性,主瓣方向的最大增益Gmax约为8dBi,它们共同形成天线阵列,向转向方向提供高增益。
(1)元素辐射模型
每个交叉极化天线包含水平辐射模型AE,H(φ′)和垂直辐射模型AE,V(θ′)。
Figure BDA0003068662990000062
Figure BDA0003068662990000063
φ′3dB和θ′3dB都是指具有相同角度65°的3dB波束宽度。Am表示前后比(front-backratio),SLAV表示旁瓣电平限制,通过将每个元素的垂直辐射方向图和水平辐射方向图组合在一起,计算出每个角度(θ′,φ′)的天线元素增益为
AE(θ′,φ′)=Gmax-min{-[AE,H(φ′)+[AE,V(θ′)],Am}
这里,Gmax表示天线元素主瓣方向最大增益;
(2)阵列辐射模型
天线阵列的辐射方向图AA(θ′,φ′)显示从天线阵列向转向方向(θ′,φ′)辐射了多少功率,阵列辐射模型可表示为:
AA(θ′,φ′)=AE(θ′,φ′)+AF(θ′,φ′,n)
AE(θ′,φ′)表示天线元素在(θ′,φ′)方向的元素辐射模型,AF(φ′,θ′,n)是具有n个天线的阵列因子,可表示为:
AF(φ′,θ′,n)=10log10[1+ρ(|a·wT|2-1)]
ρ是设置为1相关系数,假设每个天线元件具有相同的振幅,振幅矢量a设置为常量
Figure BDA0003068662990000071
包含主瓣转向方向的波束成形矢量w可表示为,
Figure BDA0003068662990000072
波束成形矢量w计算过程中,mVmH=n,
Figure BDA0003068662990000073
Figure BDA0003068662990000075
为计算天线阵列辐射模型在任意方向天线增益所需要的,(θs,φs)对应主瓣方向。ΔV代表天线阵列的垂直元素之间的间隔距离,ΔH代表天线阵列的水平元素之间的间隔距离,使用时考虑
Figure BDA0003068662990000074
λ表示载波波长。
3、回路限制
无人机中继需要始终与核心网络保持安全可靠的连接,以实现可靠的通信。另一方面,当无人机在下行链路中充当基站时,无人机必须通过回程链路从核心网络收集数据。因此,将无人机视为下行链路中基站和用户终端之间的中继,并研究网络性能。计算无人机到用户链路和基站到无人机链路的最小值作为用户k信噪比γk
γk=max{min{γbs-uavuav-ue},γbs-ue}.
γbs-uav表示基站到用户信噪比;
γuav-ue表示无人机到用户信噪比;
γbs-ue表示基站到用户信噪比。
4、电量消耗模型
本发明在设计最佳轨迹时,将无人机连续时间轨迹设计问题转化为离散时间马尔可夫决策过程,即通过Q学习为每个间隔找到累积奖励最大的动作。无人机在时隙n的速度可表示为:v[n]=[vx[n],vy[n],vz[n]],vx[n],vy[n],vz[n]分别表示速度v[n]在x轴,y轴和z轴的分量。
时隙n中无人机水平飞行的感应功率可表示为:
Figure BDA0003068662990000081
W=mg表示无人机的重量,g表示重力加速度,ρ表示空气密度,A是无人机转片的总面积,
||vx[n],vy[n]||表示无人机的水平速度,
Figure BDA0003068662990000082
参数化悬停所需的功率。
时隙n中垂直飞行的功耗建模为Pvertical[n]=Wvz[n]
另外,将时隙n中的叶片阻力轮廓功率建模为:
Figure BDA0003068662990000083
Figure BDA0003068662990000084
是轮廓阻力系数,它取决于转子叶片的几何形状。
总而言之,可以将n时隙中的无人机的空气动力消耗建模为:
Figure BDA0003068662990000091
其中
Figure BDA0003068662990000092
查阅相关参考文献,无人机作为中继消耗的功率Prelay[n]与用于无人机飞行或悬停的功率相比可以忽略不计(相差100倍以上)。同时,由于考虑场景下无人机在同一水平面运动,所以功率消耗主要考虑悬停和水平飞行功率。
本发明利用强化学习,在综合考虑路径损失、天线辐射、回路限制、无人机电量消耗情况下获得受限于有限电池容量需返回起始点充电的情况下能为网络性能(频谱效率)带来最大提升的无人机中继的轨迹。
无人机起点Ls=[xs,ys,zs],终点Lf=[xf,yf,zf]=[xs,ys,zs],即返回起始点。
无人机在时刻t的坐标表示为r(t)=[x(t),y(t),z(t)]T∈R3×1
考虑干扰受限的下行蜂窝网络的6GHz以下频段,即与干扰功率相比,接收机处的热噪声功率可以忽略不计。我们还假设基站和无人机共享公共的传输带宽,并且每一个基站都使用全缓冲流量模型。在所有下行链路传输中都考虑了循环调度算法,还假定接收机可以整合由于无人机的移动性引起的多普勒效应。
用户k在时刻t接收到的来自基站m的功率可表示为:
Figure BDA0003068662990000093
用户k在时刻t接收到的来自无人机的功率可表示为:
Figure BDA0003068662990000094
Pbs,Puav分别表示基站和无人机发射功率,ξk,m(t)表示基站m到用户路径损失,ξk,u(t)表示无人机到用户k路径损失。
在每个时刻t,用户或无人机连接到提供最佳的信噪比的用户或无人机。
假设采用循环调度,根据香农定理可以获得用户k在时刻t的频谱效率:
Figure BDA0003068662990000101
γk(t)表示用户k在时刻t接收到的信噪比;
Nue是此发送器(基站或无人机)中的用户数,
Figure BDA0003068662990000102
Si,t表示用户k在时刻t来自发射机(基站或无人机)i的接收功率,Sj,t表示其他发射机干扰;
网络在时间t的瞬时总频谱效率可以表示为:
Figure BDA0003068662990000103
mk表示用户k的权重,得以在后续仿真方案中区分质心和中心。
优化问题如下:
Figure BDA0003068662990000104
C1:Ls=[xs,ys,zs]
C2:Lf=[xf,yf,zf]
C3:Ls=Lf
C4:
Figure BDA0003068662990000105
C1,C2分别描述无人机出发位置和结束位置,由于无人机需要返回起始点充电,C3描述了无人机的初始位置和结束位置相同,即,Ls=[x_s,y_s,z_s]=Lf。C4表示无人机有足够的电量返回到初始位置以进行充电,任意时刻无人机剩余电量不小于0。我们的目标是找到最佳轨迹,在保证能飞回原点的前提下最大化提升网络性能。解法如下:
Q-learning(Watkins,1989)是强化学习算法中的一种基于值的算法,该算法的主要思想是建立状态和动作的状态价值表来存储状态动作值,然后选择能够获得最大值的动作,根据Q值获利。这是让智能体学习如何在马尔科夫决策过程中学习最佳行为的一种简单方法,相当于一种动态编程的增量方法,其施加了有限的计算需求,其工作原理是通过不断改进其对特定行为的评估来工作。只要在所有状态下重复采样所有动作并且离散地表示动作值,它就会以1的概率覆盖到最佳动作值。
Q学习的主要优点是它使用时差方法TD(结合了蒙特卡罗和动态规划)来学习离线(离线策略),并使用伯努利方程解决了马尔可夫过程的最优策略。当我们开始探索环境时,通过不断更新表中的Q值,Q函数为我们提供了越来越好的逼近度。完成训练后,我们将得到一个完美的Q形式,希望只要无人机根据当前状态找到对应的行,并选择具有较大效用值的动作作为当前帧的动作即可。
为解决上述技术问题,本发明结合Q-learning获得无人机中继最佳轨迹:将待仿真区域以100m为步长划分,将目标函数离散化(时间步长δt),将其构造为离散时间决策过程的最优决策问题,并使用强化学习方法来找到此离散时间决策过程的最优决策问题。
在每个间隔内,将无人机的位置视为是恒定的。在时间间隔i,根据此时间间隔无人机的位置获得用户频谱效率Rk(i),写出离散时间决策过程状态更新如下所示:
ri+1=ri+f(i,ri,ui)
ri=[xi,yi,E(i)]T表示无人机在时隙i的状态,(xi,yi)表示时隙i时结束时无人机的坐标,E(i)表示时隙i结束时无人机剩余电量;
ui=[vii]代表控制动作;vi表示速度大小,φi表示水平面方位角,两者结合用来表示无人机运动方向;
Figure BDA0003068662990000121
Figure BDA0003068662990000122
即在每一状态,无人机可以选择悬停或水平面45°为间隔的8个方向运动。
通过执行相应动作,无人机将转移到下一状态。从初始状态开始,可以通过将当前状态与当前状态相加来计算后续状态。f(i,ri,ui)表示执行动作后无人机位置和剩余电量的变化量。
Figure BDA0003068662990000123
无人机初始状态可表示为r0=[xs,ys,Bmax],Ei表示时间间隔i无人机消耗的电量(分为悬停和水平运动)。
当无人机到达最终状态时,任务结束。通过使用Q-learning,我们的目标是找到最佳决策序列,以找寻单个工作周期内能最大化提升用户平均频谱效率的无人机轨迹。
由于无人机电池容量有限,其不可能始终充当中继,本发明考虑如何设计无人机轨迹以在充分考虑天线辐射模型、回路限制、无人机运动模型实现无人机一个工作周期内最大化提升系统用户频谱效率。
输入无人机起始位置(也是结束位置),无人机电池最大容量,最大回合数(episode_max),折扣因子γ,学习率α,动作利用率ε。
采用Q学习(Q-learning)设计能量受限的最佳无人机轨迹包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,,即随着训练回合的增加ε逐渐增加至1,以充分利用训练记录的状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
ri=effchange1p12p2
上式中effchange代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励;这里,I是指示函数,即事件成立时返回1,否则为0;I1指示执行动作后无人机是否违反边界限制和电量限制,p1是无人机违反约束事件(边界和电量限制)的惩罚参数,即当执行动作后无人机违反边界限制和电量限制时,奖励函数减去较大惩罚因子p1;I2为执行动作后无人机返回起始点且剩余电量为0的指示,p2为激励无人机返回起始点的奖励参数。
步骤8、按照下列公式更新状态价值表:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)];
采用时序差分方式更新状态价值表,直接使用下一状态s′当前对应最大状态动作值maxa′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例。
步骤9、无人机更新状态(包括当前位置和剩余电量),每个时隙i消耗能量分为悬停消耗能量Ehover和水平面飞行消耗能量Emove两种;
当E(i)≤0时结束本回合。
为了比较性能,我们将Q-learning学得的无人机中继轨迹与以下几种充分利用无人机电容量并返回起始点的无人机飞行方案比较:
1、随机运动轨迹:每次无人机从9种动作中随机选择一种,并保证有足够电量能够返回起始点;
2、固定轨迹:从起点出发,充分利用无人机电量以固定的圆形轨迹或矩形轨迹飞行并返回起始点;
3、定向悬停:无人机定向飞向所有用户的中心或重心(区别在于用户的不同权重)悬停充当中继,并保证有足够电量能够返回起始点。
如图1所示,相较于同样充分利用无人机电池容量并返回起始点的无人机轨迹,本发明采用Q-learning获得的无人机中继轨迹可以获得更高的用户频谱效率提升。
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (1)

1.一种使用强化学习获得辅助蜂窝网络的无人机中继轨迹的方法,其特征在于,输入无人机起始位置,无人机电池最大容量,最大回合数episode_limit,折扣因子γ,学习率α,动作利用率ε;采用Q学习设计能量受限的无人机轨迹,包括以下步骤:
步骤1、将待仿真区域按步长划分为网格;
步骤2、设置状态数和动作数,按照状态数和动作数初始化动作状态表,用来记录每个状态对应动作的长期累计奖励;
步骤3、初始回合标志为1,进入大循环,递增遍历直至达到最大回合数限制;
步骤4、初始化无人机状态为s0=[xs,ys,Emax];即无人机从起点(xs,ys)以最大电量Emax出发;
步骤5、退火系数为decay_rate,最大回合数episode_limit,计算K=decay_rate/episode_limit,按照ε=1*exp(-K*ε)更新动作利用率ε,即随着训练回合的增加ε逐渐增加至1,以利用训练记录状态动作值;
步骤6、根据状态选择动作,即若随机数是小于ε时,将选择动作状态表中当前长期累积奖励值最大的动作;若随机数是大于等于ε时,则随机选择一个动作;
步骤7、执行动作,获得即时奖励r并进入下一状态s′;
按照下面公式获得即时奖励:
ri=effchange1p12p2
上式中effchange代表当前无人机中继位置相较于无无人机辅助时所有用户平均频谱效率提升的奖励;I是指示函数,即事件成立时返回1,否则为0;即执行动作后无人机违反边界限制和电量限制时I1为1,p1是无人机违反约束事件的惩罚参数,即当执行动作后无人机违反边界限制和电量限制时,奖励函数减去惩罚因子p1;当执行动作后无人机返回起始点且剩余电量为0时I2为1,p2为激励无人机返回起始点的奖励因子;
步骤8、按照下列公式更新状态价值表:
Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)-Q(s,a)];
采用时序差分方式更新状态价值表,直接使用下一状态s′当前对应最大状态动作值maxa′Q(s′,a′)乘上折扣因子γ减去当前值作为当前动作价值更新目标,学习率α用来指示更新的比例;
步骤9、无人机更新状态,包括当前位置和剩余电量,每个时隙i消耗能量分为悬停消耗能量Ehover和水平面飞行消耗能量Emove两种;
当无人机剩余能量E(i)≤0时结束本回合。
CN202110532993.7A 2021-05-17 2021-05-17 一种使用强化学习获得无人机中继轨迹的方法 Active CN113258989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110532993.7A CN113258989B (zh) 2021-05-17 2021-05-17 一种使用强化学习获得无人机中继轨迹的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110532993.7A CN113258989B (zh) 2021-05-17 2021-05-17 一种使用强化学习获得无人机中继轨迹的方法

Publications (2)

Publication Number Publication Date
CN113258989A true CN113258989A (zh) 2021-08-13
CN113258989B CN113258989B (zh) 2022-06-03

Family

ID=77182208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110532993.7A Active CN113258989B (zh) 2021-05-17 2021-05-17 一种使用强化学习获得无人机中继轨迹的方法

Country Status (1)

Country Link
CN (1) CN113258989B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113993107A (zh) * 2021-10-26 2022-01-28 南京航空航天大学 一种基于多约束构建穿越障碍区域的无人机中继网络方法
CN114115304A (zh) * 2021-10-26 2022-03-01 南京航空航天大学 一种航空器四维爬升航迹规划方法及系统
CN116233869A (zh) * 2023-05-10 2023-06-06 湖北工业大学 计算激励、任务分配及无人机位置联合优化方法及系统
CN117970952A (zh) * 2024-03-28 2024-05-03 中国人民解放军海军航空大学 无人机机动策略离线建模方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112737985A (zh) * 2020-12-25 2021-04-30 东南大学 基于深度学习的大规模mimo信道联合估计和反馈方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN112737985A (zh) * 2020-12-25 2021-04-30 东南大学 基于深度学习的大规模mimo信道联合估计和反馈方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牟治宇等: "基于深度强化学习的无人机数据采集和路径规划研究", 《物联网学报》, no. 03, 19 August 2020 (2020-08-19) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113993107A (zh) * 2021-10-26 2022-01-28 南京航空航天大学 一种基于多约束构建穿越障碍区域的无人机中继网络方法
CN114115304A (zh) * 2021-10-26 2022-03-01 南京航空航天大学 一种航空器四维爬升航迹规划方法及系统
CN116233869A (zh) * 2023-05-10 2023-06-06 湖北工业大学 计算激励、任务分配及无人机位置联合优化方法及系统
CN117970952A (zh) * 2024-03-28 2024-05-03 中国人民解放军海军航空大学 无人机机动策略离线建模方法

Also Published As

Publication number Publication date
CN113258989B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN113258989B (zh) 一种使用强化学习获得无人机中继轨迹的方法
Wu et al. Cooperative UAV cluster-assisted terrestrial cellular networks for ubiquitous coverage
Fotouhi et al. Dynamic base station repositioning to improve spectral efficiency of drone small cells
Mozaffari et al. Communications and control for wireless drone-based antenna array
Song et al. A survey of prototype and experiment for UAV communications
Chowdhury et al. 3-D trajectory optimization in UAV-assisted cellular networks considering antenna radiation pattern and backhaul constraint
Fotouhi et al. Dynamic base station repositioning to improve performance of drone small cells
WO2020015214A1 (zh) 一种基于无人机的无线信息和能量传输的优化方法
Moorthy et al. Beam learning in mmWave/THz-band drone networks under in-flight mobility uncertainties
Kimura et al. Distributed collaborative 3D-deployment of UAV base stations for on-demand coverage
Hoseini et al. Trajectory optimization of flying energy sources using q-learning to recharge hotspot uavs
CN113784314B (zh) 一种智能反射表面辅助下的无人机数据与能量传输方法
CN113518361B (zh) 一种无人机辅助无线通信的轨迹优化方法、设备及介质
CN111970709A (zh) 一种基于粒子群优化算法的无人机中继部署方法及系统
Yuheng et al. 3-D deployment optimization of UAVs based on particle swarm algorithm
Galkin et al. REQIBA: Regression and deep Q-learning for intelligent UAV cellular user to base station association
Chen et al. Joint trajectory design and BS association for cellular-connected UAV: An imitation-augmented deep reinforcement learning approach
Ranjha et al. URLLC in UAV-enabled multicasting systems: A dual time and energy minimization problem using UAV speed, altitude and beamwidth
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
Li et al. Deep reinforcement learning for real-time trajectory planning in UAV networks
Lu et al. Relay in the sky: A UAV-aided cooperative data dissemination scheduling strategy in VANETs
Nunns et al. Autonomous flying WiFi access point
Babu et al. Fairness-based energy-efficient 3-D path planning of a portable access point: A deep reinforcement learning approach
Chenxiao et al. Energy-efficiency maximization for fixed-wing UAV-enabled relay network with circular trajectory
CN113776531A (zh) 无线自供电通信网络的多无人机自主导航及任务分配算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant