CN111432433B - 基于强化学习的无人机中继智能流量卸载方法 - Google Patents

基于强化学习的无人机中继智能流量卸载方法 Download PDF

Info

Publication number
CN111432433B
CN111432433B CN202010142914.7A CN202010142914A CN111432433B CN 111432433 B CN111432433 B CN 111432433B CN 202010142914 A CN202010142914 A CN 202010142914A CN 111432433 B CN111432433 B CN 111432433B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
period
decision
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010142914.7A
Other languages
English (en)
Other versions
CN111432433A (zh
Inventor
李轩衡
程思科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010142914.7A priority Critical patent/CN111432433B/zh
Publication of CN111432433A publication Critical patent/CN111432433A/zh
Application granted granted Critical
Publication of CN111432433B publication Critical patent/CN111432433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0289Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18504Aircraft used as relay or high altitude atmospheric platform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Traffic Control Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,具体为一种基于强化学习的无人机中继智能流量卸载方法。本发明综合考虑无人机能耗问题和回传链路的频谱供应问题,采用动态频谱接入技术,能够有效扩充移动通信网络的吞吐量以缓解由于用户流量需求骤增导致的网络拥塞;本发明设计了基于强化学习的智能决策算法,使得无人机能够根据动态变化的环境自适应地进行轨迹选择和频带选择,以最小的能耗卸载最多的流量,避免了传统集中式控制带来的额外开销,克服了环境动态性对策略制定带来的难题。

Description

基于强化学习的无人机中继智能流量卸载方法
技术领域
本发明属于无线通信技术领域,涉及到无人机中继技术,特别涉及到基于强化学习算法的无人机轨迹规划以及频谱动态共享接入等问题,具体为一种基于强化学习的无人机中继智能流量卸载方法。
背景技术
近年来,大量新兴物联网应用的蓬勃发展导致了移动网络中数据流量的激增,这使得网络日趋饱和。因此,寻求合理的流量卸载策略以缓解网络饱和危机逐渐受到了各国学者的广泛关注。目前,各大运营商主要利用车载移动基站进行流量卸载,即通过在车辆上安装基站设备,当网络发生拥塞时(由于地面基站发生故障或者大型活动造成网络内部流量持续性过载),利用车载基站的部署,以短距离的方式承载网络溢出的流量需求。然而,受到人力成本、设备成本、交通限制等因素制约,车载移动基站的部署相对困难,因此,基于车载基站难以根据网络的实时动态拥塞情况实现灵活的流量卸载。相比于车载移动基站,无人机的高机动性使其更加容易部署,同时空对地更加可靠的视距连接使其能够提供更优的传输质量,上述特点使其被视为一种新型且有效的流量卸载手段,当网络发生拥塞时,其可以飞到发生拥塞的区域上方作为中继,收集部分业务的流量(主要面向延迟容忍类业务),然后通过回程链路传输给基站完成流量卸载。由于在实际网络中流量需求通常具有时空异构性(在网络内部不同区域、不同时间下数据业务数量和特点不同导致流量需求随地理位置、时间变化),因此,无人机在不同时刻、不同区域内需要卸载的流量是动态变化的,如何制定合理且智能的运行轨迹以实现最佳的流量卸载是一个关键问题。
除了流量需求问题,网络的频谱供应问题也需要考虑其中。网络饱和是流量卸载的动机,但是,目前的研究大多假设有充足的频谱资源供无人机进行数据回传,这显然是不可行的,如何保证无人机到基站的回程链路是一个重要问题。由于目前专享分配方式导致的低频谱效率,近年来,学者们开始重新审视静态频谱管理策略的合理性,并提出将“专享使用”变为“共享使用”的新型频谱管理理念,引起了世界范围内对频谱共享的高度关注。通过允许非授权网络机会式地使用授权网络的空闲频段,频谱共享可以在不改变频谱规划现状的前提下,将电视、铁路、军用等其他各类专网中的空闲频谱用于移动通信网中的数据传输,被视为未来补充频谱资源的有效手段。因此,动态频谱共享接入可以解决无人机在卸载流量时数据回传的频谱供应问题。但是由于在网络中不同区域、不同时间接入频带被占用的情况不同导致其可用性随地理位置和时间变化,因此,如何选择合适的接入频带进行数据传输对于实现流量卸载至关重要,同时也会影响无人机的轨迹规划策略。
此外,无人机通常基于电池供电,即使可以通过太阳能或其他方案进行充电,其能量供应也是有限的,因此,无人机的能耗问题不应被忽视。目前基于无人机的流量卸载策略通常以最大化卸载流量为目标,但是在实际情况下,无论是无人机的飞行还是数据传输都会消耗能量,此外若使用共享频段作为回传链路频段,感知能耗也不可忽视。综上若考虑能耗问题,基于无人机的流量卸载策略将以最大化能量效率(无人机消耗每焦耳的能量卸载流量的比特数)为优化目标,这对于策略的技术实现具有重要意义。
发明内容
本发明的目的是为移动通信网络提供一种基于无人机中继的智能流量卸载方法。在移动通信网络中,当某个区域内用户流量骤增时,由于网络频谱资源有限,大量数据无法顺利完成传输,此时会引发网络拥塞。在本发明中,考虑到无人机相较于传统车载移动基站具有更高的机动性及更低的部署成本,且不受交通等其他因素制约等优点,选择利用无人机作为中继来实时地解决移动通信网络中的拥塞问题。由于网络的流量需求是动态变化的,且难以用集中控制的方式对无人机进行调度,因此,本发明采用面向动态环境的强化学习算法以实现无人机的自主智能决策制定。
在本发明中,无人机的决策是周期制定的,在每个决策周期内,无人机需要确定下一个工作地点(轨迹)及工作频带(用于数据回传),决策完成后,无人机将飞往选择的工作地点收集流量并动态接入选择的频带将数据回传给基站。本发明以优化无人机的能量效率(每焦耳能量完成的流量卸载比特数)为决策制定目标,在每次决策制定后,无人机的能耗、卸载的用户流量、接入频带的质量将联合影响下一次决策的制定,通过强化学习,无人机将根据动态的环境和自身的状态不断改进决策制定,以实现自身能量效率的最大化,即以最少的能耗为网络卸载最多的流量。综上,该决策是针对不确定的用户流量和频谱供应,结合无人机的能耗问题,借助强化学习的算法实现无人机能量效率最大的流量卸载。
本发明的一种基于强化学习的无人机中继智能流量卸载方法,建立于以下系统环境:
一个单基站覆盖蜂窝网络,基站坐标记为(0,0,0),无人机充电站坐标记为 (xb,yb,zb)。该蜂窝网络分为N个区域,无人机在每个区域内都有高空操作和低空操作两种工作模式,且两种工作模式下的工作地点固定,用坐标分别表示为 (xhi,yhi,zh)和(xli,yli,zl),网络存在n个可感知的接入频带。
具体步骤如下:
S1无人机飞行功率模型
无人机的经典动力学研究表明,其飞行动力能耗包括:水平飞行能耗、垂直飞行能耗、水平飞行克服空气阻力的能耗以及悬停能耗,主要与其质量、水平飞行及垂直飞行的速度、空气密度、螺旋翼面积和形状有关。在无人机处于准静态(即无人机的加速度很小)的前提下,若无人机的质量为m(无人机的重量M=mg,g是重力加速度)、水平飞行速度为vxy、垂直飞行速度为vz、空气密度为ρ、螺旋翼叶片面积为A,则无人机的飞行功率可以表达为:
S1.1无人机悬停功率Phover
Figure BDA0002399715070000041
由表达式可知,当无人机质量m、空气密度ρ以及螺旋翼叶片面积A一定时,无人机悬停功率是一个定值。
S1.2水平飞行功率Plevel
Figure BDA0002399715070000042
由表达式可知,当无人机质量m、空气密度ρ以及无螺旋翼叶片面积A一定时,其水平飞行功率仅与水平速度有关。同时对比Plevel和Phover可以看出,无人机水平飞行功耗小于其悬停时功耗,且水平飞行速度越大其消耗功率越小。
S1.3垂直飞行功率Pvertical
Pvertical=M·vz=m·g·vz (1.3)
由表达式可知,当无人机质量m一定时,垂直飞行功率仅与其垂直飞行速度有关,且垂直飞行速度越大其消耗功率越大。
S1.4水平飞行克服空气阻力消耗的功率Pdrag
Figure BDA0002399715070000043
CD0是与螺旋翼叶片形状有关的空气阻力系数,由表达式可知当空气密度ρ及螺旋翼叶片面积A一定时,其水平飞行克服空气阻力消耗的功率仅与水平飞行速度有关,且水平飞行速度越大其消耗的功率越大。
S2待卸载的用户流量需求
本发明利用数据流的概念描述用户流量。根据数据流定义,可将用户产生的流量视为大小不同的数据包(单位为比特),因此,无人机收集用户流量的过程可以看作是无人机收集大小不同的数据包的过程。基于以上描述,可假设系统运行中,无人机在某个决策周期内收集的流量为Wc,单位为比特。
S3流量卸载和传输能耗模型
在技术背景中已提出,针对数据回传链路频谱供应问题,动态频谱共享接入可以提供可靠的技术支持,在基于无人机的智能流量卸载策略中,其可以通过搭载认知无线电设备以实现对频谱的感知和动态接入。由频谱共享的概念可知,为保证主用户的传输性能,作为共享接入的频段并非总是可用的,无人机需要周期地感知频带是否被占用,若其感知到频带没有被占用,则接入该频带进行数据回传(称为“传输”),反之,则不进行数据传输(称为“等待”),“传输”或“等待”持续一段时间后,无人机将会进行下一次感知。
将无人机进行感知和“传输”或“等待”的一次过程称为感知周期,在一个感知周期内,其用于频谱感知的时间为τs,用于“传输”或“等待”的时间为 Ts,用于频谱感知和数据传输的功率分别用Ps、Pt表示。在一个周期内卸载的流量Wperiod为:
Figure BDA0002399715070000051
其中,B表示接入频带的带宽,gd表示与无人机到基站之间的信道衰落有关的增益系数,与无人机到基站的距离有关,n0表示加性高斯白噪声的功率谱密度,二元变量p∈{0,1}表示频谱感知的结果(p=1表示频谱空闲,无人机可以接入该频带进行数据传输;p=0表示频谱被占用,无人悬停不进行数据传输);在一个感知周期内,无人机用于频谱感知和数据传输的能耗Eperiod表示为:
Eperiod=Ps·τs+p·Pt·Ts (3.2)
S4强化学习获得最优的流量卸载策略
在本发明涉及的无人机中继系统中,用户的流量需求和频谱的可用性均具有动态性,这使得整个问题难以像传统方案一样进行优化建模。此外,对于无人机来说,虽然在基站的集中式控制下可以实现最优决策的制定,但这无疑将带来额外的控制时间和能量消耗,因此,为了在动态环境下实现无人机对最优策略的自主选择,即自主选择工作点坐标和回程链路接入频段,本发明基于强化学习算法设计智能型流量卸载策略。在强化学习中,智能体通过与环境的交互进行学习,在不同的状态下做出不同的决策,以实现累计奖励最大化。智能体进行一次完整的决策过程称为决策周期,在本发明中,无人机完成飞行、流量收集和卸载的一次完整过程即为一个决策周期。
强化学习的主要框架由智能体和环境组成,智能体通过状态S、动作A、奖励值R与环境完成交互。第t个决策周期内,智能体在状态st下执行了动作at后转移到一个新的状态st+1,同时收到环境给出的奖励值rt,智能体在新的状态st+1下会执行新的动作at+1得到新的的奖励值rt+1,如此迭代直到终止状态。
强化学习的基本思路是根据状态选择使奖励值最大的动作,由于每个决策周期内选择的动作会对其后选择的动作产生影响,因此,考虑后续影响引入累积折扣奖励,记为Gt=rt+γrt+12rt+2+…(γ为折扣因子,且γ∈[0,1]),智能体在每个状态下基于累积折扣奖励进行动作选择。具体来说,用状态值函数 v(s)=E[Gt|st=s]或状态动作值q(s,a)=E[Gt|st=s,at=a]来评估对于任意策略(某状态下选择某动作)的好坏。Q-Learning是强化学习中的一个经典算法,本发明将基于Q-Learning算法进行设计,具体框架和流程如下:
根据前面给出的定义,将无人机完成飞行、流量收集和卸载的完整过程称为一个决策周期,并用T表示。在算法中假设决策周期T=T1+T2+T3,T1表示无人机飞行时间,T2表示其收集流量时间,T3表示无人机动态接入频谱进行传输的时间。由S3可知,在T3时间内无人机需要周期地感知频带,并根据感知的结果选择“传输”或“等待”。假设T3由m个感知周期构成,即T3=m(τs+Ts)。
S4.1第t个决策周期内的状态集st
在强化学习中,所有决策周期的状态集合称为状态空间集S,记为 S={s1,s2,…,st,…}。第t个决策周期的状态st影响当前决策周期的动作at,因此S必须包括所有能对动作产生影响的元素。在本发明中,S包括:所有决策周期内无人机所处的位置L={l1,l2…,lt,…},无人机剩余的能量
Figure BDA0002399715070000071
以及T3时段内无人机选择接入频带的占空比D={d1,d2,…,dt,…}。具体来说,对st而言,其包括无人机的位置lt=(xt,yt,zt);剩余能量
Figure BDA0002399715070000072
其中,
Figure BDA0002399715070000073
为无人机在前一决策周期内未执行决策时的能量,et-1为无人机在前一决策周期内执行决策消耗的能耗;当前决策周期内接入频带占空比dt={i,ηi},i为前一决策周期内接入频带的序号,ηi表示前一决策周期内接入频带的占空比,即前一决策周期内选择接入的频带被主用户占用的时间与T3之比。
综上,st表示为:
Figure BDA0002399715070000074
由于无人机能量有限,因此,存在终止状态sT。为避免无人机出现电量耗尽回收困难的问题,任意决策周期内无人机剩余能量应存在阈值b(阈值大小为保证无人机能从工作点飞到充电站消耗的最小能量),若在此决策周期内无人机消耗的能量使剩余能量低于阈值,则下一个状态为终止状态,即st+1=sT,无人机需要停止工作飞往充电站进行能量补充。
S4.2第t个决策周期内的动作集at
同上,所有决策周期的动作的集合称为动作空间集,记为A={a1,a2,…,at,…}。对于任意一个决策周期的动作集at,包括无人机在该周期内飞行轨迹以及接入频带的选择,因此at表示为:at=A(st)={ft,ct}。
ft和ct的具体意义如下:
S4.2.1轨迹选择ft
在任意决策周期内,ft是指无人机由当前工作点飞到下一个工作点的轨迹,若前后工作点的高度不一致,即zt≠zt+1时,无人机先飞平飞行再垂直飞行到达下一工作点。
S4.2.2频带选择ct
前面提到存在n个可感知的频带,在任意一个决策周期内无人机需要从n个频带中选择一个用于数据回传。
S4.3第t个决策周期内的奖励值rt
第t个决策周期内,智能体在状态st下执行动作at,转移到下一状态st+1并得到奖励rt。在本发明设计的智能流量卸载方法中,目标是最大化无人机的能量效率(bit/J),因此,奖励rt设置为第t个决策周期内卸载的流量Wt与消耗的能量Et的比值,表示为:
Figure BDA0002399715070000081
Wt与Et的具体意义如下:
S4.3.1第t个决策周期内无人机卸载的流量Wt
第t个决策周期内,由S2中假设可知,无人机在该决策周期内收集的流量为 Wc。由S3可知,无人机在一个感知周期内可以卸载的流量为Wperiod,由于在一个决策周期内存在m个感知周期,即T3=m(τs+Ts),所以无人机在第t个决策周期内能够卸载的流量Wo为:
Figure BDA0002399715070000091
实际卸载的流量Wt应为上述两值的最小值,即Wt=min{Wc,Wo}。
S4.3.2第t个决策周期内无人机消耗的能量Et
Et主要包括:无人机在该决策周期的T1时间段内飞行能耗Etf、T2时间段内收集流量能耗Etc、T3时间段内周期频谱感知和数据传输的能耗Ets
(a)Etf:在每个决策周期内无人机的飞行轨迹不同,但由于其用于飞行的时间T1是固定的,因此,不同决策周期内无人机的飞行速度一般不同。在S4.2.1中指出,当前后两个工作点高度不同时,无人机先水平飞行后垂直飞行,所用总时间为T1,表示为T1=tlevel+q·tvertical,其中tlevel表示水平方向飞行所占时间;tvertical表示垂直方向飞行所占时间(被设置为一定值);q是一个“0-1”二元变量,表示无人机在当前决策周期内是否存在垂直方向移动。当飞行轨迹确定后,由无人机前后两个工作点坐标以及飞行时间可以得到在此周期内无人机的水平飞行速度以及垂直飞行速度(若存在垂直方向的移动)。
水平飞行速度vxy表示为:
Figure BDA0002399715070000092
垂直飞行速度vz表示为:
Figure BDA0002399715070000093
当vxy和vz确定时,由S1中模型可以得到Plevel、Pvertical、Pdrag。在已知功率和飞行时间的前提下,可以计算出Etf,即
Etf=Plevel·tlevel+Pdrag·tlevel+Pvertical·tvertical (4.4)
(b)Etc:当无人机收集流量时,其主要消耗的能量来自于无人机悬停的能耗,因此,由Phover和T2可以计算得出:
Etc=Phover·T2 (4.5)
(c)Ets:由S4.3.1可知无人机实际卸载的流量为Wt=min{Wc,Wo},故无人机周期频谱感知和数据传输的能耗Ets也需要分两种情况讨论。若无人机实际卸载流量Wt=Wc,说明无人机收集的流量小于其实际能够卸载的流量,此时无人机可能以小于T3的时间完成流量卸载,此后将处于悬停状态而不再进行频谱感知。假设需要的感知周期数量为k,k<m,则剩余m-k个感知周期内无人机将处于悬停状态而不进行感知,此时可以得出:
Ets=k·(Ps·τs+p·Pt·Ts)+Phover·T3 (4.6)
若无人机实际卸载流量Wt=Wo,说明无人机收集的流量大于其实际能够卸载的流量,此时无人机将利用全部T3时段尽可能完成流量卸载,此种情况下其周期频谱感知和数据传输的能耗为:
Ets=m·(Ps·τs+p·Pt·Ts)+Phover·T3 (4.7)
综上,可以得出第t个决策周期内无人机消耗的能量:Et=Etf+Etc+Ets
S4.4 Q-Learning算法选择最优的飞行轨迹以及接入频带,确定最优策略
Q-Learning是基于值的强化学习算法,利用“状态-动作”值函数(亦称为Q 函数)迭代更新寻找最优策略π*。具体来说,在每个决策周期t内,无人机都会处于某个状态st。对于每个可选动作a,其都存在一个“状态-动作”值,记为 Q(st,a),即Q值,而当前的决策则是选择对应Q值最大的动作,即
Figure BDA0002399715070000101
动作确定之后,无人机会执行该动作并进入下一个状态st+1并得到奖励值rt,同时,由此更新对应的Q值:
Figure BDA0002399715070000102
随着时间推移,各Q值将收敛,而选择最大的Q值对应的动作则相当于使得累计奖励值的期望最大化。为了简化Q-Learning算法的求解过程,建立二维 Q-table,其行和列分别对应着状态和动作,每个单元格记录对应状态和动作的 Q值。在算法初始阶段,为了尽量遍历到更多情况(学习动态环境),根据ε-greedy 策略选择动作,即以ε概率随机选择动作,以1-ε概率选择Q值最大的动作。在算法开始时,初始化Q-table全部为0,输入为当前时隙状态,同时ε初始化为一个较大值,并依据ε-greedy策略选择动作,得到下一状态和当前决策周期内的奖励值,并利用公式(4.9)更新Q-table,依据上述步骤算法迭代直至终止状态,即剩余能量低于阈值,无人机将飞回充电站。随着算法迭代次数增加ε的值逐渐减小,这样在算法初始阶段,无人机有较大概率探索其他动作和状态用于更新Q值,从而学习更多环境信息,随着Q-table逐渐收敛,ε值逐渐减小,无人机将大概率根据每个状态选择Q值最大的动作,Q-table将逐渐收敛至最优策略,根据 Q-table可以指导无人机在每个状态下选择最优的飞行轨迹以及接入频带,实现能效的最大化。此外,该算法具有环境自适应性,当环境发生变化时,Q-table将重新调整,收敛至新的最优策略。
本发明的效果和益处:
(a)本发明综合考虑无人机能耗问题和回传链路的频谱供应问题,采用动态频谱接入技术,提出了一种基于无人机中继的能效最优的流量卸载策略,能够有效扩充移动通信网络的吞吐量以缓解由于用户流量需求骤增导致的网络拥塞。
(b)本发明设计了基于强化学习的智能决策算法,使得无人机能够根据动态变化的环境自适应地进行轨迹选择和频带选择,以最小的能耗卸载最多的流量,避免了传统集中式控制带来的额外开销,克服了环境动态性对策略制定带来的难题。
具体实施方式
以下结合技术方案,进一步说明本发明的具体实施方式。
考虑某大基站覆盖的一片区域,基站的坐标为(0,0,0),假设将该区域划分为 5个子区域,每个子区域内,无人机存在高、低两种工作模式,两种模式下对应的工作点坐标的集合分别为:Lh={l1h,l2h,l3h,l4h,l5h}和Ll={l1l,l2l,l3l,l4l,l5l}。每个子区域内有4个频带供动态共享接入,例如民航、电视等平均占空比不足20%的频段,4个频带的可用性情况亦不同。
为了更新Q-table,首先要计算每个决策周期内的奖励值,以第t个决策周期内的奖励值rt计算为例:
由S4.3.2可知在该周期内无人机消耗的能量Et=Etf+Etc+Ets,由S4.3.1可知在该周期内无人机卸载的流量Wt=min{Wc,Wo},因此,在当前决策周期内无人机得到的奖励值为
Figure BDA0002399715070000121
在系统运行中,首先建立Q-table,并将其所有值初始化为0,选定某一工作点作为无人机的初始状态,并基于ε-greedy策略选择动作,即无人机到下一工作点的飞行轨迹以及选择接入频带进行数据回传,决策完成后,无人机可以得到在该决策周期内卸载的流量以及消耗的能量,由此可以算得奖励值同时转移到下一状态,并利用公式(4.9)对Q值进行更新,若下一状态并非终止状态则以重复上述步骤进行迭代。在算法初始阶段,将ε设置为一个较大值,例如ε=0.8,随着算法迭代更新Q-table逐渐收敛,在算法迭代过程中,一般采用
Figure BDA0002399715070000122
作为ε值的迭代规则,t表示当前决策周期序号,运用此规则可以使ε值随着决策周期数增加逐渐减小最后趋于一个合理值,如10%。当Q-table最终收敛时,可以利用Q-table指导无人机在对应状态下做出决策,选择最优的飞行轨迹以及对应状态下的接入频谱,得到最优的流量卸载策略,即无人机的最优能效。下面给出算法全部流程:
Q-Learning算法:得到最优的流量卸载策略
初始化对于任意s∈S,a∈A(s),
初始化Q表全为0
初始化t=1,ε=0.8
重复:
初始化状态s
重复对于每个决策周期:
根据ε-greedy策略,在状态s下选择动作a
执行动作a获得奖励r和下一状态s'
t←t+1
Figure BDA0002399715070000131
更新ε值
Figure BDA0002399715070000132
更新Q值
s←s',更新状态
直到终止状态。

Claims (1)

1.一种基于强化学习的无人机中继智能流量卸载方法,系统环境为:一个单基站覆盖蜂窝网络,基站坐标记为(0,0,0),无人机充电站坐标记为(xb,yb,zb),蜂窝网络分为N个区域,无人机在每个区域内都有高空操作和低空操作两种工作模式,且两种工作模式下的工作地点固定,用坐标分别表示为(xhi,yhi,zh)和(xli,yli,zl),存在n个可感知的接入频带;其特征在于,具体如下:
S1无人机飞行功率模型
在无人机处于准静态的前提下,若无人机的质量为m,无人机的重量M=mg,g是重力加速度、水平飞行速度为vxy、垂直飞行速度为vz、空气密度为ρ、螺旋翼叶片面积为A,则无人机的飞行功率表达为:
S1.1无人机悬停功率Phover
Figure FDA0003911812340000011
S1.2水平飞行功率Plevel
Figure FDA0003911812340000012
S1.3垂直飞行功率Pvertical
Pvertical=M·vz=m·g·vz (1.3)
S1.4水平飞行克服空气阻力消耗的功率Pdrag
Figure FDA0003911812340000013
CD0是与螺旋翼叶片形状有关的空气阻力系数;
S2待卸载的用户流量需求
根据数据流的定义来描述待卸载的用户流量的特性,得到在某个决策周期内无人机收集的流量为Wc,单位为比特;
S3流量卸载和传输能耗模型
将无人机进行感知与传输或感知与等待的一次过程称为感知周期,在一个感知周期内,用于频谱感知的时间为τs,用于传输或等待的时间为Ts,用于频谱感知和数据传输的功率分别用Ps、Pt表示;在一个周期内卸载的流量Wperiod为:
Figure FDA0003911812340000021
其中,B表示接入频带的带宽,gd表示与无人机到基站之间的信道衰落有关的增益系数,与无人机到基站的距离有关,n0表示加性高斯白噪声的功率谱密度;二元变量p∈{0,1}表示频谱感知的结果,p=1表示频谱空闲,无人机可以接入该频带进行数据传输;p=0表示频谱被占用,无人悬停不进行数据传输;在一个感知周期内,无人机用于频谱感知和数据传输的能耗Eperiod表示为:
Eperiod=Ps·τs+p·Pt·Ts (3.2)
S4强化学习获得最优的流量卸载策略
将无人机完成飞行、流量收集和卸载的完整过程称为一个决策周期,并用T表示;在Q-Learning算法中假设决策周期T=T1+T2+T3,T1表示无人机飞行时间,T2表示其收集流量时间,T3表示无人机动态接入频谱进行传输的时间;在T3时间内无人机需要周期地感知频带,并根据感知的结果选择传输或等待,假设T3由m个感知周期构成,即T3=m(τs+Ts);
S4.1第t个决策周期内的状态st
在强化学习中,所有决策周期的状态集合称为状态空间集S,记为S={s1,s2,···,st,···};第t个决策周期的状态st影响当前决策周期的动作at,S包括:所有决策周期内无人机所处的位置L={l1,l2···,lt,···},无人机剩余的能量
Figure FDA0003911812340000022
以及T3时段内无人机选择接入频带的占空比D={d1,d2,···,dt,···};具体来说,st包括:无人机的位置lt=(xt,yt,zt);剩余能量
Figure FDA0003911812340000023
其中,
Figure FDA0003911812340000024
为无人机在前一决策周期内未执行决策时的能量,et-1为无人机在前一决策周期内执行决策消耗的能耗;当前决策周期内接入频带占空比dt={i,ηi,t-1},i为前一决策周期内接入频带的序号,ηi,t-1表示前一决策周期内接入频带的占空比,即前一决策周期内选择接入的频带被主用户占用的时间与T3之比;
则,st表示为:
Figure FDA0003911812340000031
任意决策周期内无人机剩余能量存在阈值b,若在决策周期内无人机消耗的能量使剩余能量低于阈值,则下一个状态为终止状态,即st+1=sT,无人机需要停止工作飞往充电站进行能量补充;
S4.2第t个决策周期内的动作at
所有决策周期的动作的集合称为动作空间集,记为A={a1,a2,···,at,···};对于任意一个决策周期的动作集at,包括无人机在该周期内飞行轨迹以及接入频带的选择,因此at表示为:at=A(st)={ft,ct};
ft和ct的具体意义如下:
S4.2.1轨迹选择ft
在任意决策周期内,ft是指无人机由当前工作点飞到下一个工作点的轨迹,若前后工作点的高度不一致,即zt≠zt+1时,无人机先飞平飞行再垂直飞行到达下一工作点;
S4.2.2频带选择ct
在任意一个决策周期内无人机需要从n个频带中选择一个用于数据回传;
S4.3第t个决策周期内的奖励值rt
第t个决策周期内,智能体在状态st下执行动作at,转移到下一状态st+1并得到奖励rt;奖励rt设置为第t个决策周期内卸载的流量Wt与消耗的能量Et的比值,表示为:
Figure FDA0003911812340000032
Wt与Et的具体意义如下:
S4.3.1第t个决策周期内无人机卸载的流量Wt
第t个决策周期内,无人机在该决策周期内收集的流量为Wc,无人机在一个感知周期内可以卸载的流量为Wperiod,由于在一个决策周期内存在m个感知周期,即T3=m(τs+Ts),所以无人机在第t个决策周期内能够卸载的流量Wo为:
Figure FDA0003911812340000041
实际卸载的流量Wt应为Wc和Wo中的最小值,即Wt=min{Wc,Wo};
S4.3.2第t个决策周期内无人机消耗的能量Et
Et包括:无人机在该决策周期的T1时间段内飞行能耗Etf、T2时间段内收集流量能耗Etc、T3时间段内周期频谱感知和数据传输的能耗Ets
(a)Etf:当前后两个工作点高度不同时,无人机先水平飞行后垂直飞行,所用总时间为T1,表示为T1=tlevel+q·tvertical,其中tlevel表示水平方向飞行所占时间;tvertical表示垂直方向飞行所占时间;q是一个0-1二元变量,表示无人机在当前决策周期内是否存在垂直方向移动;当飞行轨迹确定后,由无人机前后两个工作点坐标以及飞行时间得到在此周期内无人机的水平飞行速度以及垂直飞行速度;
水平飞行速度vxy表示为:
Figure FDA0003911812340000042
垂直飞行速度vz表示为:
Figure FDA0003911812340000043
当vxy和vz确定时,由S1中模型得到Plevel、Pvertical、Pdrag;在已知功率和飞行时间的前提下,计算出Etf,即
Etf=Plevel·tlevel+Pdrag·tlevel+Pvertical·tvertical (4.4)
(b)Etc:当无人机收集流量时,无人机主要消耗的能量来自于无人机悬停的能耗,因此,Etc由Phover和T2计算得出:
Etc=Phover·T2 (4.5)
(c)Ets:若无人机实际卸载流量Wt=Wc,说明无人机收集的流量小于其实际能够卸载的流量,此时无人机可能以小于T3的时间完成流量卸载,此后将处于悬停状态而不再进行频谱感知;假设需要的感知周期数量为k,k<m,则剩余m-k个感知周期内无人机将处于悬停状态而不进行感知,此时得出:
Ets=k·(Ps·τs+p·Pt·Ts)+Phover·T3 (4.6)
若无人机实际卸载流量Wt=Wo,说明无人机收集的流量大于其实际能够卸载的流量,此时无人机将利用全部T3时段尽可能完成流量卸载,此种情况下其周期频谱感知和数据传输的能耗为:
Ets=m·(Ps·τs+p·Pt·Ts)+Phover·T3 (4.7)
综上,得出第t个决策周期内无人机消耗的能量:Et=Etf+Etc+Ets
S4.4 Q-Learning算法选择最优的飞行轨迹以及接入频带,确定最优策略
在每个决策周期t内,无人机都会处于某个状态st;对于每个可选动作a,其都存在一个状态-动作值,记为Q(st,a),即Q值,而当前的决策则是基于ε-greedy策略选择第t个决策周期内的动作at,动作确定之后,无人机会执行该动作并进入下一个状态st+1并得到奖励值rt,同时,更新对应的Q值:
Q(st,at)←Q(st,at)+α[rt+1+γmaxQ(st+1,a)-Q(st,at)] (4.8)
随着时间推移,各Q值将收敛,而选择最大的Q值对应的动作则相当于使得累计奖励值的期望最大化的最优动作
Figure FDA0003911812340000051
即:
Figure FDA0003911812340000052
为简化Q-Learning算法的求解过程,建立二维Q-table,其行和列分别对应着状态和动作,每个单元格记录对应状态和动作的Q值;在算法初始阶段,为了尽量遍历到更多情况,根据ε-greedy策略选择动作,即以ε概率随机选择动作,以1-ε概率选择Q值最大的动作;在算法开始时,初始化Q-table全部为0,输入为当前时隙状态,同时ε初始化取值为0.8,并依据ε-greedy策略选择动作,得到下一状态和当前决策周期内的奖励值,并利用公式(4.9)更新Q-table,依据上述步骤算法迭代直至终止状态,即剩余能量低于阈值,无人机将飞回充电站;随着算法迭代次数增加ε的值逐渐减小,在算法初始阶段,无人机将探索其他动作和状态用于更新Q值,从而学习更多环境信息,随着Q-table逐渐收敛,ε值逐渐减小,无人机将根据每个状态选择Q值最大的动作,Q-table将逐渐收敛至最优策略,根据Q-table指导无人机在每个状态下选择最优的飞行轨迹以及接入频带,实现能效的最大化;当环境发生变化时,Q-table将重新调整,收敛至新的最优策略。
CN202010142914.7A 2020-03-04 2020-03-04 基于强化学习的无人机中继智能流量卸载方法 Active CN111432433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010142914.7A CN111432433B (zh) 2020-03-04 2020-03-04 基于强化学习的无人机中继智能流量卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010142914.7A CN111432433B (zh) 2020-03-04 2020-03-04 基于强化学习的无人机中继智能流量卸载方法

Publications (2)

Publication Number Publication Date
CN111432433A CN111432433A (zh) 2020-07-17
CN111432433B true CN111432433B (zh) 2023-02-10

Family

ID=71547484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010142914.7A Active CN111432433B (zh) 2020-03-04 2020-03-04 基于强化学习的无人机中继智能流量卸载方法

Country Status (1)

Country Link
CN (1) CN111432433B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112073110B (zh) * 2020-06-10 2022-04-01 合肥工业大学 流量需求下无人机协同中继网络快速生成方法和系统
CN112202848B (zh) * 2020-09-15 2021-11-30 中国科学院计算技术研究所 基于深度强化学习的无人系统网络自适应路由方法和系统
CN112188441A (zh) * 2020-10-15 2021-01-05 中南大学 边缘网络中采用无人机的任务卸载方法、系统及存储介质
US20220148434A1 (en) * 2020-11-11 2022-05-12 AT&T Technical Services Company, Inc. System and method for selecting long-lasting anchor base stations for unmanned aerial vehicles
CN114884595B (zh) * 2022-04-13 2023-01-03 大连理工大学 一种基于强化学习的认知无人机频谱感知方法
CN115713222B (zh) * 2023-01-09 2023-07-04 南京邮电大学 一种效用驱动的无人机感知网络充电调度方法
CN116704823B (zh) * 2023-06-12 2023-12-19 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839955A (zh) * 2019-02-25 2019-06-04 南京航空航天大学 一种无人机与多个地面终端进行无线通信的轨迹优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955291B (zh) * 2016-04-29 2021-04-27 深圳市哈博森科技有限公司 一种无人机飞行航线轨迹记录与自动飞行控制方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109839955A (zh) * 2019-02-25 2019-06-04 南京航空航天大学 一种无人机与多个地面终端进行无线通信的轨迹优化方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Energy-efficient optimization for UAV-aided cellular offloading;Meng Hua等;《IEEE Wireless Communications Letters》;20190109;第08卷(第03期);第769-772页 *
Energy-efficient UAV relaying communications to serve ground nodes;Shakil Ahmed等;《IEEE Communications Letters》;20200109;第24卷(第04期);第849-852页 *
Flying IoT: Toward Low-Power Vision in the Sky;Hasan Genc;《IEEE Micro》;20171123;第37卷(第06期);第40-51页 *
Resource allocation and trajectory optimization for QoE provisioning in energy-efficient UAV-enabled wireless networks;Fanzi Zeng等;《IEEE Transactions on Vehicular Technology》;20200113;第69卷(第07期);第7634-7647页 *
基于干扰对齐的无人机通信能效优化;杨曼柔;《大连理工大学硕士论文》;20200215;全文 *
基于强化学习的无线网络智能接入控制技术;严牧等;《中兴通讯技术》;20180322;第24卷(第02期);第10-14+46页 *

Also Published As

Publication number Publication date
CN111432433A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111432433B (zh) 基于强化学习的无人机中继智能流量卸载方法
Liu et al. Average AoI minimization in UAV-assisted data collection with RF wireless power transfer: A deep reinforcement learning scheme
Zhang et al. Energy-efficient trajectory optimization for UAV-assisted IoT networks
Li et al. A prediction-based charging policy and interference mitigation approach in the wireless powered Internet of Things
Shi et al. Drone-cell trajectory planning and resource allocation for highly mobile networks: A hierarchical DRL approach
CN111193536A (zh) 一种多无人机基站轨迹优化和功率分配方法
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
Li et al. Deep Q-learning based resource management in UAV-assisted wireless powered IoT networks
CN112564767B (zh) 无人机网络中基于自组织优化协作的连续覆盖方法
Li et al. When UAVs meet cognitive radio: Offloading traffic under uncertain spectrum environment via deep reinforcement learning
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN108834049A (zh) 无线供能通信网络及确定其工作状态的方法、装置
Liu et al. Multiobjective optimization for improving throughput and energy efficiency in UAV-enabled IoT
CN113055078A (zh) 有效信息年龄确定方法、以及无人机飞行轨迹优化方法
CN114650567A (zh) 一种无人机辅助v2i网络任务卸载方法
CN116113025A (zh) 一种无人机协能通信网络中轨迹设计和功率分配方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
Taimoor et al. Holistic resource management in UAV-assisted wireless networks: An optimization perspective
Liu et al. Computation offloading and resource allocation in unmanned aerial vehicle networks
Xia et al. Toward digitalizing the wireless environment: A unified A2G information and energy delivery framework based on binary channel feature map
Hu et al. Reinforcement learning for energy efficiency improvement in UAV-BS access networks: A knowledge transfer scheme
Zhang et al. QoS maximization scheduling of multiple UAV base stations in 3D environment
Zhou et al. Game theory and machine learning in uavs-assisted wireless communication networks: A survey
CN113776531A (zh) 无线自供电通信网络的多无人机自主导航及任务分配算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant