CN111132192A - 一种无人机基站在线轨迹优化方法 - Google Patents

一种无人机基站在线轨迹优化方法 Download PDF

Info

Publication number
CN111132192A
CN111132192A CN201911284219.8A CN201911284219A CN111132192A CN 111132192 A CN111132192 A CN 111132192A CN 201911284219 A CN201911284219 A CN 201911284219A CN 111132192 A CN111132192 A CN 111132192A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
communication
trajectory
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911284219.8A
Other languages
English (en)
Other versions
CN111132192B (zh
Inventor
张广驰
严雨琳
崔苗
林凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201911284219.8A priority Critical patent/CN111132192B/zh
Publication of CN111132192A publication Critical patent/CN111132192A/zh
Application granted granted Critical
Publication of CN111132192B publication Critical patent/CN111132192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/08Access point devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无人机基站在线轨迹优化方法,通过建立无人机基站通信模型;确定无人机在轨迹策略μ下的平均通信时延函数;利用强化学习算法确定使平均通信时延函数最小的最优轨迹策略,完成无人机基站在线轨迹优化。该方法对通信的模型没有要求,也不需要对环境完全已知,通过提出一个优化问题来最小化无人机基站和用户之间的平均通信时延,并将该优化问题转换成马尔可夫决策过程进行求解。基于强化学习对无人机轨迹进行训练,每一次轨迹训练都能够得到一个回报,根据多次训练得到的回报来更新动作值函数,在训练完毕后,无人机可以根据动作值函数对用户的通信请求做出决策,从而最小化无人机与用户之间的平均通信时延。

Description

一种无人机基站在线轨迹优化方法
技术领域
本发明涉及无人机通信技术领域,尤其涉及一种无人机基站在线轨迹优化方法。
背景技术
在过去的十年中,无人机在无线通信领域引起了广泛的关注。由于无人机灵活性高,移动性高,成本低等特点,使得无人机在很多领域充分发挥了无人机独特的优势。目前使用的基站都是固定静止的,不能满足不断增加的用户设备和高数据速率的需求。为了解决上述问题,无人机与蜂窝网络融合,即无人机基站应运而生。在基础设施覆盖不足的情况下,把无人机作为空中通信基站,为用户设备提供无线通信服务。
目前无人机轨迹优化采用的方法属于离线优化。例如在文章Joint Trajectoryand Communication Design for Multi-UAV Enabled Wireless Networks中,采用了块坐标下降法和连续凸逼近算法优化无人机的轨迹和发射功率,这些算法是在对通信环境的完美假设基础上进行的。离线优化方法,首先需要制定一个易于分析的、可优化的通信系统模型,包括信道模型以及传播环境模型。其次,离线优化还需要对用户的通信请求进行估计和建模,需要完美的建模参数。即使有精确的建模和所有相关参数的信息,现代通信系统中的大多数优化问题都是非凸的,很难有效的解决。然而实际中,通信的环境是不断变化的,用户的通信请求也是随机的、不可预测的,所以以上的假设都不可能。因此无人机在随机的通信请求情况下难以较好地完成轨迹优化。
发明内容
本发明为解决现有的无人机轨迹离线优化方法在在随机的通信请求情况下难以较好地完成轨迹优化的问题,提供了一种无人机基站在线轨迹优化方法。
为实现以上发明目的,而采用的技术手段是:
一种无人机基站在线轨迹优化方法,包括:
S1.建立无人机基站通信模型;
S2.确定无人机在轨迹策略μ下的平均通信时延函数;
S3.利用强化学习算法确定使所述平均通信时延函数最小的最优轨迹策略,完成无人机基站在线轨迹优化。
优选的,步骤S1所述的无人机基站通信模型具体为:包括一个无人机和两个地面节点UE1和UE2,设定地面节点UE1的位置坐标为x1=-a,地面节点UE2的位置坐标为x2=a,无人机飞行高度H不变,无人机沿两个地面节点连接的线段移动,t时刻时无人机在x轴的位置为q(t),q(t)∈[-a,a],无人机的飞行速度为|q′(t)|∈{0,V},通信信道是视距信道,无人机的通信功率固定为Pc,则在t时刻时无人机与地面节点UE1、UE2之间的瞬时通信速率为:
Figure BDA0002317568220000021
其中xr为无人机的位置,r∈{1,2},H2+(q(t)-xr)2为无人机与地面节点的距离的平方,B为信道带宽,γ为参考距离为1m时的信噪比。
优选的,步骤S2所述的无人机在轨迹策略μ下的平均通信时延函数具体为:
每个地面节点发出的通信请求是独立同分布,服从均值为λ/2的泊松过程,每次通信请求的信息量为L比特;无人机收到地面节点UEr的通信请求后,无人机处于通信状态,此时无人机传输L比特给地面节点UEr,另一地面节点的通信请求会被忽略;当完成通信的数据传输后,无人机进开始等待下一次通信请求:
令Δl为无人机完成第l次通信请求的时延,Mt为t时刻无人机完成的通信请求总次数,定义无人机的给定起始位置为q(0)=0,则轨迹策略μ下的平均通信时延函数为:
Figure BDA0002317568220000022
优选的,所述步骤S3包括:对所述无人机的轨迹离散化,将确定使所述平均通信时延函数最小的最优轨迹策略的问题建模为马尔科夫决策过程模型,对其中的状态空间、动作、动作策略及时延函数建模,并利用强化学习算法求解最优轨迹策略,从而完成无人机基站在线轨迹优化。
优选的,步骤S3中所述将确定使所述平均通信时延函数最小的最优轨迹策略的问题建模为马尔科夫决策过程模型,对其中的状态空间、动作、动作策略及时延函数建模具体为:
(1)状态空间:S=I×R,R={0,1,2}表示请求状态,其中R=0表示没有请求,R=1表示接收到来自地面节点UE1的请求,R=2表示接收到来自地面节点UE2的请求;I为无人机轨迹离散化的位置索引序列{-N,-N+1,…,N-1,N},其对应的位置集合是
Figure BDA0002317568220000031
将状态空间分为等待状态Swait=I×{0}和通信状态Scomm=I×{1,2};
(2)动作:设无人机处于等待状态Sn=(i,0)∈Swait,表示无人机处于qi的位置没有接收到请求;动作集合为m={-1,0,1},其中m=-1表示无人机向左移动到qi+1,m=0表示无人机停留盘旋,m=1表示无人机向右移动到qi-1;每个动作所花费的时间,即无人机在两个相邻的离散点所需时间为
Figure BDA0002317568220000032
当无人机处于通信状态Sn=(i,r)∈Scomm,r=1,2,表示无人机接收到来自地面节点UEr的请求,无人机为地面节点UEr提供L比特数据;此时的动作集合为从qi开始的轨迹,可选的轨迹须满足:
Figure BDA0002317568220000033
在通信阶段须传输完所有数据,这段时间T定义为通信时延;定义通信状态的动作集合为Ar(i)=UjAr(i→j),Ar(i→j)是指为GNr服务,起点为qi,终点为qj的可行的轨迹集合:
Figure BDA0002317568220000034
(3)动作策略:以ε的概率在动作集A中随机选择动作a,以1-ε的概率采取贪婪策略:
Figure BDA0002317568220000035
(4)时延:无人机从对地面节点UEr的L比特数据传输的所需时间,
Figure BDA0002317568220000037
表示为UEr服务,起点为qi,终点为qj的轨迹中最小化的通信时延:
Figure BDA0002317568220000036
对于任何一个通信状态(i,r)都有2N+1条轨迹是最优的,在每个可能的结束位置qj∈Q都有一条最优的轨迹;即确定使所述平均通信时延函数最小的最优轨迹策略的问题转变为:确定使所述平均通信时延函数最小的最优等待策略和结束位置策略问题。
优选的,步骤S3所述时延函数中UEr服务,起点为qi,终点为qj的轨迹中的最小化通信时延
Figure BDA0002317568220000041
求解为:
Figure BDA0002317568220000042
定义
Figure BDA0002317568220000043
p1,p2∈[-a,a]是无人机以最大速度V从p1飞到p2的总时间,在p1到p2的轨迹中,无人机发送给地面节点UEr的信息量为:
Figure BDA0002317568220000044
由于
Figure BDA0002317568220000045
定义轨迹为{p1→(p2,δ)→p3},表示无人机从p1飞向p2,然后停留δ时间再飞向p3
定义q*(·)∈Ar(i→j)是起点为qi,终点为qj的最小化通信时延
Figure BDA0002317568220000046
的轨迹;若
Figure BDA0002317568220000047
轨迹为:
q*(·)={qi→(qj,0)→qj}
无人机以最大速度从qi飞向qj,没有中断,此情况的通信时延为
Figure BDA0002317568220000048
Figure BDA0002317568220000049
轨迹为:
q*(·)={qi→(xr,δ*)→qj}
无人机以最大的速度从qi飞向xr,在xr悬停δ*时间,然后再飞向qj,此情况的通信时延为
Figure BDA00023175682200000410
Figure BDA00023175682200000411
Figure BDA00023175682200000412
轨迹为:
q*(·)={qi→(p*,0)→qj}
无人机以最大速度从qi飞向xr,到达p*之后,返回飞向qj,此情况的通信时延为
Figure BDA00023175682200000413
当r=1时,p*是[xr,min{qi,qj}]区间内的唯一解;当r=2,p*是[max{qi,qj},xr]区间内的唯一解。
优选的,步骤S3中所述利用强化学习算法求解最优轨迹策略,从而完成无人机基站在线轨迹优化具体为:
当无人机处于等待状态时,最优轨迹策略的计算为:
Figure BDA0002317568220000051
其中m=-1表示无人机向左移动到qi+1,m=0表示无人机停留盘旋,m=1表示无人机向右移动到qi-1
当无人机处于通信状态时,最优轨迹策略的计算为:
A.初始化:设置强化学习的探索参数ε,最大训练次数Nepi,平均通信时延d,动作值函数D(s,a)=0,
Figure BDA0002317568220000052
通信次数N=0,随机选择初始状态s;
B.执行以下循环计算,直至通信次数N=Nepi时结束循环:
B1.根据ε-greedy选择动作a,即通信状态的轨迹;
B2.采取动作a,得到通信时延
Figure BDA0002317568220000053
通信次数N=N+1,根据动作得到下一个状态s′;
B3.更新公式:
Figure BDA0002317568220000054
B4.更新s=s′,平均通信时延d=D(s,a)。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的无人机基站在线轨迹优化方法对通信的模型没有要求,也不需要对环境完全已知。本方法通过提出一个优化问题来最小化无人机基站和用户之间的平均通信时延,并将该优化问题转换成马尔可夫决策过程进行求解。基于强化学习对无人机轨迹进行训练,每一次轨迹训练都能够得到一个回报,根据多次训练得到的回报来更新动作值函数,在训练完毕后,无人机可以根据动作值函数对用户的通信请求做出决策,从而最小化无人机与用户之间的平均通信时延。
附图说明
图1为本发明的方法流程图。
图2为本发明中的无人机基站通信模型。
图3为本发明中强化学习算法的原理图。
图4为本发明中
Figure BDA0002317568220000055
的求解流程图。
图5为本发明中无人机处于通信状态时最优轨迹策略的计算流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种无人机基站在线轨迹优化方法,如图1所示,包括:
S1.建立无人机基站通信模型,如图2所示,无人机基站通信模型包括一个无人机和两个地面节点UE1和UE2,设定地面节点UE1的位置坐标为x1=-a,地面节点UE2的位置坐标为x2=a,无人机飞行高度H不变,无人机沿两个地面节点连接的线段移动,t时刻时无人机在x轴的位置为q(t),q(t)∈[-a,a],无人机的飞行速度为|q′(t)|∈{0,V},通信信道是视距信道,无人机的通信功率固定为Pc,则在t时刻时无人机与地面节点UE1、UE2之间的瞬时通信速率为:
Figure BDA0002317568220000061
其中xr为无人机的位置,r∈{1,2},H2+(q(t)-xr)2为无人机与地面节点的距离的平方,B为信道带宽,γ为参考距离为1m时的信噪比。
S2.确定无人机在轨迹策略μ下的平均通信时延函数;
每个地面节点发出的通信请求是独立同分布,服从均值为λ/2的泊松过程,每次通信请求的信息量为L比特;无人机收到地面节点UEr的通信请求后,无人机处于通信状态,此时无人机传输L比特给地面节点UEr,另一地面节点的通信请求会被忽略;当完成通信的数据传输后,无人机进开始等待下一次通信请求:
令Δl为无人机完成第l次通信请求的时延,Mt为t时刻无人机完成的通信请求总次数,定义无人机的给定起始位置为q(0)=0,则轨迹策略μ下的平均通信时延函数为:
Figure BDA0002317568220000062
虽然服务请求(比如来自地面节点UE1)的最小延迟是无人机以最大速度飞向UE1来提高链路质量来实现,但是从平均延迟的角度来看,如果无人机在完成UE1的请求后立即收到来自UE2的新请求,此时为UE2服务的延迟可能很大,因为无人机必须覆盖很大的距离。因此有下述步骤S3;
S3.利用强化学习算法确定使所述平均通信时延函数最小的最优轨迹策略,完成无人机基站在线轨迹优化。
首先介绍强化学习算法:如图3所示,目标通过动作和奖励与环境交互学习,定义为不完全已知的马尔可夫决策过程。强化学习中的目标根据状态S在动作空间A里面选择动作a,奖励T(s,a)表示所选择的动作对目标的贡献,并向目标提供信息,一系列的动作组成策略π(s)。
在本实施例中,对无人机的轨迹离散化,从而将确定使所述平均通信时延函数最小的最优轨迹策略的问题建模为马尔科夫决策过程模型,对其中的状态空间、动作、动作策略及时延函数建模,并利用强化学习算法求解最优轨迹策略,从而完成无人机基站在线轨迹优化。
其中将确定使所述平均通信时延函数最小的最优轨迹策略的问题建模为马尔科夫决策过程模型,对其中的状态空间、动作、动作策略及时延函数建模具体为:
(1)状态空间:S=I×R,R={0,1,2}表示请求状态,其中R=0表示没有请求,R=1表示接收到来自地面节点UE1的请求,R=2表示接收到来自地面节点UE2的请求;I为无人机轨迹离散化的位置索引序列{-N,-N+1,…,N-1,N},其对应的位置集合是
Figure BDA0002317568220000071
将状态空间分为等待状态Swait=I×{0}和通信状态Scomm=I×{1,2};
(2)动作:设无人机处于等待状态Sn=(i,0)∈Swait,表示无人机处于qi的位置没有接收到请求;动作集合为m={-1,0,1},其中m=-1表示无人机向左移动到qi+1,m=0表示无人机停留盘旋,m=1表示无人机向右移动到qi-1;每个动作所花费的时间,即无人机在两个相邻的离散点所需时间为
Figure BDA0002317568220000072
当无人机处于通信状态Sn=(i,r)∈Scomm,r=1,2,表示无人机接收到来自地面节点UEr的请求,无人机为地面节点UEr提供L比特数据;此时的动作集合为从qi开始的轨迹,可选的轨迹须满足:
Figure BDA0002317568220000073
在通信阶段须传输完所有数据,这段时间T定义为通信时延;定义通信状态的动作集合为Ar(i)=UjAr(i→j),Ar(i→j)是指为GNr服务,起点为qi,终点为qj的可行的轨迹集合:
Figure BDA0002317568220000081
(3)动作策略:以ε的概率在动作集A中随机选择动作a,以1-ε的概率采取贪婪策略:
Figure BDA0002317568220000082
(4)时延:无人机从对地面节点UEr的L比特数据传输的所需时间,
Figure BDA0002317568220000083
表示为UEr服务,起点为qi,终点为qj的轨迹中最小化的通信时延:
Figure BDA0002317568220000084
对于任何一个通信状态(i,r)都有2N+1条轨迹是最优的,在每个可能的结束位置qj∈Q都有一条最优的轨迹;即确定使所述平均通信时延函数最小的最优轨迹策略的问题转变为:确定使所述平均通信时延函数最小的最优等待策略和结束位置策略问题。
以下简要证明上述关于q*(·)和
Figure BDA0002317568220000085
的求解。假设r=2(r=1的情况和r=2对称),对于任意一条轨迹q(·)∈A2(i→j),时延为Δt,可以找到另外一条轨迹
Figure BDA0002317568220000086
时延同为Δt,满足
Figure BDA0002317568220000087
无人机在
Figure BDA0002317568220000088
轨迹下总是比在q(·)轨迹下更靠近地面节点UE2,因此在相同时延的情况下,无人机在
Figure BDA0002317568220000089
轨迹下总是比在q(·)轨迹下能够传输更大的信息量。即
Figure BDA00023175682200000810
能够减少时延。
如图4所示,其中
Figure BDA00023175682200000811
可以求解为:
Figure BDA00023175682200000812
定义
Figure BDA00023175682200000813
p1,p2∈[-a,a]是无人机以最大速度V从p1飞到p2的总时间,在p1到p2的轨迹中,无人机发送给地面节点UEr的信息量为:
Figure BDA00023175682200000814
由于
Figure BDA00023175682200000815
定义轨迹为{p1→(p2,δ)→p3},表示无人机从p1飞向p2,然后停留δ时间再飞向p3
定义q*(·)∈Ar(i→j)是起点为qi,终点为qj的最小化通信时延
Figure BDA0002317568220000091
的轨迹;若
Figure BDA0002317568220000092
轨迹为:
q*(·)={qi→(qj,0)→qj}
无人机以最大速度从qi飞向qj,没有中断,此情况的通信时延为
Figure BDA0002317568220000093
Figure BDA0002317568220000094
轨迹为:
q*(·)={qi→(xr,δ*)→qj}
无人机以最大的速度从qi飞向xr,在xr悬停δ*时间,然后再飞向qj,此情况的通信时延为
Figure BDA0002317568220000095
Figure BDA0002317568220000096
Figure BDA0002317568220000097
轨迹为:
q*(·)={qi→(p*,0)→qj}
无人机以最大速度从qi飞向xr,到达p*之后,返回飞向qj,此情况的通信时延为
Figure BDA0002317568220000098
当r=1时,p*是[xr,min{qi,qj}]区间内的唯一解;当r=2,p*是[max{qi,qj},xr]区间内的唯一解。
利用强化学习算法求解最优轨迹策略,从而完成无人机基站在线轨迹优化,如图5所示,具体为:
当无人机处于等待状态时,最优轨迹策略的计算为:
Figure BDA0002317568220000099
其中m=-1表示无人机向左移动到qi+1,m=0表示无人机停留盘旋,m=1表示无人机向右移动到qi-1
当无人机处于通信状态时,最优轨迹策略的计算为:
A.初始化:设置强化学习的探索参数ε=0.001,最大训练次数Nepi=1×108,平均通信时延d=0,动作值函数D(s,a)=0,
Figure BDA00023175682200000910
通信次数N=0,随机选择初始状态s;
B.执行以下循环计算,直至通信次数N=Nepi时结束循环:
B1.根据ε-greedy随机选择动作a,即通信状态的轨迹;
B2.采取动作a,得到通信时延
Figure BDA00023175682200000911
通信次数N=N+1,根据动作得到下一个状态s′;
B3.更新公式:
Figure BDA0002317568220000101
B4.更新s=s′,平均通信时延d=D(s,a)。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种无人机基站在线轨迹优化方法,其特征在于,包括:
S1.建立无人机基站通信模型;
S2.确定无人机在轨迹策略μ下的平均通信时延函数;
S3.利用强化学习算法确定使所述平均通信时延函数最小的最优轨迹策略,完成无人机基站在线轨迹优化。
2.根据权利要求1所述的无人机基站在线轨迹优化方法,其特征在于,步骤S1所述的无人机基站通信模型具体为:包括一个无人机和两个地面节点UE1和UE2,设定地面节点UE1的位置坐标为x1=-a,地面节点UE2的位置坐标为x2=a,无人机飞行高度H不变,无人机沿两个地面节点连接的线段移动,t时刻时无人机在x轴的位置为q(t),q(t)∈[-a,a],无人机的飞行速度为|q′(t)|∈{0,V},通信信道是视距信道,无人机的通信功率固定为Pc,则在t时刻时无人机与地面节点UE1、UE2之间的瞬时通信速率为:
Figure FDA0002317568210000011
其中xr为无人机的位置,r∈{1,2},H2+(q(t)-xr)2为无人机与地面节点的距离的平方,B为信道带宽,γ为参考距离为1m时的信噪比。
3.根据权利要求2所述的无人机基站在线轨迹优化方法,其特征在于,步骤S2所述的无人机在轨迹策略μ下的平均通信时延函数具体为:
每个地面节点发出的通信请求是独立同分布,服从均值为λ/2的泊松过程,每次通信请求的信息量为L比特;无人机收到地面节点UEr的通信请求后,无人机处于通信状态,此时无人机传输L比特给地面节点UEr,另一地面节点的通信请求会被忽略;当完成通信的数据传输后,无人机进开始等待下一次通信请求:
令Δl为无人机完成第l次通信请求的时延,Mt为t时刻无人机完成的通信请求总次数,定义无人机的给定起始位置为q(0)=0,则轨迹策略μ下的平均通信时延函数为:
Figure FDA0002317568210000012
4.根据权利要求3所述的无人机基站在线轨迹优化方法,其特征在于,所述步骤S3包括:对所述无人机的轨迹离散化,将确定使所述平均通信时延函数最小的最优轨迹策略的问题建模为马尔科夫决策过程模型,对其中的状态空间、动作、动作策略及时延函数建模,并利用强化学习算法求解最优轨迹策略,从而完成无人机基站在线轨迹优化。
5.根据权利要求4所述的无人机基站在线轨迹优化方法,其特征在于,步骤S3中所述将确定使所述平均通信时延函数最小的最优轨迹策略的问题建模为马尔科夫决策过程模型,对其中的状态空间、动作、动作策略及时延函数建模具体为:
(1)状态空间:S=I×R,R={0,1,2}表示请求状态,其中R=0表示没有请求,R=1表示接收到来自地面节点UE1的请求,R=2表示接收到来自地面节点UE2的请求;I为无人机轨迹离散化的位置索引序列{-N,-N+1,…,N-1,N},其对应的位置集合是
Figure FDA0002317568210000021
将状态空间分为等待状态Swait=I×{0}和通信状态Scomm=I×{1,2};
(2)动作:设无人机处于等待状态Sn=(i,0)∈Swait,表示无人机处于qi的位置没有接收到请求;动作集合为m={-1,0,1},其中m=-1表示无人机向左移动到qi+1,m=0表示无人机停留盘旋,m=1表示无人机向右移动到qi-1;每个动作所花费的时间,即无人机在两个相邻的离散点所需时间为
Figure FDA0002317568210000022
当无人机处于通信状态Sn=(i,r)∈Scomm,r=1,2,表示无人机接收到来自地面节点UEr的请求,无人机为地面节点UEr提供L比特数据;此时的动作集合为从qi开始的轨迹,可选的轨迹须满足:
0 TRr(q(τ))dτ≥L
在通信阶段须传输完所有数据,这段时间T定义为通信时延;定义通信状态的动作集合为Ar(i)=UjAr(i→j),Ar(i→j)是指为GNr服务,起点为qi,终点为qj的可行的轨迹集合:
Figure FDA0002317568210000023
(3)动作策略:以ε的概率在动作集A中随机选择动作a,以1-ε的概率采取贪婪策略:
Figure FDA0002317568210000031
(4)时延:无人机从对地面节点UEr的L比特数据传输的所需时间,
Figure FDA00023175682100000314
表示为UEr服务,起点为qi,终点为qj的轨迹中最小化的通信时延:
Figure FDA0002317568210000032
对于任何一个通信状态(i,r)都有2N+1条轨迹是最优的,在每个可能的结束位置qj∈Q都有一条最优的轨迹;即确定使所述平均通信时延函数最小的最优轨迹策略的问题转变为:确定使所述平均通信时延函数最小的最优等待策略和结束位置策略问题。
6.根据权利要求5所述的无人机基站在线轨迹优化方法,其特征在于,步骤S3所述时延函数中UEr服务,起点为qi,终点为qj的轨迹中的最小化通信时延
Figure FDA0002317568210000033
求解为:
Figure FDA0002317568210000034
定义
Figure FDA0002317568210000035
p1,p2∈[-a,a]是无人机以最大速度V从p1飞到p2的总时间,在p1到p2的轨迹中,无人机发送给地面节点UEr的信息量为:
Figure FDA0002317568210000036
由于
Figure FDA0002317568210000037
定义轨迹为{p1→(p2,δ)→p3},表示无人机从p1飞向p2,然后停留δ时间再飞向p3
定义q*(·)∈Ar(i→j)是起点为qi,终点为qj的最小化通信时延
Figure FDA0002317568210000038
的轨迹;若
Figure FDA0002317568210000039
轨迹为:
q*(·)={qi→(qj,0)→qj}
无人机以最大速度从qi飞向qj,没有中断,此情况的通信时延为
Figure FDA00023175682100000310
Figure FDA00023175682100000311
轨迹为:
q*(·)={qi→(xr,δ*)→qj}
无人机以最大的速度从qi飞向xr,在xr悬停δ*时间,然后再飞向qj,此情况的通信时延为
Figure FDA00023175682100000312
Figure FDA00023175682100000313
Figure FDA0002317568210000041
轨迹为:
q*(·)={qi→(p*,0)→qj}
无人机以最大速度从qi飞向xr,到达p*之后,返回飞向qj,此情况的通信时延为
Figure FDA0002317568210000042
当r=1时,p*是[xr,min{qi,qj}]区间内的唯一解;当r=2,p*是[max{qi,qj},xr]区间内的唯一解。
7.根据权利要求6所述的无人机基站在线轨迹优化方法,其特征在于,步骤S3中所述利用强化学习算法求解最优轨迹策略,从而完成无人机基站在线轨迹优化具体为:
当无人机处于等待状态时,最优轨迹策略的计算为:
Figure FDA0002317568210000043
其中m=-1表示无人机向左移动到qi+1,m=0表示无人机停留盘旋,m=1表示无人机向右移动到qi-1
当无人机处于通信状态时,最优轨迹策略的计算为:
A.初始化:设置强化学习的探索参数ε,最大训练次数Nepi,平均通信时延d,动作值函数D(s,a)=0,
Figure FDA0002317568210000044
通信次数N=0,随机选择初始状态s;
B.执行以下循环计算,直至通信次数N=Nepi时结束循环:
B1.根据ε-greedy选择动作a,即通信状态的轨迹;
B2.采取动作a,得到通信时延
Figure FDA0002317568210000045
通信次数N=N+1,根据动作得到下一个状态s′;
B3.更新公式:
Figure FDA0002317568210000046
B4.更新s=s′,平均通信时延d=D(s,a)。
CN201911284219.8A 2019-12-13 2019-12-13 一种无人机基站在线轨迹优化方法 Active CN111132192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911284219.8A CN111132192B (zh) 2019-12-13 2019-12-13 一种无人机基站在线轨迹优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911284219.8A CN111132192B (zh) 2019-12-13 2019-12-13 一种无人机基站在线轨迹优化方法

Publications (2)

Publication Number Publication Date
CN111132192A true CN111132192A (zh) 2020-05-08
CN111132192B CN111132192B (zh) 2023-01-17

Family

ID=70498768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911284219.8A Active CN111132192B (zh) 2019-12-13 2019-12-13 一种无人机基站在线轨迹优化方法

Country Status (1)

Country Link
CN (1) CN111132192B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813167A (zh) * 2020-07-22 2020-10-23 南通大学 一种飞行速度和轨迹的联合优化方法及系统
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、系统、储存介质及无人机基站
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN112867023A (zh) * 2020-12-30 2021-05-28 北京理工大学 一种通过动态调度无人终端最小化感知数据获取时延方法
CN113423060A (zh) * 2021-06-22 2021-09-21 广东工业大学 一种无人空中通信平台飞行路线的在线优化方法
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN113765579A (zh) * 2021-09-09 2021-12-07 广东工业大学 面向安全通信的无人机飞行路线离线在线混合优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140875B1 (en) * 2017-05-27 2018-11-27 Hefei University Of Technology Method and apparatus for joint optimization of multi-UAV task assignment and path planning
CN108924791A (zh) * 2018-07-13 2018-11-30 广东工业大学 一种无线通信方法、装置、设备及可读存储介质
CN110364031A (zh) * 2019-07-11 2019-10-22 北京交通大学 地面传感器网络中无人机集群的路径规划和无线通信方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140875B1 (en) * 2017-05-27 2018-11-27 Hefei University Of Technology Method and apparatus for joint optimization of multi-UAV task assignment and path planning
CN108924791A (zh) * 2018-07-13 2018-11-30 广东工业大学 一种无线通信方法、装置、设备及可读存储介质
CN110364031A (zh) * 2019-07-11 2019-10-22 北京交通大学 地面传感器网络中无人机集群的路径规划和无线通信方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813167A (zh) * 2020-07-22 2020-10-23 南通大学 一种飞行速度和轨迹的联合优化方法及系统
CN111813167B (zh) * 2020-07-22 2021-04-20 南通大学 一种飞行速度和轨迹的联合优化方法及系统
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、系统、储存介质及无人机基站
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN112867023A (zh) * 2020-12-30 2021-05-28 北京理工大学 一种通过动态调度无人终端最小化感知数据获取时延方法
CN112867023B (zh) * 2020-12-30 2021-11-19 北京理工大学 一种通过动态调度无人终端最小化感知数据获取时延方法
CN113423060A (zh) * 2021-06-22 2021-09-21 广东工业大学 一种无人空中通信平台飞行路线的在线优化方法
CN113423060B (zh) * 2021-06-22 2022-05-10 广东工业大学 一种无人空中通信平台飞行路线的在线优化方法
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN113485380B (zh) * 2021-08-20 2022-04-12 广东工业大学 一种基于强化学习的agv路径规划方法及系统
CN113765579A (zh) * 2021-09-09 2021-12-07 广东工业大学 面向安全通信的无人机飞行路线离线在线混合优化方法

Also Published As

Publication number Publication date
CN111132192B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN111132192B (zh) 一种无人机基站在线轨迹优化方法
CN111786713B (zh) 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112118556B (zh) 基于深度强化学习的无人机轨迹及功率联合优化方法
Chen et al. A multihop task offloading decision model in MEC-enabled internet of vehicles
CN111083668B (zh) 一种在车联网中基于联盟博弈算法的d2d资源分配方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN110809306A (zh) 一种基于深度强化学习的终端接入选择方法
CN103237319B (zh) 无线网络中连通性恢复的方法和装置
CN110392357A (zh) 一种无人机辅助物联网通信装置的资源分配控制方法
Liu et al. Opportunistic data collection in cognitive wireless sensor networks: Air–ground collaborative online planning
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
Xu et al. Deep reinforcement learning approach for joint trajectory design in multi-UAV IoT networks
CN113055078B (zh) 有效信息年龄确定方法、以及无人机飞行轨迹优化方法
CN113904948B (zh) 基于跨层的多维参数的5g网络带宽预测系统及方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
CN109587751B (zh) 无人机自组网自适应路由方法和系统
CN109474960B (zh) 一种基于q学习的双连接流量分配方法
CN115190079B (zh) 基于分层强化学习的高铁自供电感知通信一体化交互方法
CN114980126A (zh) 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法
CN117880892A (zh) 基于数字孪生的车联网网络切片切换与资源分配方法
CN112333648B (zh) 一种基于无人机的动态数据收集方法
CN114189937A (zh) 基于深度强化学习的实时集中式无线网络调度方法和设备
CN112996121A (zh) 一种面向集群内通信的u2u分布式动态资源分配方法
CN108770025B (zh) 基于ran切片的异构无线网络切换方法
Huh et al. Improvement of multichannel LoRa networks based on distributed joint queueing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant