CN113423060B - 一种无人空中通信平台飞行路线的在线优化方法 - Google Patents

一种无人空中通信平台飞行路线的在线优化方法 Download PDF

Info

Publication number
CN113423060B
CN113423060B CN202110694703.9A CN202110694703A CN113423060B CN 113423060 B CN113423060 B CN 113423060B CN 202110694703 A CN202110694703 A CN 202110694703A CN 113423060 B CN113423060 B CN 113423060B
Authority
CN
China
Prior art keywords
unmanned aerial
communication platform
communication
aerial communication
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110694703.9A
Other languages
English (en)
Other versions
CN113423060A (zh
Inventor
张广驰
严雨琳
崔苗
刘圣海
王昆
张景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
China Academy of Electronic and Information Technology of CETC
Original Assignee
Guangdong University of Technology
China Academy of Electronic and Information Technology of CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology, China Academy of Electronic and Information Technology of CETC filed Critical Guangdong University of Technology
Priority to CN202110694703.9A priority Critical patent/CN113423060B/zh
Publication of CN113423060A publication Critical patent/CN113423060A/zh
Application granted granted Critical
Publication of CN113423060B publication Critical patent/CN113423060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18504Aircraft used as relay or high altitude atmospheric platform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/025Services making use of location information using location based information parameters
    • H04W4/027Services making use of location information using location based information parameters using movement velocity, acceleration information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Astronomy & Astrophysics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线通信技术领域,提供一种无人空中通信平台飞行路线的在线优化方法,步骤如下:S1、构建无人空中通信平台多播通信系统模型,获得以完成通信任务的时间最小化为目标的飞行路线在线优化问题;S2、将步骤S1中的飞行路线在线优化问题转化为序贯决策数学模型;S3、对序列决策数学模型进行优化,实现无人空中通信平台飞行路线的在线优化。本发明采用在线优化方法,让无人空中通信平台站具有动态、实时规划飞行路线的能力,从而实现能够实时适应地面用户随机的通信请求;利用为序贯决策数学模型,直接在与环境交互学习经验;以完成通信任务的时间最小化为目标,解决无人空中通信平台的能效问题以及保证地面用户能够接收到完整的信息。

Description

一种无人空中通信平台飞行路线的在线优化方法
技术领域
本发明涉及无线通信技术领域,具体涉及一种无人空中通信平台飞行路线的在线优化方法。
背景技术
随着互联网流量爆炸式增长,海量终端接入无线通信网络,驱动着第六代移动通信技术(6G)高速发展。未来6G移动通信的特点是万物智联,实现全球范围的“泛在连接”。这将需要突破地形地表的限制,建立空天地一体化通信网络,实现真正的无缝覆盖。空天地一体化通信网络是由各种轨道卫星构成的天基网络、由飞行器构成的空基网络,以及传统的地基网络所组成的。从基本构成可以将其分为两个子系统:天地一体化通信子系统和深海远洋通信子系统。在天地一体化通信子系统中,无人空中通信平台具有灵活部署、受地面因素影响小等优势,可有效弥补地面网络的不足。无人空中通信平台飞行路线优化能够发挥其高移动性和灵活性的潜能,适当的飞行路线优化可以缩短通信距离、对提高性能至关重要。
目前无人空中通信平台的轨迹优化采用的算法都属于离线优化算法,即是建立在对通信环境的完美假设的基础上,在无人空中通信平台起飞之前规划好飞行轨迹。现有技术中,采用了块坐标下降法和凸逼近离线优化方法对无人机中继通信平台进行交替优化。离线优化算法首先需要建立精确的通信模型,包括信道模型以及所处环境的传播模型,这需要对现实世界进行广阔的测量。其次,建模之后的参数配置也是难以获取,通常是根据经验设定。最后,即使前两者所提到的模型和相关参数已知,大多数无线通信的优化问题都是非凸的,难以解决解决。另外,地面用户的通信请求也是随机的,不可提前预知的。因此,无人空中通信平台的飞行路线在线优化设计存在一定的问题和挑战。
中国发明专利公开(公告)号CN110488861B(公开日为2019-11-22),公开了基于深度强化学习的无人机轨迹优化方法、装置和无人机,该方法预先构建强化学习网络,在无人机飞行过程中实时产生状态数据、动作决策数据;以状态数据为输入、以所述动作决策数据为输出,以瞬时能量效率为奖励回报,利用PPO算法优化策略参数,输出最优策略。该装置包括构建模块、训练数据收集模块和训练模块。该无人机包括处理器,该处理器用于执行该发明的基于深度强化学习的无人机轨迹优化方法。现有技术具备从累积的飞行数据中进行自主学习的能力,可在未知通信场景下,智能决定其最佳飞行速度、加速度、飞行方向与返航时间,归纳出能量效率最优飞行策略,具有较强的环境适应能力与泛化能力,但是存在在线优化能力较低、时间优化不合理的缺陷。
发明内容
本发明的目的是克服现有技术在线优化能力较低、时间优化不合理的缺陷,提供一种能够保证地面用户能够接收到完整的信息的、考虑到无人空中通信平台的能量有限性的、以最小化无人空中通信平台完成通信任务的平均时间为目标的、无人空中通信平台飞行路线的在线优化方法。
为了实现上述目的,本发明提供了一种无人空中通信平台飞行路线的在线优化方法,具体步骤如下:
步骤S1、构建无人空中通信平台多播通信系统模型,获得以完成通信任务的时间最小化为目标的飞行路线在线优化问题;
步骤S2、将步骤S1中的飞行路线在线优化问题转化为序贯决策数学模型;
步骤S3、对序列决策数学模型进行优化,实现无人空中通信平台飞行路线的在线优化。
作为优选方案,在所述步骤S1中,所述无人空中通信平台多播通信系统模型考虑在特定矩形范围内,一个无人空中通信平台和K个地面用户,地面用户表示集合
Figure BDA0003127641710000021
地面用户的位置用二维坐标表示为qk=(xk,yk);假设无人空中通信平台的飞行高度固定在H,在地面投影的位置坐标表示为q(t)=(x(t),y(t)),在飞行过程的飞行速度固定在V;
无人空中通信平台多播通信系统采用频分多址FDMA方式,无人空中通信平台与地面用户的信道数量为J,同时与J个地面用户通信,且无人空中通信平台与各个地面用户之间的链路不存在干扰;J个地面用户同时通信用集合表示为
Figure BDA0003127641710000031
其位置坐标为qj=(xj,yj),
Figure BDA0003127641710000032
因此无人空中通信平台与地面用户j的距离表示为:
Figure BDA0003127641710000033
假设地面用户和无人空中通信平台之间的信道由视距信道主导,无人空中通信平台的移动性导致多普勒效应能够被接收机有效补偿,因此无人空中通信平台与地面用户j的增益为:
Figure BDA0003127641710000034
β0为参考距离为1米的信道增益;假设无人空中通信平台与每个地面用户的带宽为B,噪声为σ2,其通信速率表示为:
Figure BDA0003127641710000035
其中
Figure BDA0003127641710000036
Pj为无人空中通信平台与地面用户j的通信的发射功率。
作为优选方案,在所述步骤S1中,无人空中通信平台需要实时动态地规划其飞行路线;无人空中通信平台在第m通信任务中需与地面用户j传输L比特信息量;当无人空中通信平台传输完第m次通信任务中J个地面用户的所需的信息量之后,才能开始进行第m+1次通信任务,为另外J个地面用户提供无线通信服务;将无人空中通信平台完成第m次通信任务的时间表示为Tm=max{Tm,1,L,Tm,j},Tm,j表示无人空中通信平台第m次通信任务中与第j个地面用户的通信时延;无人空中通信平台在第m次通信任务中与第j个地面用户的通信速率用Rm,j表示,无人空中通信平台在每次通信任务中需与每个地面用户传输L比特信息量表示为:
Figure BDA0003127641710000041
作为优选方案,在所述步骤S1中,以完成通信任务的时间最小化为目标的飞行路线在线优化问题表示如下:
Figure BDA0003127641710000042
s.t.公式(4)
Figure BDA0003127641710000043
Figure BDA0003127641710000044
Figure BDA0003127641710000045
公式(5)为目标函数,表示无人机基站完成M次通信任务的平均完成时间最小化;公式(6)和(7)为无人机基站的飞行范围约束,表示特定矩形范围,Xmin是所述特定矩形范围的最小横坐标,Xmax是所述特定矩形范围的最大横坐标,Ymin是所述特定矩形范围的最小纵坐标,Ymax是所述特定矩形范围的最大纵坐标;公式(8)表示无人机的飞行速率的约束,其中q′m(t)表示无人机在第m次通信任务中t时刻的飞行速率。
作为优选方案,在所述步骤S2中,使用序贯决策数学模型,引入强化学习中Q-Learning算法;强化学习包括智能体,其是在智能体在与环境交互过程中,给智能体所选择的动作赋予奖赏,通过最大化智能体所获得的累计奖赏从而指导其行为;马尔可夫决策过程的基本框架为
Figure BDA0003127641710000046
在每个离散时刻t,观察到智能体在状态
Figure BDA0003127641710000047
并且在此基础上选择一个动作
Figure BDA0003127641710000048
作为其动作的结果,智能体接收到一个数值化的即时奖赏
Figure BDA0003127641710000049
并进入一个新的状态St+1;由这一系列状态和动作构成了智能体的策略π;智能体的策略π是指智能体在环境中采取一系列动作的依据,意为在某个状态如何选择动作的依据。
作为优选方案,在所述步骤S2中,首先将无人空中通信平台的飞行路线在线设计问题转化成一个马尔可夫决策过程;然后将无人空中通信平台在第m通信任务中与第j个地面用户通信的完成通信任务的时间Tm,j进行离散化,表示为Tm,j=Nm,jδt,则无人空中通信平台完成第m次通信任务的时间离散为Tm=Nm×δt,其中Nm=max{Nm,1,…,Nm,j};假设时隙δt需要足够小,使其在这段时间内将无人机基站的通信速率Rj,m[n]看作保持不变;无人空中通信平台的飞行路线qm(t)离散成qm[n]=qm(nδt),以及飞行速度q′m(t)离散表示为q′m[n]=q′m(nδt);获得飞行路线在线优化问题的离散形式表示如下:
Figure BDA0003127641710000051
Figure BDA0003127641710000052
Figure BDA0003127641710000053
Figure BDA0003127641710000054
Figure BDA0003127641710000055
公式(10)-(13)为约束条件的离散形式。
作为优选方案,在所述步骤S3中,对序列决策数学模型进行优化,直接把无人空中通信平台的位置设置为状态;无人空中通信平台的飞行的矩形范围[Xmin,Xmax]×[Ymin,Ymax]分割成I×I个格子,其中
Figure BDA0003127641710000056
保证无人空中通信平台在每个格子的通信速率看作保持不变;将格子的位置坐标用格子中心来表示,则在X轴上第k1时隙、Y轴上第k2时隙的格子位置坐标表示为:
Figure BDA0003127641710000057
作为优选方案,在所述步骤S3中,对序列决策数学模型进行优化,无人空中通信平台在每个状态的动作分为5个动作:向东、向西、向南、向北以及不动。
作为优选方案,在所述步骤S3中,对序列决策数学模型进行优化,将奖赏定义为:
Figure BDA0003127641710000061
作为优选方案,在所述步骤S3中,在线优化的算法步骤如下:
步骤S3.1:初始化探索参数ε,设置折扣率γ和学习率α,无人机的通信次数M,最大训练幕数Nepi,每幕中最大步数Nstep,动作价值函数Q(s,a)=0,
Figure BDA0003127641710000062
a∈A;
步骤S3.2:M=M-1;
步骤S3.3:随机J个地面用户发送通信请求,获取J个用户的位置坐标;nepi=Nepi
步骤S3.4:nepi=nepi-1;
步骤S3.5:
Figure BDA0003127641710000063
根据无人空中通信平台的位置坐标初始化状态s0;nstep=Nstep
步骤S3.6:nstep=nstep-1;
步骤S3.7:根据ε-greedy策略选择动作at,根据公式(15)得到奖赏rn+1,观察到新的状态st+1;更新动作价值函数更新动作价值函数
Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)-Q(sn,an)];
步骤S3.8:重复步骤S3.6至步骤S3.7,直到nstep=0结束此步骤;
步骤S3.9:重复步骤S3.4至步骤S3.8,直到nepi=0结束此步骤;
步骤S3.10:重复步骤S3.2至步骤S3.9,直到M=0结束此步骤,输出智能体的策略π。
与现有技术相比,本发明的有益效果在于:
采用在线优化方法,让无人空中通信平台站具有动态、实时规划飞行路线的能力,从而实现能够实时适应地面用户随机的通信请求;利用为序贯决策数学模型,不需要描述动态环境的模型,直接在与环境交互学习经验;以完成通信任务的时间最小化为目标,解决无人空中通信平台的能效问题以及保证地面用户能够接收到完整的信息。
附图说明
图1是本发明实施例的无人空中通信平台飞行路线的在线优化方法的系统模型图。
图2是本发明实施例的无人空中通信平台飞行路线的在线优化方法的马尔可夫决策过程的交互示意图。
图3是本发明实施例的无人空中通信平台飞行路线的在线优化方法的算法流程图。
图4是本发明实施例的无人空中通信平台飞行路线的在线优化方法的不同方案下的无人机基站飞行路线对比图。
图5是本发明实施例的无人空中通信平台飞行路线的在线优化方法的不同方案下的无人空中通信平台完成通信任务平均时间对比图。
图6是本发明实施例的无人空中通信平台飞行路线的在线优化方法的不同方案下的无人空中通信平台完成通信任务的平均时间。
图7是本发明实施例的无人空中通信平台飞行路线的在线优化方法的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
具体的,如图1至7所示,本发明一种无人空中通信平台飞行路线的在线优化方法的实施例,具体步骤如下:
步骤S1、构建无人空中通信平台多播通信系统模型,获得以完成通信任务的时间最小化为目标的飞行路线在线优化问题;
步骤S2、将步骤S1中的飞行路线在线优化问题转化为序贯决策数学模型;
步骤S3、对序列决策数学模型进行优化,实现无人空中通信平台飞行路线的在线优化。
进一步的,在所述步骤S1中,图1是所述无人空中通信平台多播通信系统模型图。考虑在特定矩形范围内,一个无人空中通信平台和K个地面用户,地面用户可表示集合
Figure BDA0003127641710000081
地面用户的位置可用二维坐标表示为qk=(xk,yk);假设无人空中通信平台的飞行高度固定在H,在地面投影的位置可坐标表示为q(t)=(x(t),y(t)),在飞行过程的飞行速度固定在V;
无人空中通信平台多播通信系统采用频分多址FDMA(Frequency DivisionMultiple Access)方式,无人空中通信平台与地面用户的信道数量为J,即可同时与J个地面用户通信,且无人空中通信平台与各个地面用户之间的链路不存在干扰;J个地面用户同时通信可用集合表示为
Figure BDA0003127641710000091
其位置坐标为qj=(xj,yj),
Figure BDA0003127641710000092
因此无人空中通信平台与地面用户j的距离可表示为:
Figure BDA0003127641710000093
我们假设地面用户和无人空中通信平台之间的信道由视距信道主导,无人空中通信平台的移动性导致多普勒效应能够被接收机有效补偿,因此无人空中通信平台与地面用户j的增益为:
Figure BDA0003127641710000094
β0为参考距离为1米的信道增益;假设无人空中通信平台与每个地面用户的带宽为B,噪声为σ2,其通信速率可表示为:
Figure BDA0003127641710000095
其中
Figure BDA0003127641710000096
Pj为无人空中通信平台与地面用户j的通信的发射功率。
进一步的,在所述步骤S1中,因为地面用户的通信请求是随机变化的,所以无人空中通信平台需要实时动态地规划其飞行路线;无人空中通信平台在第m通信任务中需与地面用户j传输L比特信息量;当无人空中通信平台传输完第m次通信任务中J个地面用户的所需的信息量之后,才能开始进行第m+1次通信任务,为另外J个地面用户提供无线通信服务;换句话说,无人空中通信平台同时与J个地面用户通信,其中通信时延最大的地面用户的通信任务完成后,其他的地面用户的通信任务显然已完成;将无人空中通信平台完成第m次通信任务的时间表示为Tm=max{Tm,1,L,Tm,j},Tm,j表示无人空中通信平台第m次通信任务中与第j个地面用户的通信时延;无人空中通信平台在第m次通信任务中与第j个地面用户的通信速率可用Rm,j表示,无人空中通信平台在每次通信任务中需与每个地面用户传输L比特信息量可表示为:
Figure BDA0003127641710000101
进一步的,在所述步骤S1中,因此以完成通信任务的时间最小化为目标的飞行路线在线优化问题可表示成(P1):
Figure BDA0003127641710000102
s.t.公式(4)
Figure BDA0003127641710000103
Figure BDA0003127641710000104
Figure BDA0003127641710000105
公式(5)为目标函数,表示无人机基站完成M次通信任务的平均完成时间最小化;公式(6)和(7)为无人机基站的飞行范围约束,表示特定矩形范围,Xmin是所述特定矩形范围的最小横坐标,Xmax是所述特定矩形范围的最大横坐标,Ymin是所述特定矩形范围的最小纵坐标,Ymax是所述特定矩形范围的最大纵坐标;公式(8)表示无人机的飞行速率的约束,其中q′m(t)表示无人机在第m次通信任务中t时刻的飞行速率。
进一步的,在所述步骤S2中,本专利所提出的算法是基于强化学习中Q-Learning算法;强化学习包括智能体,其是在智能体在与环境交互过程中,给智能体所选择的动作赋予奖赏,通过最大化智能体所获得的累计奖赏从而指导其行为;马尔可夫决策过程(MarkovDecision Process,MDP)是一种经典的序贯决策数学模型;马尔可夫决策过程的基本框架为
Figure BDA0003127641710000106
如图2所示;在每个离散时刻t,观察到智能体在状态
Figure BDA0003127641710000111
并且在此基础上选择一个动作
Figure BDA0003127641710000112
作为其动作的结果,智能体接收到一个数值化的即时奖赏
Figure BDA0003127641710000113
并进入一个新的状态St+1;由这一系列状态和动作构成了智能体的策略π;智能体的策略π是指智能体在环境中采取一系列动作的依据,意为在某个状态如何选择动作的依据。
进一步的,在所述步骤S2中,显然无人空中通信平台的飞行路线在线优化问题是一个序贯决策过程;首先将无人空中通信平台的飞行路线在线设计问题转化成一个马尔可夫决策过程;然后将无人空中通信平台在第m通信任务中与第j个地面用户通信的完成通信任务的时间Tm,j进行离散化,可表示为Tm,j=Nm,jδt,则无人空中通信平台完成第m次通信任务的时间离散为Tm=Nm×δt,其中Nm=max{Nm,1,…,Nm,j};假设时隙δt需要足够小,使其在这段时间内可以将无人机基站的通信速率Rj,m[n]看作保持不变;无人空中通信平台的飞行路线qm(t)可离散成qm[n]=qm(nδt),以及飞行速度q′m(t)可离散表示为q′m[n]=q′m(nδt);因此(P1)可重新改写为(P2),获得飞行路线在线优化问题的离散形式表示如下:
Figure BDA0003127641710000114
Figure BDA0003127641710000115
Figure BDA0003127641710000116
Figure BDA0003127641710000117
Figure BDA0003127641710000118
公式(10)-(13)为(P2)中约束条件的离散形式。
进一步的,在所述步骤S3中,问题(P2)对应的状态、动作和奖赏
Figure BDA0003127641710000119
如下;
状态:对序列决策数学模型进行优化,直接把无人空中通信平台的位置设置为状态;无人空中通信平台的可飞行的矩形范围[Xmin,Xmax]×[Ymin,Ymax]分割成I×I个格子,其中
Figure BDA0003127641710000121
保证无人空中通信平台在每个格子的通信速率可以看作保持不变;我们将格子的位置坐标用格子中心来表示,则在X轴上第k1时隙、Y轴上第k2时隙的格子位置坐标可表示为:
Figure BDA0003127641710000122
进一步的,在所述步骤S3中,动作:对序列决策数学模型进行优化,无人空中通信平台在每个状态的动作可分为5个动作:向东、向西、向南、向北以及不动。
进一步的,在所述步骤S3中,奖赏:对序列决策数学模型进行优化,将奖赏定义为:
Figure BDA0003127641710000123
进一步的,在所述步骤S3中,在线优化的算法步骤如下:
步骤S3.1:初始化探索参数ε,设置折扣率γ和学习率α,无人机的通信次数M,最大训练幕数Nepi,每幕中最大步数Nstep,动作价值函数Q(s,a)=0,
Figure BDA0003127641710000124
a∈A;
步骤S3.2:M=M-1;
步骤S3.3:随机J个地面用户发送通信请求,获取J个用户的位置坐标;nepi=Nepi
步骤S3.4:nepi=nepi-1;
步骤S3.5:
Figure BDA0003127641710000131
根据无人空中通信平台的位置坐标初始化状态s0;nstep=Nstep
步骤S3.6:nstep=nstep-1;
步骤S3.7:根据ε-greedy策略选择动作at,根据公式(15)得到奖赏rn+1,观察到新的状态st+1;更新动作价值函数更新动作价值函数
Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)-Q(sn,an)];
步骤S3.8:重复步骤S3.6至步骤S3.7,直到nstep=0结束此步骤;
步骤S3.9:重复步骤S3.4至步骤S3.8,直到nepi=0结束此步骤;
步骤S3.10:重复步骤S3.2至步骤S3.9,直到M=0结束此步骤,输出智能体的策略π。
本实施例参考了现有技术中将强化学习算法运用于无人机基站的飞行路线在线优化,研究了无人机基站通信与地面用户的通信速率之和最大化的问题。该技术中没有考虑地面用户通信请求的随机性以及无人空中通信平台的能效问题。本实施例考虑到多播通信方式在公共安全、应急响应以及智能交通等应用场景具有至关重要的作用。
在图4至图6中,“Scheme A”:基于强化学习中Q-Learning的飞行路线在线优化方法;
“Scheme B”:在接收到J个地面用户的通信请求之后,无人空中通信平台总是向着当前通信速率最大的地面用户的方向飞行;无人空中通信平台完成了该地面用户的通信任务之后,在当前位置再向着通信速率第二大的地面用户飞行;依次类推,直到完成所有地面用户的信息传输量;
“Scheme C”:与“Scheme B”相反,在接收到J个地面用户的通信请求之后,无人空中通信平台向着当前通信速率最小的地面用户的方向飞行;无人空中通信平台完成了该地面用户的通信任务之后,在当前位置再向着通信速率第二大的地面用户飞行;依次类推,直到完成所有地面用户的信息传输量;
“Scheme D”:在接收到J个地面用户的通信请求之后,无人空中通信平台在每个状态位置上,贪婪地向通信速率最小的地面用户飞行;
图4展示了基于Q-Learning算法的在线优化的算法与其他三种方案的无人空中通信平台飞行路线对比图,图4中图例“Scheme A:n”表示“Scheme A”方案下无人空中通信平台第n次完成通信任务的飞行路线,“Scheme B:n”等图例与“Scheme A:n”类似;可以看出基于Q-Learning算法的在线优化的算法比其他方案更加集中于三个地面用户的中央;“Scheme A”和“Scheme D”的飞行路线类似,但是从图5可知“Scheme A”比“Scheme D”的完成通信任务的平均时间更短,其飞行路线更佳;
图5展示了无人空中通信平台采用不同方案完成不同通信任务信息量下的完成通信任务的平均时间对比图,其中完成通信任务的次数为100次;为了更好的对比效果,图5中无人空中通信平台在不同方案中是完成相同的多个地面用户的通信任务,这是因为不同的地面用户位置可能导致通信任务的完成时间不同;可以看出本文提出的“Scheme A”方案始终优于其他三种方案,通信任务的信息量越大,“Scheme A”方案的性能越好;
图6展示了不同方案下的无人空中通信平台完成个地面用户的通信任务的平均时间,其中每次通信任务的三个地面用户是随机的,对应的通信任务的信息量为L=107bits;可以看出“Scheme A”方案下完成通信任务的时间明显比其他三种方案的更小;因为在每次通信的地面用户是随机的,由此可以说明“Scheme A”方案可适应动态的、随机的地面用户的通信请求。
本实施例的具体实施过程为:
步骤S1、构建无人空中通信平台多播通信系统模型,获得以完成通信任务的时间最小化为目标的飞行路线在线优化问题;
步骤S2、将步骤S1中的飞行路线在线优化问题转化为序贯决策数学模型;
步骤S3、对序列决策数学模型进行优化,实现无人空中通信平台飞行路线的在线优化。
综上,本发明实施例提供一种无人空中通信平台飞行路线的在线优化方法:
采用在线优化方法,让无人空中通信平台站具有动态、实时规划飞行路线的能力,从而实现能够实时适应地面用户随机的通信请求;利用为序贯决策数学模型,不需要描述动态环境的模型,直接在与环境交互学习经验;以完成通信任务的时间最小化为目标,解决无人空中通信平台的能效问题以及保证地面用户能够接收到完整的信息。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (9)

1.一种无人空中通信平台飞行路线的在线优化方法,其特征在于:具体步骤如下:
步骤S1、构建无人空中通信平台多播通信系统模型,获得以完成通信任务的时间最小化为目标的飞行路线在线优化问题;
在所述步骤S1中,所述无人空中通信平台多播通信系统模型考虑在特定矩形范围内,一个无人空中通信平台和K个地面用户,地面用户表示集合
Figure FDA0003521228210000011
地面用户的位置用二维坐标表示为qk=(xk,yk);假设无人空中通信平台的飞行高度固定在H,在地面投影的位置坐标表示为q(t)=(x(t),y(t)),在飞行过程的飞行速度固定在V;
无人空中通信平台多播通信系统采用频分多址FDMA方式,无人空中通信平台与地面用户的信道数量为J,同时与J个地面用户通信,且无人空中通信平台与各个地面用户之间的链路不存在干扰;J个地面用户同时通信用集合表示为
Figure FDA0003521228210000012
其位置坐标为
Figure FDA0003521228210000013
因此无人空中通信平台与地面用户j的距离表示为:
Figure FDA0003521228210000014
假设地面用户和无人空中通信平台之间的信道由视距信道主导,无人空中通信平台的移动性导致多普勒效应能够被接收机有效补偿,因此无人空中通信平台与地面用户j的增益为:
Figure FDA0003521228210000015
β0为参考距离为1米的信道增益;假设无人空中通信平台与每个地面用户的带宽为B,噪声为σ2,其通信速率表示为:
Figure FDA0003521228210000021
其中
Figure FDA0003521228210000022
Pj为无人空中通信平台与地面用户j的通信的发射功率;
步骤S2、将步骤S1中的飞行路线在线优化问题转化为序贯决策数学模型;
步骤S3、对序列决策数学模型进行优化,实现无人空中通信平台飞行路线的在线优化。
2.根据权利要求1所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S1中,无人空中通信平台需要实时动态地规划其飞行路线;无人空中通信平台在第m通信任务中需与地面用户j传输L比特信息量;当无人空中通信平台传输完第m次通信任务中J个地面用户的所需的信息量之后,才能开始进行第m+1次通信任务,为另外J个地面用户提供无线通信服务;将无人空中通信平台完成第m次通信任务的时间表示为Tm=max{Tm,1,L,Tm,j},Tm,j表示无人空中通信平台第m次通信任务中与第j个地面用户的通信时延;无人空中通信平台在第m次通信任务中与第j个地面用户的通信速率用Rm,j表示,无人空中通信平台在每次通信任务中需与每个地面用户传输L比特信息量表示为:
Figure FDA0003521228210000023
3.根据权利要求2所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S1中,以完成通信任务的时间最小化为目标的飞行路线在线优化问题表示如下:
Figure FDA0003521228210000024
s.t.公式(4)
Figure FDA0003521228210000031
Figure FDA0003521228210000032
Figure FDA0003521228210000033
公式(5)为目标函数,表示无人机基站完成M次通信任务的平均完成时间最小化;公式(6)和(7)为无人机基站的飞行范围约束,表示特定矩形范围,Xmin是所述特定矩形范围的最小横坐标,Xmax是所述特定矩形范围的最大横坐标,Ymin是所述特定矩形范围的最小纵坐标,Ymax是所述特定矩形范围的最大纵坐标;公式(8)表示无人机的飞行速率的约束,其中q′m(t)表示无人机在第m次通信任务中t时刻的飞行速率。
4.根据权利要求3所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S2中,使用序贯决策数学模型,引入强化学习中Q-Learning算法;强化学习包括智能体,其是在智能体在与环境交互过程中,给智能体所选择的动作赋予奖赏,通过最大化智能体所获得的累计奖赏从而指导其行为;马尔可夫决策过程的基本框架为
Figure FDA0003521228210000034
在每个离散时刻t,观察到智能体在状态
Figure FDA0003521228210000035
并且在此基础上选择一个动作
Figure FDA0003521228210000036
作为其动作的结果,智能体接收到一个数值化的即时奖赏
Figure FDA0003521228210000037
并进入一个新的状态St+1;由这一系列状态和动作构成了智能体的策略π;智能体的策略π是指智能体在环境中采取一系列动作的依据,意为在某个状态如何选择动作的依据。
5.根据权利要求4所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S2中,首先将无人空中通信平台的飞行路线在线设计问题转化成一个马尔可夫决策过程;然后将无人空中通信平台在第m通信任务中与第j个地面用户通信的完成通信任务的时间Tm,j进行离散化,表示为Tm,j=Nm,jdt,则无人空中通信平台完成第m次通信任务的时间离散为Tm=Nm×dt,其中Nm=max{Nm,1,…,Nm,j};假设时隙dt需要足够小,使其在这段时间内将无人机基站的通信速率Rj,m[n]看作保持不变;无人空中通信平台的飞行路线qm(t)离散成qm[n]=qm(ndt),以及飞行速度q′m(t)离散表示为q′m[n]=q′m(ndt);获得飞行路线在线优化问题的离散形式表示如下:
Figure FDA0003521228210000041
Figure FDA0003521228210000042
Figure FDA0003521228210000043
Figure FDA0003521228210000044
Figure FDA0003521228210000045
公式(10)-(13)为约束条件的离散形式。
6.根据权利要求5所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S3中,对序列决策数学模型进行优化,直接把无人空中通信平台的位置设置为状态;无人空中通信平台的飞行的矩形范围[Xmin,Xmax]×[Ymin,Ymax]分割成I×I个格子,其中
Figure FDA0003521228210000046
保证无人空中通信平台在每个格子的通信速率看作保持不变;将格子的位置坐标用格子中心来表示,则在X轴上第k1时隙、Y轴上第k2时隙的格子位置坐标表示为:
Figure FDA0003521228210000047
7.根据权利要求6所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S3中,对序列决策数学模型进行优化,无人空中通信平台在每个状态的动作分为5个动作:向东、向西、向南、向北以及不动。
8.根据权利要求7所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S3中,对序列决策数学模型进行优化,将奖赏定义为:
Figure FDA0003521228210000051
9.根据权利要求8所述的无人空中通信平台飞行路线的在线优化方法,其特征在于:
在所述步骤S3中,在线优化的算法步骤如下:
步骤S3.1:初始化探索参数ε,设置折扣率γ和学习率α,无人机的通信次数M,最大训练幕数Nepi,每幕中最大步数Nstep,动作价值函数
Figure FDA0003521228210000052
步骤S3.2:M=M-1;
步骤S3.3:随机J个地面用户发送通信请求,获取J个用户的位置坐标;nepi=Nepi
步骤S3.4:nepi=nepi-1;
步骤S3.5:
Figure FDA0003521228210000053
根据无人空中通信平台的位置坐标初始化状态s0;nstep=Nstep
步骤S3.6:nstep=nstep-1;
步骤S3.7:根据ε-greedy策略选择动作at,根据公式(15)得到奖赏rn+1,观察到新的状态st+1;更新动作价值函数更新动作价值函数
Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)-Q(sn,an)];
步骤S3.8:重复步骤S3.6至步骤S3.7,直到nstep=0结束此步骤;
步骤S3.9:重复步骤S3.4至步骤S3.8,直到nepi=0结束此步骤;
步骤S3.10:重复步骤S3.2至步骤S3.9,直到M=0结束此步骤,输出智能体的策略π。
CN202110694703.9A 2021-06-22 2021-06-22 一种无人空中通信平台飞行路线的在线优化方法 Active CN113423060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110694703.9A CN113423060B (zh) 2021-06-22 2021-06-22 一种无人空中通信平台飞行路线的在线优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110694703.9A CN113423060B (zh) 2021-06-22 2021-06-22 一种无人空中通信平台飞行路线的在线优化方法

Publications (2)

Publication Number Publication Date
CN113423060A CN113423060A (zh) 2021-09-21
CN113423060B true CN113423060B (zh) 2022-05-10

Family

ID=77716177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110694703.9A Active CN113423060B (zh) 2021-06-22 2021-06-22 一种无人空中通信平台飞行路线的在线优化方法

Country Status (1)

Country Link
CN (1) CN113423060B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083168A (zh) * 2019-05-05 2019-08-02 天津大学 基于增强学习的小型无人直升机定高控制方法
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
CN111783994A (zh) * 2020-05-29 2020-10-16 华为技术有限公司 强化学习的训练方法和装置
CN112235810A (zh) * 2020-09-17 2021-01-15 广州番禺职业技术学院 基于强化学习的无人机通信系统的多维度优化方法与系统
WO2021062913A1 (zh) * 2019-09-30 2021-04-08 华南理工大学 一种基于无线能量传输网络的无人机三维轨迹的设计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
US11703853B2 (en) * 2019-12-03 2023-07-18 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN112533221B (zh) * 2020-09-28 2022-03-01 南京航空航天大学 一种联合轨迹规划与频谱决策的无人机抗干扰方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083168A (zh) * 2019-05-05 2019-08-02 天津大学 基于增强学习的小型无人直升机定高控制方法
WO2021062913A1 (zh) * 2019-09-30 2021-04-08 华南理工大学 一种基于无线能量传输网络的无人机三维轨迹的设计方法
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
CN111783994A (zh) * 2020-05-29 2020-10-16 华为技术有限公司 强化学习的训练方法和装置
CN112235810A (zh) * 2020-09-17 2021-01-15 广州番禺职业技术学院 基于强化学习的无人机通信系统的多维度优化方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
3D Trajectory and Transmit Power Optimization for;Tianyu Liu,Miao Cui,Guangchi Zhang,Qingqing Wu;《IEEE TRANSACTIONS ON GREEN COMMUNICATIONS AND NETWORKING》;20210331;全文 *

Also Published As

Publication number Publication date
CN113423060A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN110364031B (zh) 地面传感器网络中无人机集群的路径规划和无线通信方法
Li et al. UAV communications for 5G and beyond: Recent advances and future trends
CN110381444B (zh) 一种无人机轨迹优化及资源分配方法
CN109831797B (zh) 一种推动功率受限的无人机基站带宽和轨迹联合优化方法
CN111885504B (zh) 一种辅助移动车辆无线通信的无人机轨迹优化方法
CN113162682B (zh) 一种基于pd-noma的多波束leo卫星系统资源分配方法
US10257655B2 (en) Contact graph generation for mobile and ground station nodes
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN112422171B (zh) 环境不确定遥感卫星网络下的智能资源联合调度方法
CN113188547A (zh) 无人机路径规划方法、装置、控制器及存储介质
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
Peng et al. A predictive on-demand placement of UAV base stations using echo state network
CN113098583B (zh) 一种面向空中移动目标跟踪的空天地一体化组网方法
WO2020263393A2 (en) Method of flight plan optimization of a high altitude long endurance aircraft
CN114339842A (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN115407794A (zh) 基于强化学习的海域安全通信无人机轨迹实时规划方法
Wang et al. Robotic wireless energy transfer in dynamic environments: system design and experimental validation
CN114337779B (zh) 基于深度强化学习的卫星通信频轨资源挖掘方法
CN113423060B (zh) 一种无人空中通信平台飞行路线的在线优化方法
Cui et al. Model-free based automated trajectory optimization for UAVs toward data transmission
CN116795138A (zh) 一种面向数据采集的多无人机智能航迹规划方法
Bashir et al. A connectivity aware path planning for a fleet of UAVs in an urban environment
Eskandari et al. AI-based navigation and communication control for a team of UAVs with reconfigurable intelligent surfaces supporting mobile internet of vehicles
CN113055826B (zh) 一种联合分簇和三维轨迹规划的大规模无人机群数据收集方法
CN116009590A (zh) 无人机网络分布式轨迹规划方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant