CN113162679B - 基于ddpg算法的irs辅助无人机通信联合优化方法 - Google Patents

基于ddpg算法的irs辅助无人机通信联合优化方法 Download PDF

Info

Publication number
CN113162679B
CN113162679B CN202110353953.6A CN202110353953A CN113162679B CN 113162679 B CN113162679 B CN 113162679B CN 202110353953 A CN202110353953 A CN 202110353953A CN 113162679 B CN113162679 B CN 113162679B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
irs
user
drone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110353953.6A
Other languages
English (en)
Other versions
CN113162679A (zh
Inventor
王保云
熊磊
代海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110353953.6A priority Critical patent/CN113162679B/zh
Publication of CN113162679A publication Critical patent/CN113162679A/zh
Application granted granted Critical
Publication of CN113162679B publication Critical patent/CN113162679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/28Cell structures using beam steering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法通过部署智能反射面和多个地面用户的坐标,无人机携带多根天线情况下根据无人机起始位置和最终位置二维坐标两点成线原则的设计移动轨迹,通过可自主学习且泛化能力强的智能决策方法,从而获得速率最大化的波束成形和轨迹。本发明所述的有益效果为:所述方法可显著提升无人机空中基站建立空‑地通信系统的传输速率,通过智能反射面(Intelligent Reflecting Surface,IRS)将无人机到单个用户单链路信道近似为多链路信道,来达到增强通信信号提升对用户服务性能,采用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行联合优化,可同时获得联合优化解。

Description

基于DDPG算法的IRS辅助无人机通信联合优化方法
技术领域
本发明涉及通信领域,具体是涉及一种基于DDPG算法的IRS辅助无人机通信联合优化方法。
背景技术
面对6G中广覆盖和高可靠的通信需求,无人机辅助通信在提高通信网络的覆盖范围和应急通信方面具有无可比拟的优势,同时也面临着提高能效实现可靠通信的挑战。凭借灵活部署和视距无线传输等固有优势,高机动性能无人机作为空中通信平台已广泛部署于各种无线通信场景中,一般通过联合优化无人机轨迹和通信资源分配提高通信质量;此外,随着无线网络的容量成倍增加,为了满足多媒体访问对高数据和速率快速增长的需求,可以通过无人机部署天线阵列无线通信来提高网络容量。
无人机和地面用户之间存在障碍物的遮挡会大大降低通信的性能,为了改善传播环境并提高通信质量,智能反射面(Intelligent Reflecting Surface,IRS)技术引起了广泛的关注。IRS可以通过反射信号绕过障碍物以增强用户接受的信号,IRS是由多个可重构反射元素组成,IRS中的每个元素都可以通过可控的相移来反射入射信号,通过共同调整所有元素的相移,以实现所需接收器上来自不同传输路径的信号相位对准,这称为无源波束成形,从而增强信号和提高可达速率。与传统中继相比,IRS仅反射从发射机到接收机的信号,不会引起额外的接收噪声,反射面成本低廉,可普遍部署在建筑物外墙中以协助无人机通信。
在IRS辅助无人机通信场景中,通过部署IRS技术应用到无人机通信中可以提高传输速率,但是在求解多变量耦合的优化问题时,多数是基于数学方式的交替化技术联合优化求解,使用了复杂的数学公式和数值优化技术对优化问题进行化简,此外,在没有确切情况下找到最佳策略可能很棘手而造成计算时间长。最近,无规模人工智能(ArtificialIntelligence,AI)作为一项技术处理数学上难以解决的非线性非凸问题和高计算问题。AI技术对具有大量阵列元素的大规模多输入多输出(Multiple Input Multiple Output,MIMO)系统最为有吸引力,由于设计超大尺寸优化,优化问题变得不容易。周等人提出深度学习(Deep Learning,DL)用于通过建立信道之间的映射关系获得MIMO系统的波束成形矩阵和预编码设计。实际上,基于DL方法能够利用离线预测降低复杂性和计算时间,但是通常需要详尽的样本库来进行在线培训。同时,在无线通信系统的设计中也采用了深度强化学习(Deep Reinforcement Learning,DRL)技术,该技术在神经网络训练中具有DL的优势,并提高了学习速度和强化学习(Reinforcement Learning,RL)算法的性能。但是,大多数RL可能并不总是适合处理联合优化问题中的连续和高维动作空间。DRL对于无线信道随时间变化的通信系统特别有益,DRL能够允许无需了解信道模型和移动性模型,只需要了解有关无线电信道的知识即可,从而通过观察来自环境的收益并找出复杂的优化问题的解决方案来进行有效的算法设计。DRL方法已在一些IRS辅助通信和无人机通信网络中使用,然而对于IRS辅助无人机通信中,由于无人机是能量有限的设备,如何有效地联合优化波束成形和无人机轨迹使得速率最大化变成了一个很重要的问题。
发明内容
本发明的目的是针对IRS辅助无人机多输入单输出(Multiple InputSingleOutput,MISO)多用户通信应用场景,提供了一种基于DRL的深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法的联合优化方法。
为解决上述技术问题,本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,其采用的技术方案是:所述联合优化方法基于IRS辅助无人机通信系统,所述通信系统包括IRS、旋转翼无人机,所述旋转翼无人机上安装若干根用于波束成形的天线,所述旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输系统,所述用户的集合为
Figure SMS_1
所述IRS接收无人机信号并将其通过反射信号绕过障碍物传输给用户;
所述联合优化方法的步骤为:
步骤1、建立空对地通信模型:考虑在无人机通信中,周围很可能存在许多障碍物,致使无人机到K个用户的视距(Line of Sight,LoS)链路被堵塞,通过部署IRS,可以创建多个LoS链路增强通信,在此情况下,对无人机基站和地面用户之间的信道、无人机和IRS之间的信道和IRS和用户之间的信道进行建模,求解三者的信道增益;
步骤2、根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题;
步骤3:根据通信系统中无人机的发射功率波束成形约束、运动轨迹约束,IRS无源波束成形相移约束和用户可达和速率,建立深度强化学习模型;
步骤4:利用DDPG算法优化强化学习模型;
步骤5:根据优化后的深度强化学习模型获得联合优化的解,得到优化的用户可达数据、速率和无人机的运动轨迹。
进一步的,所述的步骤1中IRS节点和K个地面用户分布以及无人机进行如下定义:
所有通信节点建立三维笛卡尔坐标系,部署K个地面用户的和固定Z高度的IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号,则用户k和IRS的水平坐标为wk=[xk,yk]T,wR=[xR,yR]T,其中k∈K,K是地面用户节点总数;
无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δt分为N个等距时隙,T=Nδt;在t∈[0,T]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]T,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标;IRS在第t个时隙中的相移矩阵为
Figure SMS_2
diag{·}表示对角矩阵,对角矩阵Θ[m,m]=φm(t)=ejθm(t),其中θm(t)表示IRS在第t个时隙的第m个反射单元的相移,其中m∈M,M是IRS单元总数;
无人机到用户的LoS路径被堵塞的情况下,无人机到用户的信道被建模为Rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
Figure SMS_3
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量;
Figure SMS_4
表示无人机在第t时隙与用户k之间的距离,Nt是无人机的发射天线的数目;
无人机到IRS的信道以LoS信道为主,因此第t个时隙时无人机到IRS信道增益H(t)表示为:
Figure SMS_5
其中
Figure SMS_6
表示在第t时隙节点无人机和IRS之间的距离,gur表示数组响应阵列;
IRS到用户链路同时存在LoS和NLoS成分,因此,IRS到用户k的信道增益hk表示为:
Figure SMS_7
其中
Figure SMS_8
表示节点IRS到用户k的距离,ε为IRS到用户端路径损耗指数,β为瑞利因子。
Figure SMS_9
Figure SMS_10
分别表示智能发射面到用户k链路的LoS和NLoS成分。
进一步的,步骤2中,用户k在第t时隙中的信干噪比(Signal toInterferencePlus Noise Ratio,SINR)计算公式如下:
Figure SMS_11
其中
Figure SMS_12
为无人机波束成形矢量,σ2是加性高斯白噪声的功率,γk(t)表示用户k在第t时隙中的SINR。
系统目标为联合设计无人机波束成形矢量
Figure SMS_13
IRS无源波束成形相移矩阵
Figure SMS_14
和无人机飞行轨迹
Figure SMS_15
来使得用户可达和速率最大化”,该优化问题表述为:
Figure SMS_16
s.t.||q(t+1)-q(t)||≤Dmax
q(0)=qI,q(T+l)=qF
Figure SMS_17
Figure SMS_18
其中Dmm=Vmaxδt是无人机在单个时隙中行驶的最大水平距离,Vmax是无人机最大行驶速度,单位为m/s,qI和qF分别为无人机的水平坐标中的初始值和最终值,Pmax表示无人机的最大发射功率。
进一步的,步骤3中,建立深度强化学习模型的马尔可夫过程为:
步骤3-1、状态空间S:状态s(t)由第t时隙的无人机发射功率和用户接收功率、第(t-1)步的动作、信道矩阵{Gk(t),H(t),hk},k∈K决定;在构造状态s(t)中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间A:动作a(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成;同样,为了解决实际输入问题,在第t时隙将Bk(t)=|Re{Bk(t)}|+|Im{Bk(t)}|,k∈K和Θ(t)=|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部;
步骤3-3、即时奖励R:确保无人机为所有用户提供服务,并基于优化问题奖励函数为
Figure SMS_19
考虑到无模型的强化框架,在有限时间T对学习最佳策略进行建模以获得最大的长期奖励
Figure SMS_20
状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;Q学习不依赖环境的先验知识,只需要不断的对Q(s(t),a(t))迭代到最优值Q*(s(t),a(t)),就能获得最优策略π*;通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure SMS_21
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在在第t时隙状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为无人机在(t+1)时刻的状态,a′为无人机在(t+1)时刻的动作,
Figure SMS_22
是采取动作a从状态s过渡到下一个状态s′的转移概率。
进一步的,步骤4中所述利用DDPG算法优化深度强化学习模型,具体包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的在第t时隙初始化为0;
步骤4-3、在线Actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t +1),同时转换到下一状态s(t+1),获取训练数据集(s(t),a(t),r(t+1),s(t+1));
步骤4-4、将训练数据集(s(t),a(t),r(t+1),s(t+1))存储到经验回放池记忆库D中;
步骤4-5、从目标Critic评论网络得到Q值方程
Figure SMS_23
步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集,发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic评论网络;
步骤4-7、根据采样得到的W数量样本,目标Actor策略网络根据当前的状态s(t)输出动作a(t),目标Critic评论网络根据当前的状态s(t)和目标Actor策略网络输出动作a(t),输出Q值函数
Figure SMS_25
的损失函数梯度
Figure SMS_28
在线Critic评论网络根据当前(s(t),a(t),r(t+1))输出Q值函数
Figure SMS_31
给的抽样策略梯度
Figure SMS_26
和损失函数梯度
Figure SMS_29
根据损失函数梯度
Figure SMS_30
更新在线Critic评论网络参数
Figure SMS_32
在线Actor策略网络将动作a(t)输出给抽样策略梯度
Figure SMS_24
根据抽样策略梯度更新在线Actor策略网络参数
Figure SMS_27
步骤4-8、根据在线Critic评论网络参数
Figure SMS_33
和在线Actor策略网络参数
Figure SMS_34
更新目标Critic评论网络参数
Figure SMS_35
和目标Actor策略网络参数
Figure SMS_36
Figure SMS_37
Figure SMS_38
其中τc和τa分别是用于更新目标Critic评论网络和目标Actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<T,T为ep回合中总时间步,若是则t=t+1,返回步骤4-3,若不是,则进入步骤4-10;
步骤4-10、判断是否满足轮数ep<EP,EP为总回合数,若是则ep=ep+1,返回步骤4-2,若不是则优化结束,得到优化后的强化学习模型。
进一步的,更新梯度公式为:
Figure SMS_39
Figure SMS_40
其中a′是从目标Actor策略网络输出的动作,
Figure SMS_41
表示在给定输入状态s(t)下为在线Actor策略网络参数为
Figure SMS_42
所输出的动作。
Figure SMS_43
是在线Actor策略网络参数为
Figure SMS_44
的梯度。
进一步的,步骤5具体为:输入IRS辅助无人机通信系统的状态s(t),深度强化学习模型根据状态学习训练得出最优动作a(t),可得到优化问题解和优化变量无人机的轨迹q。
本发明所述的有益效果为:本发明利用IRS和无人机辅助通信的相关信息,提出了深度强化学习策略,利用深度强化学习方法获得波束成形和轨迹联合优化策略,无人机通过选择合适的发射功率和运动轨迹,IRS通过选择合适无源波束成形相移来反射信号,来降低对用户之间的干扰,最大化用户可达信息速率,提高通信网络的吞吐量,符合绿色通信。
本发明使用DDPG算法可以有效解决联合优化问题,由于IRS辅助无人机通信系统中多用户的干扰,优化问题是非凸的,并且最佳解决方案是未知的,使用基于DRL的DDPG算法,以找到可行的解决方案。该算法与数学交替优化方法不同,固定一个变量求解另一个变量并且使用了复杂的数学公式和数值优化技术,提出的DDPG算法共同优化变量无需了解无线环境的显示模型和特定数学公式,这样非常容易扩展到各种系统设置,从神经网络中学习训练得到最优解决方案。具体而言,总速率被用作即时奖励来训练,通过观察奖励逐渐最大化和速率,并相应地迭代调整网络参数,另外由于无人机运动轨迹是连续的,DDPG算法设计解决离散动作空间,可在一系列高维动作空间中得到优化。
与现有无IRS部署通信方法相比,本发明以最大化用户到达和速率为目标,所提的DDPG联合优化方法通过共同优化波束成形、无人机轨迹实现信号对准达到增强通信质量的目的,显著提升无人机通信系统场景中的速率。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
图1为本发明的IRS辅助无人机通信系统模型图
图2位本发明的DDPG算法框架图
图3为本发明中无人机优化飞行轨迹图。
图4为本发明中DDPG算法在训练步数下的奖励图。
具体实施方式
本发明所述的基于DDPG算法的IRS辅助无人机通信联合优化方法,目的是通过联合优化波束成形和轨迹最大化速率,提高频谱利用率,利用深度学习方法将基于AC框架的DDPG算法运用到所述的通信系统模型中,得到最优的约束变量,使其保证最大程度上提高通信网络容量。
所述联合优化方法基于IRS辅助无人机通信系统,通信系统包括一架旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输系统,所有用户的集合为
Figure SMS_45
为了补偿信号的快速衰落,无人机配备了用于波束成形的多根天线,部署一个IRS,用来提高用户接收速率。
在无人机沿着轨迹飞行过程中,地面上的IRS不消耗能量,IRS节点是全双工发送信息,每个通信链路之间无干扰,地面所有用户同时接收IRS节点附加的信息。
所述联合优化方法的步骤为:
步骤1:在所述系统中,建立空对地通信模型:考虑在无人机通信中,周围很可能存在许多障碍物,致使无人机到K个用户的LoS链路被堵塞,通过部署IRS,可以创建多个LoS链路增强通信,在此情况下,对无人机基站和地面用户之间的信道、无人机和IRS之间的信道和IRS和用户之间的信道进行建模,求解三者的信道增益。
如图1所示通信系统模型,所有通信节点建立三维笛卡尔坐标系,部署K个地面用户的和固定Z高度的IRS,IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号,则用户k和IRS的水平坐标为wk=[xk,yk]T,wR=[xR,yR]T,其中k∈K,K是地面用户节点总数。
无人机在任务周期T(T>0)内持续地向用户发射信号,无人机飞行周期T以步长δt分为N个等距时隙,T=Nδt;在t∈[0,T]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]T,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标。IRS在第t个时隙中的相移矩阵为
Figure SMS_46
diag{·}表示对角矩阵,对角矩阵
Figure SMS_47
其中θm(t)表示IRS在第t个时隙的第m个反射单元的相移,其中m∈M,M是IRS单元总数。
无人机到用户的LoS路径被堵塞的情况下,无人机到用户的信道被建模为Rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
Figure SMS_48
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量。
Figure SMS_49
表示无人机在第t时隙与用户k之间的距离,Nt是无人机的发射天线的数目。
无人机到IRS的信道以LoS信道为主,因此第t个时隙时无人机到IRS信道增益H(t)表示为:
Figure SMS_50
其中
Figure SMS_51
表示在第t时隙节点无人机和IRS之间的距离,gur表示数组响应阵列。
IRS到用户链路同时存在LoS和NLoS成分,因此,IRS到用户k的信道增益hk表示为:
Figure SMS_52
其中
Figure SMS_53
表示节点IRS到用户k的距离,ε为IRS到用户端路径损耗指数,β为瑞利因子。
Figure SMS_54
Figure SMS_55
分别表示IRS到用户k链路的LoS和NLoS成分。
步骤2:根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题。
用户k在第t时隙中的SINR计算公式如下:
Figure SMS_56
其中
Figure SMS_57
为无人机波束成形矢量,σ2是加性高斯白噪声的功率。
系统目标为联合设计无人机波束成形矢量
Figure SMS_58
IRS无源波束成形相移矩阵
Figure SMS_59
和无人机飞行轨迹
Figure SMS_60
来使得用户可达和速率最大化”,该优化问题可以表述为:
Figure SMS_61
s.t.||q(t+1)-q(t)||≤Dmax
q(0)=qI,q(T+1)=qF
Figure SMS_62
Figure SMS_63
其中
Figure SMS_64
是无人机在单个时隙中行驶的最大水平距离,Vmax是无人机最大行驶速度,单位为m/s,qI和qF分别为无人机的水平坐标中的初始值和最终值,Pmax表示无人机的最大发射功率。
步骤3:根据通信系统中无人机的发射功率波束成形约束、运动轨迹约束,IRS无源波束成形相移约束和用户的数据传输可达和速率,建立深度强化学习框架。
为了高效解决无人机在连续移动过程中状态空间联合优化问题,以无人机为智能体,建立深度强化学习模型,利用无人机和IRS约束变量提出深度强化学习优化策略,通过联合优化无人机波束成形、IRS无源波束成形相移和无人机轨迹,实现高效的资源分配,提高系统容量。
强化学习是通过智能体在指定场景中不断探索未知环境并与环境进行交互获得环境状态,通过不断的探索学习到最佳策略以获得最大的长期奖励。强化学习利用马尔可夫来简化求解过程,典型的马尔可夫过程主要由状态空间、动作空间和奖励函数列表组成。根据目标问题建立马尔可夫过程:
步骤3-1、状态空间:表示在时间步t观察到的状态,一组表征观察环境的结果。状态s(t)由第t时隙的无人机发射功率和用户接收功率,第(t-1)步的动作,信道矩阵{Gk(t),H(t),hk},k∈K决定。由于神经网络的输入只能接收实数而不接收复数,因此在构造状态s中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间:智能体在学习过程中选择的动作。动作a(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成;同样,为了解决实际输入问题,在第t时隙将Bk(t)=|Re{Bk(t)}|+|Im{Bk(t)}|,k∈K和Θ(t)=|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部;
步骤3-3、即时奖励:智能体在给定状态s采取动作a获得的奖励,这也是一个性能指标r(t),来评估在即时刻t处于状态s(t)执行动作a(t)的程度;确保无人机为所有用户提供服务,并基于优化问题奖励函数为
Figure SMS_65
考虑到无模型的强化框架,在有限时间T对学习最佳策略进行建模以获得最大的长期奖励
Figure SMS_66
本发明中,深度强化学习算法建立在Q学习的基础上,Q学习是一种无模型的学习算法;状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;Q学习不依赖环境的先验知识,只需要不断的对Q(s(t),a(t))迭代到最优值Q*(s(t),a(t)),就能获得最优策略π*;通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure SMS_67
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在第t时隙状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为无人机在(t+1)时刻的状态,a′为无人机在(t+1)时刻的动作,
Figure SMS_68
是采取动作a从状态s过渡到下一个状态s′的转移概率。
步骤4:利用DDPG算法优化深度强化学习模型。
深度强化学习中的动作空间包括无人机波束成形、IRS无源波束成形相移矩阵和无人机轨迹三个变量,考虑无人机在一定范围内连续飞行,为了解决高维动作空间,尤其是连续空间中的联合优化问题,将Q学习与神经网络结合,引入了一种基于演员-评论家(Actor-Critic,AC)框架的DDPG算法,通过学习训练优化这两个网络参数。DDPG算法采用强化学习的AC架构,由4个神经网络构成,2个结构相同的Actor策略网络,分别是在线Actor策略网络和目标Actor策略网络;2个结构相同的Critic策略网络,分别是在线Critic策略网络和目标Critic策略网络。AC网络相互依赖,相互影响都需要在训练过程中迭代优化。
Actor策略网络的输入是状态s(t),输出动作a(t),策略网络用于策略函数为
Figure SMS_69
其中
Figure SMS_70
为在线Actor策略网络参数,
Figure SMS_71
参数朝着使Q值增大的方向更新。定义
Figure SMS_72
其中E(·)表示求期望,
Figure SMS_73
学习训练无人机的最优行为策略过程,即最大化
Figure SMS_74
的过程。
Critic评论网络输入时无人机在t时刻中的状态s(t)和采取的动作a(t),输出的是对应的
Figure SMS_75
和下一个状态s(t+1),其中
Figure SMS_76
为在线Critic评论网络参数,通过更新参数来降低目标网络和在线网络之间的损失函数:
Figure SMS_77
其中
Figure SMS_78
从目标Actor策略网络输出的动作。
DDPG算法中使用了经验回放池的方法,通过无人机与环境交互所得的样本数据存放至记忆单元,然后通过数据随机采样更新网络参;在进行联合优化训练学习时,将轮训练回合数中无人机与环境交互的信息以数据集(s(t),a(t),r(t+1),s(t+1))的形式存放至回放记忆单元,使用使随机从回放单元抽取一组数据用于训练。经验池回放的方法有效提高了数据利用效率,随机采样的数据抽取方式保证了各数据之间的独立性,提高算法的收敛速度。
根据抽取样本(s(t),d(t),r(t+1),s(t+1)得到
Figure SMS_79
和损失函数
Figure SMS_80
使用梯度下降法来优化神经网络参数,参数更新梯度公式为:
Figure SMS_81
Figure SMS_82
DDPG算法中在线网络通过随机梯度下降算法更新参数,目标网络参数变化小,用于在训练过程中提供在线网络更新所需要的一些信息;在线网络参数实时更新,每过步数后,在线忘的参数会拷贝给目标网络,目标网络的引入使得学习过程更加稳定,训练易于收敛,经过迭代训练学习之后的神经网络输出的动作就是目标函数的最优解。
如图2所示,所述基于DDPG算法优化深度强化学习模型包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的第t时隙初始化为0;
步骤4-3、在线Actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t +1),同时转换到下一状态s(t+1),获取训练数据集(s(t),a(t),r(t+1),s(t+1));
步骤4-4、将训练数据集(s(t),a(t),r(t+1),s(t+1))存储到经验回放池记忆库D中;
步骤4-5、从目标Critic评论网络得到Q值方程
Figure SMS_83
步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集,发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic评论网络;
步骤4-7、根据采样得到的W数量样本,目标Actor策略网络根据当前的状态s(t)输出动作a(t),目标Critic评论网络根据当前的状态s(t)和目标Actor策略网络输出动作a(t),输出Q值函数
Figure SMS_86
的损失函数梯度
Figure SMS_88
在线Critic评论网络根据当前(s(t),a(t),r(t+1))输出Q值函数
Figure SMS_90
给的抽样策略梯度
Figure SMS_85
和损失函数梯度
Figure SMS_89
根据损失函数梯度
Figure SMS_91
更新在线Critic评论网络参数
Figure SMS_92
在线Actor策略网络将动作a(t)输出给抽样策略梯度
Figure SMS_84
根据抽样策略梯度更新在线Actor策略网络参数
Figure SMS_87
步骤4-8、根据在线Critic评论网络参数
Figure SMS_93
和在线Actor策略网络参数
Figure SMS_94
更新目标Critic评论网络参数
Figure SMS_95
和目标Actor策略网络参数
Figure SMS_96
Figure SMS_97
Figure SMS_98
其中τc和τa分别是用于更新目标Critic评论网络和目标Actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<T,T为ep回合中总时间步,若是则t=t+1,返回(3),若不是,则进入(9);
步骤4-10、判断是否满足轮数ep<EP,EP为总回合数,若是则ep=ep+1,返回(2),若不是则优化结束,得到优化后的强化学习框架。
步骤5:输入IRS辅助无人机通信系统的状态s(t),深度强化学习模型根据状态学习训练得出最优动作a(t),可得到优化问题解和优化变量无人机的轨迹q。
利用DDPG算法训练好的深度强化学习模型,可以得到无人机的最佳功率分配和飞行轨迹策略,并在深度神经网络中动作中输出。
根据上述实例,进行数据仿真:
以下实例所提供的图以及模型中的具体参数值的设定主要是为了说明本发明的基本构想以及对发明做仿真验证,具体环境的应用环境中,可视实际场景和需求进行适当调整。
假设通信系统有K=4用户,无人机携带的天线数为Nt=4,IRS的位置为wr=[0,0]T,地面用户K=4随机且均匀分布在以(0,0)为中心,半径为70m的圆中,四个用户的坐标为:w1=[-30,10]T、w2=[-20,50]T、w3=[22,28]T和w4=[30,16]T无人机的初始位置和最终位置的水平坐标为qI=[-500,20]T和qF=[500,20]T无人机的高度H=70m,IRS的高度Z=40m;无人机在飞行周期中,最大速度为Vmax=25m/s,将链路的路径损耗指数和瑞利因子分别设置为κ=3,ε=2.2和β=3dB;参考距离d0=1m处的信道功率增益ρ=-20dB,噪声功率σ2=-80dBm,无人机的最大发射功率为Pmax=20dB。
在基于DDPG深度强化学习中,演员网络和评论家网络设计了两个隐藏层的全连接神经网络,AdamPropOptimizer用作AC框架的优化器。仿真网络环境参数为训练总回合数为EP=5000,每个回合数中训练总步数T=20000,随机抽样一批数据数量W=16,Actor网络和Critic网络的学习率都设置为0.001,未来折扣因子为χ=0.99。
图3显示了无人机在不同飞行时间周期T的轨迹图,当T=40时无人机从初始位置到最终位置所需的最短时间,以最大速度直线飞行。另一方面,随着T逐渐增大,当T=100时无人机的飞行轨迹与之前的完全不同。无IRS情况下,无人机沿着相对直接的路径到达用户的位置,然后在用户位置上尽可能保持悬停,最终返回其最终位置。同时,无人机越快到达悬停点,平均求和率提高的程度大。在基于所提及的DDPG算法中,可观察到在无人机绕过地面用户,几乎直接飞向IRS,试图尽可能接近IRS位置上飞行,以增强接收信号的强度,提高多个空地面链路的信道增益,从而获得较好的通信质量。
提出DDPG算法的联合设计方案包括三个部分,即无人机波束形成,IRS无源波束形成相移设计,和轨迹设计。为了评估本发明所提DDPG算法的长期系统性能,将其与IRS采取随机相位和无IRS通信场景两个基准方案进行了比较。
图4显示在训练时间步长下,其中的平均奖励为用即时奖励的平均值
Figure SMS_99
Ri=1,2,...,R方法来计算平均奖励,其中R是最大步长。可以看出,奖励随着训练时间步长的增加而收敛,基于DDRG算法所获得的奖励优于两个基准方案,因为DDPG算法能够从环境学习中学习并调整优化变量以逼近最佳解,也同样表明部署IRS在改进通信系统中也起着重要的作用。
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims (1)

1.基于DDPG算法的IRS辅助无人机通信联合优化方法,其特征在于,所述联合优化方法基于IRS辅助无人机通信系统,所述通信系统包括IRS、旋转翼无人机,所述旋转翼无人机上安装若干根用于波束成形的天线,所述旋转翼无人机在固定高度H飞行作为空中基站服务K个单天线用户的下行传输系统,所述IRS接收无人机信号并将其通过反射信号绕过障碍物传输给用户;
所述联合优化方法的步骤为:
步骤1、对无人机基站和K个地面用户之间的信道、无人机和IRS之间的信道及IRS和K个地面用户之间的信道进行建模,构成空对地通信模型,求解三者的信道增益;
步骤2、根据三者的信道增益,获得无人机到地面用户在时隙t的数据传输可达和速率优化问题;
步骤3:根据通信系统中无人机的发射功率波束成形约束、运动轨迹约束,IRS无源波束成形相移约束和用户可达和速率,建立深度强化学习模型;
步骤4:利用DDPG算法优化强化学习模型;
步骤5:根据优化后的深度强化学习模型获得联合优化的解,得到优化的用户可达数据、速率和无人机的运动轨迹;
所述步骤1中,IRS和K个地面用户分布以及无人机状态进行如下定义:
所有通信节点建立三维笛卡尔坐标系,部署K个地面用户的和固定Z高度的IRS配有M个反射单元并且每个反射单元的相位可以调整接收信号,则用户k和IRS的水平坐标为wk=[xk,yk]T,wR=[xR,yR]T,其中k∈K,K是地面用户总数;
无人机在任务周期T内持续地向用户发射信号,T>0;无人机飞行周期T以步长δt分为N个等距时隙,T=Nδt;在第t∈[0,T]时刻,无人机的平面坐标定义为q(t)=[x(t),y(t)]T,其中x(t)和y(t)分别表示无人机的二维横坐标和纵坐标;IRS在第t个时隙中的相移矩阵为
Figure FDA0003941931830000011
diag{·}表示对角矩阵,对角矩阵
Figure FDA0003941931830000012
其中θm(t)表示IRS在第t个时隙的第m个反射单元的相移,其中m∈M,M是IRS单元总数;
无人机到用户的LoS路径被堵塞的情况下,无人机到用户的信道被建模为Rician衰弱信道,无人机到用户k在第t时隙的信道增益表示为:
Figure FDA0003941931830000021
其中ρ表示在参考距离d0=1m时的信道增益,κ是无人机与用户链路的路径损耗指数,guk是具有零均值和单位方差的复高斯随机向量;
Figure FDA0003941931830000022
表示无人机在第t时隙与用户k之间的距离,Nt是无人机的发射天线的数目;
无人机到IRS的信道以LoS信道为主,因此第t个时隙时无人机到IRS信道增益H(t)表示为:
Figure FDA0003941931830000023
其中
Figure FDA0003941931830000024
表示在第t时隙无人机和IRS之间的距离,gur表示数组响应阵列;
IRS到用户链路同时存在LoS和NLoS成分,因此,IRS到用户k的信道增益hk表示为:
Figure FDA0003941931830000025
其中
Figure FDA0003941931830000026
表示IRS到用户k的距离,ε为IRS到用户端路径损耗指数,β为瑞利因子,
Figure FDA0003941931830000027
Figure FDA0003941931830000028
分别表示智能发射面到用户k链路的LoS和NLoS成分;
步骤2中,用户k在第t时隙中的SINR计算公式为:
Figure FDA0003941931830000029
其中
Figure FDA00039419318300000210
为无人机波束成形矢量,σ2是加性高斯白噪声的功率,γk(t)表示用户k在第t时隙中的SINR;
系统目标为联合设计无人机波束成形矢量
Figure FDA0003941931830000031
IRS无源波束成形相移矩阵
Figure FDA0003941931830000032
和无人机飞行轨迹
Figure FDA0003941931830000033
来使得用户可达和速率最大化,该优化问题表述为:
Figure FDA0003941931830000034
s.t.||q(t+l)-q(t)||≤Dmax
q(0)=qI,q(T+I)=qF
Figure FDA0003941931830000035
Figure FDA0003941931830000036
其中Dmax=Vmaxδt是无人机在单个时隙中行驶的最大水平距离,Vmax是无人机最大行驶速度,单位为m/s,qI和qF分别为无人机的水平坐标中的初始值和最终值,Pmax表示无人机的最大发射功率;
步骤3中,建立深度强化学习模型的马尔可夫过程为:
步骤3-1、状态空间S:状态s(t)由第t时隙的无人机发射功率和用户接收功率、第t-1步的动作、信道矩阵{Gk(t),H(t),hk},k∈K决定;在构造状态s(t)中,如果涉及到复数,则将复数的实部和虚部提取出来被分离为独立的输入端口;
步骤3-2、动作空间A:动作a(t)是由优化变量波束成形矩阵B、无源波束成形相移矩阵Θ和轨迹q构成;同样,为了解决实际输入问题,在第t时隙将Bk(t)=|Re{Bk(t)}|+|Im{Bk(t)}|,k∈K和Θ(t)=|Re{Θ(t)}|+|Im{Θ(t)}|分为实部和虚部;
步骤3-3、即时奖励R:确保无人机为所有用户提供服务,并基于优化问题奖励函数为
Figure FDA0003941931830000037
考虑到无模型的强化框架,在有限时间T对学习最佳策略进行建模以获得最大的长期奖励
Figure FDA0003941931830000038
状态作用值函数Qπ(s(t),a(t))表示在给定策略π,状态s(t)下采取动作a(t)而获得的累计奖励期望;通过Q学习算法可搜索最优策略π*,在最优策略π*下定义的Q值更新函数为:
Figure FDA0003941931830000041
其中χ∈(0,1]为折扣因子,r(t+1)(s(t)=s,a(t),π=π*)为在第t时隙状态s(t),动作a(t)和最优策略π*下得到的即时奖励r(t+1),s′为无人机在第t+1时刻的状态,a′为无人机在第t+1时刻的动作,
Figure FDA0003941931830000042
是采取动作a从状态s(t)过渡到下一个状态s′的转移概率;
步骤4中所述利用DDPG算法优化深度强化学习模型,具体包括以下步骤:
步骤4-1、训练回合数ep初始化为0;
步骤4-2、ep回合中的第t时隙初始化为0;
步骤4-3、在线Actor策略网络根据输入状态s(t),输出动作a(t)并获取即时奖励r(t+1),同时转换到下一状态s(t+1),获取训练数据集(s(t),a(t),r(t+1),s(t+1));
步骤4-4、将训练数据集(s(t),a(t),r(t+1),s(t+1))存储到经验回放池记忆库D中;
步骤4-5、从目标Critic评论网络得到Q值方程
Figure FDA0003941931830000043
步骤4-6、从经验回放池D中随机采样一小批W数量样本构成数据集,发送给在线Actor策略网络、在线Critic评论网络、目标Actor策略网络和目标Critic评论网络;
步骤4-7、根据采样得到的W数量样本,目标Actor策略网络根据当前的状态s(t)输出动作a(t),目标Critic评论网络根据当前的状态s(t)和目标Actor策略网络输出动作a(t),输出Q值函数
Figure FDA0003941931830000044
的损失函数梯度
Figure FDA0003941931830000045
在线Critic评论网络根据当前(s(t),a(t),r(t+1))输出Q值函数
Figure FDA0003941931830000046
给的抽样策略梯度
Figure FDA0003941931830000047
和损失函数梯度
Figure FDA0003941931830000048
根据损失函数梯度
Figure FDA0003941931830000049
更新在线Critic评论网络参数
Figure FDA00039419318300000410
在线Actor策略网络将动作a(t)输出给抽样策略梯度
Figure FDA00039419318300000411
根据抽样策略梯度更新在线Actor策略网络参数
Figure FDA00039419318300000412
步骤4-8、根据在线Critic评论网络参数
Figure FDA0003941931830000051
和在线Actor策略网络参数
Figure FDA0003941931830000052
更新目标Critic评论网络参数
Figure FDA0003941931830000053
和目标Actor策略网络参数
Figure FDA0003941931830000054
Figure FDA0003941931830000055
Figure FDA0003941931830000056
其中τc和τa分别是用于更新目标Critic评论网络和目标Actor策略网络权重的软更新速率;
步骤4-9、判断是否满足t<T,T为ep回合中总时间步,若是则t=t+1,返回步骤4-3,若不是,则进入步骤4-10;
步骤4-10、判断是否满足轮数ep<EP,EP为总回合数,若是则ep=ep+1,返回步骤4-2,若不是则优化结束,得到优化后的强化学习框架;
更新梯度公式为:
Figure FDA0003941931830000057
Figure FDA0003941931830000058
其中a′是从目标Actor策略网络输出的动作,
Figure FDA0003941931830000059
表示在给定输入状态s(t)下为在线Actor策略网络参数为
Figure FDA00039419318300000510
所输出的动作,
Figure FDA00039419318300000511
是在线Actor策略网络参数为
Figure FDA00039419318300000512
的梯度。
CN202110353953.6A 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法 Active CN113162679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110353953.6A CN113162679B (zh) 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110353953.6A CN113162679B (zh) 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法

Publications (2)

Publication Number Publication Date
CN113162679A CN113162679A (zh) 2021-07-23
CN113162679B true CN113162679B (zh) 2023-03-10

Family

ID=76885904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110353953.6A Active CN113162679B (zh) 2021-04-01 2021-04-01 基于ddpg算法的irs辅助无人机通信联合优化方法

Country Status (1)

Country Link
CN (1) CN113162679B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113507304B (zh) * 2021-07-24 2022-05-13 大连理工大学 一种智能反射面辅助的无人机安全通信方法
CN113613273B (zh) * 2021-08-09 2023-12-26 浙江中蓝创新科技股份有限公司 一种智能超表面辅助无线供电网络的稳健能效优化方法
CN113645635B (zh) * 2021-08-12 2022-05-13 大连理工大学 智能反射面辅助的高能效无人机通信系统的设计方法
CN113708886A (zh) * 2021-08-25 2021-11-26 中国人民解放军陆军工程大学 无人机抗干扰通信系统及联合轨迹与波束成形优化方法
CN113965245A (zh) * 2021-09-30 2022-01-21 广西电网有限责任公司柳州供电局 基于opgw接头盒的智能反射面通信系统资源优化方法
CN113993107A (zh) * 2021-10-26 2022-01-28 南京航空航天大学 一种基于多约束构建穿越障碍区域的无人机中继网络方法
CN114051204B (zh) * 2021-11-08 2022-08-09 南京大学 一种基于智能反射面的无人机辅助通信方法
CN113784314B (zh) * 2021-11-12 2022-02-15 成都慧简联信息科技有限公司 一种智能反射表面辅助下的无人机数据与能量传输方法
CN114124264B (zh) * 2021-11-26 2023-09-22 江苏科技大学 基于智能反射面时变反射相位的无人机信道模型建立方法
CN114422056B (zh) * 2021-12-03 2023-05-23 北京航空航天大学 基于智能反射面的空地非正交多址接入上行传输方法
CN114337744B (zh) * 2021-12-31 2024-05-10 东南大学 非完美信道状态下的移动中继辅助鲁棒mimo高速通信传输方法
CN114025330B (zh) * 2022-01-07 2022-03-25 北京航空航天大学 一种空地协同的自组织网络数据传输方法
CN114422363B (zh) * 2022-01-11 2023-04-21 北京科技大学 一种无人机搭载ris辅助通信系统容量优化方法及装置
CN114257298B (zh) * 2022-01-17 2022-09-27 电子科技大学 智能反射表面相移和无人机路径规划方法
CN114819785A (zh) * 2022-01-25 2022-07-29 重庆邮电大学 一种基于强化学习的陆空联合轨迹优化与资源分配方法
CN114630297B (zh) * 2022-03-21 2024-04-19 河海大学 一种携带智能反射面的无人机中继的位置优化方法
CN114938498B (zh) * 2022-03-29 2023-10-27 成都理工大学 智能反射面辅助的无人机使能的无线传感网数据收集方法
CN114826380B (zh) * 2022-04-22 2023-08-08 昆明理工大学 一种基于深度强化学习算法的无人机辅助空地通信优化算法
CN114980169A (zh) * 2022-05-16 2022-08-30 北京理工大学 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
CN115334519B (zh) * 2022-06-30 2024-01-26 北京科技大学 一种无人机irs网络中用户关联与相移优化方法及系统
CN115047912B (zh) * 2022-07-14 2024-06-14 北京航空航天大学 一种基于强化学习的无人机集群自适应自重构方法及系统
CN116208510A (zh) * 2022-12-12 2023-06-02 重庆邮电大学 一种基于深度强化学习的智能反射面元素智能激活方法
CN116193476B (zh) * 2023-02-27 2023-09-12 重庆控环科技集团有限公司 考虑能耗中断的无人机通信资源分配方法及系统
CN116390056B (zh) * 2023-04-10 2024-05-24 重庆邮电大学 Star-ris辅助的车联网sr系统链路优化方法
CN116405111B (zh) * 2023-06-09 2023-08-15 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN116963183B (zh) * 2023-07-31 2024-03-08 中国矿业大学 一种智能反射面辅助的矿山物联网安全卸载方法
CN117835463A (zh) * 2023-12-27 2024-04-05 武汉大学 基于深度强化学习的空地自组通信网络时空动态部署方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112118556A (zh) * 2020-03-02 2020-12-22 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning With Application to Air Confrontation Intelligent Decision-Making of Manned/Unmanned Aerial Vehicle Cooperative System;Yue Li等;《IEEE》;20201231;第8卷;全文 *

Also Published As

Publication number Publication date
CN113162679A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
Huang et al. Deep reinforcement learning for UAV navigation through massive MIMO technique
Bayerlein et al. Trajectory optimization for autonomous flying base station via reinforcement learning
CN114422056B (zh) 基于智能反射面的空地非正交多址接入上行传输方法
Faisal et al. Machine learning approaches for reconfigurable intelligent surfaces: A survey
Zhao et al. Simultaneously transmitting and reflecting reconfigurable intelligent surface (STAR-RIS) assisted UAV communications
CN114422363B (zh) 一种无人机搭载ris辅助通信系统容量优化方法及装置
Zhao et al. RIS-aided ground-aerial NOMA communications: A distributionally robust DRL approach
Zhang et al. Multi-agent deep reinforcement learning for secure UAV communications
CN112672361B (zh) 一种基于无人机集群部署的大规模mimo容量提升方法
Pan et al. Artificial intelligence-based energy efficient communication system for intelligent reflecting surface-driven VANETs
CN113316169B (zh) 一种面向智慧港口的uav辅助通信能效优化方法及装置
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN116684925B (zh) 一种无人机搭载智能反射面安全移动边缘计算方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN116436512A (zh) 一种ris辅助通信的多目标优化方法、系统及设备
Hajiakhondi-Meybodi et al. Deep reinforcement learning for trustworthy and time-varying connection scheduling in a coupled UAV-based femtocaching architecture
CN114980169A (zh) 一种基于轨迹与相位联合优化的无人机辅助地面通信方法
Park et al. Joint trajectory and resource optimization of MEC-assisted UAVs in sub-THz networks: A resources-based multi-agent proximal policy optimization DRL with attention mechanism
Matinkhah et al. Unmanned aerial vehicles analysis to social networks performance
Wu et al. Deep reinforcement learning-based energy efficiency optimization for RIS-aided integrated satellite-aerial-terrestrial relay networks
Evmorfos et al. Deep q learning with fourier feature mapping for mobile relay beamforming networks
CN117858015A (zh) 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法
CN116704823B (zh) 基于强化学习的无人机智能轨迹规划和通感资源分配方法
Evmorfos et al. Deep actor-critic for continuous 3D motion control in mobile relay beamforming networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant