CN114422056B - 基于智能反射面的空地非正交多址接入上行传输方法 - Google Patents
基于智能反射面的空地非正交多址接入上行传输方法 Download PDFInfo
- Publication number
- CN114422056B CN114422056B CN202210073748.9A CN202210073748A CN114422056B CN 114422056 B CN114422056 B CN 114422056B CN 202210073748 A CN202210073748 A CN 202210073748A CN 114422056 B CN114422056 B CN 114422056B
- Authority
- CN
- China
- Prior art keywords
- ground
- unmanned aerial
- aerial vehicle
- irs
- base station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000005540 biological transmission Effects 0.000 title claims abstract description 60
- 238000004891 communication Methods 0.000 claims abstract description 62
- 238000005457 optimization Methods 0.000 claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000002787 reinforcement Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 34
- 230000009471 action Effects 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000010363 phase shift Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 3
- 206010042135 Stomatitis necrotising Diseases 0.000 claims 1
- 201000008585 noma Diseases 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 26
- 230000001413 cellular effect Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000005562 fading Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012772 sequence design Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
- H04B17/336—Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18506—Communications with or from aircraft, i.e. aeronautical mobile service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1853—Satellite systems for providing telephony service to a mobile station, i.e. mobile satellite service
- H04B7/18532—Arrangements for managing transmission, i.e. for transporting data or a signalling message
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1853—Satellite systems for providing telephony service to a mobile station, i.e. mobile satellite service
- H04B7/18539—Arrangements for managing radio, resources, i.e. for establishing or releasing a connection
- H04B7/18543—Arrangements for managing radio, resources, i.e. for establishing or releasing a connection for adaptation of transmission parameters, e.g. power control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Electromagnetism (AREA)
- Astronomy & Astrophysics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于智能反射面的空地非正交多址接入上行传输方法,属于无线通信领域;首先搭建包括地面用户、无人机、IRS和基站的空地通信场景,在当前时隙分别建模地面用户和无人机到基站的有效链路,计算接收信号的信噪比;然后,计算基站接收到无人机与地面用户的传输速率;以上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;并将该问题建模为马尔可夫决策过程。最后,采用基于Actor‑Critic框架的分布式鲁棒强化学习算法对模型进行训练,输出参数应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。本发明保证了系统在动态复杂环境下的鲁棒性。
Description
技术领域
本发明属于无线通信技术领域,针对空地通信频谱资源优化配置的应用需求,具体涉及一种基于智能反射面的空地非正交多址接入上行传输方法。
背景技术
在过去几年中,使用无人机(Unmanned Aerial Vehicle,UAV)作为通信网络的空中平台,以提高现有无线网络的容量和覆盖范围,引起了学术界和工业界的广泛关注。现阶段实现高质量空地通信的一种方法是利用地面蜂窝网络,其引入了蜂窝连接无人机通信的运行概念。蜂窝连接无人机通信能够在可靠性、吞吐量和覆盖范围等方面,显著提高频谱资源受限条件下现有空地通信系统的性能。
与此同时,为了更有效地利用频谱资源,引入功率域非正交多址接入(Non-orthogonal Multiple Ac1cess,NOMA)技术,该技术能够允许多个用户在同一个资源块中同时传输数据,提高了频谱效率。
除了频谱资源受限外,空地通信系统发展的另一项挑战则是空地通信信道环境的复杂性,由于无人机和用户与基站之间存在着高层建筑等障碍物,使得空地数据链路不稳定,大大降低了通信的性能。对于该问题,应用智能反射面(Intelligent ReflectingSurfaces,IRS)技术引起了人们的广泛关注,该项技术可以以极低的功耗和硬件成本以被动波束赋形的方式对无线信道进行重新配置,从而提高通信质量。
虽然现有工作已经研究了NOMA和IRS在无人机通信中应用的益处,但NOMA和IRS相结合的方案能否在蜂窝连接无人机上行通信链路中提供性能增益,仍有待进一步研究。相关技术研究的主要问题体现在以下三个方面:
(1)NOMA协议的引入带来了更加复杂的干扰环境和基于信道条件的译码顺序设计,这导致了无人机航迹、IRS相位偏移和上行功率控制等需求之间存在高度耦合的情况,难以高效快速地获得最优的决策方案,实现上行链路中地面基站(Ground Base Station,GBS)接收端性能的提升。
(2)由于IRS的反射系数对无人机和地面用户(Ground User,GU)均会产生作用,所以反射信号的最佳波束赋形不只是与直射信号对齐,同时由于同信道干扰的存在,IRS的反射单元的配置变得更加复杂。
(3)由于运行环境中障碍物的位置无法预先知悉,需要在不确定环境下做出无人机轨迹、IRS相位偏移和上行链路传输功率控制的实时决策。
此外,由于环境不确定性难以精确建模,如何提高决策过程在面对动态不确定性时的鲁棒性是又一重要挑战。
发明内容
本发明针对空地通信上行NOMA蜂窝网络的应用场景,提供了一种基于智能反射面的空地非正交多址接入上行传输方法,实现对空地通信数据传输的联合优化,最终保证在无人机安全飞行的前提下,满足无人机和地面用户最低传输速率要求,维持通信系统在动态复杂环境下的鲁棒性,通过实现通信系统上行链路总和速率的最大化来提高系统频谱利用率,进一步提升通信系统性能。
所述的基于智能反射面的空地非正交多址接入上行传输方法,具体步骤如下:
步骤一、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景;
用户有若干,与无人机之间分别配置单全向天线;存在大量高层建筑物,地面用户和无人机与地面基站间均不存在直射链路,IRS部署在高层建筑顶端,所部署的IRS拥有N个反射单元。
步骤二、在第m个时隙,分别建模地面用户到基站的有效链路,以及无人机到基站的有效链路;
地面用户到基站的有效链路表示为:
无人机到基站的有效链路表示为:
其中,hu,b[m]为无人机与基站间的链路;hu,s[m]为无人机与IRS的链路;
步骤三、利用地面用户和无人机各自的有效链路,结合各自的传输功率,分别计算地面用户和无人机在第m时隙在基站接收信号的信噪比和信干噪比;
无人机第m时隙在基站接收信号的信干噪比,计算公式为:
pu[m]表示无人机的传输功率;pgu[m]表示地面用户的传输功率;σb 2为高斯白噪声。
地面用户第m时隙在基站接收信号的信噪比,计算公式为:
步骤四、利用地面用户和无人机在接收端信号的信噪比和信干噪比,计算基站第m时隙接收到无人机与地面用户的传输速率R[m];
计算公式为:
步骤五、以基站在所有时隙的上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;
联合优化问题为:
约束条件C4表示保证成功的SIC的NOMA技术的解码顺序约束;
步骤六、根据空地通信系统的联合优化问题,将问题建模为马尔可夫决策过程MDP。
第m时隙的状态空间表示为:
Sm={Q[m],D[m],Rsum[m-1]}
Q[m]为无人机的位置;D[m]为无人机相较于障碍物中心位置的距离;Rsum[m-1]为从第1时隙到第m-1个时隙的时间段内,无人机与地面用户的总和速率;
动作空间为离散数值,由三部分构成:1)无人飞行的机动方向;2)每一个IRS单元的相位偏移值φn[m];3)无人机与地面用户的功率控制;
奖励函数定义为:
其中NS表示约束条件没有被满足的非正常状态;K为恒定的负值奖励;C[m]为当全部约束条件都满足时,系统得到的正值奖励。
步骤七、采用基于Actor-Critic框架的分布式鲁棒强化学习(DistributionRobust Reinforcement Learning,DRRL),对MDP模型进行训练,得到参数和ω应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。
采用深度强化学习算法具有可变更性,具体基准算法不唯一。本发明以SAC算法为参考,实施DRRL以完成DRSAC算法的设计。
DRSAC算法的神经网络分为两类:Actor网络与Critic网络;
通过对Critic网络设置两个输出价值函数Q的网络,每次取两个网络输出中的最小Q值作为迭代计算所用的Q值。
利用DRSAC算法对价值函数Q进行修正,具体过程为:
首先,定义DRRL的目标为:
进一步,将鲁棒的目标函数改写为:
其中λ(s)为拉格朗日乘子,且λ(s)>0。
对于目标函数式中最大化问题表示为:
最优解λ*(s)为:
根据所得到的最佳策略集,可计算
最后,更新Critic网络参数,并根据Critic网络的输出更新Actor网络参数;
训练直至神经网络参数不再更新,联合优化的结果收敛到近似最优的稳定值,即优化的决策结果可以使得通信系统达到最大满足条件的总和速率。
本发明的优点与积极效果在于:
(1)一种基于智能反射面的空地非正交多址接入上行传输方法,采用NOMA与IRS相结合,能够在蜂窝连接无人机上行通信链路中提供系统通信性能的增益。
(2)一种基于智能反射面的空地非正交多址接入上行传输方法,考虑到高度耦合的无人机航迹、IRS相位偏移和上行功率控制问题,通过将问题建立成MDP过程,选用强化学习的技术方式,以低复杂度的方式实现了优化问题的求解。
(3)一种基于智能反射面的空地非正交多址接入上行传输方法,考虑到在未知障碍物位置带来动态不确定性的情况下,利用非完整的分布信息,构造基于可接受偏差约束的模糊集来描述不确定性,从而保证系统在动态复杂环境下的鲁棒性。
附图说明
图1为本发明一种基于智能反射面的空地非正交多址接入上行传输方法的流程图;
图2为本发明搭建的空地通信场景的示意图。
图3为本发明所述的无人机冲突风险示意图。
图4为本发明采用的分布式鲁棒SAC算法框架图。
图5为本发明采用的分布式鲁棒SAC算法训练流程图。
图6为本发明采用的分布式鲁棒SAC算法随训练周期变化的奖励曲线图。
图7为本发明采用的分布式鲁棒SAC算法随训练周期变化的累计冲突率曲线图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明提出了一种基于智能反射面的空地非正交多址接入上行传输方法,基于深度强化学习IRS辅助的空地通信上行NOMA蜂窝网络通信联合优化,其中无人机和地面用户,两者与地面基站之间的直射链路受到阴影衰落的影响。更具体地说,无人机和地面用户同时通过NOMA协议向地面基站上传数据,通过对IRS辅助的空地通信上行NOMA蜂窝网络进行建模,并数学公式化描述建模问题的优化目标与约束条件。IRS辅助提供虚拟的视距(Line-of-sight,LoS)链路。该方法利用无人机的高机动性、可重构无线传播环境以及功率域空地用户接入,实施了无人机与地面用户之间高效频谱共享的新模式。
在此基础上,利用基于Actor-Critic框架的分布式鲁棒强化学习算法(Distribution Robust Reinforcement Learning,DRRL),在未知障碍物位置带来的不确定性下,联合优化无人机航迹、IRS相位偏移和上行链路功率控制,利用非完整的分布信息,构造基于可接受偏差约束的模糊集来描述不确定性,从而提高通信系统在动态复杂环境下的鲁棒性。
所述的基于智能反射面的空地非正交多址接入上行传输方法,如图1所示,具体步骤如下:
步骤一、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景;
如图2所示,用户有若干,与无人机之间配置单全向天线,由通信范围内的单地面基站服务;并且应用了NOMA技术以满足共用频谱资源的需求。系统应用场景为城市区域,存在大量高层建筑物,地面用户和无人机与地面基站间不存在直射链路,IRS部署在高层建筑顶端,所部署的IRS拥有N个反射单元。
无人机和地面用户同时通过NOMA协议向地面基站上传数据,IRS辅助提供虚拟的视距(Line-of-sight,LoS)链路,空地通信系统运行模型形成UAV-GBS链路、UAV-IRS-GBS链路、GU-GBS链路和GU-IRS-GBS链路。
由于UAV-GBS和GU-GBS链路,LoS链路受阻且存在反射,所以建模为瑞利衰落信道,将UAV-IRS、GU-IRS和IRS-GBS链路建模为莱斯衰落信道。
步骤二、在第m个时隙,分别建模地面用户到基站的有效链路,以及无人机到基站的有效链路;
建立三维笛卡尔坐标系构,将地面基站、地面用户和IRS的位置坐标分别设为(xb,yb,zb),(xgu,ygu,0),(xs,ys,zs)。而无人机以恒定飞行速度V将飞行高度维持在zu,由无人机位置所确定的航迹点可表示为q[m]=(x[m],y[m],zu)。
对于所部署的反射单元,有第m个时隙的对角线反射系数矩阵为:
Θ[m]=diag(θ1[m],...,θn[m],...θN[m]),系数矩阵中的对角元素有其中φn[m]∈[0,2π)表示相位偏移,βn[m]∈[0,1]表示反射系数的实际幅值。考虑到IRS实际由可编程PIN二极管所嵌入的电子元构成,因此相位偏移为离散数值φn[m]∈{0,Δφ,...,(L-1)Δφ}。
基于蜂窝网络中有限的频谱资源,对于无人机用户与地面用户的上行链路引入NOMA通信技术。因此在地面基站接收端处包含四类接收信号:UAV-GBS链路,UAV-IRS-GBS链路,GU-GBS链路,GU-IRS-GBS链路,分别表示为:其中x∈{gu,u}。
地面用户到基站的有效链路表示为:
由于IRS和无人机之间的距离远大于IRS单元之间的距离,所以本发明使用IRS第一个单元作为路径损耗计算的参考点。
无人机到基站的有效链路表示为:
其中,hu,b[m]为无人机与基站间的链路;hu,s[m]为无人机与IRS的链路;
而无人机与地面基站间的链接、地面用户与地面基站间的链接建模为瑞利衰落信道:
因此,有基站在m时隙接收到的信号可表示为:
对于NOMA网络的上行链路,具有较好信道条件的用户信号通常会先被检测到,并从接收信号中消去,那么对于其他接收信号,则降低了受到的干扰影响。在所提出的模型中,无人机用户与地面用户的有效信道随着无人机飞行航迹q[m]和IRS反射系数矩阵Θ[m]的变化而变化,因此本发明中上行链路的信号检测顺序无法根据有效信道状态来提前确定。
步骤三、利用地面用户和无人机的有效链路,结合各自的传输功率,分别计算地面用户和无人机在第m时隙在基站接收信号的信噪比和信干噪比;
无人机第m时隙在基站接收信号的信干噪比SINR,计算公式为:
pu[m]表示无人机的传输功率;pgu[m]表示地面用户的传输功率;σb 2为高斯白噪声。
在地面基站通过SIC消去无人机信号后,地面用户第m时隙在基站接收信号的信噪比SNR,计算公式为:
步骤四、利用地面用户和无人机在接收端信号的信噪比和信干噪比,计算基站第m时隙接收到无人机与地面用户的传输速率R[m];
计算公式为:
步骤五、以基站在所有时隙地面用户与无人机用户的上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;
本发明的主要目标是通过联合优化无人机航迹、IRS的反射系数矩阵、无人机与地面用户功率控制,在无人机与障碍物的距离大于安全距离、无人机与地面用户传输瞬时速率要求大于最小要求的传输速率的约束下,在总的飞行时间内实现无人机和用户的上传速率之和最大化。
虽然无人机和地面用户在每个时隙都能够以全功率发射,以达到总速率最大化,但是由于接收信号质量和SIC条件的约束,这种全功率的传输方案通常不是最优的。因此功率控制必须与无人机航迹和IRS的反射系数矩阵综合考虑。联合优化问题为:
约束条件C3表示IRS阵元离散相位偏移值的约束;φn[m]表示由可编程PIN二极管所嵌入的电子元构成的IRS的相位偏移;为IRS的个数;Δφ=2π/L,L表示IRS离散相移的数目;如果IRS的相移为0和π,那么L=2,Δφ=π。
约束条件C4表示保证成功的SIC的NOMA技术的解码顺序约束;
考虑到无人机在城市空域中运行,其飞行状态可能会受到高层建筑的影响,需要引入防撞机制以避免空中碰撞事故的发生,以此来保证安全飞行的运行状态。加装有感知探测设备的无人机具有感知周边环境的能力,在运行过程中机载传感器设备获取运行环境的态势信息(包括障碍物的相对位置等)。如图3所示,将无人机的感知范围定义为以无人机为圆心,半径为Rs的三维球体,那么在感知范围内,有安全运行要求满足约束条件C5。
步骤六、根据空地通信系统的联合优化问题,将问题建模为马尔可夫决策过程(Markov decision process,MDP)。
本发明所关注的联合优化问题属于时间维度的序列决策问题,符合MDP的基本特性,即当前时刻的决策结果当且仅当考虑当前时刻的环境状态。定义元组来描述MDP,其中是决策智能体可实施行为的集合,是传输概率矩阵,是决策智能体基于当前状态采取行为后获得的实值奖励函数,γ是衰减因子。
在制定的MDP中,本发明考虑中央控制器作为智能体,来控制无人机的航迹和RIS相位调整。从基于MDP的状态空间、动作空间以及奖励函数三方面描述联合优化决策问题的设计过程。
状态空间:每一个时隙内的环境状态,包含三个部分:1)无人机用户的位置Q[m];2)无人机相较于障碍物中心位置的距离3)从第1时隙到第m-1个时隙的时间段内,无人机与地面用户的总和速率因此,状态空间可以表示为:
第m时隙的状态空间表示为:
Sm={Q[m],D[m],Rsum[m-1]}
动作空间:基于IRS阵元相位偏移在实际中只能设定为阶梯的离散数值,因此设定行为空间均为离散数值,由三部分构成:1)无人飞行的机动方向,由(-1,0)、(1,0)、(0,1)、(0,-1)分别表示无人机飞行方向的左、右、前、后;2)每一个IRS单元的相位偏移值φn[m];3)无人机与地面用户的功率控制
奖励函数:用于对联合优化的决策行为进行反馈,针对总和速率最大化的目标,设定学习过程获得的奖励与目标一致。对无人机航迹规划、IRS相位偏移和地面用户与无人机功率控制的联合优化必须在给定约束条件下,假若这些约束条件中的任何一项没有得到满足,会得到负值奖励,即惩罚函数。因此,定义为:
其中NS表示约束条件没有被满足的非正常状态;K为恒定的常系数,即当前状态为非正常状态时,系统得到的是负值奖励,仅当全部约束条件都满足时,系统可以得到正值奖励C[m]。
上式表明,如果决策行为的一次执行,能满足所有的运行约束条件,那么系统获得与传输和速率数值相当的奖励,反之则会得到惩罚,惩罚的具体数值与的设定的参数K相关。
步骤七、采用基于Actor-Critic框架的分布式鲁棒强化学习(DistributionRobust Reinforcement Learning,DRRL),对MDP模型进行训练,得到参数和ω应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。
采用分布式鲁棒强化学习算法实现对联合优化问题的求解,实现实时的空地通信总和速率最大化。所采用深度强化学习算法具有可变更性,具体基准算法不唯一。本发明以SAC算法为参考,实施DRRL以完成DRSAC算法的设计。
(1)DRSAC算法的训练阶段。
如图4所示,对于整个通信系统,将中心控制的决策单元看作一个智能体,基于前述的MDP对智能体构建神经网络DRSAC算法的神经网络分为两类:Actor网络与Critic网络;
Actor网络的输入为系统所能获取的状态信息,输出为行为空间中选择的决策结果;Critic网络的输入同样也是所能获取的状态信息,但输出结果为当前状态执行确定行为后相应的评估值。
其中,a为运行系统通过联合优化所给出的决策行为,s表示系统所能观测到的运行状态信息,包含了无人机运行态势、通信系统运行状态等信息。
本发明所采用的SAC算法是基于最大熵的架构,在强化学习的基础上,对奖励的计算引入了熵的部分,即对于max F(π),有:
a)、利用通信系统仿真测试平台生成多种通信应用的模拟场景;
决策智能体利用收集到的数据进行处理分析,并根据所设定的损失函数通过策略梯度来更新神经网络参数。
最大迭代次数K人为根据实际需要设定。
对于Critic网络参数ω,设定损失函数:
因此,对α做自适应调节,设定损失函数:
对于离散的动作空间,依据动作概率计算动作的期望:
为了提高训练速度,对于Critic网络共设置了两个输出价值函数Q的网络,两个网络独立更新,每次取两个网络输出中的最小Q值作为迭代计算所用的Q值。
本发明所提出的分布式鲁棒强化学习,需要对价值函数Q进行修正,以在有限样本的条件下得到更为鲁棒的决策结果,进而提升系统鲁棒性,定义DRRL的目标为:
鲁棒的目标函数可以写为:
其中λ(s)为拉格朗日乘子,且λ(s)>0。上式中最大化问题可以表示为:
根据所得到的最佳策略集,可计算
最后,更新Critic网络参数。根据Critic网络的输出更新Actor网络参数。
训练直至神经网络参数不再更新,联合优化的结果收敛到近似最优的稳定值,即优化的决策结果可以使得通信系统达到最大满足条件的总和速率。
对于某一确定的场景,单次完整训练的最大迭代次数为K。在训练过程中,决策智能体不断更新自身的策略对应的神经网络参数和ω,当迭代次数达到K时,训练停止,此时的网络参数和ω即对应实现最优决策结果的数值。由于实际应用场景多变,单一场景的学习结果难以具备适应多场景的联合优化决策,需要决策智能体通过对多种模拟的通信环境不断的进行联合优化以得到最大化的总和速率,并且不断更新自身的策略对应的神经网络参数ω,最终实现IRS辅助空地通信的联合优化。
(2)DRSAC算法的决策实际应用阶段。
在应用阶段,我们假定决策智能体模型的Actor网络参数已经训练完成。此时,价值函数Q将不再应用,决策智能体可以通过已经训练完成的决策模型自主地进行决策。因此,可以将训练完成的算法模型及参数作为软件功能,开发嵌入空地通信系统的中心控制单元,以实现IRS辅助空地通信的实时联合优化。
本实施例的中心控制单元用集中式控制方法,无人机的移动和IRS相位偏移由一个中央控制器控制。
其应用阶段步骤如下:
a)中心控制单元通过定位、导航等设备从地面或者运行空域获取地面用户、无人机、地面基站的位置信息及相对距离;
b)将通信系统运行的环境状态信息输入到所嵌入中心控制单元软件系统的Actor网络中,得到当前时刻无人机飞行方向、IRS相位偏移、无人机用户发射功率、地面用户发射功率最优的调控结果;
c)由中心控制单元控制无人机、IRS、地面用户执行相应的调控,在运行时间内持续完成联合优化目标,实现IRS辅助空地通信的实时联合优化。
实施例
本实施例采用的参数值设定主要是为了本发明基本构想以及对发明做仿真实验,在具体的学习环境和应用环境中,可视实际的场景和需求进行适当的调整。
假设通信系统中存在1个地面用户,1架无人机、1面IRS以及1座地面基站。地面用户初始位置为(-100,-100,0),系统运行过程中在初始位置附近小范围随机运动;IRS的位置坐标为(200,80,60);地面基站坐标为(300,-50,40);无人机在飞行过程中飞行高度为40m,飞行速度恒定为20m/s,飞行初始位置为(0,0,40),无终止位置,最小安全飞行间隔为20m。通信链路的LoS与NLoS路径损耗指数分别设定为2.1、3.5,莱斯系数k=4,参考距离d0=1处的信道功率增益为-20dB,噪声功率为-80dBm,无人机最大发射功率为30.8dBm,地面用户最大传输功率为29dBm。
在基于DRSAC的深度强化学习中,对于Actor网络与Critic网络均设定了包含两个隐藏层的全连接神经网络,采用Adam作为随即策略梯度计算的优化器。仿真环境的训练总回合数为200000,随机采样的小样本数据量为64,神经网络的学习率均为0.00001,采用ReLU作为神经网络的激活函数。
如图6所示,显示了在通过联合优化后,NOMA网络与OMA网络比较有显著的增益;IRS辅助的网络较无IRS的网络有显著的增益。
如图7所示,显示了在满足最大化空地通信和速率的同时,能维持无人机保证避免与障碍物发生碰撞,保持安全运行状态。
最后应说明的是:以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,具体步骤如下:
首先、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景;
在第m个时隙,分别建模地面用户到基站的有效链路,以及无人机到基站的有效链路;并利用有效链路,结合地面用户和无人机各自的传输功率,分别计算基站接收地面用户和无人机信号的信噪比和信干噪比;
然后、利用信噪比和信干噪比,进一步计算基站第m时隙接收到无人机与地面用户的传输速率R[m];并以基站在所有时隙的上行传输总速率最大化为优化目标,建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题;
接着、根据空地通信系统的联合优化问题,将问题建模为马尔可夫决策过程MDP;
最后、采用基于Actor-Critic框架的分布式鲁棒强化学习算法对MDP模型进行训练,输出参数θ和ω应用于空地通信场景的中心控制Actor网络,实现IRS辅助空地通信的实时联合优化。
2.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的通信场景具体为:
地面用户与无人机之间分别配置单全向天线;存在大量高层建筑物,地面用户与地面基站间均不存在直射链路,无人机与地面基站间均不存在直射链路,IRS部署在高层建筑顶端,所部署的IRS拥有N个反射单元。
5.如权利要求3或4所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的联合优化问题为:
约束条件C4表示保证成功的连续干扰消除SIC的NOMA技术的解码顺序约束;
6.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的马尔可夫决策过程MDP中,定义元组其中是决策智能体的状态集合,是决策智能体可实施动作的集合,是传输概率矩阵,是决策智能体基于当前状态采取动作后获得的实值奖励函数,γ是衰减因子;
第m时隙的状态空间表示为:
Sm={Q[m],D[m],Rsum[m-1]}
Q[m]为无人机的位置;D[m]为无人机相较于障碍物中心位置的距离;Rsum[m-1]为从第1时隙到第m-1个时隙的时间段内,无人机与地面用户的总速率和;
动作空间为离散数值,由三部分构成:1)无人机飞行的机动方向;2)每一个IRS单元的相位偏移值φn[m];3)无人机与地面用户的功率控制;
奖励函数定义为:
其中NS表示约束条件没有被满足的非正常状态;K为恒定的负值奖励;C[m]为当全部约束条件都满足时,系统得到的正值奖励。
7.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法,其特征在于,所述的采用基于Actor-Critic框架的分布式鲁棒强化学习算法具有可变更性,具体基准算法不唯一,本发明以SAC算法为参考,实施DRRL以完成DRSAC算法的设计;利用DRSAC算法对MDP模型进行训练的过程如下:
DRSAC算法的神经网络分为两类:Actor网络与Critic网络;
Actor网络的神经网络参数为θ,Critic网络的神经网络参数为ω,智能体的策略为π;
智能体的动作由其策略和对应的参数决定,即:Am=π(Sm|θ);
通过对Critic网络设置两个输出价值函数Q的网络,每次取两个网络输出中的最小Q值作为迭代计算所用的Q值;
利用DRSAC算法对价值函数Q进行修正,具体过程为:
首先,定义DRRL的目标为:
进一步,将鲁棒的目标函数改写为:
其中λ(s)为拉格朗日乘子,且λ(s)>0;
对于目标函数式中最大化问题表示为:
最优解λ*(s)为:
根据所得到的最佳策略集,可计算
最后,更新Critic网络参数,并根据Critic网络的输出更新Actor网络参数;
训练直至神经网络参数不再更新,联合优化的结果收敛到近似最优的稳定值,即优化的决策结果可以使得通信系统达到最大满足条件的总速率和。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021114672930 | 2021-12-03 | ||
CN202111467293 | 2021-12-03 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114422056A CN114422056A (zh) | 2022-04-29 |
CN114422056B true CN114422056B (zh) | 2023-05-23 |
Family
ID=81274792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210073748.9A Active CN114422056B (zh) | 2021-12-03 | 2022-01-21 | 基于智能反射面的空地非正交多址接入上行传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114422056B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115002802B (zh) * | 2022-05-10 | 2024-07-19 | 重庆邮电大学 | 一种irs辅助的noma无人机网络的安全速率最大化方法 |
CN114980140B (zh) * | 2022-05-25 | 2023-06-23 | 扬州大学 | 一种基于多智能反射面和中继站辅助的下行通信系统及信息传输方法 |
CN115002900B (zh) * | 2022-06-02 | 2023-11-07 | 中国电信股份有限公司 | 终端定位方法、装置、计算机存储介质及电子设备 |
CN115208443B (zh) * | 2022-06-13 | 2023-10-31 | 北京科技大学 | 基于智能反射面的大规模mimo系统的联合优化方法及装置 |
CN115802313B (zh) * | 2022-11-16 | 2024-06-28 | 河南大学 | 基于智能反射面的空地移动网络携能公平通信方法 |
CN115499849B (zh) * | 2022-11-16 | 2023-04-07 | 国网湖北省电力有限公司信息通信公司 | 一种无线接入点与可重构智能表面协作方法 |
CN116170053B (zh) * | 2022-12-08 | 2024-07-05 | 江苏若藤煊科技有限公司 | 一种无人机辅助的NOMA反向散射通信系统max-min速率最大化方法 |
CN116614826B (zh) * | 2023-05-24 | 2024-01-16 | 北京天坦智能科技有限责任公司 | 一种同时传输和反射表面网络的覆盖和容量优化方法 |
CN116436512A (zh) * | 2023-06-15 | 2023-07-14 | 中国人民解放军战略支援部队航天工程大学 | 一种ris辅助通信的多目标优化方法、系统及设备 |
CN117692052B (zh) * | 2024-02-04 | 2024-04-19 | 北京邮电大学 | 低轨卫星网络中多地面用户的接入选择方法和装置 |
CN118034065B (zh) * | 2024-04-11 | 2024-06-21 | 北京航空航天大学 | 一种无人机决策网络的训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN113364495A (zh) * | 2021-05-25 | 2021-09-07 | 西安交通大学 | 一种多无人机轨迹和智能反射面相移联合优化方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109803344B (zh) * | 2018-12-28 | 2019-10-11 | 北京邮电大学 | 一种无人机网络拓扑及路由联合构建方法 |
CN112153653A (zh) * | 2020-09-23 | 2020-12-29 | 南京邮电大学 | 可重构智能表面辅助的noma下行低功耗传输方法 |
CN113162679B (zh) * | 2021-04-01 | 2023-03-10 | 南京邮电大学 | 基于ddpg算法的irs辅助无人机通信联合优化方法 |
-
2022
- 2022-01-21 CN CN202210073748.9A patent/CN114422056B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN113364495A (zh) * | 2021-05-25 | 2021-09-07 | 西安交通大学 | 一种多无人机轨迹和智能反射面相移联合优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114422056A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114422056B (zh) | 基于智能反射面的空地非正交多址接入上行传输方法 | |
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
Bayerlein et al. | Trajectory optimization for autonomous flying base station via reinforcement learning | |
Challita et al. | Cellular-connected UAVs over 5G: Deep reinforcement learning for interference management | |
CN114422363B (zh) | 一种无人机搭载ris辅助通信系统容量优化方法及装置 | |
CN113472419A (zh) | 一种基于空基可重构智能表面的安全传输方法及系统 | |
CN113316169B (zh) | 一种面向智慧港口的uav辅助通信能效优化方法及装置 | |
CN115640131A (zh) | 一种基于深度确定性策略梯度的无人机辅助计算迁移方法 | |
Luo et al. | A two-step environment-learning-based method for optimal UAV deployment | |
US11184232B2 (en) | Radio frequency (RF) communication system providing enhanced RF equipment configuration updates for mobile vehicles based upon reward matrices and related methods | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN116436512A (zh) | 一种ris辅助通信的多目标优化方法、系统及设备 | |
Park et al. | Joint trajectory and resource optimization of MEC-assisted UAVs in sub-THz networks: A resources-based multi-agent proximal policy optimization DRL with attention mechanism | |
US20200169317A1 (en) | Radio frequency (rf) communication system providing enhanced mobile vehicle positioning based upon reward matrices and related methods | |
CN116963034A (zh) | 一种面向应急场景的空地网络分布式资源调度方法 | |
Nasr-Azadani et al. | Single-and multiagent actor–critic for initial UAV’s deployment and 3-D trajectory design | |
CN116600316A (zh) | 一种基于深度双q网络和联邦学习的空地一体化物联网联合资源分配方法 | |
Jiao et al. | Deep reinforcement learning-based optimization for RIS-based UAV-NOMA downlink networks | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
Wang et al. | Robotic wireless energy transfer in dynamic environments: system design and experimental validation | |
CN116684852B (zh) | 一种山地茂林环境无人机通信资源与悬停位置规划方法 | |
Zhang et al. | UAV-assisted task offloading system using dung beetle optimization algorithm & deep reinforcement learning | |
CN117858015A (zh) | 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法 | |
Yang et al. | RS-DRL-based offloading policy and UAV trajectory design in F-MEC systems | |
Yang et al. | Deep reinforcement learning in NOMA-assisted UAV networks for path selection and resource offloading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |