CN114422056B

CN114422056B - 基于智能反射面的空地非正交多址接入上行传输方法

Info

Publication number: CN114422056B
Application number: CN202210073748.9A
Authority: CN
Inventors: 赵晶晶; 朱衍波; 蔡开泉; 陈润泽; 喻兰辰晖
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-03
Filing date: 2022-01-21
Publication date: 2023-05-23
Anticipated expiration: 2042-01-21
Also published as: CN114422056A

Abstract

本发明公开了一种基于智能反射面的空地非正交多址接入上行传输方法，属于无线通信领域；首先搭建包括地面用户、无人机、IRS和基站的空地通信场景，在当前时隙分别建模地面用户和无人机到基站的有效链路，计算接收信号的信噪比；然后，计算基站接收到无人机与地面用户的传输速率；以上行传输总速率最大化为优化目标，建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题；并将该问题建模为马尔可夫决策过程。最后，采用基于Actor‑Critic框架的分布式鲁棒强化学习算法对模型进行训练，输出参数应用于空地通信场景的中心控制Actor网络，实现IRS辅助空地通信的实时联合优化。本发明保证了系统在动态复杂环境下的鲁棒性。

Description

基于智能反射面的空地非正交多址接入上行传输方法

技术领域

本发明属于无线通信技术领域，针对空地通信频谱资源优化配置的应用需求，具体涉及一种基于智能反射面的空地非正交多址接入上行传输方法。

背景技术

在过去几年中，使用无人机(Unmanned Aerial Vehicle，UAV)作为通信网络的空中平台，以提高现有无线网络的容量和覆盖范围，引起了学术界和工业界的广泛关注。现阶段实现高质量空地通信的一种方法是利用地面蜂窝网络，其引入了蜂窝连接无人机通信的运行概念。蜂窝连接无人机通信能够在可靠性、吞吐量和覆盖范围等方面，显著提高频谱资源受限条件下现有空地通信系统的性能。

与此同时，为了更有效地利用频谱资源，引入功率域非正交多址接入(Non-orthogonal Multiple Ac1cess，NOMA)技术，该技术能够允许多个用户在同一个资源块中同时传输数据，提高了频谱效率。

除了频谱资源受限外，空地通信系统发展的另一项挑战则是空地通信信道环境的复杂性，由于无人机和用户与基站之间存在着高层建筑等障碍物，使得空地数据链路不稳定，大大降低了通信的性能。对于该问题，应用智能反射面(Intelligent ReflectingSurfaces，IRS)技术引起了人们的广泛关注，该项技术可以以极低的功耗和硬件成本以被动波束赋形的方式对无线信道进行重新配置，从而提高通信质量。

虽然现有工作已经研究了NOMA和IRS在无人机通信中应用的益处，但NOMA和IRS相结合的方案能否在蜂窝连接无人机上行通信链路中提供性能增益，仍有待进一步研究。相关技术研究的主要问题体现在以下三个方面：

(1)NOMA协议的引入带来了更加复杂的干扰环境和基于信道条件的译码顺序设计，这导致了无人机航迹、IRS相位偏移和上行功率控制等需求之间存在高度耦合的情况，难以高效快速地获得最优的决策方案，实现上行链路中地面基站(Ground Base Station，GBS)接收端性能的提升。

(2)由于IRS的反射系数对无人机和地面用户(Ground User，GU)均会产生作用，所以反射信号的最佳波束赋形不只是与直射信号对齐，同时由于同信道干扰的存在，IRS的反射单元的配置变得更加复杂。

(3)由于运行环境中障碍物的位置无法预先知悉，需要在不确定环境下做出无人机轨迹、IRS相位偏移和上行链路传输功率控制的实时决策。

此外，由于环境不确定性难以精确建模，如何提高决策过程在面对动态不确定性时的鲁棒性是又一重要挑战。

发明内容

本发明针对空地通信上行NOMA蜂窝网络的应用场景，提供了一种基于智能反射面的空地非正交多址接入上行传输方法，实现对空地通信数据传输的联合优化，最终保证在无人机安全飞行的前提下，满足无人机和地面用户最低传输速率要求，维持通信系统在动态复杂环境下的鲁棒性，通过实现通信系统上行链路总和速率的最大化来提高系统频谱利用率，进一步提升通信系统性能。

所述的基于智能反射面的空地非正交多址接入上行传输方法，具体步骤如下：

步骤一、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景；

用户有若干，与无人机之间分别配置单全向天线；存在大量高层建筑物，地面用户和无人机与地面基站间均不存在直射链路，IRS部署在高层建筑顶端，所部署的IRS拥有N个反射单元。

步骤二、在第m个时隙，分别建模地面用户到基站的有效链路，以及无人机到基站的有效链路；

为时隙总长度；

地面用户到基站的有效链路表示为：

其中，h_gu,b[m]为地面用户与基站间的链路；

为IRS与基站的链路的转置矩阵；Θ[m]为反射单元在第m个时隙的对角线反射系数矩阵；h_gu,s[m]为地面用户与IRS的链路。

无人机到基站的有效链路表示为：

其中，h_u,b[m]为无人机与基站间的链路；h_u,s[m]为无人机与IRS的链路；

步骤三、利用地面用户和无人机各自的有效链路，结合各自的传输功率，分别计算地面用户和无人机在第m时隙在基站接收信号的信噪比和信干噪比；

无人机第m时隙在基站接收信号的信干噪比，计算公式为：

p_u[m]表示无人机的传输功率；p_gu[m]表示地面用户的传输功率；σ_b ²为高斯白噪声。

地面用户第m时隙在基站接收信号的信噪比，计算公式为：

步骤四、利用地面用户和无人机在接收端信号的信噪比和信干噪比，计算基站第m时隙接收到无人机与地面用户的传输速率R[m]；

计算公式为：

步骤五、以基站在所有时隙的上行传输总速率最大化为优化目标，建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题；

联合优化问题为：

其中约束条件C1表示无人机和地面用户的最低数据传输速率的要求；R_u[m]表示无人机的传输速率，不低于门限

R_gu[m]表示用户的传输速率，不低于门限

约束条件C2表示无人机和地面用户的最大可用发射功率；不高于无人机的功率门限值

和用户的功率门限值

约束条件C3表示IRS阵元离散相位偏移值的约束；φ_n[m]表示由可编程PIN二极管所嵌入的电子元构成的IRS的相位偏移；

为IRS的个数；Δφ＝2π/L，L表示IRS离散相移的数目；

约束条件C4表示保证成功的SIC的NOMA技术的解码顺序约束；

约束条件C5表示无人机与障碍物的最小距离约束d_min。q[m]为无人机位置所确定的航迹点；

为障碍物o_i的中心位置坐标；

表示所有潜在障碍的集合；

步骤六、根据空地通信系统的联合优化问题，将问题建模为马尔可夫决策过程MDP。

定义元组

来描述MDP，其中

是决策智能体的状态集合，

是决策智能体可实施行为的集合，

是传输概率矩阵，

是决策智能体基于当前状态采取行为后获得的实值奖励函数，γ是衰减因子。

第m时隙的状态空间表示为：

S_m＝{Q[m],D[m],R_sum[m-1]}

Q[m]为无人机的位置；D[m]为无人机相较于障碍物中心位置的距离；R_sum[m-1]为从第1时隙到第m-1个时隙的时间段内，无人机与地面用户的总和速率；

动作空间为离散数值，由三部分构成：1)无人飞行的机动方向；2)每一个IRS单元的相位偏移值φ_n[m]；3)无人机与地面用户的功率控制；

奖励函数定义为：

其中NS表示约束条件没有被满足的非正常状态；K为恒定的负值奖励；C[m]为当全部约束条件都满足时，系统得到的正值奖励。

步骤七、采用基于Actor-Critic框架的分布式鲁棒强化学习(DistributionRobust Reinforcement Learning,DRRL)，对MDP模型进行训练，得到参数

和ω应用于空地通信场景的中心控制Actor网络，实现IRS辅助空地通信的实时联合优化。

采用深度强化学习算法具有可变更性，具体基准算法不唯一。本发明以SAC算法为参考，实施DRRL以完成DRSAC算法的设计。

DRSAC算法的神经网络分为两类：Actor网络与Critic网络；

Actor网络的神经网络参数为

Critic网络的神经网络参数为ω，智能体的策略为π。

当智能体与环境进行交互，通过收集智能体的联合优化策略结果与对应的状态观测结果，并存储在经验回放池

中。

回放池

包含了四元组

S_m代表当前的状态观测值，S_m+1代表下一状态观测值，A_m代表在当前状态下所执行的决策行为，

代表在当前状态S_m下执行动作A_m之后转移为下一状态时所获得的奖励。

智能体的动作由其策略和对应的参数决定，即:

通过对Critic网络设置两个输出价值函数Q的网络，每次取两个网络输出中的最小Q值作为迭代计算所用的Q值。

利用DRSAC算法对价值函数Q进行修正，具体过程为：

首先，定义DRRL的目标为：

其中

表示策略的估计误差，

为累计回报。

通过对策略的估计误差量化，得到策略的不确定性集

为：

其中

为对于所有的

来说

的概率分布，

用来计算用于衡量两个分布的相似性的KL散度。

进一步，将鲁棒的目标函数改写为：

为在状态S_m下执行动作A_m获取的奖励；

表示在策略

下智能体状态和动作对的集合。

是对

求期望。

对于目标函数式中的内部最小化问题，采用贝尔曼算子

对策略进行评估，获得在不确定性集中策略实现的最小状态值。定义如下：

应用拉格朗日对偶性，将贝尔曼算子

改写为：

其中λ(s)为拉格朗日乘子，且λ(s)>0。

对于目标函数式中最大化问题表示为：

其中

是

的拉格朗日对偶。

最优解λ^*(s)为：

策略的估计误差

的构造形式为

n(s)表示状态的访问次数。得到λ^*(s)后，得到当前最优策略：

根据所得到的最佳策略集，可计算

最后，更新Critic网络参数，并根据Critic网络的输出更新Actor网络参数；

训练直至神经网络参数不再更新，联合优化的结果收敛到近似最优的稳定值，即优化的决策结果可以使得通信系统达到最大满足条件的总和速率。

本发明的优点与积极效果在于：

(1)一种基于智能反射面的空地非正交多址接入上行传输方法，采用NOMA与IRS相结合，能够在蜂窝连接无人机上行通信链路中提供系统通信性能的增益。

(2)一种基于智能反射面的空地非正交多址接入上行传输方法，考虑到高度耦合的无人机航迹、IRS相位偏移和上行功率控制问题，通过将问题建立成MDP过程，选用强化学习的技术方式，以低复杂度的方式实现了优化问题的求解。

(3)一种基于智能反射面的空地非正交多址接入上行传输方法，考虑到在未知障碍物位置带来动态不确定性的情况下，利用非完整的分布信息，构造基于可接受偏差约束的模糊集来描述不确定性，从而保证系统在动态复杂环境下的鲁棒性。

附图说明

图1为本发明一种基于智能反射面的空地非正交多址接入上行传输方法的流程图；

图2为本发明搭建的空地通信场景的示意图。

图3为本发明所述的无人机冲突风险示意图。

图4为本发明采用的分布式鲁棒SAC算法框架图。

图5为本发明采用的分布式鲁棒SAC算法训练流程图。

图6为本发明采用的分布式鲁棒SAC算法随训练周期变化的奖励曲线图。

图7为本发明采用的分布式鲁棒SAC算法随训练周期变化的累计冲突率曲线图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明提出了一种基于智能反射面的空地非正交多址接入上行传输方法，基于深度强化学习IRS辅助的空地通信上行NOMA蜂窝网络通信联合优化，其中无人机和地面用户，两者与地面基站之间的直射链路受到阴影衰落的影响。更具体地说，无人机和地面用户同时通过NOMA协议向地面基站上传数据，通过对IRS辅助的空地通信上行NOMA蜂窝网络进行建模，并数学公式化描述建模问题的优化目标与约束条件。IRS辅助提供虚拟的视距(Line-of-sight，LoS)链路。该方法利用无人机的高机动性、可重构无线传播环境以及功率域空地用户接入，实施了无人机与地面用户之间高效频谱共享的新模式。

在此基础上，利用基于Actor-Critic框架的分布式鲁棒强化学习算法(Distribution Robust Reinforcement Learning,DRRL)，在未知障碍物位置带来的不确定性下，联合优化无人机航迹、IRS相位偏移和上行链路功率控制，利用非完整的分布信息，构造基于可接受偏差约束的模糊集来描述不确定性，从而提高通信系统在动态复杂环境下的鲁棒性。

所述的基于智能反射面的空地非正交多址接入上行传输方法，如图1所示，具体步骤如下：

如图2所示，用户有若干，与无人机之间配置单全向天线，由通信范围内的单地面基站服务；并且应用了NOMA技术以满足共用频谱资源的需求。系统应用场景为城市区域，存在大量高层建筑物，地面用户和无人机与地面基站间不存在直射链路，IRS部署在高层建筑顶端，所部署的IRS拥有N个反射单元。

无人机和地面用户同时通过NOMA协议向地面基站上传数据，IRS辅助提供虚拟的视距(Line-of-sight，LoS)链路，空地通信系统运行模型形成UAV-GBS链路、UAV-IRS-GBS链路、GU-GBS链路和GU-IRS-GBS链路。

由于UAV-GBS和GU-GBS链路，LoS链路受阻且存在反射，所以建模为瑞利衰落信道，将UAV-IRS、GU-IRS和IRS-GBS链路建模为莱斯衰落信道。

不失一般性，将系统运行时间T划分为若干等长时隙m，单个时隙持续时间为

为时隙总长度；

建立三维笛卡尔坐标系构，将地面基站、地面用户和IRS的位置坐标分别设为(x_b,y_b,z_b)，(x_gu,y_gu,0)，(x_s,y_s,z_s)。而无人机以恒定飞行速度V将飞行高度维持在z_u，由无人机位置所确定的航迹点可表示为q[m]＝(x[m],y[m],z_u)。

对于所部署的反射单元，有第m个时隙的对角线反射系数矩阵为：

Θ[m]＝diag(θ₁[m],...,θ_n[m],...θ_N[m])，系数矩阵中的对角元素有

其中φ_n[m]∈[0,2π)表示相位偏移，β_n[m]∈[0,1]表示反射系数的实际幅值。考虑到IRS实际由可编程PIN二极管所嵌入的电子元构成，因此相位偏移为离散数值φ_n[m]∈{0,Δφ,...,(L-1)Δφ}。

基于蜂窝网络中有限的频谱资源，对于无人机用户与地面用户的上行链路引入NOMA通信技术。因此在地面基站接收端处包含四类接收信号：UAV-GBS链路，UAV-IRS-GBS链路，GU-GBS链路，GU-IRS-GBS链路，分别表示为：

其中x∈{gu,u}。

地面用户到基站的有效链路表示为：

其中，h_gu,b[m]为地面用户与基站间的链路；

为IRS与基站的链路的转置矩阵；h_gu,s[m]为地面用户与IRS的链路信道状态，计算公式为：

其中，κ是莱斯系数，

是LoS指数，

是NLoS指数。

而对于

有：

其中，β₀是参考距离d₀＝1m时的路径损耗参数，α是相应的路损指数，

表示从地面用户到第n个IRS单元的距离，λ表示载波波长。

由于IRS和无人机之间的距离远大于IRS单元之间的距离，所以本发明使用IRS第一个单元作为路径损耗计算的参考点。

对于

表示为：

其中

为小尺度衰落指数，通过单位方差的循环对称的复高斯(CSCG)分布中生成。

对于h_u,s和

也可以按相似构成建立计算等式关系得到。

无人机到基站的有效链路表示为：

而无人机与地面基站间的链接、地面用户与地面基站间的链接建模为瑞利衰落信道：

因此，有基站在m时隙接收到的信号可表示为：

其中p_gu[m]表示地面用户的传输功率，p_u[m]表示无人机用户的传输功率；x_gu[m]表示地面用户的传输信号；x_u[m]表示无人机用户的传输信号；

表示加性高斯白噪声(AWGN)。

对于NOMA网络的上行链路，具有较好信道条件的用户信号通常会先被检测到，并从接收信号中消去，那么对于其他接收信号，则降低了受到的干扰影响。在所提出的模型中，无人机用户与地面用户的有效信道随着无人机飞行航迹q[m]和IRS反射系数矩阵Θ[m]的变化而变化，因此本发明中上行链路的信号检测顺序无法根据有效信道状态来提前确定。

假设地面站优先检测无人机信号，将地面用户信号作为噪声来处理，之后由地面基站应用连续干扰消除(SIC)技术从消去无人机信号后再监测地面用户信号，需要满足以下约束条件：

步骤三、利用地面用户和无人机的有效链路，结合各自的传输功率，分别计算地面用户和无人机在第m时隙在基站接收信号的信噪比和信干噪比；

无人机第m时隙在基站接收信号的信干噪比SINR，计算公式为：

在地面基站通过SIC消去无人机信号后，地面用户第m时隙在基站接收信号的信噪比SNR，计算公式为：

计算公式为：

步骤五、以基站在所有时隙地面用户与无人机用户的上行传输总速率最大化为优化目标，建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题；

本发明的主要目标是通过联合优化无人机航迹、IRS的反射系数矩阵、无人机与地面用户功率控制，在无人机与障碍物的距离大于安全距离、无人机与地面用户传输瞬时速率要求大于最小要求的传输速率的约束下，在总的飞行时间内实现无人机和用户的上传速率之和最大化。

虽然无人机和地面用户在每个时隙都能够以全功率发射，以达到总速率最大化，但是由于接收信号质量和SIC条件的约束，这种全功率的传输方案通常不是最优的。因此功率控制必须与无人机航迹和IRS的反射系数矩阵综合考虑。联合优化问题为：

R_gu[m]表示用户的传输速率，不低于门限

和用户的功率门限值

为IRS的个数；Δφ＝2π/L，L表示IRS离散相移的数目；如果IRS的相移为0和π，那么L＝2，Δφ＝π。

约束条件C4表示保证成功的SIC的NOMA技术的解码顺序约束；

为障碍物o_i的中心位置坐标；

表示所有潜在障碍的集合；

考虑到无人机在城市空域中运行，其飞行状态可能会受到高层建筑的影响，需要引入防撞机制以避免空中碰撞事故的发生，以此来保证安全飞行的运行状态。加装有感知探测设备的无人机具有感知周边环境的能力，在运行过程中机载传感器设备获取运行环境的态势信息(包括障碍物的相对位置等)。如图3所示，将无人机的感知范围定义为以无人机为圆心，半径为R_s的三维球体，那么在感知范围内，有安全运行要求满足约束条件C5。

步骤六、根据空地通信系统的联合优化问题，将问题建模为马尔可夫决策过程(Markov decision process，MDP)。

本发明所关注的联合优化问题属于时间维度的序列决策问题，符合MDP的基本特性，即当前时刻的决策结果当且仅当考虑当前时刻的环境状态。定义元组

来描述MDP，其中

是决策智能体可实施行为的集合，

是传输概率矩阵，

在制定的MDP中，本发明考虑中央控制器作为智能体，来控制无人机的航迹和RIS相位调整。从基于MDP的状态空间、动作空间以及奖励函数三方面描述联合优化决策问题的设计过程。

状态空间：每一个时隙内的环境状态，包含三个部分：1)无人机用户的位置Q[m]；2)无人机相较于障碍物中心位置的距离

3)从第1时隙到第m-1个时隙的时间段内，无人机与地面用户的总和速率

因此，状态空间可以表示为：

第m时隙的状态空间表示为：

S_m＝{Q[m],D[m],R_sum[m-1]}

动作空间：基于IRS阵元相位偏移在实际中只能设定为阶梯的离散数值，因此设定行为空间均为离散数值，由三部分构成：1)无人飞行的机动方向，由(-1,0)、(1,0)、(0,1)、(0,-1)分别表示无人机飞行方向的左、右、前、后；2)每一个IRS单元的相位偏移值φ_n[m]；3)无人机与地面用户的功率控制

奖励函数：用于对联合优化的决策行为进行反馈，针对总和速率最大化的目标，设定学习过程获得的奖励与目标一致。对无人机航迹规划、IRS相位偏移和地面用户与无人机功率控制的联合优化必须在给定约束条件下，假若这些约束条件中的任何一项没有得到满足，会得到负值奖励，即惩罚函数。因此，定义为：

其中NS表示约束条件没有被满足的非正常状态；K为恒定的常系数，即当前状态为非正常状态时，系统得到的是负值奖励，仅当全部约束条件都满足时，系统可以得到正值奖励C[m]。

上式表明，如果决策行为的一次执行，能满足所有的运行约束条件，那么系统获得与传输和速率数值相当的奖励，反之则会得到惩罚，惩罚的具体数值与的设定的参数K相关。

采用分布式鲁棒强化学习算法实现对联合优化问题

的求解，实现实时的空地通信总和速率最大化。所采用深度强化学习算法具有可变更性，具体基准算法不唯一。本发明以SAC算法为参考，实施DRRL以完成DRSAC算法的设计。

(1)DRSAC算法的训练阶段。

如图4所示，对于整个通信系统，将中心控制的决策单元看作一个智能体，基于前述的MDP对智能体构建神经网络DRSAC算法的神经网络分为两类：Actor网络与Critic网络；

Actor网络的输入为系统所能获取的状态信息，输出为行为空间中选择的决策结果；Critic网络的输入同样也是所能获取的状态信息，但输出结果为当前状态执行确定行为后相应的评估值。

智能体Actor网络的神经网络参数为

Critic网络的神经网络参数为ω，智能体的策略为π。智能体的动作完全由其策略和对应的参数决定:

其中，a为运行系统通过联合优化所给出的决策行为，s表示系统所能观测到的运行状态信息，包含了无人机运行态势、通信系统运行状态等信息。

本发明所采用的SAC算法是基于最大熵的架构，在强化学习的基础上，对奖励的计算引入了熵的部分，即对于max F(π)，有：

新目标函数考虑了策略分布的熵

其中，温度系数α表示熵的权重，因此决定了最优策略π^*的随机性。

由分布式鲁棒强化学习的相关理论，其神经网络参数

与ω均需要通过对模型训练获取，完整的训练结束后可将参数用于实际场景的应用，如图5所示，具体模型训练步骤如下：

a)、利用通信系统仿真测试平台生成多种通信应用的模拟场景；

基于所生成的仿真场景，初始化无人机用户、地面用户、IRS以及地面基站的地理位置；初始化智能体的Actor网络参数

Critic网络参数ω，时间步长T；

智能体与环境进行交互，收集智能体的联合优化策略结果与对应的状态观测结果，并存储在经验回放池

中。

中包含了由四个元素构成得元组

智能体的动作由其策略和对应的参数决定，即:

决策智能体利用收集到的数据进行处理分析，并根据所设定的损失函数通过策略梯度来更新神经网络参数。

判断经验回放池

是否存满，如果未满，继续进行数据存储，直至存满；然后，从经验回放池

中选择数据集作为训练样本，输入神经网络，输出：Q_ωmin(S_m,A_m)，

π(A_m|S_m,θ)；

定义损失函数

分别对Critic网络参数ω，温度系数α，Actor网络参数

进行更新，每隔T步更新：

对于更新后的参数，判断更新次数是否大于经验回放池

的最大迭代次数K，若是，则训练结束，输出训练后的参数值：Actor网络参数

和Critic网络参数ω；若否，则返回继续进行训练。

最大迭代次数K人为根据实际需要设定。

对于Critic网络参数ω，设定损失函数：

其中

为：

其中，

是目标Critic网络的参数，其值的更新是周期性复制ω的值。

和S_m+1是从经验回放池

中所抽取出的样本数据。而对于温度系数α的最优设置数值需要考虑到不同任务以及训练期间的奖励数值。

因此，对α做自适应调节，设定损失函数：

对于更新Actor网络参数

设定损失函数：

对于离散的动作空间，依据动作概率计算动作的期望：

其中，Q_ω(S_m,A_m)为Critic网络的输出，

为Actor网络的输出。

基于所设定的损失函数，采用随机梯度下降法对最小化损失函数的结果来更新

α，即：

为了提高训练速度，对于Critic网络共设置了两个输出价值函数Q的网络，两个网络独立更新，每次取两个网络输出中的最小Q值作为迭代计算所用的Q值。

本发明所提出的分布式鲁棒强化学习，需要对价值函数Q进行修正，以在有限样本的条件下得到更为鲁棒的决策结果，进而提升系统鲁棒性，定义DRRL的目标为：

其中

表示为策略的估计误差，

为累计回报。本发明利用KL散度来量化策略的估计误差，策略的不确定性集

为：

其中

为对于所有的

来说

的概率分布。

用来计算KL散度，KL散度用于衡量两个分布的相似性。

鲁棒的目标函数可以写为：

为在状态S_m下执行动作A_m获取的奖励；

表示在策略

下智能体状态和动作对的集合；

是对

求期望。

改写后的目标函数符合典型分布式鲁棒优化问题的形式，为了在RL框架下解决DRO问题对于上式中内部最小化问题，采用了一种新的贝尔曼算子

定义如下：

其中

为策略评估的贝尔曼算子。

通过应用

对策略进行评估，可以获得在不确定性集中策略实现的最小状态值。将拉格朗日对偶性应用在上式中，将问题改写为：

其中λ(s)为拉格朗日乘子，且λ(s)>0。上式中最大化问题可以表示为：

其中

是

的拉格朗日对偶。对于最小化问题，最优解λ^*(s)为：

策略的估计误差

的构造形式为

n(s)表示状态的访问次数。这种结构意味着策略的估计误差随着收集的经验的数量增多而减少。得到λ^*(s)后，得到当前最优策略：

根据所得到的最佳策略集，可计算

最后，更新Critic网络参数。根据Critic网络的输出更新Actor网络参数。

对于某一确定的场景，单次完整训练的最大迭代次数为K。在训练过程中，决策智能体不断更新自身的策略对应的神经网络参数

和ω，当迭代次数达到K时，训练停止，此时的网络参数

和ω即对应实现最优决策结果的数值。由于实际应用场景多变，单一场景的学习结果难以具备适应多场景的联合优化决策，需要决策智能体通过对多种模拟的通信环境不断的进行联合优化以得到最大化的总和速率，并且不断更新自身的策略对应的神经网络参数

ω，最终实现IRS辅助空地通信的联合优化。

(2)DRSAC算法的决策实际应用阶段。

在应用阶段，我们假定决策智能体模型的Actor网络参数

已经训练完成。此时，价值函数Q将不再应用，决策智能体可以通过已经训练完成的决策模型自主地进行决策。因此，可以将训练完成的算法模型及参数作为软件功能，开发嵌入空地通信系统的中心控制单元，以实现IRS辅助空地通信的实时联合优化。

本实施例的中心控制单元用集中式控制方法，无人机的移动和IRS相位偏移由一个中央控制器控制。

其应用阶段步骤如下：

a)中心控制单元通过定位、导航等设备从地面或者运行空域获取地面用户、无人机、地面基站的位置信息及相对距离；

b)将通信系统运行的环境状态信息输入到所嵌入中心控制单元软件系统的Actor网络中，得到当前时刻无人机飞行方向、IRS相位偏移、无人机用户发射功率、地面用户发射功率最优的调控结果；

c)由中心控制单元控制无人机、IRS、地面用户执行相应的调控，在运行时间内持续完成联合优化目标，实现IRS辅助空地通信的实时联合优化。

实施例

本实施例采用的参数值设定主要是为了本发明基本构想以及对发明做仿真实验，在具体的学习环境和应用环境中，可视实际的场景和需求进行适当的调整。

假设通信系统中存在1个地面用户，1架无人机、1面IRS以及1座地面基站。地面用户初始位置为(-100，-100，0)，系统运行过程中在初始位置附近小范围随机运动；IRS的位置坐标为(200，80，60)；地面基站坐标为(300，-50，40)；无人机在飞行过程中飞行高度为40m，飞行速度恒定为20m/s，飞行初始位置为(0，0，40)，无终止位置，最小安全飞行间隔为20m。通信链路的LoS与NLoS路径损耗指数分别设定为2.1、3.5，莱斯系数k＝4，参考距离d₀＝1处的信道功率增益为-20dB，噪声功率为-80dBm，无人机最大发射功率为30.8dBm，地面用户最大传输功率为29dBm。

在基于DRSAC的深度强化学习中，对于Actor网络与Critic网络均设定了包含两个隐藏层的全连接神经网络，采用Adam作为随即策略梯度计算的优化器。仿真环境的训练总回合数为200000，随机采样的小样本数据量为64，神经网络的学习率均为0.00001，采用ReLU作为神经网络的激活函数。

如图6所示，显示了在通过联合优化后，NOMA网络与OMA网络比较有显著的增益；IRS辅助的网络较无IRS的网络有显著的增益。

如图7所示，显示了在满足最大化空地通信和速率的同时，能维持无人机保证避免与障碍物发生碰撞，保持安全运行状态。

最后应说明的是：以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.基于智能反射面的空地非正交多址接入上行传输方法，其特征在于，具体步骤如下：

首先、搭建包括地面用户、无人机、高层建筑物、IRS和地面基站的空地通信场景；

在第m个时隙，分别建模地面用户到基站的有效链路，以及无人机到基站的有效链路；并利用有效链路，结合地面用户和无人机各自的传输功率，分别计算基站接收地面用户和无人机信号的信噪比和信干噪比；

为时隙总长度；

然后、利用信噪比和信干噪比，进一步计算基站第m时隙接收到无人机与地面用户的传输速率R[m]；并以基站在所有时隙的上行传输总速率最大化为优化目标，建立关于无人机航迹、IRS相位偏移、无人机用户发射功率、地面用户发射功率的联合优化问题；

接着、根据空地通信系统的联合优化问题，将问题建模为马尔可夫决策过程MDP；

最后、采用基于Actor-Critic框架的分布式鲁棒强化学习算法对MDP模型进行训练，输出参数θ和ω应用于空地通信场景的中心控制Actor网络，实现IRS辅助空地通信的实时联合优化。

2.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法，其特征在于，所述的通信场景具体为：

地面用户与无人机之间分别配置单全向天线；存在大量高层建筑物，地面用户与地面基站间均不存在直射链路，无人机与地面基站间均不存在直射链路，IRS部署在高层建筑顶端，所部署的IRS拥有N个反射单元。

3.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法，其特征在于，所述的地面用户到基站的有效链路表示为：

其中，h_gu,b[m]为地面用户与基站间的链路；

为IRS与基站的链路的转置矩阵；Θ[m]为反射单元在第m个时隙的对角线反射系数矩阵；h_gu,s[m]为地面用户与IRS的链路；

无人机到基站的有效链路表示为：

其中，h_u,b[m]为无人机与基站间的链路；h_u,s[m]为无人机与IRS的链路。

4.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法，其特征在于，所述的在第m个时隙，基站接收无人机信号的信干噪比，计算公式为：

基站接收地面用户的信噪比，计算公式为：

基站第m时隙接收到无人机与地面用户的传输速率R[m]，计算公式为：

5.如权利要求3或4所述的基于智能反射面的空地非正交多址接入上行传输方法，其特征在于，所述的联合优化问题为：

R_gu[m]表示地面用户的传输速率，不低于门限

和地面用户的功率门限值

为IRS的个数；Δφ＝2π/L，L表示IRS离散相移的数目；

约束条件C4表示保证成功的连续干扰消除SIC的NOMA技术的解码顺序约束；

约束条件C5表示无人机与障碍物的最小距离约束d_min；q[m]为无人机位置所确定的航迹点；

为障碍物o_i的中心位置坐标；

表示所有潜在障碍的集合。

6.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法，其特征在于，所述的马尔可夫决策过程MDP中，定义元组

其中

是决策智能体的状态集合，

是决策智能体可实施动作的集合，

是传输概率矩阵，

是决策智能体基于当前状态采取动作后获得的实值奖励函数，γ是衰减因子；

第m时隙的状态空间表示为：

S_m＝{Q[m],D[m],R_sum[m-1]}

Q[m]为无人机的位置；D[m]为无人机相较于障碍物中心位置的距离；R_sum[m-1]为从第1时隙到第m-1个时隙的时间段内，无人机与地面用户的总速率和；

动作空间为离散数值，由三部分构成：1)无人机飞行的机动方向；2)每一个IRS单元的相位偏移值φ_n[m]；3)无人机与地面用户的功率控制；

奖励函数定义为：

7.如权利要求1所述的基于智能反射面的空地非正交多址接入上行传输方法，其特征在于，所述的采用基于Actor-Critic框架的分布式鲁棒强化学习算法具有可变更性，具体基准算法不唯一，本发明以SAC算法为参考，实施DRRL以完成DRSAC算法的设计；利用DRSAC算法对MDP模型进行训练的过程如下：

DRSAC算法的神经网络分为两类：Actor网络与Critic网络；

Actor网络的神经网络参数为θ，Critic网络的神经网络参数为ω，智能体的策略为π；

中；

回放池

包含了四元组

S_m代表当前的状态观测值，S_m+1代表下一状态观测值，A_m代表在当前状态下所执行的决策动作，

代表在当前状态S_m下执行动作A_m之后转移为下一状态时所获得的奖励；

智能体的动作由其策略和对应的参数决定，即:A_m＝π(S_m|θ)；

通过对Critic网络设置两个输出价值函数Q的网络，每次取两个网络输出中的最小Q值作为迭代计算所用的Q值；

利用DRSAC算法对价值函数Q进行修正，具体过程为：

首先，定义DRRL的目标为：

其中

表示策略的估计误差，

为累计回报；

通过对策略的估计误差量化，得到策略的不确定性集

为：

其中

为对于所有的

来说

的概率分布，D_KL(·)用来计算用于衡量两个分布的相似性的KL散度；

进一步，将鲁棒的目标函数改写为：

为在状态S_m下执行动作A_m获取的奖励；

表示在策略

下智能体状态和动作对的集合；

是对

求期望；

对于目标函数式中的内部最小化问题，采用贝尔曼算子

对策略进行评估，获得在不确定性集中策略实现的最小状态值；定义如下：

应用拉格朗日对偶性，将贝尔曼算子

改写为：

其中λ(s)为拉格朗日乘子，且λ(s)>0；

对于目标函数式中最大化问题表示为：

其中

是

的拉格朗日对偶；

最优解λ^*(s)为：

策略的估计误差

的构造形式为

n(s)表示状态s的访问次数；得到λ^*(s)后，得到当前最优策略：

根据所得到的最佳策略集，可计算

训练直至神经网络参数不再更新，联合优化的结果收敛到近似最优的稳定值，即优化的决策结果可以使得通信系统达到最大满足条件的总速率和。