CN115278707B

CN115278707B - 基于智能反射面辅助的noma太赫兹网络能效优化方法

Info

Publication number: CN115278707B
Application number: CN202210680248.1A
Authority: CN
Inventors: 张国斌; 陈瀚; 李海滨; 朱鹏程
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2023-12-15
Anticipated expiration: 2042-06-15
Also published as: US20230413069A1; CN115278707A

Abstract

本发明公开了一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法，将用户分为BS用户和IRS用户；定义BS用户的信道模型和IRS用户的信道模型；分别计算BS用户速率和IRS用户速率并计算系统的总速率；提出关于下行功率控制和IRS相移调整的优化问题；使用MADRL方法解决优化问题。本发明提出一个能量效率概念，在每个用户最低速率、最大功率的约束下，采用多智能体深度强化学习MADRL方法最大化系统的整体能量效率。

Description

基于智能反射面辅助的NOMA太赫兹网络能效优化方法

技术领域

本发明涉及一种网络能效优化方法，特别是一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法，属于通信技术领域。

背景技术

在当前和未来的无线通信中，对信息和娱乐的超高数据速率的需求快速增长。然而，现有的频谱资源远远不能满足日益增长的数据速率需求，因此迫切需要探索新的频带来突破频谱瓶颈。因此，被认为是第六代(6G)移动通信基础技术的太赫兹(THz)频段以其较大的带宽特性引起了学术界和工业界的广泛关注。THz波是指0.1-10THz频率的电磁波，其可用带宽是毫米波的几十倍以上，峰值数据速率为1-10TBits/s。太赫兹波段由于波束窄、通信容量大等优点，在实现超高速无线传输方面具有更大的潜力。然而，由于太赫兹波的频率高、波长小，其衍射和穿透能力不如微波和毫米波，这使得它更容易被障碍物阻挡。

由于THz频段具有较强的衰减性能，仅适用于短距离通信场景，如商场、地铁站等室内场所。太赫兹波在户外通信中的应用需要大量的中继设备。因此，一些学者提出将太赫兹技术与智能反射面(IRS)相结合，通过反射信号来提高传输效率。IRS是一个无源器件，由大量被动反射元件组成的反射面。每个组件都可以调整其角度以独立地反射信号。IRS可放置在建筑物表面，有效反射室内外信号。许多研究都集中在太赫兹波段的IRS辅助通信上。

太赫兹频谱带宽较宽，具有更多的潜在用户和应用场景，包括移动用户、工业用户、智能医疗保健等。但太赫兹频段的主要缺点是覆盖面积较小，这是由于太赫兹信号衰减严重造成的。因此，这将导致严重的传输负担，并导致能源消耗的迅速增加。非正交多址接入技术(NOMA)是一种很有前景的无线通信技术，它允许用户通过功率域或码域同时共享同一子信道，通过功率域或码域同时共享所有用户之间的通信资源，与传统的正交多址接入相比，NOMA是一种提高频谱效率、支持大量无线网络连接的有效技术[8]。NOMA鼓励更多的用户设备占用相同的子信道，并可以提供大量的数据服务，提高太赫兹网络中资源的利用率。为了在太赫兹通信中提供大量的无线连接并提高资源利用率，最近的研究将NOMA技术结合到太赫兹网络中。NOMA技术被引入到THz蜂窝网络中，提出了一种基于交替方向法的子信道分配和功率分配方案，以优化能量效率。

受NOMA能力增强和IRS覆盖率提高的启发，IRS辅助的NOMA通信系统引起了研究人员的兴趣。比如有研究提出了一种用于IRS辅助的NOMA下行链路传输的设计，其中边缘用户的信道向量在IRS辅助下在预定的空间方向上对齐。有研究提出了IRS辅助的NOMA网络，并提出了一种联合优化基站(BS)发射波束形成和IRS反射相移的节能方案。此外，有的研究还考虑了智能反射面增强毫米波NOMA系统，并提出了波束形成和功率分配的联合优化问题。

传统网络下的资源管理机制的研究已经相对成熟，但应用于太赫兹还存在很多限制，主要包括：

接入数量限制：现有资源管理机制只适用于接入数量较少的情况，随着用户数量和接入设备的增加，会出现频谱利用率下降的情况，因而需要研究接入数量过多网络的能量效率问题。

信号衰减严重：由于太赫兹频率衰减严重，信号很容易被建筑物遮挡，建筑物阴影位置的用户无法接收到基站的信号，将无法正常通信。传统的太赫兹网络需要建设大量基站，以保证用户的最小信噪比。

能量效率太低：随着用户数和接入设备的增加，基站数目过多，基站需要较大的发射功率，导致基站的能量消耗过大，现有的太赫兹通信系统的能量利用率太低。

算法效率低下：传统的网络采用DQN算法进行强化学习训练，采用单代理进行训练，每个代理代表用户，每次训练在用户端执行，没有考虑到用户之间的信息交流、每次训练基站转发信息将承担巨大流量。

发明内容

本发明所要解决的技术问题是提供一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法，解决现有技术的不足。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法，其特征在于包含以下步骤：

步骤一：将用户分为BS用户和IRS用户；

步骤二：定义BS用户的信道模型和IRS用户的信道模型；

步骤三：分别计算BS用户速率和IRS用户速率并计算系统的总速率；

步骤四：提出关于下行功率控制和IRS相移调整的优化问题；

步骤五：使用MADRL方法解决优化问题。

进一步地，所述步骤一具体为：

基站配备N_B个天线，用户配备N_U天线，用户分别被分为BS用户和IRS用户；假设有L个BS用户，以集合表示；每个IRS用户被分为M簇，每簇K个用户，每簇由G个IRS的元件服务，分别定义为/>系统的带宽被分为多个子信道，每个BS用户和IRS用户分别使用一个子信道，假设BS用户使用前L个子信道，IRS用户使用剩下的子信道。

进一步地，所述步骤二中，BS用户的信道模型具体为：

考虑从BS到用户的太赫兹信道建模为LoS信道，由于太赫兹的严重衰减，忽略反射，折射和散射路径；从BS通过子信道n到用户l的信道表示为：

其中，PL(f_n，d_l)是太赫兹LoS路径的路径损耗，f_n和d_l分别是太赫兹频率和基站到用户的距离；太赫兹LoS路径的路径损耗分为两部分，一部分是自由空间传播损耗，一部分是分子吸收损耗，表示为：

PL(f_n，d_l)＝L_spread(f_n，d_l)×L_abs(f_n，d_l)

其中，L_spread(f_n，d_l)和L_abs(f_n，d_l)满足：

其中，c表示光速，k_abs(f_n)是分子吸收系数；

假设通过子信道n，发送给用户l的功率为接收到的信号为

其中，σ²为加性高斯白噪声功率，为通过子信道n发送给用户l′的功率。

进一步地，所述步骤二中，IRS用户的信道模型具体为：

IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成；根据经典的S-V模型，假设通过IRS i反射到第m簇里的第k个用户信道矢量定义为：

H＝H^IΦH^B

其中，H^B代表从基站到IRS的信道衰落，H^I代表从IRS到用户的信道衰落；Φ是一个G×G的对角阵，代表着IRS元件的相移，满足其中的/>表示第g个元件的相移；H^B可以分别表示为：

其中

其中，L₁表示从BS到IRS的散射路径数目，是路径l₁的路径损失复增益，表示路径l₁上，从BS到IRS的离开角和到达角；这里考虑均匀的线性阵列，/>和/>表示BS和IRS的阵列响应矢量，表示为

其中，λ是太赫兹信号的的波长，d为相邻的天线元件或IRS元件之间的距离；

与BS到IRS链路相同，IRS到用户的信道表示为

其中，

其中，L₂表示从BS到IRS的散射路径数目，是路径l₂的路径损失复增益，表示路径l₂上，从IRS到BS的离开角和到达角；这里考虑均匀的线性阵列,/>和/>表示为

因此IRS到用户之间的信道为

为了简单起见，假定N_B＝1、N_U＝1；因此矢量H是由代表着通过子信道n，第m簇第k个用户的信道增益的单向量组成；用/>表示发送给第n子信道上，第m簇第k个用户的功率；第n子信道上，第m簇第k个用户的接收信号表示为

进一步地，所述步骤三具体为：

计算BS用户速率：

BS用户l信号接收的信噪比为

根据香农公式，用户l的速率表示为

其中，B是带宽；

计算IRS用户速率：

第m簇的用户k的信噪比为

速率表示为

则系统的总速率表示为

进一步地，所述步骤四具体为：

为了使网络的整体能源效率最大化，提出了一个关于下行功率控制和IRS相移调整的优化问题；BS的总传输功率计算为所有用户的功率之和，表示为

系统网络的能源效率被定义为网络速率之和与总功率的之比；这里对最优化问题的表述为

其中，C₁和C₂是每个用户的功率限制，C₃和C₄是速率的最低要求，C₅是角度的范围。

进一步地，所述步骤五具体为：

使用MADRL方法来解决优化问题，将虚拟代理引入到BS中，作为用户的映射，并且训练以实现最佳的功率和相移；在BS上配置一个中央控制器，以收集用户的信息，如信道状态信息CSI、相移和功率；设置一个时钟，以确保代理训练中的同步迭代，以便在每次迭代后计算出全局能量效率；代理利用收集到的用户信息和实时迭代结果进行训练，以实现全局优化。

进一步地，考虑一个离散时间、有限状态空间和动作空间的马尔可夫过程来训练；强化学习的基本元素用一个元组来表示其中/>表示为状态空间，/>表示为动作空间，/>表示为奖励函数，/>是状态转移概率；状态和动作空间设置如下：

1)状态空间：定义一个元组来代表IRS的元件角度和BS用户和IRS用户的功率，公式表示为/>其中/>

2)动作空间：为了获得有限的空间，我们将角度和功率离散化

其中，和/>是IRS元件相位的最小值和最大值，P_min和P_max是用户功率的最小值和最大值，角度和功率的离散数目分别为/>和|P|；动作空间表示为/>

3)奖励空间：我们将当前状态和前一状态之间的整体能源效率的差定义为奖励，其表示为EE_t+1和EE_t分别为状态s_t+1和状态s_t的能量效率；

代理获得最优的策略π来实现最大化累积的奖励，表示为

其中，γ∈(0，1]，表示一个对于未来奖励的折扣因子；

在训练中，代理通过最优的策略π选择动作；代理在状态s_t时根据最优的策略π采取动作a_t，此时代理的动作-价值的函数Q_π(s_t，a_t)表示为

根据贝尔曼方程

对最优策略的评价表示为

最优的策略表示为

为了实现在大状态空间和动作空间中获得最优策略的搜索，在MADRL中引入了DQN；最优策略和值函数由Q_i(s，a；θ)≈Q^*(s，a)近似为一个函数，其中θ是权重，并通过训练进行更新；DQN有一个目标网络和一个当前网络，通过最小化损失函数进行训练来优化参数θ；损失函数为

其中，Q_t(s_t，a_t；θ)是神经网络在状态为s_t，参数为θ时的输出，是目标网络在状态s_t+1，参数为/>时的输出

采用梯度下降算法使损失函数最小化，并利用神经网络逼近动作-价值函数直至收敛。

进一步地，随机参数θ生成动作价值函数Q，目标动作价值函数迭代的索引T，经验池/>

从episode＝1到M循环

3)初始化状态s_t

4)从t＝1到T循环

k.代理通过来进行动作的选择；

l.代理执行动作a_t，将从当前状态s_t转换到下一个状态s_t+1；

m.代理通过与中央控制器交换数据获取奖励r_t；

n.将s_t，a_t，r_t，s_t+1组成元组(s_t，a_t,r_t,s_t+1)，存入经验池中；

o.从经验池中随机抽取出小批量元组(s_t，a_t,r_t,s_t+1)；

p.通过计算/>

q.对使用梯度下降方法更新参数θ；

r.每过一段时间，将θ赋给更新/>即/>

s.中央控制器计算能量效率EE_t；

t.通过r_t＝EE_t+1-EE_t计算出奖励；

结束循环。

本发明与现有技术相比，具有以下优点和效果：

1、我们利用NOMA技术构建了一个IRS辅助的太赫兹蜂窝网络。在计算BS用户和IRS用户速率时，同时考虑用户之间的相邻频带干扰和每组IRS用户之间的频带内干扰。

2、为了最大限度地提高系统的能量效率，在最大传输功率和最小数据速率要求的约束下，提出了一个优化问题来调整IRS元件的相位角并控制下行链路功率。

3、采用MADRL方法求解优化问题。虚拟代理被引入BS，并通过中央控制器与周期性信息交互同步执行训练。采用深度Q网络(DQN)方法，对优化变量进行非均匀离散，以构造动作空间。

附图说明

图1是本发明的基于智能反射面辅助的NOMA太赫兹网络系统模型图。

图2是本发明的实施例的代理与环境互动示意图。

具体实施方式

为了详细阐述本发明为达到预定技术目的而所采取的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清晰、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部的实施例，并且，在不付出创造性劳动的前提下，本发明的实施例中的技术手段或技术特征可以替换，下面将参考附图并结合实施例来详细说明本发明。

首先对本发明所用到的部分专业词汇进行说明：

1、IRS辅助太赫兹通信：许多研究都集中在太赫兹波段的IRS辅助通信上。文献[1]提出了一种寻找IRS元件最佳相移的方法，以提高基于太赫兹波段的系统速率。在[2]中，通过在基站(BS)处设计IRS和预编码器的离散相移来优化频谱效率。此外，还开发了一种子空间追踪方案，用于IRS辅助THz网络的信道估计，以最大化系统的速率[3]。

NOMA技术应用在太赫兹通信里的应用：为了提供大量的无线连接，提高太赫兹通信中的资源利用率，最近的研究将NOMA技术结合到太赫兹网络中。[5]将NOMA技术引入到的THz蜂窝网络中，提出了一种基于替代方向方法的子信道分配和功率分配方案来优化能源效率。此外，在[4]中捕获了THz的长用户-中心窗口特性，其中将THz窗口的中心子带和侧子带分别分配给长和短NOMA组。在NOMA中，分配给用户的功率与其信道增益有关。弱信道增益将分配给大功率用户，强信道增益将分配给较小的功率[4]。NOMA可以解码或解调覆盖的叠加信号。

IRS辅助的NOMA网络：受NOMA技术对系统容量提高和IRS覆盖率提高的启发，IRS辅助的NOMA的通信引起了研究人员的兴趣。[6]中提出了一种用于IRS辅助NOMA下行链路传输的设计，其中边缘用户的信道向量在IRS辅助下在预定的空间方向上对齐。在[7]中，作者重点研究了IRS辅助的NOMA网络，并提出了一种能量管理方法联合优化传输波束的有效方案基站(BS)的形成和IRS的反射相移。此外，在[8]中考虑了IRS增强毫米波NOMA系统，并提出了波束形成和功率分配的联合优化问题。在文献[5]中，作者专注于一个IRS辅助的NOMA网络，并提出了一种节能算法，通过联合优化BS的传输波束赋形和IRS的反射相移来最大化系统的能量效率。文献[6]研究了一种IRS增强毫米波NOMA系统，提出了有源束形成、无源束形成和功率分布的联合优化问题。在[7]中研究了IRS在NOMA系统传输功耗中的有效性，并考虑到每个用户最小信号干扰比的约束条件，提出了IRS辅助下行NOMA系统的功率最小化问题。在[8]中提出了一种简单的IRS辅助NOMA下行传输的设计。基站首先采用传统的空间划分多址接入，利用近用户信道的空间方向生成正交波束。在IRS协助下，边缘用户的有效信道向量在预定的空间方向上对齐，确保这些波束可以服务于额外的边缘用户。

引入强化学习：文献[9]-[11]使用强化学习对优化问题进行求解。文献[9]研究了多单元功率分配的方法，与传统的优化分解方法不同，采用深度强化学习(DRL)方法来解决了功率分配问题。文章的工作目标是在基站随机、密集分布的情况下，使整个网络的整体容量最大化。提出了一种无线资源映射方法和深度神经网络Deep Q-全连接网络(DQFCNet)。与water-filling算法功率分配和Q learning方法相比，DQFCNet可以实现更高的整体容量。仿真结果表明，DQFCNet在收敛速度和稳定性方面都有显著的提高。文献[10]研究了利用深度强化学习(DRL)来解决动态频谱访问问题。具体来说，文章研究了这样一种场景，即不同类型的节点共享多个离散通道，这些节点缺乏与其他节点通信的能力，并且对其他节点的行为没有先验知识。每个节点的目标是最大化其自己的长期的成功传输的数量。该问题被表述为一个具有未知系统动力学的马尔可夫决策过程(MDP)。为了克服未知环境和非常大的过渡矩阵相结合的挑战，采用了两种特定的DRL方法：深度Q网络(DQN)和双深度Q网络(DDQN)。此外，还引入了改进DQN的技术，包括资格跟踪、既往经验和“猜测过程”。仿真结果表明，DQN和DDQN都可以在没有事先知识的情况下有效地学习不同节点的通信模式，并达到接近最优的性能。文献[11]中表示优化无线系统中的无线电传输功率和用户数据速率需要完整的系统可观测性。虽然这个问题在文献中得到了广泛的研究，但仅利用实际系统中可用的部分可观测性来接近最优性的实际解决方案仍然缺乏。本发明提出了一种在蜂窝网络中实现下行功率控制和速率自适应的强化学习方法，从而弥补了这一差距。发明中提出了一个全面的学习框架的设计，包括系统状态，一个一般的奖励函数，和一个有效的学习算法。系统级仿真表明，这个设计快速学习了一个功率控制策略，带来了显著的能源节约和公平的用户在系统中。

如图1所示，本发明的一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法，包含以下步骤：

步骤一：将用户分为BS用户和IRS用户。

步骤二：定义BS用户的信道模型和IRS用户的信道模型。

BS用户的信道模型具体为：

PL(f_n，d_l)＝L_spread(f_n，d_l)×L_abs(f_n，d_l)

其中，L_spread(f_n，d_l)和L_abs(f_n，d_l)满足：

其中，c表示光速，k_abs(f_n)是分子吸收系数；

假设通过子信道n，发送给用户l的功率为接收到的信号为

其中，σ²为加性高斯白噪声，为通过子信道n发送给用户l'的功率。

IRS用户的信道模型具体为：

H＝H^IΦH^B

其中

与BS到IRS链路相同，IRS到用户的信道表示为

其中，

/>

因此IRS到用户之间的信道为

步骤三：分别计算BS用户速率和IRS用户速率并计算系统的总速率。

计算BS用户速率：

BS用户l信号接收的信噪比为

根据香农公式，用户l的速率表示为

其中，B是带宽；

计算IRS用户速率：

第m簇的用户k的信噪比为

速率表示为

则系统的总速率表示为

步骤四：提出关于下行功率控制和IRS相移调整的优化问题。

步骤五：使用MADRL方法解决优化问题。

考虑一个离散时间、有限状态空间和动作空间的马尔可夫过程来训练；强化学习的基本元素用一个元组来表示其中/>表示为状态空间，/>表示为动作空间，表示为奖励函数，/>是状态转移概率；状态和动作空间设置如下：

3)奖励空间：我们将当前状态和前一状态之间的整体能源效率的差定义为奖励，其表示为EE_t+1和EE_t分别为状态s_t+1和状态s_t的能量效率；/>

代理获得最优的策略π来实现最大化累积的奖励，表示为

其中，γ∈(0，1]，表示一个对于未来奖励的折扣因子；

根据贝尔曼方程

对最优策略的评价表示为

最优的策略表示为

随机参数θ生成动作价值函数Q，目标动作价值函数迭代的索引T，经验池/>

从episode＝1到M循环

5)初始化状态s_t

6)从t＝1到T循环

u.代理通过来进行动作的选择；

v.代理执行动作a_t，将从当前状态s_t转换到下一个状态s_t+1；

w.代理通过与中央控制器交换数据获取奖励r_t；

x.将s_t，a_t，r_t，s_t+1组成元组(s_t，a_t,r_t,s_t+1)，存入经验池中；

y.从经验池中随机抽取出小批量元组(s_t，a_t,r_t,s_t+1)；/>

z.通过计算/>

aa.对使用梯度下降方法更新参数θ；

bb.每过一段时间，将θ赋给更新/>即/>

cc.中央控制器计算能量效率EE_t；

dd.通过r_t＝EE_t+1-EE_t计算出奖励；

结束循环。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

以下是本申请应用的文献列表：

[1]W.Chen,X.Ma,Z.Li,and N.Kuang,“Sum-rate maximization forintelligent reflecting surface based terahertz communication systems,”IEEEInt.Conf.Commun.,pp.153-157,Aug.2019.

[2]W.Chen,Z.Chen,X.Ma,Y.Chi,and Z.Li,“Spectral efficiencyoptimization for intelligent reflecting surface aided multi-input multioutputterahertz system,”Microwave and Optical Technology Lett.,vol.62,no.8,pp.2754-2759,Aug.2020.

[3]X.Ma,Z.Chen,W.Chen,Z.Li,Y.Chi,C.Han,and S.Li,“Joint channelestimation and data rate maximization for intelligent reflecting surfaceassisted terahertz MIMO communication systems,”IEEE Access,vol.8,pp.99565-99581,Aug.2020.

[4]X.Zhang,C.Han,and X.Wang,“Joint beamforming-power-bandwidthallocation in terahertz NOMA networks,”Int.Conf.on Sensing,Commun.,and Netw.,pp.1-9,Jun.2019.

[5]H.Zhang,Y.Duan,K.Long,and V.C.M.Leung,“Energy efficient resourceallocation in terahertz downlink NOMA systems,”IEEE Trans.Commun.,vol.69,no.2,pp.1375-1384,Feb.2021.

[6]Z.Ding and H.V.Poor,“A simple design of IRS-NOMA transmission,”IEEE Commun.Lett.,vol.24,no.5,pp.1119-1123,May.2020.

[7]F.Fang,Y.Xu,Q.Pham,and Z.Ding,“Energy-efficient design of IRS-NOMAnetworks,”IEEE Trans.Veh.Technol.,vol.69,no.11,pp.14088-14092,Nov.2020.

[8]J.Zuo,Y.Liu,E.Basar,and O.A.Dobre,“Intelligent reflecting surfaceenhanced millimeter-wave NOMA systems,”IEEE Commun.Lett.,vol.24,no.11,pp.2632-2636,Nov.2020.

[9]Y.Zhang,C.Kang,T.Ma,Y.Teng,and D.Guo,“Power allocation in multi-cell networks using deep reinforcement learning,”IEEE Veh.Technol.Conf.,pp.1-6,Aug.2018.

[10]Y.Xu,J.Yu,W.C.Headley,and R.M.Buehrer,“Deep reinforcementlearning for dynamic spectrum access in wireless networks,”IEEE MilitaryCommun.Conf.,pp.207-212,Oct.2018.

[11]E.Ghadimi,F.D.Calabrese,G.Peters,and P.Soldati,“A reinforcementlearning approach to power control and rate adaptation in cellular networks,”IEEE Int.Conf.Commun.,pp.1-7,May.2017.

Claims

1.一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法，其特征在于包含以下步骤：

步骤一：将用户分为BS用户和IRS用户；

步骤二：定义BS用户的信道模型和IRS用户的信道模型；

步骤四：提出关于下行功率控制和IRS相移调整的优化问题；

步骤五：使用MADRL方法解决优化问题；

所述步骤一具体为：

基站配备N_B个天线，用户配备N_U天线，用户分别被分为BS用户和IRS用户；假设有L个BS用户，以集合表示；每个IRS用户被分为M簇，每簇K个用户，每簇由G个IRS的元件服务，分别定义为/>系统的带宽被分为多个子信道，每个BS用户和IRS用户分别使用一个子信道，假设BS用户使用前L个子信道，IRS用户使用剩下的子信道；

所述步骤二中，BS用户的信道模型具体为：

其中，PL(f_n,d_l)是太赫兹LoS路径的路径损耗，f_n和d_l分别是太赫兹频率和基站到用户的距离；太赫兹LoS路径的路径损耗分为两部分，一部分是自由空间传播损耗，一部分是分子吸收损耗，表示为：

PL(f_n,d_l)＝L_spread(f_n,d_l)×L_abs(f_n,d_l)

其中，L_spread(f_n,d_l)和L_abs(f_n,d_l)满足：

其中，c表示光速，k_abs(f_n)是分子吸收系数；

假设通过子信道n，发送给用户l的功率为接收到的信号为

其中，σ²为加性高斯白噪声功率，为通过子信道n发送给用户l'的功率；

所述步骤二中，IRS用户的信道模型具体为：

IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成；根据经典的S-V模型，假设通过IRSi反射到第m簇里的第k个用户信道矢量定义为：

H＝H^IΦH^B

其中

与BS到IRS链路相同，IRS到用户的信道表示为

其中，

因此IRS到用户之间的信道为

所述步骤三具体为：

计算BS用户速率：

BS用户l信号接收的信噪比为

根据香农公式，用户l的速率表示为

其中，B是带宽；

计算IRS用户速率：

第m簇的用户k的信噪比为

速率表示为

则系统的总速率表示为

所述步骤四具体为：

其中，C₁和C₂是每个用户的功率限制，C₃和C₄是速率的最低要求，C₅是角度的范围；

所述步骤五具体为：

2.根据权利要求1所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法，其特征在于：考虑一个离散时间、有限状态空间和动作空间的马尔可夫过程来训练；强化学习的基本元素用一个元组来表示其中/>表示为状态空间，/>表示为动作空间，/>表示为奖励函数，/>是状态转移概率；状态和动作空间设置如下：

代理获得最优的策略π来实现最大化累积的奖励，表示为

其中，γ∈(0,1]，表示一个对于未来奖励的折扣因子；

在训练中，代理通过最优的策略π选择动作；代理在状态s_t时根据最优的策略π采取动作a_t，此时代理的动作-价值的函数Q_π(s_t,a_t)表示为

根据贝尔曼方程

对最优策略的评价表示为

最优的策略表示为

为了实现在大状态空间和动作空间中获得最优策略的搜索，在MADRL中引入了DQN；最优策略和值函数由Q_i(s,a；θ)≈Q^*(s,a)近似为一个函数，其中θ是权重，并通过训练进行更新；DQN有一个目标网络和一个当前网络，通过最小化损失函数进行训练来优化参数θ；损失函数为

其中，Q_t(s_t,a_t；θ)是神经网络在状态为s_t，参数为θ时的输出，是目标网络在状态s_t+1，参数为/>时的输出

3.根据权利要求2所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法，其特征在于：随机参数θ生成动作价值函数Q，目标动作价值函数迭代的索引T，经验池/>

从episode＝1到M循环

1)初始化状态s_t

2)从t＝1到T循环

a.代理通过来进行动作的选择；

b.代理执行动作a_t，将从当前状态s_t转换到下一个状态s_t+1；

c.代理通过与中央控制器交换数据获取奖励r_t；

d.将s_t，a_t，r_t，s_t+1组成元组(s_t,a_t,r_t,s_t+1)，存入经验池中；

e.从经验池中随机抽取出小批量元组(s_t,a_t,r_t,s_t+1)；

f.通过计算/>

g.对使用梯度下降方法更新参数θ；

h.每过一段时间，将θ赋给更新/>即/>

i.中央控制器计算能量效率EE_t；

j.通过r_t＝EE_t+1-EE_t计算出奖励；

结束循环。