CN115278707B - 基于智能反射面辅助的noma太赫兹网络能效优化方法 - Google Patents

基于智能反射面辅助的noma太赫兹网络能效优化方法 Download PDF

Info

Publication number
CN115278707B
CN115278707B CN202210680248.1A CN202210680248A CN115278707B CN 115278707 B CN115278707 B CN 115278707B CN 202210680248 A CN202210680248 A CN 202210680248A CN 115278707 B CN115278707 B CN 115278707B
Authority
CN
China
Prior art keywords
user
irs
channel
expressed
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210680248.1A
Other languages
English (en)
Other versions
CN115278707A (zh
Inventor
张国斌
陈瀚
李海滨
朱鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202210680248.1A priority Critical patent/CN115278707B/zh
Priority to US17/882,620 priority patent/US20230413069A1/en
Publication of CN115278707A publication Critical patent/CN115278707A/zh
Application granted granted Critical
Publication of CN115278707B publication Critical patent/CN115278707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/90Non-optical transmission systems, e.g. transmission systems employing non-photonic corpuscular radiation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/145Passive relay systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/155Ground-based stations
    • H04B7/15528Control of operation parameters of a relay station to exploit the physical medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/0001Arrangements for dividing the transmission path
    • H04L5/0003Two-dimensional division
    • H04L5/0005Time-frequency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/22Negotiating communication rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms
    • H04W52/14Separate analysis of uplink or downlink
    • H04W52/143Downlink power control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms
    • H04W52/14Separate analysis of uplink or downlink
    • H04W52/146Uplink power control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/242TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/36TPC using constraints in the total amount of available transmission power with a discrete range or set of values, e.g. step size, ramping or offsets
    • H04W52/367Power values between minimum and maximum limits, e.g. dynamic range
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Optics & Photonics (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,将用户分为BS用户和IRS用户;定义BS用户的信道模型和IRS用户的信道模型;分别计算BS用户速率和IRS用户速率并计算系统的总速率;提出关于下行功率控制和IRS相移调整的优化问题;使用MADRL方法解决优化问题。本发明提出一个能量效率概念,在每个用户最低速率、最大功率的约束下,采用多智能体深度强化学习MADRL方法最大化系统的整体能量效率。

Description

基于智能反射面辅助的NOMA太赫兹网络能效优化方法
技术领域
本发明涉及一种网络能效优化方法,特别是一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,属于通信技术领域。
背景技术
在当前和未来的无线通信中,对信息和娱乐的超高数据速率的需求快速增长。然而,现有的频谱资源远远不能满足日益增长的数据速率需求,因此迫切需要探索新的频带来突破频谱瓶颈。因此,被认为是第六代(6G)移动通信基础技术的太赫兹(THz)频段以其较大的带宽特性引起了学术界和工业界的广泛关注。THz波是指0.1-10THz频率的电磁波,其可用带宽是毫米波的几十倍以上,峰值数据速率为1-10TBits/s。太赫兹波段由于波束窄、通信容量大等优点,在实现超高速无线传输方面具有更大的潜力。然而,由于太赫兹波的频率高、波长小,其衍射和穿透能力不如微波和毫米波,这使得它更容易被障碍物阻挡。
由于THz频段具有较强的衰减性能,仅适用于短距离通信场景,如商场、地铁站等室内场所。太赫兹波在户外通信中的应用需要大量的中继设备。因此,一些学者提出将太赫兹技术与智能反射面(IRS)相结合,通过反射信号来提高传输效率。IRS是一个无源器件,由大量被动反射元件组成的反射面。每个组件都可以调整其角度以独立地反射信号。IRS可放置在建筑物表面,有效反射室内外信号。许多研究都集中在太赫兹波段的IRS辅助通信上。
太赫兹频谱带宽较宽,具有更多的潜在用户和应用场景,包括移动用户、工业用户、智能医疗保健等。但太赫兹频段的主要缺点是覆盖面积较小,这是由于太赫兹信号衰减严重造成的。因此,这将导致严重的传输负担,并导致能源消耗的迅速增加。非正交多址接入技术(NOMA)是一种很有前景的无线通信技术,它允许用户通过功率域或码域同时共享同一子信道,通过功率域或码域同时共享所有用户之间的通信资源,与传统的正交多址接入相比,NOMA是一种提高频谱效率、支持大量无线网络连接的有效技术[8]。NOMA鼓励更多的用户设备占用相同的子信道,并可以提供大量的数据服务,提高太赫兹网络中资源的利用率。为了在太赫兹通信中提供大量的无线连接并提高资源利用率,最近的研究将NOMA技术结合到太赫兹网络中。NOMA技术被引入到THz蜂窝网络中,提出了一种基于交替方向法的子信道分配和功率分配方案,以优化能量效率。
受NOMA能力增强和IRS覆盖率提高的启发,IRS辅助的NOMA通信系统引起了研究人员的兴趣。比如有研究提出了一种用于IRS辅助的NOMA下行链路传输的设计,其中边缘用户的信道向量在IRS辅助下在预定的空间方向上对齐。有研究提出了IRS辅助的NOMA网络,并提出了一种联合优化基站(BS)发射波束形成和IRS反射相移的节能方案。此外,有的研究还考虑了智能反射面增强毫米波NOMA系统,并提出了波束形成和功率分配的联合优化问题。
传统网络下的资源管理机制的研究已经相对成熟,但应用于太赫兹还存在很多限制,主要包括:
接入数量限制:现有资源管理机制只适用于接入数量较少的情况,随着用户数量和接入设备的增加,会出现频谱利用率下降的情况,因而需要研究接入数量过多网络的能量效率问题。
信号衰减严重:由于太赫兹频率衰减严重,信号很容易被建筑物遮挡,建筑物阴影位置的用户无法接收到基站的信号,将无法正常通信。传统的太赫兹网络需要建设大量基站,以保证用户的最小信噪比。
能量效率太低:随着用户数和接入设备的增加,基站数目过多,基站需要较大的发射功率,导致基站的能量消耗过大,现有的太赫兹通信系统的能量利用率太低。
算法效率低下:传统的网络采用DQN算法进行强化学习训练,采用单代理进行训练,每个代理代表用户,每次训练在用户端执行,没有考虑到用户之间的信息交流、每次训练基站转发信息将承担巨大流量。
发明内容
本发明所要解决的技术问题是提供一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,解决现有技术的不足。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于包含以下步骤:
步骤一:将用户分为BS用户和IRS用户;
步骤二:定义BS用户的信道模型和IRS用户的信道模型;
步骤三:分别计算BS用户速率和IRS用户速率并计算系统的总速率;
步骤四:提出关于下行功率控制和IRS相移调整的优化问题;
步骤五:使用MADRL方法解决优化问题。
进一步地,所述步骤一具体为:
基站配备NB个天线,用户配备NU天线,用户分别被分为BS用户和IRS用户;假设有L个BS用户,以集合表示;每个IRS用户被分为M簇,每簇K个用户,每簇由G个IRS的元件服务,分别定义为/>系统的带宽被分为多个子信道,每个BS用户和IRS用户分别使用一个子信道,假设BS用户使用前L个子信道,IRS用户使用剩下的子信道。
进一步地,所述步骤二中,BS用户的信道模型具体为:
考虑从BS到用户的太赫兹信道建模为LoS信道,由于太赫兹的严重衰减,忽略反射,折射和散射路径;从BS通过子信道n到用户l的信道表示为:
其中,PL(fn,dl)是太赫兹LoS路径的路径损耗,fn和dl分别是太赫兹频率和基站到用户的距离;太赫兹LoS路径的路径损耗分为两部分,一部分是自由空间传播损耗,一部分是分子吸收损耗,表示为:
PL(fn,dl)=Lspread(fn,dl)×Labs(fn,dl)
其中,Lspread(fn,dl)和Labs(fn,dl)满足:
其中,c表示光速,kabs(fn)是分子吸收系数;
假设通过子信道n,发送给用户l的功率为接收到的信号为
其中,σ2为加性高斯白噪声功率,为通过子信道n发送给用户l′的功率。
进一步地,所述步骤二中,IRS用户的信道模型具体为:
IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成;根据经典的S-V模型,假设通过IRS i反射到第m簇里的第k个用户信道矢量定义为:
H=HIΦHB
其中,HB代表从基站到IRS的信道衰落,HI代表从IRS到用户的信道衰落;Φ是一个G×G的对角阵,代表着IRS元件的相移,满足其中的/>表示第g个元件的相移;HB可以分别表示为:
其中
其中,L1表示从BS到IRS的散射路径数目,是路径l1的路径损失复增益,表示路径l1上,从BS到IRS的离开角和到达角;这里考虑均匀的线性阵列,/>和/>表示BS和IRS的阵列响应矢量,表示为
其中,λ是太赫兹信号的的波长,d为相邻的天线元件或IRS元件之间的距离;
与BS到IRS链路相同,IRS到用户的信道表示为
其中,
其中,L2表示从BS到IRS的散射路径数目,是路径l2的路径损失复增益,表示路径l2上,从IRS到BS的离开角和到达角;这里考虑均匀的线性阵列,/>和/>表示为
因此IRS到用户之间的信道为
为了简单起见,假定NB=1、NU=1;因此矢量H是由代表着通过子信道n,第m簇第k个用户的信道增益的单向量组成;用/>表示发送给第n子信道上,第m簇第k个用户的功率;第n子信道上,第m簇第k个用户的接收信号表示为
进一步地,所述步骤三具体为:
计算BS用户速率:
BS用户l信号接收的信噪比为
根据香农公式,用户l的速率表示为
其中,B是带宽;
计算IRS用户速率:
第m簇的用户k的信噪比为
速率表示为
则系统的总速率表示为
进一步地,所述步骤四具体为:
为了使网络的整体能源效率最大化,提出了一个关于下行功率控制和IRS相移调整的优化问题;BS的总传输功率计算为所有用户的功率之和,表示为
系统网络的能源效率被定义为网络速率之和与总功率的之比;这里对最优化问题的表述为
其中,C1和C2是每个用户的功率限制,C3和C4是速率的最低要求,C5是角度的范围。
进一步地,所述步骤五具体为:
使用MADRL方法来解决优化问题,将虚拟代理引入到BS中,作为用户的映射,并且训练以实现最佳的功率和相移;在BS上配置一个中央控制器,以收集用户的信息,如信道状态信息CSI、相移和功率;设置一个时钟,以确保代理训练中的同步迭代,以便在每次迭代后计算出全局能量效率;代理利用收集到的用户信息和实时迭代结果进行训练,以实现全局优化。
进一步地,考虑一个离散时间、有限状态空间和动作空间的马尔可夫过程来训练;强化学习的基本元素用一个元组来表示其中/>表示为状态空间,/>表示为动作空间,/>表示为奖励函数,/>是状态转移概率;状态和动作空间设置如下:
1)状态空间:定义一个元组来代表IRS的元件角度和BS用户和IRS用户的功率,公式表示为/>其中/>
2)动作空间:为了获得有限的空间,我们将角度和功率离散化
其中,和/>是IRS元件相位的最小值和最大值,Pmin和Pmax是用户功率的最小值和最大值,角度和功率的离散数目分别为/>和|P|;动作空间表示为/>
3)奖励空间:我们将当前状态和前一状态之间的整体能源效率的差定义为奖励,其表示为EEt+1和EEt分别为状态st+1和状态st的能量效率;
代理获得最优的策略π来实现最大化累积的奖励,表示为
其中,γ∈(0,1],表示一个对于未来奖励的折扣因子;
在训练中,代理通过最优的策略π选择动作;代理在状态st时根据最优的策略π采取动作at,此时代理的动作-价值的函数Qπ(st,at)表示为
根据贝尔曼方程
对最优策略的评价表示为
最优的策略表示为
为了实现在大状态空间和动作空间中获得最优策略的搜索,在MADRL中引入了DQN;最优策略和值函数由Qi(s,a;θ)≈Q*(s,a)近似为一个函数,其中θ是权重,并通过训练进行更新;DQN有一个目标网络和一个当前网络,通过最小化损失函数进行训练来优化参数θ;损失函数为
其中,Qt(st,at;θ)是神经网络在状态为st,参数为θ时的输出,是目标网络在状态st+1,参数为/>时的输出
采用梯度下降算法使损失函数最小化,并利用神经网络逼近动作-价值函数直至收敛。
进一步地,随机参数θ生成动作价值函数Q,目标动作价值函数迭代的索引T,经验池/>
从episode=1到M循环
3)初始化状态st
4)从t=1到T循环
k.代理通过来进行动作的选择;
l.代理执行动作at,将从当前状态st转换到下一个状态st+1
m.代理通过与中央控制器交换数据获取奖励rt
n.将st,at,rt,st+1组成元组(st,at,rt,st+1),存入经验池中;
o.从经验池中随机抽取出小批量元组(st,at,rt,st+1);
p.通过计算/>
q.对使用梯度下降方法更新参数θ;
r.每过一段时间,将θ赋给更新/>即/>
s.中央控制器计算能量效率EEt
t.通过rt=EEt+1-EEt计算出奖励;
结束循环。
本发明与现有技术相比,具有以下优点和效果:
1、我们利用NOMA技术构建了一个IRS辅助的太赫兹蜂窝网络。在计算BS用户和IRS用户速率时,同时考虑用户之间的相邻频带干扰和每组IRS用户之间的频带内干扰。
2、为了最大限度地提高系统的能量效率,在最大传输功率和最小数据速率要求的约束下,提出了一个优化问题来调整IRS元件的相位角并控制下行链路功率。
3、采用MADRL方法求解优化问题。虚拟代理被引入BS,并通过中央控制器与周期性信息交互同步执行训练。采用深度Q网络(DQN)方法,对优化变量进行非均匀离散,以构造动作空间。
附图说明
图1是本发明的基于智能反射面辅助的NOMA太赫兹网络系统模型图。
图2是本发明的实施例的代理与环境互动示意图。
具体实施方式
为了详细阐述本发明为达到预定技术目的而所采取的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清晰、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部的实施例,并且,在不付出创造性劳动的前提下,本发明的实施例中的技术手段或技术特征可以替换,下面将参考附图并结合实施例来详细说明本发明。
首先对本发明所用到的部分专业词汇进行说明:
1、IRS辅助太赫兹通信:许多研究都集中在太赫兹波段的IRS辅助通信上。文献[1]提出了一种寻找IRS元件最佳相移的方法,以提高基于太赫兹波段的系统速率。在[2]中,通过在基站(BS)处设计IRS和预编码器的离散相移来优化频谱效率。此外,还开发了一种子空间追踪方案,用于IRS辅助THz网络的信道估计,以最大化系统的速率[3]。
NOMA技术应用在太赫兹通信里的应用:为了提供大量的无线连接,提高太赫兹通信中的资源利用率,最近的研究将NOMA技术结合到太赫兹网络中。[5]将NOMA技术引入到的THz蜂窝网络中,提出了一种基于替代方向方法的子信道分配和功率分配方案来优化能源效率。此外,在[4]中捕获了THz的长用户-中心窗口特性,其中将THz窗口的中心子带和侧子带分别分配给长和短NOMA组。在NOMA中,分配给用户的功率与其信道增益有关。弱信道增益将分配给大功率用户,强信道增益将分配给较小的功率[4]。NOMA可以解码或解调覆盖的叠加信号。
IRS辅助的NOMA网络:受NOMA技术对系统容量提高和IRS覆盖率提高的启发,IRS辅助的NOMA的通信引起了研究人员的兴趣。[6]中提出了一种用于IRS辅助NOMA下行链路传输的设计,其中边缘用户的信道向量在IRS辅助下在预定的空间方向上对齐。在[7]中,作者重点研究了IRS辅助的NOMA网络,并提出了一种能量管理方法联合优化传输波束的有效方案基站(BS)的形成和IRS的反射相移。此外,在[8]中考虑了IRS增强毫米波NOMA系统,并提出了波束形成和功率分配的联合优化问题。在文献[5]中,作者专注于一个IRS辅助的NOMA网络,并提出了一种节能算法,通过联合优化BS的传输波束赋形和IRS的反射相移来最大化系统的能量效率。文献[6]研究了一种IRS增强毫米波NOMA系统,提出了有源束形成、无源束形成和功率分布的联合优化问题。在[7]中研究了IRS在NOMA系统传输功耗中的有效性,并考虑到每个用户最小信号干扰比的约束条件,提出了IRS辅助下行NOMA系统的功率最小化问题。在[8]中提出了一种简单的IRS辅助NOMA下行传输的设计。基站首先采用传统的空间划分多址接入,利用近用户信道的空间方向生成正交波束。在IRS协助下,边缘用户的有效信道向量在预定的空间方向上对齐,确保这些波束可以服务于额外的边缘用户。
引入强化学习:文献[9]-[11]使用强化学习对优化问题进行求解。文献[9]研究了多单元功率分配的方法,与传统的优化分解方法不同,采用深度强化学习(DRL)方法来解决了功率分配问题。文章的工作目标是在基站随机、密集分布的情况下,使整个网络的整体容量最大化。提出了一种无线资源映射方法和深度神经网络Deep Q-全连接网络(DQFCNet)。与water-filling算法功率分配和Q learning方法相比,DQFCNet可以实现更高的整体容量。仿真结果表明,DQFCNet在收敛速度和稳定性方面都有显著的提高。文献[10]研究了利用深度强化学习(DRL)来解决动态频谱访问问题。具体来说,文章研究了这样一种场景,即不同类型的节点共享多个离散通道,这些节点缺乏与其他节点通信的能力,并且对其他节点的行为没有先验知识。每个节点的目标是最大化其自己的长期的成功传输的数量。该问题被表述为一个具有未知系统动力学的马尔可夫决策过程(MDP)。为了克服未知环境和非常大的过渡矩阵相结合的挑战,采用了两种特定的DRL方法:深度Q网络(DQN)和双深度Q网络(DDQN)。此外,还引入了改进DQN的技术,包括资格跟踪、既往经验和“猜测过程”。仿真结果表明,DQN和DDQN都可以在没有事先知识的情况下有效地学习不同节点的通信模式,并达到接近最优的性能。文献[11]中表示优化无线系统中的无线电传输功率和用户数据速率需要完整的系统可观测性。虽然这个问题在文献中得到了广泛的研究,但仅利用实际系统中可用的部分可观测性来接近最优性的实际解决方案仍然缺乏。本发明提出了一种在蜂窝网络中实现下行功率控制和速率自适应的强化学习方法,从而弥补了这一差距。发明中提出了一个全面的学习框架的设计,包括系统状态,一个一般的奖励函数,和一个有效的学习算法。系统级仿真表明,这个设计快速学习了一个功率控制策略,带来了显著的能源节约和公平的用户在系统中。
如图1所示,本发明的一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,包含以下步骤:
步骤一:将用户分为BS用户和IRS用户。
基站配备NB个天线,用户配备NU天线,用户分别被分为BS用户和IRS用户;假设有L个BS用户,以集合表示;每个IRS用户被分为M簇,每簇K个用户,每簇由G个IRS的元件服务,分别定义为/>系统的带宽被分为多个子信道,每个BS用户和IRS用户分别使用一个子信道,假设BS用户使用前L个子信道,IRS用户使用剩下的子信道。
步骤二:定义BS用户的信道模型和IRS用户的信道模型。
BS用户的信道模型具体为:
考虑从BS到用户的太赫兹信道建模为LoS信道,由于太赫兹的严重衰减,忽略反射,折射和散射路径;从BS通过子信道n到用户l的信道表示为:
其中,PL(fn,dl)是太赫兹LoS路径的路径损耗,fn和dl分别是太赫兹频率和基站到用户的距离;太赫兹LoS路径的路径损耗分为两部分,一部分是自由空间传播损耗,一部分是分子吸收损耗,表示为:
PL(fn,dl)=Lspread(fn,dl)×Labs(fn,dl)
其中,Lspread(fn,dl)和Labs(fn,dl)满足:
其中,c表示光速,kabs(fn)是分子吸收系数;
假设通过子信道n,发送给用户l的功率为接收到的信号为
其中,σ2为加性高斯白噪声,为通过子信道n发送给用户l'的功率。
IRS用户的信道模型具体为:
IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成;根据经典的S-V模型,假设通过IRS i反射到第m簇里的第k个用户信道矢量定义为:
H=HIΦHB
其中,HB代表从基站到IRS的信道衰落,HI代表从IRS到用户的信道衰落;Φ是一个G×G的对角阵,代表着IRS元件的相移,满足其中的/>表示第g个元件的相移;HB可以分别表示为:
其中
其中,L1表示从BS到IRS的散射路径数目,是路径l1的路径损失复增益,表示路径l1上,从BS到IRS的离开角和到达角;这里考虑均匀的线性阵列,/>和/>表示BS和IRS的阵列响应矢量,表示为
其中,λ是太赫兹信号的的波长,d为相邻的天线元件或IRS元件之间的距离;
与BS到IRS链路相同,IRS到用户的信道表示为
其中,
其中,L2表示从BS到IRS的散射路径数目,是路径l2的路径损失复增益,表示路径l2上,从IRS到BS的离开角和到达角;这里考虑均匀的线性阵列,/>和/>表示为
/>
因此IRS到用户之间的信道为
为了简单起见,假定NB=1、NU=1;因此矢量H是由代表着通过子信道n,第m簇第k个用户的信道增益的单向量组成;用/>表示发送给第n子信道上,第m簇第k个用户的功率;第n子信道上,第m簇第k个用户的接收信号表示为
步骤三:分别计算BS用户速率和IRS用户速率并计算系统的总速率。
计算BS用户速率:
BS用户l信号接收的信噪比为
根据香农公式,用户l的速率表示为
其中,B是带宽;
计算IRS用户速率:
第m簇的用户k的信噪比为
速率表示为
则系统的总速率表示为
步骤四:提出关于下行功率控制和IRS相移调整的优化问题。
为了使网络的整体能源效率最大化,提出了一个关于下行功率控制和IRS相移调整的优化问题;BS的总传输功率计算为所有用户的功率之和,表示为
系统网络的能源效率被定义为网络速率之和与总功率的之比;这里对最优化问题的表述为
其中,C1和C2是每个用户的功率限制,C3和C4是速率的最低要求,C5是角度的范围。
步骤五:使用MADRL方法解决优化问题。
使用MADRL方法来解决优化问题,将虚拟代理引入到BS中,作为用户的映射,并且训练以实现最佳的功率和相移;在BS上配置一个中央控制器,以收集用户的信息,如信道状态信息CSI、相移和功率;设置一个时钟,以确保代理训练中的同步迭代,以便在每次迭代后计算出全局能量效率;代理利用收集到的用户信息和实时迭代结果进行训练,以实现全局优化。
考虑一个离散时间、有限状态空间和动作空间的马尔可夫过程来训练;强化学习的基本元素用一个元组来表示其中/>表示为状态空间,/>表示为动作空间,表示为奖励函数,/>是状态转移概率;状态和动作空间设置如下:
1)状态空间:定义一个元组来代表IRS的元件角度和BS用户和IRS用户的功率,公式表示为/>其中/>
2)动作空间:为了获得有限的空间,我们将角度和功率离散化
其中,和/>是IRS元件相位的最小值和最大值,Pmin和Pmax是用户功率的最小值和最大值,角度和功率的离散数目分别为/>和|P|;动作空间表示为/>
3)奖励空间:我们将当前状态和前一状态之间的整体能源效率的差定义为奖励,其表示为EEt+1和EEt分别为状态st+1和状态st的能量效率;/>
代理获得最优的策略π来实现最大化累积的奖励,表示为
其中,γ∈(0,1],表示一个对于未来奖励的折扣因子;
在训练中,代理通过最优的策略π选择动作;代理在状态st时根据最优的策略π采取动作at,此时代理的动作-价值的函数Qπ(st,at)表示为
根据贝尔曼方程
对最优策略的评价表示为
最优的策略表示为
为了实现在大状态空间和动作空间中获得最优策略的搜索,在MADRL中引入了DQN;最优策略和值函数由Qi(s,a;θ)≈Q*(s,a)近似为一个函数,其中θ是权重,并通过训练进行更新;DQN有一个目标网络和一个当前网络,通过最小化损失函数进行训练来优化参数θ;损失函数为
其中,Qt(st,at;θ)是神经网络在状态为st,参数为θ时的输出,是目标网络在状态st+1,参数为/>时的输出
采用梯度下降算法使损失函数最小化,并利用神经网络逼近动作-价值函数直至收敛。
随机参数θ生成动作价值函数Q,目标动作价值函数迭代的索引T,经验池/>
从episode=1到M循环
5)初始化状态st
6)从t=1到T循环
u.代理通过来进行动作的选择;
v.代理执行动作at,将从当前状态st转换到下一个状态st+1
w.代理通过与中央控制器交换数据获取奖励rt
x.将st,at,rt,st+1组成元组(st,at,rt,st+1),存入经验池中;
y.从经验池中随机抽取出小批量元组(st,at,rt,st+1);/>
z.通过计算/>
aa.对使用梯度下降方法更新参数θ;
bb.每过一段时间,将θ赋给更新/>即/>
cc.中央控制器计算能量效率EEt
dd.通过rt=EEt+1-EEt计算出奖励;
结束循环。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
以下是本申请应用的文献列表:
[1]W.Chen,X.Ma,Z.Li,and N.Kuang,“Sum-rate maximization forintelligent reflecting surface based terahertz communication systems,”IEEEInt.Conf.Commun.,pp.153-157,Aug.2019.
[2]W.Chen,Z.Chen,X.Ma,Y.Chi,and Z.Li,“Spectral efficiencyoptimization for intelligent reflecting surface aided multi-input multioutputterahertz system,”Microwave and Optical Technology Lett.,vol.62,no.8,pp.2754-2759,Aug.2020.
[3]X.Ma,Z.Chen,W.Chen,Z.Li,Y.Chi,C.Han,and S.Li,“Joint channelestimation and data rate maximization for intelligent reflecting surfaceassisted terahertz MIMO communication systems,”IEEE Access,vol.8,pp.99565-99581,Aug.2020.
[4]X.Zhang,C.Han,and X.Wang,“Joint beamforming-power-bandwidthallocation in terahertz NOMA networks,”Int.Conf.on Sensing,Commun.,and Netw.,pp.1-9,Jun.2019.
[5]H.Zhang,Y.Duan,K.Long,and V.C.M.Leung,“Energy efficient resourceallocation in terahertz downlink NOMA systems,”IEEE Trans.Commun.,vol.69,no.2,pp.1375-1384,Feb.2021.
[6]Z.Ding and H.V.Poor,“A simple design of IRS-NOMA transmission,”IEEE Commun.Lett.,vol.24,no.5,pp.1119-1123,May.2020.
[7]F.Fang,Y.Xu,Q.Pham,and Z.Ding,“Energy-efficient design of IRS-NOMAnetworks,”IEEE Trans.Veh.Technol.,vol.69,no.11,pp.14088-14092,Nov.2020.
[8]J.Zuo,Y.Liu,E.Basar,and O.A.Dobre,“Intelligent reflecting surfaceenhanced millimeter-wave NOMA systems,”IEEE Commun.Lett.,vol.24,no.11,pp.2632-2636,Nov.2020.
[9]Y.Zhang,C.Kang,T.Ma,Y.Teng,and D.Guo,“Power allocation in multi-cell networks using deep reinforcement learning,”IEEE Veh.Technol.Conf.,pp.1-6,Aug.2018.
[10]Y.Xu,J.Yu,W.C.Headley,and R.M.Buehrer,“Deep reinforcementlearning for dynamic spectrum access in wireless networks,”IEEE MilitaryCommun.Conf.,pp.207-212,Oct.2018.
[11]E.Ghadimi,F.D.Calabrese,G.Peters,and P.Soldati,“A reinforcementlearning approach to power control and rate adaptation in cellular networks,”IEEE Int.Conf.Commun.,pp.1-7,May.2017.

Claims (3)

1.一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于包含以下步骤:
步骤一:将用户分为BS用户和IRS用户;
步骤二:定义BS用户的信道模型和IRS用户的信道模型;
步骤三:分别计算BS用户速率和IRS用户速率并计算系统的总速率;
步骤四:提出关于下行功率控制和IRS相移调整的优化问题;
步骤五:使用MADRL方法解决优化问题;
所述步骤一具体为:
基站配备NB个天线,用户配备NU天线,用户分别被分为BS用户和IRS用户;假设有L个BS用户,以集合表示;每个IRS用户被分为M簇,每簇K个用户,每簇由G个IRS的元件服务,分别定义为/>系统的带宽被分为多个子信道,每个BS用户和IRS用户分别使用一个子信道,假设BS用户使用前L个子信道,IRS用户使用剩下的子信道;
所述步骤二中,BS用户的信道模型具体为:
考虑从BS到用户的太赫兹信道建模为LoS信道,由于太赫兹的严重衰减,忽略反射,折射和散射路径;从BS通过子信道n到用户l的信道表示为:
其中,PL(fn,dl)是太赫兹LoS路径的路径损耗,fn和dl分别是太赫兹频率和基站到用户的距离;太赫兹LoS路径的路径损耗分为两部分,一部分是自由空间传播损耗,一部分是分子吸收损耗,表示为:
PL(fn,dl)=Lspread(fn,dl)×Labs(fn,dl)
其中,Lspread(fn,dl)和Labs(fn,dl)满足:
其中,c表示光速,kabs(fn)是分子吸收系数;
假设通过子信道n,发送给用户l的功率为接收到的信号为
其中,σ2为加性高斯白噪声功率,为通过子信道n发送给用户l'的功率;
所述步骤二中,IRS用户的信道模型具体为:
IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成;根据经典的S-V模型,假设通过IRSi反射到第m簇里的第k个用户信道矢量定义为:
H=HIΦHB
其中,HB代表从基站到IRS的信道衰落,HI代表从IRS到用户的信道衰落;Φ是一个G×G的对角阵,代表着IRS元件的相移,满足其中的/>表示第g个元件的相移;HB可以分别表示为:
其中
其中,L1表示从BS到IRS的散射路径数目,是路径l1的路径损失复增益,表示路径l1上,从BS到IRS的离开角和到达角;这里考虑均匀的线性阵列,/>和/>表示BS和IRS的阵列响应矢量,表示为
其中,λ是太赫兹信号的的波长,d为相邻的天线元件或IRS元件之间的距离;
与BS到IRS链路相同,IRS到用户的信道表示为
其中,
其中,L2表示从BS到IRS的散射路径数目,是路径l2的路径损失复增益,表示路径l2上,从IRS到BS的离开角和到达角;这里考虑均匀的线性阵列,/>和/>表示为
因此IRS到用户之间的信道为
为了简单起见,假定NB=1、NU=1;因此矢量H是由代表着通过子信道n,第m簇第k个用户的信道增益的单向量组成;用/>表示发送给第n子信道上,第m簇第k个用户的功率;第n子信道上,第m簇第k个用户的接收信号表示为
所述步骤三具体为:
计算BS用户速率:
BS用户l信号接收的信噪比为
根据香农公式,用户l的速率表示为
其中,B是带宽;
计算IRS用户速率:
第m簇的用户k的信噪比为
速率表示为
则系统的总速率表示为
所述步骤四具体为:
为了使网络的整体能源效率最大化,提出了一个关于下行功率控制和IRS相移调整的优化问题;BS的总传输功率计算为所有用户的功率之和,表示为
系统网络的能源效率被定义为网络速率之和与总功率的之比;这里对最优化问题的表述为
其中,C1和C2是每个用户的功率限制,C3和C4是速率的最低要求,C5是角度的范围;
所述步骤五具体为:
使用MADRL方法来解决优化问题,将虚拟代理引入到BS中,作为用户的映射,并且训练以实现最佳的功率和相移;在BS上配置一个中央控制器,以收集用户的信息,如信道状态信息CSI、相移和功率;设置一个时钟,以确保代理训练中的同步迭代,以便在每次迭代后计算出全局能量效率;代理利用收集到的用户信息和实时迭代结果进行训练,以实现全局优化。
2.根据权利要求1所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于:考虑一个离散时间、有限状态空间和动作空间的马尔可夫过程来训练;强化学习的基本元素用一个元组来表示其中/>表示为状态空间,/>表示为动作空间,/>表示为奖励函数,/>是状态转移概率;状态和动作空间设置如下:
1)状态空间:定义一个元组来代表IRS的元件角度和BS用户和IRS用户的功率,公式表示为/>其中/>
2)动作空间:为了获得有限的空间,我们将角度和功率离散化
其中,和/>是IRS元件相位的最小值和最大值,Pmin和Pmax是用户功率的最小值和最大值,角度和功率的离散数目分别为/>和|P|;动作空间表示为/>
3)奖励空间:我们将当前状态和前一状态之间的整体能源效率的差定义为奖励,其表示为EEt+1和EEt分别为状态st+1和状态st的能量效率;
代理获得最优的策略π来实现最大化累积的奖励,表示为
其中,γ∈(0,1],表示一个对于未来奖励的折扣因子;
在训练中,代理通过最优的策略π选择动作;代理在状态st时根据最优的策略π采取动作at,此时代理的动作-价值的函数Qπ(st,at)表示为
根据贝尔曼方程
对最优策略的评价表示为
最优的策略表示为
为了实现在大状态空间和动作空间中获得最优策略的搜索,在MADRL中引入了DQN;最优策略和值函数由Qi(s,a;θ)≈Q*(s,a)近似为一个函数,其中θ是权重,并通过训练进行更新;DQN有一个目标网络和一个当前网络,通过最小化损失函数进行训练来优化参数θ;损失函数为
其中,Qt(st,at;θ)是神经网络在状态为st,参数为θ时的输出,是目标网络在状态st+1,参数为/>时的输出
采用梯度下降算法使损失函数最小化,并利用神经网络逼近动作-价值函数直至收敛。
3.根据权利要求2所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于:随机参数θ生成动作价值函数Q,目标动作价值函数迭代的索引T,经验池/>
从episode=1到M循环
1)初始化状态st
2)从t=1到T循环
a.代理通过来进行动作的选择;
b.代理执行动作at,将从当前状态st转换到下一个状态st+1
c.代理通过与中央控制器交换数据获取奖励rt
d.将st,at,rt,st+1组成元组(st,at,rt,st+1),存入经验池中;
e.从经验池中随机抽取出小批量元组(st,at,rt,st+1);
f.通过计算/>
g.对使用梯度下降方法更新参数θ;
h.每过一段时间,将θ赋给更新/>即/>
i.中央控制器计算能量效率EEt
j.通过rt=EEt+1-EEt计算出奖励;
结束循环。
CN202210680248.1A 2022-06-15 2022-06-15 基于智能反射面辅助的noma太赫兹网络能效优化方法 Active CN115278707B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210680248.1A CN115278707B (zh) 2022-06-15 2022-06-15 基于智能反射面辅助的noma太赫兹网络能效优化方法
US17/882,620 US20230413069A1 (en) 2022-06-15 2022-08-08 Energy efficiency optimization method for irs-assisted noma thz network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210680248.1A CN115278707B (zh) 2022-06-15 2022-06-15 基于智能反射面辅助的noma太赫兹网络能效优化方法

Publications (2)

Publication Number Publication Date
CN115278707A CN115278707A (zh) 2022-11-01
CN115278707B true CN115278707B (zh) 2023-12-15

Family

ID=83761725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210680248.1A Active CN115278707B (zh) 2022-06-15 2022-06-15 基于智能反射面辅助的noma太赫兹网络能效优化方法

Country Status (2)

Country Link
US (1) US20230413069A1 (zh)
CN (1) CN115278707B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116094556B (zh) * 2022-12-15 2024-05-14 重庆邮电大学 基于irs辅助太赫兹mimo通信系统的空间多路复用方法
CN117527053B (zh) * 2024-01-05 2024-03-22 中国人民解放军战略支援部队航天工程大学 一种ris辅助通信优化方法及系统
CN117749255A (zh) * 2024-02-19 2024-03-22 成都本原星通科技有限公司 一种大规模mimo卫星通信的终端分组方法及系统
CN117793758B (zh) * 2024-02-23 2024-04-26 电子科技大学 一种ris辅助noma系统中多变量联合优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114423028A (zh) * 2022-01-29 2022-04-29 南京邮电大学 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法
CN114599044A (zh) * 2022-03-07 2022-06-07 西北工业大学 基于智能反射面技术的认知网络中波束赋形优化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111355520B (zh) * 2020-03-10 2022-03-08 电子科技大学 一种智能反射表面辅助的太赫兹安全通信系统设计方法
CN112533274B (zh) * 2020-10-29 2021-08-20 北京科技大学 一种室内太赫兹bwp和功率调度方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114423028A (zh) * 2022-01-29 2022-04-29 南京邮电大学 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法
CN114599044A (zh) * 2022-03-07 2022-06-07 西北工业大学 基于智能反射面技术的认知网络中波束赋形优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Han Chen ; Guobin Zhang ; Xiaobin Li ; Pengcheng Zhu.Multi-agent Deep Reinforcement Learning Based Resource Management in IRS-NOMA Terahertz Network.《2022 IEEE/CIC International Conference on Communications in China (ICCC)》.2022,全文. *
Shichao Wang ; Xiaoming Wang ; Yuhan Zhang ; Youyun Xu.Resource Allocation in Multi-cell NOMA Systems with Multi-Agent Deep Reinforcement Learning.《2021 IEEE Wireless Communications and Networking Conference (WCNC)》.2021,全文. *
东润泽 ; 王布宏 ; 冯登国 ; 曹堃锐 ; 田继伟 ; 程天昊 ; 刁丹玉.无人机通信网络物理层安全传输技术.《电子与信息学报》.2022,全文. *

Also Published As

Publication number Publication date
US20230413069A1 (en) 2023-12-21
CN115278707A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN115278707B (zh) 基于智能反射面辅助的noma太赫兹网络能效优化方法
Wang et al. Joint trajectory and passive beamforming design for intelligent reflecting surface-aided UAV communications: A deep reinforcement learning approach
Zhang et al. Analysis and optimization of outage probability in multi-intelligent reflecting surface-assisted systems
CN106604300B (zh) 一种基于全双工和大规模天线技术的小小区基站自供能自回传方法
Diamanti et al. Energy efficient multi-user communications aided by reconfigurable intelligent surfaces and UAVs
Pan et al. Artificial intelligence-based energy efficient communication system for intelligent reflecting surface-driven vanets
Dong et al. Energy efficiency optimization and resource allocation of cross-layer broadband wireless communication system
Sheng et al. Game theory-based multi-objective optimization interference alignment algorithm for HSR 5G heterogeneous ultra-dense network
CN113596785A (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
Saikia et al. Proximal policy optimization for RIS-assisted full duplex 6G-V2X communications
CN113630165A (zh) 一种基于可重构智能表面的上行多用户共生通信系统
Shang et al. Computation offloading and resource allocation in NOMA-MEC: A deep reinforcement learning approach
CN112954806B (zh) 异构网络中基于弦图着色的联合干扰对齐与资源分配方法
Chen et al. Sub-channel allocation for full-duplex access and device-to-device links underlaying heterogeneous cellular networks using coalition formation games
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN110191476B (zh) 一种基于可重构天线阵列的非正交多址接入方法
Leng et al. User-level scheduling and resource allocation for multi-beam satellite systems with full frequency reuse
CN116669073A (zh) 基于智能反射面辅助无人机认知网络的资源分配和轨迹优化方法
CN116419245A (zh) 一种基于智能反射面辅助的速率分割多址接入的多小区通信系统能效优化方法
Pan et al. Leveraging ai and intelligent reflecting surface for energy-efficient communication in 6g iot
Zhang et al. Learning to beamform in multi-group multicast with imperfect CSI
Chen et al. Multi-agent Deep Reinforcement Learning Based Resource Management in IRS-NOMA Terahertz Network
CN114765785B (zh) 一种基于最大信噪比的多智能反射面选择方法
Liu et al. Outage probability minimization for vehicular networks via joint clustering, UAV trajectory optimization and power allocation
Lyu et al. Primary rate maximization in movable antennas empowered symbiotic radio communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant