CN115278707A - 基于智能反射面辅助的noma太赫兹网络能效优化方法 - Google Patents
基于智能反射面辅助的noma太赫兹网络能效优化方法 Download PDFInfo
- Publication number
- CN115278707A CN115278707A CN202210680248.1A CN202210680248A CN115278707A CN 115278707 A CN115278707 A CN 115278707A CN 202210680248 A CN202210680248 A CN 202210680248A CN 115278707 A CN115278707 A CN 115278707A
- Authority
- CN
- China
- Prior art keywords
- irs
- user
- terahertz
- energy efficiency
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005457 optimization Methods 0.000 title claims abstract description 44
- 206010042135 Stomatitis necrotising Diseases 0.000 title claims abstract 11
- 201000008585 noma Diseases 0.000 title claims abstract 11
- 230000010363 phase shift Effects 0.000 claims abstract description 26
- 230000002787 reinforcement Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 29
- 239000003795 chemical substances by application Substances 0.000 claims description 27
- 230000009471 action Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000010521 absorption reaction Methods 0.000 claims description 6
- 230000001351 cycling effect Effects 0.000 claims description 6
- 238000005562 fading Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000001210 attenuated total reflectance infrared spectroscopy Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000007903 penetration ability Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B10/00—Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
- H04B10/90—Non-optical transmission systems, e.g. transmission systems employing non-photonic corpuscular radiation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/145—Passive relay systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/155—Ground-based stations
- H04B7/15528—Control of operation parameters of a relay station to exploit the physical medium
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/0001—Arrangements for dividing the transmission path
- H04L5/0003—Two-dimensional division
- H04L5/0005—Time-frequency
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
- H04W28/18—Negotiating wireless communication parameters
- H04W28/22—Negotiating communication rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/06—TPC algorithms
- H04W52/14—Separate analysis of uplink or downlink
- H04W52/143—Downlink power control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/06—TPC algorithms
- H04W52/14—Separate analysis of uplink or downlink
- H04W52/146—Uplink power control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/242—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account path loss
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/30—TPC using constraints in the total amount of available transmission power
- H04W52/36—TPC using constraints in the total amount of available transmission power with a discrete range or set of values, e.g. step size, ramping or offsets
- H04W52/367—Power values between minimum and maximum limits, e.g. dynamic range
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Optics & Photonics (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,将用户分为BS用户和IRS用户;定义BS用户的信道模型和IRS用户的信道模型;分别计算BS用户速率和IRS用户速率并计算系统的总速率;提出关于下行功率控制和IRS相移调整的优化问题;使用MADRL方法解决优化问题。本发明提出一个能量效率概念,在每个用户最低速率、最大功率的约束下,采用多智能体深度强化学习MADRL方法最大化系统的整体能量效率。
Description
技术领域
本发明涉及一种网络能效优化方法,特别是一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,属于通信技术领域。
背景技术
在当前和未来的无线通信中,对信息和娱乐的超高数据速率的需求快速增长。然而,现有的频谱资源远远不能满足日益增长的数据速率需求,因此迫切需要探索新的频带来突破频谱瓶颈。因此,被认为是第六代(6G)移动通信基础技术的太赫兹(THz)频段以其较大的带宽特性引起了学术界和工业界的广泛关注。THz波是指0.1-10THz频率的电磁波,其可用带宽是毫米波的几十倍以上,峰值数据速率为1-10TBits/s。太赫兹波段由于波束窄、通信容量大等优点,在实现超高速无线传输方面具有更大的潜力。然而,由于太赫兹波的频率高、波长小,其衍射和穿透能力不如微波和毫米波,这使得它更容易被障碍物阻挡。
由于THz频段具有较强的衰减性能,仅适用于短距离通信场景,如商场、地铁站等室内场所。太赫兹波在户外通信中的应用需要大量的中继设备。因此,一些学者提出将太赫兹技术与智能反射面(IRS)相结合,通过反射信号来提高传输效率。IRS是一个无源器件,由大量被动反射元件组成的反射面。每个组件都可以调整其角度以独立地反射信号。IRS可放置在建筑物表面,有效反射室内外信号。许多研究都集中在太赫兹波段的IRS辅助通信上。
太赫兹频谱带宽较宽,具有更多的潜在用户和应用场景,包括移动用户、工业用户、智能医疗保健等。但太赫兹频段的主要缺点是覆盖面积较小,这是由于太赫兹信号衰减严重造成的。因此,这将导致严重的传输负担,并导致能源消耗的迅速增加。非正交多址接入技术(NOMA)是一种很有前景的无线通信技术,它允许用户通过功率域或码域同时共享同一子信道,通过功率域或码域同时共享所有用户之间的通信资源,与传统的正交多址接入相比,NOMA是一种提高频谱效率、支持大量无线网络连接的有效技术[8]。NOMA鼓励更多的用户设备占用相同的子信道,并可以提供大量的数据服务,提高太赫兹网络中资源的利用率。为了在太赫兹通信中提供大量的无线连接并提高资源利用率,最近的研究将NOMA技术结合到太赫兹网络中。NOMA技术被引入到THz蜂窝网络中,提出了一种基于交替方向法的子信道分配和功率分配方案,以优化能量效率。
受NOMA能力增强和IRS覆盖率提高的启发,IRS辅助的NOMA通信系统引起了研究人员的兴趣。比如有研究提出了一种用于IRS辅助的NOMA下行链路传输的设计,其中边缘用户的信道向量在IRS辅助下在预定的空间方向上对齐。有研究提出了IRS辅助的NOMA网络,并提出了一种联合优化基站(BS)发射波束形成和IRS反射相移的节能方案。此外,有的研究还考虑了智能反射面增强毫米波NOMA系统,并提出了波束形成和功率分配的联合优化问题。
传统网络下的资源管理机制的研究已经相对成熟,但应用于太赫兹还存在很多限制,主要包括:
接入数量限制:现有资源管理机制只适用于接入数量较少的情况,随着用户数量和接入设备的增加,会出现频谱利用率下降的情况,因而需要研究接入数量过多网络的能量效率问题。
信号衰减严重:由于太赫兹频率衰减严重,信号很容易被建筑物遮挡,建筑物阴影位置的用户无法接收到基站的信号,将无法正常通信。传统的太赫兹网络需要建设大量基站,以保证用户的最小信噪比。
能量效率太低:随着用户数和接入设备的增加,基站数目过多,基站需要较大的发射功率,导致基站的能量消耗过大,现有的太赫兹通信系统的能量利用率太低。
算法效率低下:传统的网络采用DQN算法进行强化学习训练,采用单代理进行训练,每个代理代表用户,每次训练在用户端执行,没有考虑到用户之间的信息交流、每次训练基站转发信息将承担巨大流量。
发明内容
本发明所要解决的技术问题是提供一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,解决现有技术的不足。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于包含以下步骤:
步骤一:将用户分为BS用户和IRS用户;
步骤二:定义BS用户的信道模型和IRS用户的信道模型;
步骤三:分别计算BS用户速率和IRS用户速率并计算系统的总速率;
步骤四:提出关于下行功率控制和IRS相移调整的优化问题;
步骤五:使用MADRL方法解决优化问题。
进一步地,所述步骤一具体为:
基站配备NB个天线,用户配备NU天线,用户分别被分为BS用户和IRS用户;假设有L个BS用户,以集合表示;每个IRS用户被分为M簇,每簇K个用户,每簇由G个IRS的元件服务,分别定义为系统的带宽被分为多个子信道,每个BS用户和IRS用户分别使用一个子信道,假设BS用户使用前L个子信道,IRS用户使用剩下的子信道。
进一步地,所述步骤二中,BS用户的信道模型具体为:
考虑从BS到用户的太赫兹信道建模为LoS信道,由于太赫兹的严重衰减,忽略反射,折射和散射路径;从BS通过子信道n到用户l的信道表示为:
其中,PL(fn,dl)是太赫兹LoS路径的路径损耗,fn和dl分别是太赫兹频率和基站到用户的距离;太赫兹LoS路径的路径损耗分为两部分,一部分是自由空间传播损耗,一部分是分子吸收损耗,表示为:
PL(fn,dl)=Lspread(fn,dl)×Labs(fn,dl)
其中,Lspread(fn,dl)和Labs(fn,dl)满足:
其中,c表示光速,kabs(fn)是分子吸收系数;
进一步地,所述步骤二中,IRS用户的信道模型具体为:
IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成;根据经典的S-V模型,假设通过IRS i反射到第m簇里的第k个用户信道矢量定义为:
H=HIΦHB
其中
其中,λ是太赫兹信号的的波长,d为相邻的天线元件或IRS元件之间的距离;
与BS到IRS链路相同,IRS到用户的信道表示为
其中,
因此IRS到用户之间的信道为
为了简单起见,假定NB=1、NU=1;因此矢量H是由代表着通过子信道n,第m簇第k个用户的信道增益的单向量组成;用表示发送给第n子信道上,第m簇第k个用户的功率;第n子信道上,第m簇第k个用户的接收信号表示为
进一步地,所述步骤三具体为:
计算BS用户速率:
BS用户l信号接收的信噪比为
根据香农公式,用户l的速率表示为
其中,B是带宽;
计算IRS用户速率:
第m簇的用户k的信噪比为
速率表示为
则系统的总速率表示为
进一步地,所述步骤四具体为:
为了使网络的整体能源效率最大化,提出了一个关于下行功率控制和IRS相移调整的优化问题;BS的总传输功率计算为所有用户的功率之和,表示为
系统网络的能源效率被定义为网络速率之和与总功率的之比;这里对最优化问题的表述为
其中,C1和C2是每个用户的功率限制,C3和C4是速率的最低要求,C5是角度的范围。
进一步地,所述步骤五具体为:
使用MADRL方法来解决优化问题,将虚拟代理引入到BS中,作为用户的映射,并且训练以实现最佳的功率和相移;在BS上配置一个中央控制器,以收集用户的信息,如信道状态信息CSI、相移和功率;设置一个时钟,以确保代理训练中的同步迭代,以便在每次迭代后计算出全局能量效率;代理利用收集到的用户信息和实时迭代结果进行训练,以实现全局优化。
2)动作空间:为了获得有限的空间,我们将角度和功率离散化
代理获得最优的策略π来实现最大化累积的奖励,表示为
其中,γ∈(0,1],表示一个对于未来奖励的折扣因子;
在训练中,代理通过最优的策略π选择动作;代理在状态st时根据最优的策略π采取动作at,此时代理的动作-价值的函数Qπ(st,at)表示为
根据贝尔曼方程
对最优策略的评价表示为
最优的策略表示为
为了实现在大状态空间和动作空间中获得最优策略的搜索,在MADRL中引入了DQN;最优策略和值函数由Qi(s,a;θ)≈Q*(s,a)近似为一个函数,其中θ是权重,并通过训练进行更新;DQN有一个目标网络和一个当前网络,通过最小化损失函数进行训练来优化参数θ;损失函数为
采用梯度下降算法使损失函数最小化,并利用神经网络逼近动作-价值函数直至收敛。
从episode=1到M循环
3)初始化状态st
4)从t=1到T循环
l.代理执行动作at,将从当前状态st转换到下一个状态st+1;
m.代理通过与中央控制器交换数据获取奖励rt;
s.中央控制器计算能量效率EEt;
t.通过rt=EEt+1-EEt计算出奖励;
结束循环。
本发明与现有技术相比,具有以下优点和效果:
1、我们利用NOMA技术构建了一个IRS辅助的太赫兹蜂窝网络。在计算BS用户和IRS用户速率时,同时考虑用户之间的相邻频带干扰和每组IRS用户之间的频带内干扰。
2、为了最大限度地提高系统的能量效率,在最大传输功率和最小数据速率要求的约束下,提出了一个优化问题来调整IRS元件的相位角并控制下行链路功率。
3、采用MADRL方法求解优化问题。虚拟代理被引入BS,并通过中央控制器与周期性信息交互同步执行训练。采用深度Q网络(DQN)方法,对优化变量进行非均匀离散,以构造动作空间。
附图说明
图1是本发明的基于智能反射面辅助的NOMA太赫兹网络系统模型图。
图2是本发明的实施例的代理与环境互动示意图。
具体实施方式
为了详细阐述本发明为达到预定技术目的而所采取的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清晰、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部的实施例,并且,在不付出创造性劳动的前提下,本发明的实施例中的技术手段或技术特征可以替换,下面将参考附图并结合实施例来详细说明本发明。
首先对本发明所用到的部分专业词汇进行说明:
1、IRS辅助太赫兹通信:许多研究都集中在太赫兹波段的IRS辅助通信上。文献[1]提出了一种寻找IRS元件最佳相移的方法,以提高基于太赫兹波段的系统速率。在[2]中,通过在基站(BS)处设计IRS和预编码器的离散相移来优化频谱效率。此外,还开发了一种子空间追踪方案,用于IRS辅助THz网络的信道估计,以最大化系统的速率[3]。
NOMA技术应用在太赫兹通信里的应用:为了提供大量的无线连接,提高太赫兹通信中的资源利用率,最近的研究将NOMA技术结合到太赫兹网络中。[5]将NOMA技术引入到的THz蜂窝网络中,提出了一种基于替代方向方法的子信道分配和功率分配方案来优化能源效率。此外,在[4]中捕获了THz的长用户-中心窗口特性,其中将THz窗口的中心子带和侧子带分别分配给长和短NOMA组。在NOMA中,分配给用户的功率与其信道增益有关。弱信道增益将分配给大功率用户,强信道增益将分配给较小的功率[4]。NOMA可以解码或解调覆盖的叠加信号。
IRS辅助的NOMA网络:受NOMA技术对系统容量提高和IRS覆盖率提高的启发,IRS辅助的NOMA的通信引起了研究人员的兴趣。[6]中提出了一种用于IRS辅助NOMA下行链路传输的设计,其中边缘用户的信道向量在IRS辅助下在预定的空间方向上对齐。在[7]中,作者重点研究了IRS辅助的NOMA网络,并提出了一种能量管理方法联合优化传输波束的有效方案基站(BS)的形成和IRS的反射相移。此外,在[8]中考虑了IRS增强毫米波NOMA系统,并提出了波束形成和功率分配的联合优化问题。在文献[5]中,作者专注于一个IRS辅助的NOMA网络,并提出了一种节能算法,通过联合优化BS的传输波束赋形和IRS的反射相移来最大化系统的能量效率。文献[6]研究了一种IRS增强毫米波NOMA系统,提出了有源束形成、无源束形成和功率分布的联合优化问题。在[7]中研究了IRS在NOMA系统传输功耗中的有效性,并考虑到每个用户最小信号干扰比的约束条件,提出了IRS辅助下行NOMA系统的功率最小化问题。在[8]中提出了一种简单的IRS辅助NOMA下行传输的设计。基站首先采用传统的空间划分多址接入,利用近用户信道的空间方向生成正交波束。在IRS协助下,边缘用户的有效信道向量在预定的空间方向上对齐,确保这些波束可以服务于额外的边缘用户。
引入强化学习:文献[9]-[11]使用强化学习对优化问题进行求解。文献[9]研究了多单元功率分配的方法,与传统的优化分解方法不同,采用深度强化学习(DRL)方法来解决了功率分配问题。文章的工作目标是在基站随机、密集分布的情况下,使整个网络的整体容量最大化。提出了一种无线资源映射方法和深度神经网络Deep Q-全连接网络(DQFCNet)。与water-filling算法功率分配和Q learning方法相比,DQFCNet可以实现更高的整体容量。仿真结果表明,DQFCNet在收敛速度和稳定性方面都有显著的提高。文献[10]研究了利用深度强化学习(DRL)来解决动态频谱访问问题。具体来说,文章研究了这样一种场景,即不同类型的节点共享多个离散通道,这些节点缺乏与其他节点通信的能力,并且对其他节点的行为没有先验知识。每个节点的目标是最大化其自己的长期的成功传输的数量。该问题被表述为一个具有未知系统动力学的马尔可夫决策过程(MDP)。为了克服未知环境和非常大的过渡矩阵相结合的挑战,采用了两种特定的DRL方法:深度Q网络(DQN)和双深度Q网络(DDQN)。此外,还引入了改进DQN的技术,包括资格跟踪、既往经验和“猜测过程”。仿真结果表明,DQN和DDQN都可以在没有事先知识的情况下有效地学习不同节点的通信模式,并达到接近最优的性能。文献[11]中表示优化无线系统中的无线电传输功率和用户数据速率需要完整的系统可观测性。虽然这个问题在文献中得到了广泛的研究,但仅利用实际系统中可用的部分可观测性来接近最优性的实际解决方案仍然缺乏。本发明提出了一种在蜂窝网络中实现下行功率控制和速率自适应的强化学习方法,从而弥补了这一差距。发明中提出了一个全面的学习框架的设计,包括系统状态,一个一般的奖励函数,和一个有效的学习算法。系统级仿真表明,这个设计快速学习了一个功率控制策略,带来了显著的能源节约和公平的用户在系统中。
如图1所示,本发明的一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,包含以下步骤:
步骤一:将用户分为BS用户和IRS用户。
基站配备NB个天线,用户配备NU天线,用户分别被分为BS用户和IRS用户;假设有L个BS用户,以集合表示;每个IRS用户被分为M簇,每簇K个用户,每簇由G个IRS的元件服务,分别定义为系统的带宽被分为多个子信道,每个BS用户和IRS用户分别使用一个子信道,假设BS用户使用前L个子信道,IRS用户使用剩下的子信道。
步骤二:定义BS用户的信道模型和IRS用户的信道模型。
BS用户的信道模型具体为:
考虑从BS到用户的太赫兹信道建模为LoS信道,由于太赫兹的严重衰减,忽略反射,折射和散射路径;从BS通过子信道n到用户l的信道表示为:
其中,PL(fn,dl)是太赫兹LoS路径的路径损耗,fn和dl分别是太赫兹频率和基站到用户的距离;太赫兹LoS路径的路径损耗分为两部分,一部分是自由空间传播损耗,一部分是分子吸收损耗,表示为:
PL(fn,dl)=Lspread(fn,dl)×Labs(fn,dl)
其中,Lspread(fn,dl)和Labs(fn,dl)满足:
其中,c表示光速,kabs(fn)是分子吸收系数;
IRS用户的信道模型具体为:
IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成;根据经典的S-V模型,假设通过IRS i反射到第m簇里的第k个用户信道矢量定义为:
H=HIΦHB
其中
其中,λ是太赫兹信号的的波长,d为相邻的天线元件或IRS元件之间的距离;
与BS到IRS链路相同,IRS到用户的信道表示为
其中,
因此IRS到用户之间的信道为
为了简单起见,假定NB=1、NU=1;因此矢量H是由代表着通过子信道n,第m簇第k个用户的信道增益的单向量组成;用表示发送给第n子信道上,第m簇第k个用户的功率;第n子信道上,第m簇第k个用户的接收信号表示为
步骤三:分别计算BS用户速率和IRS用户速率并计算系统的总速率。
计算BS用户速率:
BS用户l信号接收的信噪比为
根据香农公式,用户l的速率表示为
其中,B是带宽;
计算IRS用户速率:
第m簇的用户k的信噪比为
速率表示为
则系统的总速率表示为
步骤四:提出关于下行功率控制和IRS相移调整的优化问题。
为了使网络的整体能源效率最大化,提出了一个关于下行功率控制和IRS相移调整的优化问题;BS的总传输功率计算为所有用户的功率之和,表示为
系统网络的能源效率被定义为网络速率之和与总功率的之比;这里对最优化问题的表述为
其中,C1和C2是每个用户的功率限制,C3和C4是速率的最低要求,C5是角度的范围。
步骤五:使用MADRL方法解决优化问题。
使用MADRL方法来解决优化问题,将虚拟代理引入到BS中,作为用户的映射,并且训练以实现最佳的功率和相移;在BS上配置一个中央控制器,以收集用户的信息,如信道状态信息CSI、相移和功率;设置一个时钟,以确保代理训练中的同步迭代,以便在每次迭代后计算出全局能量效率;代理利用收集到的用户信息和实时迭代结果进行训练,以实现全局优化。
2)动作空间:为了获得有限的空间,我们将角度和功率离散化
代理获得最优的策略π来实现最大化累积的奖励,表示为
其中,γ∈(0,1],表示一个对于未来奖励的折扣因子;
在训练中,代理通过最优的策略π选择动作;代理在状态st时根据最优的策略π采取动作at,此时代理的动作-价值的函数Qπ(st,at)表示为
根据贝尔曼方程
对最优策略的评价表示为
最优的策略表示为
为了实现在大状态空间和动作空间中获得最优策略的搜索,在MADRL中引入了DQN;最优策略和值函数由Qi(s,a;θ)≈Q*(s,a)近似为一个函数,其中θ是权重,并通过训练进行更新;DQN有一个目标网络和一个当前网络,通过最小化损失函数进行训练来优化参数θ;损失函数为
采用梯度下降算法使损失函数最小化,并利用神经网络逼近动作-价值函数直至收敛。
从episode=1到M循环
5)初始化状态st
6)从t=1到T循环
v.代理执行动作at,将从当前状态st转换到下一个状态st+1;
w.代理通过与中央控制器交换数据获取奖励rt;
cc.中央控制器计算能量效率EEt;
dd.通过rt=EEt+1-EEt计算出奖励;
结束循环。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
以下是本申请应用的文献列表:
[1]W.Chen,X.Ma,Z.Li,and N.Kuang,“Sum-rate maximization forintelligent reflecting surface based terahertz communication systems,”IEEEInt.Conf.Commun.,pp.153-157,Aug.2019.
[2]W.Chen,Z.Chen,X.Ma,Y.Chi,and Z.Li,“Spectral efficiencyoptimization for intelligent reflecting surface aided multi-input multioutputterahertz system,”Microwave and Optical Technology Lett.,vol.62,no.8,pp.2754-2759,Aug.2020.
[3]X.Ma,Z.Chen,W.Chen,Z.Li,Y.Chi,C.Han,and S.Li,“Joint channelestimation and data rate maximization for intelligent reflecting surfaceassisted terahertz MIMO communication systems,”IEEE Access,vol.8,pp.99565-99581,Aug.2020.
[4]X.Zhang,C.Han,and X.Wang,“Joint beamforming-power-bandwidthallocation in terahertz NOMA networks,”Int.Conf.on Sensing,Commun.,and Netw.,pp.1-9,Jun.2019.
[5]H.Zhang,Y.Duan,K.Long,and V.C.M.Leung,“Energy efficient resourceallocation in terahertz downlink NOMA systems,”IEEE Trans.Commun.,vol.69,no.2,pp.1375-1384,Feb.2021.
[6]Z.Ding and H.V.Poor,“A simple design of IRS-NOMA transmission,”IEEE Commun.Lett.,vol.24,no.5,pp.1119-1123,May.2020.
[7]F.Fang,Y.Xu,Q.Pham,and Z.Ding,“Energy-efficient design of IRS-NOMAnetworks,”IEEE Trans.Veh.Technol.,vol.69,no.11,pp.14088-14092,Nov.2020.
[8]J.Zuo,Y.Liu,E.Basar,and O.A.Dobre,“Intelligent reflecting surfaceenhanced millimeter-wave NOMA systems,”IEEE Commun.Lett.,vol.24,no.11,pp.2632-2636,Nov.2020.
[9]Y.Zhang,C.Kang,T.Ma,Y.Teng,and D.Guo,“Power allocation in multi-cell networks using deep reinforcement learning,”IEEE Veh.Technol.Conf.,pp.1-6,Aug.2018.
[10]Y.Xu,J.Yu,W.C.Headley,and R.M.Buehrer,“Deep reinforcementlearning for dynamic spectrum access in wireless networks,”IEEE MilitaryCommun.Conf.,pp.207-212,Oct.2018.
[11]E.Ghadimi,F.D.Calabrese,G.Peters,and P.Soldati,“A reinforcementlearning approach to power control and rate adaptation in cellular networks,”IEEE Int.Conf.Commun.,pp.1-7,May.2017.
Claims (9)
1.一种基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于包含以下步骤:
步骤一:将用户分为BS用户和IRS用户;
步骤二:定义BS用户的信道模型和IRS用户的信道模型;
步骤三:分别计算BS用户速率和IRS用户速率并计算系统的总速率;
步骤四:提出关于下行功率控制和IRS相移调整的优化问题;
步骤五:使用MADRL方法解决优化问题。
3.根据权利要求1所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于:所述步骤二中,BS用户的信道模型具体为:
考虑从BS到用户的太赫兹信道建模为LoS信道,由于太赫兹的严重衰减,忽略反射,折射和散射路径;从BS通过子信道n到用户l的信道表示为:
其中,PL(fn,dl)是太赫兹LoS路径的路径损耗,fn和dl分别是太赫兹频率和基站到用户的距离;太赫兹LoS路径的路径损耗分为两部分,一部分是自由空间传播损耗,一部分是分子吸收损耗,表示为:
PL(fn,dl)=Lspread(fn,dl)×Labs(fn,dl)
其中,Lspread(fn,dl)和Labs(fn,dl)满足:
其中,c表示光速,kabs(fn)是分子吸收系数;
4.根据权利要求3所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于:所述步骤二中,IRS用户的信道模型具体为:
IRS用户的信道由BS到IRS信道和IRS到用户的信道和IRS元件的相移组成;根据经典的S-V模型,假设通过IRSi反射到第m簇里的第k个用户信道矢量定义为:
H=HIΦHB
其中
其中,λ是太赫兹信号的的波长,d为相邻的天线元件或IRS元件之间的距离;
与BS到IRS链路相同,IRS到用户的信道表示为
其中,
因此IRS到用户之间的信道为
为了简单起见,假定NB=1、NU=1;因此矢量H是由代表着通过子信道n,第m簇第k个用户的信道增益的单向量组成;用表示发送给第n子信道上,第m簇第k个用户的功率;第n子信道上,第m簇第k个用户的接收信号表示为
7.根据权利要求6所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于:所述步骤五具体为:
使用MADRL方法来解决优化问题,将虚拟代理引入到BS中,作为用户的映射,并且训练以实现最佳的功率和相移;在BS上配置一个中央控制器,以收集用户的信息,如信道状态信息CSI、相移和功率;设置一个时钟,以确保代理训练中的同步迭代,以便在每次迭代后计算出全局能量效率;代理利用收集到的用户信息和实时迭代结果进行训练,以实现全局优化。
8.根据权利要求7所述的基于智能反射面辅助的NOMA太赫兹网络能效优化方法,其特征在于:考虑一个离散时间、有限状态空间和动作空间的马尔可夫过程来训练;强化学习的基本元素用一个元组来表示其中表示为状态空间,表示为动作空间,表示为奖励函数,是状态转移概率;状态和动作空间设置如下:
2)动作空间:为了获得有限的空间,我们将角度和功率离散化
代理获得最优的策略π来实现最大化累积的奖励,表示为
其中,γ∈(0,1],表示一个对于未来奖励的折扣因子;
在训练中,代理通过最优的策略π选择动作;代理在状态st时根据最优的策略π采取动作at,此时代理的动作-价值的函数Qπ(st,at)表示为
根据贝尔曼方程
对最优策略的评价表示为
最优的策略表示为
为了实现在大状态空间和动作空间中获得最优策略的搜索,在MADRL中引入了DQN;最优策略和值函数由Qi(s,a;θ)≈Q*(s,a)近似为一个函数,其中θ是权重,并通过训练进行更新;DQN有一个目标网络和一个当前网络,通过最小化损失函数进行训练来优化参数θ;损失函数为
采用梯度下降算法使损失函数最小化,并利用神经网络逼近动作-价值函数直至收敛。
从episode=1到M循环
1)初始化状态st
2)从t=1到T循环
b.代理执行动作at,将从当前状态st转换到下一个状态st+1;
c.代理通过与中央控制器交换数据获取奖励rt;
i.中央控制器计算能量效率EEt;
j.通过rt=EEt+1-EEt计算出奖励;
结束循环。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680248.1A CN115278707B (zh) | 2022-06-15 | 2022-06-15 | 基于智能反射面辅助的noma太赫兹网络能效优化方法 |
US17/882,620 US20230413069A1 (en) | 2022-06-15 | 2022-08-08 | Energy efficiency optimization method for irs-assisted noma thz network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210680248.1A CN115278707B (zh) | 2022-06-15 | 2022-06-15 | 基于智能反射面辅助的noma太赫兹网络能效优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115278707A true CN115278707A (zh) | 2022-11-01 |
CN115278707B CN115278707B (zh) | 2023-12-15 |
Family
ID=83761725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210680248.1A Active CN115278707B (zh) | 2022-06-15 | 2022-06-15 | 基于智能反射面辅助的noma太赫兹网络能效优化方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230413069A1 (zh) |
CN (1) | CN115278707B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116094556A (zh) * | 2022-12-15 | 2023-05-09 | 重庆邮电大学 | 基于irs辅助太赫兹mimo通信系统的空间多路复用方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117527053B (zh) * | 2024-01-05 | 2024-03-22 | 中国人民解放军战略支援部队航天工程大学 | 一种ris辅助通信优化方法及系统 |
CN117749255A (zh) * | 2024-02-19 | 2024-03-22 | 成都本原星通科技有限公司 | 一种大规模mimo卫星通信的终端分组方法及系统 |
CN117793758B (zh) * | 2024-02-23 | 2024-04-26 | 电子科技大学 | 一种ris辅助noma系统中多变量联合优化方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210288698A1 (en) * | 2020-03-10 | 2021-09-16 | University Of Electronic Science And Technology Of China | Method for Intelligent Reflecting Surface Aided Terahertz Secure Communication System |
CN114423028A (zh) * | 2022-01-29 | 2022-04-29 | 南京邮电大学 | 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法 |
US20220140961A1 (en) * | 2020-10-29 | 2022-05-05 | University Of Science And Technology Beijing | Bandwidth part (bwp) and power scheduling method and apparatus for indoor terahertz |
CN114599044A (zh) * | 2022-03-07 | 2022-06-07 | 西北工业大学 | 基于智能反射面技术的认知网络中波束赋形优化方法 |
-
2022
- 2022-06-15 CN CN202210680248.1A patent/CN115278707B/zh active Active
- 2022-08-08 US US17/882,620 patent/US20230413069A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210288698A1 (en) * | 2020-03-10 | 2021-09-16 | University Of Electronic Science And Technology Of China | Method for Intelligent Reflecting Surface Aided Terahertz Secure Communication System |
US20220140961A1 (en) * | 2020-10-29 | 2022-05-05 | University Of Science And Technology Beijing | Bandwidth part (bwp) and power scheduling method and apparatus for indoor terahertz |
CN114423028A (zh) * | 2022-01-29 | 2022-04-29 | 南京邮电大学 | 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法 |
CN114599044A (zh) * | 2022-03-07 | 2022-06-07 | 西北工业大学 | 基于智能反射面技术的认知网络中波束赋形优化方法 |
Non-Patent Citations (3)
Title |
---|
HAN CHEN; GUOBIN ZHANG; XIAOBIN LI; PENGCHENG ZHU: "Multi-agent Deep Reinforcement Learning Based Resource Management in IRS-NOMA Terahertz Network", 《2022 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC)》 * |
SHICHAO WANG; XIAOMING WANG; YUHAN ZHANG; YOUYUN XU: "Resource Allocation in Multi-cell NOMA Systems with Multi-Agent Deep Reinforcement Learning", 《2021 IEEE WIRELESS COMMUNICATIONS AND NETWORKING CONFERENCE (WCNC)》 * |
东润泽;王布宏;冯登国;曹堃锐;田继伟;程天昊;刁丹玉: "无人机通信网络物理层安全传输技术", 《电子与信息学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116094556A (zh) * | 2022-12-15 | 2023-05-09 | 重庆邮电大学 | 基于irs辅助太赫兹mimo通信系统的空间多路复用方法 |
CN116094556B (zh) * | 2022-12-15 | 2024-05-14 | 重庆邮电大学 | 基于irs辅助太赫兹mimo通信系统的空间多路复用方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115278707B (zh) | 2023-12-15 |
US20230413069A1 (en) | 2023-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115278707B (zh) | 基于智能反射面辅助的noma太赫兹网络能效优化方法 | |
Zhang et al. | Analysis and optimization of outage probability in multi-intelligent reflecting surface-assisted systems | |
CN112073107A (zh) | 基于智能反射面的多组、多播联合波束赋形算法设计 | |
Diamanti et al. | Energy efficient multi-user communications aided by reconfigurable intelligent surfaces and UAVs | |
US7983710B2 (en) | Method of coordinated wireless downlink transmission | |
Pan et al. | Artificial intelligence-based energy efficient communication system for intelligent reflecting surface-driven vanets | |
CN114286312A (zh) | 一种基于可重构智能表面增强无人机通信的方法 | |
Dong et al. | Energy efficiency optimization and resource allocation of cross-layer broadband wireless communication system | |
Saikia et al. | Proximal policy optimization for RIS-assisted full duplex 6G-V2X communications | |
Elgamal et al. | Q-learning algorithm for resource allocation in WDMA-based optical wireless communication networks | |
Subha et al. | Nonlinear adaptive smart antenna resource management for 5 G through to surveillance systems | |
Sabuj et al. | Machine-type communications in noma-based terahertz wireless networks | |
Basharat et al. | Intelligent radio resource management in reconfigurable IRS-enabled NOMA networks | |
Chen et al. | Sub-channel allocation for full-duplex access and device-to-device links underlaying heterogeneous cellular networks using coalition formation games | |
Chen et al. | DRL-based energy efficient resource allocation for STAR-RIS assisted coordinated multi-cell networks | |
Yang et al. | Can massive MIMO support uplink intensive applications? | |
Liu et al. | Concurrent multi-beam transmissions for reliable communication in millimeter-wave networks | |
Leng et al. | User-level scheduling and resource allocation for multi-beam satellite systems with full frequency reuse | |
Ahmed et al. | An information-theoretic branch-and-prune algorithm for discrete phase optimization of RIS in massive MIMO | |
Pan et al. | Leveraging ai and intelligent reflecting surface for energy-efficient communication in 6g iot | |
CN111464221B (zh) | 毫米波蜂窝网下基于bft的无线接入方法及通信方法 | |
Chen et al. | Multi-agent Deep Reinforcement Learning Based Resource Management in IRS-NOMA Terahertz Network | |
Zhang et al. | Primal dual PPO learning resource allocation in indoor IRS-aided networks | |
Lyu et al. | Primary rate maximization in movable antennas empowered symbiotic radio communications | |
Bai et al. | Research on joint optimization of IRS-assisted UAV network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |