CN114727318A - 一种基于maddpg的多ris通信网络速率提升方法 - Google Patents

一种基于maddpg的多ris通信网络速率提升方法 Download PDF

Info

Publication number
CN114727318A
CN114727318A CN202210348032.5A CN202210348032A CN114727318A CN 114727318 A CN114727318 A CN 114727318A CN 202210348032 A CN202210348032 A CN 202210348032A CN 114727318 A CN114727318 A CN 114727318A
Authority
CN
China
Prior art keywords
cell
time
ris
agent
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210348032.5A
Other languages
English (en)
Inventor
曾鸣
宁祥瑞
王文欣
费泽松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210348032.5A priority Critical patent/CN114727318A/zh
Publication of CN114727318A publication Critical patent/CN114727318A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/083Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for increasing network speed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,属于无线通信中的频谱资源分配技术领域。针对多小区下行场景中的多RIS部署资源分配问题,本发明通过遍历所有用户,表述用户接收信号、信干噪比以及信号干扰参数;以各小区基站作为深度强化学习的智能体,以用户和速率及WiFi接入点信号干扰作为状态,以RIS反射系数以及BS与用户间的波束赋形矢量作为动作,以用户和速率表述奖励,构建目标状态预测模型;对预测模型采用MADDPG方法进行学习与更新直至奖励收敛,收敛时的系统参数能够应用于多小区通信场景中。本发明可应用于应急通信和军事通信等领域,用以提供最大化的数据传输和速率。

Description

一种基于MADDPG的多RIS通信网络速率提升方法
技术领域
本发明涉及一种基于MADDPG的多RIS通信网络速率提升方法,属于无线通信中的频谱资源分配技术领域。
背景技术
第五代移动通信(the fifth generation mobile communication,5G)网络设备大规模的接入,使得无线传输过程功耗急剧增加,因此如何实现高速率、低功耗的数据传输将成为未来网络发展的关键。
智能反射面(Reconfigurable Intelligent Surface,RIS)是一种由带有控制单元的无源反射元件组成的大规模天线阵列,其中每个元件都能够独立地使入射信号产生一定的相移,从而协同改变反射信号的传播。它通过提供可控制通信信道的突变相移来控制入射信号的传播。与通过放大和再生信号来辅助源-目的传输的放大转发(amplify-and-forward,AF)中继相比,RIS不使用发射模块,只是将接收到的信号反射为无源阵列,因此不消耗发射功率。此外,RIS主要用于提高现有的通信链路性能,而不是通过反射传递自身信息。反向散射通信中的直接路径信号属于干扰信号,一般需要在接收器上得到抑制或者消除,而在RIS增强通信中,直接路径和反射路径信号都携带有相同的有用信息,因此可以在接收器上相干叠加,从而最大限度地提高总接收功率和通信网络的传输速率。
RIS作为无源全双工元器件,不但能耗极低,而且全双工模式时其频谱效率较高,并且不存在自干扰,反射过程不进行信息干扰。由于RIS接受或者反射发送时不需要进行信息处理,提高了传输效率。与其他有源智能表面相比,具有成本低、功耗低、安装灵活等优势,对于未来的应急通信和军事通信等领域的应用具有重要的研究意义。
目前相关研究主要集中于单小区蜂窝通信系统的RIS辅助通信,具体研究包括服务质量(QoS)约束发射功率最小化和加权和速率最大化,以获得下行链路中的基站波束形成器和RIS反射波束形成器或RIS预编码器的最优设计。现实场景下,多小区多RIS的蜂窝通信系统更加具有推广价值,但由于控制多个RIS所涉及的优化复杂性增加,多小区下行场景中的多RIS部署尚未得到充分建模和研究。
近年来,随着人工智能技术的发展,一些机器学习方法被逐渐应用到资源分配问题之中,且具有较好的性能表现,例如Q-learning、deep Q network(DQN)等方法。多智能体深度确定性策略梯度(MADDPG)方法能够用于解决多小区下行场景中的多RIS部署资源分配问题且具有良好的性能表现,具有重要的研究意义。
发明内容
针对多小区蜂窝环境中部署多个RIS场景的资源分配问题,本发明主要目的是提供一种基于MADDPG的多RIS通信网络速率提升方法,通过优化得到最优的BS预编码器和RIS反射波束形成器,为该场景提供最大化的数据传输和速率。
本发明的目的是通过以下技术方案实现的:
本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,通过遍历所有用户,表述用户接收信号、信干噪比以及信号干扰参数;以各小区基站作为深度强化学习的智能体,以各小区用户和速率以及WiFi接入点信号干扰作为智能体的状态模型,以各小区RIS反射系数以及BS与用户间的波束赋形矢量作为智能体的动作模型,以各小区用户和速率表述奖励模型,构建深度强化中多模型目标状态预测模型;对预测模型采用多智能体深度确定性策略梯度方法进行学习与更新直至奖励收敛,将收敛时的系统参数应用于多小区蜂窝下行通信场景中,进一步提升该场景用户数据传输和速率。
本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,包含以下步骤:
步骤一:遍历所有小区的UE以及AP,分别计算UE在时刻t的接收信号、信干噪比和AP在多小区通信系统中在时刻t受到的干扰,并建立优化模型,具体包括如下子步骤:
步骤1.1遍历所有UE,计算多小区蜂窝通信系统中所有UE在时刻t的接收信号和信干噪比,具体为:遍历(l,k),计算各小区中所有UE在时刻t的接收信号和信干噪比;
其中,UE(l,k)在时刻t接收到的信号,记为y(l,k)[t];UE(l,k)在时刻t的信干噪比,记为SINR(l,k)[t];k的取值范围为1到Kl;t表示时间变量;
其中,UE(l,k)在时刻t接收到的信号如式(1)所示:
Figure BDA0003555521090000021
其中,
Figure BDA0003555521090000022
代表RIS在时刻t的反射系数矩阵,
Figure BDA0003555521090000023
表示维度大小为N×N的复数集合,具体表示为
Figure BDA0003555521090000024
β(r,1),...,β(r,N)∈[0,1]为第r个RIS各元素的幅度反射系数,θ(r,1),...,θ(r,N)∈[0,2π)为RIS各元素的相位偏移,j为虚数单位;
Figure BDA0003555521090000025
表示第l个小区的BS和第r个RIS之间的信道,
Figure BDA0003555521090000031
表示第i个小区的BS和第l个小区的第k个用户UE(l,k)之间的信道,
Figure BDA0003555521090000032
表示维度大小为1×M的复数集合;
Figure BDA0003555521090000033
表示第l个小区的BS和第r个RIS之间的信道,
Figure BDA0003555521090000034
表示维度大小为N×M的复数集合;
Figure BDA0003555521090000035
表示第r个RIS和第l个小区的第k个用户UE(l,k)之间的信道,
Figure BDA0003555521090000036
表示维度大小为1×N的复数集合;其中,l∈{1,...,L},r∈{1,...,R},k∈{1,...,Kl};w(l,k)[t]表示第l个小区内的BS与第l个小区内第k个UE间在时刻t的波束赋形向量,w(l,p)[t]表示第l个小区内的BS与第l个小区内第p个UE间在时刻t的波束赋形向量,其中p∈{1,...,Kl};w(i,p)[t]表示第i个小区内的BS与第i个小区内第q个UE在时刻t的的波束赋形向量,其中q∈{1,...,Ki};x(l,k)[t]表示第l个小区内第k个UE在时刻t的符号,x(l,p)[t]表示第l个小区内第p个UE在时刻t的符号,x(i,p)[t]表示第i个小区内第p个UE在时刻t的符号,且每个UE的符号具有单位功率,即:E[|x(l,k)[t]|2]=1,k=1,...,K;第l个小区内,BS向Kl个UE发送的信号为
Figure BDA0003555521090000037
Figure BDA0003555521090000038
表示维度大小为Kl×1的复数集合;
s(a,b)[t]为第a个小区内第b个AP在时刻t的信号,且所有s(a,b)[t]的功率相同,均为
Figure BDA0003555521090000039
其中a∈{1,...,L},b∈{1,...,Ja};
Figure BDA00035555210900000310
表示第a个小区内第b个AP与第l个小区内第k个UE之间的信道,
Figure BDA00035555210900000311
表示维度大小为1×1的复数集合;
Figure BDA00035555210900000312
表示第a个小区内第b个AP与第r个RIS之间的信道;n(l,k)[t]表示为第l个小区内第k个UE在时刻t的高斯白噪声,满足
Figure BDA00035555210900000313
其中,
Figure BDA00035555210900000314
代表复高斯分布,
Figure BDA00035555210900000315
是该高斯分布的方差;第l个小区内第k个UE在时刻t的信干噪比用式(2)表示:
Figure BDA00035555210900000316
其中,
Figure BDA00035555210900000317
表示UE(l,k)在时刻t接收到的信号中的有效部分;
Figure BDA00035555210900000318
表示UE(l,k)在时刻t接收到的信号中所有小区内其余UE对于UE(l,k)的干扰;
Figure BDA00035555210900000319
表示UE(l,k)在时刻t接收到的信号中所有小区内所有AP对于UE(l,k)的干扰;
其中,信干噪比,即signal-to-interference-noise-ratio,SINR;
步骤1.2遍历所有小区内的所有AP,得到所有AP在多小区通信系统中在时刻t受到的干扰,具体为:
Figure BDA0003555521090000041
其中,
Figure BDA0003555521090000042
表示第a个小区的BS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;
Figure BDA0003555521090000043
表示第r个RIS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;
Figure BDA0003555521090000044
表示第a个小区的BS和第r个RIS之间的信道;其中,j∈{1,...,Jl};
步骤1.3基于步骤1.1计算的接收信号、信干噪比以及步骤1.2得到的干扰,构造以最大化多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型,具体通过公式(4)所示的优化模型构造:
Figure BDA0003555521090000045
其中,t表示时间变量,Ith表示AP受到来自多小区蜂窝通信系统干扰的最大阈值,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足
Figure BDA0003555521090000047
Tr(Wl[t](Wl[t])H)表示Wl[t]的功率,P表示Wl[t]的最大功率阈值,上标H代表对矩阵的共轭转置变换;
公式(4)是以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值,所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件,以提升多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型;
步骤二:根据步骤1.3中式(4)确定的优化模型,以各小区BS作为深度强化学习的智能体,确定状态模型、动作模型以及奖励模型,构建深度强化学习中多智能体目标状态预测模型,具体为:
步骤2.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型,具体为:
Figure BDA0003555521090000046
其中,t表示时间变量,l表示小区编号,Kl表示小区l内的UE总数,Jl表示小区l内的AP总数,k表示小区内UE的编号,j表示小区内AP的编号,sl[t]表示智能体l即第l个小区内的BS在t时刻的状态,Rl,k[t]=log2(1+SINR(l,k))表示第l个小区内的第k个UE在t时刻的数据传输速率,I(l,j)[t]表示第l个小区内的第j个AP在t时刻受到的干扰;
步骤2.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型,具体为:
Figure BDA0003555521090000051
其中,t表示时间变量,l表示小区编号,al[t]表示智能体l即第l个小区内的BS在t时刻的状态,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足
Figure BDA0003555521090000052
Θl[t]表示智能体l即第l个小区内的RIS在t时刻的反射系数矩阵(由于L=R,可以假设第l个小区内的RIS编号为r,且数值上l=r);
步骤2.3以各小区用户和速率表述奖励模型,具体为:
Figure BDA0003555521090000053
其中,t表示时间变量,l表示小区编号,Jl表示小区l内的AP总数,j表示小区内AP的编号;Rl[t]表示小区l内的所有UE的和速率,即
Figure BDA0003555521090000054
步骤三:根据深度强化学习中的多智能体深度确定性策略梯度方法,对步骤二得到的多智能体目标状态预测模型进行初始化操作,具体为:
步骤3.1分别以参数
Figure BDA0003555521090000055
Figure BDA0003555521090000056
随机初始化Actor当前网络
Figure BDA0003555521090000057
和Critic当前网络
Figure BDA0003555521090000058
其中,sl[t]是状态,al[t]是动作;
Figure BDA0003555521090000059
是Actor当前网络的参数;
Figure BDA00035555210900000510
是Critic当前网络的参数,l∈{1,...,L};
步骤3.2以参数
Figure BDA00035555210900000511
Figure BDA00035555210900000512
初始化Actor目标网络μl'和Critic目标网络Ql';
其中,
Figure BDA00035555210900000513
Figure BDA00035555210900000514
分别是目标网络μl'和Ql'的参数,
Figure BDA00035555210900000515
表示将
Figure BDA00035555210900000516
赋值给
Figure BDA00035555210900000517
Figure BDA00035555210900000518
表示将
Figure BDA00035555210900000519
赋值给
Figure BDA00035555210900000520
步骤3.3初始化每个智能体的经验回放集合
Figure BDA00035555210900000521
的容量D即mini-batch的大小并清空集合
Figure BDA00035555210900000522
设训练的episode总数为E;设t∈{1,...,T},其中T为每个episode采样时刻数;初始化衰减因子γ,软更新系数τ;
步骤四:使用深度强化学习中的多智能体深度确定性策略梯度方法,根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练,按顺序对于episode从1到E执行操作,有:基于高斯过程初始化最初的状态s[0]=[s1[0],...,sL[0]],并设置初始奖励
Figure BDA0003555521090000061
其中,下标l∈{1,...,L}表示第l个智能体;遍历所有的时刻t从0到T,具体为:
步骤4.1对于所有的智能体l∈{1,...,L},基于当前的动作在Actor当前网络(网络参数为
Figure BDA0003555521090000062
)选择对应的动作
Figure BDA0003555521090000063
步骤4.2执行所有智能体的动作a[t]=[a1[t],...,aL[t]],得到对应的奖励r[t]=[r1[t],...,rL[t]]以及下一状态s'[t]=[s'1[t],...,s'L[t]];
其中,下标l∈{1,...,L}表示第l个智能体,s'[t]是基于s[t]、a[t]的下一状态;
步骤4.3将四元组{s[t],a[t],r[t],s'[t]}存入经验回放集合
Figure BDA0003555521090000064
其中,s[t]=[s1[t],...,sL[t]]是时刻t所有智能体的状态,a[t]=[a1[t],...,aL[t]]是时刻t所有智能体的动作,r[t]=[r1[t],...,rL[t]]是时刻t所有智能体的奖励,s'[t]=[s'1[t],...,s'L[t]]是时刻t所有智能体的下一状态;
步骤4.4如果集合
Figure BDA0003555521090000065
当前大小小于D,则令s'[t]=s[t]后执行步骤4.2,否则执行步骤4.5;
步骤4.5对于所有的智能体l∈{1,...,L},进行如下步骤:
1)从经验回放集合
Figure BDA0003555521090000066
中随机抽取一小批个数为Z的样本{sz[t],az[t],rz[t],s'z[t]};其中,由采样得到的D个样本中第z个样本在时刻t对应的状态记为sz[t],且
Figure BDA0003555521090000067
第z个样本在时刻t对应的动作记为az[t],且
Figure BDA0003555521090000068
第z个样本在时刻t对应的奖励记为rz[t],且
Figure BDA0003555521090000069
第z个样本在时刻t对应的下一个状态记为s'z[t],且
Figure BDA00035555210900000610
z的取值范围满足z∈{1,...,Z};
2)使用Critic的目标网络计算当前目标Q值,即
Figure BDA00035555210900000611
其中,Ql'表示智能体l的Critic目标网络(参数
Figure BDA00035555210900000612
);a'l[t]是Actor的目标网络基于状态
Figure BDA00035555210900000613
得到的动作,其中l的取值范围为l∈{1,...,L};
3)通过最小化损失函数
Figure BDA00035555210900000614
更新Critic当前网络的参数;
其中,Ql表示智能体l的Critic目标网络(参数
Figure BDA00035555210900000615
);fz[t]是步骤2)中求得的当前目标Q值;
4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数
Figure BDA00035555210900000616
其中,l∈{1,...,L};Ql表示智能体l的Critic目标网络(参数
Figure BDA00035555210900000617
);μl表示智能体l的Critic目标网络(参数
Figure BDA0003555521090000071
);
Figure BDA0003555521090000072
表示智能体l的期望收益的梯度;
Figure BDA0003555521090000073
表示Actor当前网络
Figure BDA0003555521090000074
对参数
Figure BDA0003555521090000075
在状态sz[t]时求导;
Figure BDA0003555521090000076
表示Critic当前网络
Figure BDA0003555521090000077
对参数
Figure BDA0003555521090000078
在状态等于sz[t],动作
Figure BDA0003555521090000079
求导;
步骤4.6使用πμ′←τπμ+(1-τ)πμ′以及πQ′←τπQ+(1-τ)πQ′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数;
其中,τ表示更新参数;πμ′←τπμ+(1-τ)πμ′表示将τπμ+(1-τ)πμ′赋值给πμ′;πQ′←τπQ+(1-τ)πQ′表示将τπQ+(1-τ)πQ′赋值给πQ′;l∈{1,...,L};
步骤4.7更新状态s[t]=s[t+1];
步骤五:将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作,使得多小区蜂窝通信系统所有用户数据传输和速率提升,即总吞吐量得到提升。
有益效果:
1、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,考虑到多小区蜂窝通信系统中存在来自其他UE以及AP产生的干扰,基于MADDPG方法对于系统中存在来自其他UE以及AP产生的干扰进行了条件约束,从而较好地抑制上述干扰,实现系统用户之间的协调共存。
2、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,考虑到多小区蜂窝通信系统中所有用户数据传输和速率对于系统性能的影响,将最大化所有用户数据传输和速率作为优化目标,并通过MADDPG使用多次迭代的方法实现用户数据传输和速率即总吞吐量的最大化,使得系统用户数据传输方面吞吐量的性能得到提升。
3、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,通过采用深度强化学习中的MADDPG方法对多小区蜂窝系统的用户数据传输和速率即总吞吐量进行优化,实现系统用户的协调共存。
附图说明
图1为本发明一种基于MADDPG的多RIS通信网络速率提升方法多小区蜂窝通信系统模型场景图;
图2为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例中各小区BS、RIS、UE、AP分布场景图;
图3为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例中基于MADDPG的多RIS通信网络速率提升方法所有小区UE和速率收敛结果图;
图4为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例本发明提出的方法、无RIS方法以及随机RIS方法的性能对比结果图。
具体实施方式
下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
实施例1
实施例1的场景为存在2个小区的蜂窝通信系统,每个小区内部部署一个配备4根发射天线的BS,一个包含8个反射单元的RIS,以及4个UE和2个活跃WiFi用户AP;其中,两个小区的BS之间的距离为100m,每个小区的RIS分布在以小区内的BS为圆心,5–10米为半径的范围内,每个小区的UE与AP分布方式为在以小区内的BS为圆心,10–50米为半径的范围内均匀分布。高斯白噪声满足方差
Figure BDA0003555521090000081
WiFi用户受到的来自异构网络的干扰最大阈值Ith=-20dbm;波束赋形矢量Wl[t],l∈{1,2}功率最大阈值P=8W。
本实施例公开的一种基于MADDPG的多RIS通信网络速率提升方法,具体操作流程如下:
步骤A:遍历2个小区共8UE以及4个AP,根据式(1)(2)(3)分别计算UE在时刻t的接收信号、信干噪比和AP在多小区通信系统中在时刻t受到的干扰,并建立以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值,所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件,以提升多小区蜂窝通信系统中所有UE数据传输和速率为优化目标的优化模型(4);
步骤B:根据步骤一中式(4)确定的优化模型,以各小区BS作为深度强化学习的智能体,确定状态模型、动作模型以及奖励模型,构建深度强化学习中多智能体目标状态预测模型,具体为:
步骤B.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型,表述为式(5);
步骤B.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型,表述为式(6);
步骤B.3以各小区用户和速率表述奖励模型(7);
步骤C:根据深度强化学习中的多智能体深度确定性策略梯度方法,对步骤二得到的多智能体目标状态预测模型进行初始化操作,具体为:
步骤C.1分别以参数
Figure BDA0003555521090000091
Figure BDA0003555521090000092
随机初始化Actor当前网络
Figure BDA0003555521090000093
和Critic当前网络
Figure BDA0003555521090000094
其中,sl[t]是状态,al[t]是动作;
Figure BDA0003555521090000095
是Actor当前网络的参数;
Figure BDA0003555521090000096
是Critic当前网络的参数,l∈{1,...,L};
步骤C.2以参数
Figure BDA0003555521090000097
Figure BDA0003555521090000098
初始化Actor目标网络μl'和Critic目标网络Ql';
其中,
Figure BDA0003555521090000099
Figure BDA00035555210900000910
分别是目标网络μl'和Ql'的参数,
Figure BDA00035555210900000911
表示将
Figure BDA00035555210900000912
赋值给
Figure BDA00035555210900000913
Figure BDA00035555210900000914
表示将
Figure BDA00035555210900000915
赋值给
Figure BDA00035555210900000916
步骤C.3初始化每个智能体的经验回放集合
Figure BDA00035555210900000917
的容量D即mini-batch的大小并清空集合
Figure BDA00035555210900000918
设训练的episode总数为E;设t∈{1,...,T},其中T为每个episode采样时刻数;初始化衰减因子γ,软更新系数τ;
步骤D:使用深度强化学习中的多智能体深度确定性策略梯度方法,根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练,按顺序对于episode从1到E执行操作,有:基于高斯过程初始化最初的状态s[0]=[s1[0],...,sL[0]],并设置初始奖励
Figure BDA00035555210900000919
其中,下标l∈{1,...,L}表示第l个智能体;遍历所有的时刻t从0到T,具体为:
步骤D.1对于所有的智能体l∈{1,...,L},基于当前的动作在Actor当前网络(网络参数为
Figure BDA00035555210900000920
)选择对应的动作
Figure BDA00035555210900000921
步骤D.2执行所有智能体的动作a[t]=[a1[t],...,aL[t]],得到对应的奖励r[t]=[r1[t],...,rL[t]]以及下一状态s'[t]=[s'1[t],...,s'L[t]];
其中,下标l∈{1,...,L}表示第l个智能体,s'[t]是基于s[t]、a[t]的下一状态;
步骤D.3将四元组{s[t],a[t],r[t],s'[t]}存入经验回放集合
Figure BDA00035555210900000922
其中,s[t]=[s1[t],...,sL[t]]是时刻t所有智能体的状态,a[t]=[a1[t],...,aL[t]]是时刻t所有智能体的动作,r[t]=[r1[t],...,rL[t]]是时刻t所有智能体的奖励,s'[t]=[s'1[t],...,s'L[t]]是时刻t所有智能体的下一状态;
步骤D.4如果集合
Figure BDA00035555210900000923
当前大小小于D,则令s'[t]=s[t]后执行步骤D.2,否则执行步骤D.5;
步骤D.5对于所有的智能体l∈{1,...,L},进行如下步骤:
1)从经验回放集合
Figure BDA00035555210900000924
中随机抽取一小批个数为Z的样本{sz[t],az[t],rz[t],s'z[t]};
其中,由采样得到的D个样本中第z个样本在时刻t对应的状态记为sz[t],且
Figure BDA00035555210900000925
第z个样本在时刻t对应的动作记为az[t],且
Figure BDA00035555210900000926
第z个样本在时刻t对应的奖励记为rz[t],且
Figure BDA0003555521090000101
第z个样本在时刻t对应的下一个状态记为s'z[t],且
Figure BDA0003555521090000102
z的取值范围满足z∈{1,...,Z};
2)使用Critic的目标网络计算当前目标Q值,即
Figure BDA0003555521090000103
其中,Ql'表示智能体l的Critic目标网络(参数
Figure BDA0003555521090000104
);a'l[t]是Actor的目标网络基于状态
Figure BDA0003555521090000105
得到的动作,其中l的取值范围为l∈{1,...,L};
3)通过最小化损失函数
Figure BDA0003555521090000106
更新Critic当前网络的参数;
其中,Ql表示智能体l的Critic目标网络(参数
Figure BDA0003555521090000107
);fz[t]是步骤2)中求得的当前目标Q值;
4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数
Figure BDA0003555521090000108
其中,l∈{1,...,L};Ql表示智能体l的Critic目标网络(参数
Figure BDA0003555521090000109
);μl表示智能体l的Critic目标网络(参数
Figure BDA00035555210900001010
);
Figure BDA00035555210900001011
表示智能体l的期望收益的梯度;
Figure BDA00035555210900001012
表示Actor当前网络
Figure BDA00035555210900001013
对参数
Figure BDA00035555210900001014
在状态sz[t]时求导;
Figure BDA00035555210900001015
表示Critic当前网络
Figure BDA00035555210900001016
对参数
Figure BDA00035555210900001017
在状态等于sz[t],动作
Figure BDA00035555210900001018
求导;
步骤D.6使用πμ′←τπμ+(1-τ)πμ′以及πQ′←τπQ+(1-τ)πQ′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数;
其中,τ表示更新参数;πμ′←τπμ+(1-τ)πμ′表示将τπμ+(1-τ)πμ′赋值给πμ′;πQ′←τπQ+(1-τ)πQ′表示将τπQ+(1-τ)πQ′赋值给πQ′;l∈{1,...,L};
步骤D.7更新状态s[t]=s[t+1];
步骤E:将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作,使得多小区蜂窝通信系统所有用户数据传输和速率得到提升;
从步骤A到步骤E,完成了本实施例1中基于MADDPG的多RIS通信网络速率提升方法。
对实施例1基于图2本发明具体实施例中各小区BS、RIS、UE、AP分布场景图以及上述步骤A到步骤E进行仿真,得到基于MADDPG的多RIS通信网络速率提升方法下的UE和速率,对应于图3本发明“一种基于MADDPG的多RIS通信网络速率提升方法”具体实施例中基于MADDPG的多RIS通信网络速率提升方法所有小区UE和速率收敛结果图;将本发明提出的方法、无RIS方法以及随机RIS方法两种对比方法进行比对分析,得到图4本发明“一种基于MADDPG的多RIS通信网络速率提升方法”具体实施例中本发明提出的方法、无RIS方法以及随机RIS方法的性能对比结果图。
从图3可以看出,一种基于MADDPG的多RIS通信网络速率提升方法的多小区蜂窝通信系统中UE的数据传输和速率在迭代一定次数后收敛,并且平均奖励稳定于850附近,此结果表明,对实施例1应用本发明提出的基于MADDPG的多RIS通信网络速率提升方法,能够使得多小区蜂窝通信系统的UE数据传输和速率可以达到1.2Gbps以上,得到了极大提升;从图4可以看出,相比于无RIS以及随机RIS两种对比方法,本发明提出的方法使得用户数据传输和速率得到极大增加。因此,本发明提出的基于MADDPG的多RIS通信网络速率提升方法能够大大提升多小区蜂窝系统的用户数据传输和速率,实现系统用户的协调共存。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:包括如下步骤,
步骤一:遍历所有小区的UE以及AP,分别计算UE在时刻的接收信号、信干噪比和AP在多小区通信系统中在时刻受到的干扰,并建立优化模型;
步骤二:根据步骤一确定的优化模型,以各小区BS作为深度强化学习的智能体,确定状态模型、动作模型以及奖励模型,构建深度强化学习中多智能体目标状态预测模型;
步骤三:根据深度强化学习中的多智能体深度确定性策略梯度方法,对步骤二得到的多智能体目标状态预测模型进行初始化操作;
步骤四:使用深度强化学习中的多智能体深度确定性策略梯度方法,根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练,按顺序对于episode从1到E执行操作,有:基于高斯过程初始化最初的状态s[0]=[s1[0],...,sL[0]],并设置初始奖励
Figure FDA0003555521080000011
其中,下标l∈{1,...,L}表示第l个智能体;遍历所有的时刻t从0到T;
步骤五:将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作,使得多小区蜂窝通信系统所有用户数据传输和速率即总吞吐量得到提升。
2.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤一的实现方法为,
步骤1.1遍历所有UE,计算多小区蜂窝通信系统中所有UE在时刻t的接收信号和信干噪比,具体为:遍历(l,k),计算各小区中所有UE在时刻t的接收信号和信干噪比;
其中,UE(l,k)在时刻t接收到的信号,记为y(l,k)[t];UE(l,k)在时刻t的信干噪比,记为SINR(l,k)[t];k的取值范围为1到Kl;t表示时间变量;
其中,UE(l,k)在时刻t接收到的信号如式(1)所示:
Figure FDA0003555521080000012
其中,
Figure FDA0003555521080000013
代表RIS在时刻t的反射系数矩阵,
Figure FDA0003555521080000014
表示维度大小为N×N的复数集合,具体表示为
Figure FDA0003555521080000015
β(r,1),...,β(r,N)∈[0,1]为第r个RIS各元素的幅度反射系数,θ(r,1),...,θ(r,N)∈[0,2π)为RIS各元素的相位偏移,j为虚数单位;
Figure FDA0003555521080000021
表示第l个小区的BS和第r个RIS之间的信道,
Figure FDA0003555521080000022
表示第i个小区的BS和第l个小区的第k个用户UE(l,k)之间的信道,
Figure FDA0003555521080000023
表示维度大小为1×M的复数集合;
Figure FDA0003555521080000024
表示第l个小区的BS和第r个RIS之间的信道,
Figure FDA0003555521080000025
表示维度大小为N×M的复数集合;
Figure FDA0003555521080000026
表示第r个RIS和第l个小区的第k个用户UE(l,k)之间的信道,
Figure FDA0003555521080000027
表示维度大小为1×N的复数集合;其中,l∈{1,...,L},r∈{1,...,R},k∈{1,...,Kl};w(l,k)[t]表示第l个小区内的BS与第l个小区内第k个UE间在时刻t的波束赋形向量,w(l,p)[t]表示第l个小区内的BS与第l个小区内第p个UE间在时刻t的波束赋形向量,其中p∈{1,...,Kl};w(i,p)[t]表示第i个小区内的BS与第i个小区内第q个UE在时刻t的的波束赋形向量,其中q∈{1,...,Ki};x(l,k)[t]表示第l个小区内第k个UE在时刻t的符号,x(l,p)[t]表示第l个小区内第p个UE在时刻t的符号,x(i,p)[t]表示第i个小区内第p个UE在时刻t的符号,且每个UE的符号具有单位功率,即:E[|x(l,k)[t]|2]=1,k=1,...,K;第l个小区内,BS向Kl个UE发送的信号为
Figure FDA0003555521080000028
Figure FDA0003555521080000029
表示维度大小为Kl×1的复数集合;
s(a,b)[t]为第a个小区内第b个AP在时刻t的信号,且所有s(a,b)[t]的功率相同,均为
Figure FDA00035555210800000210
其中a∈{1,...,L},b∈{1,...,Ja};
Figure FDA00035555210800000211
表示第a个小区内第b个AP与第l个小区内第k个UE之间的信道,
Figure FDA00035555210800000212
表示维度大小为1×1的复数集合;
Figure FDA00035555210800000213
表示第a个小区内第b个AP与第r个RIS之间的信道;n(l,k)[t]表示为第l个小区内第k个UE在时刻t的高斯白噪声,满足
Figure FDA00035555210800000214
其中,
Figure FDA00035555210800000215
代表复高斯分布,
Figure FDA00035555210800000216
是该高斯分布的方差;第l个小区内第k个UE在时刻t的信干噪比用式(2)表示:
Figure FDA00035555210800000217
其中,
Figure FDA00035555210800000218
表示UE(l,k)在时刻t接收到的信号中的有效部分;
Figure FDA00035555210800000219
表示UE(l,k)在时刻t接收到的信号中所有小区内其余UE对于UE(l,k)的干扰;
Figure FDA00035555210800000220
表示UE(l,k)在时刻t接收到的信号中所有小区内所有AP对于UE(l,k)的干扰;
其中,信干噪比,即signal-to-interference-noise-ratio,SINR;
步骤1.2遍历所有小区内的所有AP,得到所有AP在多小区通信系统中在时刻t受到的干扰,具体为:
Figure FDA0003555521080000031
其中,
Figure FDA0003555521080000032
表示第a个小区的BS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;
Figure FDA0003555521080000033
表示第r个RIS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;
Figure FDA0003555521080000034
表示第a个小区的BS和第r个RIS之间的信道;其中,j∈{1,...,Jl};
步骤1.3基于步骤1.1计算的接收信号、信干噪比以及步骤1.2得到的干扰,构造以最大化多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型,具体通过公式(4)所示的优化模型构造:
Figure FDA0003555521080000035
其中,t表示时间变量,Ith表示AP受到来自多小区蜂窝通信系统干扰的最大阈值,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足
Figure FDA0003555521080000037
Tr(Wl[t](Wl[t])H)表示Wl[t]的功率,P表示Wl[t]的最大功率阈值,上标H代表对矩阵的共轭转置变换;
公式(4)是以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值,所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件,以提升多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型。
3.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤二的实现方法为,
步骤2.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型,具体为:
Figure FDA0003555521080000036
其中,t表示时间变量,l表示小区编号,Kl表示小区l内的UE总数,Jl表示小区l内的AP总数,k表示小区内UE的编号,j表示小区内AP的编号,sl[t]表示智能体l即第l个小区内的BS在t时刻的状态,Rl,k[t]=log2(1+SINR(l,k))表示第l个小区内的第k个UE在t时刻的数据传输速率,I(l,j)[t]表示第l个小区内的第j个AP在t时刻受到的干扰;
步骤2.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型,具体为:
Figure FDA0003555521080000041
其中,t表示时间变量,l表示小区编号,al[t]表示智能体l即第l个小区内的BS在t时刻的状态,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足
Figure FDA00035555210800000422
Θl[t]表示智能体l即第l个小区内的RIS在t时刻的反射系数矩阵;
步骤2.3以各小区用户和速率表述奖励模型,具体为:
Figure FDA0003555521080000042
其中,t表示时间变量,l表示小区编号,Jl表示小区l内的AP总数,j表示小区内AP的编号;Rl[t]表示小区l内的所有UE的和速率,即
Figure FDA0003555521080000043
4.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤三的实现方法为,
步骤3.1分别以参数
Figure FDA0003555521080000044
Figure FDA0003555521080000045
随机初始化Actor当前网络
Figure FDA0003555521080000046
和Critic当前网络
Figure FDA0003555521080000047
其中,sl[t]是状态,al[t]是动作;
Figure FDA0003555521080000048
是Actor当前网络的参数;
Figure FDA0003555521080000049
是Critic当前网络的参数,l∈{1,...,L};
步骤3.2以参数
Figure FDA00035555210800000410
Figure FDA00035555210800000411
初始化Actor目标网络μl'和Critic目标网络Ql';
其中,
Figure FDA00035555210800000412
Figure FDA00035555210800000413
分别是目标网络μl'和Ql'的参数,
Figure FDA00035555210800000414
表示将
Figure FDA00035555210800000415
赋值给
Figure FDA00035555210800000416
Figure FDA00035555210800000417
表示将
Figure FDA00035555210800000418
赋值给
Figure FDA00035555210800000419
步骤3.3初始化每个智能体的经验回放集合
Figure FDA00035555210800000420
的容量D即mini-batch的大小并清空集合
Figure FDA00035555210800000421
设训练的episode总数为E;设t∈{1,...,T},其中T为每个episode采样时刻数;初始化衰减因子γ,软更新系数τ。
5.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤四的实现方法为,
步骤4.1对于所有的智能体l∈{1,...,L},基于当前的动作在Actor当前网络(网络参数为
Figure FDA0003555521080000051
)选择对应的动作
Figure FDA0003555521080000052
步骤4.2执行所有智能体的动作a[t]=[a1[t],...,aL[t]],得到对应的奖励r[t]=[r1[t],...,rL[t]]以及下一状态s'[t]=[s'1[t],...,s'L[t]];
其中,下标l∈{1,...,L}表示第l个智能体,s'[t]是基于s[t]、a[t]的下一状态;
步骤4.3将四元组{s[t],a[t],r[t],s'[t]}存入经验回放集合
Figure FDA0003555521080000053
其中,s[t]=[s1[t],...,sL[t]]是时刻t所有智能体的状态,a[t]=[a1[t],...,aL[t]]是时刻t所有智能体的动作,r[t]=[r1[t],...,rL[t]]是时刻t所有智能体的奖励,s'[t]=[s'1[t],...,s'L[t]]是时刻t所有智能体的下一状态;
步骤4.4如果集合
Figure FDA0003555521080000054
当前大小小于D,则令s'[t]=s[t]后执行步骤4.2,否则执行步骤4.5;
步骤4.5对于所有的智能体l∈{1,...,L},进行如下步骤:
1)从经验回放集合
Figure FDA0003555521080000055
中随机抽取一小批个数为Z的样本{sz[t],az[t],rz[t],s'z[t]};
其中,由采样得到的D个样本中第z个样本在时刻t对应的状态记为sz[t],且
Figure FDA0003555521080000056
第z个样本在时刻t对应的动作记为az[t],且
Figure FDA0003555521080000057
第z个样本在时刻t对应的奖励记为rz[t],且
Figure FDA0003555521080000058
第z个样本在时刻t对应的下一个状态记为s'z[t],且
Figure FDA0003555521080000059
z的取值范围满足z∈{1,...,Z};
2)使用Critic的目标网络计算当前目标Q值,即
Figure FDA00035555210800000510
其中,Ql'表示智能体l的Critic目标网络(参数
Figure FDA00035555210800000511
);a'l[t]是Actor的目标网络基于状态
Figure FDA00035555210800000512
得到的动作,其中l的取值范围为l∈{1,...,L};
3)通过最小化损失函数
Figure FDA00035555210800000513
更新Critic当前网络的参数;
其中,Ql表示智能体l的Critic目标网络(参数
Figure FDA00035555210800000514
);fz[t]是步骤2)中求得的当前目标Q值;
4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数
Figure FDA00035555210800000515
其中,l∈{1,...,L};Ql表示智能体l的Critic目标网络(参数
Figure FDA00035555210800000516
);μl表示智能体l的Critic目标网络(参数
Figure FDA00035555210800000517
);
Figure FDA00035555210800000518
表示智能体l的期望收益的梯度;
Figure FDA00035555210800000519
表示Actor当前网络
Figure FDA00035555210800000520
对参数
Figure FDA00035555210800000521
在状态sz[t]时求导;
Figure FDA0003555521080000061
表示Critic当前网络
Figure FDA0003555521080000062
对参数
Figure FDA0003555521080000063
在状态等于sz[t],动作
Figure FDA0003555521080000064
求导;
步骤4.6使用πμ′←τπμ+(1-τ)πμ′以及πQ′←τπQ+(1-τ)πQ′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数;
其中,τ表示更新参数;πμ′←τπμ+(1-τ)πμ′表示将τπμ+(1-τ)πμ′赋值给πμ′;πQ′←τπQ+(1-τ)πQ′表示将τπQ+(1-τ)πQ′赋值给πQ′;l∈{1,...,L};
步骤4.7更新状态s[t]=s[t+1]。
CN202210348032.5A 2022-03-21 2022-03-21 一种基于maddpg的多ris通信网络速率提升方法 Pending CN114727318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210348032.5A CN114727318A (zh) 2022-03-21 2022-03-21 一种基于maddpg的多ris通信网络速率提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210348032.5A CN114727318A (zh) 2022-03-21 2022-03-21 一种基于maddpg的多ris通信网络速率提升方法

Publications (1)

Publication Number Publication Date
CN114727318A true CN114727318A (zh) 2022-07-08

Family

ID=82242365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210348032.5A Pending CN114727318A (zh) 2022-03-21 2022-03-21 一种基于maddpg的多ris通信网络速率提升方法

Country Status (1)

Country Link
CN (1) CN114727318A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278736A (zh) * 2022-07-25 2022-11-01 暨南大学 一种基于可重构智能表面的同时同频全双工通信组网方案

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278736A (zh) * 2022-07-25 2022-11-01 暨南大学 一种基于可重构智能表面的同时同频全双工通信组网方案
CN115278736B (zh) * 2022-07-25 2023-09-26 暨南大学 一种基于可重构智能表面的同时同频全双工通信组网方案

Similar Documents

Publication Publication Date Title
CN111901862B (zh) 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN109474980A (zh) 一种基于深度增强学习的无线网络资源分配方法
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
CN113691295B (zh) 一种基于irs的异构网络中干扰抑制方法
CN113596785A (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN111901812A (zh) 一种全双工蜂窝通信网基站和智慧反射面联合控制方法
CN106231665A (zh) 数能一体化网络中基于rrh动态模式切换的资源分配方法
CN114727318A (zh) 一种基于maddpg的多ris通信网络速率提升方法
CN111277308A (zh) 基于机器学习的波宽控制方法
Jiang et al. Distributed inter-cell interference coordination for small cell wireless communications: A multi-agent deep Q-learning approach
CN116684851A (zh) 基于mappo的多ris辅助车联网吞吐量提升方法
CN116981091A (zh) 一种星地融合网络资源分配方法
CN114745032B (zh) 一种无蜂窝大规模mimo智能分布式波束选择方法
CN115334524B (zh) 一种基于全向智能超表面的通信和雷达目标检测方法
CN113595609B (zh) 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法
Cui et al. Hierarchical learning approach for age-of-information minimization in wireless sensor networks
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
CN114364034A (zh) 基于drl的ris辅助用户中心化去蜂窝系统中资源管理半并行方法
Jiang et al. Active sensing for two-sided beam alignment using ping-pong pilots
You et al. Distributed Deep Learning for RIS Aided UAV-D2D Communications in Space-Air-Ground Networks
CN116112941B (zh) 一种多ris辅助的无线网络覆盖优化方法与装置
CN113783593B (zh) 一种基于深度强化学习的波束选择方法和系统
CN116614826B (zh) 一种同时传输和反射表面网络的覆盖和容量优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination