CN114727318A - 一种基于maddpg的多ris通信网络速率提升方法 - Google Patents
一种基于maddpg的多ris通信网络速率提升方法 Download PDFInfo
- Publication number
- CN114727318A CN114727318A CN202210348032.5A CN202210348032A CN114727318A CN 114727318 A CN114727318 A CN 114727318A CN 202210348032 A CN202210348032 A CN 202210348032A CN 114727318 A CN114727318 A CN 114727318A
- Authority
- CN
- China
- Prior art keywords
- cell
- time
- ris
- agent
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/06—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
- H04B7/0613—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
- H04B7/0615—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
- H04B7/0617—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
- H04L41/083—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for increasing network speed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,属于无线通信中的频谱资源分配技术领域。针对多小区下行场景中的多RIS部署资源分配问题,本发明通过遍历所有用户,表述用户接收信号、信干噪比以及信号干扰参数;以各小区基站作为深度强化学习的智能体,以用户和速率及WiFi接入点信号干扰作为状态,以RIS反射系数以及BS与用户间的波束赋形矢量作为动作,以用户和速率表述奖励,构建目标状态预测模型;对预测模型采用MADDPG方法进行学习与更新直至奖励收敛,收敛时的系统参数能够应用于多小区通信场景中。本发明可应用于应急通信和军事通信等领域,用以提供最大化的数据传输和速率。
Description
技术领域
本发明涉及一种基于MADDPG的多RIS通信网络速率提升方法,属于无线通信中的频谱资源分配技术领域。
背景技术
第五代移动通信(the fifth generation mobile communication,5G)网络设备大规模的接入,使得无线传输过程功耗急剧增加,因此如何实现高速率、低功耗的数据传输将成为未来网络发展的关键。
智能反射面(Reconfigurable Intelligent Surface,RIS)是一种由带有控制单元的无源反射元件组成的大规模天线阵列,其中每个元件都能够独立地使入射信号产生一定的相移,从而协同改变反射信号的传播。它通过提供可控制通信信道的突变相移来控制入射信号的传播。与通过放大和再生信号来辅助源-目的传输的放大转发(amplify-and-forward,AF)中继相比,RIS不使用发射模块,只是将接收到的信号反射为无源阵列,因此不消耗发射功率。此外,RIS主要用于提高现有的通信链路性能,而不是通过反射传递自身信息。反向散射通信中的直接路径信号属于干扰信号,一般需要在接收器上得到抑制或者消除,而在RIS增强通信中,直接路径和反射路径信号都携带有相同的有用信息,因此可以在接收器上相干叠加,从而最大限度地提高总接收功率和通信网络的传输速率。
RIS作为无源全双工元器件,不但能耗极低,而且全双工模式时其频谱效率较高,并且不存在自干扰,反射过程不进行信息干扰。由于RIS接受或者反射发送时不需要进行信息处理,提高了传输效率。与其他有源智能表面相比,具有成本低、功耗低、安装灵活等优势,对于未来的应急通信和军事通信等领域的应用具有重要的研究意义。
目前相关研究主要集中于单小区蜂窝通信系统的RIS辅助通信,具体研究包括服务质量(QoS)约束发射功率最小化和加权和速率最大化,以获得下行链路中的基站波束形成器和RIS反射波束形成器或RIS预编码器的最优设计。现实场景下,多小区多RIS的蜂窝通信系统更加具有推广价值,但由于控制多个RIS所涉及的优化复杂性增加,多小区下行场景中的多RIS部署尚未得到充分建模和研究。
近年来,随着人工智能技术的发展,一些机器学习方法被逐渐应用到资源分配问题之中,且具有较好的性能表现,例如Q-learning、deep Q network(DQN)等方法。多智能体深度确定性策略梯度(MADDPG)方法能够用于解决多小区下行场景中的多RIS部署资源分配问题且具有良好的性能表现,具有重要的研究意义。
发明内容
针对多小区蜂窝环境中部署多个RIS场景的资源分配问题,本发明主要目的是提供一种基于MADDPG的多RIS通信网络速率提升方法,通过优化得到最优的BS预编码器和RIS反射波束形成器,为该场景提供最大化的数据传输和速率。
本发明的目的是通过以下技术方案实现的:
本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,通过遍历所有用户,表述用户接收信号、信干噪比以及信号干扰参数;以各小区基站作为深度强化学习的智能体,以各小区用户和速率以及WiFi接入点信号干扰作为智能体的状态模型,以各小区RIS反射系数以及BS与用户间的波束赋形矢量作为智能体的动作模型,以各小区用户和速率表述奖励模型,构建深度强化中多模型目标状态预测模型;对预测模型采用多智能体深度确定性策略梯度方法进行学习与更新直至奖励收敛,将收敛时的系统参数应用于多小区蜂窝下行通信场景中,进一步提升该场景用户数据传输和速率。
本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,包含以下步骤:
步骤一:遍历所有小区的UE以及AP,分别计算UE在时刻t的接收信号、信干噪比和AP在多小区通信系统中在时刻t受到的干扰,并建立优化模型,具体包括如下子步骤:
步骤1.1遍历所有UE,计算多小区蜂窝通信系统中所有UE在时刻t的接收信号和信干噪比,具体为:遍历(l,k),计算各小区中所有UE在时刻t的接收信号和信干噪比;
其中,UE(l,k)在时刻t接收到的信号,记为y(l,k)[t];UE(l,k)在时刻t的信干噪比,记为SINR(l,k)[t];k的取值范围为1到Kl;t表示时间变量;
其中,UE(l,k)在时刻t接收到的信号如式(1)所示:
其中,代表RIS在时刻t的反射系数矩阵,表示维度大小为N×N的复数集合,具体表示为β(r,1),...,β(r,N)∈[0,1]为第r个RIS各元素的幅度反射系数,θ(r,1),...,θ(r,N)∈[0,2π)为RIS各元素的相位偏移,j为虚数单位;表示第l个小区的BS和第r个RIS之间的信道,表示第i个小区的BS和第l个小区的第k个用户UE(l,k)之间的信道,表示维度大小为1×M的复数集合;表示第l个小区的BS和第r个RIS之间的信道,表示维度大小为N×M的复数集合;表示第r个RIS和第l个小区的第k个用户UE(l,k)之间的信道,表示维度大小为1×N的复数集合;其中,l∈{1,...,L},r∈{1,...,R},k∈{1,...,Kl};w(l,k)[t]表示第l个小区内的BS与第l个小区内第k个UE间在时刻t的波束赋形向量,w(l,p)[t]表示第l个小区内的BS与第l个小区内第p个UE间在时刻t的波束赋形向量,其中p∈{1,...,Kl};w(i,p)[t]表示第i个小区内的BS与第i个小区内第q个UE在时刻t的的波束赋形向量,其中q∈{1,...,Ki};x(l,k)[t]表示第l个小区内第k个UE在时刻t的符号,x(l,p)[t]表示第l个小区内第p个UE在时刻t的符号,x(i,p)[t]表示第i个小区内第p个UE在时刻t的符号,且每个UE的符号具有单位功率,即:E[|x(l,k)[t]|2]=1,k=1,...,K;第l个小区内,BS向Kl个UE发送的信号为且表示维度大小为Kl×1的复数集合;
s(a,b)[t]为第a个小区内第b个AP在时刻t的信号,且所有s(a,b)[t]的功率相同,均为其中a∈{1,...,L},b∈{1,...,Ja};表示第a个小区内第b个AP与第l个小区内第k个UE之间的信道,表示维度大小为1×1的复数集合;表示第a个小区内第b个AP与第r个RIS之间的信道;n(l,k)[t]表示为第l个小区内第k个UE在时刻t的高斯白噪声,满足其中,代表复高斯分布,是该高斯分布的方差;第l个小区内第k个UE在时刻t的信干噪比用式(2)表示:
其中,
表示UE(l,k)在时刻t接收到的信号中所有小区内其余UE对于UE(l,k)的干扰;
其中,信干噪比,即signal-to-interference-noise-ratio,SINR;
步骤1.2遍历所有小区内的所有AP,得到所有AP在多小区通信系统中在时刻t受到的干扰,具体为:
其中,表示第a个小区的BS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;表示第r个RIS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;表示第a个小区的BS和第r个RIS之间的信道;其中,j∈{1,...,Jl};
步骤1.3基于步骤1.1计算的接收信号、信干噪比以及步骤1.2得到的干扰,构造以最大化多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型,具体通过公式(4)所示的优化模型构造:
其中,t表示时间变量,Ith表示AP受到来自多小区蜂窝通信系统干扰的最大阈值,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足Tr(Wl[t](Wl[t])H)表示Wl[t]的功率,P表示Wl[t]的最大功率阈值,上标H代表对矩阵的共轭转置变换;
公式(4)是以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值,所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件,以提升多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型;
步骤二:根据步骤1.3中式(4)确定的优化模型,以各小区BS作为深度强化学习的智能体,确定状态模型、动作模型以及奖励模型,构建深度强化学习中多智能体目标状态预测模型,具体为:
步骤2.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型,具体为:
其中,t表示时间变量,l表示小区编号,Kl表示小区l内的UE总数,Jl表示小区l内的AP总数,k表示小区内UE的编号,j表示小区内AP的编号,sl[t]表示智能体l即第l个小区内的BS在t时刻的状态,Rl,k[t]=log2(1+SINR(l,k))表示第l个小区内的第k个UE在t时刻的数据传输速率,I(l,j)[t]表示第l个小区内的第j个AP在t时刻受到的干扰;
步骤2.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型,具体为:
其中,t表示时间变量,l表示小区编号,al[t]表示智能体l即第l个小区内的BS在t时刻的状态,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足Θl[t]表示智能体l即第l个小区内的RIS在t时刻的反射系数矩阵(由于L=R,可以假设第l个小区内的RIS编号为r,且数值上l=r);
步骤2.3以各小区用户和速率表述奖励模型,具体为:
步骤三:根据深度强化学习中的多智能体深度确定性策略梯度方法,对步骤二得到的多智能体目标状态预测模型进行初始化操作,具体为:
步骤3.3初始化每个智能体的经验回放集合的容量D即mini-batch的大小并清空集合设训练的episode总数为E;设t∈{1,...,T},其中T为每个episode采样时刻数;初始化衰减因子γ,软更新系数τ;
步骤四:使用深度强化学习中的多智能体深度确定性策略梯度方法,根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练,按顺序对于episode从1到E执行操作,有:基于高斯过程初始化最初的状态s[0]=[s1[0],...,sL[0]],并设置初始奖励其中,下标l∈{1,...,L}表示第l个智能体;遍历所有的时刻t从0到T,具体为:
步骤4.2执行所有智能体的动作a[t]=[a1[t],...,aL[t]],得到对应的奖励r[t]=[r1[t],...,rL[t]]以及下一状态s'[t]=[s'1[t],...,s'L[t]];
其中,下标l∈{1,...,L}表示第l个智能体,s'[t]是基于s[t]、a[t]的下一状态;
其中,s[t]=[s1[t],...,sL[t]]是时刻t所有智能体的状态,a[t]=[a1[t],...,aL[t]]是时刻t所有智能体的动作,r[t]=[r1[t],...,rL[t]]是时刻t所有智能体的奖励,s'[t]=[s'1[t],...,s'L[t]]是时刻t所有智能体的下一状态;
步骤4.5对于所有的智能体l∈{1,...,L},进行如下步骤:
1)从经验回放集合中随机抽取一小批个数为Z的样本{sz[t],az[t],rz[t],s'z[t]};其中,由采样得到的D个样本中第z个样本在时刻t对应的状态记为sz[t],且第z个样本在时刻t对应的动作记为az[t],且第z个样本在时刻t对应的奖励记为rz[t],且第z个样本在时刻t对应的下一个状态记为s'z[t],且z的取值范围满足z∈{1,...,Z};
2)使用Critic的目标网络计算当前目标Q值,即
4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数
其中,l∈{1,...,L};Ql表示智能体l的Critic目标网络(参数);μl表示智能体l的Critic目标网络(参数);表示智能体l的期望收益的梯度;表示Actor当前网络对参数在状态sz[t]时求导;表示Critic当前网络对参数在状态等于sz[t],动作求导;
步骤4.6使用πμ′←τπμ+(1-τ)πμ′以及πQ′←τπQ+(1-τ)πQ′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数;
其中,τ表示更新参数;πμ′←τπμ+(1-τ)πμ′表示将τπμ+(1-τ)πμ′赋值给πμ′;πQ′←τπQ+(1-τ)πQ′表示将τπQ+(1-τ)πQ′赋值给πQ′;l∈{1,...,L};
步骤4.7更新状态s[t]=s[t+1];
步骤五:将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作,使得多小区蜂窝通信系统所有用户数据传输和速率提升,即总吞吐量得到提升。
有益效果:
1、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,考虑到多小区蜂窝通信系统中存在来自其他UE以及AP产生的干扰,基于MADDPG方法对于系统中存在来自其他UE以及AP产生的干扰进行了条件约束,从而较好地抑制上述干扰,实现系统用户之间的协调共存。
2、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,考虑到多小区蜂窝通信系统中所有用户数据传输和速率对于系统性能的影响,将最大化所有用户数据传输和速率作为优化目标,并通过MADDPG使用多次迭代的方法实现用户数据传输和速率即总吞吐量的最大化,使得系统用户数据传输方面吞吐量的性能得到提升。
3、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法,通过采用深度强化学习中的MADDPG方法对多小区蜂窝系统的用户数据传输和速率即总吞吐量进行优化,实现系统用户的协调共存。
附图说明
图1为本发明一种基于MADDPG的多RIS通信网络速率提升方法多小区蜂窝通信系统模型场景图;
图2为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例中各小区BS、RIS、UE、AP分布场景图;
图3为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例中基于MADDPG的多RIS通信网络速率提升方法所有小区UE和速率收敛结果图;
图4为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例本发明提出的方法、无RIS方法以及随机RIS方法的性能对比结果图。
具体实施方式
下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
实施例1
实施例1的场景为存在2个小区的蜂窝通信系统,每个小区内部部署一个配备4根发射天线的BS,一个包含8个反射单元的RIS,以及4个UE和2个活跃WiFi用户AP;其中,两个小区的BS之间的距离为100m,每个小区的RIS分布在以小区内的BS为圆心,5–10米为半径的范围内,每个小区的UE与AP分布方式为在以小区内的BS为圆心,10–50米为半径的范围内均匀分布。高斯白噪声满足方差WiFi用户受到的来自异构网络的干扰最大阈值Ith=-20dbm;波束赋形矢量Wl[t],l∈{1,2}功率最大阈值P=8W。
本实施例公开的一种基于MADDPG的多RIS通信网络速率提升方法,具体操作流程如下:
步骤A:遍历2个小区共8UE以及4个AP,根据式(1)(2)(3)分别计算UE在时刻t的接收信号、信干噪比和AP在多小区通信系统中在时刻t受到的干扰,并建立以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值,所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件,以提升多小区蜂窝通信系统中所有UE数据传输和速率为优化目标的优化模型(4);
步骤B:根据步骤一中式(4)确定的优化模型,以各小区BS作为深度强化学习的智能体,确定状态模型、动作模型以及奖励模型,构建深度强化学习中多智能体目标状态预测模型,具体为:
步骤B.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型,表述为式(5);
步骤B.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型,表述为式(6);
步骤B.3以各小区用户和速率表述奖励模型(7);
步骤C:根据深度强化学习中的多智能体深度确定性策略梯度方法,对步骤二得到的多智能体目标状态预测模型进行初始化操作,具体为:
步骤C.3初始化每个智能体的经验回放集合的容量D即mini-batch的大小并清空集合设训练的episode总数为E;设t∈{1,...,T},其中T为每个episode采样时刻数;初始化衰减因子γ,软更新系数τ;
步骤D:使用深度强化学习中的多智能体深度确定性策略梯度方法,根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练,按顺序对于episode从1到E执行操作,有:基于高斯过程初始化最初的状态s[0]=[s1[0],...,sL[0]],并设置初始奖励其中,下标l∈{1,...,L}表示第l个智能体;遍历所有的时刻t从0到T,具体为:
步骤D.2执行所有智能体的动作a[t]=[a1[t],...,aL[t]],得到对应的奖励r[t]=[r1[t],...,rL[t]]以及下一状态s'[t]=[s'1[t],...,s'L[t]];
其中,下标l∈{1,...,L}表示第l个智能体,s'[t]是基于s[t]、a[t]的下一状态;
其中,s[t]=[s1[t],...,sL[t]]是时刻t所有智能体的状态,a[t]=[a1[t],...,aL[t]]是时刻t所有智能体的动作,r[t]=[r1[t],...,rL[t]]是时刻t所有智能体的奖励,s'[t]=[s'1[t],...,s'L[t]]是时刻t所有智能体的下一状态;
步骤D.5对于所有的智能体l∈{1,...,L},进行如下步骤:
其中,由采样得到的D个样本中第z个样本在时刻t对应的状态记为sz[t],且第z个样本在时刻t对应的动作记为az[t],且第z个样本在时刻t对应的奖励记为rz[t],且第z个样本在时刻t对应的下一个状态记为s'z[t],且z的取值范围满足z∈{1,...,Z};
2)使用Critic的目标网络计算当前目标Q值,即
4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数
其中,l∈{1,...,L};Ql表示智能体l的Critic目标网络(参数);μl表示智能体l的Critic目标网络(参数);表示智能体l的期望收益的梯度;表示Actor当前网络对参数在状态sz[t]时求导;表示Critic当前网络对参数在状态等于sz[t],动作求导;
步骤D.6使用πμ′←τπμ+(1-τ)πμ′以及πQ′←τπQ+(1-τ)πQ′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数;
其中,τ表示更新参数;πμ′←τπμ+(1-τ)πμ′表示将τπμ+(1-τ)πμ′赋值给πμ′;πQ′←τπQ+(1-τ)πQ′表示将τπQ+(1-τ)πQ′赋值给πQ′;l∈{1,...,L};
步骤D.7更新状态s[t]=s[t+1];
步骤E:将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作,使得多小区蜂窝通信系统所有用户数据传输和速率得到提升;
从步骤A到步骤E,完成了本实施例1中基于MADDPG的多RIS通信网络速率提升方法。
对实施例1基于图2本发明具体实施例中各小区BS、RIS、UE、AP分布场景图以及上述步骤A到步骤E进行仿真,得到基于MADDPG的多RIS通信网络速率提升方法下的UE和速率,对应于图3本发明“一种基于MADDPG的多RIS通信网络速率提升方法”具体实施例中基于MADDPG的多RIS通信网络速率提升方法所有小区UE和速率收敛结果图;将本发明提出的方法、无RIS方法以及随机RIS方法两种对比方法进行比对分析,得到图4本发明“一种基于MADDPG的多RIS通信网络速率提升方法”具体实施例中本发明提出的方法、无RIS方法以及随机RIS方法的性能对比结果图。
从图3可以看出,一种基于MADDPG的多RIS通信网络速率提升方法的多小区蜂窝通信系统中UE的数据传输和速率在迭代一定次数后收敛,并且平均奖励稳定于850附近,此结果表明,对实施例1应用本发明提出的基于MADDPG的多RIS通信网络速率提升方法,能够使得多小区蜂窝通信系统的UE数据传输和速率可以达到1.2Gbps以上,得到了极大提升;从图4可以看出,相比于无RIS以及随机RIS两种对比方法,本发明提出的方法使得用户数据传输和速率得到极大增加。因此,本发明提出的基于MADDPG的多RIS通信网络速率提升方法能够大大提升多小区蜂窝系统的用户数据传输和速率,实现系统用户的协调共存。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:包括如下步骤,
步骤一:遍历所有小区的UE以及AP,分别计算UE在时刻的接收信号、信干噪比和AP在多小区通信系统中在时刻受到的干扰,并建立优化模型;
步骤二:根据步骤一确定的优化模型,以各小区BS作为深度强化学习的智能体,确定状态模型、动作模型以及奖励模型,构建深度强化学习中多智能体目标状态预测模型;
步骤三:根据深度强化学习中的多智能体深度确定性策略梯度方法,对步骤二得到的多智能体目标状态预测模型进行初始化操作;
步骤四:使用深度强化学习中的多智能体深度确定性策略梯度方法,根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练,按顺序对于episode从1到E执行操作,有:基于高斯过程初始化最初的状态s[0]=[s1[0],...,sL[0]],并设置初始奖励其中,下标l∈{1,...,L}表示第l个智能体;遍历所有的时刻t从0到T;
步骤五:将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作,使得多小区蜂窝通信系统所有用户数据传输和速率即总吞吐量得到提升。
2.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤一的实现方法为,
步骤1.1遍历所有UE,计算多小区蜂窝通信系统中所有UE在时刻t的接收信号和信干噪比,具体为:遍历(l,k),计算各小区中所有UE在时刻t的接收信号和信干噪比;
其中,UE(l,k)在时刻t接收到的信号,记为y(l,k)[t];UE(l,k)在时刻t的信干噪比,记为SINR(l,k)[t];k的取值范围为1到Kl;t表示时间变量;
其中,UE(l,k)在时刻t接收到的信号如式(1)所示:
其中,代表RIS在时刻t的反射系数矩阵,表示维度大小为N×N的复数集合,具体表示为β(r,1),...,β(r,N)∈[0,1]为第r个RIS各元素的幅度反射系数,θ(r,1),...,θ(r,N)∈[0,2π)为RIS各元素的相位偏移,j为虚数单位;表示第l个小区的BS和第r个RIS之间的信道,表示第i个小区的BS和第l个小区的第k个用户UE(l,k)之间的信道,表示维度大小为1×M的复数集合;表示第l个小区的BS和第r个RIS之间的信道,表示维度大小为N×M的复数集合;表示第r个RIS和第l个小区的第k个用户UE(l,k)之间的信道,表示维度大小为1×N的复数集合;其中,l∈{1,...,L},r∈{1,...,R},k∈{1,...,Kl};w(l,k)[t]表示第l个小区内的BS与第l个小区内第k个UE间在时刻t的波束赋形向量,w(l,p)[t]表示第l个小区内的BS与第l个小区内第p个UE间在时刻t的波束赋形向量,其中p∈{1,...,Kl};w(i,p)[t]表示第i个小区内的BS与第i个小区内第q个UE在时刻t的的波束赋形向量,其中q∈{1,...,Ki};x(l,k)[t]表示第l个小区内第k个UE在时刻t的符号,x(l,p)[t]表示第l个小区内第p个UE在时刻t的符号,x(i,p)[t]表示第i个小区内第p个UE在时刻t的符号,且每个UE的符号具有单位功率,即:E[|x(l,k)[t]|2]=1,k=1,...,K;第l个小区内,BS向Kl个UE发送的信号为且表示维度大小为Kl×1的复数集合;
s(a,b)[t]为第a个小区内第b个AP在时刻t的信号,且所有s(a,b)[t]的功率相同,均为其中a∈{1,...,L},b∈{1,...,Ja};表示第a个小区内第b个AP与第l个小区内第k个UE之间的信道,表示维度大小为1×1的复数集合;表示第a个小区内第b个AP与第r个RIS之间的信道;n(l,k)[t]表示为第l个小区内第k个UE在时刻t的高斯白噪声,满足其中,代表复高斯分布,是该高斯分布的方差;第l个小区内第k个UE在时刻t的信干噪比用式(2)表示:
其中,
表示UE(l,k)在时刻t接收到的信号中所有小区内其余UE对于UE(l,k)的干扰;
其中,信干噪比,即signal-to-interference-noise-ratio,SINR;
步骤1.2遍历所有小区内的所有AP,得到所有AP在多小区通信系统中在时刻t受到的干扰,具体为:
其中,表示第a个小区的BS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;表示第r个RIS和第l个小区的第j个WiFi节点AP(l,j)之间的信道;表示第a个小区的BS和第r个RIS之间的信道;其中,j∈{1,...,Jl};
步骤1.3基于步骤1.1计算的接收信号、信干噪比以及步骤1.2得到的干扰,构造以最大化多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型,具体通过公式(4)所示的优化模型构造:
其中,t表示时间变量,Ith表示AP受到来自多小区蜂窝通信系统干扰的最大阈值,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足Tr(Wl[t](Wl[t])H)表示Wl[t]的功率,P表示Wl[t]的最大功率阈值,上标H代表对矩阵的共轭转置变换;
公式(4)是以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值,所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件,以提升多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型。
3.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤二的实现方法为,
步骤2.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型,具体为:
其中,t表示时间变量,l表示小区编号,Kl表示小区l内的UE总数,Jl表示小区l内的AP总数,k表示小区内UE的编号,j表示小区内AP的编号,sl[t]表示智能体l即第l个小区内的BS在t时刻的状态,Rl,k[t]=log2(1+SINR(l,k))表示第l个小区内的第k个UE在t时刻的数据传输速率,I(l,j)[t]表示第l个小区内的第j个AP在t时刻受到的干扰;
步骤2.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型,具体为:
其中,t表示时间变量,l表示小区编号,al[t]表示智能体l即第l个小区内的BS在t时刻的状态,Wl[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵,满足Θl[t]表示智能体l即第l个小区内的RIS在t时刻的反射系数矩阵;
步骤2.3以各小区用户和速率表述奖励模型,具体为:
4.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤三的实现方法为,
5.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法,其特征在于:步骤四的实现方法为,
步骤4.2执行所有智能体的动作a[t]=[a1[t],...,aL[t]],得到对应的奖励r[t]=[r1[t],...,rL[t]]以及下一状态s'[t]=[s'1[t],...,s'L[t]];
其中,下标l∈{1,...,L}表示第l个智能体,s'[t]是基于s[t]、a[t]的下一状态;
其中,s[t]=[s1[t],...,sL[t]]是时刻t所有智能体的状态,a[t]=[a1[t],...,aL[t]]是时刻t所有智能体的动作,r[t]=[r1[t],...,rL[t]]是时刻t所有智能体的奖励,s'[t]=[s'1[t],...,s'L[t]]是时刻t所有智能体的下一状态;
步骤4.5对于所有的智能体l∈{1,...,L},进行如下步骤:
其中,由采样得到的D个样本中第z个样本在时刻t对应的状态记为sz[t],且第z个样本在时刻t对应的动作记为az[t],且第z个样本在时刻t对应的奖励记为rz[t],且第z个样本在时刻t对应的下一个状态记为s'z[t],且z的取值范围满足z∈{1,...,Z};
2)使用Critic的目标网络计算当前目标Q值,即
4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数
其中,l∈{1,...,L};Ql表示智能体l的Critic目标网络(参数);μl表示智能体l的Critic目标网络(参数);表示智能体l的期望收益的梯度;表示Actor当前网络对参数在状态sz[t]时求导;表示Critic当前网络对参数在状态等于sz[t],动作求导;
步骤4.6使用πμ′←τπμ+(1-τ)πμ′以及πQ′←τπQ+(1-τ)πQ′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数;
其中,τ表示更新参数;πμ′←τπμ+(1-τ)πμ′表示将τπμ+(1-τ)πμ′赋值给πμ′;πQ′←τπQ+(1-τ)πQ′表示将τπQ+(1-τ)πQ′赋值给πQ′;l∈{1,...,L};
步骤4.7更新状态s[t]=s[t+1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210348032.5A CN114727318A (zh) | 2022-03-21 | 2022-03-21 | 一种基于maddpg的多ris通信网络速率提升方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210348032.5A CN114727318A (zh) | 2022-03-21 | 2022-03-21 | 一种基于maddpg的多ris通信网络速率提升方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114727318A true CN114727318A (zh) | 2022-07-08 |
Family
ID=82242365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210348032.5A Pending CN114727318A (zh) | 2022-03-21 | 2022-03-21 | 一种基于maddpg的多ris通信网络速率提升方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114727318A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278736A (zh) * | 2022-07-25 | 2022-11-01 | 暨南大学 | 一种基于可重构智能表面的同时同频全双工通信组网方案 |
-
2022
- 2022-03-21 CN CN202210348032.5A patent/CN114727318A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115278736A (zh) * | 2022-07-25 | 2022-11-01 | 暨南大学 | 一种基于可重构智能表面的同时同频全双工通信组网方案 |
CN115278736B (zh) * | 2022-07-25 | 2023-09-26 | 暨南大学 | 一种基于可重构智能表面的同时同频全双工通信组网方案 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111901862B (zh) | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 | |
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN109474980A (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN111526592B (zh) | 一种用于无线干扰信道中的非协作多智能体功率控制方法 | |
CN113691295B (zh) | 一种基于irs的异构网络中干扰抑制方法 | |
CN113596785A (zh) | 基于深度q网络的d2d-noma通信系统资源分配方法 | |
CN111901812A (zh) | 一种全双工蜂窝通信网基站和智慧反射面联合控制方法 | |
CN106231665A (zh) | 数能一体化网络中基于rrh动态模式切换的资源分配方法 | |
CN114727318A (zh) | 一种基于maddpg的多ris通信网络速率提升方法 | |
CN111277308A (zh) | 基于机器学习的波宽控制方法 | |
Jiang et al. | Distributed inter-cell interference coordination for small cell wireless communications: A multi-agent deep Q-learning approach | |
CN116684851A (zh) | 基于mappo的多ris辅助车联网吞吐量提升方法 | |
CN116981091A (zh) | 一种星地融合网络资源分配方法 | |
CN114745032B (zh) | 一种无蜂窝大规模mimo智能分布式波束选择方法 | |
CN115334524B (zh) | 一种基于全向智能超表面的通信和雷达目标检测方法 | |
CN113595609B (zh) | 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法 | |
Cui et al. | Hierarchical learning approach for age-of-information minimization in wireless sensor networks | |
CN114268348A (zh) | 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法 | |
CN114364034A (zh) | 基于drl的ris辅助用户中心化去蜂窝系统中资源管理半并行方法 | |
Jiang et al. | Active sensing for two-sided beam alignment using ping-pong pilots | |
You et al. | Distributed Deep Learning for RIS Aided UAV-D2D Communications in Space-Air-Ground Networks | |
CN116112941B (zh) | 一种多ris辅助的无线网络覆盖优化方法与装置 | |
CN113783593B (zh) | 一种基于深度强化学习的波束选择方法和系统 | |
CN116614826B (zh) | 一种同时传输和反射表面网络的覆盖和容量优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |