CN114727318A

CN114727318A - 一种基于maddpg的多ris通信网络速率提升方法

Info

Publication number: CN114727318A
Application number: CN202210348032.5A
Authority: CN
Inventors: 曾鸣; 宁祥瑞; 王文欣; 费泽松
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-08

Abstract

本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法，属于无线通信中的频谱资源分配技术领域。针对多小区下行场景中的多RIS部署资源分配问题，本发明通过遍历所有用户，表述用户接收信号、信干噪比以及信号干扰参数；以各小区基站作为深度强化学习的智能体，以用户和速率及WiFi接入点信号干扰作为状态，以RIS反射系数以及BS与用户间的波束赋形矢量作为动作，以用户和速率表述奖励，构建目标状态预测模型；对预测模型采用MADDPG方法进行学习与更新直至奖励收敛，收敛时的系统参数能够应用于多小区通信场景中。本发明可应用于应急通信和军事通信等领域，用以提供最大化的数据传输和速率。

Description

一种基于MADDPG的多RIS通信网络速率提升方法

技术领域

本发明涉及一种基于MADDPG的多RIS通信网络速率提升方法，属于无线通信中的频谱资源分配技术领域。

背景技术

第五代移动通信(the fifth generation mobile communication,5G)网络设备大规模的接入，使得无线传输过程功耗急剧增加，因此如何实现高速率、低功耗的数据传输将成为未来网络发展的关键。

智能反射面(Reconfigurable Intelligent Surface，RIS)是一种由带有控制单元的无源反射元件组成的大规模天线阵列，其中每个元件都能够独立地使入射信号产生一定的相移，从而协同改变反射信号的传播。它通过提供可控制通信信道的突变相移来控制入射信号的传播。与通过放大和再生信号来辅助源-目的传输的放大转发(amplify-and-forward，AF)中继相比，RIS不使用发射模块，只是将接收到的信号反射为无源阵列，因此不消耗发射功率。此外，RIS主要用于提高现有的通信链路性能，而不是通过反射传递自身信息。反向散射通信中的直接路径信号属于干扰信号，一般需要在接收器上得到抑制或者消除，而在RIS增强通信中，直接路径和反射路径信号都携带有相同的有用信息，因此可以在接收器上相干叠加，从而最大限度地提高总接收功率和通信网络的传输速率。

RIS作为无源全双工元器件，不但能耗极低，而且全双工模式时其频谱效率较高，并且不存在自干扰，反射过程不进行信息干扰。由于RIS接受或者反射发送时不需要进行信息处理，提高了传输效率。与其他有源智能表面相比，具有成本低、功耗低、安装灵活等优势，对于未来的应急通信和军事通信等领域的应用具有重要的研究意义。

目前相关研究主要集中于单小区蜂窝通信系统的RIS辅助通信，具体研究包括服务质量(QoS)约束发射功率最小化和加权和速率最大化，以获得下行链路中的基站波束形成器和RIS反射波束形成器或RIS预编码器的最优设计。现实场景下，多小区多RIS的蜂窝通信系统更加具有推广价值，但由于控制多个RIS所涉及的优化复杂性增加，多小区下行场景中的多RIS部署尚未得到充分建模和研究。

近年来，随着人工智能技术的发展，一些机器学习方法被逐渐应用到资源分配问题之中，且具有较好的性能表现，例如Q-learning、deep Q network(DQN)等方法。多智能体深度确定性策略梯度(MADDPG)方法能够用于解决多小区下行场景中的多RIS部署资源分配问题且具有良好的性能表现，具有重要的研究意义。

发明内容

针对多小区蜂窝环境中部署多个RIS场景的资源分配问题，本发明主要目的是提供一种基于MADDPG的多RIS通信网络速率提升方法，通过优化得到最优的BS预编码器和RIS反射波束形成器，为该场景提供最大化的数据传输和速率。

本发明的目的是通过以下技术方案实现的：

本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法，通过遍历所有用户，表述用户接收信号、信干噪比以及信号干扰参数；以各小区基站作为深度强化学习的智能体，以各小区用户和速率以及WiFi接入点信号干扰作为智能体的状态模型，以各小区RIS反射系数以及BS与用户间的波束赋形矢量作为智能体的动作模型，以各小区用户和速率表述奖励模型，构建深度强化中多模型目标状态预测模型；对预测模型采用多智能体深度确定性策略梯度方法进行学习与更新直至奖励收敛，将收敛时的系统参数应用于多小区蜂窝下行通信场景中，进一步提升该场景用户数据传输和速率。

本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法，包含以下步骤：

步骤一：遍历所有小区的UE以及AP，分别计算UE在时刻t的接收信号、信干噪比和AP在多小区通信系统中在时刻t受到的干扰，并建立优化模型，具体包括如下子步骤：

步骤1.1遍历所有UE，计算多小区蜂窝通信系统中所有UE在时刻t的接收信号和信干噪比，具体为：遍历(l,k)，计算各小区中所有UE在时刻t的接收信号和信干噪比；

其中，UE(l,k)在时刻t接收到的信号，记为y_(l,k)[t]；UE(l,k)在时刻t的信干噪比，记为SINR_(l,k)[t]；k的取值范围为1到K_l；t表示时间变量；

其中，UE(l,k)在时刻t接收到的信号如式(1)所示：

其中，

代表RIS在时刻t的反射系数矩阵，

表示维度大小为N×N的复数集合,具体表示为

β_(r,1),...,β_(r,N)∈[0,1]为第r个RIS各元素的幅度反射系数，θ_(r,1),...,θ_(r,N)∈[0,2π)为RIS各元素的相位偏移，j为虚数单位；

表示第l个小区的BS和第r个RIS之间的信道，

表示第i个小区的BS和第l个小区的第k个用户UE(l,k)之间的信道，

表示维度大小为1×M的复数集合；

表示第l个小区的BS和第r个RIS之间的信道，

表示维度大小为N×M的复数集合；

表示第r个RIS和第l个小区的第k个用户UE(l,k)之间的信道，

表示维度大小为1×N的复数集合；其中，l∈{1,...,L}，r∈{1,...,R}，k∈{1,...,K_l}；w_(l,k)[t]表示第l个小区内的BS与第l个小区内第k个UE间在时刻t的波束赋形向量，w_(l,p)[t]表示第l个小区内的BS与第l个小区内第p个UE间在时刻t的波束赋形向量，其中p∈{1,...,K_l}；w_(i,p)[t]表示第i个小区内的BS与第i个小区内第q个UE在时刻t的的波束赋形向量，其中q∈{1,...,K_i}；x_(l,k)[t]表示第l个小区内第k个UE在时刻t的符号，x_(l,p)[t]表示第l个小区内第p个UE在时刻t的符号，x_(i,p)[t]表示第i个小区内第p个UE在时刻t的符号，且每个UE的符号具有单位功率，即：E[|x_(l,k)[t]|²]＝1,k＝1,...,K；第l个小区内，BS向K_l个UE发送的信号为

且

表示维度大小为K_l×1的复数集合；

s_(a,b)[t]为第a个小区内第b个AP在时刻t的信号，且所有s_(a,b)[t]的功率相同，均为

其中a∈{1,...,L}，b∈{1,...,J_a}；

表示第a个小区内第b个AP与第l个小区内第k个UE之间的信道，

表示维度大小为1×1的复数集合；

表示第a个小区内第b个AP与第r个RIS之间的信道；n_(l,k)[t]表示为第l个小区内第k个UE在时刻t的高斯白噪声，满足

其中，

代表复高斯分布，

是该高斯分布的方差；第l个小区内第k个UE在时刻t的信干噪比用式(2)表示：

其中，

表示UE(l,k)在时刻t接收到的信号中的有效部分；

表示UE(l,k)在时刻t接收到的信号中所有小区内其余UE对于UE(l,k)的干扰；

表示UE(l,k)在时刻t接收到的信号中所有小区内所有AP对于UE(l,k)的干扰；

其中，信干噪比，即signal-to-interference-noise-ratio,SINR；

步骤1.2遍历所有小区内的所有AP，得到所有AP在多小区通信系统中在时刻t受到的干扰，具体为：

其中，

表示第a个小区的BS和第l个小区的第j个WiFi节点AP(l,j)之间的信道；

表示第r个RIS和第l个小区的第j个WiFi节点AP(l,j)之间的信道；

表示第a个小区的BS和第r个RIS之间的信道；其中，j∈{1,...,J_l}；

步骤1.3基于步骤1.1计算的接收信号、信干噪比以及步骤1.2得到的干扰，构造以最大化多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型，具体通过公式(4)所示的优化模型构造：

其中，t表示时间变量，I_th表示AP受到来自多小区蜂窝通信系统干扰的最大阈值，W_l[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵，满足

Tr(W_l[t](W_l[t])^H)表示W_l[t]的功率，P表示W_l[t]的最大功率阈值，上标H代表对矩阵的共轭转置变换；

公式(4)是以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值，所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件，以提升多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型；

步骤二：根据步骤1.3中式(4)确定的优化模型，以各小区BS作为深度强化学习的智能体，确定状态模型、动作模型以及奖励模型，构建深度强化学习中多智能体目标状态预测模型，具体为：

步骤2.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型，具体为：

其中，t表示时间变量，l表示小区编号，K_l表示小区l内的UE总数，J_l表示小区l内的AP总数，k表示小区内UE的编号，j表示小区内AP的编号，s_l[t]表示智能体l即第l个小区内的BS在t时刻的状态，R_l,k[t]＝log₂(1+SINR_(l,k))表示第l个小区内的第k个UE在t时刻的数据传输速率，I_(l,j)[t]表示第l个小区内的第j个AP在t时刻受到的干扰；

步骤2.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型，具体为：

其中，t表示时间变量，l表示小区编号，a_l[t]表示智能体l即第l个小区内的BS在t时刻的状态，W_l[t]表示智能体l即第l个小区内的BS在t时刻与该小区内所以UE的波束赋形矩阵，满足

Θ_l[t]表示智能体l即第l个小区内的RIS在t时刻的反射系数矩阵(由于L＝R，可以假设第l个小区内的RIS编号为r，且数值上l＝r)；

步骤2.3以各小区用户和速率表述奖励模型，具体为：

其中，t表示时间变量，l表示小区编号，J_l表示小区l内的AP总数，j表示小区内AP的编号；R_l[t]表示小区l内的所有UE的和速率，即

步骤三：根据深度强化学习中的多智能体深度确定性策略梯度方法，对步骤二得到的多智能体目标状态预测模型进行初始化操作，具体为：

步骤3.1分别以参数

和

随机初始化Actor当前网络

和Critic当前网络

其中，s_l[t]是状态，a_l[t]是动作；

是Actor当前网络的参数；

是Critic当前网络的参数，l∈{1,...,L}；

步骤3.2以参数

和

初始化Actor目标网络μ_l'和Critic目标网络Q_l'；

其中，

和

分别是目标网络μ_l'和Q_l'的参数，

表示将

赋值给

表示将

赋值给

步骤3.3初始化每个智能体的经验回放集合

的容量D即mini-batch的大小并清空集合

设训练的episode总数为E；设t∈{1,...,T}，其中T为每个episode采样时刻数；初始化衰减因子γ，软更新系数τ；

步骤四：使用深度强化学习中的多智能体深度确定性策略梯度方法，根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练，按顺序对于episode从1到E执行操作，有：基于高斯过程初始化最初的状态s[0]＝[s₁[0],...,s_L[0]]，并设置初始奖励

其中，下标l∈{1,...,L}表示第l个智能体；遍历所有的时刻t从0到T，具体为：

步骤4.1对于所有的智能体l∈{1,...,L}，基于当前的动作在Actor当前网络(网络参数为

)选择对应的动作

步骤4.2执行所有智能体的动作a[t]＝[a₁[t],...,a_L[t]]，得到对应的奖励r[t]＝[r₁[t],...,r_L[t]]以及下一状态s'[t]＝[s'₁[t],...,s'_L[t]]；

其中，下标l∈{1,...,L}表示第l个智能体，s'[t]是基于s[t]、a[t]的下一状态；

步骤4.3将四元组{s[t],a[t],r[t],s'[t]}存入经验回放集合

其中，s[t]＝[s₁[t],...,s_L[t]]是时刻t所有智能体的状态，a[t]＝[a₁[t],...,a_L[t]]是时刻t所有智能体的动作，r[t]＝[r₁[t],...,r_L[t]]是时刻t所有智能体的奖励，s'[t]＝[s'₁[t],...,s'_L[t]]是时刻t所有智能体的下一状态；

步骤4.4如果集合

当前大小小于D，则令s'[t]＝s[t]后执行步骤4.2，否则执行步骤4.5；

步骤4.5对于所有的智能体l∈{1,...,L}，进行如下步骤：

1)从经验回放集合

中随机抽取一小批个数为Z的样本{s^z[t],a^z[t],r^z[t],s'^z[t]}；其中，由采样得到的D个样本中第z个样本在时刻t对应的状态记为s^z[t]，且

第z个样本在时刻t对应的动作记为a^z[t]，且

第z个样本在时刻t对应的奖励记为r^z[t]，且

第z个样本在时刻t对应的下一个状态记为s'^z[t]，且

z的取值范围满足z∈{1,...,Z}；

2)使用Critic的目标网络计算当前目标Q值，即

其中，Q_l'表示智能体l的Critic目标网络(参数

)；a'_l[t]是Actor的目标网络基于状态

得到的动作，其中l的取值范围为l∈{1,...,L}；

3)通过最小化损失函数

更新Critic当前网络的参数；

其中，Q_l表示智能体l的Critic目标网络(参数

)；f^z[t]是步骤2)中求得的当前目标Q值；

4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数

其中，l∈{1,...,L}；Q_l表示智能体l的Critic目标网络(参数

)；μ_l表示智能体l的Critic目标网络(参数

)；

表示智能体l的期望收益的梯度；

表示Actor当前网络

对参数

在状态s^z[t]时求导；

表示Critic当前网络

对参数

在状态等于s^z[t]，动作

求导；

步骤4.6使用π^μ′←τπ^μ+(1-τ)π^μ′以及π^Q′←τπ^Q+(1-τ)π^Q′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数；

其中，τ表示更新参数；π^μ′←τπ^μ+(1-τ)π^μ′表示将τπ^μ+(1-τ)π^μ′赋值给π^μ′；π^Q′←τπ^Q+(1-τ)π^Q′表示将τπ^Q+(1-τ)π^Q′赋值给π^Q′；l∈{1,...,L}；

步骤4.7更新状态s[t]＝s[t+1]；

步骤五：将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作，使得多小区蜂窝通信系统所有用户数据传输和速率提升，即总吞吐量得到提升。

有益效果：

1、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法，考虑到多小区蜂窝通信系统中存在来自其他UE以及AP产生的干扰，基于MADDPG方法对于系统中存在来自其他UE以及AP产生的干扰进行了条件约束，从而较好地抑制上述干扰，实现系统用户之间的协调共存。

2、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法，考虑到多小区蜂窝通信系统中所有用户数据传输和速率对于系统性能的影响，将最大化所有用户数据传输和速率作为优化目标，并通过MADDPG使用多次迭代的方法实现用户数据传输和速率即总吞吐量的最大化，使得系统用户数据传输方面吞吐量的性能得到提升。

3、本发明公开的一种基于MADDPG的多RIS通信网络速率提升方法，通过采用深度强化学习中的MADDPG方法对多小区蜂窝系统的用户数据传输和速率即总吞吐量进行优化，实现系统用户的协调共存。

附图说明

图1为本发明一种基于MADDPG的多RIS通信网络速率提升方法多小区蜂窝通信系统模型场景图；

图2为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例中各小区BS、RIS、UE、AP分布场景图；

图3为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例中基于MADDPG的多RIS通信网络速率提升方法所有小区UE和速率收敛结果图；

图4为本发明一种基于MADDPG的多RIS通信网络速率提升方法具体实施例本发明提出的方法、无RIS方法以及随机RIS方法的性能对比结果图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

实施例1

实施例1的场景为存在2个小区的蜂窝通信系统，每个小区内部部署一个配备4根发射天线的BS，一个包含8个反射单元的RIS，以及4个UE和2个活跃WiFi用户AP；其中，两个小区的BS之间的距离为100m，每个小区的RIS分布在以小区内的BS为圆心，5–10米为半径的范围内，每个小区的UE与AP分布方式为在以小区内的BS为圆心，10–50米为半径的范围内均匀分布。高斯白噪声满足方差

WiFi用户受到的来自异构网络的干扰最大阈值I_th＝-20dbm；波束赋形矢量W_l[t],l∈{1,2}功率最大阈值P＝8W。

本实施例公开的一种基于MADDPG的多RIS通信网络速率提升方法，具体操作流程如下：

步骤A：遍历2个小区共8UE以及4个AP，根据式(1)(2)(3)分别计算UE在时刻t的接收信号、信干噪比和AP在多小区通信系统中在时刻t受到的干扰，并建立以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值，所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件，以提升多小区蜂窝通信系统中所有UE数据传输和速率为优化目标的优化模型(4)；

步骤B：根据步骤一中式(4)确定的优化模型，以各小区BS作为深度强化学习的智能体，确定状态模型、动作模型以及奖励模型，构建深度强化学习中多智能体目标状态预测模型，具体为：

步骤B.1以各小区UE数据传输和速率以及AP受到的信号干扰作为智能体的状态模型，表述为式(5)；

步骤B.2以各小区RIS反射系数以及RIS与用户间的波束赋形矢量作为智能体的动作模型，表述为式(6)；

步骤B.3以各小区用户和速率表述奖励模型(7)；

步骤C：根据深度强化学习中的多智能体深度确定性策略梯度方法，对步骤二得到的多智能体目标状态预测模型进行初始化操作，具体为：

步骤C.1分别以参数

和

随机初始化Actor当前网络

和Critic当前网络

其中，s_l[t]是状态，a_l[t]是动作；

是Actor当前网络的参数；

是Critic当前网络的参数，l∈{1,...,L}；

步骤C.2以参数

和

初始化Actor目标网络μ_l'和Critic目标网络Q_l'；

其中，

和

分别是目标网络μ_l'和Q_l'的参数，

表示将

赋值给

表示将

赋值给

步骤C.3初始化每个智能体的经验回放集合

的容量D即mini-batch的大小并清空集合

步骤D：使用深度强化学习中的多智能体深度确定性策略梯度方法，根据步骤二得到的多智能体目标状态预测模型以及步骤三的初始化内容进行模型训练，按顺序对于episode从1到E执行操作，有：基于高斯过程初始化最初的状态s[0]＝[s₁[0],...,s_L[0]]，并设置初始奖励

步骤D.1对于所有的智能体l∈{1,...,L}，基于当前的动作在Actor当前网络(网络参数为

)选择对应的动作

步骤D.2执行所有智能体的动作a[t]＝[a₁[t],...,a_L[t]]，得到对应的奖励r[t]＝[r₁[t],...,r_L[t]]以及下一状态s'[t]＝[s'₁[t],...,s'_L[t]]；

步骤D.3将四元组{s[t],a[t],r[t],s'[t]}存入经验回放集合

步骤D.4如果集合

当前大小小于D，则令s'[t]＝s[t]后执行步骤D.2，否则执行步骤D.5；

步骤D.5对于所有的智能体l∈{1,...,L}，进行如下步骤：

1)从经验回放集合

中随机抽取一小批个数为Z的样本{s^z[t],a^z[t],r^z[t],s'^z[t]}；

其中，由采样得到的D个样本中第z个样本在时刻t对应的状态记为s^z[t]，且

第z个样本在时刻t对应的动作记为a^z[t]，且

第z个样本在时刻t对应的奖励记为r^z[t]，且

第z个样本在时刻t对应的下一个状态记为s'^z[t]，且

z的取值范围满足z∈{1,...,Z}；

2)使用Critic的目标网络计算当前目标Q值，即

其中，Q_l'表示智能体l的Critic目标网络(参数

)；a'_l[t]是Actor的目标网络基于状态

得到的动作，其中l的取值范围为l∈{1,...,L}；

3)通过最小化损失函数

更新Critic当前网络的参数；

其中，Q_l表示智能体l的Critic目标网络(参数

)；f^z[t]是步骤2)中求得的当前目标Q值；

4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数

其中，l∈{1,...,L}；Q_l表示智能体l的Critic目标网络(参数

)；μ_l表示智能体l的Critic目标网络(参数

)；

表示智能体l的期望收益的梯度；

表示Actor当前网络

对参数

在状态s^z[t]时求导；

表示Critic当前网络

对参数

在状态等于s^z[t]，动作

求导；

步骤D.6使用π^μ′←τπ^μ+(1-τ)π^μ′以及π^Q′←τπ^Q+(1-τ)π^Q′更新每个智能体l∈{1,...,L}的Actor和Critic的目标网络参数；

步骤D.7更新状态s[t]＝s[t+1]；

步骤E：将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作，使得多小区蜂窝通信系统所有用户数据传输和速率得到提升；

从步骤A到步骤E，完成了本实施例1中基于MADDPG的多RIS通信网络速率提升方法。

对实施例1基于图2本发明具体实施例中各小区BS、RIS、UE、AP分布场景图以及上述步骤A到步骤E进行仿真，得到基于MADDPG的多RIS通信网络速率提升方法下的UE和速率，对应于图3本发明“一种基于MADDPG的多RIS通信网络速率提升方法”具体实施例中基于MADDPG的多RIS通信网络速率提升方法所有小区UE和速率收敛结果图；将本发明提出的方法、无RIS方法以及随机RIS方法两种对比方法进行比对分析，得到图4本发明“一种基于MADDPG的多RIS通信网络速率提升方法”具体实施例中本发明提出的方法、无RIS方法以及随机RIS方法的性能对比结果图。

从图3可以看出，一种基于MADDPG的多RIS通信网络速率提升方法的多小区蜂窝通信系统中UE的数据传输和速率在迭代一定次数后收敛，并且平均奖励稳定于850附近，此结果表明，对实施例1应用本发明提出的基于MADDPG的多RIS通信网络速率提升方法，能够使得多小区蜂窝通信系统的UE数据传输和速率可以达到1.2Gbps以上，得到了极大提升；从图4可以看出，相比于无RIS以及随机RIS两种对比方法，本发明提出的方法使得用户数据传输和速率得到极大增加。因此，本发明提出的基于MADDPG的多RIS通信网络速率提升方法能够大大提升多小区蜂窝系统的用户数据传输和速率，实现系统用户的协调共存。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于MADDPG的多RIS通信网络速率提升方法，其特征在于：包括如下步骤，

步骤一：遍历所有小区的UE以及AP，分别计算UE在时刻的接收信号、信干噪比和AP在多小区通信系统中在时刻受到的干扰，并建立优化模型；

步骤二：根据步骤一确定的优化模型，以各小区BS作为深度强化学习的智能体，确定状态模型、动作模型以及奖励模型，构建深度强化学习中多智能体目标状态预测模型；

步骤三：根据深度强化学习中的多智能体深度确定性策略梯度方法，对步骤二得到的多智能体目标状态预测模型进行初始化操作；

其中，下标l∈{1,...,L}表示第l个智能体；遍历所有的时刻t从0到T；

步骤五：将各小区BS与UE间的波束赋形矢量以及RIS反射系数配置为步骤三得到的最优动作，使得多小区蜂窝通信系统所有用户数据传输和速率即总吞吐量得到提升。

2.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法，其特征在于：步骤一的实现方法为，

其中，UE(l,k)在时刻t接收到的信号如式(1)所示：

其中，

代表RIS在时刻t的反射系数矩阵，

表示维度大小为N×N的复数集合,具体表示为

表示第l个小区的BS和第r个RIS之间的信道，

表示维度大小为1×M的复数集合；

表示第l个小区的BS和第r个RIS之间的信道，

表示维度大小为N×M的复数集合；

表示第r个RIS和第l个小区的第k个用户UE(l,k)之间的信道，

且

表示维度大小为K_l×1的复数集合；

其中a∈{1,...,L}，b∈{1,...,J_a}；

表示第a个小区内第b个AP与第l个小区内第k个UE之间的信道，

表示维度大小为1×1的复数集合；

其中，

代表复高斯分布，

其中，

表示UE(l,k)在时刻t接收到的信号中的有效部分；

其中，信干噪比，即signal-to-interference-noise-ratio,SINR；

其中，

表示第r个RIS和第l个小区的第j个WiFi节点AP(l,j)之间的信道；

公式(4)是以多小区蜂窝通信系统对所有小区内AP的干扰小于一定阈值，所有小区内的BS与UE间波束赋形矩阵功率小于一定阈值以及所有RIS反射系数矩阵的相位偏移矢量满足[0,2π]的取值条件为约束条件，以提升多小区蜂窝通信系统中所有UE数据传输和速率即总吞吐量为优化目标的优化模型。

3.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法，其特征在于：步骤二的实现方法为，

Θ_l[t]表示智能体l即第l个小区内的RIS在t时刻的反射系数矩阵；

步骤2.3以各小区用户和速率表述奖励模型，具体为：

4.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法，其特征在于：步骤三的实现方法为，

步骤3.1分别以参数

和

随机初始化Actor当前网络

和Critic当前网络

其中，s_l[t]是状态，a_l[t]是动作；

是Actor当前网络的参数；

是Critic当前网络的参数，l∈{1,...,L}；

步骤3.2以参数

和

初始化Actor目标网络μ_l'和Critic目标网络Q_l'；

其中，

和

分别是目标网络μ_l'和Q_l'的参数，

表示将

赋值给

表示将

赋值给

步骤3.3初始化每个智能体的经验回放集合

的容量D即mini-batch的大小并清空集合

设训练的episode总数为E；设t∈{1,...,T}，其中T为每个episode采样时刻数；初始化衰减因子γ，软更新系数τ。

5.如权利要求1所述的一种基于MADDPG的多RIS通信网络速率提升方法，其特征在于：步骤四的实现方法为，

)选择对应的动作

步骤4.3将四元组{s[t],a[t],r[t],s'[t]}存入经验回放集合

步骤4.4如果集合

步骤4.5对于所有的智能体l∈{1,...,L}，进行如下步骤：

1)从经验回放集合

中随机抽取一小批个数为Z的样本{s^z[t],a^z[t],r^z[t],s'^z[t]}；

第z个样本在时刻t对应的动作记为a^z[t]，且

第z个样本在时刻t对应的奖励记为r^z[t]，且

第z个样本在时刻t对应的下一个状态记为s'^z[t]，且

z的取值范围满足z∈{1,...,Z}；

2)使用Critic的目标网络计算当前目标Q值，即

其中，Q_l'表示智能体l的Critic目标网络(参数

)；a'_l[t]是Actor的目标网络基于状态

得到的动作，其中l的取值范围为l∈{1,...,L}；

3)通过最小化损失函数

更新Critic当前网络的参数；

其中，Q_l表示智能体l的Critic目标网络(参数

)；f^z[t]是步骤2)中求得的当前目标Q值；

4)使用抽样策略梯度(PG)方法更新Actor的当前网络的参数

其中，l∈{1,...,L}；Q_l表示智能体l的Critic目标网络(参数

)；μ_l表示智能体l的Critic目标网络(参数

)；

表示智能体l的期望收益的梯度；

表示Actor当前网络

对参数

在状态s^z[t]时求导；

表示Critic当前网络

对参数

在状态等于s^z[t]，动作

求导；

步骤4.7更新状态s[t]＝s[t+1]。