CN114040415A - 智能反射面辅助的基于dqn-ddpg的资源分配方法 - Google Patents

智能反射面辅助的基于dqn-ddpg的资源分配方法 Download PDF

Info

Publication number
CN114040415A
CN114040415A CN202111292938.1A CN202111292938A CN114040415A CN 114040415 A CN114040415 A CN 114040415A CN 202111292938 A CN202111292938 A CN 202111292938A CN 114040415 A CN114040415 A CN 114040415A
Authority
CN
China
Prior art keywords
irs
base station
user
network
dqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111292938.1A
Other languages
English (en)
Inventor
吴伟
杨逢春
周福辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111292938.1A priority Critical patent/CN114040415A/zh
Publication of CN114040415A publication Critical patent/CN114040415A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种智能反射面(IRS)辅助的OFDM通信系统,通过部署一个IRS调整其相移以提高系统吞吐量。通过建模一种联合子载波分配、基站发射波束成型和IRS相移优化的设计问题。本发明提以实现系统吞吐量的最大化,在该方法中使用多个DQN以解决离散动作空间过大的问题,同时使用DDPG以解决连续动作分配的问题。仿真结果表明,与其他方法相比,所提出的基于DQN‑DDPG的方法可以从环境中学习并不断改善行为,显著提高系统的和速率,同时拥有良好的收敛效果。

Description

智能反射面辅助的基于DQN-DDPG的资源分配方法
技术领域
本发明涉及无线通信领域,具体来说是一种智能反射面(IntelligentReflecting Surface,IRS)辅助OFDM通信系统中基于深度Q神经网络(Deep Q-learningNetwork,DQN)和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的资源分配方法。在OFDM资源分配系统中引入DQN-DDPG算法,不仅可以成功解决离散连续变量同时优化的难题,还易于扩展到各种系统场景。
背景技术
正交频分多路复用(Orthogonal Frequency Division Multiplexing,OFDM)是一种在LTE和5G等许多通信中广泛采用的技术,该技术可以利用正交子载波实现高速率、鲁棒的信息传输,可有效避免信道间干扰。与此同时,通过优化OFDM通信系统的子载波和功率分配,可显著提高系统性能。随着移动互联网和无线业务的迅速发展,当前正面临移动数据量的爆炸性增长和更高数据速率需求的难题。与此同时,无线信道衰落环境会严重削弱OFDM通信系统性能,弱化用户体验。因此,如何进一步提升OFDM通信系统性能以迎合日益增长的用户需求,已成为当前业内普遍关心的一大紧迫问题。
最近,智能反射面(Intelligent Reflecting Surface,IRS)辅助增强无线通信被视为一种解决以上问题的理想方案。具体来说,IRS是一种可重构的超平面阵列,包括大量无源反射元件,这些元件能够独立地引起入射信号相移,从而协同改变反射信号传播,以在无线通信中实现期望的信道响应。通过适当调整IRS元件相移,不同路径的反射信号可以在接收机处相干组合,以最大化链路可达速率。此外,通过改变每个元件的电阻负载,还可实现对IRS反射幅度的灵活控制。其中,论文“IRS-Enhanced OFDMA:Joint ResourceAllocation and Passive Beamforming Optimization”是对IRS辅助下行OFDM通信系统的研究,采用了交替优化算法和连续凸近似技术,联合优化IRS反射系数、时频资源块和功率分配来最大化用户下行和速率,实验证明了IRS可以显著提升系统性能,但作者只考虑了单天线基站,而没有考虑多天线基站的场景。郑州大学发明的专利“一种基于IRS的安全波束成形方法与装置”是对IRS辅助安全通信的研究,同样也使用了交替优化的方法,在满足一定的安全速率情况下最大化能量收集。
但上述工作使用交替优化的传统技术,采用了复杂的数学公式和数值优化方法,对于大型复杂通信系统的实时性处理要求无法满足。因此,受到人工智能技术应用的启发,一些工作试图利用深度学习算法对IRS相移矩阵和波束成型矩阵进行优化,以最大化系统性能。作者Chongwen H,Ronghong Mo等人在发表的论文“Reconfigurable IntelligentSurface Assisted Multiuser MISO Systems Exploiting Deep ReinforcementLearning”中使用深度强化学习(Deep Reinforcement Learning,DRL)来解决波束成型矩阵和IRS相移矩阵的联合优化问题,但是作者只是在普通场景中。作者Keming Feng等人发表的论文“Deep Reinforcement Learning Based Intelligent Reflecting SurfaceOptimization for MISO Communication Systems”中采用DRL优化IRS相移矩阵,仿真结果表明,DRL算法相比于半正定松弛算法可以在更低的时间消耗下达到系统性能的上界,但该工作只考虑了特殊的单用户场景,更一般化且更复杂的多用户场景未见分析研究。
现有研究大多基于交替优化的方法,使用了复杂的数学公式和数值优化技术,难以真正解决多变量实时联合优化问题,而仅使用DQN或DDPG方法又无法解决离散连续混合动作空间的问题。因此,针对上述问题,本发明提出了基于DQN-DDPG的资源分配方法,联合优化子载波分配、波束成型和IRS无源波束相移,具有较好的收敛效果,同时很容易扩展到各种系统场景。
发明内容
本发明是针对IRS辅助OFDM通信场景下的资源分配问题,提出一种基于联合DQN和DDPG的强化学习优化方法,保证整个系统可以获得最大总速率。不仅可以成功解决离散连续混合变量同时优化的难题,还易于扩展到不同场景。
为实现上述目的,本发明的技术方法包括如下步骤:
包括如下步骤:
步骤1,设置基站、IRS及用户的位置,对基站到IRS、IRS到K个用户和基站到K个用户之间的信道进行建模,获取三者的信道增益;
步骤2,根据步骤1中三者的信道增益,获得系统和速率的优化问题;
步骤2.1,基站使用子载波c向用户k传输数据的可达速率可以表示为
Figure BDA0003335302340000021
步骤2.2,系统的目标为联合设计子载波分配,波束成形和IRS无源波束成形矩阵以最大化系统和速率,而这个目标要满足基站发射功率约束条件,IRS单元反射幅度约束条件,子载波使用方式约束条件,用户传输方式约束条件和用户的最小速率要求约束条件;
步骤3,根据通信系统中的用户子载波分配,基站波束成形,IRS无源波束成形相移,用户最小可达速率要求,系统的和速率,建立马尔可夫过程;
步骤4,利用联合DQN和DDPG算法优化强化学习模型;
步骤5,根据优化后的深度强化学习模型获得优化的解,得到系统的和速率;
输入当前的系统状态st,深度强化学习可以根据模型学习到最优的动作at,可得到优化问题的解、最优的子载波分配、波束成形和无源波束相移。
进一步的,所述步骤1中,IRS节点,基站节点和K个用户的分布进行如下定义:
所有通信节点建立三位笛卡尔坐标系,部署K个地面用户,固定高度的基站配有M根天线和固定高度的IRS配有N个反射单元并且每个反射单元的相位可以调整接收信号,则基站,IRS和第k个用户的位置为wB=[xB,yB,zB]T,wR=[xR,yR,zR]T,wk=[xk,yk,0]T,其中每个位置中的三个数分别表示对应的x,y,z轴坐标;
基站到用户的LoS路径被堵塞的情况下,基站到用户k的信道可以被建模为瑞利衰落信道,则信道增益可以被表示为:
Figure BDA0003335302340000031
其中
Figure BDA0003335302340000032
是具有零均值和单位方差的复高斯随机向量,PLB,k是基站和用户之间的路径损耗;
基站到IRS以及IRS到用户k之间的信道建模为莱斯衰落,因此相应的信道增益为:
Figure BDA0003335302340000033
Figure BDA0003335302340000034
其中K1和K2是Rician-K因子,
Figure BDA0003335302340000035
Figure BDA0003335302340000036
是具有零均值和单位方差的复高斯随机分量,而
Figure BDA0003335302340000037
Figure BDA0003335302340000038
是信道中的确定性分量,PLBR和PLRk是对应的路径损耗;
路径损耗可以被建模为:
Figure BDA0003335302340000039
其中PL0=30dB,D0=1m,ξ为路径损耗指数,d为链路之间的距离。
进一步的,所述步骤2.2中,用户可达速率为:
Figure BDA00033353023400000310
其中B是带宽,C是子载波数,
Figure BDA00033353023400000311
代表基站使用子载波c向用户k传输,反之代表没有使用子载波c,
Figure BDA00033353023400000312
表示基站使用子载波c向用户k发射的波束,而
Figure BDA00033353023400000313
表示噪声。
所述步骤2.2中,系统目标表述为
Figure BDA00033353023400000314
第一个约束条件为发射总功率不能超过基站最大发射功率,即
Figure BDA00033353023400000315
第二个约束条件表示IRS反射为全反射,即|φn|=1,第三个约束条件为每个子载波只有被使用和未被使用两种情况,即
Figure BDA00033353023400000316
第四个约束条件为一个子载波只能分配给一个用户使用,不能多个用户占用,即
Figure BDA0003335302340000041
第五个约束条件表示必须满足用户的最小可达速率要求,即
Figure BDA0003335302340000042
进一步的,所述步骤3中,马尔可夫过程具体表示为:
步骤3.1状态空间S:状态st由第t-1时间步的动作,可达速率和信道矩阵构成,由于信道矩阵具有虚实部,可以将虚部和实部作为独立的输入;
步骤3.2动作空间A:动作at由离散动作的子载波分配和连续动作的波束成形,IRS无源波束相移构成,为
Figure BDA0003335302340000043
步骤3.3即时奖励r:为确保满足每个用户的最小可达速率同时使得和速率最大化,奖励函数可以设置为
Figure BDA0003335302340000044
其中w1和w2为常系数,而δk表示为;
Figure BDA0003335302340000045
进一步的,所述步骤4中,具体包括以下步骤:
步骤4.1,训练回合ep初始化为0;
步骤4.2,ep回合中的时间步t初始化为0;
步骤4.3,根据输入的状态st,C个DQN网络获得离散动作
Figure BDA0003335302340000046
步骤4.4,根据输入的状态st,Actor在线网络获得连续动作
Figure BDA0003335302340000047
步骤4.5,获取总的网络即时奖励rt,同时转换到下一状态st+1,获取训练集(st,at,rt,st+1);
步骤4.6,将训练数据集存储到经验回放池D中;
步骤4.7,判断是否满足t<T,T为ep回合的总步数,若是则t=t+1,返回(4.3),若不是则进入(4.8);
步骤4.8,从经验回放池D中随机采样一批N数量样本构成的数据集,发送给在线DQN网络,目标DQN网络,在线Actor网络,目标Actor网络,在线Critic网络,目标Critic网络;
步骤4.9,DQN网络数目c初始化为0;
步骤4.10,根据采样的数据集,第c个DQN网络根据状态si和ai得到对应的Q(si,ai;w),根据si+1得到最优的Q(si+1;w)值,根据回报ri和Q值得到网络的LOSS函数为
Figure BDA0003335302340000051
在线网络通过最小化LOSS函数来更新参数w;
步骤4.11,判断是否满足c=C-1,C为总的DQN网络数量,若不满足则c=c+1,返回4-10,若不是进入(4.12);
步骤4.12,根据采样的数据集,在线Actor网络根据状态si,得到动作ai=π(si;μ),将状态si和得到的动作ai=π(si;μ)输入在线Critic网络,获得Q(si,π(si;μ);w),根据
Figure BDA0003335302340000052
来对在线Actor网络参数θ进行更新,同样利用
Figure BDA0003335302340000053
对在线Critic网络参数进行更新;
步骤4.13,每U轮利用在线Actor网络参数μ更目标Actor网络中参数μ-,利用在线Critic网络参数θ更新目标Critic网络中参数θ-
步骤4.14,判断是否满足轮数ep<EP,EP为总回合数,若是,则ep=ep+1,返回(4.2),若不是,则优化结束,得到优化后的强化学习模型。
本发明具有以下优点:
1、无线信道传播的衰弱特性使得OFDM通信系统性能难以获得保证,本发明将IRS引入OFDM通信系统,克服了信道衰落的不利影响,显著增强了接收端信号强度,保障了OFDM通信系统的高可达速率性能。
2、本发明首次在IRS辅助资源分配场景中引入DQN-DDPG的框架,相比于传统的交替优化算法,解决了众多参数难以同时在线优化的问题,提出的DQN-DDPG方法不需要使用复杂的数学公式和数值优化技术,很容易扩展到各种系统场景。
3、信道分配是一个组合问题,使用单个DQN会使离散动作空间呈指数次方扩大,显著增加问题复杂度,因此本发明使用多个DQN来解决该问题,将指数次方增长的动作空间变为乘积大小,极大地降低了复杂度。
附图说明
图1为基于DQN-DDPG算法框图。
图2为本发明中DQN-DDPG算法在训练步数下的奖励图。
图3为在不同发射功率和IRS无源反射单元数量下的和速率图。
图4为在训练步骤下的用户速率图。
具体实施方式
下面结合附图对发明做进一步描述。
本发明的技术方法包括如下步骤。
步骤1,设置基站,IRS和用户的位置。对基站到IRS、IRS到K个用户和基站到K个用户之间的信道进行建模,获取三者的信道增益。
IRS节点、基站节点和K个用户的分布进行如下定义:
所有通信节点建立三位笛卡尔坐标系,部署K个地面用户,固定高度的基站配有M根天线和固定高度的IRS配有N个反射单元并且每个反射单元的相位可以调整接收信号,则基站、IRS和第k用户的坐标为wB=[xB,yB,zB]T,wR=[xR,yR,zR]T,wk=[xk,yk,0]T
基站到用户的LoS路径被堵塞的情况下,基站到用户k的信道可以被建模为瑞利衰落信道,则信道增益可以被表示为:
Figure BDA0003335302340000061
其中
Figure BDA0003335302340000062
是具有零均值和单位方差的复高斯随机向量,PLB,k是基站和用户之间的路径损耗;
基站到IRS以及IRS到用户k之间的信道建模为莱斯衰落,因此相应的信道增益为:
Figure BDA0003335302340000063
Figure BDA0003335302340000064
其中K1和K2是Rician-K因子,
Figure BDA0003335302340000065
Figure BDA0003335302340000066
是具有零均值和单位方差的复高斯随机分量,而
Figure BDA0003335302340000067
Figure BDA0003335302340000068
是信道中的确定性分量,PLBR和PLRk是对应的路径损耗。
路径损耗可以被建模为:
Figure BDA0003335302340000069
其中PL0=30dB,D0=1m,ξ为路径损耗指数,d为链路之间的距离。
步骤2,根据步骤1中获得的信道增益,建模系统总速率最大化的优化问题。
基站使用子载波c向用户k传输数据的可达速率为:
Figure BDA00033353023400000610
其中B是带宽,C是子载波数,
Figure BDA00033353023400000611
代表基站使用子载波c向用户k传输,反之代表没有使用子载波c,
Figure BDA0003335302340000071
表示基站使用子载波c向用户k发射的波束,而
Figure BDA0003335302340000072
表示噪声。
系统的目标为联合设计子载波分配、波束成型和IRS无源波束矩阵以最大化系统的和速率,该问题可以表述为
Figure BDA0003335302340000073
第一个约束为发射总功率不能超过基站最大发射功率,即
Figure BDA0003335302340000074
第二个约束表示IRS反射为全反射,即|φn|=1。第三个约束为每个子载波只有被使用和未被使用两种情况,即
Figure BDA0003335302340000075
第四个约束为一个子载波只能分配给一个用户使用,不能多个用户占用,即
Figure BDA0003335302340000076
第五个约束表示必须满足用户的最小可达速率要求,即
Figure BDA0003335302340000077
步骤3,根据通信系统中的用户子载波分配、基站波束成型、IRS无源波束相移、用户最小可达速率要求以及系统的和速率,建立深度强化学习模型。
建立马尔可夫过程为:
步骤3-1、状态空间S:状态st由第t-1时间步的动作,可达速率和信道矩阵构成,由于信道矩阵具有虚实部,可以将虚部和实部作为独立的输入。
步骤3-2、动作空间A:动作at由离散动作的子载波分配和连续动作的波束成型,IRS无源波束相移构成,为
Figure BDA0003335302340000078
步骤3-3、即时奖励r:为确保满足每个用户的最小可达速率同时使得总速率最大化,奖励函数可以设置为
Figure BDA0003335302340000079
其中w1和w2为常系数,而δk表示为:
Figure BDA00033353023400000710
步骤4,利用联合DQN和DDPG算法优化强化学习模型。
具体包括以下步骤:
步骤4-1、训练回合ep初始化为0;
步骤4-2、ep回合中的时间步t初始化为0;
步骤4-3、根据输入的状态st,C个DQN网络获得离散动作
Figure BDA00033353023400000711
步骤4-4、根据输入的状态st,Actor在线网络获得连续动作
Figure BDA00033353023400000712
步骤4-5、获取总的网络即时奖励rt,同时转换到下一状态st+1,获取训练集(st,at,rt,st+1);
步骤4-6、将训练数据集存储到经验回放池D中;
步骤4-7、判断是否满足t<T,T为ep回合的总步数,若是则t=t+1,返回步骤4-3,若不是则进入步骤4-8;
步骤4-8、从经验回放池D中随机采样一批N数量样本构成的数据集,发送给在线DQN网络、目标DQN网络、在线Actor网络、目标Actor网络、在线Critic网络和目标Critic网络;
步骤4-9、DQN网络数目c初始化为0;
步骤4-10、根据采样的数据集,第c个DQN网络根据状态si和ai得到对应的Q(si,ai;w),根据si+1得到最优的Q(si+1;w)值,根据回报ri和Q值得到网络的loss函数为
Figure BDA0003335302340000081
在线网络通过最小化LOSS函数来更新参数w;
步骤4-11、判断是否满足c=C-1,C为总的DQN网络数量,若不满足则c=c+1,返回步骤4-10,若不是进入步骤4-12;
步骤4-12、根据采样的数据集,在线Actor网络根据状态si,得到动作ai=π(si;μ),将状态si和得到的动作ai=π(si;μ)输入在线Critic网络,获得Q(si,π(si;μ);w),根据
Figure BDA0003335302340000082
来对在线Actor网络参数θ进行更新,同样利用
Figure BDA0003335302340000083
对在线Critic网络参数进行更新;
步骤4-13、每U轮利用在线Actor网络参数μ更目标Actor网络中参数μ-,利用在线Critic网络参数θ更新目标Critic网络中参数θ-
步骤4-14、判断是否满足轮数ep<EP,EP为总回合数,若是,则ep=ep+1,返回步骤4-2,若不是,则优化结束,得到优化后的强化学习模型。
步骤5,根据优化后的深度强化学习模型获得优化的解,得到系统总速率。
输入当前的系统状态st,深度强化学习可以根据模型学习到最优的动作at,可得到优化问题的解、最优的子载波分配、波束成型和无源波束相移。
本发明的性能效果可以通过以下仿真进一步说明:
1.仿真条件
假设通信系统中有K=3个下行用户,基站的天线数为M=8,IRS的无源反射单元数为N=16,子载波数为C=7。基站的位置为[0,0,30]T,IRS的位置为[75,100,40]T,用户k的位置位于[xk,yk,0]T,其中100<xk<200,0<yk<100。基站到用户的直达链路路径损耗指数为3.75,而反射链路为2.2,参考距离1m的信道衰落为30dB,基站最大发射功率为35dB,信道带宽为1MHz,噪声功率为-169dBm。
2.仿真内容
附图2分别展示了使用基于DQN-DDPG算法的IRS辅助资源分配奖励图、基于DQN-DDPG算法的无IRS辅助资源分配奖励图以及随机资源分配奖励图,将使用IRS和未使用IRS的曲线进行对比,证明了使用IRS可以大幅提升系统的和速率,将使用DQN-DDPG算法的曲线图和随机分配的曲线图进行对比,可以证明算法的有效性。
附图3展示了在不同无源反射单元数和不同发射功率下系统和速率的变化。可以看到随着基站总功率的增加,更多的发射功率被分配给用户,提出的基于DQN-DDPG算法会实现更高的系统总速率。随着无源反射单元数的增加,总速率会随之提升,证明了IRS对提高通信质量的有效性。
附图4显示了随着回合数的增加各个用户最终可达速率趋于稳定,算法随着与环境的不断交互能够学习并调整优化变量以逼近最优解,有效满足各个用户自身的最低传输速率要求,进行合理的资源分配,同时还可以达到最大的系统总速率。
综合上述仿真结果和分析,本发明所提出的基于DQN-DDPG的智能反射面辅助OFDM通信系统资源分配方法,能使得整个系统获得最大的和速率,而且不需要复杂的数学公式推导和优化技巧,方法实现的实时性效果好,很容易扩展到各种系统设置,这使得该发明在实际中能更好的得到应用。

Claims (6)

1.智能反射面辅助的基于DQN-DDPG的资源分配方法,其特征在于:包括如下步骤:
步骤1,设置基站、IRS及用户的位置,对基站到IRS、IRS到K个用户和基站到K个用户之间的信道进行建模,获取三者的信道增益;
步骤2,根据步骤1中三者的信道增益,获得系统和速率的优化问题;
步骤2.1,基站使用子载波c向用户k传输数据的可达速率可以表示为
Figure FDA0003335302330000015
步骤2.2,系统的目标为联合设计子载波分配,波束成形和IRS无源波束成形矩阵以最大化系统和速率,而这个目标要满足基站发射功率约束条件,IRS单元反射幅度约束条件,子载波使用方式约束条件,用户传输方式约束条件和用户的最小速率要求约束条件;
步骤3,根据通信系统中的用户子载波分配,基站波束成形,IRS无源波束成形相移,用户最小可达速率要求,系统的和速率,建立马尔可夫过程;
步骤4,利用联合DQN和DDPG算法优化强化学习模型;
步骤5,根据优化后的深度强化学习模型获得优化的解,得到系统的和速率;
输入当前的系统状态st,深度强化学习可以根据模型学习到最优的动作at,可得到优化问题的解、最优的子载波分配、波束成形和无源波束相移。
2.根据权利要求1所述的智能反射面辅助的基于DQN-DDPG的资源分配方法,其特征在于:所述步骤1中,IRS节点,基站节点和K个用户的分布进行如下定义:
所有通信节点建立三位笛卡尔坐标系,部署K个地面用户,固定高度的基站配有M根天线和固定高度的IRS配有N个反射单元并且每个反射单元的相位可以调整接收信号,则基站,IRS和第k个用户的位置为wB=[xB,yB,zB]T,wR=[xR,yR,zR]T,wk=[xk,yk,0]T,其中每个位置中的三个数分别表示对应的x,y,z轴坐标;
基站到用户的LoS路径被堵塞的情况下,基站到用户k的信道可以被建模为瑞利衰落信道,则信道增益可以被表示为:
Figure FDA0003335302330000011
其中
Figure FDA0003335302330000012
是具有零均值和单位方差的复高斯随机向量,PLB,k是基站和用户之间的路径损耗;
基站到IRS以及IRS到用户k之间的信道建模为莱斯衰落,因此相应的信道增益为:
Figure FDA0003335302330000013
Figure FDA0003335302330000014
其中K1和K2是Rician-K因子,
Figure FDA0003335302330000021
Figure FDA0003335302330000022
是具有零均值和单位方差的复高斯随机分量,而
Figure FDA0003335302330000023
Figure FDA0003335302330000024
是信道中的确定性分量,PLBR和PLRk是对应的路径损耗;
路径损耗可以被建模为:
Figure FDA0003335302330000025
其中PL0=30dB,D0=1m,ξ为路径损耗指数,d为链路之间的距离。
3.根据权利要求1所述的智能反射面辅助的基于DQN-DDPG的资源分配方法,其特征在于:所述步骤2.2中,用户可达速率为:
Figure FDA0003335302330000026
其中B是带宽,C是子载波数,
Figure FDA0003335302330000027
代表基站使用子载波c向用户k传输,反之代表没有使用子载波c,
Figure FDA0003335302330000028
表示基站使用子载波c向用户k发射的波束,而
Figure FDA0003335302330000029
表示噪声。
4.根据权利要求1所述的智能反射面辅助的基于DQN-DDPG的资源分配方法,其特征在于:所述步骤2.2中,系统目标表述为
Figure FDA00033353023300000210
第一个约束条件为发射总功率不能超过基站最大发射功率,即
Figure FDA00033353023300000211
第二个约束条件表示IRS反射为全反射,即|φn|=1,第三个约束条件为每个子载波只有被使用和未被使用两种情况,即
Figure FDA00033353023300000212
第四个约束条件为一个子载波只能分配给一个用户使用,不能多个用户占用,即
Figure FDA00033353023300000213
第五个约束条件表示必须满足用户的最小可达速率要求,即
Figure FDA00033353023300000214
5.根据权利要求1所述的智能反射面辅助的基于DQN-DDPG的资源分配方法,其特征在于:所述步骤3中,马尔可夫过程具体表示为:
步骤3.1状态空间S:状态st由第t-1时间步的动作,可达速率和信道矩阵构成,由于信道矩阵具有虚实部,可以将虚部和实部作为独立的输入;
步骤3.2动作空间A:动作at由离散动作的子载波分配和连续动作的波束成形,IRS无源波束相移构成,为
Figure FDA00033353023300000215
步骤3.3即时奖励r:为确保满足每个用户的最小可达速率同时使得和速率最大化,奖励函数可以设置为
Figure FDA0003335302330000031
其中w1和w2为常系数,而δk表示为;
Figure FDA0003335302330000032
6.根据权利要求1所述的智能反射面辅助的基于DQN-DDPG的资源分配方法,其特征在于:所述步骤4中,具体包括以下步骤:
步骤4.1,训练回合ep初始化为0;
步骤4.2,ep回合中的时间步t初始化为0;
步骤4.3,根据输入的状态st,C个DQN网络获得离散动作
Figure FDA0003335302330000033
步骤4.4,根据输入的状态st,Actor在线网络获得连续动作
Figure FDA0003335302330000034
步骤4.5,获取总的网络即时奖励rt,同时转换到下一状态st+1,获取训练集(st,at,rt,st +1);
步骤4.6,将训练数据集存储到经验回放池D中;
步骤4.7,判断是否满足t<T,T为ep回合的总步数,若是则t=t+1,返回(4.3),若不是则进入(4.8);
步骤4.8,从经验回放池D中随机采样一批N数量样本构成的数据集,发送给在线DQN网络,目标DQN网络,在线Actor网络,目标Actor网络,在线Critic网络,目标Critic网络;
步骤4.9,DQN网络数目c初始化为0;
步骤4.10,根据采样的数据集,第c个DQN网络根据状态si和ai得到对应的Q(si,ai;w),根据si+1得到最优的Q(si+1;w)值,根据回报ri和Q值得到网络的LOSS函数为
Figure FDA0003335302330000035
在线网络通过最小化LOSS函数来更新参数w;
步骤4.11,判断是否满足c=C-1,C为总的DQN网络数量,若不满足则c=c+1,返回4-10,若不是进入(4.12);
步骤4.12,根据采样的数据集,在线Actor网络根据状态si,得到动作ai=π(si;μ),将状态si和得到的动作ai=π(si;μ)输入在线Critic网络,获得Q(si,π(si;μ);w),根据
Figure FDA0003335302330000036
来对在线Actor网络参数θ进行更新,同样利用
Figure FDA0003335302330000041
对在线Critic网络参数进行更新;
步骤4.13,每U轮利用在线Actor网络参数μ更目标Actor网络中参数μ-,利用在线Critic网络参数θ更新目标Critic网络中参数θ-
步骤4.14,判断是否满足轮数ep<EP,EP为总回合数,若是,则ep=ep+1,返回(4.2),若不是,则优化结束,得到优化后的强化学习模型。
CN202111292938.1A 2021-11-03 2021-11-03 智能反射面辅助的基于dqn-ddpg的资源分配方法 Pending CN114040415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111292938.1A CN114040415A (zh) 2021-11-03 2021-11-03 智能反射面辅助的基于dqn-ddpg的资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111292938.1A CN114040415A (zh) 2021-11-03 2021-11-03 智能反射面辅助的基于dqn-ddpg的资源分配方法

Publications (1)

Publication Number Publication Date
CN114040415A true CN114040415A (zh) 2022-02-11

Family

ID=80136101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111292938.1A Pending CN114040415A (zh) 2021-11-03 2021-11-03 智能反射面辅助的基于dqn-ddpg的资源分配方法

Country Status (1)

Country Link
CN (1) CN114040415A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114915976A (zh) * 2022-03-21 2022-08-16 东南大学 一种智能反射面辅助的超可靠低延时通信系统高能效预编码设计方法
CN115460699A (zh) * 2022-07-18 2022-12-09 北京交通大学 一种基于深度强化学习的无线传输空时频资源配置方法
CN116527178A (zh) * 2023-04-11 2023-08-01 南京邮电大学 一种智能反射面辅助的智能语义通信系统资源分配方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114915976A (zh) * 2022-03-21 2022-08-16 东南大学 一种智能反射面辅助的超可靠低延时通信系统高能效预编码设计方法
CN115460699A (zh) * 2022-07-18 2022-12-09 北京交通大学 一种基于深度强化学习的无线传输空时频资源配置方法
CN116527178A (zh) * 2023-04-11 2023-08-01 南京邮电大学 一种智能反射面辅助的智能语义通信系统资源分配方法
CN116527178B (zh) * 2023-04-11 2024-08-16 南京邮电大学 一种智能反射面辅助的智能语义通信系统资源分配方法

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN114040415A (zh) 智能反射面辅助的基于dqn-ddpg的资源分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
Wang et al. Joint interference alignment and power control for dense networks via deep reinforcement learning
CN111901862A (zh) 一种基于深度q网络的用户分簇与功率分配方法、设备和介质
CN109274456B (zh) 一种基于强化学习的不完全信息智能抗干扰方法
CN112566253B (zh) 一种无线资源分配联合优化方法及装置
CN109547076B (zh) 一种毫米波大规模mimo系统中的混合预编码方法
CN112583453A (zh) 多波束leo卫星通信系统下行noma功率分配方法
CN108880734A (zh) 量子回溯搜索优化的CCFD-Massive MIMO系统功率分配方法
CN115412936A (zh) 一种基于多智能体dqn的irs辅助d2d系统资源分配方法
CN117615393A (zh) 基于深度强化学习的star-ris通信系统的资源优化方法
Deng et al. Joint flexible duplexing and power allocation with deep reinforcement learning in cell-free massive MIMO system
CN111917444B (zh) 一种适用于毫米波mimo-noma系统的资源分配方法
Liu et al. Power allocation in ultra-dense networks through deep deterministic policy gradient
Alajmi et al. An efficient actor critic drl framework for resource allocation in multi-cell downlink noma
CN116390056B (zh) Star-ris辅助的车联网sr系统链路优化方法
CN116321236A (zh) Ris辅助的安全无蜂窝大规模mimo系统能效优化方法
CN108601083B (zh) D2d通信中基于非合作博弈的资源管理方法
CN114727318A (zh) 一种基于maddpg的多ris通信网络速率提升方法
CN113766492A (zh) 一种安全Massive MIMO网络资源配置方法
CN113595609A (zh) 一种基于强化学习的蜂窝移动通信系统协作式信号发送方法
Zhong et al. STAR-RISs assisted NOMA networks: A tile-based passive beamforming approach
CN116527178B (zh) 一种智能反射面辅助的智能语义通信系统资源分配方法
CN114389784B (zh) 基于迁移学习的下行miso-ofdma协作传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination