CN114040415A

CN114040415A - 智能反射面辅助的基于dqn-ddpg的资源分配方法

Info

Publication number: CN114040415A
Application number: CN202111292938.1A
Authority: CN
Inventors: 吴伟; 杨逢春; 周福辉
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-11

Abstract

本发明公开了一种智能反射面(IRS)辅助的OFDM通信系统，通过部署一个IRS调整其相移以提高系统吞吐量。通过建模一种联合子载波分配、基站发射波束成型和IRS相移优化的设计问题。本发明提以实现系统吞吐量的最大化，在该方法中使用多个DQN以解决离散动作空间过大的问题，同时使用DDPG以解决连续动作分配的问题。仿真结果表明，与其他方法相比，所提出的基于DQN‑DDPG的方法可以从环境中学习并不断改善行为，显著提高系统的和速率，同时拥有良好的收敛效果。

Description

智能反射面辅助的基于DQN-DDPG的资源分配方法

技术领域

本发明涉及无线通信领域，具体来说是一种智能反射面(IntelligentReflecting Surface,IRS)辅助OFDM通信系统中基于深度Q神经网络(Deep Q-learningNetwork,DQN)和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的资源分配方法。在OFDM资源分配系统中引入DQN-DDPG算法，不仅可以成功解决离散连续变量同时优化的难题，还易于扩展到各种系统场景。

背景技术

正交频分多路复用(Orthogonal Frequency Division Multiplexing,OFDM)是一种在LTE和5G等许多通信中广泛采用的技术，该技术可以利用正交子载波实现高速率、鲁棒的信息传输，可有效避免信道间干扰。与此同时，通过优化OFDM通信系统的子载波和功率分配，可显著提高系统性能。随着移动互联网和无线业务的迅速发展，当前正面临移动数据量的爆炸性增长和更高数据速率需求的难题。与此同时，无线信道衰落环境会严重削弱OFDM通信系统性能，弱化用户体验。因此，如何进一步提升OFDM通信系统性能以迎合日益增长的用户需求，已成为当前业内普遍关心的一大紧迫问题。

最近，智能反射面(Intelligent Reflecting Surface,IRS)辅助增强无线通信被视为一种解决以上问题的理想方案。具体来说，IRS是一种可重构的超平面阵列，包括大量无源反射元件，这些元件能够独立地引起入射信号相移，从而协同改变反射信号传播，以在无线通信中实现期望的信道响应。通过适当调整IRS元件相移，不同路径的反射信号可以在接收机处相干组合，以最大化链路可达速率。此外，通过改变每个元件的电阻负载，还可实现对IRS反射幅度的灵活控制。其中，论文“IRS-Enhanced OFDMA:Joint ResourceAllocation and Passive Beamforming Optimization”是对IRS辅助下行OFDM通信系统的研究，采用了交替优化算法和连续凸近似技术，联合优化IRS反射系数、时频资源块和功率分配来最大化用户下行和速率，实验证明了IRS可以显著提升系统性能，但作者只考虑了单天线基站，而没有考虑多天线基站的场景。郑州大学发明的专利“一种基于IRS的安全波束成形方法与装置”是对IRS辅助安全通信的研究，同样也使用了交替优化的方法，在满足一定的安全速率情况下最大化能量收集。

但上述工作使用交替优化的传统技术，采用了复杂的数学公式和数值优化方法，对于大型复杂通信系统的实时性处理要求无法满足。因此，受到人工智能技术应用的启发，一些工作试图利用深度学习算法对IRS相移矩阵和波束成型矩阵进行优化，以最大化系统性能。作者Chongwen H，Ronghong Mo等人在发表的论文“Reconfigurable IntelligentSurface Assisted Multiuser MISO Systems Exploiting Deep ReinforcementLearning”中使用深度强化学习(Deep Reinforcement Learning,DRL)来解决波束成型矩阵和IRS相移矩阵的联合优化问题，但是作者只是在普通场景中。作者Keming Feng等人发表的论文“Deep Reinforcement Learning Based Intelligent Reflecting SurfaceOptimization for MISO Communication Systems”中采用DRL优化IRS相移矩阵，仿真结果表明，DRL算法相比于半正定松弛算法可以在更低的时间消耗下达到系统性能的上界，但该工作只考虑了特殊的单用户场景，更一般化且更复杂的多用户场景未见分析研究。

现有研究大多基于交替优化的方法，使用了复杂的数学公式和数值优化技术，难以真正解决多变量实时联合优化问题，而仅使用DQN或DDPG方法又无法解决离散连续混合动作空间的问题。因此，针对上述问题，本发明提出了基于DQN-DDPG的资源分配方法，联合优化子载波分配、波束成型和IRS无源波束相移，具有较好的收敛效果，同时很容易扩展到各种系统场景。

发明内容

本发明是针对IRS辅助OFDM通信场景下的资源分配问题，提出一种基于联合DQN和DDPG的强化学习优化方法，保证整个系统可以获得最大总速率。不仅可以成功解决离散连续混合变量同时优化的难题，还易于扩展到不同场景。

为实现上述目的，本发明的技术方法包括如下步骤：

包括如下步骤：

步骤1，设置基站、IRS及用户的位置，对基站到IRS、IRS到K个用户和基站到K个用户之间的信道进行建模，获取三者的信道增益；

步骤2，根据步骤1中三者的信道增益，获得系统和速率的优化问题；

步骤2.1，基站使用子载波c向用户k传输数据的可达速率可以表示为

步骤2.2，系统的目标为联合设计子载波分配，波束成形和IRS无源波束成形矩阵以最大化系统和速率，而这个目标要满足基站发射功率约束条件，IRS单元反射幅度约束条件，子载波使用方式约束条件，用户传输方式约束条件和用户的最小速率要求约束条件；

步骤3，根据通信系统中的用户子载波分配，基站波束成形，IRS无源波束成形相移，用户最小可达速率要求，系统的和速率，建立马尔可夫过程；

步骤4，利用联合DQN和DDPG算法优化强化学习模型；

步骤5，根据优化后的深度强化学习模型获得优化的解，得到系统的和速率；

输入当前的系统状态s^t，深度强化学习可以根据模型学习到最优的动作a^t，可得到优化问题的解、最优的子载波分配、波束成形和无源波束相移。

进一步的，所述步骤1中，IRS节点，基站节点和K个用户的分布进行如下定义：

所有通信节点建立三位笛卡尔坐标系，部署K个地面用户，固定高度的基站配有M根天线和固定高度的IRS配有N个反射单元并且每个反射单元的相位可以调整接收信号，则基站，IRS和第k个用户的位置为w_B＝[x_B,y_B,z_B]^T，w_R＝[x_R,y_R,z_R]^T，w_k＝[x_k,y_k,0]^T，其中每个位置中的三个数分别表示对应的x,y,z轴坐标；

基站到用户的LoS路径被堵塞的情况下，基站到用户k的信道可以被建模为瑞利衰落信道，则信道增益可以被表示为：

其中

是具有零均值和单位方差的复高斯随机向量，PL_B,k是基站和用户之间的路径损耗；

基站到IRS以及IRS到用户k之间的信道建模为莱斯衰落，因此相应的信道增益为：

其中K₁和K₂是Rician-K因子，

和

是具有零均值和单位方差的复高斯随机分量，而

和

是信道中的确定性分量，PL_BR和PL_Rk是对应的路径损耗；

路径损耗可以被建模为：

其中PL₀＝30dB，D₀＝1m，ξ为路径损耗指数，d为链路之间的距离。

进一步的，所述步骤2.2中，用户可达速率为：

其中B是带宽，C是子载波数，

代表基站使用子载波c向用户k传输，反之代表没有使用子载波c，

表示基站使用子载波c向用户k发射的波束，而

表示噪声。

所述步骤2.2中，系统目标表述为

第一个约束条件为发射总功率不能超过基站最大发射功率，即

第二个约束条件表示IRS反射为全反射，即|φ_n|＝1，第三个约束条件为每个子载波只有被使用和未被使用两种情况，即

第四个约束条件为一个子载波只能分配给一个用户使用，不能多个用户占用，即

第五个约束条件表示必须满足用户的最小可达速率要求，即

进一步的，所述步骤3中，马尔可夫过程具体表示为：

步骤3.1状态空间S：状态s^t由第t-1时间步的动作，可达速率和信道矩阵构成，由于信道矩阵具有虚实部，可以将虚部和实部作为独立的输入；

步骤3.2动作空间A：动作a^t由离散动作的子载波分配和连续动作的波束成形，IRS无源波束相移构成，为

步骤3.3即时奖励r：为确保满足每个用户的最小可达速率同时使得和速率最大化，奖励函数可以设置为

其中w₁和w₂为常系数，而δ_k表示为；

进一步的，所述步骤4中，具体包括以下步骤：

步骤4.1，训练回合ep初始化为0；

步骤4.2，ep回合中的时间步t初始化为0；

步骤4.3，根据输入的状态s^t，C个DQN网络获得离散动作

步骤4.4，根据输入的状态s^t，Actor在线网络获得连续动作

步骤4.5，获取总的网络即时奖励r^t，同时转换到下一状态s^t+1，获取训练集(s^t,a^t,r^t,s^t+1)；

步骤4.6，将训练数据集存储到经验回放池D中；

步骤4.7，判断是否满足t<T，T为ep回合的总步数，若是则t＝t+1，返回(4.3)，若不是则进入(4.8)；

步骤4.8，从经验回放池D中随机采样一批N数量样本构成的数据集，发送给在线DQN网络，目标DQN网络，在线Actor网络，目标Actor网络，在线Critic网络，目标Critic网络；

步骤4.9，DQN网络数目c初始化为0；

步骤4.10，根据采样的数据集，第c个DQN网络根据状态sⁱ和aⁱ得到对应的Q(sⁱ,aⁱ；w)，根据sⁱ⁺¹得到最优的Q(sⁱ⁺¹；w)值，根据回报rⁱ和Q值得到网络的LOSS函数为

在线网络通过最小化LOSS函数来更新参数w；

步骤4.11，判断是否满足c＝C-1，C为总的DQN网络数量，若不满足则c＝c+1，返回4-10，若不是进入(4.12)；

步骤4.12，根据采样的数据集，在线Actor网络根据状态sⁱ，得到动作aⁱ＝π(sⁱ；μ)，将状态sⁱ和得到的动作aⁱ＝π(sⁱ；μ)输入在线Critic网络，获得Q(sⁱ,π(sⁱ；μ)；w)，根据

来对在线Actor网络参数θ进行更新，同样利用

对在线Critic网络参数进行更新；

步骤4.13，每U轮利用在线Actor网络参数μ更目标Actor网络中参数μ^-，利用在线Critic网络参数θ更新目标Critic网络中参数θ^-；

步骤4.14，判断是否满足轮数ep<EP，EP为总回合数，若是，则ep＝ep+1，返回(4.2)，若不是，则优化结束，得到优化后的强化学习模型。

本发明具有以下优点：

1、无线信道传播的衰弱特性使得OFDM通信系统性能难以获得保证，本发明将IRS引入OFDM通信系统，克服了信道衰落的不利影响，显著增强了接收端信号强度，保障了OFDM通信系统的高可达速率性能。

2、本发明首次在IRS辅助资源分配场景中引入DQN-DDPG的框架，相比于传统的交替优化算法，解决了众多参数难以同时在线优化的问题，提出的DQN-DDPG方法不需要使用复杂的数学公式和数值优化技术，很容易扩展到各种系统场景。

3、信道分配是一个组合问题，使用单个DQN会使离散动作空间呈指数次方扩大，显著增加问题复杂度，因此本发明使用多个DQN来解决该问题，将指数次方增长的动作空间变为乘积大小，极大地降低了复杂度。

附图说明

图1为基于DQN-DDPG算法框图。

图2为本发明中DQN-DDPG算法在训练步数下的奖励图。

图3为在不同发射功率和IRS无源反射单元数量下的和速率图。

图4为在训练步骤下的用户速率图。

具体实施方式

下面结合附图对发明做进一步描述。

本发明的技术方法包括如下步骤。

步骤1，设置基站，IRS和用户的位置。对基站到IRS、IRS到K个用户和基站到K个用户之间的信道进行建模，获取三者的信道增益。

IRS节点、基站节点和K个用户的分布进行如下定义：

所有通信节点建立三位笛卡尔坐标系，部署K个地面用户，固定高度的基站配有M根天线和固定高度的IRS配有N个反射单元并且每个反射单元的相位可以调整接收信号，则基站、IRS和第k用户的坐标为w_B＝[x_B,y_B,z_B]^T，w_R＝[x_R,y_R,z_R]^T，w_k＝[x_k,y_k,0]^T；

其中

其中K₁和K₂是Rician-K因子，

和

是具有零均值和单位方差的复高斯随机分量，而

和

是信道中的确定性分量，PL_BR和PL_Rk是对应的路径损耗。

路径损耗可以被建模为：

步骤2，根据步骤1中获得的信道增益，建模系统总速率最大化的优化问题。

基站使用子载波c向用户k传输数据的可达速率为：

其中B是带宽，C是子载波数，

表示基站使用子载波c向用户k发射的波束，而

表示噪声。

系统的目标为联合设计子载波分配、波束成型和IRS无源波束矩阵以最大化系统的和速率，该问题可以表述为

第一个约束为发射总功率不能超过基站最大发射功率，即

第二个约束表示IRS反射为全反射，即|φ_n|＝1。第三个约束为每个子载波只有被使用和未被使用两种情况，即

第四个约束为一个子载波只能分配给一个用户使用，不能多个用户占用，即

第五个约束表示必须满足用户的最小可达速率要求，即

步骤3，根据通信系统中的用户子载波分配、基站波束成型、IRS无源波束相移、用户最小可达速率要求以及系统的和速率，建立深度强化学习模型。

建立马尔可夫过程为：

步骤3-1、状态空间S：状态s^t由第t-1时间步的动作，可达速率和信道矩阵构成，由于信道矩阵具有虚实部，可以将虚部和实部作为独立的输入。

步骤3-2、动作空间A：动作a^t由离散动作的子载波分配和连续动作的波束成型，IRS无源波束相移构成，为

步骤3-3、即时奖励r：为确保满足每个用户的最小可达速率同时使得总速率最大化，奖励函数可以设置为

其中w₁和w₂为常系数，而δ_k表示为：

步骤4，利用联合DQN和DDPG算法优化强化学习模型。

具体包括以下步骤：

步骤4-1、训练回合ep初始化为0；

步骤4-2、ep回合中的时间步t初始化为0；

步骤4-3、根据输入的状态s^t，C个DQN网络获得离散动作

步骤4-4、根据输入的状态s^t，Actor在线网络获得连续动作

步骤4-5、获取总的网络即时奖励r^t，同时转换到下一状态s^t+1，获取训练集(s^t,a^t,r^t,s^t+1)；

步骤4-6、将训练数据集存储到经验回放池D中；

步骤4-7、判断是否满足t<T，T为ep回合的总步数，若是则t＝t+1，返回步骤4-3，若不是则进入步骤4-8；

步骤4-8、从经验回放池D中随机采样一批N数量样本构成的数据集，发送给在线DQN网络、目标DQN网络、在线Actor网络、目标Actor网络、在线Critic网络和目标Critic网络；

步骤4-9、DQN网络数目c初始化为0；

步骤4-10、根据采样的数据集，第c个DQN网络根据状态sⁱ和aⁱ得到对应的Q(sⁱ,aⁱ；w)，根据sⁱ⁺¹得到最优的Q(sⁱ⁺¹；w)值，根据回报rⁱ和Q值得到网络的loss函数为

在线网络通过最小化LOSS函数来更新参数w；

步骤4-11、判断是否满足c＝C-1，C为总的DQN网络数量，若不满足则c＝c+1，返回步骤4-10，若不是进入步骤4-12；

步骤4-12、根据采样的数据集，在线Actor网络根据状态sⁱ，得到动作aⁱ＝π(sⁱ；μ)，将状态sⁱ和得到的动作aⁱ＝π(sⁱ；μ)输入在线Critic网络，获得Q(sⁱ,π(sⁱ；μ)；w)，根据

来对在线Actor网络参数θ进行更新，同样利用

对在线Critic网络参数进行更新；

步骤4-13、每U轮利用在线Actor网络参数μ更目标Actor网络中参数μ^-，利用在线Critic网络参数θ更新目标Critic网络中参数θ^-；

步骤4-14、判断是否满足轮数ep<EP，EP为总回合数，若是，则ep＝ep+1，返回步骤4-2，若不是，则优化结束，得到优化后的强化学习模型。

步骤5，根据优化后的深度强化学习模型获得优化的解，得到系统总速率。

输入当前的系统状态s^t，深度强化学习可以根据模型学习到最优的动作a^t，可得到优化问题的解、最优的子载波分配、波束成型和无源波束相移。

本发明的性能效果可以通过以下仿真进一步说明：

1.仿真条件

假设通信系统中有K＝3个下行用户，基站的天线数为M＝8，IRS的无源反射单元数为N＝16，子载波数为C＝7。基站的位置为[0,0,30]^T，IRS的位置为[75,100,40]^T，用户k的位置位于[x_k,y_k,0]^T，其中100<x_k<200，0<y_k<100。基站到用户的直达链路路径损耗指数为3.75，而反射链路为2.2，参考距离1m的信道衰落为30dB，基站最大发射功率为35dB，信道带宽为1MHz，噪声功率为-169dBm。

2.仿真内容

附图2分别展示了使用基于DQN-DDPG算法的IRS辅助资源分配奖励图、基于DQN-DDPG算法的无IRS辅助资源分配奖励图以及随机资源分配奖励图，将使用IRS和未使用IRS的曲线进行对比，证明了使用IRS可以大幅提升系统的和速率，将使用DQN-DDPG算法的曲线图和随机分配的曲线图进行对比，可以证明算法的有效性。

附图3展示了在不同无源反射单元数和不同发射功率下系统和速率的变化。可以看到随着基站总功率的增加，更多的发射功率被分配给用户，提出的基于DQN-DDPG算法会实现更高的系统总速率。随着无源反射单元数的增加，总速率会随之提升，证明了IRS对提高通信质量的有效性。

附图4显示了随着回合数的增加各个用户最终可达速率趋于稳定，算法随着与环境的不断交互能够学习并调整优化变量以逼近最优解，有效满足各个用户自身的最低传输速率要求，进行合理的资源分配，同时还可以达到最大的系统总速率。

综合上述仿真结果和分析，本发明所提出的基于DQN-DDPG的智能反射面辅助OFDM通信系统资源分配方法，能使得整个系统获得最大的和速率，而且不需要复杂的数学公式推导和优化技巧，方法实现的实时性效果好，很容易扩展到各种系统设置，这使得该发明在实际中能更好的得到应用。