CN115243295A

CN115243295A - 一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法

Info

Publication number: CN115243295A
Application number: CN202210876982.5A
Authority: CN
Inventors: 朱政宇; 巩梦飞; 鲍昊; 郭凯旋; 杨晨一; 梁静; 宋灿; 孙钢灿; 王忠勇; 郝万明; 侯庚旺
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-25
Anticipated expiration: 2042-07-25
Also published as: CN115243295B

Abstract

本发明涉及无线通信技术领域，具体涉及一种基于深度强化学习的IRS辅助SWIPT‑D2D系统资源分配方法。其步骤为：首先，根据系统的信道增益得到基站和每个接收用户(D2D Receiver，DR)的接收信号；其次，获得IRS上的反射系数和每个发射用户(D2D Transmitter，DT)的发射功率、时间切换因子，并得到DR的信息解码速率和收集的能量；满足蜂窝用户和D2D用户的信息传输速率约束条件下，构建了最大化系统能量采集优化模型；最后，利用基于深度强化学习的DQN‑DDPG算法联合联合优化时间切换因子、IRS相移和D2D发射功率，最大化系统采集总能量。本发明提出的基于深度强化学习的DQN‑DDPG算法，用DQN网络求解D2D发射功率和IRS相移，DDPG网络求解时间切换因子，将多余的射频信号转换为能量，减少了系统总能耗。

Description

一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法

技术领域

本发明涉及无线通信技术领域，具体涉及一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法。

背景技术

D2D通信技术通过让D2D用户复用蜂窝用户的频谱资源，实现 D2D用户间的信息传输并提升系统频谱利用率。然而，D2D通信方式也会给系统引入新的干扰源，增加对蜂窝用户的干扰。因此，合理分配频谱资源并控制发射功率对减小系统干扰、提升系统性能具有重要意义。

SWIPT技术可以实现能量与信息的同时传输，这对于解决能源消耗、频谱效率和干扰控制等方面的问题都有重大意义。在IoT领域， SWIPT技术可以有效解决低功耗、充电受限设备的能量供应问题。为了实现SWIPT技术，射频信号需要分成两部分，一部分用于用户间传输信息，一部分用于传输能量。目前主要基于时隙、功率和天线三个角度实现信号分裂。

虽然采用射频信号实现信息和能量同时传输是无线通信系统中最具前景的技术之一。但实际上，能量接收器要比信息接收器的能耗高很多，因此，如何提高能量传输效率是SWIPT技术需面对的关键挑战。近年来，有专家指出IRS将会是一项有潜力的解决方案，它由大量的无源反射单元构成，能够智能调控入射信号的相位和振幅来增强所需信号并抑制干扰。因此，IRS中反射单元的振幅和相移的选择对无线通信系统的性能有直接影响，这使得求解问题的复杂度会随着IRS反射元素数量N成指数增加。IRS无源波束设计也更加至关重要，当IRS 反射元素数量很多时，振幅和相移的优化将变得十分难以解决。目前已有学者对IRS辅助D2D通信进行了相关的研究，其中Mao S，Chu X 等人在发表的论文″Intelligentreflecting surface enhanced D2D cooperative computing″中研究了一个D2D协作通信系统，用户可以借助IRS将计算任务卸载给附近的空闲用户。通过联合优化计算任务分配、发射功率、频率分配和IRS相移最小化计算时延，并提出一种交替优化算法求解此问题。北京邮电大学科研团队介绍了一种集成IRS、反向散射和无线供电技术的新型模型，D2D用户存在两种工作模式：信息传输和能量采集。通过调整D2D发射机的发射功率和IRS反射元素相移，D2D能够使用上一阶段采集得到的能量用于下一阶段通信，实现绿色通信的需求。与此同时，无线通信中的问题也开始尝试用机器学习方法解决。文献″Deep multi-agentreinforcement learning-based resource allocation for internet of controllablethings″中，中山大学科研团队提出基于深度强化学习的载波分配和功率控制算法，能够实现 D2D网络的超可靠低时延传输，首先将上述问题表述为一个马尔科夫决策过程，然后提出一种基于double-DQN的资源分配算法，学习在缺乏完全瞬时信道状态信息情况下的资源分配策略，结果表明该算法实时性能接近最优。韩国中央大学Sengly Muy等人研究了多用户 SWIPT-D2D系统的能量效率优化问题，提出多智能体(agent)深度强化学习算法，并提出分布式学习方案解决该问题，其中agent之间可以共享信息。最后仿真结果表明，该算法能得到近似的全局最优解，且计算复杂度远低于穷举搜索，性能优于梯度搜索。因此，D2D通信网络中合理的资源配置策略对减小系统干扰、提升频谱利用率和降低系统能耗都具有重要意义。

发明内容

本发明是针对IRS辅助SWIPT-D2D通信系统，将IRS技术、SWIPT 技术和D2D技术结合，既能提高频谱利用率，又能实现系统自主能量补给。但求解问题的复杂度也随之增加，为了解决连续离散混合变量实时联合优化的难题，现提供了一种基于深度强化学习的IRS辅助 SWIPT-D2D系统资源分配方法。

本发明的技术方案实现如下：

一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法步骤如下：

步骤一：基于一个智能反射面(IRS)辅助设备到设备(D2D)通信中复用上行链路频谱资源的通信系统。包括一个基站，一个蜂窝用户、K对D2D用户；

步骤二：根据蜂窝用户到BS、IRS、DR，DT到DR、IRS、BS， IRS到BS、DR的信道增益计算基站和每个DR的接收信号；

步骤三：根据IRS上的反射系数和每个DT的发射功率、时间切换因子计算DR的信息解码速率和收集的能量；

步骤四：根据蜂窝用户和D2D用户的信息传输速率约束构建最大化系统能量采集优化模型；

步骤五：利用基于深度强化学习的DQN-DDPG算法联合优化D2D 发射功率、时间切换因子和IRS相移，使得系统能量采集最大化。

所述系统的信道增益具体包括：

蜂窝用户到BS、IRS、DR的信道增益分别为

DT到DR、IRS、BS的信道增益分别为

IRS到BS、DR的信道增益分别为

所述基站处接收到的信号为：

第i个DR用户的接收信号为：

其中，P_C、

分别为蜂窝用户和第i个DT的发射功率；Θ为IRS 相移矩阵，满足

主对角线θ_n＝(0，2π)表示第n(1≤n≤N) 个反射元素的相移；x为蜂窝用户的发射信号，s_i为第i个DT的发射信号，E(|x|²)＝E(|s_i|²)＝1；n₁和n₂表示加性高斯白噪声，满足 n_i～CN(0，σ²)，i＝1，2。

所述DR的信息解码速率为：

系统收集能量为：

其中，ξ_i为第i个DR的时间切换因子，η为能量转换效率。

所述最大化系统能量采集优化模型为：

s.t.C1：γ_B≥γ_min

其中，ξ＝[ξ₁，ξ₂，...，ξ_K]，

C1为蜂窝用户的SINR约束，γ_min为最小SINR；C2是D2D用户传输速率约束，R_min表示D2D用户可以正常通信的最小传输速率；C3描述为D2D 用户能量采集约束，E_min记作D2D用户最低能量采集限制；C4表示IRS 恒模约束；C5是DT发射功率约束，P_max为DT最大发射功率。

所述DQN-DDPG算法联合优化D2D发射功率、时间切换因子和 IRS相移具体如下：

构建DQN-DDPG资源分配网络，DDPG网络用于学习最佳时间切换因子，DQN网络用于学习D2D功率分配和IRS相移选择。

算法由在线探索和离线训练两部分组成：(1)在线探索阶段：首先对系统初始化，不断获取当前状态值s_t，作为DQN-DDPG网络的输入并输出联合动作a_t＝{a_t1，a_t2，a_t3}。Agent执行动作a_t后获得一个瞬时奖励值r_t并到达下一个状态s_t+1，同时将{s_t，a_t，r_t，s_t+1}作为一组数据样本放入经验池中。(2)离线训练阶段：根据经验重播机制，从经验池中随机采样得到批数据，真实的目标Q值被定义为：

y_i＝r_t+γmaxQ(s_i+1，a_i+1；θ，α，β)

DQN-DDPG可以将Q值函数模型拆分为两部分，第一部分为只与状态有关的函数，第二部分为与状态和动作都有关的函数，因此，价值函数可以表示为：

Q(s_i+1，a_i+1；θ，α，β)＝V(s_i+1；θ，α)+A(s_i+1，a_i+1；θ，β)

DQN-DDPG网络的损失函数为：

与DQN一样，DQN-DDPG先将目标网络中的参数固定，当前网络训练一段时间后，再将当前网络中的参数复制到目标网络。与DQN 网络参数更新不同，DDPG网络采取软更新的方式，即每次参数值更新一点，表示为：

θ^-←τθ+(1-τ)θ^-

其中，τ是软更新系数，一般取值为0.1或0.01。

本发明的基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法具有以下有益效果：

1.本发明的基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，具有IRS辅助的SWIPT-D2D通信系统。现阶段对于IRS 的研究，大多数主要利用IRS进行无线信息传输，并没有考虑更多的应用场景。本文设计了IRS辅助的SWIPT-D2D通信系统，将IRS技术、SWIPT技术和D2D技术结合，既能提高频谱利用率，又能实现系统自主能量补给，使模型更具用实际应用价值。

2.本发明的基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，还公开了时隙切换式能量采集的资源分配方案。针对时隙切换式能量采集的IRS辅助SWIPT-D2D通信场景，D2D用户既可以传输信息，又可以采集能量，通过时隙切换因子切换两种工作模式。首先在蜂窝用户和D2D用户QoS的约束条件下，构建最大化能量采集优化问题，由于时间切换因子是连续变量，提出了DQN-DDPG算法，其中DQN用于求解D2D用户发射功率和IRS相移，DDPG求解时间切换因子。最后，通过仿真结果验证所提两种算法的性能。

由上述技术方案可知，本发明将SWIPT技术、IRS技术应用于D2D 通信系统中，并针对D2D通信场景中功率控制和IRS相移等优化问题提出了基于机器学习的资源分配方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于IRS辅助SWIPT-D2D通信系统结构示意图；

图2是DQN-DDPG网络模型

图3是DQN-DDPG资源分配算法流程图

图4是能量采集与IRS反射元素数量N的关系；

图5是能量采集与D2D用户数量K的关系；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

如图1所示，本实施例所述的方法应用于IRS辅助SWIPT-D2D通信系统上行链路。一个基站(Base Station，BS)，周围分布一个蜂窝用户、K对D2D用户，其中每对D2D用户包含一个发射用户(D2D Transmitter，DT)和一个接收用户(D2D Receiver，DR)。另外，在小区内部署了由大量内置可编程原件组成的IRS，通过反射定向波束至目标接收器。其中，IRS包含N个反射单元，假设每个反射单元的相移离散为4-bit，相移范围为[0，2π]，IRS发射单元的振幅为1。

本实施例中，具体步骤如下：

步骤一：设置蜂窝用户到BS、IRS、DR的信道增益分别为

DT到DR、IRS、BS的信道增益分别为

IRS到BS、DR的信道增益分别为

步骤二：根据步骤一得到基站处接收到的信号为：

第i个DR用户的接收信号为：

其中，P_C、

在一个时隙T内，ξ_iT用于信息传输，(1-ξ_i)T用于能量采集，DR 的信息解码速率和能量收集分别为：

其中，ξ_i为第i个DR的时间切换因子，η为能量转换效率。

s.t.C1：γ_B≥γ_min

其中，ξ＝[ξ₁，ξ₂，...，ξ_K]，

如图2所示，构建DQN-DDPG资源分配网络，DDPG网络用于学习最佳时间切换因子，DQN网络用于学习D2D功率分配和IRS相移选择。算法由在线探索和离线训练两部分组成：(1)在线探索阶段：首先对系统初始化，不断获取当前状态值s_t，作为DQN-DDPG网络的输入并输出联合动作a_t＝{a_t1，a_t2，a_t3}。Agent执行动作a_t后获得一个瞬时奖励值r_t并到达下一个状态s_t+1，同时将{s_t，a_t，r_t，s_t+1}作为一组数据样本放入经验池中。(2)离线训练阶段：如图3所示，根据经验重播机制，从经验池中随机采样得到批数据，真实的目标Q值被定义为：

y_i＝r_i+γmaxQ(s_i+1，a_i+1；θ，α，β)

Q(s_i+1，a_i+1；θ，α，β)＝V(s_i+1；θ，α)+A(s_i+1，a_i+1；θ，β)

DQN-DDPG网络的损失函数为：

θ^-←τθ+(1-τ)θ^-

其中，τ是软更新系数，一般取值为0.1或0.01。

下面将给出本发明的能量采集方案与现有的其它方案的比较，以使本发明的优势及特征更加明显。

图4为系统能量采集与IRS反射元素数量N的关系，其中D2D用户数量K＝4，D2D用户传输速率下限R_min＝1bps/Hz。从图中可知，DQN-DDPG算法的能量采集最高。其中，IRS辅助SWIPT-D2D的方案明显优于无IRS方案，且系统总能量采集随着IRS反射元素数量的增多而增加，这是由于反射元素数量增多，IRS所获取空间自由度和分集增益将变大，从而提升了系统性能。

图5为系统总能量采集与D2D用户数量K的关系图，其中IRS发射元素数量N＝20，D2D用户传输速率下限R_min＝1bps/Hz。从图中可得，随着D2D用户数量的增多，系统总能量采集也随之增加，原因在于，随着D2D用户数量增加，系统内采集能量的设备也将增加，因此，总的能量采集值也会增加。且对比分析可知，所提方案的能量采集效率均优于其它基准方案，特别地，当D2D用户数量K＝4时，使用 DQN-DDPG算法采集的能量比并行式CNN算法高0.177mW，比块坐标下降法高0.712mW，比随机相移法高2.567mW，比无IRS方案高 3.312mW。

由此可见，本实施例提出的基于深度强化学习的IRS辅助 SWIPT-D2D通信的资源分配方法，在保证蜂窝用户和D2D用户正常通信约束条件下，最大化D2D用户总能量采集，能够将多余的射频信号转换为能量，延长设备使用寿命，满足绿色通信需求。

以上所述，仅为本发明的具体实施方式，但是，本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替代，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，其特征在于，步骤如下：

步骤一：基于一个智能反射面(IRS)辅助设备到设备(D2D)通信中复用上行链路频谱资源的通信系统。包括一个基站(Base Station，BS)，一个蜂窝用户、K对D2D用户；

步骤二：根据蜂窝用户到BS、IRS、DR，DT到DR、IRS、BS，IRS到BS、DR的信道增益计算基站和每个DR的接收信号；

步骤五：利用基于深度强化学习的DQN-DDPG算法联合优化D2D发射功率、时间切换因子和IRS相移，使得系统能量采集最大化。

2.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，其特征在于，步骤二中系统的信道增益具体包括：

蜂窝用户到BS、IRS、DR的信道增益分别为

DT到DR、IRS、BS的信道增益分别为

IRS到BS、DR的信道增益分别为

3.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，其特征在于，所述步骤二中计算基站和每个DR的接收信号的方法分别为基站处接收到的信号为：

第i个DR用户的接收信号为：

其中，P_C、

分别为蜂窝用户和第i个DT的发射功率；Θ为IRS相移矩阵，满足

主对角线θ_n＝(0，2π)表示第n(1≤n≤N)个反射元素的相移；x为蜂窝用户的发射信号，s_i为第i个DT的发射信号，E(|x|²)＝E(|s_i|²)＝1；n₁和n₂表示加性高斯白噪声，满足n_i～CN(0，σ²)，i＝1，2。

4.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，其特征在于，所述步骤三中计算DR的信息解码速率和收集的能量的具体方法：

DR的信息解码速率为：

收集到的能量为：

其中，ξ_i为第i个DR的时间切换因子，η为能量转换效率。

5.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，其特征在于，步骤四中所述最大化系统能量采集优化模型为：

s.t.C1：γ_B≥γ_min

其中，ξ＝[ξ₁，ξ₂，...，ξ_K]，

C1为蜂窝用户的SINR约束，γ_min为最小SINR；C2是D2D用户传输速率约束，R_min表示D2D用户可以正常通信的最小传输速率；C3描述为D2D用户能量采集约束，E_min记作D2D用户最低能量采集限制；C4表示IRS恒模约束；C5是DT发射功率约束，P_max为DT最大发射功率。

6.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法，其特征在于，步骤五中DQN-DDPG算法联合优化D2D发射功率、时间切换因子和IRS相移具体如下：

构建DQN-DDPG资源分配网络，DDPG网络用于学习最佳时间切换因子，DQN网络用于学习D2D功率分配和IRS相移选择。算法由在线探索和离线训练两部分组成：(1)在线探索阶段：首先对系统初始化，不断获取当前状态值s_t，作为DQN-DDPG网络的输入并输出联合动作a_t＝{a_t1，a_t2，a_t3}。Agent执行动作a_t后获得一个瞬时奖励值r_t并到达下一个状态s_t+1，同时将{s_t，a_t，r_t，s_t+1}作为一组数据样本放入经验池中。(2)离线训练阶段：根据经验重播机制，从经验池中随机采样得到批数据，真实的目标Q值被定义为：

y_i＝r_i+γmaxQ(s_i+1，a_i+1；θ，α，β)

Q(s_i+1，a_i+1；θ，α，β)＝V(s_i+1；θ，α)+A(s_i+1，a_i+1；θ，β)

DQN-DDPG网络的损失函数为：

与DQN一样，DQN-DDPG先将目标网络中的参数固定，当前网络训练一段时间后，再将当前网络中的参数复制到目标网络。与DQN网络参数更新不同，DDPG网络采取软更新的方式，即每次参数值更新一点，表示为：

θ^-←τθ+(1-τ)θ^-

其中，τ是软更新系数，一般取值为0.1或0.01。