CN115243295A - 一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法 - Google Patents

一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法 Download PDF

Info

Publication number
CN115243295A
CN115243295A CN202210876982.5A CN202210876982A CN115243295A CN 115243295 A CN115243295 A CN 115243295A CN 202210876982 A CN202210876982 A CN 202210876982A CN 115243295 A CN115243295 A CN 115243295A
Authority
CN
China
Prior art keywords
irs
dqn
ddpg
energy
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210876982.5A
Other languages
English (en)
Inventor
朱政宇
巩梦飞
鲍昊
郭凯旋
杨晨一
梁静
宋灿
孙钢灿
王忠勇
郝万明
侯庚旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202210876982.5A priority Critical patent/CN115243295A/zh
Publication of CN115243295A publication Critical patent/CN115243295A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0215Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices
    • H04W28/0221Traffic management, e.g. flow control or congestion control based on user or device properties, e.g. MTC-capable devices power availability or consumption
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0446Resources in time domain, e.g. slots or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及无线通信技术领域,具体涉及一种基于深度强化学习的IRS辅助SWIPT‑D2D系统资源分配方法。其步骤为:首先,根据系统的信道增益得到基站和每个接收用户(D2D Receiver,DR)的接收信号;其次,获得IRS上的反射系数和每个发射用户(D2D Transmitter,DT)的发射功率、时间切换因子,并得到DR的信息解码速率和收集的能量;满足蜂窝用户和D2D用户的信息传输速率约束条件下,构建了最大化系统能量采集优化模型;最后,利用基于深度强化学习的DQN‑DDPG算法联合联合优化时间切换因子、IRS相移和D2D发射功率,最大化系统采集总能量。本发明提出的基于深度强化学习的DQN‑DDPG算法,用DQN网络求解D2D发射功率和IRS相移,DDPG网络求解时间切换因子,将多余的射频信号转换为能量,减少了系统总能耗。

Description

一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配 方法
技术领域
本发明涉及无线通信技术领域,具体涉及一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法。
背景技术
D2D通信技术通过让D2D用户复用蜂窝用户的频谱资源,实现 D2D用户间的信息传输并提升系统频谱利用率。然而,D2D通信方式也会给系统引入新的干扰源,增加对蜂窝用户的干扰。因此,合理分配频谱资源并控制发射功率对减小系统干扰、提升系统性能具有重要意义。
SWIPT技术可以实现能量与信息的同时传输,这对于解决能源消耗、频谱效率和干扰控制等方面的问题都有重大意义。在IoT领域, SWIPT技术可以有效解决低功耗、充电受限设备的能量供应问题。为了实现SWIPT技术,射频信号需要分成两部分,一部分用于用户间传输信息,一部分用于传输能量。目前主要基于时隙、功率和天线三个角度实现信号分裂。
虽然采用射频信号实现信息和能量同时传输是无线通信系统中最具前景的技术之一。但实际上,能量接收器要比信息接收器的能耗高很多,因此,如何提高能量传输效率是SWIPT技术需面对的关键挑战。近年来,有专家指出IRS将会是一项有潜力的解决方案,它由大量的无源反射单元构成,能够智能调控入射信号的相位和振幅来增强所需信号并抑制干扰。因此,IRS中反射单元的振幅和相移的选择对无线通信系统的性能有直接影响,这使得求解问题的复杂度会随着IRS反射元素数量N成指数增加。IRS无源波束设计也更加至关重要,当IRS 反射元素数量很多时,振幅和相移的优化将变得十分难以解决。目前已有学者对IRS辅助D2D通信进行了相关的研究,其中Mao S,Chu X 等人在发表的论文″Intelligentreflecting surface enhanced D2D cooperative computing″中研究了一个D2D协作通信系统,用户可以借助IRS将计算任务卸载给附近的空闲用户。通过联合优化计算任务分配、发射功率、频率分配和IRS相移最小化计算时延,并提出一种交替优化算法求解此问题。北京邮电大学科研团队介绍了一种集成IRS、反向散射和无线供电技术的新型模型,D2D用户存在两种工作模式:信息传输和能量采集。通过调整D2D发射机的发射功率和IRS反射元素相移,D2D能够使用上一阶段采集得到的能量用于下一阶段通信,实现绿色通信的需求。与此同时,无线通信中的问题也开始尝试用机器学习方法解决。文献″Deep multi-agentreinforcement learning-based resource allocation for internet of controllablethings″中,中山大学科研团队提出基于深度强化学习的载波分配和功率控制算法,能够实现 D2D网络的超可靠低时延传输,首先将上述问题表述为一个马尔科夫决策过程,然后提出一种基于double-DQN的资源分配算法,学习在缺乏完全瞬时信道状态信息情况下的资源分配策略,结果表明该算法实时性能接近最优。韩国中央大学Sengly Muy等人研究了多用户 SWIPT-D2D系统的能量效率优化问题,提出多智能体(agent)深度强化学习算法,并提出分布式学习方案解决该问题,其中agent之间可以共享信息。最后仿真结果表明,该算法能得到近似的全局最优解,且计算复杂度远低于穷举搜索,性能优于梯度搜索。因此,D2D通信网络中合理的资源配置策略对减小系统干扰、提升频谱利用率和降低系统能耗都具有重要意义。
发明内容
本发明是针对IRS辅助SWIPT-D2D通信系统,将IRS技术、SWIPT 技术和D2D技术结合,既能提高频谱利用率,又能实现系统自主能量补给。但求解问题的复杂度也随之增加,为了解决连续离散混合变量实时联合优化的难题,现提供了一种基于深度强化学习的IRS辅助 SWIPT-D2D系统资源分配方法。
本发明的技术方案实现如下:
一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法步骤如下:
步骤一:基于一个智能反射面(IRS)辅助设备到设备(D2D)通信中复用上行链路频谱资源的通信系统。包括一个基站,一个蜂窝用户、K对D2D用户;
步骤二:根据蜂窝用户到BS、IRS、DR,DT到DR、IRS、BS, IRS到BS、DR的信道增益计算基站和每个DR的接收信号;
步骤三:根据IRS上的反射系数和每个DT的发射功率、时间切换因子计算DR的信息解码速率和收集的能量;
步骤四:根据蜂窝用户和D2D用户的信息传输速率约束构建最大化系统能量采集优化模型;
步骤五:利用基于深度强化学习的DQN-DDPG算法联合优化D2D 发射功率、时间切换因子和IRS相移,使得系统能量采集最大化。
所述系统的信道增益具体包括:
蜂窝用户到BS、IRS、DR的信道增益分别为
Figure RE-GDA0003839942460000031
Figure RE-GDA0003839942460000032
DT到DR、IRS、BS的信道增益分别为
Figure RE-GDA0003839942460000033
Figure RE-GDA0003839942460000034
IRS到BS、DR的信道增益分别为
Figure RE-GDA0003839942460000035
所述基站处接收到的信号为:
Figure RE-GDA0003839942460000036
第i个DR用户的接收信号为:
Figure RE-GDA0003839942460000037
Figure RE-GDA0003839942460000041
其中,PC
Figure RE-GDA0003839942460000042
分别为蜂窝用户和第i个DT的发射功率;Θ为IRS 相移矩阵,满足
Figure RE-GDA0003839942460000043
主对角线θn=(0,2π)表示第n(1≤n≤N) 个反射元素的相移;x为蜂窝用户的发射信号,si为第i个DT的发射信号,E(|x|2)=E(|si|2)=1;n1和n2表示加性高斯白噪声,满足 ni~CN(0,σ2),i=1,2。
所述DR的信息解码速率为:
Figure RE-GDA0003839942460000044
系统收集能量为:
Figure RE-GDA0003839942460000045
其中,ξi为第i个DR的时间切换因子,η为能量转换效率。
所述最大化系统能量采集优化模型为:
Figure RE-GDA0003839942460000046
s.t.C1:γB≥γmin
Figure RE-GDA0003839942460000047
Figure RE-GDA0003839942460000048
Figure RE-GDA0003839942460000049
Figure RE-GDA00038399424600000410
其中,ξ=[ξ1,ξ2,...,ξK],
Figure RE-GDA00038399424600000411
C1为蜂窝用户的SINR约束,γmin为最小SINR;C2是D2D用户传输速率约束,Rmin表示D2D用户可以正常通信的最小传输速率;C3描述为D2D 用户能量采集约束,Emin记作D2D用户最低能量采集限制;C4表示IRS 恒模约束;C5是DT发射功率约束,Pmax为DT最大发射功率。
所述DQN-DDPG算法联合优化D2D发射功率、时间切换因子和 IRS相移具体如下:
构建DQN-DDPG资源分配网络,DDPG网络用于学习最佳时间切换因子,DQN网络用于学习D2D功率分配和IRS相移选择。
算法由在线探索和离线训练两部分组成:(1)在线探索阶段:首先对系统初始化,不断获取当前状态值st,作为DQN-DDPG网络的输入并输出联合动作at={at1,at2,at3}。Agent执行动作at后获得一个瞬时奖励值rt并到达下一个状态st+1,同时将{st,at,rt,st+1}作为一组数据样本放入经验池中。(2)离线训练阶段:根据经验重播机制,从经验池中随机采样得到批数据,真实的目标Q值被定义为:
yi=rt+γmaxQ(si+1,ai+1;θ,α,β)
DQN-DDPG可以将Q值函数模型拆分为两部分,第一部分为只与状态有关的函数,第二部分为与状态和动作都有关的函数,因此,价值函数可以表示为:
Q(si+1,ai+1;θ,α,β)=V(si+1;θ,α)+A(si+1,ai+1;θ,β)
DQN-DDPG网络的损失函数为:
Figure RE-GDA0003839942460000051
与DQN一样,DQN-DDPG先将目标网络中的参数固定,当前网络训练一段时间后,再将当前网络中的参数复制到目标网络。与DQN 网络参数更新不同,DDPG网络采取软更新的方式,即每次参数值更新一点,表示为:
θ-←τθ+(1-τ)θ-
其中,τ是软更新系数,一般取值为0.1或0.01。
本发明的基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法具有以下有益效果:
1.本发明的基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,具有IRS辅助的SWIPT-D2D通信系统。现阶段对于IRS 的研究,大多数主要利用IRS进行无线信息传输,并没有考虑更多的应用场景。本文设计了IRS辅助的SWIPT-D2D通信系统,将IRS技术、SWIPT技术和D2D技术结合,既能提高频谱利用率,又能实现系统自主能量补给,使模型更具用实际应用价值。
2.本发明的基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,还公开了时隙切换式能量采集的资源分配方案。针对时隙切换式能量采集的IRS辅助SWIPT-D2D通信场景,D2D用户既可以传输信息,又可以采集能量,通过时隙切换因子切换两种工作模式。首先在蜂窝用户和D2D用户QoS的约束条件下,构建最大化能量采集优化问题,由于时间切换因子是连续变量,提出了DQN-DDPG算法,其中DQN用于求解D2D用户发射功率和IRS相移,DDPG求解时间切换因子。最后,通过仿真结果验证所提两种算法的性能。
由上述技术方案可知,本发明将SWIPT技术、IRS技术应用于D2D 通信系统中,并针对D2D通信场景中功率控制和IRS相移等优化问题提出了基于机器学习的资源分配方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于IRS辅助SWIPT-D2D通信系统结构示意图;
图2是DQN-DDPG网络模型
图3是DQN-DDPG资源分配算法流程图
图4是能量采集与IRS反射元素数量N的关系;
图5是能量采集与D2D用户数量K的关系;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
如图1所示,本实施例所述的方法应用于IRS辅助SWIPT-D2D通信系统上行链路。一个基站(Base Station,BS),周围分布一个蜂窝用户、K对D2D用户,其中每对D2D用户包含一个发射用户(D2D Transmitter,DT)和一个接收用户(D2D Receiver,DR)。另外,在小区内部署了由大量内置可编程原件组成的IRS,通过反射定向波束至目标接收器。其中,IRS包含N个反射单元,假设每个反射单元的相移离散为4-bit,相移范围为[0,2π],IRS发射单元的振幅为1。
本实施例中,具体步骤如下:
步骤一:设置蜂窝用户到BS、IRS、DR的信道增益分别为
Figure RE-GDA0003839942460000071
Figure RE-GDA0003839942460000072
DT到DR、IRS、BS的信道增益分别为
Figure RE-GDA0003839942460000073
Figure RE-GDA0003839942460000074
IRS到BS、DR的信道增益分别为
Figure RE-GDA0003839942460000075
Figure RE-GDA0003839942460000076
步骤二:根据步骤一得到基站处接收到的信号为:
Figure RE-GDA0003839942460000077
第i个DR用户的接收信号为:
Figure RE-GDA0003839942460000078
其中,PC
Figure RE-GDA0003839942460000079
分别为蜂窝用户和第i个DT的发射功率;Θ为IRS 相移矩阵,满足
Figure RE-GDA0003839942460000081
主对角线θn=(0,2π)表示第n(1≤n≤N) 个反射元素的相移;x为蜂窝用户的发射信号,si为第i个DT的发射信号,E(|x|2)=E(|si|2)=1;n1和n2表示加性高斯白噪声,满足 ni~CN(0,σ2),i=1,2。
步骤三:根据IRS上的反射系数和每个DT的发射功率、时间切换因子计算DR的信息解码速率和收集的能量;
在一个时隙T内,ξiT用于信息传输,(1-ξi)T用于能量采集,DR 的信息解码速率和能量收集分别为:
Figure RE-GDA0003839942460000082
Figure RE-GDA0003839942460000083
其中,ξi为第i个DR的时间切换因子,η为能量转换效率。
步骤四:根据蜂窝用户和D2D用户的信息传输速率约束构建最大化系统能量采集优化模型;
Figure RE-GDA0003839942460000084
s.t.C1:γB≥γmin
Figure RE-GDA0003839942460000085
Figure RE-GDA0003839942460000086
Figure RE-GDA0003839942460000087
Figure RE-GDA0003839942460000088
其中,ξ=[ξ1,ξ2,...,ξK],
Figure RE-GDA0003839942460000089
C1为蜂窝用户的SINR约束,γmin为最小SINR;C2是D2D用户传输速率约束,Rmin表示D2D用户可以正常通信的最小传输速率;C3描述为D2D 用户能量采集约束,Emin记作D2D用户最低能量采集限制;C4表示IRS 恒模约束;C5是DT发射功率约束,Pmax为DT最大发射功率。
步骤五:利用基于深度强化学习的DQN-DDPG算法联合优化D2D 发射功率、时间切换因子和IRS相移,使得系统能量采集最大化。
如图2所示,构建DQN-DDPG资源分配网络,DDPG网络用于学习最佳时间切换因子,DQN网络用于学习D2D功率分配和IRS相移选择。算法由在线探索和离线训练两部分组成:(1)在线探索阶段:首先对系统初始化,不断获取当前状态值st,作为DQN-DDPG网络的输入并输出联合动作at={at1,at2,at3}。Agent执行动作at后获得一个瞬时奖励值rt并到达下一个状态st+1,同时将{st,at,rt,st+1}作为一组数据样本放入经验池中。(2)离线训练阶段:如图3所示,根据经验重播机制,从经验池中随机采样得到批数据,真实的目标Q值被定义为:
yi=ri+γmaxQ(si+1,ai+1;θ,α,β)
DQN-DDPG可以将Q值函数模型拆分为两部分,第一部分为只与状态有关的函数,第二部分为与状态和动作都有关的函数,因此,价值函数可以表示为:
Q(si+1,ai+1;θ,α,β)=V(si+1;θ,α)+A(si+1,ai+1;θ,β)
DQN-DDPG网络的损失函数为:
Figure RE-GDA0003839942460000091
与DQN一样,DQN-DDPG先将目标网络中的参数固定,当前网络训练一段时间后,再将当前网络中的参数复制到目标网络。与DQN 网络参数更新不同,DDPG网络采取软更新的方式,即每次参数值更新一点,表示为:
θ-←τθ+(1-τ)θ-
其中,τ是软更新系数,一般取值为0.1或0.01。
下面将给出本发明的能量采集方案与现有的其它方案的比较,以使本发明的优势及特征更加明显。
图4为系统能量采集与IRS反射元素数量N的关系,其中D2D用户数量K=4,D2D用户传输速率下限Rmin=1bps/Hz。从图中可知,DQN-DDPG算法的能量采集最高。其中,IRS辅助SWIPT-D2D的方案明显优于无IRS方案,且系统总能量采集随着IRS反射元素数量的增多而增加,这是由于反射元素数量增多,IRS所获取空间自由度和分集增益将变大,从而提升了系统性能。
图5为系统总能量采集与D2D用户数量K的关系图,其中IRS发射元素数量N=20,D2D用户传输速率下限Rmin=1bps/Hz。从图中可得,随着D2D用户数量的增多,系统总能量采集也随之增加,原因在于,随着D2D用户数量增加,系统内采集能量的设备也将增加,因此,总的能量采集值也会增加。且对比分析可知,所提方案的能量采集效率均优于其它基准方案,特别地,当D2D用户数量K=4时,使用 DQN-DDPG算法采集的能量比并行式CNN算法高0.177mW,比块坐标下降法高0.712mW,比随机相移法高2.567mW,比无IRS方案高 3.312mW。
由此可见,本实施例提出的基于深度强化学习的IRS辅助 SWIPT-D2D通信的资源分配方法,在保证蜂窝用户和D2D用户正常通信约束条件下,最大化D2D用户总能量采集,能够将多余的射频信号转换为能量,延长设备使用寿命,满足绿色通信需求。
以上所述,仅为本发明的具体实施方式,但是,本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替代,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,其特征在于,步骤如下:
步骤一:基于一个智能反射面(IRS)辅助设备到设备(D2D)通信中复用上行链路频谱资源的通信系统。包括一个基站(Base Station,BS),一个蜂窝用户、K对D2D用户;
步骤二:根据蜂窝用户到BS、IRS、DR,DT到DR、IRS、BS,IRS到BS、DR的信道增益计算基站和每个DR的接收信号;
步骤三:根据IRS上的反射系数和每个DT的发射功率、时间切换因子计算DR的信息解码速率和收集的能量;
步骤四:根据蜂窝用户和D2D用户的信息传输速率约束构建最大化系统能量采集优化模型;
步骤五:利用基于深度强化学习的DQN-DDPG算法联合优化D2D发射功率、时间切换因子和IRS相移,使得系统能量采集最大化。
2.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,其特征在于,步骤二中系统的信道增益具体包括:
蜂窝用户到BS、IRS、DR的信道增益分别为
Figure RE-FDA0003839942450000011
Figure RE-FDA0003839942450000012
DT到DR、IRS、BS的信道增益分别为
Figure RE-FDA0003839942450000013
Figure RE-FDA0003839942450000014
IRS到BS、DR的信道增益分别为
Figure RE-FDA0003839942450000015
3.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,其特征在于,所述步骤二中计算基站和每个DR的接收信号的方法分别为基站处接收到的信号为:
Figure RE-FDA0003839942450000016
第i个DR用户的接收信号为:
Figure RE-FDA0003839942450000017
Figure RE-FDA0003839942450000021
其中,PC
Figure RE-FDA0003839942450000022
分别为蜂窝用户和第i个DT的发射功率;Θ为IRS相移矩阵,满足
Figure RE-FDA0003839942450000023
主对角线θn=(0,2π)表示第n(1≤n≤N)个反射元素的相移;x为蜂窝用户的发射信号,si为第i个DT的发射信号,E(|x|2)=E(|si|2)=1;n1和n2表示加性高斯白噪声,满足ni~CN(0,σ2),i=1,2。
4.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,其特征在于,所述步骤三中计算DR的信息解码速率和收集的能量的具体方法:
DR的信息解码速率为:
Figure RE-FDA0003839942450000024
收集到的能量为:
Figure RE-FDA0003839942450000025
其中,ξi为第i个DR的时间切换因子,η为能量转换效率。
5.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,其特征在于,步骤四中所述最大化系统能量采集优化模型为:
Figure RE-FDA0003839942450000026
s.t.C1:γB≥γmin
Figure RE-FDA0003839942450000027
Figure RE-FDA0003839942450000028
Figure RE-FDA0003839942450000029
Figure RE-FDA00038399424500000210
其中,ξ=[ξ1,ξ2,...,ξK],
Figure RE-FDA00038399424500000211
C1为蜂窝用户的SINR约束,γmin为最小SINR;C2是D2D用户传输速率约束,Rmin表示D2D用户可以正常通信的最小传输速率;C3描述为D2D用户能量采集约束,Emin记作D2D用户最低能量采集限制;C4表示IRS恒模约束;C5是DT发射功率约束,Pmax为DT最大发射功率。
6.根据权利要求1所述的一种基于深度强化学习的IRS辅助SWIPT-D2D系统资源分配方法,其特征在于,步骤五中DQN-DDPG算法联合优化D2D发射功率、时间切换因子和IRS相移具体如下:
构建DQN-DDPG资源分配网络,DDPG网络用于学习最佳时间切换因子,DQN网络用于学习D2D功率分配和IRS相移选择。算法由在线探索和离线训练两部分组成:(1)在线探索阶段:首先对系统初始化,不断获取当前状态值st,作为DQN-DDPG网络的输入并输出联合动作at={at1,at2,at3}。Agent执行动作at后获得一个瞬时奖励值rt并到达下一个状态st+1,同时将{st,at,rt,st+1}作为一组数据样本放入经验池中。(2)离线训练阶段:根据经验重播机制,从经验池中随机采样得到批数据,真实的目标Q值被定义为:
yi=ri+γmaxQ(si+1,ai+1;θ,α,β)
DQN-DDPG可以将Q值函数模型拆分为两部分,第一部分为只与状态有关的函数,第二部分为与状态和动作都有关的函数,因此,价值函数可以表示为:
Q(si+1,ai+1;θ,α,β)=V(si+1;θ,α)+A(si+1,ai+1;θ,β)
DQN-DDPG网络的损失函数为:
Figure RE-FDA0003839942450000031
与DQN一样,DQN-DDPG先将目标网络中的参数固定,当前网络训练一段时间后,再将当前网络中的参数复制到目标网络。与DQN网络参数更新不同,DDPG网络采取软更新的方式,即每次参数值更新一点,表示为:
θ-←τθ+(1-τ)θ-
其中,τ是软更新系数,一般取值为0.1或0.01。
CN202210876982.5A 2022-07-25 2022-07-25 一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法 Pending CN115243295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210876982.5A CN115243295A (zh) 2022-07-25 2022-07-25 一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210876982.5A CN115243295A (zh) 2022-07-25 2022-07-25 一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法

Publications (1)

Publication Number Publication Date
CN115243295A true CN115243295A (zh) 2022-10-25

Family

ID=83675898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210876982.5A Pending CN115243295A (zh) 2022-07-25 2022-07-25 一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法

Country Status (1)

Country Link
CN (1) CN115243295A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527178A (zh) * 2023-04-11 2023-08-01 南京邮电大学 一种智能反射面辅助的智能语义通信系统资源分配方法
CN117119499A (zh) * 2023-10-23 2023-11-24 南京邮电大学 一种有源可重构智能表面辅助的无线信息与能量同传方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527178A (zh) * 2023-04-11 2023-08-01 南京邮电大学 一种智能反射面辅助的智能语义通信系统资源分配方法
CN117119499A (zh) * 2023-10-23 2023-11-24 南京邮电大学 一种有源可重构智能表面辅助的无线信息与能量同传方法
CN117119499B (zh) * 2023-10-23 2024-03-15 南京邮电大学 一种有源可重构智能表面辅助的无线信息与能量同传方法

Similar Documents

Publication Publication Date Title
CN115243295A (zh) 一种基于深度强化学习的irs辅助swipt-d2d系统资源分配方法
CN110266352A (zh) 一种大规模mimo系统中智能反射面相移矩阵自适应设计方法
CN110769514B (zh) 一种异构蜂窝网络d2d通信资源分配方法及系统
CN113286317B (zh) 一种基于无线供能边缘网络的任务调度方法
CN114286312A (zh) 一种基于可重构智能表面增强无人机通信的方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN115412936A (zh) 一种基于多智能体dqn的irs辅助d2d系统资源分配方法
CN111405596A (zh) 莱斯信道下大规模天线无线携能通信系统资源优化方法
CN112272418A (zh) 一种ris辅助的d2d通信传输模式选择方法
CN111212438B (zh) 一种无线携能通信技术的资源分配方法
CN110191476B (zh) 一种基于可重构天线阵列的非正交多址接入方法
CN111277308A (zh) 基于机器学习的波宽控制方法
CN118215110A (zh) 一种系统能耗自适应控制方法
CN111917444B (zh) 一种适用于毫米波mimo-noma系统的资源分配方法
CN115173901A (zh) 基于irs辅助的miso无线携能通信系统的能效最大化方法
CN111556511A (zh) 一种基于智能边缘缓存的部分机会性干扰对齐方法
CN108449737A (zh) 一种分布式天线系统中基于d2d的下行链路高能效功率分配方法
CN112770398A (zh) 一种基于卷积神经网络的远端射频端功率控制方法
CN111464956A (zh) 基于前向链路组播传输的c-ran联合波束和功率分裂设计方法
CN116887344A (zh) 一种基于改进二进制多元宇宙算法的云边端协同系统优化方法及装置
CN116321236A (zh) Ris辅助的安全无蜂窝大规模mimo系统能效优化方法
Hashima et al. On enhancing wiGig communications with a UAV-mounted RIS system: A contextual multi-armed bandit approach
CN116614826B (zh) 一种同时传输和反射表面网络的覆盖和容量优化方法
CN118282442B (zh) 智能反射面辅助的大规模mimo的资源分配方法及系统
CN115412944B (zh) 基于智能反射面辅助的携能通信系统及其资源优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination