CN113453358B - 一种无线携能d2d网络的联合资源分配方法 - Google Patents

一种无线携能d2d网络的联合资源分配方法 Download PDF

Info

Publication number
CN113453358B
CN113453358B CN202110654301.6A CN202110654301A CN113453358B CN 113453358 B CN113453358 B CN 113453358B CN 202110654301 A CN202110654301 A CN 202110654301A CN 113453358 B CN113453358 B CN 113453358B
Authority
CN
China
Prior art keywords
network
user
users
state
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110654301.6A
Other languages
English (en)
Other versions
CN113453358A (zh
Inventor
李君�
仲星
朱明浩
丁文杰
沈国丽
张茜茜
王秀敏
李正权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ictehi Technology Development Jiangsu Co ltd
Binjiang College of Nanjing University of Information Engineering
Original Assignee
Ictehi Technology Development Jiangsu Co ltd
Binjiang College of Nanjing University of Information Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ictehi Technology Development Jiangsu Co ltd, Binjiang College of Nanjing University of Information Engineering filed Critical Ictehi Technology Development Jiangsu Co ltd
Priority to CN202110654301.6A priority Critical patent/CN113453358B/zh
Publication of CN113453358A publication Critical patent/CN113453358A/zh
Application granted granted Critical
Publication of CN113453358B publication Critical patent/CN113453358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无线携能D2D网络的联合资源分配方法,属于通信系统技术领域,本发明采用强化学习框架,智能地分配资源块以及功率分流比例,在基站和D2D最大发射功率以及蜂窝用户最低速率要求的约束下,最大化D2D能效,解决了传统算法无法处理复杂通信环境的困境,通信系统中D2D用户通过采用多智能体强化学习框架,对资源块和功率分流比例进行分配,解决以能效为目标函数的非凸问题。该发明可以提高D2D通信的总能效,实现更快的收敛速度。

Description

一种无线携能D2D网络的联合资源分配方法
技术领域
本发明属于通信系统技术领域,具体涉及一种无线携能D2D网络的联合资源分配方法。
背景技术
随着无线通信技术的飞速发展,现代生活已经离不开无线通信,其带来的便利不仅促进了经济的快速发展,也丰富了人们的日常生活,随着更多诸如直播、体感游戏等大流量短时延要求的业务出现,现有的网络越来越难以满足用户的体验,其中,频谱利用效率和能量效率对无线通信系统的性能有着较大的影响。
为了提高频谱资源利用效率、降低通信能耗,业界提出使用终端直连通信(Device-to-Device,D2D)技术来满足近距离通信需求。D2D通信技术通过在邻近设备之间建立直接的通信连接而不需要基站传输数据,D2D通信可以卸载基站流量,分担蜂窝小区基站的负载,也可以作为中继节点为小区边缘用户提供质量保障,扩展网络覆盖范围,此外,D2D通信链路收发端距离较近,可以显著提高能量效率,减少传输时延。
随着通信网络传输数据的增长以及传输速率的增加,通信带来的能量消耗也呈现飞速增加。考虑到目前阶段主要能源的不可再生性,本发明通过引入无线携能技术(SWIPT),来进一步提高能量利用率。SWIPT实现了信息和能量的同时传输,该技术在高速信息传输的同时,可以提取传输信号所用能量有效地向终端设备馈电,某种程度上克服了传统通信终端仅仅依靠电池功能的限制,有效地延长了移动终端的续航时长。在SWIPT系统中,有限的射频资源被分成两部分使用,一部分流向解码器进行信息解码,一部分流向储能装置中存储。近年来,国内外关于SWIPT技术的研究越来越多,其最终目标都是寻找一个合适的射频资源分配策略以保证权衡。对于有限的射频资源,应该分配多少用于信息解码,分配多少用于能量存储,才能保证设备有足够能量供给来延长使用寿命的同时又具有较高的数据传输速率。
机器学习(Machine Learning,ML)作为一项应用前景广阔的新兴技术被越来越多的学者所研究。如今5G移动通信网络的应用更是离不开机器学习强有力的支持。机器学习根据学习方式分为监督学习、半监督学习、无监督学习以及强化学习(ReinforcementLearning,RL)四大类。不同于其他三类学习方式,RL的学习方法不需要完备的先验信息,智能体在与环境的交互过程中不断学习,最终找到最优策略。RL理论在解决动态规划、系统控制、决策等问题中发挥了关键作用,尤其在处理动态优化问题时,通过对变化环境不断“试错”式学习,最终获得最优方案。对于D2D无线携能通信系统中资源分配问题的研究,传输环境的多变性大大增加了资源分配策略的设计难度,RL理论在无线通信系统的应用为解决资源分配问题提供了全新的设计思路。
由于系统信道状态具有不确定性以及射频能量到达随机变化,传统算法需要全局的信息,这会导致大量的信令开销,且在没有完备先验信息的情况下无法实现能量效率的最优化,同时传统算法不适用于高复杂度的通信网络结构。
发明内容
发明目的:本发明的目的在于提供一种无线携能D2D网络的联合资源分配方法,实现更快的收敛速度。
技术方案:为实现上述目的,本发明采用如下技术方案:一种无线携能D2D网络的联合资源分配方法,包括如下步骤:
一种无线携能D2D网络的联合资源分配方法,包括如下步骤:
步骤1.构建一个无线携能D2D网络模型,宏基站将M个RB分配给M个蜂窝用户,N对D2D用户复用蜂窝用户的资源块,并且不同的D2D用户复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制;
步骤2.每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数;
步骤3.建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数;
步骤4.采用MADDPG算法进行D2D用户网络更新;
步骤5.当经验池D中的样本达到设定数量后,从经验池D中采样批次数据进行网络训练;
步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络;
步骤7.重复步骤5和步骤6,每隔一定迭代次数,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数。
进一步地,所述的步骤2中,具体为:占用第m个资源块的蜂窝用户的信干噪比(Signal to Interference plus Noise Ratio,SINR)表示为
Figure BDA0003111999430000031
其中
Figure BDA0003111999430000032
表示宏基站到蜂窝用户的发射功率,
Figure BDA0003111999430000033
表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,
Figure BDA0003111999430000034
表示D2D用户的发射功率,
Figure BDA0003111999430000035
表示D2D用户的信道增益,δ2表示噪声功率;
占用第m个资源块的蜂窝用户的数据速率表示为
Figure BDA0003111999430000036
复用第m个资源块的第n对D2D用户的SINR表示为
Figure BDA0003111999430000037
其中
Figure BDA0003111999430000038
表示功率分流系数,
Figure BDA0003111999430000039
表示复用资源块m的其他D2D用户的发射功率,
Figure BDA00031119994300000310
表示复用资源块m的其他D2D用户的信道增益;配有能量收集电路的D2D用户收集到的能量表示为
Figure BDA00031119994300000311
其中ε表示能量收集效率系数,
Figure BDA00031119994300000312
Figure BDA00031119994300000313
D2D总能效EE表示为
Figure BDA00031119994300000314
其中Pcir表示D2D电路消耗功率,N表示D2D用户个数;本发明的目的是最大化D2D总能效,即
Figure BDA00031119994300000315
进一步地,所述的步骤3中,将N个D2D对看做智能体,表示为N={1,2...n...N},其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为
Figure BDA00031119994300000316
其中Gt表示D2D用户自身信道增益,
Figure BDA00031119994300000317
表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,
Figure BDA00031119994300000318
表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={dt,λt},其中dt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;本发明将D2D总能效作为奖励函数,表示为rt=EE(dt,λt)。
进一步地,所述的步骤4中,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,θ=[θ1,θ2...θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作
Figure BDA0003111999430000041
同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2...sn]表示观测向量,即状态,a=[a1,a2...an]表示动作,r=[r1,r2...rn]表示奖励,x′=[s′1,s′2...s′n]加表示下一时刻的状态。
进一步地,所述的步骤5中,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数
Figure BDA0003111999430000042
将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为
Figure BDA0003111999430000043
其中
Figure BDA0003111999430000044
其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,
Figure BDA0003111999430000045
表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2...μ′n]为目标策略具有滞后更新的参数θ′j
进一步地,所述的步骤5中,针对第i个智能体的累计期望奖励
Figure BDA0003111999430000046
Figure BDA0003111999430000047
策略梯度公式表示为
Figure BDA0003111999430000048
其中
Figure BDA0003111999430000049
表示Critic估计网络中得到的Q函数的梯度,
Figure BDA00031119994300000410
表示Actor估计网络的确定性策略梯度。
进一步地,所述的步骤7中,更新过程为
Figure BDA00031119994300000411
直到设定迭代次数,网络训练好以后,只需要将当前时刻的状态st输入到Actor网络中,输出动作at,得到当前时刻的最优资源分配方案,使D2D能效最优化;当网络状态发生改变,只需要重新输入新的状态到Actor网络中,即得到新的分配方案。
本发明旨在联合资源块和功率分配的优化问题,其中,不同的D2D用户可以复用同一个正交资源块(Resource Block,RB),实现资源的有效利用,为了减少复用RB造成的干扰,对RB进行合理分配是有必要的。D2D用户配有能量收集电路,其中的功率分流单元通过将接收到的信号部分用于信息解码,部分转为能量存储,实现“一加一大于二”的效果,国内外许多关于SWIPT技术的研究其最终目标都是寻找一个合适的射频资源分配策略以保证权衡,所以对功率分流比例的研究是必要的。由于对所提出的研究目标是一个非凸问题,我们采用强化学习框架,智能地分配资源块以及功率分流比例,在基站和D2D最大发射功率以及蜂窝用户最低速率要求的约束下,最大化D2D能效。
有益效果:与现有技术相比,本发明的一种无线携能D2D网络的联合资源分配方法,解决了传统算法无法处理复杂通信环境的困境,通信系统中D2D用户通过采用多智能体强化学习框架,对资源块和功率分流比例进行分配,解决以能效为目标函数的非凸问题。该发明可以提高D2D通信的总能效,实现更快的收敛速度。
附图说明
图1是一种无线携能D2D网络的联合资源分配方法的系统模型图;
图2是功率分流单元示意图;
图3是本发明的步骤示意图;
图4是MADDPG框图。
具体实施方式
以下结合具体实施方式对本发明做进一步的说明。
本发明系统模型主要由一个集成了宏基站、M个蜂窝用户以及N对配有能量收集电路的D2D用户组成。下面对技术方案的实施作进一步的详细描述。
本发明具体的实施步骤如下:
步骤1.构建一个无线携能D2D网络模型,如图1所示,宏基站将M个RB分配给M个蜂窝用户,N对D2D用户复用蜂窝用户的资源块,并且不同的D2D用户可以复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制,其功率分流单元如图2所示。
步骤2.本发明的步骤示意图为图3,每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数。占用第m个资源块的蜂窝用户的信干噪比(Signalto Interference plus Noise Ratio,SINR)表示为
Figure BDA0003111999430000061
其中
Figure BDA0003111999430000062
表示宏基站到蜂窝用户的发射功率,
Figure BDA0003111999430000063
表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,
Figure BDA0003111999430000064
表示D2D用户的发射功率,
Figure BDA0003111999430000065
表示D2D用户的信道增益,δ2表示噪声功率。
占用第m个资源块的蜂窝用户的数据速率表示为
Figure BDA0003111999430000066
复用第m个资源块的第n对D2D用户的SINR表示为
Figure BDA0003111999430000067
其中
Figure BDA0003111999430000068
表示功率分流系数,
Figure BDA0003111999430000069
表示复用资源块m的其他D2D用户的发射功率,
Figure BDA00031119994300000610
表示复用资源块m的其他D2D用户的信道增益。配有能量收集电路的D2D用户收集到的能量表示为
Figure BDA00031119994300000611
其中ε表示能量收集效率系数,
Figure BDA00031119994300000612
Figure BDA00031119994300000613
D2D总能效EE表示为
Figure BDA00031119994300000614
其中Pcir表示D2D电路消耗功率,N表示D2D用户个数。本发明的目的是最大化D2D总能效,即
Figure BDA00031119994300000615
步骤3.建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数,更具体地,将N个D2D对看做智能体,表示为N={1,2...n...N},其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为
Figure BDA00031119994300000616
其中Gt表示D2D用户自身信道增益,
Figure BDA00031119994300000617
表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,
Figure BDA0003111999430000071
表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={dt,λt},其中dt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;本发明将D2D总能效作为奖励函数,表示为rt=EE(dt,λt);
步骤4.采用MADDPG算法进行D2D用户网络更新,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,其框图如图4所示,θ=[θ1,θ2...θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作
Figure BDA0003111999430000072
同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2...sn]表示观测向量,即状态,a=[a1,a2...an]表示动作,r=[r1,r2...rn]表示奖励,x′=[s′1,s′2...s′n]加表示下一时刻的状态。
步骤5.当经验池D中的样本达到设定数量后,从经验池D中采样批次数据进行网络训练,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数
Figure BDA0003111999430000073
将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为
Figure BDA0003111999430000074
其中
Figure BDA0003111999430000075
其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,
Figure BDA0003111999430000076
表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2...μ′n]为目标策略具有滞后更新的参数θ′j
步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络,针对第i个智能体的累计期望奖励
Figure BDA0003111999430000077
Figure BDA0003111999430000081
策略梯度公式表示为
其中
Figure BDA0003111999430000082
表示Critic估计网络中得到的Q函数的梯度,
Figure BDA0003111999430000083
表示Actor估计网络的确定性策略梯度。
步骤7.重复步骤5.6,每隔一定迭代次数,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数,更新过程为
Figure BDA0003111999430000084
直到设定迭代次数,网络训练好以后,只需要将当前时刻的状态st输入到Actor网络中,输出动作at,得到当前时刻的最优资源分配方案,使D2D能效最优化。当网络状态发生改变,只需要重新输入新的状态到Actor网络中,即可得到新的分配方案。
下面以一实例具体的讲述基于MADDPG的联合资源分配方案的过程。具体实现步骤如下:
步骤1.构建一个无线携能D2D网络模型,宏基站将8个RB分配给8个蜂窝用户,4对D2D用户复用蜂窝用户的资源块,并且不同的D2D用户可以复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制。
步骤2.每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数。占用第m个资源块的蜂窝用户的信干噪比(Signal to Interference plusNoise Ratio,SINR)表示为
Figure BDA0003111999430000085
其中
Figure BDA0003111999430000086
表示宏基站到蜂窝用户的发射功率,
Figure BDA0003111999430000087
表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,
Figure BDA0003111999430000088
表示D2D用户的发射功率,
Figure BDA0003111999430000089
表示D2D用户的信道增益,δ2表示噪声功率。
占用第m个资源块的蜂窝用户的数据速率表示为
Figure BDA00031119994300000810
复用第m个资源块的第n对D2D用户的SINR表示为
Figure BDA00031119994300000811
其中
Figure BDA0003111999430000091
表示功率分流系数,
Figure BDA0003111999430000092
表示复用资源块m的其他D2D用户的发射功率,
Figure BDA0003111999430000093
Figure BDA0003111999430000094
表示复用资源块m的其他D2D用户的信道增益。配有能量收集电路的D2D用户收集到的能量表示为
其中ε表示能量收集效率系数,
Figure BDA0003111999430000095
Figure BDA0003111999430000096
D2D总能效EE
Figure BDA0003111999430000097
表示为
Figure BDA0003111999430000098
其中Pcir为20dBm,N为4。本发明的目的是最大化D2D总能效,即
Figure BDA0003111999430000099
步骤3.建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数,更具体地,将4个D2D对看做智能体,其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为
Figure BDA00031119994300000910
其中Gt表示D2D用户自身信道增益,
Figure BDA00031119994300000911
表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,
Figure BDA00031119994300000912
表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={αt,λt},其中αt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;
本发明将D2D总能效作为奖励函数,表示为rt=EE(αt,λt)。
步骤4.采用MADDPG算法进行D2D用户网络更新,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,其框图如图4所示,θ=[θ1,θ2...θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作
Figure BDA00031119994300000913
同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2...sn]表示观测向量,即状态,a=[a1,a2...an]表示动作,r=[r1,r2...rn]表示奖励,x′=[s1′,s′2...s′n]表示下一时刻的状态。
步骤5.当经验池D中的样本达到400个后,从经验池D中采样批次数据进行网络训练,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数
Figure BDA0003111999430000101
将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为
Figure BDA0003111999430000102
其中
Figure BDA0003111999430000103
其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,
Figure BDA0003111999430000104
表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2...μ′n]为目标策略具有滞后更新的参数θ′j
步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络,针对第i个智能体的累计期望奖励
Figure BDA0003111999430000105
Figure BDA0003111999430000106
策略梯度公式表示为
其中
Figure BDA0003111999430000107
表示Critic估计网络中得到的Q函数的梯度,
Figure BDA0003111999430000108
表示Actor估计网络的确定性策略梯度。
步骤7.重复步骤5-步骤6,每隔100次迭代,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数,更新过程为
Figure BDA0003111999430000109
直到2000次迭代,网络训练好以后,只需要将当前时刻的状态st输入到Actor网络中,输出动作at,得到当前时刻的最优资源分配方案,使D2D能效最优化。当网络状态发生改变,只需要重新输入新的状态到Actor网络中,即可得到新的分配方案。
此实例只是为了说明此发明中用户设备的中继卸载使得系统能耗最小化的过程,并非约束此发明数据参数。
以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以作出若干改进和变型,这些改进和变型也应该视为本发明保护范围。

Claims (7)

1.一种无线携能D2D网络的联合资源分配方法,其特征在于:包括如下步骤:
步骤1、构建一个无线携能D2D网络模型,宏基站将M个资源块RB分配给M个蜂窝用户,N对D2D用户复用蜂窝用户的资源块RB,并且不同的D2D用户复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制;
步骤2、每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数;
步骤3、建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数;
步骤4、采用MADDPG算法进行D2D用户网络更新;
步骤5、当经验池D中的样本达到设定数量后,从经验池D中采样批次数据进行网络训练;
步骤6、智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络;
步骤7、重复步骤5和步骤6,每隔一定迭代次数,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数。
2.根据权利要求1所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤2中,具体为:占用第m个资源块的蜂窝用户的信干噪比SINR表示为
Figure FDA0003770394060000011
其中
Figure FDA0003770394060000012
表示宏基站到蜂窝用户的发射功率,
Figure FDA0003770394060000013
表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,
Figure FDA0003770394060000014
表示D2D用户的发射功率,
Figure FDA0003770394060000015
表示D2D用户的信道增益,δ2表示噪声功率;
占用第m个资源块的蜂窝用户的数据速率表示为
Figure FDA0003770394060000016
复用第m个资源块的第n对D2D用户的SINR表示为
Figure FDA0003770394060000017
其中
Figure FDA0003770394060000018
表示功率分流系数,
Figure FDA0003770394060000019
表示复用资源块m的其他D2D用户的发射功率,
Figure FDA00037703940600000110
表示复用资源块m的其他D2D用户的信道增益;配有能量收集电路的D2D用户收集到的能量表示为
Figure FDA0003770394060000021
其中ε表示能量收集效率系数,
Figure FDA0003770394060000022
Figure FDA0003770394060000023
D2D总能效EE表示为
Figure FDA0003770394060000024
其中Pcir表示D2D电路消耗功率,N表示D2D用户个数。
3.根据权利要求2所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤3中,将N个D2D对看做智能体,表示为N={1,2...n...N},其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为
Figure FDA0003770394060000025
其中Gt表示D2D用户自身信道增益,
Figure FDA0003770394060000026
表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,
Figure FDA0003770394060000027
表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={dt,λt},其中dt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;将D2D总能效作为奖励函数,表示为rt=EE(dt,λt)。
4.根据权利要求3所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤4中,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,θ=[θ12…θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作
Figure FDA0003770394060000028
同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2…sn]表示观测向量,即状态,a=[a1,a2…an]表示动作,r=[r1,r2…rn]表示奖励,x′=[s′1,s′2…s′n]表示下一时刻的状态。
5.根据权利要求4所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤5中,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数
Figure FDA0003770394060000029
将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为
Figure FDA0003770394060000031
Figure FDA0003770394060000032
其中
Figure FDA0003770394060000033
其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,
Figure FDA0003770394060000034
表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2…μ′n]为目标策略具有滞后更新的参数θ′j
6.根据权利要求5所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤5中,针对第i个智能体的累计期望奖励
Figure FDA0003770394060000035
策略梯度公式表示为
Figure FDA0003770394060000036
其中
Figure FDA0003770394060000037
表示Critic估计网络中得到的Q函数的梯度,
Figure FDA0003770394060000038
表示Actor估计网络的确定性策略梯度。
7.根据权利要求6所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤7中,更新过程为
Figure FDA0003770394060000039
直到设定迭代次数,网络训练好以后,只需要将当前时刻的状态st输入到Actor网络中,输出动作at,得到当前时刻的最优资源分配方案,使D2D能效最优化;当网络状态发生改变,只需要重新输入新的状态到Actor网络中,即得到新的分配方案。
CN202110654301.6A 2021-06-11 2021-06-11 一种无线携能d2d网络的联合资源分配方法 Active CN113453358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654301.6A CN113453358B (zh) 2021-06-11 2021-06-11 一种无线携能d2d网络的联合资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654301.6A CN113453358B (zh) 2021-06-11 2021-06-11 一种无线携能d2d网络的联合资源分配方法

Publications (2)

Publication Number Publication Date
CN113453358A CN113453358A (zh) 2021-09-28
CN113453358B true CN113453358B (zh) 2022-09-23

Family

ID=77811293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654301.6A Active CN113453358B (zh) 2021-06-11 2021-06-11 一种无线携能d2d网络的联合资源分配方法

Country Status (1)

Country Link
CN (1) CN113453358B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363938B (zh) * 2021-12-21 2024-01-26 深圳千通科技有限公司 一种蜂窝网络流量卸载方法
CN114423070B (zh) * 2022-02-10 2024-03-19 吉林大学 一种基于d2d的异构无线网络功率分配方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610B (zh) * 2019-01-08 2020-07-10 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110784882B (zh) * 2019-10-28 2022-06-28 南京邮电大学 一种基于强化学习的能量采集d2d通信资源分配方法
CN111314894B (zh) * 2020-02-28 2022-06-21 航天新通科技有限公司 一种面向noma与携能d2d融合网络的鲁棒资源分配方法

Also Published As

Publication number Publication date
CN113453358A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Han et al. 5G converged cell-less communications in smart cities
CN110493826A (zh) 一种基于深度强化学习的异构云无线接入网资源分配方法
Luo et al. Self-learning based computation offloading for internet of vehicles: Model and algorithm
CN111083668B (zh) 一种在车联网中基于联盟博弈算法的d2d资源分配方法
CN113453358B (zh) 一种无线携能d2d网络的联合资源分配方法
CN113163451A (zh) 一种基于深度强化学习的d2d通信网络切片分配方法
CN112601284B (zh) 基于多智能体深度强化学习的下行多小区ofdma资源分配方法
CN107172704B (zh) 基于协作频谱感知和干扰约束的认知异构网络功率分配方法
CN114885426B (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
CN109819422B (zh) 一种基于Stackelberg博弈的异构车联网多模通信方法
Xiong et al. Mobile service amount based link scheduling for high-mobility cooperative vehicular networks
CN111586646A (zh) 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法
Bi et al. Deep reinforcement learning based power allocation for D2D network
CN105636062A (zh) 一种面向业务适度服务的认知无线网络传输学习方法
CN102548002B (zh) 基于多用户协同的无线资源分配方法
CN109788540A (zh) D2d系统中基于能量采集的功率控制和信道分配方法
CN116582860A (zh) 一种基于信息年龄约束的链路资源分配方法
CN108811023A (zh) 一种基于萤火虫算法的swipt协作通信系统中继选择方法
CN105530203B (zh) D2d通信链路的接入控制方法及系统
CN109787737A (zh) 一种基于混合能量采集的ofdm系统下行链路多用户资源优化方法
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置
CN115173922B (zh) 基于cmaddqn网络的多波束卫星通信系统资源分配方法
Gao et al. A load balancing scheme for supporting safety applications in heterogeneous software defined LTE-V networks
CN107995034B (zh) 一种密集蜂窝网络能量与业务协作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant