CN113453358B - 一种无线携能d2d网络的联合资源分配方法 - Google Patents
一种无线携能d2d网络的联合资源分配方法 Download PDFInfo
- Publication number
- CN113453358B CN113453358B CN202110654301.6A CN202110654301A CN113453358B CN 113453358 B CN113453358 B CN 113453358B CN 202110654301 A CN202110654301 A CN 202110654301A CN 113453358 B CN113453358 B CN 113453358B
- Authority
- CN
- China
- Prior art keywords
- network
- user
- users
- state
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/542—Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种无线携能D2D网络的联合资源分配方法,属于通信系统技术领域,本发明采用强化学习框架,智能地分配资源块以及功率分流比例,在基站和D2D最大发射功率以及蜂窝用户最低速率要求的约束下,最大化D2D能效,解决了传统算法无法处理复杂通信环境的困境,通信系统中D2D用户通过采用多智能体强化学习框架,对资源块和功率分流比例进行分配,解决以能效为目标函数的非凸问题。该发明可以提高D2D通信的总能效,实现更快的收敛速度。
Description
技术领域
本发明属于通信系统技术领域,具体涉及一种无线携能D2D网络的联合资源分配方法。
背景技术
随着无线通信技术的飞速发展,现代生活已经离不开无线通信,其带来的便利不仅促进了经济的快速发展,也丰富了人们的日常生活,随着更多诸如直播、体感游戏等大流量短时延要求的业务出现,现有的网络越来越难以满足用户的体验,其中,频谱利用效率和能量效率对无线通信系统的性能有着较大的影响。
为了提高频谱资源利用效率、降低通信能耗,业界提出使用终端直连通信(Device-to-Device,D2D)技术来满足近距离通信需求。D2D通信技术通过在邻近设备之间建立直接的通信连接而不需要基站传输数据,D2D通信可以卸载基站流量,分担蜂窝小区基站的负载,也可以作为中继节点为小区边缘用户提供质量保障,扩展网络覆盖范围,此外,D2D通信链路收发端距离较近,可以显著提高能量效率,减少传输时延。
随着通信网络传输数据的增长以及传输速率的增加,通信带来的能量消耗也呈现飞速增加。考虑到目前阶段主要能源的不可再生性,本发明通过引入无线携能技术(SWIPT),来进一步提高能量利用率。SWIPT实现了信息和能量的同时传输,该技术在高速信息传输的同时,可以提取传输信号所用能量有效地向终端设备馈电,某种程度上克服了传统通信终端仅仅依靠电池功能的限制,有效地延长了移动终端的续航时长。在SWIPT系统中,有限的射频资源被分成两部分使用,一部分流向解码器进行信息解码,一部分流向储能装置中存储。近年来,国内外关于SWIPT技术的研究越来越多,其最终目标都是寻找一个合适的射频资源分配策略以保证权衡。对于有限的射频资源,应该分配多少用于信息解码,分配多少用于能量存储,才能保证设备有足够能量供给来延长使用寿命的同时又具有较高的数据传输速率。
机器学习(Machine Learning,ML)作为一项应用前景广阔的新兴技术被越来越多的学者所研究。如今5G移动通信网络的应用更是离不开机器学习强有力的支持。机器学习根据学习方式分为监督学习、半监督学习、无监督学习以及强化学习(ReinforcementLearning,RL)四大类。不同于其他三类学习方式,RL的学习方法不需要完备的先验信息,智能体在与环境的交互过程中不断学习,最终找到最优策略。RL理论在解决动态规划、系统控制、决策等问题中发挥了关键作用,尤其在处理动态优化问题时,通过对变化环境不断“试错”式学习,最终获得最优方案。对于D2D无线携能通信系统中资源分配问题的研究,传输环境的多变性大大增加了资源分配策略的设计难度,RL理论在无线通信系统的应用为解决资源分配问题提供了全新的设计思路。
由于系统信道状态具有不确定性以及射频能量到达随机变化,传统算法需要全局的信息,这会导致大量的信令开销,且在没有完备先验信息的情况下无法实现能量效率的最优化,同时传统算法不适用于高复杂度的通信网络结构。
发明内容
发明目的:本发明的目的在于提供一种无线携能D2D网络的联合资源分配方法,实现更快的收敛速度。
技术方案:为实现上述目的,本发明采用如下技术方案:一种无线携能D2D网络的联合资源分配方法,包括如下步骤:
一种无线携能D2D网络的联合资源分配方法,包括如下步骤:
步骤1.构建一个无线携能D2D网络模型,宏基站将M个RB分配给M个蜂窝用户,N对D2D用户复用蜂窝用户的资源块,并且不同的D2D用户复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制;
步骤2.每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数;
步骤3.建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数;
步骤4.采用MADDPG算法进行D2D用户网络更新;
步骤5.当经验池D中的样本达到设定数量后,从经验池D中采样批次数据进行网络训练;
步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络;
步骤7.重复步骤5和步骤6,每隔一定迭代次数,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数。
进一步地,所述的步骤2中,具体为:占用第m个资源块的蜂窝用户的信干噪比(Signal to Interference plus Noise Ratio,SINR)表示为
其中表示宏基站到蜂窝用户的发射功率,表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,表示D2D用户的发射功率,表示D2D用户的信道增益,δ2表示噪声功率;
复用第m个资源块的第n对D2D用户的SINR表示为
进一步地,所述的步骤3中,将N个D2D对看做智能体,表示为N={1,2...n...N},其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为其中Gt表示D2D用户自身信道增益,表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={dt,λt},其中dt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;本发明将D2D总能效作为奖励函数,表示为rt=EE(dt,λt)。
进一步地,所述的步骤4中,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,θ=[θ1,θ2...θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2...sn]表示观测向量,即状态,a=[a1,a2...an]表示动作,r=[r1,r2...rn]表示奖励,x′=[s′1,s′2...s′n]加表示下一时刻的状态。
进一步地,所述的步骤5中,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为其中其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2...μ′n]为目标策略具有滞后更新的参数θ′j。
进一步地,所述的步骤7中,更新过程为
直到设定迭代次数,网络训练好以后,只需要将当前时刻的状态st输入到Actor网络中,输出动作at,得到当前时刻的最优资源分配方案,使D2D能效最优化;当网络状态发生改变,只需要重新输入新的状态到Actor网络中,即得到新的分配方案。
本发明旨在联合资源块和功率分配的优化问题,其中,不同的D2D用户可以复用同一个正交资源块(Resource Block,RB),实现资源的有效利用,为了减少复用RB造成的干扰,对RB进行合理分配是有必要的。D2D用户配有能量收集电路,其中的功率分流单元通过将接收到的信号部分用于信息解码,部分转为能量存储,实现“一加一大于二”的效果,国内外许多关于SWIPT技术的研究其最终目标都是寻找一个合适的射频资源分配策略以保证权衡,所以对功率分流比例的研究是必要的。由于对所提出的研究目标是一个非凸问题,我们采用强化学习框架,智能地分配资源块以及功率分流比例,在基站和D2D最大发射功率以及蜂窝用户最低速率要求的约束下,最大化D2D能效。
有益效果:与现有技术相比,本发明的一种无线携能D2D网络的联合资源分配方法,解决了传统算法无法处理复杂通信环境的困境,通信系统中D2D用户通过采用多智能体强化学习框架,对资源块和功率分流比例进行分配,解决以能效为目标函数的非凸问题。该发明可以提高D2D通信的总能效,实现更快的收敛速度。
附图说明
图1是一种无线携能D2D网络的联合资源分配方法的系统模型图;
图2是功率分流单元示意图;
图3是本发明的步骤示意图;
图4是MADDPG框图。
具体实施方式
以下结合具体实施方式对本发明做进一步的说明。
本发明系统模型主要由一个集成了宏基站、M个蜂窝用户以及N对配有能量收集电路的D2D用户组成。下面对技术方案的实施作进一步的详细描述。
本发明具体的实施步骤如下:
步骤1.构建一个无线携能D2D网络模型,如图1所示,宏基站将M个RB分配给M个蜂窝用户,N对D2D用户复用蜂窝用户的资源块,并且不同的D2D用户可以复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制,其功率分流单元如图2所示。
步骤2.本发明的步骤示意图为图3,每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数。占用第m个资源块的蜂窝用户的信干噪比(Signalto Interference plus Noise Ratio,SINR)表示为
其中表示宏基站到蜂窝用户的发射功率,表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,表示D2D用户的发射功率,表示D2D用户的信道增益,δ2表示噪声功率。
复用第m个资源块的第n对D2D用户的SINR表示为
步骤3.建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数,更具体地,将N个D2D对看做智能体,表示为N={1,2...n...N},其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为其中Gt表示D2D用户自身信道增益,表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={dt,λt},其中dt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;本发明将D2D总能效作为奖励函数,表示为rt=EE(dt,λt);
步骤4.采用MADDPG算法进行D2D用户网络更新,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,其框图如图4所示,θ=[θ1,θ2...θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2...sn]表示观测向量,即状态,a=[a1,a2...an]表示动作,r=[r1,r2...rn]表示奖励,x′=[s′1,s′2...s′n]加表示下一时刻的状态。
步骤5.当经验池D中的样本达到设定数量后,从经验池D中采样批次数据进行网络训练,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为其中其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2...μ′n]为目标策略具有滞后更新的参数θ′j。
步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络,针对第i个智能体的累计期望奖励
步骤7.重复步骤5.6,每隔一定迭代次数,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数,更新过程为
直到设定迭代次数,网络训练好以后,只需要将当前时刻的状态st输入到Actor网络中,输出动作at,得到当前时刻的最优资源分配方案,使D2D能效最优化。当网络状态发生改变,只需要重新输入新的状态到Actor网络中,即可得到新的分配方案。
下面以一实例具体的讲述基于MADDPG的联合资源分配方案的过程。具体实现步骤如下:
步骤1.构建一个无线携能D2D网络模型,宏基站将8个RB分配给8个蜂窝用户,4对D2D用户复用蜂窝用户的资源块,并且不同的D2D用户可以复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制。
步骤2.每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数。占用第m个资源块的蜂窝用户的信干噪比(Signal to Interference plusNoise Ratio,SINR)表示为
其中表示宏基站到蜂窝用户的发射功率,表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,表示D2D用户的发射功率,表示D2D用户的信道增益,δ2表示噪声功率。
复用第m个资源块的第n对D2D用户的SINR表示为
表示为
步骤3.建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数,更具体地,将4个D2D对看做智能体,其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为其中Gt表示D2D用户自身信道增益,表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={αt,λt},其中αt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;
本发明将D2D总能效作为奖励函数,表示为rt=EE(αt,λt)。
步骤4.采用MADDPG算法进行D2D用户网络更新,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,其框图如图4所示,θ=[θ1,θ2...θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2...sn]表示观测向量,即状态,a=[a1,a2...an]表示动作,r=[r1,r2...rn]表示奖励,x′=[s1′,s′2...s′n]表示下一时刻的状态。
步骤5.当经验池D中的样本达到400个后,从经验池D中采样批次数据进行网络训练,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为其中其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2...μ′n]为目标策略具有滞后更新的参数θ′j。
步骤6.智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络,针对第i个智能体的累计期望奖励
步骤7.重复步骤5-步骤6,每隔100次迭代,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数,更新过程为
直到2000次迭代,网络训练好以后,只需要将当前时刻的状态st输入到Actor网络中,输出动作at,得到当前时刻的最优资源分配方案,使D2D能效最优化。当网络状态发生改变,只需要重新输入新的状态到Actor网络中,即可得到新的分配方案。
此实例只是为了说明此发明中用户设备的中继卸载使得系统能耗最小化的过程,并非约束此发明数据参数。
以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以作出若干改进和变型,这些改进和变型也应该视为本发明保护范围。
Claims (7)
1.一种无线携能D2D网络的联合资源分配方法,其特征在于:包括如下步骤:
步骤1、构建一个无线携能D2D网络模型,宏基站将M个资源块RB分配给M个蜂窝用户,N对D2D用户复用蜂窝用户的资源块RB,并且不同的D2D用户复用同一资源块,同时,配有能量收集电路的D2D用户还会对功率分流比例进行控制;
步骤2、每对D2D用户获取信道状态信息以及收集到的能量状况,根据D2D能效构建效用函数;
步骤3、建立马尔科夫决策过程,确定状态空间、动作空间以及奖励函数;
步骤4、采用MADDPG算法进行D2D用户网络更新;
步骤5、当经验池D中的样本达到设定数量后,从经验池D中采样批次数据进行网络训练;
步骤6、智能体根据确定性策略梯度和Critic估计网络中得到的Q函数,来更新Actor估计网络;
步骤7、重复步骤5和步骤6,每隔一定迭代次数,通过软更新的方法更新Actor目标网络和Critic目标网络中的参数。
2.根据权利要求1所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤2中,具体为:占用第m个资源块的蜂窝用户的信干噪比SINR表示为
其中表示宏基站到蜂窝用户的发射功率,表示宏基站到蜂窝用户的信道增益,αm表示资源块分配索引,αm=1表示D2D用户复用第m个资源块,否则αm=0,表示D2D用户的发射功率,表示D2D用户的信道增益,δ2表示噪声功率;
复用第m个资源块的第n对D2D用户的SINR表示为
其中Pcir表示D2D电路消耗功率,N表示D2D用户个数。
3.根据权利要求2所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤3中,将N个D2D对看做智能体,表示为N={1,2...n...N},其中第n对D2D用户表示为智能体n,每对D2D用户在t时刻的状态空间表示为其中Gt表示D2D用户自身信道增益,表示采用相同资源块的其他D2D用户对当前D2D的干扰信号,表示采用相同资源块的蜂窝用户对当前D2D的干扰信号,Et表示t时刻D2D用户剩余的能量;
每对D2D用户在t时刻的动作空间表示为at={dt,λt},其中dt表示D2D用户在时刻t复用的资源块,λt∈(0,1)表示D2D用户在时刻t选择的功率分流比;将D2D总能效作为奖励函数,表示为rt=EE(dt,λt)。
4.根据权利要求3所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤4中,每对D2D用户包含Actor网络和Critic网络,Actor网络和Critic网络拥有各自的估计网络和目标网络,θ=[θ1,θ2…θn]表示n个智能体策略的参数,对于得到的状态si,每个智能体根据Actor网络的确定性策略产生一个动作同时得到即时奖励ri,进入下一状态s′ni,将联合状态、动作、奖励以及下一时刻的状态[x,a,r,x′]存储到经验池D中用于后续训练,x=[s1,s2…sn]表示观测向量,即状态,a=[a1,a2…an]表示动作,r=[r1,r2…rn]表示奖励,x′=[s′1,s′2…s′n]表示下一时刻的状态。
5.根据权利要求4所述的一种无线携能D2D网络的联合资源分配方法,其特征在于:所述的步骤5中,将状态si输入到第i个智能体的Actor估计网络中,得到动作ai以及奖励ri,然后将x和a输入到Critic估计网络中,得到当前时刻的估计状态-动作函数,即估计Q函数将下一时刻的状态s′i输入到Actor目标网络,得到下一时刻的动作a′i,将x′和a′输入到Critic目标网络中,得到目标Q函数yi,再利用最小化Loss函数,更新Critic估计网络,Critic网络的Loss函数表示为 其中其中ζ表示折扣因子,由于Critic网络有估计和目标两个网络,表示Critic目标网络输出的Q值,μ′=[μ′1,μ′2…μ′n]为目标策略具有滞后更新的参数θ′j。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654301.6A CN113453358B (zh) | 2021-06-11 | 2021-06-11 | 一种无线携能d2d网络的联合资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654301.6A CN113453358B (zh) | 2021-06-11 | 2021-06-11 | 一种无线携能d2d网络的联合资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113453358A CN113453358A (zh) | 2021-09-28 |
CN113453358B true CN113453358B (zh) | 2022-09-23 |
Family
ID=77811293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110654301.6A Active CN113453358B (zh) | 2021-06-11 | 2021-06-11 | 一种无线携能d2d网络的联合资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113453358B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114363938B (zh) * | 2021-12-21 | 2024-01-26 | 深圳千通科技有限公司 | 一种蜂窝网络流量卸载方法 |
CN114423070B (zh) * | 2022-02-10 | 2024-03-19 | 吉林大学 | 一种基于d2d的异构无线网络功率分配方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109862610B (zh) * | 2019-01-08 | 2020-07-10 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN110784882B (zh) * | 2019-10-28 | 2022-06-28 | 南京邮电大学 | 一种基于强化学习的能量采集d2d通信资源分配方法 |
CN111314894B (zh) * | 2020-02-28 | 2022-06-21 | 航天新通科技有限公司 | 一种面向noma与携能d2d融合网络的鲁棒资源分配方法 |
-
2021
- 2021-06-11 CN CN202110654301.6A patent/CN113453358B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113453358A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
Han et al. | 5G converged cell-less communications in smart cities | |
CN110493826A (zh) | 一种基于深度强化学习的异构云无线接入网资源分配方法 | |
Luo et al. | Self-learning based computation offloading for internet of vehicles: Model and algorithm | |
CN111083668B (zh) | 一种在车联网中基于联盟博弈算法的d2d资源分配方法 | |
CN113453358B (zh) | 一种无线携能d2d网络的联合资源分配方法 | |
CN113163451A (zh) | 一种基于深度强化学习的d2d通信网络切片分配方法 | |
CN112601284B (zh) | 基于多智能体深度强化学习的下行多小区ofdma资源分配方法 | |
CN107172704B (zh) | 基于协作频谱感知和干扰约束的认知异构网络功率分配方法 | |
CN114885426B (zh) | 一种基于联邦学习和深度q网络的5g车联网资源分配方法 | |
CN109819422B (zh) | 一种基于Stackelberg博弈的异构车联网多模通信方法 | |
Xiong et al. | Mobile service amount based link scheduling for high-mobility cooperative vehicular networks | |
CN111586646A (zh) | 一种蜂窝网络中联合上下信道的d2d通信的资源分配方法 | |
Bi et al. | Deep reinforcement learning based power allocation for D2D network | |
CN105636062A (zh) | 一种面向业务适度服务的认知无线网络传输学习方法 | |
CN102548002B (zh) | 基于多用户协同的无线资源分配方法 | |
CN109788540A (zh) | D2d系统中基于能量采集的功率控制和信道分配方法 | |
CN116582860A (zh) | 一种基于信息年龄约束的链路资源分配方法 | |
CN108811023A (zh) | 一种基于萤火虫算法的swipt协作通信系统中继选择方法 | |
CN105530203B (zh) | D2d通信链路的接入控制方法及系统 | |
CN109787737A (zh) | 一种基于混合能量采集的ofdm系统下行链路多用户资源优化方法 | |
CN115915454A (zh) | Swipt辅助的下行资源分配方法及装置 | |
CN115173922B (zh) | 基于cmaddqn网络的多波束卫星通信系统资源分配方法 | |
Gao et al. | A load balancing scheme for supporting safety applications in heterogeneous software defined LTE-V networks | |
CN107995034B (zh) | 一种密集蜂窝网络能量与业务协作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |