CN114584951A - 一种基于多智能体ddqn的联合计算卸载和资源分配方法 - Google Patents

一种基于多智能体ddqn的联合计算卸载和资源分配方法 Download PDF

Info

Publication number
CN114584951A
CN114584951A CN202210221079.5A CN202210221079A CN114584951A CN 114584951 A CN114584951 A CN 114584951A CN 202210221079 A CN202210221079 A CN 202210221079A CN 114584951 A CN114584951 A CN 114584951A
Authority
CN
China
Prior art keywords
agent
training
network
calculation
ddqn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210221079.5A
Other languages
English (en)
Inventor
宋晓勤
陈权
程梦倩
柴新越
徐雷
王奎宇
魏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Jiangsu Future Networks Innovation Institute
Original Assignee
Nanjing University of Aeronautics and Astronautics
Jiangsu Future Networks Innovation Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics, Jiangsu Future Networks Innovation Institute filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210221079.5A priority Critical patent/CN114584951A/zh
Publication of CN114584951A publication Critical patent/CN114584951A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • H04B17/3911Fading models or fading generators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体DDQN的联合计算卸载和资源分配方法。在车辆的本地计算资源不能满足要求时,借助路上的服务车辆及其他MEC服务器来进行计算。该方法考虑到车辆行驶过程中的资源动态变化情况,在5G蜂窝车联网中采用基于DDQN的集中式训练‑分布式执行多智能体强化学习架构,将计算开销和通信开销作为奖励函数中的变化量,实现联合计算卸载决策和计算与功率资源的优化分配,以满足车联网中计算密集型业务的需求。

Description

一种基于多智能体DDQN的联合计算卸载和资源分配方法
技术领域
本发明涉及一种车联网技术,尤其涉及一种车联网中计算资源调度方法,更具体地说,涉及一种基于多智能体DDQN的联合计算卸载和资源分配方法。
背景技术
随着车辆的日益增多以及用户对于产品体验的更高要求,传统的本地计算模式已经无法满足计算密集型业务的需求。云服务器的出现使得车辆可以将一些复杂的计算移交给远端的云计算服务器来辅助计算,再将结果返回给用户,以此弥补终端计算资源匮乏的缺陷。然而,在车联网的车联万物(Vehicle-to-Everything,V2X)通信中,低时延要求是重中之重,是保证交通安全的前提条件。而云服务器和终端之间的距离较远,导致了不可忽略的通信时延和能量消耗等问题。有文献采用博弈论这一数学工具,研究了多信道无线干扰环境下移动边缘计算的多用户计算卸载问题,以分布式方式实现了高效的计算卸载。但车联网中的车辆具有较快的移动速度,导致了通信环境的快速变化,我们难以获取确切的环境状态,并且环境状态也是以一种无法预测的方式快速变化。因此,传统的基于模型的方法很难得出合理的、准确的选择。
深度强化学习是一种机器学习算法,它不需要像传统的最优化方法一样对优化目标作出假设或为了降低复杂度做次优化处理,而是利用了深度学习的感知能力与强化学习的决策能力,采用神经网络作为函数逼近器,可以很好地将车联网高维状态空间中的决策问题解决。其中,深度双Q网络(Double Deep Q Network,DDQN)是深度强化学习中一种实现高维数据学习控制策略的新方法。DDQN使用两个网络,在线网络和目标网络,分别用于智能体动作的选择以及动作价值函数的估计,可以有效解决深度Q网络(Deep Q Network,DQN)中过估计的问题,从而使训练过程更快更可靠。但采用传统的单智能体强化学习方法无法满足车联网中计算密集型业务的需求,并且快速变化的环境也大大提高了计算成本。
本发明提出的一种基于多智能体DDQN的联合计算卸载和资源分配方法,采用线下训练、线上执行的强化学习架构,并将整个车联网看作一个多智能体环境,以最小化通信开销和计算开销为优化目标,可以满足蜂窝车联网(Cellular-Vehicle-to-Everything,C-V2X)对低时延、高动态性、计算密集的服务需求。
发明内容
本发明的目的是基于多智能体DDQN架构,提出一种车联网联合计算卸载与资源分配方法,在最小化时延的基础上,尽可能地降低用户端的能量消耗。为了实现该目的,本发明所采用的步骤是:
步骤1:以最小化应用时延与用户端能量消耗为目的,定义状态空间为任务信息、信道状态信息和辅助计算设备状态信息;动作空间为卸载决策、计算资源的分配以及发送功率的控制;奖励值包括通信阶段和计算阶段的奖励;
步骤2:设置最大训练回合数E和每回合训练的最大步数T,更新车辆位置和大尺度衰落参数,重设每个智能体的剩余计算任务;
步骤3:以智能体n的状态
Figure BSA0000267799700000021
作为在线网络的输入,基于ε贪心策略执行智能体n的动作
Figure BSA0000267799700000022
并将训练数据存入记忆回放池;
步骤4:从记忆回放池选取一小批样本,用于计算Q估计,通过最小化Q网络和学习目标间的平方和误差训练Q网络,使用随机梯度下降法计算更新后的网络参数,若训练回合数达到最大训练回合数E,则进入步骤5,否则跳转至步骤2开始新一回合训练;
步骤5:根据训练完成的DDQN网络,得到最优的联合计算卸载与资源分配策略。
进一步的,所述步骤1包括如下具体步骤:
步骤1-1:在C-V2X网络下的车联网系统模型,由云计算中心、核心网和网络接入边缘组成。其中网络接入边缘由与基站、路侧计算单元(Road Side Unit,RSU)相连的移动边缘计算(Mobile Edge Computing,MEC)服务器与车辆组成,通过核心网与云计算中心连接;
步骤1-2:状态空间S包括智能体n自身的任务信息Dn,n∈NC,其中NC为客户端车辆(Vehicle User Equipment Client,VUEC)数量,信道状态信息Hn,n∈NC以及计算设备状态信息F,即
Figure BSA0000267799700000023
其中,智能体n自身的任务信息Dn包括待处理的任务数据量dn、完成任务所需CPU转数cn、可被卸载的模块总数据量qn、可被卸载任务需要CPU转数
Figure BSA0000267799700000024
以及任务时延阈值
Figure BSA0000267799700000025
Figure BSA0000267799700000026
信道状态信息Hn包括VUEC n与服务端车辆(Vehicle User Equipment Server,VUES)VUES v间的信道增益hn,v,与MEC m间的信道增益hn,m,表示为Hn={hn,v,hn,m}。计算设备状态信息F包括VUES v与MEC m剩余计算资源
Figure BSA0000267799700000027
表示为
Figure BSA0000267799700000028
步骤1-3:动作空间A包括卸载决策、计算资源的分配以及发送功率的控制,表示为
An={on(t),pn(t),xn(t)} (表达式3)
其中on(t)={0,1,2},为智能体n在第t步的卸载决策,0、1、2分别表示本地计算、服务车辆计算、和其他MEC计算,pn(t)={23,10,5,0}dBm,为4个不同等级的发送功率,xn(t)={0,0.25,0.5,1},为4个不同等级的计算资源分配比例;
步骤1-4:奖励包括通信阶段和计算阶段的奖励,表示为
Figure BSA0000267799700000031
其中
Figure BSA0000267799700000032
为通信阶段的奖励,benifitcomm为训练时大小可调的固定值,
Figure BSA0000267799700000033
为通信阶段花费的总开销,同理,
Figure BSA0000267799700000034
为计算阶段的奖励,强化学习是为了找到一个能够使从任意状态开始的期望回报最大的策略,折合后的期望回报表示为
Figure BSA0000267799700000035
其中γ∈[0,1],表示折扣率,Rt+k+1表示在t+k+1步的奖励值。
进一步的,所述步骤3包括如下具体步骤:
步骤3-1:将每个智能体n的状态
Figure BSA0000267799700000036
输入在线网络,根据ε贪心策略输出动作
Figure BSA0000267799700000037
并将所有智能体的动作施加到环境中,得到即时奖励Rt+1,转向下一个状态
Figure BSA0000267799700000038
步骤3-2:更新小尺度衰落参数,将每个智能体的训练数据
Figure BSA0000267799700000039
存放到记忆回放池中。
进一步的,所述步骤4包括如下具体步骤:
步骤4-1:在记忆回放池中选取一小批训练样本数据
Figure BSA00002677997000000310
构成数据集;
步骤4-2:计算Q估计为
Figure BSA00002677997000000311
其中γ为折扣率,θt
Figure BSA00002677997000000312
分别为在线网络和目标网络的参数,这两个网络的结构相同,但在线网络用于评估贪心策略,且不断更新θt,而目标网络用于估算价值,每隔一段时间才会更新
Figure BSA00002677997000000313
步骤4-3:定义损失函数为
Lt(θ)=∑D(yt-Q(St,At;θ)) (表达式7)
其中D为采样集合,即步骤4-1中选取的数据集,yt为表达式6定义的Q估计;
步骤4-4:利用随机梯度下降法计算θt更新后的值为
Figure BSA00002677997000000314
其中α为迭代步长,Ltt)为表达式7定义的损失函数,更新θt使得Q(St,At;θt)尽可能接近于Q估计yt
步骤4-5:若满足t<T,T为每一回合的总时间步,t为当前时间步,则t=t+1,跳转至步骤3,否则令t=0,跳转至步骤4-6;
步骤4-6:若满足e<E,E为训练总回合数,e为当前回合数,则e=e+1,跳转至步骤2,否则跳转至步骤5。
附图说明
图1是本发明提出的一种基于多智能体DDQN的联合计算卸载和资源分配方法的算法框架图;
图2是本发明采用的系统模型示意图;
图3是本发明采用的强化学习模型中状态空间、动作空间和奖励函数三者之间的关系示意图;
图4是本发明的可卸载任务量-成本仿真结果图;
图5是本发明的任务车辆数-成本仿真结果图;
具体实施方式
下面结合附图和实例对本发明作进一步详细描述。
本发明提出的一种基于多智能体DDQN的联合计算卸载和资源分配方法的算法框架图如附图1所示。具体包括以下步骤:
步骤1:以最小化应用时延与用户端能量消耗为目的,定义状态空间为任务信息、信道状态信息和辅助计算设备状态信息;动作空间为卸载决策、计算资源的分配以及发送功率的控制;奖励值包括通信阶段和计算阶段的奖励;
步骤2:设置最大训练回合数E和每回合训练的最大步数T,更新车辆位置和大尺度衰落参数,重设每个智能体的剩余计算任务;
步骤3:以智能体n的状态
Figure BSA0000267799700000041
作为在线网络的输入,基于ε贪心策略执行智能体n的动作
Figure BSA0000267799700000042
并将训练数据存入记忆回放池;
步骤4:从记忆回放池选取一小批样本,用于计算Q估计,通过最小化Q网络和学习目标间的平方和误差训练Q网络,使用随机梯度下降法计算更新后的网络参数,若训练回合数达到最大训练回合数E,则进入步骤5,否则跳转至步骤2开始新一回合训练;
步骤5:根据训练完成的DDQN网络,得到最优的联合计算卸载与资源分配策略。
进一步的,所述步骤1包括如下具体步骤:
步骤1-1:在C-V2X网络下的车联网系统模型,由云计算中心、核心网和网络接入边缘组成。其中网络接入边缘由与基站、路侧计算单元(Road Side Unit,RSU)相连的移动边缘计算(Mobile Edge Computing,MEC)服务器与车辆组成,通过核心网与云计算中心连接。系统模型图如附图2所示。其中BS是基站,RSU是路侧计算单元,VUEC是车联网计算卸载客户端,即当前有计算任务的车辆,共NC辆,VUES是车联网计算卸载服务端,即当前没有计算任务并且可以为VUEC提供计算辅助的车辆,共NS辆。V2V、V2R和V2B链路分别为车-车、车-路侧MEC、车-基站MEC链路,使用各自的专用资源池,车辆可以从资源池中选择信道资源用于数据传输;
步骤1-2:状态空间S包括智能体n自身的任务信息Dn,n∈NC,其中NC为客户端车辆(Vehicle User Equipment Client,VUEC)数量,信道状态信息Hn,n∈NC以及计算设备状态信息F,即
Figure BSA0000267799700000051
其中,智能体n自身的任务信息Dn包括待处理的任务数据量dn、完成任务所需CPU转数cn、可被卸载的模块总数据量qn、可被卸载任务需要CPU转数
Figure BSA0000267799700000052
以及任务时延阈值
Figure BSA0000267799700000053
Figure BSA0000267799700000054
信道状态信息Hn包括VUEC n与服务端车辆(Vehicle User Equipment Server,VUES)VUES v间的信道增益hn,v,与MEC m间的信道增益hn,m,表示为Hn={hn,v,hn,m}。计算设备状态信息F包括VUES v与MEC m剩余计算资源
Figure BSA0000267799700000055
表示为
Figure BSA0000267799700000056
步骤1-3:动作空间A包括卸载决策、计算资源的分配以及发送功率的控制,表示为
An={on(t),pn(t),xn(t)} (表达式3)
其中on(t)={0,1,2},为智能体n在第t步的卸载决策,0、1、2分别表示本地计算、服务车辆计算、和其他MEC计算,pn(t)={23,10,5,0}dBm,为4个不同等级的发送功率,xn(t)={0,0.25,0.5,1},为4个不同等级的计算资源分配比例;
步骤1-4:奖励包括通信阶段和计算阶段的奖励,表示为
Figure BSA0000267799700000057
其中
Figure BSA0000267799700000058
为通信阶段的奖励,benifitcomm为训练时大小可调的固定值,
Figure BSA0000267799700000059
为通信阶段花费的总开销,同理,
Figure BSA00002677997000000510
为计算阶段的奖励,强化学习是为了找到一个能够使从任意状态开始的期望回报最大的策略,折合后的期望回报表示为
Figure BSA00002677997000000511
其中γ∈[0,1],表示折扣率,Rt+k+1表示在t+k+1步的奖励值。
进一步的,所述步骤3包括如下具体步骤:
步骤3-1:将每个智能体n的状态
Figure BSA00002677997000000512
输入在线网络,根据ε贪心策略输出动作
Figure BSA00002677997000000513
并将所有智能体的动作施加到环境中,得到即时奖励Rt+1,转向下一个状态
Figure BSA00002677997000000514
步骤3-2:更新小尺度衰落参数,将每个智能体的训练数据
Figure BSA0000267799700000061
存放到记忆回放池中。
进一步的,所述步骤4包括如下具体步骤:
步骤4-1:在记忆回放池中选取一小批训练样本数据
Figure BSA0000267799700000062
构成数据集;
步骤4-2:计算Q估计为
Figure BSA0000267799700000063
其中θt
Figure BSA0000267799700000064
分别为在线网络和目标网络的参数,这两个网络的结构相同,但在线网络用于评估贪心策略,且不断更新θt,而目标网络用于估算价值,每隔一段时间才会更新
Figure BSA0000267799700000065
步骤4-3:定义损失函数为
Lt(θ)=∑D(yt-Q(St,At;θ)) (表达式7)
其中D为采样集合,即步骤4-1中选取的数据集;
步骤4-4:利用随机梯度下降法计算更新后的θt
Figure BSA0000267799700000066
其中α为迭代步长,Ltt)为(7)式中定义的损失函数,更新θt使得Q(St,At;θt)尽可能接近于Q估计yt
步骤4-5:若满足t<T,T为每一回合的总时间步,t为当前时间步,则t=t+1,跳转至步骤3,否则令t=0,跳转至步骤4-6;
步骤4-6:若满足e<E,E为训练总回合数,e为当前回合数,则e=e+1,跳转至步骤2,否则跳转至步骤5。
进一步的,所述步骤5包括如下具体步骤:
步骤5-1:利用训练完成的DDQN深度强化学习模型,输入系统某个时刻t的状态St
步骤5-2:在线网络根据输入状态St输出最优动作At,得到最优卸载决策、计算资源分配决策及发送功率。
为了验证优化算法的有效性,本文基于Python中的Keras库进行仿真。仿真结果如附图4与图5所示,下面对仿真结果进行详细说明。
图4对比分析了不同方法在不同任务车辆数量情况下的性能,其中MJCORA为本发明提出的一种基于多智能体DDQN的联合计算卸载和资源分配方法(Multi-agentreinforcement learning based Joint Computing Offloading and ResourceAllocation,MJCORA),SJCORA为单智能体联合计算卸载和资源分配方法(Single-agentreinforcement learning based Joint Computing Offloading and ResourceAllocation,SJCORA),RJCORA为基于动作随机选择的联合计算卸载和资源分配方法(Random selection based Joint Computing Offloading and Resource Allocation,RJCORA),Local为本地计算方法,Cost为成本值,定义为时延和能耗的加权和,成本值越低则表示该方法性能越好。结果表明,随着车辆数量的增加,所有方法得到的成本值都随着任务车辆的增多而提升,但本发明提出的MJCORA方法在四种方法中成本值始终最低,在任务车辆数目达到10时,较本地计算的成本值低大约30%。可以看出,当综合考虑时延和功耗时,我们所提出的计算卸载方案较本地计算更具优势,弥补了本地计算的缺陷,同时较SJCORA算法和RJCORA算法在性能上表现更优异。
图5对比分析了不同方法在不同可卸载任务大小下的性能。可以看出,当计算任务量较小时,本地计算性能最优,耗费的成本值最低。但随着计算任务量的增大,计算卸载所花费的传输时延和功率消耗对于本地计算所花费的时间来说不值一提,所以采用计算卸载更为合适,该情况下本发明提出的MJCORA方法的性能较其他两种方法来说耗费成本值更低,性能更优。
因此,综合仿真结果图4与图5,可以看出本发明提出的方法在计算密集型业务中,较本地计算和其他两种方法来说具有明显的性能优势,较RJCORA方法减少了100%-200%的成本值。
最后,对说明书中的附图1-附图3进行详细说明。
在图1中,描述了本发明提出的方法的框架图,采用2个Q网络,利用在线Q网络生成贪心策略并将训练数据放入经验复用池,再从中抽取小批量样本,利用目标Q网络计算价值,从而更新网络参数θt
在图2中,描述了本发明采用的系统模型图,网络接入边缘通过核心网与云计算中心连接。
在图3中,描述了强化学习中状态空间S、动作空间A和奖励函数R之间的关系,智能体获取当前环境状态Zt后,结合自身观测状态作为当前状态St,根据特定的策略π选取动作At,将动作施加到环境后,得到下一个观测状态及奖励Rt+1

Claims (2)

1.一种基于多智能体DDQN的联合计算卸载和资源分配方法,具体包括以下步骤:
步骤1:以最小化应用时延与用户端能量消耗为目的,定义状态空间为任务信息、信道状态信息和辅助计算设备状态信息;动作空间为卸载决策、计算资源的分配以及发送功率的控制;奖励值包括通信阶段和计算阶段的奖励,第t+1步的奖励值Rt+1可表示为
Figure FSA0000267799690000011
其中
Figure FSA0000267799690000012
为通信阶段的奖励,benifitcomm为训练时大小可调的固定值,
Figure FSA0000267799690000013
为通信阶段花费的总开销,同理,
Figure FSA0000267799690000014
为计算阶段的奖励,强化学习的目标是找到一个最优策略,该策略能够使从任意状态开始的期望回报最大,折合后在第t步的期望回报表示为
Figure FSA0000267799690000015
其中γ∈[0,1],表示折扣率,Rt+k+1表示在t+k+1步的奖励值;
步骤2:设置最大训练回合数E和每回合训练的最大步数T,更新车辆位置和大尺度衰落参数,重设每个智能体的剩余计算任务;
步骤3:以智能体n在第t步的状态
Figure FSA0000267799690000016
作为在线网络的输入,基于ε贪心策略执行智能体n的动作
Figure FSA0000267799690000017
并将训练数据存入记忆回放池,具体步骤为:
步骤3-1:将每个智能体n的状态
Figure FSA0000267799690000018
作为在线网络的输入,其中Dn为智能体n的任务信息,Hn为信道状态信息,根据ε贪心策略输出动作
Figure FSA0000267799690000019
并将所有智能体的动作施加到环境中,得到即时奖励Rt+1,转向下一个状态
Figure FSA00002677996900000110
步骤3-2:更新小尺度衰落参数,将每个智能体的训练数据
Figure FSA00002677996900000111
存放到记忆回放池中;
步骤4:从记忆回放池选取一小批样本,用于计算Q估计,通过最小化Q网络和学习目标间的平方和误差训练Q网络,使用随机梯度下降法计算更新后的网络参数,若训练回合数达到最大训练回合数E,则进入步骤5,否则跳转至步骤2开始新一回合训练;
步骤5:根据训练完成的DDQN网络,得到最优的联合计算卸载与资源分配策略。
2.根据权利要求1所述的一种基于多智能体DDQN的联合计算卸载和资源分配方法,其特征在于使用2个不同的Q网络计算更新的参数值和选取贪心策略,具体步骤如下:
步骤4-1:在记忆回放池中选取一小批训练样本数据
Figure FSA00002677996900000112
构成数据集;
步骤4-2:计算Q估计为
Figure FSA00002677996900000113
其中γ为折扣率,θt
Figure FSA00002677996900000114
分别为在线网络和目标网络的参数,这两个网络的结构相同,但在线网络用于评估贪心策略,且不断更新θt,而目标网络用于估算价值,每隔一段时间才会更新
Figure FSA0000267799690000021
步骤4-3:定义损失函数为
Lt(θ)=∑D(yt-Q(St,At;θ))
其中D为采样集合,即步骤4-1中选取的数据集,yt为步骤4-2中定义的Q估计;
步骤4-4:利用随机梯度下降法计算θt更新后的值为
Figure FSA0000267799690000022
其中α为迭代步长,Ltt)为步骤4-3中定义的损失函数,更新θt使得Q(St,At;θt)尽可能接近于Q估计yt
步骤4-5:若满足t<T,T为每一回合的总时间步,t为当前时间步,则t=t+1,跳转至步骤3,否则令t=0,跳转至步骤4-6;
步骤4-6:若满足e<E,E为训练总回合数,e为当前回合数,则e=e+1,跳转至步骤2,否则跳转至步骤5。
CN202210221079.5A 2022-03-08 2022-03-08 一种基于多智能体ddqn的联合计算卸载和资源分配方法 Pending CN114584951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221079.5A CN114584951A (zh) 2022-03-08 2022-03-08 一种基于多智能体ddqn的联合计算卸载和资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221079.5A CN114584951A (zh) 2022-03-08 2022-03-08 一种基于多智能体ddqn的联合计算卸载和资源分配方法

Publications (1)

Publication Number Publication Date
CN114584951A true CN114584951A (zh) 2022-06-03

Family

ID=81773408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221079.5A Pending CN114584951A (zh) 2022-03-08 2022-03-08 一种基于多智能体ddqn的联合计算卸载和资源分配方法

Country Status (1)

Country Link
CN (1) CN114584951A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115037751A (zh) * 2022-06-28 2022-09-09 东南大学深圳研究院 一种无人机辅助的异构车联网任务迁移与资源分配方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115037751A (zh) * 2022-06-28 2022-09-09 东南大学深圳研究院 一种无人机辅助的异构车联网任务迁移与资源分配方法
CN115037751B (zh) * 2022-06-28 2023-05-05 东南大学深圳研究院 一种无人机辅助的异构车联网任务迁移与资源分配方法

Similar Documents

Publication Publication Date Title
CN113573324B (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN111507601B (zh) 基于深度强化学习与区块链共识的资源优化分配决策方法
CN110971706B (zh) Mec中近似最优化与基于强化学习的任务卸载方法
Li et al. NOMA-enabled cooperative computation offloading for blockchain-empowered Internet of Things: A learning approach
CN113543156B (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
Ebrahim et al. A deep learning approach for task offloading in multi-UAV aided mobile edge computing
CN114340016A (zh) 一种电网边缘计算卸载分配方法及系统
CN111132074A (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
CN115413044B (zh) 一种工业无线网络的计算和通信资源联合分配方法
CN115002123A (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN114860337A (zh) 一种基于元强化学习算法的计算卸载方法
CN116321298A (zh) 车联网中一种基于深度强化学习的多目标联合优化任务卸载策略
CN114584951A (zh) 一种基于多智能体ddqn的联合计算卸载和资源分配方法
CN118467127A (zh) 基于多智能体协作的移动边缘计算任务调度卸载方法
CN113821346A (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN117290071A (zh) 一种在车辆边缘计算中的细粒度任务调度方法及服务架构
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
Gao et al. Fast Adaptive Task Offloading and Resource Allocation in Large-Scale MEC Systems via Multiagent Graph Reinforcement Learning
CN114928893B (zh) 一种基于智能反射面的架构及任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination