CN112367353A - 基于多智能体强化学习的移动边缘计算卸载方法 - Google Patents

基于多智能体强化学习的移动边缘计算卸载方法 Download PDF

Info

Publication number
CN112367353A
CN112367353A CN202011067955.0A CN202011067955A CN112367353A CN 112367353 A CN112367353 A CN 112367353A CN 202011067955 A CN202011067955 A CN 202011067955A CN 112367353 A CN112367353 A CN 112367353A
Authority
CN
China
Prior art keywords
task
agent
time slot
network
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011067955.0A
Other languages
English (en)
Other versions
CN112367353B (zh
Inventor
李轩衡
汪意迟
李慧瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011067955.0A priority Critical patent/CN112367353B/zh
Publication of CN112367353A publication Critical patent/CN112367353A/zh
Application granted granted Critical
Publication of CN112367353B publication Critical patent/CN112367353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution

Abstract

本发明公布了一种基于多智能体强化学习的移动边缘计算卸载方法,属于边缘计算、无线网络领域,为“多用户‑多边缘节点”的复杂场景提供了一种智能的任务卸载方法。该方法采用多智能体强化学习算法,各用户设备在本地建立Actor和Critic深度学习网络,分别根据自己及其它设备的状态和动作进行动作选择和动作打分,综合考虑频谱资源、计算资源和能量资源,以优化任务延迟为目标制定卸载和资源分配策略。该方法不依赖网络具体模型,各设备能够通过“探索‑反馈”的学习过程自主智能地进行最优策略制定,且能够适应网络环境的动态变化。

Description

基于多智能体强化学习的移动边缘计算卸载方法
技术领域
本发明属于边缘计算、无线网络领域,涉及一种基于多智能体深度强化学习的计算卸载方法,特别涉及到计算任务卸载策略和多维资源联合分配问题。
背景技术
随着移动互联网技术的不断发展,虚拟现实、在线游戏、人脸识别、图像处理等计算密集型新兴应用迅速崛起。然而,由于终端设备的计算能力有限,这些计算密集型应用的普及受到限制。为解决该问题,云计算应运而生,其将终端设备端复杂的计算任务上传至计算能力更强大的云服务器上执行,以此来解除这些新兴应用对设备计算能力的依赖。然而传统的云计算解决方案存在较大的传输延迟和过高的回程带宽需求问题,难以满足未来海量的计算需求,因此,移动边缘计算的概念被提出。
移动边缘计算是指在移动网络边缘部署计算和存储资源,为移动网络提供IT服务环境和计算能力,用户可以将部分或全部计算任务交给边缘代理服务器进行处理,从而为用户提供超低时延的计算解决方案。其中,如何制定计算卸载策略是移动边缘计算的关键问题,主要包括卸载决策和资源分配这两方面。卸载决策是指根据用户的任务负载、数据量等属性,综合考虑能耗、响应时间等因素,决定是否卸载、卸载目标、卸载任务量等策略;资源分配重点解决终端设备在卸载过程中的资源占用问题,主要包括设备的能量和计算资源的分配。
目前针对移动边缘计算任务卸载和资源分配的联合策略设计主要基于全局优化方法,即假设网络中心节点已知全局信息,以最小化能耗或最小化延迟为目标,以移动终端的能量及计算资源、任务的延迟容忍等为约束建立优化问题并求解,从而获得最优策略。然而,这种决策优化问题通常是NP困难问题,尤其当网络规模较大时,即使通过启发式求解算法仍然需要通过较长的计算时间开销来获得最优策略。此外,网络的状态通常是动态变化的,这需要中心节点不断地求解复杂的优化问题,且难以自适应地跟踪网络的动态环境。
近年来,随着人工智能技术的迅速发展,强化学习算法受到了广泛关注。强化学习是机器学习的一个重要分支,主要由智能体、环境、状态、动作和奖励组成。智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖励指导行为,从而使智能体随着时间的推移自适应地实现特定目标的最优。由于强化学习是对动作进行评价并根据反馈修正动作选择及策略,所以其不需要依赖先验知识,且能够自适应地跟踪环境变化,适合解决较为复杂的决策问题,因此可以借助强化学习算法实现智能的计算卸载。考虑到网络中通常存在多个终端设备需要进行决策制定,且各自策略会彼此影响,本发明设计基于多智能体强化学习的计算卸载方法。与传统的的优化求解方法相比,该方法不需要求解复杂的优化问题,可有效降低决策制定的时间开销,更具有可行性,此外,各设备能够自适应地跟踪网络环境变化,智能地自主制定策略。因此,本发明设计的方法具有更佳的应用前景。
发明内容
本发明的目的是从网络总体性能角度出发,综合考虑用户设备的状态以及网络的通信与计算资源,为网络中各用户设备提供一种基于多智能体深度强化学习的智能边缘计算卸载方法。
本发明中,分别用
Figure BDA0002714386810000021
Figure BDA0002714386810000022
表示网络中存在的N个用户设备和M个边缘节点。考虑周期性时隙系统,各用户设备在每个时隙将进行计算卸载策略制定,包括任务的卸载比例、卸载的目标边缘节点、传输所用信道以及任务传输和本地执行的能量分配。用δ(秒)表示单个时隙的长度,并以整数j作为索引。本发明提供的基于多智能体深度强化学习的智能边缘计算卸载方法具体步骤如下:
第1、定义网络中各用户设备n在时隙j的状态集,动作集和奖赏函数。
定义1:用户设备n在时隙j的状态集用
Figure BDA0002714386810000031
表示,其中:
①.
Figure BDA0002714386810000032
表示该设备在时隙j需要完成的计算任务的输入数据量(比特),
Figure BDA0002714386810000033
表完成任务所需的CPU循环数;
②.
Figure BDA0002714386810000034
表示在时隙j初该设备的剩余电量。假设各设备在每个时隙均可充电,
充电的功率为
Figure BDA0002714386810000035
且时隙初的剩余电量不超过电池容量En,max
③.
Figure BDA0002714386810000036
表示时隙j内,用户设备n与M个边缘节点之间的信道增益的合集。其中
Figure BDA0002714386810000037
表示时隙j内用户设备n与边缘节点m之间的所有信道对应的增益的集合。
定义2:用户设备n在时隙j的动作集用
Figure BDA0002714386810000038
表示,其中:
①.
Figure BDA0002714386810000039
表示时隙j内用户设备n产生的任务卸载到边缘节点上的比例;
②.
Figure BDA00027143868100000310
表示时隙j内用户设备n卸载的边缘节点标号;
③.
Figure BDA00027143868100000311
表示时隙j内用户设备n传输所占用的信道标号;
④.
Figure BDA00027143868100000312
Figure BDA00027143868100000313
分别表示时隙j内,用户设备n分配给本地计算和任务传输的能量,其需要满足:
Figure BDA00027143868100000314
Figure BDA00027143868100000315
定义3:用户设备n在时隙j的奖赏函数定义为:
Figure BDA00027143868100000316
Figure BDA00027143868100000317
为用户设备n在时隙j处理计算任务所需要的总时延,满足
Figure BDA0002714386810000041
其中
Figure BDA0002714386810000042
表示本地处理时延,
Figure BDA0002714386810000043
表示传输时延,
Figure BDA0002714386810000044
表示边缘节点计算时延。当任务处理总时延
Figure BDA0002714386810000045
时,用户设备n在时隙j内的计算任务视为失败,
Figure BDA0002714386810000046
为任务失败所对应的惩罚。w1和w2分别为权重系数,计算得到用户设备n在时隙j的奖赏值。
1、关于总时延
Figure BDA0002714386810000047
的计算:
①.本地处理时延
Figure BDA0002714386810000048
的计算方式如下:
Figure BDA0002714386810000049
其中,
Figure BDA00027143868100000410
为该任务在本地所分配到的CPU循环频率,计算方式如下:
Figure BDA00027143868100000411
τn为第n个设备的有效开关电容,与移动设备的芯片架构有关。
②.任务传输时延
Figure BDA00027143868100000412
可通过联立求解如下方程组得出
Figure BDA00027143868100000413
Figure BDA00027143868100000414
其中,
Figure BDA00027143868100000415
表示该设备选择的第
Figure BDA00027143868100000416
个信道(即任务传输所用信道)的增益;
Figure BDA00027143868100000417
为该信道上行链路的最大传输速率;
Figure BDA00027143868100000418
为传输过程中的干扰;
Figure BDA00027143868100000419
为发射功率;W为上述信道的带宽;σ2为平均每个时隙内信道中的噪声功率。
③.边缘节点处理时延
Figure BDA00027143868100000420
的计算方式如下:
当边缘服务器同时处理多个计算任务时,假设每个任务平分计算资源。时隙j内用户设备n选择的边缘节点
Figure BDA00027143868100000421
中需要处理的计算任务个数用
Figure BDA00027143868100000422
表示,设边缘节点
Figure BDA00027143868100000423
服务器的总CPU循环频率为
Figure BDA00027143868100000424
则当前任务分配到的CPU频率为:
Figure BDA00027143868100000425
Figure BDA0002714386810000051
表示任务在边缘节点上处理的时延,其值为:
Figure BDA0002714386810000052
2.任务失败惩罚因子
Figure BDA0002714386810000053
的计算方式如下
假设所有任务的最大时延容忍度均为δ(秒),则有:
①.若
Figure BDA0002714386810000054
即电量耗尽,当前任务无法执行,视作任务失败,此时任务的总时延定义为
Figure BDA0002714386810000055
任务失败惩罚因子
Figure BDA0002714386810000056
②.若
Figure BDA0002714386810000057
即任务处理超时,视作任务失败,此时任务的总时延定义为
Figure BDA0002714386810000058
任务失败惩罚因子
Figure BDA0002714386810000059
③.除去①、②中所述的情况之外,均视为任务处理成功,任务失败惩罚因子
Figure BDA00027143868100000510
第2、将用户设备
Figure BDA00027143868100000511
视作N个智能体,基于步骤1中定义的状态集合、动作集合和奖赏函数,进行基于多智能体深度强化学习算法的任务卸载和资源分配的联合策略训练。
每个智能体中均包含Actor网络和Critic网络,这两者又均包含在线深度神经网络和目标深度神经网络两个部分。其中Actor在线网络可以模拟当前的策略,即根据智能体输入的状态观测值输出实时的动作,并施加到环境中获取当前奖赏值和下一个时隙的状态;Actor目标网络的输出动作并不会实际执行,只是用来协助Critic进行参数的更新。Critic在线网络可依据所有智能体的当前状态和Actor在线网络输出的动作对Actor在线网络的输出进行评估;Critic目标网络可依据所有智能体的下一个状态和Actor目标网络输出的动作对Actor目标网络的输出进行评估。Critic在线与目标网络一同协助智能体完成策略的更新。使用在线和目标双网络模型的目的是让算法的学习过程更稳定,收敛更快。此外,该算法中还含有用于存储训练数据的经验池D。当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练,由此来去除样本间的相关性和依赖性。具体步骤如下:
第2.1、随机初始化N个智能体的Actor在线网络参数
Figure BDA0002714386810000061
Critic在线网络参数
Figure BDA0002714386810000062
并初始化Actor的目标网络参数
Figure BDA0002714386810000063
为θA,Critic的目标网络参数
Figure BDA0002714386810000064
为θC;初始化经验池D;
第2.2、对于任意时隙j,将各智能体的状态
Figure BDA0002714386810000065
分别输入至对应的Actor网络,对于每一个智能体n,
①.以概率1-ε根据Actor在线网络的输出确定动作,公式如下:
Figure BDA0002714386810000066
其中
Figure BDA0002714386810000067
为由智能体n的Actor在线神经网络模拟出来的当前的策略,以下均用μn简化代替;Nt为随机噪声;
②.以概率ε随机选择动作
Figure BDA0002714386810000068
第2.3、各智能体执行动作
Figure BDA0002714386810000069
并根据执行动作之后的情况记录各自奖赏值
Figure BDA00027143868100000610
和新的状态
Figure BDA00027143868100000611
第2.4、将(xj,aj,rj,xj+1)存储至经验池D,并将各智能体的状态更新为xj+1
第2.5、更新网络参数。对于智能体n=1到N,Actor和Critic网络参数的更新如下所示:
第2.5.1、从经验池D中随机抽取S个经验,设(xk,ak,rk,x'k)对应第k∈{1,...,S}条经验。对于k=1至k=S,重复步骤①、②:
①.将N个智能体的状态值
Figure BDA00027143868100000612
依次输入各智能体对应的Actor目标网络中,得到动作
Figure BDA00027143868100000613
将状态x'k与得到的动作a'k分别输入各智能体对应的Critic的目标网络,得到目标网络输出的评价值,用
Figure BDA0002714386810000071
表示第n个智能体目标网络输出的评价值;将状态xk与动作ak分别输入各智能体对应的Critic的在线网络,得到在线网络输出的评价值,用
Figure BDA0002714386810000072
表示第n个智能体在线网络输出的评价值。
②.定义目标评价值,并计算各智能体的目标评价值。
定义4:定义智能体n使用第k∈{1,...,S}个取样经验计算得到的目标评价值为:
Figure BDA0002714386810000073
其中γ为可人为设置的参数,
Figure BDA0002714386810000074
为第n个智能体的第k个抽样经验中的奖赏值。
第2.5.2、Critic在线网络的损失函数计算如下:
Figure BDA0002714386810000075
为最小化损失函数
Figure BDA0002714386810000076
基于梯度下降法更新Critic在线网络的参数
Figure BDA0002714386810000077
第2.5.3、Actor在线网络的策略梯度计算如下:
Figure BDA0002714386810000078
基于梯度上升法更新Actor在线网络的参数
Figure BDA0002714386810000079
第2.5.4、利用
Figure BDA00027143868100000710
更新智能体n的Actor和Critic目标网络,τ为人为设置的参数。
本发明的效果和益处
1、相比传统的全局优化方法,策略的制定不依赖网络参量的具体模型,且智能的强化学习算法使得策略能够适应环境的变化。
2、本发明采用多智能体强化学习算法,适用于“多用户-多边缘节点”的复杂网络场景,能够综合网络中各用户之间的影响,实现网络整体效用的最优。
3、本发明考虑了用户设备的充电特性,联合优化了“能量-通信-计算”多维资源。
具体实施方式
以4个用户设备和2个基站组成的移动边缘系统为例,设每个用户与基站之间都有2个信道可供使用,每个信道带宽为0.6MHz,信道的增益服从瑞利分布。每一个时隙的长度为1秒,假设用户在每个时隙通过无线充电收集到的能量服从泊松分布。两个基站的最大CPU循环频率分别为10GHz和30GHz,分配给各个任务的CPU循环频率分别为5GHz和10GHz。各设备在每个时隙初产生的任务的数据大小和需要消耗的CPU循环在一定范围内随机生成。
下表为基于多智能体强化学习算法的具体方案流程:
Figure BDA0002714386810000081
Figure BDA0002714386810000091
每一个智能体的Actor和Critic的在线和目标神经网络均采用四层全连接层的结构,包括输入层、两个隐藏层以及输出层。每个隐藏层设置为64个神经元,激活函数为ReLU。其中Actor网络的输入为状态集,输出为动作集,故其输入层设置为4个神经元,输出层设置为5个神经元,且设置输出层的激活函数为Softmax;Critic网络的输入为状态集和动作集的合集,输出为评价值,故其输入层设置为9个神经元,输出层设置为1个神经元。探索率ε初始化为0.9,每个时隙探索率ε将乘以0.999下降,直至下降到0.1保持不变。在进行网络训练时,每次从经验池中抽取的批量数S为256,经验池D的最大容量为103,参数τ的默认取值为0.001,折损因子γ为0.95。随着网络训练的进行,各智能体的网络参数不断优化,最终可以收敛到长期最优策略,即得到了各智能体的任务卸载和资源分配的最优策略。此时向各智能体的Actor在线网络输入状态之后,得到的动作即为当前状态下用户设备的最佳动作。

Claims (1)

1.一种基于多智能体强化学习的移动边缘计算卸载方法,其特征在于,步骤如下:
(1)定义网络中各用户设备n在时隙j的状态集,动作集和奖赏函数
定义1:用户设备n在时隙j的状态集用
Figure FDA0002714386800000011
表示,其中,
Figure FDA0002714386800000012
表示该设备在时隙j需要完成的计算任务的输入数据量:比特;
Figure FDA0002714386800000013
代表完成任务所需的CPU循环数;
Figure FDA0002714386800000014
表示在时隙j初该设备的剩余电量;假设各设备在每个时隙均可充电,充电的功率为
Figure FDA0002714386800000015
且时隙初的剩余电量不超过电池容量En,max
Figure FDA0002714386800000016
表示时隙j内,用户设备n与M个边缘节点之间的信道增益的合集;其中
Figure FDA0002714386800000017
表示时隙j内用户设备n与边缘节点m之间的所有信道对应的增益的集合;
定义2:用户设备n在时隙j的动作集用
Figure FDA0002714386800000018
表示,其中,
Figure FDA0002714386800000019
表示时隙j内用户设备n产生的任务卸载到边缘节点上的比例;
Figure FDA00027143868000000110
表示时隙j内用户设备n卸载的边缘节点标号;
Figure FDA00027143868000000111
表示时隙j内用户设备n传输所占用的信道标号;
Figure FDA00027143868000000112
Figure FDA00027143868000000113
分别表示时隙j内,用户设备n分配给本地计算和任务传输的能量,其需要满足:
Figure FDA00027143868000000114
Figure FDA00027143868000000115
定义3:用户设备n在时隙j的奖赏函数定义为:
Figure FDA00027143868000000116
其中,
Figure FDA00027143868000000117
为用户设备n在时隙j处理计算任务所需要的总时延,满足
Figure FDA00027143868000000118
其中
Figure FDA00027143868000000119
表示本地处理时延,
Figure FDA00027143868000000120
表示传输时延,
Figure FDA00027143868000000121
表示边缘节点计算时延;当任务处理总时延
Figure FDA00027143868000000122
时,用户设备n在时隙j内的计算任务视为失败,
Figure FDA00027143868000000123
为任务失败所对应的惩罚;w1和w2分别为权重系数,计算得到用户设备n在时隙j的奖赏值;
(1.1)关于总时延
Figure FDA0002714386800000021
的计算:
①本地处理时延
Figure FDA0002714386800000022
的计算方式如下:
Figure FDA0002714386800000023
其中,
Figure FDA0002714386800000024
为该任务在本地所分配到的CPU循环频率,计算方式如下:
Figure FDA0002714386800000025
其中,τn为第n个设备的有效开关电容,与移动设备的芯片架构有关;
②任务传输时延
Figure FDA0002714386800000026
通过联立求解如下方程组得出
Figure FDA0002714386800000027
Figure FDA0002714386800000028
其中,
Figure FDA0002714386800000029
表示该设备选择的第
Figure FDA00027143868000000210
个信道即任务传输所用信道的增益;
Figure FDA00027143868000000211
为该信道上行链路的最大传输速率;
Figure FDA00027143868000000212
为传输过程中的干扰;
Figure FDA00027143868000000213
为发射功率;W为上述信道的带宽;σ2为平均每个时隙内信道中的噪声功率;
③边缘节点处理时延
Figure FDA00027143868000000214
的计算方式如下:
当边缘服务器同时处理多个计算任务时,假设每个任务平分计算资源;时隙j内用户设备n选择的边缘节点
Figure FDA00027143868000000215
中需要处理的计算任务个数用
Figure FDA00027143868000000216
表示,设边缘节点
Figure FDA00027143868000000217
服务器的总CPU循环频率为
Figure FDA00027143868000000218
则当前任务分配到的CPU频率为:
Figure FDA00027143868000000219
Figure FDA00027143868000000220
表示任务在边缘节点上处理的时延,其值为:
Figure FDA00027143868000000221
(1.2)任务失败惩罚因子
Figure FDA0002714386800000031
的计算方式如下:
假设所有任务的最大时延容忍度均为δ,则有:
①若
Figure FDA0002714386800000032
即电量耗尽,当前任务无法执行,视作任务失败,此时任务的总时延定义为
Figure FDA0002714386800000033
任务失败惩罚因子
Figure FDA0002714386800000034
②若
Figure FDA0002714386800000035
即任务处理超时,视作任务失败,此时任务的总时延定义为
Figure FDA0002714386800000036
任务失败惩罚因子
Figure FDA0002714386800000037
③除去①、②中所述的情况之外,均视为任务处理成功,任务失败惩罚因子
Figure FDA0002714386800000038
(2)将用户设备
Figure FDA0002714386800000039
视作N个智能体,基于步骤(1)中定义的状态集合、动作集合和奖赏函数,进行基于多智能体深度强化学习算法的任务卸载和资源分配的联合策略训练;
每个智能体中均包含Actor网络和Critic网络,两者又均包含在线深度神经网络和目标深度神经网络两个部分;其中Actor在线深度神经网络可模拟当前的策略,即根据智能体输入的状态观测值输出实时的动作,并施加到环境中获取当前奖赏值和下一个时隙的状态;Actor目标深度神经网络的输出动作并不会实际执行,只是用来协助Critic进行参数的更新;Critic在线深度神经网络依据所有智能体的当前状态和Actor在线深度神经网络输出的动作对Actor在线深度神经网络的输出进行评估;Critic目标深度神经网络依据所有智能体的下一个状态和Actor目标深度神经网络输出的动作对Actor目标深度神经网络的输出进行评估;Critic在线深度神经网络与Critic目标深度神经网络一同协助智能体完成策略的更新;此外,该算法中还含有用于存储训练数据的经验池D;当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练,由此来去除样本间的相关性和依赖性;具体步骤如下:
(2.1)随机初始化N个智能体的Actor在线深度神经网络参数
Figure FDA0002714386800000041
Critic在线深度神经网络参数
Figure FDA0002714386800000042
并初始化Actor目标深度神经网络参数
Figure FDA0002714386800000043
为θA,Critic目标深度神经网络参数
Figure FDA0002714386800000044
为θC;初始化经验池D;
(2.2)对于任意时隙j,将各智能体的状态
Figure FDA0002714386800000045
分别输入至对应的Actor网络,对于每一个智能体n,
①以概率1-ε根据Actor在线网络的输出确定动作,公式如下:
Figure FDA0002714386800000046
其中,
Figure FDA0002714386800000047
为由智能体n的Actor在线深度神经网络模拟出来的当前的策略,以下均用μn简化代替;Nt为随机噪声;
②以概率ε随机选择动作
Figure FDA0002714386800000048
(2.3)各智能体执行动作
Figure FDA0002714386800000049
并根据执行动作之后的情况记录各自奖赏值
Figure FDA00027143868000000410
和新的状态
Figure FDA00027143868000000411
(2.4)将(xj,aj,rj,xj+1)存储至经验池D,并将各智能体的状态更新为xj+1
(2.5)每个时隙,网络参数更新一次;对于智能体n=1到N,Actor和Critic网络参数的更新如下所示:
(2.5.1)从经验池D中随机抽取S个经验,设(xk,ak,rk,x'k)对应第k∈{1,...,S}条经验;对于k=1至k=S,重复步骤①、②:
a)将N个智能体的状态值
Figure FDA00027143868000000412
依次输入各智能体对应的Actor目标深度神经网络中,得到动作
Figure FDA00027143868000000413
将状态x'k与得到的动作a'k分别输入各智能体对应的Critic目标深度神经网络,得到目标网络输出的评价值,用
Figure FDA00027143868000000414
表示第n个智能体目标网络输出的评价值;将状态xk与动作ak分别输入各智能体对应的Critic在线深度神经网络,得到在线网络输出的评价值,用
Figure FDA0002714386800000051
表示第n个智能体在线网络输出的评价值;
b)定义目标评价值,并计算各智能体的目标评价值;
定义4:定义智能体n使用第k∈{1,...,S}个取样经验计算得到的目标评价值为:
Figure FDA0002714386800000052
其中γ为可人为设置的参数,
Figure FDA0002714386800000053
为第n个智能体的第k个抽样经验中的奖赏值;
第2.5.2、Critic在线网络的损失函数计算如下:
Figure FDA0002714386800000054
为最小化损失函数
Figure FDA0002714386800000055
基于梯度下降法更新Critic在线网络的参数
Figure FDA0002714386800000056
第2.5.3、Actor在线网络的策略梯度计算如下:
Figure FDA0002714386800000057
基于梯度上升法更新Actor在线网络的参数
Figure FDA0002714386800000058
第2.5.4、利用
Figure FDA0002714386800000059
更新智能体n的Actor和Critic目标深度神经网络,τ为人为设置的参数。
CN202011067955.0A 2020-10-08 2020-10-08 基于多智能体强化学习的移动边缘计算卸载方法 Active CN112367353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011067955.0A CN112367353B (zh) 2020-10-08 2020-10-08 基于多智能体强化学习的移动边缘计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011067955.0A CN112367353B (zh) 2020-10-08 2020-10-08 基于多智能体强化学习的移动边缘计算卸载方法

Publications (2)

Publication Number Publication Date
CN112367353A true CN112367353A (zh) 2021-02-12
CN112367353B CN112367353B (zh) 2021-11-05

Family

ID=74507019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011067955.0A Active CN112367353B (zh) 2020-10-08 2020-10-08 基于多智能体强化学习的移动边缘计算卸载方法

Country Status (1)

Country Link
CN (1) CN112367353B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882815A (zh) * 2021-03-23 2021-06-01 南京邮电大学 基于深度强化学习的多用户边缘计算优化调度方法
CN113064480A (zh) * 2021-03-29 2021-07-02 重庆邮电大学 一种基于多智能体强化学习的多数据中心协同节能方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法
CN113115072A (zh) * 2021-04-09 2021-07-13 中山大学 一种基于端云协同的视频目标检测跟踪调度方法及系统
CN113301656A (zh) * 2021-05-20 2021-08-24 清华大学 一种基于multi-agent强化学习的宽带自组织网资源决策方法
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113395723A (zh) * 2021-06-11 2021-09-14 西安交通大学 基于强化学习的5g nr下行调度时延优化系统
CN113408675A (zh) * 2021-08-20 2021-09-17 深圳市沃易科技有限公司 一种基于联邦学习的卸载智能优化方法和系统
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113452956A (zh) * 2021-02-26 2021-09-28 深圳供电局有限公司 一种输电线路巡检任务智能分配方法及系统
CN113518112A (zh) * 2021-05-08 2021-10-19 杭州电子科技大学 基于多智能体强化学习的无线充电设备协作任务卸载策略
CN113572647A (zh) * 2021-07-30 2021-10-29 同济大学 一种基于强化学习的区块链-边缘计算联合系统
CN113568675A (zh) * 2021-07-08 2021-10-29 广东利通科技投资有限公司 一种基于分层强化学习的车联网边缘计算任务卸载方法
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113645702A (zh) * 2021-07-30 2021-11-12 同济大学 一种利用策略梯度技术优化的支持区块链的物联网系统
CN113676954A (zh) * 2021-07-12 2021-11-19 中山大学 大规模用户任务卸载方法、装置、计算机设备和存储介质
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113840334A (zh) * 2021-08-20 2021-12-24 济南浪潮数据技术有限公司 一种网络资源协同方法和装置
CN114116156A (zh) * 2021-10-18 2022-03-01 武汉理工大学 一种云边协同的双利益均衡禁忌强化学习资源分配方法
CN114118300A (zh) * 2022-01-21 2022-03-01 苏州浪潮智能科技有限公司 服务迁移模型训练方法以及车联网服务迁移方法、系统
CN114500530A (zh) * 2021-12-31 2022-05-13 北方信息控制研究院集团有限公司 一种民用边缘信息系统自动调整方法
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法
CN114615265A (zh) * 2022-03-09 2022-06-10 浙江工业大学 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN114745317A (zh) * 2022-02-09 2022-07-12 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114915665A (zh) * 2022-07-13 2022-08-16 香港中文大学(深圳) 一种基于分层策略的异构任务调度方法
CN115022937A (zh) * 2022-07-14 2022-09-06 合肥工业大学 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115633380A (zh) * 2022-11-16 2023-01-20 合肥工业大学智能制造技术研究院 一种考虑动态拓扑的多边缘服务缓存调度方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114623A1 (en) * 2008-10-31 2010-05-06 International Business Machines Corporation Using detailed process information at a point of sale
US20150262056A1 (en) * 2011-12-14 2015-09-17 International Business Machines Corporation Universal, online learning in multi-modal perception-action semilattices
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110830560A (zh) * 2019-10-25 2020-02-21 东华大学 一种基于强化学习的多用户移动边缘计算迁移方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100114623A1 (en) * 2008-10-31 2010-05-06 International Business Machines Corporation Using detailed process information at a point of sale
US20150262056A1 (en) * 2011-12-14 2015-09-17 International Business Machines Corporation Universal, online learning in multi-modal perception-action semilattices
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110830560A (zh) * 2019-10-25 2020-02-21 东华大学 一种基于强化学习的多用户移动边缘计算迁移方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111586696A (zh) * 2020-04-29 2020-08-25 重庆邮电大学 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MATTEW FRAMPTON等: ""Recent research advanced in reinforcement learnign in spoken Dialogue Systems"", 《THE KNOWLEDGE ENGINEERING REVIEW》 *
张东: ""基于深度强化学习的移动边缘卸载机制"", 《舰船电子工程》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113452956A (zh) * 2021-02-26 2021-09-28 深圳供电局有限公司 一种输电线路巡检任务智能分配方法及系统
CN112882815B (zh) * 2021-03-23 2022-10-25 南京邮电大学 基于深度强化学习的多用户边缘计算优化调度方法
CN112882815A (zh) * 2021-03-23 2021-06-01 南京邮电大学 基于深度强化学习的多用户边缘计算优化调度方法
CN113064480B (zh) * 2021-03-29 2022-04-22 重庆邮电大学 一种基于多智能体强化学习的多数据中心协同节能方法
CN113064480A (zh) * 2021-03-29 2021-07-02 重庆邮电大学 一种基于多智能体强化学习的多数据中心协同节能方法
CN113115072A (zh) * 2021-04-09 2021-07-13 中山大学 一种基于端云协同的视频目标检测跟踪调度方法及系统
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法
CN113518112A (zh) * 2021-05-08 2021-10-19 杭州电子科技大学 基于多智能体强化学习的无线充电设备协作任务卸载策略
CN113518112B (zh) * 2021-05-08 2022-12-09 杭州电子科技大学 基于多智能体强化学习的无线充电设备协作任务卸载策略
CN113301656A (zh) * 2021-05-20 2021-08-24 清华大学 一种基于multi-agent强化学习的宽带自组织网资源决策方法
CN113301656B (zh) * 2021-05-20 2022-10-04 清华大学 一种基于multi-agent强化学习的宽带自组织网资源决策方法
CN113395723A (zh) * 2021-06-11 2021-09-14 西安交通大学 基于强化学习的5g nr下行调度时延优化系统
CN113395723B (zh) * 2021-06-11 2022-08-09 西安交通大学 基于强化学习的5g nr下行调度时延优化系统
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113346944A (zh) * 2021-06-28 2021-09-03 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113346944B (zh) * 2021-06-28 2022-06-10 上海交通大学 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN113568675A (zh) * 2021-07-08 2021-10-29 广东利通科技投资有限公司 一种基于分层强化学习的车联网边缘计算任务卸载方法
CN113568675B (zh) * 2021-07-08 2024-04-12 广东利通科技投资有限公司 一种基于分层强化学习的车联网边缘计算任务卸载方法
CN113676954A (zh) * 2021-07-12 2021-11-19 中山大学 大规模用户任务卸载方法、装置、计算机设备和存储介质
CN113676954B (zh) * 2021-07-12 2023-07-18 中山大学 大规模用户任务卸载方法、装置、计算机设备和存储介质
CN113572647A (zh) * 2021-07-30 2021-10-29 同济大学 一种基于强化学习的区块链-边缘计算联合系统
CN113645702B (zh) * 2021-07-30 2022-06-03 同济大学 一种利用策略梯度技术优化的支持区块链的物联网系统
CN113645702A (zh) * 2021-07-30 2021-11-12 同济大学 一种利用策略梯度技术优化的支持区块链的物联网系统
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113408675A (zh) * 2021-08-20 2021-09-17 深圳市沃易科技有限公司 一种基于联邦学习的卸载智能优化方法和系统
CN113840334A (zh) * 2021-08-20 2021-12-24 济南浪潮数据技术有限公司 一种网络资源协同方法和装置
CN113821346B (zh) * 2021-09-24 2023-09-05 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114116156B (zh) * 2021-10-18 2022-09-09 武汉理工大学 一种云边协同的双利益均衡禁忌强化学习资源分配方法
CN114116156A (zh) * 2021-10-18 2022-03-01 武汉理工大学 一种云边协同的双利益均衡禁忌强化学习资源分配方法
CN114500530B (zh) * 2021-12-31 2023-12-08 北方信息控制研究院集团有限公司 一种民用边缘信息系统自动调整方法
CN114500530A (zh) * 2021-12-31 2022-05-13 北方信息控制研究院集团有限公司 一种民用边缘信息系统自动调整方法
CN114118300A (zh) * 2022-01-21 2022-03-01 苏州浪潮智能科技有限公司 服务迁移模型训练方法以及车联网服务迁移方法、系统
CN114745317B (zh) * 2022-02-09 2023-02-07 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114745317A (zh) * 2022-02-09 2022-07-12 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114598667A (zh) * 2022-03-04 2022-06-07 重庆邮电大学 一种基于联邦学习的高效设备选择与资源分配方法
CN114615265A (zh) * 2022-03-09 2022-06-10 浙江工业大学 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115065728B (zh) * 2022-06-13 2023-12-08 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN114915665A (zh) * 2022-07-13 2022-08-16 香港中文大学(深圳) 一种基于分层策略的异构任务调度方法
CN115022937B (zh) * 2022-07-14 2022-11-11 合肥工业大学 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
CN115022937A (zh) * 2022-07-14 2022-09-06 合肥工业大学 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
CN115633380B (zh) * 2022-11-16 2023-03-17 合肥工业大学智能制造技术研究院 一种考虑动态拓扑的多边缘服务缓存调度方法和系统
CN115633380A (zh) * 2022-11-16 2023-01-20 合肥工业大学智能制造技术研究院 一种考虑动态拓扑的多边缘服务缓存调度方法和系统

Also Published As

Publication number Publication date
CN112367353B (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN112512056B (zh) 一种移动边缘计算网络中多目标优化的计算卸载方法
CN110971706B (zh) Mec中近似最优化与基于强化学习的任务卸载方法
CN113873022A (zh) 一种可划分任务的移动边缘网络智能资源分配方法
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN113573324A (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN111586720A (zh) 一种多小区场景下的任务卸载和资源分配的联合优化方法
CN113543156A (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN111628855A (zh) 基于深度强化学习的工业5g动态多优先级多接入方法
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN116156563A (zh) 基于数字孪生的异构任务与资源端边协同调度方法
CN116260871A (zh) 一种基于本地和边缘协同缓存的独立任务卸载方法
Ebrahim et al. A deep learning approach for task offloading in multi-UAV aided mobile edge computing
CN114828018A (zh) 一种基于深度确定性策略梯度的多用户移动边缘计算卸载方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN111930435B (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN117098189A (zh) 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法
CN114942799B (zh) 云边环境下基于强化学习的工作流调度方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant