CN112367353A - 基于多智能体强化学习的移动边缘计算卸载方法 - Google Patents
基于多智能体强化学习的移动边缘计算卸载方法 Download PDFInfo
- Publication number
- CN112367353A CN112367353A CN202011067955.0A CN202011067955A CN112367353A CN 112367353 A CN112367353 A CN 112367353A CN 202011067955 A CN202011067955 A CN 202011067955A CN 112367353 A CN112367353 A CN 112367353A
- Authority
- CN
- China
- Prior art keywords
- task
- agent
- time slot
- network
- actor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
Abstract
本发明公布了一种基于多智能体强化学习的移动边缘计算卸载方法,属于边缘计算、无线网络领域,为“多用户‑多边缘节点”的复杂场景提供了一种智能的任务卸载方法。该方法采用多智能体强化学习算法,各用户设备在本地建立Actor和Critic深度学习网络,分别根据自己及其它设备的状态和动作进行动作选择和动作打分,综合考虑频谱资源、计算资源和能量资源,以优化任务延迟为目标制定卸载和资源分配策略。该方法不依赖网络具体模型,各设备能够通过“探索‑反馈”的学习过程自主智能地进行最优策略制定,且能够适应网络环境的动态变化。
Description
技术领域
本发明属于边缘计算、无线网络领域,涉及一种基于多智能体深度强化学习的计算卸载方法,特别涉及到计算任务卸载策略和多维资源联合分配问题。
背景技术
随着移动互联网技术的不断发展,虚拟现实、在线游戏、人脸识别、图像处理等计算密集型新兴应用迅速崛起。然而,由于终端设备的计算能力有限,这些计算密集型应用的普及受到限制。为解决该问题,云计算应运而生,其将终端设备端复杂的计算任务上传至计算能力更强大的云服务器上执行,以此来解除这些新兴应用对设备计算能力的依赖。然而传统的云计算解决方案存在较大的传输延迟和过高的回程带宽需求问题,难以满足未来海量的计算需求,因此,移动边缘计算的概念被提出。
移动边缘计算是指在移动网络边缘部署计算和存储资源,为移动网络提供IT服务环境和计算能力,用户可以将部分或全部计算任务交给边缘代理服务器进行处理,从而为用户提供超低时延的计算解决方案。其中,如何制定计算卸载策略是移动边缘计算的关键问题,主要包括卸载决策和资源分配这两方面。卸载决策是指根据用户的任务负载、数据量等属性,综合考虑能耗、响应时间等因素,决定是否卸载、卸载目标、卸载任务量等策略;资源分配重点解决终端设备在卸载过程中的资源占用问题,主要包括设备的能量和计算资源的分配。
目前针对移动边缘计算任务卸载和资源分配的联合策略设计主要基于全局优化方法,即假设网络中心节点已知全局信息,以最小化能耗或最小化延迟为目标,以移动终端的能量及计算资源、任务的延迟容忍等为约束建立优化问题并求解,从而获得最优策略。然而,这种决策优化问题通常是NP困难问题,尤其当网络规模较大时,即使通过启发式求解算法仍然需要通过较长的计算时间开销来获得最优策略。此外,网络的状态通常是动态变化的,这需要中心节点不断地求解复杂的优化问题,且难以自适应地跟踪网络的动态环境。
近年来,随着人工智能技术的迅速发展,强化学习算法受到了广泛关注。强化学习是机器学习的一个重要分支,主要由智能体、环境、状态、动作和奖励组成。智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖励指导行为,从而使智能体随着时间的推移自适应地实现特定目标的最优。由于强化学习是对动作进行评价并根据反馈修正动作选择及策略,所以其不需要依赖先验知识,且能够自适应地跟踪环境变化,适合解决较为复杂的决策问题,因此可以借助强化学习算法实现智能的计算卸载。考虑到网络中通常存在多个终端设备需要进行决策制定,且各自策略会彼此影响,本发明设计基于多智能体强化学习的计算卸载方法。与传统的的优化求解方法相比,该方法不需要求解复杂的优化问题,可有效降低决策制定的时间开销,更具有可行性,此外,各设备能够自适应地跟踪网络环境变化,智能地自主制定策略。因此,本发明设计的方法具有更佳的应用前景。
发明内容
本发明的目的是从网络总体性能角度出发,综合考虑用户设备的状态以及网络的通信与计算资源,为网络中各用户设备提供一种基于多智能体深度强化学习的智能边缘计算卸载方法。
本发明中,分别用和表示网络中存在的N个用户设备和M个边缘节点。考虑周期性时隙系统,各用户设备在每个时隙将进行计算卸载策略制定,包括任务的卸载比例、卸载的目标边缘节点、传输所用信道以及任务传输和本地执行的能量分配。用δ(秒)表示单个时隙的长度,并以整数j作为索引。本发明提供的基于多智能体深度强化学习的智能边缘计算卸载方法具体步骤如下:
第1、定义网络中各用户设备n在时隙j的状态集,动作集和奖赏函数。
表完成任务所需的CPU循环数;
定义3:用户设备n在时隙j的奖赏函数定义为:
为用户设备n在时隙j处理计算任务所需要的总时延,满足其中表示本地处理时延,表示传输时延,表示边缘节点计算时延。当任务处理总时延时,用户设备n在时隙j内的计算任务视为失败,为任务失败所对应的惩罚。w1和w2分别为权重系数,计算得到用户设备n在时隙j的奖赏值。
τn为第n个设备的有效开关电容,与移动设备的芯片架构有关。
假设所有任务的最大时延容忍度均为δ(秒),则有:
每个智能体中均包含Actor网络和Critic网络,这两者又均包含在线深度神经网络和目标深度神经网络两个部分。其中Actor在线网络可以模拟当前的策略,即根据智能体输入的状态观测值输出实时的动作,并施加到环境中获取当前奖赏值和下一个时隙的状态;Actor目标网络的输出动作并不会实际执行,只是用来协助Critic进行参数的更新。Critic在线网络可依据所有智能体的当前状态和Actor在线网络输出的动作对Actor在线网络的输出进行评估;Critic目标网络可依据所有智能体的下一个状态和Actor目标网络输出的动作对Actor目标网络的输出进行评估。Critic在线与目标网络一同协助智能体完成策略的更新。使用在线和目标双网络模型的目的是让算法的学习过程更稳定,收敛更快。此外,该算法中还含有用于存储训练数据的经验池D。当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练,由此来去除样本间的相关性和依赖性。具体步骤如下:
①.以概率1-ε根据Actor在线网络的输出确定动作,公式如下:
第2.4、将(xj,aj,rj,xj+1)存储至经验池D,并将各智能体的状态更新为xj+1。
第2.5、更新网络参数。对于智能体n=1到N,Actor和Critic网络参数的更新如下所示:
第2.5.1、从经验池D中随机抽取S个经验,设(xk,ak,rk,x'k)对应第k∈{1,...,S}条经验。对于k=1至k=S,重复步骤①、②:
①.将N个智能体的状态值依次输入各智能体对应的Actor目标网络中,得到动作将状态x'k与得到的动作a'k分别输入各智能体对应的Critic的目标网络,得到目标网络输出的评价值,用表示第n个智能体目标网络输出的评价值;将状态xk与动作ak分别输入各智能体对应的Critic的在线网络,得到在线网络输出的评价值,用表示第n个智能体在线网络输出的评价值。
②.定义目标评价值,并计算各智能体的目标评价值。
定义4:定义智能体n使用第k∈{1,...,S}个取样经验计算得到的目标评价值为:
第2.5.2、Critic在线网络的损失函数计算如下:
第2.5.3、Actor在线网络的策略梯度计算如下:
本发明的效果和益处
1、相比传统的全局优化方法,策略的制定不依赖网络参量的具体模型,且智能的强化学习算法使得策略能够适应环境的变化。
2、本发明采用多智能体强化学习算法,适用于“多用户-多边缘节点”的复杂网络场景,能够综合网络中各用户之间的影响,实现网络整体效用的最优。
3、本发明考虑了用户设备的充电特性,联合优化了“能量-通信-计算”多维资源。
具体实施方式
以4个用户设备和2个基站组成的移动边缘系统为例,设每个用户与基站之间都有2个信道可供使用,每个信道带宽为0.6MHz,信道的增益服从瑞利分布。每一个时隙的长度为1秒,假设用户在每个时隙通过无线充电收集到的能量服从泊松分布。两个基站的最大CPU循环频率分别为10GHz和30GHz,分配给各个任务的CPU循环频率分别为5GHz和10GHz。各设备在每个时隙初产生的任务的数据大小和需要消耗的CPU循环在一定范围内随机生成。
下表为基于多智能体强化学习算法的具体方案流程:
每一个智能体的Actor和Critic的在线和目标神经网络均采用四层全连接层的结构,包括输入层、两个隐藏层以及输出层。每个隐藏层设置为64个神经元,激活函数为ReLU。其中Actor网络的输入为状态集,输出为动作集,故其输入层设置为4个神经元,输出层设置为5个神经元,且设置输出层的激活函数为Softmax;Critic网络的输入为状态集和动作集的合集,输出为评价值,故其输入层设置为9个神经元,输出层设置为1个神经元。探索率ε初始化为0.9,每个时隙探索率ε将乘以0.999下降,直至下降到0.1保持不变。在进行网络训练时,每次从经验池中抽取的批量数S为256,经验池D的最大容量为103,参数τ的默认取值为0.001,折损因子γ为0.95。随着网络训练的进行,各智能体的网络参数不断优化,最终可以收敛到长期最优策略,即得到了各智能体的任务卸载和资源分配的最优策略。此时向各智能体的Actor在线网络输入状态之后,得到的动作即为当前状态下用户设备的最佳动作。
Claims (1)
1.一种基于多智能体强化学习的移动边缘计算卸载方法,其特征在于,步骤如下:
(1)定义网络中各用户设备n在时隙j的状态集,动作集和奖赏函数
定义1:用户设备n在时隙j的状态集用表示,其中,表示该设备在时隙j需要完成的计算任务的输入数据量:比特;代表完成任务所需的CPU循环数;表示在时隙j初该设备的剩余电量;假设各设备在每个时隙均可充电,充电的功率为且时隙初的剩余电量不超过电池容量En,max;
定义2:用户设备n在时隙j的动作集用表示,其中,表示时隙j内用户设备n产生的任务卸载到边缘节点上的比例;表示时隙j内用户设备n卸载的边缘节点标号;表示时隙j内用户设备n传输所占用的信道标号;和分别表示时隙j内,用户设备n分配给本地计算和任务传输的能量,其需要满足:
定义3:用户设备n在时隙j的奖赏函数定义为:
其中,为用户设备n在时隙j处理计算任务所需要的总时延,满足其中表示本地处理时延,表示传输时延,表示边缘节点计算时延;当任务处理总时延时,用户设备n在时隙j内的计算任务视为失败,为任务失败所对应的惩罚;w1和w2分别为权重系数,计算得到用户设备n在时隙j的奖赏值;
其中,τn为第n个设备的有效开关电容,与移动设备的芯片架构有关;
假设所有任务的最大时延容忍度均为δ,则有:
每个智能体中均包含Actor网络和Critic网络,两者又均包含在线深度神经网络和目标深度神经网络两个部分;其中Actor在线深度神经网络可模拟当前的策略,即根据智能体输入的状态观测值输出实时的动作,并施加到环境中获取当前奖赏值和下一个时隙的状态;Actor目标深度神经网络的输出动作并不会实际执行,只是用来协助Critic进行参数的更新;Critic在线深度神经网络依据所有智能体的当前状态和Actor在线深度神经网络输出的动作对Actor在线深度神经网络的输出进行评估;Critic目标深度神经网络依据所有智能体的下一个状态和Actor目标深度神经网络输出的动作对Actor目标深度神经网络的输出进行评估;Critic在线深度神经网络与Critic目标深度神经网络一同协助智能体完成策略的更新;此外,该算法中还含有用于存储训练数据的经验池D;当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练,由此来去除样本间的相关性和依赖性;具体步骤如下:
①以概率1-ε根据Actor在线网络的输出确定动作,公式如下:
(2.4)将(xj,aj,rj,xj+1)存储至经验池D,并将各智能体的状态更新为xj+1;
(2.5)每个时隙,网络参数更新一次;对于智能体n=1到N,Actor和Critic网络参数的更新如下所示:
(2.5.1)从经验池D中随机抽取S个经验,设(xk,ak,rk,x'k)对应第k∈{1,...,S}条经验;对于k=1至k=S,重复步骤①、②:
a)将N个智能体的状态值依次输入各智能体对应的Actor目标深度神经网络中,得到动作将状态x'k与得到的动作a'k分别输入各智能体对应的Critic目标深度神经网络,得到目标网络输出的评价值,用表示第n个智能体目标网络输出的评价值;将状态xk与动作ak分别输入各智能体对应的Critic在线深度神经网络,得到在线网络输出的评价值,用表示第n个智能体在线网络输出的评价值;
b)定义目标评价值,并计算各智能体的目标评价值;
定义4:定义智能体n使用第k∈{1,...,S}个取样经验计算得到的目标评价值为:
第2.5.2、Critic在线网络的损失函数计算如下:
第2.5.3、Actor在线网络的策略梯度计算如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011067955.0A CN112367353B (zh) | 2020-10-08 | 2020-10-08 | 基于多智能体强化学习的移动边缘计算卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011067955.0A CN112367353B (zh) | 2020-10-08 | 2020-10-08 | 基于多智能体强化学习的移动边缘计算卸载方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112367353A true CN112367353A (zh) | 2021-02-12 |
CN112367353B CN112367353B (zh) | 2021-11-05 |
Family
ID=74507019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011067955.0A Active CN112367353B (zh) | 2020-10-08 | 2020-10-08 | 基于多智能体强化学习的移动边缘计算卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112367353B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
CN113064480A (zh) * | 2021-03-29 | 2021-07-02 | 重庆邮电大学 | 一种基于多智能体强化学习的多数据中心协同节能方法 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
CN113115072A (zh) * | 2021-04-09 | 2021-07-13 | 中山大学 | 一种基于端云协同的视频目标检测跟踪调度方法及系统 |
CN113301656A (zh) * | 2021-05-20 | 2021-08-24 | 清华大学 | 一种基于multi-agent强化学习的宽带自组织网资源决策方法 |
CN113346944A (zh) * | 2021-06-28 | 2021-09-03 | 上海交通大学 | 空天地一体化网络中时延最小化计算任务卸载方法及系统 |
CN113395723A (zh) * | 2021-06-11 | 2021-09-14 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113408675A (zh) * | 2021-08-20 | 2021-09-17 | 深圳市沃易科技有限公司 | 一种基于联邦学习的卸载智能优化方法和系统 |
CN113434212A (zh) * | 2021-06-24 | 2021-09-24 | 北京邮电大学 | 基于元强化学习的缓存辅助任务协作卸载与资源分配方法 |
CN113452956A (zh) * | 2021-02-26 | 2021-09-28 | 深圳供电局有限公司 | 一种输电线路巡检任务智能分配方法及系统 |
CN113518112A (zh) * | 2021-05-08 | 2021-10-19 | 杭州电子科技大学 | 基于多智能体强化学习的无线充电设备协作任务卸载策略 |
CN113572647A (zh) * | 2021-07-30 | 2021-10-29 | 同济大学 | 一种基于强化学习的区块链-边缘计算联合系统 |
CN113568675A (zh) * | 2021-07-08 | 2021-10-29 | 广东利通科技投资有限公司 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
CN113645702A (zh) * | 2021-07-30 | 2021-11-12 | 同济大学 | 一种利用策略梯度技术优化的支持区块链的物联网系统 |
CN113676954A (zh) * | 2021-07-12 | 2021-11-19 | 中山大学 | 大规模用户任务卸载方法、装置、计算机设备和存储介质 |
CN113821346A (zh) * | 2021-09-24 | 2021-12-21 | 天津大学 | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 |
CN113840334A (zh) * | 2021-08-20 | 2021-12-24 | 济南浪潮数据技术有限公司 | 一种网络资源协同方法和装置 |
CN114116156A (zh) * | 2021-10-18 | 2022-03-01 | 武汉理工大学 | 一种云边协同的双利益均衡禁忌强化学习资源分配方法 |
CN114118300A (zh) * | 2022-01-21 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 服务迁移模型训练方法以及车联网服务迁移方法、系统 |
CN114500530A (zh) * | 2021-12-31 | 2022-05-13 | 北方信息控制研究院集团有限公司 | 一种民用边缘信息系统自动调整方法 |
CN114598667A (zh) * | 2022-03-04 | 2022-06-07 | 重庆邮电大学 | 一种基于联邦学习的高效设备选择与资源分配方法 |
CN114615265A (zh) * | 2022-03-09 | 2022-06-10 | 浙江工业大学 | 边缘计算环境下基于深度强化学习的车载任务卸载方法 |
CN114745317A (zh) * | 2022-02-09 | 2022-07-12 | 北京邮电大学 | 面向算力网络的计算任务调度方法及相关设备 |
CN114915665A (zh) * | 2022-07-13 | 2022-08-16 | 香港中文大学(深圳) | 一种基于分层策略的异构任务调度方法 |
CN115022937A (zh) * | 2022-07-14 | 2022-09-06 | 合肥工业大学 | 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法 |
CN115065728A (zh) * | 2022-06-13 | 2022-09-16 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN115633380A (zh) * | 2022-11-16 | 2023-01-20 | 合肥工业大学智能制造技术研究院 | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100114623A1 (en) * | 2008-10-31 | 2010-05-06 | International Business Machines Corporation | Using detailed process information at a point of sale |
US20150262056A1 (en) * | 2011-12-14 | 2015-09-17 | International Business Machines Corporation | Universal, online learning in multi-modal perception-action semilattices |
CN110113195A (zh) * | 2019-04-26 | 2019-08-09 | 山西大学 | 一种移动边缘计算系统中联合卸载判决和资源分配的方法 |
CN110418416A (zh) * | 2019-07-26 | 2019-11-05 | 东南大学 | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 |
CN110557769A (zh) * | 2019-09-12 | 2019-12-10 | 南京邮电大学 | 基于深度强化学习的c-ran计算卸载和资源分配方法 |
CN110830560A (zh) * | 2019-10-25 | 2020-02-21 | 东华大学 | 一种基于强化学习的多用户移动边缘计算迁移方法 |
CN110971706A (zh) * | 2019-12-17 | 2020-04-07 | 大连理工大学 | Mec中近似最优化与基于强化学习的任务卸载方法 |
CN111414252A (zh) * | 2020-03-18 | 2020-07-14 | 重庆邮电大学 | 一种基于深度强化学习的任务卸载方法 |
CN111586696A (zh) * | 2020-04-29 | 2020-08-25 | 重庆邮电大学 | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 |
CN111666149A (zh) * | 2020-05-06 | 2020-09-15 | 西北工业大学 | 基于深度强化学习的超密边缘计算网络移动性管理方法 |
-
2020
- 2020-10-08 CN CN202011067955.0A patent/CN112367353B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100114623A1 (en) * | 2008-10-31 | 2010-05-06 | International Business Machines Corporation | Using detailed process information at a point of sale |
US20150262056A1 (en) * | 2011-12-14 | 2015-09-17 | International Business Machines Corporation | Universal, online learning in multi-modal perception-action semilattices |
CN110113195A (zh) * | 2019-04-26 | 2019-08-09 | 山西大学 | 一种移动边缘计算系统中联合卸载判决和资源分配的方法 |
CN110418416A (zh) * | 2019-07-26 | 2019-11-05 | 东南大学 | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 |
CN110557769A (zh) * | 2019-09-12 | 2019-12-10 | 南京邮电大学 | 基于深度强化学习的c-ran计算卸载和资源分配方法 |
CN110830560A (zh) * | 2019-10-25 | 2020-02-21 | 东华大学 | 一种基于强化学习的多用户移动边缘计算迁移方法 |
CN110971706A (zh) * | 2019-12-17 | 2020-04-07 | 大连理工大学 | Mec中近似最优化与基于强化学习的任务卸载方法 |
CN111414252A (zh) * | 2020-03-18 | 2020-07-14 | 重庆邮电大学 | 一种基于深度强化学习的任务卸载方法 |
CN111586696A (zh) * | 2020-04-29 | 2020-08-25 | 重庆邮电大学 | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 |
CN111666149A (zh) * | 2020-05-06 | 2020-09-15 | 西北工业大学 | 基于深度强化学习的超密边缘计算网络移动性管理方法 |
Non-Patent Citations (2)
Title |
---|
MATTEW FRAMPTON等: ""Recent research advanced in reinforcement learnign in spoken Dialogue Systems"", 《THE KNOWLEDGE ENGINEERING REVIEW》 * |
张东: ""基于深度强化学习的移动边缘卸载机制"", 《舰船电子工程》 * |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113452956A (zh) * | 2021-02-26 | 2021-09-28 | 深圳供电局有限公司 | 一种输电线路巡检任务智能分配方法及系统 |
CN112882815B (zh) * | 2021-03-23 | 2022-10-25 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
CN113064480B (zh) * | 2021-03-29 | 2022-04-22 | 重庆邮电大学 | 一种基于多智能体强化学习的多数据中心协同节能方法 |
CN113064480A (zh) * | 2021-03-29 | 2021-07-02 | 重庆邮电大学 | 一种基于多智能体强化学习的多数据中心协同节能方法 |
CN113115072A (zh) * | 2021-04-09 | 2021-07-13 | 中山大学 | 一种基于端云协同的视频目标检测跟踪调度方法及系统 |
CN113064671A (zh) * | 2021-04-27 | 2021-07-02 | 清华大学 | 基于多智能体的边缘云可扩展任务卸载方法 |
CN113518112A (zh) * | 2021-05-08 | 2021-10-19 | 杭州电子科技大学 | 基于多智能体强化学习的无线充电设备协作任务卸载策略 |
CN113518112B (zh) * | 2021-05-08 | 2022-12-09 | 杭州电子科技大学 | 基于多智能体强化学习的无线充电设备协作任务卸载策略 |
CN113301656A (zh) * | 2021-05-20 | 2021-08-24 | 清华大学 | 一种基于multi-agent强化学习的宽带自组织网资源决策方法 |
CN113301656B (zh) * | 2021-05-20 | 2022-10-04 | 清华大学 | 一种基于multi-agent强化学习的宽带自组织网资源决策方法 |
CN113395723A (zh) * | 2021-06-11 | 2021-09-14 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113395723B (zh) * | 2021-06-11 | 2022-08-09 | 西安交通大学 | 基于强化学习的5g nr下行调度时延优化系统 |
CN113434212A (zh) * | 2021-06-24 | 2021-09-24 | 北京邮电大学 | 基于元强化学习的缓存辅助任务协作卸载与资源分配方法 |
CN113346944A (zh) * | 2021-06-28 | 2021-09-03 | 上海交通大学 | 空天地一体化网络中时延最小化计算任务卸载方法及系统 |
CN113346944B (zh) * | 2021-06-28 | 2022-06-10 | 上海交通大学 | 空天地一体化网络中时延最小化计算任务卸载方法及系统 |
CN113568675A (zh) * | 2021-07-08 | 2021-10-29 | 广东利通科技投资有限公司 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
CN113568675B (zh) * | 2021-07-08 | 2024-04-12 | 广东利通科技投资有限公司 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
CN113676954A (zh) * | 2021-07-12 | 2021-11-19 | 中山大学 | 大规模用户任务卸载方法、装置、计算机设备和存储介质 |
CN113676954B (zh) * | 2021-07-12 | 2023-07-18 | 中山大学 | 大规模用户任务卸载方法、装置、计算机设备和存储介质 |
CN113572647A (zh) * | 2021-07-30 | 2021-10-29 | 同济大学 | 一种基于强化学习的区块链-边缘计算联合系统 |
CN113645702B (zh) * | 2021-07-30 | 2022-06-03 | 同济大学 | 一种利用策略梯度技术优化的支持区块链的物联网系统 |
CN113645702A (zh) * | 2021-07-30 | 2021-11-12 | 同济大学 | 一种利用策略梯度技术优化的支持区块链的物联网系统 |
CN113612843A (zh) * | 2021-08-02 | 2021-11-05 | 吉林大学 | 一种基于深度强化学习的mec任务卸载和资源分配方法 |
CN113408675A (zh) * | 2021-08-20 | 2021-09-17 | 深圳市沃易科技有限公司 | 一种基于联邦学习的卸载智能优化方法和系统 |
CN113840334A (zh) * | 2021-08-20 | 2021-12-24 | 济南浪潮数据技术有限公司 | 一种网络资源协同方法和装置 |
CN113821346B (zh) * | 2021-09-24 | 2023-09-05 | 天津大学 | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 |
CN113821346A (zh) * | 2021-09-24 | 2021-12-21 | 天津大学 | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 |
CN114116156B (zh) * | 2021-10-18 | 2022-09-09 | 武汉理工大学 | 一种云边协同的双利益均衡禁忌强化学习资源分配方法 |
CN114116156A (zh) * | 2021-10-18 | 2022-03-01 | 武汉理工大学 | 一种云边协同的双利益均衡禁忌强化学习资源分配方法 |
CN114500530B (zh) * | 2021-12-31 | 2023-12-08 | 北方信息控制研究院集团有限公司 | 一种民用边缘信息系统自动调整方法 |
CN114500530A (zh) * | 2021-12-31 | 2022-05-13 | 北方信息控制研究院集团有限公司 | 一种民用边缘信息系统自动调整方法 |
CN114118300A (zh) * | 2022-01-21 | 2022-03-01 | 苏州浪潮智能科技有限公司 | 服务迁移模型训练方法以及车联网服务迁移方法、系统 |
CN114745317B (zh) * | 2022-02-09 | 2023-02-07 | 北京邮电大学 | 面向算力网络的计算任务调度方法及相关设备 |
CN114745317A (zh) * | 2022-02-09 | 2022-07-12 | 北京邮电大学 | 面向算力网络的计算任务调度方法及相关设备 |
CN114598667A (zh) * | 2022-03-04 | 2022-06-07 | 重庆邮电大学 | 一种基于联邦学习的高效设备选择与资源分配方法 |
CN114615265A (zh) * | 2022-03-09 | 2022-06-10 | 浙江工业大学 | 边缘计算环境下基于深度强化学习的车载任务卸载方法 |
CN115065728A (zh) * | 2022-06-13 | 2022-09-16 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN115065728B (zh) * | 2022-06-13 | 2023-12-08 | 福州大学 | 一种基于多策略强化学习的多目标内容存储方法 |
CN114915665A (zh) * | 2022-07-13 | 2022-08-16 | 香港中文大学(深圳) | 一种基于分层策略的异构任务调度方法 |
CN115022937B (zh) * | 2022-07-14 | 2022-11-11 | 合肥工业大学 | 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法 |
CN115022937A (zh) * | 2022-07-14 | 2022-09-06 | 合肥工业大学 | 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法 |
CN115633380B (zh) * | 2022-11-16 | 2023-03-17 | 合肥工业大学智能制造技术研究院 | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 |
CN115633380A (zh) * | 2022-11-16 | 2023-01-20 | 合肥工业大学智能制造技术研究院 | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112367353B (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112367353B (zh) | 基于多智能体强化学习的移动边缘计算卸载方法 | |
CN112512056B (zh) | 一种移动边缘计算网络中多目标优化的计算卸载方法 | |
CN110971706B (zh) | Mec中近似最优化与基于强化学习的任务卸载方法 | |
CN113873022A (zh) | 一种可划分任务的移动边缘网络智能资源分配方法 | |
CN111405569A (zh) | 基于深度强化学习的计算卸载和资源分配方法及装置 | |
CN110798849A (zh) | 一种超密网边缘计算的计算资源分配与任务卸载方法 | |
CN112788605B (zh) | 基于双延迟深度确定性策略边缘计算资源调度方法和系统 | |
CN113573324A (zh) | 工业物联网中协作式任务卸载和资源分配的联合优化方法 | |
CN111586720A (zh) | 一种多小区场景下的任务卸载和资源分配的联合优化方法 | |
CN113543156A (zh) | 基于多智能体深度强化学习的工业无线网络资源分配方法 | |
CN111628855A (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN111367657A (zh) | 一种基于深度强化学习的计算资源协同合作方法 | |
CN114285853B (zh) | 设备密集型工业物联网中基于端边云协同的任务卸载方法 | |
CN110519849B (zh) | 一种针对移动边缘计算的通信和计算资源联合分配方法 | |
CN116489712B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN116156563A (zh) | 基于数字孪生的异构任务与资源端边协同调度方法 | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
Ebrahim et al. | A deep learning approach for task offloading in multi-UAV aided mobile edge computing | |
CN114828018A (zh) | 一种基于深度确定性策略梯度的多用户移动边缘计算卸载方法 | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN111930435B (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN117098189A (zh) | 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法 | |
CN114942799B (zh) | 云边环境下基于强化学习的工作流调度方法 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |