CN113518112A - 基于多智能体强化学习的无线充电设备协作任务卸载策略 - Google Patents

基于多智能体强化学习的无线充电设备协作任务卸载策略 Download PDF

Info

Publication number
CN113518112A
CN113518112A CN202110499650.5A CN202110499650A CN113518112A CN 113518112 A CN113518112 A CN 113518112A CN 202110499650 A CN202110499650 A CN 202110499650A CN 113518112 A CN113518112 A CN 113518112A
Authority
CN
China
Prior art keywords
tasks
task
time slice
power
mobile device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110499650.5A
Other languages
English (en)
Other versions
CN113518112B (zh
Inventor
黄彬彬
吴昆澄
殷昱煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110499650.5A priority Critical patent/CN113518112B/zh
Publication of CN113518112A publication Critical patent/CN113518112A/zh
Application granted granted Critical
Publication of CN113518112B publication Critical patent/CN113518112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J50/00Circuit arrangements or systems for wireless supply or distribution of electric power
    • H02J50/40Circuit arrangements or systems for wireless supply or distribution of electric power using two or more transmitting or receiving devices
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Power Engineering (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的无线充电设备协作任务卸载策略,使用Q‑Learning算法以及神经网络来学习多个移动设备如何在有限的计算资源和电量资源环境下进行协作任务卸载。本发明首次将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述,视每个智能体为相互独立的学习者,提出了一种在无线充电D2D网络环境下基于多智能体深度确定性策略梯度(MADDPG)的协作任务执行方案(CACTE),其目标是使多个移动设备彼此有效地协作,从而执行更多任务,获得更高的长期回报。并且,将本发明提出的策略与其他策略在不同实验参数下进行对比,证明了本发明所提出策略的有效性。

Description

基于多智能体强化学习的无线充电设备协作任务卸载策略
技术领域
本发明涉及移动边缘计算领域,尤其涉及一种基于多智能体强化学习的无线充电设备协作任务卸载策略。
背景技术
D2D通信网络中,资源不足移动设备上的计算任务可以被卸载到资源充足移动设备上协作执行,从而实现资源的充分利用。现有工作主要关注电池供电的D2D网络中,计算资源有限的移动设备之间如何进行任务的协作卸载,但是忽略了移动设备电量是有限的,从而导致移动设备电量耗尽时,其上正在执行的任务会被中断,这严重影响了移动应用的服务质量。为此,引入无线充电技术为移动设备持续供电,使得任务执行不被中断,从而大大提高移动应用的服务质量。尽管无线充电带来了上述优点,但是如何在无线充电D2D(EH-D2D)网络中实现多用户协作任务卸载策略仍然是一个值得关注的问题。
发明内容
为了解决上述问题,本发明提供了一种基于多智能体强化学习的无线充电设备协作任务卸载策略。
本发明具体采用的技术方案如下:
S1.建立系统模型:
EH-D2D网络由一个无线充电桩和n个移动设备MD={MD1,...,NDi,...,MDn}组成。每个移动设备MDi可以用多元组
Figure BDA0003055879200000011
Figure BDA0003055879200000012
来表示,其中
Figure BDA0003055879200000013
Figure BDA0003055879200000014
分别表示低性能CPU和高性能CPU内核的数量;
Figure BDA0003055879200000015
Figure BDA0003055879200000016
分别表示低性能CPU和高性能CPU的最大计算能力。
Figure BDA0003055879200000017
分别表示移动设备MDi的执行功率,发送功率和接收功率;
Figure BDA0003055879200000018
表示移动设备MDi的电池容量。n个移动设备均可以通过无线充电站充电,即构成本发明中的无线充电设备。
每个移动设备MDi会产生相互独立的任务,每个任务可以用一个二元组t=(W,D)表示,其中W(GHz·s)表示任务工作负载,D表示单位工作负载的数据量(以MB为单位)。每个移动设备MDi包含一个等待执行队列Qi,该队列主要用于存储从其他移动设备卸载而来的任务以及由移动设备MDi自身产生并留在本地执行的任务。
在EH-D2D网络中,本发明采用离散时间模型,将一个时间段逻辑上划分为若干等长的时间片。每个时间片的长度为Tslot=1s。本发明用
Figure BDA0003055879200000021
Figure BDA0003055879200000022
来表示时间片索引的集合。在每个时间片τ中,无线充电站可以给每个移动设备充电。当移动设备的可用电量不足以执行其上到达的任务时,可以将部分或全部任务卸载到其他移动设备上协作执行。在每个时间片τ的开始,每个移动设备根据自身可用电量和任务负载情况做出协作决策,该决策包括卸载给每个移动设备的任务数、留在本地执行的任务数和最多能够接收的任务数。
S2.建立任务排队模型:
假设n个移动设备上任务的到达过程服从参数为λ=(λ1,...,λi,...,λn)的泊松分布。在每个时间片τ的开始,计算任务A(τ)=(a1(τ),...,ai(τ),...,an(τ))到达n个移动设备。令μij(τ)表示在时间片τ从移动设备MDi卸载到移动设备MDj的任务数;ηij(τ)表示在时间片τ移动设备MDi可以从移动设备MDj接收的最大任务数。因此,执行队列Qi的状态演化可以根据公式(1)计算。
Qi(τ+1)=max[Qi(τ)+ai(τ)W-bi(τ)W-∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)
μji(τ)≤ηij(τ) (2)
j∈nμij(τ)=ai(τ) (3)
j∈nμij(τ)≤ai(τ) (4)
j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)
其中bi(τ)表示MDi在时间片τ中执行的任务数,μji(τ)表示在时间片τ中从MDj卸载到MDi上的任务数目。公式(2)表示在时间片τ中MDj卸载给MDi的任务数不能超过MDi可以从MDj上接收的最大任务数。公式(3)表示在时间片τ中MDi上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和。公式(4)表示在时间片τ中MDi卸载到其他移动设备的任务总数∑j≠i,j∈nμij(τ)小于等于其上到达的任务数ai(τ)。公式(5)表示在时间片τ中MDi卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Qi中的任务数与其上到达任务数之和。
S3.建立电量模型:
在时间片τ中,移动设备MDi的充电电量可以表示为
Figure BDA0003055879200000031
其中μ∈[0,1]表示无线充电系数;P表示无线充电站的发射功率;hi(τ)表示在时间片τ中无线充电站与移动设备MDi之间的信道增益。在每个时间片τ的开始,MDi的可用电量可以用
Figure BDA0003055879200000032
来表示,其演化方式可以根据公式(6)计算:
Figure BDA0003055879200000033
Figure BDA0003055879200000034
Figure BDA0003055879200000035
Figure BDA0003055879200000036
其中
Figure BDA0003055879200000037
Figure BDA0003055879200000038
分别表示在时间片τ中MDi执行任务,传输任务和接收任务所消耗的电池电量。公式(7)表示在时间片τ中,MDi接收任务,执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量。公式(8)表示在时间片τ中,MDi当前的可用电量与充电电量之和不能超过MDi的电池容量。
S4.建立网络模型:
在EH-D2D网络中,由于设备的移动性,无线信道的传输速率会动态变化。令
Figure BDA0003055879200000039
Figure BDA00030558792000000310
分别表示在时间片τ中MDi与MDj之间的上行传输速率和下行传输速率,可以通过公式(10)和(11)计算:
Figure BDA00030558792000000311
Figure BDA00030558792000000312
其中,
Figure BDA00030558792000000313
Figure BDA00030558792000000314
分别是MDi上行链路和下行链路的信道带宽;
Figure BDA00030558792000000315
表示MDi的传输功率;σ2是高斯噪声功率;
Figure BDA00030558792000000316
Figure BDA00030558792000000317
分别表示移动设备MDi到MDj之间的上行信道增益和下行信道增益。由于MDi与MDj之间上下行的通信距离相同,所以通道增益
Figure BDA00030558792000000318
Figure BDA00030558792000000319
可以通过
Figure BDA00030558792000000320
计算,其中α是路径损耗参数;θ是路径损耗指数;d0为参照距离;dij是MDi与MDj之间的距离。
S5.多智能体强化学习的协作任务卸载策略:需要定义协作问题的状态空间和动作空间,并设计协作任务卸载问题的奖励函数。最后将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述。具体包含以下子步骤:
S51.定义状态空间:
每个移动设备MDi被看作一个智能体。在时间片τ的开始,每个智能体当前的状态Oi(τ)可以被观测,并将其用公式(12)表示。
Figure BDA0003055879200000041
其中Qi(τ)表示在时间片τ中MDi执行队列中剩余任务的数量,Gi(τ)=[Gi1(τ),...,Gi(i-1)(τ),Gi(i+1)(τ),...,Gin(τ)]表示在时间片τ中MDi与除了它本身之外的其他移动设备之间的信道增益;
Figure BDA0003055879200000042
表示在时间片τ中MDi的可用电量;
Figure BDA0003055879200000043
表示在时间片τ中MDi的充电电量;ai(τ)表示在时间片τ中到达MDi的任务数。
S52.定义动作空间:
每个智能体根据它当前的状态Oi(τ)选择一个动作Ai(τ)。动作Ai(τ)是由本地执行任务数,卸载任务数和最大接收任务数组成,并将其用公式(13)表示。
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)
μi(τ)=[μi1(τ),...,μi(i-1)(τ),μi(i+1)(τ),...,μin(τ)] (14)
ηi(τ)=[ηi1(τ),...,ηi(i-1)(τ),ηi(i+1)(τ),...,ηin(τ)] (15)
其中bi(τ)表示在时间片τ中MDi上执行的任务数,μi(τ)表示从MDi卸载到其他(n-1)个移动设备的任务数向量,ηi(τ)表示MDi从其他(n-1)个移动设备上可以接收的最大任务数向量。在时间片τ中移动设备MDi执行任务,卸载任务和接收任务所消耗的总电量不能超过MDi的可用电量。
(1)执行任务所消耗的电量:移动设备采用动态调频(DVFS)技术来动态调节CPU频率。在时间片τ中MDi的计算能力
Figure BDA0003055879200000044
和计算功率
Figure BDA0003055879200000045
分别根据公式(16)和公式(17)计算:
Figure BDA0003055879200000046
Figure BDA0003055879200000047
其中ai是与芯片架构有关的常数;
Figure BDA0003055879200000048
Figure BDA0003055879200000049
分别表示低性能CPU和高性能CPU内核的实际计算频率。当移动设备MDi决定在时间片τ中本地执行bi(τ)任务时,本发明使用公式(22)计算本地执行任务需要消耗的电量
Figure BDA0003055879200000051
Figure BDA0003055879200000052
(2)卸载任务所消耗的电量:在时间片τ中,移动设备MDi实际卸载到移动设备MDj的任务数μ′ij可以用公式(19)表示。实际卸载任务所消耗的电量
Figure BDA0003055879200000053
可以用公式(20)来计算:
Figure BDA0003055879200000054
Figure BDA0003055879200000055
执行任务,卸载任务和接收任务所消耗的电量之和不能超过移动设备的可用电量
Figure BDA0003055879200000056
该约束条件可以用公式(21)表示。必须满足以下约束:
Figure BDA0003055879200000057
S53.定义奖励函数:
在多智能体协作任务卸载中,每个智能体根据其当前的状态值Oi(τ)和选择的动作Ai(τ)计算奖励Ri。奖励函数Ri是任务的平均处理时间Qi(τ),任务丢弃Di(τ)以及电量惩罚Pi(τ)的加权和,可以用公式(22)表示:
Figure BDA0003055879200000058
其中ω1,ω2和ω3分别是Qi(τ),Di(τ)和Pi(τ)的加权系数。任务丢弃Di(τ)可以根据公式(23)计算。
Figure BDA0003055879200000059
其中|Qi|表示执行队列Qi的长度。公式(|Qi|+bi(τ)-Qi(τ))表示执行队列Qi的可用空间。为了避免由于移动设备的电量耗尽而导致移动应用程序中断,本发明将电量损失阈值设置为hi。当移动设备的可用电量
Figure BDA00030558792000000510
与最大电池容量
Figure BDA00030558792000000511
的比率小于hi时,电量惩罚Pi(τ)可以用公式(24)计算:
Figure BDA00030558792000000512
S54.问题形式化:
多用户协作任务卸载问题可以建模为POMDP。它的主要目标是最大化整个系统的奖励。
Maximize:-R (25)
S6.策略实现:
本发明设计了一种基于多智能体深度确定性策略梯度(MADDPG)算法来求解多用户协作任务卸载问题。MADDPG算法的详细求解过程为:
(1)在学习阶段,首先初始化每个智能体的环境参数和网络参数。环境参数主要包括执行队列长度,移动设备之间的信道增益,可用电量以及无线充电站和移动设备之间的信道增益。网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量。然后,观测每个智能体的当前状态Oi(τ),并根据当前状态选择每个智能体的动作Ai(τ)。其次,根据每个智能体当前的状态Oi(τ)和采取的动作Ai(τ),计算出即时奖励Ri(τ)和下一个时间片(τ+1)时的状态O-i(τ+1)。最后,每个智能体将其状态转移四元组(Oi(τ),Ai(τ),Ri(τ),O-i(τ+1))存储到其中继缓存Ωi中。
(2)在训练阶段,每个智能体i首先会从其中继缓存Ωi中随机抽取mini_batch个状态转移四元组。然后,每个智能体i分别根据目标动作网络和目标评价网络计算状态O-i(τ+1)的目标动作值和目标Q值。在目标评价网络中更新状态Oi(τ)的目标Q值,并根据该值更新估计Q网络。
作为优选,S1中所述的移动设备个数为4,这四个移动设备具有不同的类型。将移动设备MD1,MD2,MD3和MD4的类型分别设置为Type1,Type2,Type3和Type4。设备MD1,MD2,MD3和MD4的低性能CPU内核数分别为
Figure BDA0003055879200000061
Figure BDA0003055879200000062
以及
Figure BDA0003055879200000063
最大CPU周期频率分别为
Figure BDA0003055879200000064
Figure BDA0003055879200000065
Figure BDA0003055879200000066
设备MD1,MD2,MD3和MD4的高性能CPU内核数分别为
Figure BDA0003055879200000067
以及
Figure BDA0003055879200000068
最大CPU周期频率分别为
Figure BDA0003055879200000069
Figure BDA00030558792000000610
通过DVFS技术动态调整每个移动设备的CPU频率级别。设置每个移动设备的常量值ai为ai=0.1125W/(GHz)3。每个任务的工作负载W在[0.6,1.4]Gycles范围内变化,初始值设置为W=1GHz·s,单位工作负载的数据量设置为D=1MB
作为优选,S2中所述的泊松分布参数,即任务到达率λi设置为[0,12]范围内变化。四个移动设备的任务到达率分别设置为λ1=3,λ2=1,λ3=7和λ4=10。
作为优选,S4中所述通信距离设置为200m以内。每个移动设备上行链路和下行链路的信道带宽分别设置为
Figure BDA0003055879200000071
Figure BDA0003055879200000072
高斯白噪声功率σ2设置为-174dbm/Hz。此外,本发明设置路径损耗常数k为0.01,路径损耗指数θ为4,参考距离d0为1m。每个移动设备的发射功率和接收功率分别设置为
Figure BDA0003055879200000073
Figure BDA0003055879200000074
作为优选,S53中所述Qi(τ),Di(τ)和Pi(τ)的加权系数分别设置为ω1=1,ω2=15以及ω3=90。
作为优选,S6中所述测评动作网络由两个隐藏层组成,每个隐藏层中有30个神经元。测评评价网络由三个隐藏层组成。每个隐藏层中也有30个神经元,目标网络设置与测评网络设置相同。本发明采用Adam优化器来更新目标网络,其中动作网络的学习率为0.0001,评价网络的学习率为0.003。奖励的权重γ设置为0.9,中继缓存的容量设置为10000,最小批样本数量设置为16。
本发明的有益效果:本发明使用Q-Learning算法以及神经网络来学习多个移动设备如何在有限的计算资源和电量资源环境下进行协作任务卸载。本发明将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述,视每个智能体为相互独立的学习者,提出了一种在无线充电D2D网络环境下基于多智能体深度确定性策略梯度(MADDPG)的协作任务卸载方案(CACTE),其目标是使多个移动设备彼此有效地协作,从而执行更多任务,获得更高的长期回报。
附图说明
图1为本发明无线充电D2D网络中多智能体强化学习协作任务卸载策略的流程图;
图2为在任务到达率λ影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图;
图3为在移动设备电池电量
Figure BDA0003055879200000075
影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图;
图4为在工作负载W影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图;
图5为在任务数据大小D影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图;
图6为在带宽BWUL(τ)影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步详细说明。
如图1所示,本发明包括以下步骤:
S1.建立系统模型:EH-D2D网络由一个无线充电桩和n个移动设备MD={MD1,...,MDi,...,MDn}组成。每个移动设备MDi可以用多元组
Figure BDA0003055879200000081
Figure BDA0003055879200000082
来表示,其中
Figure BDA0003055879200000083
Figure BDA0003055879200000084
分别表示低性能CPU和高性能CPU内核的数量;
Figure BDA0003055879200000085
Figure BDA0003055879200000086
分别表示低性能CPU和高性能CPU的最大计算能力。
Figure BDA0003055879200000087
分别表示移动设备MDi的执行功率,发送功率和接收功率;
Figure BDA0003055879200000088
表示移动设备MDi的电池容量。n个移动设备均可以通过无线充电站充电。
每个移动设备MDi会产生相互独立的任务,每个任务可以用一个二元组t=(W,D)表示,其中W(GHz·s)表示任务工作负载,D表示单位工作负载的数据量(以MB为单位)。每个移动设备MDi包含一个等待执行队列Qi,该队列主要用于存储从其他移动设备卸载而来的任务以及由移动设备MDi自身产生并留在本地执行的任务。
在EH-D2D网络中,本发明采用离散时间模型,将一个时间段逻辑上划分为若干等长的时间片。每个时间片的长度为Tslot=1s。本发明用
Figure BDA0003055879200000089
Figure BDA00030558792000000810
来表示时间片索引的集合。在每个时间片τ中,无线充电站可以给每个移动设备充电。当移动设备的可用电量不足以执行其上到达的任务时,可以将部分或全部任务卸载到其他移动设备上协作执行。在每个时间片τ的开始,每个移动设备根据自身可用电量和任务负载情况做出协作决策,该决策包括卸载给每个移动设备的任务数、留在本地执行的任务数和最多能够接收的任务数。
S2.建立任务排队模型:假设n个移动设备上任务的到达过程服从参数为λ=(λ1,...,λi,...,λn)的泊松分布。在每个时间片τ的开始,计算任务A(τ)=(a1(τ),...,ai(τ),...,an(τ))到达n个移动设备。令μij(τ)表示在时间片τ从移动设备MDi卸载到移动设备MDj的任务数;ηij(τ)表示在时间片τ移动设备MDi可以从移动设备MDj接收的最大任务数。因此,执行队列Qi的状态演化可以根据公式(1)计算。
Qi(τ+1)=max[Qi(τ)+ai(τ)W-bi(τ)W-∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)
μji(τ)≤ηij(τ) (2)
j∈nμij(τ)=ai(τ) (3)
j∈nμij(τ)≤ai(τ) (4)
j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)
其中bi(τ)表示MDi在时间片τ中执行的任务数,μji(τ)表示在时间片τ中从MDj卸载到MDi上的任务数目。公式(2)表示在时间片τ中MDj卸载给MDi的任务数不能超过MDi可以从MDj上接收的最大任务数。公式(3)表示在时间片τ中MDi上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和。公式(4)表示在时间片τ中MDi卸载到其他移动设备的任务总数∑j≠i,j∈nμij(τ)小于等于其上到达的任务数ai(τ)。公式(5)表示在时间片τ中MDi卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Qi中的任务数与其上到达任务数之和。
S3.建立电量模型:在时间片τ中,移动设备MDi的充电电量可以表示为
Figure BDA0003055879200000091
其中μ∈[0,1]表示无线充电系数;P表示无线充电站的发射功率;hi(τ)表示在时间片τ中无线充电站与移动设备MDi之间的信道增益。在每个时间片τ的开始,MDi的可用电量可以用
Figure BDA0003055879200000092
来表示,其演化方式可以根据公式(6)计算:
Figure BDA0003055879200000093
Figure BDA0003055879200000094
Figure BDA0003055879200000095
Figure BDA0003055879200000096
其中
Figure BDA0003055879200000097
Figure BDA0003055879200000098
分别表示在时间片τ中MDi执行任务,传输任务和接收任务所消耗的电池电量。公式(7)表示在时间片τ中,MDi接收任务,执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量。公式(8)表示在时间片τ中,MDi当前的可用电量与充电电量之和不能超过MDi的电池容量。
S4.建立网络模型:在EH-D2D网络中,由于设备的移动性,无线信道的传输速率会动态变化。令
Figure BDA0003055879200000101
Figure BDA0003055879200000102
分别表示在时间片τ中MDi与MDj之间的上行传输速率和下行传输速率,可以通过公式(10)和(11)计算:
Figure BDA0003055879200000103
Figure BDA0003055879200000104
其中,
Figure BDA0003055879200000105
Figure BDA0003055879200000106
分别是MDi上行链路和下行链路的信道带宽;
Figure BDA0003055879200000107
表示MDi的传输功率;σ2是高斯噪声功率;
Figure BDA0003055879200000108
Figure BDA0003055879200000109
分别表示移动设备MDi到MDj之间的上行信道增益和下行信道增益。由于MDi与MDj之间上下行的通信距离相同,所以通道增益
Figure BDA00030558792000001010
Figure BDA00030558792000001011
可以通过
Figure BDA00030558792000001012
计算,其中α是路径损耗参数;θ是路径损耗指数;d0为参照距离;dij是MDi与MDj之间的距离。
S5.多智能体强化学习的协作任务卸载策略:需要定义协作问题的状态空间和动作空间,并设计协作任务卸载问题的奖励函数。最后将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述。具体包含以下子步骤:
S51.定义状态空间:每个移动设备MDi被看作一个智能体。在时间片τ的开始,每个智能体当前的状态Oi(τ)可以被观测,并将其用公式(12)表示。
Figure BDA00030558792000001013
其中Qi(τ)表示在时间片τ中MDi执行队列中剩余任务的数量,Gi(τ)=[Gi1(τ),...,Gi(i-1)(τ),Gi(i+1)(τ),...,Gin(τ)]表示在时间片τ中MDi与除了它本身之外的其他移动设备之间的信道增益;
Figure BDA00030558792000001014
表示在时间片τ中MDi的可用电量;
Figure BDA00030558792000001015
表示在时间片τ中MDi的充电电量;ai(τ)表示在时间片τ中到达MDi的任务数。
S52.定义动作空间:每个智能体根据它当前的状态Oi(τ)选择一个动作Ai(τ)。动作Ai(τ)是由本地执行任务数,卸载任务数和最大接收任务数组成,并将其用公式(13)表示:
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)
μi(τ)=[μi1(τ),...,μi(i-1)(τ),μi(i+1)(τ),...,μin(τ)] (14)
ηi(τ)=[ηi1(τ),...,ηi(i-1)(τ),ηi(i+1)(τ),...,ηin(τ)] (15)
其中bi(τ)表示在时间片τ中MDi上执行的任务数,μi(τ)表示从MDi卸载到其他(n-1)个移动设备的任务数向量,ηi(τ)表示MDi从其他(n-1)个移动设备上可以接收的最大任务数向量。在时间片τ中移动设备MDi执行任务,卸载任务和接收任务所消耗的总电量不能超过MDi的可用电量。
(1)执行任务所消耗的电量:移动设备采用动态调频(DVFS)技术来动态调节CPU频率。在时间片τ中MDi的计算能力
Figure BDA0003055879200000111
和计算功率
Figure BDA0003055879200000112
分别根据公式(16)和公式(17)计算:
Figure BDA0003055879200000113
Figure BDA0003055879200000114
其中ai是与芯片架构有关的常数;
Figure BDA0003055879200000115
Figure BDA0003055879200000116
分别表示低性能CPU和高性能CPU内核的实际计算频率。当移动设备MDi决定在时间片τ中本地执行bi(τ)任务时,本发明使用公式(22)计算本地执行任务需要消耗的电量
Figure BDA0003055879200000117
Figure BDA0003055879200000118
(2)卸载任务所消耗的电量:在时间片τ中,移动设备MDi实际卸载到移动设备MDj的任务数μ′ij可以用公式(19)表示。实际卸载任务所消耗的电量
Figure BDA0003055879200000119
可以用公式(20)来计算:
Figure BDA00030558792000001110
Figure BDA00030558792000001111
执行任务,卸载任务和接收任务所消耗的电量之和不能超过移动设备的可用电量
Figure BDA00030558792000001112
该约束条件可以用公式(21)表示。必须满足以下约束:
Figure BDA00030558792000001113
S53.定义奖励函数:在多智能体协作任务卸载中,每个智能体根据其当前的状态值Oi(τ)和选择的动作Ai(τ)计算奖励Ri。奖励函数Ri是任务的平均处理时间Qi(τ),任务丢弃Di(τ)以及电量惩罚Pi(τ)的加权和,可以用公式(22)表示:
Figure BDA0003055879200000121
其中ω1,ω2和ω3分别是Qi(τ),Di(τ)和Pi(τ)的加权系数。任务丢弃Di(τ)可以根据公式(23)计算。
Figure BDA0003055879200000122
其中|Qi|表示执行队列Qi的长度。公式(|Qi|+bi(τ)-Qi(τ))表示执行队列Qi的可用空间。为了避免由于移动设备的电量耗尽而导致移动应用程序中断,本发明将电量损失阈值设置为hi。当移动设备的可用电量
Figure BDA0003055879200000123
与最大电池容量
Figure BDA0003055879200000124
的比率小于hi时,电量惩罚Pi(τ)可以用公式(24)计算:
Figure BDA0003055879200000125
S54.问题形式化:多用户协作任务卸载问题可以建模为POMDP。它的主要目标是最大化整个系统的奖励。
Maximize:-R (25)
S6.策略实现:本发明设计了一种基于多智能体深度确定性策略梯度(MADDPG)算法来求解多用户协作任务卸载问题。MADDPG算法的详细求解过程为:
(1)在学习阶段,首先初始化每个智能体的环境参数和网络参数。环境参数主要包括执行队列长度,移动设备之间的信道增益,可用电量以及无线充电站和移动设备之间的信道增益。网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量。然后,观测每个智能体的当前状态Oi(τ),并根据当前状态选择每个智能体的动作Ai(τ)。其次,根据每个智能体当前的状态Oi(τ)和采取的动作Ai(τ),计算出即时奖励Ri(τ)和下一个时间片(τ+1)时的状态O-i(τ+1)。最后,每个智能体将其状态转移四元组(Oi(τ),Ai(τ),Ri(τ),O-i(τ+1))存储到其中继缓存Ωi中。
(2)在训练阶段,每个智能体i首先会从其中继缓存Ωi中随机抽取mini_batch个状态转移四元组。然后,每个智能体i分别根据目标动作网络和目标评价网络计算状态O-i(τ+1)的目标动作值和目标
Figure BDA0003055879200000126
值。在目标评价网络中更新状态Oi(τ)的目标
Figure BDA0003055879200000127
值,并根据该值更新估计
Figure BDA0003055879200000128
网络。
实施例
本实施例步骤与具体实施方式相同,在此不再进行赘述。下面就对比方法的实施和实施结果进行展示:
本发明实现了基于梯度策略进行强化学习协作任务卸载策略的CACTE算法,将该算法与Local算法,Random算法,ECLB算法以及CCLB算法进行对比,并且分别就任务到达率λ,移动设备电池电量
Figure BDA0003055879200000131
工作负载W,任务数据大小D,带宽BWUL(τ),移动设备数量n对总奖励的影响进行评估。
为了研究任务到达率λ对总奖励的影响,以[1,1,1,1]为增量,分别将λ设置为[1,0,5,8],[2,0,6,9],[3,1,7,10],[4,2,8,11]和[5,3,9,12]。图2显示了CACTE方案获得的总奖励优于Local算法,Random算法,ECLB算法和CCLB算法获得的总奖励。当任务到达率增加时,CACTE方案和四钟算法的总奖励都将逐渐降低。
为了研究移动设备电池电量
Figure BDA0003055879200000132
对总奖励的影响,设置移动设备的电池电量
Figure BDA0003055879200000133
以5为增量从40电量单位增加至60电量单位。图3显示了当电池电量小于55时,随着电池电量的增加,CACTE方案和四种算法的总回报都将增加。但是,当移动设备的电池电量等于或大于55时,所有算法的曲线都是平坦的。
为了研究工作负载W对总奖励的影响,设置W在0.6到1.4的范围内变化,图4显示了CACTE方案比其他四种算法获得了更高的总奖励。并且当任务工作量W增加时,CACTE方案获得的总奖励在逐渐减少。
为了研究任务数据大小D对总奖励的影响,设置D在0.6到1.4的范围内变化,图5显示了CACTE方案的总奖励高于四种算法的总奖励,并且CACTE计划获得的总奖励随着任务数据大小的增加而逐渐减少。
为了研究带宽BWUL(τ)对总奖励的影响,将移动设备上行链路的带宽设置为与其下行链路相等的值。设置带宽BWUL(τ)从5MHz增加至15MHz,增量为0.25。图6显示了CACTE方案的总奖励高于四种算法的总奖励,并且当带宽增加时,CACTE计划的总奖励会增加并稳定。
为了研究移动设备数量n对总奖励的影响,将n的值分别设置为3,4,5,6。表1显示了CACTE方案相较于其他四种算法可获得更高的总奖励。
表1
Figure BDA0003055879200000141
并且,在由任务配置为Type1,Type2,Type3,Type4的四个移动设备组成的协作任务卸载场景中,CACYE方案也胜过其他四种算法。

Claims (6)

1.基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于该方法包括以下步骤:
S1.建立系统模型:
设EH-D2D网络由一个无线充电桩和n个移动设备MD={MD1,...,MDi,...,MDn}组成;每个移动设备MDi用多元组
Figure FDA0003055879190000011
Figure FDA0003055879190000012
来表示,其中
Figure FDA0003055879190000013
Figure FDA0003055879190000014
分别表示低性能CPU和高性能CPU内核的数量;
Figure FDA0003055879190000015
Figure FDA0003055879190000016
分别表示低性能CPU和高性能CPU的最大计算能力;
Figure FDA0003055879190000017
分别表示移动设备MDi的执行功率,发送功率和接收功率;
Figure FDA0003055879190000018
表示移动设备MDi的电池容量;n个移动设备均通过无线充电站充电;
每个移动设备MDi会产生相互独立的任务,每个任务用一个二元组t=(W,D)表示,其中W表示任务工作负载,D表示单位工作负载的数据量;每个移动设备MDi包含一个等待执行队列Qi,该队列主要用于存储从其它移动设备卸载而来的任务以及由移动设备MDi自身产生并留在本地执行的任务;
在EH-D2D网络中,采用离散时间模型,将一个时间段逻辑上划分为若干等长的时间片;每个时间片的长度为Tslot=1s;,用
Figure FDA0003055879190000019
来表示时间片索引的集合;
S2.建立任务排队模型:
设n个移动设备上任务的到达过程服从参数为λ=(λ1,...,λi,...,λn)的泊松分布;在每个时间片τ的开始,计算任务A(τ)=(a1(τ),...,ai(τ),...,an(τ))到达n个移动设备;令μij(τ)表示在时间片τ从移动设备MDi卸载到移动设备MDj的任务数;ηij(τ)表示在时间片τ移动设备MDi从移动设备MDj接收的最大任务数;因此,执行队列Qi的状态演化可根据公式(1)计算;
Qi(τ+1)=max[Qi(τ)+ai(τ)W-bi(τ)W-∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)
μji(τ)≤ηij(τ) (2)
j∈nμij(τ)=ai(τ) (3)
j∈nμij(τ)≤ai(τ) (4)
j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)
其中bi(τ)表示MDi在时间片τ中执行的任务数,μji(τ)表示在时间片τ中从MDj卸载到MDi上的任务数目;公式(2)表示在时间片τ中MDj卸载给MDi的任务数不能超过MDi从MDj上接收的最大任务数;公式(3)表示在时间片τ中MDi上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和;公式(4)表示在时间片τ中MDi卸载到其他移动设备的任务总数∑j≠i,j∈nμij(τ)小于等于其上到达的任务数ai(τ);公式(5)表示在时间片τ中MDi卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Qi中的任务数与其上到达任务数之和;
S3.建立电量模型:
在时间片τ中,移动设备MDi的充电电量表示为
Figure FDA00030558791900000211
其中μ∈[0,1]表示无线充电系数;P表示无线充电站的发射功率;hi(τ)表示在时间片τ中无线充电站与移动设备MDi之间的信道增益;在每个时间片τ的开始,移动设备MDi的可用电量用
Figure FDA0003055879190000021
来表示,其演化方式根据公式(6)计算:
Figure FDA0003055879190000022
Figure FDA0003055879190000023
Figure FDA0003055879190000024
Figure FDA0003055879190000025
其中
Figure FDA0003055879190000026
Figure FDA0003055879190000027
分别表示在时间片τ中MDi执行任务,传输任务和接收任务所消耗的电池电量;公式(7)表示在时间片τ中,MDi接收任务,执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量;公式(8)表示在时间片τ中,MDi当前的可用电量与充电电量之和不能超过MDi的电池容量;
S4.建立网络模型:
Figure FDA0003055879190000028
Figure FDA0003055879190000029
分别表示在时间片τ中MDi与MDj之间的上行传输速率和下行传输速率,通过公式(10)和(11)计算:
Figure FDA00030558791900000210
Figure FDA0003055879190000031
其中,
Figure FDA0003055879190000032
Figure FDA0003055879190000033
分别是MDi上行链路和下行链路的信道带宽;
Figure FDA0003055879190000034
表示MDi的传输功率;σ2是高斯噪声功率;
Figure FDA0003055879190000035
Figure FDA0003055879190000036
分别表示移动设备MDi到MDj之间的上行信道增益和下行信道增益;由于MDi与MDj之间上下行的通信距离相同,所以通道增益
Figure FDA0003055879190000037
Figure FDA0003055879190000038
可通过
Figure FDA0003055879190000039
计算,其中α是路径损耗参数;θ是路径损耗指数;d0为参照距离;dij是MDi与MDj之间的距离;
S5.多智能体强化学习的协作任务卸载策略:
S51.定义状态空间:每个移动设备MDi被看作一个智能体;在时间片τ的开始,每个智能体当前的状态Oi(τ)可被观测,并将其用公式(12)表示;
Figure FDA00030558791900000310
其中Qi(τ)表示在时间片τ中MDi执行队列中剩余任务的数量,Gi(τ)=[Gi1(τ),...,Gi(i-1)(τ),Gi(i+1)(τ),...,Gin(τ)]表示在时间片τ中MDi与除了它本身之外的其他移动设备之间的信道增益;
Figure FDA00030558791900000311
表示在时间片τ中MDi的可用电量;
Figure FDA00030558791900000312
表示在时间片τ中MDi的充电电量;ai(τ)表示在时间片τ中到达MDi的任务数;
S52.定义动作空间:每个智能体根据它当前的状态Oi(τ)选择一个动作Ai(τ);动作Ai(τ)是由本地执行任务数,卸载任务数和最大接收任务数组成,并将其用公式(13)表示;
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)
μi(τ)=[μi1(τ),...,μi(i-1)(τ),μi(i+1)(τ),...,μin(τ)] (14)
ηi(τ)=[ηi1(τ),...,ηi(i-1)(τ),ηi(i+1)(τ),...,ηin(τ)] (15)
其中bi(τ)表示在时间片τ中MDi上执行的任务数,μi(τ)表示从MDi卸载到其它(n-1)个移动设备的任务数向量,ηi(τ)表示MDi从其他(n-1)个移动设备上可接收的最大任务数向量;在时间片τ中移动设备MDi执行任务,卸载任务和接收任务所消耗的总电量不能超过MDi的可用电量;
(1)执行任务所消耗的电量:移动设备采用动态调频技术来动态调节CPU频率;在时间片τ中MDi的计算能力
Figure FDA00030558791900000313
和计算功率
Figure FDA00030558791900000314
分别根据公式(16)和公式(17)计算:
Figure FDA0003055879190000041
Figure FDA0003055879190000042
其中ai是与芯片架构有关的常数;
Figure FDA0003055879190000043
Figure FDA0003055879190000044
分别表示低性能CPU和高性能CPU内核的实际计算频率;当移动设备MDi决定在时间片t中本地执行bi(τ)任务时,使用公式(22)计算本地执行任务需要消耗的电量
Figure FDA0003055879190000045
Figure FDA0003055879190000046
(2)卸载任务所消耗的电量:在时间片τ中,移动设备MDi实际卸载到移动设备MDj的任务数μ′ij可以用公式(19)表示;实际卸载任务所消耗的电量
Figure FDA0003055879190000047
可以用公式(20)来计算:
Figure FDA0003055879190000048
Figure FDA0003055879190000049
执行任务,卸载任务和接收任务所消耗的电量之和不能超过移动设备的可用电量
Figure FDA00030558791900000410
该约束条件用公式(21)表示:
Figure FDA00030558791900000411
S53.定义奖励函数:在多智能体协作任务卸载中,每个智能体根据其当前的状态值Oi(τ)和选择的动作Ai(τ)计算奖励Ri;奖励函数Ri是任务的平均处理时间Qi(τ),任务丢弃Di(τ)以及电量惩罚Pi(τ)的加权和,用公式(22)表示:
Figure FDA00030558791900000412
其中ω1,ω2和ω3分别是Qi(τ),Di(τ)和Pi(τ)的加权系数;任务丢弃Di(τ)可以根据公式(23)计算;
Figure FDA00030558791900000413
其中|Qi|表示执行队列Qi的长度;公式(|Qi|+bi(τ)-Qi(τ))表示执行队列Qi的可用空间;为了避免由于移动设备的电量耗尽而导致移动应用程序中断,将电量损失阈值设置为hi;当移动设备的可用电量
Figure FDA00030558791900000414
与最大电池容量
Figure FDA00030558791900000415
的比率小于hi时,电量惩罚Pi(τ)可以用公式(24)计算:
Figure FDA0003055879190000051
S54.问题形式化:多用户协作任务卸载问题建模为部分可观测马尔可夫决策过程;它的主要目标是最大化整个系统的奖励;
Maximize:-R (25)
S6.策略实现:
设计了一种基于多智能体深度确定性策略梯度算法来求解多用户协作任务卸载问题,求解过程为:
(1)在学习阶段,首先初始化每个智能体的环境参数和网络参数;环境参数主要包括执行队列长度,移动设备之间的信道增益,可用电量以及无线充电站和移动设备之间的信道增益;网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量;然后,观测每个智能体的当前状态Oi(τ),并根据当前状态选择每个智能体的动作Ai(τ);其次,根据每个智能体当前的状态Oi(τ)和采取的动作Ai(τ),计算出即时奖励Ri(τ)和下一个时间片(τ+1)时的状态O-i(τ+1);最后,每个智能体将其状态转移四元组(Oi(τ),Ai(τ),Ri(τ),O-i(τ+1))存储到其中继缓存Ωi中;
(2)在训练阶段,每个智能体i首先会从其中继缓存Ωi中随机抽取mini_batch个状态转移四元组;然后,每个智能体i分别根据目标动作网络和目标评价网络计算状态O-i(τ+1)的目标动作值和目标Q值;在目标评价网络中更新状态Oi(τ)的目标Q值,并根据该值更新估计Q网络。
2.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S1中所述移动设备的个数为4,这四个移动设备具有不同的类型;将移动设备MD1,MD2,MD3和MD4的类型分别设置为Type1,Type2,Type3和Type4;设备MD1,MD2,MD3和MD4的低性能内核数分别为
Figure FDA0003055879190000052
以及
Figure FDA0003055879190000053
最大CPU周期频率分别为
Figure FDA0003055879190000054
Figure FDA0003055879190000055
设备MD1,MD2,MD3和MD4的高性能内核数分别为
Figure FDA0003055879190000056
以及
Figure FDA0003055879190000057
最大CPU周期频率分别为
Figure FDA0003055879190000058
Figure FDA0003055879190000059
Figure FDA00030558791900000510
通过动态调频技术动态调整每个移动设备的CPU频率级别;设置每个移动设备的常量值ai为ai=0.1125W/(GHz)3;每个任务的工作负载W在[0.6,1.4]Gycles范围内变化,初始值设置为W=1GHz·s,单位工作负载的数据量设置为D=1MB。
3.根据权利要求2所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S2中所述泊松分布参数,即任务到达率λi设置为[0,12]范围内变化;四个移动设备的任务到达率分别设置为λ1=3,λ2=1,λ3=7和λ4=10。
4.根据权利要求3所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S4中所述通信距离设置为200m以内;每个移动设备上行链路和下行链路的信道带宽分别设置为BWi UL=10MHz和BWi DL=10MHz;高斯白噪声功率σ2设置为-174dbm/Hz;此外,设置路径损耗常数k为0.01,路径损耗指数θ为4,参考距离d0为1m:每个移动设备的发射功率和接收功率分别设置为
Figure FDA0003055879190000061
Figure FDA0003055879190000062
5.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S53中所述Qi(τ),Di(τ)和Pi(τ)的加权系数分别设置为ω1=1,ω2=15以及ω3=90。
6.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S6中所述测评动作网络由两个隐藏层组成,每个隐藏层中有30个神经元;测评评价网络由三个隐藏层组成;每个隐藏层中也有30个神经元,目标网络设置与测评网络设置相同;采用Adam优化器来更新目标网络,其中动作网络的学习率为0.0001,评价网络的学习率为0.003;奖励的权重γ设置为0.9,中继缓存的容量设置为10000,最小批样本数量设置为16。
CN202110499650.5A 2021-05-08 2021-05-08 基于多智能体强化学习的无线充电设备协作任务卸载策略 Active CN113518112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110499650.5A CN113518112B (zh) 2021-05-08 2021-05-08 基于多智能体强化学习的无线充电设备协作任务卸载策略

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110499650.5A CN113518112B (zh) 2021-05-08 2021-05-08 基于多智能体强化学习的无线充电设备协作任务卸载策略

Publications (2)

Publication Number Publication Date
CN113518112A true CN113518112A (zh) 2021-10-19
CN113518112B CN113518112B (zh) 2022-12-09

Family

ID=78064047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110499650.5A Active CN113518112B (zh) 2021-05-08 2021-05-08 基于多智能体强化学习的无线充电设备协作任务卸载策略

Country Status (1)

Country Link
CN (1) CN113518112B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272842A (zh) * 2023-11-21 2023-12-22 中国电建集团西北勘测设计研究院有限公司 多工业园区综合能源系统的协同控制系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
卢海峰等: "基于深度强化学习的移动边缘计算任务卸载研究", 《计算机研究与发展》 *
张文献等: "面向多用户移动边缘计算轻量任务卸载优化", 《小型微型计算机系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272842A (zh) * 2023-11-21 2023-12-22 中国电建集团西北勘测设计研究院有限公司 多工业园区综合能源系统的协同控制系统及方法
CN117272842B (zh) * 2023-11-21 2024-02-27 中国电建集团西北勘测设计研究院有限公司 多工业园区综合能源系统的协同控制系统及方法

Also Published As

Publication number Publication date
CN113518112B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN108920280B (zh) 一种单用户场景下的移动边缘计算任务卸载方法
CN110971706B (zh) Mec中近似最优化与基于强化学习的任务卸载方法
CN110418416B (zh) 移动边缘计算系统中基于多智能体强化学习的资源分配方法
CN112512056B (zh) 一种移动边缘计算网络中多目标优化的计算卸载方法
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
CN111240701B (zh) 一种端-边-云协同计算的任务卸载优化方法
CN109343904B (zh) 一种基于Lyapunov优化的雾计算动态卸载方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113612843A (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
CN112988345B (zh) 一种基于移动边缘计算的依赖型任务卸载方法及装置
CN113950066A (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN112882815A (zh) 基于深度强化学习的多用户边缘计算优化调度方法
CN113543156A (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN110955463A (zh) 支持边缘计算的物联网多用户计算卸载方法
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN114285853A (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
Ren et al. DDPG based computation offloading and resource allocation for MEC systems with energy harvesting
CN116366576A (zh) 算力网络资源调度方法、装置、设备及介质
CN113518112B (zh) 基于多智能体强化学习的无线充电设备协作任务卸载策略
CN114116061B (zh) 一种移动边缘计算环境下的工作流任务卸载方法及系统
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114828095A (zh) 一种基于任务卸载的高效数据感知分层联邦学习方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant