CN113518112A - 基于多智能体强化学习的无线充电设备协作任务卸载策略 - Google Patents
基于多智能体强化学习的无线充电设备协作任务卸载策略 Download PDFInfo
- Publication number
- CN113518112A CN113518112A CN202110499650.5A CN202110499650A CN113518112A CN 113518112 A CN113518112 A CN 113518112A CN 202110499650 A CN202110499650 A CN 202110499650A CN 113518112 A CN113518112 A CN 113518112A
- Authority
- CN
- China
- Prior art keywords
- tasks
- task
- time slice
- power
- mobile device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J50/00—Circuit arrangements or systems for wireless supply or distribution of electric power
- H02J50/40—Circuit arrangements or systems for wireless supply or distribution of electric power using two or more transmitting or receiving devices
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J7/00—Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1008—Server selection for load balancing based on parameters of servers, e.g. available memory or workload
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Power Engineering (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的无线充电设备协作任务卸载策略,使用Q‑Learning算法以及神经网络来学习多个移动设备如何在有限的计算资源和电量资源环境下进行协作任务卸载。本发明首次将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述,视每个智能体为相互独立的学习者,提出了一种在无线充电D2D网络环境下基于多智能体深度确定性策略梯度(MADDPG)的协作任务执行方案(CACTE),其目标是使多个移动设备彼此有效地协作,从而执行更多任务,获得更高的长期回报。并且,将本发明提出的策略与其他策略在不同实验参数下进行对比,证明了本发明所提出策略的有效性。
Description
技术领域
本发明涉及移动边缘计算领域,尤其涉及一种基于多智能体强化学习的无线充电设备协作任务卸载策略。
背景技术
D2D通信网络中,资源不足移动设备上的计算任务可以被卸载到资源充足移动设备上协作执行,从而实现资源的充分利用。现有工作主要关注电池供电的D2D网络中,计算资源有限的移动设备之间如何进行任务的协作卸载,但是忽略了移动设备电量是有限的,从而导致移动设备电量耗尽时,其上正在执行的任务会被中断,这严重影响了移动应用的服务质量。为此,引入无线充电技术为移动设备持续供电,使得任务执行不被中断,从而大大提高移动应用的服务质量。尽管无线充电带来了上述优点,但是如何在无线充电D2D(EH-D2D)网络中实现多用户协作任务卸载策略仍然是一个值得关注的问题。
发明内容
为了解决上述问题,本发明提供了一种基于多智能体强化学习的无线充电设备协作任务卸载策略。
本发明具体采用的技术方案如下:
S1.建立系统模型:
EH-D2D网络由一个无线充电桩和n个移动设备MD={MD1,...,NDi,...,MDn}组成。每个移动设备MDi可以用多元组 来表示,其中和分别表示低性能CPU和高性能CPU内核的数量;和分别表示低性能CPU和高性能CPU的最大计算能力。分别表示移动设备MDi的执行功率,发送功率和接收功率;表示移动设备MDi的电池容量。n个移动设备均可以通过无线充电站充电,即构成本发明中的无线充电设备。
每个移动设备MDi会产生相互独立的任务,每个任务可以用一个二元组t=(W,D)表示,其中W(GHz·s)表示任务工作负载,D表示单位工作负载的数据量(以MB为单位)。每个移动设备MDi包含一个等待执行队列Qi,该队列主要用于存储从其他移动设备卸载而来的任务以及由移动设备MDi自身产生并留在本地执行的任务。
在EH-D2D网络中,本发明采用离散时间模型,将一个时间段逻辑上划分为若干等长的时间片。每个时间片的长度为Tslot=1s。本发明用 来表示时间片索引的集合。在每个时间片τ中,无线充电站可以给每个移动设备充电。当移动设备的可用电量不足以执行其上到达的任务时,可以将部分或全部任务卸载到其他移动设备上协作执行。在每个时间片τ的开始,每个移动设备根据自身可用电量和任务负载情况做出协作决策,该决策包括卸载给每个移动设备的任务数、留在本地执行的任务数和最多能够接收的任务数。
S2.建立任务排队模型:
假设n个移动设备上任务的到达过程服从参数为λ=(λ1,...,λi,...,λn)的泊松分布。在每个时间片τ的开始,计算任务A(τ)=(a1(τ),...,ai(τ),...,an(τ))到达n个移动设备。令μij(τ)表示在时间片τ从移动设备MDi卸载到移动设备MDj的任务数;ηij(τ)表示在时间片τ移动设备MDi可以从移动设备MDj接收的最大任务数。因此,执行队列Qi的状态演化可以根据公式(1)计算。
Qi(τ+1)=max[Qi(τ)+ai(τ)W-bi(τ)W-∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)
μji(τ)≤ηij(τ) (2)
∑j∈nμij(τ)=ai(τ) (3)
∑j∈nμij(τ)≤ai(τ) (4)
∑j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)
其中bi(τ)表示MDi在时间片τ中执行的任务数,μji(τ)表示在时间片τ中从MDj卸载到MDi上的任务数目。公式(2)表示在时间片τ中MDj卸载给MDi的任务数不能超过MDi可以从MDj上接收的最大任务数。公式(3)表示在时间片τ中MDi上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和。公式(4)表示在时间片τ中MDi卸载到其他移动设备的任务总数∑j≠i,j∈nμij(τ)小于等于其上到达的任务数ai(τ)。公式(5)表示在时间片τ中MDi卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Qi中的任务数与其上到达任务数之和。
S3.建立电量模型:
在时间片τ中,移动设备MDi的充电电量可以表示为其中μ∈[0,1]表示无线充电系数;P表示无线充电站的发射功率;hi(τ)表示在时间片τ中无线充电站与移动设备MDi之间的信道增益。在每个时间片τ的开始,MDi的可用电量可以用来表示,其演化方式可以根据公式(6)计算:
其中和分别表示在时间片τ中MDi执行任务,传输任务和接收任务所消耗的电池电量。公式(7)表示在时间片τ中,MDi接收任务,执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量。公式(8)表示在时间片τ中,MDi当前的可用电量与充电电量之和不能超过MDi的电池容量。
S4.建立网络模型:
其中,和分别是MDi上行链路和下行链路的信道带宽;表示MDi的传输功率;σ2是高斯噪声功率;和分别表示移动设备MDi到MDj之间的上行信道增益和下行信道增益。由于MDi与MDj之间上下行的通信距离相同,所以通道增益和可以通过计算,其中α是路径损耗参数;θ是路径损耗指数;d0为参照距离;dij是MDi与MDj之间的距离。
S5.多智能体强化学习的协作任务卸载策略:需要定义协作问题的状态空间和动作空间,并设计协作任务卸载问题的奖励函数。最后将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述。具体包含以下子步骤:
S51.定义状态空间:
每个移动设备MDi被看作一个智能体。在时间片τ的开始,每个智能体当前的状态Oi(τ)可以被观测,并将其用公式(12)表示。
其中Qi(τ)表示在时间片τ中MDi执行队列中剩余任务的数量,Gi(τ)=[Gi1(τ),...,Gi(i-1)(τ),Gi(i+1)(τ),...,Gin(τ)]表示在时间片τ中MDi与除了它本身之外的其他移动设备之间的信道增益;表示在时间片τ中MDi的可用电量;表示在时间片τ中MDi的充电电量;ai(τ)表示在时间片τ中到达MDi的任务数。
S52.定义动作空间:
每个智能体根据它当前的状态Oi(τ)选择一个动作Ai(τ)。动作Ai(τ)是由本地执行任务数,卸载任务数和最大接收任务数组成,并将其用公式(13)表示。
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)
μi(τ)=[μi1(τ),...,μi(i-1)(τ),μi(i+1)(τ),...,μin(τ)] (14)
ηi(τ)=[ηi1(τ),...,ηi(i-1)(τ),ηi(i+1)(τ),...,ηin(τ)] (15)
其中bi(τ)表示在时间片τ中MDi上执行的任务数,μi(τ)表示从MDi卸载到其他(n-1)个移动设备的任务数向量,ηi(τ)表示MDi从其他(n-1)个移动设备上可以接收的最大任务数向量。在时间片τ中移动设备MDi执行任务,卸载任务和接收任务所消耗的总电量不能超过MDi的可用电量。
S53.定义奖励函数:
在多智能体协作任务卸载中,每个智能体根据其当前的状态值Oi(τ)和选择的动作Ai(τ)计算奖励Ri。奖励函数Ri是任务的平均处理时间Qi(τ),任务丢弃Di(τ)以及电量惩罚Pi(τ)的加权和,可以用公式(22)表示:
其中ω1,ω2和ω3分别是Qi(τ),Di(τ)和Pi(τ)的加权系数。任务丢弃Di(τ)可以根据公式(23)计算。
其中|Qi|表示执行队列Qi的长度。公式(|Qi|+bi(τ)-Qi(τ))表示执行队列Qi的可用空间。为了避免由于移动设备的电量耗尽而导致移动应用程序中断,本发明将电量损失阈值设置为hi。当移动设备的可用电量与最大电池容量的比率小于hi时,电量惩罚Pi(τ)可以用公式(24)计算:
S54.问题形式化:
多用户协作任务卸载问题可以建模为POMDP。它的主要目标是最大化整个系统的奖励。
Maximize:-R (25)
S6.策略实现:
本发明设计了一种基于多智能体深度确定性策略梯度(MADDPG)算法来求解多用户协作任务卸载问题。MADDPG算法的详细求解过程为:
(1)在学习阶段,首先初始化每个智能体的环境参数和网络参数。环境参数主要包括执行队列长度,移动设备之间的信道增益,可用电量以及无线充电站和移动设备之间的信道增益。网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量。然后,观测每个智能体的当前状态Oi(τ),并根据当前状态选择每个智能体的动作Ai(τ)。其次,根据每个智能体当前的状态Oi(τ)和采取的动作Ai(τ),计算出即时奖励Ri(τ)和下一个时间片(τ+1)时的状态O-i(τ+1)。最后,每个智能体将其状态转移四元组(Oi(τ),Ai(τ),Ri(τ),O-i(τ+1))存储到其中继缓存Ωi中。
(2)在训练阶段,每个智能体i首先会从其中继缓存Ωi中随机抽取mini_batch个状态转移四元组。然后,每个智能体i分别根据目标动作网络和目标评价网络计算状态O-i(τ+1)的目标动作值和目标Q值。在目标评价网络中更新状态Oi(τ)的目标Q值,并根据该值更新估计Q网络。
作为优选,S1中所述的移动设备个数为4,这四个移动设备具有不同的类型。将移动设备MD1,MD2,MD3和MD4的类型分别设置为Type1,Type2,Type3和Type4。设备MD1,MD2,MD3和MD4的低性能CPU内核数分别为 以及最大CPU周期频率分别为 和设备MD1,MD2,MD3和MD4的高性能CPU内核数分别为以及最大CPU周期频率分别为和通过DVFS技术动态调整每个移动设备的CPU频率级别。设置每个移动设备的常量值ai为ai=0.1125W/(GHz)3。每个任务的工作负载W在[0.6,1.4]Gycles范围内变化,初始值设置为W=1GHz·s,单位工作负载的数据量设置为D=1MB
作为优选,S2中所述的泊松分布参数,即任务到达率λi设置为[0,12]范围内变化。四个移动设备的任务到达率分别设置为λ1=3,λ2=1,λ3=7和λ4=10。
作为优选,S4中所述通信距离设置为200m以内。每个移动设备上行链路和下行链路的信道带宽分别设置为和高斯白噪声功率σ2设置为-174dbm/Hz。此外,本发明设置路径损耗常数k为0.01,路径损耗指数θ为4,参考距离d0为1m。每个移动设备的发射功率和接收功率分别设置为与
作为优选,S53中所述Qi(τ),Di(τ)和Pi(τ)的加权系数分别设置为ω1=1,ω2=15以及ω3=90。
作为优选,S6中所述测评动作网络由两个隐藏层组成,每个隐藏层中有30个神经元。测评评价网络由三个隐藏层组成。每个隐藏层中也有30个神经元,目标网络设置与测评网络设置相同。本发明采用Adam优化器来更新目标网络,其中动作网络的学习率为0.0001,评价网络的学习率为0.003。奖励的权重γ设置为0.9,中继缓存的容量设置为10000,最小批样本数量设置为16。
本发明的有益效果:本发明使用Q-Learning算法以及神经网络来学习多个移动设备如何在有限的计算资源和电量资源环境下进行协作任务卸载。本发明将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述,视每个智能体为相互独立的学习者,提出了一种在无线充电D2D网络环境下基于多智能体深度确定性策略梯度(MADDPG)的协作任务卸载方案(CACTE),其目标是使多个移动设备彼此有效地协作,从而执行更多任务,获得更高的长期回报。
附图说明
图1为本发明无线充电D2D网络中多智能体强化学习协作任务卸载策略的流程图;
图2为在任务到达率λ影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图;
图4为在工作负载W影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图;
图5为在任务数据大小D影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图;
图6为在带宽BWUL(τ)影响下,本发明与Local算法,Random算法,ECLB算法以及CCLB算法的对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步详细说明。
如图1所示,本发明包括以下步骤:
S1.建立系统模型:EH-D2D网络由一个无线充电桩和n个移动设备MD={MD1,...,MDi,...,MDn}组成。每个移动设备MDi可以用多元组 来表示,其中和分别表示低性能CPU和高性能CPU内核的数量;和分别表示低性能CPU和高性能CPU的最大计算能力。分别表示移动设备MDi的执行功率,发送功率和接收功率;表示移动设备MDi的电池容量。n个移动设备均可以通过无线充电站充电。
每个移动设备MDi会产生相互独立的任务,每个任务可以用一个二元组t=(W,D)表示,其中W(GHz·s)表示任务工作负载,D表示单位工作负载的数据量(以MB为单位)。每个移动设备MDi包含一个等待执行队列Qi,该队列主要用于存储从其他移动设备卸载而来的任务以及由移动设备MDi自身产生并留在本地执行的任务。
在EH-D2D网络中,本发明采用离散时间模型,将一个时间段逻辑上划分为若干等长的时间片。每个时间片的长度为Tslot=1s。本发明用 来表示时间片索引的集合。在每个时间片τ中,无线充电站可以给每个移动设备充电。当移动设备的可用电量不足以执行其上到达的任务时,可以将部分或全部任务卸载到其他移动设备上协作执行。在每个时间片τ的开始,每个移动设备根据自身可用电量和任务负载情况做出协作决策,该决策包括卸载给每个移动设备的任务数、留在本地执行的任务数和最多能够接收的任务数。
S2.建立任务排队模型:假设n个移动设备上任务的到达过程服从参数为λ=(λ1,...,λi,...,λn)的泊松分布。在每个时间片τ的开始,计算任务A(τ)=(a1(τ),...,ai(τ),...,an(τ))到达n个移动设备。令μij(τ)表示在时间片τ从移动设备MDi卸载到移动设备MDj的任务数;ηij(τ)表示在时间片τ移动设备MDi可以从移动设备MDj接收的最大任务数。因此,执行队列Qi的状态演化可以根据公式(1)计算。
Qi(τ+1)=max[Qi(τ)+ai(τ)W-bi(τ)W-∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)
μji(τ)≤ηij(τ) (2)
∑j∈nμij(τ)=ai(τ) (3)
∑j∈nμij(τ)≤ai(τ) (4)
∑j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)
其中bi(τ)表示MDi在时间片τ中执行的任务数,μji(τ)表示在时间片τ中从MDj卸载到MDi上的任务数目。公式(2)表示在时间片τ中MDj卸载给MDi的任务数不能超过MDi可以从MDj上接收的最大任务数。公式(3)表示在时间片τ中MDi上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和。公式(4)表示在时间片τ中MDi卸载到其他移动设备的任务总数∑j≠i,j∈nμij(τ)小于等于其上到达的任务数ai(τ)。公式(5)表示在时间片τ中MDi卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Qi中的任务数与其上到达任务数之和。
S3.建立电量模型:在时间片τ中,移动设备MDi的充电电量可以表示为其中μ∈[0,1]表示无线充电系数;P表示无线充电站的发射功率;hi(τ)表示在时间片τ中无线充电站与移动设备MDi之间的信道增益。在每个时间片τ的开始,MDi的可用电量可以用来表示,其演化方式可以根据公式(6)计算:
其中和分别表示在时间片τ中MDi执行任务,传输任务和接收任务所消耗的电池电量。公式(7)表示在时间片τ中,MDi接收任务,执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量。公式(8)表示在时间片τ中,MDi当前的可用电量与充电电量之和不能超过MDi的电池容量。
其中,和分别是MDi上行链路和下行链路的信道带宽;表示MDi的传输功率;σ2是高斯噪声功率;和分别表示移动设备MDi到MDj之间的上行信道增益和下行信道增益。由于MDi与MDj之间上下行的通信距离相同,所以通道增益和可以通过计算,其中α是路径损耗参数;θ是路径损耗指数;d0为参照距离;dij是MDi与MDj之间的距离。
S5.多智能体强化学习的协作任务卸载策略:需要定义协作问题的状态空间和动作空间,并设计协作任务卸载问题的奖励函数。最后将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述。具体包含以下子步骤:
S51.定义状态空间:每个移动设备MDi被看作一个智能体。在时间片τ的开始,每个智能体当前的状态Oi(τ)可以被观测,并将其用公式(12)表示。
其中Qi(τ)表示在时间片τ中MDi执行队列中剩余任务的数量,Gi(τ)=[Gi1(τ),...,Gi(i-1)(τ),Gi(i+1)(τ),...,Gin(τ)]表示在时间片τ中MDi与除了它本身之外的其他移动设备之间的信道增益;表示在时间片τ中MDi的可用电量;表示在时间片τ中MDi的充电电量;ai(τ)表示在时间片τ中到达MDi的任务数。
S52.定义动作空间:每个智能体根据它当前的状态Oi(τ)选择一个动作Ai(τ)。动作Ai(τ)是由本地执行任务数,卸载任务数和最大接收任务数组成,并将其用公式(13)表示:
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)
μi(τ)=[μi1(τ),...,μi(i-1)(τ),μi(i+1)(τ),...,μin(τ)] (14)
ηi(τ)=[ηi1(τ),...,ηi(i-1)(τ),ηi(i+1)(τ),...,ηin(τ)] (15)
其中bi(τ)表示在时间片τ中MDi上执行的任务数,μi(τ)表示从MDi卸载到其他(n-1)个移动设备的任务数向量,ηi(τ)表示MDi从其他(n-1)个移动设备上可以接收的最大任务数向量。在时间片τ中移动设备MDi执行任务,卸载任务和接收任务所消耗的总电量不能超过MDi的可用电量。
S53.定义奖励函数:在多智能体协作任务卸载中,每个智能体根据其当前的状态值Oi(τ)和选择的动作Ai(τ)计算奖励Ri。奖励函数Ri是任务的平均处理时间Qi(τ),任务丢弃Di(τ)以及电量惩罚Pi(τ)的加权和,可以用公式(22)表示:
其中ω1,ω2和ω3分别是Qi(τ),Di(τ)和Pi(τ)的加权系数。任务丢弃Di(τ)可以根据公式(23)计算。
其中|Qi|表示执行队列Qi的长度。公式(|Qi|+bi(τ)-Qi(τ))表示执行队列Qi的可用空间。为了避免由于移动设备的电量耗尽而导致移动应用程序中断,本发明将电量损失阈值设置为hi。当移动设备的可用电量与最大电池容量的比率小于hi时,电量惩罚Pi(τ)可以用公式(24)计算:
S54.问题形式化:多用户协作任务卸载问题可以建模为POMDP。它的主要目标是最大化整个系统的奖励。
Maximize:-R (25)
S6.策略实现:本发明设计了一种基于多智能体深度确定性策略梯度(MADDPG)算法来求解多用户协作任务卸载问题。MADDPG算法的详细求解过程为:
(1)在学习阶段,首先初始化每个智能体的环境参数和网络参数。环境参数主要包括执行队列长度,移动设备之间的信道增益,可用电量以及无线充电站和移动设备之间的信道增益。网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量。然后,观测每个智能体的当前状态Oi(τ),并根据当前状态选择每个智能体的动作Ai(τ)。其次,根据每个智能体当前的状态Oi(τ)和采取的动作Ai(τ),计算出即时奖励Ri(τ)和下一个时间片(τ+1)时的状态O-i(τ+1)。最后,每个智能体将其状态转移四元组(Oi(τ),Ai(τ),Ri(τ),O-i(τ+1))存储到其中继缓存Ωi中。
(2)在训练阶段,每个智能体i首先会从其中继缓存Ωi中随机抽取mini_batch个状态转移四元组。然后,每个智能体i分别根据目标动作网络和目标评价网络计算状态O-i(τ+1)的目标动作值和目标值。在目标评价网络中更新状态Oi(τ)的目标值,并根据该值更新估计网络。
实施例
本实施例步骤与具体实施方式相同,在此不再进行赘述。下面就对比方法的实施和实施结果进行展示:
本发明实现了基于梯度策略进行强化学习协作任务卸载策略的CACTE算法,将该算法与Local算法,Random算法,ECLB算法以及CCLB算法进行对比,并且分别就任务到达率λ,移动设备电池电量工作负载W,任务数据大小D,带宽BWUL(τ),移动设备数量n对总奖励的影响进行评估。
为了研究任务到达率λ对总奖励的影响,以[1,1,1,1]为增量,分别将λ设置为[1,0,5,8],[2,0,6,9],[3,1,7,10],[4,2,8,11]和[5,3,9,12]。图2显示了CACTE方案获得的总奖励优于Local算法,Random算法,ECLB算法和CCLB算法获得的总奖励。当任务到达率增加时,CACTE方案和四钟算法的总奖励都将逐渐降低。
为了研究移动设备电池电量对总奖励的影响,设置移动设备的电池电量以5为增量从40电量单位增加至60电量单位。图3显示了当电池电量小于55时,随着电池电量的增加,CACTE方案和四种算法的总回报都将增加。但是,当移动设备的电池电量等于或大于55时,所有算法的曲线都是平坦的。
为了研究工作负载W对总奖励的影响,设置W在0.6到1.4的范围内变化,图4显示了CACTE方案比其他四种算法获得了更高的总奖励。并且当任务工作量W增加时,CACTE方案获得的总奖励在逐渐减少。
为了研究任务数据大小D对总奖励的影响,设置D在0.6到1.4的范围内变化,图5显示了CACTE方案的总奖励高于四种算法的总奖励,并且CACTE计划获得的总奖励随着任务数据大小的增加而逐渐减少。
为了研究带宽BWUL(τ)对总奖励的影响,将移动设备上行链路的带宽设置为与其下行链路相等的值。设置带宽BWUL(τ)从5MHz增加至15MHz,增量为0.25。图6显示了CACTE方案的总奖励高于四种算法的总奖励,并且当带宽增加时,CACTE计划的总奖励会增加并稳定。
为了研究移动设备数量n对总奖励的影响,将n的值分别设置为3,4,5,6。表1显示了CACTE方案相较于其他四种算法可获得更高的总奖励。
表1
并且,在由任务配置为Type1,Type2,Type3,Type4的四个移动设备组成的协作任务卸载场景中,CACYE方案也胜过其他四种算法。
Claims (6)
1.基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于该方法包括以下步骤:
S1.建立系统模型:
设EH-D2D网络由一个无线充电桩和n个移动设备MD={MD1,...,MDi,...,MDn}组成;每个移动设备MDi用多元组 来表示,其中和分别表示低性能CPU和高性能CPU内核的数量;和分别表示低性能CPU和高性能CPU的最大计算能力;分别表示移动设备MDi的执行功率,发送功率和接收功率;表示移动设备MDi的电池容量;n个移动设备均通过无线充电站充电;
每个移动设备MDi会产生相互独立的任务,每个任务用一个二元组t=(W,D)表示,其中W表示任务工作负载,D表示单位工作负载的数据量;每个移动设备MDi包含一个等待执行队列Qi,该队列主要用于存储从其它移动设备卸载而来的任务以及由移动设备MDi自身产生并留在本地执行的任务;
S2.建立任务排队模型:
设n个移动设备上任务的到达过程服从参数为λ=(λ1,...,λi,...,λn)的泊松分布;在每个时间片τ的开始,计算任务A(τ)=(a1(τ),...,ai(τ),...,an(τ))到达n个移动设备;令μij(τ)表示在时间片τ从移动设备MDi卸载到移动设备MDj的任务数;ηij(τ)表示在时间片τ移动设备MDi从移动设备MDj接收的最大任务数;因此,执行队列Qi的状态演化可根据公式(1)计算;
Qi(τ+1)=max[Qi(τ)+ai(τ)W-bi(τ)W-∑i≠jμij(τ)W,0]+∑j≠iμji(τ)W (1)
μji(τ)≤ηij(τ) (2)
∑j∈nμij(τ)=ai(τ) (3)
∑j∈nμij(τ)≤ai(τ) (4)
∑j≠i,j∈nμij(τ)+bi(τ)≤Qi(τ)+ai(τ) (5)
其中bi(τ)表示MDi在时间片τ中执行的任务数,μji(τ)表示在时间片τ中从MDj卸载到MDi上的任务数目;公式(2)表示在时间片τ中MDj卸载给MDi的任务数不能超过MDi从MDj上接收的最大任务数;公式(3)表示在时间片τ中MDi上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和;公式(4)表示在时间片τ中MDi卸载到其他移动设备的任务总数∑j≠i,j∈nμij(τ)小于等于其上到达的任务数ai(τ);公式(5)表示在时间片τ中MDi卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Qi中的任务数与其上到达任务数之和;
S3.建立电量模型:
在时间片τ中,移动设备MDi的充电电量表示为其中μ∈[0,1]表示无线充电系数;P表示无线充电站的发射功率;hi(τ)表示在时间片τ中无线充电站与移动设备MDi之间的信道增益;在每个时间片τ的开始,移动设备MDi的可用电量用来表示,其演化方式根据公式(6)计算:
其中和分别表示在时间片τ中MDi执行任务,传输任务和接收任务所消耗的电池电量;公式(7)表示在时间片τ中,MDi接收任务,执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量;公式(8)表示在时间片τ中,MDi当前的可用电量与充电电量之和不能超过MDi的电池容量;
S4.建立网络模型:
其中,和分别是MDi上行链路和下行链路的信道带宽;表示MDi的传输功率;σ2是高斯噪声功率;和分别表示移动设备MDi到MDj之间的上行信道增益和下行信道增益;由于MDi与MDj之间上下行的通信距离相同,所以通道增益和可通过计算,其中α是路径损耗参数;θ是路径损耗指数;d0为参照距离;dij是MDi与MDj之间的距离;
S5.多智能体强化学习的协作任务卸载策略:
S51.定义状态空间:每个移动设备MDi被看作一个智能体;在时间片τ的开始,每个智能体当前的状态Oi(τ)可被观测,并将其用公式(12)表示;
其中Qi(τ)表示在时间片τ中MDi执行队列中剩余任务的数量,Gi(τ)=[Gi1(τ),...,Gi(i-1)(τ),Gi(i+1)(τ),...,Gin(τ)]表示在时间片τ中MDi与除了它本身之外的其他移动设备之间的信道增益;表示在时间片τ中MDi的可用电量;表示在时间片τ中MDi的充电电量;ai(τ)表示在时间片τ中到达MDi的任务数;
S52.定义动作空间:每个智能体根据它当前的状态Oi(τ)选择一个动作Ai(τ);动作Ai(τ)是由本地执行任务数,卸载任务数和最大接收任务数组成,并将其用公式(13)表示;
Ai(τ)=[bi(τ),μi(τ),ηi(τ)] (13)
μi(τ)=[μi1(τ),...,μi(i-1)(τ),μi(i+1)(τ),...,μin(τ)] (14)
ηi(τ)=[ηi1(τ),...,ηi(i-1)(τ),ηi(i+1)(τ),...,ηin(τ)] (15)
其中bi(τ)表示在时间片τ中MDi上执行的任务数,μi(τ)表示从MDi卸载到其它(n-1)个移动设备的任务数向量,ηi(τ)表示MDi从其他(n-1)个移动设备上可接收的最大任务数向量;在时间片τ中移动设备MDi执行任务,卸载任务和接收任务所消耗的总电量不能超过MDi的可用电量;
S53.定义奖励函数:在多智能体协作任务卸载中,每个智能体根据其当前的状态值Oi(τ)和选择的动作Ai(τ)计算奖励Ri;奖励函数Ri是任务的平均处理时间Qi(τ),任务丢弃Di(τ)以及电量惩罚Pi(τ)的加权和,用公式(22)表示:
其中ω1,ω2和ω3分别是Qi(τ),Di(τ)和Pi(τ)的加权系数;任务丢弃Di(τ)可以根据公式(23)计算;
其中|Qi|表示执行队列Qi的长度;公式(|Qi|+bi(τ)-Qi(τ))表示执行队列Qi的可用空间;为了避免由于移动设备的电量耗尽而导致移动应用程序中断,将电量损失阈值设置为hi;当移动设备的可用电量与最大电池容量的比率小于hi时,电量惩罚Pi(τ)可以用公式(24)计算:
S54.问题形式化:多用户协作任务卸载问题建模为部分可观测马尔可夫决策过程;它的主要目标是最大化整个系统的奖励;
Maximize:-R (25)
S6.策略实现:
设计了一种基于多智能体深度确定性策略梯度算法来求解多用户协作任务卸载问题,求解过程为:
(1)在学习阶段,首先初始化每个智能体的环境参数和网络参数;环境参数主要包括执行队列长度,移动设备之间的信道增益,可用电量以及无线充电站和移动设备之间的信道增益;网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量;然后,观测每个智能体的当前状态Oi(τ),并根据当前状态选择每个智能体的动作Ai(τ);其次,根据每个智能体当前的状态Oi(τ)和采取的动作Ai(τ),计算出即时奖励Ri(τ)和下一个时间片(τ+1)时的状态O-i(τ+1);最后,每个智能体将其状态转移四元组(Oi(τ),Ai(τ),Ri(τ),O-i(τ+1))存储到其中继缓存Ωi中;
(2)在训练阶段,每个智能体i首先会从其中继缓存Ωi中随机抽取mini_batch个状态转移四元组;然后,每个智能体i分别根据目标动作网络和目标评价网络计算状态O-i(τ+1)的目标动作值和目标Q值;在目标评价网络中更新状态Oi(τ)的目标Q值,并根据该值更新估计Q网络。
2.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S1中所述移动设备的个数为4,这四个移动设备具有不同的类型;将移动设备MD1,MD2,MD3和MD4的类型分别设置为Type1,Type2,Type3和Type4;设备MD1,MD2,MD3和MD4的低性能内核数分别为以及最大CPU周期频率分别为和设备MD1,MD2,MD3和MD4的高性能内核数分别为以及最大CPU周期频率分别为 和通过动态调频技术动态调整每个移动设备的CPU频率级别;设置每个移动设备的常量值ai为ai=0.1125W/(GHz)3;每个任务的工作负载W在[0.6,1.4]Gycles范围内变化,初始值设置为W=1GHz·s,单位工作负载的数据量设置为D=1MB。
3.根据权利要求2所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S2中所述泊松分布参数,即任务到达率λi设置为[0,12]范围内变化;四个移动设备的任务到达率分别设置为λ1=3,λ2=1,λ3=7和λ4=10。
5.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S53中所述Qi(τ),Di(τ)和Pi(τ)的加权系数分别设置为ω1=1,ω2=15以及ω3=90。
6.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略,其特征在于:S6中所述测评动作网络由两个隐藏层组成,每个隐藏层中有30个神经元;测评评价网络由三个隐藏层组成;每个隐藏层中也有30个神经元,目标网络设置与测评网络设置相同;采用Adam优化器来更新目标网络,其中动作网络的学习率为0.0001,评价网络的学习率为0.003;奖励的权重γ设置为0.9,中继缓存的容量设置为10000,最小批样本数量设置为16。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110499650.5A CN113518112B (zh) | 2021-05-08 | 2021-05-08 | 基于多智能体强化学习的无线充电设备协作任务卸载策略 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110499650.5A CN113518112B (zh) | 2021-05-08 | 2021-05-08 | 基于多智能体强化学习的无线充电设备协作任务卸载策略 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113518112A true CN113518112A (zh) | 2021-10-19 |
CN113518112B CN113518112B (zh) | 2022-12-09 |
Family
ID=78064047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110499650.5A Active CN113518112B (zh) | 2021-05-08 | 2021-05-08 | 基于多智能体强化学习的无线充电设备协作任务卸载策略 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113518112B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272842A (zh) * | 2023-11-21 | 2023-12-22 | 中国电建集团西北勘测设计研究院有限公司 | 多工业园区综合能源系统的协同控制系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
-
2021
- 2021-05-08 CN CN202110499650.5A patent/CN113518112B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
Non-Patent Citations (2)
Title |
---|
卢海峰等: "基于深度强化学习的移动边缘计算任务卸载研究", 《计算机研究与发展》 * |
张文献等: "面向多用户移动边缘计算轻量任务卸载优化", 《小型微型计算机系统》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117272842A (zh) * | 2023-11-21 | 2023-12-22 | 中国电建集团西北勘测设计研究院有限公司 | 多工业园区综合能源系统的协同控制系统及方法 |
CN117272842B (zh) * | 2023-11-21 | 2024-02-27 | 中国电建集团西北勘测设计研究院有限公司 | 多工业园区综合能源系统的协同控制系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113518112B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112367353B (zh) | 基于多智能体强化学习的移动边缘计算卸载方法 | |
CN108920280B (zh) | 一种单用户场景下的移动边缘计算任务卸载方法 | |
CN110971706B (zh) | Mec中近似最优化与基于强化学习的任务卸载方法 | |
CN110418416B (zh) | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 | |
CN112512056B (zh) | 一种移动边缘计算网络中多目标优化的计算卸载方法 | |
CN110798849A (zh) | 一种超密网边缘计算的计算资源分配与任务卸载方法 | |
CN111240701B (zh) | 一种端-边-云协同计算的任务卸载优化方法 | |
CN109343904B (zh) | 一种基于Lyapunov优化的雾计算动态卸载方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN113612843A (zh) | 一种基于深度强化学习的mec任务卸载和资源分配方法 | |
CN112988345B (zh) | 一种基于移动边缘计算的依赖型任务卸载方法及装置 | |
CN113950066A (zh) | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 | |
CN112882815A (zh) | 基于深度强化学习的多用户边缘计算优化调度方法 | |
CN113543156A (zh) | 基于多智能体深度强化学习的工业无线网络资源分配方法 | |
CN110955463A (zh) | 支持边缘计算的物联网多用户计算卸载方法 | |
CN113568727A (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN114285853A (zh) | 设备密集型工业物联网中基于端边云协同的任务卸载方法 | |
CN113760511B (zh) | 一种基于深度确定性策略的车辆边缘计算任务卸载方法 | |
Ren et al. | DDPG based computation offloading and resource allocation for MEC systems with energy harvesting | |
CN116366576A (zh) | 算力网络资源调度方法、装置、设备及介质 | |
CN113518112B (zh) | 基于多智能体强化学习的无线充电设备协作任务卸载策略 | |
CN114116061B (zh) | 一种移动边缘计算环境下的工作流任务卸载方法及系统 | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN114828095A (zh) | 一种基于任务卸载的高效数据感知分层联邦学习方法 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |