CN113518112A

CN113518112A - 基于多智能体强化学习的无线充电设备协作任务卸载策略

Info

Publication number: CN113518112A
Application number: CN202110499650.5A
Authority: CN
Inventors: 黄彬彬; 吴昆澄; 殷昱煜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-10-19
Anticipated expiration: 2041-05-08
Also published as: CN113518112B

Abstract

本发明公开了一种基于多智能体强化学习的无线充电设备协作任务卸载策略，使用Q‑Learning算法以及神经网络来学习多个移动设备如何在有限的计算资源和电量资源环境下进行协作任务卸载。本发明首次将多用户协作任务卸载建模为部分可观测马尔可夫决策过程（POMDP）的问题表述，视每个智能体为相互独立的学习者，提出了一种在无线充电D2D网络环境下基于多智能体深度确定性策略梯度（MADDPG）的协作任务执行方案（CACTE），其目标是使多个移动设备彼此有效地协作，从而执行更多任务，获得更高的长期回报。并且，将本发明提出的策略与其他策略在不同实验参数下进行对比，证明了本发明所提出策略的有效性。

Description

基于多智能体强化学习的无线充电设备协作任务卸载策略

技术领域

本发明涉及移动边缘计算领域，尤其涉及一种基于多智能体强化学习的无线充电设备协作任务卸载策略。

背景技术

D2D通信网络中，资源不足移动设备上的计算任务可以被卸载到资源充足移动设备上协作执行，从而实现资源的充分利用。现有工作主要关注电池供电的D2D网络中，计算资源有限的移动设备之间如何进行任务的协作卸载，但是忽略了移动设备电量是有限的，从而导致移动设备电量耗尽时，其上正在执行的任务会被中断，这严重影响了移动应用的服务质量。为此，引入无线充电技术为移动设备持续供电，使得任务执行不被中断，从而大大提高移动应用的服务质量。尽管无线充电带来了上述优点，但是如何在无线充电D2D(EH-D2D)网络中实现多用户协作任务卸载策略仍然是一个值得关注的问题。

发明内容

为了解决上述问题，本发明提供了一种基于多智能体强化学习的无线充电设备协作任务卸载策略。

本发明具体采用的技术方案如下：

S1.建立系统模型：

EH-D2D网络由一个无线充电桩和n个移动设备MD＝{MD₁,...,ND_i,...,MD_n}组成。每个移动设备MD_i可以用多元组

来表示，其中

和

分别表示低性能CPU和高性能CPU内核的数量；

和

分别表示低性能CPU和高性能CPU的最大计算能力。

分别表示移动设备MD_i的执行功率，发送功率和接收功率；

表示移动设备MD_i的电池容量。n个移动设备均可以通过无线充电站充电，即构成本发明中的无线充电设备。

每个移动设备MD_i会产生相互独立的任务，每个任务可以用一个二元组t＝(W,D)表示，其中W(GHz·s)表示任务工作负载，D表示单位工作负载的数据量(以MB为单位)。每个移动设备MD_i包含一个等待执行队列Q_i，该队列主要用于存储从其他移动设备卸载而来的任务以及由移动设备MD_i自身产生并留在本地执行的任务。

在EH-D2D网络中，本发明采用离散时间模型，将一个时间段逻辑上划分为若干等长的时间片。每个时间片的长度为T_slot＝1s。本发明用

来表示时间片索引的集合。在每个时间片τ中，无线充电站可以给每个移动设备充电。当移动设备的可用电量不足以执行其上到达的任务时，可以将部分或全部任务卸载到其他移动设备上协作执行。在每个时间片τ的开始，每个移动设备根据自身可用电量和任务负载情况做出协作决策，该决策包括卸载给每个移动设备的任务数、留在本地执行的任务数和最多能够接收的任务数。

S2.建立任务排队模型：

假设n个移动设备上任务的到达过程服从参数为λ＝(λ₁,...,λ_i,...,λ_n)的泊松分布。在每个时间片τ的开始，计算任务A(τ)＝(a₁(τ),...,a_i(τ),...,a_n(τ))到达n个移动设备。令μ_ij(τ)表示在时间片τ从移动设备MD_i卸载到移动设备MD_j的任务数；η_ij(τ)表示在时间片τ移动设备MD_i可以从移动设备MD_j接收的最大任务数。因此，执行队列Q_i的状态演化可以根据公式(1)计算。

Q_i(τ+1)＝max[Q_i(τ)+a_i(τ)W-b_i(τ)W-∑_i≠jμ_ij(τ)W,0]+∑_j≠iμ_ji(τ)W (1)

μ_ji(τ)≤η_ij(τ) (2)

∑_j∈nμ_ij(τ)＝a_i(τ) (3)

∑_j∈nμ_ij(τ)≤a_i(τ) (4)

∑_j≠i,j∈nμ_ij(τ)+b_i(τ)≤Q_i(τ)+a_i(τ) (5)

其中b_i(τ)表示MD_i在时间片τ中执行的任务数，μ_ji(τ)表示在时间片τ中从MD_j卸载到MD_i上的任务数目。公式(2)表示在时间片τ中MD_j卸载给MD_i的任务数不能超过MD_i可以从MD_j上接收的最大任务数。公式(3)表示在时间片τ中MD_i上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和。公式(4)表示在时间片τ中MD_i卸载到其他移动设备的任务总数∑_j≠i,j∈nμ_ij(τ)小于等于其上到达的任务数a_i(τ)。公式(5)表示在时间片τ中MD_i卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Q_i中的任务数与其上到达任务数之和。

S3.建立电量模型：

在时间片τ中，移动设备MD_i的充电电量可以表示为

其中μ∈[0,1]表示无线充电系数；P表示无线充电站的发射功率；h_i(τ)表示在时间片τ中无线充电站与移动设备MD_i之间的信道增益。在每个时间片τ的开始，MD_i的可用电量可以用

来表示，其演化方式可以根据公式(6)计算：

其中

和

分别表示在时间片τ中MD_i执行任务，传输任务和接收任务所消耗的电池电量。公式(7)表示在时间片τ中，MD_i接收任务，执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量。公式(8)表示在时间片τ中，MD_i当前的可用电量与充电电量之和不能超过MD_i的电池容量。

S4.建立网络模型：

在EH-D2D网络中，由于设备的移动性，无线信道的传输速率会动态变化。令

和

分别表示在时间片τ中MD_i与MD_j之间的上行传输速率和下行传输速率，可以通过公式(10)和(11)计算：

其中，

和

分别是MD_i上行链路和下行链路的信道带宽；

表示MD_i的传输功率；σ²是高斯噪声功率；

和

分别表示移动设备MD_i到MD_j之间的上行信道增益和下行信道增益。由于MD_i与MD_j之间上下行的通信距离相同，所以通道增益

和

可以通过

计算，其中α是路径损耗参数；θ是路径损耗指数；d₀为参照距离；d_ij是MD_i与MD_j之间的距离。

S5.多智能体强化学习的协作任务卸载策略：需要定义协作问题的状态空间和动作空间，并设计协作任务卸载问题的奖励函数。最后将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述。具体包含以下子步骤：

S51.定义状态空间：

每个移动设备MD_i被看作一个智能体。在时间片τ的开始，每个智能体当前的状态O_i(τ)可以被观测，并将其用公式(12)表示。

其中Q_i(τ)表示在时间片τ中MD_i执行队列中剩余任务的数量，G_i(τ)＝[G_i1(τ),...,G_i(i-1)(τ),G_i(i+1)(τ),...,G_in(τ)]表示在时间片τ中MD_i与除了它本身之外的其他移动设备之间的信道增益；

表示在时间片τ中MD_i的可用电量；

表示在时间片τ中MD_i的充电电量；a_i(τ)表示在时间片τ中到达MD_i的任务数。

S52.定义动作空间：

每个智能体根据它当前的状态O_i(τ)选择一个动作A_i(τ)。动作A_i(τ)是由本地执行任务数，卸载任务数和最大接收任务数组成，并将其用公式(13)表示。

A_i(τ)＝[b_i(τ),μ_i(τ),η_i(τ)] (13)

μ_i(τ)＝[μ_i1(τ),...,μ_i(i-1)(τ),μ_i(i+1)(τ),...,μ_in(τ)] (14)

η_i(τ)＝[η_i1(τ),...,η_i(i-1)(τ),η_i(i+1)(τ),...,η_in(τ)] (15)

其中b_i(τ)表示在时间片τ中MD_i上执行的任务数，μ_i(τ)表示从MD_i卸载到其他(n-1)个移动设备的任务数向量，η_i(τ)表示MD_i从其他(n-1)个移动设备上可以接收的最大任务数向量。在时间片τ中移动设备MD_i执行任务，卸载任务和接收任务所消耗的总电量不能超过MD_i的可用电量。

(1)执行任务所消耗的电量：移动设备采用动态调频(DVFS)技术来动态调节CPU频率。在时间片τ中MD_i的计算能力

和计算功率

分别根据公式(16)和公式(17)计算：

其中a_i是与芯片架构有关的常数；

和

分别表示低性能CPU和高性能CPU内核的实际计算频率。当移动设备MD_i决定在时间片τ中本地执行b_i(τ)任务时，本发明使用公式(22)计算本地执行任务需要消耗的电量

(2)卸载任务所消耗的电量：在时间片τ中，移动设备MD_i实际卸载到移动设备MD_j的任务数μ′_ij可以用公式(19)表示。实际卸载任务所消耗的电量

可以用公式(20)来计算：

执行任务，卸载任务和接收任务所消耗的电量之和不能超过移动设备的可用电量

该约束条件可以用公式(21)表示。必须满足以下约束：

S53.定义奖励函数：

在多智能体协作任务卸载中，每个智能体根据其当前的状态值O_i(τ)和选择的动作A_i(τ)计算奖励R_i。奖励函数R_i是任务的平均处理时间Q_i(τ)，任务丢弃D_i(τ)以及电量惩罚P_i(τ)的加权和，可以用公式(22)表示：

其中ω₁，ω₂和ω₃分别是Q_i(τ)，D_i(τ)和P_i(τ)的加权系数。任务丢弃D_i(τ)可以根据公式(23)计算。

其中|Q_i|表示执行队列Q_i的长度。公式(|Q_i|+b_i(τ)-Q_i(τ))表示执行队列Q_i的可用空间。为了避免由于移动设备的电量耗尽而导致移动应用程序中断，本发明将电量损失阈值设置为h_i。当移动设备的可用电量

与最大电池容量

的比率小于h_i时，电量惩罚P_i(τ)可以用公式(24)计算：

S54.问题形式化：

多用户协作任务卸载问题可以建模为POMDP。它的主要目标是最大化整个系统的奖励。

Maximize:-R (25)

S6.策略实现：

本发明设计了一种基于多智能体深度确定性策略梯度(MADDPG)算法来求解多用户协作任务卸载问题。MADDPG算法的详细求解过程为：

(1)在学习阶段，首先初始化每个智能体的环境参数和网络参数。环境参数主要包括执行队列长度，移动设备之间的信道增益，可用电量以及无线充电站和移动设备之间的信道增益。网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量。然后，观测每个智能体的当前状态O_i(τ)，并根据当前状态选择每个智能体的动作A_i(τ)。其次，根据每个智能体当前的状态O_i(τ)和采取的动作A_i(τ)，计算出即时奖励R_i(τ)和下一个时间片(τ+1)时的状态O_-i(τ+1)。最后，每个智能体将其状态转移四元组(O_i(τ),A_i(τ),R_i(τ),O_-i(τ+1))存储到其中继缓存Ω_i中。

(2)在训练阶段，每个智能体i首先会从其中继缓存Ω_i中随机抽取mini_batch个状态转移四元组。然后，每个智能体i分别根据目标动作网络和目标评价网络计算状态O_-i(τ+1)的目标动作值和目标Q值。在目标评价网络中更新状态O_i(τ)的目标Q值，并根据该值更新估计Q网络。

作为优选，S1中所述的移动设备个数为4，这四个移动设备具有不同的类型。将移动设备MD₁，MD₂，MD₃和MD₄的类型分别设置为Type₁，Type₂，Type₃和Type₄。设备MD₁，MD₂，MD₃和MD₄的低性能CPU内核数分别为

以及

最大CPU周期频率分别为

和

设备MD₁，MD₂，MD₃和MD₄的高性能CPU内核数分别为

以及

最大CPU周期频率分别为

和

通过DVFS技术动态调整每个移动设备的CPU频率级别。设置每个移动设备的常量值a_i为a_i＝0.1125W/(GHz)³。每个任务的工作负载W在[0.6,1.4]Gycles范围内变化，初始值设置为W＝1GHz·s，单位工作负载的数据量设置为D＝1MB

作为优选，S2中所述的泊松分布参数，即任务到达率λ_i设置为[0,12]范围内变化。四个移动设备的任务到达率分别设置为λ₁＝3，λ₂＝1，λ₃＝7和λ₄＝10。

作为优选，S4中所述通信距离设置为200m以内。每个移动设备上行链路和下行链路的信道带宽分别设置为

和

高斯白噪声功率σ²设置为-174dbm/Hz。此外，本发明设置路径损耗常数k为0.01，路径损耗指数θ为4，参考距离d₀为1m。每个移动设备的发射功率和接收功率分别设置为

与

作为优选，S53中所述Q_i(τ)，D_i(τ)和P_i(τ)的加权系数分别设置为ω₁＝1，ω₂＝15以及ω₃＝90。

作为优选，S6中所述测评动作网络由两个隐藏层组成，每个隐藏层中有30个神经元。测评评价网络由三个隐藏层组成。每个隐藏层中也有30个神经元，目标网络设置与测评网络设置相同。本发明采用Adam优化器来更新目标网络，其中动作网络的学习率为0.0001，评价网络的学习率为0.003。奖励的权重γ设置为0.9，中继缓存的容量设置为10000，最小批样本数量设置为16。

本发明的有益效果：本发明使用Q-Learning算法以及神经网络来学习多个移动设备如何在有限的计算资源和电量资源环境下进行协作任务卸载。本发明将多用户协作任务卸载建模为部分可观测马尔可夫决策过程(POMDP)的问题表述，视每个智能体为相互独立的学习者，提出了一种在无线充电D2D网络环境下基于多智能体深度确定性策略梯度(MADDPG)的协作任务卸载方案(CACTE)，其目标是使多个移动设备彼此有效地协作，从而执行更多任务，获得更高的长期回报。

附图说明

图1为本发明无线充电D2D网络中多智能体强化学习协作任务卸载策略的流程图；

图2为在任务到达率λ影响下，本发明与Local算法，Random算法，ECLB算法以及CCLB算法的对比图；

图3为在移动设备电池电量

影响下，本发明与Local算法，Random算法，ECLB算法以及CCLB算法的对比图；

图4为在工作负载W影响下，本发明与Local算法，Random算法，ECLB算法以及CCLB算法的对比图；

图5为在任务数据大小D影响下，本发明与Local算法，Random算法，ECLB算法以及CCLB算法的对比图；

图6为在带宽BW^UL(τ)影响下，本发明与Local算法，Random算法，ECLB算法以及CCLB算法的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明进行进一步详细说明。

如图1所示，本发明包括以下步骤：

S1.建立系统模型：EH-D2D网络由一个无线充电桩和n个移动设备MD＝{MD₁,...,MD_i,...,MD_n}组成。每个移动设备MD_i可以用多元组

来表示，其中

和

分别表示低性能CPU和高性能CPU内核的数量；

和

分别表示低性能CPU和高性能CPU的最大计算能力。

分别表示移动设备MD_i的执行功率，发送功率和接收功率；

表示移动设备MD_i的电池容量。n个移动设备均可以通过无线充电站充电。

S2.建立任务排队模型：假设n个移动设备上任务的到达过程服从参数为λ＝(λ₁,...,λ_i,...,λ_n)的泊松分布。在每个时间片τ的开始，计算任务A(τ)＝(a₁(τ),...,a_i(τ),...,a_n(τ))到达n个移动设备。令μ_ij(τ)表示在时间片τ从移动设备MD_i卸载到移动设备MD_j的任务数；η_ij(τ)表示在时间片τ移动设备MD_i可以从移动设备MD_j接收的最大任务数。因此，执行队列Q_i的状态演化可以根据公式(1)计算。

μ_ji(τ)≤η_ij(τ) (2)

∑_j∈nμ_ij(τ)＝a_i(τ) (3)

∑_j∈nμ_ij(τ)≤a_i(τ) (4)

∑_j≠i,j∈nμ_ij(τ)+b_i(τ)≤Q_i(τ)+a_i(τ) (5)

S3.建立电量模型：在时间片τ中，移动设备MD_i的充电电量可以表示为

来表示，其演化方式可以根据公式(6)计算：

其中

和

S4.建立网络模型：在EH-D2D网络中，由于设备的移动性，无线信道的传输速率会动态变化。令

和

其中，

和

分别是MD_i上行链路和下行链路的信道带宽；

表示MD_i的传输功率；σ²是高斯噪声功率；

和

和

可以通过

S51.定义状态空间：每个移动设备MD_i被看作一个智能体。在时间片τ的开始，每个智能体当前的状态O_i(τ)可以被观测，并将其用公式(12)表示。

表示在时间片τ中MD_i的可用电量；

S52.定义动作空间：每个智能体根据它当前的状态O_i(τ)选择一个动作A_i(τ)。动作A_i(τ)是由本地执行任务数，卸载任务数和最大接收任务数组成，并将其用公式(13)表示：

A_i(τ)＝[b_i(τ),μ_i(τ),η_i(τ)] (13)

μ_i(τ)＝[μ_i1(τ),...,μ_i(i-1)(τ),μ_i(i+1)(τ),...,μ_in(τ)] (14)

η_i(τ)＝[η_i1(τ),...,η_i(i-1)(τ),η_i(i+1)(τ),...,η_in(τ)] (15)

和计算功率

分别根据公式(16)和公式(17)计算：

其中a_i是与芯片架构有关的常数；

和

可以用公式(20)来计算：

该约束条件可以用公式(21)表示。必须满足以下约束：

S53.定义奖励函数：在多智能体协作任务卸载中，每个智能体根据其当前的状态值O_i(τ)和选择的动作A_i(τ)计算奖励R_i。奖励函数R_i是任务的平均处理时间Q_i(τ)，任务丢弃D_i(τ)以及电量惩罚P_i(τ)的加权和，可以用公式(22)表示：

与最大电池容量

的比率小于h_i时，电量惩罚P_i(τ)可以用公式(24)计算：

S54.问题形式化：多用户协作任务卸载问题可以建模为POMDP。它的主要目标是最大化整个系统的奖励。

Maximize:-R (25)

S6.策略实现：本发明设计了一种基于多智能体深度确定性策略梯度(MADDPG)算法来求解多用户协作任务卸载问题。MADDPG算法的详细求解过程为：

(2)在训练阶段，每个智能体i首先会从其中继缓存Ω_i中随机抽取mini_batch个状态转移四元组。然后，每个智能体i分别根据目标动作网络和目标评价网络计算状态O_-i(τ+1)的目标动作值和目标

值。在目标评价网络中更新状态O_i(τ)的目标

值，并根据该值更新估计

网络。

实施例

本实施例步骤与具体实施方式相同，在此不再进行赘述。下面就对比方法的实施和实施结果进行展示：

本发明实现了基于梯度策略进行强化学习协作任务卸载策略的CACTE算法，将该算法与Local算法，Random算法，ECLB算法以及CCLB算法进行对比，并且分别就任务到达率λ，移动设备电池电量

工作负载W，任务数据大小D，带宽BW^UL(τ)，移动设备数量n对总奖励的影响进行评估。

为了研究任务到达率λ对总奖励的影响，以[1,1,1,1]为增量，分别将λ设置为[1,0,5,8]，[2,0,6,9]，[3,1,7,10]，[4,2,8,11]和[5,3,9,12]。图2显示了CACTE方案获得的总奖励优于Local算法，Random算法，ECLB算法和CCLB算法获得的总奖励。当任务到达率增加时，CACTE方案和四钟算法的总奖励都将逐渐降低。

为了研究移动设备电池电量

对总奖励的影响，设置移动设备的电池电量

以5为增量从40电量单位增加至60电量单位。图3显示了当电池电量小于55时，随着电池电量的增加，CACTE方案和四种算法的总回报都将增加。但是，当移动设备的电池电量等于或大于55时，所有算法的曲线都是平坦的。

为了研究工作负载W对总奖励的影响，设置W在0.6到1.4的范围内变化，图4显示了CACTE方案比其他四种算法获得了更高的总奖励。并且当任务工作量W增加时，CACTE方案获得的总奖励在逐渐减少。

为了研究任务数据大小D对总奖励的影响，设置D在0.6到1.4的范围内变化，图5显示了CACTE方案的总奖励高于四种算法的总奖励，并且CACTE计划获得的总奖励随着任务数据大小的增加而逐渐减少。

为了研究带宽BW^UL(τ)对总奖励的影响，将移动设备上行链路的带宽设置为与其下行链路相等的值。设置带宽BW^UL(τ)从5MHz增加至15MHz，增量为0.25。图6显示了CACTE方案的总奖励高于四种算法的总奖励，并且当带宽增加时，CACTE计划的总奖励会增加并稳定。

为了研究移动设备数量n对总奖励的影响，将n的值分别设置为3，4，5，6。表1显示了CACTE方案相较于其他四种算法可获得更高的总奖励。

表1

并且，在由任务配置为Type₁,Type₂,Type₃,Type₄的四个移动设备组成的协作任务卸载场景中，CACYE方案也胜过其他四种算法。

Claims

1.基于多智能体强化学习的无线充电设备协作任务卸载策略，其特征在于该方法包括以下步骤：

S1.建立系统模型：

设EH-D2D网络由一个无线充电桩和n个移动设备MD＝{MD₁，...，MD_i，...，MD_n}组成；每个移动设备MD_i用多元组

来表示，其中

和

分别表示低性能CPU和高性能CPU内核的数量；

和

分别表示低性能CPU和高性能CPU的最大计算能力；

分别表示移动设备MD_i的执行功率，发送功率和接收功率；

表示移动设备MD_i的电池容量；n个移动设备均通过无线充电站充电；

每个移动设备MD_i会产生相互独立的任务，每个任务用一个二元组t＝(W，D)表示，其中W表示任务工作负载，D表示单位工作负载的数据量；每个移动设备MD_i包含一个等待执行队列Q_i，该队列主要用于存储从其它移动设备卸载而来的任务以及由移动设备MD_i自身产生并留在本地执行的任务；

在EH-D2D网络中，采用离散时间模型，将一个时间段逻辑上划分为若干等长的时间片；每个时间片的长度为T_slot＝1s；，用

来表示时间片索引的集合；

S2.建立任务排队模型：

设n个移动设备上任务的到达过程服从参数为λ＝(λ₁，...，λ_i，...，λ_n)的泊松分布；在每个时间片τ的开始，计算任务A(τ)＝(a₁(τ)，...，a_i(τ)，...，a_n(τ))到达n个移动设备；令μ_ij(τ)表示在时间片τ从移动设备MD_i卸载到移动设备MD_j的任务数；η_ij(τ)表示在时间片τ移动设备MD_i从移动设备MD_j接收的最大任务数；因此，执行队列Q_i的状态演化可根据公式(1)计算；

Q_i(τ+1)＝max[Q_i(τ)+a_i(τ)W-b_i(τ)W-∑_i≠jμ_ij(τ)W，0]+∑_j≠iμ_ji(τ)W (1)

μ_ji(τ)≤η_ij(τ) (2)

∑_j∈nμ_ij(τ)＝a_i(τ) (3)

∑_j∈nμ_ij(τ)≤a_i(τ) (4)

∑_{j≠i，j∈n}μ_ij(τ)+b_i(τ)≤Q_i(τ)+a_i(τ) (5)

其中b_i(τ)表示MD_i在时间片τ中执行的任务数，μ_ji(τ)表示在时间片τ中从MD_j卸载到MD_i上的任务数目；公式(2)表示在时间片τ中MD_j卸载给MD_i的任务数不能超过MD_i从MD_j上接收的最大任务数；公式(3)表示在时间片τ中MD_i上到达任务数是卸载到其他移动设备任务数与留在本地执行任务数之和；公式(4)表示在时间片τ中MD_i卸载到其他移动设备的任务总数∑_{j≠i，j∈n}μ_ij(τ)小于等于其上到达的任务数a_i(τ)；公式(5)表示在时间片τ中MD_i卸载到其他移动设备上的任务总数与本地执行的任务数之和小于等于Q_i中的任务数与其上到达任务数之和；

S3.建立电量模型：

在时间片τ中，移动设备MD_i的充电电量表示为

其中μ∈[0，1]表示无线充电系数；P表示无线充电站的发射功率；h_i(τ)表示在时间片τ中无线充电站与移动设备MD_i之间的信道增益；在每个时间片τ的开始，移动设备MD_i的可用电量用

来表示，其演化方式根据公式(6)计算：

其中

和

分别表示在时间片τ中MD_i执行任务，传输任务和接收任务所消耗的电池电量；公式(7)表示在时间片τ中，MD_i接收任务，执行任务和卸载任务所消耗的电池电量总和不能超过移动设备当前的可用电量；公式(8)表示在时间片τ中，MD_i当前的可用电量与充电电量之和不能超过MD_i的电池容量；

S4.建立网络模型：

令

和

分别表示在时间片τ中MD_i与MD_j之间的上行传输速率和下行传输速率，通过公式(10)和(11)计算：

其中，

和

分别是MD_i上行链路和下行链路的信道带宽；

表示MD_i的传输功率；σ²是高斯噪声功率；

和

分别表示移动设备MD_i到MD_j之间的上行信道增益和下行信道增益；由于MD_i与MD_j之间上下行的通信距离相同，所以通道增益

和

可通过

计算，其中α是路径损耗参数；θ是路径损耗指数；d₀为参照距离；d_ij是MD_i与MD_j之间的距离；

S5.多智能体强化学习的协作任务卸载策略：

S51.定义状态空间：每个移动设备MD_i被看作一个智能体；在时间片τ的开始，每个智能体当前的状态O_i(τ)可被观测，并将其用公式(12)表示；

其中Q_i(τ)表示在时间片τ中MD_i执行队列中剩余任务的数量，G_i(τ)＝[G_i1(τ)，...，G_i(i-1)(τ)，G_i(i+1)(τ)，...，G_in(τ)]表示在时间片τ中MD_i与除了它本身之外的其他移动设备之间的信道增益；

表示在时间片τ中MD_i的可用电量；

表示在时间片τ中MD_i的充电电量；a_i(τ)表示在时间片τ中到达MD_i的任务数；

S52.定义动作空间：每个智能体根据它当前的状态O_i(τ)选择一个动作A_i(τ)；动作A_i(τ)是由本地执行任务数，卸载任务数和最大接收任务数组成，并将其用公式(13)表示；

A_i(τ)＝[b_i(τ)，μ_i(τ)，η_i(τ)] (13)

μ_i(τ)＝[μ_i1(τ)，...，μ_i(i-1)(τ)，μ_i(i+1)(τ)，...，μ_in(τ)] (14)

η_i(τ)＝[η_i1(τ)，...，η_i(i-1)(τ)，η_i(i+1)(τ)，...，η_in(τ)] (15)

其中b_i(τ)表示在时间片τ中MD_i上执行的任务数，μ_i(τ)表示从MD_i卸载到其它(n-1)个移动设备的任务数向量，η_i(τ)表示MD_i从其他(n-1)个移动设备上可接收的最大任务数向量；在时间片τ中移动设备MD_i执行任务，卸载任务和接收任务所消耗的总电量不能超过MD_i的可用电量；

(1)执行任务所消耗的电量：移动设备采用动态调频技术来动态调节CPU频率；在时间片τ中MD_i的计算能力

和计算功率

分别根据公式(16)和公式(17)计算：

其中a_i是与芯片架构有关的常数；

和

分别表示低性能CPU和高性能CPU内核的实际计算频率；当移动设备MD_i决定在时间片t中本地执行b_i(τ)任务时，使用公式(22)计算本地执行任务需要消耗的电量

(2)卸载任务所消耗的电量：在时间片τ中，移动设备MD_i实际卸载到移动设备MD_j的任务数μ′_ij可以用公式(19)表示；实际卸载任务所消耗的电量

可以用公式(20)来计算：

该约束条件用公式(21)表示：

S53.定义奖励函数：在多智能体协作任务卸载中，每个智能体根据其当前的状态值O_i(τ)和选择的动作A_i(τ)计算奖励R_i；奖励函数R_i是任务的平均处理时间Q_i(τ)，任务丢弃D_i(τ)以及电量惩罚P_i(τ)的加权和，用公式(22)表示：

其中ω₁，ω₂和ω₃分别是Q_i(τ)，D_i(τ)和P_i(τ)的加权系数；任务丢弃D_i(τ)可以根据公式(23)计算；

其中|Q_i|表示执行队列Q_i的长度；公式(|Q_i|+b_i(τ)-Q_i(τ))表示执行队列Q_i的可用空间；为了避免由于移动设备的电量耗尽而导致移动应用程序中断，将电量损失阈值设置为h_i；当移动设备的可用电量

与最大电池容量

的比率小于h_i时，电量惩罚P_i(τ)可以用公式(24)计算：

S54.问题形式化：多用户协作任务卸载问题建模为部分可观测马尔可夫决策过程；它的主要目标是最大化整个系统的奖励；

Maximize：-R (25)

S6.策略实现：

设计了一种基于多智能体深度确定性策略梯度算法来求解多用户协作任务卸载问题，求解过程为：

(1)在学习阶段，首先初始化每个智能体的环境参数和网络参数；环境参数主要包括执行队列长度，移动设备之间的信道增益，可用电量以及无线充电站和移动设备之间的信道增益；网络参数主要包括学习动作网络、学习评价网络、目标动作网络、目标评价网络和中继缓存容量；然后，观测每个智能体的当前状态O_i(τ)，并根据当前状态选择每个智能体的动作A_i(τ)；其次，根据每个智能体当前的状态O_i(τ)和采取的动作A_i(τ)，计算出即时奖励R_i(τ)和下一个时间片(τ+1)时的状态O_-i(τ+1)；最后，每个智能体将其状态转移四元组(O_i(τ)，A_i(τ)，R_i(τ)，O_-i(τ+1))存储到其中继缓存Ω_i中；

(2)在训练阶段，每个智能体i首先会从其中继缓存Ω_i中随机抽取mini_batch个状态转移四元组；然后，每个智能体i分别根据目标动作网络和目标评价网络计算状态O_-i(τ+1)的目标动作值和目标Q值；在目标评价网络中更新状态O_i(τ)的目标Q值，并根据该值更新估计Q网络。

2.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略，其特征在于：S1中所述移动设备的个数为4，这四个移动设备具有不同的类型；将移动设备MD₁，MD₂，MD₃和MD₄的类型分别设置为Type₁，Type₂，Type₃和Type₄；设备MD₁，MD₂，MD₃和MD₄的低性能内核数分别为

以及

最大CPU周期频率分别为

和

设备MD₁，MD₂，MD₃和MD₄的高性能内核数分别为

以及

最大CPU周期频率分别为

和

通过动态调频技术动态调整每个移动设备的CPU频率级别；设置每个移动设备的常量值a_i为a_i＝0.1125W/(GHz)³；每个任务的工作负载W在[0.6，1.4]Gycles范围内变化，初始值设置为W＝1GHz·s，单位工作负载的数据量设置为D＝1MB。

3.根据权利要求2所述的基于多智能体强化学习的无线充电设备协作任务卸载策略，其特征在于：S2中所述泊松分布参数，即任务到达率λ_i设置为[0，12]范围内变化；四个移动设备的任务到达率分别设置为λ₁＝3，λ₂＝1，λ₃＝7和λ₄＝10。

4.根据权利要求3所述的基于多智能体强化学习的无线充电设备协作任务卸载策略，其特征在于：S4中所述通信距离设置为200m以内；每个移动设备上行链路和下行链路的信道带宽分别设置为BW_i ^UL＝10MHz和BW_i ^DL＝10MHz；高斯白噪声功率σ²设置为-174dbm/Hz；此外，设置路径损耗常数k为0.01，路径损耗指数θ为4，参考距离d₀为1m：每个移动设备的发射功率和接收功率分别设置为

与

5.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略，其特征在于：S53中所述Q_i(τ)，D_i(τ)和P_i(τ)的加权系数分别设置为ω₁＝1，ω₂＝15以及ω₃＝90。

6.根据权利要求1所述的基于多智能体强化学习的无线充电设备协作任务卸载策略，其特征在于：S6中所述测评动作网络由两个隐藏层组成，每个隐藏层中有30个神经元；测评评价网络由三个隐藏层组成；每个隐藏层中也有30个神经元，目标网络设置与测评网络设置相同；采用Adam优化器来更新目标网络，其中动作网络的学习率为0.0001，评价网络的学习率为0.003；奖励的权重γ设置为0.9，中继缓存的容量设置为10000，最小批样本数量设置为16。