CN114285853A

CN114285853A - 设备密集型工业物联网中基于端边云协同的任务卸载方法

Info

Publication number: CN114285853A
Application number: CN202210041391.6A
Authority: CN
Inventors: 韩光洁; 张帆
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-05
Anticipated expiration: 2042-01-14
Also published as: CN114285853B

Abstract

本本发明公开了设备密集型工业物联网中基于端边云协同的任务卸载方法，具体步骤如下：步骤1：设置系统模型的各参数；步骤2：采用ISAC‑DMDRL算法来为每个IIoT设备做出最优决策。该算法首先将分布式RL和SAC算法相结合，解决了传统SAC算法对Q值的过估计或低估计问题；然后，采用CTDE框架将改进后的SAC算法扩展到多智能体场景中，解决了多智能体DRL中存在的非平稳性和可扩展性问题；此外，采用了一种值函数分解思想，解决了传统CTDE架构中的集中式‑分布式不匹配问题和多智能体信用分配问题。本发明可有效减少工业物联网中所有设备的任务执行延迟和能耗，平衡边缘服务器的工作负载，提高资源利用率，适用于大规模设备密集型工业物联网场景。

Description

设备密集型工业物联网中基于端边云协同的任务卸载方法

技术领域

本发明涉及设备密集型工业物联网中的协同任务卸载方法，属于工业物联网的边缘计算领域。

背景技术

作为物联网(Internet of Things，IoT)的重要组成部分，工业物联网(Industrial IoT，IIoT)将具有感知、通信和处理能力的大量异构IIoT设备(例如，智能传感器、机器、仪器仪表、机器人和车辆)、以及人工智能和大数据技术等融入到工业生产过程中，以提高制造效率和降低生产成本。因此，IIoT已经成为一种支持工业4.0的有前景范式。然而，由于IIoT设备的计算能力和电池容量有限，难以执行计算密集型和延迟敏感型IIoT应用。在传统的云计算的方案中，IIoT设备需要将其任务卸载到远程云计算服务器(CloudComputing Servers，CCS)，因此，随着IIoT设备和任务的数量的增加，数据流量急剧增加，造成了网络拥塞，导致了更高的任务执行延迟和更低的服务质量(Quality of Service，QoS)。

针对以上问题，边缘计算技术已经成为一种有效的解决方案，该技术将边缘计算服务器(Edge Computing Servers，ECS)部署到IIoT设备附近，使得用户可以直接将任务卸载到ECSs上，以满足IIoT应用对实时性、安全性和可靠性的要求，同时缓解了网络拥塞，降低任务执行延迟，提升QoS。然而，单个ECS的计算能力通常有限，并且由于IIoT网络的异构特性，ECSs的工作负载各不相同。因此，可以利用多个ECSs之间的协作来平衡ECS的工作负载，避免计算资源的浪费。此外，考虑到CCSs的丰富计算资源，ECSs和CCSs之间的协作可以进一步提高资源利用率，降低任务执行延迟，特别是当所有ECSs的计算资源均不足时。因此，需要联合考虑端-边、边-边、边-云之间的协同任务卸载。

真实的IIoT环境通常是动态和不可预测的(如时变的任务参数、IIoT设备状态和信道增益)，针对这一特性，强化学习(Reinforcement Learning，RL)已经成为一种有前景的解决方案。RL通过与动态环境进行交互来学习最佳策略，而无需关于环境动态的先验知识。然而，传统的RL算法仅适用于具有完全可观察、低维状态空间的环境，而真实的IIoT环境通常具有高维、连续状态空间，并且难以从IIoT环境中提取所有的有用特征。幸运的是，深度强化学习(Deep Reinforcement Learning，DRL)集成了深度神经网络(Deep NeuralNetwork，DNN)强大的特征提取能力以及RL强大的决策能力，具体来说，DRL利用DNN模型来逼近RL中的策略函数和值函数，能够从大型高维、连续状态空间中学习到最佳策略，因此，DRL适用于真实的IIoT环境。

然而，传统的单智能体DRL方法通常需要一个集中式控制器来为所有IIoT设备做出任务卸载决策，随着IIoT设备和ECS数量的增加，该方法的计算复杂度急剧增加，因此不适用于设备密集型IIoT环境。为了解决上述问题，可以采用多智能体DRL方法，其中，每个IIoT设备都是一个智能体，能独立做出任务卸载决策。多智能体DRL主要面临两个重要挑战：(1)非平稳性：在训练过程中，智能体之间会相互影响，每个智能体的奖励和状态转移不仅依赖于自身的当前状态和动作，还依赖于其他智能体的动作，这打破了单智能体DRL所遵循的马尔科夫性质，导致每个智能体所面对的环境变得非平稳；(2)可扩展性：为了解决非平稳性问题，每个智能体需要考虑联合动作空间，其维度随着智能体数量的增加而急剧增加，导致了算法的可扩展性问题。为了应对上述的两种挑战，采用一种集中式训练-分布式执行(Centralized Training Decentralized Execution，CTDE)架构，其中，在训练阶段，采用一个集中式控制器来收集所有智能体的全局信息(即联合观察、联合动作和联合奖励)，以学习每个智能体的策略函数。训练结束后，在执行阶段，每个智能体仅根据自身的局部观察和策略函数来做出决策。

此外，传统的CTDE架构主要面临两个重要问题：(1)集中式-分布式不匹配问题：某个智能体u的策略梯度更新依赖于集中式critic网络，一方面，其他智能体的次优策略会对智能体u的策略学习产生负面影响，另一方面，智能体u的次优策略可以通过集中式critic网络进行传播，并对其他智能体的策略学习产生负面影响；(2)多智能体信用分配问题：由联合动作所产生的联合奖励，使得每个智能体很难推断自己对联合奖励的贡献，无法鼓励某些智能体为了更大的联合奖励而牺牲自己。

发明内容

针对现有技术的不足，本发明提供了设备密集型工业物联网中基于端边云协同的任务卸载方法，是一种分布式方法。该方法首先将分布式RL的思想引入到单智能体软演员-评论家(soft actor-critic，SAC)算法中，通过学习软状态动作回报的分布函数来提高Q值的估计精度，改进了传统的单智能体SAC算法对Q值的过估计或低估计问题。然后，该方法将改进后的SAC算法扩展到多智能体场景中。为了解决多智能体DRL中存在的非平稳性和可扩展性问题,采用了一种CTDE架构。此外，该方法采用了一种值函数分解思想，该思想将一个集中式critic网络分解为单个critic网络的线性加权和，来自动学习每个智能体的局部软Q值函数，可以有效解决传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种设备密集型工业物联网中基于端边云协同的任务卸载方法，其步骤如下：

步骤1：设置系统模型的各参数；

步骤2：采用基于改进的SAC的分布式多智能体DRL(Improved SAC-basedDecentralized Multi-agent DRL，ISAC-DMDRL)算法来为每个IIoT设备做出最优决策，目标是最小化长期系统总成本，包括延迟成本和能耗成本。该算法首先将分布式RL和单智能体SAC算法相结合，有效解决了传统的单智能体SAC算法对Q值的过估计或低估计问题；然后，该算法采用CTDE框架将改进后的SAC算法扩展到多智能体场景中，有效解决了多智能体DRL中存在的非平稳性和可扩展性问题；此外，该算法采用了一种值函数分解思想，有效解决了传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。

优选地，所述步骤1的具体步骤如下：

1.1设置网络模型：网络分为三层，从下到上分别为IIoT设备层、边缘层和云层，其中，IIoT设备层包含多种类型的IIoT设备，每个IIoT设备用符号u表示，IIoT设备周期性地采集环境数据，并生成计算密集和延迟敏感型任务；每个IIoT设备通过无线网络接入到本地BS；每个IIoT设备配有一个电池，采用有线或无线充电的方式为设备提供电能；边缘层包含M个BS和一个SDN控制器，每个BS用符号BS m表示，每个BS m上配备了一个ECS，每个ECS用符号ECS m表示，计算能力为f_m，负责为IIoT设备提供边缘计算资源；每个BS通过光纤链路连接到SDN控制器，用符号s表示，SDN控制器通过核心骨干网连接到云层，SDN控制器负责对网络数据流进行集中式管理和控制；云层包含多个计算能力充足的CCSs，用符号c表示，计算能力为f_c；

1.2将整个时间轴划分为T个长度均为L的时隙，t∈T表示时隙索引，且采用准静态模型，即在一个时隙内，所有环境状态参数保持不变，而不同时隙参数不同；

1.3设置任务卸载模型：在每个时隙t，每个BS m中的每个IIoT设备u会随机产生一个计算任务

其中

表示任务输入数据大小，

表示计算该任务所需要的CPU周期数；定义在时隙t在BS m内产生计算任务的所有IIoT设备的集合为

对应数量为

在时隙t每个设备u和每个ECS m均维护一个先进先出的任务队列

和

分别表示在时隙t开始时设备u和ECS m尚未执行的任务所需要的CPU周期数；采用基于端边云协同的部分卸载方案，即假设每个任务被分成多个子任务；首先，需要确定IIoT设备本地是否有足够的计算资源，若有，IIoT设备将本地处理整个任务；否则，IIoT设备将根据自身的计算能力处理部分任务，同时将剩余任务卸载到本地ECS；本地ECS在收到卸载任务后，也将根据自身的计算能力处理部分任务，然后，将剩余任务卸载到某个非本地ECS或者CCSs上；定义在时隙t在BS m内的IIoT设备

的卸载决策为

其中

表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例，

表示将任务从本地ECS m卸载到某个非本地ECS n∈{M\{m}}的任务卸载比例，且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算，

表示将任务从本地ECS m卸载到CCSs c的任务卸载比例；

1.4设置通信模型：假设每个BS工作在相同的频带上，采用正交频分复用技术将频带划分成多个带宽相同的正交子信道，每个子信道的带宽为β_w；定义在时隙t内IIoT设备u与本地BS m之间的上行SNR值为

且

其中，

表示IIoT设备u的发射功率，

表示BS m与IIoT设备u之间的信道增益，σ²表示加性高斯白噪声的方差；定义在时隙t内IIoT设备u与本地BS m之间的上行数据传输速率为

且

定义每个BS m和SDN控制器s之间的数据传输速率均为常数

SDN控制器s和CCSs c之间的数据传输速率为常数

且

1.5设置延迟模型：考虑四种情况下的任务执行延迟模型，即本地计算、本地边缘计算、协作式边缘计算和云计算，其中

1.5.1本地计算：定义在BS m内的IIoT设备u的计算能力为

当任务

在IIoT设备u上本地执行时，任务的执行延迟包括本地等待延迟和本地计算延迟，即

其中，在时隙t设备u的任务队列

可以表示为

1.5.2本地边缘计算：当IIoT设备u的计算资源不足时，设备u将部分任务卸载到本地ECS m上，所需要的上行传输延迟为

然后，当本地ECS m接收到部分任务时，在本地ECS m上的任务执行延迟包括等待延迟和计算延迟，其中，等待延迟为

其中，

表示在时隙t其任务优先于任务

到达ECS m的本地设备的集合，

表示在时隙t其任务优先于任务

到达ECS m的非本地设备的集合，这些集合可通过排序算法来获得。在时隙t本地ECS m的任务队列

可以表示为

然后，在本地ECS m上的计算延迟为

因此，任务执行延迟为

1.5.3协作式边缘计算：当本地ECS m的计算资源不足时，将部分任务卸载到某个非本地ECS n上，以平衡ECS的工作负载；定义在时隙t本地ECS m将部分任务卸载到某个非本地ECS n的传输延迟为

然后，当非本地ECS n接收到部分任务时，在非本地ECS n上的任务执行延迟包括等待延迟和计算延迟，与公式(6)类似，等待延迟为

其中，

表示在时隙t其任务优先于任务

到达ECS n的本地设备的集合，

表示在时隙t其任务优先于任务

到达ECS n的非本地设备的集合。然后，在非本地ECS n上的任务计算延迟为

因此，任务执行延迟为

1.5.4云计算：当所有ECS上的计算资源均不足时，本地ECS m需要将部分任务进一步卸载到CCSs c上执行，以充分利用CCSs的丰富计算资源；定义在时隙t本地ECS m将部分任务卸载到CCSs c的传输延迟为

然后，在CCSs c上的任务计算延迟为

由于任务计算结果的数据大小通常较小，因此忽略了任务计算结果的下载延迟。定义在时隙t任务

的总执行延迟为

1.6设置能耗模型：当任务

在IIoT设备u上本地执行时，设备u的计算能耗为

其中，

表示IIoT设备u每执行一个CPU周期所消耗的能量；然后，当IIoT设备u将部分任务卸载到本地ECS m上时，设备u的通信能耗为

因此，在时隙t内IIoT设备u的总能耗为

然后，将充电过程建模为连续到达的能量包，定义在时隙t设备u所获得的能量为

设备u的最大电池容量为

因此在下一个时隙t+1设备u的剩余电池电量为

优选地，所述步骤2中ISAC-DMDRL算法的具体步骤如下：

2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程(Dec-POMDP)，将每个IIoT设备视为一个智能体，每个智能体只能观察到局部环境状态，并通过与环境交互来学习自身的最优策略，优化目标是最大化系统的长期累积折扣奖励；该过程用一个七元组<U，S，O，A，R，Pr，C>来表示，其中

U表示U个智能体的集合，且

S表示全局状态空间：定义在时隙t环境的全局状态为s^t∈S；

O表示所有智能体的联合观察空间：在时隙t，每个智能体u从环境的全局状态s^t中获得自身的局部观察

O_u表示智能体u的局部观察空间，

包括智能体u的任务参数

任务队列状态

计算能力

发射功率

上行SNR值

执行一个CPU周期所消耗的能量

剩余电池电量

所获得的能量

最大电池容量为

每个子信道的带宽β_w、每个ECS的任务队列状态

每个ECS的计算能力f_m、云服务器的计算能力f_c、每个BS m和SDN控制器s之间的数据传输速率

SDN控制器s和云服务器c之间的数据传输速率

在时隙t所有智能体的局部观察构成一个联合观察o^t；

A表示所有智能体的联合动作空间：在获得自身的局部观察

之后，每个智能体u将选择一个动作

来做出任务卸载决策，A_u表示智能体u的动作空间。

包括智能体u的卸载决策

在时隙t所有智能体的动作构成一个联合动作a^t；

R表示由所有智能体共享的联合奖励函数：当每个智能体u在局部观察

下执行动作

之后，每个智能体会收到一个由所有智能体所共享的联合即时奖励，即

即系统总成本越大，联合奖励值越小；

Pr表示全局状态转移概率函数：即所有智能体从当前全局状态s^t下执行联合动作a^t之后，环境转移到下一全局状态s^t+1的概率，且

C表示约束条件：每个智能体u在每个时隙t所选择的动作

需要满足如下约束(24)-(28)，

2.2采用ISAC-DMDRL算法来为每个IIoT设备做出任务卸载决策；在ISAC-DMDRL算法中，每个智能体u均包括一个局部评估actor网络

(参数为μ_u)、一个局部目标actor网络

(参数为

)和一个局部评估critic网络

(参数为ψ_u)，SDN控制器包括一个集中式评估critic网络

(参数为ψ)、一个集中式目标critic网络

(参数为

)、一个评估混合网络

(参数为ε)和一个目标混合网络

(参数为

)。其中，

表示智能体u的评估策略函数，用来为智能体u选择一个动作，所有智能体的

构成一个联合评估策略函数π_μ(参数为μ＝<μ₁，μ₂，...，μ_U>)。

表示智能体u的目标策略函数，所有智能体的

构成一个联合目标策略函数

(参数为

表示智能体u的局部评估软Q值函数，

表示全局软状态动作回报的评估分布函数，

表示全局软状态动作回报的目标分布函数，

负责将全局评估软Q值函数

分解成每个智能体u的

的线性加权和，即

其中，

ω_u(s^t)≥0表示权重值，b(s^t)表示偏差值。此外，将每个策略函数和分布函数均建模成高斯分布，并采用DNN模型进行逼近，即DNN负责输出高斯分布的均值和协方差矩阵；

ISAC-DMDRL算法包括两个阶段，即训练阶段和执行阶段，其中训练阶段如下：

2.2.1在算法的初始化阶段：初始化每个智能体u的局部评估actor网络

的参数μ_u、集中式评估critic网络

的参数ψ、评估混合网络

的参数ε、每个智能体u的局部目标actor网络

的参数

集中式目标critic网络

的参数

目标混合网络

参数

episode的总数NE、每个episode所包含的时间步数量NS、经验重放池的存储容量RS、经验重放周期RP、抽样批量大小Z、折扣因子γ、熵权重α、预设最小熵阈值

目标网络的平滑系数θ、更新周期UP、学习率λ_ψ、λ_μ以及λ_α；定义episode和时间步的索引分别为ne和t，初始化ne＝1，t＝1；

2.2.2当ne∈{1，2，...，NE}时，执行2.2.3；

2.2.3当t∈{1，2，...，NS}时，执行2.2.4；

2.2.4每个智能体u从环境中获取自身的局部观察

并将其输入到自身的actor网络

中，然后输出满足约束(24)-(28)的所有可能的连续动作的概率分布

然后，每个智能体u根据其

随机选择一个动作

并执行；

2.2.5在执行动作

之后，每个智能体u均获得了一个由所有智能体所共享的联合即时奖励R^t(o^t，a^t)，并且环境转移到下一个全局状态s^t+1，，每个智能体u会获得下一个局部观察

然后将全局经验样本e^t＝(o^t，a^t，R^t(o^t，a^t)，o^t+1)存储到经验重放池中；

2.2.6如果

则令t←t+1，并返回2.2.3；否则，执行2.2.7；

2.2.7如果t％RP＝＝0，则执行2.2.8；

2.2.8随机从经验重放池中抽取Z个全局经验样本，来更新

的参数ψ和每个

的参数μ_u；

2.2.9在软策略评估阶段，定义损失函数Loss(ψ)来训练

的参数ψ，目标是使

更接近

且

其中，KL[A||B]表示Kullback-Leibler散度，用来衡量两个概率分布之间的差异，根据分布式贝尔曼方程，

可以写成

其中，联合动作a^t+1是根据联合目标策略函数

来随机选择的。然后，采用小批量梯度下降法来最小化Loss(ψ)；然而，当

的方差趋于0或趋于∞时，

会分别发生梯度爆炸和梯度消失问题。为了解决该问题，需要将

所产生的全局软状态动作回报的目标值

限制在

附近；参数ψ的更新公式为

此外，可以直接通过梯度的反向传播来自动学习每个智能体u的

的参数ψ_u和混合网络

的参数ε；

2.2.10如果t％UP＝＝0，则执行2.2.11；

2.2.11在软策略提升阶段，通过最大化关于全局策略π_μ的软状态值函数的目标函数来训练联合策略π_μ的参数μ(即训练每个

的参数μ_u)，以引导每个

朝着最大化软状态值函数的方向进行参数更新，目标函数定义为

其中，a^t～π_μ(·|o^t)，

为了计算梯度

需要对

进行采样。然而，

是带有参数μ_u的，如果直接采样，会丧失μ_u的梯度信息，从而导致无法更新参数μ_u。因此，采用重参数化技巧来计算梯度

该方法可以降低梯度估计方差。具体来说，首先从一个标准正态分布中随机抽取一个样本

然后，使用

策略

的均值

和标准差

来计算

(即重新参数化策略

)，即

其中，⊙表示哈达玛积。参数μ的更新公式为

2.2.12采用自适应梯度方法来调整熵权重α；当最佳动作未确定时，α必须足够大以鼓励探索，随着探索的深入，α应该逐渐减小；通过最小化目标函数J(α)来更新权重α，且

其中，

表示预定义的最小熵阈值。因此，权重α的更新公式为

2.2.13为了提高学习稳定性，通过缓慢跟踪评估网络的参数来更新目标网络的参数，即

其中，θ表示目标网络的平滑系数，满足θ∈(0，1)，且θ＜＜1；

在完成ISAC-DMDRL算法的训练过程之后，获得了每个

的最优参数

然后，每个智能体u利用已经训练好的

来选择动作并执行，执行过程如下：

2.2.14当t∈{1，2，...，T}时，执行2.2.15；

2.2.15每个智能体u从环境中收集自身的局部观察

然后将

输入到自身的局部评估actor网络中，输出所有可能连续动作的概率分布

然后，基于

来随机选择一个动作

并执行；

2.2.16在执行动作

之后，每个智能体u均获得了一个由所有智能体所共享的联合即时奖励R^t(o^t，a^t)，并且环境转移到下一个全局状态s^t+1。

有益效果：本发明提供了设备密集型工业物联网中的协同任务卸载方法，可以有效减少工业物联网中所有设备的任务执行延迟和能耗，平衡边缘服务器的工作负载，提高资源利用率，具有良好的平稳性和可扩展性，适用于大规模设备密集型的工业物联网场景。

附图说明

图1为步骤1.1和1.3中基于端边云协同的任务卸载框架的网络模型。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

一种设备密集型工业物联网中的协同任务卸载方法，具体步骤如下：

步骤1：设置系统模型的各参数；

步骤2：采用ISAC-DMDRL算法来为每个IIoT设备做出最优决策，目标是最小化长期系统总成本，包括延迟成本和能耗成本。该算法首先将分布式RL和单智能体SAC算法相结合，有效解决了传统的单智能体SAC算法对Q值的过估计或低估计问题；然后，该算法采用CTDE框架将改进后的SAC算法扩展到多智能体场景中，有效解决了多智能体DRL中存在的非平稳性和可扩展性问题；此外，该算法采用了一种值函数分解思想，有效解决了传统CTDE架构中的集中式-分布式不匹配问题和多智能体信用分配问题。

优选地，所述步骤1中具体步骤如下：

其中

表示任务输入数据大小，

对应数量为

在时隙t每个设备u和每个ECS m均维护一个先进先出的任务队列

和

的卸载决策为

其中

表示将任务从IIoT设备u卸载到本地ECS m的任务卸载比例，

表示将任务从本地ECS m卸载到CCSs c的任务卸载比例；

且

其中，

表示IIoT设备u的发射功率，

且

定义每个BS m和SDN控制器s之间的数据传输速率均为常数

SDN控制器s和CCSs c之间的数据传输速率为常数

且

1.5.1本地计算：定义在BS m内的IIoT设备u的计算能力为

当任务

其中，在时隙t设备u的任务队列

可以表示为

其中，

表示在时隙t其任务优先于任务

到达ECS m的本地设备的集合，

表示在时隙t其任务优先于任务

可以表示为

然后，在本地ECS m上的计算延迟为

因此，任务执行延迟为

其中，

表示在时隙t其任务优先于任务

到达ECS n的本地设备的集合，

表示在时隙t其任务优先于任务

因此，任务执行延迟为

然后，在CCSs c上的任务计算延迟为

的总执行延迟为

1.6设置能耗模型：当任务

在IIoT设备u上本地执行时，设备u的计算能耗为

其中，

因此，在时隙t内IIoT设备u的总能耗为

设备u的最大电池容量为

因此在下一个时隙t+1设备u的剩余电池电量为

优选地，所述步骤2中ISAC-DMDRL算法的具体步骤如下：

U表示U个智能体的集合，且

S表示全局状态空间：定义在时隙t环境的全局状态为s^t∈S；

O_u表示智能体u的局部观察空间，

包括智能体u的任务参数

任务队列状态

计算能力

发射功率

上行SNR值

执行一个CPU周期所消耗的能量

剩余电池电量

所获得的能量

最大电池容量为

每个子信道的带宽β_w、每个ECS的任务队列状态

SDN控制器s和云服务器c之间的数据传输速率

在时隙t所有智能体的局部观察构成一个联合观察o^t；

A表示所有智能体的联合动作空间：在获得自身的局部观察

之后，每个智能体u将选择一个动作

来做出任务卸载决策，A_u表示智能体u的动作空间。

包括智能体u的卸载决策

在时隙t所有智能体的动作构成一个联合动作a^t；

下执行动作

即系统总成本越大，联合奖励值越小；

C表示约束条件：每个智能体u在每个时隙t所选择的动作

需要满足如下约束(24)-(28)，

(参数为μ_u)、一个局部目标actor网络

(参数为

)和一个局部评估critic网络

(参数为ψu)，SDN控制器包括一个集中式评估critic网络

(参数为ψ)、一个集中式目标critic网络

(参数为

)、一个评估混合网络

(参数为ε)和一个目标混合网络

(参数为

)。其中，

表示智能体u的目标策略函数，所有智能体的

构成一个联合目标策略函数

(参数为

表示智能体u的局部评估软Q值函数，

表示全局软状态动作回报的评估分布函数，

表示全局软状态动作回报的目标分布函数，

负责将全局评估软Q值函数

分解成每个智能体u的

的线性加权和，即

其中，

ωu(s^t)≥0表示权重值，b(s^t)表示偏差值。此外，将每个策略函数和分布函数均建模成高斯分布，并采用DNN模型进行逼近，即DNN负责输出高斯分布的均值和协方差矩阵；

的参数μ_u、集中式评估critic网络

的参数ψ、评估混合网络

的参数ε、每个智能体u的局部目标actor网络

的参数

μ_u、集中式目标critic网络

的参数

目标混合网络

参数

2.2.2当ne∈{1，2，...，NE}时，执行2.2.3；

2.2.3当t∈{1，2，...，NS}时，执行2.2.4；

2.2.4每个智能体u从环境中获取自身的局部观察

并将其输入到自身的actor网络

然后，每个智能体u根据其

随机选择一个动作

并执行；

2.2.5在执行动作

之后，每个智能体u均获得了一个由所有智能体所共享的联合即时奖励R^t(o^t，a^t)，并且环境转移到下一个全局状态s^t+1，，每个智能体会获得下一个局部观察

2.2.6如果

则令t←t+1，并返回2.2.3；否则，执行2.2.7；

2.2.7如果t％RP＝＝0，则执行2.2.8；

2.2.8随机从经验重放池中抽取Z个全局经验样本，来更新

的参数ψ和每个

的参数μ_u；

2.2.9在软策略评估阶段，定义损失函数Loss(ψ)来训练

的参数ψ，目标是使

更接近

且

可以写成

其中，联合动作a^t+1是根据联合目标策略函数

的方差趋于0或趋于∞时，

听产生的全局软状态动作回报的目标值

限制在

附近；参数ψ的更新公式为

的参数ψu和混合网络

的参数ε；

2.2.10如果t％UP＝＝0，则执行2.2.11；

的参数μ_u)，以引导每个

其中，a^t～π_μ(·|o^t)，

为了计算梯度

需要对

进行采样。然而，

然后，使用

策略

的均值

和标准差

来计算

(即重新参数化策略

)，即

其中，⊙表示哈达玛积。参数μ的更新公式为

其中，

表示预定义的最小熵阈值。因此，权重α的更新公式为

在完成ISAC-DMDRL算法的训练过程之后，获得了每个

的最优参数

然后，每个智能体u利用已经训练好的

来选择动作并执行，执行过程如下：

2.2.14当t∈{1，2，...，T}时，执行2.2.15；

2.2.15每个智能体u从环境中收集自身的局部观察

然后将

然后，基于

来随机选择一个动作

并执行；

2.2.16在执行动作

本发明中提及的方法均属于本领域技术人员掌握的常规技术手段，故而未加详述。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种设备密集型工业物联网中基于端边云协同的任务卸载方法，其特征在于，具体步骤如下：

步骤1：设置系统模型的各参数；

1.1设置网络模型：网络分为三层，从下到上分别为IIoT设备层、边缘层和云层，其中，IIoT设备层包含多种类型的IIoT设备，每个IIoT设备用符号u表示，IIoT设备周期性地采集环境数据，并生成计算密集和延迟敏感型任务；每个IIoT设备通过无线网络接入到本地BS；每个IIoT设备配有一个电池，采用有线或无线充电的方式为设备提供电能；边缘层包含M个BS和一个SDN控制器，每个BS用符号BSm表示，每个BSm上配备了一个ECS，每个ECS用符号ECSm表示，计算能力为f_m，负责为IIoT设备提供边缘计算资源；每个BS通过光纤链路连接到SDN控制器，用符号s表示，SDN控制器通过核心骨干网连接到云层，SDN控制器负责对网络数据流进行集中式管理和控制；云层包含多个计算能力充足的CCSs，用符号c表示，计算能力为f_c；

1.3设置任务卸载模型：在每个时隙t，每个BSm中的每个IIoT设备u会随机产生一个计算任务

其中

表示任务输入数据大小，

表示计算该任务所需要的CPU周期数；定义在时隙t在BSm内产生计算任务的所有IIoT设备的集合为

对应数量为

在时隙t每个设备u和每个ECSm均维护一个先进先出的任务队列

和

分别表示在时隙t开始时设备u和ECSm尚未执行的任务所需要的CPU周期数；采用基于端边云协同的部分卸载方案，即假设每个任务被分成多个子任务；首先，需要确定IIoT设备本地是否有足够的计算资源，若有，IIoT设备将本地处理整个任务；否则，IIoT设备将根据自身的计算能力处理部分任务，同时将剩余任务卸载到本地ECS；本地ECS在收到卸载任务后，也将根据自身的计算能力处理部分任务，然后，将剩余任务卸载到某个非本地ECS或者CCSs上；定义在时隙t在BSm内的IIoT设备

的卸载决策为

其中

表示将任务从IIoT设备u卸载到本地ECSm的任务卸载比例，

表示将任务从本地ECSm卸载到某个非本地ECSn∈{M\{m}}的任务卸载比例，且每个本地ECS一次只能选择一个非本地ECS来执行协作式边缘计算，

表示将任务从本地ECSm卸载到CCSs c的任务卸载比例；

1.4设置通信模型：假设每个BS工作在相同的频带上，采用正交频分复用技术将频带划分成多个带宽相同的正交子信道，每个子信道的带宽为β_w；定义在时隙t内IIoT设备u与本地BSm之间的上行SNR值为

且

其中，

表示IIoT设备u的发射功率，

表示BSm与IIoT设备u之间的信道增益，σ²表示加性高斯白噪声的方差；定义在时隙t内IIoT设备u与本地BSm之间的上行数据传输速率为

且

定义每个BSm和SDN控制器s之间的数据传输速率均为常数

SDN控制器s和CCSs c之间的数据传输速率为常数

且

1.5.1本地计算：定义在BSm内的IIoT设备u的计算能力为

当任务

其中，在时隙t设备u的任务队列

表示为

1.5.2本地边缘计算：当IIoT设备u的计算资源不足时，设备u将部分任务卸载到本地ECSm上，所需要的上行传输延迟为

然后，当本地ECSm接收到部分任务时，在本地ECSm上的任务执行延迟包括等待延迟和计算延迟，其中，等待延迟为

其中，

表示在时隙t其任务优先于任务

到达ECSm的本地设备的集合，

表示在时隙t其任务优先于任务

到达ECSm的非本地设备的集合，这些集合能够通过排序算法来获得；在时隙t本地ECSm的任务队列

表示为

然后，在本地ECSm上的计算延迟为

因此，任务执行延迟为

1.5.3协作式边缘计算：当本地ECSm的计算资源不足时，将部分任务卸载到某个非本地ECSn上，以平衡ECS的工作负载；定义在时隙t本地ECSm将部分任务卸载到某个非本地ECSn的传输延迟为

然后，当非本地ECSn接收到部分任务时，在非本地ECSn上的任务执行延迟包括等待延迟和计算延迟，等待延迟为

其中，

表示在时隙t其任务优先于任务

到达ECSn的本地设备的集合，

表示在时隙t其任务优先于任务

到达ECSn的非本地设备的集合；然后，在非本地ECSn上的任务计算延迟为

因此，任务执行延迟为

1.5.4云计算：当所有ECS上的计算资源均不足时，本地ECSm需要将部分任务进一步卸载到CCSs c上执行，以充分利用CCSs的丰富计算资源；定义在时隙t本地ECSm将部分任务卸载到CCSs c的传输延迟为

然后，在CCSs c上的任务计算延迟为

定义在时隙t任务

的总执行延迟为

1.6设置能耗模型：当任务

在IIoT设备u上本地执行时，设备u的计算能耗为

其中，

表示IIoT设备u每执行一个CPU周期所消耗的能量；

然后，当IIoT设备u将部分任务卸载到本地ECSm上时，设备u的通信能耗为

因此，在时隙t内IIoT设备u的总能耗为

设备u的最大电池容量为

因此在下一个时隙t+1设备u的剩余电池电量为

步骤2：采用ISAC-DMDRL算法来为每个IIoT设备做出最优决策，目标是最小化长期系统总成本，包括延迟成本和能耗成本。

2.根据权利要求1所述的设备密集型工业物联网中基于端边云协同的任务卸载方法，其特征在于，所述步骤2中ISAC-DMDRL算法的具体步骤如下：

2.1将基于端边云协同的任务卸载问题描述为一个带约束的分散式部分可观察马尔可夫决策过程，将每个IIoT设备视为一个智能体，每个智能体只能观察到局部环境状态，并通过与环境交互来学习自身的最优策略，优化目标是最大化系统的长期累积折扣奖励；该过程用一个七元组<U,S,O,A,R,Pr,C>来表示，其中

U表示U个智能体的集合，且

S表示全局状态空间：定义在时隙t环境的全局状态为s^t∈S；

O_u表示智能体u的局部观察空间，

包括智能体u的任务参数

任务队列状态

计算能力

发射功率

上行SNR值

执行一个CPU周期所消耗的能量

剩余电池电量

所获得的能量

最大电池容量为

每个子信道的带宽β_w、每个ECS的任务队列状态

每个ECS的计算能力f_m、云服务器的计算能力f_c、每个BSm和SDN控制器s之间的数据传输速率

SDN控制器s和云服务器c之间的数据传输速率

在时隙t所有智能体的局部观察构成一个联合观察o^t；

A表示所有智能体的联合动作空间：在获得自身的局部观察

之后，每个智能体u将选择一个动作

来做出任务卸载决策，A_u表示智能体u的动作空间；

包括智能体u的卸载决策

在时隙t所有智能体的动作构成一个联合动作a^t；

下执行动作

即系统总成本越大，联合奖励值越小；

C表示约束条件：每个智能体u在每个时隙t所选择的动作

需要满足如下约束(24)—(28)，

参数为μ_u；一个局部目标actor网络

参数为

和一个局部评估critic网络

参数为ψ_u；SDN控制器包括一个集中式评估critic网络

参数为ψ；一个集中式目标critic网络

参数为

一个评估混合网络

参数为ε；和一个目标混合网络

参数为

其中，

构成一个联合评估策略函数π_μ、参数为μ＝<μ₁,μ₂,...,μ_U>；

表示智能体u的目标策略函数，所有智能体的

构成一个联合目标策略函数

参数为

表示智能体u的局部评估软Q值函数，

表示全局软状态动作回报的评估分布函数，

表示全局软状态动作回报的目标分布函数，

负责将全局评估软Q值函数

分解成每个智能体u的

的线性加权和，即

其中，

ω_u(s^t)≥0表示权重值，b(s^t)表示偏差值；此外，将每个策略函数和分布函数均建模成高斯分布，并采用DNN模型进行逼近，即DNN负责输出高斯分布的均值和协方差矩阵；

的参数μ_u、集中式评估critic网络

的参数ψ、评估混合网络

的参数ε、每个智能体u的局部目标actor网络

的参数

集中式目标critic网络

的参数

目标混合网络

参数

2.2.2当ne∈{1,2,…,NE}时，执行2.2.3；

2.2.3当t∈{1,2,…,NS}时，执行2.2.4；

2.2.4每个智能体u从环境中获取自身的局部观察

并将其输入到自身的actor网络

中，然后输出满足约束(24)—(28)的所有可能的连续动作的概率分布

然后，每个智能体u根据其

随机选择一个动作

并执行；

2.2.5在执行动作

之后，每个智能体u均获得了一个由所有智能体所共享的联合即时奖励R^t(o^t,a^t)，并且环境转移到下一个全局状态s^t+1，每个智能体u会获得下一个局部观察

然后将全局经验样本e^t＝(o^t,a^t,R^t(o^t,a^t),o^t+1)存储到经验重放池中；

2.2.6如果

则令t←t+1，并返回2.2.3；否则，执行2.2.7；

2.2.7如果t％RP＝＝0，则执行2.2.8；

2.2.8随机从经验重放池中抽取Z个全局经验样本，来更新

的参数ψ和每个

的参数μ_u；

2.2.9在软策略评估阶段，定义损失函数Loss(ψ)来训练

的参数ψ，目标是使

更接近

且

写成

其中，联合动作a^t+1是根据联合目标策略函数

来随机选择的，采用小批量梯度下降法来最小化Loss(ψ)，并将

所产生的全局软状态动作回报的目标值

限制在

附近；参数ψ的更新公式为

直接通过梯度的反向传播来自动学习每个智能体u的

的参数ψ_u和混合网络

的参数ε；

2.2.10如果t％UP＝＝0，则执行2.2.11；

2.2.11在软策略提升阶段，通过最大化关于全局策略π_μ的软状态值函数的目标函数来训练联合策略π_μ的参数μ，即训练每个

的参数μ_u；以引导每个

其中，a^t～π_μ(·|o^t)，

为了计算梯度

需要对

进行采样。采用重参数化技巧来计算梯度

首先从一个标准正态分布中随机抽取一个样本

然后，使用

策略

的均值

和标准差

来计算

即重新参数化策略

即

其中，⊙表示哈达玛积；参数μ的更新公式为

其中，

表示预定义的最小熵阈值；因此，权重α的更新公式为

其中，θ表示目标网络的平滑系数，满足θ∈(0,1)，且θ＜＜1；

在完成ISAC-DMDRL算法的训练过程之后，获得了每个

的最优参数

然后，每个智能体u利用已经训练好的

来选择动作并执行，执行过程如下：

2.2.14当t∈{1,2,…,T}时，执行2.2.15；

2.2.15每个智能体u从环境中收集自身的局部观察

然后将

然后，基于

来随机选择一个动作

并执行；

2.2.16在执行动作

之后，每个智能体u均获得了一个由所有智能体所共享的联合即时奖励R^t(o^t,a^t)，并且环境转移到下一个全局状态s^t+1。