CN114143355A

CN114143355A - 一种电力物联网低时延安全云边端协同方法

Info

Publication number: CN114143355A
Application number: CN202111512248.2A
Authority: CN
Inventors: 廖海君; 周振宇; 贾泽晗; 汤中卫
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-04
Anticipated expiration: 2041-12-08
Also published as: CN114143355B

Abstract

本发明公开了一种电力物联网低时延安全云边端协同方法，包括：构建系统模型，由PIoT设备、地面基站、无人机、边缘服务器、云服务器和卫星组成；构建任务卸载模型；构建任务处理模型；构建排队时延模型；构建联盟区块链模型；最小化SAG‑PIoT网络中PIoT设备在长期安全性约束下的总排队时延；利用李雅普诺夫优化将长期约束与短期决策优化解耦。本发明的优点是：降低系统成本，提高模型训练的学习性能，优化计算资源的分配；提高了抗EMI的能力，该发明实现EMI感知，减轻EMI的不利影响。

Description

一种电力物联网低时延安全云边端协同方法

技术领域

本发明涉及物联网技术领域，特别涉及一种电力物联网低时延安全云边端协同方法。

背景技术

随着边缘计算在电力物联网(power Internet of Things,PIoT)中的广泛部署，由PloTPIoT设备产生的大量计算密集型任务被卸载到边缘服务器上进行计算。然而，现有的PIoT网络不能满足电力系统对计算卸载严格的安全性和时延要求。一方面，卸载后的任务和计算结果容易被篡改和逆转，严重危及电力系统的安全。另一方面，有限的通信基础设施和僵硬的资源部署，无法提供灵活、随需应变的服务。此外，非智能化卸载和资源分配方式导致计算时延大，资源利用率低。

区块链、PIoT和机器学习的结合为满足电力系统计算卸载的严格安全性和时延要求提供了一种可行的方案。然而，在实施的过程中一些主要的挑战总结如下：

(1)学习性能与成本的权衡：传统集中式学习方法具有最佳性能，但需要提前掌握全局状态信息(global state information,GSI)，导致学习成本巨大。

(2)安全性与时延性能的权衡：边缘服务器同时进行任务处理和区块创建，当边缘服务器分配更多的计算资源进行任务处理时，用于区块创建的计算资源可能不足，导致区块创建时延增大、安全性降低。

(3)电磁干扰(electromagnetic interference,EMI)对学习性能的不利影响：在SAG-PIoT中，来自高压电力基础设施的瞬态过程和局部放电产生的强烈EMI对学习性能和模型收敛性造成不利影响。

与本发明相关的现有技术：基于区块链和深度强化学习(Deep reinforcementlearning，DRL)的边缘计算网络任务卸载方法：该方法利用DRL进行任务卸载并使用区块链最大化隐私级别。

一方面，上述方法没有对任务卸载的安全性进行数学建模和优化；另一方面，上述方案没有考虑EMI对网络性能的影响，不具备电磁干扰感知能力；除此之外，上述方法在模型训练和学习性能提升中，并没有充分利用附近PIoT设备的相似环境观测数据。

发明内容

本发明针对现有技术的缺陷，提供了一种电力物联网低时延安全云边端协同方法。

为了实现以上发明目的，本发明采取的技术方案如下：

一种电力物联网低时延安全云边端协同方法，包括以下步骤：

步骤1，构建系统模型；

所述系统模型由PIoT设备(电力物联网PIoT设备)、地面基站(ground BaseStation,GBSs)、无人机(unmanned aerial vehicles，UAVs)、边缘服务器、云服务器和卫星组成。

假设存在I个PIoT设备，J+M个基站(Base Stations,BSs)，基站包括J个GBSs和M个UAVs。

PIoT设备和BS的集合分别表示为

其中,s_j,j＝1,…J,表示GBSs，s_j,j＝J+1,…J+M表示UAVs。

BS与边缘服务器位于相同位置，为PIoT设备提供数据传输和计算服务。云服务器通过有线链路与GBS连接，通过无线链路与无人机连接。PIoT设备通过BS将任务卸载到边缘服务器进行计算，并采用区块链技术保证计算卸载的安全性。利用卫星在区块链节点之间广播消息。

采用时隙模型，总时间周期被划分为T个时隙，每个时隙时间长度为τ，集合表示为

假设网络状态在一个时隙内保持不变，而在不同的时隙之间变化。在时隙t，表示到达u_i的任务数据量为A_i(t)，其满足0≤A_i(t)≤A_i,max。定义U_i(t)表示为u_i在时隙t的吞吐量。将存储在u_i缓冲区中的数据建模为数据队列，其队列的积压表示为Q_i(t)，则可不断更新表示为

Q_i(t+1)＝max{Q_i(t)-U_i(t),0}+A_i(t) (1)

A_i(t)和U_i(t)分别为队列的输入和输出。

步骤2，构建任务卸载模型；

定义s_j对u_i的服务可用性二进制指示变量为a_i,j(t)∈{0,1}。特别地，a_i,j(t)＝1表示在时隙t，s_j对u_i可用，否则a_i,j(t)＝0。任务卸载决策由两部分组成:1)选择GBSs或UAVs进行数据传输；2)选择云计算或边缘计算进行任务处理。u_i的任务卸载决策定义为一组二进制指示变量

表示u_i选择s_j在时隙t中进行数据传输,否则

表示u_i选择云计算，

表示u_i在时隙t选择边缘计算。

21)PIoT设备GBS通信模型:给定

u_i与s_j之间的传输速率为

其中h_i,j(t)，B_i,j(t)，P_i(t)，

分别为u_i与s_j之间的信道增益、带宽、传输功率和EMI功率，δ²是噪声功率。

22)PIoT设备无人机通信模型:给定

u_i与s_j之间的传输速率为

其中L_i,j(t)为u_i和s_j之间的路径损耗，表示为

其中d_i,j(t)和r_i,j(t)分别为u_i与s_j在时隙t的垂直距离和水平距离。

和

分别为视距链路和非视距链路的自由空间路径损耗的附加损失。f_c是载频，c是光速。

为PIoT设备-无人机视距链路概率，表示为

其中b₁，b₂，

和

的值取决于传输环境。

u_i在时隙t的吞吐量计算为

步骤3，构建任务处理模型；

定义

和

分别表示边缘服务器和云服务器缓冲区队列积压，能够不断更新表示为

其中，

分别为s_j和云服务器处理的数据量。定义s_j和云服务器为计算u_i数据分配的CPU周期频率为

和

和

表示为

λ_i表示处理1比特u_i任务数据需要的CPU周期数。

步骤4，构建排队时延模型；

41)任务卸载的排队时延：对于u_i，任务卸载的排队时延表示为

其中

表示Q_i(t)的时间平均到达速率，计算为

42)任务处理的排队时延：在云计算中，边缘服务器向云服务器转发数据时，会产生转发时延

对于u_i，边缘计算和云计算的排队时延分别计算为

其中

和

分别为

和

的时间平均到达速率，计算为

u_i任务处理的排队时延取决于所有服务器中最大排队时延，表示为

所以u_i在时隙t的总排队时延为

步骤5，构建联盟区块链模型；

区块链节点分为两类：完整节点和轻量级节点。GBSs作为完整节点参与区块链共识过程，UAVs作为轻量级节点。卫星负责在区块链节点之间广播消息，实现低时延共识。

在区块共识过程中采用实用拜占庭容错(practical Byzantine faulttolerance,PBFT)协议，以实现较低的共识时延和确定性。每个时隙选取一个GBS作为主节点，其他GBSs为非主节点。非主节点在主节点的协调下参与共识过程。

步骤6，问题建模；

最小化SAG-PIoT网络中PIoT设备在长期安全性约束下的总排队时延，表示为

表示任务卸载向量。

和

分别表示用于任务处理和块创建的边-服务器-端计算资源分配向量。

为云服务器端计算资源分配向量。C₁和C₂分别表示每个PIoT设备在每个时隙只能选择一个BS和一个计算模式。C₃、C₄、C₅分别表示GBSs、UAVs和云服务器的计算资源分配约束，其中

和

分别表示s_j和云服务器的最大可用CPU周期频率。C₆表示长期安全性约束。

步骤7，问题转化；

利用李雅普诺夫优化将长期约束与短期决策优化解耦。

定义安全性赤字虚拟队列Y(t)，表示为

Y(t)表示创建块的时延与规定安全需求之间的偏差。

因此，P1可重写为

s.t.C₁～C₅,

Y(t)平均速率稳定. (22)

定义

李雅普诺夫函数表示为

李雅普诺夫漂移ΔL(Θ(t))定义为两个相邻时隙之间L(Θ(t))的条件变化。ΔL(Θ(t))的绝对值越大表示队列积压的波动越剧烈，队列稳定性越差。对于最小化问题P2，引入漂移加罚项在维持队列稳定的同时最小化总排队时延，表示为

其中

V是一个非负权值，用于平衡“惩罚最小化”和“队列稳定”。漂移加罚项的上界计算为

其中η是一个正常数，不影响李雅普诺夫优化。

P2转化为在C₁～C₅的约束条件下最小化Δ_VL(Θ(t))上界的问题，实现了短期计算卸载优化与长期安全性约束解耦。放宽漂移加罚项的上界为

其中，

步骤9，P2可以解耦为SP1：任务卸载优化和SP2：计算资源分配优化。

91)任务卸载优化；

SP1优化每个PIoT设备的任务卸载决策，其表达式为

s.t.C₁～C₂ (28)

FDAC-EMI求解SP1。

首先，任务卸载问题建模为MDP：

1)状态空间:u_i在时隙t的状态空间S_i(t)定义为

2)动作空间：动作空间x_i(t)定义为

3)奖励：由于SP1为最小化问题，定义成本函数为SP1的优化目标Ψ_i(x_i(t))。

通过利用分布式PIoT设备上的本地数据进行局部模型更新，以及利用联邦平均局部模型进行周期性全局模型更新，云服务器负责全局模型更新，BSs负责PIoT设备与云服务器之间的模型上传和下载。FDAC-EMI包括一个全局模型和I个本地模型。每个模型包含一个演员网络和一个评论家网络，演员网络采取行动并优化策略，而评论家网络则对具体情形进行批评并指导政策优化。全局演员网络模型、全局评论家网络模型、u_i本地演员模型和u_i本地评论家模型分别表示为θ_G(t)，ω_G(t)，θ_i(t)和ω_G(t)。

所述FDAC-EMI包含七个阶段：

初始化：初始化时，对全局演员网络和全局评论家网络进行随机权值初始化。成本函数Ψ_i(x_i(t))初始化为零。

模型下载：在第g时间段开始时刻，即t＝(g-1)T₀+1时，u_i从云服务器上下载全局模型，并设置本地模型为θ_i(t)＝θ_G(t)和ω_i(t)＝ω_G(t)。

动作执行：在时隙t，u_i基于策略π(S_i(t)|θ_i(t))和状态空间S_i(t)选择动作x_i(t)。然后，u_i执行任务卸载决策，观察

和

并计算成本函数Ψ_i(x_i(t))。

局部模型更新：在时隙t，u_i计算TD误差κ_i(t)，并将本地演员网络模型θ_i(t+1)和本地评论家网络模型ω_i(t+1)更新为

κ_i(t)＝Ψ_i(x_i(t))+γV(S_i(t+1),ω_i(t))-V(S_i(t),ω_i(t)), (30)

其中γ∈[0,1]为折现因子。κ_i(t)绝对值越大，说明局部模型的估计偏差越大。ξ和ξ^′分别为本地演员网络模型和本地评论家网络模型的学习速率。

本地模型上传：在第g时间段末，即t＝gT₀时刻，u_i将本地模型上传至云服务器进行全局模型更新。

联邦集确定：考虑到突发的强电磁干扰对本地模型的不利影响，为了保证全局模型的收敛性，需要确定一个没有异常的本地模型的联邦集。分别定义有无u_i本地网络模型参与的全局网络模型更新为

其中

为全局演员网络的training batch大小。此联邦集可确定为

其中S_test为用于确定联邦集的状态空间。

联邦平均：在第g时间段末，即t＝gT₀时，云服务器根据获得的联邦集

执行联邦平均，并更新全局行动者模型θ_G(t+1)和全局评论家模型ω_G(t+1)为

此外，

更新队列积压Q_i(t+1)，

和Y(t+1)。当t>T时，迭代结束。

92)计算资源分配；

给定x(t)，SP2求解服务器侧计算资源分配，表示为

s.t.C₃～C₅,

进一步地，步骤5中共识过程由5个阶段组成：

1)请求：一个事务生成器s_j向主节点s_j*发送请求消息。包含事务信息的请求消息由s_j的私钥签名，并由消息身份验证节点(message authentication node,MAC)进行身份验证。签名一个事务消息、验证一个签名和生成并验证一个MAC所需的CPU周期分别表示为∈_s、∈_v和∈_c。事务生成器花费∈_s+∈_c的CPU周期生成请求，主节点验证请求的CPU周期为(J+M+1)(∈_v+∈_c)。

2)预准备：请求阶段收集的所有有效事务信息都被主节点包含到一个块中。然后，主节点通过卫星向所有非主节点广播一条预准备消息以及签名块。主节点对块和J-1个MAC生成签名，供非主节点验证，此过程需要(∈_s+(J-1)∈_c)个CPU周期。然后非主节点需要验证块的签名和MAC，以及预准备消息中事务的签名和MAC，需要的CPU周期数为(J+M+2)(∈_v+∈_c)。

3)准备：在验证签名和MAC后，每个非主节点向所有完整节点发送准备消息。然后，每个非主节点检查接收到的预准备和准备消息的一致性。根据PBFT协议，所有完整节点从不同的非主节点收集的共识消息至少为2[F]个,F＝(J-1)/3。主节点验证2[F]个MAC和签名，需要2[F](∈_v+∈_c)CPU周期。由于每个非主节点需要额外生成签名和J-1个MAC，因此每个非主节点所需的CPU周期为2[F](∈_v+∈_c)+∈_s+(J-1)∈_c。

4)确认：在接收到2[F]个共识消息后，每个完整节点向所有其他完整节点广播一个确认消息。一旦接收到2[F]+1个确认消息，完整节点进入下一个阶段。在此阶段，每个完整节点为确认消息生成一个签名和J-1个MAC，并验证2[F]+1个签名和MAC，需要的CPU周期为∈_s+(J-1)∈_c+(2[F]+1)(∈_v+∈_c)

5)答复：从其它完整节点接收到至少2[F]+1个确认消息的完整节点，接受该块为有效块，并在本地复制该块。在这些完整节点中，每个非主节点向主节点发送一个答复消息。一旦接收到[F]个答复消息后，主节点将验证过的块更新到区块链。非主节点生成一个签名和J-1MAC组成答复消息，需要∈_s+(J-1)∈_cCPU周期。主节点验证[F]签名和MAC，需要[F](∈_v+∈_c)CPU周期。

基于以上分析，创建并上传一个新区块到联盟区块链时，非主节点和主节点所需的CPU周期分别为

块创建时延包括块生成时延、块传播时延和共识时延。块生成时延表示为常数τ_g。由于在共识过程中利用卫星进行广播块和消息，所以所有节点之间的传播时延保持不变，表示为τ_p。因此，块创建时延表示为

其中，

和

分别表示主节点和非主节点为创建块分配的CPU周期。

由于块创建时延对SAG-PIoT计算卸载安全的影响很大，因此定义长期安全性约束为

其中，

为安全性约束阈值，即最大块创建时延。

进一步地，SP2进一步分解为云服务器SP2-1、无人机SP2-2、主节点SP2-3和非主节点SP2-4的计算资源分配。

1)云服务器计算资源分配：SP2-1表示为

s.t.C₅ and C₇ (37)

2)无人机计算资源分配：SP2-2表示为

s.t.C₄ and C₈ (38)

3)主节点计算资源分配：SP2-3表示为

其中，

4)非主节点计算资源分配：SP2-4的表示为

其中，

SP2-1～SP2-4是非凸优化问题，可以通过光滑函数逼近min{x}求解。

给定X＝sup{x₁,…,x_I}，则min{x}近似为

其中k是可控参数。

根据以上描述，SP2-1～SP2-4可转化为凸优化问题，并用拉格朗日优化求解。由于篇幅的限制，本发明以SP2-1为例，其它子问题的求解方法类似。给定

和

SP2-1近似为

s.t.C₅ and C₇.(44)

是凸优化问题，可以采用拉格朗日对偶分解法求解。定义与C₅和C₇相关的拉格朗日乘子向量分别为v_i和u_i。(44)的增广拉格朗日函数为

本发明利用拉格朗日对偶分解将(45)分解为

根据Karush-Kuhn-Tucker(KKT)条件，时隙t的第(l+1)次更新迭代中f_i ^c(t)的最优值可表示为

定义

为步长，基于梯度法，v_i(t,l+1)和μ_i(t,l+1)可分别计算为

与现有技术相比，本发明的优点在于：

1.降低系统成本，该发明基于半分布式学习的任务卸载，提高模型训练的学习性能；

2.实现安全性和延迟性能的动态权衡，该发明基于排队延迟和块创建延迟，优化计算资源的分配；

3.提高了抗EMI的能力，该发明实现EMI感知，减轻EMI的不利影响。

附图说明

图1是本发明实施例系统模型结构示意图；

图2是本发明实施例任务卸载排队时延示意图；

图3是本发明实施例任务处理排队时延示意图；

图4是本发明实施例总排队时延示意图；

图5是本发明实施例块创建时延随全节点数量的变化示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图并列举实施例，对本发明做进一步详细说明。

如图1所示，

整个技术方案包括三个步骤：

1.构建系统模型

如图1所示，SAG-PIoT由PIoT设备(电力物联网PIoT设备)、地面基站(ground BaseStation,GBSs)、无人机(unmanned aerial vehicles，UAVs)、边缘服务器、云服务器和卫星组成。本发明假设存在I个PIoT设备，J+M个基站(Base Stations,BSs)，包括J个GBSs和M个UAVs。PIoT设备和BS的集合分别表示为

其中,s_j,j＝1,…J,表示GBSs，s_j,j＝J+1,…J+M表示UAVs。特别的，GBSs的服务可用性是固定的，而无人机的服务可用性是间歇性的。另一方面，由于视距链路的存在，PIoT设备-无人机传输信道质量更优。

BS与边缘服务器位于相同位置，为PIoT设备提供数据传输和计算服务。为简单起见，本发明采用同一符号表示BS及与其位于相同位置的边缘服务器。计算能力较强的云服务器通过有线链路与GBS连接，通过无线链路与无人机连接。PIoT设备通过BS将任务卸载到边缘服务器进行计算。本发明采用区块链技术保证计算卸载的安全性。利用卫星在区块链节点之间广播消息，以实现低时延共识，提高系统安全性。

本发明采用时隙模型，总时间周期被划分为T个时隙，每个时隙时间长度为τ，集合表示为

Q_i(t+1)＝max{Q_i(t)-U_i(t),0}+A_i(t) (1)

A_i(t)和U_i(t)分别为队列的输入和输出。

(1)任务卸载模型

定义s_j对u_i的服务可用性二进制指示变量为a_i,j(t)∈{0,1}。特别地，a_i,j(t)＝1表示在时隙t，s_j对u_i可用，否则a_i,j(t)＝0。任务卸载决策由两部分组成:1)选择BS，即选择GBSs或UAVs进行数据传输；2)选择计算模式，即选择云计算或边缘计算进行任务处理。u_i的任务卸载决策定义为一组二进制指示变量

表示u_i选择s_j在时隙t中进行数据传输,否则

表示u_i选择云计算，

表示u_i在时隙t选择边缘计算。

1)PIoT设备-GBS通信模型:给定

u_i与s_j之间的传输速率为

其中h_i,j(t)，B_i,j(t)，P_i(t)，

2)PIoT设备-无人机通信模型:给定

u_i与s_j之间的传输速率为

其中L_i,j(t)为u_i和s_j之间的路径损耗，表示为

和

为PIoT设备-无人机视距链路概率，表示为

其中b₁，b₂，

和

的值取决于传输环境。

u_i在时隙t的吞吐量计算为

(2)任务处理模型

定义

和

分别表示边缘服务器和云服务器缓冲区队列积压，可不断更新表示为

其中，

和

和

可表示为

λ_i表示处理1比特u_i任务数据需要的CPU周期数。

(3)排队时延模型

1)任务卸载的排队时延：根据利特尔定律可知排队时延与平均队列长度成正比，与平均数据到达率成反比。对于u_i，任务卸载的排队时延表示为

其中

表示Q_i(t)的时间平均到达速率，计算为

2)任务处理的排队时延：在云计算中，边缘服务器向云服务器转发数据时，会产生转发时延

对于u_i，边缘计算和云计算的排队时延分别计算为

其中

和

分别为

和

的时间平均到达速率，计算为

所以u_i在时隙t的总排队时延为

(4)联盟区块链模型

分布式GBSs、UAVs和卫星在认证机构预注册以获得维护区块链的许可。区块链节点分为两类：完整节点和轻量级节点。具体来说，GBSs作为完整节点参与区块链共识过程，而由于移动性和服务可用性的间歇性，UAVs作为轻量级节点，不能参与共识过程，但可以在区块链中生成、转发和交换事务。卫星具有覆盖范围广的优势，负责在区块链节点之间广播消息，实现低时延共识。

在每个时隙开始时，每个服务器生成一个事务，记录前一个时隙中已卸载任务的关键信息和计算结果。在达成全局共识后，具有完整事务的区块被不可逆的附加到最长公认链的末端。本发明在区块共识过程中采用实用拜占庭容错(practical Byzantine faulttolerance,PBFT)协议，以实现较低的共识时延和确定性。每个时隙选取一个GBS作为主节点，其他GBSs为非主节点。非主节点在主节点的协调下参与共识过程。共识过程由5个阶段组成：1)请求,2)预准备,3)准备,4)确认,5)答复，具体介绍如下。

1)请求：一个事务生成器(例如s_j)向主节点(例如s_j*)发送请求消息。包含事务信息的请求消息由s_j的私钥签名，并由消息身份验证节点(message authentication node,MAC)进行身份验证。签名一个事务消息、验证一个签名和生成并验证一个MAC所需的CPU周期分别表示为∈_s、∈_v和∈_c。事务生成器花费∈_s+∈_c的CPU周期生成请求，主节点验证请求的CPU周期为(J+M+1)(∈_v+∈_c)。

其中，

和

分别表示主节点和非主节点为创建块分配的CPU周期。

其中，

为安全性约束阈值，即最大块创建时延。

2.问题建模和转化

(1)问题建模

本发明的目标是通过联合优化PIoT设备侧任务卸载和服务器侧计算资源分配，最小化SAG-PIoT网络中PIoT设备在长期安全性约束下的总排队时延，可表示为

表示任务卸载向量。

和

和

(2)问题转化

由于长期安全性约束与短期计算卸载优化相耦合，P1难以直接求解。因此，本发明利用李雅普诺夫优化将长期约束与短期决策优化解耦。

定义安全性赤字虚拟队列Y(t)，表示为

Y(t)表示创建块的时延与规定安全需求之间的偏差。

因此，P1可重写为

s.t.C₁～C₅,

Y(t)平均速率稳定. (22)

定义

李雅普诺夫函数可表示为

其中

其中η是一个正常数，不影响李雅普诺夫优化。

P2转化为在C₁～C₅的约束条件下最小化Δ_VL(Θ(t))上界的问题，实现了短期计算卸载优化与长期安全性约束解耦。但是，服务器侧计算资源分配和PIoT设备侧任务卸载仍然是耦合的。因此，放宽漂移加罚项的上界为

其中，

3、基于区块链和半分布式学习的安全低时延计算卸载算法

P2可以解耦为两个确定的子问题，并依次分布式求解：SP1：任务卸载优化；SP2：计算资源分配优化。

(1)任务卸载优化

SP1优化每个PIoT设备的任务卸载决策，其表达式为

s.t.C₁～C₂(28)

由于CSI的不确定性，u_i无法掌握U_i(t)、

和

等信息。因此，本发明提出FDAC-EMI求解SP1。

首先，任务卸载问题可以建模为MDP，详细描述如下。

1)状态空间:u_i在时隙t的状态空间S_i(t)定义为

2)动作空间：动作空间x_i(t)定义为

3)奖励：由于SP1为最小化问题，本发明定义成本函数为SP1的优化目标Ψ_i(x_i(t))。

通过利用分布式PIoT设备上的本地数据进行局部模型更新，以及利用联邦平均局部模型进行周期性全局模型更新，本发明提出的FDAC-EMI可有效提高学习性能并降低学习成本。通过使用先进的压缩技术，模型上传和下载的通信成本相对较小，可以忽略不计。云服务器负责全局模型更新，BSs负责PIoT设备与云服务器之间的模型上传和下载。FDAC-EMI包括一个全局模型和I个本地模型。每个模型包含一个演员网络和一个评论家网络，演员网络采取行动并优化策略，而评论家网络则对具体情形进行批评并指导政策优化。全局演员网络模型、全局评论家网络模型、u_i本地演员模型和u_i本地评论家模型分别表示为θ_G(t)，ω_G(t)，θ_i(t)和ω_G(t)。

FDAC-EMI包含初始化、模型下载、动作执行、局部模型更新、局部模型上传、联邦集确定和联邦平均七个阶段。为了降低通信成本，减轻局部模型不收敛的不利影响，每T₀>1个时隙(即一个时间段)，进行一次模型下载、局部模型上传、联邦集确定和联邦平均。

1)初始化：初始化时，对全局演员网络和全局评论家网络进行随机权值初始化。成本函数Ψ_i(x_i(t))初始化为零。

2)模型下载：在第g时间段开始时刻，即t＝(g-1)T₀+1时，u_i从云服务器上下载全局模型，并设置本地模型为θ_i(t)＝θ_G(t)和ω_i(t)＝ω_G(t)。

3)动作执行：在时隙t，u_i基于策略π(S_i(t)|θ_i(t))和状态空间S_i(t)选择动作x_i(t)。然后，u_i执行任务卸载决策，观察

和

并计算成本函数Ψ_i(x_i(t))。

4)局部模型更新：在时隙t，u_i计算TD误差κ_i(t)，并将本地演员网络模型θ_i(t+1)和本地评论家网络模型ω_i(t+1)更新为

κ_i(t)＝Ψ_i(x_i(t))+γV(S_i(t+1),ω_i(t))-V(S_i(t),ω_i(t)), (30)

5)本地模型上传：在第g时间段末，即t＝gT₀时刻，u_i将本地模型上传至云服务器进行全局模型更新。

6)联邦集确定：考虑到突发的强电磁干扰对本地模型的不利影响，为了保证全局模型的收敛性，需要确定一个没有异常的本地模型的联邦集。分别定义有无u_i本地网络模型参与的全局网络模型更新为

其中

为全局演员网络的training batch大小。此联邦集可确定为

其中S_test为用于确定联邦集的状态空间。

7)联邦平均：在第g时间段末，即t＝gT₀时，云服务器根据获得的联邦集

此外，

更新队列积压Q_i(t+1)，

和Y(t+1)。当t>T时，迭代结束。

(2)计算资源分配

给定x(t)，SP2求解服务器侧计算资源分配，表示为

s.t.C₃～C₅,

由于τ_BC(t)与f^b成反比，本发明利用

来代替f^b，使任务处理和块创建之间的计算资源分配解耦。由于创建块所需的CPU周期在主节点和非主节点之间是不同的，所以GBS的计算资源分配可以分解为主节点和非主节点的计算资源分配。因此，SP2可以进一步分解为云服务器SP2-1、无人机SP2-2、主节点SP2-3和非主节点SP2-4的计算资源分配。

1)云服务器计算资源分配：SP2-1表示为

s.t.C₅ and C₇ (37)

2)无人机计算资源分配：SP2-2表示为

s.t.C₄ and C₈ (38)

3)主节点计算资源分配：SP2-3表示为

其中，

4)非主节点计算资源分配：SP2-4的表示为

其中，

给定X＝sup{x₁,…,x_I}，则min{x}近似为

其中k是可控参数。

和

SP2-1近似为

s.t.C₅ and C₇. (44)

本发明利用拉格朗日对偶分解将(45)分解为

根据Karush-Kuhn-Tucker(KKT)条件，时隙t的第(l+1)次更新迭代中

的最优值可表示为

定义Δ_vi(t,l)为步长，基于梯度法，v_i(t,l+1)和μ_i(t,l+1)可分别计算为

本实施例对上述提出的BRACE算法进行了仿真实验，并设置了三个基线算法进行性能的对比验证，基线算法设置如下

FA-UCB：前传感知上置信界算法，仅考虑了地面网络，任务处理和块创建的计算资源分配是固定的。

FTO：基于联邦深度强化学习的任务卸载算法，任务处理和块创建的计算资源分配是固定的。

DTO：基于分布式深度演员-评论家的计算卸载算法，该算法考虑了任务卸载和计算资源的分配。

三种基线算法都没有考虑EMI对网络性能的影响，即不具备EMI感知。

图2和图3显示了任务卸载排队时延和任务处理排队延迟随时隙的变化。与FA-UCB、FTO和DTO相比，BRACE可分别降低任务卸载排队时延88.64％、24.83％和60.13％，降低任务处理排队延迟86.48％、59.15％和72.95％。由图2可以看出，当电磁干扰严重时，BRACE的队列时延更稳定。其原因是，BRACE可以通过从联邦集中去除异常的本地网络模型来实现EMI感知，从而减轻EMI的不利影响。

图4显示了总排队时延与时隙的关系。与FA-UCB、FTO和DTO相比，BRACE可分别降低总排队时延86.98％，52.22％和70.94％。原因在于BRACE通过半分布式学习框架可以充分利用环境观测数据，并通过EMI感知减轻EMI的不利影响。

图5显示了块创建时延随全节点数J的变化。当J从2增加到6时，与DTO、FTO和FA-UCB相比，BRACE可分别降低时延增量40.13％、66.62％和74.65％。原因在于BRACE能够实现服务器侧计算资源的动态分配。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种电力物联网低时延安全云边端协同方法，其特征在于，包括以下步骤：

步骤1，构建系统模型；

所述系统模型由电力物联网设备简称PIoT设备、地面基站GBS、无人机UAV、边缘服务器、云服务器和卫星组成；

假设存在I个PIoT设备，J+M个基站BS，基站包括J个GBS和M个UAV；

PIoT设备和BS的集合分别表示为

其中,s_j,j＝1,…J,表示GBS，s_j,j＝J+1,…J+M表示UAV；

BS与边缘服务器位于相同位置，为PIoT设备提供数据传输和计算服务；云服务器通过有线链路与GBS连接，通过无线链路与无人机连接；PIoT设备通过BS将任务卸载到边缘服务器进行计算，并采用区块链技术保证计算卸载的安全性；利用卫星在区块链节点之间广播消息；

假设网络状态在一个时隙内保持不变，而在不同的时隙之间变化；在时隙t，表示到达u_i的任务数据量为A_i(t)，其满足0≤A_i(t)≤A_i,max；定义U_i(t)表示为u_i在时隙t的吞吐量；将存储在u_i缓冲区中的数据建模为数据队列，其队列的积压表示为Q_i(t)，则可不断更新表示为

Q_i(t+1)＝max{Q_i(t)-U_i(t),0}+A_i(t) (1)

A_i(t)和U_i(t)分别为队列的输入和输出；

步骤2，构建任务卸载模型；

定义s_j对u_i的服务可用性二进制指示变量为a_i,j(t)∈{0,1}；特别地，a_i,j(t)＝1表示在时隙t，s_j对u_i可用，否则a_i,j(t)＝0；任务卸载决策由两部分组成:1)选择GBS或UAV进行数据传输；2)选择云计算或边缘计算进行任务处理；u_i的任务卸载决策定义为一组二进制指示变量

表示u_i选择s_j在时隙t中进行数据传输,否则

表示u_i选择云计算，

表示u_i在时隙t选择边缘计算；

21)PIoT设备GBS通信模型:给定

u_i与s_j之间的传输速率为

其中h_i,j(t)，B_i,j(t)，P_i(t)，

分别为u_i与s_j之间的信道增益、带宽、传输功率和EMI功率，δ²是噪声功率；

22)PIoT设备无人机通信模型:给定

u_i与s_j之间的传输速率为

其中L_i,j(t)为u_i和s_j之间的路径损耗，表示为

其中d_i,j(t)和r_i,j(t)分别为u_i与s_j在时隙t的垂直距离和水平距离；

和

分别为视距链路和非视距链路的自由空间路径损耗的附加损失；f_c是载频，c是光速；

为PIoT设备-无人机视距链路概率，表示为

其中b₁，b₂，

和

的值取决于传输环境；

u_i在时隙t的吞吐量计算为

步骤3，构建任务处理模型

定义

和

其中，

分别为s_j和云服务器处理的数据量；定义s_j和云服务器为计算u_i数据分配的CPU周期频率为

和f_i ^c(t)，

和

表示为

λ_i表示处理1比特u_i任务数据需要的CPU周期数；

步骤4，构建排队时延模型；

其中

表示Q_i(t)的时间平均到达速率，计算为

对于u_i，边缘计算和云计算的排队时延分别计算为

其中

和

分别为

和

的时间平均到达速率，计算为

所以u_i在时隙t的总排队时延为

步骤5，构建联盟区块链模型；

区块链节点分为两类：完整节点和轻量级节点；GBS作为完整节点参与区块链共识过程，UAV作为轻量级节点；卫星负责在区块链节点之间广播消息，实现低时延共识；

在区块共识过程中采用实用拜占庭容错协议PBFT，以实现较低的共识时延和确定性；每个时隙选取一个GBS作为主节点，其他GBS为非主节点；非主节点在主节点的协调下参与共识过程；

步骤6，问题建模；

P1∶

s.t.C₁：

C₂：

C₃：

C₄：

C₅：

C₆：

表示任务卸载向量；

和

分别表示用于任务处理和块创建的边-服务器-端计算资源分配向量；

为云服务器端计算资源分配向量；C₁和C₂分别表示每个PIoT设备在每个时隙只能选择一个BS和一个计算模式；C₃、C₄、C₅分别表示GBS、UAV和云服务器的计算资源分配约束，其中

和

分别表示s_j和云服务器的最大可用CPU周期频率；C₆表示长期安全性约束；

步骤7，问题转化；

利用李雅普诺夫优化将长期约束与短期决策优化解耦；

定义安全性赤字虚拟队列Y(t)，表示为

Y(t)表示创建块的时延与规定安全需求之间的偏差；

因此，P1可重写为

P2∶

s.t.C₁～C₅,

定义

李雅普诺夫函数表示为

李雅普诺夫漂移ΔL(Θ(t))定义为两个相邻时隙之间L(Θ(t))的条件变化；ΔL(Θ(t))的绝对值越大表示队列积压的波动越剧烈，队列稳定性越差；对于最小化问题P2，引入漂移加罚项在维持队列稳定的同时最小化总排队时延，表示为

其中

V是一个非负权值，用于平衡“惩罚最小化”和“队列稳定”；漂移加罚项的上界计算为

其中η是一个正常数，不影响李雅普诺夫优化；

P2转化为在C₁～C₅的约束条件下最小化Δ_VL(Θ(t))上界的问题，实现了短期计算卸载优化与长期安全性约束解耦；放宽漂移加罚项的上界为

其中，

步骤9，P2可以解耦为SP1：任务卸载优化和SP2：计算资源分配优化；

91)任务卸载优化；

SP1优化每个PIoT设备的任务卸载决策，其表达式为

s.t.C₁～C₂ (28)

FDAC-EMI求解SP1；

首先，任务卸载问题建模为MDP：

1)状态空间:u_i在时隙t的状态空间S_i(t)定义为

2)动作空间：动作空间x_i(t)定义为

3)奖励：由于SP1为最小化问题，定义成本函数为SP1的优化目标Ψ_i(x_i(t))；

通过利用分布式PIoT设备上的本地数据进行局部模型更新，以及利用联邦平均局部模型进行周期性全局模型更新，云服务器负责全局模型更新，BSs负责PIoT设备与云服务器之间的模型上传和下载；FDAC-EMI包括一个全局模型和I个本地模型；每个模型包含一个演员网络和一个评论家网络，演员网络采取行动并优化策略，而评论家网络则对具体情形进行批评并指导政策优化；全局演员网络模型、全局评论家网络模型、u_i本地演员模型和u_i本地评论家模型分别表示为θ_G(t)，ω_G(t)，θ_i(t)和ω_G(t)；

所述FDAC-EMI包含七个阶段：

初始化：初始化时，对全局演员网络和全局评论家网络进行随机权值初始化；成本函数Ψ_i(x_i(t))初始化为零；

模型下载：在第g时间段开始时刻，即t＝(g-1)T₀+1时，u_i从云服务器上下载全局模型，并设置本地模型为θ_i(t)＝θ_G(t)和ω_i(t)＝ω_G(t)；

动作执行：在时隙t，u_i基于策略π(S_i(t)|θ_i(t))和状态空间S_i(t)选择动作x_i(t)；然后，u_i执行任务卸载决策，观察

和f_i ^c(t)并计算成本函数Ψ_i(x_i(t))；

κ_i(t)＝Ψ_i(x_i(t))+γV(S_i(t+1),ω_i(t))-V(S_i(t),ω_i(t)), (30)

其中γ∈[0,1]为折现因子；κ_i(t)绝对值越大，说明局部模型的估计偏差越大；ξ和ξ′分别为本地演员网络模型和本地评论家网络模型的学习速率；

本地模型上传：在第g时间段末，即t＝gT₀时刻，u_i将本地模型上传至云服务器进行全局模型更新；

联邦集确定：考虑到突发的强电磁干扰对本地模型的不利影响，为了保证全局模型的收敛性，需要确定一个没有异常的本地模型的联邦集；分别定义有无u_i本地网络模型参与的全局网络模型更新为

其中

为全局演员网络的training batch大小；此联邦集可确定为

其中S_test为用于确定联邦集的状态空间；

此外，

更新队列积压Q_i(t+1)，

和Y(t+1)；当t>T时，迭代结束；

92)计算资源分配；

给定x(t)，SP2求解服务器侧计算资源分配，表示为

SP2∶

s.t.C₃～C₅,

C₇：

C₈：

2.根据权利要求1所述的一种电力物联网低时延安全云边端协同方法，其特征在于：步骤5中共识过程由5个阶段组成：

1)请求：一个事务生成器s_j向主节点s_j*发送请求消息；包含事务信息的请求消息由s_j的私钥签名，并由消息身份验证节点MAC进行身份验证；签名一个事务消息、验证一个签名和生成并验证一个MAC所需的CPU周期分别表示为∈_s、∈_v和∈_c；事务生成器花费∈_s+∈_c的CPU周期生成请求，主节点验证请求的CPU周期为(J+M+1)(∈_v+∈_c)；

2)预准备：请求阶段收集的所有有效事务信息都被主节点包含到一个块中；然后，主节点通过卫星向所有非主节点广播一条预准备消息以及签名块；主节点对块和J-1个MAC生成签名，供非主节点验证，此过程需要(∈_s+(J-1)∈_c)个CPU周期；然后非主节点需要验证块的签名和MAC，以及预准备消息中事务的签名和MAC，需要的CPU周期数为(J+M+2)(∈_v+∈_c)；

3)准备：在验证签名和MAC后，每个非主节点向所有完整节点发送准备消息；然后，每个非主节点检查接收到的预准备和准备消息的一致性；根据PBFT协议，所有完整节点从不同的非主节点收集的共识消息至少为2[F]个,F＝(J-1)/3；主节点验证2[F]个MAC和签名，需要2[F](∈_v+∈_c)CPU周期；由于每个非主节点需要额外生成签名和J-1个MAC，因此每个非主节点所需的CPU周期为2[F](∈_v+∈_c)+∈_s+(J-1)∈_c；

4)确认：在接收到2[F]个共识消息后，每个完整节点向所有其他完整节点广播一个确认消息；一旦接收到2[F]+1个确认消息，完整节点进入下一个阶段；在此阶段，每个完整节点为确认消息生成一个签名和J-1个MAC，并验证2[F]+1个签名和MAC，需要的CPU周期为∈_s+(J-1)∈_c+(2[F]+1)(∈_v+∈_c)

5)答复：从其它完整节点接收到至少2[F]+1个确认消息的完整节点，接受该块为有效块，并在本地复制该块；在这些完整节点中，每个非主节点向主节点发送一个答复消息；一旦接收到[F]个答复消息后，主节点将验证过的块更新到区块链；非主节点生成一个签名和J-1MAC组成答复消息，需要∈_s+(J-1)∈_cCPU周期；主节点验证[F]签名和MAC，需要[F](∈_v+∈_c)CPU周期；