CN114189892A

CN114189892A - 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法

Info

Publication number: CN114189892A
Application number: CN202111540155.0A
Authority: CN
Inventors: 李萌; 裴攀; 司鹏搏; 杨睿哲; 孙艳华; 孙恩昌; 张延华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-15
Anticipated expiration: 2041-12-15
Also published as: CN114189892B

Abstract

本发明公开了一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法，通过构建6G网络传输模型、计算任务模型和区块链模型，计算MEC服务器本地计算和卸载计算的能耗和服务时延、卸载过程的传输能耗、以及区块链在数据共识过程中产生的时延，根据系统状态并通过集体强化学习算法，训练系统参数并完成训练结果在多小区之间的智能体共享，从而指导调整MEC服务器的卸载决策、区块链区块间隔设计和MEC服务器传输功率选择，实现云边系统物联网系统的最优资源分配。仿真实验表明，本发明提出的面向云边协同的物联网系统资源分配方法在节省系统能耗和服务时延方面具有一定的优势。

Description

一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法

技术领域

本发明涉及一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法，通过设计一种由区块链使能的集体强化学习算法，面向云边协同的物联网系统，优化资源分配策略，有效减少系统能耗和服务时延的决策优化方法，属于物联网中资源分配和系统决策的相关领域。

背景技术

近年来，智能设备的普及推动了物联网技术的快速发展。物联网通过结合互联网和信息传感设备形成了一个巨大的网络，实现了物与物、物与人之间的有效而又方便的交互。多种类型的智能设备将被应用到我们日常生活当中的各类应用当中，包括智慧医疗、自动驾驶汽车和虚拟现实等等。

在大多数物联网应用场景中，确保设备与设备通信之间的高传输率和低能量开销是至关重要的。然而，现有的通信网络已经不能够满足物联网中的数据密集型应用。此外，由于没有高可靠的信任主体管理数据传输过程和保护个人敏感数据隐私，数据交互或者共享过程中的安全性通常难以保证。与此同时，由于大多数的物联网节点是轻量级的并且计算能力和能量资源有限，导致了这些节点很难单独地处理大量且复杂的计算任务。

幸运的是，6G无线通信网络预计将为物联网应用提供高传输率通信，其中，太赫兹(terahertz,THz)频带，作为一个候选频带，在6G通信网络中被提出。此外，移动边缘计算(mobile edge computing,MEC)被认为是一种关键技术。相比于集中式的云计算，MEC可以为物联网终端设备提供较高的计算效率，较低的服务时延，以及较少的能量消耗。大多数研究工作聚焦于在基于MEC的物联网系统中通过计算、网络资源的调度和计算卸载来优化系统中的能耗和时延。此外，结合云计算系统架构，云边协同的计算架构已经被许多研究中提出可以为MEC服务器提高计算能力和缓解计算负载。因此，面向物联网的6G和云边协同技术的结合已经在很多研究中被提出。

尽管MEC服务器相比于物联网终端设备有较多的计算资源，但是它仍然遭受着资源限制的问题。此外，由于网络资源和计算资源的动态性特点，智能算法通常被利用来解决物联网中资源优化和计算卸载问题。然而，传统的机器学习方法通常需要单一的节点训练，而且需要依赖智能设备拥有足够的计算资源。因此，对于一个MEC节点既要执行自己的计算任务又要训练机器学习算法，这是非常有挑战性的。为了缓解单个MEC节点因训练机器学习算法而导致的计算资源不足的问题，我们设计了一种集体强化学习(collectivereinforcement learning,CRL)算法，通过在不同的智能体之间共享训练结果，提升传统机器学习的训练效率。

针对基于CRL算法的物联网系统的网络和计算资源调度管理，如何确保在训练结果分享过程中数据的安全性和可靠性也是亟待解决的问题。对此，区块链(blockchain)技术可以用来解决数据共享过程中的安全和可靠性问题。在物联网场景中，区块链的去中心化、共享和防篡改的特性能很好的确保关键数据的隐私和安全。并且，由于MEC和区块链相同的去中心化特征和相互依赖的功能，MEC的分布式结构也能够支持区块链共识过程产生的任务计算，这使它们的组合变得更加自然。然而，由于引入区块链技术，区块链共识带来的能量消耗以及计算复杂度问题也不容忽视。

综上所述，本发明面向数据密集型的云边协同物联网场景，提出一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法。基于6G太赫兹通信，并联合考虑MEC服务器、云服务器以及MEC服务器与云服务器之间的通信信道增益状态，结合CRL智能优化方法实现训练数据的共享和最优策略的选取。同时，区块链技术的引入确保整个优化决策过程中数据的安全性与可靠性。基于所提方法，最终实现云边协同的物联网系统中的能量消耗和服务时延的联合最优化。

发明内容

本发明的主要目的是在场景内资源优化分配最优的角度上，考虑场景内存在多小区、多基站、多MEC服务器以及单个云服务器的情况下，以降低系统能量消耗和服务时延为优化目标，对场景进行建模，并提出了一种CRL算法，并通过该算法训练系统参数并完成训练结果在多小区之间的智能体共享，从而指导调整MEC服务器的决策选择，获得节能且低时延的资源优化分配最优策略。本方法解决了在场景下存在多小区、多基站、多MEC服务器以及单个云服务器的情况下，如何确定最优资源分配策略的问题，并通过执行最优资源分配策略有效降低系统能量消耗和服务时延。

本发明所适应的多MEC服务器环境场景模型见图1。

本发明技术方案中的系统运行原理流程图见图2。

本发明系统总能耗与数据任务量关系图见图3。

本发明系统总服务时延与数据任务量关系图见图4。

本发明系统权值消耗与数据任务量关系图见图5。

本发明的多MEC服务器环境场景模型如图1所示，基于区块链和集体强化学习的云边协同物联网系统资源分配方法，在某个通信场景下，考虑一个云服务器覆盖的领域有多个基站，每个基站配备着一个MEC服务器并且覆盖着大量的移动设备。此外，还存在由多个基站构成的区块链系统，其中，每个基站被当作区块链节点。当已知MEC服务器数量后，根据实际环境情况设计通信模型和计算模型。而后构造CRL中的状态空间、动作空间和奖励函数，并设置训练网络中的样本空间大小、抽样数量等参数，结合场景模型进行迭代学习，然后根据CRL算法进行多智能体共享训练结果的实现，以此训练各自智能体的深度神经网络参数，用以估计状态动作值。最后在策略网络指导下执行资源分配最优策略，从而有效降低系统能量消耗和服务时延。具体依次按以下步骤实现：

步骤(1)，MEC服务器收集移动终端设备或者区块链共识产生的数据任务，将数据处理打包进行处理，具体步骤如下：

通信场景中存在u个有处理任务的MEC服务器，在每个时间节点t∈{1,2,...,T}，T为MEC服务器能量耗尽的时刻，MEC服务器选择在本地执行任务时，产生的处理时延t_c和能耗e_c分别表示为：

和

其中，Q表示每轮处理计算任务所消耗的CPU计算周期，F_m表示MEC服务器中的CPU计算频率，p_m则表示MEC服务器的CPU计算能力。

对应的，如果MEC服务器将数据处理任务卸载至云服务器处理时，相应产生的时延和能耗主要来自数据传输以及云服务器处理的过程，传输过程采用6G太赫兹通信模型。在这个过程中，产生的时延t_s和能耗e_s分别表示为：

和

其中，D为计算任务数据大小，P_u为MEC服务器的传输功率，R_u为MEC服务器与云服务器之间的传输速率，P_s为云服务器的计算功率，F_s为云服务器的计算能力。

步骤(2)，区块链系统的共识节点对MEC服务器发送的交易数据进行验证和共识，具体步骤如下：

步骤(2.1)，共识节点采用实用拜占庭容错共识机制对区块和交易进行验证共识，生成或验证一个签名所需的CPU周期为θ、生成或验证一个消息验证码所需的CPU周期为δ，各共识节点完成一次共识过程所需的总计算周期c为：

其中，λ为主节点发送验证正确交易比例，g为总交易大小，o为平均交易大小，f为最多可容纳的错误节点数量，f＝(m-1)/3，m为区块链系统中的共识节点数量；

步骤(2.2)，共识节点的验证过程是由MEC服务器和云服务器提供算力支持，因此共识验证过程产生的时延表示为

其中，t_i为块的生成间隔，F_b＝F_m或者F_b＝F_s，这个取决于智能体选择MEC服务器去处理共识过程还是选择将共识任务卸载至云服务器处理，t_n为节点间的广播时延。

步骤(3)，在该云边协同系统任务处理过程中，所产生的总的时延T表示为：

产生的总能耗E表示为：

步骤(4)，根据步骤(1)-(3)，结合场景和优化目标，设置CRL中的状态空间、动作空间和奖励函数，具体步骤如下：

步骤(4.1)，根据场景内MEC服务器和云服务器的剩余的计算资源状态，以及MEC服务器与云服务器通信信道的增益状态，设置状态空间：

ψ(t)＝{η(t),ε(t),G(t)}

其中，η(t)和ε(t)分别为MEC服务器和云服务器的剩余计算资源状态，G(t)＝{G_t(t),G_r(t)}为MEC服务器与云服务器通信信道的增益状态，其中G_t(t)为信道发送增益，G_r(t)为信道接收增益；

步骤(4.2)，根据场景内MEC服务器的卸载决策，区块链间隔大小，以及MEC服务器信息传输的发射功率，设置动作空间：

a(t)＝{ρ(t),i(t),p(t)}

其中，ρ(t)＝{0,1}为MEC服务器计算任务的卸载决策动作，i(t)∈{1,2,...,i}为调整区块间隔动作，p(t)为调整MEC服务器信息传输的发射功率动作；

步骤(4.3)，根据优化目标，设置奖励函数：

s.t.C1:a_p(t)∈(0,P_max],

C2:T_b(t)≤β×T_i(t),

C3:D(t)≤S(t),

C4:B≤B_max.

其中，ω₁和ω₂分别为能耗和时延的加权系数，

为惩罚值，C₁表示MEC服务器传输功率限制，C₂表示区块完成时限，C₃表示任务数据大小限制，C₄表示传输信道带宽限制。

步骤(5)，通过设计一个CRL算法实现多智能体协作以达到训练经验共享，考虑到大多数存在的研究工作都关注于单个智能体训练学习，并没有考虑从其他智能体节点学习已经训练完成的经验。相比于智能体单独训练，多智能体协作不仅能提高单个智能体训练效率，而且能减少智能体节点的计算资源消耗。CRL算法具体步骤如下：

步骤(5.1)，首先需要在本地的MEC服务器中智能体利用传统的深度强化学习(deep reinforcement learning,DRL)方法单独训练，根据步骤(4)中构建的状态空间、动作空间和奖励函数，为每个MEC服务器中的智能体设置样本空间大小、抽样数量以及网络层数，对深度神经网络进行训练用于近似描述状态动作值(Q值)：

Q^*(ψ,a)＝Q^*(ψ,a,θ)

其中，θ为深度神经网络中的权值和偏置，Q值的迭代在策略网络中完成，可表示为：

Q^*(ψ,a)←Q^*(ψ,a)+α[r+γmax Q^*(ψ’,a’)-Q^*(ψ,a)]

其中，Q^*(ψ,a)表示在状态ψ下做动作a时的Q值。α为学习效率，影响Q表的更新速度。r为即时奖励，γ为奖励延迟，max Q^*(ψ’,a’)表示下一状态中选动作中的最大Q值，深度神经网络中的参数θ由损失函数进行训练迭代，表示为：

其中，θ和θ^*分别表示DRL中评估网络的参数和目标网络的参数。

通过减小损失函数，逐渐将深度神经网络中的参数调整到足以近似描述Q值；

步骤(5.2)，本地的MEC服务器智能体将训练好的深度神经网络的参数上传至区块链进行共识，然后，其他的智能节点可以共享学习经验，并利用这些参数作为初始化的参数来开始训练它们自己的深度神经网络模型。此时，深度神经网络的损失函数可表示为：

其中，

和

其中，θ^* _k和θ_k表示从区块链下载的由其他智能节点上传的训练深度神经网络参数，N表示分享了训练参数的智能节点的总数。

步骤(6)，根据步骤(5)中训练完成的深度神经网络在各状态下得到可选动作的最优策略，将策略生成的动作作为该状态下的最优动作，持续执行各状态的最优动作，直至执行指令结束。

本发明的优势在于，在具有多小区、多MEC服务器和单个云服务器的通信场景下，通过考虑MEC服务器和云服务器的计算资源状态，以及MEC服务器与云服务器之间的传输信道增益状态，使工作周期内系统的能量消耗和服务时延有效的减少。除此之外，设计了一种CRL算法，该方法可以有效地在多小区之间的智能体共享训练经验，该方法不仅能提高单个智能体训练效率，而且能减少智能体节点的计算资源消耗。通过仿真实验考查基于区块链和集体强化学习的云边协同物联网系统的资源分配方法对场景中系统能量消耗和服务时延的影响。

附图说明

图1，通信场景模型包含小区、基站、MEC服务器、云计算服务器和区块链系统的结构示意图。

图2，基于区块链和集体强化学习的云边协同物联网系统的资源分配方法设计流程图。

图3，系统总能耗与任务数据量关系图，图中五角星表示本发明所述方法，正方形表示固定MEC服务器至云服务器的传输功率框架，六边形表示现有框架。

图4，系统总服务时延与任务数据量关系图，图中五角星表示本发明所述方法，下三角形表示固定区块间隔框架，六边形表示无卸载框架，正方形表示固定MEC服务器至云服务器的传输功率框架，六边形加虚线表示现有框架。

图5，系统权值消耗(系统能耗与服务时延的加权值)与任务数据量关系图，图中五角星表示本发明所述方法，下三角形表示固定区块间隔框架，六边形表示无卸载框架，正方形表示固定MEC服务器至云服务器的传输功率框架，六边形加虚线表示现有框架。

具体实施方式

下面结合附图和实例对基于区块链和集体强化学习的云边协同物联网系统资源分配方法做进一步说明。

本发明所述方法流程图如图2所示，包括以下步骤：

步骤一，系统初始化，设定小区数量、用于服务小区任务请求的服务器数量以及服务器计算能力、MEC服务器的传输信道增益；

步骤二，根据系统实际情况，计算MEC服务器处理计算任务的时延t_c和能耗e_c、卸载计算任务产生的传输能耗和时延以及云计算服务器的处理时延t_s和能耗e_s、区块了共识产生的时延T_b，根据以上情况MEC服务器请求处理所有计算任务产生的总服务时延T和总能耗E；

步骤三，根据优化目标，设置CRL算法的状态空间ψ(t)，动作空间a(t)和奖励函数r(t)；

步骤四，根据CRL算法解决联合优化问题，选择部分计算资源充足的本地MEC服务器训练智能体，然后将训练完成的深度神经网络各参数打包上传至区块链系统；

步骤五，系统中余下部署在MEC服务器的智能体从区块链下载最新的深度神经网络参数作为自己的初始值开始训练深度神经网络；

步骤六，根据各状态下得到的最优策略选择最优动作，获得最大收益。

图3为系统总能量消耗与任务数据量关系图。由图3可知，当任务数据量增加时，系统能耗也随之增加。本发明所述方法对应的消耗始终低于其余方法，且当消耗相同系统能量时，在本发明所述方法下可服务更多任务数据。例如，当任务数据量为6MB时，本发明所述方法对应的系统能耗仅为1600J，而其余方法对应的系统能耗最低只能达到4500J。

图4为系统总服务时延与任务数据量关系图。由图4可知，系统总服务时延随着任务数据量的增加而增加。当任务数据量为6MB时，本发明所述方法对应的服务时延低达1.8s，而其余方法最低服务时延能达到1.25s，最高能达到1.95s。这是因为为了平衡系统能量消耗，智能体策略优化的时候，可能会更多选择任务卸载策略，这就会导致总的服务时延增加。换句话说，我们的整个系统优化的是系统能耗和服务时延，当智能体做决策的时候，往往会同时考虑两个因素。

图5为系统权值消耗(系统能耗与服务时延的加权值)与任务数据量关系图。由图5可知，当任务数据量增加时，本发明所述方法对应的系统权值消耗始终保持着最低。可以得出，当同时考虑两个指标优化的时候，基于本发明所述方法优化后的系统权值消耗始终低于基于其他方法的情况。

Claims

1.基于区块链和集体强化学习的云边协同物联网系统资源分配方法，其特征在于：该方法包括如下步骤，

步骤一，系统初始化，设定基站与MEC服务器数量、区块链共识过程的服务器数量以及服务器计算能力、通信信道增益；

步骤二，根据系统实际情况，计算MEC服务器处理计算任务的能耗e_c和时延t_c、卸载计算任务产生的传输和云服务器处理能耗e_s以及产生的传输时延和任务处理时延t_s，区块链共识产生的时延T_b；

步骤三，根据优化目标，设置集体强化学习CRL算法的状态空间ψ(t)，动作空间a(t)和奖励函数r(t)；

步骤四，根据集体强化学习CRL算法解决联合优化问题，选择部分计算资源充足的本地MEC服务器训练智能体，然后将训练完成的深度神经网络各参数打包上传至区块链系统；

2.根据权利要求1所述的基于区块链和集体强化学习的云边协同物联网系统资源分配方法，其特征在于：步骤一中，MEC服务器收集从移动设备或者区块链共识产生的计算任务，然后将任务进行处理，具体步骤如下：

和

其中，Q表示每轮处理计算任务所消耗的CPU计算周期，F_m表示MEC服务器中的CPU计算频率，p_m则表示MEC服务器的CPU计算能力；

对应的，如果MEC服务器将数据处理任务卸载至云服务器处理时，相应产生的时延和能耗主要来自数据传输以及云服务器处理的过程，传输过程采用6G太赫兹通信模型；在这个过程中，产生的时延t_s和能耗e_s分别表示为：

和

3.根据权利要求2所述的基于区块链和集体强化学习的云边协同物联网系统资源分配方法，其特征在于：步骤二中，区块链系统的共识节点对MEC服务器发送的交易数据进行验证和共识，具体步骤如下：

步骤(2.1)，共识节点采用实用拜占庭容错共识机制对区块和交易进行验证共识，生成或验证一个签名所需的CPU周期为θ、生成或验证一个消息验证码所需的CPU周期为δ，各共识节点完成一次共识过程所需的总计算周期c为

4.根据权利要求3所述的基于区块链和集体强化学习的云边协同物联网系统资源分配方法，其特征在于：步骤三中，在该云边协同系统任务处理过程中，所产生的总的时延T表示为：

产生的总能耗E表示为：

5.根据权利要求4所述的基于区块链和集体强化学习的云边协同物联网系统资源分配方法，其特征在于：步骤四中，根据步骤一至步骤三，结合场景和优化目标，设置状态空间、动作空间和奖励函数，具体步骤如下：

ψ(t)＝{η(t),ε(t),G(t)}

步骤(4.2)，根据场景内MEC服务器的卸载决策，区块链间隔大小，以及MEC服务器的信息传输的发射功率，设置动作空间：

a(t)＝{ρ(t),i(t),p(t)}

步骤(4.3)，根据优化目标，设置奖励函数：

s.t.C1:a_p(t)∈(0,P_max],

C2:T_b(t)≤β×T_i(t),

C3:D(t)≤S(t),

C4:B≤B_max.

其中，ω₁和ω₂分别为能耗和时延的加权系数，

6.根据权利要求5所述的基于区块链和集体强化学习的云边协同物联网系统资源分配方法，其特征在于：步骤五中，通过设计一个CRL算法实现多智能体协作以达到训练经验共享，考虑到大多数存在的研究工作都关注于单个智能体训练学习，并没有考虑从其他智能体那里学习已经训练完成的经验；相比于智能体单独训练，多智能体协作不仅能提高单个智能体训练效率，而且能减少智能体节点的计算资源消耗；CRL算法具体步骤如下：

步骤(5.1)，首先需要在本地的MEC服务器中智能体利用传统的深度强化学习(deepreinforcement learning,DRL)方法单独训练，根据步骤(4)中构建的状态空间、动作空间和奖励函数，为每个MEC服务器中的智能体设置样本空间大小、抽样数量以及网络层数，对深度神经网络进行训练用于近似描述状态动作值(Q值)：

Q^*(ψ,a)＝Q^*(ψ,a,θ)

Q^*(ψ,a)←Q^*(ψ,a)+α[r+γmaxQ^*(ψ’,a’)-Q^*(ψ,a)]

其中，Q^*(ψ,a)表示在状态ψ下做动作a时的Q值；α为学习效率，影响Q表的更新速度；r为即时奖励，γ为奖励延迟，max Q^*(ψ’,a’)表示下一状态中选动作中的最大Q值，深度神经网络中的参数θ由损失函数进行训练迭代，表示为：

其中，θ和θ^*分别表示DRL中评估网络的参数和目标网络的参数；

步骤(5.2)，本地的MEC服务器智能体将训练好的深度神经网络的参数上传至区块链进行共识，然后，其他的智能节点都可以共享学习经验，并利用这些参数作为初始化的参数来开始训练它们自己的深度神经网络模型；此时，深度神经网络的损失函数可表示为：

其中，

和

7.根据权利要求6所述的基于区块链和集体强化学习的云边协同物联网系统资源分配方法，其特征在于：步骤六中，根据步骤五中训练完成的深度神经网络在各状态下得到选择动作的最优策略，将策略生成的动作作为该状态下的最优动作，持续执行各状态的最优动作，直至执行指令结束。