CN114189892B - 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 - Google Patents
一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 Download PDFInfo
- Publication number
- CN114189892B CN114189892B CN202111540155.0A CN202111540155A CN114189892B CN 114189892 B CN114189892 B CN 114189892B CN 202111540155 A CN202111540155 A CN 202111540155A CN 114189892 B CN114189892 B CN 114189892B
- Authority
- CN
- China
- Prior art keywords
- mec server
- blockchain
- server
- mec
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 238000013468 resource allocation Methods 0.000 title claims abstract description 17
- 238000005265 energy consumption Methods 0.000 claims abstract description 38
- 230000005540 biological transmission Effects 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000008901 benefit Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 16
- 238000011160 research Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法,通过构建6G网络传输模型、计算任务模型和区块链模型,计算MEC服务器本地计算和卸载计算的能耗和服务时延、卸载过程的传输能耗、以及区块链在数据共识过程中产生的时延,根据系统状态并通过集体强化学习算法,训练系统参数并完成训练结果在多小区之间的智能体共享,从而指导调整MEC服务器的卸载决策、区块链区块间隔设计和MEC服务器传输功率选择,实现云边系统物联网系统的最优资源分配。仿真实验表明,本发明提出的面向云边协同的物联网系统资源分配方法在节省系统能耗和服务时延方面具有一定的优势。
Description
技术领域
本发明涉及一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法,通过设计一种由区块链使能的集体强化学习算法,面向云边协同的物联网系统,优化资源分配策略,有效减少系统能耗和服务时延的决策优化方法,属于物联网中资源分配和系统决策的相关领域。
背景技术
近年来,智能设备的普及推动了物联网技术的快速发展。物联网通过结合互联网和信息传感设备形成了一个巨大的网络,实现了物与物、物与人之间的有效而又方便的交互。多种类型的智能设备将被应用到我们日常生活当中的各类应用当中,包括智慧医疗、自动驾驶汽车和虚拟现实等等。
在大多数物联网应用场景中,确保设备与设备通信之间的高传输率和低能量开销是至关重要的。然而,现有的通信网络已经不能够满足物联网中的数据密集型应用。此外,由于没有高可靠的信任主体管理数据传输过程和保护个人敏感数据隐私,数据交互或者共享过程中的安全性通常难以保证。与此同时,由于大多数的物联网节点是轻量级的并且计算能力和能量资源有限,导致了这些节点很难单独地处理大量且复杂的计算任务。
幸运的是,6G无线通信网络预计将为物联网应用提供高传输率通信,其中,太赫兹(terahertz,THz)频带,作为一个候选频带,在6G通信网络中被提出。此外,移动边缘计算(mobile edge computing,MEC)被认为是一种关键技术。相比于集中式的云计算,MEC可以为物联网终端设备提供较高的计算效率,较低的服务时延,以及较少的能量消耗。大多数研究工作聚焦于在基于MEC的物联网系统中通过计算、网络资源的调度和计算卸载来优化系统中的能耗和时延。此外,结合云计算系统架构,云边协同的计算架构已经被许多研究中提出可以为MEC服务器提高计算能力和缓解计算负载。因此,面向物联网的6G和云边协同技术的结合已经在很多研究中被提出。
尽管MEC服务器相比于物联网终端设备有较多的计算资源,但是它仍然遭受着资源限制的问题。此外,由于网络资源和计算资源的动态性特点,智能算法通常被利用来解决物联网中资源优化和计算卸载问题。然而,传统的机器学习方法通常需要单一的节点训练,而且需要依赖智能设备拥有足够的计算资源。因此,对于一个MEC节点既要执行自己的计算任务又要训练机器学习算法,这是非常有挑战性的。为了缓解单个MEC节点因训练机器学习算法而导致的计算资源不足的问题,我们设计了一种集体强化学习(collectivereinforcement learning,CRL)算法,通过在不同的智能体之间共享训练结果,提升传统机器学习的训练效率。
针对基于CRL算法的物联网系统的网络和计算资源调度管理,如何确保在训练结果分享过程中数据的安全性和可靠性也是亟待解决的问题。对此,区块链(blockchain)技术可以用来解决数据共享过程中的安全和可靠性问题。在物联网场景中,区块链的去中心化、共享和防篡改的特性能很好的确保关键数据的隐私和安全。并且,由于MEC和区块链相同的去中心化特征和相互依赖的功能,MEC的分布式结构也能够支持区块链共识过程产生的任务计算,这使它们的组合变得更加自然。然而,由于引入区块链技术,区块链共识带来的能量消耗以及计算复杂度问题也不容忽视。
综上所述,本发明面向数据密集型的云边协同物联网场景,提出一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法。基于6G太赫兹通信,并联合考虑MEC服务器、云服务器以及MEC服务器与云服务器之间的通信信道增益状态,结合CRL智能优化方法实现训练数据的共享和最优策略的选取。同时,区块链技术的引入确保整个优化决策过程中数据的安全性与可靠性。基于所提方法,最终实现云边协同的物联网系统中的能量消耗和服务时延的联合最优化。
发明内容
本发明的主要目的是在场景内资源优化分配最优的角度上,考虑场景内存在多小区、多基站、多MEC服务器以及单个云服务器的情况下,以降低系统能量消耗和服务时延为优化目标,对场景进行建模,并提出了一种CRL算法,并通过该算法训练系统参数并完成训练结果在多小区之间的智能体共享,从而指导调整MEC服务器的决策选择,获得节能且低时延的资源优化分配最优策略。本方法解决了在场景下存在多小区、多基站、多MEC服务器以及单个云服务器的情况下,如何确定最优资源分配策略的问题,并通过执行最优资源分配策略有效降低系统能量消耗和服务时延。
本发明的多MEC服务器环境场景模型中,基于区块链和集体强化学习的云边协同物联网系统资源分配方法,在某个通信场景下,考虑一个云服务器覆盖的领域有多个基站,每个基站配备着一个MEC服务器并且覆盖着大量的移动设备。此外,还存在由多个基站构成的区块链系统,其中,每个基站被当作区块链节点。当已知MEC服务器数量后,根据实际环境情况设计通信模型和计算模型。而后构造CRL中的状态空间、动作空间和奖励函数,并设置训练网络中的样本空间大小、抽样数量等参数,结合场景模型进行迭代学习,然后根据CRL算法进行多智能体共享训练结果的实现,以此训练各自智能体的深度神经网络参数,用以估计状态动作值。最后在策略网络指导下执行资源分配最优策略,从而有效降低系统能量消耗和服务时延。具体依次按以下步骤实现:
步骤(1),MEC服务器收集移动终端设备或者区块链共识产生的数据任务,将数据处理打包进行处理,具体步骤如下:
通信场景中存在u个有处理任务的MEC服务器,在每个时间节点t∈{1,2,...,T},T为MEC服务器能量耗尽的时刻,MEC服务器选择在本地执行任务时,产生的处理时延tc和能耗ec分别表示为:
和
其中,Q表示每轮处理计算任务所消耗的CPU计算周期,Fm表示MEC服务器中的CPU计算频率,pm则表示MEC服务器的CPU计算能力。
对应的,如果MEC服务器将数据处理任务卸载至云服务器处理时,相应产生的时延和能耗主要来自数据传输以及云服务器处理的过程,传输过程采用6G太赫兹通信模型。在这个过程中,产生的时延ts和能耗es分别表示为:
和
其中,D为计算任务数据大小,Pu为MEC服务器的传输功率,Ru为MEC服务器与云服务器之间的传输速率,Ps为云服务器的计算功率,Fs为云服务器的计算能力。
步骤(2),区块链系统的共识节点对MEC服务器发送的交易数据进行验证和共识,具体步骤如下:
步骤(2.1),共识节点采用实用拜占庭容错共识机制对区块和交易进行验证共识,生成或验证一个签名所需的CPU周期为θ、生成或验证一个消息验证码所需的CPU周期为δ,各共识节点完成一次共识过程所需的总计算周期c为:
其中,λ为主节点发送验证正确交易比例,g为总交易大小,o为平均交易大小,f为最多可容纳的错误节点数量,f=(m-1)/3,m为区块链系统中的共识节点数量;
步骤(2.2),共识节点的验证过程是由MEC服务器和云服务器提供算力支持,因此共识验证过程产生的时延表示为
其中,ti为块的生成间隔,Fb=Fm或者Fb=Fs,这个取决于智能体选择MEC服务器去处理共识过程还是选择将共识任务卸载至云服务器处理,tn为节点间的广播时延。
步骤(3),在该云边协同系统任务处理过程中,所产生的总的时延T表示为:
产生的总能耗E表示为:
步骤(4),根据步骤(1)-(3),结合场景和优化目标,设置CRL中的状态空间、动作空间和奖励函数,具体步骤如下:
步骤(4.1),根据场景内MEC服务器和云服务器的剩余的计算资源状态,以及MEC服务器与云服务器通信信道的增益状态,设置状态空间:
ψ(t)={η(t),ε(t),G(t)}
其中,η(t)和ε(t)分别为MEC服务器和云服务器的剩余计算资源状态,G(t)={Gt(t),Gr(t)}为MEC服务器与云服务器通信信道的增益状态,其中Gt(t)为信道发送增益,Gr(t)为信道接收增益;
步骤(4.2),根据场景内MEC服务器的卸载决策,区块链间隔大小,以及MEC服务器信息传输的发射功率,设置动作空间:
a(t)={ρ(t),i(t),p(t)}
其中,ρ(t)={0,1}为MEC服务器计算任务的卸载决策动作,i(t)∈{1,2,...,i}为调整区块间隔动作,p(t)为调整MEC服务器信息传输的发射功率动作;
步骤(4.3),根据优化目标,设置奖励函数:
s.t.C1:ap(t)∈(0,Pmax],
C2:Tb(t)≤β×Ti(t),
C3:D(t)≤S(t),
C4:B≤Bmax.
其中,ω1和ω2分别为能耗和时延的加权系数,θ为惩罚值,C1表示MEC服务器传输功率限制,C2表示区块完成时限,C3表示任务数据大小限制,C4表示传输信道带宽限制。
步骤(5),通过设计一个CRL算法实现多智能体协作以达到训练经验共享,考虑到大多数存在的研究工作都关注于单个智能体训练学习,并没有考虑从其他智能体节点学习已经训练完成的经验。相比于智能体单独训练,多智能体协作不仅能提高单个智能体训练效率,而且能减少智能体节点的计算资源消耗。CRL算法具体步骤如下:
步骤(5.1),首先需要在本地的MEC服务器中智能体利用传统的深度强化学习(deep reinforcement learning,DRL)方法单独训练,根据步骤(4)中构建的状态空间、动作空间和奖励函数,为每个MEC服务器中的智能体设置样本空间大小、抽样数量以及网络层数,对深度神经网络进行训练用于近似描述状态动作值(Q值):
Q*(ψ,a)=Q*(ψ,a,θ)
其中,θ为深度神经网络中的权值和偏置,Q值的迭代在策略网络中完成,可表示为:
Q*(ψ,a)←Q*(ψ,a)+α[r+γmaxQ*(ψ’,a’)-Q*(ψ,a)]
其中,Q*(ψ,a)表示在状态ψ下做动作a时的Q值。α为学习效率,影响Q表的更新速度。r为即时奖励,γ为奖励延迟,max Q*(ψ’,a’)表示下一状态中选动作中的最大Q值,深度神经网络中的参数θ由损失函数进行训练迭代,表示为:
其中,θ和θ*分别表示DRL中评估网络的参数和目标网络的参数。
通过减小损失函数,逐渐将深度神经网络中的参数调整到足以近似描述Q值;
步骤(5.2),本地的MEC服务器智能体将训练好的深度神经网络的参数上传至区块链进行共识,然后,其他的智能节点可以共享学习经验,并利用这些参数作为初始化的参数来开始训练它们自己的深度神经网络模型。此时,深度神经网络的损失函数可表示为:
其中,
和
其中,θ* k和θk表示从区块链下载的由其他智能节点上传的训练深度神经网络参数,N表示分享了训练参数的智能节点的总数。
步骤(6),根据步骤(5)中训练完成的深度神经网络在各状态下得到可选动作的最优策略,将策略生成的动作作为该状态下的最优动作,持续执行各状态的最优动作,直至执行指令结束。
本发明的优势在于,在具有多小区、多MEC服务器和单个云服务器的通信场景下,通过考虑MEC服务器和云服务器的计算资源状态,以及MEC服务器与云服务器之间的传输信道增益状态,使工作周期内系统的能量消耗和服务时延有效的减少。除此之外,设计了一种CRL算法,该方法可以有效地在多小区之间的智能体共享训练经验,该方法不仅能提高单个智能体训练效率,而且能减少智能体节点的计算资源消耗。通过仿真实验考查基于区块链和集体强化学习的云边协同物联网系统的资源分配方法对场景中系统能量消耗和服务时延的影响。
附图说明
图1,通信场景模型包含小区、基站、MEC服务器、云计算服务器和区块链系统的结构示意图。
图2,基于区块链和集体强化学习的云边协同物联网系统的资源分配方法设计流程图。
图3,系统总能耗与任务数据量关系图,图中五角星表示本发明所述方法,正方形表示固定MEC服务器至云服务器的传输功率框架,六边形表示现有框架。
图4,系统总服务时延与任务数据量关系图,图中五角星表示本发明所述方法,下三角形表示固定区块间隔框架,六边形表示无卸载框架,正方形表示固定MEC服务器至云服务器的传输功率框架,六边形加虚线表示现有框架。
图5,系统权值消耗(系统能耗与服务时延的加权值)与任务数据量关系图,图中五角星表示本发明所述方法,下三角形表示固定区块间隔框架,六边形表示无卸载框架,正方形表示固定MEC服务器至云服务器的传输功率框架,六边形加虚线表示现有框架。
具体实施方式
下面结合附图和实例对基于区块链和集体强化学习的云边协同物联网系统资源分配方法做进一步说明。
本发明所适应的多MEC服务器环境场景模型见图1。
本发明技术方案中的系统运行原理流程图见图2。
本发明系统总能耗与数据任务量关系图见图3。
本发明系统总服务时延与数据任务量关系图见图4。
本发明系统权值消耗与数据任务量关系图见图5。
本发明所述方法流程图如图2所示,包括以下步骤:
步骤一,系统初始化,设定小区数量、用于服务小区任务请求的服务器数量以及服务器计算能力、MEC服务器的传输信道增益;
步骤二,根据系统实际情况,计算MEC服务器处理计算任务的时延tc和能耗ec、卸载计算任务产生的传输能耗和时延以及云计算服务器的处理时延ts和能耗es、区块了共识产生的时延Tb,根据以上情况MEC服务器请求处理所有计算任务产生的总服务时延T和总能耗E;
步骤三,根据优化目标,设置CRL算法的状态空间ψ(t),动作空间a(t)和奖励函数r(t);
步骤四,根据CRL算法解决联合优化问题,选择部分计算资源充足的本地MEC服务器训练智能体,然后将训练完成的深度神经网络各参数打包上传至区块链系统;
步骤五,系统中余下部署在MEC服务器的智能体从区块链下载最新的深度神经网络参数作为自己的初始值开始训练深度神经网络;
步骤六,根据各状态下得到的最优策略选择最优动作,获得最大收益。
图3为系统总能量消耗与任务数据量关系图。由图3可知,当任务数据量增加时,系统能耗也随之增加。本发明所述方法对应的消耗始终低于其余方法,且当消耗相同系统能量时,在本发明所述方法下可服务更多任务数据。例如,当任务数据量为6MB时,本发明所述方法对应的系统能耗仅为1600J,而其余方法对应的系统能耗最低只能达到4500J。
图4为系统总服务时延与任务数据量关系图。由图4可知,系统总服务时延随着任务数据量的增加而增加。当任务数据量为6MB时,本发明所述方法对应的服务时延低达1.8s,而其余方法最低服务时延能达到1.25s,最高能达到1.95s。这是因为为了平衡系统能量消耗,智能体策略优化的时候,可能会更多选择任务卸载策略,这就会导致总的服务时延增加。换句话说,我们的整个系统优化的是系统能耗和服务时延,当智能体做决策的时候,往往会同时考虑两个因素。
图5为系统权值消耗(系统能耗与服务时延的加权值)与任务数据量关系图。由图5可知,当任务数据量增加时,本发明所述方法对应的系统权值消耗始终保持着最低。可以得出,当同时考虑两个指标优化的时候,基于本发明所述方法优化后的系统权值消耗始终低于基于其他方法的情况。
Claims (2)
1.基于区块链和集体强化学习的云边协同物联网系统资源分配方法,其特征在于:该方法包括如下步骤,
步骤一,系统初始化,设定基站与MEC服务器数量、区块链共识过程的服务器数量以及服务器计算能力、通信信道增益;
步骤二,根据系统实际情况,计算MEC服务器处理计算任务的能耗ec和时延tc、卸载计算任务产生的传输和云服务器处理能耗es以及产生的传输时延和任务处理时延ts,区块链共识产生的时延Tb;
步骤三,根据优化目标,设置集体强化学习CRL算法的状态空间ψ(t),动作空间a(t)和奖励函数r(t);
步骤四,根据集体强化学习CRL算法解决联合优化问题,选择部分计算资源充足的本地MEC服务器训练智能体,然后将训练完成的深度神经网络各参数打包上传至区块链系统;
步骤五,系统中余下部署在MEC服务器的智能体从区块链下载最新的深度神经网络参数作为自己的初始值开始训练深度神经网络;
步骤六,根据各状态下得到的最优策略选择最优动作,获得最大收益;
步骤一中,MEC服务器收集从移动设备或者区块链共识产生的计算任务,然后将任务进行处理,具体步骤如下:
通信场景中存在u个有处理任务的MEC服务器,在每个时间节点t∈{1,2,...,T},T为MEC服务器能量耗尽的时刻,MEC服务器选择在本地执行任务时,产生的处理时延tc和能耗ec分别表示为:
和
其中,Q表示每轮处理计算任务所消耗的CPU计算周期,Fm表示MEC服务器中的CPU计算频率,pm则表示MEC服务器的CPU计算能力;
如果MEC服务器将数据处理任务卸载至云服务器处理时,相应产生的时延和能耗来自数据传输以及云服务器处理的过程,传输过程采用6G太赫兹通信模型;在这个过程中,产生的时延ts和能耗es分别表示为:
和
其中,D为计算任务数据大小,Pu为MEC服务器的传输功率,Ru为MEC服务器与云服务器之间的传输速率,Ps为云服务器的计算功率,Fs为云服务器的计算能力;
步骤二中,区块链系统的共识节点对MEC服务器发送的交易数据进行验证和共识,具体步骤如下:
步骤(2.1),共识节点采用实用拜占庭容错共识机制对区块和交易进行验证共识,生成或验证一个签名所需的CPU周期为Φ、生成或验证一个消息验证码所需的CPU周期为δ,各共识节点完成一次共识过程所需的总计算周期c为
其中,λ为主节点发送验证正确交易比例,g为总交易大小,o为平均交易大小,f为最多可容纳的错误节点数量,f=(m-1)/3,m为区块链系统中的共识节点数量;
步骤(2.2),共识节点的验证过程是由MEC服务器和云服务器提供算力支持,因此共识验证过程产生的时延表示为
其中,ti为块的生成间隔,Fb=Fm或者Fb=Fs,这个取决于智能体选择MEC服务器去处理共识过程还是选择将共识任务卸载至云服务器处理,tn为节点间的广播时延;
步骤三中,在该云边协同系统任务处理过程中,所产生的总的时延T表示为:
产生的总能耗E表示为:
步骤四中,根据步骤一至步骤三,结合场景和优化目标,设置状态空间、动作空间和奖励函数,具体步骤如下:
步骤(4.1),根据场景内MEC服务器和云服务器的剩余的计算资源状态,以及MEC服务器与云服务器通信信道的增益状态,设置状态空间:
ψ(t)={η(t),ε(t),G(t)}
其中,η(t)和ε(t)分别为MEC服务器和云服务器的剩余计算资源状态,G(t)={Gt(t),Gr(t)}为MEC服务器与云服务器通信信道的增益状态,其中Gt(t)为信道发送增益,Gr(t)为信道接收增益;
步骤(4.2),根据场景内MEC服务器的卸载决策,区块链间隔大小,以及MEC服务器的信息传输的发射功率,设置动作空间:
a(t)={ρ(t),i(t),p(t)}
其中,ρ(t)={0,1}为MEC服务器计算任务的卸载决策动作,i(t)∈{1,2,...,i}为调整区块间隔动作,p(t)为调整MEC服务器信息传输的发射功率动作;
步骤(4.3),根据优化目标,设置奖励函数:
s.t.C1:ap(t)∈(0,Pmax],
C2:Tb(t)≤β×Ti(t),
C3:D(t)≤S(t),
C4:B≤Bmax.
其中,ω1和ω2分别为能耗和时延的加权系数,θ为惩罚值,C1表示MEC服务器传输功率限制,C2表示区块完成时限,C3表示任务数据大小限制,C4表示传输信道带宽限制;
步骤五中,通过设计一个CRL算法实现多智能体协作以达到训练经验共享,考虑到大多数存在的研究工作都关注于单个智能体训练学习,并没有考虑从其他智能体那里学习已经训练完成的经验;相比于智能体单独训练,多智能体协作不仅能提高单个智能体训练效率,而且能减少智能体节点的计算资源消耗;CRL算法具体步骤如下:
步骤(5.1),首先需要在本地的MEC服务器中智能体利用传统的深度强化学习(deepreinforcement learning,DRL)方法单独训练,根据步骤(4)中构建的状态空间、动作空间和奖励函数,为每个MEC服务器中的智能体设置样本空间大小、抽样数量以及网络层数,对深度神经网络进行训练用于近似描述状态动作值(Q值):
Q*(ψ,a)=Q*(ψ,a,θ)
其中,θ为深度神经网络中的权值和偏置,Q值的迭代在策略网络中完成,可表示为:
Q*(ψ,a)←Q*(ψ,a)+α[r+γmax Q*(ψ’,a’)-Q*(ψ,a)]
其中,Q*(ψ,a)表示在状态ψ下做动作a时的Q值;α为学习效率,影响Q表的更新速度;r为即时奖励,γ为奖励延迟,max Q*(ψ’,a’)表示下一状态中选动作中的最大Q值,深度神经网络中的参数θ由损失函数进行训练迭代,表示为:
其中,θ和θ*分别表示DRL中评估网络的参数和目标网络的参数;
通过减小损失函数,逐渐将深度神经网络中的参数调整到足以近似描述Q值;
步骤(5.2),本地的MEC服务器智能体将训练好的深度神经网络的参数上传至区块链进行共识,然后,其他的智能节点都可以共享学习经验,并利用这些参数作为初始化的参数来开始训练它们自己的深度神经网络模型;此时,深度神经网络的损失函数可表示为:
其中,
和
其中,θ* k和θk表示从区块链下载的由其他智能节点上传的训练深度神经网络参数,N表示分享了训练参数的智能节点的总数。
2.根据权利要求1所述的基于区块链和集体强化学习的云边协同物联网系统资源分配方法,其特征在于:步骤六中,根据步骤五中训练完成的深度神经网络在各状态下得到选择动作的最优策略,将策略生成的动作作为该状态下的最优动作,持续执行各状态的最优动作,直至执行指令结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111540155.0A CN114189892B (zh) | 2021-12-15 | 2021-12-15 | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111540155.0A CN114189892B (zh) | 2021-12-15 | 2021-12-15 | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114189892A CN114189892A (zh) | 2022-03-15 |
CN114189892B true CN114189892B (zh) | 2024-06-07 |
Family
ID=80544069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111540155.0A Active CN114189892B (zh) | 2021-12-15 | 2021-12-15 | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114189892B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979182B (zh) * | 2022-03-22 | 2023-02-14 | 大连理工大学 | 一种基于区块链的工业5g-u物联网资源调度方法 |
CN114698119B (zh) * | 2022-03-31 | 2024-09-17 | 合肥工业大学 | 配网分布式保护系统的5g通信/云边计算资源协同分配方法 |
CN114546603B (zh) * | 2022-04-24 | 2022-07-29 | 睿至科技集团有限公司 | 一种应用于物联网的数据处理方法及系统 |
CN114786201B (zh) * | 2022-04-28 | 2024-09-03 | 合肥工业大学 | 一种无线网络通信延迟和信道效率动态协同优化方法 |
CN114786152B (zh) * | 2022-04-28 | 2023-02-03 | 北京交通大学 | 一种面向智慧轨道交通的可信协同计算系统 |
CN115118462B (zh) * | 2022-06-09 | 2023-07-18 | 华中师范大学 | 一种基于卷积增强链的数据隐私保护方法 |
CN115134364B (zh) * | 2022-06-28 | 2023-06-16 | 西华大学 | 基于o-ran物联网系统的节能计算卸载系统及方法 |
CN115297450A (zh) * | 2022-08-05 | 2022-11-04 | 中国电信股份有限公司 | V2g能源交易方法、装置、电子设备及存储介质 |
CN115473896B (zh) * | 2022-09-14 | 2024-06-25 | 国网江苏省电力有限公司电力科学研究院 | 基于dqn算法的电力物联网卸载策略和资源配置优化方法 |
CN115551105B (zh) * | 2022-09-15 | 2023-08-25 | 公诚管理咨询有限公司 | 基于5g网络边缘计算的任务调度方法、装置和存储介质 |
CN115277420B (zh) * | 2022-09-27 | 2023-02-03 | 南京信息工程大学 | 一种虚拟现实网络资源管理方法 |
CN116489708B (zh) * | 2023-04-25 | 2024-01-30 | 北京交通大学 | 面向元宇宙的云边端协同的移动边缘计算任务卸载方法 |
CN117768464B (zh) * | 2023-11-13 | 2024-07-09 | 重庆理工大学 | 一种基于群智能强化学习的区块链计算任务卸载方法 |
CN117641542B (zh) * | 2024-01-23 | 2024-04-12 | 南京信息工程大学 | 一种物联网终端功耗策略在线优化的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111132175A (zh) * | 2019-12-18 | 2020-05-08 | 西安电子科技大学 | 一种协同计算卸载和资源分配方法及应用 |
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111507601A (zh) * | 2020-04-12 | 2020-08-07 | 北京工业大学 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
CN112261674A (zh) * | 2020-09-30 | 2021-01-22 | 北京邮电大学 | 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法 |
CN113344255A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 基于移动边缘计算和区块链的车载网络应用数据传输和计费优化方法 |
CN113364831A (zh) * | 2021-04-27 | 2021-09-07 | 国网浙江省电力有限公司电力科学研究院 | 基于区块链的多域异构算网资源可信协同方法 |
CN113572647A (zh) * | 2021-07-30 | 2021-10-29 | 同济大学 | 一种基于强化学习的区块链-边缘计算联合系统 |
-
2021
- 2021-12-15 CN CN202111540155.0A patent/CN114189892B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111132175A (zh) * | 2019-12-18 | 2020-05-08 | 西安电子科技大学 | 一种协同计算卸载和资源分配方法及应用 |
CN111405569A (zh) * | 2020-03-19 | 2020-07-10 | 三峡大学 | 基于深度强化学习的计算卸载和资源分配方法及装置 |
CN111507601A (zh) * | 2020-04-12 | 2020-08-07 | 北京工业大学 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
CN112261674A (zh) * | 2020-09-30 | 2021-01-22 | 北京邮电大学 | 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法 |
CN113364831A (zh) * | 2021-04-27 | 2021-09-07 | 国网浙江省电力有限公司电力科学研究院 | 基于区块链的多域异构算网资源可信协同方法 |
CN113344255A (zh) * | 2021-05-21 | 2021-09-03 | 北京工业大学 | 基于移动边缘计算和区块链的车载网络应用数据传输和计费优化方法 |
CN113572647A (zh) * | 2021-07-30 | 2021-10-29 | 同济大学 | 一种基于强化学习的区块链-边缘计算联合系统 |
Non-Patent Citations (1)
Title |
---|
Cloud–Edge Collaborative Resource Allocation for Blockchain-Enabled Internet of Things: A Collective Reinforcement Learning Approach;Meng Li等;《IEEE》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114189892A (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114189892B (zh) | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 | |
Xiong et al. | Task offloading in UAV-aided edge computing: Bit allocation and trajectory optimization | |
Luo et al. | Adaptive video streaming with edge caching and video transcoding over software-defined mobile networks: A deep reinforcement learning approach | |
US11831708B2 (en) | Distributed computation offloading method based on computation-network collaboration in stochastic network | |
Zhou et al. | Communication-and-computing latency minimization for UAV-enabled virtual reality delivery systems | |
CN109151864B (zh) | 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法 | |
CN114051254B (zh) | 一种基于星地融合网络的绿色云边协同计算卸载方法 | |
Zhang et al. | Theoretical analysis on edge computation offloading policies for IoT devices | |
Shi et al. | Delay minimization for NOMA-mmW scheme-based MEC offloading | |
CN111711962A (zh) | 一种移动边缘计算系统子任务协同调度方法 | |
Zhang et al. | Efficient Multitask Scheduling for Completion Time Minimization in UAV‐Assisted Mobile Edge Computing | |
CN112860429A (zh) | 一种移动边缘计算系统中任务卸载的成本效率优化系统及方法 | |
CN113286317A (zh) | 一种基于无线供能边缘网络的任务调度方法 | |
Qiu et al. | Subchannel assignment and power allocation for time-varying fog radio access network with NOMA | |
Dai et al. | Hybrid quantum-behaved particle swarm optimization for mobile-edge computation offloading in internet of things | |
Consul et al. | FLBCPS: federated learning based secured computation offloading in blockchain-assisted cyber-physical systems | |
CN116260821A (zh) | 基于深度强化学习和区块链的分布式并行计算卸载方法 | |
CN109981340B (zh) | 雾计算网络系统中联合资源优化的方法 | |
Wang et al. | Optimal energy efficiency for multi-mec and blockchain empowered iot: a deep learning approach | |
Li et al. | Multiagent Reinforcement Learning for Task Offloading of Space/Aerial‐Assisted Edge Computing | |
Chang et al. | Towards an Efficient and Dynamic Allocation of Radio Access Network Slicing Resources for 5G Era | |
Tong et al. | FedTO: Mobile-aware task offloading in multi-base station collaborative MEC | |
Zhang et al. | On-device intelligence for 5g ran: Knowledge transfer and federated learning enabled ue-centric traffic steering | |
CN116887205A (zh) | 一种面向物联网协同智能的无线联邦分割学习算法 | |
Chen et al. | Game‐Based Channel Selection for UAV Services in Mobile Edge Computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |