CN113645702B - 一种利用策略梯度技术优化的支持区块链的物联网系统 - Google Patents

一种利用策略梯度技术优化的支持区块链的物联网系统 Download PDF

Info

Publication number
CN113645702B
CN113645702B CN202110870274.6A CN202110870274A CN113645702B CN 113645702 B CN113645702 B CN 113645702B CN 202110870274 A CN202110870274 A CN 202110870274A CN 113645702 B CN113645702 B CN 113645702B
Authority
CN
China
Prior art keywords
block chain
neural network
internet
intelligent agent
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110870274.6A
Other languages
English (en)
Other versions
CN113645702A (zh
Inventor
刘儿兀
耿元哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202110870274.6A priority Critical patent/CN113645702B/zh
Publication of CN113645702A publication Critical patent/CN113645702A/zh
Application granted granted Critical
Publication of CN113645702B publication Critical patent/CN113645702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/75Information technology; Communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及强化学习技术、区块链技术和移动通信技术,提出了一种利用策略梯度技术优化的支持区块链的物联网系统,其特征在于包括智能体、支持区块链的物联网系统、经验池三个关键组成部分。其中,所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息,并负责做出行为决策;智能体由Actor和Critic两个部分组成,Actor的神经网络用θμ表示,Critic的神经网络用θQ表示。支持区块链的物联网系统会向智能体提供当前时刻的环境状态信息,然后智能体将该状态信息输入给自身具有的神经网络。神经网络通过计算当前状态下执行不同动作的预期收益,进行行为决策,使得能够得到的回报最大化。

Description

一种利用策略梯度技术优化的支持区块链的物联网系统
技术领域
本发明涉及强化学习技术、区块链技术和移动通信技术,特别是涉及利用策略梯度技术对支持区块链的物联网系统进行性能优化的方案设计。
背景技术
区块链是一种去中心化的分布式账本,存储在其中的数据和信息具有不可伪造、全程留痕、可溯源、公开透明、集体维护等特点。区块链技术利用链式数据结构验证与存储数据,利用分布式节点的共识算法来生成和更新数据,利用密码学方法保证数据传输和访问的安全,并可以利用由自动化脚本代码编写的智能合约对数据进行操作。
物联网技术被认为是信息科技产业的第三次革命,其通过使用信息传感设备和约定的协议,将任何物体与网络相连接。物体通过信息传播媒介进行信息交换和通信,实现智能化识别、定位、跟踪、监管等功能。随着物联网网络的不断发展,越来越多的物联网设备在未来将被接入。有权威机构预测,到2025年,物联网设备的数量将超过1000亿。如此庞大的接入数量将重新塑造现有的网络业务平台,但是也给现有的中心化的平台和服务器造成实时性和安全性方面的巨大挑战。
区块链的技术核心是分布式计算,以及分布式计算环境下的群体可信协作机制。在物联网网络不断发展扩大的背景下,区块链的出现为解决物联网面临的可扩展性、协作能力、信任关系与安全保护等方面的挑战提供了崭新的思路和解决方案。通过将物联网设备产生的海量数据存于分布式的区块链中,可以有效降低中心化架构的高额运维成本,并且避免了因为中心服务器崩溃造成的网络瘫痪等危险。区块链具有的不可篡改性和可溯源性,使物联网设备产生的数据可以依托这样的链式结构构建可证可溯的电子证据存证。同时,区块链可保证用户数据的安全性,避免中心化服务器泄露用户的个人隐私。目前区块链技术已广泛应用于物联网网络中,实现了物联网设备数据信息持久化、电商产品信息追溯以及安全数据交易等功能,如专利CN111586069A、CN111626752A、CN109377363B,但是区块链公链网络吞吐量低、延迟性高的问题仍然没有得到很好的解决。
强化学习是机器学习的三大范式之一,这种技术明确地考虑了智能体与不确定性环境的整个交互过程,在每次选取动作前折中权衡“探索”与“利用”,使执行动作后获取的期望回报值最大化。目前已有一些专利将深度强化学习方法Deep Q Learning(DQN)应用于区块链系统,如CN111507601A通过合理分配计算资源,达到优化系统能耗和经济开销的目标。但是目前技术方案中使用的这类DQN方法只能在离散空间上进行行为决策,因此得到的最终结果往往并非最优。相对应的,强化学习中的另一类算法,即策略梯度方法,则能够在连续空间上的进行行为决策,这将有助于我们得到更加精细化的策略。例如专利CN112261674A、CN112804103A使用了深度确定性的策略梯度技术,对支持区块链的物联网系统中的任务完成总成本进行优化。但是,这些专利在进行通信资源分配时,并没有考虑到通信信道环境的影响,由于在信号传输和估计的过程中存在不可避免的噪声和时延,即时的完美通信信道状态信息在实际场景中是无法获取的。因此,在这种存在噪声和时延的不完美环境下,重新考虑能够提升目标系统整体性能的方法是很有意义的。
针对上述的区块链及物联网系统中存在的缺陷,本发明提出一种利用策略梯度技术对支持区块链的物联网系统进行性能优化的方法。在该系统中,每个物联网节点同样作为区块链网络节点(下面统称为节点)。本发明通过引入策略梯度技术,分析各节点的历史通信状态信息和区块链状态信息,动态地选择每一轮参与区块链共识的节点集合;同时对节点资源进行分配,以更好地完成通信任务与区块链任务;进一步的,动态设计区块大小和区块生成时间间隔,以提升整个联合系统的平均吞吐量并降低时延。
发明内容
针对支持区块链的物联网系统,现有技术方案在进行通信层面的优化时,未考虑到实际环境中噪声和传输时延的影响,因此这些方案在实际应用中仍然存在一定的局限性。针对这些技术方案中存在的缺陷和不足,本发明提出了一种基于策略梯度技术的性能优化方案,旨在考虑到不完美环境的影响下,对系统的通信传输速率总和以及区块链网络的吞吐量进行联合优化,实现系统综合性能的提升。
技术方案
一种利用策略梯度技术优化的支持区块链的物联网系统,包括智能体、支持区块链的物联网系统、经验池三个关键组成部分,其结构及交互逻辑如图2所示。
其中,所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息,并负责做出行为决策;智能体由Actor和Critic两个部分组成,Actor的神经网络用θμ表示,Critic的神经网络用θQ表示。
所述经验池用于存储智能体在不同环境状态下的行为尝试经历,以供智能体后续采样并进行经验学习。
所述支持区块链的物联网系统用于为智能体提供环境状态信息,并根据智能体做出的动作给出反馈。
在物联网网络中有大量的智能化设备节点。它们通过传感器进行环境数据的采集,完成数据的处理,并根据实际需求在不同的设备上进行传输和共享。这些智能化设备将不断地创建事务,记录要完成的动作和最终需存储的数据。由于每个物联网节点都具有一定存储空间和计算能力,因此这些节点同样构成一张区块链网络,并且均可以被选择作为区块链网络中的共识节点参与到打包事务,即生成区块,和执行共识过程的工作中。事务将被转发到底层的区块链系统,由该系统完成设备信息和操作行为的记录和数据的持久化。
在本发明提出的方法中,支持区块链的物联网系统会向智能体提供当前时刻的环境状态信息,然后智能体将该状态信息输入给自身具有的神经网络。神经网络通过计算当前状态下执行不同动作的预期收益,进行行为决策,使得能够得到的回报最大化。其中在训练阶段,智能体将通过从经验池中采样过去的经验进行学习,逐步调整行为策略,并实现系统的性能优化。
算法具体步骤如下:
S1.支持区块链的物联网系统向智能体提供在时隙t的环境状态,具体包括对网络中N个节点的最新股权数量φ(t)、剩余可用功率资源c(t)、上一时刻的系统信道状态H(t-1),并记作态s(t)=[φ(t),c(t),H(t-1)]。
S2.智能体将环境状态输入到自身Actor部分的神经网络θμ中。智能体利用该神经网络计算在当前的环境状态下能够最大化预期回报的一套动作a(t)=[α(t),β(t),SB(t),TI(t)]。其中所述动作的具体内容包括:从N个节点中选择其中K个参与区块共识的节点,该K个节点的集合记作α(t),各节点分配用于完成通信任务的功率比例β(t),设置区块链大小SB(t),设置区块生成时间间隔TI(t)。
S3.假设节点发送的事务(即数据量的大小)平均大小为x。支持区块链的物联网系统根据当前的状态和智能体做出的动作,给出回报奖励r(t)=wRtotal+(1-w)Ω。其中,Rtotal为各节点在执行通信任务时的传输速率总和,Ω为整个区块链网络的吞吐量。同时,支持区块链的物联网系统对环境状态进行更新,具体体现为N个节点更新各自的信息s(t+1)=[φ(t+1),c(t+1),H(t)],包括最新股权数量φ(t+1)、剩余可用功率资源c(t+1)、上一时刻的通信信道状态H(t)。
S4.判断当前是否处于训练阶段。若是训练阶段,则继续S5;若非训练阶段,即当前正在使用训练好的神经网络进行实际决策,则已得到合适的行动,流程结束。
S5.智能体存储在时隙t得到的一组经验样本e(t)=[s(t),a(t),r(t),s(t+1)]到经验池。
S6.智能体中的Critic部分用于对在当前状态s(t)下执行某一动作a(t)后能够获得的未来累积奖励Q(s(t),a(t);θQ)进行评估。Critic将随机地从经验池中抽取一批过往的经验样本,并计算如下的损失函数:
Figure BDA0003188669900000041
其中的
Figure BDA0003188669900000042
是一组旧的神经网络参数,并且将每隔一段时间被新的神经网络参数θQ替换,γ表示一个在0~1区间范围内的折扣系数。
S7.Critic对上述损失函数进行差分运算,并利用随机梯度下降方法对自身的神经网络θQ进行更新。
S8.智能体中的Actor部分用于将某一状态s(t)确定性地映射到动作a(t)上,即行为策略a(t)~μ(s(t);θμ)。同时,Actor将根据当前的行为策略,为S6中采样得到的每一条经验输出一个最优动作,并计算效用函数
Figure BDA0003188669900000043
实现对当前行为策略的评估。
S9.在S7中得到的梯度将被传播给智能体中的Actor部分,Actor基于如下的梯度对自身的神经网络θμ进行更新:
Figure BDA0003188669900000044
S10.重复执行S1到S9,直至到达预先设定的最大循环次数。
进一步的,所述神经网络θμ和θQ具有相同的层次结构,均各自具有以下几部分:
一个含有y个神经元的输入层,其中y是状态空间的维度数;
一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;
一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;
一个含有l3个神经元的隐藏层,作为第二层隐藏层,该层与第二层隐藏层以全连接的方式连接;
一个含有z个神经元的输出层,其中z是动作空间的维度数,该层与第三层隐藏层以全连接的方式连接。
有益效果
本发明的积极进步效果在于将强化学习技术应用在支持区块链的物联网系统中,实现通信传输速率与区块链网络吞吐量的联合优化。具体来讲,本发明具有以下益处:
1、动态分配各通信节点用于传输和计算的功率,提升通信系统性能;
2、动态选择参与区块链共识过程的节点,以及区块大小和出块间隔时间,提升区块链系统性能;
3、综合考虑通信系统和区块链系统,通过调配权重参数,实现联合系统综合性能的提升。
附图说明
图1为本发明的系统模型图。
图2为本发明提出的学习模型结构。
图3为本发明的算法流程图。
图4为本发明中使用到的神经网络的结构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对如图1所示的支持区块链的物联网系统,本实施例提出了的一种基于策略梯度技术的性能优化方法,在考虑到不完美环境中的通信噪声与时延下,通过合理的资源分配与区块链共识设计,实现系统通信传输速率总和以及区块链网络吞吐量的联合优化,综合提升系统的性能。
一个支持区块链的物联网系统包含了物联网网络和区块链网络,如图1所示。在物联网网络中有大量的智能化设备节点。它们通过传感器进行环境数据的采集,完成数据的处理,并根据实际需求在不同的设备上进行传输和共享。这些智能化设备将不断地创建事务,记录要完成的动作(数据采集/数据处理/数据共享)和最终需存储的数据。由于每个物联网节点(下统称为节点)都具有一定存储空间和计算能力,因此这些节点同样构成一张区块链网络,并且均可以被选择作为区块链网络中的共识节点参与到打包事务(生成区块)和执行共识过程的工作中。事务将被转发到底层的区块链系统,由该系统完成设备信息和操作行为的记录和数据的持久化。
本发明提出一种利用策略梯度技术对支持区块链的物联网系统进行性能优化的方法。在本发明提出的学习模型中,共有智能体、支持区块链的物联网系统、经验池三个关键组成部分,其结构及交互逻辑如图2所示。其中,每个部分的作用如下。
1)智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息,并负责做出行为决策;智能体由Actor和Critic两个部分组成,Actor的神经网络用θμ表示,Critic的神经网络用θQ表示。
2)支持区块链的物联网系统用于为智能体提供环境状态信息,并根据智能体做出的动作给出反馈。
3)经验池用于存储智能体在不同环境状态下的行为尝试经历,以供智能体后续采样并进行经验学习。
在本发明提出的方法中,支持区块链的物联网系统会向智能体提供当前时刻的环境状态信息,然后智能体将该状态信息输入给自身具有的神经网络。神经网络通过计算当前状态下执行不同动作的预期收益,进行行为决策,使得能够得到的回报最大化。其中在训练阶段,智能体将通过从经验池中采样过去的经验进行学习,逐步调整行为策略,并实现系统的性能优化。算法流程如图3所示,具体的步骤如下。
1)支持区块链的物联网系统向智能体提供在时隙t的环境状态,具体包括对网络中N个节点的最新股权数量φ(t)、剩余可用功率资源c(t)、上一时刻的系统信道状态H(t-1),并记作态s(t)=[φ(t),c(t),H(t-1)]。
2)智能体将环境状态输入到自身Actor部分的神经网络θμ中。智能体利用该神经网络计算在当前的环境状态下能够最大化预期回报的一套动作a(t)=[α(t),β(t),sB(t),TI(t)]。其中所述动作的具体内容包括:从N个节点中选择其中K个参与区块共识的节点,该K个节点的集合记作α(t),各节点分配用于完成通信任务的功率比例β(t),设置区块链大小SB(t),设置区块生成时间间隔TI(t)。
3)假设节点发送的事务(即数据量的大小)平均大小为x。支持区块链的物联网系统根据当前的状态和智能体做出的动作,给出回报奖励r(t)=wRtotal+(1-w)Ω。其中,Rtotal为各节点在执行通信任务时的传输速率总和,Ω为整个区块链网络的吞吐量。同时,支持区块链的物联网系统对环境状态进行更新,具体体现为N个节点更新各自的信息s(t+1)=[φ(t+1),c(t+1),H(t)],包括最新股权数量φ(t+1)、剩余可用功率资源c(t+1)、上一时刻的通信信道状态H(t)。
4)判断当前是否处于训练阶段。若是训练阶段,则继续第5步;若非训练阶段,即当前正在使用训练好的神经网络进行实际决策,则已得到合适的行动,流程结束。
5)智能体存储在时隙t得到的一组经验样本e(t)=[s(t),a(t),r(t),s(t+1)]到经验池。
6)智能体中的Critic部分用于对在当前状态s(t)下执行某一动作a(t)后能够获得的未来累积奖励Q(s(t),a(t);θQ)进行评估。Critic将随机地从经验池中抽取一批过往的经验样本,并计算如下的损失函数:
Figure BDA0003188669900000071
其中的
Figure BDA0003188669900000072
是一组旧的神经网络参数,并且将每隔一段时间被新的神经网络参数θQ替换,γ表示一个在0~1区间范围内的折扣系数。
7)Critic对上述损失函数进行差分运算,并利用随机梯度下降方法对自身的神经网络θQ进行更新。
8)智能体中的Actor部分用于将某一状态s(t)确定性地映射到动作a(t)上,即行为策略a(t)~μ(s(t);θμ)。同时,Actor将根据当前的行为策略,为第6步中采样得到的每一条经验输出一个最优动作,并计算效用函数
Figure BDA0003188669900000073
实现对当前行为策略的评估。
9)在第7步中得到的梯度将被传播给智能体中的Actor部分,Actor基于如下的梯度对自身的神经网络θμ进行更新:
Figure BDA0003188669900000074
10)重复执行第1步到第9步,直至到达预先设定的最大循环次数。
进一步的,所述神经网络θμ和θQ具有相同的层次结构,如图4所示。具体来讲,神经网络θμ和θQ均各自具有以下几部分:
一个含有y个神经元的输入层,其中y是状态空间的维度数;
一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;
一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;
一个含有l3个神经元的隐藏层,作为第二层隐藏层,该层与第二层隐藏层以全连接的方式连接;
一个含有z个神经元的输出层,其中z是动作空间的维度数,该层与第三层隐藏层以全连接的方式连接。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (1)

1.一种利用策略梯度技术优化的支持区块链的物联网系统,其特征在于包括智能体、支持区块链的物联网系统、经验池三个关键组成部分;
其中,所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息,并负责做出行为决策;智能体由Actor和Critic两个部分组成,Actor的神经网络用θμ表示,Critic的神经网络用θQ表示;
所述经验池用于存储智能体在不同环境状态下的行为尝试经历,以供智能体后续采样并进行经验学习;
所述支持区块链的物联网系统用于为智能体提供环境状态信息,并根据智能体做出的动作给出反馈;
所述支持区块链的物联网系统中有大量的智能化设备节点,它们通过传感器进行环境数据的采集,完成数据的处理,并根据实际需求在不同的设备上进行传输和共享;这些智能化设备将不断地创建事务,记录要完成的动作和最终需存储的数据;这些节点同样构成一张区块链网络,并且均可以被选择作为区块链网络中的共识节点参与到打包事务,即生成区块,和执行共识过程的工作中;事务将被转发到底层的区块链系统,由该系统完成设备信息和操作行为的记录和数据的持久化;
支持区块链的物联网系统会向智能体提供当前时刻的环境状态信息,然后智能体将该状态信息输入给自身具有的神经网络;神经网络通过计算当前状态下执行不同动作的预期收益,进行行为决策,使得能够得到的回报最大化;其中在训练阶段,智能体将通过从经验池中采样过去的经验进行学习,逐步调整行为策略,并实现系统的性能优化
算法具体步骤如下:
S1.支持区块链的物联网系统向智能体提供在时隙t的环境状态,具体包括对网络中N个节点的最新股权数量φ(t)、剩余可用功率资源c(t)、上一时刻的系统信道状态H(t-1),并记作状态s(t)=[φ(t),c(t),H(t-1)];
S2.智能体将环境状态输入到自身Actor部分的神经网络θμ中;智能体利用该神经网络计算在当前的环境状态下能够最大化预期回报的一套动作a(t)=[α(t),β(t),SB(t),TI(t)];其中所述动作的具体内容包括:从N个节点中选择其中K个参与区块共识的节点,该K个节点的集合记作α(t),各节点分配用于完成通信任务的功率比例β(t),设置区块链大小SB(t),设置区块生成时间间隔TI(t);
S3.假设节点发送的事务即数据量的大小,平均大小为x;支持区块链的物联网系统根据当前的状态和智能体做出的动作,给出回报奖励r(t)=wRtotal+(1-w)Ω;其中,Rtotal为各节点在执行通信任务时的传输速率总和,Ω为整个区块链网络的吞吐量;同时,支持区块链的物联网系统对环境状态进行更新,具体体现为N个节点更新各自的信息s(t+1)=[φ(t+1),c(t+1),H(t)],包括最新股权数量φ(t+1)、剩余可用功率资源c(t+1)、上一时刻的通信信道状态H(t);
S4.判断当前是否处于训练阶段;若是训练阶段,则继续S5;若非训练阶段,即当前正在使用训练好的神经网络进行实际决策,则已得到合适的行动,流程结束;
S5.智能体存储在时隙t得到的一组经验样本e(t)=[s(t),a(t),r(t),s(t+1)]到经验池;
S6.智能体中的Critic部分用于对在当前状态s(t)下执行某一动作a(t)后能够获得的未来累积奖励Q(s(t),a(t);θQ)进行评估;Critic将随机地从经验池中抽取一批过往的经验样本,并计算如下的损失函数:
Figure FDA0003583723580000021
其中的
Figure FDA0003583723580000022
是一组旧的神经网络参数,并且将每隔一段时间被新的神经网络参数θQ替换,γ表示一个在0~1区间范围内的折扣系数;
S7.Critic对上述损失函数进行差分运算,并利用随机梯度下降方法对自身的神经网络θQ进行更新;
S8.智能体中的Actor部分用于将某一状态s(t)确定性地映射到动作a(t)上,即行为策略a(t)~μ(s(t);θμ);同时,Actor将根据当前的行为策略,为S6中采样得到的每一条经验输出一个最优动作,并计算效用函数
Figure FDA0003583723580000023
实现对当前行为策略的评估;
S9.在S7中得到的梯度将被传播给智能体中的Actor部分,Actor基于如下的梯度对自身的神经网络θμ进行更新:
Figure FDA0003583723580000024
S10.重复执行S1到S9,直至到达预先设定的最大循环次数;
所述神经网络θμ和θQ具有相同的层次结构,均各自具有以下几部分:
一个含有y个神经元的输入层,其中y是状态空间的维度数;
一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;
一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;
一个含有l3个神经元的隐藏层,作为第三层隐藏层,该层与第二层隐藏层以全连接的方式连接;
一个含有z个神经元的输出层,其中z是动作空间的维度数,该层与第三层隐藏层以全连接的方式连接。
CN202110870274.6A 2021-07-30 2021-07-30 一种利用策略梯度技术优化的支持区块链的物联网系统 Active CN113645702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110870274.6A CN113645702B (zh) 2021-07-30 2021-07-30 一种利用策略梯度技术优化的支持区块链的物联网系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870274.6A CN113645702B (zh) 2021-07-30 2021-07-30 一种利用策略梯度技术优化的支持区块链的物联网系统

Publications (2)

Publication Number Publication Date
CN113645702A CN113645702A (zh) 2021-11-12
CN113645702B true CN113645702B (zh) 2022-06-03

Family

ID=78419043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870274.6A Active CN113645702B (zh) 2021-07-30 2021-07-30 一种利用策略梯度技术优化的支持区块链的物联网系统

Country Status (1)

Country Link
CN (1) CN113645702B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102867B (zh) * 2022-05-10 2023-04-25 内蒙古工业大学 结合深度强化学习的区块链分片系统性能优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261674A (zh) * 2020-09-30 2021-01-22 北京邮电大学 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10845815B2 (en) * 2018-07-27 2020-11-24 GM Global Technology Operations LLC Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
CN111507601B (zh) * 2020-04-12 2022-06-07 北京工业大学 基于深度强化学习与区块链共识的资源优化分配决策方法
CN112202928B (zh) * 2020-11-16 2022-05-17 绍兴文理学院 传感边缘云区块链网络可信卸载协作节点选择系统及方法
CN112511619B (zh) * 2020-11-26 2022-11-18 北京工业大学 无线边缘区块链场景中的资源节点间交易匹配方法
CN112804103B (zh) * 2021-01-13 2023-06-23 南京邮电大学 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112261674A (zh) * 2020-09-30 2021-01-22 北京邮电大学 一种基于移动边缘计算及区块链协同赋能的物联网场景的性能优化方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法

Also Published As

Publication number Publication date
CN113645702A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN113282368B (zh) 一种用于变电站巡视的边缘计算资源调度方法
Shi et al. Mean field game guided deep reinforcement learning for task placement in cooperative multiaccess edge computing
Gai et al. Fusion of cognitive wireless networks and edge computing
CN113435472A (zh) 车载算力网络用户需求预测方法、系统、设备、介质
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
CN111416797B (zh) 改进天牛群算法优化正则化极限学习机的入侵检测方法
CN111585811B (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN113645702B (zh) 一种利用策略梯度技术优化的支持区块链的物联网系统
Zhao et al. Adaptive Swarm Intelligent Offloading Based on Digital Twin-assisted Prediction in VEC
Ben Amma et al. The existence and uniqueness of intuitionistic fuzzy solutions for intuitionistic fuzzy partial functional differential equations
CN113887748A (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及系统
Yuan et al. Low-Cost Federated Broad Learning for Privacy-Preserved Knowledge Sharing in the RIS-Aided Internet of Vehicles
CN108631817A (zh) 一种基于时频分析和径向神经网络进行跳频信号频段预测的方法
Kajiura et al. Solving large scale puzzles with neural networks
Peng et al. Tofds: A two-stage task execution method for fake news in digital twin-empowered socio-cyber world
Mason et al. Watershed management using neuroevolution
CN115576278A (zh) 基于时态均衡分析的多智能体多任务分层连续控制方法
CN114118543A (zh) 基于联合学习的烟气含氧量负荷预测方法及装置
CN113572647B (zh) 一种基于强化学习的区块链-边缘计算联合系统
Consul et al. A Hybrid Task Offloading and Resource Allocation Approach For Digital Twin-Empowered UAV-Assisted MEC Network Using Federated Reinforcement Learning For Future Wireless Network
Zeng Characteristic analysis and route optimization of heterogeneous neural network in logistics allocation system
CN108846248A (zh) 一种应用建模及性能预测方法
CN112001118B (zh) 一种系统容量预测方法及装置
Zhang et al. Online joint scheduling of delay-sensitive and computation-oriented tasks in edge computing
CN112766490B (zh) 特征变量学习方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant