CN113570039B - 一种基于强化学习的优化共识的区块链系统 - Google Patents
一种基于强化学习的优化共识的区块链系统 Download PDFInfo
- Publication number
- CN113570039B CN113570039B CN202110828619.1A CN202110828619A CN113570039B CN 113570039 B CN113570039 B CN 113570039B CN 202110828619 A CN202110828619 A CN 202110828619A CN 113570039 B CN113570039 B CN 113570039B
- Authority
- CN
- China
- Prior art keywords
- node
- agent
- experience
- intelligent agent
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 17
- 238000005457 optimization Methods 0.000 title claims abstract description 12
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 94
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000013528 artificial neural network Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 37
- 230000009471 action Effects 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 19
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 239000012723 sample buffer Substances 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能技术和区块链技术,特别是涉及利用人工智能算法提升区块链系统共识过程效率的方法。提出了一种基于强化学习的优化共识的区块链系统,其特征在于,由智能体、保存有历史数据的经验样本缓冲区、由节点构成的区块链网络环境三个部分组成;智能体中搭建有神经网络。本发明解决了区块链系统整体效率低下的问题。
Description
技术领域
本发明涉及人工智能技术和区块链技术,特别是涉及利用人工智能算法提升区块链系统共识过程效率的方法。
背景技术
区块链是近年来新兴的一种技术,能够有效保证数据的公开透明并防止篡改。近年来,区块链技术已经被广泛用于一些领域的数据处理和数据分析工作,如CN111552728A、CN111612261A,在未来具有十分广阔的应用前景。然而出于安全性的考虑,区块链系统需要先由大量网络节点执行复杂的计算,然后通过漫长的全网广播,最终实现整个共识过程。这导致了区块链系统的整体效率较低,但是目前市面上却没有成熟的方案可以有效解决这一问题,使得区块链的技术落地仍有困难。
强化学习是机器学习的三大范式之一,这种技术明确地考虑了智能体与不确定性环境的整个交互过程,在每次选取动作前折中权衡“探索”与“利用”,使执行动作后获取的期望回报值最大化。Deep Q Learning(DQN)算法结合深度神经网络和强化学习方法,实现了对动作价值的评估。智能体通过在不同的状态下尝试各种不同的动作,并根据获得的实际回报值不断调整自身策略,不断地调整自己的行为策略。DQN算法通过利用深度神经网络对该期望回报进行计算拟合,可以不断减小估计值和现实值的误差,并调整网络参数权重,最终能够学习到最优的行为策略。
机器学习方法的一大特点在于,其可以通过学习数据来提升系统的性能。因此,通过将人工智能技术引入到区块链系统中,利用强化学习算法选择部分节点参与到共识过程,实现网络规模和共识节点集合的动态调整,可以有效地在系统效率与数据安全之间进行折中与平衡,这也将会使区块链技术更加实用,推动区块链技术的产业化应用。
发明内容
本发明针对目前区块链系统效率较低的问题与不足,提出了一种基于强化学习的区块链共识过程优化方法。通过使用一种改进的DQN方法,对历史数据进行学习,并在每次共识过程前动态选择参与的节点,从而在保证数据安全的前提下,实现区块链系统效率的提升。
本发明主要解决了区块链系统整体效率低下的问题。目前,区块链系统的共识过程需要大量节点参与,整个过程耗时巨大。另一方面,在区块链系统设计中,数据安全与系统效率的折中分析还未被考虑过,导致目前区块链虽然安全性高,但是实用性较差。
技术方案
本发明提出了以下技术方案:
一种基于强化学习的优化共识的区块链系统,由智能体、保存有历史数据的经验样本缓冲区、由节点构成的区块链网络环境三个部分组成,智能体中搭建有神经网络;
所述智能体,从区块链网络环境中选取节点,并获取各节点的可靠度、计算能力、是否空闲信息,利用自身的神经网络进行分析后,选择一部分节点参与到系统当前共识过程;
所述历史数据,代指在当前时刻之前,智能体针对历史共识过程做出的节点选择行为和结果;
所述区块链网络环境为智能体提供状态信息,并在智能体做出行动后区块链网络环境反馈一个用于评估动作好坏的奖励值;
所述经验缓冲区用于存储智能体执行每个动作前的状态信息、智能体执行的具体动作、智能体执行该动作后获得从区块链网络环境反馈的奖励值以及更新后的状态信息,供智能体后续从多条经验中采样并进行经验学习。
进一步地,上述基于强化学习的区块链系统初始化:配置智能合约,在合约中定义智能体,由智能体选择每次参与共识过程的区块链网络环境中节点;同时,定义并初始化各节点k的可靠度dk。
上述基于强化学习的区块链系统的共识过程主流程:智能体将可选择节点K(t)以及节点信息集合H(t)=[d(t),c(t),f(t)](包括可靠度d、计算能力c、是否空闲f)作为状态信息,输入到深度神经网络中,通过计算在选择不同节点集合参与到当前系统共识过程中带来的期望收益,进行动态的节点选择。
具体步骤包括:
S1.初始化训练参数,包括训练的总回合数Tmax、探索系数∈、奖励函数权重因子w;
S2.开始新的一个回合,回合数T=T+1,并初始化智能体的状态;
S3.区块链网络环境向智能体提供环境信息,该环境信息包括区块链网络中的可选节点列表、各可选节点的可靠度、各可选节点的计算能力、各可选节点当前是否空闲。智能体将该信息作为状态st,输入到神经网络θ中;神经网络估计状态价值V(st;θ)和动作优势A(st,at;θ),并计算得到当前状态所有可选动作的预期回报Q(st,at;θ)=V(st;θ)+A(st,at;θ);
S4.采用“探索-利用”方法,智能体在可选动作集合中选择一个动作at,该动作代指从可选择节点集合K(t)中选择一部分节点,被选择的这部分节点集合记作N(t);
S5.区块链网络环境根据智能体选出的节点集合N(t)∈K(t),完成区块的打包和信息传播与验证,计算总用时xt,并记录参与共识过程的各节点k∈N(t)的表现。区块链网络环境给智能体返回各节点更新后信息集合H(t+1),以及奖励值rt=-xt+m(t)。
S6.智能体存储本轮的经验记录到经验缓冲区B中;
S7.智能体从经验缓冲区B中随机抽取n条记录数据进行学习,并更新神经网络权重参数;
S8.智能体更新下一时刻可选的节点和对应的节点信息集合;
S9.跳转到S2,继续下一回合,直至达到训练阶段的最大回合数Tmax。
进一步地,S3使用到的神经网络由以下部分组成:
一个含有y个神经元的输入层,其中y是状态空间的维度数;
一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;
一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;
两个平级的、且各含有z个神经元的中间结果输出层,分别用于估计价值状态V(st;θ)和动作优势A(st,at;θ),该平级的两个中间结果输出层分别与第二层隐藏层以全连接的方式连接;
一个含有z个神经元的输出层,该层的结果由两个中间结果输出层中对应位置的计算结果进行相加得到。
进一步地,S5中区块链网络环境对节点的状态进行了更新,并计算了返回给智能体的奖励值,具体步骤包括:
S5.1若节点k参与了本次的共识过程,即k∈N(t),则更新其相应的可用计算资源ck(t+1)和空闲状态fk(t+1),同时根据其是否有恶意行为,相应地增加或扣除可靠度评分dk(t+1);
S5.2将更新后的节点信息集合H(t+1)=[ck(t+1),dk(t+1),fk(t+1)]反馈给智能体;
S5.3计算并反馈给智能体相应的奖励值rt=-xt+m(t),用以衡量本次智能体选择的节点集合好坏程度;其中函数m(t)用于表示当前回合的共识是否达成,若未达成,则m(t)为一个负数值,反之m(t)为一个正数值。
进一步地,S6中所述经验缓冲区B在时刻t得到的经验记录内容包括:当前状态st、智能体在当前状态下采取的行动at、智能体采取动作后从区块链网络环境处获得的奖励rt以及更新后的状态st+1;不同的记录以时间顺序排列在一个先进先出的队列结构中,当存储的经验条数达到最大值后,队头的经验记录将被弹出并删除,新的经验条目则记录在队尾。
进一步地,S7对采样得到的数据进行学习并更新神经网络参数,具体步骤包括:
S7.1对于抽样的n条经验记录,计算得到一组TD误差以及对应的损失函数,分别为:
其中,θi表示第i次迭代后的神经网络参数,是过往迭代中得到并保存的网络参数,并且每隔一段时间将会根据/>对旧参数进行替换,/>表示计算数学期望,ej为经验池内随机抽取的经验样本,B为经验池,rj为在j时刻环境反馈给智能体的奖励,γ为训练时预先设定好的折扣参数,aj+1为智能体在j+1时刻执行的动作,sj+1为j+1时刻的系统状态,Q为预期回报值函数,Q(s,a;θ)表示利用参数为θ的神经网络对在系统状态为s下执行动作a能够获得的预期回报的估计。
S7.2对S7.1中的损失函数进行差分运算
S7.3使用随机梯度下降的方法更新神经网络的参数,具体而言,使用RMSProp优化算法进行参数更新:
其中,参数g根据公式g=μg+(1-μ)Δθ2进行更新,其中η、μ为预设的权重参数,∈为随机扰动因子。
有益效果
本发明的有益效果在于:
1、在区块链系统中创新性地引入人工智能方法,动态地处理相关决策问题;
2、每次从区块链网络中动态地选择一部分节点参与到区块共识过程,缩减共识过程的耗时;
3、综合考虑区块链的数据安全与系统效率的折中问题,在考虑系统安全性的同时,实现系统整体效率的优化。
附图说明
图1是本发明中各组成部分的交互逻辑框架图。
图2是本发明提出的算法的流程图。
图3是本发明中使用到的深度神经网络的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一种基于强化学习的优化共识的区块链系统的交互逻辑框架,由智能体、保存有历史数据的经验样本缓冲区、由节点构成的区块链网络环境三个部分组成,智能体中搭建有神经网络;每个部分的作用如下:
所述智能体,从区块链网络环境中选取节点,并获取各节点的可靠度、计算能力、是否空闲等信息,利用自身的神经网络进行分析后,选择一部分节点参与到系统当前共识过程。
所述历史数据,代指在当前时刻之前,智能体针对历史共识过程做出的节点选择行为和结果。
所述区块链网络环境为智能体提供状态信息,并在智能体做出行动后区块链网络环境反馈一个用于评估动作好坏的奖励值。
所述经验缓冲区用于存储智能体执行每个动作前的状态信息、智能体执行的具体动作、智能体执行该动作后获得从区块链网络环境反馈的奖励值以及更新后的状态信息,供智能体后续从多条经验中采样并进行经验学习。
上述基于强化学习的区块链系统初始化:配置智能合约,在合约中定义智能体,由智能体选择每次参与共识过程的区块链网络环境中节点;同时,定义并初始化各节点k的可靠度dk。
上述基于强化学习的区块链系统的共识过程主流程:智能体将可选择节点K(t)以及节点信息集合H(t)=[d(t),c(t),f(t)](包括可靠度d、计算能力c、是否空闲f)作为状态信息,输入到深度神经网络中,通过计算在选择不同节点集合参与到当前系统共识过程中带来的期望收益,进行动态的节点选择。
进一步地,如图2所示,具体步骤包括:
S1、初始化训练参数,包括训练的总回合数Tmax、探索系数∈、奖励函数权重因子w;
S2、开始新的一个回合,回合数T=T+1,并初始化智能体的状态;
S3、区块链网络环境向智能体提供环境信息,该环境信息包括区块链网络中的可选节点列表、各可选节点的可靠度、各可选节点的计算能力、各可选节点当前是否空闲。智能体将该信息作为状态st,输入到神经网络θ中;神经网络估计状态价值V(st;θ)和动作优势A(st,at;θ),,并计算得到当前状态所有可选动作的预期回报Q(st,at;θ)=V(st;θ)+A(st,at;θ);
S4、采用“探索-利用”方法,智能体在可选动作集合中选择一个动作at,该动作代指从可选择节点集合K(t)中选择一部分节点,被选择的这部分节点集合记作N(t);
S5、区块链网络环境根据智能体选出的节点集合N(t)∈K(t),完成区块的打包和信息传播与验证,计算总用时xt,并记录参与共识过程的各节点k∈N(t)的表现。区块链网络环境给智能体返回各节点更新后信息集合H(t+1),以及奖励值rt=-xt+m(t)。
S6、智能体存储本轮的经验记录到经验缓冲区B中;
S7、智能体从经验缓冲区B中随机抽取n条记录数据进行学习,并更新神经网络权重参数;
S8、智能体更新下一时刻可选的节点和对应的节点信息集合;
S9、跳转到S2,继续下一回合,直至达到训练阶段的最大回合数Tmax。
进一步地,S3使用到的神经网络结构如图3所示。具体而言,该神经网络由以下部分组成:
一个含有y个神经元的输入层,其中y是状态空间的维度数;
一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;
一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;
两个平级的、且各含有z个神经元的中间结果输出层,分别用于估计价值状态V(st;θ)和动作优势A(st,at;θ),该平级的两个中间结果输出层分别与第二层隐藏层以全连接的方式连接;
一个含有z个神经元的输出层,该层的结果由两个中间结果输出层中对应位置的计算结果进行相加得到。
进一步地,S4使用的“探索-利用”,具体步骤包括:
S4.1、设定一个[0,1]范围内的固定值α;
S4.2、在每次选动作前生成一个(0,1)范围的随机数β;
S4.3、若α>β,则在可选动作集中随机选择一个动作;反之,从可选动作集中选择Q(s,a)最大的那一个动作。
进一步地,S5中区块链网络环境对节点的状态进行了更新,并计算了返回给智能体的奖励值,具体步骤包括:
S5.1、若节点k参与了本次的共识过程,即k∈N(t),则更新其相应的可用计算资源ck(t+1)和空闲状态fk(t+1),同时根据其是否有恶意行为,相应地增加或扣除可靠度评分dk(t+1);
S5.2、将更新后的节点信息集合H(t+1)=[ck(t+1),dk(t+1),fk(t+1)]反馈给智能体;
S5.3、计算并反馈给智能体相应的奖励值rt=-xt+m(t),用以衡量本次智能体选择的节点集合好坏程度;其中函数m(t)用于表示当前回合的共识是否达成,若未达成,则m(t)为一个负数值,反之m(t)为一个正数值。
进一步地,S6使用到的经验缓冲区B的结构如图1中“经验缓冲区”所示;在时间t得到的经验记录包含了当前状态st、智能体在当前状态下采取的行动at、智能体采取动作后从区块链网络环境处获得的奖励rt以及更新后的状态st+1;不同的记录以时间顺序排列在一个先进先出的队列结构中,当存储的经验条数达到最大值后,队头的经验记录将被弹出并删除,新的经验条目则记录在队尾。
进一步地,S7对采样得到的数据进行学习并更新神经网络参数,具体步骤包括:
S7.1、对于抽样的n条经验记录,计算得到一组TD误差以及对应的损失函数,分别为:
其中,θi表示第i次迭代后的神经网络参数,是过往迭代中得到并保存的网络参数,并且每隔一段时间将会根据/>对旧参数进行替换,/>表示计算数学期望,ej为经验池内随机抽取的经验样本,B为经验池,rj为在j时刻环境反馈给智能体的奖励,γ为训练时预先设定好的折扣参数,aj+1为智能体在j+1时刻执行的动作,sj+1为j+1时刻的系统状态,Q为预期回报值函数,Q(s,a;θ)表示利用参数为θ的神经网络对在系统状态为s下执行动作a能够获得的预期回报的估计。
S7.2、对S7.1中的损失函数进行差分运算
S7.3、使用随机梯度下降的方法更新神经网络的参数,具体而言,使用RMSProp优化算法进行参数更新:
其中,参数g根据公式g=μg+(1-μ)Δθ2进行更新,其中η、μ为预设的权重参数,∈为随机扰动因子。
本发明系统将为每次共识过程选择出最合适的一组节点,在尽可能地保证系统安全性的条件下,使整个共识过程的总用时最小化。
Claims (2)
1.一种基于强化学习的优化共识的区块链系统,其特征在于,由智能体、保存有历史数据的经验缓冲区、由节点构成的区块链网络环境三个部分组成;智能体中搭建有神经网络;
所述智能体,从区块链网络环境中选取节点,并获取各节点的可靠度、计算能力、是否空闲信息,利用自身的神经网络进行分析后,选择一部分节点参与到系统当前共识过程;
所述历史数据,代指在当前时刻之前,智能体针对历史共识过程做出的节点选择行为和结果;
所述区块链网络环境为智能体提供状态信息,并在智能体做出行动后区块链网络环境反馈一个用于评估动作好坏的奖励值;
所述经验缓冲区用于存储智能体执行每个动作前的状态信息、智能体执行的具体动作、智能体执行该动作后获得从区块链网络环境反馈的奖励值以及更新后的状态信息,供智能体后续从多条经验中采样并进行经验学习;
上述基于强化学习的区块链系统初始化:配置智能合约,在合约中定义智能体,由智能体选择每次参与共识过程的区块链网络环境中节点;同时,定义并初始化各节点k的可靠度dk;
上述基于强化学习的区块链系统的共识过程主流程:智能体将可选择节点K(t)以及节点信息集合H(t)=[d(t),c(t),f(t)],包括可靠度d、计算能力c、是否空闲f,作为状态信息,输入到深度神经网络中,通过计算在选择不同节点集合参与到当前系统共识过程中带来的期望收益,进行动态的节点选择;
具体步骤包括:
S1.初始化训练参数,包括训练的总回合数Tmax、探索系数∈、奖励函数权重因子w;
S2.开始新的一个回合,回合数T=T+1,并初始化智能体的状态;
S3.区块链网络环境向智能体提供环境信息,该环境信息包括区块链网络中的可选节点列表、各可选节点的可靠度、各可选节点的计算能力、各可选节点当前是否空闲;智能体将该信息作为状态st,输入到神经网络θ中;神经网络估计状态价值V(st;θ)和动作优势A(st,at;θ),并计算得到当前状态所有可选动作的预期回报Q(st,at;θ)=V(st;θ)+A(st,at;θ);
S4.采用“探索-利用”方法,智能体在可选动作集合中选择一个动作at,该动作代指从可选择节点集合K(t)中选择一部分节点,被选择的这部分节点集合记作N(t);
S5.区块链网络环境根据智能体选出的节点集合N(t)∈K(t),完成区块的打包和信息传播与验证,计算总用时xt,并记录参与共识过程的各节点k∈N(t)的表现;区块链网络环境给智能体返回各节点更新后信息集合H(t+1),以及奖励值rt=-xt+m(t);
S6.智能体存储本轮的经验记录到经验缓冲区B中;
S7.智能体从经验缓冲区B中随机抽取n条记录数据进行学习,并更新神经网络权重参数;
S8.智能体更新下一时刻可选的节点和对应的节点信息集合;
S9.跳转到S2,继续下一回合,直至达到训练阶段的最大回合数Tmax;
S3使用到的神经网络由以下部分组成:
一个含有y个神经元的输入层,其中y是状态空间的维度数;
一个含有l1个神经元的隐藏层,作为第一层隐藏层,该层与输入层以全连接的方式连接;
一个含有l2个神经元的隐藏层,作为第二层隐藏层,该层与第一层隐藏层以全连接的方式连接;
两个平级的、且各含有z个神经元的中间结果输出层,分别用于估计价值状态V(st;θ)和动作优势A(st,at;θ),该平级的两个中间结果输出层分别与第二层隐藏层以全连接的方式连接;
一个含有z个神经元的输出层,该层的结果由两个中间结果输出层中对应位置的计算结果进行相加得到;
S5中区块链网络环境对节点的状态进行了更新,并计算了返回给智能体的奖励值,具体步骤包括:
S5.1若节点k参与了本次的共识过程,即k∈N(t),则更新其相应的可用计算资源ck(t+1)和空闲状态fk(t+1),同时根据其是否有恶意行为,相应地增加或扣除可靠度评分dk(t+1);
S5.2将更新后的节点信息集合H(t+1)=[ck(t+1),dk(t+1),fk(t+1)]反馈给智能体;
S5.3计算并反馈给智能体相应的奖励值rt=-xt+m(t),用以衡量本次智能体选择的节点集合好坏程度;其中函数m(t)用于表示当前回合的共识是否达成,若未达成,则m(t)为一个负数值,反之m(t)为一个正数值;
S6中所述经验缓冲区B在时刻t得到的经验记录内容包括:当前状态st、智能体在当前状态下采取的行动at、智能体采取动作后从区块链网络环境处获得的奖励rt以及更新后的状态st+1;不同的记录以时间顺序排列在一个先进先出的队列结构中,当存储的经验条数达到最大值后,队头的经验记录将被弹出并删除,新的经验条目则记录在队尾。
2.如权利要求1所述一种基于强化学习的优化共识的区块链系统,其特征在于,进一步地,S7对采样得到的数据进行学习并更新神经网络参数,具体步骤包括:
S7.1对于抽样的n条经验记录,计算得到一组TD误差以及对应的损失函数,分别为:
其中,θi表示第i次迭代后的神经网络参数,是过往迭代中得到并保存的网络参数,并且每隔一段时间将会根据/>对旧参数进行替换,/>表示计算数学期望,ej为经验池内随机抽取的经验样本,B为经验池,rj为在j时刻环境反馈给智能体的奖励,γ为训练时预先设定好的折扣参数,aj+1为智能体在j+1时刻执行的动作,sj+1为j+1时刻的系统状态,Q为预期回报值函数,Q(s,a;θ)表示利用参数为θ的神经网络对在系统状态为s下执行动作a能够获得的预期回报的估计;
S7.2对S7.1中的损失函数进行差分运算
S7.3使用随机梯度下降的方法更新神经网络的参数,具体而言,使用RMSProp优化算法进行参数更新:
其中,参数g根据公式g=μg+(1-μ)Δθ2进行更新,其中η、μ为预设的权重参数,∈为随机扰动因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828619.1A CN113570039B (zh) | 2021-07-22 | 2021-07-22 | 一种基于强化学习的优化共识的区块链系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110828619.1A CN113570039B (zh) | 2021-07-22 | 2021-07-22 | 一种基于强化学习的优化共识的区块链系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113570039A CN113570039A (zh) | 2021-10-29 |
CN113570039B true CN113570039B (zh) | 2024-02-06 |
Family
ID=78166129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110828619.1A Active CN113570039B (zh) | 2021-07-22 | 2021-07-22 | 一种基于强化学习的优化共识的区块链系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113570039B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114362888B (zh) * | 2022-01-24 | 2024-01-19 | 厦门大学 | 一种提升无线通信下行链路传输性能的方法 |
CN115102867B (zh) * | 2022-05-10 | 2023-04-25 | 内蒙古工业大学 | 结合深度强化学习的区块链分片系统性能优化方法 |
CN116170162B (zh) * | 2023-04-26 | 2023-07-25 | 湖南天河国云科技有限公司 | 选择性的共识方法和计算机存储介质、终端设备 |
CN116452199A (zh) * | 2023-06-16 | 2023-07-18 | 江西五十铃汽车有限公司 | 基于区块链的vcu控制算法优化方法和程序产品 |
CN117670541B (zh) * | 2023-12-05 | 2024-07-09 | 云南大学 | 一种性能优化的双链分布式电力交易系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018111295A1 (en) * | 2016-12-16 | 2018-06-21 | Hitachi, Ltd. | Blockchain monitoring and management |
WO2020000399A1 (zh) * | 2018-06-29 | 2020-01-02 | 东莞理工学院 | 一种基于智能电网的多智能体深度强化学习代理方法 |
WO2020107350A1 (zh) * | 2018-11-29 | 2020-06-04 | 区链通网络有限公司 | 一种区块链系统的节点管理方法、装置及存储装置 |
CN111507601A (zh) * | 2020-04-12 | 2020-08-07 | 北京工业大学 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
CN112202928A (zh) * | 2020-11-16 | 2021-01-08 | 绍兴文理学院 | 传感边缘云区块链网络可信卸载协作节点选择系统及方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
CN112801290A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、系统及应用 |
CN113051606A (zh) * | 2021-03-11 | 2021-06-29 | 佳讯飞鸿(北京)智能科技研究院有限公司 | 一种智能体的区块链互信方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3593289A1 (en) * | 2017-05-19 | 2020-01-15 | Deepmind Technologies Limited | Training action selection neural networks using a differentiable credit function |
-
2021
- 2021-07-22 CN CN202110828619.1A patent/CN113570039B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018111295A1 (en) * | 2016-12-16 | 2018-06-21 | Hitachi, Ltd. | Blockchain monitoring and management |
WO2020000399A1 (zh) * | 2018-06-29 | 2020-01-02 | 东莞理工学院 | 一种基于智能电网的多智能体深度强化学习代理方法 |
WO2020107350A1 (zh) * | 2018-11-29 | 2020-06-04 | 区链通网络有限公司 | 一种区块链系统的节点管理方法、装置及存储装置 |
CN111507601A (zh) * | 2020-04-12 | 2020-08-07 | 北京工业大学 | 基于深度强化学习与区块链共识的资源优化分配决策方法 |
CN112202928A (zh) * | 2020-11-16 | 2021-01-08 | 绍兴文理学院 | 传感边缘云区块链网络可信卸载协作节点选择系统及方法 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
CN112801290A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、系统及应用 |
CN113051606A (zh) * | 2021-03-11 | 2021-06-29 | 佳讯飞鸿(北京)智能科技研究院有限公司 | 一种智能体的区块链互信方法 |
Non-Patent Citations (2)
Title |
---|
基于深度强化学习的无线网络资源分配算法;李孜恒;孟超;;通信技术(08);全文 * |
基于神经网络及强化学习的智能控制系统;钟宇平;王丽丹;段书凯;张凤运;李波;;西南大学学报(自然科学版)(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113570039A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113570039B (zh) | 一种基于强化学习的优化共识的区块链系统 | |
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN113449864B (zh) | 用于图像数据分类的反馈型脉冲神经网络模型训练方法 | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
CN107239825A (zh) | 考虑负载均衡的深度神经网络压缩方法 | |
CN111581343A (zh) | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 | |
CN114217524B (zh) | 一种基于深度强化学习的电网实时自适应决策方法 | |
CN107729999A (zh) | 考虑矩阵相关性的深度神经网络压缩方法 | |
CN108573303A (zh) | 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略 | |
CN108416460B (zh) | 基于多因素时序—随机深度置信网络模型的蓝藻水华预测方法 | |
CN111917642B (zh) | 分布式深度强化学习的sdn网络智慧路由数据传输方法 | |
CN103544528A (zh) | 一种基于Hadoop的BP神经网络分类方法 | |
CN112633466A (zh) | 一种面向困难探索环境的记忆保持课程学习方法 | |
CN108009635A (zh) | 一种支持增量更新的深度卷积计算模型 | |
CN116205298A (zh) | 一种基于深度强化学习的对手行为策略建模方法及系统 | |
CN113505210B (zh) | 一种基于轻量化Actor-Critic生成式对抗网络的医疗问答生成系统 | |
Jin et al. | Soft sensor modeling for small data scenarios based on data enhancement and selective ensemble | |
Soltani et al. | Optimized echo state Network based on PSO and Gradient Descent for choatic time series prediction | |
WO2024113585A1 (zh) | 一种面向离散制造系统的智能交互式决策方法 | |
CN117436485A (zh) | 基于权衡时延和精度的多退出点的端-边-云协同系统及方法 | |
CN116596059A (zh) | 一种基于优先级经验共享的多智能体强化学习方法 | |
CN116629332A (zh) | 一种基于光学储备池计算的信号补偿方法 | |
CN116340737A (zh) | 基于多智能体强化学习的异构集群零通信目标分配方法 | |
CN116341611A (zh) | 一种基于多头注意力机制通信的多智能体强化学习算法 | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |