CN113570039B

CN113570039B - 一种基于强化学习的优化共识的区块链系统

Info

Publication number: CN113570039B
Application number: CN202110828619.1A
Authority: CN
Inventors: 刘儿兀; 耿元哲
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2024-02-06
Anticipated expiration: 2041-07-22
Also published as: CN113570039A

Abstract

本发明涉及人工智能技术和区块链技术，特别是涉及利用人工智能算法提升区块链系统共识过程效率的方法。提出了一种基于强化学习的优化共识的区块链系统，其特征在于，由智能体、保存有历史数据的经验样本缓冲区、由节点构成的区块链网络环境三个部分组成；智能体中搭建有神经网络。本发明解决了区块链系统整体效率低下的问题。

Description

一种基于强化学习的优化共识的区块链系统

技术领域

本发明涉及人工智能技术和区块链技术，特别是涉及利用人工智能算法提升区块链系统共识过程效率的方法。

背景技术

区块链是近年来新兴的一种技术，能够有效保证数据的公开透明并防止篡改。近年来，区块链技术已经被广泛用于一些领域的数据处理和数据分析工作，如CN111552728A、CN111612261A，在未来具有十分广阔的应用前景。然而出于安全性的考虑，区块链系统需要先由大量网络节点执行复杂的计算，然后通过漫长的全网广播，最终实现整个共识过程。这导致了区块链系统的整体效率较低，但是目前市面上却没有成熟的方案可以有效解决这一问题，使得区块链的技术落地仍有困难。

强化学习是机器学习的三大范式之一，这种技术明确地考虑了智能体与不确定性环境的整个交互过程，在每次选取动作前折中权衡“探索”与“利用”，使执行动作后获取的期望回报值最大化。Deep Q Learning(DQN)算法结合深度神经网络和强化学习方法，实现了对动作价值的评估。智能体通过在不同的状态下尝试各种不同的动作，并根据获得的实际回报值不断调整自身策略，不断地调整自己的行为策略。DQN算法通过利用深度神经网络对该期望回报进行计算拟合，可以不断减小估计值和现实值的误差，并调整网络参数权重，最终能够学习到最优的行为策略。

机器学习方法的一大特点在于，其可以通过学习数据来提升系统的性能。因此，通过将人工智能技术引入到区块链系统中，利用强化学习算法选择部分节点参与到共识过程，实现网络规模和共识节点集合的动态调整，可以有效地在系统效率与数据安全之间进行折中与平衡，这也将会使区块链技术更加实用，推动区块链技术的产业化应用。

发明内容

本发明针对目前区块链系统效率较低的问题与不足，提出了一种基于强化学习的区块链共识过程优化方法。通过使用一种改进的DQN方法，对历史数据进行学习，并在每次共识过程前动态选择参与的节点，从而在保证数据安全的前提下，实现区块链系统效率的提升。

本发明主要解决了区块链系统整体效率低下的问题。目前，区块链系统的共识过程需要大量节点参与，整个过程耗时巨大。另一方面，在区块链系统设计中，数据安全与系统效率的折中分析还未被考虑过，导致目前区块链虽然安全性高，但是实用性较差。

技术方案

本发明提出了以下技术方案：

一种基于强化学习的优化共识的区块链系统，由智能体、保存有历史数据的经验样本缓冲区、由节点构成的区块链网络环境三个部分组成，智能体中搭建有神经网络；

所述智能体，从区块链网络环境中选取节点，并获取各节点的可靠度、计算能力、是否空闲信息，利用自身的神经网络进行分析后，选择一部分节点参与到系统当前共识过程；

所述历史数据，代指在当前时刻之前，智能体针对历史共识过程做出的节点选择行为和结果；

所述区块链网络环境为智能体提供状态信息，并在智能体做出行动后区块链网络环境反馈一个用于评估动作好坏的奖励值；

所述经验缓冲区用于存储智能体执行每个动作前的状态信息、智能体执行的具体动作、智能体执行该动作后获得从区块链网络环境反馈的奖励值以及更新后的状态信息，供智能体后续从多条经验中采样并进行经验学习。

进一步地，上述基于强化学习的区块链系统初始化：配置智能合约，在合约中定义智能体，由智能体选择每次参与共识过程的区块链网络环境中节点；同时，定义并初始化各节点k的可靠度d_k。

上述基于强化学习的区块链系统的共识过程主流程：智能体将可选择节点K(t)以及节点信息集合H(t)＝[d(t),c(t),f(t)](包括可靠度d、计算能力c、是否空闲f)作为状态信息，输入到深度神经网络中，通过计算在选择不同节点集合参与到当前系统共识过程中带来的期望收益，进行动态的节点选择。

具体步骤包括：

S1.初始化训练参数，包括训练的总回合数T_max、探索系数∈、奖励函数权重因子w；

S2.开始新的一个回合，回合数T＝T+1，并初始化智能体的状态；

S3.区块链网络环境向智能体提供环境信息，该环境信息包括区块链网络中的可选节点列表、各可选节点的可靠度、各可选节点的计算能力、各可选节点当前是否空闲。智能体将该信息作为状态s_t，输入到神经网络θ中；神经网络估计状态价值V(s_t；θ)和动作优势A(s_t,a_t；θ)，并计算得到当前状态所有可选动作的预期回报Q(s_t,a_t；θ)＝V(s_t；θ)+A(s_t,a_t；θ)；

S4.采用“探索-利用”方法，智能体在可选动作集合中选择一个动作a_t，该动作代指从可选择节点集合K(t)中选择一部分节点，被选择的这部分节点集合记作N(t)；

S5.区块链网络环境根据智能体选出的节点集合N(t)∈K(t)，完成区块的打包和信息传播与验证，计算总用时x_t，并记录参与共识过程的各节点k∈N(t)的表现。区块链网络环境给智能体返回各节点更新后信息集合H(t+1)，以及奖励值r_t＝-x_t+m(t)。

S6.智能体存储本轮的经验记录到经验缓冲区B中；

S7.智能体从经验缓冲区B中随机抽取n条记录数据进行学习，并更新神经网络权重参数；

S8.智能体更新下一时刻可选的节点和对应的节点信息集合；

S9.跳转到S2，继续下一回合，直至达到训练阶段的最大回合数T_max。

进一步地，S3使用到的神经网络由以下部分组成：

一个含有y个神经元的输入层，其中y是状态空间的维度数；

一个含有l₁个神经元的隐藏层，作为第一层隐藏层，该层与输入层以全连接的方式连接；

一个含有l₂个神经元的隐藏层，作为第二层隐藏层，该层与第一层隐藏层以全连接的方式连接；

两个平级的、且各含有z个神经元的中间结果输出层，分别用于估计价值状态V(s_t；θ)和动作优势A(s_t,a_t；θ)，该平级的两个中间结果输出层分别与第二层隐藏层以全连接的方式连接；

一个含有z个神经元的输出层，该层的结果由两个中间结果输出层中对应位置的计算结果进行相加得到。

进一步地，S5中区块链网络环境对节点的状态进行了更新，并计算了返回给智能体的奖励值，具体步骤包括：

S5.1若节点k参与了本次的共识过程，即k∈N(t)，则更新其相应的可用计算资源c_k(t+1)和空闲状态f_k(t+1)，同时根据其是否有恶意行为，相应地增加或扣除可靠度评分d_k(t+1)；

S5.2将更新后的节点信息集合H(t+1)＝[c_k(t+1),d_k(t+1),f_k(t+1)]反馈给智能体；

S5.3计算并反馈给智能体相应的奖励值r_t＝-x_t+m(t)，用以衡量本次智能体选择的节点集合好坏程度；其中函数m(t)用于表示当前回合的共识是否达成，若未达成，则m(t)为一个负数值，反之m(t)为一个正数值。

进一步地，S6中所述经验缓冲区B在时刻t得到的经验记录内容包括：当前状态s_t、智能体在当前状态下采取的行动a_t、智能体采取动作后从区块链网络环境处获得的奖励r_t以及更新后的状态s_t+1；不同的记录以时间顺序排列在一个先进先出的队列结构中，当存储的经验条数达到最大值后，队头的经验记录将被弹出并删除，新的经验条目则记录在队尾。

进一步地，S7对采样得到的数据进行学习并更新神经网络参数，具体步骤包括：

S7.1对于抽样的n条经验记录，计算得到一组TD误差以及对应的损失函数，分别为：

其中，θ_i表示第i次迭代后的神经网络参数，是过往迭代中得到并保存的网络参数，并且每隔一段时间将会根据/>对旧参数进行替换，/>表示计算数学期望，e_j为经验池内随机抽取的经验样本，B为经验池，r_j为在j时刻环境反馈给智能体的奖励，γ为训练时预先设定好的折扣参数，a_j+1为智能体在j+1时刻执行的动作，s_j+1为j+1时刻的系统状态，Q为预期回报值函数，Q(s,a；θ)表示利用参数为θ的神经网络对在系统状态为s下执行动作a能够获得的预期回报的估计。

S7.2对S7.1中的损失函数进行差分运算

S7.3使用随机梯度下降的方法更新神经网络的参数，具体而言，使用RMSProp优化算法进行参数更新：

其中，参数g根据公式g＝μg+(1-μ)Δθ²进行更新，其中η、μ为预设的权重参数，∈为随机扰动因子。

有益效果

本发明的有益效果在于：

1、在区块链系统中创新性地引入人工智能方法，动态地处理相关决策问题；

2、每次从区块链网络中动态地选择一部分节点参与到区块共识过程，缩减共识过程的耗时；

3、综合考虑区块链的数据安全与系统效率的折中问题，在考虑系统安全性的同时，实现系统整体效率的优化。

附图说明

图1是本发明中各组成部分的交互逻辑框架图。

图2是本发明提出的算法的流程图。

图3是本发明中使用到的深度神经网络的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一种基于强化学习的优化共识的区块链系统的交互逻辑框架，由智能体、保存有历史数据的经验样本缓冲区、由节点构成的区块链网络环境三个部分组成，智能体中搭建有神经网络；每个部分的作用如下：

所述智能体，从区块链网络环境中选取节点，并获取各节点的可靠度、计算能力、是否空闲等信息，利用自身的神经网络进行分析后，选择一部分节点参与到系统当前共识过程。

所述历史数据，代指在当前时刻之前，智能体针对历史共识过程做出的节点选择行为和结果。

所述区块链网络环境为智能体提供状态信息，并在智能体做出行动后区块链网络环境反馈一个用于评估动作好坏的奖励值。

上述基于强化学习的区块链系统初始化：配置智能合约，在合约中定义智能体，由智能体选择每次参与共识过程的区块链网络环境中节点；同时，定义并初始化各节点k的可靠度d_k。

进一步地，如图2所示，具体步骤包括：

S1、初始化训练参数，包括训练的总回合数T_max、探索系数∈、奖励函数权重因子w；

S2、开始新的一个回合，回合数T＝T+1，并初始化智能体的状态；

S3、区块链网络环境向智能体提供环境信息，该环境信息包括区块链网络中的可选节点列表、各可选节点的可靠度、各可选节点的计算能力、各可选节点当前是否空闲。智能体将该信息作为状态s_t，输入到神经网络θ中；神经网络估计状态价值V(s_t；θ)和动作优势A(s_t,a_t；θ)，，并计算得到当前状态所有可选动作的预期回报Q(s_t,a_t；θ)＝V(s_t；θ)+A(s_t,a_t；θ)；

S4、采用“探索-利用”方法，智能体在可选动作集合中选择一个动作a_t，该动作代指从可选择节点集合K(t)中选择一部分节点，被选择的这部分节点集合记作N(t)；

S5、区块链网络环境根据智能体选出的节点集合N(t)∈K(t)，完成区块的打包和信息传播与验证，计算总用时x_t，并记录参与共识过程的各节点k∈N(t)的表现。区块链网络环境给智能体返回各节点更新后信息集合H(t+1)，以及奖励值r_t＝-x_t+m(t)。

S6、智能体存储本轮的经验记录到经验缓冲区B中；

S7、智能体从经验缓冲区B中随机抽取n条记录数据进行学习，并更新神经网络权重参数；

S8、智能体更新下一时刻可选的节点和对应的节点信息集合；

S9、跳转到S2，继续下一回合，直至达到训练阶段的最大回合数T_max。

进一步地，S3使用到的神经网络结构如图3所示。具体而言，该神经网络由以下部分组成：

一个含有y个神经元的输入层，其中y是状态空间的维度数；

进一步地，S4使用的“探索-利用”，具体步骤包括：

S4.1、设定一个[0,1]范围内的固定值α；

S4.2、在每次选动作前生成一个(0,1)范围的随机数β；

S4.3、若α>β，则在可选动作集中随机选择一个动作；反之，从可选动作集中选择Q(s,a)最大的那一个动作。

S5.1、若节点k参与了本次的共识过程，即k∈N(t)，则更新其相应的可用计算资源c_k(t+1)和空闲状态f_k(t+1)，同时根据其是否有恶意行为，相应地增加或扣除可靠度评分d_k(t+1)；

S5.2、将更新后的节点信息集合H(t+1)＝[c_k(t+1),d_k(t+1),f_k(t+1)]反馈给智能体；

S5.3、计算并反馈给智能体相应的奖励值r_t＝-x_t+m(t)，用以衡量本次智能体选择的节点集合好坏程度；其中函数m(t)用于表示当前回合的共识是否达成，若未达成，则m(t)为一个负数值，反之m(t)为一个正数值。

进一步地，S6使用到的经验缓冲区B的结构如图1中“经验缓冲区”所示；在时间t得到的经验记录包含了当前状态s_t、智能体在当前状态下采取的行动a_t、智能体采取动作后从区块链网络环境处获得的奖励r_t以及更新后的状态s_t+1；不同的记录以时间顺序排列在一个先进先出的队列结构中，当存储的经验条数达到最大值后，队头的经验记录将被弹出并删除，新的经验条目则记录在队尾。

S7.1、对于抽样的n条经验记录，计算得到一组TD误差以及对应的损失函数，分别为：

S7.2、对S7.1中的损失函数进行差分运算

S7.3、使用随机梯度下降的方法更新神经网络的参数，具体而言，使用RMSProp优化算法进行参数更新：

本发明系统将为每次共识过程选择出最合适的一组节点，在尽可能地保证系统安全性的条件下，使整个共识过程的总用时最小化。

Claims

1.一种基于强化学习的优化共识的区块链系统，其特征在于，由智能体、保存有历史数据的经验缓冲区、由节点构成的区块链网络环境三个部分组成；智能体中搭建有神经网络；

所述经验缓冲区用于存储智能体执行每个动作前的状态信息、智能体执行的具体动作、智能体执行该动作后获得从区块链网络环境反馈的奖励值以及更新后的状态信息，供智能体后续从多条经验中采样并进行经验学习；

上述基于强化学习的区块链系统初始化：配置智能合约，在合约中定义智能体，由智能体选择每次参与共识过程的区块链网络环境中节点；同时，定义并初始化各节点k的可靠度d_k；

上述基于强化学习的区块链系统的共识过程主流程：智能体将可选择节点K(t)以及节点信息集合H(t)＝[d(t)，c(t)，f(t)]，包括可靠度d、计算能力c、是否空闲f，作为状态信息，输入到深度神经网络中，通过计算在选择不同节点集合参与到当前系统共识过程中带来的期望收益，进行动态的节点选择；

具体步骤包括：

S3.区块链网络环境向智能体提供环境信息，该环境信息包括区块链网络中的可选节点列表、各可选节点的可靠度、各可选节点的计算能力、各可选节点当前是否空闲；智能体将该信息作为状态s_t，输入到神经网络θ中；神经网络估计状态价值V(s_t；θ)和动作优势A(s_t，a_t；θ)，并计算得到当前状态所有可选动作的预期回报Q(s_t，a_t；θ)＝V(s_t；θ)+A(s_t，a_t；θ)；

S5.区块链网络环境根据智能体选出的节点集合N(t)∈K(t)，完成区块的打包和信息传播与验证，计算总用时x_t，并记录参与共识过程的各节点k∈N(t)的表现；区块链网络环境给智能体返回各节点更新后信息集合H(t+1)，以及奖励值r_t＝-x_t+m(t)；

S6.智能体存储本轮的经验记录到经验缓冲区B中；

S8.智能体更新下一时刻可选的节点和对应的节点信息集合；

S9.跳转到S2，继续下一回合，直至达到训练阶段的最大回合数T_max；

S3使用到的神经网络由以下部分组成：

一个含有y个神经元的输入层，其中y是状态空间的维度数；

两个平级的、且各含有z个神经元的中间结果输出层，分别用于估计价值状态V(s_t；θ)和动作优势A(s_t，a_t；θ)，该平级的两个中间结果输出层分别与第二层隐藏层以全连接的方式连接；

一个含有z个神经元的输出层，该层的结果由两个中间结果输出层中对应位置的计算结果进行相加得到；

S5中区块链网络环境对节点的状态进行了更新，并计算了返回给智能体的奖励值，具体步骤包括：

S5.2将更新后的节点信息集合H(t+1)＝[c_k(t+1)，d_k(t+1)，f_k(t+1)]反馈给智能体；

S5.3计算并反馈给智能体相应的奖励值r_t＝-x_t+m(t)，用以衡量本次智能体选择的节点集合好坏程度；其中函数m(t)用于表示当前回合的共识是否达成，若未达成，则m(t)为一个负数值，反之m(t)为一个正数值；

S6中所述经验缓冲区B在时刻t得到的经验记录内容包括：当前状态s_t、智能体在当前状态下采取的行动a_t、智能体采取动作后从区块链网络环境处获得的奖励r_t以及更新后的状态s_t+1；不同的记录以时间顺序排列在一个先进先出的队列结构中，当存储的经验条数达到最大值后，队头的经验记录将被弹出并删除，新的经验条目则记录在队尾。

2.如权利要求1所述一种基于强化学习的优化共识的区块链系统，其特征在于，进一步地，S7对采样得到的数据进行学习并更新神经网络参数，具体步骤包括：

其中，θ_i表示第i次迭代后的神经网络参数，是过往迭代中得到并保存的网络参数，并且每隔一段时间将会根据/>对旧参数进行替换，/>表示计算数学期望，e_j为经验池内随机抽取的经验样本，B为经验池，r_j为在j时刻环境反馈给智能体的奖励，γ为训练时预先设定好的折扣参数，a_j+1为智能体在j+1时刻执行的动作，s_j+1为j+1时刻的系统状态，Q为预期回报值函数，Q(s，a；θ)表示利用参数为θ的神经网络对在系统状态为s下执行动作a能够获得的预期回报的估计；

S7.2对S7.1中的损失函数进行差分运算