CN112101939A

CN112101939A - 基于区块链的节点管理方法及系统

Info

Publication number: CN112101939A
Application number: CN202010958581.5A
Authority: CN
Inventors: 邢文超
Original assignee: Individual
Current assignee: Jiangsu Hongaiyi Information Technology Co ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-18
Anticipated expiration: 2040-09-14
Also published as: CN112101939B

Abstract

本发明公开了基于区块链的节点管理方法，将第一巡查名单的普通节点加入第一智能合约，通过第一深度强化学习模型对超级节点参与的交易数据进行风险检测后生成第一风险清单；将第二巡查名单的验证节点加入第二智能合约，通过第二深度强化学习模型对超级节点参与的交易数据进行风险检测后生成第二风险清单；若未到达巡查周期，将超级节点加入第三智能合约，并基于第三智能合约发放奖励。本发明通过建立对超级节点的双巡查机制、节点升级和降级机制、超级节点奖励延迟发放和扣留策略，避免对超级节点行为误判，保障超级节点的工作，使得区块连共识更快、效率更高，又可防止超级节点作恶、超级节点与交易节点、验证节点联合作恶。

Description

基于区块链的节点管理方法及系统

【技术领域】

本发明涉及区块链技术领域，尤其涉及基于区块链的节点管理方法。

【背景技术】

区块链因具有去中心化、数据不可篡改等优点，备受金融领域公司的青睐，被用于如转账交易、支付交易、信用服务、保险理赔业务、投资服务等多方参与的交易事件中。

区块链中含有多个节点，现有技术是通过多个节点中投票选取超级节点。区块链上的交易节点发起交易后，超级节点负责出块；然后由负责验证的验证节点对新产生的区块进行验证，验证通过后，超级节点将新产生的区块上链。超级节点的出现使得区块连共识更快，因此效率更高、更符合现实应用的需求，但如何防止超级节点作恶、超级节点与交易节点、验证节点联合作恶成为急需解决的技术问题。

【发明内容】

有鉴于此，本发明实施例提供了基于区块链的节点管理方法。

第一方面，本发明实施例提供了基于区块链的节点管理方法，该所述方法包括：

S1、判断是否到达巡查周期，若是，则计算普通节点安全分数K，并将安全分数K大于安全分数阈值K₀的普通节点写入第一巡查名单，将第一巡查名单的普通节点加入第一智能合约，通过第一深度强化学习模型对超级节点参与的交易数据进行风险检测后生成第一风险清单；

S2、计算验证节点信用分数Q，并将信用分数Q大于信用分数阈值Q₀的验证节点写入第二巡查名单，将第二巡查名单的验证节点加入第二智能合约，通过第二深度强化学习模型对超级节点参与的交易数据进行风险检测后生成第二风险清单；

S3、判断第一风险清单和第二风险清单是否具有重复名单，若是，判断重复名单数N是否超过重复阈值N₀，当重复名单数N≥重复阈值N₀时，将重复名单对应的超级节降级为普通节点，同时按安全分数K优先级将同等数量的普通节点升级为超级节点，将剩余超级节点降级为验证节点，同时按信用分数Q优先级将同等数量的验证节点升级为超级节点；

S4、若未到达巡查周期，将超级节点加入第三智能合约，并基于第三智能合约发放奖励，所述第三智能合约包括：若交易的普通节点的风险度F＜风险阈值F₀，则直接向生成新区块的超级节点发放奖励；若交易的普通节点的风险度F≥风险阈值F₀，在超级节点生成新区块后，对超级节点生成奖励标识，在下一巡查周期结束时，判断超级节点是否发生降级，若未发生降级，则对具有奖励标识的超级节点发放奖励，若发生降级，则取消奖励标识，并将奖励扣留。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第一智能合约包括：第一巡查名单的普通节点通过第一深度强化学习模型对超级节点进行风险检测，生成带有时间戳的检测结果，其他普通节点在接收到检测结果后停止风险检测，向完成监测的普通节点发放第一奖励，所述第一奖励获取于三分之一的扣留的奖励；将第一深度强化学习模型的更新权限约束为第一巡查名单的普通节点，更新第一深度强化学习模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述超级节点参与的交易数据为超级节点负责出块的交易双方任一方的交易数据，所述交易数据包括单日交易次数、单日数字资产交易额度、巡查周期内的交易总次数、巡查周期内数字资产的交易总额度、巡查周期内首次交易的节点数量和巡查周期内首次交易的数字资产的交易额度，所述第一深度强化学习模型的构建方法具体包括：

获取所述交易数据，添加风险标签和正常标签，构建获得训练集数据和验证集数据；

训练深层神经网络的作为强化学习的代理器，接收训练集数据，并根据更新策略π生成标签的概率；定义更新策略π：π(a|s)＝Pr(a_t＝a|s_t＝s)，其中，Pr为状态转移的概率，a_t为当前行为，s_t为当前状态；

通过强化学习的代理器对训练样本训练来预测标签，从而达到累积奖励的最大化；其中，定义奖励函数R_c：

其中，γ为预设的折现因子，0＜γ＜1，r为奖励值，t为当前时刻，k为常数，k＝1，2，...∞；

将每一对状态和更新动作对(s，a)与一个Q值函数相关联；其中，定义Q函数，Q^π(s,a)＝E_π[R_c|(s_t＝s|a_t＝a)]，其中，E为迭代次数；

择动作a，动作策略采用ε-贪婪策略，通过Q值迭代找到最优的更新策略π^*：

其中，Q^*为最优函数；

将(s₁，a_t，r_t，s_t+1)存储在经验回放存储器Ω中，若经验回放存储器Ω中的记录达到一定数量后，每个训练步骤从经验回放存储器Ω中采样，采样的每条记录记为(s_j，a_j，r_j，s_j+1)，对于每条记录，计算目标值y和损失函数L(θ)，并更新卷积神经网络参数θ；其中，定义损失函数L(θ)：

Bm为经验回放存储器Ω内的总记录，Q(s,a,θ_k)表示卷积神经网络输出的Q值；定义目标值y，

其中r为奖励值，j为经验回放存储器Ω内的一个样本，γ为预设的折现因子，T和F为布尔值；

通过验证集数据对训练获得的第一深度强化学习模型进行验证，达到预设要求后，基于第一强化学习模型对所述交易数据进行学习，基于学习结果生成带有危险标识或者安全标识的超级节点，并将带有危险标识的超级节点加入第一风险清单。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二智能合约包括：第二巡查名单的验证节点通过第二深度强化学习模型对超级节点进行风险检测，生成带有时间戳的预测结果，其他验证节点在接收到预测结果后停止风险检测，向完成监测的验证节点发放第二奖励，所述第二奖励获取于三分之二的扣留的奖励；将第二深度强化学习模型的更新权限约束为第二巡查名单的验证节点，更新第二深度强化学习模型。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二深度强化学习模型为的构建方法具体包括：

构建风险识别主干网络，使用一个在ImageNet上预先训练过的ResNet-50作为主干网络，并修正进行提取基础特征张量；

利用交叉熵损失函数进行分类；其中，定义交叉熵损失函数L_cross：

其中，n_b为批大小，每次取多少个样本数据喂进网络，y为输入数据的真实标签，p_i(y)为第i个输入数据真实标签的预测概率；

利用三元组损失函数进行相似度学习，得到训练模型；其中，定义三元组损失函数L_tri：

其中n_b为批大小，每次取多少个样本数据喂进网络，x_a为初始样本，x_p为与x_a同一类别的正样本，x_n为与x_a不同类别的负样本，D为欧氏距离，m为阈值参数；

计算联合损失L_total：L_total＝L_cross+L_tri；

定义奖励函数R_t：

其中，

为二进制反馈，

为到时间t时所获得的正样本批次，

为到时间t时所获得的负样本批次，

为两个样本gk和x_i之间马氏距离，

为两个样本gk和x_j之间马氏距离，m为阈值参数；

定义Q函数：

其中，E为迭代次数，π为更新策略，为迭代次数，s_t为当前状态，A_t为当前行为；

选择Q值最大的动作直接推断最优策略π^*；

通过验证集数据对训练获得的第二深度强化学习模型进行验证，达到预设要求后，基于第二深度强化学习模型对所述交易数据进行预测，基于预测结果生成带有危险标识或者安全标识的超级节点，并将带有危险标识的超级节点加入第二风险清单。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S1中节点安全分数K的计算公式为：

其中，K表示安全分数，x表示节点发起交易的总次数，y表示节点在当前巡查周期内的发起交易的次数，z表示同一超级节点参与节点交易出块的总次数，u表示同一验证节点参与节点交易验证的总次数，t_a表示降级为普通节点的时间，t_b表示升级为验证节点的时间，t_c表示升级为超级节点的时间，a表示降级为普通节点的次数，b表示升级为验证节点的次数，c表示升级为超级节点的次数，A₁、B₁、C₁、A₂、B₂、C₂分别表示权重且A₁＜B₁＜C₁、A₂＞B₂＞C₂，θ表示普通节点的异常累计次数，所述异常包括被举报、共识失败、数据同步失败、网路通信异常或数据库存储异常，α和β表示调节系数，满足α,β∈[0,1]且α+β＝1。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S2中验证节点信用分数Q的计算公式为：

其中，Q表示验证节点的信用分数，

表示升级验证节点前普通节点的安全分数的平均值，δ表示验证节点验证准确次数，

表示验证节点验证总次数，η表示验证节点参与同一超级节点验证的最高次数，Υ表示调节系数，θ表示验证节点的异常次数，所述节点异常包括被举报、验证失败、共识失败、数据同步失败、网路通信异常或数据库存储异常。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

S31、当0＜当重复名单数N＜重复阈值N₀时，将重复名单对应的超级节降级为普通节点，且根据第一风险清单对相应超级节点进行一次标记，根据第二风险清单对相应超级节点进行二次标记，将标记次数M≥标记次数阈值M₀的超级节点降级为验证节点，按信用分数Q优先级将相应数量的验证节点升级为超级节点保持超级节点数量不变，按安全分数K优先级将相应数量的普通节点升级为验证节点保持验证节点数量不变；

S32、当第一风险清单和第二风险清单不具有重复名单，根据第一风险清单对相应超级节点进行一次标记，根据第二风险清单对相应超级节点进行二次标记，将标记次数超过标记次数阈值的超级节点降级为验证节点，按信用分数Q优先级将等同数量的验证节点升级为超级节点，按安全分数K优先级将等同数量的普通节点升级为验证节点。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S4中风险度F的计算公式为：

其中，

F为交易双方普通节点a与普通节点b之间风险度，K_a为普通节点a的安全分数，K_b为普通节点b的安全分数。

第二方面，本发明实施例提供了一种基于区块链的节点管理系统，包括：

第一巡查模块，用于判断是否到达巡查周期，若是，则计算普通节点安全分数K，并将安全分数K大于安全分数阈值K₀的普通节点写入第一巡查名单，将第一巡查名单的普通节点加入第一智能合约，通过强化学习模型对超级节点参与的交易数据进行风险检测后生成第一风险清单；

第二巡查模块，用于计算验证节点信用分数Q，并将信用分数Q大于信用分数阈值Q0的验证节点写入第二巡查名单，将第二巡查名单的验证节点加入第二智能合约，通过预测模型对超级节点参与的交易数据进行风险检测后生成第二风险清单；

处理模块，用于判断第一风险清单和第二风险清单是否具有重复名单，若是，判断重复名单数N是否超过重复阈值N₀，当重复名单数N≥重复阈值N₀时，将重复名单对应的超级节降级为普通节点，同时按安全分数K优先级将同等数量的普通节点升级为超级节点，将剩余超级节点降级为验证节点，同时按信用分数Q优先级将同等数量的验证节点升级为超级节点；

奖励发放模块，用于若未到达巡查周期，将超级节点加入第三智能合约，并基于第三智能合约发放奖励，所述第三智能合约包括：若交易的普通节点的风险度F＜风险阈值F₀，则直接向生成新区块的超级节点发放奖励；若交易的普通节点的风险度F≥风险阈值F₀，在超级节点生成新区块后，对超级节点生成奖励标识，在下一巡查周期结束时，判断超级节点是否发生降级，若未发生降级，则对具有奖励标识的超级节点发放奖励，若发生降级，则取消奖励标识，并将奖励扣留。

上述技术方案中的一个技术方案具有如下有益效果：

本发明实施例的方法中提出了基于区块链的节点管理方法，通过建立对超级节点的双巡查机制、节点升级和降级机制、超级节点奖励延迟发放和扣留策略，避免对超级节点行为误判，保障超级节点的工作，使得区块连共识更快、效率更高，又可防止超级节点作恶、超级节点与交易节点、验证节点联合作恶。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提供的基于区块链的节点管理方法的流程示意图；

图2是本发明实施例所提供的基于区块链的节点管理方法的另一流程示意图；

图3为本发明实施例所提供的基于区块链的节点管理系统的功能方块图；

图4为本发明实施例所提供的节点设备的硬件示意图。

【具体实施方式】

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其为图1是基于区块链的节点管理方法的流程示意图。如图1所示，该方法包括以下步骤：

本发明在到达巡查周期，将安全分数K大于安全分数阈值K₀的普通节点写入第一巡查名单，将第一巡查名单的普通节点加入第一智能合约，通过第一深度强化学习模型对超级节点参与的交易数据进行风险检测后生成第一风险清单，通过计算普通节点的安全分数K，使符合安全要求的普通节点参与第一智能合约并通过第一深度强化学习模型对超级节点进行风险检测，避免超级节点作恶，同时，又避免了普通节点对超级节点的恶意干扰；将信用分数Q大于信用分数阈值Q₀的验证节点写入第二巡查名单，将第二巡查名单的验证节点加入第二智能合约，通过第二深度强化学习模型对超级节点参与的交易数据进行风险检测，通过计算验证节点的信用分数Q，使符合信用要求的验证节点参与第二智能合约并通过第二深度强化学习模型对超级节点进行风险检测，避免超级节点作恶，同时，又避免了验证节点对超级节点的恶意干扰。本发明在判断第一风险清单和第二风险清单是否具有重复名单，若是，判断重复名单数N是否超过重复阈值N₀，当重复名单数N≥重复阈值N₀时，将重复名单对应的超级节降级为普通节点，同时按安全分数K优先级将同等数量的普通节点升级为超级节点，将剩余超级节点降级为验证节点，同时按信用分数Q优先级将同等数量的验证节点升级为超级节点，通过将普通节点、验证节点和超级节点分级，并建立升级和降级机制，使得普通节点、验证节点更积极发挥监督作用，与超级节点相互竞争，避免联合作恶。本发明通过第三智能合约对风险度较高的交易建立超级节点奖励延迟发放和扣留策略，可以进一步预防超级节点作恶。因此，本发明通过建立对超级节点的双巡查机制、节点升级和降级机制、超级节点奖励延迟发放和扣留策略，避免对超级节点行为误判，保障超级节点的工作，使得区块连共识更快、效率更高，又可防止超级节点作恶、超级节点与交易节点、验证节点联合作恶。

本发明的第一智能合约包括：第一巡查名单的普通节点通过第一深度强化学习模型对超级节点进行风险检测，生成带有时间戳的检测结果，其他普通节点在接收到检测结果后停止风险检测，向完成监测的普通节点发放第一奖励，所述第一奖励获取于三分之一的扣留的奖励；将第一深度强化学习模型的更新权限约束为第一巡查名单的普通节点，更新第一深度强化学习模型。

本发明的超级节点参与的交易数据为超级节点负责出块的交易双方任一方的交易数据，所述交易数据包括单日交易次数、单日数字资产交易额度、巡查周期内的交易总次数、巡查周期内数字资产的交易总额度、巡查周期内首次交易的节点数量和巡查周期内首次交易的数字资产的交易额度。

其中，第一深度强化学习模型的构建方法具体包括：

其中，Q^*为最优函数；

本发明的第二智能合约包括：第二巡查名单的验证节点通过第二深度强化学习模型对超级节点进行风险检测，生成带有时间戳的预测结果，其他验证节点在接收到预测结果后停止风险检测，向完成监测的验证节点发放第二奖励，所述第二奖励获取于三分之二的扣留的奖励；将第二深度强化学习模型的更新权限约束为第二巡查名单的验证节点，更新第二深度强化学习模型。

其中，第二深度强化学习模型为的构建方法具体包括：

计算联合损失L_total：L_total＝L_cross+L_tri；

定义奖励函数R_t：

其中，

为二进制反馈，

为到时间t时所获得的正样本批次，

为到时间t时所获得的负样本批次，

为两个样本gk和x_i之间马氏距离，

为两个样本gk和x_j之间马氏距离，m为阈值参数；

定义Q函数：

选择Q值最大的动作直接推断最优策略π^*；

本发明通过第一巡查名单的普通节点的第一深度强化学习模型与第二巡查名单的验证节点的第二深度强化学习模型相互独立对交易数据进行深度强化学习，避免了误判和漏判，使得检测结果更加准确，独立的检测和更新环境保证了系统的安全性和稳定性，避免了数据泄露，也避免普通节点、验证节点和超级节点联合作恶。另外，建立的第一深度强化学习模型和第二深度强化学习模型，准确率高，鲁棒性强。

其中，本发明节点安全分数K的计算公式为：

其中，本发明验证节点信用分数Q的计算公式为：

其中，Q表示验证节点的信用分数，

其中，本发明节点的风险度F的计算公式为：

其中，

如果普通节点a和普通节点b的安全分数都很低且相离很近，则交易风险度F很高，说明交易风险很大；又或者如果普通节点a和普通节点b的安全分数一高一低(总体相对较低)且相离很远，说明交易风险很大，即若交易的普通节点的风险度F≥风险阈值F₀，在超级节点生成新区块后，对超级节点生成奖励标识，在下一巡查周期结束时，判断超级节点是否发生降级，若未发生降级，则对具有奖励标识的超级节点发放奖励，若发生降级，则取消奖励标识，并将奖励扣留。通过对超级节点奖励延迟发放，下一巡查周期结束时，判断超级节点是否发生降级，若未发生降级，则对具有奖励标识的超级节点发放奖励，若发生降级，则取消奖励标识，并将奖励扣留，进一步预防超级节点作恶。如果普通节点a和普通节点b的安全分数都很高且相离很近，说明交易风险很小；又或者如果普通节点a和普通节点b的安全分数一高一低(总体相对较高)且相离很远，说明交易风险很小；则可以直接对超级节点发放奖励，调动超级节点的积极性。

请参考图2，图2是本发明实施例所提供的基于区块链的节点管理方法的另一流程示意图，所述方法还包括：

S31、当0＜当重复名单数N＜重复阈值N₀时，将重复名单对应的超级节降级为普通节点，且根据第一风险清单扣除重复名单后对相应超级节点进行一次标记，根据第二风险清单扣除重复名单后对相应超级节点进行二次标记，将标记次数M≥标记次数阈值M₀的超级节点降级为验证节点，按信用分数Q优先级将相应数量的验证节点升级为超级节点保持超级节点数量不变，按安全分数K优先级将相应数量的普通节点升级为验证节点保持验证节点数量不变；

当0＜当重复名单数N＜重复阈值N₀时，将重复名单对应的超级节降级为普通节点，将非重复名单但又被第一风险清单或者第二风险清单记录的超级节点进行标记，验证节点级别相对普通节点更高，因此标记权重也更重，将标记次数M≥标记次数阈值M₀的超级节点降级为验证节点，同时，进行普通节点和验证节点升级，保证普通节点、验证节点和超级节点数量一直不变。当第一风险清单和第二风险清单不具有重复名单，根据第一风险清单对相应超级节点进行一次标记，根据第二风险清单对相应超级节点进行二次标记，将标记次数超过标记次数阈值的超级节点降级为验证节点，按信用分数Q优先级将等同数量的验证节点升级为超级节点，按安全分数K优先级将等同数量的普通节点升级为验证节点。通过根据第一巡查名单的普通节点的第一深度强化学习模型与第二巡查名单的验证节点的第二深度强化学习模型相互独立对交易数据进行深度强化学习结果，如果超级节点被同时检测到风险，则直接降级为普通节点，进行惩罚，而被任一检测到风险，则进行标记惩罚，只有标记次数M≥标记次数阈值M0的超级节点降级为验证节点，避免误判干扰区块链系统的正常运行和良心发展。

本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

请参考图3，其为本发明实施例所提供的区块链系统的构架图，所述系统包括：

由于本实施例中的各单元模块能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。图4是本发明的一个实施例节点设备的硬件示意图。请参考图4，在硬件层面，该节点设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该节点设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，也可从其它设备上获取相应的计算机程序，以在逻辑层面上形成电价的定价装置。处理器，执行存储器所存放的程序，以通过执行的程序实现本发明任一实施例中提供的节点工作方法。

本发明实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的节点设备执行时，能够使该节点设备执行本发明任一实施例中提供的节点工作方法。

上述如本发明图实施例提供的节点设备执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元或模块分别描述。当然，在实施本发明时可以把各单元或模块的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.基于区块链的节点管理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一智能合约包括：第一巡查名单的普通节点通过第一深度强化学习模型对超级节点进行风险检测，生成带有时间戳的检测结果，其他普通节点在接收到检测结果后停止风险检测，向完成监测的普通节点发放第一奖励，所述第一奖励获取于三分之一的扣留的奖励；将第一深度强化学习模型的更新权限约束为第一巡查名单的普通节点，更新第一深度强化学习模型。

3.根据权利要求2所述的方法，其特征在于，所述超级节点参与的交易数据为超级节点负责出块的交易双方任一方的交易数据，所述交易数据包括单日交易次数、单日数字资产交易额度、巡查周期内的交易总次数、巡查周期内数字资产的交易总额度、巡查周期内首次交易的节点数量和巡查周期内首次交易的数字资产的交易额度，所述第一深度强化学习模型的构建方法具体包括：

其中，Q^*为最优函数；

4.根据权利要求3所述的方法，其特征在于，所述第二智能合约包括：第二巡查名单的验证节点通过第二深度强化学习模型对超级节点进行风险检测，生成带有时间戳的预测结果，其他验证节点在接收到预测结果后停止风险检测，向完成监测的验证节点发放第二奖励，所述第二奖励获取于三分之二的扣留的奖励；将第二深度强化学习模型的更新权限约束为第二巡查名单的验证节点，更新第二深度强化学习模型。

5.根据权利要求4所述的方法，其特征在于，所述第二深度强化学习模型为的构建方法具体包括：