CN113572647A

CN113572647A - 一种基于强化学习的区块链-边缘计算联合系统

Info

Publication number: CN113572647A
Application number: CN202110870284.XA
Authority: CN
Inventors: 刘儿兀; 耿元哲
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-29
Anticipated expiration: 2041-07-30
Also published as: CN113572647B

Abstract

本发明涉及计算机技术和移动通信技术，特别是涉及利用强化学习对区块链‑边缘计算联合系统进行性能优化的方案设计。本发明提出了一种基于强化学习的区块链‑边缘计算联合系统，包含：区块链‑边缘计算联合系统、智能体和经验池。智能体将该环境信息作为状态，输入到自带的神经网络中。神经网络通过计算当前状态下执行不同动作的预期收益，进行行为决策，使得能够得到的回报最大化。其中在训练阶段，智能体将通过从经验中采样过去的经验进行学习，逐步调整行为策略，实现区块链‑边缘计算联合网络的性能优化。

Description

一种基于强化学习的区块链-边缘计算联合系统

技术领域

本发明涉及计算机技术和移动通信技术，特别是涉及利用强化学习对区块链-边缘计算联合系统进行性能优化的方案设计。

背景技术

区块链、边缘计算都是近年来新兴的技术。区块链是一种去中心化的分布式账本，能够有效保证数据的公开透明并防止篡改，存储在其中的数据和信息具有不可伪造、全程留痕、可溯源、公开透明、集体维护等特点。边缘计算是5G通信的一项代表性技术，其利用边缘基站对应用程序请求进行处理，以产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。随着5G通信技术的发展与普及，如何保证边缘节点及其数据的安全性将会是未来的一个热点话题。

结合区块链技术在数据安全与隐私保护方面的众多优点，通过将边缘服务器节点与区块链网络节点耦合，即边缘基站也作为区块链共识节点参与区块的验证和打包工作，是一种非常有前景的技术方案。尽管工业界目前尚未有成熟的系统面市，但是已有相关专利对区块链-边缘计算联合系统进行了设计，并尝试应用于一些具体场景中，例如CN113079159A、CN113065866A、CN113055456A。

移动边缘计算网络节点众多，利用区块链技术实现服务器日志信息留存、边缘节点操作记录等，可以进一步增强边缘计算网络的健壮性。但是，通过将区块链技术与边缘计算技术耦合到同一个系统中，这种联合系统也带来的新的问题与挑战，其中最关键的便是如何同时提升系统的边缘计算网络性能和区块链网络性能。目前，现有专利技术如CN113037534A、CN113037535A利用传统通信方法给出了一些方案。但是这些方法只关注了通信网络的性能，而区块链公链网络吞吐量低、延迟性高的问题仍然没有得到很好的解决。另一方面，如何将边缘服务器节点的资源合理地分配用于完成通信任务和区块链任务，以提升联合系统中两个网络的整体性能，这也是目前技术方案中未考虑到的问题。

强化学习是机器学习的三大范式之一，这种技术明确地考虑了智能体与不确定性环境的整个交互过程，在每次选取动作前折中权衡“探索”与“利用”，使执行动作后获取的期望回报值最大化。强化学习方法Deep Q Learning(DQN)结合了深度神经网络和强化学习方法，实现了对动作价值的评估。智能体通过在不同的状态下尝试各种不同的动作，并根据获得的实际回报值不断调整自身策略，不断地调整自己的行为策略。DQN算法通过利用深度神经网络对该期望回报进行计算拟合，可以不断减小估计值和现实值的误差，并调整网络参数权重，最终能够学习到最优的行为策略。

结合上述区块链-边缘计算联合系统中存在的关键技术问题，通过使用强化学习技术，可以对边缘服务器节点、区块链共识节点进行动态调整，从而进一步实现边缘计算网络和区块链网络性能的综合提升，使得该联合系统更加实用。

发明内容

针对上述区块链-边缘计算联合系统设计中存在的缺陷和不足，本发明提出了一种基于强化学习的区块链-边缘计算联合系统，旨在减少系统用户处理用户任务并完成数据上链的总耗时，提升联合系统的综合性能。具体来讲，本发明拟解决的问题如下：

1、针对区块链-边缘计算联合系统，现有技术方案仅考虑了通信网络层面的优化，而区块链网络吞吐量低、延迟性高的问题仍然没有得到很好的解决，区块链出块时间过长；

2、如何对边缘服务器节点的资源分配进行优化，使其能够兼顾通信任务和区块链任务，提升通信网络与区块链网络的整体性能，仍然是一个待解决的问题。

针对该系统中存在的上述技术问题，本发明采取了如下技术方案：

一种基于强化学习的区块链-边缘计算联合系统，其特征在于，包含：区块链-边缘计算联合系统、智能体和经验池。所述区块链-边缘计算联合系统包括区块链网络和边缘计算网络。

所述边缘计算网络中具有大量的边缘服务器节点(基站)，除了构成一张边缘计算网络(用于处理通信信号传输等工作)，还构成了一张区块链网络(用于参与共识和数据上链等工作)。当手机用户卸载其任务到边缘服务器节点时，联合系统将选择合适的边缘服务器节点进行处理和响应，并不断创建事务，保存操作记录等日志信息。由于边缘计算网络中的每个边缘服务器节点均具有一定存储空间和计算能力，因此均可以被选择作为区块链网络中的共识节点参与到打包事务(生成区块)和执行共识过程的工作中。

所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息，并负责做出行为决策。

所述经验池用于存储智能体在不同环境状态下的行为尝试经历，以供智能体后续采样并进行经验学习。

区块链-边缘计算联合系统作为环境，并向智能体提供环境信息。智能体将该环境信息作为状态，输入到自带的神经网络中。神经网络通过计算当前状态下执行不同动作的预期收益，进行行为决策，使得能够得到的回报最大化。其中在训练阶段，智能体将通过从经验中采样过去的经验进行学习，逐步调整行为策略，实现区块链-边缘计算联合网络的性能优化。

算法具体步骤如下：

1)区块链-边缘计算联合系统向智能体提供环境状态，具体包括同时用作边缘服务器节点和区块链节点的全部N个节点在时隙t的最新股权数量φ(t)、信誉值D(t)、手机用户计算任务大小B(t)以及上一时刻的通信信道状态H(t-1)，记作s(t)＝[φ(t)，D(t)，B(t)，H(t-1)]。

2)智能体接收到环境状态s(t)后，将其输入到神经网络θ中。智能体利用神经网络计算在当前的环境状态下，执行不同动作能够获得的预期回报，并最终输出能使预期回报最大化的一套动作a(t)＝[α(t)，β(t)，S^B(t)，T^I(t)]。其中所述动作的具体内容包括：从N个联合系统节点中选择其中K个节点参与区块共识的节点集合α(t)，边缘服务器节点通信功率分配比例β(t)，设置区块链大小S^B(t)，设置区块生成间隔T^I(t)。

3)联合系统根据当前时刻的环境状态s(t)和智能体做出的动作a(t)，给出奖励r(t)＝ωT_mec+(1-ω)T_block。其中T_mec为边缘计算网络用于信息传输和计算的耗时，T_block为区块打包与验证的耗时，_ω为可调节的权重系数。同时，区块链-边缘计算联合系统进行环境状态更新并得到下一时刻的状态s(t+1)，具体表现为联合系统中的N个节点更新各自的信息s(t+1)＝[φ(t+1)，D(t+1)，B(t+1)，H(t)]，包括更新后的股权数量φ(t+1)、信誉值D(t+1)、当前用户卸载的任务量大小B(t+1)和t时刻的通信信道状态信息H(t)。

4)判断当前是否处于训练阶段。若是训练阶段，则继续第5步；若非训练阶段，即当前正在使用训练好的网络进行实际决策，则此时已得到合适的行动，流程结束。

5)智能体存储在时隙t得到的经验样本e(t)＝[s(t)，a(t)，r(t)，s(t+1)]到经验池中。

6)智能体随机从经验池中抽取一批经验样本，计算如下的损失函数：

其中，Q(s(t)，a(t)；θ_Q)表示使用神经网络θ来估计状态s下执行动作a能够获得的未来期望收益，γ表示一个在0～1区间范围内的折扣系数，θ_i表示第i次迭代后的神经网络参数，

是过往迭代中得到并保存的网络参数并每隔一段时间被θ_i-1替换。

7)对上述损失函数进行差分运算，并利用随机梯度下降进行神经网络参数的更新。

8)重复执行第1步到第7步，直至到达预先设定的最大循环次数。

其中，智能体所使用的神经网络的结构如图4所示，具体为：

一个含有y个神经元的输入层，其中y是状态空间的维度数；

一个含有l₁个神经元的隐藏层，作为第一层隐藏层，该层与输入层以全连接的方式连接；

一个含有l₂个神经元的隐藏层，作为第二层隐藏层，该层与第一层隐藏层以全连接的方式连接；

一个含有l₃个神经元的隐藏层，作为第二层隐藏层，该层与第二层隐藏层以全连接的方式连接；

一个含有z个神经元的输出层，其中z是动作空间的维度数，该层与第三层隐藏层以全连接的方式连接。

有益效果

本发明的积极进步效果在于利用强化学习技术，实现区块链系统和边缘计算系统二者性能的综合提升，减少用户数据处理和上链的总耗时。具体来讲，本发明具有以下益处：

1、动态分配各边缘服务器节点用于传输和计算的功率，提升边缘计算系统性能；

2、动态选择参与区块链共识过程的节点，以及区块大小和出块间隔时间，提升区块链系统性能；

3、综合考虑边缘计算系统和区块链系统，通过调配权重参数，实现联合系统综合性能的提升。

说明书附图

图1为本发明的系统模型图。

图2为本发明的交互逻辑示意图。

图3为本发明的算法流程图。

图4为本发明中所使用的神经网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

区块链-边缘计算联合系统，包含区块链网络和边缘计算网络，如图1所示；

所述边缘计算网络中具有大量的边缘服务器节点(基站)，当手机用户卸载其任务到边缘服务器节点时，联合系统将选择合适的边缘服务器节点进行处理和响应，并不断创建事务，保存操作记录等日志信息。由于边缘计算网络中的每个边缘服务器节点均具有一定存储空间和计算能力，因此均可以被选择作为区块链网络中的共识节点参与到打包事务(生成区块)和执行共识过程的工作中。也即，大量的边缘服务器节点除了构成一张边缘计算网络(用于处理通信信号传输等工作)，还构成了一张区块链网络(用于参与共识和数据上链等工作)。

本发明的交互逻辑示意图如图2所示，其中主要包含区块链-边缘计算联合系统、智能体和经验池。区块链-边缘计算联合系统作为环境，并向智能体提供环境信息。智能体将该环境信息作为状态，输入到自带的神经网络中。神经网络通过计算当前状态下执行不同动作的预期收益，进行行为决策，使得能够得到的回报最大化。其中在训练阶段，智能体将通过从经验中采样过去的经验进行学习，逐步调整行为策略，实现区块链-边缘计算联合网络的性能优化。算法流程如图3所示，具体步骤如下：

3)联合系统根据当前时刻的环境状态s(t)和智能体做出的动作a(t)，给出奖励r(t)＝ωT_mec+(1-ω)T_block。其中T_mec为边缘计算网络用于信息传输和计算的耗时，T_block为区块打包与验证的耗时，ω为可调节的权重系数。同时，区块链-边缘计算联合系统进行环境状态更新并得到下一时刻的状态s(t+1)，具体表现为联合系统中的N个节点更新各自的信息s(t+1)＝[φ(t+1)，D(t+1)，B(t+1)，H(t)]，包括更新后的股权数量φ(t+1)、信誉值D(t+1)、当前用户卸载的任务量大小B(t+1)和t时刻的通信信道状态信息H(t)。

其中的θ_i表示第i次迭代后的神经网络参数，

其中，智能体所使用的神经网络的结构如图4所示，具体为：

一个含有y个神经元的输入层，其中y是状态空间的维度数；

针对如图1所示区块链-边缘计算联合系统，本实施例提出了的一种基于强化学习的性能优化方法，旨在提升区块链系统和通信系统的综合性能，减少联合系统处理数据的总用时。目前5G通信技术正在迅猛发展和不断普及中，边缘计算作为其中的一项关键技术，其边缘服务器节点的数据安全与隐私包含也正引起广泛的关注。尽管目标市面上暂时没有成形的区块链-边缘计算联合系统成品，但是已有部分专利对该联合系统进行了设计。因此，当服务于通信应用的边缘服务器节点同样用作区块链节点时，这种联合系统的整体性能优化便是一个关键问题，而本发明的目的便在于为该系统的未来实际应用提供一种基于强化学习的性能优化方案。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于强化学习的区块链-边缘计算联合系统，其特征在于，包含：区块链-边缘计算联合系统、智能体和经验池；所述区块链-边缘计算联合系统包括区块链网络和边缘计算网络；

所述边缘计算网络中具有大量的边缘服务器节点，除了构成一张边缘计算网络，还构成了一张区块链网络；边缘计算网络中的每个边缘服务器节点具有一定存储空间和计算能力，均可以被选择作为区块链网络中的共识节点参与到打包事务和执行共识过程的工作中；当手机用户卸载其任务到边缘服务器节点时，联合系统将选择合适的边缘服务器节点进行处理和响应，并不断创建事务，保存操作记录等日志信息；

所述智能体用于从外部环境获取各节点的通信环境状态信息和区块链环境状态信息，并负责做出行为决策；

所述经验池用于存储智能体在不同环境状态下的行为尝试经历，以供智能体后续采样并进行经验学习；

区块链-边缘计算联合系统作为环境，并向智能体提供环境信息；智能体将该环境信息作为状态，输入到自带的神经网络中；神经网络通过计算当前状态下执行不同动作的预期收益，进行行为决策，使得能够得到的回报最大化；其中在训练阶段，智能体将通过从经验中采样过去的经验进行学习，逐步调整行为策略，实现区块链-边缘计算联合网络的性能优化；

算法具体步骤如下：

S1.区块链-边缘计算联合系统向智能体提供环境状态，具体包括同时用作边缘服务器节点和区块链节点的全部N个节点在时隙t的最新股权数量φ(t)、信誉值D(t)、手机用户计算任务大小B(t)以及上一时刻的通信信道状态H(t-1)，记作s(t)＝[φ(t)，D(t)，B(t)，H(t-1)]；

S2.智能体接收到环境状态s(t)后，将其输入到神经网络θ中；智能体利用神经网络计算在当前的环境状态下，执行不同动作能够获得的预期回报，并最终输出能使预期回报最大化的一套动作a(t)＝[α(t)，β(t)，S^B(t)，T^I(t)]；其中所述动作的具体内容包括：从N个联合系统节点中选择其中K个节点参与区块共识的节点集合α(t)，边缘服务器节点通信功率分配比例β(t)，设置区块链大小S^B(t)，设置区块生成间隔T^I(t)；

S3.联合系统根据当前时刻的环境状态s(t)和智能体做出的动作a(t)，给出奖励r(t)＝ωT_mec+(1-ω)T_block；其中T_mec为边缘计算网络用于信息传输和计算的耗时，T_block为区块打包与验证的耗时，ω为可调节的权重系数；同时，区块链-边缘计算联合系统进行环境状态更新并得到下一时刻的状态s(t+1)，具体表现为联合系统中的N个节点更新各自的信息s(t+1)＝[φ(t+1)，D(t+1)，B(t+1)，H(t)]，包括更新后的股权数量φ(t+1)、信誉值D(t+1)、当前用户卸载的任务量大小B(t+1)和t时刻的通信信道状态信息H(t)；

S4.判断当前是否处于训练阶段；若是训练阶段，则继续S5；若非训练阶段，即当前正在使用训练好的网络进行实际决策，则此时已得到合适的行动，流程结束；

S5.智能体存储在时隙t得到的经验样本e(t)＝[s(t)，a(t)，r(t)，s(t+1)]到经验池中；

S6.智能体随机从经验池中抽取一批经验样本，计算如下的损失函数：

是过往迭代中得到并保存的网络参数并每隔一段时间被θ_i-1替换；

S7.对上述损失函数进行差分运算，并利用随机梯度下降进行神经网络参数的更新；

S8.重复执行S1到S7，直至到达预先设定的最大循环次数；

其中，智能体所使用的神经网络的结构包括：

一个含有y个神经元的输入层，其中y是状态空间的维度数；