CN111507601A

CN111507601A - 基于深度强化学习与区块链共识的资源优化分配决策方法

Info

Publication number: CN111507601A
Application number: CN202010282682.5A
Authority: CN
Inventors: 李萌; 杨乐; 张延华; 杨睿哲; 吴文君; 司鹏搏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-12
Filing date: 2020-04-12
Publication date: 2020-08-07
Anticipated expiration: 2040-04-12
Also published as: CN111507601B

Abstract

本发明公开了基于深度强化学习与区块链共识的资源优化分配决策方法，通过构建计算任务模型和服务器状态模型，计算主控制器本地计算和卸载计算的能耗和经济开销，以及区块链共识过程产生的计算经济开销，从而通过训练深度神经网络和策略网络，指导调整控制器选择、卸载决策、区块尺寸和服务器选择，完成场景内的最优资源分配。本发明克服了工业互联网数据安全、设备因处理计算任务而能耗过高、工作周期短，以及系统总体经济开销过高等问题。仿真实验表明，本发明提出的基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法在节省控制器能耗、系统经济开销以及延长控制器群组工作总时长方面具有一定的优势。

Description

基于深度强化学习与区块链共识的资源优化分配决策方法

技术领域

本发明涉及一种基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法，通过深度强化学习算法，设计一种各小区工业互联网数据在区块链共识过程中，通过优化资源分配策略，有效减少系统经济开销和控制器能耗的决策优化方法，属于资源分配和系统决策的相关领域。

背景技术

当前，工业互联网(industrial Internet)的快速发展吸引了来自工业界和学术界的大量关注。工业互联网技术的应用实现了机器与机器、机器与人的高效便捷的交互。多种类型的工业互联网设备，又名机器类型通信设备，被广泛应用在了多种工业领域中，包括环境监测、制造业、视频监控以及智能网络等。

在工业互联网场景中，工业数据的安全性和真实性至关重要。然而，由于设备分布广泛以及交互数据种类多样，数据的隐私性和安全性往往很难得到保证。另一方面，工业互联网设备的能量资源和计算资源短缺明显，主要原因是大多数设备在脱离人工控制下进行工作，并且为了延长工作寿命，仅装配有限的电池设备和轻量的计算资源。因此，一些复杂繁重的计算任务很难在这些设备中独立完成。

为应对存在于工业互联网系统中的数据安全性问题，新兴的区块链(blockchain)技术被广泛应用于工业领域。区块链最早是一种服务于比特币的底层技术，用于记录存储比特币的各类交易。相比于传统的由第三方控制的中心化账本，区块链实质上是一种拥有点对点网络结构的分布式账本，可有效保证数据的安全性和真实性。然而，无论是以比特币、以太坊为首的公链结构，还是使用拜占庭容错(BFT)共识机制的私链结构，都需要大量的计算资源用于挖矿和共识。因此，区块链中计算的效率和稳定性是一个至关重要的问题。

对此，计算任务卸载(computation offloading)作为一种新兴技术，可有效提高设备和节点的计算能力。通过将计算任务从设备卸载到计算服务器，不仅可明显地提升计算效率，还可有效减少设备的能耗。近年来，大量的研究工作聚焦于包含有中心云计算(cloud computing)和移动边缘计算(mobile edge computing,MEC)的混合数据计算模型。其中，相比于中心化的云计算，分布式的MEC拥有低传输时延、低计算开销以及低设备能耗等优势。更重要的是，分布式的计算卸载结构可支撑区块链中共识节点的验证计算过程。因此，将区块链和MEC整合至工业互联网场景成为了一种研究发展方向。对此，内蒙古大学的Zhang等人提出了一种结合了区块链和MEC技术的车载自组织网络安全结构。他们应用区块链保证数据的可追溯性，应用边缘计算解决区块链中的高维计算问题。此外，中山大学的Qiu等人提出了一种计算卸载方法来提升移动设备的计算能力，区块链共识等高强度计算过程可卸载至云服务器或是边缘计算服务器。

然而，在将区块链和MEC整合入工业互联网时，仍将面临一些潜在的问题和挑战。例如，如何在本地处理和计算卸载间选择，以平衡设备能耗和系统经济开销。另一个问题是考虑到服务器的计算资源和开销，哪一个服务器更适合支持计算过程。此外，由于区块链技术的引入，能耗和计算负载的问题更加严峻。因此，这些问题在设计系统时均须仔细考虑。

同时，针对工业互联网系统中状态高动态性、高维度性等特点，近年来，深度强化学习(deep reinforcement learning,DRL)逐渐成为一类热门高效的优化方法。智能体agent按照一定策略对环境施加动作。环境返回给agent即时奖励并转移至下一状态。两者交互过程持续进行直到环境达到最终状态,agent在此过程中不断调整策略以获得最大的长期奖励。DRL中加入了深度神经网络对agent的动作进行评价估计，可更好应对高维的状态、动作问题。近年来，应用DRL方法对工业互联网系统性能进行优化的研究逐渐增加。北京邮电大学的Qiu等人应用一种dueling deep Q-learning算法对基于区块链的工业互联网系统中的吞吐量进行了优化。西安电子科技大学的Feng等人应用DRL算法对基于区块链的工业互联网系统中MEC系统的计算效率和区块链系统的交易吞吐量进行了优化。尽管上述研究均对系统的吞吐量等进行了优化。然而，在工业互联网系统中，设备能耗与系统经济开销仍是极其重要的系统性能指标，设备的能量分配也是不可忽视的问题。当前，针对此类系统能耗、经济开销等问题的研究仍十分欠缺。

综上所述，本发明面向工业互联网场景中设备计算任务卸载、数据区块链共识以及服务器选择等问题，提出一种基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法，通过联合考虑场景下控制器和服务器的状态，同时优化设备的能量消耗和能量分配，并有效降低系统经济开销。

发明内容

本发明的主要目的是在场景内资源优化分配最优的角度上，考虑场景内存在多小区、多控制器、多基站和多MEC服务器的情况下，以降低主控制器能耗、延长控制器群组工作时长和减少系统经济开销为优化目标，对场景进行建模，并应用DRL算法对模型进行迭代学习，获得节能且低经济开销的资源优化分配最优策略。本方法解决了在场景下存在多小区、多控制器、多基站和多MEC服务器的情况下，如何确定最优资源分配策略的问题，并通过执行最优资源分配策略有效减少主控制器能耗、系统经济开销，并延长控制器群组工作时长。

本发明所适应的多小区环境场景模型见图1。

本发明技术方案中的系统运行原理流程图见图2。

本发明控制器群组工作总时长与小区数量关系图见图3。

本发明主控制器能耗与小区数量关系图见图4。

本发明系统经济开销与小区数量关系图见图5。

本发明系统加权和开销与小区数量关系图见图6。

本发明的多小区环境场景模型如图1所示，基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法，在某个通信场景下，存在u个小区和与每个小区一一对应的u个控制器，每个控制器旁部署有1个基站和1个本地MEC服务器，此外，还存在n个区块链共识节点和v个用于支持区块链共识过程的服务器。当已知小区数量后，根据实际环境情况设置计算任务模型和服务器状态模型，并确定能耗和经济开销的加权参数。而后构造DRL中的状态空间、动作空间和奖励函数，并设置训练网络中的样本空间大小、抽样数量等参数，结合场景模型进行迭代学习，训练深度神经网络参数，用以估计状态动作值。最后在策略网络指导下执行资源分配最优策略，从而有效减少工业互联网数据在区块链共识时产生的主控制器能耗和系统经济开销，并延长控制器群组工作时长。具体依次按以下步骤实现：

步骤(1)，主控制器收集各小区控制器采集的工业互联网数据，将数据处理打包，具体步骤如下：

通信场景中存在u个有数据共识需求的小区，小区内的工业互联网设备在工作时间内向本地的控制器传输工业互联网数据，并且在每个时间节点t∈{0,1···T-1}，T为控制器群组中有任意控制器能量耗尽的时刻，控制器群组指定一个控制器作为主控制器，用于接收其他小区控制器收集的工业互联网数据并进行处理打包，主控制器选择在本地处理数据时，产生的处理能耗E_c表示为：

E_c＝z_n·q

其中，q为数据处理任务的复杂程度，z_n为CPU每轮处理过程消耗的能量，表示为：

z_n＝10^-27·(C_u)²

C_u为主控制器u的CPU计算频次，因主控制器在本地处理数据，不产生计算开销，对应的，主控制器选择将数据处理任务卸载至本地MEC服务器处理时，无处理能耗，而产生的传输能耗E_s表示为：

其中，d为数据处理任务的数据量，p_t为主控制器传输功率，r_cs为主控制器与本地MEC服务器间的传输速率，同时，主控制器卸载计算任务而产生的经济开销M_s表示为：

M_s＝ξ+μ·q

其中，ξ为服务器固定收费系数，μ为服务器比例收费系数；

步骤(2)，主控制器将处理后的数据打包入块并传输到区块链系统，产生的能耗表示为：

其中，r_cn为主控制器与区块链节点间的传输速率，n为区块链系统中的共识节点数量，产生区块的经济开销M_b表示为：

M_b＝ε·s

其中，ε为区块开销系数，s为区块大小；

步骤(3)，区块链系统的共识节点对主控制器发送的交易数据进行验证和共识，具体步骤如下：

步骤(3.1)，共识节点采用实用拜占庭容错(PBFT)共识机制对区块和交易进行验证共识，验证签名所需的计算轮数为θ,产生和验证消息验证码(MAC)所需的计算轮数为α，各共识节点完成一次共识过程所需的总计算轮数为：

其中，g为主节点发送验证正确交易比例，b为总交易大小，h为平均交易大小，f为最多可容纳的错误节点数量，f＝(n-1)/3；

步骤(3.2)，共识节点的验证过程由MEC服务器和云服务器提供算力支持，它们的计算资源和计算经济开销分别为γ和η，并且分别服从状态转移矩阵

和

共识过程的时延表示为：

共识过程的计算经济开销表示为：

M_n＝η

步骤(3.3)，场景下工业互联网数据进行区块链共识产生的主控制器能耗表示为：

产生的经济开销表示为：

M＝M_s+M_n+M_b

由此计算出系统加权和开销表示为：

W＝k_e·E+k_m·M

其中，k_e和k_m分别为能耗和经济开销的加权系数；

步骤(4)，根据步骤(1)-(3)，结合场景和优化目标，设置DRL中的状态空间、动作空间和奖励函数，具体步骤如下：

步骤(4.1)，根据场景内小区数量、支持共识过程的MEC服务器数量和云服务器数量，设置状态空间：

其中，g_u为控制器能量状态，γ_v和η_v分别为服务器的计算资源状态和计算经济开销状态；

步骤(4.2)，根据场景内小区数量、支持共识过程的MEC服务器数量和云服务器数量，设置动作空间：

a(t)＝[a_c(t),a_p(t),a_b(t),a_s(t)]

其中，a_c∈(1,2,...,u)为选择控制器的动作，a_p∈(0,1)为卸载决策动作，a_b∈(1,2,...,b)为调整区块尺寸动作，a_s∈(1,2,...,v)为选择共识服务器的动作；

步骤(4.3)，根据优化目标，设置奖励函数：

其中，σ为共识成功的奖励，k为加权开销调节系数，t_l为共识时限，ρ为控制器选择激励，表示为：

ρ(t)＝p·(g_a(t)-g(t))

其中，p为惩罚系数，g_a为控制器平均能量状态，g为所选中的主控制器能量状态；

步骤(5)，根据步骤(4)中构建的状态空间、动作空间和奖励函数，设置样本空间大小、抽样数量以及网络层数，对深度神经网络进行训练，用于近似描述状态动作值(Q值)：

Q(s,a)＝Q(s,a,θ)

其中，θ为深度神经网络中的权值和偏置，Q值的迭代在策略网络中完成，可表示为：

Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]

其中，Q(s,a)表示在状态s下做动作a时的Q值。α为学习效率，影响Q表的更新速度。r为即时奖励，γ为奖励延迟，maxQ(s’,a’)表示下一状态中选动作中的最大Q值，深度神经网络中的参数θ由损失函数进行训练，表示为：

通过减小损失函数，逐渐将深度神经网络中的参数调整到足以近似描述Q值；

步骤(6)，根据步骤(5)中训练完成的深度神经网络在各状态下生成所有可选动作的Q值，将Q值最大的动作作为该状态下的最优动作，持续执行各状态的最优动作，直至执行指令结束。

本发明的优势在于，在具有多小区、多服务器的通信场景下，通过考虑各小区控制器能量状态以及各服务器的计算资源和计算经济开销状态，使工作周期内主控制器能耗和系统经济开销的加权和开销有效减少，并延长了控制器群组的工作时长。通过仿真实验考察基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法对场景中系统能耗和经济开销的加权和开销、控制器群组工作时长的影响。

附图说明

图1，通信场景模型包含小区、控制器、基站、本地MEC服务器、用于支持区块链共识过程的MEC服务器和云服务器、区块链共识节点的结构示意图。

图2，基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法设计流程图。

图3，控制器群组工作总时长与小区数量关系图，图中下三角表示本发明所述方法，菱形表示无主控制器选择的框架，上三角表示无卸载决策的框架，方框表示现有框架。

图4，主控制器能耗与小区数量关系图，图中下三角表示本发明所述方法，上三角表示无卸载决策的框架。

图5，系统经济开销与小区数量关系图，图中下三角表示本发明所述方法，五角星表示无服务器选择框架，圈表示无区块尺寸调整框架，方框表示现有框架。

图6，系统加权和开销与小区数量关系图，图中下三角表示本发明所述方法，五角星表示无服务器选择框架，圆圈表示无区块尺寸调整框架，上三角表示无卸载决策的框架，方框表示现有框架。

具体实施方式

下面结合附图和实例对基于深度强化学习与区块链共识的工业互联网资源优化分配决策方法的技术方案做进一步说明。

本发明所述方法流程图如图2所示，包括以下步骤：

步骤一，系统初始化，设定小区数量、区块链系统共识节点数量、用于服务区块链共识过程的服务器数量以及控制器功率、基站传输速率等；

步骤二，根据实际情况，计算主控制器处理数据的能耗E_c、卸载计算任务产生的传输能耗E_s和经济开销M_s、主控制器向区块链系统传输交易的能耗E_n以及区块链共识过程产生的经济开销M_b+M_n；

步骤三，根据优化目标，设置DRL算法的状态空间s(t)，动作空间a(t)和奖励函数r(t)；

步骤四，设置深度神经网络层数、样本空间大小和抽样批次大小；

步骤五，训练深度神经网络，并在策略网络中迭代Q值；

步骤六，根据各状态下相应动作Q值选择最优动作，获得最大收益。

图3为控制器群组工作总时长与小区数量关系图。由图3可知，本发明所述方法在不同小区数量条件下，场景中控制器群组工作的总时长情况。当小区数量为6时，本发明所述方法对应的工作时长可达105，而其余方法最多工作时长仅为80。可以得出，控制器群组工作时长与小区数量有关，且随小区数量增加而降低，但基于本发明所述方法优化后的工作时长始终高于基于其他方法的情况。

图4为主控制器能耗与小区数量关系图。由图4可知，当小区数量增加时，由于产生的数据任务量增加，主控制器能耗也随之增加。当小区数量为8时，本发明所述方法对应的主控制器能耗仅为1050J，而无卸载决策的方法对应的主控制器能耗则高达2600J。从另一个角度，在相同的主控制器能耗情况下，本发明方法可增加服务小区的数量，例如主控制器能耗为1300J，在本发明所述方法下可服务10个小区，而在无卸载决策的方法下仅可服务4个小区。

图5为系统经济开销与小区数量关系图。由图5可知，在相同的小区数量下，本发明所述方法对应的系统经济开销始终低于其余方法，且当花费相同的系统经济开销时，在本发明所述方法下可服务更多小区数据的区块链共识。例如，当小区数量为12时，本发明方法可降低系统经济开销至3500，而其余方法优化后的系统经济开销均高于3800。

为了综合从主控制器能耗和系统经济开销对比本发明方法和现有方法的优化效果，图6展示了在不同小区数量下，各方法优化后的系统能耗和经济开销的加权和开销情况。由图6可知，在任意小区数量下，本发明联合考虑主控制器能耗和系统经济开销，产生的系统加权和开销均优于只考虑部分因素的方法，而只考虑部分因素的方法取得的收益均优于未考虑优化的方法。

Claims

1.基于深度强化学习与区块链共识的资源优化分配决策方法，其特征在于：该方法包括如下步骤，步骤一，系统初始化，设定小区数量、区块链系统共识节点数量、用于服务区块链共识过程的服务器数量以及控制器功率、基站传输速率；

步骤五，训练深度神经网络，并在策略网络中迭代Q值；

2.根据权利要求1所述的基于深度强化学习与区块链共识的资源优化分配决策方法，其特征在于：步骤一种，主控制器收集各小区控制器采集的工业互联网数据，将数据处理打包，具体步骤如下：

E_c＝z_n·q

z_n＝10^-27·(C_u)²

M_s＝ξ+μ·q

其中，ξ为服务器固定收费系数，μ为服务器比例收费系数。

3.根据权利要求2所述的基于深度强化学习与区块链共识的资源优化分配决策方法，其特征在于：步骤二中，主控制器将处理后的数据打包入块并传输到区块链系统，产生的能耗表示为：

M_b＝ε·s

其中，ε为区块开销系数，s为区块大小。

4.根据权利要求3所述的基于深度强化学习与区块链共识的资源优化分配决策方法，其特征在于：步骤三中，区块链系统的共识节点对主控制器发送的交易数据进行验证和共识，具体步骤如下：

步骤(3.1)，共识节点采用实用拜占庭容错共识机制对区块和交易进行验证共识，验证签名所需的计算轮数为θ,产生和验证消息验证码所需的计算轮数为α，各共识节点完成一次共识过程所需的总计算轮数为：

和

共识过程的时延表示为：

共识过程的计算经济开销表示为：

M_n＝η

产生的经济开销表示为：

M＝M_s+M_n+M_b

由此计算出系统加权和开销表示为：

W＝k_e·E+k_m·M

其中，k_e和k_m分别为能耗和经济开销的加权系数。

5.根据权利要求4所述的基于深度强化学习与区块链共识的资源优化分配决策方法，其特征在于：步骤四中，根据步骤一至步骤三，结合场景和优化目标，设置DRL中的状态空间、动作空间和奖励函数，具体步骤如下：

a(t)＝[a_c(t),a_p(t),a_b(t),a_s(t)]

步骤(4.3)，根据优化目标，设置奖励函数：

ρ(t)＝p·(g_a(t)-g(t))

其中，p为惩罚系数，g_a为控制器平均能量状态，g为所选中的主控制器能量状态。

6.根据权利要求3所述的基于深度强化学习与区块链共识的资源优化分配决策方法，其特征在于：步骤五中，根据步骤四中构建的状态空间、动作空间和奖励函数，设置样本空间大小、抽样数量以及网络层数，对深度神经网络进行训练，用于近似描述状态动作值Q值：

Q(s,a)＝Q(s,a,θ)

其中，θ为深度神经网络中的权值和偏置，Q值的迭代在策略网络中完成，表示为：

Q(s,a)←Q(s,a)+α[r+γmax Q(s’,a’)-Q(s,a)]

其中，Q(s,a)表示在状态s下做动作a时的Q值；α为学习效率，影响Q表的更新速度；r为即时奖励，γ为奖励延迟，max Q(s’,a’)表示下一状态中选动作中的最大Q值，深度神经网络中的参数θ由损失函数进行训练，表示为：

通过减小损失函数，逐渐将深度神经网络中的参数调整到足以近似描述Q值。

7.根据权利要求6所述的基于深度强化学习与区块链共识的资源优化分配决策方法，其特征在于：

步骤六中，根据步骤五中训练完成的深度神经网络在各状态下生成所有可选动作的Q值，将Q值最大的动作作为该状态下的最优动作，持续执行各状态的最优动作，直至执行指令结束。