CN112148478B

CN112148478B - 变电站分布式无线网中数据安全和资源分配联合优化方法

Info

Publication number: CN112148478B
Application number: CN202010912048.5A
Authority: CN
Inventors: 陆国生; 田霖; 林睿; 陈保豪; 朱一峰; 刘淼; 茹正辉
Original assignee: Super High Transmission Co of China South Electric Net Co Ltd
Current assignee: Super High Transmission Co of China South Electric Net Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2023-09-26
Anticipated expiration: 2040-09-02
Also published as: CN112148478A

Abstract

本发明提出一种变电站分布式无线网中数据安全和资源分配联合优化方法，解决了如何同时保证变电站分布式无线系统中的数据安全性及最优资源分配的问题，本发明首先将分散的变电站构成的分布式系统作为区块链来存储变电站的通信数据，保证数据的安全性，基于拜占庭容错协议达成数据的一致性，根据拜占庭容错协议的请求、预准备、准备、提交和响应流程，设计数据达成一致性过程中所消耗的通信时延参数，以系统的吞吐量函数达到最大化为深度强化学习目标，采用深度强化学习进行学习训练，使系统的吞吐量及通信时延均达到最优，实现由变电站形成的分布式系统的通信通道资源、区块链区块数量和容量的最优分配的同时，降低通信时延的目的。

Description

变电站分布式无线网中数据安全和资源分配联合优化方法

技术领域

本发明涉及变电站无线通信的技术领域，更具体地，涉及一种变电站分布式无线网中数据安全和资源分配联合优化方法。

背景技术

无线通信技术是当前利用电磁波信号所有的自由空间的传播特定而进行数据信息交互的一种现代化、智能化通信方式，变电站则是改变电压的场所，通过升降电压来实现电能的输送，无线通信技术在变电站中的应用，可以保证变电站日常业务的高效率开展。

但在变电站分布式无线网络系统中，数据信息传输的安全性一直都是电网关注的焦点之一，数据的安全性保障着整个变电站所在的系统能够获得正确的数据，从而进行正确的操作，近年来区块链技术凭借其保证数据安全性的优点，广泛应该于金融、计算以及通信等各个方面，引起了人们对于区块链技术在其他方面的研究和探索，但目前区块链特点是低吞吐量和高延迟，无法保证数据安全性的同时兼具高效性以及最优的资源分配。

2019年10月，方维维，王子岳，宋慧丽，等在《北京交通大学学报》中公开了一种面向区块链的优化PBFT共识算法(2019,43(05))，此方案基于拜占庭容错协议(PBFT)的算法思想首先进行数据一致性的达成，在考虑降低系统的通信时延及资源分配层面引入积分机制，降低通信时延，但是该方法仅考虑了利用区块链技术的数据一致性达成的结果角度，并未从数据一致性达成的过程角度考虑兼顾分布式无线网络系统中的资源分配问题，无法降低拜占庭容错协议流程中的计算时延和传输时延。

发明内容

为解决如何同时保证变电站分布式无线系统中的数据安全性及最优资源分配的问题，本发明提出了一种变电站分布式无线网中数据安全和资源分配联合优化方法，达到数据安全性的保证和通信时延的降低的目的。

为了达到上述技术效果，本发明的技术方案如下：

一种变电站分布式无线网中数据安全和资源分配联合优化方法，所述方法将由变电站形成的分布式系统作为区块链，变电站作为区块链中的节点，区块链基于拜占庭容错协议达成数据的一致性，至少包括：

S1.初始化变电站分布式无线系统的状态空间、动作空间、各个变电站之间的通信信道状态、各个变电站所配备的服务器的计算资源状态、双重深度Q网络的参数；

S2.将系统所处的当前状态s输入到双重深度Q网络的主网络中，依据当前状态所采取的资源分配决策输出动作及每个动作对应的Q值，选取最大Q值对应的动作作为当前状态s₁的动作；

S3.考虑变电站所配备的服务器的计算资源及各个变电站之间的通信信道状态的变化，根据拜占庭容错协议的请求、预准备、准备、提交和响应流程，设计数据达成一致性过程中所消耗的通信时延参数，获得即刻奖励和系统所处的下一状态s′，并存储到经验池中；

S4.判断经验池存储的经验数量是否达到阈值E，若是，执行步骤S5；否则，返回执行步骤S2；

S5.以长期奖励函数最大化即系统的吞吐量函数达到最大化为深度强化学习目标，以设计的数据达成一致性过程中所消耗的通信时延参数为指导，基于竞争架构的双重深度Q网络算法，进行深度强化学习；

S6.判断算法是否收敛，若是，系统的吞吐量及通信时延均达到最优，资源分配终止；否则，返回步骤S5。

在此，各个变电站之间的通信信道状态和各个变电站所配备的服务器的计算资源状态为有限状态马尔可夫模型，在同一时刻不会发生变化，各个变电站所配备的服务器里面包括了本地数据库和全局数据库，全局数据库中全局数据的生成需要变电站之间相互通信，通信信道状态的初始化即按照实际环境选取一定的参数，进行初始化。

优选地，步骤S1所述的各个变电站所配备的服务器的计算资源初始化为服务器标称性能的50％；双重深度Q网络的参数包括权重和偏移，权重按照正态分布初始化，偏移按照0.1初始化。

在此，各个变电站所配备的服务器的计算资源初始化为服务器标称性能的50％，即在中等水平，可以为后续留出调整自身参数的空间，保证系统性能的最大化。

优选地，步骤S3所述的通信时延参数包括传输时延参数和计算时延参数；

1)拜占庭容错协议的请求流程的传输时延参数的表达式为：

其中，表示一个交易的平均大小，U表示基站的总集合；U_m表示总集合U中的第m个基站，B_p表示主节点；/>表示为从基站U_m到主节点B_p的传输速率；/>表示传输时延参数；

在拜占庭容错协议的请求流程中，主节点B_p验证数量的交易签名和MACs，S_B表示区块容量，执行/>数量交易的智能合约，产生计算消耗，计算时延的表达式为：

其中，表示计算消耗，表达式为/>β、θ、g为参数；

2)预准备流程：请求流程之后，生成新区块，主节点B_p将多播签名区块和预准备信息发送至所有的从节点验证，预准备信息包括主节点ID、主节点签名和新区块的哈希计算结果，拜占庭容错协议的预准备流程的传输时延参数表达式为：

其中，表示拜占庭容错协议预准备流程的传输时延；B表示节点集合；B_n表示从节点；/>表示主节点B_p向从节点发送预准备信息验证的传输速率；

在预准备流程中，主节点B_p需生成一个签名和N-1个MACs，主节点的计算消耗为：从节点的计算消耗为：/>其中B_n≠B_p，拜占庭容错协议的预准备流程的计算时延参数表达式为：/>

其中，表示拜占庭容错协议的预准备流程的计算时延参数；/>表示预准备流程的从节点的计算消耗；

3)准备流程：预准备流程验证新区块之后，每一个从节点B_n发送准备信息至其余从节点B_n′，B_n≠B_n′,也发送准备信息至主节点B_p，准备信息包括从节点ID和从节点签名，在准备流程，传输时延由发送准备信息引起，传输时延参数的表达式为：

其中，表示拜占庭容错协议准备流程的传输时延；/>表示每一个从节点B_n发送准备信息至其余从节点B_n′的传输速率；

主节点B_p验证来自其余从节点B_n′的2f个签名和MACs，主节点B_p计算消耗为每个从节点B_n为准备信息生成一个签名和N-1个MACs，2f个签名和MACs被验证，从节点B_n(B_n≠B_p)的计算消耗/>为/>

准备流程的计算时延参数表达式为：

其中，表示准备流程的计算时延参数；/>表示从节点B_n(B_n≠B_p)的计算消耗；

4)提交流程：每个从节点B_n接收到来自其余从节点B_n′的2f匹配的准备信息包含预准备信息之后，发送提交信息给其余从节点B_n′，也发送提交信息给主节点B_p，提交信息包括从节点的ID及从节点签名；提交流程传递提交信息的传输时延参数的表达式为：

其中，表示提交流程传递提交信息的传输时延；

每个从节点B_n为提交信息生成一个签名和N-1个MACs，在接收到提交信息后，每个从节点B_n验证2f个签名和MACs，每个从节点B_n的计算消耗为：

提交流程的计算时延参数表达式为：

其中，表示提交流程的计算时延；

5)响应流程：提交信息被从节点B_n接收后，新的区块变成合法区块并被加入到区块链中，同时包括有签名、ID及卸载任务的计算结果的响应消息将被传输，响应流程的传输时延的表达式为：

从节点生成个签名和/>个MACs，计算消耗/>表示为主节点验证2f个签名和MACs，计算消耗/>表示为/>响应流程的计算时延/>的表达式为：

在此，变电站的分布式系统数据一致性达成问题采用基于实用型拜占庭容错协议，同时该协议的达成涉及请求、预准备、准备、提交和响应5个阶段，并且五个阶段中涉及计算时延和传输时延，即在数据一致性达成的过程中存在通信消耗，是为变电站环境设计的参数和计算结果，是资源分配和数据安全性联合优化的关键。

优选地，步骤S3所述的即刻奖励获得的条件为：

I.通由变电站形成的分布式系统的信道的资源分配数不超过运营商分配至变电站的规定信道数；

II.区块最终完成时间T^f不超过期望通信最终完成时间T^e；

在此，区块最终完成时间是基于拜占庭容错协议的5流程计算出来的，是考虑和环境交互的结果，不同的环境可以倒追不同的完成时间，而规定的最大时间是期望通信最终完成时间，通过调整期望，使系统完成短时间的通信。

优选地，系统所处的下一状态s′通过状态转移概率转换。

优选地，即刻奖励的表达式为：

其中，Υ表示系统的吞吐量，K表示连续生成的区块数量，S_B表示区块容量，T表示时间间隔，表示平均交易大小，R_p,p+1当前主节点和下一主节点之间的传输速率，IB传输过程中丢失的区块。

优选地，区块最终完成时间T^f满足：

T^f＝T^p+T^c

其中，T^p表示拜占庭容错协议中传输信息所消耗的传输时延；T^c表示拜占庭容错协议中数据信息验证所消耗的计算时延。

优选地，步骤S5所述的系统的吞吐量函数表达式为：

其中，S_B表示区块容量；K表示连续生成的区块数量；t表示时间；W为通信信道数量；γ为折扣因子。

优选地，步骤S5所述的深度强化学习的方法满足：

y^{Double DQN}＝r+γQ(s',arg maxQ(s',a；θ)；θ^-)

其中，y^{Double DQN}表示目标值即实际值，γ表示折扣因子，s′表示系统的下一状态，a表选取的动作，θ表示主神经网络的参数，θ^-表示目标神经网络的参数。

优选地，算法收敛的标准为：随着时间t的增加，系统的吞吐量函数值不再增加。

在此，随着时间t′的增加，γ^t'-t会趋于零，从而系统的吞吐量函数值也将趋于一个稳定值，不再发生变化，即系统的吞吐量函数值不再增加。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种变电站分布式无线网中数据安全和资源分配联合优化方法，首先将分散的变电站构成的分布式系统作为区块链，以此来存储变电站的通信数据，保证数据的安全性，基于拜占庭容错协议达成数据的一致性，根据拜占庭容错协议的请求、预准备、准备、提交和响应流程，设计数据达成一致性过程中所消耗的通信时延参数，以此为学习基础，以长期奖励函数最大化即系统的吞吐量函数达到最大化为深度强化学习目标，采用深度强化学习进行学习训练，使系统的吞吐量及通信时延均达到最优，实现由变电站形成的分布式系统的通信通道资源、区块链区块数量和容量的最优分配的同时，降低通信时延的目的。

附图说明

图1表示本发明实施例中提出的由分散变电站组成分布式无线系统架构图。

图2表示本发明实施例中提出的变电站分布式无线网中数据安全和资源分配联合优化方法的流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，各个变电站1配备有服务器2，变电站1分散部署在多个地方，分散的变电站组成分布式系统，本发明提出的变电站分布式无线网中数据安全和资源分配联合优化方法将此分布式系统作为区块链，各个变电站1抽象为区块链网络中的节点，参见图1，包括主节点3和从节点4，区块链的主节点3与从节点4连接，系统基于拜占庭容错协议达成数据一致性，在本实施例中，该系统为离散时隙系统，同时系统状态建模为马尔可夫决策模型。考虑到真实环境下系统状态的动态变化，将系统状态建模为一阶马尔可夫决策模型。

参见图2所示的变电站分布式无线网中数据安全和资源分配联合优化方法的流程示意图，包括：

S1.初始化变电站分布式无线系统的状态空间、动作空间、各个变电站之间的通信信道状态、各个变电站所配备的服务器的计算资源状态、双重深度Q网络的参数；在本实施例中，各个变电站所配备的服务器的计算资源初始化为服务器标称性能的50％，即在中等水平，可以为后续留出调整自身参数的空间，保证系统性能的最大化；双重深度Q网络的参数包括权重和偏移，权重按照正态分布初始化，偏移按照0.1初始化；

S5.以长期奖励函数最大化即系统的吞吐量函数达到最大化为深度强化学习目标，以设计的数据达成一致性过程中所消耗的通信时延参数为指导，基于竞争架构的双重深度Q网络算法，进行深度强化学习；在本实施例中，在之后学习的过程中，采取小批量样本进行学习，目的是减小数据之间的相关性；采用的基于竞争架构的双重深度Q网络算法，该算法在深度网络结构的建立上，在最后一层神经网络输出的Q值先转化为状态价值和动作优势，最后再将其结合为一个Q值。

S6.判断算法是否收敛，若是，系统的吞吐量及通信时延均达到最优，资源分配终止；否则，返回步骤S5。算法收敛的标准为：随着时间t的增加，系统的吞吐量函数值不再增加。

在本实施例中，步骤S3所述的通信时延参数包括传输时延参数和计算时延参数；

1)拜占庭容错协议的请求流程的传输时延参数的表达式为：

其中，表示计算消耗，表达式为/>β、θ、g均为参数；

准备流程的计算时延参数表达式为：

其中，表示提交流程传递提交信息的传输时延；

提交流程的计算时延参数表达式为：

其中，表示提交流程的计算时延；

在本实施例中，步骤S3所述的即刻奖励获得的条件为：

II.区块最终完成时间T^f不超过期望通信最终完成时间T^e；

系统所处的下一状态s′通过状态转移概率转换，即刻奖励的表达式为：

区块最终完成时间T^f满足：

T^f＝T^p+T^c

在本实施例中，步骤S5所述的系统的吞吐量函数表达式为：

在本实施例中，步骤S5所述的深度强化学习的方法满足：

y^{Double DQN}＝r+γQ(s',arg maxQ(s',a；θ)；θ^-)

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种变电站分布式无线网中数据安全和资源分配联合优化方法，其特征在于，所述方法将由变电站形成的分布式系统作为区块链网络，变电站作为区块链网络中的节点，区块链基于拜占庭容错协议达成数据的一致性，所述方法包括：

S1.初始化变电站分布式系统的状态空间、动作空间、各个变电站之间的通信信道状态、各个变电站所配备的服务器的计算资源状态、双重深度Q网络的参数；

S2.将系统所处的当前状态s输入到双重深度Q网络的主网络中，依据当前状态s所采取的资源分配决策输出动作及每个动作对应的Q值，选取最大Q值对应的动作作为当前状态s的动作；

S5.以长期奖励函数最大化即系统的吞吐量函数达到最大化为深度强化学习目标，以设计的数据达成一致性过程中所消耗的通信时延参数为约束条件，基于竞争架构的双重深度Q网络算法，进行深度强化学习；

2.根据权利要求1所述的变电站分布式无线网中数据安全和资源分配联合优化方法，其特征在于，步骤S1所述的各个变电站所配备的服务器的计算资源初始化为服务器标称性能的50％；双重深度Q网络的参数包括权重和偏移，权重按照正态分布初始化，偏移按照0.1的大小初始化。

3.根据权利要求2所述的变电站分布式无线网中数据安全和资源分配联合优化方法，其特征在于，步骤S3所述的通信时延参数包括传输时延参数和计算时延参数；

1)拜占庭容错协议的请求流程的传输时延参数的表达式为：

其中，表示一个交易的平均大小，U表示基站的总集合；U_m表示总集合U中的第m个基站，B_p表示主节点；/>表示为从基站U_m到主节点B_p的传输速率；

在拜占庭容错协议的请求流程中，主节点B_p验证数量的交易签名和MACs，S_B表示区块容量，执行/>数量交易的智能合约，产生计算消耗，主节点B_p在请求流程计算时延的表达式为：

其中，表示主节点在请求流程的计算消耗，表达式为/>β、θ、α为参数；

其中，B表示节点集合；B_n表示第n个从节点；R_Bp,B_n表示主节点B_p向从节点发送预准备信息验证的传输速率；

在预准备流程中，主节点B_p需生成一个签名和N-1个MACs，主节点在预准备流程的计算消耗为：从节点在预准备流程的计算消耗为：/>其中B_n≠B_p，拜占庭容错协议的预准备流程的计算时延参数表达式为：/>

3)准备流程：预准备流程验证新区块之后，每一个从节点B_n发送准备信息至其余从节点B_n′，B_n≠B_n′,也发送准备信息至主节点B_p，准备信息包括从节点ID和从节点签名，在准备流程，传输时延由发送准备信息引起，在准备流程中的传输时延参数的表达式为：

其中，表示每一个从节点B_n发送准备信息至其余从节点B_n′的传输速率；

主节点B_p验证来自其余从节点B_n′的2f个签名和MACs，主节点B_p在准备流程的计算消耗为/>每个从节点B_n为准备信息生成一个签名和N-1个MACs，2f个签名和MACs被验证，从节点B_n在准备流程的计算消耗/>为/>B_n≠B_p；

准备流程的计算时延参数表达式为：

每个从节点B_n为提交信息生成一个签名和N-1个MACs，在接收到提交信息后，每个从节点B_n验证2f个签名和MACs，每个从节点B_n的提交流程的计算消耗为：

提交流程的计算时延参数表达式为：

5)响应流程：提交信息被从节点B_n接收后，新的区块变成合法区块并被加入到区块链中，同时包括有其余从节点B_n′的签名、ID及卸载任务的计算结果的响应消息将被传输，响应流程的传输时延的表达式为：

从节点生成个签名和/>个MACs，从节点在响应流程中计算消耗/>表示为主节点验证2f个签名和MACs，主节点在响应流程中计算消耗/>表示为响应流程的计算时延/>的表达式为：

4.根据权利要求3所述的变电站分布式无线网中数据安全和资源分配联合优化方法，其特征在于，步骤S3所述的即刻奖励获得的条件为：

I.由变电站形成的分布式系统的信道的资源分配数不超过运营商分配至变电站的规定信道数；

II.区块最终完成通信时间T^f不超过期望通信最终完成时间T^e。

5.根据权利要求4所述的变电站分布式无线网中数据安全和资源分配联合优化方法，系统所处的下一状态s′通过状态转移概率转换。

6.根据权利要求5所述的变电站分布式无线网中数据安全和资源分配联合优化方法，其特征在于，即刻奖励的表达式为：

其中，γ(S_B,K,W)表示系统的吞吐量，K表示连续生成的区块数量，W为通信信道数量，S_B表示区块容量，T表示时间间隔，表示平均交易大小，R_p,p+1当前主节点和下一主节点之间的传输速率，IB表示传输过程中丢失的区块。

7.根据权利要求6所述的变电站分布式无线网中数据安全和资源分配联合优化方法，其特征在于，区块最终完成通信时间T^f满足：

T^f＝T^p+T^c

8.根据权利要求1所述的变电站分布式无线网中数据安全和资源分配联合优化方法，其特征在于，算法收敛的标准为：随着时间t的增加，系统的吞吐量函数值不再增加。