CN112637822B

CN112637822B - 一种基于区块链的蜂窝网络安全交易平台

Info

Publication number: CN112637822B
Application number: CN202011569760.6A
Authority: CN
Inventors: 孙艳华; 邢玉萍; 张延华; 孙恩昌; 杨睿哲; 李萌
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-26
Filing date: 2020-12-26
Publication date: 2023-01-20
Anticipated expiration: 2040-12-26
Also published as: CN112637822A

Abstract

本发明公开了一种基于区块链的蜂窝网络安全交易平台，使用用户协作缓存调度策略缓解核心网络压力，用户在运行过程中也同样会产生多种多样的高性能计算需求，用协作计算模型解决计算任务；基于PBFT共识协议的蜂窝网络安全交易平台，通过将资源用户成为共识节点的方式，激励资源用户分享硬盘空间和计算资源，建立节点间的诚信度模型；通过基于PBFT算法的区块链共识协议，将整个区块链吞吐量优化问题，拆解成由缓存策略优化以及计算资源分享两个子问题，采用基于分层强化学习的方法进行求解。将两个强化学习过程进行嵌套，子问题在不断收敛的过程中，会不断引导主问题往更优的状态进行收敛，使用的分层强化学习方法。

Description

一种基于区块链的蜂窝网络安全交易平台

技术领域

本发明属于边缘计算、区块链领域，特别涉及一种基于强化学习优化的、确保交易安全性的区块链交易平台。

背景技术

随着通信技术和智能设备的飞速发展，各种服务于用户的高级需求被挖掘，用户对网络流量和设备计算能力的需求也在飞速增加。边缘缓存和计算卸载是具有潜力的技术，可以极大的减轻回程链路的压力和提升用户服务的响应速度。但是，用户与用户之间进行大量的数据交换和资源交易，存在数据安全与隐私防护问题，比如，用户的身份信息和访问记录，容易被恶意用户利用。同时，缺乏有效的奖励机制，用户参与蜂窝网络的贡献过程中，很难获得即时的奖励，用户积极性不高。

用户与用户之间分享内容往往依赖社会关系，通常只会分享给身边的朋友亲人，但对于身边需要资源的陌生人难以进行安全、可靠的分享。原因主要有两点，一、缺乏可靠的激励机制，用户不能从分享资源的过程中获得奖励。二、用户间分享过程中缺乏安全传输规范，用户在传输过程中隐私得不到保证。

区块链技术在解决上述两个问题中有着先天的技术优势。一、区块链技术可以通过“挖矿”等手段对产生区块的用户提供实时奖励，用户也可以通过区块链技术进行点对点的交易，通过出售自己闲置的计算资源换取奖励，通过这些方法，参与到蜂窝网络建设的用户都可以得到实时的奖励。二、区块链技术的安全性，在区块链平台的交易过程中，用户与用户之间都通过虚拟账户进行交易，用户的真实信息被保护，同时，一旦写入区块链的交易无法被篡改，保证了交易的安全性，所以区块链技术也可以解决用户在分享过程中的安全问题。

发明内容

本发明的目的在于提出一种基于区块链技术的蜂窝网络安全交易平台，其中区块链系统作为可信的第三方，在不同的控制器之间收集和同步网络范围内的视图。为了提高区块链系统的吞吐量，联合考虑了区块链共识节点和控制器的信任特性以及系统的计算能力。针对传统方法难以解决联合问题的问题，提出了一种新的分层DQN方法来解决该问题。

本发明采用的技术方案为一种基于区块链的蜂窝网络安全交易平台，实现该平台的模型包括用户协作缓存模型、用户协作计算模型、系统节点诚信度模型、基于PBFT的共识协议和基于强化学习的问题求解算法。在典型蜂窝网络场景中，使用用户协作缓存调度策略缓解核心网络压力，用户在运行过程中也同样会产生多种多样的高性能计算需求，因此用协作计算模型解决计算任务；为确保用户之间数据传输和个人隐私安全，部署基于区块链技术的资源交易安全性平台；基于PBFT共识协议的蜂窝网络安全交易平台，通过将资源用户成为共识节点的方式，激励资源用户分享自己的硬盘空间和计算资源，同时也保证了数据交换时可能面临的数据安全问题；考虑系统中共识节点和控制器的信任特性，建立节点间的诚信度模型；通过基于PBFT算法的区块链共识协议，所有交易被认证，添加到区块链上；将整个区块链吞吐量优化问题，拆解成由缓存策略优化以及计算资源分享两个子问题，采用基于分层强化学习的方法进行求解。

用户协作缓存模型中：

假设一共有S个基站分布在各个位置，每个基站都配备服务器，各基站用s∈{1,2,…S}来表示。同时，在当前的基站覆盖范围内，一共有N个移动用户并持有智能设备，用户用n∈{1,2,…N}来表示。用户与用户之间存在M个用户组，组内的用户直接通过D2D的方式通信，从而完成缓存内容的卸载或计算任务的卸载，如图1所示。其中每个用户组中的用户数量用l_m来表示，满足

假设每个用户在同一时间段内都只请求一个文件，整个传输过程将会被划分成T个时间段。

假设所有请求的文件都占用相同的存储空间LMB，K个资源用户设备开启缓存的存储空间大小都相同，为S_UEMB，基站的存储空间为S_BSMB，满足

当资源用户设备和基站存储空间使用结束以后会用最新的文件替换掉存储空间内的旧文件。当收到一个文件请求时，基站服务器需要作出决定用a_ca来表示，给出文件缓存的位置或者不缓存，相当于，

用户协作计算模型中：

用户在运行过程中也同样会产生多种多样的高性能计算需求，假设K个提供计算资源的用户设备具备相同的NPU计算速度CMHz。每个用户n在不同的时刻t都会产生一个计算任务a_n，对于a_n，用a_n＝{p_n,q_n}来描述一个计算任务，其中p_n代表该任务需要传输的数据量，q_n代表完成该任务，提供计算资源的用户设备需要的NPU时钟周期。

由于基站服务器比较稳定的原因，假设基站服务器提供给用户的计算资源是固定值C_BSMHz，简化用户与基站之间的传输过程，用户在上传和下载的过程中的速率相同。同时，用动作

来描述普通用户的计算卸载决策，当

时，则代表本地计算；当

时，则代表将计算任务通过D2D卸载到身边的高性能移动设备；当

时，则代表将计算任务卸载到基站服务器。由于用户在D2D传输过程中速度很快，所以同样用tD2D来描述任务在用户协作状态下的上传时延。由于计算结果数据量较小，所以忽略结果的返回时间，所以用户n的计算时间包括上传时延和计算时延。则单个用户计算时延

为,

由此得出，在t时刻，所有的平均计算时延为

系统节点诚信度模型中：

假设在整个蜂窝网络中，分享缓存资源和计算资源的用户设备，都会成为区块链中参与共识的共识节点(Consensus Node)，作为共识节点，一旦用户被选为生产者，在成功生产区块之后，将获得代币(Token)奖励，用户之间也通过代币进行交易，代币是一种去中心化的货币，保证交易间的安全性。虽然用户的终端设备配备的NPU在机器学习等新型信息应用方面具有较高的能耗比，但是在区块链的共识过程中，往往需要高实时性，高复杂度的逻辑运算，对比用户终端平均4000mAh的电池容量，电池所能提供的续航捉襟见肘，并且发热是一个难以克服的问题，高负载的逻辑运算必然带来高发热。为了克服移动设备共识过程发热大的问题，引入了轻节点的概念，所有移动端的共识节点，都作为轻节点运行。借助MEC(移动边缘计算)技术，基站配备的高性能服务器利用NFV(Network FunctionsVirtualization，网络功能虚拟化)技术，会在服务器计算单元内部，虚拟化出多台高性能服务器V1,V2,V3,…，虚拟化服务器之间互不干扰，如图2。每台虚拟服务器分配的计算资源与各个用户在时间段τ内对网络做出的贡献成正比，同时，所有虚拟服务器的计算资源总和不能超过基站服务器的总计算资源。

考虑系统中共识节点和控制器的信任特性。由于缺乏集中的安全服务和优先的安全关联，所有共识节点和控制器都具有不同的信任特征，比如安全还是妥协。很难获得节点或者控制器在下一时刻的信任特性。所以，节点k∈{1,2,...,K}和控制器s∈{1,2,...,S}的信任特征可以被建模成随机变量δ^k和ε^s。为更好描述信任特性，δ^k和ε^s被划分成H和G个离散等级，用δ＝{δ₀,δ₁,...,δ_H-1}和ε＝{ε₀,ε₁,...,ε_G-1}表示。假设信任特性δ^k和ε^s在τ时刻分别用δ^k(τ)和ε^s(τ)表示。在一段时间内，从开始生产区块到产生适量的区块结束，总共有T个时间段。用τ∈{0,1,2,...,T-1}代表不同的时间间隙。

基于PBFT的共识协议中：

在整个基于移动蜂窝网络的区块链平台交易过程中，为确保用户之间数据传输和个人隐私安全，用户之间的通信过程被描述成不同的交易。平台交易分为两大类，缓存文件的获取以及计算资源的获取，交易完成后，资源请求者和资源提供者之间通过区块链进行交付，完成整个交易。

所有的交易都会被实时的广播到区块链网络中。如图2所示，每个基站在整个区块链平台中除了切片自身服务器资源，虚拟出多个虚拟重节点以外，同时也是区块链网络中的控制器。在每个时间段τ内，每个基站都会作为区块链系统中的控制器参与共识，具体的工作就是完成对该时间段内交易的收集，并打包成池信息。在收集过程结束以后，区块链系统发送共识请求，区块链系统会在所有的区块链共识节点中挑选一个节点作为初始节点p，负责区块的生产。初始节点确定之后，初始节点p会选择一个控制器，获取该控制器所收集的交易池信息，并逐一检查交易池中所有交易的真伪。在校验通过的交易达到一定数量时，初始节点p将所有校验通过的交易打包成一个区块，在所有共识节点中传播，根据PBFT原理进行共识。待整个共识完成了从Request(请求)，Pre-prepare(预准备)，Prepare(准备)，Commit(确认)，Reply(回复)的操作以后，共识结束，所有控制器会收到节点的确认信息并达成一致，所有的共识节点也将新的区块添加到自己所持有的链上。

基于强化学习的问题求解算法中：

为了提高系统吞吐量，在共识层面需要联合优化控制器的选取，初始节点的选取，以及计算资源的分配。在上述的分析中，如果用户从基站服务器中获取更多的计算资源C_k，将会增加区块链的吞吐量。同时，缓存过程中，在D2D网络流量分享增加，减少用户端的时延。同理，D2D计算分享，用户在整个D2D信息分享的过程中，参与越多，整个区块链吞吐量越大，他们之间是正相关的。于是，将整个区块链吞吐量优化的大问题，拆解成了由缓存策略优化以及D2D计算资源分享两个子问题，采用基于分层强化学习的方法进行求解。

·本发明的关键点

用户协作缓存模型：

假设基站与用户之间的无线电传播信道是典型的瑞利信道，其中包括路径损耗和瑞利衰落。同时，在同一个基站服务下，分配给所有用户的频谱彼此正交，因此不存在相干信道干扰。所以在t时刻用户与基站之间的信噪比SNR_s,n(t)可以表示为

其中，g_s,n(t)是信道增益参数，是用户n到基站s之间的距离，

是瑞利信道的路径损失，β是路径损失参数,p_s,n(t)是基站s到用户n之间下行发射功率,

是噪声功率。

假设基站将频谱均分给每个用户，则每个用户都将占有一个带宽为B的子信道。所以通过香农定义，可以得出用户n与基站s之间的t时刻数据传输速度r_s,n(t)，

r_s,n(t)＝Blog₂(1+SNR_s,n(t))

当用户n请求文件f_n时，如果邻近的资源用户的存储空间中缓存着该文件，则优先通过D2D链路获取该文件。认为用户在进行D2D协作传输的过程中速度是很快的，且由于距离较短，干扰较小，所以通过D2D传送文件时，文件传输时延大致相同，用t_D2D来表示。如果邻近的用户的缓存空间中没有存储该文件而基站服务器中存储着该文件时，则通过蜂窝网络连接基站获取。如果在基站和附近的用户中都没有找到该文件，用户只能通过基站连接互联网获取，同理，由于基站与内容服务器之间，通过可靠的有线链路传输，所以文件在核心网中传输时延也近似相同，记作固定值t_fix。同时，用e_n＝{0,1,2}来表示文件的获取的方式，如果e_n＝0，则代表本地没有该文件，从核心网获取。如果e_n＝1，则从基站获取，e_n＝2，则从邻近用户获取。所以用户n文件的时延

为，

由此可以得到在t时刻，所有用户的平均时延d_ca(t),

当请求内容的大小不变，则请求率服从Zipf流行度分布,假设所有文件的流行度ζ_f已知。

用户协作计算模型：

对于用户设备而言，用户本身没有服务于他人的必要，用户只是将空闲的资源分享给周边的用户。所有由于提供计算资源用户本身复杂的使用习惯和不断变化的应用场景，用户可以提供的计算资源会随着时间的推移而发生变化，在资源用户承受高负载时会共享少量的计算资源，反之，用户低负载时，能提供的资源相对就会变大。很难在下一时刻去预测资源用户k的计算资源，但是用户k的计算资源变化往往存在时间相关性，所以使用马尔科夫过程对用户k的计算资源进行建模。将用户k的计算资源j_k量化成Y个级别，j＝{j₀,j₁,...,j_Y-1}。因此可以使用条件转移概率矩阵trans^j(t)来预测用户在下一时刻的计算资源，

其中

对于用户而言，认为大部分用户的计算资源比较有限，为C₀MHz。与上面的假设类似，难以去预测下一时刻用户的任务强度，但是普通用户n的计算任务变化往往存在时间相关性，同理，将用户的任务强度也进行量化，量化成Z个级别，则任务可以用α＝{α₀,α₁,...,α_Z-1}表示。用马尔科夫过程对用户n的计算任务变化进行建模。因此可以用条件转移概率矩阵trans^a(t)来预测用户在下一时刻的任务强度，

trans^a(t)＝[μμ′(t)]_Z×Z

其中μμ′(t)＝Pr(aⁿ(t+1)＝μ′|aⁿ(t)＝μ),μ,μ′∈α。

系统节点诚信度模型：

考虑到共识节点与控制器真实信任特征的时间相关性，使用马尔科夫链对区块链共识节点和控制器中信任特征的转换进行建模，如下：

1)对于共识节点k，在τ时刻从状态σ变化到另一个状态σ′的转移概率可以用σσ′(τ)表示。则关于共识节点信任特性的H×H维度状态转移矩阵transⁿ(τ)为，

transⁿ(τ)＝[σσ′(τ)]_H×H

其中σσ′(τ)＝Pr(δ^k(τ+1)＝σ′|δ^k(τ)＝σ),并且σ，σ′∈δ。

2)对于控制器s，在τ时刻从状态κ变化到另一个状态κ′的转移概率可以用κκ′(τ)表示。则控制器信任特性的L×L维度状态转移矩阵trans^s(τ)为，

trans^s(τ)＝[κκ′(τ)]_H×H

其中κκ′(τ)＝Pr(εⁿ(τ+1)＝κ′|εⁿ(τ)＝κ),并且κ，κ′∈ε。

基于PBFT的共识协议：

整个PBFT共识过程的详细步骤如下：

1)请求共识阶段：控制器会给整个区块链系统的所有节点发送池信息

s代表控制器的ID。这个池信息中包含了控制器s在收集周期内收集的所有交易，并通过自己的私钥进行加密，之后通过所有设备两两约定好的对称密钥进行加密，所有的节点接收到池信息之后都可以使用特殊的MAC(消息认证码)进行认证。在共识开始前，Agent还会在共识过程中挑选一个共识节点作为初始节点，初始节点主要完成对池信息的MAC校验和交易池中交易的校验。

理论分析：控制器在收集交易的过程中，可能存在小部分恶意用户，这部分用户通过发布虚假的交易为自己谋取私利。如果控制器s的诚信度ε^S越高，那么认为整个交易池中所包含的合法交易占比g越高。假设节点生成、认证一个数字签名，生成、认证一个MAC，运行一个智能合约分别需要α,β,θ个时钟周期。忽略传输中的损耗，初始节点p在该阶段所需要的计算量

为，

其中x代表整个区块结构中最多所能容纳的交易数量。

2)预准备阶段：完成区块的打包以后，初始节点p会给所有的副本节点(Backupnodes)发送一条pre-prepare消息，

消息通过对称密钥加密以供各副本节点确认消息的准确性。其中p代表初始节点的ID，s代表控制器的编号，H(m)代表初始节点p生成的区块的Hash值，也就是区块的摘要信息。

理论分析：初始节点p与其他k-1个副本节点通信时，都需要对每一个消息单独对称加密。每个副本节点会运行智能合约来校验区块消息的完整性和区块中所有交易的准确性，则在该阶段初始节点p和各副本节点的计算量

和

3)准备阶段：在上面两个步骤完成后，每个副本节点会都会发送一个prepare消息给所有的节点，格式为

k代表当前节点的ID。每个副本节点只要收到2f个与本地的pre-prepare相同的prepare消息以后，就会进行确认阶段，其中f＝(k-1)/3，代表三分之一的共识节点。

理论分析：初始节点p只需要收集2f条消息，并验证消息的MAC与区块的数字签名即可。而副本节点需要在每个区块上加上自己的数字签名，并给其他所有节点(k-1)个发送prepare消息，之后与初始节点p相同，认证2f条消息即可。于是，初始节点p与副本节点的计算量

和

分别为

4)确认阶段：在收到2f条prepare消息，确认无误后，节点会发送一条commit消息给其他所有节点，

收到2f条相同的commit消息以后进入reply阶段。

理论分析：初始节点p和副本节点都需要给自己所校验通过的区块签上自己的数字签名，并给其他所有(k-1)个节点发送，之后验证2f个节点发送过来的commit信息，本阶段结束。初始节点p与副本节点的计算量

和

分别为

5)回复阶段：在回复阶段，实质上已经基本完成了区块链的共识过程，包括初始节点在内的所有节点将校验通过的区块写入到自己所持有的区块链上，然后给所有控制器群发一个reply消息，

这里每个节点都要给所有控制器发送reply信息，reply信息中还包含了验证好的区块的具体信息。初始节点p与副本节点的计算量

和

分别为

在结束回复阶段之后，区块链的一个共识过程完整结束，控制器收到reply消息之后，将收到的区块也写入到自己所持有的区块链上，共识结束。整个过程中初始节点p与副本节点的全部计算量

和

因此，对于单个交易来说，初始节点和副本节点平均的计算量

和

分别为

因为每个参与D2D分享的用户都会在基站服务器中开辟一个属于自己的计算单元，具备C_kMhz的计算能力，考虑到用户可能会离线或者会有网络波动的情况，会影响区块的共识。引入之前提到的诚信度模型，初始节点的诚信度ε^p，诚信度ε^p会影响初始节点在打包区块过程中的速度。因此，整个共识过程的吞吐量应该是，

其中，基站分配给用户的虚拟计算资源C_k与用户在时间段τ内分享的数据流量和计算资源成正比，

其中

代表资源用户k的协作缓存贡献度，定义为资源用户k在τ时间段内分享所有流量占据整个蜂窝网络流量下载流量的比例。

代表资源用户k的协作计算贡献度，定义为资源用户在τ时间段内参与计算卸载的数据量占据整个蜂窝网络计算卸载数据量的比例。

基于强化学习的问题求解算法：

1)状态空间

为了提升吞吐量，将问题分解成双层问题。下层问题是用户的分享问题，包括缓存的分享和计算资源的分享。上层是关于节点与控制器的选择选择接入问题，选择最优接入方案。Agent需要实时感知当前时刻的状态s(t)。上面提到，Agent需要学习缓存与计算分配的策略，同时还需要共识过程中的各种节点，控制器信息。相应的，系统状态可以被描述为

其中s₁(t)，s₂(t)代表缓存和计算分配两个子任务的实时状态，s₃(τ)代表一个大的时间周期τ时，和共识协议有关的相关参数。其中的参数说明如下：

ζ_n：用户n请求的文件的流行度。

γ＝{γ_s,0,γ_s,1,...,γ_s,n}：一组长度为n的一维向量，代表用户设备n与基站s之间的信噪比。

α_n：用户n请求计算服务时，计算负载的量化等级。

j＝{j₁,j₂,...,j_k}：代表提供邻近协作计算的用户的计算速度。

δⁿ(τ)：代表τ时刻共识节点n的诚信度参数。

ε^s(τ)：代表τ时刻控制器s的诚信度参数。

代表τ时间段内资源用户k参与协作缓存卸载的流量占比。

代表τ时间段内资源用户k参与协作计算卸载的计算量占比。

2)动作空间

Agent需要实时优化缓存策略和计算分配策略，并在一定周期后，对参与区块共识的控制器，节点等进行选择，动作空间可以描述为A(t)＝[A¹(t),A²(t),A³(t)]

其中，分别表示如下。

A¹(t)＝[a¹(t),a²(t),...,a^N(t)]代表对每个用户请求文件的决策。

aⁿ(t)∈{0,1,2},0≤n≤N，aⁿ(t)＝0代表用户n请求的文件不进行缓存，aⁿ(t)＝1代表用户n请求的文件缓存在邻近的资源用户设备中，最后aⁿ(t)＝2，代表用户n请求的文件缓存在基站服务器内。

A²(t)＝[a¹(t),a²(t),...,a^N(t)]代表对每个用户计算卸载请求的决策，aⁿ(t)∈{0,1,2}，aⁿ(t)＝0，代表用户请求的计算服务在本地进行计算，aⁿ(t)＝1代表用户n请求的计算服务卸载到邻近的资源用户设备中运行，最后aⁿ(t)＝2表用户n请求的计算服务卸载到基站服务器中运行。

代表区块链平台选择接入的初始节点和控制器。其中

则代表在τ时刻选择节点k作为区块链初始节点，同理，选择控制器也是一样。同时

代表，同一时刻只有一个初始节点和控制器被选择接入区块链。

3)奖赏函数

为了提高吞吐量，将整个区块链系统的吞吐量建模为奖励函数。同时，设置了2个子奖励功能来激励用户之间的共享。将奖励函数定义为

因为奖励值的大小与动作状态价值成正相关，所以需要将设置奖励值如下：R₁(t)＝－d_ca(t)代表t时刻下协作缓存卸载下的用户平均时延优化奖励，平均时延越小越好，所以取负值。

R₂(t)＝－d_com(t)：代表t时刻下协作计算卸载下的用户平均时延优化奖励，平均时延越小越好，所以取负值。

R₃(τ)＝O(τ)：代表τ时刻下整个区块链的吞吐量优化奖励，因为吞吐量越大越好，所以可以直接作为的奖励值。

强化学习的本质是动态规划，通过将一个问题分解成相互串联的子问题，通过迭代的方式，解决问题。同理，分层强化学习将复杂问题分解成若干子问题(sub-problem)，通过分而治之(divide and conquer)的方法，先逐步解决子问题，然后优化主问题，最终解决复杂问题。这里的子问题分解有两种方法：①所有的子问题都是共同解决被分解的任务(share tasks)；②不断把前一个子问题的结果加入到下一个子问题解决方案中(reusetasks)。

本专利中所提出的最终优化目标是最大化区块链网络的交易吞吐量，区块链生成区块是阶段性的，在区块链的每一次共识过程中，都会产生大量的计算卸载决策，所以计算卸载决策与区块链优化之间是一个异步过程。通过将区块链共识过程与计算卸载决策分离，得到了子问题，优化协作策略，主问题则是在各阶段时间优化区块链的节点与控制器选择，提升区块链吞吐量。

协作缓存卸载与协作计算卸载被剥离成两个子任务，在每个t时刻，用户的贡献将会作为区块链优化环境的状态，作为主任务的参数。分层主要是将两个强化学习过程进行嵌套，子问题在不断收敛的过程中，会不断引导主问题往更优的状态进行收敛。如图3所示，为本专利使用的分层强化学习方法。

附图说明

图1，本发明涉及的D2D模型结构图。

图2，基于协作蜂窝网络的区块链平台结构图。

图3，基于PBFT的共识过程。

图4，分层强化学习示意图。

具体实施方式

下面结合仿真实验结果对本发明所涉及的方法进行性能分析及比较。

在本仿真中，硬件环境为基于GPU的服务器，该服务器拥有128-GB 1600-MHzDDR3,2.2-GHz Intel Core i7,4-TB硬盘。软件环境为Python 3.5.4,TensorFlow 1.13.0。这两种仿真工具在商业和学术上都得到了广泛的应用。当部署不同的机器学习算法时，TensorFlow能够保持相同的服务器架构和应用程序接口。因此，它已被广泛用于部署新的机器学习算法和实验。利用这些真实的仿真环境，从而保证仿真结果的性能能够对真实场景中的性能进行估计和近似。假设基础情况下有四个区块链共识节点、两个控制器。

为了进行性能比较，本专利提出了四种比较方案。

1)提出了基于分层DQN的方案，具有视图变化，共识节点决策，用户协作计算和缓存的优化策略，但是没有控制器决策策略，称为基于分层DQN无控制器调度方案。

2)提出了基于分层DQN的方案，采用访问选择、控制器决策，但采用了传统视图更改协议，称为基于分层DQN无共识节点调度策略。

3)提出了基于分层DQN的方案，具有视图更改、访问选择、但用户设备只进行协作缓存卸载而不进行计算卸载，称为基于分层DQN无协作计算卸载的调度方案。

4)提出了基于分层DQN的方案，具有视图更改、访问选择、但用户设备只进行协作计算卸载而不进行协作缓存，称为基于分层DQN无协作缓存卸载的调度方案。

Claims

1.一种基于区块链的蜂窝网络安全交易平台，其特征在于：在典型蜂窝网络场景中，使用用户协作缓存调度策略缓解核心网络压力，用户在运行过程中也同样会产生多种多样的高性能计算需求，因此用协作计算模型解决计算任务；为确保用户之间数据传输和个人隐私安全，部署基于区块链技术的资源交易安全性平台；基于PBFT共识协议的蜂窝网络安全交易平台，通过将资源用户成为共识节点的方式，激励资源用户分享自己的硬盘空间和计算资源，同时也保证了数据交换时可能面临的数据安全问题；考虑系统中共识节点和控制器的信任特性，建立节点间的诚信度模型；通过基于PBFT算法的区块链共识协议，所有交易被认证，添加到区块链上；将整个区块链吞吐量优化问题，拆解成由缓存策略优化以及计算资源分享两个子问题，采用基于分层强化学习的方法进行求解；

假设基站将频谱均分给每个用户，则每个用户都将占有一个带宽为B的子信道；所以通过香农定义，得出用户n与基站s之间的t时刻数据传输速度r_s,n(t)，当用户n请求文件f_n时，如果邻近的资源用户的存储空间中缓存着该文件，则优先通过D2D链路获取该文件；认为用户在进行D2D协作传输的过程中速度是很快的，且由于距离较短，干扰较小，所以通过D2D传送文件时，文件传输时延大致相同，用t_D2D来表示；如果邻近的用户的缓存空间中没有存储该文件而基站服务器中存储着该文件时，则通过蜂窝网络连接基站获取；如果在基站和附近的用户中都没有找到该文件，用户只能通过基站连接互联网获取，同理，由于基站与内容服务器之间，通过可靠的有线链路传输，所以文件在核心网中传输时延也近似相同，记作固定值t_fix；同时，用e_n＝{0,1,2}来表示文件的获取的方式，如果e_n＝0，则代表本地没有该文件，从核心网获取；如果e_n＝1，则从基站获取，e_n＝2，则从邻近用户获取；

对于用户设备而言，使用马尔科夫过程对用户k的计算资源进行建模；将用户k的计算资源j_k量化成Y个级别，j＝{j₀,j₁,...,j_Y-1}；因此使用条件转移概率矩阵trans^j(t)来预测用户在下一时刻的计算资源；

对于用户而言，认为大部分用户的计算资源比较有限，为C₀MHz；普通用户n的计算任务变化往往存在时间相关性，将用户的任务强度也进行量化，量化成Z个级别，则任务用α＝{α₀,α₁,...,α_Z-1}表示；用马尔科夫过程对用户n的计算任务变化进行建模；因此用条件转移概率矩阵trans^a(t)来预测用户在下一时刻的任务强度；

1)对于共识节点k，在τ时刻从状态σ变化到另一个状态σ′的转移概率用σσ′(τ)表示；则关于共识节点信任特性的H×H维度状态转移矩阵transⁿ(τ)为，

transⁿ(τ)＝[σσ′(τ)]_H×H

其中σσ′(τ)＝Pr(δ^k(τ+1)＝σ′|δ^k(τ)＝σ),并且σ，σ′∈δ；

2)对于控制器s，在τ时刻从状态κ变化到另一个状态κ′的转移概率用κκ′(τ)表示；

PBFT共识过程的详细步骤如下：

s代表控制器的ID；这个池信息中包含了控制器s在收集周期内收集的所有交易，并通过自己的私钥进行加密，之后通过所有设备两两约定好的对称密钥进行加密，所有的节点接收到池信息之后使用特殊的MAC进行认证；在共识开始前，Agent还会在共识过程中挑选一个共识节点作为初始节点，初始节点完成对池信息的MAC校验和交易池中交易的校验；

2)预准备阶段：完成区块的打包以后，初始节点p会给所有的副本节点发送一条pre-prepare消息，

消息通过对称密钥加密以供各副本节点确认消息的准确性；其中p代表初始节点的ID，s代表控制器的编号，H(m)代表初始节点p生成的区块的Hash值，也就是区块的摘要信息；

k代表当前节点的ID；每个副本节点只要收到2f个与本地的pre-prepare相同的prepare消息以后，就会进行确认阶段，其中f＝(k-1)/3，代表三分之一的共识节点；

收到2f条相同的commit消息以后进入reply阶段；

每个节点都要给所有控制器发送reply信息，reply信息中还包含验证好的区块信息。

2.根据权利要求1所述的一种基于区块链的蜂窝网络安全交易平台，其特征在于：假设基站与用户之间的无线电传播信道是典型的瑞利信道，包括路径损耗和瑞利衰落；在同一个基站服务下，分配给所有用户的频谱彼此正交，不存在相干信道干扰；在t时刻用户与基站之间的信噪比SNR_s,n(t)表示为

其中，g_s,n(t)是信道增益参数，是用户n到基站s之间的距离，

是噪声功率。