CN112887272B

CN112887272B - 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法

Info

Publication number: CN112887272B
Application number: CN202110033976.9A
Authority: CN
Inventors: 刘建华; 沈士根; 方朝曦; 方曙琴
Original assignee: University of Shaoxing
Current assignee: University of Shaoxing
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2022-06-28
Anticipated expiration: 2041-01-12
Also published as: CN112887272A

Abstract

本发明公开了一种传感边缘云任务卸载中挖矿攻击面控制装置和方法，包括设置于微云服务器和合法传感设备之间的攻击面控制器，按照攻击面控制向量和资源配置矩阵组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击，使得为合法传感设备提供的服务效用总和的预测范围下限最大化。方法包括(1)观察微云服务系统状态，当时延超过预设的时延阈值时，进入步骤(2)，否则重复步骤(1)；(2)将微云服务系统状态输入根据强化学习模型获取的最优策略获得行动值；(3)配置微云服务其中相应的边缘虚拟机资源。本发明联合优化攻击面和虚拟资源分配问题，以此来实现最大化微云服务的可信服务效用，同时保证合法传感设备计算任务卸载的服务质量。

Description

一种传感边缘云任务卸载中挖矿攻击面控制装置及方法

技术领域

本发明属于传感云计算领域，更具体地，涉及一种传感边缘云任务卸载中挖矿攻击面控制装置及方法。

背景技术

为了节约传感设备的计算资源，传感设备的计算任务卸载到边缘服务节点执行，特别是延迟敏感型应用，边缘服务节点要保证高速和可靠的计算任务卸载。因此，可靠性和安全性是传感设备计算任务卸载中必须满足的需求。区块链技术正部署于物联网边缘服务域中，但由于区块链矿工在生成加密区块的过程中要消耗大量的系统资源，特别是多个恶意的区块链节点能够对传感边缘云服务节点发起挖矿攻击，消耗微云服务器的计算资源，阻碍卸载的多个计算任务执行，降低计算任务卸载执行的服务质量。因此，需设计智能的挖矿攻击面控制机制来抵消挖矿攻击带来的系统性能下降等问题。

集成区块链系统的传感边缘云计算任务卸载中基于智能攻击面控制器的挖矿攻击防御方法及系统中，部署智能攻击面控制器来调节受挖矿攻击的虚拟服务节点的计算资源，以此保证合法传感设备卸载的计算任务能安全地运行。为了提高计算任务卸载中微云服务器的虚拟资源容量，本发明在考虑传感设备计算任务卸载服务质量需求和随时间变化的边缘虚拟机EdgeVM状态的基础上，联合优化微云服务器的挖矿攻击面控制器的设计以及边缘虚拟机EdgeVM的资源配置策略。由于受挖矿攻击的微云服务系统具有很高的动态性及其虚拟资源状态具有高维复杂性，这使得攻击面控制及边缘虚拟机EdgeVM的资源配置策略优化问题具有非凸性，获得最优解面临巨大挑战。为了阻止恶意的挖矿节点浪费IoT系统的资源，L.Cui等设计了一个基于压缩DAG(Directed acyclic graph)的高效区块链协议，该协议考虑了对IoT系统的混合攻击策略，但未针对多个挖矿攻击者对IoT系统造成的安全威胁提供有效的防御策略("An Efficient and Compacted DAG-Based BlockchainProtocol for Industrial Internet of Things,"in IEEE Transactions onIndustrial Informatics,vol.16,no.6,pp.4134-4145,June2020)。为了增强数据共享的安全性，J.Kang等提出了基于声誉和契约理论的可信挖矿节点选择方法来阻止区块链矿工间的共谋攻击("Toward Secure Blockchain-Enabled Internet of Vehicles:Optimizing Consensus Management Using Reputation and Contract Theory,"in IEEETransactions on Vehicular Technology,vol.68,no.3,pp.2906-2920,March 2019)。该方法虽然考虑了挖矿攻击对数据共享造成的破坏，但还未考虑多个挖矿攻击者对计算任务卸载环境发起共谋攻击所引起的服务质量下降等问题。S.Wu等针对DDoS攻击者对挖矿池的攻击，提出了随机博弈的方法获得近似的最优攻击策略来最大化期望的长期受益("Survive and Thrive:A Stochastic Game for DDoS Attacks in Bitcoin MiningPools,"in IEEE/ACM Transactions on Networking,vol.28,no.2,pp.874-887,April2020)。该方法考虑DDoS攻击器对挖矿环境的攻击，未考虑挖矿攻击对挖矿池造成的虚拟资源容量的影响。

这些研究方案存在的不足如下：

(1)已提出的解决方法考虑挖矿攻击者共谋破坏节点间的数据共享，而未考虑集成区块链的传感边缘云中恶意的挖矿攻击。因此，已提出的解决方案未能解决集成区块链系统的传感设备计算任务卸载中挖矿攻击的防御问题。

(2)已提出的解决方案中考虑了可信的挖矿节点选择方法，未考虑多个挖矿节点对微云服务器攻击带来的虚拟资源容量状态变化的不确定和延迟等问题，未针对此问题进行建模分析。

(3)已有的研究对多个挖矿节点竞争矿池时，对产生的DDoS攻击已给出相应的解决方案，但当挖矿攻击者对攻击面造成严重破坏时，直接导致微云服务系统的状态呈现动态高维特性，要提高传感设备计算任务可信卸载的服务质量，不仅要控制攻击面还需重配系统资源，已有的解决方法还未联合攻击面控制及高效的资源配置来设计挖矿攻击面控制算法。

发明内容

针对现有技术的以上缺陷或改进需求，本发明在联合考虑攻击面控制及其高效的资源配置的基础上，提出了一种传感边缘云环境下，基于延迟状态深度强化学习的攻击面控制方法，在受挖矿攻击时，实现传感设备卸载的计算任务的可信执行。本发明提出强化学习的方法来优化传感设备计算任务卸载节点的虚拟资源容量，从而在动态的卸载环境中，抵抗挖矿攻击。由于挖矿攻击使得虚拟资源容量状态具有延迟特性，为了提高强化学习的效率，本发明提出延迟状态深度强化学习的机制来追溯挖矿攻击环境的状态变化并且配置虚拟资源，以此提高受挖矿攻击时，微云服务器的虚拟资源容量和传感设备计算任务卸载的服务质量。

为实现上述目的，按照本发明的一个方面，提供了一种传感边缘云任务卸载中挖矿攻击面控制装置，包括：

设置于微云服务器和合法传感设备之间的攻击面控制器，所述攻击面控制器用于当受到挖矿攻击者集合

中多个攻击者的挖矿攻击时，按照攻击面控制向量θ_l和资源配置矩阵Φ_lk组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击，使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化；

所述攻击面控制向量θ_l，为攻击面控制器调度所述微云服务器的边缘虚拟机集合

中各边缘虚拟机的，其中l为边缘虚拟机的数量，即θ_l＝(x₁,x₂,..,x_l)，x_n,n＝1,2,...l为第n边缘虚拟机的控制系数，用于指示所述边缘虚拟机的被调度状态，x_n∈[0,1]，其中x_n＝0表示在攻击面控制器中第n边缘虚拟机未被调度，x_n＝1表示在攻击面控制器中第n边缘虚拟机被调度，为空闲状态；

所述资源配置矩阵Φ_lk，包括l个资源配置向量，记作

其中

为第n边缘虚拟机对合法传感设备集合

的资源配置向量，

其中，k为合法传感设备的数量，C_jm,j＝1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源。

优选地，所述传感边缘云任务卸载中挖矿攻击面控制装置，其包括优化模块，所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量

和最优的资源配置矩阵Φ^* _lk，使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化。

优选地，所述传感边缘云任务卸载中挖矿攻击面控制装置，其所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作：

(c):ΔC_bi≤ξ_bi,ΔC_ri≤ξ_ri,

(d):C_bi+C_ri+C_bm≤C,

其中预测范围下限最大化记作：

其中，ΔC_sy为虚拟资源容量的误差向量，ΔC_sy＝(ΔC_bi,j,ΔC_ri,j,ΔC_bm,i)，ΔC_bi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差，为经过时延T_delay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量C_bi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量

之间的差异；ΔC_ri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差，为经过时延T_delay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量C_ri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量

之间的差异；ΔC_bm,i为挖矿攻击者i消耗的虚拟资源容量误差，为经过时延T_delay后观察到的实际挖矿攻击者i消耗的虚拟资源容量C_bm,i和估计的挖矿攻击者i消耗的虚拟资源容量

之间的差异；

为为合法传感设备j提供的可信的虚拟资源服务效用，计算方法如下：

其中，

为为合法传感设备j可获得的虚拟资源服务效用，

为挖矿攻击者i获取的虚拟资源服务效用；

所述合法传感设备j可获得的虚拟资源服务效用

计算方法如下：

其中，β_lj、β_lk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数，β_lj＝1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源，否则为0；β_lk＝1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源，否则为0。h_j、h_k分别为传感设备j和k的任务训练批次数，D_j、D_k分别为传感设备j和k的训练任务的数据大小，C_bi,j、C_bi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量，C_ri,j、C_ri,k分别为由攻击面控制器调度并分配的虚拟资源容量；

所述挖矿攻击者i获取的虚拟资源服务效用

计算方法如下：

其中，η_bm,i、η_bm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数，C_bm,i、C_bm,k分别为挖矿攻击者i和k消耗的虚拟资源容量；

所述约束条件包括以下条件之一或组合：

(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用；记作：

其中，

为为合法传感设备j提供的最小可信虚拟资源服务效用，

为合法传感设备集合。

(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用；记作：

其中，

为为合法传感设备j提供的最小虚拟资源服务效用，

为合法传感设备集合。

(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξ_bi,ξ_ri；记作：

ΔC_bi≤ξ_bi,ΔC_ri≤ξ_ri

其中，ΔC_bi为合法传感设备需求的虚拟资源容量误差,

ΔC_ri为受挖矿攻击后由攻击面控制器调度并分配的虚拟资源容量误差

(d)分配的资源不超过最大虚拟资源；记作：

C_bi+C_ri+C_bm≤C

其中，C_bi为所有合法传感设备需求的虚拟资源容量

K为传感设备的个数；C_ri为受挖矿攻击后，攻击面控制器调度后分配的虚拟资源容量

C_bm为挖矿攻击消耗的虚拟资源容量

M为挖矿攻击者的个数。

优选地，所述传感边缘云任务卸载中挖矿攻击面控制装置，其所述优化模块根据当前微云服务系统状态采用强化学习算法获得最优的攻击面控制向量

和最优的资源配置矩阵Φ^* _lk；优选：

所述强化学习模型状态空间S为：

其中，C_j为合法传感设备获得的虚拟资源容量，C_i为表示挖矿攻击者i消耗的虚拟资源容量，C_l为边缘虚拟机的虚拟资源容量，

为为合法传感设备j可获得的虚拟资源服务效用，

为为合法传感设备j提供的可信虚拟资源服务效用。

所述强化学习模型行动空间A为：

A＝{(θ_l,Φ_lk)}

所述强化学习模型传递概率P(s_t+1|s_t,a_t)，为系统在状态s_t执行给定的行动a_t∈A时，传感边缘云微云服务系统传递到状态s_t+1∈S的概率，计算方法如下：

其中

为延迟状态的传递概率，

为到达下一个状态的传递概率。

所述强化学习模型的奖励函数r为：

其中，

λ₁和λ₂为预先设置的权重系数。

故攻击面控制器在防御的持续时间内累积的打折奖励函数R_t定义如下：

其中，T_max为攻击面控制器防御的持续时间，γ∈(0,1]为攻击防御持续时间t内的打折因子。

所述强化学习模型的输出为攻击面控制器最优策略π^*(a_t|s_t)，即从状态s_t到行动a_t的最优映射，攻击面控制器根据最优策略π^*(a_t|s_t)和当前状态s_t获得行动值

优选地，所述传感边缘云任务卸载中挖矿攻击面控制装置，其所述强化学习模型采用Q-learning算法，攻击面控制器最优策略π^*(a_t|s_t)为：

其通过更新Q值的方式学习优化策略，按照如下方法更新Q值：

其中，

α_t为学习率，

为攻击面控制器延迟一段时间后在下一状态接收的奖励，采用奖励函数计算。

优选地，所述传感边缘云任务卸载中挖矿攻击面控制装置，其所述优化模块包括用于估算Q_t(s_t,a_t)值的DQN神经网络，以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池，所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络，更新DQN神经网络参数w_t。

优选地，所述传感边缘云任务卸载中挖矿攻击面控制装置，其所述优化模块使用参数为w的DQN神经网络估计Q_t(s_t,a_t)，w按照如下方法更新：

w_t+1＝w_t+μ▽L(w_t)

其中，μ为学习率，L(w_t)为损失函数，定义如下：

L(w_t)＝E[(TargetQ-Q_t(s_t,a_t；w_t))²]

优选地，所述传感边缘云任务卸载中挖矿攻击面控制装置，其所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据e_t，当时延T_delay超过预设的时延阈值T_th时，判断微云服务器受到挖矿攻击者攻击，记录从当前状态s_t传递到延迟状态

再传递到下一时刻状态s_t+1的记录：

其中s_t为当前状态，a_t为攻击面控制器已采取的行动，a′_t为遇到延迟状态时，再次采取的行动。r_t ^de是延迟状态的瞬时奖励，r_t ^ne是下一个状态的瞬时奖励，

为延迟状态，s_t+1为下一个状态，按照如下方法获取：

当时延T_delay超过预设的时延阈值T_th时，当前状态s_t传递到延迟状态

记录当前状态s_t、选择的行动a_t、延迟状态

根据奖励函数计算延迟状态的瞬时奖励r_t ^de(s_t,a_t)并记录，采用参数为w_t的当前DQN网络更新状态-行动值函数

再次选择行动a′_t执行，观察获取下一个状态s_t+1、根据奖励函数计算下一个状态的瞬时奖励

并记录，采用参数为w_t的当前DQN网络更新状态-行动值函数Q_t(s_t,a_t,w_t)。

按照本发明的另一个方面提供了一种传感边缘云任务卸载抗挖矿攻击的防御方法，其包括以下步骤：

(1)观察微云服务系统状态s_t，当时延T_delay超过预设的时延阈值T_th时，判断微云服务器受到挖矿攻击者攻击，进入步骤(2)，否则重复步骤(1)；

(2)将微云服务系统状态s_t输入根据强化学习模型获取的最优策略π^*(a_t|s_t)，获得行动值

(3)根据步骤(2)选择的行动，获得最优的攻击面控制向量

和最优的资源配置矩阵Φ^* _lk，并据此配置微云服务其中相应的边缘虚拟机资源。

优选地，所述传感边缘云任务卸载抗挖矿攻击的防御方法，其所述步骤(2)具体为：采用Q-learning算法获取的最优策略

所述Q-learning算法按照如下方法更新Q值：

其中，

优选采用参数为w_t的DQN神经网络估计，α_t为学习率，

所述强化学习模型状态空间S为：

为为合法传感设备j可获得的虚拟资源服务效用，

为为合法传感设备j提供的可信虚拟资源服务效用。

所述强化学习模型行动空间A为：

A＝{(θ_l,Φ_lk)}

其中

为延迟状态的传递概率，

为到达下一个状态的传递概率。

所述强化学习模型的奖励函数r为：

其中，

λ₁和λ₂为预先设置的权重系数。

所述参数为w_t的DQN神经网络，按照如下方法训练：

其训练用的数据为受到挖矿攻击者攻击的延迟状态历史观察数据e_t，当时延T_delay超过预设的时延阈值T_th时，判断微云服务器受到挖矿攻击者攻击，记录从当前状态s_t传递到延迟状态

再传递到下一时刻状态s_t+1的记录：

为延迟状态，s_t+1为下一个状态，按照如下方法获取：

记录当前状态s_t、选择的行动a_t、延迟状态

对于所述DQN神经网络的训练用数据，按照如下方法更新其参数w：

w_t+1＝w_t+μ▽L(w_t)

其中，μ为学习率，L(w_t)为损失函数，定义如下：

L(w_t)＝E[(TargetQ-Q_t(s_t,a_t；w_t))²]

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)针对集成区块链系统的传感边缘云计算任务卸载环境受挖矿攻击时，微云服务器动态变化的虚拟资源容量，建立基于攻击面控制器的防御模型，本发明联合优化攻击面和虚拟资源分配问题，以此来实现最大化微云服务的可信服务效用，同时保证合法传感设备计算任务卸载的服务质量。

(2)本发明提出了一个基于强化学习的抗挖矿攻击防御装置，在此系统中，攻击面控制器根据受挖矿攻击的计算任务卸载环境中观察到的瞬时状态，联合优化攻击面及资源配置策略。

(3)提出了基于延迟状态深度强化学习的攻击面优化方法来提高强化学习效率和微云服务可信的服务效用。在此方法中，通过对挖矿攻击产生延迟状态的学习来跟踪虚拟资源容量的动态变化，从而优化攻击面控制器的行动。

附图说明

图1是本发明实施例提供的基于攻击面控制器的计算任务可信卸载系统结构示意图；

图2是本发明实施例提供的传感边缘云任务卸载抗挖矿攻击的防御装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的传感边缘云任务卸载抗挖矿攻击的防御装置，包括设置于微云服务器和合法传感设备之间的攻击面控制器，所述攻击面控制器用于当受到挖矿攻击者集合

中多个攻击者的挖矿攻击时，按照攻击面控制向量θ_l和资源配置矩阵Φ_lk组合微云服务器空闲的边缘虚拟机(EdgeVMde)的虚拟资源防御挖矿攻击，使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化；

中各边缘虚拟机的，其中l为边缘虚拟机的数量，即θ_l＝(x₁,x₂,..,x_l)，x_n,n＝1,2,...l为第n边缘虚拟机的控制系数，用于指示所述边缘虚拟机的被调度状态，x_n∈[0,1]，其中x_n＝0表示在攻击面控制器中第n边缘虚拟机未被调度，x_n＝1表示在攻击面控制器中第n边缘虚拟机被调度，为空闲状态。

所述资源配置矩阵Φ_lk，包括l个资源配置向量，记作

其中

为第n边缘虚拟机对合法传感设备集合

的资源配置向量，

其中，k为合法传感设备的数量，C_jm,j＝1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源；所述虚拟资源包括：虚拟的CPU、存储和带宽资源；故所述资源配置矩阵亦可写作：

所述防御装置，优选包括优化模块，所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量

和最优的资源配置矩阵Φ^* _lk，使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化；

所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作：

(c):ΔC_bi≤ξ_bi,ΔC_ri≤ξ_ri,

(d):C_bi+C_ri+C_bm≤C,

其中预测范围下限最大化记作：

之间的差异；

其中，

为为合法传感设备j可获得的虚拟资源服务效用，

为挖矿攻击者i获取的虚拟资源服务效用，[x]⁺＝max(0,x)；

所述合法传感设备j可获得的虚拟资源服务效用

计算方法如下：

其中，β_lj、β_lk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数，β_lj＝1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源，否则为0；β_lk＝1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源，否则为0。h_j、h_k分别为传感设备j和k的任务训练批次数，D_j、D_k分别为传感设备j和k的训练任务的数据大小，C_bi,j、C_bi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量，C_ri,j、C_ri,k分别为由攻击面控制器调度并分配的虚拟资源容量。

所述挖矿攻击者i获取的虚拟资源服务效用

计算方法如下：

其中，η_bm,i、η_bm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数，C_bm,i、C_bm,k分别为挖矿攻击者i和k消耗的虚拟资源容量。

所述约束条件包括以下条件之一或组合：

其中，

为为合法传感设备j提供的最小可信虚拟资源服务效用，

为合法传感设备集合。

其中，

为为合法传感设备j提供的最小虚拟资源服务效用，

为合法传感设备集合。

ΔC_bi≤ξ_bi,ΔC_ri≤ξ_ri

其中，ΔC_bi为合法传感设备需求的虚拟资源容量误差,

(d)分配的资源不超过最大虚拟资源；记作：

C_bi+C_ri+C_bm≤C

其中，C_bi为所有合法传感设备需求的虚拟资源容量

C_bm为挖矿攻击消耗的虚拟资源容量

M为挖矿攻击者的个数。

所述优化模块根据当前微云服务系统状态采用强化学习算法获得最优的攻击面控制向量

和最优的资源配置矩阵Φ^* _lk。

所述强化学习模型状态空间S为：

为为合法传感设备j可获得的虚拟资源服务效用，

为为合法传感设备j提供的可信虚拟资源服务效用。

所述强化学习模型行动空间A为：

A＝{(θ_l,Φ_lk)}

其中

为延迟状态的传递概率，

为到达下一个状态的传递概率。

所述强化学习模型的奖励函数r为：

其中，

λ₁和λ₂为预先设置的权重系数。

优选所述强化学习模型采用Q-learning算法，攻击面控制器最优策略π^*(a_t|s_t)为：

其中，

α_t为学习率，

优选所述优化模块包括用于估算Q_t(s_t,a_t)值的DQN神经网络，以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池，所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络，更新DQN神经网络参数w_t。

所述优化模块使用参数为w的DQN神经网络估计Q_t(s_t,a_t)，w按照如下方法更新：

w_t+1＝w_t+μ▽L(w_t)

其中，μ为学习率，L(w_t)为损失函数，定义如下：

L(w_t)＝E[(TargetQ-Q_t(s_t,a_t；w_t))²]

所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据e_t，当时延T_delay超过预设的时延阈值T_th时，判断微云服务器受到挖矿攻击者攻击，记录从当前状态s_t传递到延迟状态

再传递到下一时刻状态s_t+1的记录：

为延迟状态，s_t+1为下一个状态，按照如下方法获取：

记录当前状态s_t、选择的行动a_t、延迟状态

本发明提供的传感边缘云任务卸载抗挖矿攻击的防御方法，包括以下步骤：

优选采用Q-learning算法获取的最优策略

所述Q-learning算法按照如下方法更新Q值：

其中，

优选采用参数为w_t的DQN神经网络估计，α_t为学习率，

所述强化学习模型状态空间S为：

为为合法传感设备j可获得的虚拟资源服务效用，

为为合法传感设备j提供的可信虚拟资源服务效用。

所述强化学习模型行动空间A为：

A＝{(θ_l,Φ_lk)}

其中

为延迟状态的传递概率，

为到达下一个状态的传递概率。

所述强化学习模型的奖励函数r为：

其中，

λ₁和λ₂为预先设置的权重系数。

所述参数为w_t的DQN神经网络，按照如下方法训练：

再传递到下一时刻状态s_t+1的记录：

为延迟状态，s_t+1为下一个状态，按照如下方法获取：

记录当前状态s_t、选择的行动a_t、延迟状态

w_t+1＝w_t+μ▽L(w_t)

其中，μ为学习率，L(w_t)为损失函数，定义如下：

L(w_t)＝E[(TargetQ-Q_t(s_t,a_t；w_t))²]

(3)根据步骤(2)选择的行动，获得最优的攻击面控制向量

以下为实施例：

本发明考虑了一个基于攻击面控制器的计算任务可信卸载系统，如图1所示。传感边缘云系统中的微云服务器包含有L个边缘虚拟机EdgeVM，向K个合法传感设备提供计算任务的卸载服务。

当出现有M个挖矿攻击者组成的攻击向量时，在微云服务器中攻击面控制器配置多个EdgeVM去帮助卸载的计算任务迁移，协调受攻击的EdgeVM之间的计算负载，在协调过程中攻击面控制器仅对微云服务器中空闲的资源进行重分配，无需添加额外的计算节点，攻击面控制器通过配置的方式调度空闲的EdgeVM接收卸载的计算任务。除此之外，非法的挖矿攻击者的目标是消耗传感边缘云微云服务器的虚拟计算资源。因此，在攻击面控制器上使用资源配置策略去提高可用的虚拟资源容量，同时减少挖矿攻击者对传感设备计算任务卸载过程造成的影响。令

表示合法传感设备集合。

表示非法的挖矿攻击者集合。

表示边缘虚拟机EdgeVM集合。通常一个微云服务器中EdgeVM提供的服务为：v_k＝(v_i,f_i,QoS_i(v_k))，其中v_i表示EdgeVM节点，f_i表示EdgeVM节点可以提供的计算任务卸载服务，f_i＝(f_train,f_cache)，其中f_train表示训练服务，f_cache表示缓存服务。QoS_i(v_k)表示多个EdgeVM节点提供服务时组合的服务质量，由合法传感设备获得的虚拟资源服务效用决定。

本发明提供的传感边缘云任务卸载抗挖矿攻击的防御装置，包括设置于微云服务器和合法传感设备之间的攻击面控制器，所述攻击面控制器用于当受到多个攻击者的挖矿攻击时，按照攻击面控制向量θ_l和资源配置矩阵Φ_lk组合微云服务器空闲的边缘虚拟机(EdgeVM)的虚拟资源防御挖矿攻击，使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化；

所述当前微云服务系统状态，包括微云服务器中所有边缘虚拟机的虚拟资源容量

边缘虚拟机提供的可信虚拟资源服务效用

以及传感设备获得的虚拟资源服务效用

当受到多个攻击者的挖矿攻击时，攻击面控制器组合边缘虚拟机EdgeVM节点并分配一定的虚拟资源向传感设备提供边缘计算任务卸载服务。虚拟资源包括：虚拟的CPU、存储和带宽资源。为了保证卸载到EdgeVM的延迟敏感性任务正常执行，攻击面控制器还承担了部分攻击流带来的资源消耗，同时组合空闲的EdgeVM的虚拟资源来对抗挖矿攻击。攻击面控制器定义为Γ_l＝(C,R_l)，其中C表示攻击面控制器总的虚拟资源容量。R_l表示边缘虚拟机l中基于延迟状态深度强化学习的攻击面控制算法。攻击面控制器的作用为：受挖矿攻击时，攻击面控制器协调微云服务器中各个EdgeVM节点的资源进行组合后的服务质量。此外，在图1中还显示了系统的虚拟资源使用情况，其中C_bi,j表示传感设备j需求的虚拟资源容量。C_ri,j表示受挖矿攻击后，由攻击面控制器调度并分配给传感设备j的虚拟资源容量。C_bm,i表示挖矿攻击i消耗的虚拟资源容量。令β_lj表示攻击面控制系数，指示EdgeVM l是否被调度分配给传感设备j资源，且β_lj∈[0,1]，其中β_lj＝0表示攻击面控制器未调度EdgeVM l并分配资源给传感设备j卸载的计算任务，β_lj＝1表示攻击面控制器调度EdgeVM l并分配资源给传感设备j卸载的计算任务。传感设备j卸载计算任务消耗的虚拟资源容量为：

y_bi,j＝β_ljh_jD_j(C_bi,j+C_ri,j)

其中，h_j表示传感设备卸载的任务DT_j训练批次数，D_j表示训练任务DT_j的数据大小。

挖矿攻击者i消耗的虚拟资源容量为：

y_bm,i＝η_bm,iC_bm,i

其中，η_bm,i表示挖矿攻击者i的挖矿攻击程序的迭代次数。

在受挖矿攻击时，EdgeVM消耗的资源为：

其中，K表示传感设备的个数，M表示挖矿攻击者的个数。

在受到多个挖矿攻击者攻击时，攻击面控制器期望使用最小的控制面最大化服务质量。攻击面控制器获得的虚拟资源容量为：

C_i＝C-y_vm

其中，C表示微云服务器的虚拟资源容量。

在实际的传感边缘云系统资源信息收集过程中，由EdgeVM到攻击面控制器存在传输延迟以及挖矿攻击使得系统的资源容量动态变化，导致攻击面控制器不能获得EdgeVM完全的虚拟资源容量状态信息。因此，攻击面控制器获得过时的EdgeVM状态信息，这降低了攻击面控制的实时性要求，一旦攻击面控制器使用过时的EdgeVM状态信息对攻击面控制和资源配置策略进行优化，难以保证控制和配置结果的精确性，直接影响传感设备计算任务卸载的服务质量。因此，本发明考虑了时间延迟的虚拟资源容量状态，使用T_delay表示过时的虚拟资源容量和实时的虚拟资源容量之间的时间延迟。也即，当攻击面控制器发现传感设备请求的资源超过规定的阈值时，在时间t，他将完成虚拟资源容量的估计过程，并在t+T_delay的时隙调度空闲的EdgeVM，然后配置资源。因此，过时的虚拟资源容量C(t)和延迟的虚拟资源容量C(t+T_delay)的关系表示如下：

其中，δ表示过时的虚拟资源容量和估计的延迟虚拟资源容量之间的平衡系数，且0≤δ≤1，若δ＝1表示过时的虚拟资源容量效应被消除。此外，δ＝0表示无虚拟资源容量状态信息。

表示估计的虚拟资源容量。由于挖矿攻击导致虚拟资源容量变化不确定，本发明建立虚拟资源容量不确定向量模型

传感边缘云微云服务系统的虚拟资源容量向量为C_sy＝(C_bi,j,C_ri,j,C_bm,i)，虚拟资源容量的各个分量被计算如下：

其中，

是估计的虚拟资源容量向量，

和

估计的虚拟资源容量。ΔC_sy＝(ΔC_bi,j,ΔC_ri,j,ΔC_bm,i)是虚拟资源容量的误差向量，ΔC_bi,j，ΔC_ri,j和ΔC_bm,i是对应的虚拟资源容量的误差，

在虚拟资源容量不确定向量模型中，对于传感设备j，可获得的虚拟资源服务效用为：

挖矿攻击者i试图阻碍合法传感设备j卸载并执行计算任务，以此来降低计算任务卸载的服务质量，挖矿攻击者i获取的虚拟资源服务效用为：

由于挖矿攻击能对任何一个合法传感设备j卸载的计算任务发起攻击。因此，EdgeVM为传感设备j提供可信的虚拟资源服务效用为：

其中[x]⁺＝max(0,x)。

中各边缘虚拟机的，其中l为边缘虚拟机的数量，即θ_l＝(x₁,x₂,..,x_l)，x_n,n＝1,2,...l为第n边缘虚拟机的控制系数，用于指示所述边缘虚拟机的被调度状态，x_n∈[0,1]，其中x_n＝0表示在攻击面控制器中第n边缘虚拟机未被调度，x_n＝1表示在攻击面控制器中第n边缘虚拟机被调度，为工作状态。

所述资源配置矩阵Φ_lk，包括l个资源配置向量，记作

其中

为第n边缘虚拟机对合法传感设备集合

的资源配置向量，

其中，k为合法传感设备的数量，C_jm,j＝1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源，所述虚拟资源包括：虚拟的CPU、存储和带宽资源；故所述资源配置矩阵亦可写作：

本发明的目标是通过攻击面控制器调度EdgeVM及配置资源来最大化可信虚拟资源服务效用。此优化问题包括虚拟资源服务效用约束、EdgeVM虚拟资源约束和攻击面控制器重配虚拟资源约束。因此，优化问题被形式化如下：

(c):ΔC_bi≤ξ_bi,ΔC_ri≤ξ_ri,

(d):C_bi+C_ri+C_bm≤C,

其中预测范围下限最大化记作：

之间的差异；

其中，

为为合法传感设备j可获得的虚拟资源服务效用，

为挖矿攻击者i获取的虚拟资源服务效用，[x]⁺＝max(0,x)；

所述合法传感设备j可获得的虚拟资源服务效用

计算方法如下：

所述挖矿攻击者i获取的虚拟资源服务效用

计算方法如下：

所述约束条件包括以下条件之一或组合：

其中，

为为合法传感设备j提供的最小可信虚拟资源服务效用，

为合法传感设备集合。

其中，

为为合法传感设备j提供的最小虚拟资源服务效用，

为合法传感设备集合。

ΔC_bi≤ξ_bi,ΔC_ri≤ξ_ri

其中，ΔC_bi为合法传感设备需求的虚拟资源容量误差,

(d)分配的资源不超过最大虚拟资源；记作：

C_bi+C_ri+C_bm≤C

其中，C_bi为所有合法传感设备需求的虚拟资源容量

C_bm为挖矿攻击消耗的虚拟资源容量

M为挖矿攻击者的个数。

由于优化目标函数关于优化变量Φ和θ_l具有非凸性，非常困难获得最优解。除此之外，本发明还考虑了优化资源配置策略去最大化传感设备获得可信的虚拟资源服务效用，从而确保受挖矿攻击时虚拟资源服务效用约束。在实际的传感边缘云系统中，传感设备的计算能力、边缘EdgeVM的虚拟资源容量和服务效用是动态变化的，优化目标是单个攻击时隙内的攻击面控制优化问题，未使用历史的传感边缘云系统状态信息，解决此问题只能获得子优化解。因此，受挖矿攻击的不确定动态环境中，使用传统的优化技术难以实现高效的EdgeVM最优调度和资源的分配。无模型的强化学习是一个解决动态规划问题的工具，他通过在动态的环境中学习优化解来实现决策。因此，本发明模型化传感边缘云系统的可信虚拟资源服务效用优化问题为一个强化学习问题。在此强化学习中，包含有攻击面控制的传感边缘云微云服务系统作为学习的环境，攻击面控制器作为智能体。

和最优的资源配置矩阵Φ^* _lk。

所述强化学习模型状态空间S为：

为为合法传感设备j可获得的虚拟资源服务效用，

为为合法传感设备j提供的可信虚拟资源服务效用。

所述强化学习模型行动空间A为：

A＝{(θ_l,Φ_lk)}

其中

为延迟状态的传递概率，

为到达下一个状态的传递概率。

所述强化学习模型的奖励函数r为：

其中，

λ₁和λ₂为预先设置的权重系数。

所述强化学习模型采用Q-learning算法，攻击面控制器最优策略π^*(a_t|s_t)为：

其中，

α_t为学习率，

攻击面控制器处理多维状态空间和优化攻击面的控制策略。因此，本发明考虑了由挖矿攻击造成的传感边缘云计算任务卸载环境的高维动态特征和延迟的虚拟资源容量特征，设计和实现了基于延迟状态深度强化学习的抗挖矿攻击方法及系统，在系统中，当T_delay≥T_th时，系统出现延迟状态，T_th是一个可设定的延迟阈值，系统模块如图2所示。其中，攻击面控制器作为智能体来学习和自适应动态的受挖矿攻击环境，攻击面控制器使用观察到的状态，如：虚拟资源容量、传感设备可获得的虚拟资源服务效用，并且通过经验池D中的历史状态信息去训练学习模型，经验池D表示为：

表示延迟状态，s_t+1表示下一个状态。训练完成后，攻击面控制器使用训练好的模型做出对受挖矿攻击的微云服务器攻击面调度和资源配置决策，其中优化的攻击面控制向量为

资源配置向量为Φ^*。

在传感边缘云计算任务卸载中，由于挖矿攻击造成微云服务系统的虚拟资源容量的变化是不确定的，获取其虚拟资源容量值具有一定延迟，这使得攻击面控制器不能实时、精确地获得微云服务系统的虚拟资源容量值。同时，受挖矿攻击的EdgeVM提供给传感设备的可信虚拟资源服务效用降低。因此，需快速获得优化解来优化微云服务系统的虚拟资源容量，提高传感边缘云计算任务卸载的服务质量。本发明设计了延迟状态深度强化学习算法来追溯受挖矿攻击的计算任务卸载服务环境的动态特征，由DQN网络输出优化的行动，并通过配置模块调节微云服务中攻击面控制向量和EdgeVM的虚拟资源分配向量。在受挖矿攻击时，攻击面控制器在时间隙t采取行动a_t时，微云服务系统的状态先从s_t到达延迟状态

在经过一段延迟时间后，微云服务系统到达下一个状态s_t+1，在延迟状态

攻击面控制器接收奖励r_t ^de＝r_t ^de(s_t,a_t)；延迟一段时间后，在下一状态s_t+1，攻击面控制器接收奖励

由此可得，微云服务系统从状态s_t到状态s_t+1的传递概率为：

其中，

表示延迟状态的传递概率。

表示到达下一个状态的传递概率。在时间隙t，具有延迟状态的状态-行动对(s_t,a_t)的值函数为：

在时间隙t，具有延迟状态的状态-行动对

的值函数为：

可得：

在每个时间隙t，具有延迟状态的状态-行动对

的值函数更新如下：

其中，

在更新

之后，可得在每个时间隙t，具有延迟状态的状态-行动对(s_t,a_t)的值函数更新如下：

其中，α_t∈(0,1]是学习率。本发明使用DQN算法来估计具有延迟状态的状态-行动值函数Q_t(s_t,a_t)，DQN的参数为w_t，

DQN的目标是在每个时间隙最小化以下损失函数，损失函数由目标函数和当前的均方误差决定：

L(w_t)＝E[(TargetQ-Q_t(s_t,a_t；w_t))²]

其中，目标Q为：

通过对损失函数求偏导可得到DQN的参数w_t：

w_t+1＝w_t+μ▽L(w_t)

其中，μ为学习率。

与深度强化学习类似，本发明提出的基于延迟状态深度强化学习的攻击面控制算法由两个阶段组成：训练阶段和配置阶段。算法1中显示了训练过程。在微云服务器中攻击面控制器负责收集环境信息并通过学习做出防御决策。算法的训练阶段，类似于强化学习，攻击面控制器初始化网络参数并且观察当前微云服务系统的状态，包括系统的虚拟资源容量、传感设备可获得的虚拟资源服务效用和EdgeVM为传感设备提供可信的虚拟资源服务效用。然后，这些状态向量输入到DQN训练学习模型。在执行被选择的行动后，攻击面控制器从环境中接收奖励并观察微云服务系统状态由

的传递过程，然后更新状态-行动值函数Q_t(s_t,a_t,w_t)和

存储状态、行动值到经验池D中。随后，使用经验池D中的数据来训练DQN，直到DQN收敛时获得学习模型。在算法1训练结束后，攻击面控制器加载学习模型来推理配置向量。在配置阶段，即算法2中，攻击面控制器使用训练好的学习模型w和观察到的状态s来输出选择的行动a,然后环境反馈一个瞬时奖励和状态给攻击面控制器。最后，攻击面控制器选择的行动a中包含的攻击面控制向量

和对应的资源配置向量Φ^*，由配置模块在微云服务器上执行配置向量。

算法1：基于延迟状态深度强化学习的攻击面控制模型生成

步骤1：输入：最小可信虚拟资源服务效用

可获得的最小虚拟资源服务效用

步骤2：初始化DQN参数w_t,学习率μ，经验池大小为d,Q函数为0，α_t。

步骤3：For each时间隙do

多个挖矿攻击者选择EdgeVM实施攻击；

攻击面控制器观察微云服务系统的状态s；

攻击面控制器在当前状态s_t选择一个行动a_t，观察传递状态的变化；

步骤4：选择行动a_t，执行行动a_t

If T_delay≥T_th Then当前状态j将传递到延迟状态

获得奖励r_t ^de(s_t,a_t)，观察获得状态

按照学习率α_t更新状态-行动值函数

再次选择行动a′_t，执行行动a′_t后，获得奖励

观察获得状态s_t+1，按照学习率α_t更新状态-行动值函数Q_t(s_t,a_t,w_t)

在经验池D中存储经验

Else当前状态未出现延迟状态，去掉延迟状态，计算Q_t(s_t,a_t)

EndIF

步骤5：使用更新损失函数：

L(w_t)＝E[(TargetQ-Q_t(s_t,a_t；w_t))²]，w_t+1＝w_t+μ▽L(w_t)

步骤6：EndFor

步骤7：输出具有延迟状态深度强化学习模型w

算法2：攻击面控制策略的实现

步骤1：加载训练好的学习模型w

步骤2：观察受挖矿攻击的微云服务系统状态s

步骤3：输入状态s到DQN

步骤4：攻击面控制器经过DQN推理状态-行动值函数Q_t(s_t,a_t)，且Q_t(s_t,a_t)对应的

步骤5：配置模块加载配置向量

和Φ^* _lk到EdgeVM

步骤6：执行配置。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种传感边缘云任务卸载中挖矿攻击面控制装置，其特征在于，包括：

设置于微云服务器和合法传感设备之间的攻击面控制器以及优化模块，所述攻击面控制器用于当受到挖矿攻击者集合

中各边缘虚拟机的，其中l为边缘虚拟机的数量，即θ_l＝(x₁,x₂,..,x_l)，x_n,n＝1,2,...l为第n边缘虚拟机的控制系数，用于指示所述边缘虚拟机的被调度状态，x_n∈[0,1]，其中x_n＝0表示在攻击面控制器中第n边缘虚拟机未被调度，x_n＝1表示在攻击面控制器中第n边缘虚拟机被调度为工作状态；

所述资源配置矩阵Φ_lk，包括l个资源配置向量，记作

其中

为第n边缘虚拟机对合法传感设备集合

的资源配置向量，

其中，k为合法传感设备的数量，C_jm,j＝1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源；

所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量

2.如权利要求1所述的传感边缘云任务卸载中挖矿攻击面控制装置，其特征在于，所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作：

(d):C_bi+C_ri+C_bm≤C,

其中预测范围下限最大化记作：

之间的差异；

其中，

为为合法传感设备j可获得的虚拟资源服务效用，

为挖矿攻击者i获取的虚拟资源服务效用，[x]⁺＝max(0,x)；

所述合法传感设备j可获得的虚拟资源服务效用

计算方法如下：

其中，β_lj、β_lk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数，β_lj＝1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源，否则为0；β_lk＝1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源，否则为0； h_j、h_k分别为传感设备j和k的任务训练批次数，D_j、D_k分别为传感设备j和k的训练任务的数据大小，C_bi,j、C_bi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量，C_ri,j、C_ri,k分别为由攻击面控制器调度并分配的虚拟资源容量；

所述挖矿攻击者i获取的虚拟资源服务效用

计算方法如下：

所述约束条件包括以下条件之一或组合：

其中，

为为合法传感设备j提供的最小可信虚拟资源服务效用，

为合法传感设备集合；

其中，

为为合法传感设备j提供的最小虚拟资源服务效用，

为合法传感设备集合；

ΔC_bi≤ξ_bi,ΔC_ri≤ξ_ri

其中，ΔC_bi为合法传感设备需求的虚拟资源容量误差,

；

(d)分配的资源不超过最大虚拟资源；记作：

C_bi+C_ri+C_bm≤C

其中，C_bi为所有合法传感设备需求的虚拟资源容量

C_bm为挖矿攻击消耗的虚拟资源容量

M为挖矿攻击者的个数。

3.如权利要求2所述的传感边缘云任务卸载中挖矿攻击面控制装置，其特征在于，所述优化模块根据当前微云服务系统状态采用强化学习模型获得最优的攻击面控制向量

和最优的资源配置矩阵Φ^* _lk。

4.如权利要求3所述的传感边缘云任务卸载中挖矿攻击面控制装置，其特征在于，所述强化学习模型状态空间S为：

为为合法传感设备j可获得的虚拟资源服务效用，

为为合法传感设备j提供的可信虚拟资源服务效用；

所述强化学习模型行动空间A为：

A＝{(θ_l,Φ_lk)}

其中

为延迟状态的传递概率，

为到达下一个状态的传递概率；

所述强化学习模型的奖励函数r为：

其中，

λ₁和λ₂为预先设置的权重系数；

其中，T_max为攻击面控制器防御的持续时间，γ∈(0,1]为攻击防御持续时间t内的打折因子；

5.如权利要求4所述的传感边缘云任务卸载中挖矿攻击面控制装置，其特征在于，所述强化学习模型采用Q-learning算法，攻击面控制器最优策略π^*(a_t|s_t)为：

其中，

α_t为学习率，

6.如权利要求5所述的传感边缘云任务卸载中挖矿攻击面控制装置，其特征在于，所述优化模块包括用于估算Q_t(s_t，a_t)值的DQN神经网络，以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池，所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络，更新DQN神经网络参数w_t。

7.如权利要求6所述的传感边缘云任务卸载中挖矿攻击面控制装置，其特征在于，所述优化模块使用参数为w的DQN神经网络估计Q_t(s_t，a_t)，w按照如下方法更新：