CN112887272B - 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 - Google Patents

一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 Download PDF

Info

Publication number
CN112887272B
CN112887272B CN202110033976.9A CN202110033976A CN112887272B CN 112887272 B CN112887272 B CN 112887272B CN 202110033976 A CN202110033976 A CN 202110033976A CN 112887272 B CN112887272 B CN 112887272B
Authority
CN
China
Prior art keywords
state
virtual resource
attack
sensing
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110033976.9A
Other languages
English (en)
Other versions
CN112887272A (zh
Inventor
刘建华
沈士根
方朝曦
方曙琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shaoxing
Original Assignee
University of Shaoxing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shaoxing filed Critical University of Shaoxing
Priority to CN202110033976.9A priority Critical patent/CN112887272B/zh
Publication of CN112887272A publication Critical patent/CN112887272A/zh
Application granted granted Critical
Publication of CN112887272B publication Critical patent/CN112887272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Neurology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Virology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Operation Control Of Excavators (AREA)

Abstract

本发明公开了一种传感边缘云任务卸载中挖矿攻击面控制装置和方法,包括设置于微云服务器和合法传感设备之间的攻击面控制器,按照攻击面控制向量和资源配置矩阵组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击,使得为合法传感设备提供的服务效用总和的预测范围下限最大化。方法包括(1)观察微云服务系统状态,当时延超过预设的时延阈值时,进入步骤(2),否则重复步骤(1);(2)将微云服务系统状态输入根据强化学习模型获取的最优策略获得行动值;(3)配置微云服务其中相应的边缘虚拟机资源。本发明联合优化攻击面和虚拟资源分配问题,以此来实现最大化微云服务的可信服务效用,同时保证合法传感设备计算任务卸载的服务质量。

Description

一种传感边缘云任务卸载中挖矿攻击面控制装置及方法
技术领域
本发明属于传感云计算领域,更具体地,涉及一种传感边缘云任务卸载中挖矿攻击面控制装置及方法。
背景技术
为了节约传感设备的计算资源,传感设备的计算任务卸载到边缘服务节点执行,特别是延迟敏感型应用,边缘服务节点要保证高速和可靠的计算任务卸载。因此,可靠性和安全性是传感设备计算任务卸载中必须满足的需求。区块链技术正部署于物联网边缘服务域中,但由于区块链矿工在生成加密区块的过程中要消耗大量的系统资源,特别是多个恶意的区块链节点能够对传感边缘云服务节点发起挖矿攻击,消耗微云服务器的计算资源,阻碍卸载的多个计算任务执行,降低计算任务卸载执行的服务质量。因此,需设计智能的挖矿攻击面控制机制来抵消挖矿攻击带来的系统性能下降等问题。
集成区块链系统的传感边缘云计算任务卸载中基于智能攻击面控制器的挖矿攻击防御方法及系统中,部署智能攻击面控制器来调节受挖矿攻击的虚拟服务节点的计算资源,以此保证合法传感设备卸载的计算任务能安全地运行。为了提高计算任务卸载中微云服务器的虚拟资源容量,本发明在考虑传感设备计算任务卸载服务质量需求和随时间变化的边缘虚拟机EdgeVM状态的基础上,联合优化微云服务器的挖矿攻击面控制器的设计以及边缘虚拟机EdgeVM的资源配置策略。由于受挖矿攻击的微云服务系统具有很高的动态性及其虚拟资源状态具有高维复杂性,这使得攻击面控制及边缘虚拟机EdgeVM的资源配置策略优化问题具有非凸性,获得最优解面临巨大挑战。为了阻止恶意的挖矿节点浪费IoT系统的资源,L.Cui等设计了一个基于压缩DAG(Directed acyclic graph)的高效区块链协议,该协议考虑了对IoT系统的混合攻击策略,但未针对多个挖矿攻击者对IoT系统造成的安全威胁提供有效的防御策略("An Efficient and Compacted DAG-Based BlockchainProtocol for Industrial Internet of Things,"in IEEE Transactions onIndustrial Informatics,vol.16,no.6,pp.4134-4145,June2020)。为了增强数据共享的安全性,J.Kang等提出了基于声誉和契约理论的可信挖矿节点选择方法来阻止区块链矿工间的共谋攻击("Toward Secure Blockchain-Enabled Internet of Vehicles:Optimizing Consensus Management Using Reputation and Contract Theory,"in IEEETransactions on Vehicular Technology,vol.68,no.3,pp.2906-2920,March 2019)。该方法虽然考虑了挖矿攻击对数据共享造成的破坏,但还未考虑多个挖矿攻击者对计算任务卸载环境发起共谋攻击所引起的服务质量下降等问题。S.Wu等针对DDoS攻击者对挖矿池的攻击,提出了随机博弈的方法获得近似的最优攻击策略来最大化期望的长期受益("Survive and Thrive:A Stochastic Game for DDoS Attacks in Bitcoin MiningPools,"in IEEE/ACM Transactions on Networking,vol.28,no.2,pp.874-887,April2020)。该方法考虑DDoS攻击器对挖矿环境的攻击,未考虑挖矿攻击对挖矿池造成的虚拟资源容量的影响。
这些研究方案存在的不足如下:
(1)已提出的解决方法考虑挖矿攻击者共谋破坏节点间的数据共享,而未考虑集成区块链的传感边缘云中恶意的挖矿攻击。因此,已提出的解决方案未能解决集成区块链系统的传感设备计算任务卸载中挖矿攻击的防御问题。
(2)已提出的解决方案中考虑了可信的挖矿节点选择方法,未考虑多个挖矿节点对微云服务器攻击带来的虚拟资源容量状态变化的不确定和延迟等问题,未针对此问题进行建模分析。
(3)已有的研究对多个挖矿节点竞争矿池时,对产生的DDoS攻击已给出相应的解决方案,但当挖矿攻击者对攻击面造成严重破坏时,直接导致微云服务系统的状态呈现动态高维特性,要提高传感设备计算任务可信卸载的服务质量,不仅要控制攻击面还需重配系统资源,已有的解决方法还未联合攻击面控制及高效的资源配置来设计挖矿攻击面控制算法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明在联合考虑攻击面控制及其高效的资源配置的基础上,提出了一种传感边缘云环境下,基于延迟状态深度强化学习的攻击面控制方法,在受挖矿攻击时,实现传感设备卸载的计算任务的可信执行。本发明提出强化学习的方法来优化传感设备计算任务卸载节点的虚拟资源容量,从而在动态的卸载环境中,抵抗挖矿攻击。由于挖矿攻击使得虚拟资源容量状态具有延迟特性,为了提高强化学习的效率,本发明提出延迟状态深度强化学习的机制来追溯挖矿攻击环境的状态变化并且配置虚拟资源,以此提高受挖矿攻击时,微云服务器的虚拟资源容量和传感设备计算任务卸载的服务质量。
为实现上述目的,按照本发明的一个方面,提供了一种传感边缘云任务卸载中挖矿攻击面控制装置,包括:
设置于微云服务器和合法传感设备之间的攻击面控制器,所述攻击面控制器用于当受到挖矿攻击者集合
Figure BDA0002893438290000031
中多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合
Figure BDA0002893438290000032
中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度,为空闲状态;
所述资源配置矩阵Φlk,包括l个资源配置向量,记作
Figure BDA0002893438290000033
其中
Figure BDA0002893438290000034
为第n边缘虚拟机对合法传感设备集合
Figure BDA0002893438290000035
的资源配置向量,
Figure BDA0002893438290000036
其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其包括优化模块,所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量
Figure BDA0002893438290000037
和最优的资源配置矩阵Φ* lk,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作:
Figure BDA0002893438290000041
Figure BDA0002893438290000042
Figure BDA0002893438290000043
(c):ΔCbi≤ξbi,ΔCri≤ξri,
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
Figure BDA0002893438290000044
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量
Figure BDA0002893438290000045
之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量
Figure BDA0002893438290000046
之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量
Figure BDA0002893438290000047
之间的差异;
Figure BDA0002893438290000048
为为合法传感设备j提供的可信的虚拟资源服务效用,计算方法如下:
Figure BDA0002893438290000049
其中,
Figure BDA00028934382900000410
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA00028934382900000411
为挖矿攻击者i获取的虚拟资源服务效用;
所述合法传感设备j可获得的虚拟资源服务效用
Figure BDA00028934382900000412
计算方法如下:
Figure BDA00028934382900000413
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0。hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量;
所述挖矿攻击者i获取的虚拟资源服务效用
Figure BDA0002893438290000051
计算方法如下:
Figure BDA0002893438290000052
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量;
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
Figure BDA0002893438290000053
其中,
Figure BDA0002893438290000054
为为合法传感设备j提供的最小可信虚拟资源服务效用,
Figure BDA00028934382900000510
为合法传感设备集合。
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
Figure BDA0002893438290000055
其中,
Figure BDA0002893438290000056
为为合法传感设备j提供的最小虚拟资源服务效用,
Figure BDA0002893438290000057
为合法传感设备集合。
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbiri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
其中,ΔCbi为合法传感设备需求的虚拟资源容量误差,
Figure BDA0002893438290000058
ΔCri为受挖矿攻击后由攻击面控制器调度并分配的虚拟资源容量误差
Figure BDA0002893438290000059
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
其中,Cbi为所有合法传感设备需求的虚拟资源容量
Figure BDA0002893438290000061
K为传感设备的个数;Cri为受挖矿攻击后,攻击面控制器调度后分配的虚拟资源容量
Figure BDA0002893438290000062
Cbm为挖矿攻击消耗的虚拟资源容量
Figure BDA0002893438290000063
M为挖矿攻击者的个数。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述优化模块根据当前微云服务系统状态采用强化学习算法获得最优的攻击面控制向量
Figure BDA0002893438290000064
和最优的资源配置矩阵Φ* lk;优选:
所述强化学习模型状态空间S为:
Figure BDA0002893438290000065
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,
Figure BDA0002893438290000066
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA0002893438290000067
为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θllk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
Figure BDA0002893438290000068
其中
Figure BDA0002893438290000069
为延迟状态的传递概率,
Figure BDA00028934382900000610
为到达下一个状态的传递概率。
所述强化学习模型的奖励函数r为:
Figure BDA00028934382900000611
其中,
Figure BDA00028934382900000612
λ1和λ2为预先设置的权重系数。
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
Figure BDA0002893438290000071
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子。
所述强化学习模型的输出为攻击面控制器最优策略π*(at|st),即从状态st到行动at的最优映射,攻击面控制器根据最优策略π*(at|st)和当前状态st获得行动值
Figure BDA0002893438290000072
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述强化学习模型采用Q-learning算法,攻击面控制器最优策略π*(at|st)为:
Figure BDA0002893438290000073
其通过更新Q值的方式学习优化策略,按照如下方法更新Q值:
Figure BDA0002893438290000074
其中,
Figure BDA0002893438290000075
αt为学习率,
Figure BDA0002893438290000076
为攻击面控制器延迟一段时间后在下一状态接收的奖励,采用奖励函数计算。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述优化模块包括用于估算Qt(st,at)值的DQN神经网络,以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池,所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络,更新DQN神经网络参数wt
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述优化模块使用参数为w的DQN神经网络估计Qt(st,at),w按照如下方法更新:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
Figure BDA0002893438290000077
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态
Figure BDA0002893438290000081
再传递到下一时刻状态st+1的记录:
Figure BDA0002893438290000082
其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,
Figure BDA0002893438290000083
为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态
Figure BDA0002893438290000084
记录当前状态st、选择的行动at、延迟状态
Figure BDA0002893438290000085
根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
Figure BDA0002893438290000086
再次选择行动a′t执行,观察获取下一个状态st+1、根据奖励函数计算下一个状态的瞬时奖励
Figure BDA0002893438290000087
并记录,采用参数为wt的当前DQN网络更新状态-行动值函数Qt(st,at,wt)。
按照本发明的另一个方面提供了一种传感边缘云任务卸载抗挖矿攻击的防御方法,其包括以下步骤:
(1)观察微云服务系统状态st,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,进入步骤(2),否则重复步骤(1);
(2)将微云服务系统状态st输入根据强化学习模型获取的最优策略π*(at|st),获得行动值
Figure BDA0002893438290000088
(3)根据步骤(2)选择的行动,获得最优的攻击面控制向量
Figure BDA0002893438290000089
和最优的资源配置矩阵Φ* lk,并据此配置微云服务其中相应的边缘虚拟机资源。
优选地,所述传感边缘云任务卸载抗挖矿攻击的防御方法,其所述步骤(2)具体为:采用Q-learning算法获取的最优策略
Figure BDA00028934382900000810
所述Q-learning算法按照如下方法更新Q值:
Figure BDA00028934382900000811
其中,
Figure BDA00028934382900000812
优选采用参数为wt的DQN神经网络估计,αt为学习率,
Figure BDA00028934382900000813
为攻击面控制器延迟一段时间后在下一状态接收的奖励,采用奖励函数计算。
所述强化学习模型状态空间S为:
Figure BDA0002893438290000091
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,
Figure BDA0002893438290000092
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA0002893438290000093
为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θllk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
Figure BDA0002893438290000094
其中
Figure BDA0002893438290000095
为延迟状态的传递概率,
Figure BDA0002893438290000096
为到达下一个状态的传递概率。
所述强化学习模型的奖励函数r为:
Figure BDA0002893438290000097
其中,
Figure BDA0002893438290000098
λ1和λ2为预先设置的权重系数。
所述参数为wt的DQN神经网络,按照如下方法训练:
其训练用的数据为受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态
Figure BDA0002893438290000099
再传递到下一时刻状态st+1的记录:
Figure BDA00028934382900000910
其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,
Figure BDA00028934382900000911
为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态
Figure BDA0002893438290000101
记录当前状态st、选择的行动at、延迟状态
Figure BDA0002893438290000102
根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
Figure BDA0002893438290000103
再次选择行动a′t执行,观察获取下一个状态st+1、根据奖励函数计算下一个状态的瞬时奖励
Figure BDA0002893438290000104
并记录,采用参数为wt的当前DQN网络更新状态-行动值函数Qt(st,at,wt)。
对于所述DQN神经网络的训练用数据,按照如下方法更新其参数w:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
Figure BDA0002893438290000105
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)针对集成区块链系统的传感边缘云计算任务卸载环境受挖矿攻击时,微云服务器动态变化的虚拟资源容量,建立基于攻击面控制器的防御模型,本发明联合优化攻击面和虚拟资源分配问题,以此来实现最大化微云服务的可信服务效用,同时保证合法传感设备计算任务卸载的服务质量。
(2)本发明提出了一个基于强化学习的抗挖矿攻击防御装置,在此系统中,攻击面控制器根据受挖矿攻击的计算任务卸载环境中观察到的瞬时状态,联合优化攻击面及资源配置策略。
(3)提出了基于延迟状态深度强化学习的攻击面优化方法来提高强化学习效率和微云服务可信的服务效用。在此方法中,通过对挖矿攻击产生延迟状态的学习来跟踪虚拟资源容量的动态变化,从而优化攻击面控制器的行动。
附图说明
图1是本发明实施例提供的基于攻击面控制器的计算任务可信卸载系统结构示意图;
图2是本发明实施例提供的传感边缘云任务卸载抗挖矿攻击的防御装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的传感边缘云任务卸载抗挖矿攻击的防御装置,包括设置于微云服务器和合法传感设备之间的攻击面控制器,所述攻击面控制器用于当受到挖矿攻击者集合
Figure BDA0002893438290000111
中多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机(EdgeVMde)的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合
Figure BDA0002893438290000112
中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度,为空闲状态。
所述资源配置矩阵Φlk,包括l个资源配置向量,记作
Figure BDA0002893438290000113
其中
Figure BDA0002893438290000114
为第n边缘虚拟机对合法传感设备集合
Figure BDA0002893438290000115
的资源配置向量,
Figure BDA0002893438290000116
其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源;所述虚拟资源包括:虚拟的CPU、存储和带宽资源;故所述资源配置矩阵亦可写作:
Figure BDA0002893438290000117
所述防御装置,优选包括优化模块,所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量
Figure BDA0002893438290000121
和最优的资源配置矩阵Φ* lk,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作:
Figure BDA0002893438290000122
Figure BDA0002893438290000123
Figure BDA0002893438290000124
(c):ΔCbi≤ξbi,ΔCri≤ξri,
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
Figure BDA0002893438290000125
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量
Figure BDA0002893438290000126
之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量
Figure BDA0002893438290000127
之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量
Figure BDA0002893438290000128
之间的差异;
Figure BDA0002893438290000129
为为合法传感设备j提供的可信的虚拟资源服务效用,计算方法如下:
Figure BDA00028934382900001210
其中,
Figure BDA00028934382900001211
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA00028934382900001212
为挖矿攻击者i获取的虚拟资源服务效用,[x]+=max(0,x);
所述合法传感设备j可获得的虚拟资源服务效用
Figure BDA0002893438290000131
计算方法如下:
Figure BDA0002893438290000132
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0。hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量。
所述挖矿攻击者i获取的虚拟资源服务效用
Figure BDA0002893438290000133
计算方法如下:
Figure BDA0002893438290000134
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量。
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
Figure BDA0002893438290000135
其中,
Figure BDA0002893438290000136
为为合法传感设备j提供的最小可信虚拟资源服务效用,
Figure BDA0002893438290000137
为合法传感设备集合。
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
Figure BDA0002893438290000138
其中,
Figure BDA0002893438290000139
为为合法传感设备j提供的最小虚拟资源服务效用,
Figure BDA00028934382900001310
为合法传感设备集合。
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbiri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
其中,ΔCbi为合法传感设备需求的虚拟资源容量误差,
Figure BDA0002893438290000141
ΔCri为受挖矿攻击后由攻击面控制器调度并分配的虚拟资源容量误差
Figure BDA0002893438290000142
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
其中,Cbi为所有合法传感设备需求的虚拟资源容量
Figure BDA0002893438290000143
K为传感设备的个数;Cri为受挖矿攻击后,攻击面控制器调度后分配的虚拟资源容量
Figure BDA0002893438290000144
Cbm为挖矿攻击消耗的虚拟资源容量
Figure BDA0002893438290000145
M为挖矿攻击者的个数。
所述优化模块根据当前微云服务系统状态采用强化学习算法获得最优的攻击面控制向量
Figure BDA0002893438290000146
和最优的资源配置矩阵Φ* lk
所述强化学习模型状态空间S为:
Figure BDA0002893438290000147
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,
Figure BDA0002893438290000148
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA0002893438290000149
为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θllk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
Figure BDA00028934382900001410
其中
Figure BDA00028934382900001411
为延迟状态的传递概率,
Figure BDA00028934382900001412
为到达下一个状态的传递概率。
所述强化学习模型的奖励函数r为:
Figure BDA0002893438290000151
其中,
Figure BDA0002893438290000152
λ1和λ2为预先设置的权重系数。
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
Figure BDA0002893438290000153
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子。
所述强化学习模型的输出为攻击面控制器最优策略π*(at|st),即从状态st到行动at的最优映射,攻击面控制器根据最优策略π*(at|st)和当前状态st获得行动值
Figure BDA0002893438290000154
优选所述强化学习模型采用Q-learning算法,攻击面控制器最优策略π*(at|st)为:
Figure BDA0002893438290000155
其通过更新Q值的方式学习优化策略,按照如下方法更新Q值:
Figure BDA0002893438290000156
其中,
Figure BDA0002893438290000157
αt为学习率,
Figure BDA0002893438290000158
为攻击面控制器延迟一段时间后在下一状态接收的奖励,采用奖励函数计算。
优选所述优化模块包括用于估算Qt(st,at)值的DQN神经网络,以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池,所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络,更新DQN神经网络参数wt
所述优化模块使用参数为w的DQN神经网络估计Qt(st,at),w按照如下方法更新:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
Figure BDA0002893438290000161
所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态
Figure BDA0002893438290000162
再传递到下一时刻状态st+1的记录:
Figure BDA0002893438290000163
其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,
Figure BDA0002893438290000166
为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态
Figure BDA0002893438290000167
记录当前状态st、选择的行动at、延迟状态
Figure BDA0002893438290000168
根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
Figure BDA0002893438290000169
再次选择行动a′t执行,观察获取下一个状态st+1、根据奖励函数计算下一个状态的瞬时奖励
Figure BDA00028934382900001610
并记录,采用参数为wt的当前DQN网络更新状态-行动值函数Qt(st,at,wt)。
本发明提供的传感边缘云任务卸载抗挖矿攻击的防御方法,包括以下步骤:
(1)观察微云服务系统状态st,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,进入步骤(2),否则重复步骤(1);
(2)将微云服务系统状态st输入根据强化学习模型获取的最优策略π*(at|st),获得行动值
Figure BDA00028934382900001611
优选采用Q-learning算法获取的最优策略
Figure BDA00028934382900001612
所述Q-learning算法按照如下方法更新Q值:
Figure BDA00028934382900001613
其中,
Figure BDA00028934382900001614
优选采用参数为wt的DQN神经网络估计,αt为学习率,
Figure BDA00028934382900001615
为攻击面控制器延迟一段时间后在下一状态接收的奖励,采用奖励函数计算。
所述强化学习模型状态空间S为:
Figure BDA0002893438290000171
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,
Figure BDA0002893438290000172
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA0002893438290000173
为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θllk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
Figure BDA0002893438290000174
其中
Figure BDA0002893438290000175
为延迟状态的传递概率,
Figure BDA0002893438290000176
为到达下一个状态的传递概率。
所述强化学习模型的奖励函数r为:
Figure BDA0002893438290000177
其中,
Figure BDA0002893438290000178
λ1和λ2为预先设置的权重系数。
所述参数为wt的DQN神经网络,按照如下方法训练:
其训练用的数据为受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态
Figure BDA0002893438290000179
再传递到下一时刻状态st+1的记录:
Figure BDA00028934382900001710
其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,
Figure BDA00028934382900001711
为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态
Figure BDA0002893438290000181
记录当前状态st、选择的行动at、延迟状态
Figure BDA0002893438290000182
根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
Figure BDA0002893438290000183
再次选择行动a′t执行,观察获取下一个状态st+1、根据奖励函数计算下一个状态的瞬时奖励
Figure BDA0002893438290000184
并记录,采用参数为wt的当前DQN网络更新状态-行动值函数Qt(st,at,wt)。
对于所述DQN神经网络的训练用数据,按照如下方法更新其参数w:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
Figure BDA0002893438290000185
(3)根据步骤(2)选择的行动,获得最优的攻击面控制向量
Figure BDA0002893438290000186
和最优的资源配置矩阵Φ* lk,并据此配置微云服务其中相应的边缘虚拟机资源。
以下为实施例:
本发明考虑了一个基于攻击面控制器的计算任务可信卸载系统,如图1所示。传感边缘云系统中的微云服务器包含有L个边缘虚拟机EdgeVM,向K个合法传感设备提供计算任务的卸载服务。
当出现有M个挖矿攻击者组成的攻击向量时,在微云服务器中攻击面控制器配置多个EdgeVM去帮助卸载的计算任务迁移,协调受攻击的EdgeVM之间的计算负载,在协调过程中攻击面控制器仅对微云服务器中空闲的资源进行重分配,无需添加额外的计算节点,攻击面控制器通过配置的方式调度空闲的EdgeVM接收卸载的计算任务。除此之外,非法的挖矿攻击者的目标是消耗传感边缘云微云服务器的虚拟计算资源。因此,在攻击面控制器上使用资源配置策略去提高可用的虚拟资源容量,同时减少挖矿攻击者对传感设备计算任务卸载过程造成的影响。令
Figure BDA0002893438290000187
表示合法传感设备集合。
Figure BDA0002893438290000188
表示非法的挖矿攻击者集合。
Figure BDA0002893438290000189
表示边缘虚拟机EdgeVM集合。通常一个微云服务器中EdgeVM提供的服务为:vk=(vi,fi,QoSi(vk)),其中vi表示EdgeVM节点,fi表示EdgeVM节点可以提供的计算任务卸载服务,fi=(ftrain,fcache),其中ftrain表示训练服务,fcache表示缓存服务。QoSi(vk)表示多个EdgeVM节点提供服务时组合的服务质量,由合法传感设备获得的虚拟资源服务效用决定。
本发明提供的传感边缘云任务卸载抗挖矿攻击的防御装置,包括设置于微云服务器和合法传感设备之间的攻击面控制器,所述攻击面控制器用于当受到多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机(EdgeVM)的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述当前微云服务系统状态,包括微云服务器中所有边缘虚拟机的虚拟资源容量
Figure BDA0002893438290000191
边缘虚拟机提供的可信虚拟资源服务效用
Figure BDA0002893438290000192
以及传感设备获得的虚拟资源服务效用
Figure BDA0002893438290000193
当受到多个攻击者的挖矿攻击时,攻击面控制器组合边缘虚拟机EdgeVM节点并分配一定的虚拟资源向传感设备提供边缘计算任务卸载服务。虚拟资源包括:虚拟的CPU、存储和带宽资源。为了保证卸载到EdgeVM的延迟敏感性任务正常执行,攻击面控制器还承担了部分攻击流带来的资源消耗,同时组合空闲的EdgeVM的虚拟资源来对抗挖矿攻击。攻击面控制器定义为Γl=(C,Rl),其中C表示攻击面控制器总的虚拟资源容量。Rl表示边缘虚拟机l中基于延迟状态深度强化学习的攻击面控制算法。攻击面控制器的作用为:受挖矿攻击时,攻击面控制器协调微云服务器中各个EdgeVM节点的资源进行组合后的服务质量。此外,在图1中还显示了系统的虚拟资源使用情况,其中Cbi,j表示传感设备j需求的虚拟资源容量。Cri,j表示受挖矿攻击后,由攻击面控制器调度并分配给传感设备j的虚拟资源容量。Cbm,i表示挖矿攻击i消耗的虚拟资源容量。令βlj表示攻击面控制系数,指示EdgeVM l是否被调度分配给传感设备j资源,且βlj∈[0,1],其中βlj=0表示攻击面控制器未调度EdgeVM l并分配资源给传感设备j卸载的计算任务,βlj=1表示攻击面控制器调度EdgeVM l并分配资源给传感设备j卸载的计算任务。传感设备j卸载计算任务消耗的虚拟资源容量为:
ybi,j=βljhjDj(Cbi,j+Cri,j)
其中,hj表示传感设备卸载的任务DTj训练批次数,Dj表示训练任务DTj的数据大小。
挖矿攻击者i消耗的虚拟资源容量为:
ybm,i=ηbm,iCbm,i
其中,ηbm,i表示挖矿攻击者i的挖矿攻击程序的迭代次数。
在受挖矿攻击时,EdgeVM消耗的资源为:
Figure BDA0002893438290000201
其中,K表示传感设备的个数,M表示挖矿攻击者的个数。
在受到多个挖矿攻击者攻击时,攻击面控制器期望使用最小的控制面最大化服务质量。攻击面控制器获得的虚拟资源容量为:
Ci=C-yvm
其中,C表示微云服务器的虚拟资源容量。
在实际的传感边缘云系统资源信息收集过程中,由EdgeVM到攻击面控制器存在传输延迟以及挖矿攻击使得系统的资源容量动态变化,导致攻击面控制器不能获得EdgeVM完全的虚拟资源容量状态信息。因此,攻击面控制器获得过时的EdgeVM状态信息,这降低了攻击面控制的实时性要求,一旦攻击面控制器使用过时的EdgeVM状态信息对攻击面控制和资源配置策略进行优化,难以保证控制和配置结果的精确性,直接影响传感设备计算任务卸载的服务质量。因此,本发明考虑了时间延迟的虚拟资源容量状态,使用Tdelay表示过时的虚拟资源容量和实时的虚拟资源容量之间的时间延迟。也即,当攻击面控制器发现传感设备请求的资源超过规定的阈值时,在时间t,他将完成虚拟资源容量的估计过程,并在t+Tdelay的时隙调度空闲的EdgeVM,然后配置资源。因此,过时的虚拟资源容量C(t)和延迟的虚拟资源容量C(t+Tdelay)的关系表示如下:
Figure BDA0002893438290000202
其中,δ表示过时的虚拟资源容量和估计的延迟虚拟资源容量之间的平衡系数,且0≤δ≤1,若δ=1表示过时的虚拟资源容量效应被消除。此外,δ=0表示无虚拟资源容量状态信息。
Figure BDA0002893438290000203
表示估计的虚拟资源容量。由于挖矿攻击导致虚拟资源容量变化不确定,本发明建立虚拟资源容量不确定向量模型
Figure BDA0002893438290000211
传感边缘云微云服务系统的虚拟资源容量向量为Csy=(Cbi,j,Cri,j,Cbm,i),虚拟资源容量的各个分量被计算如下:
Figure BDA0002893438290000212
Figure BDA0002893438290000213
Figure BDA0002893438290000214
其中,
Figure BDA0002893438290000215
是估计的虚拟资源容量向量,
Figure BDA0002893438290000216
Figure BDA0002893438290000217
估计的虚拟资源容量。ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i)是虚拟资源容量的误差向量,ΔCbi,j,ΔCri,j和ΔCbm,i是对应的虚拟资源容量的误差,
Figure BDA0002893438290000218
在虚拟资源容量不确定向量模型中,对于传感设备j,可获得的虚拟资源服务效用为:
Figure BDA0002893438290000219
挖矿攻击者i试图阻碍合法传感设备j卸载并执行计算任务,以此来降低计算任务卸载的服务质量,挖矿攻击者i获取的虚拟资源服务效用为:
Figure BDA00028934382900002110
由于挖矿攻击能对任何一个合法传感设备j卸载的计算任务发起攻击。因此,EdgeVM为传感设备j提供可信的虚拟资源服务效用为:
Figure BDA00028934382900002111
其中[x]+=max(0,x)。
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合
Figure BDA00028934382900002112
中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度,为工作状态。
所述资源配置矩阵Φlk,包括l个资源配置向量,记作
Figure BDA0002893438290000221
其中
Figure BDA0002893438290000222
为第n边缘虚拟机对合法传感设备集合
Figure BDA0002893438290000223
的资源配置向量,
Figure BDA0002893438290000224
其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源,所述虚拟资源包括:虚拟的CPU、存储和带宽资源;故所述资源配置矩阵亦可写作:
Figure BDA0002893438290000225
所述防御装置,优选包括优化模块,所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量
Figure BDA0002893438290000226
和最优的资源配置矩阵Φ* lk,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
本发明的目标是通过攻击面控制器调度EdgeVM及配置资源来最大化可信虚拟资源服务效用。此优化问题包括虚拟资源服务效用约束、EdgeVM虚拟资源约束和攻击面控制器重配虚拟资源约束。因此,优化问题被形式化如下:
Figure BDA0002893438290000227
Figure BDA0002893438290000228
Figure BDA0002893438290000229
(c):ΔCbi≤ξbi,ΔCri≤ξri,
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
Figure BDA00028934382900002210
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量
Figure BDA0002893438290000231
之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量
Figure BDA0002893438290000232
之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量
Figure BDA0002893438290000233
之间的差异;
Figure BDA0002893438290000234
为为合法传感设备j提供的可信的虚拟资源服务效用,计算方法如下:
Figure BDA0002893438290000235
其中,
Figure BDA0002893438290000236
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA0002893438290000237
为挖矿攻击者i获取的虚拟资源服务效用,[x]+=max(0,x);
所述合法传感设备j可获得的虚拟资源服务效用
Figure BDA0002893438290000238
计算方法如下:
Figure BDA0002893438290000239
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0。hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量。
所述挖矿攻击者i获取的虚拟资源服务效用
Figure BDA00028934382900002310
计算方法如下:
Figure BDA00028934382900002311
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量。
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
Figure BDA0002893438290000241
其中,
Figure BDA0002893438290000242
为为合法传感设备j提供的最小可信虚拟资源服务效用,
Figure BDA0002893438290000243
为合法传感设备集合。
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
Figure BDA0002893438290000244
其中,
Figure BDA0002893438290000245
为为合法传感设备j提供的最小虚拟资源服务效用,
Figure BDA0002893438290000246
为合法传感设备集合。
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbiri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
其中,ΔCbi为合法传感设备需求的虚拟资源容量误差,
Figure BDA0002893438290000247
ΔCri为受挖矿攻击后由攻击面控制器调度并分配的虚拟资源容量误差
Figure BDA0002893438290000248
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
其中,Cbi为所有合法传感设备需求的虚拟资源容量
Figure BDA0002893438290000249
K为传感设备的个数;Cri为受挖矿攻击后,攻击面控制器调度后分配的虚拟资源容量
Figure BDA00028934382900002410
Cbm为挖矿攻击消耗的虚拟资源容量
Figure BDA00028934382900002411
M为挖矿攻击者的个数。
由于优化目标函数关于优化变量Φ和θl具有非凸性,非常困难获得最优解。除此之外,本发明还考虑了优化资源配置策略去最大化传感设备获得可信的虚拟资源服务效用,从而确保受挖矿攻击时虚拟资源服务效用约束。在实际的传感边缘云系统中,传感设备的计算能力、边缘EdgeVM的虚拟资源容量和服务效用是动态变化的,优化目标是单个攻击时隙内的攻击面控制优化问题,未使用历史的传感边缘云系统状态信息,解决此问题只能获得子优化解。因此,受挖矿攻击的不确定动态环境中,使用传统的优化技术难以实现高效的EdgeVM最优调度和资源的分配。无模型的强化学习是一个解决动态规划问题的工具,他通过在动态的环境中学习优化解来实现决策。因此,本发明模型化传感边缘云系统的可信虚拟资源服务效用优化问题为一个强化学习问题。在此强化学习中,包含有攻击面控制的传感边缘云微云服务系统作为学习的环境,攻击面控制器作为智能体。
所述优化模块根据当前微云服务系统状态采用强化学习算法获得最优的攻击面控制向量
Figure BDA0002893438290000251
和最优的资源配置矩阵Φ* lk
所述强化学习模型状态空间S为:
Figure BDA0002893438290000252
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,
Figure BDA0002893438290000253
为为合法传感设备j可获得的虚拟资源服务效用,
Figure BDA0002893438290000254
为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θllk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
Figure BDA0002893438290000255
其中
Figure BDA0002893438290000256
为延迟状态的传递概率,
Figure BDA0002893438290000257
为到达下一个状态的传递概率。
所述强化学习模型的奖励函数r为:
Figure BDA0002893438290000258
其中,
Figure BDA0002893438290000259
λ1和λ2为预先设置的权重系数。
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
Figure BDA0002893438290000261
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子。
所述强化学习模型的输出为攻击面控制器最优策略π*(at|st),即从状态st到行动at的最优映射,攻击面控制器根据最优策略π*(at|st)和当前状态st获得行动值
Figure BDA0002893438290000262
所述强化学习模型采用Q-learning算法,攻击面控制器最优策略π*(at|st)为:
Figure BDA0002893438290000263
其通过更新Q值的方式学习优化策略,按照如下方法更新Q值:
Figure BDA0002893438290000264
其中,
Figure BDA0002893438290000265
αt为学习率,
Figure BDA0002893438290000266
为攻击面控制器延迟一段时间后在下一状态接收的奖励,采用奖励函数计算。
攻击面控制器处理多维状态空间和优化攻击面的控制策略。因此,本发明考虑了由挖矿攻击造成的传感边缘云计算任务卸载环境的高维动态特征和延迟的虚拟资源容量特征,设计和实现了基于延迟状态深度强化学习的抗挖矿攻击方法及系统,在系统中,当Tdelay≥Tth时,系统出现延迟状态,Tth是一个可设定的延迟阈值,系统模块如图2所示。其中,攻击面控制器作为智能体来学习和自适应动态的受挖矿攻击环境,攻击面控制器使用观察到的状态,如:虚拟资源容量、传感设备可获得的虚拟资源服务效用,并且通过经验池D中的历史状态信息去训练学习模型,经验池D表示为:
Figure BDA0002893438290000267
其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,
Figure BDA0002893438290000269
表示延迟状态,st+1表示下一个状态。训练完成后,攻击面控制器使用训练好的模型做出对受挖矿攻击的微云服务器攻击面调度和资源配置决策,其中优化的攻击面控制向量为
Figure BDA0002893438290000268
资源配置向量为Φ*
在传感边缘云计算任务卸载中,由于挖矿攻击造成微云服务系统的虚拟资源容量的变化是不确定的,获取其虚拟资源容量值具有一定延迟,这使得攻击面控制器不能实时、精确地获得微云服务系统的虚拟资源容量值。同时,受挖矿攻击的EdgeVM提供给传感设备的可信虚拟资源服务效用降低。因此,需快速获得优化解来优化微云服务系统的虚拟资源容量,提高传感边缘云计算任务卸载的服务质量。本发明设计了延迟状态深度强化学习算法来追溯受挖矿攻击的计算任务卸载服务环境的动态特征,由DQN网络输出优化的行动,并通过配置模块调节微云服务中攻击面控制向量和EdgeVM的虚拟资源分配向量。在受挖矿攻击时,攻击面控制器在时间隙t采取行动at时,微云服务系统的状态先从st到达延迟状态
Figure BDA0002893438290000271
在经过一段延迟时间后,微云服务系统到达下一个状态st+1,在延迟状态
Figure BDA0002893438290000272
攻击面控制器接收奖励rt de=rt de(st,at);延迟一段时间后,在下一状态st+1,攻击面控制器接收奖励
Figure BDA0002893438290000273
由此可得,微云服务系统从状态st到状态st+1的传递概率为:
Figure BDA0002893438290000274
其中,
Figure BDA0002893438290000275
表示延迟状态的传递概率。
Figure BDA0002893438290000276
表示到达下一个状态的传递概率。在时间隙t,具有延迟状态的状态-行动对(st,at)的值函数为:
Figure BDA0002893438290000277
在时间隙t,具有延迟状态的状态-行动对
Figure BDA0002893438290000278
的值函数为:
Figure BDA0002893438290000279
可得:
Figure BDA00028934382900002710
在每个时间隙t,具有延迟状态的状态-行动对
Figure BDA00028934382900002711
的值函数更新如下:
Figure BDA00028934382900002712
其中,
Figure BDA00028934382900002713
在更新
Figure BDA00028934382900002714
之后,可得在每个时间隙t,具有延迟状态的状态-行动对(st,at)的值函数更新如下:
Figure BDA00028934382900002715
其中,αt∈(0,1]是学习率。本发明使用DQN算法来估计具有延迟状态的状态-行动值函数Qt(st,at),DQN的参数为wt
Figure BDA0002893438290000281
DQN的目标是在每个时间隙最小化以下损失函数,损失函数由目标函数和当前的均方误差决定:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
其中,目标Q为:
Figure BDA0002893438290000282
通过对损失函数求偏导可得到DQN的参数wt
wt+1=wt+μ▽L(wt)
其中,μ为学习率。
与深度强化学习类似,本发明提出的基于延迟状态深度强化学习的攻击面控制算法由两个阶段组成:训练阶段和配置阶段。算法1中显示了训练过程。在微云服务器中攻击面控制器负责收集环境信息并通过学习做出防御决策。算法的训练阶段,类似于强化学习,攻击面控制器初始化网络参数并且观察当前微云服务系统的状态,包括系统的虚拟资源容量、传感设备可获得的虚拟资源服务效用和EdgeVM为传感设备提供可信的虚拟资源服务效用。然后,这些状态向量输入到DQN训练学习模型。在执行被选择的行动后,攻击面控制器从环境中接收奖励并观察微云服务系统状态由
Figure BDA0002893438290000283
的传递过程,然后更新状态-行动值函数Qt(st,at,wt)和
Figure BDA0002893438290000284
存储状态、行动值到经验池D中。随后,使用经验池D中的数据来训练DQN,直到DQN收敛时获得学习模型。在算法1训练结束后,攻击面控制器加载学习模型来推理配置向量。在配置阶段,即算法2中,攻击面控制器使用训练好的学习模型w和观察到的状态s来输出选择的行动a,然后环境反馈一个瞬时奖励和状态给攻击面控制器。最后,攻击面控制器选择的行动a中包含的攻击面控制向量
Figure BDA0002893438290000285
和对应的资源配置向量Φ*,由配置模块在微云服务器上执行配置向量。
算法1:基于延迟状态深度强化学习的攻击面控制模型生成
步骤1:输入:最小可信虚拟资源服务效用
Figure BDA0002893438290000286
可获得的最小虚拟资源服务效用
Figure BDA0002893438290000287
步骤2:初始化DQN参数wt,学习率μ,经验池大小为d,Q函数为0,αt
步骤3:For each时间隙do
多个挖矿攻击者选择EdgeVM实施攻击;
攻击面控制器观察微云服务系统的状态s;
攻击面控制器在当前状态st选择一个行动at,观察传递状态的变化;
步骤4:选择行动at,执行行动at
If Tdelay≥Tth Then当前状态j将传递到延迟状态
Figure BDA0002893438290000291
获得奖励rt de(st,at),观察获得状态
Figure BDA0002893438290000292
按照学习率αt更新状态-行动值函数
Figure BDA0002893438290000293
再次选择行动a′t,执行行动a′t后,获得奖励
Figure BDA0002893438290000294
观察获得状态st+1,按照学习率αt更新状态-行动值函数Qt(st,at,wt)
在经验池D中存储经验
Figure BDA0002893438290000295
Else当前状态未出现延迟状态,去掉延迟状态,计算Qt(st,at)
EndIF
步骤5:使用更新损失函数:
L(wt)=E[(TargetQ-Qt(st,at;wt))2],wt+1=wt+μ▽L(wt)
步骤6:EndFor
步骤7:输出具有延迟状态深度强化学习模型w
算法2:攻击面控制策略的实现
步骤1:加载训练好的学习模型w
步骤2:观察受挖矿攻击的微云服务系统状态s
步骤3:输入状态s到DQN
步骤4:攻击面控制器经过DQN推理状态-行动值函数Qt(st,at),且Qt(st,at)对应的
Figure BDA0002893438290000296
步骤5:配置模块加载配置向量
Figure BDA0002893438290000297
和Φ* lk到EdgeVM
步骤6:执行配置。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,包括:
设置于微云服务器和合法传感设备之间的攻击面控制器以及优化模块,所述攻击面控制器用于当受到挖矿攻击者集合
Figure FDA0003588609540000011
中多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合
Figure FDA0003588609540000012
中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度为工作状态;
所述资源配置矩阵Φlk,包括l个资源配置向量,记作
Figure FDA0003588609540000013
其中
Figure FDA0003588609540000014
为第n边缘虚拟机对合法传感设备集合
Figure FDA0003588609540000015
的资源配置向量,
Figure FDA0003588609540000016
其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源;
所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量
Figure FDA0003588609540000017
和最优的资源配置矩阵Φ* lk,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化。
2.如权利要求1所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作:
Figure FDA0003588609540000021
Figure FDA0003588609540000022
Figure FDA0003588609540000023
Figure FDA0003588609540000024
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
Figure FDA0003588609540000025
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量
Figure FDA0003588609540000026
之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量
Figure FDA0003588609540000027
之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量
Figure FDA0003588609540000028
之间的差异;
Figure FDA0003588609540000029
为为合法传感设备j提供的可信的虚拟资源服务效用,计算方法如下:
Figure FDA00035886095400000210
其中,
Figure FDA00035886095400000211
为为合法传感设备j可获得的虚拟资源服务效用,
Figure FDA00035886095400000212
为挖矿攻击者i获取的虚拟资源服务效用,[x]+=max(0,x);
所述合法传感设备j可获得的虚拟资源服务效用
Figure FDA0003588609540000031
计算方法如下:
Figure FDA0003588609540000032
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0; hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量;
所述挖矿攻击者i获取的虚拟资源服务效用
Figure FDA0003588609540000033
计算方法如下:
Figure FDA0003588609540000034
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量;
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
Figure FDA0003588609540000035
其中,
Figure FDA0003588609540000036
为为合法传感设备j提供的最小可信虚拟资源服务效用,
Figure FDA0003588609540000037
为合法传感设备集合;
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
Figure FDA0003588609540000041
其中,
Figure FDA0003588609540000042
为为合法传感设备j提供的最小虚拟资源服务效用,
Figure FDA0003588609540000043
为合法传感设备集合;
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbiri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
其中,ΔCbi为合法传感设备需求的虚拟资源容量误差,
Figure FDA0003588609540000044
ΔCri为受挖矿攻击后由攻击面控制器调度并分配的虚拟资源容量误差
Figure 2
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
其中,Cbi为所有合法传感设备需求的虚拟资源容量
Figure FDA0003588609540000046
K为传感设备的个数;Cri为受挖矿攻击后,攻击面控制器调度后分配的虚拟资源容量
Figure FDA0003588609540000047
Cbm为挖矿攻击消耗的虚拟资源容量
Figure FDA0003588609540000048
M为挖矿攻击者的个数。
3.如权利要求2所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述优化模块根据当前微云服务系统状态采用强化学习模型获得最优的攻击面控制向量
Figure FDA0003588609540000049
和最优的资源配置矩阵Φ* lk
4.如权利要求3所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述强化学习模型状态空间S为:
Figure FDA0003588609540000051
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,
Figure FDA0003588609540000052
为为合法传感设备j可获得的虚拟资源服务效用,
Figure FDA0003588609540000053
为为合法传感设备j提供的可信虚拟资源服务效用;
所述强化学习模型行动空间A为:
A={(θllk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
Figure FDA0003588609540000054
其中
Figure FDA0003588609540000055
为延迟状态的传递概率,
Figure FDA0003588609540000056
为到达下一个状态的传递概率;
所述强化学习模型的奖励函数r为:
Figure FDA0003588609540000057
其中,
Figure FDA0003588609540000058
λ1和λ2为预先设置的权重系数;
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
Figure FDA0003588609540000059
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子;
所述强化学习模型的输出为攻击面控制器最优策略π*(at|st),即从状态st到行动at的最优映射,攻击面控制器根据最优策略π*(at|st)和当前状态st获得行动值
Figure FDA0003588609540000061
5.如权利要求4所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述强化学习模型采用Q-learning算法,攻击面控制器最优策略π*(at|st)为:
Figure FDA0003588609540000062
其通过更新Q值的方式学习优化策略,按照如下方法更新Q值:
Figure FDA0003588609540000063
其中,
Figure FDA0003588609540000064
αt为学习率,
Figure FDA0003588609540000065
为攻击面控制器延迟一段时间后在下一状态接收的奖励,采用奖励函数计算。
6.如权利要求5所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述优化模块包括用于估算Qt(st,at)值的DQN神经网络,以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池,所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络,更新DQN神经网络参数wt
7.如权利要求6所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述优化模块使用参数为w的DQN神经网络估计Qt(st,at),w按照如下方法更新:
Figure FDA0003588609540000066
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
Figure FDA0003588609540000071
8.如权利要求6所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态
Figure FDA0003588609540000072
再传递到下一时刻状态st+1的记录:
Figure FDA0003588609540000073
其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动; rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,
Figure FDA0003588609540000074
为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态
Figure FDA0003588609540000075
记录当前状态st、选择的行动at、延迟状态
Figure FDA0003588609540000076
根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
Figure FDA0003588609540000077
再次选择行动a′t执行,观察获取下一个状态st+1、根据奖励函数计算下一个状态的瞬时奖励
Figure FDA0003588609540000078
并记录,采用参数为wt的当前DQN网络更新状态-行动值函数Qt(st,at,wt)。
9.一种传感边缘云任务卸载抗挖矿攻击的防御方法,其特征在于,包括以下步骤:
(1)观察微云服务系统状态st,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,进入步骤(2),否则重复步骤(1);
(2)将微云服务系统状态st输入根据强化学习模型获取的最优策略π*(at|st),获得行动值
Figure FDA0003588609540000081
(3)根据步骤(2)选择的行动,获得最优的攻击面控制向量
Figure FDA0003588609540000082
和最优的资源配置矩阵Φ* lk,并据此配置微云服务其中相应的边缘虚拟机资源。
10.如权利要求9所述的传感边缘云任务卸载抗挖矿攻击的防御方法,其特征在于,所述步骤(2)具体为:采用Q-learning算法获取的最优策略
Figure FDA0003588609540000083
所述Q-learning算法按照如下方法更新Q值:
Figure FDA0003588609540000084
其中,
Figure FDA0003588609540000085
采用参数为wt的DQN神经网络估计,αt为学习率,
Figure FDA0003588609540000086
为攻击面控制器延迟一段时间后在下一状态接收的奖励,采用奖励函数计算;
所述强化学习模型状态空间S为:
Figure FDA0003588609540000087
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,
Figure FDA0003588609540000088
为为合法传感设备j可获得的虚拟资源服务效用,
Figure FDA0003588609540000089
为为合法传感设备j提供的可信虚拟资源服务效用;
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
Figure FDA0003588609540000091
其中
Figure FDA0003588609540000092
为延迟状态的传递概率,
Figure FDA0003588609540000093
为到达下一个状态的传递概率;
所述强化学习模型的奖励函数r为:
Figure FDA0003588609540000094
其中,
Figure FDA0003588609540000095
λ1和λ2为预先设置的权重系数;
所述参数为wt的DQN神经网络,按照如下方法训练:
其训练用的数据为受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态
Figure FDA0003588609540000096
再传递到下一时刻状态st+1的记录:
Figure FDA0003588609540000097
其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动; rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,
Figure FDA0003588609540000098
为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态
Figure FDA0003588609540000099
记录当前状态st、选择的行动at、延迟状态
Figure FDA00035886095400000910
根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
Figure FDA00035886095400000911
再次选择行动a′t执行,观察获取下一个状态st+1、根据奖励函数计算下一个状态的瞬时奖励
Figure FDA0003588609540000101
并记录,采用参数为wt的当前DQN网络更新状态-行动值函数Qt(st,at,wt);
对于所述DQN神经网络的训练用数据,按照如下方法更新其参数w:
Figure FDA0003588609540000102
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
Figure FDA0003588609540000103
CN202110033976.9A 2021-01-12 2021-01-12 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 Active CN112887272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110033976.9A CN112887272B (zh) 2021-01-12 2021-01-12 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110033976.9A CN112887272B (zh) 2021-01-12 2021-01-12 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法

Publications (2)

Publication Number Publication Date
CN112887272A CN112887272A (zh) 2021-06-01
CN112887272B true CN112887272B (zh) 2022-06-28

Family

ID=76044974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110033976.9A Active CN112887272B (zh) 2021-01-12 2021-01-12 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法

Country Status (1)

Country Link
CN (1) CN112887272B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114584394B (zh) * 2022-03-31 2023-09-22 中国海洋大学 一种网络资源分配方法、系统、装置及介质
CN115801829B (zh) * 2022-11-08 2023-09-05 大连海事大学 一种工业物联网中边缘自适应感知方法
CN115883486B (zh) * 2022-11-25 2024-05-03 天津大学 边缘云混部场景下的服务动态纵向扩缩与保障方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933060A (zh) * 2019-11-22 2020-03-27 上海交通大学 一种基于流量分析的挖矿木马检测系统
WO2020248170A1 (en) * 2019-06-12 2020-12-17 Nokia Solutions And Networks Oy Mechanism for identifying collusive attackers

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020023115A1 (en) * 2018-07-27 2020-01-30 Futurewei Technologies, Inc. Task offloading and routing in mobile edge cloud networks
CN110401675B (zh) * 2019-08-20 2020-07-03 绍兴文理学院 一种传感云环境下不确定性DDoS攻击防御方法
CN111124531B (zh) * 2019-11-25 2023-07-28 哈尔滨工业大学 一种车辆雾计算中基于能耗和延迟权衡的计算任务动态卸载方法
CN111160525B (zh) * 2019-12-17 2023-06-20 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN111988415B (zh) * 2020-08-26 2021-04-02 绍兴文理学院 基于模糊博弈的移动传感设备计算任务安全卸载方法
CN112202928B (zh) * 2020-11-16 2022-05-17 绍兴文理学院 传感边缘云区块链网络可信卸载协作节点选择系统及方法
CN112188442B (zh) * 2020-11-16 2021-12-07 西南交通大学 基于移动边缘计算的车联网数据驱动任务卸载系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020248170A1 (en) * 2019-06-12 2020-12-17 Nokia Solutions And Networks Oy Mechanism for identifying collusive attackers
CN110933060A (zh) * 2019-11-22 2020-03-27 上海交通大学 一种基于流量分析的挖矿木马检测系统

Also Published As

Publication number Publication date
CN112887272A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN112887272B (zh) 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法
CN112598150B (zh) 一种在智能电厂中基于联邦学习提升火灾检测效果的方法
Zhang et al. Joint parallel offloading and load balancing for cooperative-MEC systems with delay constraints
CN110401675B (zh) 一种传感云环境下不确定性DDoS攻击防御方法
CN109710374A (zh) 移动边缘计算环境下最小化任务卸载费用的vm迁移策略
Yan et al. Optimal model placement and online model splitting for device-edge co-inference
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN114625504A (zh) 一种基于深度强化学习的车联网边缘计算服务迁移方法
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
CN113407248A (zh) 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法
CN112804103A (zh) 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
Lu et al. Energy-efficient task transfer in wireless computing power networks
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN113973113B (zh) 一种面向移动边缘计算的分布式服务迁移方法
Zhu et al. Dynamic task offloading in power grid internet of things: A fast-convergent federated learning approach
Han et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
Peng et al. SCOF: Security-Aware Computation Offloading Using Federated Reinforcement Learning in Industrial Internet of Things with Edge Computing
Yang et al. Privacy is not free: Energy-aware federated learning for mobile and edge intelligence
Beytur et al. Optimization of Offloading Policies for Accuracy-Delay Tradeoffs in Hierarchical Inference
Hossain et al. Edge orchestration based computation peer offloading in MEC-enabled networks: a fuzzy logic approach
CN109271295B (zh) 一种云集群环境下的异常作业预测方法
CN114942799B (zh) 云边环境下基于强化学习的工作流调度方法
CN116437341A (zh) 一种移动区块链网络的计算卸载与隐私保护联合优化方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant