CN112887272B - 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 - Google Patents
一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 Download PDFInfo
- Publication number
- CN112887272B CN112887272B CN202110033976.9A CN202110033976A CN112887272B CN 112887272 B CN112887272 B CN 112887272B CN 202110033976 A CN202110033976 A CN 202110033976A CN 112887272 B CN112887272 B CN 112887272B
- Authority
- CN
- China
- Prior art keywords
- state
- virtual resource
- attack
- sensing
- virtual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000009412 basement excavation Methods 0.000 title claims description 77
- 230000009471 action Effects 0.000 claims abstract description 62
- 230000002787 reinforcement Effects 0.000 claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 238000005065 mining Methods 0.000 claims description 60
- 230000006870 function Effects 0.000 claims description 51
- 230000003111 delayed effect Effects 0.000 claims description 34
- 238000005457 optimization Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 230000007123 defense Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 238000013468 resource allocation Methods 0.000 claims description 14
- 238000012546 transfer Methods 0.000 claims description 12
- 230000001052 transient effect Effects 0.000 claims description 9
- 230000001934 delay Effects 0.000 claims description 7
- 230000015541 sensory perception of touch Effects 0.000 claims description 3
- 230000001953 sensory effect Effects 0.000 claims 1
- 230000008859 change Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- -1 hydrogen Chemical class 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Neurology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Virology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Operation Control Of Excavators (AREA)
Abstract
本发明公开了一种传感边缘云任务卸载中挖矿攻击面控制装置和方法,包括设置于微云服务器和合法传感设备之间的攻击面控制器,按照攻击面控制向量和资源配置矩阵组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击,使得为合法传感设备提供的服务效用总和的预测范围下限最大化。方法包括(1)观察微云服务系统状态,当时延超过预设的时延阈值时,进入步骤(2),否则重复步骤(1);(2)将微云服务系统状态输入根据强化学习模型获取的最优策略获得行动值;(3)配置微云服务其中相应的边缘虚拟机资源。本发明联合优化攻击面和虚拟资源分配问题,以此来实现最大化微云服务的可信服务效用,同时保证合法传感设备计算任务卸载的服务质量。
Description
技术领域
本发明属于传感云计算领域,更具体地,涉及一种传感边缘云任务卸载中挖矿攻击面控制装置及方法。
背景技术
为了节约传感设备的计算资源,传感设备的计算任务卸载到边缘服务节点执行,特别是延迟敏感型应用,边缘服务节点要保证高速和可靠的计算任务卸载。因此,可靠性和安全性是传感设备计算任务卸载中必须满足的需求。区块链技术正部署于物联网边缘服务域中,但由于区块链矿工在生成加密区块的过程中要消耗大量的系统资源,特别是多个恶意的区块链节点能够对传感边缘云服务节点发起挖矿攻击,消耗微云服务器的计算资源,阻碍卸载的多个计算任务执行,降低计算任务卸载执行的服务质量。因此,需设计智能的挖矿攻击面控制机制来抵消挖矿攻击带来的系统性能下降等问题。
集成区块链系统的传感边缘云计算任务卸载中基于智能攻击面控制器的挖矿攻击防御方法及系统中,部署智能攻击面控制器来调节受挖矿攻击的虚拟服务节点的计算资源,以此保证合法传感设备卸载的计算任务能安全地运行。为了提高计算任务卸载中微云服务器的虚拟资源容量,本发明在考虑传感设备计算任务卸载服务质量需求和随时间变化的边缘虚拟机EdgeVM状态的基础上,联合优化微云服务器的挖矿攻击面控制器的设计以及边缘虚拟机EdgeVM的资源配置策略。由于受挖矿攻击的微云服务系统具有很高的动态性及其虚拟资源状态具有高维复杂性,这使得攻击面控制及边缘虚拟机EdgeVM的资源配置策略优化问题具有非凸性,获得最优解面临巨大挑战。为了阻止恶意的挖矿节点浪费IoT系统的资源,L.Cui等设计了一个基于压缩DAG(Directed acyclic graph)的高效区块链协议,该协议考虑了对IoT系统的混合攻击策略,但未针对多个挖矿攻击者对IoT系统造成的安全威胁提供有效的防御策略("An Efficient and Compacted DAG-Based BlockchainProtocol for Industrial Internet of Things,"in IEEE Transactions onIndustrial Informatics,vol.16,no.6,pp.4134-4145,June2020)。为了增强数据共享的安全性,J.Kang等提出了基于声誉和契约理论的可信挖矿节点选择方法来阻止区块链矿工间的共谋攻击("Toward Secure Blockchain-Enabled Internet of Vehicles:Optimizing Consensus Management Using Reputation and Contract Theory,"in IEEETransactions on Vehicular Technology,vol.68,no.3,pp.2906-2920,March 2019)。该方法虽然考虑了挖矿攻击对数据共享造成的破坏,但还未考虑多个挖矿攻击者对计算任务卸载环境发起共谋攻击所引起的服务质量下降等问题。S.Wu等针对DDoS攻击者对挖矿池的攻击,提出了随机博弈的方法获得近似的最优攻击策略来最大化期望的长期受益("Survive and Thrive:A Stochastic Game for DDoS Attacks in Bitcoin MiningPools,"in IEEE/ACM Transactions on Networking,vol.28,no.2,pp.874-887,April2020)。该方法考虑DDoS攻击器对挖矿环境的攻击,未考虑挖矿攻击对挖矿池造成的虚拟资源容量的影响。
这些研究方案存在的不足如下:
(1)已提出的解决方法考虑挖矿攻击者共谋破坏节点间的数据共享,而未考虑集成区块链的传感边缘云中恶意的挖矿攻击。因此,已提出的解决方案未能解决集成区块链系统的传感设备计算任务卸载中挖矿攻击的防御问题。
(2)已提出的解决方案中考虑了可信的挖矿节点选择方法,未考虑多个挖矿节点对微云服务器攻击带来的虚拟资源容量状态变化的不确定和延迟等问题,未针对此问题进行建模分析。
(3)已有的研究对多个挖矿节点竞争矿池时,对产生的DDoS攻击已给出相应的解决方案,但当挖矿攻击者对攻击面造成严重破坏时,直接导致微云服务系统的状态呈现动态高维特性,要提高传感设备计算任务可信卸载的服务质量,不仅要控制攻击面还需重配系统资源,已有的解决方法还未联合攻击面控制及高效的资源配置来设计挖矿攻击面控制算法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明在联合考虑攻击面控制及其高效的资源配置的基础上,提出了一种传感边缘云环境下,基于延迟状态深度强化学习的攻击面控制方法,在受挖矿攻击时,实现传感设备卸载的计算任务的可信执行。本发明提出强化学习的方法来优化传感设备计算任务卸载节点的虚拟资源容量,从而在动态的卸载环境中,抵抗挖矿攻击。由于挖矿攻击使得虚拟资源容量状态具有延迟特性,为了提高强化学习的效率,本发明提出延迟状态深度强化学习的机制来追溯挖矿攻击环境的状态变化并且配置虚拟资源,以此提高受挖矿攻击时,微云服务器的虚拟资源容量和传感设备计算任务卸载的服务质量。
为实现上述目的,按照本发明的一个方面,提供了一种传感边缘云任务卸载中挖矿攻击面控制装置,包括:
设置于微云服务器和合法传感设备之间的攻击面控制器,所述攻击面控制器用于当受到挖矿攻击者集合中多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度,为空闲状态;
所述资源配置矩阵Φlk,包括l个资源配置向量,记作其中为第n边缘虚拟机对合法传感设备集合的资源配置向量,其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其包括优化模块,所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量和最优的资源配置矩阵Φ* lk,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作:
(c):ΔCbi≤ξbi,ΔCri≤ξri,
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量之间的差异;
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0。hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量;
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量;
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbi,ξri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
所述强化学习模型状态空间S为:
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,为为合法传感设备j可获得的虚拟资源服务效用,为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
所述强化学习模型的奖励函数r为:
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述强化学习模型采用Q-learning算法,攻击面控制器最优策略π*(at|st)为:
其通过更新Q值的方式学习优化策略,按照如下方法更新Q值:
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述优化模块包括用于估算Qt(st,at)值的DQN神经网络,以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池,所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络,更新DQN神经网络参数wt。
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述优化模块使用参数为w的DQN神经网络估计Qt(st,at),w按照如下方法更新:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
优选地,所述传感边缘云任务卸载中挖矿攻击面控制装置,其所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态再传递到下一时刻状态st+1的记录:其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态记录当前状态st、选择的行动at、延迟状态根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
按照本发明的另一个方面提供了一种传感边缘云任务卸载抗挖矿攻击的防御方法,其包括以下步骤:
(1)观察微云服务系统状态st,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,进入步骤(2),否则重复步骤(1);
所述强化学习模型状态空间S为:
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,为为合法传感设备j可获得的虚拟资源服务效用,为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
所述强化学习模型的奖励函数r为:
所述参数为wt的DQN神经网络,按照如下方法训练:
其训练用的数据为受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态再传递到下一时刻状态st+1的记录:其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态记录当前状态st、选择的行动at、延迟状态根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
对于所述DQN神经网络的训练用数据,按照如下方法更新其参数w:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)针对集成区块链系统的传感边缘云计算任务卸载环境受挖矿攻击时,微云服务器动态变化的虚拟资源容量,建立基于攻击面控制器的防御模型,本发明联合优化攻击面和虚拟资源分配问题,以此来实现最大化微云服务的可信服务效用,同时保证合法传感设备计算任务卸载的服务质量。
(2)本发明提出了一个基于强化学习的抗挖矿攻击防御装置,在此系统中,攻击面控制器根据受挖矿攻击的计算任务卸载环境中观察到的瞬时状态,联合优化攻击面及资源配置策略。
(3)提出了基于延迟状态深度强化学习的攻击面优化方法来提高强化学习效率和微云服务可信的服务效用。在此方法中,通过对挖矿攻击产生延迟状态的学习来跟踪虚拟资源容量的动态变化,从而优化攻击面控制器的行动。
附图说明
图1是本发明实施例提供的基于攻击面控制器的计算任务可信卸载系统结构示意图;
图2是本发明实施例提供的传感边缘云任务卸载抗挖矿攻击的防御装置结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的传感边缘云任务卸载抗挖矿攻击的防御装置,包括设置于微云服务器和合法传感设备之间的攻击面控制器,所述攻击面控制器用于当受到挖矿攻击者集合中多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机(EdgeVMde)的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度,为空闲状态。
所述资源配置矩阵Φlk,包括l个资源配置向量,记作其中为第n边缘虚拟机对合法传感设备集合的资源配置向量,其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源;所述虚拟资源包括:虚拟的CPU、存储和带宽资源;故所述资源配置矩阵亦可写作:
所述防御装置,优选包括优化模块,所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量和最优的资源配置矩阵Φ* lk,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作:
(c):ΔCbi≤ξbi,ΔCri≤ξri,
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量之间的差异;
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0。hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量。
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量。
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbi,ξri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
所述强化学习模型状态空间S为:
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,为为合法传感设备j可获得的虚拟资源服务效用,为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
所述强化学习模型的奖励函数r为:
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子。
优选所述强化学习模型采用Q-learning算法,攻击面控制器最优策略π*(at|st)为:
其通过更新Q值的方式学习优化策略,按照如下方法更新Q值:
优选所述优化模块包括用于估算Qt(st,at)值的DQN神经网络,以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池,所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络,更新DQN神经网络参数wt。
所述优化模块使用参数为w的DQN神经网络估计Qt(st,at),w按照如下方法更新:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态再传递到下一时刻状态st+1的记录:其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态记录当前状态st、选择的行动at、延迟状态根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
本发明提供的传感边缘云任务卸载抗挖矿攻击的防御方法,包括以下步骤:
(1)观察微云服务系统状态st,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,进入步骤(2),否则重复步骤(1);
所述强化学习模型状态空间S为:
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,为为合法传感设备j可获得的虚拟资源服务效用,为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
所述强化学习模型的奖励函数r为:
所述参数为wt的DQN神经网络,按照如下方法训练:
其训练用的数据为受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态再传递到下一时刻状态st+1的记录:其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态记录当前状态st、选择的行动at、延迟状态根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
对于所述DQN神经网络的训练用数据,按照如下方法更新其参数w:
wt+1=wt+μ▽L(wt)
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
以下为实施例:
本发明考虑了一个基于攻击面控制器的计算任务可信卸载系统,如图1所示。传感边缘云系统中的微云服务器包含有L个边缘虚拟机EdgeVM,向K个合法传感设备提供计算任务的卸载服务。
当出现有M个挖矿攻击者组成的攻击向量时,在微云服务器中攻击面控制器配置多个EdgeVM去帮助卸载的计算任务迁移,协调受攻击的EdgeVM之间的计算负载,在协调过程中攻击面控制器仅对微云服务器中空闲的资源进行重分配,无需添加额外的计算节点,攻击面控制器通过配置的方式调度空闲的EdgeVM接收卸载的计算任务。除此之外,非法的挖矿攻击者的目标是消耗传感边缘云微云服务器的虚拟计算资源。因此,在攻击面控制器上使用资源配置策略去提高可用的虚拟资源容量,同时减少挖矿攻击者对传感设备计算任务卸载过程造成的影响。令表示合法传感设备集合。表示非法的挖矿攻击者集合。表示边缘虚拟机EdgeVM集合。通常一个微云服务器中EdgeVM提供的服务为:vk=(vi,fi,QoSi(vk)),其中vi表示EdgeVM节点,fi表示EdgeVM节点可以提供的计算任务卸载服务,fi=(ftrain,fcache),其中ftrain表示训练服务,fcache表示缓存服务。QoSi(vk)表示多个EdgeVM节点提供服务时组合的服务质量,由合法传感设备获得的虚拟资源服务效用决定。
本发明提供的传感边缘云任务卸载抗挖矿攻击的防御装置,包括设置于微云服务器和合法传感设备之间的攻击面控制器,所述攻击面控制器用于当受到多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机(EdgeVM)的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
当受到多个攻击者的挖矿攻击时,攻击面控制器组合边缘虚拟机EdgeVM节点并分配一定的虚拟资源向传感设备提供边缘计算任务卸载服务。虚拟资源包括:虚拟的CPU、存储和带宽资源。为了保证卸载到EdgeVM的延迟敏感性任务正常执行,攻击面控制器还承担了部分攻击流带来的资源消耗,同时组合空闲的EdgeVM的虚拟资源来对抗挖矿攻击。攻击面控制器定义为Γl=(C,Rl),其中C表示攻击面控制器总的虚拟资源容量。Rl表示边缘虚拟机l中基于延迟状态深度强化学习的攻击面控制算法。攻击面控制器的作用为:受挖矿攻击时,攻击面控制器协调微云服务器中各个EdgeVM节点的资源进行组合后的服务质量。此外,在图1中还显示了系统的虚拟资源使用情况,其中Cbi,j表示传感设备j需求的虚拟资源容量。Cri,j表示受挖矿攻击后,由攻击面控制器调度并分配给传感设备j的虚拟资源容量。Cbm,i表示挖矿攻击i消耗的虚拟资源容量。令βlj表示攻击面控制系数,指示EdgeVM l是否被调度分配给传感设备j资源,且βlj∈[0,1],其中βlj=0表示攻击面控制器未调度EdgeVM l并分配资源给传感设备j卸载的计算任务,βlj=1表示攻击面控制器调度EdgeVM l并分配资源给传感设备j卸载的计算任务。传感设备j卸载计算任务消耗的虚拟资源容量为:
ybi,j=βljhjDj(Cbi,j+Cri,j)
其中,hj表示传感设备卸载的任务DTj训练批次数,Dj表示训练任务DTj的数据大小。
挖矿攻击者i消耗的虚拟资源容量为:
ybm,i=ηbm,iCbm,i
其中,ηbm,i表示挖矿攻击者i的挖矿攻击程序的迭代次数。
在受挖矿攻击时,EdgeVM消耗的资源为:
其中,K表示传感设备的个数,M表示挖矿攻击者的个数。
在受到多个挖矿攻击者攻击时,攻击面控制器期望使用最小的控制面最大化服务质量。攻击面控制器获得的虚拟资源容量为:
Ci=C-yvm
其中,C表示微云服务器的虚拟资源容量。
在实际的传感边缘云系统资源信息收集过程中,由EdgeVM到攻击面控制器存在传输延迟以及挖矿攻击使得系统的资源容量动态变化,导致攻击面控制器不能获得EdgeVM完全的虚拟资源容量状态信息。因此,攻击面控制器获得过时的EdgeVM状态信息,这降低了攻击面控制的实时性要求,一旦攻击面控制器使用过时的EdgeVM状态信息对攻击面控制和资源配置策略进行优化,难以保证控制和配置结果的精确性,直接影响传感设备计算任务卸载的服务质量。因此,本发明考虑了时间延迟的虚拟资源容量状态,使用Tdelay表示过时的虚拟资源容量和实时的虚拟资源容量之间的时间延迟。也即,当攻击面控制器发现传感设备请求的资源超过规定的阈值时,在时间t,他将完成虚拟资源容量的估计过程,并在t+Tdelay的时隙调度空闲的EdgeVM,然后配置资源。因此,过时的虚拟资源容量C(t)和延迟的虚拟资源容量C(t+Tdelay)的关系表示如下:
其中,δ表示过时的虚拟资源容量和估计的延迟虚拟资源容量之间的平衡系数,且0≤δ≤1,若δ=1表示过时的虚拟资源容量效应被消除。此外,δ=0表示无虚拟资源容量状态信息。表示估计的虚拟资源容量。由于挖矿攻击导致虚拟资源容量变化不确定,本发明建立虚拟资源容量不确定向量模型传感边缘云微云服务系统的虚拟资源容量向量为Csy=(Cbi,j,Cri,j,Cbm,i),虚拟资源容量的各个分量被计算如下:
其中,是估计的虚拟资源容量向量,和估计的虚拟资源容量。ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i)是虚拟资源容量的误差向量,ΔCbi,j,ΔCri,j和ΔCbm,i是对应的虚拟资源容量的误差,在虚拟资源容量不确定向量模型中,对于传感设备j,可获得的虚拟资源服务效用为:
挖矿攻击者i试图阻碍合法传感设备j卸载并执行计算任务,以此来降低计算任务卸载的服务质量,挖矿攻击者i获取的虚拟资源服务效用为:
由于挖矿攻击能对任何一个合法传感设备j卸载的计算任务发起攻击。因此,EdgeVM为传感设备j提供可信的虚拟资源服务效用为:
其中[x]+=max(0,x)。
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度,为工作状态。
所述资源配置矩阵Φlk,包括l个资源配置向量,记作其中为第n边缘虚拟机对合法传感设备集合的资源配置向量,其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源,所述虚拟资源包括:虚拟的CPU、存储和带宽资源;故所述资源配置矩阵亦可写作:
所述防御装置,优选包括优化模块,所述优化模块根据当前微云服务系统状态采用智能学习算法获得最优的攻击面控制向量和最优的资源配置矩阵Φ* lk,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
本发明的目标是通过攻击面控制器调度EdgeVM及配置资源来最大化可信虚拟资源服务效用。此优化问题包括虚拟资源服务效用约束、EdgeVM虚拟资源约束和攻击面控制器重配虚拟资源约束。因此,优化问题被形式化如下:
(c):ΔCbi≤ξbi,ΔCri≤ξri,
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量之间的差异;
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0。hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量。
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量。
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbi,ξri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
由于优化目标函数关于优化变量Φ和θl具有非凸性,非常困难获得最优解。除此之外,本发明还考虑了优化资源配置策略去最大化传感设备获得可信的虚拟资源服务效用,从而确保受挖矿攻击时虚拟资源服务效用约束。在实际的传感边缘云系统中,传感设备的计算能力、边缘EdgeVM的虚拟资源容量和服务效用是动态变化的,优化目标是单个攻击时隙内的攻击面控制优化问题,未使用历史的传感边缘云系统状态信息,解决此问题只能获得子优化解。因此,受挖矿攻击的不确定动态环境中,使用传统的优化技术难以实现高效的EdgeVM最优调度和资源的分配。无模型的强化学习是一个解决动态规划问题的工具,他通过在动态的环境中学习优化解来实现决策。因此,本发明模型化传感边缘云系统的可信虚拟资源服务效用优化问题为一个强化学习问题。在此强化学习中,包含有攻击面控制的传感边缘云微云服务系统作为学习的环境,攻击面控制器作为智能体。
所述强化学习模型状态空间S为:
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,为为合法传感设备j可获得的虚拟资源服务效用,为为合法传感设备j提供的可信虚拟资源服务效用。
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
所述强化学习模型的奖励函数r为:
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子。
所述强化学习模型采用Q-learning算法,攻击面控制器最优策略π*(at|st)为:
其通过更新Q值的方式学习优化策略,按照如下方法更新Q值:
攻击面控制器处理多维状态空间和优化攻击面的控制策略。因此,本发明考虑了由挖矿攻击造成的传感边缘云计算任务卸载环境的高维动态特征和延迟的虚拟资源容量特征,设计和实现了基于延迟状态深度强化学习的抗挖矿攻击方法及系统,在系统中,当Tdelay≥Tth时,系统出现延迟状态,Tth是一个可设定的延迟阈值,系统模块如图2所示。其中,攻击面控制器作为智能体来学习和自适应动态的受挖矿攻击环境,攻击面控制器使用观察到的状态,如:虚拟资源容量、传感设备可获得的虚拟资源服务效用,并且通过经验池D中的历史状态信息去训练学习模型,经验池D表示为:其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动。rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,表示延迟状态,st+1表示下一个状态。训练完成后,攻击面控制器使用训练好的模型做出对受挖矿攻击的微云服务器攻击面调度和资源配置决策,其中优化的攻击面控制向量为资源配置向量为Φ*。
在传感边缘云计算任务卸载中,由于挖矿攻击造成微云服务系统的虚拟资源容量的变化是不确定的,获取其虚拟资源容量值具有一定延迟,这使得攻击面控制器不能实时、精确地获得微云服务系统的虚拟资源容量值。同时,受挖矿攻击的EdgeVM提供给传感设备的可信虚拟资源服务效用降低。因此,需快速获得优化解来优化微云服务系统的虚拟资源容量,提高传感边缘云计算任务卸载的服务质量。本发明设计了延迟状态深度强化学习算法来追溯受挖矿攻击的计算任务卸载服务环境的动态特征,由DQN网络输出优化的行动,并通过配置模块调节微云服务中攻击面控制向量和EdgeVM的虚拟资源分配向量。在受挖矿攻击时,攻击面控制器在时间隙t采取行动at时,微云服务系统的状态先从st到达延迟状态在经过一段延迟时间后,微云服务系统到达下一个状态st+1,在延迟状态攻击面控制器接收奖励rt de=rt de(st,at);延迟一段时间后,在下一状态st+1,攻击面控制器接收奖励由此可得,微云服务系统从状态st到状态st+1的传递概率为:
可得:
其中,αt∈(0,1]是学习率。本发明使用DQN算法来估计具有延迟状态的状态-行动值函数Qt(st,at),DQN的参数为wt,DQN的目标是在每个时间隙最小化以下损失函数,损失函数由目标函数和当前的均方误差决定:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
wt+1=wt+μ▽L(wt)
其中,μ为学习率。
与深度强化学习类似,本发明提出的基于延迟状态深度强化学习的攻击面控制算法由两个阶段组成:训练阶段和配置阶段。算法1中显示了训练过程。在微云服务器中攻击面控制器负责收集环境信息并通过学习做出防御决策。算法的训练阶段,类似于强化学习,攻击面控制器初始化网络参数并且观察当前微云服务系统的状态,包括系统的虚拟资源容量、传感设备可获得的虚拟资源服务效用和EdgeVM为传感设备提供可信的虚拟资源服务效用。然后,这些状态向量输入到DQN训练学习模型。在执行被选择的行动后,攻击面控制器从环境中接收奖励并观察微云服务系统状态由的传递过程,然后更新状态-行动值函数Qt(st,at,wt)和存储状态、行动值到经验池D中。随后,使用经验池D中的数据来训练DQN,直到DQN收敛时获得学习模型。在算法1训练结束后,攻击面控制器加载学习模型来推理配置向量。在配置阶段,即算法2中,攻击面控制器使用训练好的学习模型w和观察到的状态s来输出选择的行动a,然后环境反馈一个瞬时奖励和状态给攻击面控制器。最后,攻击面控制器选择的行动a中包含的攻击面控制向量和对应的资源配置向量Φ*,由配置模块在微云服务器上执行配置向量。
算法1:基于延迟状态深度强化学习的攻击面控制模型生成
步骤2:初始化DQN参数wt,学习率μ,经验池大小为d,Q函数为0,αt。
步骤3:For each时间隙do
多个挖矿攻击者选择EdgeVM实施攻击;
攻击面控制器观察微云服务系统的状态s;
攻击面控制器在当前状态st选择一个行动at,观察传递状态的变化;
步骤4:选择行动at,执行行动at
Else当前状态未出现延迟状态,去掉延迟状态,计算Qt(st,at)
EndIF
步骤5:使用更新损失函数:
L(wt)=E[(TargetQ-Qt(st,at;wt))2],wt+1=wt+μ▽L(wt)
步骤6:EndFor
步骤7:输出具有延迟状态深度强化学习模型w
算法2:攻击面控制策略的实现
步骤1:加载训练好的学习模型w
步骤2:观察受挖矿攻击的微云服务系统状态s
步骤3:输入状态s到DQN
步骤6:执行配置。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,包括:
设置于微云服务器和合法传感设备之间的攻击面控制器以及优化模块,所述攻击面控制器用于当受到挖矿攻击者集合中多个攻击者的挖矿攻击时,按照攻击面控制向量θl和资源配置矩阵Φlk组合微云服务器空闲的边缘虚拟机的虚拟资源防御挖矿攻击,使得在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化;
所述攻击面控制向量θl,为攻击面控制器调度所述微云服务器的边缘虚拟机集合中各边缘虚拟机的,其中l为边缘虚拟机的数量,即θl=(x1,x2,..,xl),xn,n=1,2,...l为第n边缘虚拟机的控制系数,用于指示所述边缘虚拟机的被调度状态,xn∈[0,1],其中xn=0表示在攻击面控制器中第n边缘虚拟机未被调度,xn=1表示在攻击面控制器中第n边缘虚拟机被调度为工作状态;
所述资源配置矩阵Φlk,包括l个资源配置向量,记作其中为第n边缘虚拟机对合法传感设备集合的资源配置向量,其中,k为合法传感设备的数量,Cjm,j=1,2,...k为第n边缘虚拟机对合法传感设备j配置的虚拟资源;
2.如权利要求1所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述在满足约束条件前提下为合法传感设备提供的可信的虚拟资源服务效用总和的预测范围下限最大化记作:
(d):Cbi+Cri+Cbm≤C,
其中预测范围下限最大化记作:
其中,ΔCsy为虚拟资源容量的误差向量,ΔCsy=(ΔCbi,j,ΔCri,j,ΔCbm,i),ΔCbi,j为合法传感设备j卸载计算任务消耗的虚拟容量误差,为经过时延Tdelay后观察到的实际合法传感设备j卸载计算任务消耗的虚拟容量Cbi,j和估计的合法传感设备j卸载计算任务的虚拟资源容量之间的差异;ΔCri,j为由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量误差,为经过时延Tdelay后观察到的实际由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量Cri,j和估计的由攻击面控制器调度并分配给合法传感设备j的虚拟资源容量之间的差异;ΔCbm,i为挖矿攻击者i消耗的虚拟资源容量误差,为经过时延Tdelay后观察到的实际挖矿攻击者i消耗的虚拟资源容量Cbm,i和估计的挖矿攻击者i消耗的虚拟资源容量之间的差异;
其中,βlj、βlk分别为边缘虚拟机l中传感设备j和k卸载的计算任务运行时的攻击面控制系数,βlj=1表示边缘虚拟机l为传感设备j卸载的计算任务分配资源,否则为0;βlk=1表示边缘虚拟机l为传感设备k卸载的计算任务分配资源,否则为0; hj、hk分别为传感设备j和k的任务训练批次数,Dj、Dk分别为传感设备j和k的训练任务的数据大小,Cbi,j、Cbi,k分别为传感设备j和k的卸载计算任务消耗的虚拟容量,Cri,j、Cri,k分别为由攻击面控制器调度并分配的虚拟资源容量;
其中,ηbm,i、ηbm,k分别为挖矿攻击者i和k的挖矿攻击程序的迭代次数,Cbm,i、Cbm,k分别为挖矿攻击者i和k消耗的虚拟资源容量;
所述约束条件包括以下条件之一或组合:
(a)边缘虚拟机为任一合法传感设备提供的可信虚拟资源服务效用达到为该合法传感设备提供的最小可信虚拟资源服务效用;记作:
(b)边缘虚拟机为任一合法传感设备提供的虚拟资源服务效用达到为该合法传感设备提供的最小虚拟资源服务效用;记作:
(c)合法传感设备需求的虚拟资源容量误差、以及由攻击面控制器调度并分配的虚拟资源容量误差分别小于预设阈值ξbi,ξri;记作:
ΔCbi≤ξbi,ΔCri≤ξri
(d)分配的资源不超过最大虚拟资源;记作:
Cbi+Cri+Cbm≤C
4.如权利要求3所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述强化学习模型状态空间S为:
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,为为合法传感设备j可获得的虚拟资源服务效用,为为合法传感设备j提供的可信虚拟资源服务效用;
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
所述强化学习模型的奖励函数r为:
故攻击面控制器在防御的持续时间内累积的打折奖励函数Rt定义如下:
其中,Tmax为攻击面控制器防御的持续时间,γ∈(0,1]为攻击防御持续时间t内的打折因子;
6.如权利要求5所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述优化模块包括用于估算Qt(st,at)值的DQN神经网络,以及用于存储的受到挖矿攻击者攻击的延迟状态历史观察数据的经验池,所述存储的受到挖矿攻击者攻击的延迟状态历史观察数据用于训练DQN神经网络,更新DQN神经网络参数wt。
8.如权利要求6所述的传感边缘云任务卸载中挖矿攻击面控制装置,其特征在于,所述DQN神经网络训练用的数据为经验池中存储的受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态再传递到下一时刻状态st+1的记录:其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动; rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态记录当前状态st、选择的行动at、延迟状态根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
所述强化学习模型状态空间S为:
其中,Cj为合法传感设备获得的虚拟资源容量,Ci为表示挖矿攻击者i消耗的虚拟资源容量,Cl为边缘虚拟机的虚拟资源容量,为为合法传感设备j可获得的虚拟资源服务效用,为为合法传感设备j提供的可信虚拟资源服务效用;
所述强化学习模型行动空间A为:
A={(θl,Φlk)}
所述强化学习模型传递概率P(st+1|st,at),为系统在状态st执行给定的行动at∈A时,传感边缘云微云服务系统传递到状态st+1∈S的概率,计算方法如下:
所述强化学习模型的奖励函数r为:
所述参数为wt的DQN神经网络,按照如下方法训练:
其训练用的数据为受到挖矿攻击者攻击的延迟状态历史观察数据et,当时延Tdelay超过预设的时延阈值Tth时,判断微云服务器受到挖矿攻击者攻击,记录从当前状态st传递到延迟状态再传递到下一时刻状态st+1的记录:其中st为当前状态,at为攻击面控制器已采取的行动,a′t为遇到延迟状态时,再次采取的行动; rt de是延迟状态的瞬时奖励,rt ne是下一个状态的瞬时奖励,为延迟状态,st+1为下一个状态,按照如下方法获取:
当时延Tdelay超过预设的时延阈值Tth时,当前状态st传递到延迟状态记录当前状态st、选择的行动at、延迟状态根据奖励函数计算延迟状态的瞬时奖励rt de(st,at)并记录,采用参数为wt的当前DQN网络更新状态-行动值函数
对于所述DQN神经网络的训练用数据,按照如下方法更新其参数w:
其中,μ为学习率,L(wt)为损失函数,定义如下:
L(wt)=E[(TargetQ-Qt(st,at;wt))2]
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110033976.9A CN112887272B (zh) | 2021-01-12 | 2021-01-12 | 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110033976.9A CN112887272B (zh) | 2021-01-12 | 2021-01-12 | 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112887272A CN112887272A (zh) | 2021-06-01 |
CN112887272B true CN112887272B (zh) | 2022-06-28 |
Family
ID=76044974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110033976.9A Active CN112887272B (zh) | 2021-01-12 | 2021-01-12 | 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112887272B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114584394B (zh) * | 2022-03-31 | 2023-09-22 | 中国海洋大学 | 一种网络资源分配方法、系统、装置及介质 |
CN115801829B (zh) * | 2022-11-08 | 2023-09-05 | 大连海事大学 | 一种工业物联网中边缘自适应感知方法 |
CN115883486B (zh) * | 2022-11-25 | 2024-05-03 | 天津大学 | 边缘云混部场景下的服务动态纵向扩缩与保障方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110933060A (zh) * | 2019-11-22 | 2020-03-27 | 上海交通大学 | 一种基于流量分析的挖矿木马检测系统 |
WO2020248170A1 (en) * | 2019-06-12 | 2020-12-17 | Nokia Solutions And Networks Oy | Mechanism for identifying collusive attackers |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020023115A1 (en) * | 2018-07-27 | 2020-01-30 | Futurewei Technologies, Inc. | Task offloading and routing in mobile edge cloud networks |
CN110401675B (zh) * | 2019-08-20 | 2020-07-03 | 绍兴文理学院 | 一种传感云环境下不确定性DDoS攻击防御方法 |
CN111124531B (zh) * | 2019-11-25 | 2023-07-28 | 哈尔滨工业大学 | 一种车辆雾计算中基于能耗和延迟权衡的计算任务动态卸载方法 |
CN111160525B (zh) * | 2019-12-17 | 2023-06-20 | 天津大学 | 一种边缘计算环境下基于无人机群的任务卸载智能决策方法 |
CN111988415B (zh) * | 2020-08-26 | 2021-04-02 | 绍兴文理学院 | 基于模糊博弈的移动传感设备计算任务安全卸载方法 |
CN112202928B (zh) * | 2020-11-16 | 2022-05-17 | 绍兴文理学院 | 传感边缘云区块链网络可信卸载协作节点选择系统及方法 |
CN112188442B (zh) * | 2020-11-16 | 2021-12-07 | 西南交通大学 | 基于移动边缘计算的车联网数据驱动任务卸载系统和方法 |
-
2021
- 2021-01-12 CN CN202110033976.9A patent/CN112887272B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020248170A1 (en) * | 2019-06-12 | 2020-12-17 | Nokia Solutions And Networks Oy | Mechanism for identifying collusive attackers |
CN110933060A (zh) * | 2019-11-22 | 2020-03-27 | 上海交通大学 | 一种基于流量分析的挖矿木马检测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112887272A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112887272B (zh) | 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 | |
CN112598150B (zh) | 一种在智能电厂中基于联邦学习提升火灾检测效果的方法 | |
Zhang et al. | Joint parallel offloading and load balancing for cooperative-MEC systems with delay constraints | |
CN110401675B (zh) | 一种传感云环境下不确定性DDoS攻击防御方法 | |
CN109710374A (zh) | 移动边缘计算环境下最小化任务卸载费用的vm迁移策略 | |
Yan et al. | Optimal model placement and online model splitting for device-edge co-inference | |
CN113568727A (zh) | 一种基于深度强化学习的移动边缘计算任务分配方法 | |
CN114625504A (zh) | 一种基于深度强化学习的车联网边缘计算服务迁移方法 | |
CN114860337B (zh) | 一种基于元强化学习算法的计算卸载方法 | |
CN113407248A (zh) | 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法 | |
CN112804103A (zh) | 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法 | |
CN116137724A (zh) | 一种基于移动边缘计算的任务卸载及资源分配方法 | |
Lu et al. | Energy-efficient task transfer in wireless computing power networks | |
Hu et al. | Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach | |
CN113973113B (zh) | 一种面向移动边缘计算的分布式服务迁移方法 | |
Zhu et al. | Dynamic task offloading in power grid internet of things: A fast-convergent federated learning approach | |
Han et al. | Multi-step reinforcement learning-based offloading for vehicle edge computing | |
Peng et al. | SCOF: Security-Aware Computation Offloading Using Federated Reinforcement Learning in Industrial Internet of Things with Edge Computing | |
Yang et al. | Privacy is not free: Energy-aware federated learning for mobile and edge intelligence | |
Beytur et al. | Optimization of Offloading Policies for Accuracy-Delay Tradeoffs in Hierarchical Inference | |
Hossain et al. | Edge orchestration based computation peer offloading in MEC-enabled networks: a fuzzy logic approach | |
CN109271295B (zh) | 一种云集群环境下的异常作业预测方法 | |
CN114942799B (zh) | 云边环境下基于强化学习的工作流调度方法 | |
CN116437341A (zh) | 一种移动区块链网络的计算卸载与隐私保护联合优化方法 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |