CN110401675A - 一种传感云环境下不确定性DDoS攻击防御方法 - Google Patents
一种传感云环境下不确定性DDoS攻击防御方法 Download PDFInfo
- Publication number
- CN110401675A CN110401675A CN201910767115.6A CN201910767115A CN110401675A CN 110401675 A CN110401675 A CN 110401675A CN 201910767115 A CN201910767115 A CN 201910767115A CN 110401675 A CN110401675 A CN 110401675A
- Authority
- CN
- China
- Prior art keywords
- node
- training
- state
- resource allocation
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 169
- 238000013468 resource allocation Methods 0.000 claims abstract description 79
- 230000009471 action Effects 0.000 claims abstract description 43
- 230000007123 defense Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 9
- 238000007726 management method Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 6
- 206010033799 Paralysis Diseases 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 230000001953 sensory effect Effects 0.000 claims 1
- 239000002131 composite material Substances 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005315 distribution function Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001643392 Cyclea Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1458—Denial of Service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种传感云环境下不确定性DDoS攻击防御方法,其特征在于,在t时刻按照以下步骤进行防御:(1)协同防御者,获取当前状态下AI训练任务的训练精度st和AI训练任务k的资源分配动作;(2)基于马尔可夫过程采用Q‑learning算法,确定资源分配动作(3)更新资源适配器对AI训练任务k分配的资源,并获取更新后AI训练任务k的训练精度状态st+1;(4)计算达到更新状态的防御奖励Rt+1;(5)更新Q值函数;(6)判断是否超满足于预设的训练精度要求、以及是否满足预设的奖励要求。本发明使得协作防御者在资源分配区间中获得最优的资源分配策略,对抗DDoS攻击。
Description
技术领域
本发明属于信息安全领域,更具体地,涉及一种传感云环境下不确定性DDoS攻击防御方法。
背景技术
传感云作为一种集中式虚拟化技术实现了动态资源管理,传感云设备(SCD)可以“按需”从边缘计算节点(edge-VM)获取计算资源。由于传感云平台通过共享计算资源来提供服务,容易产生资源使用冲突,这使得传感云平台灵活的配置共享资源面临挑战。特别是,SCD节点卸载AI处理任务到传感云平台时,不仅导致SCD节点之间竞争分配资源,还会降低传感云计算平台的性能和可靠性,使其极易受到恶意节点的攻击。因此,在为竞争任务调度环境设计安全的资源共享管理策略时,应考虑用户恶意使用资源对传感云平台安全性造成的影响。
在实际应用中,传感云平台的SaaS层容易受到多种安全攻击,包括分布式拒绝服务(DDoS)攻击、身份验证攻击、SQL注入攻击、corba站点脚本攻击、XML签名包装攻击、基于应用程序的攻击等。由于在低带宽的SaaS层中运行的数据密集型应用程序会吸引攻击者注意,恶意的SCD节点可通过在云计算平台上运行数据密集型AI应用程序发起DDoS攻击,显著增加资源的分配力度,使合法的SCD节点卸载的任务运行失败或增加其完成时间,而合法的SCD节点则尝试使用足够分配的资源进行计算,以确保处理任务完成的同时对抗安全威胁。
目前关于云安全防御的研究大多以博弈论建模为主,在G Fan等人的研究中(GameTheoretic Method to Model and Evaluate Attack-Defense Strategy in CloudComputing),作者提出了一种基于随机博弈的云计算攻防策略建模与评估方法,利用Petri网的相关理论验证了该方法的正确性。在T Spyridopoulos等人的研究中(A gametheoretic defence framework against DoS/DDoS cyber attacks.),作者考虑了执行攻击的成本、攻击节点的数量和恶意流量概率分布,并设置了攻击者收益的上限,将DDoS攻击建模为非合作、零和博弈。在A Abeshu等人的研究中(Deep Learning:The Frontier forDistributed Attack Detection in Fog-to-Things Computing.),作者基于雾计算提出了一种分布式深度学习驱动的攻击检测方案,在雾节点支持的分布式物联网上使用深度学习模型训练攻击检测系统,提高了网络攻击检测的准确性和效率。在B Anggorojati等人的研究中(An Intrusion Detection game in access control system for the M2M localcloud platform.)。作者研究了多阶段贝叶斯博弈中理性攻击者与防御者之间的交互。在一定的攻击和监控资源约束下,针对给定的一组具有不同安全值的资源,设计了一个理性攻击者和防御者的分析框架。
这些方法存在如下不足:
(1)已提出的方法仅考虑了云计算系统攻防策略建模,不能处理AI训练任务k卸载攻击问题,也未通过SCD节点和边缘计算节点协作来防御攻击。
(2)AI计算任务的卸载和执行具有完成时间和训练精度的不确定性,受到DDoS攻击时,如何针对不确定性DDoS攻击,优化资源分配策略来防御攻击,以上的方法均没有给出合适的解决方法。
(3)虽然基于雾计算的分布式深度学习驱动的攻击检测方案提高了网络攻击检测的准确性,但对于AI训练任务k的卸载时受到的DDoS攻击未设计有效的资源分配方案来防御攻击。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种传感云环境下不确性DDoS攻击防御方法,其目的在于通过考虑资源信息的不完全性和边缘计算节点状态的不确定性来防御机边缘计算节点中AI训练任务k的DDoS攻击,从而确保传感云平台受到DDoS攻击时,通过资源分配策略完成AI训练任务k,由此解决现有技术对传感云中边缘计算节点运行的AI训练任务k受到不确定DDoS攻击时无法防御的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种传感云环境下不确定性DDoS攻击防御方法,在t时刻按照以下步骤进行防御:
(1)执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协同防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配的取值空间;
(2)根据步骤(1)获得的当前状态下所述AI训练任务的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作
(3)根据步骤(2)中获得的资源分配动作更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1;
(4)根据步骤(2)中获得的当前状态下所述AI训练任务k的资源分配动作以及步骤(3)中获得的更新后所述AI训练任务的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;
(5)根据步骤(3)中获得的更新后所述AI训练任务的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1(st,at);
(6)判断步骤(4)中获得的更新后所述AI训练任务的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤(1)。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(2)所述资源分配动作为:
(2-1)以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作或
(2-2)以1-ξt的概率在最大Q值中获得AI的资源分配动作作为更新状态下所述AI训练任务k的资源分配动作at+1。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其协作防御者获得最大的效用时其资源策略取值范围,即区间x为
其中:
c00,k为边缘计算节点处于不活跃状态且传感云设备节点推测出其处于不活跃状态的概率, 为边缘计算节点中VM处于不活跃状态时间的数学期望,为边缘计算节点中VM处于活跃状态时间的期望,
βj是DDoS攻击者最大化期望效用的KKT算子;
tj,k表示攻击者对AI训练任务k进行计时攻击的时间;
εj,k=c00,k+c10,k;c10,k为边缘计算节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,传感云设备节点推测其处于不活跃状态的概率,且 为边缘计算节点中VM处于不活跃状态时间的数学期望,E(tl)为传感云设备节点与边缘计算节点协作时间的期望;
θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求。
δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;
λi,k为传感云设备节点和边缘计算节点的协作因子;
为传感云设备节点本地任务的完成率;μe边缘计算节点卸载任务的完成率。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(3)所述AI训练任务k训练精度状态st采取的资源分配动作后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(4)所述达到更新状态的防御奖励Rt+1按照如下方法计算:
其中,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励,为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,为传感云设备节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(5)所述Q值更新函数为:
其中,Qt+1(st,at)为更新后的Q值,αt为当前时刻t的学习率;Qt(st,at)为当前Q值,γ为折扣因子,Qt(st+1,a)为协作防御者在st+1状态的Q值,a为可能的资源分配值,A为资源分配的取值空间。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述协作防御者在st+1状态的Q值Qt(st+1,a)按照如下方法计算:
其中为边缘计算节点Q值更新函数,为传感云设备节点Q值更新函数。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述边缘计算节点Q值更新函数为:
其中,E(·)为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述传感云设备节点Q值更新函数为:
其中,为传感云设备节点在状态执行可能的资源分配值时获得的奖励。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明通过建立不完全信息情况下协作防御者和DDoS攻击者之间攻击防御的贝叶斯博弈模型,在边缘节点edge-VM的状态信息不完全的前提下,分析攻击防御策略,基于Q-learning的更新算法,通过与AI任务计算环境的交互,使得协作防御者在资源分配区间中获得最优的资源分配策略,对抗DDoS攻击。
附图说明
图1是本发明提供的优传感云环境下不确定性DDoS攻击防御方法流程示意图;
图2是本发明实施例提供的受攻击AI训练任务k训练精度状态变化过程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的传感云环境下不确定性DDoS攻击防御方法,如图1所示,在t时刻按照以下步骤进行防御:
(1)执行同一AI训练任务k的传感云设备节点(SCD节点)和边缘计算节点(edge-VM节点)作为协同防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配动作空间;
(2)根据步骤(1)获得的当前状态下所述AI训练任务的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作所述资源分配动作为:
(2-1)以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作或
(2-2)以1-ξt的概率在最大Q值中获得AI的资源分配动作作为更新状态下所述AI训练任务k的资源分配动作at+1;
即所述选择AI的资源分配动作按照如下方法计算:
其中Qt(st,at)为当前Q值函数,ξt为随机策略选择概率,区间x为协作防御者获得最大的效用时其资源策略取值范围。
实际应用时,在每一轮迭代中,这两种资源分配动作选择方式可以交叉进行。
协作防御者获得最大的效用时其资源策略取值范围,即区间x为
其中:
c00,k为edge-VM节点处于不活跃状态且SCD节点推测出其处于不活跃状态的概率, 为边缘计算节点中VM处于不活跃状态时间的数学期望,为边缘计算节点中VM处于活跃状态时间的期望;
βj是DDoS攻击者最大化期望效用的KKT算子;
tj,k表示攻击者对AI训练任务k进行计时攻击的时间;
εj,k=c00,k+c10,k,c10,k为edge-VM节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,SCD节点推测其处于不活跃状态的概率,且 为边缘计算节点中VM处于不活跃状态时间的数学期望,E(tl)为SCD节点与边缘计算节点协作时间的期望;
θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。
δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失;
λi,k为SCD节点和边缘计算节点edge-VM的协作因子;
为SCD节点本地任务的完成率;μe边缘计算节点卸载任务的完成率;
(3)根据步骤(2)中获得的资源分配动作更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1;
AI训练任务k训练精度状态st采取的资源分配动作后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为
(4)根据步骤(2)中获得的当前状态下所述AI训练任务k的资源分配动作以及步骤(3)中获得的更新后所述AI训练任务的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;
所述达到更新状态的防御奖励Rt+1按照如下方法计算:
其中,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励,为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,为SCD节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。
由于资源受限的SCD节点无法在本地执行AI学习任务,SCD节点向edge-VM节点卸载AI学习任务,并调度AI学习任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI学习任务提供CPU和存储计算资源。AI学习任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中,我们能获得协作任务的完成时间Vco依赖于SCD节点本地任务的完成率和边缘计算节点卸载任务的完成率μe,因此,我们能获得协作任务完成的概率
即,SCD节点和边缘计算节点edge-VM协作任务完成率为协作因子为λi,k。因此,SCD节点和边缘计算节点edge-VM为AI训练任务k的协作关系h所需的资源为
其中,ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源。在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件为
(5)根据步骤(3)中获得的更新后所述AI训练任务的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1(st,at);
所述Q值更新函数为:
其中,Qt+1(st,at)为更新后的Q值函数,αt为当前时刻t的学习率;Qt(st,at)为当前Q值,γ为折扣因子,Qt(st+1,a)为协作防御者在st+1状态的Q值,为可能的资源分配值,A为资源分配的取值空间。
其中协作防御者在st+1状态的Q值Qt(st+1,a)按照如下方法计算:
其中为边缘计算节点Q值更新函数,为SCD节点Q值更新函数。
所述边缘计算节点Q值更新函数为:
其中,E(·)为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。
所述传感云设备节点Q值更新函数为:
其中,为传感云设备节点在状态执行可能的资源分配值时获得的奖励。
(6)判断步骤(4)中获得的更新后所述AI训练任务的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤(1)。
以下为实施例:
基于贝叶斯博弈的SCD节点和边缘计算节点协作防御模型
由于资源受限的SCD节点无法在本地执行AI训练任务,SCD节点向edge-VM节点卸载AI训练任务,并调度AI训练任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI训练任务提供CPU和存储计算资源。AI训练任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中,我们能获得协作任务的完成时间Vco依赖于SCD节点本地任务的完成率和边缘计算节点卸载任务的完成率μe,因此,我们能获得协作任务完成的概率
即,SCD节点和边缘计算节点edge-VM协作任务完成率为协作因子为λi,k。因此,SCD节点和边缘计算节点edge-VM为AI训练任务k的协作关系h所需的资源为
其中,ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k的单位时间内使用的计算资源。在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件为
其中,δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失。rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源。tj,k表示攻击者对AI训练任务k进行计时攻击的时间。θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。每个AI训练任务k的协作收益为一个指示函数,如果函数值为1,表明是一个AI训练任务k的精度最优解。相应的,在N个AI训练任务k中,SCD节点和边缘计算节点作为协作防御者,其协作收益定义为AI训练任务k的精度最优解的个数,其协作收益ui定义如下:
其中,1{·}是指示函数。另一方面,攻击者通过在边缘计算节点中运行恶意软件,产生对边缘计算节点的资源消耗为er且er>r,r表示edge-VM节点提供的最大资源。攻击者的目标是通过攻击策略使得协作AI训练任务k的完成时间增大,即(P{Vco>tth}),并且获得低精度的深度学习解。从而使得P{Vco<tth}内成功完成AI训练任务k所需的资源条件不成立。因此,我们模型化DDoS攻击者的收益函数为一个指示函数,指示函数的值为1,表明SCD节点和边缘计算节点的协作AI服务获得最差精度的解,相应的攻击者的收益uj如下:
协作防御者对攻击者的资源分配策略rj,k具有不完全知识,并且把他看作一个具有任意概率密度函数的随机变量。类似地,DDoS攻击者对AI训练任务k协作防御者的资源分配策略ri,k具有不完全信息,并且把他看作一个具有任意概率密度函数的随机变量。因此,在攻击防御的贝叶斯博弈中,协作防御者期望的效用为
其中,是随机变量ri,k的累积分布函数,x为SCD节点和边缘计算节点协作使用处理资源的随机变量,其累积分布函数为
类似地,DDoS攻击者期望的效用为
其中,是随机变量rj,k的累积分布函数,y为DDoS攻击者消耗协作防御者资源的随机变量,其累积分布函数为
最大化DDoS攻击者期望效用的资源分配策略
应用Karush-Kuhn-Tucker(KKT)方法来优化协作防御者期望的效用uic如下:
其中,βi是协作防御者期望效用的KKT算子。DDoS攻击者对AI训练任务k攻击时最优的资源累积分布函数为且计算如下:
从而得出DDoS攻击者的期望效用最大时,其资源策略取值范围为
最大化协作防御者期望效用的资源分配策略
DDoS攻击者改变其资源分布策略,使用KKT算子分析,DDoS攻击者最大化其期望的效用如下:
其中,βj是DDoS攻击者最大化期望效用的KKT算子。
从而得出协作防御者获得最大的效用时,其策略分布为
资源分配策略区间为
基于keep live的具有不完全信息边缘计算节点的协作
Edge-VM节点的状态在活跃和不活跃状态之间切换。当edge-VM节点执行计算任务时,处于活跃状态;当edge-VM节点不执行计算任务时,为了节约能耗,edge-VM节点处于不活跃状态。SCD节点使用(keep live)KL机制判别edge-VM节点中VM的状态,SCD定期使用KL数据包检测edge-VM节点的状态信息并做决策判别其状态。由于DDoS攻击者的攻击使得SCD节点获取的edge-VM节点状态信息变得不准确。因此,对于SCD节点和edge-VM节点执行任务k的虚拟机状态将出现以下四种判别结果:(1)edge-VM节点处于不活跃状态,SCD节点推测出其处于不活跃状态,其概率用c00,k表示;(2)edge-VM节点处于不活跃状态,由于DDoS攻击者伪造edge-VM节点资源状态信息,使得SCD节点推测其处于活跃状态,其概率用c01,k;(3)edge-VM节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得edge-VM节点处于瘫痪状态,SCD节点推测其处于不活跃状态,其概率用c10,k表示;(4)edge-VM节点处于活跃状态,SCD节点推测其处于活跃状态,其概率用c11,k表示。在考虑edge-VM节点不确定状态信息的情况下,DDoS攻击者期望的效用最大时,其资源策略取值范围为
类似地,协作防御者获得最大的效用时,其资源策略取值范围为:
SCD节点协作时间服从指数分布的概率密度函数为边缘计算中edge-VM节点处于活跃状态的时间服从指数分布的概率密度函数为edge-VM节点处于不活跃状态的时间服从指数分布的概率密度函数为由此,我们可以得到
其中,E(·)表示期望,为边缘计算节点中VM处于不活跃状态的时间,为边缘计算节点中VM处于活跃状态的时间,tl为SCD节点与边缘计算节点协作的时间。
协作防御者的Q值计算
由于受攻击环境的不确定性,本发明将使用Q-learning在区间值上搜索最优的资源分配策略值。对于edge-VM节点,在时刻t,在区间
选择最优的资源分配的行动值。其策略函数为:
其中,为edge-VM节点的随机策略选择概率。Q值更新函数为:
其中,E(·)为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。
对于SCD节点,在时刻t,在区间选择最优资源分配的行动值。其策略函数为:
其中,为SCD节点的随机策略选择概率。Q值更新函数为:
其中,为SCD节点在状态执行可能的资源分配值时获得的奖励。
SCD节点和边缘计算节点协作防御者在x区间上选择最优资源分配的行动值。协作防御的者的Q值更新函数为:
随机协作Q-learning的资源分配策略优化
由于DDoS攻击者的资源分配策略的不确定性导致AI训练任务k运行环境和状态变的不确定,AI训练任务k训练的运行状态空间有高精度、保持、低精度三个离散状态,即S={1,0,-1}。在这个马尔可夫决策过程(MDP)模型中,协作防御者在AI训练任务k的当前状态采用的资源分配动作得到的AI训练任务k训练精度的下一状态是不确定的,我们把AI训练任务k的训练精度的状态看做一个随机变量,令不确定性AI训练任务k训练精度状态迁移函数如图2所示,AI训练任务k训练精度状态变化过程,由于DDoS的攻击使得AI计算环境变的不确定,AI训练任务k的训练精度试图往高精度方向增长时,成功的概率为0.7,保持不变的概率为0.25,向低精度方法减少的概率为0.05。
在AI训练任务k训练精度状态st采取的资源分配动作at后,下一训练精度状态st+1属于某一个状态的概率为
在随机情况下,MDP要求到达下一状态的概率由st和at决定。奖励函数定义如下:
故有,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励。
在图2中,协作性防御者的目标是为每个状态发现一个优化策略π*(st)∈A,使得协作防御者最大化其接收的累积奖赏Rt+1。策略映射函数定义如下:
协作防御者对于每个状态都能用非零的概率ξt∈(0,1)在区间x中随机地选择防御策略并执行资源分配的动作,或者以1-ξt的概率从最大Q值中选择资源分配动作。在协作防御者与计算环境的每一轮交互过程中,这两种资源分配动作选择方式可以交叉进行。在协作防御者从区间x中随机选择策略π的情况下,在协作防御时间阈值内,从初始状态开始期望的有限期折扣回报为
γ为折扣因子。在每个行动执行之后,Q(s,a)值更新如下:
其中,αt为当前时刻的学习率。
协作防御者与计算环境的交互过程图1所示,协作防御者在初始状态s0随机选择一个资源值,并通过策略映射函数赋值给at,由资源适配器执行资源分配配置AI训练任务k计算环境资源并执行防御策略。AI训练任务k计算环境返回策略执行的奖励Rt+1及AI训练任务k的训练精度状态St+1,若Rt+1=1且st+1=1时,协作防御者与计算环境的交互过程结束,否则,开始新一轮的策略选择及资源分配的防御策略交互过程。具体可利用如下算法实现:
算法1基于区间的贪心Q学习算法
Input:折扣因子γ,随机策略选择概率设置学习率设置
步骤1:初始化Q值函数,Q0←0
步骤2:给出初始状态s0
步骤3:For每个时间步t=0,1,2...do
步骤4:
步骤5:资源适配器应用资源分配动作观测下一状态st+1,计算奖励值Rt+1
步骤6:更新Qt+1(st,at):步骤7:如果Rt+1=1且st+1=1,则跳出for循环;否则,t=t+1,开始下一轮for循环。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种传感云环境下不确定性DDoS攻击防御方法,其特征在于,在t时刻按照以下步骤进行防御:
(1)执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协同防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配的取值空间;
(2)根据步骤(1)获得的当前状态下所述AI训练任务的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作
(3)根据步骤(2)中获得的资源分配动作更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1;
(4)根据步骤(2)中获得的当前状态下所述AI训练任务k的资源分配动作以及步骤(3)中获得的更新后所述AI训练任务的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;
(5)根据步骤(3)中获得的更新后所述AI训练任务的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1(st,at);
(6)判断步骤(4)中获得的更新后所述AI训练任务的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤(1)。
2.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤(2)所述资源分配动作为:
(2-1)以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作或
(2-2)以1-ξt的概率在最大Q值中获得AI的资源分配动作作为更新状态下所述AI训练任务k的资源分配动作at+1。
3.如权利要求2所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,协作防御者获得最大的效用时其资源策略取值范围,即区间x为
其中:
c00,k为边缘计算节点处于不活跃状态且传感云设备节点推测出其处于不活跃状态的概率, 为边缘计算节点中VM处于不活跃状态时间的数学期望,为边缘计算节点中VM处于活跃状态时间的期望,
βj是DDoS攻击者最大化期望效用的KKT算子;
tj,k表示攻击者对AI训练任务k进行计时攻击的时间;
εj,k=c00,k+c10,k;c10,k为边缘计算节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,传感云设备节点推测其处于不活跃状态的概率,且 为边缘计算节点中VM处于不活跃状态时间的数学期望,E(tl)为传感云设备节点与边缘计算节点协作时间的期望;
θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求。
δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;
λi,k为传感云设备节点和边缘计算节点的协作因子;
为传感云设备节点本地任务的完成率;μe边缘计算节点卸载任务的完成率。
4.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤(3)所述AI训练任务k训练精度状态st采取的资源分配动作后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为
5.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤(4)所述达到更新状态的防御奖励Rt+1按照如下方法计算:
其中,为在AI训练任务k训练k精度状态st采取的资源分配动作后状态转移到训练精度状态st+1时获得的奖励,为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,为传感云设备节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。
6.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤(5)所述Q值更新函数为:
其中,Qt+1(st,at)为更新后的Q值,αt为当前时刻t的学习率;Qt(st,at)为当前Q值,γ为折扣因子,Qt(st+1,a)为协作防御者在st+1状态的Q值,a为可能的资源分配值,A为资源分配的取值空间。
7.如权利要求6所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述协作防御者在st+1状态的Q值Qt(st+1,a)按照如下方法计算:
其中为边缘计算节点Q值更新函数,为传感云设备节点Q值更新函数。
8.如权利要求7所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述边缘计算节点Q值更新函数为:
其中,E(·)为期望,为边缘计算节点在状态执行可能的资源分配值时获得的奖励。
9.如权利要求7所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述传感云设备节点Q值更新函数为:
其中,为传感云设备节点在状态执行可能的资源分配值时获得的奖励。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767115.6A CN110401675B (zh) | 2019-08-20 | 2019-08-20 | 一种传感云环境下不确定性DDoS攻击防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910767115.6A CN110401675B (zh) | 2019-08-20 | 2019-08-20 | 一种传感云环境下不确定性DDoS攻击防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110401675A true CN110401675A (zh) | 2019-11-01 |
CN110401675B CN110401675B (zh) | 2020-07-03 |
Family
ID=68328708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910767115.6A Active CN110401675B (zh) | 2019-08-20 | 2019-08-20 | 一种传感云环境下不确定性DDoS攻击防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110401675B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955463A (zh) * | 2019-12-03 | 2020-04-03 | 天津大学 | 支持边缘计算的物联网多用户计算卸载方法 |
CN110958135A (zh) * | 2019-11-05 | 2020-04-03 | 东华大学 | 一种特征自适应强化学习DDoS攻击消除方法及系统 |
CN111988340A (zh) * | 2020-09-09 | 2020-11-24 | 中国人民解放军国防科技大学 | 基于深度迁移学习的小样本DDoS攻击检测方法 |
CN111988415A (zh) * | 2020-08-26 | 2020-11-24 | 绍兴文理学院 | 基于模糊博弈的移动传感设备计算任务安全卸载方法 |
CN112187710A (zh) * | 2020-08-17 | 2021-01-05 | 杭州安恒信息技术股份有限公司 | 威胁情报数据的感知方法、装置、电子装置和存储介质 |
CN112887332A (zh) * | 2021-03-01 | 2021-06-01 | 山西警察学院 | 云环境下的ddos攻击检测方法 |
CN112887272A (zh) * | 2021-01-12 | 2021-06-01 | 绍兴文理学院 | 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 |
CN113329067A (zh) * | 2021-05-21 | 2021-08-31 | 广州爱浦路网络技术有限公司 | 边缘计算节点负荷分配方法、核心网、装置和存储介质 |
CN113407248A (zh) * | 2020-12-11 | 2021-09-17 | 绍兴文理学院 | 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法 |
CN114727423A (zh) * | 2022-04-02 | 2022-07-08 | 北京邮电大学 | 一种gf-noma系统中的个性化接入方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107332855A (zh) * | 2017-07-20 | 2017-11-07 | 浙江大学 | 基于增强学习算法的主用户仿真攻击检测方法 |
CN108809979A (zh) * | 2018-06-11 | 2018-11-13 | 中国人民解放军战略支援部队信息工程大学 | 基于Q-learning的自动入侵响应决策方法 |
CN109617931A (zh) * | 2019-02-20 | 2019-04-12 | 电子科技大学 | 一种SDN控制器的DDoS攻击防御方法及防御系统 |
CN109639515A (zh) * | 2019-02-16 | 2019-04-16 | 北京工业大学 | 基于隐马尔可夫和Q学习协作的DDoS攻击检测方法 |
CN109951451A (zh) * | 2019-02-21 | 2019-06-28 | 北京工业大学 | 雾计算中一种基于强化学习的伪装攻击检测方法 |
US20190207971A1 (en) * | 2017-01-31 | 2019-07-04 | Scythe, Inc. | Endpoint vulnerability analysis platform with intelligent threat actors |
CN110049497A (zh) * | 2019-04-11 | 2019-07-23 | 北京工业大学 | 移动雾计算中一种面向用户的智能攻击防御方法 |
-
2019
- 2019-08-20 CN CN201910767115.6A patent/CN110401675B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190207971A1 (en) * | 2017-01-31 | 2019-07-04 | Scythe, Inc. | Endpoint vulnerability analysis platform with intelligent threat actors |
CN107332855A (zh) * | 2017-07-20 | 2017-11-07 | 浙江大学 | 基于增强学习算法的主用户仿真攻击检测方法 |
CN108809979A (zh) * | 2018-06-11 | 2018-11-13 | 中国人民解放军战略支援部队信息工程大学 | 基于Q-learning的自动入侵响应决策方法 |
CN109639515A (zh) * | 2019-02-16 | 2019-04-16 | 北京工业大学 | 基于隐马尔可夫和Q学习协作的DDoS攻击检测方法 |
CN109617931A (zh) * | 2019-02-20 | 2019-04-12 | 电子科技大学 | 一种SDN控制器的DDoS攻击防御方法及防御系统 |
CN109951451A (zh) * | 2019-02-21 | 2019-06-28 | 北京工业大学 | 雾计算中一种基于强化学习的伪装攻击检测方法 |
CN110049497A (zh) * | 2019-04-11 | 2019-07-23 | 北京工业大学 | 移动雾计算中一种面向用户的智能攻击防御方法 |
Non-Patent Citations (1)
Title |
---|
ARTURO SERVIN等: ""Multi-agent reinforcement learning for intrusion detection"", 《5TH, 6TH, AND 7TH EUROPEAN SYMPOSIUM, ALAMAS 2005-2007 ON ADAPTIVE AND LEARNING AGENTS AND MULTI-AGENT SYSTEMS, REVISED SELECTED PAPERS》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110958135A (zh) * | 2019-11-05 | 2020-04-03 | 东华大学 | 一种特征自适应强化学习DDoS攻击消除方法及系统 |
CN110958135B (zh) * | 2019-11-05 | 2021-07-13 | 东华大学 | 一种特征自适应强化学习DDoS攻击消除方法及系统 |
CN110955463A (zh) * | 2019-12-03 | 2020-04-03 | 天津大学 | 支持边缘计算的物联网多用户计算卸载方法 |
CN112187710A (zh) * | 2020-08-17 | 2021-01-05 | 杭州安恒信息技术股份有限公司 | 威胁情报数据的感知方法、装置、电子装置和存储介质 |
CN111988415A (zh) * | 2020-08-26 | 2020-11-24 | 绍兴文理学院 | 基于模糊博弈的移动传感设备计算任务安全卸载方法 |
CN111988340A (zh) * | 2020-09-09 | 2020-11-24 | 中国人民解放军国防科技大学 | 基于深度迁移学习的小样本DDoS攻击检测方法 |
CN111988340B (zh) * | 2020-09-09 | 2022-04-29 | 中国人民解放军国防科技大学 | 基于深度迁移学习的小样本DDoS攻击检测方法 |
CN113407248A (zh) * | 2020-12-11 | 2021-09-17 | 绍兴文理学院 | 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法 |
CN112887272A (zh) * | 2021-01-12 | 2021-06-01 | 绍兴文理学院 | 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 |
CN112887332A (zh) * | 2021-03-01 | 2021-06-01 | 山西警察学院 | 云环境下的ddos攻击检测方法 |
CN113329067A (zh) * | 2021-05-21 | 2021-08-31 | 广州爱浦路网络技术有限公司 | 边缘计算节点负荷分配方法、核心网、装置和存储介质 |
CN114727423A (zh) * | 2022-04-02 | 2022-07-08 | 北京邮电大学 | 一种gf-noma系统中的个性化接入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110401675B (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110401675B (zh) | 一种传感云环境下不确定性DDoS攻击防御方法 | |
Shirvani | A hybrid meta-heuristic algorithm for scientific workflow scheduling in heterogeneous distributed computing systems | |
Cao et al. | Comprehensive learning particle swarm optimization algorithm with local search for multimodal functions | |
Dong et al. | A supervised learning and control method to improve particle swarm optimization algorithms | |
Liang et al. | Exponential recency weighted average branching heuristic for SAT solvers | |
CN109190978B (zh) | 一种基于量子鸟群演化机制的无人机资源分配方法 | |
CN110673951B (zh) | 通用运行环境的拟态调度方法、系统及介质 | |
Nguyen et al. | Regret-based optimization and preference elicitation for Stackelberg security games with uncertainty | |
Eghtesad et al. | Adversarial deep reinforcement learning based adaptive moving target defense | |
Yu et al. | Model-based opponent modeling | |
Chejerla et al. | QoS guaranteeing robust scheduling in attack resilient cloud integrated cyber physical system | |
CN112887272B (zh) | 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法 | |
Boveiri | An incremental ant colony optimization based approach to task assignment to processors for multiprocessor scheduling | |
Cámara et al. | Analyzing self-adaptation via model checking of stochastic games | |
Nayak et al. | Dynamic task scheduling problem based on grey wolf optimization algorithm | |
Brahmam et al. | VMMISD: An Efficient Load Balancing Model for Virtual Machine Migrations via Fused Metaheuristics With Iterative Security Measures and Deep Learning Optimizations | |
Vejandla et al. | Evolving gaming strategies for attacker-defender in a simulated network environment | |
Shen et al. | MFGD3QN: Enhancing Edge Intelligence Defense against DDoS with Mean-Field Games and Dueling Double Deep Q-network | |
Lee et al. | A host takeover game model for competing malware | |
Padmajothi et al. | Adaptive neural fuzzy inference system-based scheduler for cyber–physical system | |
CN113904937A (zh) | 一种服务功能链迁移方法、装置、电子设备及存储介质 | |
Beynier | Cooperative multiagent patrolling for detecting multiple illegal actions under uncertainty | |
Yang et al. | NPM: An anti-attacking analysis model of the MTD system based on martingale theory | |
Wang et al. | An information network security policy learning algorithm based on Sarsa with optimistic initial values | |
CN116489193B (zh) | 一种作战网络自适应组合方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |