CN110401675B - 一种传感云环境下不确定性DDoS攻击防御方法 - Google Patents

一种传感云环境下不确定性DDoS攻击防御方法 Download PDF

Info

Publication number
CN110401675B
CN110401675B CN201910767115.6A CN201910767115A CN110401675B CN 110401675 B CN110401675 B CN 110401675B CN 201910767115 A CN201910767115 A CN 201910767115A CN 110401675 B CN110401675 B CN 110401675B
Authority
CN
China
Prior art keywords
node
state
training
training task
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910767115.6A
Other languages
English (en)
Other versions
CN110401675A (zh
Inventor
刘建华
沈士根
周海平
冯晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shaoxing
Original Assignee
University of Shaoxing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shaoxing filed Critical University of Shaoxing
Priority to CN201910767115.6A priority Critical patent/CN110401675B/zh
Publication of CN110401675A publication Critical patent/CN110401675A/zh
Application granted granted Critical
Publication of CN110401675B publication Critical patent/CN110401675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种传感云环境下不确定性DDoS攻击防御方法,其特征在于,在t时刻按照以下步骤进行防御:(1)协作防御者,获取当前状态下AI训练任务的训练精度st和AI训练任务k的资源分配动作;(2)基于马尔可夫过程采用Q‑learning算法,确定资源分配动作
Figure DDA0002388643840000011
(3)更新资源适配器对AI训练任务k分配的资源,并获取更新后AI训练任务k的训练精度状态st+1;(4)计算达到更新状态的防御奖励Rt+1;(5)更新Q值函数;(6)判断是否超满足于预设的训练精度要求、以及是否满足预设的奖励要求。本发明使得协作防御者在资源分配区间中获得最优的资源分配策略,对抗DDoS攻击。

Description

一种传感云环境下不确定性DDoS攻击防御方法
技术领域
本发明属于信息安全领域,更具体地,涉及一种传感云环境下不确定性DDoS攻击防御方法。
背景技术
传感云作为一种集中式虚拟化技术实现了动态资源管理,传感云设备(SCD)可以“按需”从边缘计算节点(edge-VM)获取计算资源。由于传感云平台通过共享计算资源来提供服务,容易产生资源使用冲突,这使得传感云平台灵活的配置共享资源面临挑战。特别是,SCD节点卸载AI处理任务到传感云平台时,不仅导致SCD节点之间竞争分配资源,还会降低传感云计算平台的性能和可靠性,使其极易受到恶意节点的攻击。因此,在为竞争任务调度环境设计安全的资源共享管理策略时,应考虑用户恶意使用资源对传感云平台安全性造成的影响。
在实际应用中,传感云平台的SaaS层容易受到多种安全攻击,包括分布式拒绝服务(DDoS)攻击、身份验证攻击、SQL注入攻击、corba站点脚本攻击、XML签名包装攻击、基于应用程序的攻击等。由于在低带宽的SaaS层中运行的数据密集型应用程序会吸引攻击者注意,恶意的SCD节点可通过在云计算平台上运行数据密集型AI应用程序发起DDoS攻击,显著增加资源的分配力度,使合法的SCD节点卸载的任务运行失败或增加其完成时间,而合法的SCD节点则尝试使用足够分配的资源进行计算,以确保处理任务完成的同时对抗安全威胁。
目前关于云安全防御的研究大多以博弈论建模为主,在G Fan等人的研究中(GameTheoretic Method to Model and Evaluate Attack-Defense Strategy in CloudComputing),作者提出了一种基于随机博弈的云计算攻防策略建模与评估方法,利用Petri网的相关理论验证了该方法的正确性。在T Spyridopoulos等人的研究中(A gametheoretic defence framework against DoS/DDoS cyber attacks.),作者考虑了执行攻击的成本、攻击节点的数量和恶意流量概率分布,并设置了攻击者收益的上限,将DDoS攻击建模为非合作、零和博弈。在A Abeshu等人的研究中(Deep Learning:The Frontier forDistributed Attack Detection in Fog-to-Things Computing.),作者基于雾计算提出了一种分布式深度学习驱动的攻击检测方案,在雾节点支持的分布式物联网上使用深度学习模型训练攻击检测系统,提高了网络攻击检测的准确性和效率。在B Anggorojati等人的研究中(An Intrusion Detection game in access control system for the M2M localcloud platform.)。作者研究了多阶段贝叶斯博弈中理性攻击者与防御者之间的交互。在一定的攻击和监控资源约束下,针对给定的一组具有不同安全值的资源,设计了一个理性攻击者和防御者的分析框架。
这些方法存在如下不足:
(1)已提出的方法仅考虑了云计算系统攻防策略建模,不能处理AI训练任务k卸载攻击问题,也未通过SCD节点和边缘计算节点协作来防御攻击。
(2)AI计算任务的卸载和执行具有完成时间和训练精度的不确定性,受到DDoS攻击时,如何针对不确定性DDoS攻击,优化资源分配策略来防御攻击,以上的方法均没有给出合适的解决方法。
(3)虽然基于雾计算的分布式深度学习驱动的攻击检测方案提高了网络攻击检测的准确性,但对于AI训练任务k的卸载时受到的DDoS攻击未设计有效的资源分配方案来防御攻击。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种传感云环境下不确性DDoS攻击防御方法,其目的在于通过考虑资源信息的不完全性和边缘计算节点状态的不确定性来防御机边缘计算节点中AI训练任务k的DDoS攻击,从而确保传感云平台受到DDoS攻击时,通过资源分配策略完成AI训练任务k,由此解决现有技术对传感云中边缘计算节点运行的AI训练任务k受到不确定DDoS攻击时无法防御的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种传感云环境下不确定性DDoS攻击防御方法,在t时刻按照以下步骤进行防御:
(1)执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协作防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配的取值空间;
(2)根据步骤(1)获得的当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作
Figure GDA0002388643820000031
(3)根据步骤(2)中获得的资源分配动作
Figure GDA0002388643820000032
更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1
(4)根据步骤(2)中获得的当前状态下所述AI训练任务k的资源分配动作
Figure GDA0002388643820000033
以及步骤(3)中获得的更新后所述AI训练任务k的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1
(5)根据步骤(3)中获得的更新后所述AI训练任务k的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1(st,at);
(6)判断步骤(4)中获得的更新后所述AI训练任务k的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤(1)。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(2)所述资源分配动作
Figure GDA0002388643820000047
为:
(2-1)以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作
Figure GDA0002388643820000048
(2-2)以1-ξt的概率在最大Q值中获得AI的资源分配动作
Figure GDA0002388643820000049
作为更新状态下所述AI训练任务k的资源分配动作at+1
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其协作防御者获得最大的效用时其资源策略取值范围,即区间x为
Figure GDA0002388643820000041
其中:
c00,k为边缘计算节点处于不活跃状态且传感云设备节点推测出其处于不活跃状态的概率,
Figure GDA0002388643820000042
Figure GDA0002388643820000043
为边缘计算节点中VM处于不活跃状态时间的数学期望,
Figure GDA0002388643820000044
为边缘计算节点中VM处于活跃状态时间的期望,
βj是DDoS攻击者最大化期望效用的KKT算子;
tj,k表示攻击者对AI训练任务k进行计时攻击的时间;
εj,k=c00,k+c10,k;c10,k为边缘计算节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,传感云设备节点推测其处于不活跃状态的概率,且
Figure GDA0002388643820000045
Figure GDA0002388643820000046
为边缘计算节点中VM处于不活跃状态时间的数学期望,E(tl)为传感云设备节点与边缘计算节点协作时间的期望;
θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求。
δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;
λi,k为传感云设备节点和边缘计算节点的协作因子;
Figure GDA0002388643820000051
为传感云设备节点本地任务的完成率;μe边缘计算节点卸载任务的完成率。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(3)所述AI训练任务k训练精度状态st采取的资源分配动作
Figure GDA0002388643820000052
后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为
Figure GDA0002388643820000053
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(4)所述达到更新状态的防御奖励Rt+1按照如下方法计算:
Figure GDA0002388643820000054
其中,
Figure GDA0002388643820000055
为在AI训练任务k训练k精度状态st采取的资源分配动作
Figure GDA0002388643820000056
后状态转移到训练精度状态st+1时获得的奖励,
Figure GDA0002388643820000057
为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,
Figure GDA00023886438200000610
为传感云设备节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其步骤(5)所述Q值更新函数为:
Figure GDA0002388643820000061
其中,Qt+1(st,at)为更新后的Q值,αt为当前时刻t的学习率;Qt(st,at)为当前Q值,γ为折扣因子,Qt(st+1,a)为协作防御者在st+1状态的Q值,a为可能的资源分配值,A为资源分配的取值空间。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述协作防御者在st+1状态的Q值Qt(st+1,a)按照如下方法计算:
Figure GDA0002388643820000062
其中
Figure GDA0002388643820000063
为边缘计算节点Q值更新函数,
Figure GDA0002388643820000064
为传感云设备节点Q值更新函数。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述边缘计算节点Q值更新函数
Figure GDA0002388643820000065
为:
Figure GDA0002388643820000066
其中,E(·)为期望,
Figure GDA0002388643820000067
为边缘计算节点在状态
Figure GDA0002388643820000068
执行可能的资源分配值
Figure GDA0002388643820000069
时获得的奖励。
优选地,所述传感云环境下不确定性DDoS攻击防御方法,其所述传感云设备节点Q值更新函数
Figure GDA0002388643820000071
为:
Figure GDA0002388643820000072
其中,
Figure GDA0002388643820000073
为传感云设备节点在状态
Figure GDA0002388643820000074
执行可能的资源分配值
Figure GDA0002388643820000075
时获得的奖励。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明通过建立不完全信息情况下协作防御者和DDoS攻击者之间攻击防御的贝叶斯博弈模型,在边缘节点edge-VM的状态信息不完全的前提下,分析攻击防御策略,基于Q-learning的更新算法,通过与AI任务计算环境的交互,使得协作防御者在资源分配区间中获得最优的资源分配策略,对抗DDoS攻击。
附图说明
图1是本发明提供的优传感云环境下不确定性DDoS攻击防御方法流程示意图;
图2是本发明实施例提供的受攻击AI训练任务k训练精度状态变化过程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的传感云环境下不确定性DDoS攻击防御方法,如图1所示,在t时刻按照以下步骤进行防御:
(1)执行同一AI训练任务k的传感云设备节点(SCD节点)和边缘计算节点(edge-VM节点)作为协作防御者,获取当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at∈A,其中A为资源分配动作空间;
(2)根据步骤(1)获得的当前状态下所述AI训练任务k的训练精度st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作
Figure GDA0002388643820000081
所述资源分配动作
Figure GDA0002388643820000082
为:
(2-1)以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作
Figure GDA0002388643820000083
(2-2)以1-ξt的概率在最大Q值中获得AI的资源分配动作
Figure GDA0002388643820000089
作为更新状态下所述AI训练任务k的资源分配动作at+1
即所述选择AI的资源分配动作
Figure GDA0002388643820000084
按照如下方法计算:
Figure GDA0002388643820000085
其中Qt(st,at)为当前Q值函数,ξt为随机策略选择概率,区间x为协作防御者获得最大的效用时其资源策略取值范围。
实际应用时,在每一轮迭代中,这两种资源分配动作选择方式可以交叉进行。
协作防御者获得最大的效用时其资源策略取值范围,即区间x为
Figure GDA0002388643820000086
其中:
c00,k为edge-VM节点处于不活跃状态且SCD节点推测出其处于不活跃状态的概率,
Figure GDA0002388643820000087
Figure GDA0002388643820000088
为边缘计算节点中VM处于不活跃状态时间的数学期望,
Figure GDA0002388643820000091
为边缘计算节点中VM处于活跃状态时间的期望;
βj是DDoS攻击者最大化期望效用的KKT算子;
tj,k表示攻击者对AI训练任务k进行计时攻击的时间;
εj,k=c00,k+c10,k,c10,k为edge-VM节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,SCD节点推测其处于不活跃状态的概率,且
Figure GDA0002388643820000092
Figure GDA0002388643820000093
为边缘计算节点中VM处于不活跃状态时间的数学期望,E(tl)为SCD节点与边缘计算节点协作时间的期望;
θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。
δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失;
λi,k为SCD节点和边缘计算节点edge-VM的协作因子;
Figure GDA0002388643820000094
为SCD节点本地任务的完成率;μe边缘计算节点卸载任务的完成率;
(3)根据步骤(2)中获得的资源分配动作
Figure GDA0002388643820000095
更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1
AI训练任务k训练精度状态st采取的资源分配动作
Figure GDA0002388643820000096
后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为
Figure GDA0002388643820000097
(4)根据步骤(2)中获得的当前状态下所述AI训练任务k的资源分配动作
Figure GDA0002388643820000098
以及步骤(3)中获得的更新后所述AI训练任务k的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1
所述达到更新状态的防御奖励Rt+1按照如下方法计算:
Figure GDA0002388643820000101
其中,
Figure GDA0002388643820000102
为在AI训练任务k训练k精度状态st采取的资源分配动作
Figure GDA0002388643820000103
后状态转移到训练精度状态st+1时获得的奖励,
Figure GDA0002388643820000104
为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,
Figure GDA0002388643820000106
为SCD节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率。
由于资源受限的SCD节点无法在本地执行AI学习任务,SCD节点向edge-VM节点卸载AI学习任务,并调度AI学习任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI学习任务提供CPU和存储计算资源。AI学习任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中,我们能获得协作任务的完成时间Vco依赖于SCD节点本地任务的完成率
Figure GDA0002388643820000107
和边缘计算节点卸载任务的完成率μe,因此,我们能获得协作任务完成的概率
Figure GDA0002388643820000105
即,SCD节点和边缘计算节点edge-VM协作任务完成率为
Figure GDA0002388643820000111
协作因子为λi,k。因此,SCD节点和边缘计算节点edge-VM为AI训练任务k的协作关系h所需的资源为
Figure GDA0002388643820000112
其中,ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源。在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件为
Figure GDA0002388643820000113
(5)根据步骤(3)中获得的更新后所述AI训练任务k的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1(st,at);
所述Q值更新函数为:
Figure GDA0002388643820000114
其中,Qt+1(st,at)为更新后的Q值函数,αt为当前时刻t的学习率;Qt(st,at)为当前Q值,γ为折扣因子,Qt(st+1,a)为协作防御者在st+1状态的Q值,
Figure GDA0002388643820000115
为可能的资源分配值,A为资源分配的取值空间。
其中协作防御者在st+1状态的Q值Qt(st+1,a)按照如下方法计算:
Figure GDA0002388643820000116
其中
Figure GDA0002388643820000117
为边缘计算节点Q值更新函数,
Figure GDA0002388643820000118
为SCD节点Q值更新函数。
所述边缘计算节点Q值更新函数
Figure GDA0002388643820000119
为:
Figure GDA00023886438200001110
其中,E(·)为期望,
Figure GDA00023886438200001111
为边缘计算节点在状态
Figure GDA00023886438200001112
执行可能的资源分配值
Figure GDA00023886438200001113
时获得的奖励。
所述传感云设备节点Q值更新函数
Figure GDA0002388643820000121
为:
Figure GDA0002388643820000122
其中,
Figure GDA0002388643820000123
为传感云设备节点在状态
Figure GDA0002388643820000124
执行可能的资源分配值
Figure GDA0002388643820000125
时获得的奖励。
(6)判断步骤(4)中获得的更新后所述AI训练任务k的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤(1)。
以下为实施例:
基于贝叶斯博弈的SCD节点和边缘计算节点协作防御模型
由于资源受限的SCD节点无法在本地执行AI训练任务,SCD节点向edge-VM节点卸载AI训练任务,并调度AI训练任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI训练任务提供CPU和存储计算资源。AI训练任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中,我们能获得协作任务的完成时间Vco依赖于SCD节点本地任务的完成率
Figure GDA0002388643820000129
和边缘计算节点卸载任务的完成率μe,因此,我们能获得协作任务完成的概率
Figure GDA0002388643820000126
即,SCD节点和边缘计算节点edge-VM协作任务完成率为
Figure GDA0002388643820000127
协作因子为λi,k。因此,SCD节点和边缘计算节点edge-VM为AI训练任务k的协作关系h所需的资源为
Figure GDA0002388643820000128
其中,ri,k表示SCD节点i和边缘计算节点协作完成AI训练任务k的单位时间内使用的计算资源。在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件为
Figure GDA0002388643820000131
其中,δ0是SCD节点和边缘计算节点协作部署资源管理组件的资源损失。rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源。tj,k表示攻击者对AI训练任务k进行计时攻击的时间。θi,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。每个AI训练任务k的协作收益为一个指示函数,如果函数值为1,表明是一个AI训练任务k的精度最优解。相应的,在N个AI训练任务k中,SCD节点和边缘计算节点作为协作防御者,其协作收益定义为AI训练任务k的精度最优解的个数,其协作收益ui定义如下:
Figure GDA0002388643820000132
其中,1{·}是指示函数。另一方面,攻击者通过在边缘计算节点中运行恶意软件,产生对边缘计算节点的资源消耗为er且er>r,r表示edge-VM节点提供的最大资源。攻击者的目标是通过攻击策略使得协作AI训练任务k的完成时间增大,即(P{Vco>tth}),并且获得低精度的深度学习解。从而使得P{Vco<tth}内成功完成AI训练任务k所需的资源条件不成立。因此,我们模型化DDoS攻击者的收益函数为一个指示函数,指示函数的值为1,表明SCD节点和边缘计算节点的协作AI服务获得最差精度的解,相应的攻击者的收益uj如下:
Figure GDA0002388643820000133
协作防御者对攻击者的资源分配策略rj,k具有不完全知识,并且把他看作一个具有任意概率密度函数
Figure GDA0002388643820000141
的随机变量。类似地,DDoS攻击者对AI训练任务k协作防御者的资源分配策略ri,k具有不完全信息,并且把他看作一个具有任意概率密度函数
Figure GDA0002388643820000142
的随机变量。因此,在攻击防御的贝叶斯博弈中,协作防御者期望的效用为
Figure GDA0002388643820000143
其中,
Figure GDA0002388643820000144
是随机变量ri,k的累积分布函数,x为SCD节点和边缘计算节点协作使用处理资源的随机变量,其累积分布函数为
Figure GDA0002388643820000145
类似地,DDoS攻击者期望的效用为
Figure GDA0002388643820000146
其中,
Figure GDA0002388643820000147
是随机变量rj,k的累积分布函数,y为DDoS攻击者消耗协作防御者资源的随机变量,其累积分布函数为
Figure GDA0002388643820000148
最大化DDoS攻击者期望效用的资源分配策略
应用Karush-Kuhn-Tucker(KKT)方法来优化协作防御者期望的效用
Figure GDA0002388643820000149
如下:
Figure GDA00023886438200001410
其中,βi是协作防御者期望效用的KKT算子。DDoS攻击者对AI训练任务k攻击时最优的资源累积分布函数为
Figure GDA00023886438200001411
且计算如下:
Figure GDA00023886438200001412
从而得出DDoS攻击者的期望效用最大时,其资源策略取值范围为
Figure GDA0002388643820000151
最大化协作防御者期望效用的资源分配策略
DDoS攻击者改变其资源分布策略,使用KKT算子分析,DDoS攻击者最大化其期望的效用
Figure GDA0002388643820000152
如下:
Figure GDA0002388643820000153
其中,βj是DDoS攻击者最大化期望效用的KKT算子。
从而得出协作防御者获得最大的效用时,其策略分布为
Figure GDA0002388643820000154
资源分配策略区间为
Figure GDA0002388643820000155
基于keep live的具有不完全信息边缘计算节点的协作
Edge-VM节点的状态在活跃和不活跃状态之间切换。当edge-VM节点执行计算任务时,处于活跃状态;当edge-VM节点不执行计算任务时,为了节约能耗,edge-VM节点处于不活跃状态。SCD节点使用(keep live)KL机制判别edge-VM节点中VM的状态,SCD定期使用KL数据包检测edge-VM节点的状态信息并做决策判别其状态。由于DDoS攻击者的攻击使得SCD节点获取的edge-VM节点状态信息变得不准确。因此,对于SCD节点和edge-VM节点执行任务k的虚拟机状态将出现以下四种判别结果:(1)edge-VM节点处于不活跃状态,SCD节点推测出其处于不活跃状态,其概率用c00,k表示;(2)edge-VM节点处于不活跃状态,由于DDoS攻击者伪造edge-VM节点资源状态信息,使得SCD节点推测其处于活跃状态,其概率用c01,k;(3)edge-VM节点处于活跃状态,由于DDoS攻击者增加攻击强度,使得edge-VM节点处于瘫痪状态,SCD节点推测其处于不活跃状态,其概率用c10,k表示;(4)edge-VM节点处于活跃状态,SCD节点推测其处于活跃状态,其概率用c11,k表示。在考虑edge-VM节点不确定状态信息的情况下,DDoS攻击者期望的效用最大时,其资源策略取值范围为
Figure GDA0002388643820000161
类似地,协作防御者获得最大的效用时,其资源策略取值范围为:
Figure GDA0002388643820000162
SCD节点协作时间服从指数分布的概率密度函数为
Figure GDA0002388643820000163
边缘计算中edge-VM节点处于活跃状态的时间服从指数分布的概率密度函数为
Figure GDA0002388643820000164
edge-VM节点处于不活跃状态的时间服从指数分布的概率密度函数为
Figure GDA0002388643820000165
由此,我们可以得到
Figure GDA0002388643820000166
Figure GDA0002388643820000167
其中,E(·)表示期望,
Figure GDA0002388643820000168
为边缘计算节点中VM处于不活跃状态的时间,
Figure GDA0002388643820000169
为边缘计算节点中VM处于活跃状态的时间,tl为SCD节点与边缘计算节点协作的时间。
协作防御者的Q值计算
由于受攻击环境的不确定性,本发明将使用Q-learning在区间值上搜索最优的资源分配策略值。对于edge-VM节点,在时刻t,在区间
Figure GDA0002388643820000171
选择最优的资源分配的行动值。其策略函数为:
Figure GDA0002388643820000172
其中,
Figure GDA0002388643820000173
为edge-VM节点的随机策略选择概率。Q值更新函数为:
Figure GDA0002388643820000174
Figure GDA0002388643820000175
其中,E(·)为期望,
Figure GDA0002388643820000176
为边缘计算节点在状态
Figure GDA0002388643820000177
执行可能的资源分配值
Figure GDA0002388643820000178
时获得的奖励。
对于SCD节点,在时刻t,在区间
Figure GDA0002388643820000179
选择最优资源分配的行动值。其策略函数为:
Figure GDA00023886438200001710
其中,
Figure GDA00023886438200001711
为SCD节点的随机策略选择概率。Q值更新函数为:
Figure GDA00023886438200001712
Figure GDA00023886438200001713
其中,
Figure GDA00023886438200001714
为SCD节点在状态
Figure GDA00023886438200001715
执行可能的资源分配值
Figure GDA00023886438200001716
时获得的奖励。
SCD节点和边缘计算节点协作防御者在x区间上选择最优资源分配的行动值。协作防御的者的Q值更新函数为:
Figure GDA0002388643820000181
随机协作Q-learning的资源分配策略优化
由于DDoS攻击者的资源分配策略的不确定性导致AI训练任务k运行环境和状态变的不确定,AI训练任务k训练的运行状态空间有高精度、保持、低精度三个离散状态,即S={1,0,-1}。在这个马尔可夫决策过程(MDP)模型中,协作防御者在AI训练任务k的当前状态采用的资源分配动作得到的AI训练任务k训练精度的下一状态是不确定的,我们把AI训练任务k的训练精度的状态看做一个随机变量,令不确定性AI训练任务k训练精度状态迁移函数
Figure GDA0002388643820000186
如图2所示,AI训练任务k训练精度状态变化过程,由于DDoS的攻击使得AI计算环境变的不确定,AI训练任务k的训练精度试图往高精度方向增长时,成功的概率为0.7,保持不变的概率为0.25,向低精度方法减少的概率为0.05。
在AI训练任务k训练精度状态st采取的资源分配动作at后,下一训练精度状态st+1属于某一个状态的概率为
Figure GDA0002388643820000182
在随机情况下,MDP要求到达下一状态的概率由st和at决定。奖励函数定义如下:
Figure GDA0002388643820000183
故有,
Figure GDA0002388643820000184
为在AI训练任务k训练k精度状态st采取的资源分配动作
Figure GDA0002388643820000185
后状态转移到训练精度状态st+1时获得的奖励。
在图2中,协作性防御者的目标是为每个状态发现一个优化策略π*(st)∈A,使得协作防御者最大化其接收的累积奖赏Rt+1。策略映射函数定义如下:
Figure GDA0002388643820000191
协作防御者对于每个状态都能用非零的概率ξt∈(0,1)在区间x中随机地选择防御策略并执行资源分配的动作,或者以1-ξt的概率从最大Q值中选择资源分配动作。在协作防御者与计算环境的每一轮交互过程中,这两种资源分配动作选择方式可以交叉进行。在协作防御者从区间x中随机选择策略π的情况下,在协作防御时间阈值内,从初始状态开始期望的有限期折扣回报为
Figure GDA0002388643820000192
γ为折扣因子。在每个行动执行之后,Q(s,a)值更新如下:
Figure GDA0002388643820000193
其中,αt为当前时刻的学习率。
协作防御者与计算环境的交互过程图1所示,协作防御者在初始状态s0随机选择一个资源值,并通过策略映射函数赋值给at,由资源适配器执行资源分配
Figure GDA0002388643820000194
配置AI训练任务k计算环境资源并执行防御策略。AI训练任务k计算环境返回策略执行的奖励Rt+1及AI训练任务k的训练精度状态St+1,若Rt+1=1且st+1=1时,协作防御者与计算环境的交互过程结束,否则,开始新一轮的策略选择及资源分配的防御策略交互过程。具体可利用如下算法实现:
算法1基于区间的贪心Q学习算法
Input:折扣因子γ,随机策略选择概率设置
Figure GDA0002388643820000195
学习率设置
Figure GDA0002388643820000196
步骤1:初始化Q值函数,Q0←0
步骤2:给出初始状态s0
步骤3:For每个时间步t=0,1,2...do
步骤4:
Figure GDA0002388643820000201
步骤5:资源适配器应用资源分配动作
Figure GDA0002388643820000202
观测下一状态st+1,计算奖励值Rt+1
Figure GDA0002388643820000203
步骤6:更新Qt+1(st,at):
Figure GDA0002388643820000204
步骤7:如果Rt+1=1且st+1=1,则跳出for循环;否则,t=t+1,开始下一轮for循环。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种传感云环境下不确定性DDoS攻击防御方法,其特征在于,在t时刻按照以下步骤进行防御:
(1)执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协作防御者,获取当前状态下所述AI训练任务k的训练精度状态st和所述AI训练任务k的资源分配动作at,at∈A,其中A为资源分配的取值空间;
(2)根据步骤(1)获得的当前状态下所述AI训练任务k的训练精度状态st和所述AI训练任务k的资源分配动作at,基于马尔可夫过程采用Q-learning算法,确定资源分配动作
Figure FDA0002447481900000011
(3)根据步骤(2)中获得的资源分配动作
Figure FDA0002447481900000012
更新资源适配器对所述AI训练任务k分配的资源,并获取更新后所述AI训练任务k的训练精度状态st+1
(4)根据步骤(2)中获得的当前状态下所述AI训练任务k的资源分配动作
Figure FDA0002447481900000013
以及步骤(3)中获得的更新后所述AI训练任务k的训练精度状态st+1,根据Q-learning算法计算达到更新状态的防御奖励Rt+1;所述达到更新状态的防御奖励Rt+1按照如下方法计算:
Figure FDA0002447481900000014
其中,
Figure FDA0002447481900000015
为在AI训练任务k训练精度状态st采取的资源分配动作
Figure FDA0002447481900000016
后状态转移到训练精度状态st+1时获得的奖励,
Figure FDA0002447481900000017
为在时间阈值tth,P{Vco<tth}内成功完成AI训练任务k所需的资源条件,P{Vco<tth}为AI训练任务k训练k的完成时间Vco小于其阈值时间的概率,观察获取:ri,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源,Vco为协作任务的完成时间,δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;rj,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源;tj,k表示攻击者对AI训练任务k进行计时攻击的时间;θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;λi,k为协作因子,
Figure FDA0002447481900000021
为传感云设备节点本地任务的完成率,μe为边缘计算节点卸载任务的完成率,ti,k为传感云设备节点和边缘计算节点运行AI训练任务k的时间;
(5)根据步骤(3)中获得的更新后所述AI训练任务k的训练精度状态st+1更新Q值函数,获得更新后的Q值Qt+1(st,at);
(6)判断步骤(3)中获得的更新后所述AI训练任务k的训练精度状态st+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励Rt+1是否满足预设的奖励要求,当同时满足训练精度要求和奖励要求时,结束;否则进入t+1时刻跳转到步骤(1)。
2.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤(2)所述资源分配动作
Figure FDA0002447481900000022
为:
(2-1)以ξt的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作
Figure FDA0002447481900000023
(2-2)以1-ξt的概率在最大Q值中获得AI的资源分配动作
Figure FDA0002447481900000024
作为更新状态下所述AI训练任务k的资源分配动作at+1
3.如权利要求2所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,协作防御者获得最大的效用时其资源策略取值范围,即区间x为
Figure FDA0002447481900000031
其中:
c00,k为边缘计算节点处于不活跃状态且传感云设备节点推测出其处于不活跃状态的概率,
Figure FDA0002447481900000032
Figure FDA0002447481900000033
为边缘计算节点中VM处于不活跃状态时间的数学期望,
Figure FDA0002447481900000034
为边缘计算节点中VM处于活跃状态时间的数学期望,
βj是DDoS攻击者最大化期望效用的KKT算子;
tj,k表示攻击者对AI训练任务k进行计时攻击的时间;
εj,k=c00,k+c10,k;c10,k为边缘计算节点处于活跃状态,且由于DDoS攻击者增加攻击强度,使得VM虚拟机处于瘫痪状态,传感云设备节点推测其处于不活跃状态的概率,且
Figure FDA0002447481900000035
Figure FDA0002447481900000036
为边缘计算节点中VM处于不活跃状态时间的数学期望,E(tl)为传感云设备节点与边缘计算节点协作时间的期望;
θi,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求;
δ0是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失;
λi,k为传感云设备节点和边缘计算节点的协作因子;
Figure FDA0002447481900000037
为传感云设备节点本地任务的完成率;μe为边缘计算节点卸载任务的完成率;
ti,k为传感云设备节点和边缘计算节点运行AI训练任务k的时间。
4.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤(3)所述AI训练任务k训练精度状态st采取的资源分配动作
Figure FDA0002447481900000041
后,更新后所述AI训练任务k的训练精度状态st+1属于某一个状态的概率为
Figure FDA0002447481900000042
5.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,步骤(5)所述Q值更新函数为:
Figure 1
其中,Qt+1(st,at)为更新后的Q值,αt为当前时刻t的学习率;Qt(st,at)为当前Q值,γ为折扣因子,Qt(st+1,at)为协作防御者在st+1状态的Q值,a为可能的资源分配值,A为资源分配的取值空间。
6.如权利要求5所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述协作防御者在st+1状态的Q值Qt(st+1,at)按照如下方法计算:
Figure FDA0002447481900000044
其中
Figure FDA0002447481900000045
为边缘计算节点Q值更新函数,
Figure FDA0002447481900000046
为传感云设备节点Q值更新函数。
7.如权利要求6所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述边缘计算节点Q值更新函数
Figure FDA0002447481900000047
为:
Figure FDA0002447481900000048
其中,E(·)为期望,
Figure FDA0002447481900000049
为边缘计算节点在状态
Figure FDA00024474819000000410
执行可能的资源分配值
Figure FDA00024474819000000411
时获得的奖励。
8.如权利要求6所述的传感云环境下不确定性DDoS攻击防御方法,其特征在于,所述传感云设备节点Q值更新函数
Figure FDA00024474819000000412
为:
Figure FDA0002447481900000051
其中,
Figure FDA0002447481900000052
为传感云设备节点在状态
Figure FDA0002447481900000053
执行可能的资源分配值
Figure FDA0002447481900000054
时获得的奖励。
CN201910767115.6A 2019-08-20 2019-08-20 一种传感云环境下不确定性DDoS攻击防御方法 Active CN110401675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910767115.6A CN110401675B (zh) 2019-08-20 2019-08-20 一种传感云环境下不确定性DDoS攻击防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910767115.6A CN110401675B (zh) 2019-08-20 2019-08-20 一种传感云环境下不确定性DDoS攻击防御方法

Publications (2)

Publication Number Publication Date
CN110401675A CN110401675A (zh) 2019-11-01
CN110401675B true CN110401675B (zh) 2020-07-03

Family

ID=68328708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910767115.6A Active CN110401675B (zh) 2019-08-20 2019-08-20 一种传感云环境下不确定性DDoS攻击防御方法

Country Status (1)

Country Link
CN (1) CN110401675B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110958135B (zh) * 2019-11-05 2021-07-13 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN110955463B (zh) * 2019-12-03 2022-07-29 缀初网络技术(上海)有限公司 支持边缘计算的物联网多用户计算卸载方法
CN112187710B (zh) * 2020-08-17 2022-10-21 杭州安恒信息技术股份有限公司 威胁情报数据的感知方法、装置、电子装置和存储介质
CN111988415B (zh) * 2020-08-26 2021-04-02 绍兴文理学院 基于模糊博弈的移动传感设备计算任务安全卸载方法
CN111988340B (zh) * 2020-09-09 2022-04-29 中国人民解放军国防科技大学 基于深度迁移学习的小样本DDoS攻击检测方法
CN113407248B (zh) * 2020-12-11 2024-06-21 绍兴文理学院 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法
CN112887272B (zh) * 2021-01-12 2022-06-28 绍兴文理学院 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法
CN112887332A (zh) * 2021-03-01 2021-06-01 山西警察学院 云环境下的ddos攻击检测方法
CN113329067A (zh) * 2021-05-21 2021-08-31 广州爱浦路网络技术有限公司 边缘计算节点负荷分配方法、核心网、装置和存储介质
CN114727423A (zh) * 2022-04-02 2022-07-08 北京邮电大学 一种gf-noma系统中的个性化接入方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617931A (zh) * 2019-02-20 2019-04-12 电子科技大学 一种SDN控制器的DDoS攻击防御方法及防御系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10601858B2 (en) * 2017-01-31 2020-03-24 Scythe, Inc. Endpoint vulnerability analysis platform with intelligent threat actors
CN107332855B (zh) * 2017-07-20 2020-04-28 浙江大学 基于增强学习算法的主用户仿真攻击检测方法
CN108809979A (zh) * 2018-06-11 2018-11-13 中国人民解放军战略支援部队信息工程大学 基于Q-learning的自动入侵响应决策方法
CN109639515A (zh) * 2019-02-16 2019-04-16 北京工业大学 基于隐马尔可夫和Q学习协作的DDoS攻击检测方法
CN109951451A (zh) * 2019-02-21 2019-06-28 北京工业大学 雾计算中一种基于强化学习的伪装攻击检测方法
CN110049497B (zh) * 2019-04-11 2022-09-09 北京工业大学 移动雾计算中一种面向用户的智能攻击防御方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617931A (zh) * 2019-02-20 2019-04-12 电子科技大学 一种SDN控制器的DDoS攻击防御方法及防御系统

Also Published As

Publication number Publication date
CN110401675A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN110401675B (zh) 一种传感云环境下不确定性DDoS攻击防御方法
Shirvani A hybrid meta-heuristic algorithm for scientific workflow scheduling in heterogeneous distributed computing systems
Dong et al. A supervised learning and control method to improve particle swarm optimization algorithms
US11188643B2 (en) Methods and apparatus for detecting a side channel attack using hardware performance counters
Kousiouris et al. The effects of scheduling, workload type and consolidation scenarios on virtual machine performance and their prediction through optimized artificial neural networks
Zheng et al. Stochastic DAG scheduling using a Monte Carlo approach
Nguyen et al. Regret-based optimization and preference elicitation for Stackelberg security games with uncertainty
US20130191612A1 (en) Interference-driven resource management for gpu-based heterogeneous clusters
Shahidinejad et al. Context-aware multi-user offloading in mobile edge computing: a federated learning-based approach
CN108701260B (zh) 用于辅助决策的系统和方法
CN110673951A (zh) 通用运行环境的拟态调度方法、系统及介质
Eghtesad et al. Adversarial deep reinforcement learning based adaptive moving target defense
Chejerla et al. QoS guaranteeing robust scheduling in attack resilient cloud integrated cyber physical system
CN112887272B (zh) 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法
Boveiri An incremental ant colony optimization based approach to task assignment to processors for multiprocessor scheduling
CN115580430A (zh) 一种基于深度强化学习的攻击树蜜罐部署防御方法与装置
Aguzzi et al. Machine learning for aggregate computing: a research roadmap
Muthumanickam et al. Optimization of rootkit revealing system resources–A game theoretic approach
Cámara et al. Analyzing self-adaptation via model checking of stochastic games
Brahmam et al. VMMISD: An Efficient Load Balancing Model for Virtual Machine Migrations via Fused Metaheuristics With Iterative Security Measures and Deep Learning Optimizations
Didona et al. Hybrid machine learning/analytical models for performance prediction: A tutorial
Kmiecik et al. Task allocation in mesh connected processors with local search meta-heuristic algorithms
Hiremath et al. Energy efficient data migration concerning interoperability using optimized deep learning in container-based heterogeneous cloud computing
Vejandla et al. Evolving gaming strategies for attacker-defender in a simulated network environment
Padmajothi et al. Adaptive neural fuzzy inference system-based scheduler for cyber–physical system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant