CN110401675B

CN110401675B - 一种传感云环境下不确定性DDoS攻击防御方法

Info

Publication number: CN110401675B
Application number: CN201910767115.6A
Authority: CN
Inventors: 刘建华; 沈士根; 周海平; 冯晟
Original assignee: University of Shaoxing
Current assignee: University of Shaoxing
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2020-07-03
Anticipated expiration: 2039-08-20
Also published as: CN110401675A

Abstract

本发明公开了一种传感云环境下不确定性DDoS攻击防御方法，其特征在于，在t时刻按照以下步骤进行防御：(1)协作防御者，获取当前状态下AI训练任务的训练精度s_t和AI训练任务k的资源分配动作；(2)基于马尔可夫过程采用Q‑learning算法，确定资源分配动作

(3)更新资源适配器对AI训练任务k分配的资源，并获取更新后AI训练任务k的训练精度状态s_t+1；(4)计算达到更新状态的防御奖励R_t+1；(5)更新Q值函数；(6)判断是否超满足于预设的训练精度要求、以及是否满足预设的奖励要求。本发明使得协作防御者在资源分配区间中获得最优的资源分配策略，对抗DDoS攻击。

Description

一种传感云环境下不确定性DDoS攻击防御方法

技术领域

本发明属于信息安全领域，更具体地，涉及一种传感云环境下不确定性DDoS攻击防御方法。

背景技术

传感云作为一种集中式虚拟化技术实现了动态资源管理，传感云设备(SCD)可以“按需”从边缘计算节点(edge-VM)获取计算资源。由于传感云平台通过共享计算资源来提供服务，容易产生资源使用冲突，这使得传感云平台灵活的配置共享资源面临挑战。特别是，SCD节点卸载AI处理任务到传感云平台时，不仅导致SCD节点之间竞争分配资源，还会降低传感云计算平台的性能和可靠性，使其极易受到恶意节点的攻击。因此，在为竞争任务调度环境设计安全的资源共享管理策略时，应考虑用户恶意使用资源对传感云平台安全性造成的影响。

在实际应用中，传感云平台的SaaS层容易受到多种安全攻击，包括分布式拒绝服务(DDoS)攻击、身份验证攻击、SQL注入攻击、corba站点脚本攻击、XML签名包装攻击、基于应用程序的攻击等。由于在低带宽的SaaS层中运行的数据密集型应用程序会吸引攻击者注意，恶意的SCD节点可通过在云计算平台上运行数据密集型AI应用程序发起DDoS攻击，显著增加资源的分配力度，使合法的SCD节点卸载的任务运行失败或增加其完成时间，而合法的SCD节点则尝试使用足够分配的资源进行计算，以确保处理任务完成的同时对抗安全威胁。

目前关于云安全防御的研究大多以博弈论建模为主，在G Fan等人的研究中(GameTheoretic Method to Model and Evaluate Attack-Defense Strategy in CloudComputing)，作者提出了一种基于随机博弈的云计算攻防策略建模与评估方法，利用Petri网的相关理论验证了该方法的正确性。在T Spyridopoulos等人的研究中(A gametheoretic defence framework against DoS/DDoS cyber attacks.)，作者考虑了执行攻击的成本、攻击节点的数量和恶意流量概率分布，并设置了攻击者收益的上限，将DDoS攻击建模为非合作、零和博弈。在A Abeshu等人的研究中(Deep Learning:The Frontier forDistributed Attack Detection in Fog-to-Things Computing.)，作者基于雾计算提出了一种分布式深度学习驱动的攻击检测方案，在雾节点支持的分布式物联网上使用深度学习模型训练攻击检测系统，提高了网络攻击检测的准确性和效率。在B Anggorojati等人的研究中(An Intrusion Detection game in access control system for the M2M localcloud platform.)。作者研究了多阶段贝叶斯博弈中理性攻击者与防御者之间的交互。在一定的攻击和监控资源约束下，针对给定的一组具有不同安全值的资源，设计了一个理性攻击者和防御者的分析框架。

这些方法存在如下不足：

(1)已提出的方法仅考虑了云计算系统攻防策略建模，不能处理AI训练任务k卸载攻击问题，也未通过SCD节点和边缘计算节点协作来防御攻击。

(2)AI计算任务的卸载和执行具有完成时间和训练精度的不确定性，受到DDoS攻击时，如何针对不确定性DDoS攻击，优化资源分配策略来防御攻击，以上的方法均没有给出合适的解决方法。

(3)虽然基于雾计算的分布式深度学习驱动的攻击检测方案提高了网络攻击检测的准确性，但对于AI训练任务k的卸载时受到的DDoS攻击未设计有效的资源分配方案来防御攻击。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种传感云环境下不确性DDoS攻击防御方法，其目的在于通过考虑资源信息的不完全性和边缘计算节点状态的不确定性来防御机边缘计算节点中AI训练任务k的DDoS攻击，从而确保传感云平台受到DDoS攻击时，通过资源分配策略完成AI训练任务k，由此解决现有技术对传感云中边缘计算节点运行的AI训练任务k受到不确定DDoS攻击时无法防御的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种传感云环境下不确定性DDoS攻击防御方法，在t时刻按照以下步骤进行防御：

(1)执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协作防御者，获取当前状态下所述AI训练任务k的训练精度s_t和所述AI训练任务k的资源分配动作a_t∈A，其中A为资源分配的取值空间；

(2)根据步骤(1)获得的当前状态下所述AI训练任务k的训练精度s_t和所述AI训练任务k的资源分配动作a_t，基于马尔可夫过程采用Q-learning算法，确定资源分配动作

(3)根据步骤(2)中获得的资源分配动作

更新资源适配器对所述AI训练任务k分配的资源，并获取更新后所述AI训练任务k的训练精度状态s_t+1；

(4)根据步骤(2)中获得的当前状态下所述AI训练任务k的资源分配动作

以及步骤(3)中获得的更新后所述AI训练任务k的训练精度状态s_t+1，根据Q-learning算法计算达到更新状态的防御奖励R_t+1；

(5)根据步骤(3)中获得的更新后所述AI训练任务k的训练精度状态s_t+1更新Q值函数，获得更新后的Q值Q_t+1(s_t,a_t)；

(6)判断步骤(4)中获得的更新后所述AI训练任务k的训练精度状态s_t+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励R_t+1是否满足预设的奖励要求，当同时满足训练精度要求和奖励要求时，结束；否则进入t+1时刻跳转到步骤(1)。

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其步骤(2)所述资源分配动作

为：

(2-1)以ξ_t的概率在协作防御者获得最大的效用时其资源策略取值范围即区间x中随机地选择资源分配动作

或

(2-2)以1-ξ_t的概率在最大Q值中获得AI的资源分配动作

作为更新状态下所述AI训练任务k的资源分配动作a_t+1。

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其协作防御者获得最大的效用时其资源策略取值范围，即区间x为

其中：

c_00,k为边缘计算节点处于不活跃状态且传感云设备节点推测出其处于不活跃状态的概率，

为边缘计算节点中VM处于不活跃状态时间的数学期望，

为边缘计算节点中VM处于活跃状态时间的期望，

β_j是DDoS攻击者最大化期望效用的KKT算子；

t_j,k表示攻击者对AI训练任务k进行计时攻击的时间；

ε_j,k＝c_00,k+c_10,k；c_10,k为边缘计算节点处于活跃状态，由于DDoS攻击者增加攻击强度，使得VM虚拟机处于瘫痪状态，传感云设备节点推测其处于不活跃状态的概率，且

为边缘计算节点中VM处于不活跃状态时间的数学期望，E(t_l)为传感云设备节点与边缘计算节点协作时间的期望；

θ_i,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求。

δ₀是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失；

λ_i,k为传感云设备节点和边缘计算节点的协作因子；

为传感云设备节点本地任务的完成率；μ_e边缘计算节点卸载任务的完成率。

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其步骤(3)所述AI训练任务k训练精度状态s_t采取的资源分配动作

后，更新后所述AI训练任务k的训练精度状态s_t+1属于某一个状态的概率为

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其步骤(4)所述达到更新状态的防御奖励R_t+1按照如下方法计算：

其中，

为在AI训练任务k训练k精度状态s_t采取的资源分配动作

后状态转移到训练精度状态s_t+1时获得的奖励，

为在时间阈值t_th，P{V^co＜t_th}内成功完成AI训练任务k所需的资源条件，P{V^co＜t_th}为AI训练任务k训练k的完成时间V^co小于其阈值时间的概率，观察获取：r_i,k表示传感云设备节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源，V^co为协作任务的完成时间，δ₀是传感云设备节点和边缘计算节点协作部署资源管理组件的资源损失；r_j,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的传感云设备节点和边缘计算节点的协作资源；t_j,k表示攻击者对AI训练任务k进行计时攻击的时间；θ_i,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求；λ_i,k为协作因子，

为传感云设备节点本地任务的完成率，μ_e为边缘计算节点卸载任务的完成率。

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其步骤(5)所述Q值更新函数为：

其中，Q_t+1(s_t,a_t)为更新后的Q值，α_t为当前时刻t的学习率；Q_t(s_t,a_t)为当前Q值，γ为折扣因子，Q_t(s_t+1,a)为协作防御者在s_t+1状态的Q值，a为可能的资源分配值，A为资源分配的取值空间。

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其所述协作防御者在s_t+1状态的Q值Q_t(s_t+1,a)按照如下方法计算：

其中

为边缘计算节点Q值更新函数，

为传感云设备节点Q值更新函数。

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其所述边缘计算节点Q值更新函数

为：

其中，E(·)为期望，

为边缘计算节点在状态

执行可能的资源分配值

时获得的奖励。

优选地，所述传感云环境下不确定性DDoS攻击防御方法，其所述传感云设备节点Q值更新函数

为：

其中，

为传感云设备节点在状态

执行可能的资源分配值

时获得的奖励。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明通过建立不完全信息情况下协作防御者和DDoS攻击者之间攻击防御的贝叶斯博弈模型，在边缘节点edge-VM的状态信息不完全的前提下，分析攻击防御策略，基于Q-learning的更新算法，通过与AI任务计算环境的交互，使得协作防御者在资源分配区间中获得最优的资源分配策略，对抗DDoS攻击。

附图说明

图1是本发明提供的优传感云环境下不确定性DDoS攻击防御方法流程示意图；

图2是本发明实施例提供的受攻击AI训练任务k训练精度状态变化过程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的传感云环境下不确定性DDoS攻击防御方法，如图1所示，在t时刻按照以下步骤进行防御：

(1)执行同一AI训练任务k的传感云设备节点(SCD节点)和边缘计算节点(edge-VM节点)作为协作防御者，获取当前状态下所述AI训练任务k的训练精度s_t和所述AI训练任务k的资源分配动作a_t∈A，其中A为资源分配动作空间；

所述资源分配动作

为：

或

(2-2)以1-ξ_t的概率在最大Q值中获得AI的资源分配动作

作为更新状态下所述AI训练任务k的资源分配动作a_t+1；

即所述选择AI的资源分配动作

按照如下方法计算：

其中Q_t(s_t,a_t)为当前Q值函数，ξ_t为随机策略选择概率，区间x为协作防御者获得最大的效用时其资源策略取值范围。

实际应用时，在每一轮迭代中，这两种资源分配动作选择方式可以交叉进行。

协作防御者获得最大的效用时其资源策略取值范围，即区间x为

其中：

c_00,k为edge-VM节点处于不活跃状态且SCD节点推测出其处于不活跃状态的概率，

为边缘计算节点中VM处于不活跃状态时间的数学期望，

为边缘计算节点中VM处于活跃状态时间的期望；

β_j是DDoS攻击者最大化期望效用的KKT算子；

t_j,k表示攻击者对AI训练任务k进行计时攻击的时间；

ε_j,k＝c_00,k+c_10,k，c_10,k为edge-VM节点处于活跃状态，由于DDoS攻击者增加攻击强度，使得VM虚拟机处于瘫痪状态，SCD节点推测其处于不活跃状态的概率，且

为边缘计算节点中VM处于不活跃状态时间的数学期望，E(t_l)为SCD节点与边缘计算节点协作时间的期望；

θ_i,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。

δ₀是SCD节点和边缘计算节点协作部署资源管理组件的资源损失；

λ_i,k为SCD节点和边缘计算节点edge-VM的协作因子；

为SCD节点本地任务的完成率；μ_e边缘计算节点卸载任务的完成率；

(3)根据步骤(2)中获得的资源分配动作

AI训练任务k训练精度状态s_t采取的资源分配动作

所述达到更新状态的防御奖励R_t+1按照如下方法计算：

其中，

为在AI训练任务k训练k精度状态s_t采取的资源分配动作

后状态转移到训练精度状态s_t+1时获得的奖励，

为在时间阈值t_th，P{V^co＜t_th}内成功完成AI训练任务k所需的资源条件，P{V^co＜t_th}为AI训练任务k训练k的完成时间V^co小于其阈值时间的概率，观察获取：r_i,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源，V^co为协作任务的完成时间，δ₀是SCD节点和边缘计算节点协作部署资源管理组件的资源损失；r_j,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源；t_j,k表示攻击者对AI训练任务k进行计时攻击的时间；θ_i,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求；λ_i,k为协作因子，

为SCD节点本地任务的完成率，μ_e为边缘计算节点卸载任务的完成率。

由于资源受限的SCD节点无法在本地执行AI学习任务，SCD节点向edge-VM节点卸载AI学习任务，并调度AI学习任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI学习任务提供CPU和存储计算资源。AI学习任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中，我们能获得协作任务的完成时间V^co依赖于SCD节点本地任务的完成率

和边缘计算节点卸载任务的完成率μ_e，因此，我们能获得协作任务完成的概率

即，SCD节点和边缘计算节点edge-VM协作任务完成率为

协作因子为λ_i,k。因此，SCD节点和边缘计算节点edge-VM为AI训练任务k的协作关系h所需的资源为

其中，r_i,k表示SCD节点i和边缘计算节点协作完成AI训练任务k单位时间内使用的计算资源。在时间阈值t_th，P{V^co＜t_th}内成功完成AI训练任务k所需的资源条件为

所述Q值更新函数为：

其中，Q_t+1(s_t,a_t)为更新后的Q值函数，α_t为当前时刻t的学习率；Q_t(s_t,a_t)为当前Q值，γ为折扣因子，Q_t(s_t+1,a)为协作防御者在s_t+1状态的Q值，

为可能的资源分配值，A为资源分配的取值空间。

其中协作防御者在s_t+1状态的Q值Q_t(s_t+1,a)按照如下方法计算：

其中

为边缘计算节点Q值更新函数，

为SCD节点Q值更新函数。

所述边缘计算节点Q值更新函数

为：

其中，E(·)为期望，

为边缘计算节点在状态

执行可能的资源分配值

时获得的奖励。

所述传感云设备节点Q值更新函数

为：

其中，

为传感云设备节点在状态

执行可能的资源分配值

时获得的奖励。

以下为实施例：

基于贝叶斯博弈的SCD节点和边缘计算节点协作防御模型

由于资源受限的SCD节点无法在本地执行AI训练任务，SCD节点向edge-VM节点卸载AI训练任务，并调度AI训练任务到edge-VM节点的计算资源池中。Edge-VM节点能同时为N个AI训练任务提供CPU和存储计算资源。AI训练任务的完成时间随着CPU资源和edge-VM的状态而变化。SCD节点执行部分验证任务并且边缘计算节点执行部分训练任务。从SCD和边缘计算节点协作处理任务过程中，我们能获得协作任务的完成时间V^co依赖于SCD节点本地任务的完成率

即，SCD节点和边缘计算节点edge-VM协作任务完成率为

其中，r_i,k表示SCD节点i和边缘计算节点协作完成AI训练任务k的单位时间内使用的计算资源。在时间阈值t_th，P{V^co＜t_th}内成功完成AI训练任务k所需的资源条件为

其中，δ₀是SCD节点和边缘计算节点协作部署资源管理组件的资源损失。r_j,k是攻击者j对AI训练任务k进行DDoS攻击时消耗的SCD节点和边缘计算节点的协作资源。t_j,k表示攻击者对AI训练任务k进行计时攻击的时间。θ_i,k表示SCD节点和边缘计算节点协作完成AI训练任务k的最小资源需求。每个AI训练任务k的协作收益为一个指示函数，如果函数值为1，表明是一个AI训练任务k的精度最优解。相应的，在N个AI训练任务k中，SCD节点和边缘计算节点作为协作防御者，其协作收益定义为AI训练任务k的精度最优解的个数，其协作收益u_i定义如下：

其中，1{·}是指示函数。另一方面，攻击者通过在边缘计算节点中运行恶意软件，产生对边缘计算节点的资源消耗为e_r且e_r＞r，r表示edge-VM节点提供的最大资源。攻击者的目标是通过攻击策略使得协作AI训练任务k的完成时间增大，即(P{V^co＞t_th}),并且获得低精度的深度学习解。从而使得P{V^co＜t_th}内成功完成AI训练任务k所需的资源条件不成立。因此，我们模型化DDoS攻击者的收益函数为一个指示函数，指示函数的值为1，表明SCD节点和边缘计算节点的协作AI服务获得最差精度的解，相应的攻击者的收益u_j如下：

协作防御者对攻击者的资源分配策略r_j,k具有不完全知识，并且把他看作一个具有任意概率密度函数

的随机变量。类似地，DDoS攻击者对AI训练任务k协作防御者的资源分配策略r_i,k具有不完全信息，并且把他看作一个具有任意概率密度函数

的随机变量。因此，在攻击防御的贝叶斯博弈中，协作防御者期望的效用为

其中，

是随机变量r_i,k的累积分布函数，x为SCD节点和边缘计算节点协作使用处理资源的随机变量，其累积分布函数为

类似地，DDoS攻击者期望的效用为

其中，

是随机变量r_j,k的累积分布函数，y为DDoS攻击者消耗协作防御者资源的随机变量，其累积分布函数为

最大化DDoS攻击者期望效用的资源分配策略

应用Karush-Kuhn-Tucker(KKT)方法来优化协作防御者期望的效用

如下：

其中，β_i是协作防御者期望效用的KKT算子。DDoS攻击者对AI训练任务k攻击时最优的资源累积分布函数为

且计算如下:

从而得出DDoS攻击者的期望效用最大时，其资源策略取值范围为

最大化协作防御者期望效用的资源分配策略

DDoS攻击者改变其资源分布策略，使用KKT算子分析，DDoS攻击者最大化其期望的效用

如下：

其中，β_j是DDoS攻击者最大化期望效用的KKT算子。

从而得出协作防御者获得最大的效用时，其策略分布为

资源分配策略区间为

基于keep live的具有不完全信息边缘计算节点的协作

Edge-VM节点的状态在活跃和不活跃状态之间切换。当edge-VM节点执行计算任务时，处于活跃状态；当edge-VM节点不执行计算任务时，为了节约能耗，edge-VM节点处于不活跃状态。SCD节点使用(keep live)KL机制判别edge-VM节点中VM的状态，SCD定期使用KL数据包检测edge-VM节点的状态信息并做决策判别其状态。由于DDoS攻击者的攻击使得SCD节点获取的edge-VM节点状态信息变得不准确。因此，对于SCD节点和edge-VM节点执行任务k的虚拟机状态将出现以下四种判别结果：(1)edge-VM节点处于不活跃状态，SCD节点推测出其处于不活跃状态，其概率用c_00,k表示；(2)edge-VM节点处于不活跃状态，由于DDoS攻击者伪造edge-VM节点资源状态信息，使得SCD节点推测其处于活跃状态，其概率用c_01,k；(3)edge-VM节点处于活跃状态，由于DDoS攻击者增加攻击强度，使得edge-VM节点处于瘫痪状态，SCD节点推测其处于不活跃状态，其概率用c_10,k表示；(4)edge-VM节点处于活跃状态，SCD节点推测其处于活跃状态，其概率用c_11,k表示。在考虑edge-VM节点不确定状态信息的情况下,DDoS攻击者期望的效用最大时，其资源策略取值范围为

类似地，协作防御者获得最大的效用时，其资源策略取值范围为：

SCD节点协作时间服从指数分布的概率密度函数为

边缘计算中edge-VM节点处于活跃状态的时间服从指数分布的概率密度函数为

edge-VM节点处于不活跃状态的时间服从指数分布的概率密度函数为

由此，我们可以得到

其中，E(·)表示期望，

为边缘计算节点中VM处于不活跃状态的时间，

为边缘计算节点中VM处于活跃状态的时间，t_l为SCD节点与边缘计算节点协作的时间。

协作防御者的Q值计算

由于受攻击环境的不确定性，本发明将使用Q-learning在区间值上搜索最优的资源分配策略值。对于edge-VM节点，在时刻t，在区间

选择最优的资源分配的行动值。其策略函数为：

其中，

为edge-VM节点的随机策略选择概率。Q值更新函数为：

其中，E(·)为期望，

为边缘计算节点在状态

执行可能的资源分配值

时获得的奖励。

对于SCD节点，在时刻t，在区间

选择最优资源分配的行动值。其策略函数为：

其中，

为SCD节点的随机策略选择概率。Q值更新函数为：

其中，

为SCD节点在状态

执行可能的资源分配值

时获得的奖励。

SCD节点和边缘计算节点协作防御者在x区间上选择最优资源分配的行动值。协作防御的者的Q值更新函数为：

随机协作Q-learning的资源分配策略优化

由于DDoS攻击者的资源分配策略的不确定性导致AI训练任务k运行环境和状态变的不确定，AI训练任务k训练的运行状态空间有高精度、保持、低精度三个离散状态，即S＝{1,0,-1}。在这个马尔可夫决策过程(MDP)模型中，协作防御者在AI训练任务k的当前状态采用的资源分配动作得到的AI训练任务k训练精度的下一状态是不确定的，我们把AI训练任务k的训练精度的状态看做一个随机变量，令不确定性AI训练任务k训练精度状态迁移函数

如图2所示，AI训练任务k训练精度状态变化过程，由于DDoS的攻击使得AI计算环境变的不确定，AI训练任务k的训练精度试图往高精度方向增长时，成功的概率为0.7，保持不变的概率为0.25，向低精度方法减少的概率为0.05。

在AI训练任务k训练精度状态s_t采取的资源分配动作a_t后，下一训练精度状态s_t+1属于某一个状态的概率为

在随机情况下，MDP要求到达下一状态的概率由s_t和a_t决定。奖励函数定义如下：

故有，

为在AI训练任务k训练k精度状态s_t采取的资源分配动作

后状态转移到训练精度状态s_t+1时获得的奖励。

在图2中，协作性防御者的目标是为每个状态发现一个优化策略π^*(s_t)∈A，使得协作防御者最大化其接收的累积奖赏R_t+1。策略映射函数定义如下：

协作防御者对于每个状态都能用非零的概率ξ_t∈(0,1)在区间x中随机地选择防御策略并执行资源分配的动作，或者以1-ξ_t的概率从最大Q值中选择资源分配动作。在协作防御者与计算环境的每一轮交互过程中，这两种资源分配动作选择方式可以交叉进行。在协作防御者从区间x中随机选择策略π的情况下，在协作防御时间阈值内，从初始状态开始期望的有限期折扣回报为

γ为折扣因子。在每个行动执行之后，Q(s,a)值更新如下：

其中，α_t为当前时刻的学习率。

协作防御者与计算环境的交互过程图1所示，协作防御者在初始状态s₀随机选择一个资源值，并通过策略映射函数赋值给a_t，由资源适配器执行资源分配

配置AI训练任务k计算环境资源并执行防御策略。AI训练任务k计算环境返回策略执行的奖励R_t+1及AI训练任务k的训练精度状态S_t+1，若R_t+1＝1且s_t+1＝1时，协作防御者与计算环境的交互过程结束，否则，开始新一轮的策略选择及资源分配的防御策略交互过程。具体可利用如下算法实现：

算法1基于区间的贪心Q学习算法

Input:折扣因子γ，随机策略选择概率设置

学习率设置

步骤1：初始化Q值函数，Q₀←0

步骤2：给出初始状态s₀

步骤3：For每个时间步t＝0,1,2...do

步骤4：

步骤5：资源适配器应用资源分配动作

观测下一状态s_t+1,计算奖励值R_t+1

步骤6：更新Q_t+1(s_t,a_t)：

步骤7：如果R_t+1＝1且s_t+1＝1，则跳出for循环；否则，t＝t+1,开始下一轮for循环。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种传感云环境下不确定性DDoS攻击防御方法，其特征在于，在t时刻按照以下步骤进行防御：

(1)执行同一AI训练任务k的传感云设备节点和边缘计算节点作为协作防御者，获取当前状态下所述AI训练任务k的训练精度状态s_t和所述AI训练任务k的资源分配动作a_t，a_t∈A，其中A为资源分配的取值空间；

(2)根据步骤(1)获得的当前状态下所述AI训练任务k的训练精度状态s_t和所述AI训练任务k的资源分配动作a_t，基于马尔可夫过程采用Q-learning算法，确定资源分配动作

(3)根据步骤(2)中获得的资源分配动作

以及步骤(3)中获得的更新后所述AI训练任务k的训练精度状态s_t+1，根据Q-learning算法计算达到更新状态的防御奖励R_t+1；所述达到更新状态的防御奖励R_t+1按照如下方法计算：

其中，

为在AI训练任务k训练精度状态s_t采取的资源分配动作

后状态转移到训练精度状态s_t+1时获得的奖励，

为传感云设备节点本地任务的完成率，μ_e为边缘计算节点卸载任务的完成率，t_i，k为传感云设备节点和边缘计算节点运行AI训练任务k的时间；

(6)判断步骤(3)中获得的更新后所述AI训练任务k的训练精度状态s_t+1是否超满足于预设的训练精度要求、以及步骤(4)获得的达到更新状态的防御奖励R_t+1是否满足预设的奖励要求，当同时满足训练精度要求和奖励要求时，结束；否则进入t+1时刻跳转到步骤(1)。

2.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法，其特征在于，步骤(2)所述资源分配动作

为：

或

(2-2)以1-ξ_t的概率在最大Q值中获得AI的资源分配动作

作为更新状态下所述AI训练任务k的资源分配动作a_t+1。

3.如权利要求2所述的传感云环境下不确定性DDoS攻击防御方法，其特征在于，协作防御者获得最大的效用时其资源策略取值范围，即区间x为

其中：

为边缘计算节点中VM处于不活跃状态时间的数学期望，

为边缘计算节点中VM处于活跃状态时间的数学期望，

β_j是DDoS攻击者最大化期望效用的KKT算子；

t_j,k表示攻击者对AI训练任务k进行计时攻击的时间；

ε_j,k＝c_00,k+c_10,k；c_10,k为边缘计算节点处于活跃状态，且由于DDoS攻击者增加攻击强度，使得VM虚拟机处于瘫痪状态，传感云设备节点推测其处于不活跃状态的概率，且

θ_i,k表示传感云设备节点和边缘计算节点协作完成AI训练任务k的最小资源需求；

λ_i,k为传感云设备节点和边缘计算节点的协作因子；

为传感云设备节点本地任务的完成率；μ_e为边缘计算节点卸载任务的完成率；

t_i，k为传感云设备节点和边缘计算节点运行AI训练任务k的时间。

4.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法，其特征在于，步骤(3)所述AI训练任务k训练精度状态s_t采取的资源分配动作

5.如权利要求1所述的传感云环境下不确定性DDoS攻击防御方法，其特征在于，步骤(5)所述Q值更新函数为：

其中，Q_t+1(s_t,a_t)为更新后的Q值，α_t为当前时刻t的学习率；Q_t(s_t,a_t)为当前Q值，γ为折扣因子，Q_t(s_t+1,a_t)为协作防御者在s_t+1状态的Q值，a为可能的资源分配值，A为资源分配的取值空间。

6.如权利要求5所述的传感云环境下不确定性DDoS攻击防御方法，其特征在于，所述协作防御者在s_t+1状态的Q值Q_t(s_t+1,a_t)按照如下方法计算：

其中

为边缘计算节点Q值更新函数，

为传感云设备节点Q值更新函数。

7.如权利要求6所述的传感云环境下不确定性DDoS攻击防御方法，其特征在于，所述边缘计算节点Q值更新函数

为：

其中，E(·)为期望，

为边缘计算节点在状态

执行可能的资源分配值

时获得的奖励。

8.如权利要求6所述的传感云环境下不确定性DDoS攻击防御方法，其特征在于，所述传感云设备节点Q值更新函数

为：

其中，

为传感云设备节点在状态

执行可能的资源分配值

时获得的奖励。