CN113407248A

CN113407248A - 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法

Info

Publication number: CN113407248A
Application number: CN202011456347.9A
Authority: CN
Inventors: 刘建华; 沈士根; 方朝曦; 石海燕; 周海平; 方曙琴
Original assignee: University of Shaoxing
Current assignee: University of Shaoxing
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-09-17
Anticipated expiration: 2040-12-11
Also published as: CN113407248B

Abstract

本发明公开了一种基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，包括以下步骤：(1)在防御周期内t，对于每一个待决策的协作防御边缘节点i、其他防御协作者集合{‑i}、采用动态随机博弈模型，获取纳什均衡状态下成本函数最小时的协作防御边缘节点的流量权重，并根据当前的协作防御边缘节点的流量权重，计算最优控制策略；所述成本函数考虑了边缘节点受内部DDoS攻击时，流量状态和任务卸载量阈值；(2)最优控制策略

重新配置协作防御边缘节点端的流量权重实现纳什均衡状态。本发明考虑了由于内部DDoS攻击造成的计算任务高密度卸载连接中流量的不确定性和动态性，使用DSG来捕获内部DDoS攻击者和边缘节点交互过程。

Description

基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法

技术领域

本发明属于传感云技术领域，更具体地，涉及一种基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法。

背景技术

传感边缘云网络中计算任务高密度卸载连接使得传感设备的计算任务能高可靠、低时延地卸载到边缘节点，有效地提高了边缘网络的吞吐量和分布式处理能力。然而，传感边缘云网络内部的恶意节点能利用交互频次较强的高密度卸载连接发起DDoS攻击，使得传感设备计算任务卸载失败。

为了提供跨领域的服务，传感边缘云技术实现了多种传感设备的统一连接。虽然传感边缘云的服务领域在不断增长，但是他所面临的安全问题日益严峻。由于传感设备有限的计算能力，在传感设备上难以部署复杂的保护机制，因此，传感边缘云网络一般采纳一些保护级别较低的轻量级安全协议，这使得传感设备易受到攻击，他被恶意的攻击者控制后成为一个内部DDoS攻击者，在没有任何征兆的情况下，在计算任务卸载到边缘节点过程中，内部DDoS攻击者通过高密度的任务卸载连接向边缘节点发起DDoS 攻击，阻碍合法的传感设备卸载计算任务到边缘节点。由于内部DDoS攻击者是寄生于传感边缘云网络中的一个隐形攻击者，难以被入侵检测系统及时发现。同时，内部DDoS攻击者同时通过多个连接向边缘节点发起流量攻击，这使得在多个边缘节点上同时防御造成困难。在传统的网络环境下，针对DDoS攻击防御的问题已有广泛的研究。然而，由于内部DDoS攻击流量的不确定性和动态性使得这些方法不能直接应用于传感边缘云环境下传感设备计算任务高密度卸载连接中内部DDoS攻击的主动防御。Y.Jia等提出了以边缘为中心的DDoS攻击防御机制，该机制主要用于对DDoS攻击的检测、识别和分类，并不是一个强有力的DDoS攻击缓解和抑制机制 ("FlowGuard:An Intelligent Edge Defense Mechanism Against IoT DDoSAttacks,"in IEEE Internet of Things Journal)。Z.Li等针对low-rateDDoS攻击，提出动态容器数量调节技术并分配资源来最大化受DDoS攻击时云环境的服务质量，未针对传感边缘云环境下计算任务高密度卸载连接中的DDoS攻击开发相应的解决方案(ExploringNew Opportunities to Defeat Low-Rate DDoS Attack in Container-Based CloudEnvironment,"in IEEE Transactions on Parallel and Distributed Systems,vol.31,no.3,pp.695-706,1 March 2020)。Y. Huang等针对复杂网络连接上病毒的传播问题，提出微分博弈模型来开发网络连接权重自适应机制来抵抗病毒的传播，该机制的计算复杂性较高("A Differential Game Approach to Decentralized Virus-Resistant WeightAdaptation Policy Over Complex Networks,"in IEEE Transactions on Control ofNetwork Systems,vol.7,no.2,pp.944-955,June2020)。K.A.Simpson通过直接控制主机流量来缓解DDoS攻击，每个防御者在源到目标节点的路径上采用各自的策略来减少负载流量，未考虑多个防御者协同控制策略("Per-Host DDoS Mitigation by Direct-ControlReinforcement Learning,"in IEEE Transactions on Network and ServiceManagement,vol.17,no.1,pp.103-117,March2020)。这些研究方案还存在如下不足：

(1)已提出的方法对内部DDoS攻击流量的不确定状态考虑有限，未考虑多任务同时向不同的边缘节点卸载时，内部DDoS攻击流对多个边缘节点的影响。使得防御者面对不确定的内部DDoS攻击流时，实现流量权重控制策略较为困难。

(2)虽然已有的解决方案已提出基于强化学习的流量控制方法，但未考虑在不影响正常的计算任务卸载量的情况下，通过流量权重控制对计算任务高密度卸载连接中的内部DDoS攻击流进行控制。

(3)传统的DDoS防御方法针对云计算环境或无线传感器网络环境，着重在DDoS攻击检测，而未考虑传感边缘云环境下，使用流量权重控制来主动防御内部DDoS攻击。特别是，内部DDoS攻击者同时对多个进行分布式任务处理的边缘节点发起攻击时，还未提出相应的以边缘节点为中心的主动防御方法。

发明内容

为解决以上方法的不足，本发明提出了一种传感边缘云环境下，传感设备计算任务高密度卸载连接中，内部DDoS攻击者同时对进行分布式处理的边缘节点发起攻击时，考虑内部DDoS攻击流的不确定性和动态性，实现边缘节点对传感设备侧内部DDoS攻击的低复杂性的主动协作防御。为实现上述目的，按照本发明的一个方面，提供了一种基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，包括以下步骤：

(1)在防御周期内t，对于每一个待决策的协作防御边缘节点i、其他防御协作者集合{-i}、采用动态随机博弈模型，获取纳什均衡状态下成本函数最小时的协作防御边缘节点的流量权重

并根据当前的协作防御边缘节点的流量权重，计算最优控制策略

所述控制策略，即在攻击持续时间[0,T]内的所有防御协作者流量权重的集合{w_i(t),w_-i(t)}；

所述成本函数考虑了边缘节点受内部DDoS攻击时，流量状态和任务卸载量阈值；

(2)根据步骤(1)获得的最优控制策略

重新配置协作防御边缘节点端的流量权重，达到协作防御边缘节点的流量权重

实现纳什均衡状态。

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其所述动态随机博弈G_s，记作：

其中，

为包括协作防御边缘节点i、其他防御协作者-i、可能为DDoS攻击者的所有传感设备节点的博弈参与者，

表示所有博弈参与者的个数；

w(t)为流量权重空间w(t)＝{{w_o(t)}，{w_i(t),w_-i(t)}}，其中{w_o(t)}∈W_o， w_i(t),w_-i(t)∈W_i；w_o(t)防御协作者与攻击者o连接上的通信频次即流量权重，

为内部DDoS攻击者o采取的流量权重，

为攻击者o允许的最大流量权重；w_i(t)为协作防御边缘节点i与传感设备节点连接上通信频次即流量权重，w_-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流量权重，

为协作防御边缘节点采取的流量权重，

防御者允许的最大流量权重；

S(t)为状态空间，S(t)＝{θ_o(t),θ_i(t)},o∈N,i∈M，其中N表示内部DDoS攻击者的个数，M表示协作防御边缘节点的个数；θ_o(t)为内部DDoS攻击者的流量状态，θ_i(t)为防御协作者i观测到的流量状态；

q_o(t) 表示内部DDoS攻击者的攻击速率，w_o(t)为与攻击者o连接上的通信频次，即流量权重；

其中，q_o(t)w_o(t)为来自内部DDoS 攻击者o的流量，

为来自其他传感设备的流量之和，q_j(t)为来自其他传感设备j的传输速率，w_j(t)为与其他传感设备j连接上的通信频次，即流量权重。

J(t)为成本函数，采用二次递增函数作为成本函数J(t)如下：

其中，q_th为任务卸载量阈值，如果传感设备计算任务卸载量超过阈值，表明传感设备被劫持且变为一个内部DDoS攻击者，干扰合法传感设备正常的计算任务卸载过程；θ_i(t)为防御协作者i观测到的流量状态，σ²(t)为内部 DDoS攻击速率的方差。

为最优控制策略，即在攻击持续时间[0,T]内，最小化平均成本函数时的所有防御协作者流量权重的集合；即：

其中，η_T为在时间T时的成本。

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其对于动态随机博弈G_s，其在时间T和状态S(T)的值函数u(t,S(t))定义如下：

在纳什均衡状态下，最优控制策略为：

其中，

和

分别为值函数满足纳什均衡条件时防御协作者i和其他防御协作者-i的流量权重配置行动值；所述博弈模型G_s的纳什均衡条件为：

其中，

为协作防御边缘节点i采取的最优流量权重，

为其他的协作防御边缘节点-i采取的最优流量权重，u(T)为T时刻值函数的值。

此时：

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其采用平均场博弈近似求解动态随机博弈模型，获取平均场博弈纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制策略

作为最优控制策略。

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其所述平均场博弈模型(u(t,s_m(t)),v(t,s))，其中u(t,s_m(t))为协作防御边缘节点i的值函数，v(t,s)为所有协作防御边缘节点的流量权重的概率分布，表示为：

其中，h表示传感边缘云任务高密度卸载连接中的网络节点数量； s_m(t)＝[s_i(t),s_-i(t)]为所有协作防御边缘节点观察到的流量状态，s_i(t)为协作防御边缘节点i观察到的流量状态，s_-i(t)为其他防御协作者-i观察到的流量状态；I是指示函数，当所有协作防御边缘节点观察到的流量状态s_m(t)等于流量状态s时，则I的值为1，否则为0，流量状态s是一个可设定参数；

所述平均场博弈纳什均衡状态为，协作防御边缘节点的流量权重

满足以下条件：

此时所有协作防御边缘节点的流量权重的概率分布达到最优v^*(t,s)，且使得成本函数最小。

对于平均场博弈(u(t,s_m(t)),v(t,s))，其值函数u(t,s_m(t))为：

其中，R(t)为奖励函数，按照如下方法计算：

其中，ω是惩罚因子，当防御者的协作行动不被允许时，在攻击持续时间内的流量总和的损失；Δh_i(t)＝h_i(t)-h_i(t-1)，Δw_i(t)＝w_i(t)-w_i(t-1)；ξ_t表示具有M个边缘节点的系统中，每个边缘节点在流量权重配置策略下流量分配的公平因子，按照如下方法计算：

其中x_i＝h_i(t)/q_i(t)，h_i(t)为协作防御边缘节点的接收率，q_i(t)＝q_o(t)表示内部DDoS攻击率。

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其采用协作防御边缘节点的最小化成本函数HJB方程的解作为达到最优流量权重w^*(t)时的值函数u(t,s_m(t))、采用FPK方程计算达到最优流量权重w^*(t)时的最优流量权重的概率分布v^*(t,s)。

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其所述协作防御边缘节点的最小化成本函数HJB方程为：

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其所述用于计算达到最优流量权重w^*(t)时的最优流量权重的概率分布v^*(t,s)的FPK方程为：

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其采用无模型强化学习更新值函数，求解HJB方程获得最优权重；优选采用强化学习Q函数进更新值函数，求解HJB方程，具体如下：

所述强化学习样本为：D_e1＝(s_m(t),w_-i(t),R_i(t),s_m(t+1))，其中s_m(t)＝[s_i(t),s_-i(t)]为所有协作防御边缘节点观察到的流量状态，w_-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流量权重，R_i(t)为协作防御边缘节点i奖励函数的值即获得的奖励，s_m(t+1)为下一决策周期所有协作防御边缘节点观察到的流量状态。

所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值更新函数为：

其中，α表示学习率，

为奖励函数，

其中，

为协作防御边缘节点的平均流量权重

M_i表示除防御者i之外的其他协作防御者的集合大小，

表示防御协作边缘节点i 的流量权重控制策略的概率分布；

表示除防御协作边缘节点i之外的其他防御协作边缘节点的流量权重控制策略概率分布，有：

由前一时刻的平均动作值

计算；

其中，β为表示探索率温度超参数；

损失函数为：

其中，

是目标平均场 Q值，由目标网络估计其值，所述目标网络由目标网络参数

来调节，γ为折扣因子，

是s_m(t)状态的平均场Q函数值，使用评估网络获得其值，所述评估网络由评估网络参数

调节；

所述强化学习Q函数的训练的梯度为：

所述强化学习Q函数的收敛条件为：达到平均场博弈反馈纳什均衡条件；

获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协作防御边缘节点的流量权重

优选地，所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其采用其他协作者的平均行动值

近似其他防御协作者-i与传感设备节点连接上通信频次即流量权重w_-i(t)，具体如下：

所述强化学习样本为：

其中 s_m(t)＝[s_i(t),s_-i(t)]为所有协作防御边缘节点观察到的流量状态， w^vec＝[w₁(t),...,w_M(t)]为所有协作防御边缘节点的流量权重向量，

其中

为协作防御边缘节点的流量权重平均值，

R^vec＝[R₁(t),...,R_M(t)]，R_i(t)为协作防御边缘节点i奖励函数的值即获得的奖励，s_m(t+1)为下一决策周期所有协作防御边缘节点观察到的流量状态。

所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的目标网络参数更新为

其中，α表示学习率，

为评估网络参数，

为目标网络参数，初始

和

为预先设定；使用随机梯度下降法更新评估网络的参数

由

更新目标网络参数

损失函数为：

其中，

来调节，γ为折扣因子；

所述强化学习Q函数的训练的梯度为：

所述强化学习Q函数的收敛条件为：达到平均场博弈反馈纳什均衡条件，获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的流量权重

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明考虑了由于内部DDoS攻击造成的计算任务高密度卸载连接中流量的不确定性和动态性，并模型化为Ornstein-Uhlenbech动态方程，使用DSG来捕获内部DDoS攻击者和边缘节点交互过程。

(2)为了减少计算复杂性，本发明把DSG转化为平均场博弈来解决多博弈参与者的主动协作防御问题，并且为优化流量权重控制策略提供了HJB 和FPK方程。

(3)为了高效地求解HJB方程并获得主动协作防御边缘节点的流量权重控制策略，本发明提出了基于平均场的协作防御边缘节点强化学习算法来获得内部DDoS攻击流量权重控制方法。该方法集成了强化学习和MFG 方程，为减缓和抑制计算任务高密度卸载连接中的内部DDoS攻击流提供一种新的解决方案。

附图说明

图1是本发明实施例提供的基于流量权重控制的传感边缘云内部DDoS 攻击主动防御方法示意图；

图2是本发明提供的每个防御者强化学习的工作流程；

图3是本发明提供的基于流量权重的传感边缘云内部DDoS攻击主动防御方法应用效果示意图；其中图3(a)为主动防御前内部DDoS攻击者对高密度卸载连接攻击场景，其中图3(b)为主动防御后消除内部DDos攻击流。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，包括以下步骤：

所述动态随机博弈G_s，记作：

其中，

为包括协作防御边缘节点i、其他防御协作者-i、可能为DDoS攻击者的所有传感设备节点的博弈参与者；

表示所有博弈参与者的个数。

为内部DDoS攻击者o采取的流量权重，

为协作防御边缘节点采取的流量权重，

防御者允许的最大流量权重；

S(t)为状态空间，S(t)＝{θ_o(t),θ_i(t)},o∈N,i∈M，其中N表示内部DDoS攻击者的个数，M表示协作防御边缘节点的个数，其中θ_o(t)为内部DDoS攻击者的流量状态，θ_i(t)为防御协作者i观测到的流量状态；

q_o(t)表示内部DDoS攻击者的攻击速率，w_o(t)为与攻击者o连接上的通信频次，即流量权重；

其中，q_o(t)w_o(t)为来自内部DDoS攻击者o的流量，

J(t)为成本函数，考虑了边缘节点受内部DDoS攻击时，流量状态和任务卸载量阈值，本发明采用二次递增函数作为成本函数J(t)如下：

其中，η_T为在时间T时的成本。

对于动态随机博弈G_s，其在时间T和状态S(T)的值函数u(t,S(t))定义如下：

在纳什均衡状态下，最优控制策略为：

其中，

和

分别为值函数满足纳什均衡条件时防御协作者i 和其他防御协作者-i的流量权重配置行动值；所述博弈模型G_s的纳什均衡条件为：

其中，

为协作防御边缘节点i采取的最优流量权重，

此时：

优选，采用平均场博弈近似求解动态随机博弈模型，获取平均场博弈纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制策略

作为最优控制策略。具体地：

所述平均场博弈模型(u(t,s_m(t)),v(t,s))，其中u(t,s_m(t))为协作防御边缘节点i的值函数，v(t,s)为所有协作防御边缘节点的流量权重的概率分布，表示为：

满足以下条件：

对于平均场博弈(u(t,s_m(t)),v(t,s))，其值函数u(t,s_m(t))为：

其中，R(t)为奖励函数，按照如下方法计算：

其中x_i＝h_i(t)/q_i(t)，h_i(t)为协作防御边缘节点的接收率，q_i(t)＝q_o(t)表示内部 DDoS攻击率。

根据最优控制理论和Bellman优化原理，采用协作防御边缘节点的最小化成本函数HJB方程的解作为达到最优流量权重w^*(t)时的值函数u(t,s_m(t))、采用FPK方程计算达到最优流量权重w^*(t)时的最优流量权重的概率分布 v^*(t,s)；

所述协作防御边缘节点的最小化成本函数HJB方程为：

所述用于计算达到最优流量权重w^*(t)时的最优流量权重的概率分布 v^*(t,s)的FPK方程为：

优选地，采用无模型强化学习更新值函数，求解HJB方程获得最优权重；优选采用强化学习Q函数进更新值函数，求解HJB方程，具体如下：

所述强化学习样本为：D_e1＝(s_m(t),w_-i(t),R_i(t),s_m(t+1))，其中 s_m(t)＝[s_i(t),s_-i(t)]为所有协作防御边缘节点观察到的流量状态，w_-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流量权重，R_i(t)为协作防御边缘节点i奖励函数的值即获得的奖励，s_m(t+1)为下一决策周期所有协作防御边缘节点观察到的流量状态。

其中，α表示学习率，

为奖励函数，

其中，

为协作防御边缘节点的平均流量权重

M_i表示除防御者i之外的其他协作防御者的集合大小，

表示防御协作边缘节点i的流量权重控制策略的概率分布。

由前一时刻的平均动作值

计算；

其中，β为表示探索率温度超参数，是一个可以设定的常量。

损失函数为：

其中，

是目标平均场Q值，由目标网络估计其值，γ为折扣因子，y_i由参数

来调节，

是s_m(t)状态的平均场Q函数值，使用评估网络获得其值，网络调节参数为

所述强化学习Q函数的训练的梯度为：

所述强化学习Q函数的收敛条件为：达到平均场博弈反馈纳什均衡条件。

优选采用其他协作者的平均流量权重

所述强化学习样本为：

其中

为协作防御边缘节点的流量权重平均值，

其中，α表示学习率，

为评估网络参数，

为目标网络参数，初始

和

为预先设定；使用随机梯度下降法更新评估网络的参数

然后由

更新目标网络参数

如图2所示。

损失函数为：

其中，

是目标平均场Q值，由目标网络估计其值，所述目标网络由目标网络参数

来调节， γ为折扣因子；

所述强化学习Q函数的训练的梯度为：

具有M个防御者的平均场协作博弈的反馈纳什均衡是一个联合的流量权重配置策略行动值

且流量权重配置策略满足以下条件：

(2)根据步骤(1)获得的最优控制策略

实现纳什均衡状态。

本发明通过控制传感设备计算任务高密度卸载连接的流量权重来实现内部DDoS攻击流的减缓或抑制，从而最大限度的提高传感设备计算任务的平均卸载量。在传感边缘云网络中，为了获得防御者最优流量控制的主动防御策略，本发明把内部恶意节点利用计算任务高密度卸载连接对多个边缘节点发起的不确定DDoS攻击模型化为一个动态随机博弈(Dynamic stochastic game,DSG)，为了解决多个防御者参与的动态随机博弈问题，随后，本发明把DSG转换为平均场博弈(Mean field game,MFG)。使用平均场方法来构造Hamilton-Jacobi-Bellman(HJB)和Fokker-Planck-Kolmogorov(FPK)方程来获得优化解。由于解HJB和FPK方程来获得多个防御者的流量权重控制策略具有较高的复杂性和时间成本，本发明提出基于平均场强化学习的主动流量权重控制算法，最大限度减少多个防御者的流量权重控制策略求解的复杂性。

以下为实施例：

一种基于流量权重控制的内部DDoS攻击主动防御方法，包括以下步骤：

并根据当前的协作防御边缘节点的流量权重，计算控制策略

所述动态随机博弈G_s，记作：

其中，

表示所有博弈参与者的个数。

为内部DDoS攻击者o采取的流量权重，

为协作防御边缘节点采取的流量权重，w_i ^max防御者允许的最大流量权重；

S(t)为状态空间，S(t)＝{θ_o(t),θ_i(t)},o∈N,i∈M，其中N表示内部DDoS攻击者的个数，M表示协作防御边缘节点的个数。θ_o(t)为内部DDoS攻击者的流量状态，θ_i(t)为防御协作者i观测到的流量状态；

其中，q_o(t)w_o(t)为来自内部DDoS 攻击者o的流量，

在传感设备计算任务卸载过程中，内部DDoS攻击严重降低了传感边缘云网络中任务卸载量。受内部DDoS攻击时，计算任务卸载量与边缘节点的接收率和流量权重有关。因此本发明提出了内部DDoS攻击感知模型来分析计算任务卸载流量，以提高系统平均的计算任务卸载量。此外，博弈论提供了一个理想的框架来处理多博弈参与之间的攻防交互问题。因此，在博弈框架中内部DDoS攻击者和边缘节点作为博弈参与者，使用

表示在博弈框架中有

个攻击者和防御者。

(1)内部DDoS攻击者o对M个协作防御边缘节点发起的攻击流量状态方程为：

其中，o∈[1，N]，q_o(t)表示内部DDoS攻击者的攻击速率，w_o(t)表示每条连接上的通信频次，本发明称为权重。

(2)边缘节点作为防御者，相互协作控制流量权重防御内部DDoS攻击，每个防御者i观测到的流量状态方程为：

其中，i∈[1，M]，j∈[1，N-1]且j≠i，第一项表示来自内部DDoS攻击者o的流量，第二项表示来自其他传感设备的流量。q_j(t)表示来自其他传感设备的速率，w_j(t)表示来自其他传感设备通信连接的权重。

为了主动防御内部DDoS攻击者，协作防御者i能采取的行动为任务卸载连接权重

内部DDoS攻击者采取的行动为任务卸载连接权重为

其中，

和

分别表示防御者和内部DDoS攻击者允许的任务卸载连接最大权重。传感边缘云计算任务卸载流量的可信状态由权重控制策略的流量权重值决定，分别对应于w_i(t),w_-i(t)∈W_i，w_o(t)∈W_o，其中 w_-i(t)表示除防御者i以外的其他协作防御者采取的流量权重。进一步来说，本发明考虑了传感边缘云网络中内部DDoS攻击者和边缘节点的任务卸载流量的动态性和不确定性。以此，采用Ornstein-Uhlenbeck动态方程来模型化内部DDoS攻击流量状态的动态变化：

其中，μ，和σ分别表示内部DDoS攻击速率的均值和方差。此外，B(t) 表示标准的布朗运动函数，

τ表示时间间隔的个数，ε_i表示标准正态分布中的一个随机值，Δt表示布朗运动变化的方差。B(t)用来刻画内部DDoS攻击速率动态变化的不确定性。令所有的内部DDoS攻击速率动态变化方程均使用相同的μ和σ值。在固定时间t，流量权重不变，为常数，则内部DDoS攻击流量状态的动态变化方程为：

得到内部DDoS攻击流量状态的动态变化方程为：

类似地，协作防御边缘节点的流量动态变化方程为：

在传感边缘云网络中，防御协作者的流量权重控制策略和内部DDoS 攻击行为的感知与计算任务的卸载量相关。内部DDoS攻击者o产生的计算任务卸载量为：

对于协作防御者i(边缘节点)和其他的协作防御者-i，各自接收的计算任务卸载量为：

本发明使用相同的任务卸载量阈值q_th来衡量传感设备的计算任务卸载行为。如果传感设备计算任务卸载量超过阈值，表明传感设备被劫持且变为一个内部DDoS攻击者，干扰合法传感设备正常的计算任务卸载过程。由于内部DDoS攻击者的流量权重无法控制，协作防御者只能控制边缘节点端的流量权重，因此，本发明设计以边缘节点为中心的主动的流量权重控制策略，仅考虑φ_i(t),φ_-i(t)≥q_th的情况。此时，满足条件：

定义函数

为了最小化内部DDoS攻击流量，本发明设计了成本函数，他集成了边缘节点观测到的流量状态和内部DDoS攻击者的流量阈值。当传感设备的计算任务卸载量超过阈值时，发生了内部DDoS攻击，防御者通过协作调节流量权重来最小化成本函数。成本函数表示如下：

为方便分析内部DDoS攻击流量的动态性，使得J(t)＞0，使用二次递增函数作为成本函数，因此，成本函数能够通过控制流量权重减轻内部 DDoS攻击对任务卸载过程的破坏程度。

为最优控制策略，即在攻击持续时间[0,T]内，最小化平均成本函数时的所有防御协作者行动值

的集合；即：

其中，η_T为在时间T时的成本。每个防御者(边缘节点)，在内部DDoS攻击的持续时间[0,T]内，将决定他的最优策略

使得成本函数值最小

以上动态随机博弈模型刻画了内部DDoS攻击者的攻击行动空间以及防御者的行动空间，有助于设计多边缘节点协作的分布式主动防御算法。此外，本博弈模型考虑了内部DDoS攻击流量状态的动态随机性，并且在成本函数中加入了这些攻击特征对最优策略求解的影响。本发明用值函数刻画这些影响。

其中，u(T,S(T))是在时间T和状态S(T)的值函数。根据Bellman优化原理，最终的优化策略依赖于前一个优化策略的结果。因此，可以得出，对于攻击持续时间t∈[0,T]内，如果最终的优化策略的值函数

则w^*(t→T)是最优的任务卸载流量权重。

在纳什均衡状态下，最优控制策略为：

其中，

和

其中，

为协作防御边缘节点i采取的最优流量权重，

此时：

最优流量权重

和

使得正常的任务卸载流量和抑制的DDoS攻击流量达均衡状态，此时成本函数最小。然而，由于传感边缘云任务高密度卸载连接中的网络节点数量h是巨大的，获得纳什均衡解非常困难。因此，本发明把动态随机博弈(DSG)转换为平均场博弈(MFG)来求解。这使得每个协作防御边缘节点在面对高密度连接的内部DDoS攻击时，能够更据自己观察到的流量状态来优化权重配置策略。

作为最优控制策略。

平均场博弈是一种特殊的微分博弈，每个博弈参与者与其他大量的博弈参与者交互。本发明主要解决多边缘节点间的协作防御问题，因此，本发明中的平均场博弈是一个平均场协作博弈模型，该模型可表示为一个二元组(u(t,s_m(t)),v(t,s))，其中u(t,s_m(t))为协作防御边缘节点i的值函数，v(t,s)为所有协作防御边缘节点的流量权重的概率分布，表示为：

在受内部DDoS攻击时，给定所有协作防御边缘节点观察到的流量状态 s_m(t)＝[s_i(t),s_-i(t)]，协作防御边缘节点的平均场即所有协作防御边缘节点的流量权重的概率分布。对于给定的时刻t，平均场表示受内部DDoS攻击时，计算任务卸载流量状态在协作防御边缘节点集合上的概率分布。协作防御边缘节点在执行分布式的流量权重配置策略行动过程中更新其值函数。

在协作防御过程中，协作防御边缘节点i的流量权重配置策略行动将影响到其他的协作防御边缘节点的流量权重配置策略行动，协作防御边缘节点i的流量状态变化表示为：

ds_i(t)＝w_o(t)dq_o(t)+σ²(t)dB(t)

其他协作防御边缘节点-i的流量状态变化表示为：

ds_-i(t)＝w_-i(t)ω_-i(t)dt+σ²(t)dB(t)

其中，

B(t)为标准的布朗运动函数，

τ表示时间间隔的个数，ε_i表示标准正态分布中的一个随机值，Δt表示布朗运动变化的方差。

对于平均场博弈(u(t,s_m(t)),v(t,s_i))，其值函数u(t,s_m(t))为：

其中，R(t)为奖励函数，按照如下方法计算：

其中x_i＝h_i(t)q_i(t)，h_i(t)为协作防御边缘节点的接收率，q_i(t)＝q_o(t)表示内部DDoS攻击率。

平均场协作博弈是一个动态的优化过程。在内部DDoS攻击的持续时间 t∈[0,T]内，每个协作防御边缘节点优化的流量权重

来最大化其任务卸载量的收益R_i(t)，平均场协作博弈解是一个协作反馈的纳什均衡，其中的反馈是指奖励。故：

满足以下条件：

此时所有协作防御边缘节点的流量权重的概率分布达到最优v^*(t,s)，且使得成本函数最小。在纳什均衡点时协作防御节点抑制了DDoS攻击流，同时通过最大化其收益确保了正常的任务卸载流量和抑制的DDoS攻击流的均衡。

平均场博弈达到反馈纳什均衡时，防御者获得最优策略行动值

边缘节点的流量状态最优分布达到最优v^*(t,s)，并且满足

对于理性的协作防御节点来说，采用均衡流量权重控制策略行动值 w^*(t)后，不会再在采用其他的策略，此时，对应的边缘节点的流量状态的概率分布为v^*(t,s)。

本发明使用随机偏微分方程来获得平均场协作博弈反馈纳什均衡策略解，协作防御节点能够观察到任意时刻t的流量状态s_m(t)，并且在内部DDoS 攻击的持续时间t∈[0,T]内，观测所有流量状态，寻找最优的流量权重w^*(t)来减缓或抑制内部DDoS攻击流量。

所述协作防御边缘节点的最小化成本函数HJB方程为：

如果从上式中解出一个最优解，说明值函数u(t,s_m(t))能够通过HJB方程得到，此时值函数中的流量状态对应于协作防御边缘节点的最优流量权重w^*(t)。

求解式HJB方程和FPK方程的关键点是获得概率分布v₀(t,s)，并且根据 Bellman原理更新值函数u(t,s_m(t))，来获得协作防御边缘节点的最优流量权重控制策略行动值w^*(t)。整个求解过程需要大量的计算。

在给定初始状态概率分布v₀(t,s)的情况下，通过更新值函数u(t,s_m(t))来求解最优流量权重控制策略行动值w^*(t)。在受内部DDoS攻击时，由于协作防御边缘节点最后的流量状态被定义为在攻击持续时间内的流量总和R(t)。

所述强化学习样本为：D_e1＝(s_m(t),w_-i(t),R_i(t),s_m(t+1))，其中 s_m(t)＝[s_i(t),s_-i(t)]为所有协作防御边缘节点观察到的流量状态，w_-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流量状态，R_i(t)为协作防御边缘节点i奖励函数的值即获得的奖励，s_m(t+1)为下一决策周期所有协作防御边缘节点观察到的流量状态。

所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值跟新函数为：

其中，α表示学习率，

为奖励函数，

其中，

为协作防御边缘节点的平均流量权重

M_i表示除防御者i之外的其他协作防御者的集合大小，

表示防御协作边缘节点i 的流量权重控制策略的概率分布。

可由前一时刻的平均动作值

计算；

损失函数为：

其中，

是目标平均场Q值，由目标网络估计其值，所述目标网络由网络调节参数

来调节， γ为折扣因子，

是s_m(t)状态的平均场Q函数值，使用评估网络获得其值，所述网络调节参数为

所述强化学习Q函数的训练的梯度为：

根据平均场博弈值函数，HJB方程中的值函数能够通过强化学习方法来近似，并且同时获得最优的流量权重。在本发明中，考虑了M个协作防御边缘节点协作采取防御行动，他们需要估计联合防御策略的行动值。这使得标准的Q-learning算法不再适用，为了解决这个问题，本发明把传统的强化学习扩展为平均场多博弈参与者强化学习，使用强化学习中的Q函数来近似HJB方程中的值函数。使用协作防御边缘节点的流量状态和流量权重值参数化Q函数为：

其中，M(i)表示除协作防御边缘节点i之外的其他协作防御边缘节点的集合，集合大小为M_i＝|M(i)|。根据协作防御边缘节点集合M(i)来计算流量权重控制策略的平均行动值

使用协作防御边缘节点的流量状态和流量权重值参数化Q函数可近似为：

由于使用平均场近似方法，简化了平均场协作博弈的Q函数，协作防御边缘节点之间的平均场协作博弈的Q函数简化为

可以得出，实现平均场多博弈参与者强化学习问题转化为求解协作防御者i的最优策略

问题，且

与相互协作的防御者的平均行动值

有关，且

其中

是前一时刻的平均动作值，其他防御者协作的流量权重w_-i(t) 由策略

决定，他受前一时刻的平均流量权重

影响。随后，策略

根据平均流量权重

更新，策略

和平均行动

的关系式为：

其中，β表示探索率温度超参数，是一个可设定的常量。

优选采用其他协作者的平均行动值

所述强化学习样本为：

其中

为协作防御边缘节点的流量权重平均值，

其中，α表示学习率，

为评估网络参数，

为目标网络参数，初始

和

为预先设定，使用随机梯度下降法更新评估网络的参数

然后由

更新目标网络参数

如图2所示。

损失函数为：

其中，

是目标平均场 Q值，由目标网络估计其值，γ为折扣因子，y_i由参数

来调节，

是s_m(t)状态的平均场Q函数值，使用评估网络获得其值，评估网络由评估网络参数

调节；

所述强化学习Q函数的训练的梯度为：

且流量权重配置策略满足以下条件：

具体地，可表示为以下程序，如图3所示：

步骤1：初始评估网络参数

和目标网络参数

其他协作防御者的平均行动值

并且标记状态为未达到纳什均衡状态即Flag＝1

步骤2：Whileflag＝1do

步骤3:Fori＝1toNdo

①对于每个防御者i，采样流量权重w_i(t)，使用当前的平均流量权重

计算

如下：

②对于每个防御者i，计算新的平均行动值

如下：

③对于每个防御者采取联合的流量权重控制强化学习行动值w^vec＝[w₁(t),...,w_M(t)]并且观察其奖励 R^vec＝[R₁(t),...,R_M(t)]以及下一个流量状态s_m(t+1)。

④在经验池D中存储

其中

Endfor

步骤4：Fori＝1 to M do

①从经验池中采样κ个经验

②从经验池采样前一时刻

及

③设定

④通过最小化损失函数

更新评估网络中的参数

⑤对于每个防御者使用学习率α更新目标网络参数：

Endfor

步骤5：当达到反馈纳什均衡条件

时，训练结束，flag＝0,否则，继续执行步骤4。

End while

步骤6：输出每个防御者在状态s_m(t)对应的最优行动值

(2)根据步骤(1)获得的最优控制策略

实现纳什均衡状态。

采用本发明防御前后的边缘传感系统，分别如图3(a)和图3(b)所示。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其特征在于，包括以下步骤：

(2)根据步骤(1)获得的最优控制策略

实现纳什均衡状态。

2.如权利要求1所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其特征在于，所述动态随机博弈G_s，记作：

其中，

表示所有博弈参与者的个数；

w(t)为流量权重空间w(t)＝{{w_o(t)}，{w_i(t),w_-i(t)}}，其中{w_o(t)}∈W_o，w_i(t),w_-i(t)∈W_i；w_o(t)防御协作者与攻击者o连接上的通信频次即流量权重，

为内部DDoS攻击者o采取的流量权重，

为协作防御边缘节点采取的流量权重，

防御者允许的最大流量权重；

其中，q_o(t)w_o(t)为来自内部DDoS攻击者o的流量，

J(t)为成本函数，采用二次递增函数作为成本函数J(t)如下：

其中，q_th为任务卸载量阈值，如果传感设备计算任务卸载量超过阈值，表明传感设备被劫持且变为一个内部DDoS攻击者，干扰合法传感设备正常的计算任务卸载过程；θ_i(t)为防御协作者i观测到的流量状态，σ²(t)为内部DDoS攻击速率的方差。

其中，η_T为在时间T时的成本。

3.如权利要求1所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其特征在于，对于动态随机博弈G_s，其在时间T和状态S(T)的值函数u(t,S(t))定义如下：

在纳什均衡状态下，最优控制策略为：

其中，

和

其中，

为协作防御边缘节点i采取的最优流量权重，

此时：

4.如权利要求1所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其特征在于，采用平均场博弈近似求解动态随机博弈模型，获取平均场博弈纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制策略

作为最优控制策略。

5.如权利要求4所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法，其特征在于，所述平均场博弈模型(u(t,s_m(t)),v(t,s))，其中u(t,s_m(t))为协作防御边缘节点i的值函数，v(t,s)为所有协作防御边缘节点的流量权重的概率分布，表示为：

其中，h表示传感边缘云任务高密度卸载连接中的网络节点数量；s_m(t)＝[s_i(t),s_-i(t)]为所有协作防御边缘节点观察到的流量状态，s_i(t)为协作防御边缘节点i观察到的流量状态，s_-i(t)为其他防御协作者-i观察到的流量状态；I是指示函数，当所有协作防御边缘节点观察到的流量状态s_m(t)等于流量状态s时，则I的值为1，否则为0，流量状态s是一个可设定参数；