CN113407248A - 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法 - Google Patents

基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法 Download PDF

Info

Publication number
CN113407248A
CN113407248A CN202011456347.9A CN202011456347A CN113407248A CN 113407248 A CN113407248 A CN 113407248A CN 202011456347 A CN202011456347 A CN 202011456347A CN 113407248 A CN113407248 A CN 113407248A
Authority
CN
China
Prior art keywords
defense
cooperative
traffic
weight
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011456347.9A
Other languages
English (en)
Inventor
刘建华
沈士根
方朝曦
石海燕
周海平
方曙琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shaoxing
Original Assignee
University of Shaoxing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shaoxing filed Critical University of Shaoxing
Priority to CN202011456347.9A priority Critical patent/CN113407248A/zh
Publication of CN113407248A publication Critical patent/CN113407248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,包括以下步骤:(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他防御协作者集合{‑i}、采用动态随机博弈模型,获取纳什均衡状态下成本函数最小时的协作防御边缘节点的流量权重,并根据当前的协作防御边缘节点的流量权重,计算最优控制策略;所述成本函数考虑了边缘节点受内部DDoS攻击时,流量状态和任务卸载量阈值;(2)最优控制策略
Figure DDA0002829349050000011
重新配置协作防御边缘节点端的流量权重实现纳什均衡状态。本发明考虑了由于内部DDoS攻击造成的计算任务高密度卸载连接中流量的不确定性和动态性,使用DSG来捕获内部DDoS攻击者和边缘节点交互过程。

Description

基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法
技术领域
本发明属于传感云技术领域,更具体地,涉及一种基于流量权重控制 的传感边缘云内部DDoS攻击主动防御方法。
背景技术
传感边缘云网络中计算任务高密度卸载连接使得传感设备的计算任务 能高可靠、低时延地卸载到边缘节点,有效地提高了边缘网络的吞吐量和 分布式处理能力。然而,传感边缘云网络内部的恶意节点能利用交互频次 较强的高密度卸载连接发起DDoS攻击,使得传感设备计算任务卸载失败。
为了提供跨领域的服务,传感边缘云技术实现了多种传感设备的统一 连接。虽然传感边缘云的服务领域在不断增长,但是他所面临的安全问题 日益严峻。由于传感设备有限的计算能力,在传感设备上难以部署复杂的 保护机制,因此,传感边缘云网络一般采纳一些保护级别较低的轻量级安 全协议,这使得传感设备易受到攻击,他被恶意的攻击者控制后成为一个 内部DDoS攻击者,在没有任何征兆的情况下,在计算任务卸载到边缘节点过程中,内部DDoS攻击者通过高密度的任务卸载连接向边缘节点发起DDoS 攻击,阻碍合法的传感设备卸载计算任务到边缘节点。由于内部DDoS攻击 者是寄生于传感边缘云网络中的一个隐形攻击者,难以被入侵检测系统及 时发现。同时,内部DDoS攻击者同时通过多个连接向边缘节点发起流量攻 击,这使得在多个边缘节点上同时防御造成困难。在传统的网络环境下, 针对DDoS攻击防御的问题已有广泛的研究。然而,由于内部DDoS攻击流 量的不确定性和动态性使得这些方法不能直接应用于传感边缘云环境下传 感设备计算任务高密度卸载连接中内部DDoS攻击的主动防御。Y.Jia等提出 了以边缘为中心的DDoS攻击防御机制,该机制主要用于对DDoS攻击的检 测、识别和分类,并不是一个强有力的DDoS攻击缓解和抑制机制 ("FlowGuard:An Intelligent Edge Defense Mechanism Against IoT DDoSAttacks,"in IEEE Internet of Things Journal)。Z.Li等针对low-rateDDoS攻击, 提出动态容器数量调节技术并分配资源来最大化受DDoS攻击时云环境的 服务质量,未针对传感边缘云环境下计算任务高密度卸载连接中的DDoS攻 击开发相应的解决方案(ExploringNew Opportunities to Defeat Low-Rate DDoS Attack in Container-Based CloudEnvironment,"in IEEE Transactions on Parallel and Distributed Systems,vol.31,no.3,pp.695-706,1 March 2020)。Y. Huang等针对复杂网络连接上病毒的传播问题,提出微分博弈模型来开发网 络连接权重自适应机制来抵抗病毒的传播,该机制的计算复杂性较高("A Differential Game Approach to Decentralized Virus-Resistant WeightAdaptation Policy Over Complex Networks,"in IEEE Transactions on Control ofNetwork Systems,vol.7,no.2,pp.944-955,June2020)。K.A.Simpson通过直接控制主 机流量来缓解DDoS攻击,每个防御者在源到目标节点的路径上采用各自的 策略来减少负载流量,未考虑多个防御者协同控制策略("Per-Host DDoS Mitigation by Direct-ControlReinforcement Learning,"in IEEE Transactions on Network and ServiceManagement,vol.17,no.1,pp.103-117,March2020)。 这些研究方案还存在如下不足:
(1)已提出的方法对内部DDoS攻击流量的不确定状态考虑有限,未 考虑多任务同时向不同的边缘节点卸载时,内部DDoS攻击流对多个边缘节 点的影响。使得防御者面对不确定的内部DDoS攻击流时,实现流量权重控 制策略较为困难。
(2)虽然已有的解决方案已提出基于强化学习的流量控制方法,但未 考虑在不影响正常的计算任务卸载量的情况下,通过流量权重控制对计算 任务高密度卸载连接中的内部DDoS攻击流进行控制。
(3)传统的DDoS防御方法针对云计算环境或无线传感器网络环境, 着重在DDoS攻击检测,而未考虑传感边缘云环境下,使用流量权重控制来 主动防御内部DDoS攻击。特别是,内部DDoS攻击者同时对多个进行分布 式任务处理的边缘节点发起攻击时,还未提出相应的以边缘节点为中心的 主动防御方法。
发明内容
为解决以上方法的不足,本发明提出了一种传感边缘云环境下,传感 设备计算任务高密度卸载连接中,内部DDoS攻击者同时对进行分布式处理 的边缘节点发起攻击时,考虑内部DDoS攻击流的不确定性和动态性,实现 边缘节点对传感设备侧内部DDoS攻击的低复杂性的主动协作防御。为实现 上述目的,按照本发明的一个方面,提供了一种基于流量权重控制的传感 边缘云内部DDoS攻击主动防御方法,包括以下步骤:
(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他 防御协作者集合{-i}、采用动态随机博弈模型,获取纳什均衡状态下成本函 数最小时的协作防御边缘节点的流量权重
Figure BDA0002829349030000031
并根据当前的协作防御边缘节点的流量 权重,计算最优控制策略
Figure BDA0002829349030000032
所述控制策略,即在攻击持续时间[0,T]内的 所有防御协作者流量权重的集合{wi(t),w-i(t)};
所述成本函数考虑了边缘节点受内部DDoS攻击时,流量状态和任务 卸载量阈值;
(2)根据步骤(1)获得的最优控制策略
Figure BDA0002829349030000033
重新配置协作防御边 缘节点端的流量权重,达到协作防御边缘节点的流量权重
Figure BDA0002829349030000034
实现纳什均衡状态。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述动态随机博弈Gs,记作:
Figure BDA0002829349030000035
其中,
Figure BDA0002829349030000036
为包括协作防御边缘节点i、其他防御协作者-i、可 能为DDoS攻击者的所有传感设备节点的博弈参与者,
Figure BDA0002829349030000037
表示所有博弈参与 者的个数;
w(t)为流量权重空间w(t)={{wo(t)},{wi(t),w-i(t)}},其中{wo(t)}∈Wo, wi(t),w-i(t)∈Wi;wo(t)防御协作者与攻击者o连接上的通信频次即流量权重,
Figure BDA0002829349030000038
为内部DDoS攻击者o采取的流量权重,
Figure BDA0002829349030000039
为攻击者o允许的最 大流量权重;wi(t)为协作防御边缘节点i与传感设备节点连接上通信频次即 流量权重,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流 量权重,
Figure BDA00028293490300000310
为协作防御边缘节点采取的流量权重,
Figure BDA00028293490300000311
防御者允许 的最大流量权重;
S(t)为状态空间,S(t)={θo(t),θi(t)},o∈N,i∈M,其中N表示内部DDoS攻 击者的个数,M表示协作防御边缘节点的个数;θo(t)为内部DDoS攻击者 的流量状态,θi(t)为防御协作者i观测到的流量状态;
Figure BDA0002829349030000041
qo(t) 表示内部DDoS攻击者的攻击速率,wo(t)为与攻击者o连接上的通信频次, 即流量权重;
Figure BDA0002829349030000042
其中,qo(t)wo(t)为来自内部DDoS 攻击者o的流量,
Figure BDA0002829349030000043
为来自其他传感设备的流量之和,qj(t)为来 自其他传感设备j的传输速率,wj(t)为与其他传感设备j连接上的通信频次, 即流量权重。
J(t)为成本函数,采用二次递增函数作为成本函数J(t)如下:
Figure BDA0002829349030000044
Figure BDA0002829349030000045
其中,qth为任务卸载量阈值,如果传感设备计算任务卸载量超过阈值, 表明传感设备被劫持且变为一个内部DDoS攻击者,干扰合法传感设备正常 的计算任务卸载过程;θi(t)为防御协作者i观测到的流量状态,σ2(t)为内部 DDoS攻击速率的方差。
Figure BDA0002829349030000046
为最优控制策略,即在攻击持续时间[0,T]内,最小化平均成本函数 时的所有防御协作者流量权重的集合;即:
Figure BDA0002829349030000047
其中,ηT为在时间T时的成本。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其对于动态随机博弈Gs,其在时间T和状态S(T)的值函数u(t,S(t))定 义如下:
Figure BDA0002829349030000048
在纳什均衡状态下,最优控制策略为:
Figure BDA0002829349030000049
其中,
Figure BDA00028293490300000410
Figure BDA00028293490300000411
分别为值函数满足纳什均衡条件时防御协 作者i和其他防御协作者-i的流量权重配置行动值;所述博弈模型Gs的纳什 均衡条件为:
Figure BDA0002829349030000051
其中,
Figure BDA0002829349030000052
为协作防御边缘节点i采取的最优流量权重,
Figure BDA0002829349030000053
为其他的协 作防御边缘节点-i采取的最优流量权重,u(T)为T时刻值函数的值。
此时:
Figure BDA0002829349030000054
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用平均场博弈近似求解动态随机博弈模型,获取平均场博弈纳 什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制策略
Figure BDA0002829349030000055
作为最优控制策略。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述平均场博弈模型(u(t,sm(t)),v(t,s)),其中u(t,sm(t))为协作防御边 缘节点i的值函数,v(t,s)为所有协作防御边缘节点的流量权重的概率分布, 表示为:
Figure BDA0002829349030000056
其中,h表示传感边缘云任务高密度卸载连接中的网络节点数量; sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,si(t)为协作防 御边缘节点i观察到的流量状态,s-i(t)为其他防御协作者-i观察到的流量状 态;I是指示函数,当所有协作防御边缘节点观察到的流量状态sm(t)等于流 量状态s时,则I的值为1,否则为0,流量状态s是一个可设定参数;
所述平均场博弈纳什均衡状态为,协作防御边缘节点的流量权重
Figure BDA0002829349030000057
满足以下条件:
Figure BDA0002829349030000058
此时所有协作防御边缘节点的流量权重的概率分布达到最优v*(t,s),且 使得成本函数最小。
对于平均场博弈(u(t,sm(t)),v(t,s)),其值函数u(t,sm(t))为:
Figure BDA0002829349030000061
其中,R(t)为奖励函数,按照如下方法计算:
Figure BDA0002829349030000062
其中,ω是惩罚因子,当防御者的协作行动不被允许时,在攻击持续 时间内的流量总和的损失;Δhi(t)=hi(t)-hi(t-1),Δwi(t)=wi(t)-wi(t-1);ξt表示 具有M个边缘节点的系统中,每个边缘节点在流量权重配置策略下流量分 配的公平因子,按照如下方法计算:
Figure BDA0002829349030000063
其中xi=hi(t)/qi(t),hi(t)为协作防御边缘节点的接收率,qi(t)=qo(t)表示 内部DDoS攻击率。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用协作防御边缘节点的最小化成本函数HJB方程的解作为达到 最优流量权重w*(t)时的值函数u(t,sm(t))、采用FPK方程计算达到最优流量权 重w*(t)时的最优流量权重的概率分布v*(t,s)。
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述协作防御边缘节点的最小化成本函数HJB方程为:
Figure BDA0002829349030000064
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其所述用于计算达到最优流量权重w*(t)时的最优流量权重的概率分 布v*(t,s)的FPK方程为:
Figure BDA0002829349030000065
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用无模型强化学习更新值函数,求解HJB方程获得最优权重; 优选采用强化学习Q函数进更新值函数,求解HJB方程,具体如下:
所述强化学习样本为:De1=(sm(t),w-i(t),Ri(t),sm(t+1)),其中sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,w-i(t)为其他 防御协作者-i与传感设备节点连接上通信频次即流量权重,Ri(t)为协作防御 边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防 御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值更 新函数为:
Figure BDA0002829349030000071
其中,α表示学习率,
Figure BDA0002829349030000072
为奖励函数,
Figure BDA0002829349030000073
其中,
Figure BDA0002829349030000074
为协作防御边缘节点的平均流量权重
Figure BDA0002829349030000075
Mi表示 除防御者i之外的其他协作防御者的集合大小,
Figure BDA0002829349030000076
表示防御协作边缘节点i 的流量权重控制策略的概率分布;
Figure BDA0002829349030000077
表示除防御协作边缘节点i之外的其 他防御协作边缘节点的流量权重控制策略概率分布,有:
Figure BDA0002829349030000078
Figure BDA0002829349030000079
由前一时刻的平均动作值
Figure BDA00028293490300000710
计算;
其中,β为表示探索率温度超参数;
损失函数为:
Figure BDA00028293490300000711
其中,
Figure BDA00028293490300000712
是目标平均场 Q值,由目标网络估计其值,所述目标网络由目标网络参数
Figure BDA00028293490300000713
来调节,γ为 折扣因子,
Figure BDA00028293490300000714
是sm(t)状态的平均场Q函数值,使用评估网 络获得其值,所述评估网络由评估网络参数
Figure BDA00028293490300000715
调节;
所述强化学习Q函数的训练的梯度为:
Figure BDA00028293490300000716
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件;
获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协 作防御边缘节点的流量权重
Figure BDA0002829349030000081
优选地,所述基于流量权重控制的传感边缘云内部DDoS攻击主动防御 方法,其采用其他协作者的平均行动值
Figure BDA0002829349030000082
近似其他防御协作者-i与传感设 备节点连接上通信频次即流量权重w-i(t),具体如下:
所述强化学习样本为:
Figure BDA0002829349030000083
其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态, wvec=[w1(t),...,wM(t)]为所有协作防御边缘节点的流量权重向量,
Figure BDA0002829349030000084
其中
Figure BDA0002829349030000085
为协作防御边缘节点的流量权重平均值,
Figure BDA0002829349030000086
Rvec=[R1(t),...,RM(t)],Ri(t)为协作防御边缘节点i奖励函数 的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到 的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的 目标网络参数更新为
Figure BDA0002829349030000087
其中,α表示学习率,
Figure BDA0002829349030000088
为评估网络参数,
Figure BDA0002829349030000089
为目标网络参数,初始
Figure BDA00028293490300000810
Figure BDA00028293490300000811
为预先设定;使用随机梯度下降法更新评估网络的参数
Figure BDA00028293490300000812
Figure BDA00028293490300000813
更新目标网 络参数
Figure BDA00028293490300000814
损失函数为:
Figure BDA00028293490300000815
其中,
Figure BDA00028293490300000816
是目标平均场 Q值,由目标网络估计其值,所述目标网络由目标网络参数
Figure BDA00028293490300000817
来调节,γ为 折扣因子;
所述强化学习Q函数的训练的梯度为:
Figure BDA00028293490300000818
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件,获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的 流量权重
Figure BDA0002829349030000091
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够 取得下列有益效果:
(1)本发明考虑了由于内部DDoS攻击造成的计算任务高密度卸载连 接中流量的不确定性和动态性,并模型化为Ornstein-Uhlenbech动态方程, 使用DSG来捕获内部DDoS攻击者和边缘节点交互过程。
(2)为了减少计算复杂性,本发明把DSG转化为平均场博弈来解决多 博弈参与者的主动协作防御问题,并且为优化流量权重控制策略提供了HJB 和FPK方程。
(3)为了高效地求解HJB方程并获得主动协作防御边缘节点的流量权 重控制策略,本发明提出了基于平均场的协作防御边缘节点强化学习算法 来获得内部DDoS攻击流量权重控制方法。该方法集成了强化学习和MFG 方程,为减缓和抑制计算任务高密度卸载连接中的内部DDoS攻击流提供一 种新的解决方案。
附图说明
图1是本发明实施例提供的基于流量权重控制的传感边缘云内部DDoS 攻击主动防御方法示意图;
图2是本发明提供的每个防御者强化学习的工作流程;
图3是本发明提供的基于流量权重的传感边缘云内部DDoS攻击主动 防御方法应用效果示意图;其中图3(a)为主动防御前内部DDoS攻击者对 高密度卸载连接攻击场景,其中图3(b)为主动防御后消除内部DDos攻击 流。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施 例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例 仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明 各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互 组合。
本发明提供的基于流量权重控制的传感边缘云内部DDoS攻击主动防 御方法,包括以下步骤:
(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他 防御协作者集合{-i}、采用动态随机博弈模型,获取纳什均衡状态下成本函 数最小时的协作防御边缘节点的流量权重
Figure BDA0002829349030000101
并根据当前的协作防御边缘节点的流量 权重,计算最优控制策略
Figure BDA0002829349030000102
所述控制策略,即在攻击持续时间[0,T]内的 所有防御协作者流量权重的集合{wi(t),w-i(t)};
所述动态随机博弈Gs,记作:
Figure BDA0002829349030000103
其中,
Figure BDA0002829349030000104
为包括协作防御边缘节点i、其他防御协作者-i、可 能为DDoS攻击者的所有传感设备节点的博弈参与者;
Figure BDA0002829349030000105
表示所有博弈参与 者的个数。
w(t)为流量权重空间w(t)={{wo(t)},{wi(t),w-i(t)}},其中{wo(t)}∈Wo, wi(t),w-i(t)∈Wi;wo(t)防御协作者与攻击者o连接上的通信频次即流量权重,
Figure BDA0002829349030000106
为内部DDoS攻击者o采取的流量权重,
Figure BDA0002829349030000107
为攻击者o允许的最 大流量权重;wi(t)为协作防御边缘节点i与传感设备节点连接上通信频次即 流量权重,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流 量权重,
Figure BDA0002829349030000108
为协作防御边缘节点采取的流量权重,
Figure BDA0002829349030000109
防御者允许 的最大流量权重;
S(t)为状态空间,S(t)={θo(t),θi(t)},o∈N,i∈M,其中N表示内部DDoS攻 击者的个数,M表示协作防御边缘节点的个数,其中θo(t)为内部DDoS攻击 者的流量状态,θi(t)为防御协作者i观测到的流量状态;
Figure BDA00028293490300001010
qo(t)表示内部DDoS攻击者的攻击速率,wo(t)为与攻击者o连接上的通信频 次,即流量权重;
Figure BDA00028293490300001011
其中,qo(t)wo(t)为来自内 部DDoS攻击者o的流量,
Figure BDA00028293490300001012
为来自其他传感设备的流量之和,qj(t)为来自其他传感设备j的传输速率,wj(t)为与其他传感设备j连接上的 通信频次,即流量权重。
J(t)为成本函数,考虑了边缘节点受内部DDoS攻击时,流量状态和任 务卸载量阈值,本发明采用二次递增函数作为成本函数J(t)如下:
Figure BDA0002829349030000111
Figure BDA0002829349030000112
其中,qth为任务卸载量阈值,如果传感设备计算任务卸载量超过阈值, 表明传感设备被劫持且变为一个内部DDoS攻击者,干扰合法传感设备正常 的计算任务卸载过程;θi(t)为防御协作者i观测到的流量状态,σ2(t)为内部 DDoS攻击速率的方差。
Figure BDA0002829349030000113
为最优控制策略,即在攻击持续时间[0,T]内,最小化平均成本函数 时的所有防御协作者流量权重的集合;即:
Figure BDA0002829349030000114
其中,ηT为在时间T时的成本。
对于动态随机博弈Gs,其在时间T和状态S(T)的值函数u(t,S(t))定义如 下:
Figure BDA0002829349030000115
在纳什均衡状态下,最优控制策略为:
Figure BDA0002829349030000116
其中,
Figure BDA0002829349030000117
Figure BDA0002829349030000118
分别为值函数满足纳什均衡条件时防御协作者i 和其他防御协作者-i的流量权重配置行动值;所述博弈模型Gs的纳什均衡 条件为:
Figure BDA0002829349030000119
其中,
Figure BDA00028293490300001110
为协作防御边缘节点i采取的最优流量权重,
Figure BDA00028293490300001111
为其他的协 作防御边缘节点-i采取的最优流量权重,u(T)为T时刻值函数的值。
此时:
Figure BDA0002829349030000121
优选,采用平均场博弈近似求解动态随机博弈模型,获取平均场博弈 纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制 策略
Figure BDA0002829349030000122
作为最优控制策略。具体地:
所述平均场博弈模型(u(t,sm(t)),v(t,s)),其中u(t,sm(t))为协作防御边缘节点i的值函数,v(t,s)为所有协作防御边缘节点的流量权重的概率分布,表 示为:
其中,h表示传感边缘云任务高密度卸载连接中的网络节点数量; sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,si(t)为协作防 御边缘节点i观察到的流量状态,s-i(t)为其他防御协作者-i观察到的流量状 态;I是指示函数,当所有协作防御边缘节点观察到的流量状态sm(t)等于流 量状态s时,则I的值为1,否则为0,流量状态s是一个可设定参数;
所述平均场博弈纳什均衡状态为,协作防御边缘节点的流量权重
Figure BDA0002829349030000123
满足以下条件:
Figure BDA0002829349030000124
此时所有协作防御边缘节点的流量权重的概率分布达到最优v*(t,s),且 使得成本函数最小。
对于平均场博弈(u(t,sm(t)),v(t,s)),其值函数u(t,sm(t))为:
Figure BDA0002829349030000125
其中,R(t)为奖励函数,按照如下方法计算:
Figure BDA0002829349030000126
其中,ω是惩罚因子,当防御者的协作行动不被允许时,在攻击持续 时间内的流量总和的损失;Δhi(t)=hi(t)-hi(t-1),Δwi(t)=wi(t)-wi(t-1);ξt表示 具有M个边缘节点的系统中,每个边缘节点在流量权重配置策略下流量分 配的公平因子,按照如下方法计算:
Figure BDA0002829349030000131
其中xi=hi(t)/qi(t),hi(t)为协作防御边缘节点的接收率,qi(t)=qo(t)表示内部 DDoS攻击率。
根据最优控制理论和Bellman优化原理,采用协作防御边缘节点的最小 化成本函数HJB方程的解作为达到最优流量权重w*(t)时的值函数u(t,sm(t))、 采用FPK方程计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s);
所述协作防御边缘节点的最小化成本函数HJB方程为:
Figure BDA0002829349030000132
所述用于计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s)的FPK方程为:
Figure BDA0002829349030000137
优选地,采用无模型强化学习更新值函数,求解HJB方程获得最优权 重;优选采用强化学习Q函数进更新值函数,求解HJB方程,具体如下:
所述强化学习样本为:De1=(sm(t),w-i(t),Ri(t),sm(t+1)),其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,w-i(t)为其他 防御协作者-i与传感设备节点连接上通信频次即流量权重,Ri(t)为协作防御 边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防 御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值更 新函数为:
Figure BDA0002829349030000133
其中,α表示学习率,
Figure BDA0002829349030000134
为奖励函数,
Figure BDA0002829349030000135
其中,
Figure BDA0002829349030000136
为协 作防御边缘节点的平均流量权重
Figure BDA0002829349030000141
Mi表示除防御者i之外的 其他协作防御者的集合大小,
Figure BDA0002829349030000142
表示防御协作边缘节点i的流量权重控制策 略的概率分布。
Figure BDA0002829349030000143
表示除防御协作边缘节点i之外的其他防御协作边缘节 点的流量权重控制策略概率分布,有:
Figure BDA0002829349030000144
Figure BDA0002829349030000145
由前一时刻的平均动作值
Figure BDA0002829349030000146
计算;
其中,β为表示探索率温度超参数,是一个可以设定的常量。
损失函数为:
Figure BDA0002829349030000147
其中,
Figure BDA0002829349030000148
是目标平均场Q值,由目标网络估计其值,γ为折扣因子,yi由参数
Figure BDA0002829349030000149
来调节,
Figure BDA00028293490300001410
是sm(t)状态的平均场Q函数值,使用评估网络获得其值, 网络调节参数为
Figure BDA00028293490300001411
所述强化学习Q函数的训练的梯度为:
Figure BDA00028293490300001412
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件。
获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协 作防御边缘节点的流量权重
Figure BDA00028293490300001413
优选采用其他协作者的平均流量权重
Figure BDA00028293490300001414
近似其他防御协作者-i与传 感设备节点连接上通信频次即流量权重w-i(t),具体如下:
所述强化学习样本为:
Figure BDA00028293490300001415
其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态, wvec=[w1(t),...,wM(t)]为所有协作防御边缘节点的流量权重向量,
Figure BDA00028293490300001416
其中
Figure BDA00028293490300001417
为协作防御边缘节点的流量权重平均值,
Figure BDA0002829349030000151
Rvec=[R1(t),...,RM(t)],Ri(t)为协作防御边缘节点i奖励函数 的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到 的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的 目标网络参数更新为
Figure BDA0002829349030000152
其中,α表示学习率,
Figure BDA0002829349030000153
为评估网络参数,
Figure BDA0002829349030000154
为目标网络参数,初始
Figure BDA0002829349030000155
Figure BDA0002829349030000156
为预先设定;使用随机梯度下降法更新评估网络的参数
Figure BDA0002829349030000157
然后由
Figure BDA0002829349030000158
更新目 标网络参数
Figure BDA0002829349030000159
如图2所示。
损失函数为:
Figure BDA00028293490300001510
其中,
Figure BDA00028293490300001511
是目标平均场Q值,由目标网络估计其值,所述目标网络由目标网络参数
Figure BDA00028293490300001512
来调节, γ为折扣因子;
所述强化学习Q函数的训练的梯度为:
Figure BDA00028293490300001513
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件,获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的 流量权重
Figure BDA00028293490300001514
具有M个防御者的平均场协作博弈的反馈纳什均衡是一个联合的流量 权重配置策略行动值
Figure BDA00028293490300001515
且流量权重配置策 略满足以下条件:
Figure BDA00028293490300001516
(2)根据步骤(1)获得的最优控制策略
Figure BDA00028293490300001517
重新配置协作防御边 缘节点端的流量权重,达到协作防御边缘节点的流量权重
Figure BDA00028293490300001518
实现纳什均衡状态。
本发明通过控制传感设备计算任务高密度卸载连接的流量权重来实现 内部DDoS攻击流的减缓或抑制,从而最大限度的提高传感设备计算任务的 平均卸载量。在传感边缘云网络中,为了获得防御者最优流量控制的主动 防御策略,本发明把内部恶意节点利用计算任务高密度卸载连接对多个边 缘节点发起的不确定DDoS攻击模型化为一个动态随机博弈(Dynamic stochastic game,DSG),为了解决多个防御者参与的动态随机博弈问题,随后,本发明把DSG转换为平均场博弈(Mean field game,MFG)。使用平均场方 法来构造Hamilton-Jacobi-Bellman(HJB)和Fokker-Planck-Kolmogorov(FPK)方 程来获得优化解。由于解HJB和FPK方程来获得多个防御者的流量权重控 制策略具有较高的复杂性和时间成本,本发明提出基于平均场强化学习的 主动流量权重控制算法,最大限度减少多个防御者的流量权重控制策略求 解的复杂性。
以下为实施例:
一种基于流量权重控制的内部DDoS攻击主动防御方法,包括以下步骤:
(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他 防御协作者集合{-i}、采用动态随机博弈模型,获取纳什均衡状态下成本函 数最小时的协作防御边缘节点的流量权重
Figure BDA0002829349030000161
并根据当前的协作防御边缘节点的流量 权重,计算控制策略
Figure BDA0002829349030000162
所述控制策略,即在攻击持续时间[0,T]内的所有 防御协作者流量权重的集合{wi(t),w-i(t)};
所述动态随机博弈Gs,记作:
Figure BDA0002829349030000163
其中,
Figure BDA0002829349030000164
为包括协作防御边缘节点i、其他防御协作者-i、可 能为DDoS攻击者的所有传感设备节点的博弈参与者;
Figure BDA0002829349030000167
表示所有博弈参与 者的个数。
w(t)为流量权重空间w(t)={{wo(t)},{wi(t),w-i(t)}},其中{wo(t)}∈Wo, wi(t),w-i(t)∈Wi;wo(t)防御协作者与攻击者o连接上的通信频次即流量权重,
Figure BDA0002829349030000165
为内部DDoS攻击者o采取的流量权重,
Figure BDA0002829349030000166
为攻击者o允许的 最大流量权重;wi(t)为协作防御边缘节点i与传感设备节点连接上通信频次 即流量权重,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即 流量权重,
Figure BDA0002829349030000171
为协作防御边缘节点采取的流量权重,wi max防御者允 许的最大流量权重;
S(t)为状态空间,S(t)={θo(t),θi(t)},o∈N,i∈M,其中N表示内部DDoS攻 击者的个数,M表示协作防御边缘节点的个数。θo(t)为内部DDoS攻击者 的流量状态,θi(t)为防御协作者i观测到的流量状态;
Figure BDA0002829349030000172
qo(t) 表示内部DDoS攻击者的攻击速率,wo(t)为与攻击者o连接上的通信频次, 即流量权重;
Figure BDA0002829349030000173
其中,qo(t)wo(t)为来自内部DDoS 攻击者o的流量,
Figure BDA0002829349030000174
为来自其他传感设备的流量之和,qj(t)为来 自其他传感设备j的传输速率,wj(t)为与其他传感设备j连接上的通信频次, 即流量权重。
在传感设备计算任务卸载过程中,内部DDoS攻击严重降低了传感边缘 云网络中任务卸载量。受内部DDoS攻击时,计算任务卸载量与边缘节点的 接收率和流量权重有关。因此本发明提出了内部DDoS攻击感知模型来分析 计算任务卸载流量,以提高系统平均的计算任务卸载量。此外,博弈论提 供了一个理想的框架来处理多博弈参与之间的攻防交互问题。因此,在博 弈框架中内部DDoS攻击者和边缘节点作为博弈参与者,使用
Figure BDA0002829349030000175
表 示在博弈框架中有
Figure BDA0002829349030000176
个攻击者和防御者。
(1)内部DDoS攻击者o对M个协作防御边缘节点发起的攻击流量状 态方程为:
Figure BDA0002829349030000177
其中,o∈[1,N],qo(t)表示内部DDoS攻击者的攻击速率,wo(t)表示 每条连接上的通信频次,本发明称为权重。
(2)边缘节点作为防御者,相互协作控制流量权重防御内部DDoS攻 击,每个防御者i观测到的流量状态方程为:
Figure BDA0002829349030000178
其中,i∈[1,M],j∈[1,N-1]且j≠i,第一项表示来自内部DDoS攻击 者o的流量,第二项表示来自其他传感设备的流量。qj(t)表示来自其他传感 设备的速率,wj(t)表示来自其他传感设备通信连接的权重。
为了主动防御内部DDoS攻击者,协作防御者i能采取的行动为任务卸 载连接权重
Figure BDA0002829349030000181
内部DDoS攻击者采取的行动为任务卸载连接权重 为
Figure BDA0002829349030000182
其中,
Figure BDA0002829349030000183
Figure BDA0002829349030000184
分别表示防御者和内部DDoS攻击者允许 的任务卸载连接最大权重。传感边缘云计算任务卸载流量的可信状态由权 重控制策略的流量权重值决定,分别对应于wi(t),w-i(t)∈Wi,wo(t)∈Wo,其中 w-i(t)表示除防御者i以外的其他协作防御者采取的流量权重。进一步来说, 本发明考虑了传感边缘云网络中内部DDoS攻击者和边缘节点的任务卸载流量的动态性和不确定性。以此,采用Ornstein-Uhlenbeck动态方程来模型 化内部DDoS攻击流量状态的动态变化:
Figure BDA0002829349030000185
其中,μ,和σ分别表示内部DDoS攻击速率的均值和方差。此外,B(t) 表示标准的布朗运动函数,
Figure BDA0002829349030000186
τ表示时间间隔的个数,εi表示标准正态分布中的一个随机值,Δt表示布朗运动变化的方差。B(t)用来 刻画内部DDoS攻击速率动态变化的不确定性。令所有的内部DDoS攻击速 率动态变化方程均使用相同的μ和σ值。在固定时间t,流量权重不变,为 常数,则内部DDoS攻击流量状态的动态变化方程为:
Figure BDA0002829349030000187
得到内部DDoS攻击流量状态的动态变化方程为:
Figure BDA0002829349030000188
类似地,协作防御边缘节点的流量动态变化方程为:
Figure BDA0002829349030000189
J(t)为成本函数,考虑了边缘节点受内部DDoS攻击时,流量状态和任 务卸载量阈值,本发明采用二次递增函数作为成本函数J(t)如下:
Figure BDA0002829349030000191
Figure BDA0002829349030000192
其中,qth为任务卸载量阈值,如果传感设备计算任务卸载量超过阈值, 表明传感设备被劫持且变为一个内部DDoS攻击者,干扰合法传感设备正常 的计算任务卸载过程;θi(t)为防御协作者i观测到的流量状态,σ2(t)为内部 DDoS攻击速率的方差。
在传感边缘云网络中,防御协作者的流量权重控制策略和内部DDoS 攻击行为的感知与计算任务的卸载量相关。内部DDoS攻击者o产生的计算 任务卸载量为:
Figure BDA0002829349030000193
对于协作防御者i(边缘节点)和其他的协作防御者-i,各自接收的计 算任务卸载量为:
Figure BDA0002829349030000194
本发明使用相同的任务卸载量阈值qth来衡量传感设备的计算任务卸载 行为。如果传感设备计算任务卸载量超过阈值,表明传感设备被劫持且变 为一个内部DDoS攻击者,干扰合法传感设备正常的计算任务卸载过程。 由于内部DDoS攻击者的流量权重无法控制,协作防御者只能控制边缘节 点端的流量权重,因此,本发明设计以边缘节点为中心的主动的流量权重 控制策略,仅考虑φi(t),φ-i(t)≥qth的情况。此时,满足条件:
Figure BDA0002829349030000195
定义函数
Figure BDA0002829349030000196
为了最小化内部DDoS攻击流量,本发明设计了成本函数,他集成了 边缘节点观测到的流量状态和内部DDoS攻击者的流量阈值。当传感设备 的计算任务卸载量超过阈值时,发生了内部DDoS攻击,防御者通过协作 调节流量权重来最小化成本函数。成本函数表示如下:
Figure BDA0002829349030000201
为方便分析内部DDoS攻击流量的动态性,使得J(t)>0,使用二次递 增函数作为成本函数,因此,成本函数能够通过控制流量权重减轻内部 DDoS攻击对任务卸载过程的破坏程度。
Figure BDA0002829349030000202
为最优控制策略,即在攻击持续时间[0,T]内,最小化平均成本函数 时的所有防御协作者行动值
Figure BDA0002829349030000203
的集合;即:
Figure BDA0002829349030000204
其中,ηT为在时间T时的成本。每个防御者(边缘节点),在内部DDoS攻击 的持续时间[0,T]内,将决定他的最优策略
Figure BDA0002829349030000205
使得成本函数值最小
以上动态随机博弈模型刻画了内部DDoS攻击者的攻击行动空间以及 防御者的行动空间,有助于设计多边缘节点协作的分布式主动防御算法。 此外,本博弈模型考虑了内部DDoS攻击流量状态的动态随机性,并且在 成本函数中加入了这些攻击特征对最优策略求解的影响。本发明用值函数 刻画这些影响。
对于动态随机博弈Gs,其在时间T和状态S(T)的值函数u(t,S(t))定义如 下:
Figure BDA0002829349030000206
其中,u(T,S(T))是在时间T和状态S(T)的值函数。根据Bellman优化原 理,最终的优化策略依赖于前一个优化策略的结果。因此,可以得出,对 于攻击持续时间t∈[0,T]内,如果最终的优化策略的值函数
Figure BDA0002829349030000207
则w*(t→T)是最优的任务卸载流量权重。
在纳什均衡状态下,最优控制策略为:
Figure BDA0002829349030000208
其中,
Figure BDA0002829349030000209
Figure BDA00028293490300002010
分别为值函数满足纳什均衡条件时防御协 作者i和其他防御协作者-i的流量权重配置行动值;所述博弈模型Gs的纳什 均衡条件为:
Figure BDA0002829349030000211
其中,
Figure BDA0002829349030000212
为协作防御边缘节点i采取的最优流量权重,
Figure BDA0002829349030000213
为其他的协 作防御边缘节点-i采取的最优流量权重,u(T)为T时刻值函数的值。
此时:
Figure BDA0002829349030000214
最优流量权重
Figure BDA0002829349030000215
Figure BDA0002829349030000216
使得正常的任务卸载流量和抑制的DDoS攻 击流量达均衡状态,此时成本函数最小。然而,由于传感边缘云任务高密 度卸载连接中的网络节点数量h是巨大的,获得纳什均衡解非常困难。因此, 本发明把动态随机博弈(DSG)转换为平均场博弈(MFG)来求解。这使得每 个协作防御边缘节点在面对高密度连接的内部DDoS攻击时,能够更据自 己观察到的流量状态来优化权重配置策略。
优选,采用平均场博弈近似求解动态随机博弈模型,获取平均场博弈 纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制 策略
Figure BDA0002829349030000218
作为最优控制策略。
平均场博弈是一种特殊的微分博弈,每个博弈参与者与其他大量的博 弈参与者交互。本发明主要解决多边缘节点间的协作防御问题,因此,本 发明中的平均场博弈是一个平均场协作博弈模型,该模型可表示为一个二 元组(u(t,sm(t)),v(t,s)),其中u(t,sm(t))为协作防御边缘节点i的值函数,v(t,s)为 所有协作防御边缘节点的流量权重的概率分布,表示为:
Figure BDA0002829349030000217
其中,h表示传感边缘云任务高密度卸载连接中的网络节点数量; sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,si(t)为协作防 御边缘节点i观察到的流量状态,s-i(t)为其他防御协作者-i观察到的流量状 态;I是指示函数,当所有协作防御边缘节点观察到的流量状态sm(t)等于流 量状态s时,则I的值为1,否则为0,流量状态s是一个可设定参数;
在受内部DDoS攻击时,给定所有协作防御边缘节点观察到的流量状态 sm(t)=[si(t),s-i(t)],协作防御边缘节点的平均场即所有协作防御边缘节点的流 量权重的概率分布。对于给定的时刻t,平均场表示受内部DDoS攻击时, 计算任务卸载流量状态在协作防御边缘节点集合上的概率分布。协作防御 边缘节点在执行分布式的流量权重配置策略行动过程中更新其值函数。
在协作防御过程中,协作防御边缘节点i的流量权重配置策略行动将影 响到其他的协作防御边缘节点的流量权重配置策略行动,协作防御边缘节 点i的流量状态变化表示为:
dsi(t)=wo(t)dqo(t)+σ2(t)dB(t)
其他协作防御边缘节点-i的流量状态变化表示为:
ds-i(t)=w-i(t)ω-i(t)dt+σ2(t)dB(t)
其中,
Figure BDA0002829349030000221
B(t)为标准的布朗运动函数,
Figure BDA0002829349030000222
τ表示时间间隔的个数,εi表示标准正态分布中的一 个随机值,Δt表示布朗运动变化的方差。
对于平均场博弈(u(t,sm(t)),v(t,si)),其值函数u(t,sm(t))为:
Figure BDA0002829349030000223
其中,R(t)为奖励函数,按照如下方法计算:
Figure BDA0002829349030000224
其中,ω是惩罚因子,当防御者的协作行动不被允许时,在攻击持续 时间内的流量总和的损失;Δhi(t)=hi(t)-hi(t-1),Δwi(t)=wi(t)-wi(t-1);ξt表示 具有M个边缘节点的系统中,每个边缘节点在流量权重配置策略下流量分 配的公平因子,按照如下方法计算:
Figure BDA0002829349030000225
其中xi=hi(t)qi(t),hi(t)为协作防御边缘节点的接收率,qi(t)=qo(t)表示内部DDoS攻击率。
平均场协作博弈是一个动态的优化过程。在内部DDoS攻击的持续时间 t∈[0,T]内,每个协作防御边缘节点优化的流量权重
Figure BDA0002829349030000226
来最大化其任务卸 载量的收益Ri(t),平均场协作博弈解是一个协作反馈的纳什均衡,其中的 反馈是指奖励。故:
所述平均场博弈纳什均衡状态为,协作防御边缘节点的流量权重
Figure BDA0002829349030000231
满足以下条件:
Figure BDA0002829349030000232
此时所有协作防御边缘节点的流量权重的概率分布达到最优v*(t,s),且 使得成本函数最小。在纳什均衡点时协作防御节点抑制了DDoS攻击流, 同时通过最大化其收益确保了正常的任务卸载流量和抑制的DDoS攻击流 的均衡。
平均场博弈达到反馈纳什均衡时,防御者获得最优策略行动值
Figure BDA0002829349030000233
边缘节点的流量状态最优分布达到最优v*(t,s),并且满足
Figure BDA0002829349030000234
对于理性的协作防御节点来说,采用均衡流量权重控制策略行动值 w*(t)后,不会再在采用其他的策略,此时,对应的边缘节点的流量状态的 概率分布为v*(t,s)。
本发明使用随机偏微分方程来获得平均场协作博弈反馈纳什均衡策略 解,协作防御节点能够观察到任意时刻t的流量状态sm(t),并且在内部DDoS 攻击的持续时间t∈[0,T]内,观测所有流量状态,寻找最优的流量权重w*(t)来 减缓或抑制内部DDoS攻击流量。
根据最优控制理论和Bellman优化原理,采用协作防御边缘节点的最小 化成本函数HJB方程的解作为达到最优流量权重w*(t)时的值函数u(t,sm(t))、 采用FPK方程计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s);
所述协作防御边缘节点的最小化成本函数HJB方程为:
Figure BDA0002829349030000235
如果从上式中解出一个最优解,说明值函数u(t,sm(t))能够通过HJB方程 得到,此时值函数中的流量状态对应于协作防御边缘节点的最优流量权重w*(t)。
所述用于计算达到最优流量权重w*(t)时的最优流量权重的概率分布 v*(t,s)的FPK方程为:
Figure BDA0002829349030000241
求解式HJB方程和FPK方程的关键点是获得概率分布v0(t,s),并且根据 Bellman原理更新值函数u(t,sm(t)),来获得协作防御边缘节点的最优流量权 重控制策略行动值w*(t)。整个求解过程需要大量的计算。
在给定初始状态概率分布v0(t,s)的情况下,通过更新值函数u(t,sm(t))来 求解最优流量权重控制策略行动值w*(t)。在受内部DDoS攻击时,由于协作 防御边缘节点最后的流量状态被定义为在攻击持续时间内的流量总和R(t)。
优选地,采用无模型强化学习更新值函数,求解HJB方程获得最优权 重;优选采用强化学习Q函数进更新值函数,求解HJB方程,具体如下:
所述强化学习样本为:De1=(sm(t),w-i(t),Ri(t),sm(t+1)),其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,w-i(t)为其他 防御协作者-i与传感设备节点连接上通信频次即流量状态,Ri(t)为协作防御 边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防 御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值跟 新函数为:
Figure BDA0002829349030000242
其中,α表示学习率,
Figure BDA0002829349030000243
为奖励函数,
Figure BDA0002829349030000244
其中,
Figure BDA0002829349030000245
为协作防御边缘节点的平均流量权重
Figure BDA0002829349030000246
Mi表示 除防御者i之外的其他协作防御者的集合大小,
Figure BDA0002829349030000247
表示防御协作边缘节点i 的流量权重控制策略的概率分布。
Figure BDA0002829349030000248
表示除防御协作边缘节点i之外的其 他防御协作边缘节点的流量权重控制策略概率分布,有:
Figure BDA0002829349030000251
Figure BDA0002829349030000252
可由前一时刻的平均动作值
Figure BDA0002829349030000253
计算;
其中,β为表示探索率温度超参数,是一个可以设定的常量。
损失函数为:
Figure BDA0002829349030000254
其中,
Figure BDA0002829349030000255
是目标平均场Q值,由目标网络估计其值,所述目标网络由网络调节参数
Figure BDA0002829349030000256
来调节, γ为折扣因子,
Figure BDA0002829349030000257
是sm(t)状态的平均场Q函数值,使用评估 网络获得其值,所述网络调节参数为
Figure BDA00028293490300002511
所述强化学习Q函数的训练的梯度为:
Figure BDA0002829349030000258
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件。
获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协 作防御边缘节点的流量权重
Figure BDA0002829349030000259
根据平均场博弈值函数,HJB方程中的值函数能够通过强化学习方法 来近似,并且同时获得最优的流量权重。在本发明中,考虑了M个协作防 御边缘节点协作采取防御行动,他们需要估计联合防御策略的行动值。这 使得标准的Q-learning算法不再适用,为了解决这个问题,本发明把传统的 强化学习扩展为平均场多博弈参与者强化学习,使用强化学习中的Q函数 来近似HJB方程中的值函数。使用协作防御边缘节点的流量状态和流量权重值参数化Q函数为:
Figure BDA00028293490300002510
其中,M(i)表示除协作防御边缘节点i之外的其他协作防御边缘节点的 集合,集合大小为Mi=|M(i)|。根据协作防御边缘节点集合M(i)来计算流量 权重控制策略的平均行动值
Figure BDA00028293490300002512
使用协作防御边缘节点的流量状态和流 量权重值参数化Q函数可近似为:
Figure BDA0002829349030000261
由于使用平均场近似方法,简化了平均场协作博弈的Q函数,协作防 御边缘节点之间的平均场协作博弈的Q函数简化为
Figure BDA00028293490300002626
可以得出,实现平均场多博弈参与者强化学习问题转化为求解协作防 御者i的最优策略
Figure BDA0002829349030000262
问题,且
Figure BDA0002829349030000263
与相互协作的防御者的平均行动值
Figure BDA0002829349030000264
有关, 且
Figure BDA0002829349030000265
其中
Figure BDA0002829349030000266
是前一时刻的平均动作值,其他防御者协作的流量权重w-i(t) 由策略
Figure BDA0002829349030000267
决定,他受前一时刻的平均流量权重
Figure BDA0002829349030000268
影响。随后,策略
Figure BDA0002829349030000269
根 据平均流量权重
Figure BDA00028293490300002610
更新,策略
Figure BDA00028293490300002611
和平均行动
Figure BDA00028293490300002612
的关系式为:
Figure BDA00028293490300002613
其中,β表示探索率温度超参数,是一个可设定的常量。
优选采用其他协作者的平均行动值
Figure BDA00028293490300002614
近似其他防御协作者-i与传感 设备节点连接上通信频次即流量权重w-i(t),具体如下:
所述强化学习样本为:
Figure BDA00028293490300002615
其中 sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态, wvec=[w1(t),...,wM(t)]为所有协作防御边缘节点的流量权重向量,
Figure BDA00028293490300002616
其中
Figure BDA00028293490300002617
为协作防御边缘节点的流量权重平均值,
Figure BDA00028293490300002618
Rvec=[R1(t),...,RM(t)],Ri(t)为协作防御边缘节点i奖励函数 的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到 的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的 目标网络参数更新为
Figure BDA00028293490300002619
其中,α表示学习率,
Figure BDA00028293490300002620
为评估网络参数,
Figure BDA00028293490300002621
为目标网络参数,初始
Figure BDA00028293490300002622
Figure BDA00028293490300002623
为预先设定,使用随机梯度下降法更新评估网络的参数
Figure BDA00028293490300002624
然后由
Figure BDA00028293490300002625
更新目 标网络参数
Figure BDA0002829349030000271
如图2所示。
损失函数为:
Figure BDA0002829349030000272
其中,
Figure BDA0002829349030000273
是目标平均场 Q值,由目标网络估计其值,γ为折扣因子,yi由参数
Figure BDA0002829349030000274
来调节,
Figure BDA0002829349030000275
是sm(t)状态的平均场Q函数值,使用评估网络获得其值, 评估网络由评估网络参数
Figure BDA0002829349030000276
调节;
所述强化学习Q函数的训练的梯度为:
Figure BDA0002829349030000277
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条 件,获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的 流量权重
Figure BDA0002829349030000278
具有M个防御者的平均场协作博弈的反馈纳什均衡是一个联合的流量 权重配置策略行动值
Figure BDA0002829349030000279
且流量权重配置策 略满足以下条件:
Figure BDA00028293490300002710
具体地,可表示为以下程序,如图3所示:
步骤1:初始评估网络参数
Figure BDA00028293490300002711
和目标网络参数
Figure BDA00028293490300002712
其他协作防御者的平均行动值
Figure BDA00028293490300002713
并且标记 状态为未达到纳什均衡状态即Flag=1
步骤2:Whileflag=1do
步骤3:Fori=1toNdo
①对于每个防御者i,采样流量权重wi(t),使用当前的平均流量权重
Figure BDA00028293490300002714
计算
Figure BDA00028293490300002715
如 下:
Figure BDA00028293490300002716
②对于每个防御者i,计算新的平均行动值
Figure BDA00028293490300002717
如下:
Figure BDA00028293490300002718
③对于每个防御者采取联合的流量权重控制强化学习行动值wvec=[w1(t),...,wM(t)]并且观察其奖励 Rvec=[R1(t),...,RM(t)]以及下一个流量状态sm(t+1)。
④在经验池D中存储
Figure BDA0002829349030000281
其中
Figure BDA0002829349030000282
Endfor
步骤4:Fori=1 to M do
①从经验池中采样κ个经验
Figure BDA0002829349030000283
②从经验池采样前一时刻
Figure BDA0002829349030000284
Figure BDA0002829349030000285
③设定
Figure BDA0002829349030000286
④通过最小化损失函数
Figure BDA0002829349030000287
更新评估网络中的参数
Figure BDA0002829349030000288
⑤对于每个防御者使用学习率α更新目标网络参数:
Figure BDA0002829349030000289
Endfor
步骤5:当达到反馈纳什均衡条件
Figure BDA00028293490300002810
时,训练结束,flag=0,否则, 继续执行步骤4。
End while
步骤6:输出每个防御者在状态sm(t)对应的最优行动值
Figure BDA00028293490300002811
(2)根据步骤(1)获得的最优控制策略
Figure BDA00028293490300002812
重新配置协作防御边 缘节点端的流量权重,达到协作防御边缘节点的流量权重
Figure BDA00028293490300002813
实现纳什均衡状态。
采用本发明防御前后的边缘传感系统,分别如图3(a)和图3(b)所 示。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,包括以下步骤:
(1)在防御周期内t,对于每一个待决策的协作防御边缘节点i、其他防御协作者集合{-i}、采用动态随机博弈模型,获取纳什均衡状态下成本函数最小时的协作防御边缘节点的流量权重
Figure FDA0002829349020000011
并根据当前的协作防御边缘节点的流量权重,计算最优控制策略
Figure FDA0002829349020000012
所述控制策略,即在攻击持续时间[0,T]内的所有防御协作者流量权重的集合{wi(t),w-i(t)};
所述成本函数考虑了边缘节点受内部DDoS攻击时,流量状态和任务卸载量阈值;
(2)根据步骤(1)获得的最优控制策略
Figure FDA0002829349020000013
重新配置协作防御边缘节点端的流量权重,达到协作防御边缘节点的流量权重
Figure FDA0002829349020000014
实现纳什均衡状态。
2.如权利要求1所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,所述动态随机博弈Gs,记作:
Figure FDA0002829349020000015
其中,
Figure FDA0002829349020000016
为包括协作防御边缘节点i、其他防御协作者-i、可能为DDoS攻击者的所有传感设备节点的博弈参与者,
Figure FDA0002829349020000017
表示所有博弈参与者的个数;
w(t)为流量权重空间w(t)={{wo(t)},{wi(t),w-i(t)}},其中{wo(t)}∈Wo,wi(t),w-i(t)∈Wi;wo(t)防御协作者与攻击者o连接上的通信频次即流量权重,
Figure FDA0002829349020000018
为内部DDoS攻击者o采取的流量权重,
Figure FDA0002829349020000019
为攻击者o允许的最大流量权重;wi(t)为协作防御边缘节点i与传感设备节点连接上通信频次即流量权重,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流量权重,
Figure FDA0002829349020000021
为协作防御边缘节点采取的流量权重,
Figure FDA0002829349020000022
防御者允许的最大流量权重;
S(t)为状态空间,S(t)={θo(t),θi(t)},o∈N,i∈M,其中N表示内部DDoS攻击者的个数,M表示协作防御边缘节点的个数;θo(t)为内部DDoS攻击者的流量状态,θi(t)为防御协作者i观测到的流量状态;
Figure FDA0002829349020000023
qo(t)表示内部DDoS攻击者的攻击速率,wo(t)为与攻击者o连接上的通信频次,即流量权重;
Figure FDA0002829349020000024
其中,qo(t)wo(t)为来自内部DDoS攻击者o的流量,
Figure FDA0002829349020000025
为来自其他传感设备的流量之和,qj(t)为来自其他传感设备j的传输速率,wj(t)为与其他传感设备j连接上的通信频次,即流量权重。
J(t)为成本函数,采用二次递增函数作为成本函数J(t)如下:
Figure FDA0002829349020000026
Figure FDA0002829349020000027
其中,qth为任务卸载量阈值,如果传感设备计算任务卸载量超过阈值,表明传感设备被劫持且变为一个内部DDoS攻击者,干扰合法传感设备正常的计算任务卸载过程;θi(t)为防御协作者i观测到的流量状态,σ2(t)为内部DDoS攻击速率的方差。
Figure FDA0002829349020000028
为最优控制策略,即在攻击持续时间[0,T]内,最小化平均成本函数时的所有防御协作者流量权重的集合;即:
Figure FDA0002829349020000031
其中,ηT为在时间T时的成本。
3.如权利要求1所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,对于动态随机博弈Gs,其在时间T和状态S(T)的值函数u(t,S(t))定义如下:
Figure FDA0002829349020000032
在纳什均衡状态下,最优控制策略为:
Figure FDA0002829349020000033
其中,
Figure FDA0002829349020000034
Figure FDA0002829349020000035
分别为值函数满足纳什均衡条件时防御协作者i和其他防御协作者-i的流量权重配置行动值;所述博弈模型Gs的纳什均衡条件为:
Figure FDA0002829349020000036
其中,
Figure FDA0002829349020000037
为协作防御边缘节点i采取的最优流量权重,
Figure FDA0002829349020000038
为其他的协作防御边缘节点-i采取的最优流量权重,u(T)为T时刻值函数的值。
此时:
Figure FDA0002829349020000039
4.如权利要求1所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,采用平均场博弈近似求解动态随机博弈模型,获取平均场博弈纳什均衡状态下任务卸载量的收益R(t)最大即成本函数J(t)最小时的控制策略
Figure FDA00028293490200000310
作为最优控制策略。
5.如权利要求4所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,所述平均场博弈模型(u(t,sm(t)),v(t,s)),其中u(t,sm(t))为协作防御边缘节点i的值函数,v(t,s)为所有协作防御边缘节点的流量权重的概率分布,表示为:
Figure FDA0002829349020000041
其中,h表示传感边缘云任务高密度卸载连接中的网络节点数量;sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,si(t)为协作防御边缘节点i观察到的流量状态,s-i(t)为其他防御协作者-i观察到的流量状态;I是指示函数,当所有协作防御边缘节点观察到的流量状态sm(t)等于流量状态s时,则I的值为1,否则为0,流量状态s是一个可设定参数;
所述平均场博弈纳什均衡状态为,协作防御边缘节点的流量权重
Figure FDA0002829349020000042
满足以下条件:
J(w*(t))≤J(wi(t),w-i(t)),
Figure FDA0002829349020000043
此时所有协作防御边缘节点的流量权重的概率分布达到最优v*(t,s),且使得成本函数最小。
对于平均场博弈(u(t,sm(t)),v(t,s)),其值函数u(t,sm(t))为:
Figure FDA0002829349020000044
其中,R(t)为奖励函数,按照如下方法计算:
Figure FDA0002829349020000045
其中,ω是惩罚因子,当防御者的协作行动不被允许时,在攻击持续时间内的流量总和的损失;Δhi(t)=hi(t)-hi(t-1),Δwi(t)=wi(t)-wi(t-1);ξt表示具有M个边缘节点的系统中,每个边缘节点在流量权重配置策略下流量分配的公平因子,按照如下方法计算:
Figure FDA0002829349020000051
其中xi=hi(t)/qi(t),hi(t)为协作防御边缘节点的接收率,qi(t)=qo(t)表示内部DDoS攻击率。
6.如权利要求5所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,采用协作防御边缘节点的最小化成本函数HJB方程的解作为达到最优流量权重w*(t)时的值函数u(t,sm(t))、采用FPK方程计算达到最优流量权重w*(t)时的最优流量权重的概率分布v*(t,s)。
7.如权利要求6所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,所述协作防御边缘节点的最小化成本函数HJB方程为:
Figure FDA0002829349020000052
8.如权利要求6所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,所述用于计算达到最优流量权重w*(t)时的最优流量权重的概率分布v*(t,s)的FPK方程为:
Figure FDA0002829349020000053
9.如权利要求6所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,采用无模型强化学习更新值函数,求解HJB方程获得最优权重;优选采用强化学习Q函数进更新值函数,求解HJB方程,具体如下:
所述强化学习样本为:De1=(sm(t),w-i(t),Ri(t),sm(t+1)),其中sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,w-i(t)为其他防御协作者-i与传感设备节点连接上通信频次即流量权重,Ri(t)为协作防御边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值更新函数为:
Figure FDA0002829349020000061
其中,α表示学习率,
Figure FDA0002829349020000062
为奖励函数,
Figure FDA0002829349020000063
其中,
Figure FDA0002829349020000064
为协作防御边缘节点的平均流量权重
Figure FDA0002829349020000065
Mi表示除防御者i之外的其他协作防御者的集合大小,
Figure FDA0002829349020000066
表示防御协作边缘节点i的流量权重控制策略的概率分布;
Figure FDA0002829349020000067
表示除防御协作边缘节点i之外的其他防御协作边缘节点的流量权重控制策略概率分布,有:
Figure FDA0002829349020000068
Figure FDA0002829349020000069
由前一时刻的平均动作值
Figure FDA00028293490200000610
计算;
其中,β为表示探索率温度超参数;
损失函数为:
Figure FDA00028293490200000611
其中,
Figure FDA00028293490200000612
是目标平均场Q值,由目标网络估计其值,所述目标网络由目标网络参数
Figure FDA00028293490200000613
来调节,γ为折扣因子,
Figure FDA0002829349020000071
是sm(t)状态的平均场Q函数值,使用评估网络获得其值,所述评估网络由评估网络参数
Figure FDA0002829349020000072
调节;
所述强化学习Q函数的训练的梯度为:
Figure FDA0002829349020000073
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条件;
获得强化学习Q函数收敛时协作防御边缘节点的流量权重作为最优协作防御边缘节点的流量权重
Figure FDA0002829349020000074
10.如权利要求9所述的基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法,其特征在于,采用其他协作者的平均行动值
Figure FDA0002829349020000075
近似其他防御协作者-i与传感设备节点连接上通信频次即流量权重w-i(t),具体如下:
所述强化学习样本为:
Figure FDA0002829349020000076
其中sm(t)=[si(t),s-i(t)]为所有协作防御边缘节点观察到的流量状态,wvec=[w1(t),...,wM(t)]为所有协作防御边缘节点的流量权重向量,
Figure FDA0002829349020000077
其中
Figure FDA0002829349020000078
为协作防御边缘节点的流量权重平均值,
Figure FDA0002829349020000079
Rvec=[R1(t),...,RM(t)],Ri(t)为协作防御边缘节点i奖励函数的值即获得的奖励,sm(t+1)为下一决策周期所有协作防御边缘节点观察到的流量状态。
所述强化学习Q函数协作防御边缘节点i的流量权重值参数化Q值的目标网络参数更新为
Figure FDA00028293490200000710
其中,α表示学习率,
Figure FDA00028293490200000711
为评估网络参数,
Figure FDA00028293490200000712
为目标网络参数,初始
Figure FDA00028293490200000713
Figure FDA00028293490200000714
为预先设定;使用随机梯度下降法更新评估网络的参数
Figure FDA00028293490200000715
Figure FDA00028293490200000716
更新目标网络参数
Figure FDA0002829349020000081
损失函数为:
Figure FDA0002829349020000082
其中,
Figure FDA0002829349020000083
是目标平均场Q值,由目标网络估计其值,所述目标网络由目标网络参数
Figure FDA0002829349020000084
来调节,γ为折扣因子;
所述强化学习Q函数的训练的梯度为:
Figure FDA0002829349020000085
所述强化学习Q函数的收敛条件为:达到平均场博弈反馈纳什均衡条件,获得此时协作防御边缘节点的流量权重作为最优协作防御边缘节点的流量权重
Figure FDA0002829349020000086
CN202011456347.9A 2020-12-11 2020-12-11 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法 Pending CN113407248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011456347.9A CN113407248A (zh) 2020-12-11 2020-12-11 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011456347.9A CN113407248A (zh) 2020-12-11 2020-12-11 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法

Publications (1)

Publication Number Publication Date
CN113407248A true CN113407248A (zh) 2021-09-17

Family

ID=77675725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011456347.9A Pending CN113407248A (zh) 2020-12-11 2020-12-11 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法

Country Status (1)

Country Link
CN (1) CN113407248A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501457A (zh) * 2022-01-25 2022-05-13 绍兴文理学院 一种传感边缘云卸载链路的隐形干扰攻击防护方法及系统
CN115102767A (zh) * 2022-06-24 2022-09-23 天津大学 一种基于分布式协作学习的DDoS主动防御系统及方法
CN116708042A (zh) * 2023-08-08 2023-09-05 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法
CN117675413A (zh) * 2024-01-31 2024-03-08 北京中关村实验室 受攻击工业节点间的防御资源分布式调度方法及装置
CN117857559A (zh) * 2024-03-07 2024-04-09 北京邮电大学 基于平均场博弈的城域光网络任务卸载方法及边缘服务器

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103298076A (zh) * 2013-06-21 2013-09-11 西安邮电大学 一种异构网络中的接入网络选择的方法
CN104009939A (zh) * 2014-05-29 2014-08-27 中国联合网络通信集团有限公司 一种服务资源分配方法和系统
CN104993890A (zh) * 2015-07-14 2015-10-21 福建师范大学 基于信誉机制和动态博弈的安全协作频谱感知方法
US20160088012A1 (en) * 2013-09-23 2016-03-24 New York University System, method and computer-accessible medium for deterrence of malware
CN107371213A (zh) * 2017-05-19 2017-11-21 西安电子科技大学 基于双层博弈框架下的联合功率控制和源节点选择的控制方法
CN107508792A (zh) * 2017-07-13 2017-12-22 福建师范大学 一种移动云计算中的数据可信感知方法
CN109005572A (zh) * 2018-08-20 2018-12-14 重庆邮电大学 基于博弈论的移动云服务的接入卸载方法
CN109639720A (zh) * 2019-01-08 2019-04-16 平安科技(深圳)有限公司 漏洞最优改进策略确定方法、装置及存储介质、服务器
CN110191083A (zh) * 2019-03-20 2019-08-30 中国科学院信息工程研究所 面向高级持续性威胁的安全防御方法、装置与电子设备
CN110401675A (zh) * 2019-08-20 2019-11-01 绍兴文理学院 一种传感云环境下不确定性DDoS攻击防御方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103298076A (zh) * 2013-06-21 2013-09-11 西安邮电大学 一种异构网络中的接入网络选择的方法
US20160088012A1 (en) * 2013-09-23 2016-03-24 New York University System, method and computer-accessible medium for deterrence of malware
CN104009939A (zh) * 2014-05-29 2014-08-27 中国联合网络通信集团有限公司 一种服务资源分配方法和系统
CN104993890A (zh) * 2015-07-14 2015-10-21 福建师范大学 基于信誉机制和动态博弈的安全协作频谱感知方法
CN107371213A (zh) * 2017-05-19 2017-11-21 西安电子科技大学 基于双层博弈框架下的联合功率控制和源节点选择的控制方法
CN107508792A (zh) * 2017-07-13 2017-12-22 福建师范大学 一种移动云计算中的数据可信感知方法
CN109005572A (zh) * 2018-08-20 2018-12-14 重庆邮电大学 基于博弈论的移动云服务的接入卸载方法
CN109639720A (zh) * 2019-01-08 2019-04-16 平安科技(深圳)有限公司 漏洞最优改进策略确定方法、装置及存储介质、服务器
CN110191083A (zh) * 2019-03-20 2019-08-30 中国科学院信息工程研究所 面向高级持续性威胁的安全防御方法、装置与电子设备
CN110401675A (zh) * 2019-08-20 2019-11-01 绍兴文理学院 一种传感云环境下不确定性DDoS攻击防御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐翔,沈士根,曹奇英: "基于博弈论的无线传感网络DDoS 攻击防御优化策略", 《智能计算机与应用》, vol. 5, no. 6, pages 36 - 68 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501457A (zh) * 2022-01-25 2022-05-13 绍兴文理学院 一种传感边缘云卸载链路的隐形干扰攻击防护方法及系统
CN114501457B (zh) * 2022-01-25 2024-04-26 绍兴文理学院 一种传感边缘云卸载链路的隐形干扰攻击防护方法及系统
CN115102767A (zh) * 2022-06-24 2022-09-23 天津大学 一种基于分布式协作学习的DDoS主动防御系统及方法
CN115102767B (zh) * 2022-06-24 2023-06-30 天津大学 一种基于分布式协作学习的DDoS主动防御系统及方法
CN116708042A (zh) * 2023-08-08 2023-09-05 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法
CN116708042B (zh) * 2023-08-08 2023-11-17 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法
CN117675413A (zh) * 2024-01-31 2024-03-08 北京中关村实验室 受攻击工业节点间的防御资源分布式调度方法及装置
CN117675413B (zh) * 2024-01-31 2024-04-16 北京中关村实验室 受攻击工业节点间的防御资源分布式调度方法及装置
CN117857559A (zh) * 2024-03-07 2024-04-09 北京邮电大学 基于平均场博弈的城域光网络任务卸载方法及边缘服务器

Similar Documents

Publication Publication Date Title
CN113407248A (zh) 基于流量权重控制的传感边缘云内部DDoS攻击主动防御方法
CN106936855B (zh) 基于攻防微分博弈的网络安全防御决策确定方法及其装置
CN112286051A (zh) 复杂网络攻击下基于自适应事件触发机制的神经网络量化控制方法
CN111045334B (zh) 信息物理融合系统的主动防御弹性滑模控制方法
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN112887272A (zh) 一种传感边缘云任务卸载中挖矿攻击面控制装置及方法
CN111988415B (zh) 基于模糊博弈的移动传感设备计算任务安全卸载方法
Huang et al. Cross-layer coordinated attacks on cyber-physical systems: A lqg game framework with controlled observations
Xu et al. Play it by ear: Context-aware distributed coordinated anti-jamming channel access
Wang et al. Optimal DoS attack strategy for cyber-physical systems: A Stackelberg game-theoretical approach
CN111786967B (zh) DDoS攻击的防御方法、系统、节点及存储介质
CN112637087B (zh) 一种基于节点重要度的动态资源分配方法及系统
CN116980899A (zh) 一种基于演化博弈的无线传感器入侵检测方法及系统
El Amrani et al. A game theoretic approach to optimize transmission strategies for mobile applications
Jamali et al. Congestion control in high‐speed networks using the probabilistic estimation approach
CN111934917A (zh) 基于信任节点的异质多智能体系统分组一致性控制方法
CN114501457B (zh) 一种传感边缘云卸载链路的隐形干扰攻击防护方法及系统
CN116707870A (zh) 防御策略模型训练方法、防御策略确定方法和设备
CN115633062A (zh) 一种端边协同环境下联邦学习任务可信卸载系统及方法
Zhang et al. Bipartite secure synchronization for dynamic networks under deception attacks via delay-dependent impulsive control
CN114967439A (zh) 一种多智能体安全事件触发模型预测控制方法
CN112966741B (zh) 一种可防御拜占庭攻击的联邦学习图像分类方法
Shi et al. Flocking control for Cucker–Smale model under denial‐of‐service attacks
CN114050939B (zh) 基于贝叶斯博弈的飞行器信息物理系统设计方法及系统
Wang et al. A game theoretic malicious nodes detection model in MANETs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination