CN114666107B

CN114666107B - 移动雾计算中一种高级持续性威胁防御方法

Info

Publication number: CN114666107B
Application number: CN202210232071.9A
Authority: CN
Inventors: 涂山山; 万佳琳
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2024-06-04
Anticipated expiration: 2042-03-04
Also published as: CN114666107A

Abstract

移动雾计算中一种高级持续性威胁防御方法涉及了计算机网络和无线通信领域，又属于信息安全领域。本发明利用前景理论(Prospect Theory,PT)和DQL(Double Q‑learning)算法，实现了移动雾计算中APT攻击防御。雾计算是半虚拟化的服务计算架构模型，其虚拟化的环境容易遭受高级持续性威胁攻击，影响雾计算网络中雾节点和终端用户的安全通信。本发明可以克服Q‑learning算法的过拟合问题，既能够有效抑制APT攻击者的攻击动机，提高合法用户的效用，又可以提高动态APT防御博弈的性能，而且能有效地保护移动雾计算环境的完整性和安全性。

Description

移动雾计算中一种高级持续性威胁防御方法

技术领域

本发明既涉及了计算机网络和无线通信领域，又属于信息安全领域。本发明提出了移动雾计算中一种高级持续性威胁(Advanced Persistent Threats,APT)防御方法，利用前景理论(Prospect Theory,PT)和DQL(Double Q-learning)算法，实现了移动雾计算中APT攻击防御。雾计算是半虚拟化的服务计算架构模型，其虚拟化的环境容易遭受高级持续性威胁攻击，影响雾计算网络中雾节点和终端用户的安全通信。一种基于DQL算法的高级持续性攻击防御方法，可以克服Q-learning算法的过拟合问题，既能够有效抑制APT攻击者的攻击动机，提高合法用户的效用，又可以提高动态APT防御博弈的性能，而且能有效地保护移动雾计算环境的完整性和安全性。使用博弈论和强化学习算法防御APT攻击，

背景技术

随着互联网的快速发展，数据呈现爆炸式增长的趋势，人们对计算和存储资源的需求不断提升。传统的云计算需要将数据发往云中心进行计算，不能够提供很好的移动性支持；此外，数据长距离的传输引起的高时延使传统的云计算不适用于时延敏感的应用，同时也增加了被攻击的可能性，从而影响数据的安全性。雾计算通过在移动设备和云之间引入一个中间雾层来扩展云计算，将计算从中心扩展到了网络边缘，它将少量的计算、存储和通信资源分配给靠近用户的移动设备上，通过短距离无线连接，能够在本地处理数据，从而为用户提供便捷的服务。基于位置分布的雾服务器，雾计算解决了云计算无法感知位置和高时延的问题。

然而，由于雾计算是一个高度虚拟化的平台，其容易遭受高级持续性威胁攻击。APT攻击具有极强的隐蔽能力、攻击手段丰富、防范难度高等特点，APT攻击者通常会实施多个攻击阶段，并提前研究防御策略，使用多种复杂的手段连续不断地对雾计算网络发起攻击，导致雾节点和终端用户之间传输的信息被窃取。面临这样的威胁，为了确保雾计算网络的安全以及防御APT攻击，博弈论是一个研究此问题的强大工具。目前，研究学者们的研究大多基于传统的期望效用理论(Expected Utility Theory,EUT)，因为他们认为每个参与者都是理性的，以此理论来最大化期望收益。但是实际上，在移动雾计算网络中，雾节点和终端设备的移动性使得其环境是动态的，参与者不了解雾计算网络的状态和攻击者能否被成功检测到，所以并不会表现得很理性，在选择检测APT攻击的间隔时往往会带有一些主观性因素，这样会偏离EUT的结果。前景理论是一种解释人的风险决策行为的理论，该理论表明，人们在决策中面对收益时表现为风险规避，面对损失时是风险偏好的，并且对于损失的敏感程度要远大于等量的获得，它使用主观概率来计算参与者的效用，以反映决策者的主观性。

因此，本发明基于前景理论，提出了一种移动雾计算中基于DQL的APT防御方法。该方法通过构建APT攻击者和合法用户之间的静态博弈模型，推导出了博弈的纳什平衡条件，同时利用DQL算法，使合法用户选择出最优的检测APT攻击的策略。该方法可以增加合法用户的效用，降低攻击率，与基于Q-learning算法，Sarsa算法和Greedy算法的方法相比，可以更好地保护雾节点免受APT攻击，保证移动雾计算网络的安全性。

发明内容

本发明获得了一种移动雾计算中基于DQL算法的APT攻击防御方法，设计了雾计算网络中APT攻防系统模型，基于PT构建了APT攻击者和合法用户之间的静态博弈模型，并利用DQL算法设计了动态防御方案。通过该方法抵御APT攻击，解决了Q-learning算法的过拟合问题，降低了雾节点遭到攻击的可能性，提高了合法用户的效用，同时增强了移动雾计算环境的安全性和可靠性。

本发明采用了如下的技术方案及实现步骤：

1.移动雾计算中的APT攻防安全模型

本发明建立的系统安全模型如图1所示，从上往下依次是云层、雾层和终端用户层，此模型由以下实体组成：云服务器、雾节点、APT攻击者以及合法用户。仅考虑雾层和终端用户层，两层之间通过无线网络进行通信。此模型中任意一个APT攻击者是具有主观性的终端用户，都可能随时对雾节点发起APT攻击，雾节点的取值集合为N＝{1,2,…,N},n∈N，它们会受到APT攻击者(用A表示)的攻击，同时也会受到合法用户(用B表示)的保护。合法用户选择一定的时间间隔对雾节点n执行第t次检测，这一时间间隔用表示，1≤n≤N。由于合法用户对雾节点进行APT攻击的检测需要花费一些时间，所以/>假设合法用户一旦检测到了雾节点上先前的APT攻击并立即对其进行重新恢复，攻击者将等待时间间隔/>对该雾节点再次发起攻击，进行攻击所需的时间用/>表示，这一时间取决于系统模型，通常是未知的随机变量。假设初期所有的N个雾节点都处于安全状态，不会受到APT攻击者的攻击。

2.一种基于DQL算法的APT攻击防御方法

该方法包括以下步骤：

(1)根据PT，构造APT攻击者与合法用户之间的静态主观博弈。在静态零和博弈中，对于雾节点n，合法用户检测雾节点的时间间隔表示为α_n，APT攻击者攻击雾节点的时间间隔表示为β_n，攻击持续时间表示为为了方便分析，本发明将检测间隔和攻击间隔进行归一化处理，即α_n∈(0，1]，β_n∈[0，1]。在PT中，概率权重函数以数学化的形式被用来对游戏双方的决策制定进行建模，它衡量的是从决策者看来某一结果的发生对预期价值的影响程度。APT攻击者和合法用户在面临低概率事件时，会高估相应的客观概率；在面临高概率事件时，会低估相应的客观概率。本发明利用Prelec权重函数计算两者的主观概率，计算公式如下：

其中p表示客观概率，p∈(0，1]，W_player(p)表示APT攻击者和合法用户做决策的主观概率；σ_player表示游戏双方做决策的客观概率权重，σ_player∈(0，1]；player代表游戏双方，在本发明中，player＝A或player＝B。

如图2所示，雾节点n处于安全的时间占合法用户检测时间间隔的比例为攻击率表示N个雾节点受到攻击的时间与合法用户检测时间间隔的比率，用R_n表示，其计算公式如下式所示：

根据APT静态博弈模型，合法用户和APT攻击者的效用值分别如下式所示：

其中，G_n表示合法用户在单位检测间隔内获得的收益，L_n表示攻击者对雾节点n进行APT攻击所需的成本。I(·)是指示函数，它表示的含义是如果β_n＜α_n，即攻击者正在攻击雾节点n，则I(β_n＜α_n)＝1，否则其值为0。

由于APT攻击者完成攻击雾节点n所需的时间很难计算，因此被量化为Z个非零等级，对应概率分布为/>其中/>是/>的概率，/>根据定义，有/>且所有量化概率的和/>

根据公式(3)和(4)，如果博弈双方基于EUT计算各自的效用，计算公式分别为：

其中，表示合法用户基于EUT计算的效用值，/>表示APT攻击者基于EUT计算的效用值。合法用户和攻击者对雾节点进行攻防时，会受到主观因素的影响。如果双方用PT计算各自的收益，将基于主观概率做决策，而不是公式(5)和(6)中的客观概率/>所以，根据公式(1)(5)(6)，两者基于PT的效用如下式所示：

其中，分别表示合法用户和APT攻击者的主观概率。

在APT攻击者和合法用户之间的APT静态博弈过程中，双方通过不断地调整各自的客观概率权重来改变做决策的主观概率，目的是最大化各自的期望效用，从而达到纳什平衡。当攻击雾节点的成本较高时，APT攻击者会选择停止攻击雾节点；当攻击所需的成本较低时，攻击者会立即对雾节点发起APT攻击，同时，合法用户会选择最大的检测间隔。本发明中，APT攻击者和合法用户的纳什平衡策略组合表示为表示使两者效用达到最大值时合法用户选择的检测间隔，/>表示使两者效用达到最大值时APT攻击者选择的攻击间隔，该策略组合是使博弈双方获得最大效用的组合方式，它应该满足以下条件：

在基于PT的静态APT博弈中，合法用户根据之前的检测经验来估计攻击者的客观概率权重σ_A，同时，APT攻击者根据先前的攻击经验预测合法用户的客观概率权重σ_B。在双方知道系统参数的情况下，本步骤总结了以下几个特定场景下的纳什平衡条件，给出了纳什平衡解，并分别解释了形成NE的原因。

①在系统模型中雾节点个数N＝1，攻击持续时间的非零等级Z＝2的情况下，假设攻击持续时间的分布服从[P₀，P₁，1-P₀-P₁]，其中P₀，P₁，1-P₀-P₁分别为/> 的概率。此时，合法用户检测该雾节点获得的收益为G，攻击者攻击该雾节点的成本为L。

A.当满足公式(11)时，纳什平衡策略组合为(1，0)。

B.当满足公式(12)时，纳什平衡策略组合为

C.当满足公式(13)时，纳什平衡策略组合为(1，1)。

其中，σ_A，σ_B分别为APT攻击者和合法用户的客观概率权重，σ_A，σ_B∈(0，1]。

②在系统模型中雾节点个数N＝1，攻击持续时间的非零等级Z＝3的情况下，假设攻击持续时间的分布服从[P₀，P₁，P₂，1-P₀-P₁-P₂]，其中P₀，P₁，P₂，1-P₀-P₁-P₂分别为的概率。此时，合法用户检测该雾节点获得的收益为G，攻击者攻击该雾节点的成本为L。

A.当满足公式(14)时，纳什平衡策略组合为

B.当满足公式(15)时，纳什平衡策略组合为

C.当满足公式(16)时，纳什平衡策略组合为(1，0)。

D.当满足公式(17)时，纳什平衡策略组合为(1，1)。

③在系统模型中雾节点个数N＝2，攻击持续时间的非零等级Z＝2的情况下，合法用户检测2个雾节点的时间间隔分别为α₁，α₂，获得的收益分别为G₁，G₂，假设G₁＝G₂＝G。攻击者攻击这2个雾节点的时间间隔分别为β₁，β₂，所需成本分别为L₁，L₂。假设这2个雾节点的攻击持续时间服从的分布也是相同的，即/>其服从的分布为[P₀，P₁，1-P₀-P₁]，其中P₀，P₁，1-P₀-P₁分别为/>的概率。

A.当满足公式(18)时，纳什平衡策略组合为

B.当满足公式(19)时，纳什平衡策略组合为((1，1)，(1，0))。

C.当满足公式(20)时，纳什平衡策略组合为(1/2，0)。

D.当满足公式(21)时，纳什平衡策略组合为(1，0)。

E.当满足公式(22)时，纳什平衡策略组合为(1，1)。

(2)基于DQL算法，设计一种防御APT攻击的动态博弈方法，以得到合法用户最优的检测间隔。在实际的雾计算网络中，合法用户和APT攻击者之间的博弈环境通常是动态的，双方对网络模型和一些系统参数是未知的，比如攻击成本和检测增益，他们反复地进行博弈，以习得一些环境知识，积累先前情况下做出的策略信息。Q-learning作为一种强化学习算法，能够被用来在不确定的动态环境中得到最优策略，它用来评价一个智能体在特定状态下采取某个动作的优劣。由于在计算目标Q值时，Q-learning算法使用的是最大值函数，这会导致Q值过估计，产生最大化偏差，从而使算法无法收敛到适当的解。因此，针对APT攻击者不确定的攻击时间和主观策略，在单个雾节点的场景下，本步骤使用DQL算法构建APT攻击者与合法用户之间的动态主观博弈。

DQL算法使用两个Q表来互相交替更新Q值。该发明将合法用户观测的某一时刻前一时隙内的总攻击时长作为当前时刻t系统的状态，即其中，β_t-1表示前一时隙APT攻击者的检测间隔，/>表示前一时隙的攻击持续时间，将在时刻t合法用户选取的检测间隔α_t表示为动作。静态APT博弈中基于PT计算的合法用户的效用作为动态博弈中的即时效用，并获取攻击时长/>β_t和/>分别表示第t次攻防交互中APT攻击者的攻击间隔和攻击持续时间。t时刻的Q函数表示为Q(s_t，α_t)，则更新两个Q值函数的公式为：

其中，s_t表示时刻t系统的状态，μ为学习率，μ∈[0，1]，其值越大，学习速率越快，保留原来的学习经验越少；γ为奖励性衰变系数，γ∈[0，1]，其值越大，对未来奖励的重视程度越高；Q₁(s_t，α_t)，Q₂(s_t，α_t)分别表示Q表1和Q表2在时刻t状态下合法用户选择检测间隔α_t的收益值；U_B(s_t，α_t)表示合法用户在状态s_t下选取检测间隔α_t获得的立即效用。和/>分别是合法用户在状态s_t+1下选取的使Q₁和Q₂表的Q值最大的检测间隔，其计算公式为：

其中，Q₁(s_t+1，α_t+1)，Q₂(s_t+1，α_t+1)分别表示Q表1和Q表2在时刻t+1状态下合法用户选择检测间隔α_t+1的收益值。状态值函数V(s_t)是当前状态下合法用户选取的检测间隔Q₁+Q₂的最大平均值，即在状态s_t下合法用户的最大未来回报的期望，计算公式如下：

因此，合法用户的最优检测间隔λ^*由下列公式给出：

其中，函数arg max表示当取最大值时α_t的值，并将该值赋值给λ^*。

在每个状态下，合法用户采用ε-greedy策略来选择检测间隔α_t和更新Q值，以概率ε随机选择检测间隔，以概率1-ε选择最大化当前Q值的检测间隔，其中，ε∈(0，1)。

根据基于DQL算法的抵御APT攻击方法的步骤总结如下：

①初始化：μ，γ，ε，系统初始状态s₀，Q₁(s_t，α_t)＝Q₂(s_t，α_t)＝0，V(s_t)＝0；

②t＝1，2，3，...，观察系统的当前状态

③利用ε-greedy策略选择检测间隔α_t；

④间隔α_t时间后对雾节点进行检测；

⑤计算U_B(s_t，α_t)；

⑥观察攻击时长进入下一个状态s_t+1；

⑦以0.5的概率通过公式(23)和(25)更新Q₁(s_t，α_t)，以0.5的概率根据公式(24)和(26)更新Q₂(s_t，α_t)；

⑧通过公式(27)更新V(s_t)；

⑨返回②继续执行直至算法收敛，即攻击率变化范围在-0.002～0.002之内，合法用户效用的变化范围在-0.005～0.005之内，最大Q值变化范围在-0.002～0.002之内，当满足这三个条件中任意一个时，根据两个Q表和公式(28)得到合法用户的最优检测间隔λ^*。

本发明的创造性主要体现在：

(1)本发明针对移动雾计算环境容易遭受APT攻击的问题，利用博弈论中的前景理论对博弈玩家的主观性进行研究，构建了移动雾计算中的APT攻防安全模型以及APT攻击者与合法用户之间的静态主观博弈模型；鉴于雾计算环境的动态性以及强化学习算法可以在动态环境下获得最优策略，设计了一种基于DQL算法防御APT攻击的方案，保障了雾计算环境的安全性。

(2)本发明通过实验证明了较低的客观概率权重可以抑制APT攻击者的攻击动机，并将提出的方法与基于Q-learning算法、Sarsa算法以及Greedy算法抵御APT攻击的方法进行比较，结果表明本发明提出的方法能够解决Q值过度估计的问题，降低攻击率，提高合法用户的效用，增强移动雾计算网络的安全性。

附图说明

图1是本发明移动雾计算环境下的APT攻防安全模型示意图。

图2是本发明APT静态博弈模型示意图。

图3是在初始参数条件下静态主观博弈中客观权重对合法用户与APT攻击者效用的影响对比图。

图4是在初始参数条件下1-20000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的攻击率对比图。

图5是在初始参数条件下1-40000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的合法用户效用对比图。

图6是在初始参数条件下1-20000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的最大Q值对比图。

具体实施方式

本发明获得了一种移动雾计算中基于DQL算法的APT攻击防御方法，设计了移动雾计算网络中APT攻防系统模型，基于PT构建了APT攻击者和合法用户之间的静态博弈模型，并利用DQL算法设计了动态防御方案。通过该方法抵御APT攻击，解决了Q-learning算法的过拟合问题，降低了雾节点遭到攻击的可能性，提高了合法用户的效用，同时增强了移动雾计算环境的安全性和可靠性。

本发明采用了如下的技术方案及实现步骤：

1.移动雾计算中的APT攻防安全模型

本发明考虑雾层和终端用户层，两层之间通过无线网络进行通信。此模型中任意一个APT攻击者是具有主观性的终端用户，都可能随时对雾节点发起APT攻击，雾节点的取值集合为N＝{1，2，...，N}，n∈N，它们会受到APT攻击者(用A表示)的攻击，同时也会受到合法用户(用B表示)的保护。合法用户选择一定的时间间隔对雾节点n执行第t次检测，这一时间间隔用表示，1≤n≤N。由于合法用户对雾节点进行APT攻击的检测需要花费一些时间，所以/>假设合法用户一旦检测到了雾节点上先前的APT攻击并对其进行重新恢复，攻击者将等待时间间隔/>对该雾节点再次发起攻击，进行攻击所需的时间用/>表示，这一时间取决于系统模型，通常是未知的随机变量。假设初期所有的N个雾节点都处于安全状态，不会受到APT攻击者的攻击。

2.一种基于DQL算法的APT攻击防御方法

该方法包括以下步骤：

攻击率被定义为N个雾节点受到攻击的时间与合法用户检测时间间隔的比率，用R_n表示，其计算公式如下式所示：

其中，G_n表示合法用户在单位检测间隔内获得的收益，L_n表示攻击者对雾节点n进行APT攻击所需的成本。I(.)是指示函数，它表示的含义是如果β_n＜α_n，即攻击者正在攻击雾节点n，则I(β_n＜α_n)＝1，否则其值为0。

由于APT攻击者完成攻击雾节点n所需的时间很难计算，因此被量化为Z个非零等级，对应概率分布为/>其中/>的概率，/>根据定义，有/>且所有量化概率的和/>

根据公式(31)和(32)，如果博弈双方基于EUT计算各自的效用，计算公式分别为：

其中，表示合法用户基于EUT计算的效用值，/>表示APT攻击者基于EUT计算的效用值。合法用户和攻击者在对雾节点进行攻防时，会受到主观因素的影响。如果双方用PT计算各自的收益，将基于主观概率做决策，而不是公式(33)和(34)中的客观概率/>所以，根据公式(29)(33)(34)，两者基于PT的效用如下式所示：

其中，分别表示合法用户和APT攻击者的主观概率。

在APT攻击者和合法用户之间的APT博弈过程中，双方通过不断地调整各自的客观概率权重来改变做决策的主观概率，目的是最大化各自的期望效用，从而达到纳什平衡。当攻击雾节点的成本较高时，APT攻击者会选择停止攻击雾节点；当攻击所需的成本较低时，攻击者会立即对雾节点发起APT攻击，同时，合法用户会选择最大的检测间隔。本发明中，APT攻击者和合法用户的纳什平衡策略组合被表示为表示使两者效用达到最大值时合法用户选择的检测间隔，/>表示使两者效用达到最大值时APT攻击者选择的攻击间隔，该策略组合是使博弈双方获得最大效用的组合方式，它应该满足以下条件：

A.当满足公式(39)时，纳什平衡策略组合为(1，0)。

B.当满足公式(40)时，纳什平衡策略组合为

C.当满足公式(41)时，纳什平衡策略组合为(1，1)。

A.当满足公式(42)时，纳什平衡策略组合为

B.当满足公式(43)时，纳什平衡策略组合为

C.当满足公式(44)时，纳什平衡策略组合为(1，0)。

D.当满足公式(45)时，纳什平衡策略组合为(1，1)。

A.当满足公式(46)时，纳什平衡策略组合为

B.当满足公式(47)时，纳什平衡策略组合为((1，1)，(1，0))。

C.当满足公式(48)时，纳什平衡策略组合为(1/2，0)。

D.当满足公式(49)时，纳什平衡策略组合为(1，0)。

E.当满足公式(50)时，纳什平衡策略组合为(1，1)。

/>

其中，s_t表示在时刻t系统的状态，μ为学习率，μ∈[0，1]，其值越大，学习速率越快，保留原来的学习经验越少；γ为奖励性衰变系数，γ∈[0，1]，其值越大，对未来奖励的重视程度越高；Q₁(s_t，α_t)，Q₂(s_t，α_t)分别表示Q表1和Q表2在时刻t状态下合法用户选择检测间隔α_t的收益值；U_B(s_t，α_t)表示合法用户在状态s_t下选取检测间隔α_t获得的立即效用。和分别是合法用户在状态s_t+1下选取的使Q₁和Q₂表的Q值最大的检测间隔，其计算公式为：

因此，合法用户的最优检测间隔λ^*由下列公式给出：

根据基于DQL算法的抵御APT攻击方法的步骤总结如下：

②t＝1，2，3，...，观察系统的当前状态

③利用ε-greedy策略选择检测间隔α_t；

④间隔α_t时间后对雾节点进行检测；

⑤计算U_B(s_t，α_t)；

⑥观察攻击时长进入下一个状态s_t+1；

⑦以0.5的概率通过公式(51)和(53)更新Q₁(s_t，α_t)，以0.5的概率根据公式(52)和(54)更新Q₂(s_t，α_t)；

⑧通过公式(55)更新V(s_t)；

⑨返回②继续执行直至算法收敛，即攻击率变化范围在-0.002～0.002之内，合法用户效用的变化范围在-0.005～0.005之内，最大Q值变化范围在-0.002～0.002之内，当满足这三个条件中任意一个时，根据两个Q表和公式(56)得到合法用户的最优检测间隔λ^*。

本发明考虑一个攻击者，一个合法用户，单个雾节点以及攻击持续时间的非零等级Z＝2的场景，使用Windows操作系统下的matlab软件进行仿真实验。在动态防御APT攻击的方案中，评估四种方法的三个指标的详细解释如下：

(1)攻击率：即雾计算网络中的雾节点受到APT攻击的时间与合法用户检测时间间隔的比率；

(2)合法用户的效用：即每个时隙中基于前景理论的合法用户的平均效用值。

(3)最大Q值：即每个时隙内Q表更新过程中得到的最大Q值。

本发明具体实施中用到的有关符号的含义和初始值如下表所示。

图3显示在初始参数条件下静态博弈中客观权重对APT攻击者和合法用户效用的影响对比，X轴：APT攻击者的客观概率权重，单位是“1”，左边的Y轴：合法用户的效用，单位是“1”，右边的Y轴：APT攻击者的效用，单位是“1”，虚线为合法用户的效用，实线为APT攻击者的效用。在初始参数条件下1-20000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的平均攻击率对比如图4，X轴：时隙，单位是“1”，Y轴：平均攻击率，单位是“1”，粗实线为基于DQL算法防御APT攻击的平均攻击率，粗虚线为基于Q-learning算法防御APT攻击的平均攻击率，细实线为基于Sarsa算法防御APT攻击的平均攻击率，细虚线为基于Greedy算法防御APT攻击的平均攻击率。在初始参数条件下1-40000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法、Greedy算法防御APT攻击的合法用户效用对比如图5，X轴：时隙，单位是“1”，Y轴：合法用户的效用，单位是“1”，粗实线为基于DQL算法防御APT攻击的合法用户效用，粗虚线为基于Q-learning算法防御APT攻击的合法用户效用，细实线为基于Sarsa算法防御APT攻击的合法用户效用，细虚线为基于Greedy算法防御APT攻击的合法用户效用。在初始参数条件下1-40000时隙内本发明防御APT攻击与Q-learning算法、Sarsa算法防御APT攻击的最大Q值对比如图6，X轴：时隙，单位是“1”，Y轴：最大Q值，单位是“1”，粗实线为基于DQL算法防御APT攻击的最大Q值，粗虚线为基于Q-learning算法防御APT攻击的最大Q值，细实线为基于Sarsa算法防御APT攻击的最大Q值。

Claims

1.移动雾计算中一种高级持续性威胁APT防御方法，其特征在于，移动雾计算中的APT攻防安全模型具体如下：

包括雾层和终端用户层，两层之间通过无线网络进行通信；此模型中任意一个APT攻击者是具有主观性的终端用户，能够对雾节点发起APT攻击；雾节点的取值集合为N＝{1，2，...，N}，n∈N，它们会受到APT攻击者A的攻击，同时也会受到合法用户B的保护；合法用户选择一定的时间间隔对雾节点n执行第t次检测，这一时间间隔用表示，1≤n≤N；由于合法用户对雾节点进行APT攻击的检测需要花费一些时间，所以/>假设合法用户一旦检测到了雾节点上先前的APT攻击并对其进行重新恢复，攻击者将等待时间间隔/>对该雾节点再次发起攻击，进行攻击所需的时间用/>表示，这一时间是未知的随机变量；假设初期所有的N个雾节点都处于安全状态，不会受到APT攻击者的攻击；

包括以下步骤：

(1)根据前景理论PT，构造APT攻击者与合法用户之间的静态主观博弈；在静态零和博弈中，对于雾节点n，合法用户检测雾节点的时间间隔表示为α_n，APT攻击者攻击雾节点的时间间隔表示为β_n，攻击持续时间表示为为了方便分析，将检测间隔和攻击间隔进行归一化处理，即α_n∈(0，1]，β_n∈[0，1]；在PT中，概率权重函数以数学化的形式被用来对游戏双方的决策制定进行建模，它衡量的是从决策者看来某一结果的发生对预期价值的影响程度；APT攻击者和合法用户在面临低概率事件时，会高估相应的客观概率；在面临高概率事件时，会低估相应的客观概率；利用Prelec权重函数计算两者的主观概率，计算公式如下：

其中p表示客观概率，p∈(0，1]，W_player(p)表示APT攻击者和合法用户做决策的主观概率；σ_player表示游戏双方做决策的客观概率权重，σ_player∈(0，1]；player代表游戏双方，其中，player＝A或player＝B；

其中，G_n表示合法用户在单位检测间隔内获得的收益，L_n表示攻击者对雾节点n进行APT攻击所需的成本；I(·)是指示函数，它表示的含义是如果β_n＜α_n，即攻击者正在攻击雾节点n，则I(β_n＜α_n)＝1，否则其值为0；

其中，表示合法用户基于EUT计算的效用值，/>表示APT攻击者基于EUT计算的效用值；合法用户和攻击者对雾节点进行攻防时，会受到主观因素的影响；如果双方用PT计算各自的收益，将基于主观概率做决策，而不是公式(5)和(6)中的客观概率/>所以，根据公式(1)(5)(6)，两者基于PT的效用如下式所示：

其中，分别表示合法用户和APT攻击者的主观概率；

在APT攻击者和合法用户之间的APT静态博弈过程中，双方通过不断地调整各自的客观概率权重来改变做决策的主观概率，目的是最大化各自的期望效用，从而达到纳什平衡；当攻击雾节点的成本较高时，APT攻击者会选择停止攻击雾节点；当攻击所需的成本较低时，攻击者会立即对雾节点发起APT攻击，同时，合法用户会选择最大的检测间隔；中，APT攻击者和合法用户的纳什平衡策略组合被表示为表示使两者效用达到最大值时合法用户选择的检测间隔，/>表示使两者效用达到最大值时APT攻击者选择的攻击间隔，该策略组合是使博弈双方获得最大效用的组合方式，它应该满足以下条件：

在基于PT的静态APT博弈中，合法用户根据之前的检测经验来估计攻击者的客观概率权重σ_A，同时，APT攻击者根据先前的攻击经验预测合法用户的客观概率权重σ_B；在双方知道系统参数的情况下，本步骤总结了以下几个特定场景下的纳什平衡条件，给出了纳什平衡解，并分别解释了形成纳什平衡NE的原因；

①在系统模型中雾节点个数N＝1，攻击持续时间的非零等级z＝2的情况下，假设攻击持续时间的分布服从[P₀，P₁，1-P₀-P₁]，其中P₀，P₁，1-P₀-P₁分别为/> 的概率；此时，合法用户检测该雾节点获得的收益为G，攻击者攻击该雾节点的成本为L；

A.当满足公式(11)时，纳什平衡策略组合为(1，0)；

B.当满足公式(12)时，纳什平衡策略组合为

C.当满足公式(13)时，纳什平衡策略组合为(1，1)；

其中，σ_A，σ_B分别为APT攻击者和合法用户的客观概率权重，σ_A，σ_B∈(0，1]；

②在系统模型中雾节点个数N＝1，攻击持续时间的非零等级Z＝3的情况下，假设攻击持续时间的分布服从[P₀，P₁，P₂，1-P₀-P₁-P₂]，其中P₀，P₁，P₂，1-P₀-P₁-P₂分别为的概率；此时，合法用户检测该雾节点获得的收益为G，攻击者攻击该雾节点的成本为L；

A.当满足公式(14)时，纳什平衡策略组合为

B.当满足公式(15)时，纳什平衡策略组合为

C.当满足公式(16)时，纳什平衡策略组合为(1，0)；

D.当满足公式(17)时，纳什平衡策略组合为(1，1)；

③在系统模型中雾节点个数N＝2，攻击持续时间的非零等级Z＝2的情况下，合法用户检测2个雾节点的时间间隔分别为α₁，α₂，获得的收益分别为G₁，G₂，假设G₁＝G₂＝G；攻击者攻击这2个雾节点的时间间隔分别为β₁，β₂，所需成本分别为L₁，L₂；假设这2个雾节点的攻击持续时间服从的分布也是相同的，即/>其服从的分布为[P₀，P₁，1-P₀-P₁]，其中P₀，P₁，1-P₀-P₁分别为/>的概率；

A.当满足公式(18)时，纳什平衡策略组合为

B.当满足公式(19)时，纳什平衡策略组合为((1，1)，(1，0))；

C.当满足公式(20)时，纳什平衡策略组合为(1/2，0)；

D.当满足公式(21)时，纳什平衡策略组合为(1，0)；

E.当满足公式(22)时，纳什平衡策略组合为(1，1)；

(2)构建APT攻击者与合法用户之间的动态主观博弈方法，基于强化学习中Q-learning算法即DQL算法获得抵御APT攻击的最优防御策略；

(3)针对APT攻击者不确定的攻击时间和主观策略，在单个雾节点的场景下，使用DQL算法，设计防御APT攻击的方案，以得到合法用户最优的检测间隔；

DQL算法使用两个Q表来互相交替更新Q值；将合法用户观测的某一时刻前一时隙内的总攻击时长作为当前时刻t系统的状态，即其中，β_t-1表示前一时隙APT攻击者的检测间隔，/>表示前一时隙的攻击持续时间，将在时刻t合法用户选取的检测间隔α_t表示为动作；静态APT博弈中基于PT计算的合法用户的效用作为动态博弈中的即时效用，并获取攻击时长/>β_t和/>分别表示第t次攻防交互中APT攻击者的攻击间隔和攻击持续时间；t时刻的Q函数表示为Q(s_t，α_t)，则更新两个Q值函数的公式为：

其中，s_t表示在时刻t系统的状态，μ为学习率，μ∈[0,1]，其值越大，学习速率越快，保留原来的学习经验越少；γ为奖励性衰变系数，γ∈[0,1]，其值越大，对未来奖励的重视程度越高；Q₁(s_t，α_t)，Q₂(s_t，α_t)分别表示Q1表和Q2表在时刻t状态下合法用户选择检测间隔α_t的收益值；U_B(s_t，α_t)表示合法用户在状态s_t下选取检测间隔α_t获得的立即效用；和/>分别是合法用户在状态s_t+1下选取的使Q₁和Q₂表的Q值最大的检测间隔，其计算公式为：

其中，Q₁(s_t+1，α_t+1)，Q₂(s_t+1，α_t+1)分别表示Q1表和Q2表在时刻t+1状态下合法用户选择检测间隔α_t+1的收益值；状态值函数V(s_t)是当前状态下合法用户选取的检测间隔Q₁+Q₂的最大平均值，即在状态s_t下合法用户的最大未来回报的期望，计算公式如下：

因此，合法用户的最优检测间隔λ^*由下列公式给出：

其中，函数arg max表示当取最大值时α_t的值，并将该值赋值给λ^*；

在每个状态下，合法用户采用ε-greedy策略来选择检测间隔α_t和更新Q值，以概率ε随机选择检测间隔，以概率1-ε选择最大化当前Q值的检测间隔，其中，ε∈(0，1)；

根据基于DQL算法的抵御APT攻击方法的步骤总结如下：

①初始化：μ，γ，ε，系统初始状态s₀，Q₁(s_t，α_t)＝Q₂(s_t，α_t)＝0,V(s_t)＝0；

②t＝1,2,3，...，观察系统的当前状态

③利用ε-greedy策略选择检测间隔α_t；

④间隔α_t时间后对雾节点进行检测；

⑤计算U_B(s_t，α_t)；

⑥观察攻击时长进入下一个状态s_t+1；

⑧通过公式(27)更新V(s_t)；