CN112422573B

CN112422573B - 攻击路径还原方法、装置、设备及存储介质

Info

Publication number: CN112422573B
Application number: CN202011305622.7A
Authority: CN
Inventors: 鲍青波; 周晓阳; 万可
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-02-25
Anticipated expiration: 2040-11-19
Also published as: CN112422573A

Abstract

本申请提供一种攻击路径还原方法、装置、设备及存储介质，其中，攻击路径还原方法包括获取目标系统上的安全事件数据；根据ATT&CK框架将所述安全事件数据进行抽象映射，并得到所述目标系统的状态信息；根据所述状态信息构建部分可观察马尔可夫决策过程模型；根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径。本申请具有更优的泛化适应能力和分析效率。

Description

攻击路径还原方法、装置、设备及存储介质

技术领域

本申请涉及攻击意图分析及深度学习领域，具体而言，涉及一种攻击路径还原方法、装置、设备及存储介质。

背景技术

在对一起安全事件进行攻击分析的过程中，常常期望对攻击者的攻击路径进行还原，进而分析其攻击意图、扩散方式及命令控制途径等。

目前，现有的攻击路径进行还原方式主要是一种基于贝叶斯网络推理的意图识别方法，该方法能够在计算机网络自组织对抗环境中，让情报系统根据已给定的主机漏洞信息、网络拓扑信息和攻击知识库，利用IDS报警信息识别攻击者的攻击意图并提供给决策系统作为决策的依据。攻击意图识别过程为攻击场景生成，IDS报警信息聚合匹配，更新攻击行为对的条件概率分布，利用贝叶斯网络推理中团树传播算法计算攻击意图节点概率，进行贝叶斯网络参数和IDS检测能力的更新。并根据计算结果和历史信息更新计算参数，使计算结果更加准确。这一方法需要大量的先验知识，但往往攻击者的攻击手段是经常变化的，部分先验知识的应用效果没有普适性。

发明内容

本申请实施例的目的在于提供一种攻击路径还原方法、装置、设备及存储介质，用以对攻击路径进行还原，与现有技术相比，本申请实施例具有更优的泛化适应能力和分析效率。

为此，本申请第一方面公开一种攻击路径还原方法，所述方法包括：

获取目标系统上的安全事件数据；

根据ATT&CK框架将所述安全事件数据进行抽象映射，并得到所述目标系统的状态信息；

根据所述状态信息构建部分可观察马尔可夫决策过程模型；

根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径。

本申请第一方面的方法能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

在本申请第一方面中，作为一种可选的实施方式，所述根据所述状态信息构建部分可观察马尔可夫决策过程模型，包括：

根据所述状态信息确定所述部分可观察马尔可夫决策过程模型中的参数，所述部分可观察马尔可夫决策过程模型中的参数，包括：有限状态集、有限动作、状态转移矩阵、收益函数、观察结果集、条件观察概率。

在本可选的实施方式中，根据所述状态信息能够确定所述部分可观察马尔可夫决策过程模型中的参数。

在本申请第一方面中，作为一种可选的实施方式，所述有限状态集至少包括初始访问状态、执行状态、持久化状态、权限提升状态、防御逃逸状态、凭据访问状态、发现状态、横向移动状态、采集状态、命令与控制状态、数据渗漏状态、恶劣影响状态中的一种。

在本可选的实施方式中，通过ATT&CK框架的战术阶段能够将目标系统的安全事件数据抽象映射为初始访问状态、执行状态、持久化状态、权限提升状态、防御逃逸状态、凭据访问状态、发现状态、横向移动状态、采集状态、命令与控制状态、数据渗漏状态、恶劣影响状态中的一种或多种，进而构建POMDP模型。

在本申请第一方面中，作为一种可选的实施方式，所述有限动作至少包括ping命令、端口扫描、安装木马，创建文件，启动程序中的一种。

在本可选的实施方式中，通过ATT&CK框架的战术手法能够将目标系统的安全事件数据抽象映射为ping命令、端口扫描、安装木马，创建文件，启动程序中的一种，进而通过POMDP模型中的有限动作A可模拟攻击者在一攻击过程中的攻击手段。

在本申请第一方面中，作为一种可选的实施方式，在所述获取目标系统上的安全事件数据之后，所述根据ATT&CK框架将所述安全事件数据进行抽象映射之前，所述方法还包括：

对所述安全事件数据进行标准化处理，以至少去除所述安全事件数据中的无效数据和对所述安全事件数据进字段归一化处理。

在本可选的实施方式中，通过对安全事件数据进行标准化处理，能够去除安全事件数据中的无效数据和对安全事件数据进字段归一化处理，便于安全事件数的抽象映射。

在本申请第一方面中，作为一种可选的实施方式，所述根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径，包括：

确定所述部分可观察马尔可夫决策过程模型的求解算法；

根据所述求解算法计算得到所述攻击路径。

在本可续的实施方式中，根据所述求解算法能够计算得到所述攻击路径。

在本申请第一方面中，作为一种可选的实施方式，所述部分可观察马尔可夫决策过程模型的求解算法为One-Pass算法、线性支持算法、蒙特卡罗搜索树算法中的一种。

本申请第二方面公开一种攻击路径还原装置，所述装置包括：

获取模块，用于获取目标系统上的安全事件数据；

数据预处理模块，用于根据ATT&CK框架将所述安全事件数据进行抽象映射，并得到所述目标系统的状态信息；

模型构建模块，用于根据所述状态信息构建部分可观察马尔可夫决策过程模型；

计算模块，用于根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径。

本申请第二方面的装置能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

本申请第三方面公开一种攻击路径还原设备，所述设备包括：

处理器；

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行本申请第二方面的攻击路径还原方法。

本申请第三方面的设备能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

本申请第四方面公开一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行本申请第四方面的攻击路径还原方法。

本申请第四方面的存储介质能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例公开的一种攻击路径还原方法的流程示意图；

图2是本申请实施例公开的一种攻击路径还原装置的结构示意图；

图3是本申请实施例公开的一种攻击路径还原设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

实施例一

请参阅图1，图1是本申请实施例公开的一种攻击路径还原方法的流程示意图。如图1所示，本申请实施例的方法包括步骤：

101、获取目标系统上的安全事件数据；

102、根据ATT&CK框架将安全事件数据进行抽象映射，并得到目标系统的状态信息；

103、根据状态信息构建部分可观察马尔可夫决策过程模型；

104、根据部分可观察马尔可夫决策过程模型计算得到攻击路径。

在本申请实施例中，通过根据ATT&CK模型将安全事件数据进行抽象映射，能够得到目标系统的状态信息，其中，目标系统的状态信息包括目标系统的多个阶段下的状态信息，例如，假设在一个攻击过程中，目标IP处于两个阶段，其中，这两个阶段可分别作为一个状态，并根据各个阶段下的数据生成各个阶段下的状态数据。

与现有技术相比，本申请实施例的方法能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

而现有技术是一种基于贝叶斯网络推理的攻击意图识别方法，该方法是根据给定的拓扑信息、拓扑中主机的漏洞信息和攻击行为之间的约束关系，利用前向搜索广度优先的方法自动地生成攻击图作为攻击场景，然后生成的攻击场景与IDS的报警信息进行匹配，最终基于贝叶斯网络推理而计算出攻击者的攻击意图概率，并根据推算结果和历史信息对过程计算的参数进行更新，以进步提高计算情精确度。在这一过程中，由于给定的拓扑信息、拓扑中主机的漏洞信息和攻击行为之间的约束关系是先验知识，这种方式不具有应用普适性，例如，如果攻击者的攻击手段改变，则这种方式的计算结果的准确性降低，换而言之，这种方式不能够应用在多种攻击手段中。

在本申请实施例中，可选地，将防火墙、IDS(Intrusion Detection Systems，入侵检测系统)、WAF(Web Application Firewal，网站应用级入侵防御系统)在一段时间内上报的安全事件、安全告警作为目标系统的安全事件数据。例如，将防火墙两天内上报的共两件安全告警作为目标系统的安全事件数据。

在本申请实施例中，根据ATT&CK框架将安全事件数据进行抽象映射的具体方式为：将目标系统的安全事件数据按照ATT&CK框架的战术阶段进行抽象映射。

需要说明的是，ATT&CK(Adversarial Tactics,Techniques,and CommonKnowledge)框架是一种攻击行为知识库和模型，关于ATT&CK框架的更加详细的描述请参考现有技术，本申请实施例对此不作赘述。

在本申请实施例中，部分可观察马尔可夫决策过程(POMDP，PartiallyObservable Markov Decision Process)是一种通用化的马尔可夫决策过程，其中，POMDP模拟智能体决策程序是假设系统动态由MDP决定，但是智能体无法直接观察状态。相反的，它必须要根据模型的全域与部分区域观察结果来推断状态的分布。本申请实施例通过POMDP模拟攻击者所处的环境及在这一攻击过程中的动作和状态变化过程，并得到POMDP模型。

在本申请实施例中，作为一种可选的实施方式，步骤103：根据状态信息构建部分可观察马尔可夫决策过程模型，包括子步骤：

根据状态信息确定部分可观察马尔可夫决策过程模型中的参数，部分可观察马尔可夫决策过程模型中的参数，包括：有限状态集、有限动作、状态转移矩阵、收益函数、观察结果集、条件观察概率。

具体地，POMDP模型可用六元组(S,A,P,R,Ω,O)来描述，其中，S表示有限状态集，A表示有限动作，P表示状态转移矩阵，例如，Pa(s′|s)＝P(s′|s,a)Pa(s′|s)＝P(s′|s,a)表示由状态s采取动作a转换到状态s′的概率。R表示一状态下执行某一动作时可为攻击者带来的收益的计算方法，即R是收益函数，例如，R(s,a)计算的是在s状态下的，执行动作a时，攻击者产生的收益的收益值。另一方面，Ω表示观察结果集，即攻击者的环境数据，表示攻击者对目标系统执行入侵动作后的可观察到的状态，例如，目标系统是否存在，扫描的端口或服务是否存在，目标资产上是否存在对应漏洞等。O是条件观察概率，表示攻击者在观察到环境数据o时，有多大概率确定自己处于状态s。

在本申请实施例中，可选地，结合目标系统的安全事件数据，本申请实施例构建的POMDP模型中的有限状态集S包括初始访问状态、执行状态、持久化状态、权限提升状态、防御逃逸状态、凭据访问状态、发现状态、横向移动状态、采集状态、命令与控制状态、数据渗漏状态、恶劣影响状态，其中，上述状态根据ATT&CK框架的战术阶段对目标系统的安全事件数据进行抽象映射后得到。

在本可选的实施方式，通过ATT&CK框架的战术阶段能够将目标系统的安全事件数据抽象映射为初始访问状态、执行状态、持久化状态、权限提升状态、防御逃逸状态、凭据访问状态、发现状态、横向移动状态、采集状态、命令与控制状态、数据渗漏状态、恶劣影响状态中的一种或多种，进而构建POMDP模型。

在本申请实施例中，进一步可选地，POMDP模型中的有限动作A包括ping命令、端口扫描、安装木马，创建文件，启动程序。这样一来，通过ATT&CK框架的战术手法能够将目标系统的安全事件数据抽象映射为ping命令、端口扫描、安装木马，创建文件，启动程序中的一种，进而通过POMDP模型中的有限动作A可模拟攻击者在一攻击过程中的攻击手段。

需要说明的是，POMDP模型中的有限动作A还可以包括根据ATT&CK框架的战术手法抽象映射得到的其他动作。

在本申请实施例中，R(s,a)的取值在(0-100)，例如，如表一所示，

R(s,a)	收益值
		内网扫描	30
获取漏洞信息	50
		获取了帐号密码	60
提权root权限	70
		登录了重点资产	75
进入安全域资产	75
		获取重要文件	80
访问了重要数据	85

表一

在表一中，攻击者在s状态下的，执行动作a时，攻击者产生的收益为访问了重要数据、获取重要文件、进入安全域资产、登录了重点资产、提权root权限、获取了帐号密码、获取漏洞信息、内网扫描中的一种，其中，每种收益的收益值为85、80、75、75、60、50、30。需要说明的是，上述每种收益的收益值仅是一个优选示例，在不脱离本申请实施例的发明构思的前提下，可对表一中的收益及收益值进行修改。

在本申请实施例中，可选地，条件观察概率O可根据攻击者在观察到环境数据o时的所有可能状态的均匀分布确定，也可根据研究经验确定，例如，针对不同攻击者或攻击团伙赋予不同的条件观察概率。

需要说明的，关于部分可观察马尔可夫决策过程的其他详细说明，请参阅现有技术，本申请实施例对此不作赘述。

在本申请实施例中，作为一种可选的实施方式，在步骤101：获取目标系统上的安全事件数据之后，步骤102：根据ATT&CK框架将安全事件数据进行抽象映射之前，本申请实施例的方法还包括步骤：

对安全事件数据进行标准化处理，以至少去除安全事件数据中的无效数据和对安全事件数据进字段归一化处理。

在本申请实施例中，作为一种可选实施方式，步骤104：根据部分可观察马尔可夫决策过程模型计算得到攻击路径，包括子步骤：

确定部分可观察马尔可夫决策过程模型的求解算法；

根据求解算法计算得到攻击路径。

具体地，求解算法为蒙特卡罗搜索树算法，其中，根据蒙特卡罗搜索树算法计算得到攻击路径的具体过程为：

确定备选节点；

计算备选节点在部分可观察马尔可夫决策过程模型中的变化路径，变化路径包括若干个后续节点；

计算每个后续节点的收益值；

根据每个后续节点的收益值确定攻击路径。

示例性，假设当前状态为g，动作为a，此时根据求解算法可将确定执行动作a后，当前状态g可变化为状态f或状态e，其中，状态f和状态e作为后续节点，此时，计算状态g变化为状态f的收益值为50，状态g变化为状态e的收益值为60，最后，可将状态g变化为状态作为最优解而作为攻击路径。

需要说明的是，上述步骤可作为单次模拟求解，当攻击路径需要进行多次单次模拟求解时，可将多次单次模拟求解的收益值之和最大的路径作为攻击路径。

需要说明的是，在计算每个后续节点的收益值时，可重复执行单次模拟求解，并将多次计算后续节点的收益值进行平均值计算，最终将平均值作为后续节点的最终收益值。

由此可见，在本可选的实施方式中，通过部分可观察马尔可夫决策过程模型的求解算法可确定攻击者的攻击路径。

在本申请实施例中，作为一种可选的实施方式，部分可观察马尔可夫决策过程模型的求解算法还可以是One-Pass算法、线性支持算法中的一种。

在本可选的实施方式中，通过One-Pass算法、线性支持算法也能够对部分可观察马尔可夫决策过程模型进行求解。

实施例二

请参阅图2，图2是本申请实施例公开的一种攻击路径还原装置的结构示意图。如图2所示，本申请实施例的攻击路径还原装置包括：

获取模块201，用于获取目标系统上的安全事件数据；

数据预处理模块202，用于根据ATT&CK框架将安全事件数据进行抽象映射，并得到目标系统的状态信息；

模型构建模块203，用于根据状态信息构建部分可观察马尔可夫决策过程模型；

计算模块204，用于根据部分可观察马尔可夫决策过程模型计算得到攻击路径。

与现有技术相比，本申请实施例的装置能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

在本申请实施例中，作为一种可选的实施方式，模型构建模块203执行所述根据所述状态信息构建部分可观察马尔可夫决策过程模型的具体方式为：

表一

在本申请实施例中，作为一种可选的实施方式，数据预处理模块202还用于对所述安全事件数据进行标准化处理，以至少去除所述安全事件数据中的无效数据和对所述安全事件数据进字段归一化处理。

在本可选的实施方式中，通过对所述安全事件数据进行标准化处理，能够去除所述安全事件数据中的无效数据和对所述安全事件数据进字段归一化处理，便于安全事件数的抽象映射。

在本申请实施例中，作为一种可选实施方式，计算模块204执行所述根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径的具体方式为：

确定所述部分可观察马尔可夫决策过程模型的求解算法；

根据所述求解算法计算得到所述攻击路径。

具体地，求解算法为蒙特卡罗搜索树算法，其中，根据蒙特卡罗搜索树算法计算得到所述攻击路径的具体过程为：

确定备选节点；

计算所述备选节点在所述部分可观察马尔可夫决策过程模型中的变化路径，所述变化路径包括若干个后续节点；

计算每个所述后续节点的收益值；

根据所述每个所述后续节点的收益值确定所述攻击路径。

需要说明的是，在计算每个所述后续节点的收益值时，可重复执行单次模拟求解，并将多次计算后续节点的收益值进行平均值计算，最终将平均值作为后续节点的最终收益值。

在本申请实施例中，作为一种可选的实施方式，所述部分可观察马尔可夫决策过程模型的求解算法还可以是One-Pass算法、线性支持算法中的一种。

实施例三

请参阅图3，图3是本申请实施例公开的一种攻击路径还原设备的结构示意图。如图3所示，本申请实施例的攻击路径还原设备包括：

处理器301；

存储器302，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行本申请实施例一的攻击路径还原方法。

与现有技术相比，本申请实施例的设备能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

实施例四

本申请实施例公开一种存储介质，该存储介质存储有计算机程序，所述计算机程序被处理器执行本申请实施例一的攻击路径还原方法。

与现有技术相比，本申请实施例的存储介质能够从实际安全告警事件数据开始，利用ATT&CK框架对系统所处状态及攻击执行动作进行抽象以形成部分可观察马尔可夫决策过程模型，以将攻击者带有明确意图但攻击过程复杂的假设条件下的攻击过程进行统一建模，然而基于部分可观察马尔可夫决策过程模型，运用各阶段状态及收益计算方法确定攻击的攻击路径，这一过程不需要大量的先验知识，从而能够具有更优的泛化适应能力和更优的攻击路径还原分析的效率。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种攻击路径还原方法，其特征在于，所述方法包括：

获取目标系统上的安全事件数据；

根据所述状态信息构建部分可观察马尔可夫决策过程模型；

根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径；

以及，所述根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径，包括：

确定所述部分可观察马尔可夫决策过程模型的求解算法；

根据所述求解算法计算得到所述攻击路径。

2.如权利要求1所述的方法，其特征在于，所述根据所述状态信息构建部分可观察马尔可夫决策过程模型，包括：

根据所述状态信息确定所述部分可观察马尔可夫决策过程模型中的参数，所述部分可观察马尔可夫决策过程模型中的参数，包括：有限状态集、有限动作、状态转移矩阵、收益函数、观察结果集和条件观察概率。

3.如权利要求2所述的方法，其特征在于，所述有限状态集包括初始访问状态、执行状态、持久化状态、权限提升状态、防御逃逸状态、凭据访问状态、发现状态、横向移动状态、采集状态、命令与控制状态、数据渗漏状态和恶劣影响状态中的至少一种状态。

4.如权利要求2所述的方法，其特征在于，所述有限动作包括ping命令、端口扫描、安装木马，创建文件和启动程序中的至少一种。

5.如权利要求1所述的方法，其特征在于，在所述获取目标系统上的安全事件数据之后，所述根据ATT&CK框架将所述安全事件数据进行抽象映射之前，所述方法还包括：

对所述安全事件数据进行标准化处理，以至少去除所述安全事件数据中的无效数据和对所述安全事件数据进行字段归一化处理。

6.如权利要求1所述的方法，其特征在于，所述部分可观察马尔可夫决策过程模型的求解算法为One-Pass算法、线性支持算法和蒙特卡罗搜索树算法中的一种。

7.一种攻击路径还原装置，其特征在于，所述装置包括：

获取模块，用于获取目标系统上的安全事件数据；

计算模块，用于根据所述部分可观察马尔可夫决策过程模型计算得到攻击路径；

以及，所述计算模块具体用于：

确定所述部分可观察马尔可夫决策过程模型的求解算法；

根据所述求解算法计算得到所述攻击路径。

8.一种攻击路径还原设备，其特征在于，所述设备包括：

处理器；

存储器，配置用于存储机器可读指令，所述指令在由所述处理器执行时，执行如权利要求1-6任一项所述的攻击路径还原方法。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行如权利要求1-6任一项所述的攻击路径还原方法。