CN116192421A

CN116192421A - 一种基于溯源图和自注意力机制的apt攻击检测方法

Info

Publication number: CN116192421A
Application number: CN202211500772.2A
Authority: CN
Inventors: 王楠; 温学智; 张大林
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-05-30
Anticipated expiration: 2042-11-28
Also published as: CN116192421B

Abstract

本发明提供了一种基于溯源图和自注意力机制的APT攻击检测方法。该方法包括：根据待进行APT攻击检测的系统日志生成溯源图，将溯源图序列抽取为特征序列，采用基于Transformer的编码器‑解码器来训练自注意力网络，生成特征提取网络，通过特征提取网络将特征序列转换为特征向量；使用改进后的ADOA算法对特征向量中的正常样本进行聚类，生成多个聚类中心，根据特征向量中的未标记的样本数据与聚类中心之间的距离，判断未标记的样本数据是否异常。本发明使用Transformer模型建模系统的状态变化，使用大量的正常数据结合自注意力机制的编码器‑解码器来训练模型提取特征，提取APT攻击对系统产生的长期影响，使得攻击行为的特征与正常行为的特征更易区分。

Description

一种基于溯源图和自注意力机制的APT攻击检测方法

技术领域

本发明涉及网络攻击技术领域，尤其涉及一种基于溯源图和自注意力机制的APT攻击检测方法。

背景技术

APT(Advanced Persistent Threat，高级持续性威胁)攻击具有利用零日漏洞等特点，使得传统的安全设备以及防御方法难以有效地检测和防御。近年来对于APT的异常检测，越来越多的研究工作聚焦在使用溯源图来记录系统的行为，利用溯源图进行APT攻击检测和攻击场景的还原等任务。溯源图是根据系统中统调用日志生成的具有有向图结构的数据,可以用于描述系统行为。所有系统级别的实体被当作溯源图中的节点,而实体之间的操作被当作溯源图的边。

现有技术中的第一种基于异常的APT检测方法Unicorn包括：

(1)以一个带标签的流式溯源图作为输入。该图由CamFlow生成，每条边是带属性的。溯源系统构建一个具有偏序关系的DAG溯源图，能实现有效的流式计算和上下文分析。

(2)建立一个运行时的内存直方图。Unicorn有效构建一个流式直方图，该直方图表示系统执行的历史，如果有新边产生则实时更新直方图的计数结果。通过迭代的探索大规模图的近邻关系，发现了在上下文环境中系统实体的因果关系。该工作是Unicorn的第一步，具体来说，直方图中每个元素描述了图中唯一的一个子结构，同时考虑了子结构中的顶点与边上的异构标签，以及这些边的时间顺序。APT攻击缓慢的渗透攻击目标系统，希望基于的异常检测方法最终忘记这一行为，把其当成正常的系统行为，但是APT攻击并不能破坏攻击成功的相关信息流依赖关系。

(3)定期计算固定大小的概要图(graph sketch)。在纯流式环境，当Unicorn对整个溯源进行汇总时，唯一直方图元素的数量可能会任意增长。这种动态变化导致两个直方图之间的相似计算变得非常有挑战，从而使得基于直方图相似计算的建模以及检测算法变的不可行。Unicorn采用相似度保存的hash技术把直方图转换成概要图。概要图可以增量维护，也意味着Unicorn并不需要将整个溯源图都保存在内存中。另外，概要图保存了两个直方图之间的jaccard相似性，这在后续图聚类分析中特别有效。

(4)将简略图聚类为模型。Unicorn可以在没有攻击知识的前提下实现APT攻击检测。与传统的聚类方法不同，Unicorn利用它的流处理能力生成一个动态演化模型。该模型通过在其运行的各个阶段对系统活动进行聚类捕获单个执行中的行为改变，但是Unicorn无法在攻击者破坏系统时动态实时修改模型。因此，它更适合APT攻击这类长期运行的攻击。

上述现有技术中的第一种基于异常的APT检测方法Unicorn的缺点为：

(1)在真实场景，特别是工业场景中，APT攻击具有持续时间久且隐蔽性强的特点。在长序列中，单个特征向量与正常行为对应的特征向量差异较小。Unicorn使用自动机建模系统状态变化，这种方式无法将这种差异累积，因此无法有效地检测真实场景，特别是工业场景下的长周期的APT攻击。

(2)Unicorn对于每个训练数据都建立一个自动机模型，在检测过程中需要尝试匹配所有自动机模型。当收集到的训练数据增加时，检测时间也会线性增加。但是在真实场景中，系统的正常行为是复杂的，需要大量模型描述。所以多模型的方法会影响检测效率。

现有技术中的第二种基于溯源图的APT攻击检测方法SeqNet包括：首先将描述系统运行状态的溯源图序列转化为特征向量序列，然后使用GRU(Gate Recurrent Unit)模型提取系统状态变化特征，并使用结合局部注意力机制的编解码器模型训练GRU模型，最后利用K-means聚类方法对系统正常行为进行建模。

SeqNet首先使用与UNICORN同样的方法将溯源图序列转化为特征向量序列。之后对输入特征序列中所有特征向量进行降维,去除冗余信息.。然后使用能够有效提取长序列特征的GRU模型作为特征提取网络,从特征序列中抽取一个包含序列长期信息的特征向量。

SeqNet主要分为三个阶段：第一阶段是溯源图特征提取,该阶段将反映系统变化的溯源图序列抽取为特征序列；第二阶段是序列特征提取,该阶段使用结合局部注意力机制的编解码器模型训练一个序列特征提取器；第三个阶段是行为建模,该阶段使用聚类算法对系统正常行为建立K个聚类中心,并在测试阶段将远离聚类中心的数据识别为攻击行为。

上述现有技术中的第二种基于溯源图的APT攻击检测方法SeqNet的缺点包括：SeqNet方法是使用的GRU结合的局部注意力机制实现的特征提取，GRU是一种循环神经网络，模型的训练顺序只能是时间顺序，即使通过训练集的并行化构建，模型的训练速度也比较慢。GRU只是通过“保存并向下一时刻传递隐变量”来学习并“记忆”序列化的规则。这就导致了SeqNet的训练速度慢，难以并行化。

发明内容

本发明的实施例提供了一种基于溯源图和自注意力机制的APT攻击检测方法，以实现有效地进行APT攻击检测。

为了实现上述目的，本发明采取了如下技术方案。

一种基于溯源图和自注意力机制提取序列特征的APT攻击检测方法，包括：

根据待进行高级持续性威胁APT攻击检测的系统日志生成溯源图，将溯源图序列抽取为特征序列，该特征序列中包括正常样本数据和未标记的样本数据；

采用基于Transformer的编码器-解码器来训练自注意力网络，生成特征提取网络，通过所述特征提取网络将所述特征序列转换为特征向量；

使用改进后的部分观测正常的异常检测ADOA算法对所述特征向量中的正常样本进行聚类，生成多个聚类中心，根据所述特征向量中的未标记的样本数据与聚类中心之间的距离计算相似得分，引入孤立森林计算孤立得分，按一定权重来计算未标记样本的异常的分，根据设定的阈值判断所述未标记的样本数据是否异常。

优选地，所述的用基于Transformer的编码器-解码器来训练自注意力网络，生成特征提取网络，包括：

采用基于Transformer的编码器-解码器训练自注意力网络，其中编码器包含自注意力层和前馈网络，解码器包含掩码自注意力层、自注意力层和前馈网络，将所述特征序列结合位置编码作为输入数据，输入到编码器，并通过解码器来重构输入数据，通过重构数据的误差来训练自注意力网络，生成特征提取网络。

优选地，所述的通过所述特征提取网络将所述特征序列转换为特征向量，包括：

将所述特征序列结合位置编码作为输入数据，输入到特征提取网络中的编码器部分，编码器经过自注意力层和前馈网络，结合残差连接生成特征序列对应的特征向量，该特征向量中包括正常样本数据和未标记的样本数据。

优选地，所述的使用改进后的部分观测异常的异常检测ADOA算法对所述特征向量中的正常样本进行聚类，生成多个聚类中心，根据所述特征向量中的未标记的样本数据与聚类中心之间的距离计算相似得分，引入孤立森林计算孤立得分，按一定权重来计算未标记样本的异常得分，基于所述异常得分根据设定的阈值判断所述未标记的样本数据是否异常，包括：

将由特征提取网络提取的特征向量作为改进后的ADOA算法的输入，ADOA算法选取特征向量中的正常样本数据进行聚类，生成多个聚类中心，将剩余特征向量作为未标记的样本数据，计算未标记的样本到各个聚类中心之间的距离，进而计算未标记的样本与各个聚类中心之间的相似得分，利用孤立森林计算未标记样本的孤立得分，将未标记样本的孤立得分和相似得分按权重计算作为未标记样本的异常得分，将未标记样本的异常得分与设定的判断阈值进行比较，根据比较结果判断所述未标记的样本数据是否异常。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例针对APT攻击具有的长期性，隐蔽性等特点，使用Transformer模型建模系统的状态变化，提取APT攻击对系统产生的长期影响，使得攻击行为的特征与正常行为的特征更易区分。使用大量的正常数据结合自注意力机制的编码器-解码器来训练模型提取特征，并通过聚类对少量正常行为进行操作，以此来检测异常。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于溯源图和自注意力机制的APT攻击检测方法的实现原理图；

图2为本发明实施例提供的一种基于溯源图和自注意力机制的APT攻击检测方法的处理流程图；

图3为本发明实施例提供的一种改进的ADOA算法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例首先将溯源图序列转化为特征向量序列。之后对输入特征序列中所有特征向量进行降维，去除冗余信息。然后使用能够通过并行化提取长序列特征的Transformer模型作为特征提取网络，利用特征提取网络从特征序列中抽取一个包含序列长期信息的特征向量。本发明实施例采用编码器-解码器架构，重构输入的特征序列，通过最小化重构误差的方式训练网络。利用Transformer模型构建了一个自注意力网络，最后本发明使用改进的ADOA聚类算法，将部分的正常序列特征聚为K类，作为系统的行为模型。

本发明实施例提供的一种基于溯源图和自注意力机制的APT攻击检测方法的实现原理图如图1所示，处理流程图如图2所示，包括如下的处理步骤：

步骤S10、根据待进行APT攻击检测的系统日志生成溯源图，将溯源图序列抽取为特征序列。该特征序列中包括正常样本数据和未标记的样本数据。

步骤S20、采用基于Transformer的编码器-解码器来训练自注意力网络，其中编码器包含自注意力层和前馈网络，解码器包含掩码自注意力层、自注意力层和前馈网络，首先将输入数据结合位置编码输入到编码器，并通过解码器来重构输入数据，通过重构数据的误差来训练自注意力网络，以此来生成特征提取网络。通过特征提取网络将特征序列转换为特征向量，首先是将输入数据结合位置编码输入到特征提取网络中的编码器部分，编码器经过自注意力层和前馈网络，结合残差连接生成特征序列对应的特征向量。该特征向量中包括正常样本数据和未标记的样本数据。

步骤S30、使用改进后的ADOA(Anomaly Detection with Partially ObservedAnomalies部分观测异常的异常检测)算法对特征向量中的正常样本进行聚类，计算未标记样本与最近正常聚类中心的相似性得分，引入孤立森林计算样本的孤立得分，按一定权重计算出总的分数，从未标记样本中筛选潜在正常和可靠异常样本。

本发明实施例提供的一种改进的ADOA算法的处理流程如图3所示，包括如下的处理过程：将由特征提取网络提取的特征向量作为改进后的ADOA算法的输入，ADOA算法选取特征向量中的正常样本数据进行聚类，生成多个聚类中心，将剩余特征向量作为未标记的样本数据，计算未标记的样本到各个聚类中心之间的距离，进而计算未标记的样本与各个聚类中心之间的相似得分，利用孤立森林计算未标记样本的孤立得分，将未标记样本的相似得分和孤立得分按一定权重计算，作为未标记样本的异常得分，将未标记样本的异常得分与设定的判断阈值进行比较，根据比较结果判断所述未标记的样本数据是否异常。

为了对实验结果进行有效性能评估，采用二分类任务评价的标准混淆矩阵，混淆矩阵如下表所示：

根据混淆矩阵,可以得到以下3个评价指标包括Accuracy、Precision、Recall：

Accuracy＝(TP+TN)/(TP+FN+FP+TN)

Precision＝TP/(TP+FP)

Recall＝TP/(TP+FN)

根据上述3个评价指标Accuracy、Precision和Recall对本发明的基于溯源图和自注意力机制提取序列特征的APT攻击检测方法的检测效果进行验证。

综上所述，本发明实施例首先使用特征降维并引入了transformer自注意力机制的编码器-解码器来训练网络，进而提取序列特征，之后通过改进ADOA算法，构建检测模型以此实现攻击检测。

本发明实施例基于改进的Transformer自注意力编码器-解码器模型，以此来进行特征提取，能够利用分布式GPU进行并行训练，提升模型训练效率。在分析更长的数据时,捕捉间隔较长的上下文关联效果更好。对于提取之后的序列特征，接上白名单机制的ADOA算法来检测攻击，对攻击的检测效果更优。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于溯源图和自注意力机制提取序列特征的APT攻击检测方法，其特征在于，包括：

使用改进后的部分观测正常的异常检测ADOA算法对所述特征向量中的正常样本进行聚类，生成多个聚类中心，根据所述特征向量中的未标记的样本数据与聚类中心之间的距离计算相似得分，引入孤立森林计算孤立得分，按一定权重来计算未标记样本的异常得分，基于所述异常得分根据设定的阈值判断所述未标记的样本数据是否异常。

2.根据权利要求1所述的方法，其特征在于，所述的用基于Transformer的编码器-解码器来训练自注意力网络，生成特征提取网络，包括：

3.根据权利要求2所述的方法，其特征在于，所述的通过所述特征提取网络将所述特征序列转换为特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述的使用改进后的部分观测异常的异常检测ADOA算法对所述特征向量中的正常样本进行聚类，生成多个聚类中心，根据所述特征向量中的未标记的样本数据与聚类中心之间的距离计算相似得分，引入孤立森林计算孤立得分，按一定权重来计算未标记样本的异常得分，基于所述异常得分根据设定的阈值判断所述未标记的样本数据是否异常，包括：