CN113961759B

CN113961759B - 基于属性图表示学习的异常检测方法

Info

Publication number: CN113961759B
Application number: CN202111237311.6A
Authority: CN
Inventors: 李童; 岳豪; 张润滋; 李战士; 杨震
Original assignee: Beijing University of Technology; Nsfocus Technologies Group Co Ltd
Current assignee: Beijing University of Technology; Nsfocus Technologies Group Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2024-05-07
Anticipated expiration: 2041-10-22
Also published as: CN113961759A

Abstract

本发明公开了基于属性图表示学习的异常检测方法，该方法的步骤如下：获取属性图数据集；针对属性图中的节点之间的相似度，扩展数据集中的属性图拓扑结构；使用属性图中拓扑结构数据导入TransE模块得到节点的嵌入向量集；将前面两个步骤得到的扩展之后的属性图数据集和嵌入向量集作为输入，运行编码模块进行属性图编码；将编码得到的编码数据集进行结构重构解码；将编码得到的编码数据集进行属性重构解码；根据编码解码得到的结构重构误差和属性重构误差进行异常节点的预测和排序。本方法解决了节点属性与属性图拓扑结构关联不紧密的问题。基于属性图表示学习的异常检测方法检测性能比原来的基于图卷积异常检测方法性能显著提升。

Description

基于属性图表示学习的异常检测方法

技术领域

本发明涉及一种基于属性图表示学习的异常检测方法，属于异常检测系统。

背景技术

网络信息新技术新应用已经被当今社会大规模应用，然而，网络空间面临的安全威胁和安全风险问题也日益严重。特别是网络攻击中的APT(Advanced PersistentThreat)攻击，其具有高持久性、高隐蔽性、高危害性等特点。Fireeye 组织发布的相关研究报告中指出，APT攻击的平均攻击周期超过3个月。因此，为应对越来越复杂的攻击，企业通常会部署大量的检测设备。这些检测设备会产生大量的日志，并且，在这庞大的日志文件中，正常行为的日志信息又是占据绝大多数。因此对于安全维护人员一个亟待解决的问题就是：如何找到需要处理的网络攻击行为产生的日志信息。异常检测系统作为解决这一问题的有效手段，已经在各个领域广泛使用。异常检测系统的任务是从数据集中检测其中存在异常的数据。数据集可以是日志文件、攻击威胁警告、图片等。简而言之就是帮助用户筛选数据中存在的异常数据。异常检测系统能够帮助用户以更少的时间和代价找到日志文件中真正的攻击数据，有着充分的研究价值。

异常检测系统中异常数据极少，而正常数据数量庞大，且正常数据和异常数据之间存在关联。特别是在网络安全领域中，关键信息都蕴含在单个数据实体中，而原始数据却是一个个日志文件。因此，为了更方便的使用数据，使用知识图谱的形式描述相关数据。其中，知识图谱，是结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系。通过将数据粒度从document级别降到data级别，聚合大量知识，从而实现知识的快速响应和推理。当下知识图谱已在工业领域得到了广泛应用，如搜索领域的Google搜索、百度搜索，企业信息领域的天眼查企业图谱等。

由于网络安全领域的特殊性，数据之间存在大量不同的关系，比如文件的读写、网络设备的互相连接、各种软件程序的打开关闭等，因此，使用属性图作为知识图谱的图数据模型更合理。其中，属性图是知识图谱中一种不同于RDF三元组的一种图数据模型。现实世界可以用属性图，即包含节点、边和属性的图结构来描述和存储，例如在一次网络攻击中，进程、文件、主机等可以用节点来表示，节点之间的关系，诸如读写文件、用户登录注销、主机之间的ping和ssh连接等可以用边来表示，其中文件节点的属性可以是文件名、文件创建者、文件大小、文件的保密程度等。从上述例子可以看出，以属性图表示复杂的网络其最大的优点就是自然、简洁、易于理解。

在网络安全领域中，异常检测系统常用方法是通过图卷积网络(GCN)对属性图进行编码以及解码得到重构误差，之后，依据重构误差进行排序进而得到其中的异常节点，即可能存在攻击行为的数据。而这种方法存在三类问题：1.忽略了属性图中的节点和属性图本身的拓扑结构之间的关联；2.忽略了属性图中不同边的权重是不一定相同的；3.单纯使用GCN模型并不能完好的表示属性图的图特征。这些问题导致异常检测系统无法满足用户的需求。

图卷积网络(GCN)，现实中许多重要的数据集都是用图的形式存储的，例如社交网络信息，知识图谱，蛋白质网络，万维网等等。这些图网络的形式并不像图像，是排列整齐的矩阵形式，而是非结构化的信息。图卷积就像图像领域的卷积一样，提供了一个通用的范式来进行图特征的抽取，这就是图卷积在图卷积网络中的意义。

发明内容

为了解决由于图卷积网络重构排序中存在的上述三类不足导致的异常检查存在识别准确率低的问题，本发明具体提出了一种基于属性图表示学习的异常检测方法。在使用图卷积网络进行图重构得到异常节点的基础上，利用属性图中节点的相似性扩充属性图拓扑结构、增加属性图中边的权重、使用属性图的嵌入向量和注意力机制补充GCN模型，改进原有方法的检测效果。

为实现上述目的，本发明采用的技术方案基于图卷积网络进行改进的基于属性图表示学习的异常检测方法，如图1所示，该方法的实现步骤如下：

步骤(1)获取网络攻击产生的日志数据的属性图G：日志数据中包含文件、程序、用户以及主机等，网络攻击产生的日志数据的属性图由所有节点的标签集合 label，用于表示所有节点之间拓扑结构的邻接矩阵A，以及表示所有节点的属性向量X组成，记为(label，A，X)，其中，一个日志数据作为属性图中的一个节点，对于节点i，包括一个标签label_i以及节点i的属性集合X_i，其中，label_i用于表示节点i 是否异常，X_i＝{节点i的唯一标识ID_i，节点i的名称，节点i的种类，节点i的时间戳}；label＝{label₁、label₂、…、label_n}，X＝{X₁、X₂、…、X_n}；n表示日志数量总数，A＝{a_ij}，当两个节点i、j之间存在包括但不限于读取、登录、连接关系时，表示节点之间存在一条边，记为a_ij＝a_ji＝1，否则为0；在属性图设定中不同类别节点的属性个数均相同，如若对应属性在某个节点中不存在则置零；进一步的，节点i代指日志数据中的进程、文件、主机等，X_i中每个元素代表一个属性的值，拓扑结构A，即属性图中边的表示结构，边代指读写文件、用户登录注销、主机之间的ping和ssh连接等，label为属性图中节点的标签，形如{benign， Malignant、…、benign}，其中标签按照顺序一一对应节点(在该方法中，此数据 label可无)。

步骤(2)根据节点属性集X中节点属性的相似度，将拓扑结构A扩展成A′，具体的，如果节点i和节点j之间属性相同的个数大于等于设定的阈值，则认为相似，此时，则在节点i和节点j之间连接一条边，即在属性图中A增加对应的数据，拓扑结构A扩展成A′；

步骤(3)运用迁移学习的思想获得已经训练好的模型参数；使用拓扑结构 A，将其中存在边的所有节点属性集合转换为三元组数据(h，r，t)，其中，h表示头节点，t表示尾节点，r＝1表示头、尾节点存在边，对于存在边的节点i和节点j，为了避免节点之间存在头结点和尾结点的区别，将两个分别设为尾结点和头结点，表示为两个三元组数据(X_i，1，X_j)、(X_j，1，X_i)，之后将转换后的所有三元组数据，导入TransE模块，得到节点的嵌入向量集合TE；其中，迁移学习是把已训练好的模型(预训练模型)参数迁移到新的模型来帮助新模型训练从而加快并优化新模型的学习效率；TransE算法是一个常用的表示学习方法，表示学习的目的是通过学习实体和关系的低维向量表示进而了解实体和关系之间的联系；

步骤(4)将步骤2和步骤3分别得到的属性图(label，A′，X)和TE作为图卷积网络模型的输入，进行属性图编码，得到属性图编码表示Z；

步骤(5)进行数据解码；将属性图编码表示Z作为输入，输入进解码模块，如图3，分别进行网络拓扑结构重建以及节点属性重建。

具体来说，对于某个节点，如果它的结构信息可以通过结构重建解码器来近似还原，那么它的异常概率就很低，另一方面，如果拓扑结构的连通性不能很好的重构，则意味着其结构信息不符合大多数正常节点的模式。类似的，属性解码器，可以通过Z中的节点编码表示，逼近节点的属性信息，进而从节点属性的角度发现属性图上的异常节点。

其中，对属性图编码表示Z进行结构重建解码，具体如下：

是重构之后的拓扑结构；

对属性图编码表示Z进行属性重构解码，属性重构解码器利用另一图卷积层对原始节点属性进行预测，如下所示

是重构之后的属性向量集；

步骤(6)计算编码解码产生的重构误差，从而预测异常节点；

为了共同学习属性图的拓扑结构重构误差和属性重构误差，让两者保持相对平衡，该模型的目标函数表示如下：

其中表示属性图的拓扑结构重构误差，/>表示属性图重构之后的拓扑结构的邻接矩阵，A表示初始的属性图G的第二部分A，||*||_F表示F范数；

表示属性图的属性重构误差，/>表示属性图重构之后的属性向量集合， X表示初始的属性图G的第一部分X，

α为超参数，用来平衡结构重构和属性重构的影响；

得到节点重构误差之后就可以根据误差的大小进行排序，得分最高的10个节点即为异常节点，其中，误差计算函数如下：

其中vi表示第i个节点，

α为超参数，用来平衡结构重构和属性重构的影响，

表示节点的结构重构误差，a_i表示A中第i行向量，/>表示/>中第i行向量，/>表示节点的属性重构误差，x_i表示X中第i行向量，/>表示/>第i行向量；

有益效果

本方法使用了知识图谱中的属性图数据模型，有效的解决了网络安全领域中文件、程序等节点属性多且不统一的问题，在图卷积网络的基础上，利用了节点的属性相似度，扩展了图拓扑结构，解决了现有方法没能将节点属性和拓扑结构有效关联起来的问题，并且利用了迁移学习的思想，在进行图卷积的过程中加入 TransE之后的节点嵌入向量，优化了图卷积的性能，并且在这之上，还加入了注意力机制去解决扩展拓扑结构之后的关系权重不同的问题。使用属性图表示学习的异常检测方法性能比原来的异常检测方法性能显著提升。

附图说明

·图1为异常检测方法设计框架图

·图2为本方法中的编码模块

·图3为本方法中的解码模块

具体实施方式

本发明的目的在于提出一种基于属性图表示学习的异常检测方法，在图卷积网络的基础上，利用属性图中节点的相似性检测更加准确的异常节点，即网络攻击行为产生的异常节点。

为了实现上述目标，本发明采用的技术方案为基于属性图表示学习的异常检测方法。该方法的实现步骤如下：

步骤(1)网络攻击产生的日志数据的属性图：

属性图主要记录了真实世界中现实场景信息，其数据格式为(label，A，X)，其中，label表示属性图中节点的标签集合，具体含义为描述属性图中的节点是否为异常的(在该方法中，此数据label可无)；A表示属性图中节点边的集合，即属性图拓扑结构，具体形式为邻接矩阵，有边的两个节点，其对应的值为1，反之为0； X表示属性图的节点属性向量集合，在属性图设定中不同类别节点的属性个数均相同，如若对应属性在某个节点中不存在则置零。例如({1，0}，{(0，1)，(1，0)}， {(1，log.txt，doc，15572)，(2，main.c，process，15573)})，表示属性图中存在两个节点(1，log.txt，doc，15572)，(2，main.c，process，15573)，它们的ID分别是1和2，名称为log.txt和main.c，种类为doc和process，时间戳分别为15572，15573；而且通过{(0，1)，(1，0)}可以知道两个节点之间存在一条边；根据{1，0}可以知道第一个节点是异常的，第二个节点是正常的，其中异常代表该节点可能被网络攻击行为影响，正常代表该节点是由用户的正常行为产生。异常检测常用的数据集有Amazon数据集。其中有1418个节点，3695条边，28 个异常节点，节点属性维度为21；

步骤(2]根据节点属性集X中节点属性的相似度，将拓扑结构A扩展成A′：

由于节点属性和节点的拓扑结构是否关联紧密影响最后的异常检测结果，因此本发明根据节点之间属性相同的个数来判断节点之间是否相似，其中，属性相同个数为可设置的阈值。本实施中将属性相同的个数设置为17，当两个节点的属性有17个相同时，则在两个节点之间连接一条边，即在属性图中A增加对应的数据，拓扑结构A扩展成A′；

步骤(3]使用拓扑结构A，将其中存在边的所有节点属性集合转换得到三元组数据(h，r，t)，其中，h表示头节点，t表示尾节点，r＝1表示头、尾节点存在边，即找到存在边的两个节点例如(1，log.txt，doc，15572)，(2，main.c，process， 15573)，其中一个节点作头结点，另外一个节点作为尾结点，中间的关系是唯一的值1，为了避免节点之间存在头结点和尾结点的区别，因此，两个都会成为尾结点和头结点，生成两个三元组数据((1，log.txt，doc，15572)，1，(2，main.c， process，15573))、((2，main.c，process，15573)，1，(1，log.txt，doc， 15572))。之后将转换的所有三元组数据，导入TransE模块，得到节点的嵌入向量集合TE；

在迁移学习的理论中可以知道，大部分数据或者任务都是存在相关性的所以通过迁移学习我们可以将TransE学习到的节点嵌入向量，作为输入，输入到下一步的编码模型中，从而加快并优化编码模型的学习效率，不用从零开始。

步骤(4)将步骤2和步骤3分别得到的属性图(1abel，A′，X)和TE作为图卷积网络模型的输入，进行属性图编码，得到属性图编码表示Z；

在本步骤中，具体来说，图卷积网络模型在学习嵌入表示时考虑了高阶节点邻近性，从而缓解了网络稀疏性问题，超出了观察到的节点之间的链接。同时，通过多层次的非线性变换，捕捉数据的非线性和属性网络上两种信息模式的复杂交互作用，然而由于步骤2中扩展了属性图的拓扑结构，造成节点之间的边理论上存在不同，但实际上相同的问题，因此增加了注意力机制试图解决这个问题，在此方法中注意力机制的具体实现方式例如节点a周围存在边连接的节点有b，c，d，称为邻居节点，然后通过计算a和任意邻居节点的相似度，具体计算方式就是节点a的嵌入向量和邻居b的嵌入向量(嵌入向量是从上一次卷积中得到的)相乘作为相似度，然后通过归一化获得每个邻居对a的相似度，最后就可以得到编码模型中a的嵌入向量，它等于各个邻居的相似度乘各个邻居的嵌入向量，由此可以解决权重问题；其次在第一次图卷积之后，我们在卷积之后的嵌入向量中拼接了 TransE模型中得到的TE向量对编码模型进行优化，最后再进行一次图卷积完成编码模块的所有任务。在数学上，图卷积网络模型将卷积运算扩展到光谱域中的网络数据，并通过光谱卷积函数学习分层新的潜在表示：

H^(l+1)＝f(H^(l)，A′|W^(l))

其中H^(l)是卷积层l的输入，H^(l+1)是卷积层l之后的输出，我们取X为第一层输入，相当于H⁽⁰⁾。W^(l)是我们需要在神经网络中学习的不同层的可训练权重矩阵。图卷积网络的每一层可以用函数f(H^(l)，A|W^(l))表示如下：

其中是/>的对角矩阵，注意，σ(·)是一个非线性激活函数，属性网络编码器可以表示为：

H⁽¹⁾＝f(X，A′|W⁽⁰⁾)

H⁽²⁾＝[H⁽¹⁾ TE]

Z＝H⁽³⁾＝f(H⁽²⁾，A′|W⁽¹⁾)

其中第二步是向量拼接，不是单纯的向量加减；

步骤(5)对属性图编码表示Z进行结构重建解码：

设表示重构后的邻接矩阵，则结构重建误差/>可用于确定网络上的结构异常。具体地说，对于某个节点，如果其结构信息可以通过结构重建解码器来近似，则其异常概率较低。另一方面，如果不能很好地重建连通模式，则意味着其结构信息不符合大多数正常节点的模式。总之，解码器将潜在表示作为输入，并预测每对两个节点之间是否存在链路：

其中表示重构之后节点i和节点j是否存在边，等于1则存在，反之不存在，

z_i和z_j分别代表属性图的编码表示Z中第i个和第j个节点的编码表示，

因此，我们基于属性网络编码器的输出Z来训练链路预测层，具体如下：

步骤(6)对属性图编码表示Z进行属性重构解码：

类似地，为了计算节点属性的重构误差，我们提出了一种属性重构解码器，该解码器从Z中还原节点属性信息。属性重构解码器利用另一图卷积层对原始节点属性进行预测，具体如下

其中是重构之后的属性向量集，

通过计算得到的重构误差我们可以从属性的角度发现属性网络上的异常；

步骤(7)异常节点预测

在步骤(6)后，得到了每个节点的属性重构误差和属性图拓扑结构的重构误差，为了共同学习两种重构误差，我们提出的编码器的目标函数可以表示为：

使用随机梯度下降算法最小化目标函数，共迭代2000次，学习率为0.0016，α平衡参数为0.5±0.1；

在上述步骤中，得到了属性图中每个节点的属性重构误差和拓扑结构误差。在给一个用户检测异常节点的时候，先使用误差计算函数检测每个节点的误差分数。然后按照降序对所有节点进行排序。最后取排序的前10个作为异常节点列表。其中，误差计算函数如下：

基于属性图表示学习的异常检测模型能够产生比现有方法更好的检测结果，越异常的节点，其误差评分越高，在异常排序列表中取得越靠前的位置。表1绘制了基于属性表示学习的异常检测模型与现有方法的比较，在检测指标ROC-AUC以及 score中表现均优于现有方法。基于属性图表示学习的异常检测方法解决了节点属性与属性图拓扑结构关联不紧密的问题。基于属性图表示学习的异常检测方法检测性能比原来的基于图卷积异常检测方法性能显著提升。

表1：实验结果

Amazon数据集	现有模型	本发明模型	提升(％)
				ROC-AUC	0.624	0.651	4.33
SCORE	0.489	0.523	6.95

其中SCORE＝(准确率(accuracy)+精准率(precision))/2。

Claims

1.基于属性图表示学习的异常检测方法，其特征在于：包括以下步骤，

步骤(1)获取网络攻击产生的日志数据的属性图：日志数据中包含文件、程序、用户以及主机等，网络攻击产生的日志数据的属性图由所有节点的标签集合label，用于表示所有节点之间拓扑结构的邻接矩阵A，以及表示所有节点的属性向量X组成，记为(label，A，X)，其中，一个日志数据作为属性图中的一个节点，对于节点i，包括一个标签label_i以及节点i的属性集合X_i，其中，label_i用于表示节点i是否异常，X_i＝{节点i的唯一标识ID_i，节点i的名称，节点i的种类，节点i的时间戳}；label＝{label₁、label₂、…、label_n}，X＝{X₁、X₂、…、X_n}；n表示日志数量总数，A＝{a_ij}，当两个节点i、j之间存在包括但不限于读取、登录、连接关系时，表示节点之间存在一条边，记为a_ij＝a_ji＝1，否则为0；在属性图设定中不同类别节点的属性个数均相同，如若对应属性在某个节点中不存在则置零；

步骤(3)使用拓扑结构A，将其中存在边的所有节点属性集合转换为三元组数据(h，r，t)，其中，h表示头节点，t表示尾节点，r＝1表示头、尾节点存在边，对于存在边的节点i和节点j，为了避免节点之间存在头结点和尾结点的区别，将两个分别设为尾结点和头结点，表示为两个三元组数据(X_i，1，X_j)、(X_j，1，X_i)，之后将转换后的所有三元组数据，导入TransE模块，得到节点的嵌入向量集合TE；

步骤(5)对属性图编码表示Z进行结构重建解码，具体如下：

其中是重构之后的拓扑结构；

步骤(6)对属性图编码表示Z进行属性重构解码，属性重构解码器利用另一图卷积层对原始节点属性进行预测，如下所示

其中是重构之后的属性向量集；

是/>的对角矩阵，σ(·)是一个非线性激活函数；

步骤(7)异常节点预测：

异常节点指网络攻击行为可能影响的节点，计算日志数据属性图中每个节点的得分，得分最高的10个节点即为异常节点，其中得分计算公式如下：

其中v_i表示第i个节点，

α为超参数，用来平衡结构重构和属性重构的影响，

表示节点的结构重构误差，a_i表示A中第i行向量，/>表示/>中第i行向量，表示节点的属性重构误差，x_i表示X中第i行向量，/>表示/>第i行向量。

2.根据权利要求1所述的基于属性图表示学习的异常检测方法，其特征在于：

编解码器的目标函数为：

。

3.根据权利要求1所述的基于属性图表示学习的异常检测方法，其特征在于：所述属性图编码表示Z的计算过程具体如下：

H⁽¹⁾＝f(X，A′|W⁽⁰⁾)

H⁽²⁾＝[H⁽¹⁾ TE]

Z＝H⁽³⁾＝f(H⁽²⁾，A′|W⁽¹⁾)

其中，

是/>的对角矩阵，σ(·)是一个非线性激活函数，第二步是向量拼接，W⁽⁰⁾、W⁽¹⁾为待训练权重矩阵。