CN115643153A

CN115643153A - 基于图神经网络的报警关联分析方法

Info

Publication number: CN115643153A
Application number: CN202210835786.3A
Authority: CN
Inventors: 陶晓玲; 贾飞; 顾涛; 丁得轩; 乔运铎; 余玥琳; 武守一; 杨昌松
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2023-01-24

Abstract

本发明涉及图神经网络技术领域，具体涉及基于图神经网络的报警关联分析方法，通过因果关联模块对报警数据进行预处理，得到攻击图；图像神经网络模块抽取所述攻击图信息，训练图神经网络，得到图神经网络分类模型；通过所述图神经网络分类模型识别测试数据，得到攻击场景，该方法首先分析攻击场景，设计安全事件的前提和结果的匹配规则；接着使用因果关联分析方法得到有关系的报警序列；使用画图工具可视化网络攻击图，准备图神经网络的输入数据，抽取攻击图信息；搭建图神经网络的初始网络结构，并训练图神经网络分类模型；最后再识别测试报警所属的攻击场景，解决现有分析方法不能准确识别攻击场景的问题。

Description

基于图神经网络的报警关联分析方法

技术领域

本发明涉及图神经网络技术领域，尤其涉及基于图神经网络的报警关联分析方法。

背景技术

近年来，网络系统结构和入侵手段愈发多样复杂，IDS对报警日志的分析成本也在呈几何倍数增长。根据研究表明，84％的攻击者在实施破坏时会留下安全证据，但是被检测出的报警往往只是攻击链中的某一活动。所以通过关联分析安全事件能够更有效地管理网络系统，然而，过往的攻击场景识别方法忽略了报警之间的关联性。

目前针对报警关联分析的研究还不够完善，传现代方法具有客观性和推理能力，但关联结果不尽人意，往往不能完全准确地识别报警所属的攻击场景。

发明内容

本发明的目的在于提供基于图神经网络的报警关联分析方法，旨在解决现有分析方法不能准确识别攻击场景的问题。

为实现上述目的，本发明提供了基于图神经网络的报警关联分析方法，包括以下步骤：

通过因果关联模块对报警数据进行预处理，得到攻击图；

图像神经网络模块抽取所述攻击图训练图神经网络，得到图神经网络分类模型；

通过所述图神经网络分类模型识别测试数据，得到攻击场景。

其中，所述通过因果关联模块对报警数据进行预处理，得到攻击图的具体方式：

所述因果关联模块对所述报警数据进行标准化清理，得到处理数据；

基于所述处理数据使用因果关联分析方法构建所述攻击图。

其中，所述图像神经网络模块抽取所述攻击图训练图神经网络，得到图神经网络分类模型的具体方式：

所述图像神经网络模块将所述攻击图抽象为邻接矩阵；

基于所述邻接矩阵搭建图神经网络的初始网络结构；

向所述初始网络结构引入SAA参数对所述初始网络结构进行训练，得到所述图神经网络分类模型。

其中，所述可视化处理软件为画图软件graphviz。

其中，所述向所述初始网络结构引入SAA参数，得到所述图神经网络分类模型的具体方式：

设置模型Loss为SSA的适应度函数，并规定参数优化范围，得到所述SAA 参数；

将所述SAA参数引入所述初始网络结构，并对所述初始网络结构进行训练，得到所述图神经网络分类模型。

本发明的基于图神经网络的报警关联分析方法，通过因果关联模块对报警数据进行预处理，得到攻击图；图像神经网络模块抽取所述攻击图信息，训练图神经网络，得到图神经网络分类模型；通过所述图神经网络分类模型识别数据，得到攻击场景，该方法首先分析攻击场景，设计安全事件的前提和结果的匹配规则；接着使用因果关联分析方法得到有关系的报警序列；使用画图工具可视化网络所述攻击图，准备所述图神经网络的输入数据，抽取所述攻击图信息；搭建所述图神经网络的所述初始网络结构，并训练所述图神经网络分类模型；最后再识别测试报警所属的攻击场景，该方法进一步提取所述攻击图信息，提升攻击场景识别的效率，保证关联效率的同时提高模型的推理能力，解决现有分析方法不能准确识别攻击场景的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是对比不同分类器的分类性能的示意图。

图2是Loss收敛曲线的示意图。

图3是基于不同图神经网络的报警关联分析方法的性能比较的示意图。

图4是SSA-GCN结构示意图。

图5是基于不同图神经网络的报警关联分析方法的性能比较的示意图。

图6是基于图神经网络的智能报警关联分析架构图。

图7是报警数据关联分析过程图。

图8是本发明提供的基于图神经网络的报警关联分析方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1至图8，本发明提供基于图神经网络的报警关联分析方法，包括以下步骤：

S1通过因果关联模块对报警数据进行预处理，得到攻击图；

具体的，首先分析攻击场景，设计安全事件的前提和结果的匹配规则；接着使用因果关联分析方法得到有关系的报警序列；最后使用画图工具graphviz 可视化网络攻击图，所述可视化处理软件为画图软件graphviz，对所述报警数据进行标准化等清理工作，并且要在这一阶段使用因果关联分析方法生成报警攻击图和攻击场景，否则所述图神经网络(GNN)无法进行训练。

具体方式：

S11所述因果关联模块对所述报警数据进行标准化清理，得到处理数据；

S12基于所述处理数据使用因果关联分析方法构建所述攻击图。

S2图像神经网络模块抽取所述攻击图训练图神经网络，得到图神经网络分类模型；

具体方式：

S21所述图像神经网络模块将所述攻击图抽象为邻接矩阵；

S22基于所述邻接矩阵搭建图神经网络的初始网络结构；

S23向所述初始网络结构引入SAA参数对所述初始网络结构进行训练，得到所述图神经网络分类模型。

具体方式：

S231设置模型Loss为SSA的适应度函数，并规定参数优化范围，得到所述SAA参数；

S232将所述SAA参数引入所述初始网络结构，并对所述初始网络结构进行训练，得到所述图神经网络分类模型。

具体的，使用所述SSA迭代优化，选择适应度最低的麻雀个体作为模型的最佳参数组合。

S3通过所述图神经网络分类模型识别测试数据，得到攻击场景。

本发明旨在提高报警关联分析的效率同时提高模型的推理能力，为了说明本文关联分析方法的有效性，首先使用因果关联分析方法构建攻击图，然后搭建 SSA-GCN、SSA-GAT模型用来学习攻击图，进而识别报警所属的攻击场景，并从以下几个方面分析实验结果。

一、对比不同分类器的分类性能

本发明借助Scikit-learn机器学习库实现了随机森林、SVM和多层感知器(MultilayerPerceptron，MLP)，尽可能调整出最好的参数组合，同样使用分类评价指标衡量分类性能，本发明方法于不同分类器的性能对比结果所示，本发明方法在各项指标上都超过了90％，相比较其它方法有明显提升，尤其在准确率和召回率上表现更显著，说明本发明方法产生的漏报样本较少，会尽可能将报警分类到正确的类别中。同时，本发明方法产生的精确率达到了92.4％，说明本发明模型避免了错误划分报警类别，所以产生的误报样本也很少，如图1所示。

二、对比不同图神经网络的分类性能

为了进一步验证GNN能够有效利用报警关联攻击图中的信息，一方面，实验对比了基于属性相似度的Alert-GCN分类模型；另一方面，在都使用因果关联分析攻击图的前提下，本发明还比较了GCN与GAT的性能。首先，给出了通过Alert-GCN和本文方法训练的Loss收敛曲线，如图2所示，图中所示，两个模型都在前80个周期中模型的Loss收敛迅速，之后缓慢迭代至250周期左右时，模型趋于稳定，最后可以看出本文方法训练的Loss明显低于Alert-GCN模型，最后降低至0.2以下，说明本发明方法对攻击场景的拟合程度优于Alert-GCN。虽然Alert-GCN在前期的Loss值较低，但两者Loss的下降速率几乎一样，并且Alert-GCN在100周期左右开始平缓收敛，而本发明方法的Loss依旧在下降，说明报警关联的攻击图在此时起到了作用，GCN能够有效利用攻击图中的信息进行推理学习。

训练以上两个模型所消耗的资源也不同，从表中给出了本发明方法和 Alert-GCN训练模型所消耗的时间、关系图中边的数量以及准确率。可以看出，同样训练500周期，基于攻击图训练的GCN所需时间少于Alert-GCN，时间效率提升7％左右，模型准确率提升6％左右，并且通过关联分析得到的攻击图规模也小于Alert-GCN的关系图，所以，本发明方法使用更少的信息量获得了更优越的性能，说明GCN能有效地利用报警关联攻击图中的信息。

以上实验说明了关联分析得到的攻击图对于攻击场景识别是有用的，本发明还通过实验验证了SSA-GAT对于报警攻击图的学习能力。实验前先用SSA 分别对不同图神经网络进行寻参，尽可能选出各自最优的参数组合进行对比。实验前先用SSA分别对不同图神经网络进行寻参，尽可能选出各自最优的参数组合进行对比，图3给出了基于不同图神经网络的报警关联分析方法的性能比较。

SSA-GCN、SSA-GAT学习的图结构都采用一样的因果关联分析攻击图，从图3可以看出使用攻击图的SSA-GCN和SSA-GAT的分类性能基本上都优于 Alert-GCN，SSA-GCN的性能更好，准确率和召回率达到0.9386，f1系数也能达到0.92，说明其在各方面指标都有不错的性能。在实验过程中，虽然SSA-GAT 也有着不错的分类能力，召回率也能超过0.92，但SSA-GAT耗费的训练资源要高于SSA-GCN，原因是SSA-GAT在计算注意力系数时多做了一次全连接操作，并且进行了矩阵拼接，导致在训练过多样本时需要大量硬件资源支撑。

三、对比不同参数寻优算法的优化性能

为了验证本发明所采用的SSA参数寻优方法的有效性，与粒子群优化算法(ParticleSwarmOptimization，PSO)进行了对比，都是搜索GCN的参数组合，从表中可以看出，在适应度几乎相同的前提下，本发明所采用的SSA参数寻优方法相较于PSO参数寻优方法收敛速度更快。

结果表明，SSA和PSO的收敛精度差别不大，寻找的参数模型的适应度都是0.14左右。但是SSA的收敛速度要比PSO快，只需要23个周期就能找到最优的参数模型，原因是不同身份的麻雀个体可以协同搜索，SSA中的发现者和报警机制提高了全局探索能力，同时追随者能够迅速在最优值附近收敛。神经网络的寻参过程是在离散的解集空间进行的，而PSO有的时候不能精确搜索到全局最优解，所以PSO的收敛速度较慢。

根据上述设计框架图和流程图，在DARPA2000数据集上验证了所提方法的报警聚合效率，通过重放该数据集中LLDOS1.0场景的tcpdump流量数据，并基于snort提取了30459条报警样本，每个样本拥有13维特征，包括10维标称属性和3维数值属性，其分布如下表所示：

基于以上数据集，具体的报警关联分析步骤如下：

数据预处理阶段。对报警数据进行标准化等清理工作，并且要在这一阶段使用因果关联分析方法生成报警攻击图和攻击场景，否则GNN无法进行训练。

因果关联分析方法假设后发生的报警是因为前面的报警已经成功入侵，根据此假设，对已知的报警类型构建超级报警实例，再使用以下公式进行规则匹配判断实例之间是否有逻辑关系。

I＝C(T)∩P(T')

其中，T与T'是两个超级报警实例，C(T)表示T可能产生的结果谓词集合，P(T')表示T'的前提谓词逻辑组合，并且需要C(T)的结束时间在P(T')的开始时间之前，即满足C(T).end_time≤P(T').begin_time。若

S为提前构建的攻击场景，则说明T与T'是可以因果关联的。

因果关联分析方法实现步骤如下：

(1)将报警T划分到合适的攻击场景中，并在S中搜索T的结果集合C(T)；

(2)在T的后一攻击阶段中寻找一个报警T'，使得C(T)与P(T')满足公式 I＝C(T)∩P(T')的因果关联条件，则T与T'关联；

(3)将T'设置为当前报警，继续向后关联，重复(2)、(3)步骤，直至没有后续报警，则关于报警T的因果关联结束。

2、训练阶段。将攻击图抽象为邻接矩阵，搭建GNN初始的网络结构，设置模型Loss为SSA的适应度函数，规定参数优化范围，使用SSA迭代优化，选择适应度最低的麻雀个体作为模型的最佳参数组合。

GNN虽然能够学习到更丰富的信息，但网络模型中超参繁杂，且存在着参数敏感的问题，完全依据人为经验调整参数显然不够智能，本章借助SSA进行参数寻优以训练更准确的GNN模型。本文分别搭建了SSA-GCN、SSA-GAT两种网络结构训练分类模型，以GCN为例，搭建的SSA-GCN结构如图4所示：

(1)问题编码。初始构建3层隐藏层的GCN结构，隐藏层都使用ReLU激活函数，使用SSA优先寻找各隐藏层神经元数量、学习率和迭代周期，故SSA 的麻雀个体维度设置为5维。假设麻雀群体X中个体数量为n，则有：

(2)适应度函数确定。SSA的目的是寻找拟合程度最好的参数模型，所以可以将GCN的损失函数作为SSA的适应度函数，每轮迭代搜索最小的损失值。本章构建的GCN结构以交叉熵作为损失函数，所以SSA的适应度函数为：

其中，J表示分类数量，p_i表示第i类的预测概率，q_i表示该类的真实概率。

3、测试阶段。将测试的报警数据输入训练好的GNN分类模型，得到的报警所属的攻击场景，完成报警关联。

实验结果：

本发明还通过实验验证了SSA-GAT对于报警攻击图的学习能力。实验前先用SSA分别对不同图神经网络进行寻参，尽可能选出各自最优的参数组合进行对比，图5给出了基于不同图神经网络的报警关联分析方法的性能比较。

SSA-GCN、SSA-GAT学习的图结构都采用一样的因果关联分析攻击图，从图5可以看出使用攻击图的SSA-GCN和SSA-GAT的分类性能基本上都优于 Alert-GCN，SSA-GCN的性能更好，准确率和召回率达到0.9386，f1系数也能达到0.92，说明其在各方面指标都有不错的性能。由以上看出SSA-GCN的准确率明显高于SSA-GAT、Alert-GCN。在实验过程中，虽然SSA-GAT也有着不错的分类能力，召回率也能超过0.92，但SSA-GAT耗费的训练资源要高于 SSA-GCN，原因是SSA-GAT在计算注意力系数时多做了一次全连接操作，并且进行了矩阵拼接，导致在训练过多样本时需要大量硬件资源支撑。

以上所揭露的仅为本发明一种专利名称较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.基于图神经网络的报警关联分析方法，其特征在于，包括以下步骤：

通过因果关联模块对报警数据进行预处理，得到攻击图；

2.如权利要求1所述的基于图神经网络的报警关联分析方法，其特征在于，

所述通过因果关联模块对报警数据进行预处理，得到攻击图的具体方式：

基于所述处理数据使用因果关联分析方法构建所述攻击图。

3.如权利要求1所述的基于图神经网络的报警关联分析方法，其特征在于，

所述图像神经网络模块抽取所述攻击图训练图神经网络，得到图神经网络分类模型的具体方式：

所述图像神经网络模块将所述攻击图抽象为邻接矩阵；

基于所述邻接矩阵搭建图神经网络的初始网络结构；

4.如权利要求2所述的基于图神经网络的报警关联分析方法，其特征在于，

所述可视化处理软件为画图软件graphviz。

5.如权利要求3所述的基于图神经网络的报警关联分析方法，其特征在于，

所述向所述初始网络结构引入SAA参数，得到所述图神经网络分类模型的具体方式：

设置模型Loss为SSA的适应度函数，并规定参数优化范围，得到所述SAA参数；