CN112861913A

CN112861913A - 一种基于图卷积网络的入侵警报消息的关联方法

Info

Publication number: CN112861913A
Application number: CN202110037048.XA
Authority: CN
Inventors: 吴春明; 程秋美; 沈毅; 孔德章; 周诗莹
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-28

Abstract

本发明公开了一种基于图卷积网络的入侵警报消息的关联方法，属于网络安全技术领域，该关联方法将警报消息进行编码，构建警报消息的特征向量，并根据警报消息构建警报消息图，将特征向量和警报消息图同时输入到图卷积神经网络，本发明将警报消息的关联建模为警报消息图上的节点分类问题。通过训练图卷积神经网络，使用交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时，完成对图卷积神经网络的训练；再次收集入侵检测反馈的警报消息输入训练好的图卷积神经网络中，输出警报消息攻击类别的概率值。与传统的基于相似度等的警报关联方法相比，本发明的关联方法具有更高的准确率。

Description

一种基于图卷积网络的入侵警报消息的关联方法

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于图卷积网络的入侵警报消息的关联方法。

背景技术

目前，网络攻击形式日益复杂化，网络管理人员通常会在网络系统中部署入侵检测系统(intrusion detection system,IDS)，根据IDS反馈的大量警报消息(alert)，网络管理人员可以分析网络系统目前的安全态势，挖掘可能的攻击场景，为系统做出及时的响应措施。IDS反馈的警报信息包含多个属性，例如：IP地址、端口、警报类型等等。警报类型反映了可疑的攻击动作，然而并不能反映目前系统真实的攻击场景，这是由于不同的攻击可能会产生相同类型的警报消息。为此，警报消息关联(Alert correlation)技术被用于挖掘攻击场景，通过关联大量相似的警报消息来分析可能的攻击场景。

传统的方法大多基于alert的相似度，例如：将具有相同属性的警报消息进行关联，相似的警报消息构成一种攻击场景。此外，基于机器学习的方法也得到了较为广泛的应用。然而这种方法依赖alert本身的特征，且不考虑alert之间的因果关系。近年来，越来越多的研究开始将警报消息建成图的表示，然后在图上采取社区发现算法来挖掘可能的集群，每一个集群可以视为一种攻击(S.Haas and M.Fischer,“Gac:graph-based alertcorrelation for the detection of distributed multi-step attacks,”inProceedings of the 33^rd Annual ACM Symposium on applied computing,2018,pp.979–988.)。但是，这种基于社区发现算法的方法更多的是考虑到图的拓扑结构信息，忽略了图中节点的信息。如何从构建的警报消息图中提取特征信息是关联警报消息的关键。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于图卷积网络的入侵警报消息关联方法，该关联方法首先将IDS收集到的警报消息构建成警报消息图，为了从图中提取更丰富的特征信息，本发明将警报消息图输入到图卷积网络(graph convolutionalnetworks,GCN)中。GCN通过堆叠多个图卷积层，可以使节点汇聚邻接点的信息，从而发现警报消息之间的隐含关系，从而更好地实现警报消息的关联，发现网络攻击场景。

本发明的目的是通过以下技术方案来实现的：一种基于图卷积网络的入侵警报消息关联方法，具体包括以下步骤：

(1)收集入侵检测反馈的警报消息，并打上攻击类别的标签，所述警报消息分为分类属性和数值属性，通过Min-Max scaling将所述数值属性进行归一化操作，转换到[0,1]的范围内，得到归一化数值属性；将所述分类属性进行独热编码，随后将归一化数值属性和独热编码拼接成特征向量；

(2)根据步骤(1)收集的警报消息构建警报消息图G_ag＝(V,E)，其中，V代表所述警报消息图中的节点，每个节点均表示一个单独的警报消息，由步骤(1)获得的特征向量表示；E代表所述警报消息图中的边，边代表边两侧的警报消息的基本属性相似度超过0.8；

(3)将步骤(1)编码的特征向量和步骤(2)构建的警报消息图同时输入到图卷积神经网络，训练图卷积神经网络，通过交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时，完成对图卷积神经网络的训练；

(4)再次收集入侵检测反馈的警报消息输入训练好的图卷积神经网络中，输出警报消息攻击类别的概率值。

进一步地，当步骤(2)中警报消息的基本属性相似度通过相似度函数ξ(a_i,a_j)进行判断：

其中，n为警报消息中基本属性的个数，w^k为第k个基本属性的权重，

和

分别为第i个警报消息和第j个警报消息的第k个基本属性，

表示两个警报消息关于第k个基本属性的相似度，当警报消息的基本属性为总的数据报长度、TTL、IP包长度、警报类型时，有：

其中，两个警报消息的第k个基本属性相等时，

的值为1，否则为0。

进一步地，当警报消息的基本属性为IP地址时，设置IP地址元组(src,dst)，如果两个警报消息中的IP地址元组相同，或者相反，则两个警报消息关于IP地址属性的相似度

的值为1，否则为0。

进一步地，当警报消息的基本属性为端口时，设置端口元组(srcport,dstport)，如果两个警报消息的端口元组相同或相反，则两个警报消息关于端口属性的相似度

的值为1，否则为0。

进一步地，步骤(4)所述交叉熵损失函数L为：

其中，p_i代表了攻击类别i的预测概率，q_i为该类别的标签，J为攻击类别的总数。

与先有技术相比，本发明的有益效果是：本发明提出的基于图卷积网络的入侵警报消息关联方法通过堆叠多个图卷积层，能够汇聚邻接点的节点信息，从而挖掘警报消息图节点之间的隐含关系，实现对警报节点的分类，使得相似的警报消息得到关联。与传统的机器学习方法相比，本发明不仅关注警报消息本身的特征信息，还通过图卷积层汇聚邻接点的信息，使得警报消息的分类更为准确，具有高准确率、低误报率的优点。

附图说明

图1是本发明基于图卷积网络的入侵警报消息的关联方法流程图；

图2是网络警报消息的构建图。

具体的实施方式

下面根据附图详细描述本发明，以突出本发明的目的和具体效果。

如图1为本发明基于图卷积网络的入侵警报消息的关联方法流程图，所述入侵警报消息的关联方法具体包括如下步骤：

(1)收集入侵检测反馈的警报消息，并打上攻击类别的标签，所述警报消息通常包含多个属性，例如：IP地址、端口、TTL、IP包长度、警报类型等。所述警报消息分为分类属性和数值属性，通过Min-Max scaling将所述数值属性进行归一化操作，转换到[0,1]的范围内，得到归一化数值属性：

其中，x为数值属性的原始数据，x_norm为归一化数值属性，x_min和x_max分别为数值属性原始数据中的最小值、最大值。

然后，将所述分类属性进行独热编码(one-hot encoding)。具体来说，如果有m种IP地址，则设置m种二元变量，如果一个IP地址属于该类别，则该位上为1，其余位均为0。

随后将归一化数值属性和独热编码拼接成特征向量；通过上述操作，可以将一个警报消息建模成一个高维的特征向量X。

(2)根据步骤(1)收集的警报消息构建警报消息图G_ag＝(V,E)，如图2所示，其中，V代表所述警报消息图中的节点，每个节点均表示一个单独的警报消息，由步骤(1)获得的特征向量表示；E代表所述警报消息图中的边，边代表边两侧的警报消息的基本属性相似度超过0.8；为减少计算复杂度和内存消耗，用稀疏矩阵A来表示警报消息图：

其中，ξ(a_i,a_j)为两个警报消息a_i和a_j之间的相似度函数，基本属性相似度通过相似度函数ξ(a_i,a_j)进行判断，如果两个警报消息a_i和a_j之间的基本属性相似度超过了阈值0.8，则两个警报消息a_i和a_j之间创建一条边，A_ij的值为1，否则为0。相似度函数ξ(a_i,a_j)表示为：

n为警报消息中基本属性的个数，w^k为第k个基本属性的权重，

表示两个警报消息在第k个基本属性的相似度，当警报消息的基本属性为总的数据报长度、TTL、IP包长度、警报类型时，有：

其中，当两个警报消息的第k个基本属性相等时，

的值为1，否则为0。

而对于IP地址和端口时，由于网络流量通常是双向流，使得源IP地址和目的IP地址是相对的概念。同理，源端口和目的端口也是相对的。为此，本发明另外定义了两个元组(src,dst)和(srcport,dstport)，分别表示IP地址元组和端口元组。因此，设置IP地址元组(src,dst)，如果两个警报消息中的IP地址元组相同，或者相反，则两个警报消息关于IP地址基本属性的相似度

的值为1，否则为0。当警报消息的基本属性为端口时，设置端口元组(srcport,dstport)，如果两个警报消息的端口元组相同或相反，则两个警报消息关于端口基本属性的相似度

的值为1，否则为0。

通过研究发现，并非所有的基本属性在识别攻击上具有相同的权重。其中，属性IP包长度(iplen)、总的数据报长度(dgmlen)、IP地址和端口具有更明显的区分作用，因此，这些基本属性分配到更高的权重0.2，TTL、警报类型的权重为0.025。

(3)将步骤(1)编码的特征向量和步骤(2)构建的警报消息图同时输入到图卷积神经网络，训练图卷积神经网络，通过交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时，完成对图卷积神经网络的训练，将警报消息的分类建模成图卷积神经网络中的节点分类问题。通过堆叠多个图卷积层，每个图中的节点(alert)可以汇聚其他邻接点的信息。本发明将警报消息和警报消息图G_ag输入到两层的图卷积神经网络中，每个图卷积层可以看做一个非线性函数：

其中，H⁽⁰⁾＝，X包含了节点的特征信息，W⁽⁰⁾和b⁽⁰⁾分别为权重和偏移量参数，δ(·)为非线性激励函数，本发明中采用ReLU函数。

为规范化对称邻接矩阵，可以通过下式计算所得：

其中，D为图的度矩阵，矩阵

考虑了单位矩阵I。如果聚集了多个卷积层，可以汇聚邻接点的信息：

其中，l代表了第l层，W^(l)和b^(l)分别为第l层的权重和偏移量参数。

具体包括如下子步骤：

(3.1)本发明将构建好的警报消息图输入二层的图卷积神经网络，信息在经历两个图卷积层后输入到一个softmax分类器，得到：

其中，Z为softmax分类器的输出。通过两个图卷积层的堆叠，可以发现警报消息图中的警报消息之间的隐含关系，从而发掘不同的攻击场景。

(3.2)softmax的输出代表了概率分布，本发明采用交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时，完成对图卷积神经网络的训练；考虑到网络攻击的多样性，所述交叉熵损失函数分别计算每个类别单独的损失，然后求和得出总的损失：

其中，p_i代表了攻击类别i的预测概率，q_i为该类别的标签，J为攻击类别的总数。所有的参数采用Adam优化器进行优化。

本发明将警报消息的关联建模成警报消息图上的节点分类问题，通过堆叠多个图卷积层，使得每个警报消息能汇聚警报消息图中邻接点的信息。传统的机器学习算法只考虑了每个警报消息的特征，相比之下，本发明对于警报消息的分类具有更高的准确率、低误报率。

Claims

1.一种基于图卷积网络的入侵警报消息关联方法，其特征在于，具体包括以下步骤：

(2)根据步骤(1)收集的警报消息构建警报消息图G_ag＝(V,E)，其中，V代表所述警报消息图中的节点，每个节点均表示一个单独的警报消息，由步骤(1)获得的特征向量表示；E代表所述警报消息图中的边，边代表边两侧的警报消息的基本属性相似度超过0.8；(3)将步骤(1)编码的特征向量和步骤(2)构建的警报消息图同时输入到图卷积神经网络，训练图卷积神经网络，通过交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时，完成对图卷积神经网络的训练；

2.根据权利要求1所述基于图卷积网络的入侵警报消息关联方法，其特征在于，当步骤(2)中警报消息的基本属性相似度通过相似度函数ξ(a_i,a_j)进行判断：