CN116346457A

CN116346457A - 基于图卷积神经网络的攻击场景检测方法

Info

Publication number: CN116346457A
Application number: CN202310300400.3A
Authority: CN
Inventors: 刘彦伸; 郭银锋; 吴艳; 虞雁群
Original assignee: Zhejiang Yu'an Information Technology Co ltd
Current assignee: Zhejiang Yu'an Information Technology Co ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-27

Abstract

本发明涉及网络安全领域，尤其涉及一种基于图卷积神经网络的攻击场景检测方法。随着网络攻击的复杂化和多样化，网络攻击场景的检测变得极具挑战。通常情况下，管理员会在网络节点中部署监控设备，如：入侵检测系统。入侵检测系统会产生大量的警报消息，用于反映底层网络中可能存在的攻击行为，通过分析这些入侵警报消息可以发现相应的攻击场景。普遍的做法是采用警报消息关联的方式将相似的网络安全警报消息聚集在一起，从而发现相似的攻击场景。这种警报消息的关联为网络管理人员提供了一种抽象的、更高级别的网络视图。本专利提出基于图卷积神经网络的攻击场景检测方法，用于发现网络警报消息中的攻击场景，利用图卷积神经网络，将攻击场景的检测转化为警报消息图上节点的多分类问题，实现了较为准确的检测效果。

Description

基于图卷积神经网络的攻击场景检测方法

技术领域

本发明属于网络安全领域，尤其涉及一种基于图卷积神经网络的攻击场景检测方法。

背景技术

随着网络攻击的复杂化和多样化，网络攻击场景的检测变得极具挑战。通常情况下，管理员会在网络节点中部署监控设备，如：入侵检测系统。入侵检测系统会产生大量的警报消息，用于反映底层网络中可能存在的攻击行为，通过分析这些入侵警报消息可以发现相应的攻击场景。普遍的做法是采用警报消息关联的方式将相似的网络安全警报消息聚集在一起，从而发现相似的攻击场景。这种警报消息的关联为网络管理人员提供了一种抽象的、更高级别的网络视图。

为此，本发明提出基于图卷积神经网络的攻击场景检测方法，用于发现网络警报消息中的攻击场景。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于图卷积神经网络的攻击场景检测技术。

这种网络攻击场景检测技术，包括以下步骤：

S1、由入侵检测系统产生的可能的潜在攻击信号定义为警报信息，根据分类属性和数值属性对警报信息编码；

S102、确定警报消息的分类属性和数值属性，采用离散化的思想将数值属性映射到离散类别；

S104、使用独热编码对警报消息混合数据编码为特征向量；

S2、创建警报消息图，图顶点为警报信息图，图的边都由警报消息之间的相似度决定，根据警报消息相似度计算邻接矩阵；

S202、根据警报消息相似度计算邻接矩阵，对图的邻接矩阵采用稀疏矩阵存储；

S204、对单个属性，乘以对应预设的属性权重得到警报信息的相似度，根据预设属性权重调整邻接矩阵数值；

S3、设计图卷积神经网络结构，将到检测的警报信息图输出入图神经网络分类，实现警报信息的攻击场景检测；

S302、设计图卷积神经网络从邻接点学习图节点特征；

S304、利用图拉普拉斯矩阵的特征分解来实现信息传播，从图的少数节点传播生成合成节点；

S306、使用边生成器生成新的节点集连接边；

S308、将扩展警报信息图输入图卷积神经网络进行分类训练，通过交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时完成对图卷积神经网络的训练进一步的，S102中所述的警报信息编码方法，包括：

确定警报消息的分类属性依据。每个警报消息都包含多个属性，分为分类属性和数值属性。常见的分类属性有源/目的IP地址、源/目的端口、协议类型等，数值属性有TTL、IP包长度等。现有文献在构建图时仅仅考虑部分分类属性，而本方法提取了包含八个分类属性和三个数值属性的混合数据，具体包含：产生警报消息的部分,版本号，警报消息类型,源IP地址,源端口号，目的IP地址，目的端口号，包存活时间，警报消息ID，数据报长度，IP包长度。

进一步的，S104中所述的混合数据编码方法，包括：

使用独热编码对警报消息混合数据编码。考虑到警报消息的数值属性具有偏斜分布，没有采用Max-min归一化这种常见的数值属性处理方法，而是采用离散化的思想将数值映射到离散类别(箱)。根据数据分布的区间将连续属性分为几类，采用独热编码将混合数据编码成一个特征向量x_v∈R^M。其中，v是节点，M是特征向量的维度。

进一步的，S202中所述的根据警报消息相似度计算邻接矩阵方法，包括：

根据警报消息相似度计算邻接矩阵。图的边都由警报消息之间的相似度决定，为了减少计算复杂度和内存消耗，图的邻接矩阵采用稀疏矩阵存储。当两条警报消息之间的相似度超过阈值时，则两个警报消息之间存在一条边。给定两条不同的警报消息a_i和a_j，相似度可以根据下式计算而得：

其中，n为警报消息中用于计算相似度的基本属性的个数，

表示两个警报消息在第k个基本属性的相似度，w^k为第k个基本属性的权重。不同属性的相似度计算方法会有所区别。

进一步的，S204中所述的根据属性权重调整邻接矩阵方法，包括：

对于单个的属性，需要乘以对应属性的权重才能求得整条警报消息的相似度。在警报消息图的创建过程中，不同属性的权重分配决定了图上边的创建。并非所有的基本属性在识别攻击上具有相同的重要性。其中，属性IP包长度(iplen)、总的数据报长度(dgmlen)、IP地址和端口具有更明显的区分作用，因此，这些更具有区分能力的基本属性需要分配到更高的权重。因此引入了一条具有不同值的权重向量用于计算不同警报消息的相似度。

进一步的，S302中所述的图节点特征提取方法，包括：

使用GraphSage作为主干模型结构，因为它可以有效地学习各种类型的局部拓扑，并能很好地推广到新的结构中。据观察，由于过平滑和过拟合，过深的gnn往往会导致次优性能。因此，只采用一个GraphSage块作为特征提取器。

F表示输入节点属性矩阵，F[v,:]表示节点v的属性。A[:,v]为邻接矩阵中的第v列，

为节点v的嵌入，W¹为权值参数，σ为ReLU激活函数。

进一步的，S304中所述的合成节点的生成方法，包括：

试图从少数类中生成新样本的期望表示。在这项工作中，为了进行过采样，我们采用了广泛使用的打击算法，它通过改变重复到插值来增强普通的过采样，对目标少数类的样本与嵌入空间中属于同一类的最近邻样本进行插值。

设

为标记的少数节点，标记为Y_u。第一步是找到与/>

同一类中最近的标记节点，即，

nn（v)是指同一类中v的最近邻，使用嵌入空间中的欧氏距离进行测量。对于最近邻，我们可以生成合成节点为

其中，δ为一个随机变量，在[0,1]范围内呈均匀分布。

进一步的，S306中所述的生成节点连接边方法，包括：

引入了一个边生成器来建模节点间的边的存在性。由于GNN需要学习如何同时提取和传播特征，该边缘生成器可以为这些合成的样本提供关系信息，从而促进基于GNN的分类器的训练。采用了加权的方式：

E_{v,u}为节点v和u之间的预测关系信息，S为捕获节点间相互作用的参数矩阵。

进一步的，S308中所述的将扩展警报信息图输入GNN分类器方法，包括：

根据生成的合成节点和连接边获取扩展报警信息图，采用了另一个图形块，在～图上附加一个线性层进行节点分类：

其中H²为第2个图示块的节点表示矩阵，W²和W^c为权值参数。P_v是节点v在类标签上的概率分布。

本专利提出了一种名为Alert-GCN的网络框架，用于发现网络警报消息中的攻击场景，利用图卷积神经网络，将攻击场景的检测转化为警报消息图上节点的多分类问题，实现了较为准确的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明实施例中的全流程示意图；

图2为本发明实施例中对警报消息编码流程图；

图3为本发明实施例中创建警报消息图流程图；

图4为本发明实施例中使用图神经网络训练流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于图卷积神经网络的攻击场景检测方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于图卷积神经网络的攻击场景检测方法的具体方案。

本实施例中的提出的一种基于图卷积神经网络的攻击场景检测方法，用于发现网络警报消息中的攻击场景，利用图卷积神经网络，将攻击场景的检测转化为警报消息图上节点的多分类问题，实现了较为准确的检测效果。

请参阅图1，其示出了本发明一个实施例提供的一种基于图卷积神经网络的攻击场景检测方法的步骤流程图，该方法包括以下步骤：

步骤S1，根据分类属性和数值属性对警报信息编码。

S102、确定警报消息的分类属性依据。每个警报消息都包含多个属性，分为分类属性和数值属性。常见的分类属性有源/目的IP地址、源/目的端口、协议类型等，数值属性有TTL、IP包长度等。现有文献在构建图时仅仅考虑部分分类属性，而本方法提取了包含八个分类属性和三个数值属性的混合数据，具体包含：产生警报消息的部分(sig generator),版本号(sig rev)，警报消息类型(msg),源IP地址(src),源端口号(srcport)，目的IP地址(dst)，目的端口号(dstport)，包存活时间(TTL)，警报消息ID号(id)，数据报长度(dgmlen)，IP包长度(iplen)。

S104、使用独热编码对警报消息混合数据编码。考虑到警报消息的数值属性具有偏斜分布，没有采用Max-min归一化这种常见的数值属性处理方法，而是采用离散化的思想将数值映射到离散类别(箱)。根据数据分布的区间将连续属性分为几类，采用独热编码将混合数据编码成一个特征向量x_v∈R^M。其中，v是节点，M是特征向量的维度。

步骤S2，创建警报消息图，根据警报消息相似度计算邻接矩阵。

S202、根据警报消息相似度计算邻接矩阵。图的边都由警报消息之间的相似度决定，为了减少计算复杂度和内存消耗，图的邻接矩阵采用稀疏矩阵存储。当两条警报消息之间的相似度超过阈值时，则两个警报消息之间存在一条边。给定两条不同的警报消息a_i和a_j，相似度可以根据下式计算而得：

其中，n为警报消息中用于计算相似度的基本属性的个数，

S204、对于单个的属性，需要乘以对应属性的权重才能求得整条警报消息的相似度。在警报消息图的创建过程中，不同属性的权重分配决定了图上边的创建。并非所有的基本属性在识别攻击上具有相同的重要性。其中，属性IP包长度(iplen)、总的数据报长度(dgmlen)、IP地址和端口具有更明显的区分作用，因此，这些更具有区分能力的基本属性需要分配到更高的权重。因此引入了一条具有不同值的权重向量用于计算不同警报消息的相似度。

步骤S3、将警报信息图输出入图神经网络分类训练。

S302、使用GraphSage作为主干模型结构，因为它可以有效地学习各种类型的局部拓扑，并能很好地推广到新的结构中。据观察，由于过平滑和过拟合，过深的gnn往往会导致次优性能。因此，只采用一个GraphSage块作为特征提取器。

为节点v的嵌入，W¹为权值参数，σ为ReLU激活函数。

S304、试图从少数类中生成新样本的期望表示。在这项工作中，为了进行过采样，我们采用了广泛使用的打击算法，它通过改变重复到插值来增强普通的过采样，对目标少数类的样本与嵌入空间中属于同一类的最近邻样本进行插值。

设

为标记的少数节点，标记为Y_u。第一步是找到与/>

同一类中最近的标记节点，即，

nn(v）是指同一类中v的最近邻，使用嵌入空间中的欧氏距离进行测量。对于最近邻，我们可以生成合成节点为

其中，δ为一个随机变量，在[0,1]范围内呈均匀分布。

S306、引入了一个边生成器来建模节点间的边的存在性。由于GNN需要学习如何同时提取和传播特征，该边缘生成器可以为这些合成的样本提供关系信息，从而促进基于GNN的分类器的训练。采用了加权的方式：

S308、根据生成的合成节点和连接边获取扩展报警信息图，采用了另一个图形块，在～图上附加一个线性层进行节点分类：

Claims

1.一种基于图卷积神经网络的攻击场景检测方法，其特征在于，该方法包括以下步骤：

S104、使用独热编码对警报消息混合数据编码为特征向量；

S302、设计图卷积神经网络从邻接点学习图节点特征；

S306、使用边生成器生成新的节点集连接边；

S308、将扩展警报信息图输入图卷积神经网络进行分类训练，通过交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时完成对图卷积神经网络的训练。

2.如权利要求1所述的一种基于图卷积神经网络的攻击场景检测方法，其特征在于，S1所述的警报消息的分类属性数据编码方法，包括：

对警报信息编码，确定警报消息的分类属性依据。每个警报消息都包含多个属性，分为分类属性和数值属性，而本专利提取了包含八个分类属性和三个数值属性的混合数据。使用独热编码对警报消息混合数据编码，采用离散化的思想将数值映射到离散类别。根据数据分布的区间将连续属性分为几类，采用独热编码将混合数据编码成一个特征向量。

3.如权利要求1所述的一种基于图卷积神经网络的攻击场景检测方法，其特征在于，S2中所述的警报信息图创建方法，包括：

创建警报消息图，根据警报消息相似度计算邻接矩阵。图的边都由警报消息之间的相似度决定，为了减少计算复杂度和内存消耗，图的邻接矩阵采用稀疏矩阵存储，根据属性权重调整邻接矩阵。对于单个的属性，需要乘以对应属性的权重才能求得整条警报消息的相似度。

4.如权利要求1所述的一种基于图卷积神经网络的攻击场景检测方法，其特征在于，S3所述的图神经网络模型训练方法，包括：

使用图神经网络训练，设置交叉熵损失函数。输出层采用了Softmax分类器，输出为不同攻击场景类别的概率分布。将警报消息图输入神经网络训练。把构建的警报消息图输入到图卷积神经网络进行训练，通过交叉熵损失函数将警报消息攻击类别的标签和预测概率值进行比较，当交叉熵损失函数收敛时，完成对图卷积神经网络的训练。