CN113821793A

CN113821793A - 一种基于图卷积神经网络的多阶段攻击场景构建方法及系统

Info

Publication number: CN113821793A
Application number: CN202110992620.8A
Authority: CN
Inventors: 刘静; 吕宏硕; 赖英旭; 毛北逢; 王一鹏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-12-21
Anticipated expiration: 2041-08-27
Also published as: CN113821793B

Abstract

本发明公开了一种基于图卷积神经网络的多步攻击检测和场景构建方法，从网络流量中匹配IDS警报对应的可疑攻击流。利用匹配到的可疑攻击流提取特征并计算流之间的相似度用于构建相似关系矩阵，将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图。利用图卷积神经网络对步骤2构建的可疑流图进行半监督分类，将可疑流划分为不同攻击阶段。并对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，得到完整攻击场景。本发明对比多个模型的检测效果。实验结果证明，本发明可以提高精度的同时降低误报的出现。还可以准确划分攻击阶段效果并可以构建完整多步攻击场景，方便安全管理员对于检测信息的直接利用。

Description

一种基于图卷积神经网络的多阶段攻击场景构建方法及系统

技术领域

本发明属于网络信息安全技术领域，涉及攻击检测技术及攻击场景构建技术，特别涉及一种基于图卷积神经网络的多步攻击场景构建方法及系统。

背景技术

自从互联网诞生以来，网络攻击一直威胁着用户和组织。伴随着信息社会的高速发展，计算机网络技术在人们的生活中快速普及，逐渐成为人们生活的必需品。在这种发展态势下，网络攻击也变得越来越复杂。现在，攻击者往往需要执行多个攻击阶段来达到他们的最终目的，每个攻击阶段又包含多个攻击步骤，不同步骤可能会间隔很长时间，但具有相关性。这种一个或几个攻击者针对一个特定目标所采取的攻击阶段的集合被称为多阶段攻击。攻击者将攻击分解为多个阶段，一方面由于现在的网络具有复杂的网络拓扑结构和不同的安全层，仅凭单步完成入侵十分困难，另一方面更多的攻击阶段意味着攻击更难以被检测，因为它们的多阶段性质阻碍了入侵检测，不仅要检测出所有阶段的攻击，还要将不同阶段的攻击关联成完整攻击场景。所以一旦多阶段攻击发生，造成的危害会更大。

在传统的检测方法中，警报关联分析和攻击图分析等是常用的解决思路。警报关联分析使用基于相似性的技术对警报进行分类，因为具有相似属性的警报更有可能出现在同一个阶段，但是只依靠警报的属性很难学习到不同攻击阶段之间的关联关系，并且难以检测未知攻击。如果已知系统的脆弱性或攻击之间的因果关系建立攻击图，可以很容易的检测出攻击场景，然而这需要大量的专家知识，同时会有大量的误报出现，这会影响构建攻击场景的准确性。

图卷积神经网络(GCN)是一种深度神经网络模型，在图上有很好的效果并已经在多领域上应用，如社区检测等。它在对图中节点进行学习的同时考虑了和相邻节点的关系，多步攻击既要检测出所有的攻击步骤，还要将不同的攻击步骤关联，这与GCN的特点非常符合。因此，本发明摒弃了传统的机器学习方法，选择使用图卷积神经网络来检测多阶段攻击。从网络流量中匹配IDS警报对应的异常流，并提取流的基本特征。特别的，本发明提取异常流的原始数据构建相似度矩阵，增加了信息量便于更好的学习不同异常流之间关联关系，取代了大量专家知识的参与。之后，使用GCN将异常流分类为不同的攻击阶段。对于不同阶段，本发明提出了高质量攻击子图来挖掘攻击场景，有效的去除了误报。最后，关联所有的攻击子图构建完整的多阶段攻击场景。

发明内容

本发明所要解决的技术问题是提供一种基于图卷积神经网络的多阶段攻击场景构建方法及系统，用于解决传统网络下，检测存在于网络中的多步攻击行为，并还原完整攻击场景，并降低攻击者继续利用中间跳板等持续对网络造成损失的问题。

本发明解决上述技术问题的技术方案如下：一种基于图卷积神经网络的多阶段攻击场景构建方法，包括：

步骤1：从网络流量中匹配IDS警报对应的可疑攻击流。

步骤2：利用步骤1匹配到的可疑攻击流提取特征并计算流之间的相似度用于构建相似关系矩阵，将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图。

步骤3：利用图卷积神经网络对步骤2构建的可疑流图进行半监督分类，将可疑流划分为不同攻击阶段。并对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，得到完整攻击场景。

进一步，所述步骤1中从网络流量中匹配IDS警报对应的可疑攻击流的过程具体包括：

步骤11，将网络数据包聚合为单向流；

步骤12，根据IDS警报信息匹配网络流；

步骤13，将匹配到的网络流标记为可疑流。

进一步，所述步骤2中利用步骤1匹配到的可疑攻击流提取特征并计算流之间的相似度用于构建相似关系矩阵，将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图的过程具体包括：

步骤21，提取可疑流的原始数据；

步骤22，计算流之间的相似度；

步骤23，提取可疑流的特征；

步骤24，判断相似度是否大于阈值；

步骤25，构建流相似度矩阵；

步骤26，利用流特征和相似度矩阵构建可疑流图。

进一步，所述步骤3中利用图卷积神经网络对步骤2构建的可疑流图进行半监督分类，将可疑流划分为不同攻击阶段。并对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，得到完整攻击场景具体包括：

步骤31，提取可疑流图信息；

步骤32，判断是否已有攻击关联模型；

步骤33，如果此时没有攻击关联模型，提供少量标签训练图卷积神经网络模型；

步骤34，利用模型对可疑流进行关联并划分阶段，之后构建阶段攻击场景；

步骤35，对每个攻击场景提取高质量场景子图；

步骤36，构建完整攻击场景。

基于上述方法，本发明的技术方案还包括了一种基于图卷积神经网络的多阶段攻击场景构建系统，包括：

基于警报信息的可疑网络流量匹配和提取模块，其用于从网络流量中匹配IDS警报对应的可疑攻击流。

基于流特征和流相似度的可疑流图生成模块，其用于将匹配到的可疑攻击流提取特征并计算流之间的相似度用于构建相似关系矩阵，将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图。

基于图卷积神经网络的攻击关联和场景生成模块，其用图卷积神经网络可疑流图进行半监督分类，将可疑流关联为不同攻击阶段。并对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，构建完整攻击场景.

进一步，所述基于警报信息的可疑网络流量划分和匹配模块包括：

网络流划分模块，其用于将流量数据依据五元组信息划分为独立的单向流。

可疑流量匹配模块，其用于依据警报信息对可疑流进行标记。

进一步，基于流特征和流相似度的可疑流图生成模块包括：

流特征提取和流相似度计算模块，其用于从可疑流中提取流特征，并计算流之间的相似度用于构建相似关系矩阵。

可疑流图生成模块，其用于将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图。

进一步，所述基于图卷积神经网络的攻击关联和场景生成模块包括：

攻击关联模块，其用于通过图卷积神经网络可疑流图进行半监督分类，将可疑流关联为不同攻击阶段。

场景生成模块，其用于对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，构建完整攻击场景。

本发明的有益效果是：

一、本发明利用图卷积神经网络完成攻击阶段划分问题，仅依靠节点属性和节点之间的邻接关系学习攻击之间的关联关系，避免了人工定义关联规则所需的大量专家知识，实践证明，模型在准确率和召回率上的表现优于传统机器学习模型。

二、本发明设计原始流的相似度来表示不同流之间的关系，并构建相似关系矩阵，通过增加信息量的方式更好得学习不同攻击步骤之间的关联关系，实践证明从流相似度中能较好的学习攻击之间的关联关系。

三、本发明设计了高质量场景子图来提取攻击场景，通过动态阈值的方法去除每个场景内的误报，并有效提取了攻击步骤。除此之外，输出完整攻击场景方便安全管理员对于检测信息的直接利用。

附图说明

图1为本发明所述一种基于图卷积神经网络的多阶段攻击场景构建方法的流程示意图；

图2为本发明实施例一中利用IDS警报信息从原始流量中匹配可疑攻击流的流程示意图；

图3为本发明实施例一中利用可疑流图对可疑流的信息进行挖掘的流程示意图；

图4为本发明实施例一中步骤26中流特征的具体含义；

图5为本发明实施例一中利用利用图卷积神经网络进行攻击关联并构建完整攻击场景的流程示意图；

图6为本发明实施例二中图卷积神经网络的训练效果图；

图7为本发明实施例二中与其他机器学习效果对比的实验结果图；

图8为本发明实施例二中对攻击阶段3提取高质量场景子图的实验结果图；

图9为本发明实施例二中所构建的完整攻击场景的实验结果图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只是用于解释本发明，而并非用于限定本发明的范围。

实施例一

如图1所示，实施例一是一种基于图卷积神经网络的多阶段攻击场景构建方法，该方法由三个步骤构成：利用IDS警报信息从原始流量中匹配可疑攻击流，利用可疑流图对可疑流的信息进行挖掘，以及利用图卷积神经网络进行攻击关联并构建完整攻击场景。具体内容描述如下：

步骤1：从网络流量中匹配IDS警报对应的可疑攻击流。

步骤3：利用图卷积神经网络对步骤2构建的可疑流图进行半监督分类，将可疑流划分为不同攻击阶段。对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，得到完整攻击场景。

如图2所示，上述步骤1中从网络流量中匹配IDS警报对应的可疑攻击流的具体内容如下所述：

步骤11，将网络数据包聚合为单向流：在该过程中，将属于同一条流的全部数据包聚合。聚合依据网络流量数据包的五元组信息(源IP地址、目的IP地址、协议号、源端口、目的端口)，如果两个数据包拥有相同的五元组信息，那么就认为它们属于同一条流。最终将属于同一条流的全部数据包按照顺序进行排列，构成完整流。

步骤12，将流中的数据包与IDS警报信息对比：IDS警报是入侵检测系统对异常流量数据包发出的警报信息，为了能够去除不包含异常数据包的正常流，需要对流中的数据包与IDS警报信息对比，通过时间戳和五元组信息确定异常数据包，最终得到包含异常数据包的异常流。

步骤13，将匹配到的网络流标记为可疑流：对于获得的异常流，还需要进行标记。标记的内容为IDS警报信息的给出了攻击信息。

如图3所示，上述步骤2中利用可疑攻击流提取特征并计算流之间的相似度用于构建相似关系矩阵，将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图的具体内容如下所述：

步骤21，提取可疑流的原始数据：流的原始数据中包含了攻击者的全部攻击信息，使用流的原始数据避免了人工提取特征造成的信息损耗。在此过程中，对每个流截取不大于数量q的数据包，为了减少计算冗余，对每个数据包，提取除mac地址以外的原始数据流，因为相同网络环境中有大量的包具有相同的mac地址，对于计算不同流之间的相似度帮助不大，之后将提取的数据按照顺序依次拼接。对于超长数据，如果单个流的数据包过于多，那么将数据流进行拆分处理，拆分成多个组。

步骤22，计算流之间的相似度：通过步骤22提取的原始数据计算流之间的相似度。对于从两条不同流f_i,f_j，分别提取了它们的原始数据S_i和S_j，本发明由S_i，S_i的编辑距离计算他们之间的相似度，并用sim(f_i,f_j)表示：

其中len(S_i)，len(S_j)分别表示S_i，S_i的长度，m是S_i，S_j相匹配字符数，但是这些匹配的字符是不考虑顺序的，需要进行换位操作才能让它们拥有相同的顺序，t表示换位的次数，对分别来自S_i，S_j的字符，当他们的距离小于d，被认为是相匹配的。d可以用下面的公式计算：

步骤23，提取可疑流的特征：对于可疑流f_i，提取了一组特征

图4中解释了它们的含义。在特征类型方面，除了src，dst以外的特征都是数字类型的特征，src和dst是字符型特征。为了将特征属性统一，将src和dst分别编码为四位的数字特征。同时，每个特征都有不同的取值范围并且有的差异很大，会导致模型难以学习到最优解，因此本发明还对所有特征进行了归一化处理。

步骤24，判断相似度是否大于阈值：为了得到关联程度较高的流，通过设置阈值去除相似度低的流。具体的做法是，判断当前两个流的相似度是否大于阈值，如果大于阈值，就存储这对流f_i,f_j的索引编号(i,j)到列表F中，否则继续选取流，通过步骤23计算流之间的相似度。

步骤25，构建流相似度矩阵：根据步骤24中得到流的索引编号建立矩阵。首先建立一个p×p的全0矩阵，p为步骤21中流的数量，对于流f_i,f_j，如果步骤24的列表F中存在元素(i,j)，则修改矩阵的[i,j]位置的值为1。

步骤26，利用流特征和相似度矩阵构建可疑流图：可疑流图为一个无向图，用G_f＝(V,E)表示，其中V为节点E为边，包含全部可疑流的信息。图中的一个顶点v_i∈V代表了一条可疑流f_i，用流的特征当作节点属性，节点属性可以表示为

之后将将节点属性建模为向量

其中V为节点，M为特征向量的维数，最后构建包含N维特征的特征矩阵

边e(f_i,f_j)∈E依赖于两条不同的流f_i,f_j的相似度，可直接由步骤4构建的相似度矩阵转化。为了方便存储，用稀疏邻接矩阵

来表示图。

如图4所示，上述步骤3中利用利用图卷积神经网络进行攻击关联并构建完整攻击场景的具体内容如下所述：

步骤31，提取可疑流图信息：从阶段2的到的可疑流图中提取图的信息(X,A)，X为节点的特征矩阵，A为稀疏邻接矩阵。。

步骤32，判断是否有模型：判断当前是否已有攻击细节聚类模型，如果没有则先使用步骤1中得到的可疑流图对图卷积神经网络对进行训练，否则利用已有图卷积模型对可疑流图进行节点分类。

步骤33，提供少量标签训练图卷积模型：为了得到模型，根据步骤13中得到的各个可疑流的标签，对步骤31得到的可疑流图进行半监督训练，在这里半监督训练的含义是：只需要给定少量节点的阶段标签，图卷积神经网络就可以根据节点的特征和节点之间的邻接关系对全部节点实现阶段划分。

步骤34构建阶段攻击场景：为了反映网络安全状态，需要定义了一个加权有向图来表示某一个阶段的攻击场景，其中V是网络中的主机节点的集合，节点通过主机的IP地址区分，E是主机间的通信的集合，每条边的权值是两主机间流的数量，又步骤33的结果统计得到，V和E都不包含重复的元素，SS表示某一攻击阶段。

步骤35，提取高质量场景子图：为了更好的关联不同攻击场景，需要提高攻击场景的准确性，准确度越高，意味着攻击场景越能代表真正的攻击动作。在某个攻击场景G_S中，有一些权值占比很低的有向边，由于步骤34中通过两主机间流的数量计算有向边的权重，这些的有向边代表了不同节点间很少量的通信，更有可能是误报，会影响场景关联的准确性，因此通过设置阈值来消除它们。对于不同的场景，有向边的数量和权值是不同的，所以阈值也应该设置不同的。因此定义阈值为

其中ω(G_S)计算图G_S中全部有向边权重的最大值，并且计算结果取决于不同场景，

是人为定义的一个确定的值。通过与阈值比较，去除权值低于阈值的有向边并得到了场景的高质量场景子图。

步骤36，构建完整攻击场景：为了展示全部的攻击过程，将所有阶段的高质量场景子图按照时间顺序依次连接成一个新的加权有向图，该有向图两个节点之间可以存在多条有向边，但相同阶段的有向边只能存在一条，最终得到完整的攻击场景。

基于上述基于图卷积神经网络的多阶段攻击场景构建方法，本发明的技术方案还包括了一种基于图卷积神经网络的多阶段攻击场景构建系统，包括：

基于警报信息的可疑网络流量划分和匹配模块，其用于从网络流量中匹配IDS警报对应的可疑攻击流。

基于图卷积神经网络的攻击关联和场景生成模块，其用图卷积神经网络可疑流图进行半监督分类，将可疑流关联为不同攻击阶段。并对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，构建完整攻击场景。

所描述基于警报信息的可疑网络流量划分和匹配模块包括：网络流划分模块，其用于将流量数据依据五元组信息划分为独立的单向流；可疑流量匹配模块，其用于依据警报信息对可疑流进行标记。

所描述基于流特征和流相似度的可疑流图生成模块包括：流特征提取和流相似度计算模块，其用于从可疑流中提取流特征，并计算流之间的相似度用于构建相似关系矩阵。可疑流图生成模块，其用于将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图。

所描述基于图卷积神经网络的攻击关联和场景生成模块包括：攻击关联模块，其用于通过图卷积神经网络对可疑流图进行半监督分类，将可疑流划分为不同攻击阶段。场景生成模块，其用于对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，构建完整攻击场景。

实施例二

实施例二是利用DARPA2000数据集的LLDOS1.0来对本发明提出的方法进行验证。DARPA2000数据集是该数据集是典型的多阶段攻击数据集，包括两个多阶段攻击场景。本发明使用的LLDOS1.0场景是一个完整的分布式拒绝服务(DDoS)攻击，攻击分为五个阶段：I:攻击者扫描网络以确定哪些主机正在运行II:攻击者使用探测主机上运行的Sadmind守护进程。III:攻击者利用Sadmind远程到根漏洞来入侵脆弱的机器，在这些主机上成功或失败。Ⅳ:攻击者在三台主机上安装DDoS程序。Ⅴ:攻击者发起DDoS攻击。

在评估方面，利用以下几个精度对模型的效果进行评估：攻击准确率(Attack-accuracy)，精确率(Precision)，召回率(Recall)和F1-Score。具体定义如下：

其中attack-labels是除了误报类别以外所有攻击类别的标签。Precision_i,Recall_i是第i类的精度和召回，可通过以下公式计算：

TP为第i类中阳性样本且被模型归类为阳性的样本集合。FP为第i类中阴性样本但被模型归类为阳性的样本集合。TN为第i类中阴性样本且被模型归类为阴性的样本集合。FN为第i类中阳性样品但被模型归类为阴性的样本集合。精确率与召回率分别描述系统性能的两个方面，单一使用准确率和召回率作为评价指标具有局限性，因此，本发明选用F-Measure指标将这两个指标进行综合考虑。

在实验中，首先使用Snort IDS，使用各种规则配置来处理原始网络数据包并生成警报，经过汇总后从数据集LLDOS1.0中获得了3427条警报。之后通过流匹配模块从原始流量中匹配到1377条可疑流。

将匹配到的可疑流进行流特征提取和流之间相似度计算，构建可疑流图来提取可疑流包含的信息。为了能够最大化提取出可疑流之程度高的关联关系，并去除不必要的低程度的关联关系，本发明设置了阈值，去除流之间关联度低于阈值的流，并将剩余的流关系用相似度矩阵表示。为了简便运算，离散化了具体的相似度值，也就是说，相似度矩阵的每一个位置只有两种取值，值为0意味着该位置代表的两条可疑流不存在相似关系，值为0意味着该位置代表的两条可疑流存在相似关系。在实验中设置阈值μ＝0.73，获得了拥有9939条边的邻接矩阵。

为了验证本发明的方法对相同阶段警报的分类效果，本实验利用GCN进行训练，按照1：1：2的比例划分训练集，验证集和测试集，训练效果如图6所示，200epoch后训练准确率达到96％，400epoch后保持平均值97％。相比之下，400epoch后的验证精度较低，为92％。

测试集的评估结果如图7所示，将本发明的方法与其他机器学习模型用测试集进行测试，并用攻击准确率(Attack-accuracy)，精确率(Precision)，召回率(Recall)和F1-Score四个指标进行评估。SVM在精确率指标上优于本发明的模型，达到了91.52％的精确率，但却在召回率上表现最差，仅有64.02％。综合来看，本发明的方法在F1-score和Attack-accuracy上有着最优秀的表现，分别达到了88.45％和89.09％，远优于其他机器学习模型，本发明的模型表现良好的原因一方面是由于GCN可以在考虑节点属性的基础上也考虑邻居节点，有利于节点分类，另一方面，设计的邻接矩阵构造方法增加了信息量，能很好的表示相同阶段可疑流之间的关系。

待检测模型与解释模型测试完成后，本发明利用模型对多步攻击数据集进行了检测，对于不同的攻击阶段，构建阶段场景图，并提取对对应的高质量场景子图。图8展示了阶段3提取高质量场景子图的过程，设置

对于阶段3的场景图G₃，将所有权值高于0.35·ω(G₃)的边定义为高权值边，其余的定义为低权值边，将所有权值低的边筛去得到对应的

可以看到攻击者在阶段3尝试对六台主机进行漏洞利用。

最后用各阶段的高质量场景子图构建完整攻击场景，如图9所示。为了方便展示，用不同的颜色表示不同的攻击阶段，并省略了一些节点。在图9中可以看到，攻击者(202.77.16.213)在阶段1和阶段2扫描了三个网段(172.16.115.0/24,172.16.114.0/24,172.16.113.0/24,172.16.112.0/24)的活动主机，并探查在它们上运行的进程。之后攻击者在阶段3尝试利用进程的漏洞尝试，并成功入侵到三台主机(172.16.112.10、172.16.112.50和172.16.115.20)。最后，在阶段4和阶段五，攻击者在三台主机上安装DDoS攻击软件，伪造随机IP对最终目标(131.84.1.31)发动攻击。以上实验证明，本发明的模型可以构建完整攻击场景，有效检测多步攻击。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图卷积神经网络的多阶段攻击场景构建方法，其特征在于，包括：

步骤1：从网络流量中匹配IDS警报对应的可疑流；

步骤2：利用步骤1匹配到的可疑流提取特征并计算流之间的相似度用于构建相似关系矩阵，将流的特征转换为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图；

步骤3：利用图卷积神经网络对步骤2构建的可疑流图进行半监督分类，将可疑流划分为不同的攻击阶段；并对每个攻击阶段建立带权重的阶段通信图，从阶段通信图中提取高质量场景子图，最终构建完整攻击场景。

2.根据权利要求1所述的一种基于图卷积神经网络的多阶段攻击场景构建方法，其特征在于，所述步骤2中提取可疑流的特征并计算流之间的相似度用于构建相似关系矩阵的过程具体包括：

步骤21，提取可疑流的原始数据，具体操作为：对每个可疑流截取数量不大于q的数据包，对于超长数据，如果单个流的数据包数量大于2q，那么将流进行拆分处理，拆分成多个组；为减少计算冗余，对每个数据包，提取除mac地址以外的原始数据流，之后将提取的数据按照顺序依次拼接；

步骤22，计算流之间的相似度，具体的操作为：通过步骤21提取的原始数据计算流之间的相似度；对于两条不同流f_i,f_j，本发明用sim(f_i,f_j)计算它们之间的相似度；

对不同类型的数据编码为字符型，并进行归一化处理。

3.根据权利要求3所述的方法，其特征在于，步骤22所述的利用sim(f_i,f_j)计算流之间的相似度的具体操作方法是：对于两条不同流f_i,f_j，分别提取了它们的原始数据S_i和S_j，用sim(f_i,f_j)计算f_i,f_j的相似度：

其中len(S_i)，len(S_j)分别表示S_i，S_i的长度，m是S_i，S_j相匹配字符数，但是这些匹配的字符是不考虑顺序的，需要进行换位操作才能让它们拥有相同的顺序，t表示换位的次数，对分别来自S_i，S_j的字符，当它们的位置距离小于d，被认为是相匹配的；d用下面的公式计算：

4.根据权利要求1所述的一种基于图卷积神经网络的多阶段攻击场景构建方法，其特征在于，所述步骤2中构建相似关系矩阵，将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图的过程具体包括：

步骤24，判断相似度是否大于阈值，具体操作为：通过设置阈值去除相似度低的流，首先判断当前两个流的相似度是否大于阈值，如果大于阈值，就存储这对流f_i,f_j的索引编号(i,j)到列表F中，否则继续选取流，并通过步骤2-2计算新选取的流之间的相似度；

步骤25，构建流相似度矩阵，具体操作为：根据步骤24中得到流的索引编号建立矩阵；首先建立一个p×p的全0矩阵，p为步骤21提取流的数量，对于流f_i,f_j，如果步骤24的列表F中存在元素(i,j)，则修改矩阵的[i,j]位置的值为1；

步骤26，利用流特征和相似度矩阵构建可疑流图，具体操作为：定义可疑流图为一个无向图，用G_f＝(V,E)表示，其中V为节点E为边，包含全部可疑流的信息；图中的一个顶点v_i∈V代表了一条可疑流f_i，用流的特征当作节点属性，节点属性可以表示为

之后将将节点属性建模为向量

边e(f_i,f_j)∈E依赖于两条不同的流f_i,f_j的相似度，可直接由步骤25构建的相似度矩阵转化；为了方便存储，用稀疏邻接矩阵

来表示图。

5.根据权利要求1所述的一种基于图卷积神经网络的多阶段攻击场景构建方法，其特征在于，所述步骤3中对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，得到完整攻击场景的过程具体包括：

步骤34构建阶段攻击场景，具体操作为：定义了一个加权有向图来表示某一个阶段的攻击场景，反映网络安全状态，其中V是网络中的主机节点的集合，节点通过主机的IP地址区分，E是主机间的通信的集合，每条边的权值是两主机间流的数量，V和E都不包含重复的元素，S表示某一攻击阶段；

步骤35，提取高质量场景子图，具体操作为：在某个攻击场景G_S中，有一些权值占比很低的有向边，这些的有向边代表了不同节点间存在少量的通信，更有可能是误报，通过设置阈值来消除它们；对于不同的场景，有向边的数量和权值不同，阈值也应该设置不同的；定义阈值为

其中ω(G_S)计算图G_S中有向边权重的最大值，取决于不同场景，

是人为定义的一个确定的值；通过与阈值比较，去除权值低于阈值的有向边，得到了场景的高质量场景子图

步骤36，构建完整攻击场景，具体操作为：将所有阶段的高质量场景子图按照时间顺序依次连接成一个新的加权有向图来展示全部的攻击场景，该有向图两个节点之间可以存在多条有向边，但相同阶段的有向边只能存在一条，最终得到完整的攻击场景。

6.一种基于图卷积神经网络的多阶段攻击场景构建方法，其特征在于，包括：

基于警报信息的可疑网络流量划分和匹配模块，其用于从网络流量中匹配IDS警报对应的可疑攻击流；

基于流特征和流相似度的可疑流图生成模块，其用于将匹配到的可疑攻击流提取特征并计算流之间的相似度用于构建相似关系矩阵，将流的特征转化为节点属性，相似关系矩阵转换为邻接矩阵构建可疑流图；

基于图卷积神经网络的攻击关联和场景生成模块，其用图卷积神经网络可疑流图进行半监督分类，将可疑流关联为不同攻击阶段；并对每个攻击阶段建立带权重的阶段通信图，并从阶段通信图中提取高质量场景子图，构建完整攻击场景。

7.根据权利要求6所述的一种基于图卷积神经网络的多阶段攻击场景构建系统，其特征在于，所述基于警报信息的可疑网络流量划分和匹配模块包括：

网络流划分模块，其用于将流量数据划分为独立的单向流；

8.根据权利要求6所述的一种基于图卷积神经网络的多阶段攻击场景构建系统，其特征在于，所述基于流特征和流相似度的可疑流图生成模块包括：

流特征提取和流相似度计算模块，其用于从可疑流中提取流特征，并计算流之间的相似度用于构建相似关系矩阵；

9.根据权利要求6所述的一种基于图卷积神经网络的多阶段攻击场景构建系统，其特征在于，所述基于图卷积神经网络的攻击关联和场景生成模块包括：

攻击关联模块，其用于通过图卷积神经网络可疑流图进行半监督分类，将可疑流关联为不同攻击阶段；