CN117176416B

CN117176416B - 一种基于图模型的攻击团伙发现方法和系统

Info

Publication number: CN117176416B
Application number: CN202311125726.3A
Authority: CN
Inventors: 戴方芳; 石悦; 杨刚; 董航; 杨朋; 辛冉
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2024-05-24
Anticipated expiration: 2043-09-01
Also published as: CN117176416A

Abstract

本发明提出一种基于图模型的攻击团伙发现方法和系统。其中，方法包括：收集原始数据，并将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集；将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图；利用多种图神经网络对所述IP网络连接图结构中的每个节点生成代表IP行为的IP隐向量；通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙；在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙。本发明具有很强的可靠性、泛化性和可落地性的特点，可为多级溯源提供数据依据。

Description

一种基于图模型的攻击团伙发现方法和系统

技术领域

本发明属于互联网领域，尤其涉及一种基于图模型的攻击团伙发现方法和系统。

背景技术

信息化的时代正在拉开序幕，网络空间的触角逐渐延展到我们生活的每一个角落。伴随着大数据、云计算、人工智能等新型信息技术的飞速发展，网络空间安全领域的一些难题得到解决。但是这些新技术也被所利用，目前网络攻击的软件越来越智能，发起网络攻击的难度也越来越小，网络攻击的隐蔽性、破坏性、针对性、复杂性的特点越来越明显，目前攻击者更加猖獗，使得网络运营与维护变得更加困难。

网络攻击溯源技术是在发现网络攻击的情况下，通过综合利用各种手段来追踪网络攻击者、定位攻击源，甚至发现网络攻击团伙，从而有针对性的减缓攻击或反制网络攻击。目前，网络空间的安全形势十分严峻，入侵者的攻击手段更加的复杂，躲避追踪溯源的手段也日益先进，匿名网络、跳板机等在网络攻击事件中被大量使用，给目前的网络攻击溯源工作带来了非常大的挑战。所以从原来的单一攻击者溯源到攻击团伙溯源显得尤为重要，攻击团伙溯源不仅仅能找到更多攻击者，还能在溯源中更进一步，找出多层级的攻击者。但现在的攻击溯源方法存在如下问题：

1)由于攻击时往往是多个攻击主机对目标主机发起攻击，所以存在多个攻击主机的情况，通常发现单个攻击者并不能实现完整溯源。

2)目前的溯源技术主要是利用一些检测攻击的手段，利用明确的攻击告警来定位并发现单个攻击主机。但由于攻击主机具有隐藏自己的能力，所以往往不能发现全部攻击者。

3)目前的溯源技术针对不同的网络攻击会有不同的溯源方法，很难在不同的攻击场景下公用，往往不具备通用性。

现有技术

方法一：利用网络空间威胁检测技术，例如通过态势感知平台告警、蜜罐平台的告警里面的攻击信息来直接获取到多个可疑攻击者，利用这种攻击发现技术来发现多个攻击者。

方法二：利用网络空间威胁检测技术，例如通过态势感知平台告警、蜜罐平台的告警等方式获取到攻击，从而直接发现可疑攻击者，通过对可疑攻击者进行各个维度的数据统计，利用统计数据的相似度或者针对可疑攻击者通过关联分析的技术发现攻击团伙。

现有技术缺陷

1)多为单一攻击者溯源；目前的攻击者溯源发现技术，多是利用威胁检测系统的告警来定位单一攻击者，很难发现攻击者团队，并且溯源攻击团伙用到的信息都是攻击者有意无意泄露的信息，线索质量难以满足追踪的预期。

2)技术单一，缺乏协同追踪；目前各类追踪溯源技术基本是单独使用，各自为战，缺少多溯源技术联合追踪框架构建，很难形成有效的网络安全攻击威胁防御与追踪溯源体系。

3)缺乏面向人工智能网络攻击追踪溯源；传统网络安全领域检测网络攻击主要依靠规则、模式匹配等方式，从流量数据、日志数据中检测符合一定规则和模式的数据。然而﹐随着网络安全数据量的飞速增长，基于规则、模式匹配的检测方式效果差﹐很难发现复杂的攻击威胁。

发明内容

为解决上述技术问题，本发明提出一种基于图模型的攻击团伙发现方法的技术方案，以解决上述技术问题。

本发明第一方面公开了一种基于图模型的攻击团伙发现方法，所述方法包括：

步骤S1、收集原始数据，并将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集；

步骤S2、将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图；

步骤S3、利用多种图神经网络对所述IP网络连接图结构中的每个节点生成代表IP行为的IP隐向量；

步骤S4、通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙；

步骤S5、在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙。

根据本发明第一方面的方法，在所述步骤S1中，所述原始数据是数据源和已知的直接攻击者，其中数据源只需要包含源IP和目的IP。

根据本发明第一方面的方法，在所述步骤S1中，所述收集原始数据，将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集的方法包括：

收集原始数据，不仅仅是Netflow格式，只要能记录IP之间的访问记录即可，生成原始数据集；

循环遍历处理原始数据集，抽取原始数据集中的源IP和目的IP，将原始数据集处理为源IP和目的IP对的数据集。

根据本发明第一方面的方法，在所述步骤S2中，所述将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图的方法包括：

通过对源IP和目的IP对的数据集进行连接方向和连接次数的统计，利用第三方库networkx来对数据构造图，进行可视化展示，生成IP网络连接图。

根据本发明第一方面的方法，在所述步骤S3中，利用图神经网络生成每个IP的隐向量，所述多种图神经网络包括：

Deep Walk、Node2Vec和Graph2Vec。利用三种图神经网络算法分别生成代表IP行为的隐向量。

根据本发明第一方面的方法，在所述步骤S4中，所述通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙的方法包括：

应用已知直接攻击者的IP隐向量分别与其他IP隐向量计算余弦相似度；

对计算得到的余弦相似度从高到低进行排序，每种图神经网络模型利用余弦相似度都会筛选相同数量的IP，得到一组可疑攻击团伙。

根据本发明第一方面的方法，在所述步骤S5中，所述在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙的方法包括：

所述多种图神经网络为三个，三个图神经网络会生成三个可疑攻击团伙，三个可疑攻击团伙里面会有重复的IP,利用多数投票的思想，将出现次数大于等于二次的筛选出来构成最终的攻击团伙。

本发明第二方面公开了一种基于图模型的攻击团伙发现系统，所述系统通过Kafka中间件实现与溯源系统后端的交互，能够独立部署为攻击团伙发现引擎，实现与溯源系统的解耦，同时支持多机器分布式部署；由于每个攻击团伙发现引擎跟溯源系统的前后端都充分解耦，基于Kafka这种分布式消息系统的模式，攻击团伙发现引擎能够根据机器资源实现横向扩展；所述系统包括：

第一处理模块，被配置为，收集原始数据，并将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集；

第二处理模块，被配置为，将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图；

第三处理模块，被配置为，利用多种图神经网络对所述IP网络连接图结构中的每个节点生成代表IP行为的IP隐向量；

第四处理模块，被配置为，通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙；

第五处理模块，被配置为，在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙。

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本公开第一方面中任一项的一种基于图模型的攻击团伙发现方法中的步骤。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本公开第一方面中任一项的一种基于图模型的攻击团伙发现方法中的步骤。

综上，本发明提出的方案能够，

1)攻击团伙发现引擎和溯源系统的解耦：溯源系统和引擎不再紧密耦合，引擎独立部署，引擎的可靠性、性能可以独立管理，对产品自身不会造成影响。

2)攻击团伙发现的可靠性：采用了图算法里面的多种词向量训练方式，采用了多模型融合的架构，多结果采用了多数投票的方式，攻击团伙发现的准确性高。

3)攻击团伙发现的泛化性：机器学习模型本身就具备泛化能力，在发现已知威胁的同时，可以发现未知威胁，从而达到攻击团伙发现的全面性。

4)本方案具有很强落地性：在溯源场景中，源IP、目的IP从很多设备中都可以拿到，数据源的来源比较广泛；将IP生成隐向量的思路比较成熟；攻击团伙发现引擎的部署提出可靠的方案。

5)攻击团伙发现可为多级溯源提供数据依据：攻击往往都是多级攻击，通过控制层层主机达到攻击和隐藏自己的目的，为了溯源到最初的攻击者往往需要多级溯源，通过攻击团伙发现可以为多级溯源提供数据支撑。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种基于图模型的攻击团伙发现方法的流程图；

图2为根据本发明实施例的攻击团伙发现系统的部署架构图；

图3为根据本发明实施例的后端业务调用攻击团伙发现引擎全过程图；

图4为根据本发明实施例的攻击团伙发现引擎的横向扩展图；

图5为根据本发明实施例的一种基于图模型的攻击团伙发现系统的结构图；

图6为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一方面公开了一种基于图模型的攻击团伙发现方法。图1为根据本发明实施例的一种基于图模型的攻击团伙发现方法的流程图，如图1所示，所述方法包括：

在步骤S1，收集原始数据，并将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集。

在一些实施例中，在所述步骤S1中，所述原始数据是数据源和已知的直接攻击者，其中数据源只需要包含源IP和目的IP。

所述收集原始数据，将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集的方法包括：

在步骤S2，将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图。

在一些实施例中，在所述步骤S2中，所述将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图的方法包括：

通过对源IP和目的IP对的数据集进行连接方向和连接次数的统计，利用第三方库networkx来对数据构造图，进行可视化展示，生成IP网络连接图，方便对数据进行可视化及分析；其中一些具有相似通联行为的IP在图上会相近的行径(即攻击团伙在IP层面表现为有相似的连接)。

在步骤S3，利用多种图神经网络对所述IP网络连接图结构中的每个节点生成代表IP行为的IP隐向量。

在一些实施例中，在所述步骤S3中，所述多种图神经网络包括：

具体地，利用图神经网络将IP的信息隐藏在向量中，用IP隐向量来代表IP的信息，因此具有相似通联行为的IP会有相似的向量映射。

所述利用多种图神经网络对所述IP网络连接图结构中的每个节点生成代表IP行为的IP隐向量的方法包括：

编写Deep Walk、Node2Vec和Graph2Vec的代码，其中IP网络连接图为输入。拿DeepWalk举例，首先编写随机游走序列的代码，然后将随机游走生成的序列输入到Gensim库中的Word2Vec；

运行三个图神经网络的代码，生成每个IP的IP隐向量，生成的隐向量均为128维，单个IP的隐向量举例如下：

array([-6.57282842e-01,-4.52287352e-01,1.67047189e-01,8.33077093e-03,

-6.87361886e-02,6.53029561e-01,3.87212396e-01,-4.35320556e-01,

4.67856340e-02,-4.55924332e-01,-5.82973696e-02,1.50977358e-01,

-1.44236559e-01,4.78760689e-01,2.73562971e-02,-5.75734824e-02,

-2.45316476e-01,6.85568893e-01,3.34851675e-01,7.75600569e-02],

dtype＝float32)。

在步骤S4，通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙。

在一些实施例中，在所述步骤S4中，所述通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙的方法包括：

对计算得到的余弦相似度从高到低进行排序，每种多种向量生成模型都筛选相同数量的余弦相似度在预设范围的IP，得到可疑攻击团伙，例如可以选择20个，这样会生成三个可疑攻击者团伙，每个可以攻击者团伙都有20个IP候选。

具体地，通过计算余弦来评估IP之间的相似度，余弦相似度公式如下：

代表待比较相似度的两个IP隐向量之中的一个；

代表待比较相似度的两个IP隐向量之中的另一个。

在步骤S5，在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙。

在一些实施例中，在所述步骤S5中，所述在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙的方法包括：

预定义次为两次。

以下为名词解释：

综上，本发明提出的方案能够，

2)攻击团伙发现的可靠性：采用了图算法里面的多种词向量训练方式，采用了多模型融合的架构，多结果采用了多数投票的方式，提高检测的准确性。

5)攻击团伙发现可为多级溯源提供数据依据：攻击往往都是多级攻击，通过控制层层主机达到攻击和隐藏自己的目的，为了溯源到最初的攻击者往往需要多级溯源，通过攻击团伙发现可以为多级溯源提供数据支撑。。

本发明第二方面公开了一种基于图模型的攻击团伙发现系统。图5为根据本发明实施例的一种基于图模型的攻击团伙发现系统的结构图；如图2～图4所示，所述系统通过Kafka中间件实现与溯源系统后端的交互，能够独立部署为攻击团伙发现引擎，实现与溯源系统的解耦，同时支持多机器分布式部署；由于每个攻击团伙发现引擎跟溯源系统的前后端都充分解耦，基于Kafka这种分布式消息系统的模式，攻击团伙发现引擎能够根据机器资源实现横向扩展；如图5所示，所述系统100包括：

第一处理模块101，被配置为，收集原始数据，并将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集；

第二处理模块102，被配置为，将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图；

第三处理模块103，被配置为，利用多种图神经网络对所述IP网络连接图结构中的每个节点生成代表IP行为的IP隐向量；

第四处理模块104，被配置为，通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙；

第五处理模块105，被配置为，在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙。

根据本发明第二方面的系统，所述第一处理模块101具体被配置为，所述原始数据是数据源和已知的直接攻击者，其中数据源只需要包含源IP和目的IP。

根据本发明第二方面的系统，所述第二处理模块102具体被配置为，所述将源IP和目的IP对的数据集通过可视化的方式生成IP网络连接图的方法包括：

根据本发明第二方面的系统，所述第三处理模块103具体被配置为，所述多种图神经网络包括：

array([-6.57282842e-01,-4.52287352e-01,1.67047189e-01,8.33077093e-03,

-6.87361886e-02,6.53029561e-01,3.87212396e-01,-4.35320556e-01,

4.67856340e-02,-4.55924332e-01,-5.82973696e-02,1.50977358e-01,

-1.44236559e-01,4.78760689e-01,2.73562971e-02,-5.75734824e-02,

-2.45316476e-01,6.85568893e-01,3.34851675e-01,7.75600569e-02],

dtype＝float32)。

根据本发明第二方面的系统，所述第四处理模块104具体被配置为，所述通过已知直接攻击者的IP隐向量筛选出具有相似行为的可疑攻击团伙的方法包括：

代表待比较相似度的两个IP隐向量之中的一个；

代表待比较相似度的两个IP隐向量之中的另一个。

根据本发明第二方面的系统，所述第五处理模块105具体被配置为，在所述步骤S5中，所述在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙的方法包括：

所述多种图神经网络为三个，三个图神经网络会生成三个可疑攻击团伙，三个可疑攻击团伙里面会有重复的IP,利用多数投票的思想，将出现次数大于等于二次的筛选出来构成最终的攻击团伙；预定义次为两次。

本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时，实现本发明公开第一方面中任一项的一种基于图模型的攻击团伙发现方法中的步骤。

图6为根据本发明实施例的一种电子设备的结构图，如图6所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，实现本发明公开第一方面中任一项的一种基于图模型的攻击团伙发现方法中的步骤中的步骤。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图模型的攻击团伙发现方法，其特征在于，所述方法包括：

通过对源IP和目的IP对的数据集进行连接方向和连接次数的统计，利用第三方库networkx来对数据构造图，进行可视化展示，生成IP网络连接图；

对计算得到的余弦相似度从高到低进行排序，每种图神经网络模型利用余弦相似度都会筛选相同数量的IP，得到一组可疑攻击团伙；

步骤S5、在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙；

2.根据权利要求1所述的一种基于图模型的攻击团伙发现方法，其特征在于，在所述步骤S1中，所述原始数据是数据源和已知的直接攻击者，其中数据源只需要包含源IP和目的IP。

3.根据权利要求1所述的一种基于图模型的攻击团伙发现方法，其特征在于，在所述步骤S1中，所述收集原始数据，将原始数据处理成源IP和目的IP对的格式，形成源IP和目的IP对的数据集的方法包括：

4.根据权利要求1所述的一种基于图模型的攻击团伙发现方法，其特征在于，在所述步骤S3中，所述多种图神经网络包括：

Deep Walk、Node2Vec和Graph2Vec，并利用该三种图神经网络算法分别生成代表IP行为的隐向量。

5.一种用于基于图模型的攻击团伙发现系统，其特征在于，所述系统通过Kafka中间件实现与溯源系统后端的交互，能够独立部署为攻击团伙发现引擎，实现与溯源系统的解耦，同时支持多机器分布式部署；由于每个攻击团伙发现引擎跟溯源系统的前后端都充分解耦，基于Kafka这种分布式消息系统的模式，攻击团伙发现引擎能够根据机器资源实现横向扩展；所述系统包括：

第五处理模块，被配置为，在所述可疑攻击团伙中，通过多数投票的方式，筛选出最终的攻击者团伙；

6.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至4中任一项所述的一种基于图模型的攻击团伙发现方法中的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至4中任一项所述的一种基于图模型的攻击团伙发现方法中的步骤。