CN112968870A

CN112968870A - 一种基于频繁项集的网络团伙发现方法

Info

Publication number: CN112968870A
Application number: CN202110126310.8A
Authority: CN
Inventors: 饶毓; 姚力; 王小群; 周昊; 高川; 向梅; 李青山
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-15

Abstract

本发明是关于一种基于频繁项集的网络团伙发现方法，该方法将网络安全事件数据构建为关系图谱，提取图中的I P节点，查询这些节点的网络通联数据，使用频繁项集算法计算该通联数据，得到I P节点的频繁项集特征，将节点的频繁项集特征用于标签传播算法LPA的边权重计算。本发明解决了标签传播算法LPA的精确度、随机传播及可信度低的问题，提升了算法的稳定性；能够同时挖掘属于已知标签的团伙以及未知标签的团伙。

Description

一种基于频繁项集的网络团伙发现方法

技术领域

本发明涉及一种计算机领域的网络安全事件分析方法，特别是涉及一种基于频繁项集的网络团伙发现方法。

背景技术

网络安全事件分析涉及大量的告警日志、网络痕迹数据、威胁情报数据，通常这些数据分别存储在ElasticSearch、Hive、Hbase等数据库中，每种数据分别保存在独立的表中。由于这些网络安全事件孤立存储，在进行事件深入分析时，事件间的关联分析未被提前提取和存储，不利于数据的关联分析，这时可以使用图数据库构建关系图谱。

如今，黑客已经不单纯是个人行为的表现，据美国FBI调查显示网络黑客团伙的出现使得互联网黑客犯罪组织的运作模式正日益向企业化靠拢，并且已经有越来越多的专家级技术人员加入了这些组织。从业务角度来看，由于世界各地有大量组织成员愿意为这些网络黑客团伙工作，因此这些犯罪集团的产量相当高。

社区发现从Newman2002年提出“社区”的概念以来有了快速的发展，目前已经有多种类型的社区发现算法，标签传播算法LPA是其中简单易懂的一种。标签传播算法基本思想是通过标记节点的标签信息来预测未标记节点的标签信息。节点之间的标签传播主要依照标签相似度进行，在传播过程中，未标记的节点根据邻接点的标签信息来迭代更新自身的标签信息，如果其邻接点与其相似度越相近，则表示对其所标注的影响权值就越大，邻接点的标签就更容易进行传播。LPA算法的重点在于不同业务场景下标签相似度的计算，以提高社区划分的精度。

发明内容

本发明的主要目的在于，解决现有LPA算法在网络安全事件分析的应用问题，而提供一种基于频繁项集的网络团伙发现方法，所要解决的技术问题是标签传播算法LPA的精确度、随机传播及可信度低的技术问题，采用频繁项集算法确定标签相似度，提高了算法精确度、可信度，实现网络安全事件的团伙发现。

本发明是采用以下技术方案来解决其技术问题的。依据本发明提出的一种基于频繁项集的网络团伙发现方法，主要步骤如下：

步骤1：构建关系图谱，将多种网络安全事件抽取出实体和实体间的关联关系,生成关系图谱，保存到图数据库中；

步骤2：查询网路联通数据，提取图中的IP节点，查询这些节点的网络通联数据和域名访问数据；

步骤3：计算频繁项集特征，使用频繁项集算法处理网络通联数据，计算IP节点的频繁项集特征；

步骤4：计算边权重，将节点的频繁项集特征用于标签传播算法LPA的边权重计算,以找出犯罪团伙。

本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

前述的一种基于频繁项集的网络团伙发现方法，其中所述的步骤4中标签传播算法LPA具体步骤如下：

步骤41：计算节点重要性，利用网络节点的度中心性来度量节点的重要程度，计算所有节点的度数d_i作为该节点的重要性；

步骤42：同时通过利用节点的度中心性找出网络所有局部核心节点；

步骤43：将计算出的节点重要性作为节点的更新顺序；

步骤44：计算所有边的边权重，首先获取两节点之间共同邻居集Comm N ei_ij，根据节点与该共同邻居集的通联数据分别获取各自的频繁项集，将频繁项集之间的相似度作为边的边权重；

步骤45：给网络中所有节点分配标签，其中，对已知事件数据节点标注相对应事件标签，而对于未知事件数据节点，指定一个唯一的标签，指定唯一的标签不属于已知事件标签；

步骤46：更新标签：按照节点重要性大小的顺序，对网络中所有的节点进行标签的更新；

步骤47：停止条件：多次迭代计算后，直到达到标签稳定或者达到设定的轮次阈值；

步骤48：网络团伙划分：统计各个节点的标签，具有相同的标签的节点就处于同一个团伙。

前述的一种基于频繁项集的网络团伙发现方法，其中所述的频繁项集特征包括端口号、IP连接信息、域名和URL。

前述的一种基于频繁项集的网络团伙发现方法，其中所述的网络安全事件包括木马僵尸、网站后门、网页篡改、网络钓鱼、DDoS攻击、漏洞攻击和恶意代码传播等。

前述的一种基于频繁项集的网络团伙发现方法，其特征在于所述的关系图谱为多种实体类型，包括IP地址、域名、URL、邮箱和恶意代码。

为实现本发明的目的，本发明主要包括以下创新的技术措施：

1.在标签传播算法LPA中，应用频繁项集算法进行边权计算。

2.在标签传播算法LPA中，加入了局部中心点重要性的更新计算，针对不同情况，可以提高或降低局部中心点标签的传播范围。

3.标签传播算法LPA的标签初始化过程中，引入已知标签和未知标签，能够同时挖掘属于已知标签的团伙以及未知标签的团伙。

4、本发明解决了标签传播算法LPA的精确度、随机传播及可信度低的问题，提升了算法的稳定性；能够同时挖掘属于已知标签的团伙以及未知标签的团伙。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明流程框架图

其中：

1：计算每个节点的重要性

2：找出网络中的所有局部核心节点更新局部核心节点的重要性

3：计算每条边权重

3-1获取每对节点之间共同邻居节

3-2：获取节点的频繁项集

3-3：计算两节点频繁项集的相似度作为连接边权重

4：给已标注节点分配对应标签，未标注节点分配唯一的标签(不属于已知标签)，

5：按节点重要顺序对所有节点进行标签更新

6：所有节点不再发生更新标签或满足最大迭代次数

7：具有相同标签的节点归为同伙

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种基于频繁项集的网络团伙发现方法，其具体实施方式、方法、步骤、特征及其功效，详细说明如后。

本发明较佳实施例的一种基于频繁项集的网络团伙发现方法，其主要包括以下步骤：

步骤1：构建关系图谱。将多种网络安全事件抽取出实体和实体间的关联关系,生成关系图谱，保存到图数据库中；其中，网络安全事件包括木马僵尸、网站后门、网页篡改、网络钓鱼、DDoS攻击、漏洞攻击和恶意代码传播的网络安全事件数据。关系图谱包含多种实体类型，包括IP地址、域名、URL、邮箱、恶意代码。

步骤2：查询数据，提取关系图谱中的IP节点，查询这些节点的网络通联数据和域名访问数据。

从图数据库的关系图谱中，选取其中的IP实体作为网络社区节点v_i，两个IP实体之间的通联信息作为节点之间的连接边e_ij，形成一个全局的网络社区网络，记为G(V,E)。对任意的社区节点v_i∈V，l_i表示其标签，n代表网络节点数，m代表网络边数。

步骤3：计算频繁项集特征，使用频繁项集算法处理网络通联数据，得到IP节点的频繁项集特征。其中频繁项集特征包括端口号、IP连接信息、域名和URL。

步骤4的具体计算步骤如下：

计算节点重要性，用于表示网络节点的影响力；具体地，利用网络节点的度中心性来度量节点的重要程度，节点的度中心性可以用来衡量节点在网络中的中心程度，节点的中心性越高，它在网络中处于中心位置的概率越大，那么该节点的“影响力”就越强。

同时通过利用节点的度中心性找出局部核心节点，能够有效提高网络团伙发现的准确率；另一方面，将计算出的节点重要性作为节点的更新顺序，能够提高标签传播算法的稳定性。

在具体实现中，计算所有节点的度数d_i作为该节点的重要性impor_i，在此基础上，如果一个节点的邻居中度数大于该节点的节点个数不超过阈值λ，那么该节点为其所在局域内的核心节点，并且该节点的重要性

其中，

表示该节点的度大于其邻居节点度的数量。

进一步，计算边权重，用于衡量节点之间的关系程度；

具体地，利用两节点之间的共同邻居，根据节点与邻居之间的通联数据，获得该节点的频繁项集，计算两节点的频繁项集之间的相似度，作为两节点连接边的边权重。

根据通联数据获取节点的频繁项集以及权重计算的具体操作如下：

首先，获取IP节点与邻居IP节点的连接信息，包括邻居节点连接端口号、通信次数、包数以及字节数；接着获取邻居IP节点的域名信息，包括域名以及url地址；

将获取的字段信息进行向量化获取项集集合，在此基础上，提取该项集集合的频繁项集。

本发明实施例中，将由所有共同邻居节点得到的向量组为集合I＝{I₁,I₂,I₃,…,I_n}，集合I中的每项都代表IP节点与IP节点的行为,通过挖掘其中的频繁项集，能够稳定全面的描述IP节点所发生的行为信息，以此来代表该节点，本发明实施例中，利用Aprior算法实现频繁项集的挖掘工作。

本发明实施例中，将挖掘得到的每对节点的频繁项集计算Jaccard距离，确定频繁项集之间的相似度similarity(I_i,I_j)，将之作为两节点连接边的边权重。

进一步，根据标签更新规则更新节点的标签；

具体地，基于节点的重要性以及边权重，计算节点v_i对节点v_j的传播能力值spread_i,j。节点在更新自身标签前，需要累加具有相同标签邻居的传播能力值，选择累加值最大的节点标签更新自身标签。基于节点重要性和边权重的节点标签更新策略的形式化描述如下面公式所示：

其中，L(i)表示节点i的标签，N(i)表示节点i的邻居节点以及节点i自身，sum(L_j)表示每一个标签为L_j的邻居节点与待更新节点i之间的传播能力累加值，也可以看作节点属于该标签的概率。其值越大则表明该标签的影响力越大，更新节点的标签更易于被影响。另一方面，传播能力值越大的标签节点容易将自身标签传播给邻居节点，而其本身不易被更新。通过这种方式，能够一定程度上消除标签选择的随机性，极大地增强算法的稳定性。

进一步，如图1所示，计算每个节点的重要性1，找出网络中的所有局部核心节点更新局部核心节点的重要性2，计算每条边权重3：首先获取每对节点之间共同邻居节3-1，获取节点的频繁项集3-2，计算两节点频繁项集的相似度作为连接边权重3-3：给已标注节点分配对应标签，未标注节点分配唯一的标签4(不属于已知标签)，按节点重要顺序对所有节点进行标签更新5，所有节点不再发生更新标签或满足最大迭代次数6，具有相同标签的节点归为同伙7。

标签传播算法LPA的具体步骤如下：

初始化：：计算所有节点的度数作为节点重要性，找出网络中的所有局部核心节点并更新局部核心节点的重要性；计算所有边的边权重，首先获取两节点之间共同邻居集Comm N ei_ij，根据节点与该共同邻居集的通联数据分别获取各自的频繁项集，将频繁项集之间的相似度作为边的边权重；给网络中所有节点分配标签。其中，对已知事件数据节点标注相对应事件标签，而对于未知事件数据节点，指定一个唯一的标签(不属于已知事件标签)；

更新标签：按照节点重要性从大到小的顺序，根据公式(1)对网络中所有的节点进行标签的更新；

停止条件：多次迭代计算后，直到达到标签稳定或者达到设定的轮次阈值；

网络团伙划分：统计各个节点的标签，具有相同的标签的节点就处于同一个团伙。

在本实施例中，基于图数据库构建,将多种网络安全事件抽取出实体和实体间的关联关系，生成关系图谱。在此基础上，结合频繁项集以及标签传播算法发现网络团伙。通过图谱结构，计算节点的重要性程度；加入了边的边权重，以此来影响标签传播过程，具体地，根据每对节点所共有的邻居节点，获取对应的频繁项集集合，将频繁项集的相似度作为两节点连接边的边权重，以此表示节点间的关系紧密程度，有利于发现潜在的社区团伙；更进一步，利用已经抽取的网络安全事件信息作为节点的已知标签，有效的促进标签传播算法的收敛并且有利于发现属于该事件的其它团伙，另外对于未标注的节点，选取除已知标签外的其它唯一标签，在一定程度上，能够保留发现未知网络团伙的能力。改进的LPA算法每一步标签更新都是确定的，不含有随机排序或随机选择步骤，能够取得很好的团伙挖掘效果。本发明技术方案解决了标签传播算法LPA的精确度、随机传播及可信度低的技术问题。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于频繁项集的网络团伙发现方法，其特征在于以下步骤：

步骤1：构建关系图谱：将多种网络安全事件抽取出实体和实体间的关联关系,生成关系图谱，保存到图数据库中；

步骤2：查询网路联通数据：提取图中的IP节点，查询这些节点的网络通联数据和域名访问数据；

步骤3：计算频繁项集特征：使用频繁项集算法处理网络通联数据和域名访问数据，计算IP节点的频繁项集特征；

步骤4：计算边权重：将节点的频繁项集特征用于标签传播算法LPA的边权重计算,以找出犯罪团伙。

2.根据权利要求1所述的一种基于频繁项集的网络团伙发现方法，其特征在于所述的步骤4中标签传播算法LPA具体步骤如下：

步骤43：将计算出的节点重要性作为节点的更新顺序；

步骤44：计算所有边权重，首先获取两节点之间共同邻居集Comm N ei_ij，根据节点与该共同邻居集的通联数据分别获取各自的频繁项集，将频繁项集之间的相似度作为边权重；

步骤46：更新标签：按照节点重要性从大到小的顺序，对网络中所有的节点进行标签的更新；

3.根据权利要求1所述的一种基于频繁项集的网络团伙发现方法，其特征在于所述的频繁项集特征包括端口号、IP连接信息、域名和URL。

4.根据权利要求1所述的一种基于频繁项集的网络团伙发现方法，其特征在于所述的网络安全事件包括木马僵尸、网站后门、网页篡改、网络钓鱼、DDoS攻击、漏洞攻击和恶意代码传播等。

5.根据权利要求1所述的一种基于频繁项集的网络团伙发现方法，其特征在于所述的关系图谱为多种实体类型，包括IP地址、域名、URL、邮箱和恶意代码等。