CN111800430B

CN111800430B - 一种攻击团伙识别方法、装置、设备及介质

Info

Publication number: CN111800430B
Application number: CN202010662246.0A
Authority: CN
Inventors: 陈霖; 匡晓云; 许爱东; 索思亮; 杨祎巍; 洪超; 徐培明; 黄开天
Original assignee: China South Power Grid International Co ltd
Current assignee: China South Power Grid International Co ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2022-06-17
Anticipated expiration: 2040-07-10
Also published as: CN111800430A

Abstract

本申请提供了一种攻击团伙识别方法、装置、设备及介质，该方法包括：连接具有有网络行为日志数据的数据库，从所述数据库中提取需要进行聚类的数据；对所述数据进行标准化处理，得到标准化处理后的数据；使用动态增量聚类攻击团伙识别算法对所述标准化处理后的数据进行聚类分析处理，得到异常数据集合；对所述异常数据集合进行攻击团伙的确定处理，得到攻击团伙数据。本申请中的技术方案能够提高对攻击团伙的识别能力，实现在海量异构的安全日志下能够快速地、有效地识别攻击团伙，并且有效地防御识别出的攻击团伙未来可能发起的攻击。

Description

一种攻击团伙识别方法、装置、设备及介质

技术领域

本发明涉及信息技术领域，具体涉及一种攻击团伙识别方法、装置、设备及介质。

背景技术

现代企业的网络拓扑随着业务的多元化正变得日趋复杂，网络运行日志也呈现海量化、异构化的特点。现有技术的聚类分析算法在处理大数据场景时，需要对全部增量数据重新开展距离计算再规划聚类中心，算法模型构建耗时长，不利于网络安全需要对安全态势进行快速反应的要求。如何基于海量异构的安全日志进行有效地甄别攻击团伙，是目前网络安全态势感知领域期待解决的问题。

发明内容

基于此，本发明旨在提供一种攻击团伙识别方法、装置、设备及介质，提高对攻击团伙的识别能力，实现在海量异构的安全日志下能够快速地、有效地识别攻击团伙。

第一方面，本发明提供了一种攻击团伙识别方法，包括：

S1、连接具有有网络行为日志数据的数据库，从所述数据库中提取需要进行聚类的数据；对所述数据进行标准化处理，得到标准化处理后的数据；

S2、使用动态增量聚类攻击团伙识别算法对所述标准化处理后的数据进行聚类分析处理，得到异常数据集合；

S3、对所述异常数据集合进行攻击团伙的确定处理，得到攻击团伙数据。

优选地，所述步骤S1中，所述将所述数据进行标准化处理，得到标准化处理后的数据，包括：

判断所述数据是否标准化；若否，则对所述数据进行标准化处理，得到标准化处理后的数据；若是，则将所述数据作为标准化处理后的数据。

优选地，所述对所述数据进行标准化处理，包括：

对所述数据的单位进行统一，将统一单位后的数据按比例进行缩放，使所述统一单位后的数据映射到特定区间上，避免因标尺不同造成距离计算误差。

优选地，所述步骤S2中，所述使用动态增量聚类攻击团伙识别算法对所述标准化处理后的数据进行聚类分析处理，得到异常数据集合，包括：

S21、输入标准化处理后的数据作为数据集合C，对所述数据集合C进行去除孤立点处理，得到去除孤立点后的数据集合C′；

S22、根据所述数据集合C′的样本总数，得到初始聚类数；

S23、将所述聚类数与所述所述数据集合C′的样本总数输入至传统k-means算法中进行聚类，得到聚类结果；

S24、判断是否有增量数据到达所述数据库，若有增量数据到达，则从所述增量数据中随机抽取少量增量数据样本点，计算抽取出的所述少量增量数据样本点到所述聚类结果中各质心的距离，将所述增量数据划分到距离所述少量增量数据样本点最近的质心所在聚类中；

S25、根据所述聚类结果，计算所有聚类的质心之间的距离，将聚类的质心距离小于所有聚类质心距离平均值的对应质心所在聚类进行合并，得到合并后的聚类结果；根据所述合并后的聚类结果，更新聚类数，并重新计算各聚类的质心；

S26、计算所述合并后的聚类结果中各聚类的动态阈值；

S27、将所述数据集合C′各聚类中的样本点与所在聚类的质心的距离小于动态阈值的样本点取出，进行反标准化处理，还原为真实数据后放入异常数据集合H中，更新所述异常数据集合H；

S28、更新所述数据集合C′，判断所述数据集合C′中的样本点数量是否满足设定条件，若所述样本点数量不满足设定条件，则执行步骤S23，若所述样本点数量满足设定条件，则将所述数据集合C′中的剩余样本点作为孤立点剔除，输出所述异常数据集合H。

优选地，所述步骤S21中，对所述数据集合C进行去除孤立点处理，包括：

S2101、计算所述数据集合C中的样本点i与其余任意样本点j的欧氏距离之和S_i，并计算所述数据集合C中所有样本点的欧氏距离之和的算术平均数W；其中i＝1,2,...,m，j＝1,2,...,m且j≠i，m为数据集合C中的样本数量；

S2102、判断数据集合C的样本点i的欧氏距离之和S_i与W的数量关系，若S_i＞W，则判断所述样本点i为孤立点；其中i＝1,2,...,m，m为数据集合C中的样本总数。通过本发明提供的去除孤立点处理方法后再进行攻击团伙识别，能够有效地处理非模式数据，将不具有攻击模式特征的数据作为孤立点进行识别并剔除，能够避免算法进行误分类，提高攻击团伙识别的准确率。

优选地，所述步骤S26中，所述动态阈值的计算方法，包括：

各聚类中的样本点到所在聚类的质心的算术平均数的一半。

本发明引入动态阈值，通过控制聚类大小来控制聚类内样本点的相似程度。聚类算法中聚类的数量根据所述动态阈值进行动态确定，当所述动态阈值的值越小时，聚类内样本点的相似程度越高，聚类的数量越多，聚类得到的攻击团伙数目就越多。

优选地，所述步骤S3中，所述对所述异常数据集合进行攻击团伙的确定处理，得到攻击团伙数据，包括：

S31、根据所述异常数据集合，确定在同一时间对同一目标发起的协同攻击中的攻击者，并将所述协同攻击中的攻击者划归为同一组，得到初步的攻击团伙分组；

S32、将所述初步攻击团伙分组中具有攻击者重叠或攻击行为相似的分组进行合并，得到合并后的攻击团伙分组；

S33、去掉所述合并后的攻击团伙分组中的偶然攻击者；提取出每个合并后的攻击团伙分组的核心成员，得到攻击团伙。

第二方面，本发明提供了一种攻击团伙识别装置，包括：

数据提取模块，用于从连接的具有有网络行为日志数据的数据库提取需要进行聚类的数据；

数据标准化模块，用于对上述数据提取模块中提取的数据进行标准化处理，得到标准化处理后的数据；

聚类分析模块，用于使用动态增量聚类攻击团伙识别算法对所述标准化处理后的数据进行聚类分析处理，得到异常数据集合；

攻击团伙确定模块，用于对所述异常数据集合进行攻击团伙的确定处理，得到攻击团伙数据；

攻击团伙输出模块，用于输出所述攻击团伙数据。

第三方面，本发明提供了一种攻击团伙识别设备，包括：

存储器，用于存储与上述任一项所述的一种攻击团伙识别方法相对应的计算机程序代码；

处理器，用于执行所述计算机程序代码，以实现如上述任一项所述的一种攻击团伙识别方法。

第四方面，本发明提供了一种攻击团伙识别介质，包括：

一种计算机可读存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的一种攻击团伙识别方法。

可见，本发明提供的一种攻击团伙识别方法，首先连接具有有网络行为日志数据的数据库，从所述数据库中选择需要进行聚类的数据；将所述数据进行标准化处理，得到标准化处理后的数据。然后使用动态增量聚类攻击团伙识别算法对所述标准化处理后的数据进行聚类分析处理，得到异常数据集合。最后对所述异常数据集合进行攻击团伙的确定处理，得到攻击团伙数据。

从以上技术方案可以看出，对比现有技术，本发明具有以下优点：

本发明提供的动态增量聚类攻击团伙识别算法能够从空间相近度对具有相似性的攻击模式类别进行衡量，并进行有效合并，能够避免由于聚类过多导致攻击模式识别不合理的情况发生，能够更合理地识别攻击团伙，提高对攻击团伙的识别能力。

因为各入侵的攻击团伙均由某一个或某一组攻击控制着控制，所以同一个或同一组攻击团伙在不同的攻击中会表现出相似的行为。因此通过本发明提供的动态增量聚类攻击团伙识别算法研究攻击团伙历史行为给攻击团伙建立“团伙画像”，能够更准确地描述攻击控制者的行为方式、偏好的攻击方法与特征，能够更有效地防御这些攻击团伙未来可能发起的攻击。

本发明提供的动态增量聚类攻击团伙识别算法在有增量数据到达时，通过选取增量数据中的少量样本点进行聚类分析，根据样本点代表所述的类别来划分所述增量数据的聚类，更有利于在大数据场景下快速构建算法模型，实现在海量异构的安全日志下能够快速地、有效地识别攻击团伙。

综上所述，本发明的技术方案能够合理地识别攻击团伙，提高对攻击团伙的识别能力；能够准确地描述攻击控制者的行为方式、偏好的攻击方法与特征，有效地防御识别出的攻击团伙未来可能发起的攻击；能够在大数据场景下快速构建算法模型，实现在海量异构的安全日志下能够快速地、有效地识别攻击团伙。

本发明还提供了一种攻击团伙识别装置、设备及介质，具有如上一种攻击团伙识别方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种攻击团伙识别方法流程图；

图2为本发明提供的一种攻击团伙识别装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体地，本发明提供了一种攻击团伙识别方法，请参考图1所示，包括：

S2、使用动态增量聚类攻击团伙识别算法对所述标准化处理后的数据进行聚类分析处理，得到异常数据集合。

具体地，在本实施例步骤S1中，所述将所述数据进行标准化处理，得到标准化处理后的数据，包括：

具体地，在本实施例中，所述对所述数据进行标准化处理，包括：

具体地，在本实施例的步骤S2中，所述使用动态增量聚类攻击团伙识别算法对所述标准化处理后的数据进行聚类分析处理，得到异常数据集合，包括：

具体地，在本实施例中，所述数据集合C进行去除孤立点处理，包括：

S2102、判断数据集合C的样本点i的欧氏距离之和S_i与W的数量关系，若S_i＞W，则判断所述样本点i为孤立点；其中i＝1,2,...,m，m为数据集合C中的样本总数。

S22、根据所述数据集合C′的样本总数，得到初始聚类数；

具体地，在本实施例中，所述根据所述数据集合C′的样本总数，得到初始聚类数，包括：

所述初始聚类数k由所述数据集合C′的样本总数n决定，所述初始聚类数k的计算公式为：k＝n^0.5，且k取整数。

S26、计算所述合并后的聚类结果中各聚类的动态阈值；

具体地，在本实施例中，所述动态阈值的计算方法为：各聚类中的样本点到所在聚类的质心的算术平均数的一半。

S28、更新所述数据集合C′，判断所述数据集合C′中的样本点数量是否满足设定条件，若所述样本点数量不满足设定条件，则执行步骤S23，若所述样本点数量满足设定条件，则将所述数据集合C′中的样本点作为孤立点剔除，输出所述异常数据集合H。

具体地，在本实施例中，所述设定条件为：所述数据集合C′中的样本点数量小于0.1n，其中n为所述数据集合C′的样本总数。

具体地，在本实施例的步骤S3中，所述对所述异常数据集合进行攻击团伙的确定处理，得到攻击团伙数据，包括：

本发明实施例还提供了一种攻击团伙识别装置，请参考图2，具体包括：

攻击团伙输出模块，用于输出所述攻击团伙数据。

本发明实施例还提供了一种攻击团伙识别设备，包括：

本发明实施例还提供了一种攻击团伙识别介质，包括：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种攻击团伙识别方法，其特征在于，包括：

S1、连接具有网络行为日志数据的数据库，从所述数据库中提取需要进行聚类的数据；对所述数据进行标准化处理，得到标准化处理后的数据；

S3、对所述异常数据集合进行攻击团伙的确定处理，得到攻击团伙数据；

所述步骤S2包括：

S21、输入标准化处理后的数据作为数据集合

，对所述数据集合

进行去除孤立点处理，得到去除孤立点后的数据集合

；

S22、根据所述数据集合

的样本总数，得到初始聚类数；

S23、将所述聚类数与所述数据集合

的样本总数输入至传统k-means算法中进行聚类，得到聚类结果；

S26、计算所述合并后的聚类结果中各聚类的动态阈值；

S27、将所述数据集合

各聚类中的样本点与所在聚类的质心的距离小于动态阈值的样本点取出，进行反标准化处理，还原为真实数据后放入异常数据集合

中，更新所述异常数据集合

；

S28、更新所述数据集合

，所述数据集合

中为取出所述异常数据集合

中样本点后的剩余数据，判断所述数据集合

中的样本点数量是否满足设定条件，若所述样本点数量不满足设定条件，则执行步骤S23，若所述样本点数量满足设定条件，则输出所述异常数据集合

；

所述步骤S3包括：

2.根据权利要求1所述的一种攻击团伙识别方法，其特征在于，所述对所述数据进行标准化处理，得到标准化处理后的数据，包括：

3.根据权利要求2所述的一种攻击团伙识别方法，其特征在于，所述对所述数据进行标准化处理，包括：

对所述数据的单位进行统一，将统一单位后的数据按比例进行缩放，使所述统一单位后的数据映射到特定区间上。

4.根据权利要求1所述的一种攻击团伙识别方法，其特征在于，所述步骤S21中，对所述数据集合

进行去除孤立点处理，包括：

S2101、计算所述数据集合

中的样本点

与其余任意样本点

的欧氏距离之和

，并计算所述数据集合

中所有样本点的欧氏距离之和的算术平均数

；其中

，

且

，

为数据集合

中的样本数量；

S2102、判断数据集合

的样本点

的欧氏距离之和

与

的数量关系，若

，则判断所述样本点

为孤立点；其中

，

为数据集合

中的样本总数。

5.根据权利要求1所述的一种攻击团伙识别方法，其特征在于，所述步骤S26中，所述动态阈值的计算方法，包括：

各聚类中的样本点到所在聚类的质心的算术平均数的一半。

6.一种攻击团伙识别装置，其特征在于，包括：

数据提取模块，用于从连接的具有网络行为日志数据的数据库提取需要进行聚类的数据；

所述聚类分析模块还用于执行权利要求1中所述的步骤S21-S28；

所述攻击团伙确定模块在确定攻击团伙数据时，还用于执行权利要求1中所述的步骤S31-S33；

攻击团伙输出模块，用于输出所述攻击团伙数据。

7.一种攻击团伙识别设备，其特征在于，包括：

存储器，用于存储与权利要求1-5任一项所述的一种攻击团伙识别方法相对应的计算机程序代码；

处理器，用于执行所述计算机程序代码，以实现如上述权利要求1-5任一项所述的一种攻击团伙识别方法。

8.一种攻击团伙识别介质，其特征在于，包括：

一种计算机可读存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种攻击团伙识别方法。