CN114430344B

CN114430344B - 基于工控流量和威胁情报关联分析的攻击组织识别方法

Info

Publication number: CN114430344B
Application number: CN202210079728.2A
Authority: CN
Inventors: 姚羽; 林小李; 魏鑫; 杨巍; 焦轩琦; 聂鑫宇; 刘莹; 盛川; 李凤来; 张晨; 周子业; 杨道青; 刘鹏杰
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-09-30
Anticipated expiration: 2042-01-24
Also published as: CN114430344A

Abstract

本发明属于网络安全及机器学习技术领域，提出了一种基于工控流量和威胁情报关联分析的攻击组织识别方法，本发明通过获得工控攻击者的流量数据、威胁情报信息、针对性特征和扫描工具；针对得到的攻击者的威胁情报特征和工控流量特征的数据特点，分别采用不同的相似性度量方法构建相似性矩阵并融合构建复合加权相似性矩阵，将原高维空间中的数据点映射到低维度空间；对得到的数据样本点进行聚类，得到工控攻击组织；该方法提高了攻击组织的识别精度，可扩展性强，可用于实时监控网络入侵者，主动及时防御攻击组织的分布式攻击。不需要指定聚类个数，且可以自适应计算带宽，可以更加准确、灵活地识别工控攻击组织。

Description

基于工控流量和威胁情报关联分析的攻击组织识别方法

技术领域

本发明涉及网络安全及机器学习技术领域，具体涉及一种基于工控流量和威胁情报关联分析的攻击组织识别方法。

背景技术

近年来，针对关键基础设施的网络攻击日益严峻，尤其是高级持续性威胁(APT)，相比传统的网络攻击，具有针对性强、组织严密、持续时间长、高隐蔽性、间接攻击等特点。成功的APT攻击往往可以产生巨大的利润，因此攻击者通常以组织的形式存在，由技术高超的黑客群体组成，协同攻击并提前制定好攻击计划。APT攻击通过多攻击者协同攻击破坏特定目标的关键基础设施、窃取机密数据、或加密用户文件以索取高额的比特币，给企业乃至国家造成巨大的损失。从目前的发展现状来看，网络攻击开始出现出有组织、有目的的特点。面对网络攻击，一方面要实时检测入侵，及时采取有效的防护措施，保障目标网络安全稳定运行；另一方面，通过威胁情报和系统日志识别来自同一攻击组织的攻击，可以及时主动防御同一组织的攻击。

目前，网络攻击组织识别问题越来越受到关注。国内外许多学者和专家提出了很多网络攻击组织识别方法，如Malware triage for early identification of AdvancedPersistent Threat activities中提出的恶意代码分析法、《面向工控蜜罐的同源攻击分析研究》中提到的功能码分析法以及《基于威胁情报多维度分析的攻击组织关联与研判系统》提出的威胁情报分析法等。但是，现有的攻击组织识别方法准确率较低，实用性和参考性不高。因此，此背景下，提出了一种基于工控流量和威胁情报关联分析的攻击组织识别方法，以识别攻击者所属的攻击组织并采取有效的针对性措施，保障网络稳定运行。

发明内容

针对上述问题，本发明提出了一种基于工控流量和威胁情报关联分析的攻击组织识别方法，该方法可以实时、准确地检测网络攻击者的攻击组织，自适应性较强。

为实现上述目的，本发明采取以下技术方案实现：

一种基于工控流量和威胁情报关联分析的攻击组织识别方法，包括以下步骤：

步骤1：通过高交互工控协议蜜罐捕获来自全球的工控攻击者的流量数据；通过构建更多功能码的响应数据包及时回复攻击者的请求，提高工控协议蜜罐的伪装性和交互能力，诱捕更多、技术更强的工控攻击者进行访问，以捕获攻击者更复杂的攻击行为特征。

步骤2：通过IBM X-Force Exchange威胁情报共享平台获取工控攻击者IP的威胁情报信息，威胁情报信息包括邮箱和网段；由于存在大量的公共邮箱，例如，以info，admin，noc，hostmaster，abuse等为邮箱名的邮箱，公共邮箱不止会影响实验程序运行速度，还会影响组织识别的准确性，因此本发明过滤掉高频的公共邮箱，得到表征攻击IP同源性特征的用户注册邮箱，得到包括用户注册邮箱和网段的的威胁情报信息特征；

步骤3：获取工控流量特征；工控流量特征包括工控协议针对性和扫描工具；基于工控流量通过不同工控协议蜜罐的攻击日志中提取每个攻击IP的工控协议针对性，即统计每个攻击IP对不同工控协议蜜罐的攻击次数；基于工控流量通过工控扫描器识别算法检测攻击IP采用的扫描工具；

步骤4：针对步骤2-3得到的攻击者的威胁情报信息特征和工控流量特征的数据特点，分别采用不同的相似性度量方法构建相似性矩阵；

步骤5：融合不同的相似性矩阵以构建复合加权相似性矩阵；

步骤6：通过多维缩放算法MDS(Multiple Dimensional Scalling)将复合加权相似性矩阵从高维空间映射为(n*m)的数据集；m取值与特征种类数量相同。

步骤7：提出一种基于核密度估计的自适应带宽均值漂移聚类算法，并通过该均值漂移聚类算法对步骤6得到的数据集进行聚类，识别工控攻击组织；

步骤8：当发现新的工控攻击者时，通过步骤2-3得到攻击者特征；当攻击者所属网段、用户注册邮箱或扫描工具与已有的攻击组织相同，则该攻击者属于该攻击组织，否则该攻击IP属于一个新的攻击组织。

所述步骤4的具体步骤为：网段、用户注册邮箱、扫描工具为类别型数据，通过杰卡德相似系数衡量样本间网段、用户注册邮箱、扫描工具的相似性，得到网段相似性矩阵M_netRange、用户注册邮箱相似性矩阵M_Email和扫描工具相似性矩阵M_tool；工控协议针对性为数值型数据，采用z-score对工控协议针对性进行归一化，接着使用PCA使数据集各个维度线性无关，最后采用欧式距离获得工控协议针对性相似性矩阵M_protocol。

所述步骤5的具体过程为：获得网段相似性矩阵M_netRange、用户注册邮箱相似性矩阵M_Email、扫描工具相似性矩阵M_tool、协议针对性相似性矩阵M_protocol四者的相似度平均值，分别为mean_netRange、mean_Email、mean_tool、mean_protocol，取最大均值mean_max＝max(mean_netRange,mean_Email,mean_tool,mean_protocol)，计算不同维度的加权因子

最后，构建复合加权相似性矩阵M_Composite＝w_netRange×M_network+w_Email×M_Email+w_tool×M_tool+w_protocol×M_protocol。

所述步骤7中识别工控攻击组织的具体步骤如下：

①利用经验准则计算数据集的初始带宽矩阵H，H_1d＝1.06×σ_1d×n^-1/5，其中σ_1d为数据的列标准差矩阵，d为数据的维度数，n为样本量；

②根据自适应核密度估计计算数据集中每个数据点带宽矩阵H_i；

③对每个数据点分别执行均值漂移聚类算法，搜索点沿着数据点密度增加的方向“漂移”到局部密度极大点，将漂移到同一极大值点的数据点归为一类，即为同一攻击组织。

所述计算数据集中每个数据点带宽矩阵H_i，具体步骤如下：

1.1)计算每个数据点的局部密度

其中h_u为初始带宽矩阵H中的第u个元素，K为核密度估计函数，

1.2)计算所有数据点的平均密度

1.3)计算每个数据点的局部平滑参数

1.4)计算每个数据点带宽矩阵H_i＝H×λ_i。

所述均值漂移聚类算法的具体步骤为：

2.1)选择数据点p_i，以p_i为中心点，数据点带宽矩阵H_i为半径确定搜索区域；

2.2)根据均值漂移公式，计算搜索区域内采样点的均值，

其中h是搜索区域的带宽，k是搜索区域内数据点的个数，K为控制算法收敛的核密度估计函数；

2.3)计算p_i与m(p_i)之间的欧式距离，记为漂移向量的模，当漂移向量的模小于允许误差ε，停止迭代，得到聚类结果；否则，将数据点更新到均值m(p_i)处，重新开始步骤2.1)。

所述步骤3中基于工控流量通过工控扫描器识别算法检测攻击IP采用的扫描工具，具体步骤为：首先，将工控网络流量解析为会话，提取体现通信模式的特征向量。然后，将后续工控网络流量划分为不同的通信模式类别，并给出通信模式指纹结果。

通过爬取ABuseIPDB库和TheatBook微步在线等开源威胁情报的攻击组织信息对本方法聚类的准确性进行验证。

本发明的有益效果：该方法提高了攻击组织的识别精度，可扩展性强，可用于监控网络入侵者，主动及时防御攻击组织的分布式攻击。不需要指定聚类个数，且可以自适应计算带宽，可以更加准确、灵活地识别工控攻击组织。

附图说明

图1为本发明中基于工控流量和威胁情报关联分析的攻击组织识别方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步详细描述。

本实施例详细阐述了本发明一种基于工控流量和威胁情报关联分析的攻击组织识别方法在实现与应用的情况下具体实施时的算法流程，应用在网络安全领域中的工控蜜罐攻击IP的组织识别问题。

准确识别工控网络中攻击者所属的攻击组织，可以帮助网络安全人员及时防御攻击组织的分布式攻击，保障工控网络的安全稳健运行。一种基于工控流量和威胁情报关联分析的攻击组织识别方法，算法步骤如下：

步骤1：研发高交互工控协议蜜罐，即构建更多功能码的响应数据包模拟工控设备回复攻击者的请求，提高工控协议蜜罐的伪装性和交互能力，诱捕更多、技术更强的工控攻击者进行访问，以捕获攻击者更复杂的攻击行为特征，通过长期部署工控协议蜜罐来捕获大量全球的工控攻击者的流量数据；

步骤2：通过网络爬虫的方式从IBM X-Force Exchange威胁情报共享平台获取工控蜜罐攻击IP的威胁情报信息，包括邮箱、网段；

步骤3：由于工控蜜罐攻击IP的威胁情报信息中存在大量的公共邮箱，例如，以info，admin，noc，hostmaster，abuse等为邮箱名的邮箱，公共邮箱不仅会影响实验程序运行速度，还会影响组织识别的准确性，因此过滤掉97个高频的公共邮箱，如表1所示，得到更能表征用户属性的用户注册邮箱；

表1高频公共邮箱名

步骤4：从部署在全球范围内的不同协议的工控蜜罐的攻击日志中提取每个攻击IP的协议针对性特征，即统计每个攻击IP对不同协议工控蜜罐的攻击次数，工控协议包括modbus/TCP、atg、DNP3、S7、Fox、Ethernet/IP、BACnet/IP、Coap、MQTT，部分工控蜜罐攻击者的攻击协议针对性如表2所示，可见来自Seychelles的攻击IP：80.82.77.33、80.82.77.139、89.248.167.131、93.174.95.106对Modbus/TCP协议蜜罐的攻击次数较多，对Atg、DNP3、S7、Fox、Ethernet/IP协议蜜罐的攻击次数较少，而完全没有对BACnet/IP、Coap、MQTT协议蜜罐进行攻击，说明该攻击组织对Modbus/TCP最感兴趣；

表2部分工控蜜罐攻击者的攻击协议针对性

步骤5：通过工控扫描器识别算法检测工控蜜罐攻击IP采用的扫描工具：首先，将工控网络流量解析为会话，提取体现通信模式的特征向量。然后，将后续工控网络流量划分为不同的通信模式类别，并给出通信模式指纹结果。表3显示了部分攻击者的工控扫描器检测结果，可见网段为196.52.43.0/24的攻击者采用了3种工控扫描器，以编号为54、112为主，此外，196.52.43.103还使用了81号工控扫描器。

表3部分攻击者的工控扫描器检测结果

步骤6：针对步骤2-5得到的攻击者的威胁情报信息特征(网段、用户注册邮箱)和工控流量特征(工控协议针对性、扫描工具)的数据特点，分别采用不同的相似性度量方法构建相似性矩阵，具体步骤为：首先，网段、用户注册邮箱、扫描工具的数据项较多，均以集合的形式呈现，因此通过杰卡德相似系数来衡量样本间网段、用户注册邮箱、扫描工具的相似性，得到网段相似性矩阵M_netRange、注册邮箱相似性矩阵M_Email、扫描工具相似性矩阵M_tool。其次，工控协议针对性的数据包括三大特征：一是同为计数值，所以量纲相同；二是因网络协议众多，所以工控协议针对性次数值域范围差别较大；(3)工控协议针对性与维度相关。因工控协议针对性的值域范围差别较大，为使数据更加准确，采用z-score对协议扫描次数进行归一化，接着使用PCA将数据集各个维度变成线性无关，最后采用欧式距离计算协议扫描次数相似性矩阵协M_protocol。

步骤7：计算步骤6得到的网段相似性矩阵M_netRange、注册邮箱相似性矩阵M_Email、扫描工具相似性矩阵M_tool、协议针对性相似性矩阵M_protocol、的相似度平均值mean_netRange、mean_Email、mean_tool、mean_protocol，取矩阵中的最大均值mean_max＝max(mean_netRange,mean_Email,mean_tool,mean_protocol)，计算不同维度的加权因子

步骤8：把复合加权相似性矩阵M_Composite作为MDS(Multiple DimensionalScalling)降维算法的输入，将原复合加权相似性矩阵高维空间中的数据点映射到低维度空间获得(n*4)的数据集；

步骤9：提出一种基于核密度估计的自适应带宽均值漂移聚类算法，并通过该算法对步骤8得到的数据集进行聚类，识别工控攻击组织，具体算法如下：①利用经验准则计算数据集的初始带宽矩阵H，H_1d＝1.06×σ_1d×n^-1/5，其中σ_1d为数据的列标准差矩阵，d为数据的维度数，n为样本量；②根据自适应核密度估计AKDE(Adaptive kernel densityestimation)计算每个数据点带宽矩阵H_i，具体步骤如下：1.1)计算每个数据点的局部密度

其中h_u为矩阵H中的第u个元素，K为核密度估计函数，

1.2)计算所有数据点的平均密度

1.3)计算每个数据点的局部平滑参数

1.4)计算每个数据点带宽矩阵H_i＝H×λ_i；③对每个数据点分别执行均值漂移算法，搜索点沿着数据点密度增加的方向“漂移”到局部密度极大点，漂移到同一极大值点的数据点将被归为一类，均值漂移算法的具体步骤为：2.1)在特征空间中任意选择初始样本的点p_i，以p_i为中心点，带宽矩阵H_i为半径确定一个搜索区域；2.2)根据均值漂移公式，计算搜索区域内采样点的均值

其中h是搜索区域的带宽，k是搜索区域内点的个数，K为控制算法收敛的核密度估计函数；2.3)计算p_i与m(p_i)之间的欧式距离，记为漂移向量的模，如果漂移向量的模小于允许误差ε，则停止迭代，得到聚类结果；否则，将数据点更新到均值m(p_i)处，转2.1)。在本案例中对工控蜜罐捕获的攻击IP进行聚类，实验最终生成56个攻击组织，部分攻击组织识别结果如表4所示。

表4攻击组织识别表

步骤10：通过爬取ABuseIPDB库和TheatBook微步在线等开源威胁情报的攻击组织信息对聚类的准确性进行验证。相对于只采用工控流量特征的准确率为70.588％，只采用威胁情报数据的准确率为78.431％，基于工控流量和威胁情报的准确率高达92.157％，说明本方法准确率更高。

表5实验准确率对比

步骤11：当发现新的工控攻击者时，通过步骤2-5得到攻击者特征，如果攻击者所属网段、或者注册邮箱、或者扫描工具与已有的攻击组织相同，则该攻击者属于该攻击组织，否则该攻击IP属于一个新的未知的攻击组织。

本发明提出一种基于工控流量和威胁情报关联分析的工控攻击组织识别方法，当工控网络遭受攻击时，根据攻击信息，了解攻击者所属组织，通过该组织的攻击历史记录其网络攻击武器库，可以更加有针对性的应对网络攻击，从而可以更加快速、主动的进行安全防御，进行有更加有合理有效的应对，尽可能的降低攻击造成的损失。

以上优选的实施方式只为说明本发明的技术构思和特点，目的在于让本领域的技术人员了解本发明的内容并加以实施，并不能以此来限制本发明的保护范围，凡是根据本发明实质所做出的等效变化或修饰均属于本发明的保护范围。

Claims

1.一种基于工控流量和威胁情报关联分析的攻击组织识别方法，其特征在于，该基于工控流量和威胁情报关联分析的攻击组织识别方法包括以下步骤：

步骤1：通过高交互工控协议蜜罐捕获来自全球的工控攻击者的流量数据；

步骤2：通过IBM X-Force Exchange威胁情报共享平台获取工控攻击者IP的威胁情报信息，威胁情报信息包括邮箱和网段；过滤掉邮箱中的公共邮箱，得到表征攻击IP同源性特征的用户注册邮箱，得到包括用户注册邮箱和网段的威胁情报信息特征；

步骤3：获取工控流量特征；工控流量特征包括工控协议针对性和扫描工具；通过不同工控协议蜜罐的攻击日志中提取每个攻击IP的工控协议针对性，即统计每个攻击IP对不同工控协议蜜罐的攻击次数；通过工控扫描器识别算法检测攻击IP采用的扫描工具；

步骤5：融合不同的相似性矩阵以构建复合加权相似性矩阵；

步骤6：通过多维缩放算法将复合加权相似性矩阵映射为(n*m)的数据集；

步骤7：提出一种基于核密度估计的自适应带宽均值漂移聚类算法，并通过该均值漂移聚类算法对步骤6得到的数据集进行聚类，识别工控攻击组织；具体步骤如下：

③对每个数据点分别执行均值漂移聚类算法，搜索点沿着数据点密度增加的方向“漂移”到局部密度极大点，将漂移到同一极大值点的数据点归为一类，即为同一攻击组织；

步骤8：当发现新的工控攻击者时，通过步骤2-3得到攻击者特征；当攻击者所属网段、用户注册邮箱或扫描工具与已有的攻击组织相同，则该攻击者属于已知攻击组织，否则该攻击IP属于一个新的攻击组织。

2.根据权利要求1所述的基于工控流量和威胁情报关联分析的攻击组织识别方法，其特征在于，所述步骤4的具体为：网段、用户注册邮箱、扫描工具为类别型数据，通过杰卡德相似系数衡量样本间网段、用户注册邮箱、扫描工具的相似性，得到网段相似性矩阵M_netRange、用户注册邮箱相似性矩阵M_Email和扫描工具相似性矩阵M_tool；工控协议针对性为数值型数据，采用z-score对工控协议针对性进行归一化，接着使用PCA使数据集各个维度线性无关，最后采用欧式距离获得工控协议针对性相似性矩阵M_protocol。

3.根据权利要求1或2所述的基于工控流量和威胁情报关联分析的攻击组织识别方法，其特征在于，所述步骤5的具体过程为：获得网段相似性矩阵M_netRange、用户注册邮箱相似性矩阵M_Email、扫描工具相似性矩阵M_tool、协议针对性相似性矩阵M_protocol四者的相似度平均值，分别为mean_netRange、mean_Email、mean_tool、mean_protocol，取最大均值mean_max＝max(mean_netRange,mean_Email,mean_tool,mean_protocol)，计算不同维度的加权因子

4.根据权利要求3所述的基于工控流量和威胁情报关联分析的攻击组织识别方法，其特征在于，所述步骤6中(n*m)的数据集，m取值与特征种类数量相同。

5.根据权利要求1所述的基于工控流量和威胁情报关联分析的攻击组织识别方法，其特征在于，所述计算数据集中每个数据点带宽矩阵H_i，具体步骤如下：

1)计算每个数据点的局部密度

2)计算所有数据点的平均密度

3)计算每个数据点的局部平滑参数

4)计算每个数据点带宽矩阵H_i＝H×λ_i。

6.根据权利要求5所述的基于工控流量和威胁情报关联分析的攻击组织识别方法，其特征在于，所述均值漂移聚类算法的具体步骤为：

1)选择任意数据点p_i，以p_i为中心点，数据点带宽矩阵H_i为半径确定搜索区域；

2)根据均值漂移公式，计算搜索区域内采样点的均值，

3)计算p_i与m(p_i)之间的欧式距离，记为漂移向量的模，当漂移向量的模小于允许误差ε，停止迭代，得到聚类结果；否则，将数据点更新到均值m(p_i)处，重新开始步骤1)。