CN113132414B

CN113132414B - 一种多步攻击模式挖掘方法

Info

Publication number: CN113132414B
Application number: CN202110500708.3A
Authority: CN
Inventors: 刘建毅; 田思远; 张茹; 胡威; 程杰; 陈连栋; 高雅婷
Original assignee: State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2022-10-14
Anticipated expiration: 2041-05-08
Also published as: CN113132414A

Abstract

本发明公开一种多步攻击模式挖掘方法，实现基于少量先验知识的初始攻击模型启发式的生成新的攻击模型，并能够根据图匹配计算预测概率。包括：敏感信息与告警日志融合算法：针对告警日志的误报和漏报性质，将从流量数据中筛选出的敏感信息和告警日志通过IP相似度聚簇、攻击簇内合并和过滤、攻击簇间筛选三种算法进行融合。多步攻击模型：多步攻击模型定义如下

其中N表示某类攻击的实际攻击过程步数，ABC代表多步攻击中每一个单步攻击的属性特征值。启发式多步攻击模型生成和攻击预测算法：通过图的概率匹配达到针对多步攻击的预测，步骤包括匹配对应点、计算概率值、生成多步攻击图模型、衡量转换。本发明通过启发式生成新攻击模型为攻击预测提供了新的思路。

Description

一种多步攻击模式挖掘方法

技术领域

本发明属于流量处理领域，尤其涉及多步攻击模式挖掘。

背景技术

自互联网诞生以来，网络攻击一直威胁着用户和组织。它们随着计算机网络的复杂化同时变得更加复杂。目前，攻击者需要执行多个入侵步骤才能达到最终目标。这些步骤的集合称为多步攻击、多阶段攻击或攻击场景。因为需要了解攻击策略和识别威胁需要多个动作之间的相关性，使得它们很难被完整的挖掘出来。自2000年以来，安全研究领域一直试图提出检测这种威胁的解决方案，并预测未来的步骤。

为了检测网络攻击，安全研究人员严重依赖于入侵检测系统(IDS)，该系统根据已知的攻击模式制定对应的检测规则，如与检测规则相匹配则发出告警。为了从庞大的数据中筛选出有意义的攻击过程，一种可行的方法是建立完善的攻击模型，将数据与模型进行关联匹配，但该方法要求很高的模型精确度，而且无法对新型攻击进行预警，所以如何启发式的建立攻击模型，并能够对未知攻击过程进行预警和模型建立成为了当下研究的热点。

多步攻击是目前的主流攻击手段，APT攻击是一种新型的有目的性、长期性的多步攻击手段，也是现今研究者们关注的重点。至今为止，多步攻击的关联分析方法可以分为5类:相似性关联、因果关联、基于模型、基于案例、混合。

相似性关联基于类似的警报具有相同的根源因此它们属于同一个攻击场景，这一思想，在正确选择了相似性特征的情况下，可以重构出较为准确的攻击场景，但是依赖少量数据段的相似性，结果可能包含太多假阳性告警。

因果关联方法基于先验知识或者大数据统计下确定的警报的先决条件和结果列表，该方法可以比较准确的关联出常见的攻击场景，但是基于先验知识的因果关联缺乏重构出非常见攻击场景的手段，由于攻击过程的随机性导致大数据统计的结果缺乏置信度。

基于模型的方法使用已有的或者改进的攻击模型进行模式匹配，如攻击图、Petri网、网络杀伤链等模型，可以匹配重构出符合模型的攻击，但是对新型攻击或者APT攻击缺乏检测手段。

基于案例的方法只能针对某一类攻击。混合方法可以结合几种方法的优缺点，是近年来最为常用的方法。

发明内容

本发明提出一种多步攻击模式挖掘方法，通过基于少量先验知识的初始攻击模型启发式的生成新的攻击模型，并能够根据图匹配计算预测概率。

本发明提供一种多步攻击模式挖掘方法，包括以下步骤：

1)根据敏感信息含义从海量流量数据中基于spark框架筛选敏感信息并根据杀伤链模型进行数据归一化；

2)将从流量数据中筛选出的敏感信息和告警日志通过IP相似度聚簇、攻击簇内合并和过滤、攻击簇间筛选三种算法进行融合得到用于图匹配的攻击簇；

3)循环每一条数据输入K-Fusion算法根据IP地址、杀伤链阶段、端口号抽象后的输出得到的坐标值，每一个攻击簇循环后可以得到一个坐标值的列表集合，根据攻击不同行为将多步攻击行为分为蠕虫式多步攻击和单目标式多步攻击同时分别初始化攻击模型。依赖于每一个攻击簇的IP地址、杀伤链阶段、端口号可以得到对应的两个初始化多步攻击模型列表；

4)根据图匹配算法将上述攻击簇图模型与初始化多步攻击图模型进行匹配，依赖于一定阈值范围的多步攻击图模型自启发式修正，以获得表示某类攻击的多步攻击图模型AMG且可以获得攻击预测的预测值。

进一步地，启发式多步攻击模型生成和攻击预测算法包括:

a)从攻击簇模型图到初始多步攻击模型图找出第一个对应点，并根据对应点距离H(point_k,point_k”)是否小于等于阈值1来判断两个点是否匹配，如果阈值大于1则判断point_k是否在初始攻击模型的初始点到point_k'两个点距离为直径的圆内。如果在则用point_k来修正point_k'；

b)采用最小二乘法通过两个最大匹配区间计算两个模型图的转换概率值计算公式如下：

最小转换概率值ε_min和对应修正过后的数据集即为最终对应多步攻击图模型；

c)通过判断所选的一对对应点是否坐标完全相同来作为衡量一个变换的权值，用来度量样本集中每对对应点相似性。公式如下：

d)根据下列公式得到相对均方误差

其中R为攻击模式图中两个点之间的最远距离，这个结果可以用来表示一个匹配质量的值，根据JEAN系统对于预测值的计算，得到一个匹配权值作为下一步的预测概率，具体公式如下：

其中r是一个任意选取的常数，是用来平衡长度l和误差e的影响。长度l在这里被定义为攻击簇表示的所有点的距离和。

进一步地，步骤1)中考虑多步攻击行为可能存在蠕虫传播性质，因此在原有的杀伤链模型上增加了横向传播阶段，另外增加了敏感信息流量数据，可以检测到只用IDS告警数据无法检测到的主机信息过程，因此增加了消除入侵证据阶段。

进一步地，步骤2)中筛选的敏感信息和IDS告警日志采用单特征IP地址的相似性进行聚类。根据攻击时间、攻击名称、IP地址对每个攻击簇进行内部合并，剔除杀伤链阶段大于3且小于该攻击簇到这条数据为止的最大杀伤链阶段的数据。

利用本发明的方法可以很好地挖掘多步攻击模式并且对攻击进行预测，与现有技术相比具有以下优点：

1、提出了敏感信息概念与敏感信息流量和告警日志的融合算法。该方法使用敏感信息流量和告警日志多源数据进行关联分析和攻击簇的筛选，缓解了由于告警日志的缺陷导致的攻击过程不完整问题；

2、针对攻击图模型需要完备的先验知识这一问题，提出了一种基于杀伤链模型的启发式多步攻击模型生成与攻击预测方法。使用了杀伤链模型对攻击的阶段划分定义了初始的多步攻击模型用来启发式的与关联出的攻击簇模型进行图匹配，从而得到新的多步攻击模型并且可以根据图匹配的置信度预测相似攻击的下一步攻击概率。

附图说明

图1为本发明方法框架结构图。其中主要分为数据预处理，初始模型生成与图匹配和攻击预测三个模块。

图2为敏感信息含义表，用于从海数据流量中筛选敏感信息。

图3为在原有杀伤链模型中增加横向传播阶段和消除入侵证据阶段后的杀伤链模型图。

图4为数据预处理模块流程图。

图5为初始模型生成模块流程图。

图6为检测正确率与检测完整性对比。

具体实施方式

为使本发明的上述特点和优点更明显易懂，下面结合具体实施方式和附图对本发明作进一步详细说明。具体训练流程如图1所示，其主要步骤包括：

步骤101、将原始pcap流量包和ISD告警日志经过数据包预处理模块，pcap数据流量通过spark框架基于敏感信息含义(图2)提取流量信息作为敏感流量。

步骤102、将敏感信息流量和IDS告警日志经过归一化和融合算法得到用于图匹配的攻击簇。

步骤201、使用K-Fusison算法将输入的攻击簇集合抽象化输出攻击簇模型，每一条数据输入K-Fusion算法根据IP地址、杀伤链阶段、端口号抽象后的输出得到的坐标值。

步骤202、根据每个攻击簇模型对应的初始化多步攻击模型。

步骤203、依赖于每一个攻击簇的IP地址、杀伤链阶段、端口号可以得到对应的两个初始化多步攻击模型列表。最终，输出三个列表集合，一个攻击簇模型列表集合，两个初始化多步攻击模型列表集合与之对应。

步骤301、根据图匹配算法将上述攻击簇模型与初始化多步攻击模型进行匹配。

步骤302、根据规定的阈值范围多步攻击模型进行自启发式修正，以获得表示某类攻击的多步攻击图模型AMG。

步骤303、生成的AMG进行存储并作为多步攻击图模型与新的攻击簇图模型进行匹配，根据相似度获得攻击预测的预测值。

本发明利用仿真数据集、校园网内数据集、Darpa2000 LLDDos 1.0数据集分别针对方法可行性、未知攻击检测能力、预测误差等实验目的进行了实验，实验结果表明该方法可以关联出未知攻击行为，并且能够得到较高的多步攻击模型完整性，并且在预测误差上可以接近已经攻击过程的攻击图匹配预测，可以为攻击的防御及分析提供有效的方案。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权力

要求的保护范围为准。

Claims

1.一种多步攻击模式挖掘方法，其特征在于，包括：

A、从海量流量数据中基于敏感信息表筛选敏感信息流量，并根据杀伤链模型将敏感信息流量归一化为源IP地址、目的IP地址、源端口、目的端口、时间、杀伤链阶段以及区分标志七元组数据；

B、针对告警日志的误报和漏报性质，将从流量数据中筛选出的敏感信息流量和告警日志通过采用单特征IP地址的相似性进行聚类，根据攻击时间、攻击名称、IP地址对每个攻击簇进行内部合并，剔除杀伤链阶段大于3且小于该攻击簇到这条数据为止的最大杀伤链阶段的数据；过滤攻击行为不完整和仅有敏感信息流量组成的攻击簇；

C、攻击簇内每条数据依据属性重要性计算三位数指标(A-B-C)，其中A代表源IP和目的IP相似度，B代表该数据所处的杀伤链阶段，C代表源端口和目的端口所在集群的距离；针对每一个攻击簇，以三位数指标为纵坐标，攻击步骤为横坐标生成坐标点，得到攻击图模型

其中N表示某类攻击的实际攻击过程步数，ABC代表多步攻击中每一个单步攻击的属性特征值；

D、对攻击图模型数值进行标准化，得到结果为0-N的标准化数值；根据攻击不同行为将多步攻击行为分为蠕虫式多步攻击和单目标式多步攻击，同时分别初始化攻击模型；然后从攻击图模型到初始多步攻击模型图找出第一个对应的点，并接着在最大容错范围内去检查相应匹配的对应点；采用最小二乘法通过两个最大匹配区间计算两个模型图的转换概率值；并从中找出最小转换概率值ε_min和修正过的数据集作为最终多步攻击图模型；对转换概率值进行衡量，得到针对多步攻击进行评估的预测值。

2.根据权利要求1所述的一种多步攻击模式挖掘方法，其特征在于，步骤A进一步包括以下步骤：

A1、按照敏感信息表从海量数据中筛选敏感信息，提取的数据包含时间、IP信息、端口信息以及传输的内容主体msg信息字段；

A2、考虑多步攻击行为存在蠕虫传播性质，在原有的杀伤链模型上增加了横向传播阶段，另外通过敏感信息流量数据可以检测到只用IDS告警数据无法检测到的主机信息过程，增加了消除入侵证据阶段；

A3、将A1步筛选的敏感信息流量基于杀伤链模型进行数据归一化，选取的特征字段包括源IP地址(src_ip)、目的IP地址(dst_ip)、源端口(src_port)、目的端口(dst_port)、时间(time)、杀伤链阶段(killstep)以及区分标志(datatype)，最终获得归一化后的七元组数据集合。