CN107517216A

CN107517216A - 一种网络安全事件关联方法

Info

Publication number: CN107517216A
Application number: CN201710803716.9A
Authority: CN
Inventors: 刘毅; 李渊; 吴峥; 肖霄; 周洁
Original assignee: JETWAY INFORMATION SECURITY INDUSTRY Co Ltd
Current assignee: Huiyi big data technology (Shenzhen) Co., Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2017-12-26
Anticipated expiration: 2037-09-08
Also published as: CN107517216B

Abstract

本发明公开了一种网络安全事件关联方法，先对原始安全事件进行分类，分别获取单条原始安全事件的IP地址、端口号、时间戳、原始安全事件分类以及警报内容等属性值，再对不同原始安全事件属性值的相似度进行判断，通过原始安全事件间的相似程度对原始安全事件进行关联处理，把有内在联系的超警报关联起来；本发明方法依赖原始安全事件之间的相似程度对网络安全事件进行聚类，能够更好地把有内在联系的超警报关联起来。

Description

一种网络安全事件关联方法

技术领域

本发明属于计算机信息安全技术领域，涉及一种针对入侵检测系统的后处理方法，具体涉及一种能自动寻找入侵检测系统中产生的原始安全事件之间关联并得到超警报信息的方法。

背景技术

入侵检测系统作为一种网络安全设备，部署的目的是为了通知管理员针对网络服务与数据的威胁，然而入侵检测系统的输出被认为等级较低，因为一次较简单的攻击可以由多个原始安全事件组成，这样就让入侵警报信息的分析工作变得非常的困难：管理员需要尝试从收集的警报信息中重构由潜在攻击组成的整个攻击模式，而这些收集到的信息中必然包括一些虚假的报警信息。

比如，网络管理人员想要从一定数量的信息中分析构成一个分布式拒绝攻击类别的攻击，或者相似的网络攻击，由于源IP地址能够被轻易地伪造，而攻击者能够将真正被攻击的宿IP地址掩盖在一系列IP地址中，所以这些信息源中有大量的虚假报警信息。

事件关联系统是后处理模块，它能让检测分析专家从入侵检测系统的输出中找到那些最重要的警报，有效地过滤虚假报警。然而，一般来说，在攻击模式随着时间发生变化的情况下，在创建系统和维护系统的时候，这样的模块要求人工参与程度很高。

现有网络安全事件关联方法和系统的研究主要集中在以下两个方面：

1，制定规则。绝大部分正在运行的事件关联系统必须依赖规则库，尤其是条件库和结果库。这种方法主要缺陷有两点：规则库庞大。为了维护正确的规则库需要进行大量工作，当攻击方法发生变化以后，还需要维护更多新的规则，而许多旧的规则将变成冗余规则；这些冗余规则一旦没有正确处理，会在一定程度上影响系统执行效率，而当冗余规则数量过多时候，系统性能会显著下降。

2，统计的关联方法在完成事件关联的过程中，无法解释分类的结果。特别是基于监督学习的统计算法，由于无法对学习过程进行总结和归纳，很难对分类的过程和原因进行归类，尤其是当出现新类型的攻击方式以后，此前的模型需要重新学习以适应新的环境。而明确有新类型出现的情况太少，导致重新学习的时间和重新学习的数据集很难确定。

申请号为201410619507.5的中国专利“一种网络安全事件关联分析系统”通过将实时发生的网络安全事件与样本安全事件作对比，确定实时发生的网络安全事件的发展趋势，保证网络信息安全，该专利没有对安全事件进行关联分析。

申请号为201410619562.4的中国专利“一种改进的网络安全事件关联分析系统”同上一个专利类似，改变了性能参数的关联计算方法，但是仅仅做了一点修正。

申请号为201010292868.5的中国专利“一种安全事件关联分析方法及系统”公开了：

A、系统检测到安全事件后，判断系统中是否存在与所述检测到的安全事件相匹配的状态机，如果是，执行步骤C，否则执行步骤B；

B、根据预先定义的安全事件序列树，在系统中创建与所述检测到的安全事件相匹配的状态机，执行步骤C；其中，所述安全事件序列树的每个节点对应所述状态机的一个状态，同一安全事件序列树上安全事件发生的先后代表着安全事件的发展情况；

C、如果系统检测到的安全事件满足所述状态机的迁移条件，则对该状态机进行状态迁移；其中，所述状态机的状态迁移条件为：在预定时间内，检测到预定数量的、与状态机当前状态相对应的安全事件；

D、当所述状态机迁移至终态或所述状态机当前状态发生超时，结束所述状态机的运行；

E、根据所述状态机的运行记录，生成系统安全日志。

该关联方法是前提和结果关联方法。预先建立攻击步骤的前提和结果。是典型的设定规则的关联分析方法。

申请号为201310205117.9的中国专利“安全事件关联分析方法及系统”最核心的部分是对低等级事件进行删除，合并高等级事件，并未完成警报信息的关联。

申请号为201010613751.2的中国专利“网络安全事件关联分析系统”仅对安全事件采集和通信处理形成一个框架，并未涉及具体的实施方法。

发明内容

本发明的目的在于提供一种能自动寻找入侵检测系统中产生的原始安全事件之间关联、并得到超警报信息的方法。

本发明解决其技术问题所采用的技术方案是：一种网络安全事件关联方法，步骤如下

S1，对原始安全事件进行分类，分别获取每条原始安全事件的五个属性值： IP地址、端口号、时间戳、原始安全事件分类以及警报内容；

S11，记录网络环境中物理设备的IP地址，若有明确的拓扑结构，则按照网络拓扑划分制定网络节点中IP地址，若无明确的拓扑结构但知晓IP地址，则定义四段数字构成的IP地址a.b.c.d为子节点，前三段数字相同的IP地址a.b.c.*具有共同的父节点，前两段数字相同的IP地址a.b.*.*具有共同的祖先节点；

S12，针对标准网络协议中常用协议，选择7、9、11、13等200端口作为系统常用端口；针对网络安全事件中常用的恶意软件，选择31、41、58等350个端口作为常见恶意软件占用端口；选择1—1024作为系统级进程使用的端口，筛选出系统常用端口和常见恶意软件占用端口之后，将剩下的端口号作为私有端口；选择1025—65536作为开发应用软件使用的公共端口号，筛选出系统常用端口和常见恶意软件占用端口之后，将剩下的端口号作为公有端口；

S13，按照工作日与非工作日对原始安全事件进行时间戳的属性标注，再按照上午、中午、下午和晚上对每日的原始安全事件进行属性标注；

S14，将原始安全事件涉及的网络行为分为常规行为和异常行为，再将每种行为分为基于主机的行为和基于网络的行为；

S15，将原始安全事件的具体内容分为基于行为的警报和基于特定协议的警报，将属于同一种行为或者同一种协议的原始安全事件类别归为一类；

S16，属性树的定义：从根节点开始对属性值进行分类，每一个节点的子节点代表一个子类别，直到每一个具体的属性值均属于一个叶子节点为止，形成一棵自顶向下构建的树形数据结构；

S2，在不同的属性树上找两条原始安全事件之间的五个最短距离L；

S3，根据以下公式对五个最短距离L中对应属性的相似度进行计算：

根据最短距离L得到原始安全事件属性值间的相似度：一对原始安全事件属性值间的最短距离越小，说明两原始安全事件的相似度越高；

S4，根据五个属性相似度得到两条原始安全事件之间各属性的相似度，通过加权平均的方式计算两个单条原始安全事件之间的相似度；

S5，将单条原始安全事件的每个属性视为一个维度，每条原始安全事件对应于一个n维空间中的点，通过DBSCAN聚类算法寻找空间中最密集的点并进行聚类：

S51，与目标原始安全事件的相似度大于相似度阈值的单条原始安全事件的数量超过数量阈值，则判定为核心点；落在核心点的距离半径之内，与核心点的相似度高于相似度阈值的判定为边界点；任何非核心、非边界的点均判定为噪声点；

S52，将所有的点标记为核心点、边界点或噪声点，然后删除噪声点，将所有距离在阈值threshold之内的核心点划分为同一类，定义为一条超警报信息；

S53，得到超警报信息以后，从时间序列中寻找超警报信息之间存在的关联关系：不考虑APT攻击的情况下，如果一个单条原始安全事件发生以后在一个动态时间窗口没有发生新的单条原始安全事件，那么可以认为该单条原始安全事件与下一个单条原始安全事件之间关联关系很小；

S54，根据时间窗口生成原始的事务信息集合，使用DBSCAN聚类方法将所述的事务信息生成全局的超警报信息字典，得到单条原始安全事件与超警报信息的映射关系；

S55，根据映射关系使用超警报信息替换原始的事务信息中的每一个原始安全事件，得到新的事务信息集合，新的事务信息集合内的条款项均为超警报信息；

S6，根据关联算法得到的超警报信息，通过动态时间窗口定义事务，通过FP-Growth算法对事务进行数据挖掘，通过数据挖掘得到伴生超警报信息。

所述的一种网络安全事件关联方法，步骤S12中应用协议端口号有7，9，11，13等共200个；常见的恶意软件端口号有31，41，58，121等共350个；保留端口号有919个。

所述的一种网络安全事件关联方法，步骤S1中依据各属性树，所有属性各取值间的最短距离计算方法均为：

Step1，判断该属性值A到根结点的路径，用路径上的各节点表示路径；

Step2，判断该属性值B到根节点的路径；

Step3，找出路径中最早出现的共同父节点N；

Step4，计算属性值A到N的距离，计算属性B到N的距离，将两个距离值相加，即得出属性值A和属性值B的距离。

所述的一种网络安全事件关联方法，所述的任意两个不同端口号间的最短距离为2或者4，其中最短距离为2的属性对的数量占所有属性对总数的5%，最短距离为4的属性对数量占所有属性对总数的95%。

所述的一种网络安全事件关联方法，步骤S6中，先读取一条单条原始安全事件的时间戳，作为本事务信息的初始时间，向后延迟5分钟作为时间窗口；依次读取单条原始安全事件集合中的记录，如果下一条单条原始安全事件的时间戳在当前时间窗口内，将该单条原始安全事件放入本事务信息中，然后以该单条原始安全事件的时间戳作为初始时间，向后延迟5分钟作为新的时间窗口；如果不在，即将当前事务信息生成为新的事务信息，开始以当前单条原始安全事件的时间戳作为初始时间，设定新的时间窗口，开始生成下一个事务信。

本发明的有益效果是：本专利方法不需要对前提条件进行假设，不需要对分类对象的统计分布情况进行预估，针对网络安全事件的聚类，不需要指定分类的类别数量，而是依赖原始安全事件之间的相似程度进行聚类，针对超警报告警的挖掘时间窗口动态生成，并未固定生成事务信息集合的时间窗口周期，这样能够更好地把有内在联系的超警报关联起来。

此外，本发明方法在解决网络安全事件关联方面还有如下优势：

1，本发明关联方法易于部署和维护，同时比那些在简单的规则指导下运行的系统更有效；2，本发明方法没有强制制定事件集合需要被划分成多少类，使得事件处理看起来更自然更符合逻辑，是一种更贴近实际环境的、无需制定分类类别的聚类方法；3，本发明方法未对数据集的分布做出限制。

附图说明

图1为本发明方法的流程图；

图2为本发明原始安全事件的聚类过程示意图；

图3为本发明超警报事件的关联过程示意图；

图4为本发明被监测网络的网络拓扑结构；

图5为本发明被监测网络的IP树结构图；

图6为本发明一棵IP地址属性分类树的结构示意图；

图7为本发明一棵端口号属性分类树的结构示意图；

图8为本发明一棵时间戳属性分类树的结构示意图；

图9为本发明一棵事件分类属性分类树的结构示意图；

图10为本发明一棵事件内容属性分类树的结构示意图。

具体实施方式

本发明公开了一种网络安全事件关联方法，是一种基于属性分类树的相似度计算方法，主要分两步实现关联。

第一步，原始安全事件通过一步告警进行分类，得到超警报信息。

第二步，对通过第一步分类得到的超警报信息进行合并，每一次合并得到具有很强关联性的超警报事件集合。

本发明方法基于以下原理实现：网络攻击可以被分解为若干个攻击步骤，每一次的网络攻击又构成攻击者更大攻击计划中的一个步骤，一个具体的攻击步骤可以由众多的入侵检测警报记录构成。

基于相似性的事件关联方法主要考虑通过原始安全事件间的相似程度对原始安全事件进行关联处理。

网络安全事件由多个要素构成，一般而言包括：源IP地址、宿IP地址、时间戳、源端口号、宿端口号、事件类别、事件名称、威胁等级等字段。为了衡量任意两个网络安全事件到底有多么相似，我们逐个分析网络安全事件的每个字段。

单条原始安全事件之间的相似度由组成单条原始安全事件的五个属性的相似度进行判断。为了合理的计算属性间的相似度，引入属性分类树的概念。如何衡量同一个属性两个的值之间到底有多么相似是计算两个单条原始安全事件之间相似度的基础。

计算属性值之间的相似度，是为了量化地反映两个属性值之间有多少共性。从分类的角度讨论不同属性值之间的共性问题，可以发现对属性值合理地归纳的类别能够概括共性。如同生物学里对生物进行归类的林奈分类法，使用从抽象到具体层层递进的纲、目、属、种表达生物分类的层次，我们也能够使用属性分类树，决定属性值的归属问题。因此，针对IP地址、端口、时间戳、警报类别和警报内容分别设定了属性分类树。

参照图1、图2和图3所示，本专利关联方法的具体步骤如下：

（1）原始安全事件数据集：

原始安全事件数据集是本专利处理流程的输入。该集合包含来自网络安全设备判定为安全事件的所有记录，包括但不仅限于网络入侵检测设备或者主机入侵检测设备产生的报警记录。一条安全事件通常应包含以下字段：源IP地址、宿IP地址、源端口、宿端口、时间戳、安全事件内容、安全事件等级、安全事件类别。这些字段的取值是进行第二步原始安全事件聚类的依据。

（2）原始安全事件的聚类

首先根据当前网络实际情况，针对若干属性，生成对应的属性树。由属性树组成的集合是计算安全事件相似度的基础。然后依据属性树，针对安全事件之间的相似度。最后，根据安全事件相似程度，生成若干聚类。其中，每一个聚类即代表相应的超警报事件。因此，原始安全事件的聚类过程即是生成超警报事件集合的过程。

（3）超警报事件数据集

超警报事件对应原始安全事件完成聚类以后的每一个类别，代表一类安全事件经过合理地抽象后得到的主要特征。与原始的安全事件相比，超警报类别属性字段的数量没有变化，只是有一些属性字段的取值按照属性树的结构向上进行抽象。以IP地址为例，如果某一类安全事件的IP地址全部落在保护区域1之内，那么由该类安全事件推导出的超警报事件的IP地址就应该为“保护区域1”。

（4）超警报的关联

该步骤中，主要思路是需要按照通用数据挖掘方法使用动态时间窗口设置捕获事务集合的窗口条件。存在于同一个窗口中的超警报事件即位于同一个事务中。在分出事务以后，采用通用数据挖掘方法对事务进行挖掘，最后得到超警报事件关联结果。

（5）超警报事件关联结果

超警报事件关联结果对超警报事件进行关联分析，找出了那些经常性同时出现的超警报事件。

下面首先简要介绍属性分类树的定义，然后给出计算不同属性值的相似度的方法。

1，属性分类树的结构

安全事件由不同的属性字段构成。为了衡量不同安全事件相同属性之间的相似程度，定义如下数据结构：属性树。

属性树是一棵自顶向下构建的树形数据结构。从根节点开始对属性值进行分类。每一个节点的子节点代表一个子类别。直到每一个叶子节点均对应于一个具体的属性值为止。

1），IP地址的属性分类树

网络环境中每一台设备都分配一个唯一的IP地址，使得设备在通讯时能够互相定位。在网络拓扑结构中，处于同样物理环境的设备往往在IP地址上能够归为同一类别。我们缺少相关的基于网络拓扑的信息，所以按照IP地址段来构建IP地址属性分类树。我们知道一个IP地址由4段由0—255的数字组成，中间使用字符“.”进行分割，报警信息中IP地址字段的一种树状结构的一般性示例如图6所示。

记录网络环境中物理设备的IP地址，有明确的拓扑结构时，按照网络拓扑划分制定网络节点中IP地址的树形结构，如果图4和图5所示；无明确的拓扑结构但知晓IP地址时，定义四段数字构成的IP地址a.b.c.d为子节点，前三段数字相同的IP地址a.b.c.*具有共同的父节点，前两段数字相同的IP地址a.b.*.*具有共同的祖先节点，如果图6所示。

在本实施例中，按照这4段是否相同划分IP地址属性分类树，在图6所示的IP地址属性分类树中，每一个IP地址均可以被分到以上IP地址属性分类树中的某一个叶子结点上。

举例说明，192.168.1.175和192.168.1.185是节点192.168.1.*的子节点；192.168.1.175和192.168.2.185的共同祖先节点时192.168.*.*。

192.168.1.175与192.168.1.185的距离为2，因为两个IP地址之间的最短路径是192.168.1.175→192.168.1.*→192.168.1.185；

192.168.1.175和192.168.2.185之间的距离是4，因为两个IP地址之间的最短路径是192.168.1.175→192.168.1.*→192.168.*.*→192.168.2.*→192.168.2.185。

在实际网络环境中，我们可以根据具体网络拓扑情况设定IP地址的属性分类树。比如，属于同一网段的资产或者同一科室的资产，均属于同一个节点的字节点。

以某被监测网络的网络拓扑结构及IP地址划分情况举例。

顶层接入路由具有顶层IP地址的路由器表示，该路由器分出4个区域：防火墙保护区域1、防火墙保护区域2、办公网络1、办公网络2。其中，防火墙保护区域1包括服务器N台，网络地址分别为IP地址1直到IP地址N；防火墙保护区域2包括服务器P台，网络地址分别为IP地址1直到IP地址P；办公网络1包括办公主机R台，网络地址分别为IP地址1直到IP地址R；办公网络2包括办公主机S台，网络地址分别为IP地址1直到IP地址S。具体网络拓扑示意图如图4所示。

为了反应网络环境中IP地址的相似性，我们采用如图5所示的IP树结构：

这种以实际网络拓扑结构为基础的树形结构，能够更好地表达安全事件之间关于IP地址的相似程度。因此，针对不同的网络环境，需要根据实际拓扑情况，构造IP地址的属性树，如图7所示。

另外，图4所示仅仅是对安全事件的一个字段进行划分，该划分是为了计算安全事件相似程度的而进行的准备工作；而计算相似程度又是为了完成事件聚类所做的准备工作；而完成事件聚类又是为了接下来进行事件挖掘所做的准备。

2），端口的属性分类树

端口号是不同主机进程间通讯彼此定位的标识。在网络通信中，常用的协议拥有固定的端口号，而一些常见的恶意软件也有自己的固定端口号。此外，程序员普遍将1—1024作为保留端口号，供系统级进程使用。在开发应用软件的时候使用1025—65536，避免与系统进程发生冲突。因此，将端口号分为以下4类，常见的应用协议端口号、常见的恶意软件端口号、保留端口号、公共端口号。图7为端口号属性分类树。

3），时间戳的属性分类树

在实际网络环境中，人们的行为往往和时间有直接关系。通常人们作息分为工作日与非工作日。而在每一天中又分为上午、中午、下午和晚上。借助以上时间分类规律制定时间戳的属性分类树，如图8所示。

4），警报信息类别的属性分类树

警报信息类别属性标识每一类报警的类别。在网络行为中，常常存在与常规行为相悖的异常行为，将这一类行为称为异常。另外，警报中也能够直接识别出诸如病毒、木马等攻击行为，称为attack。根据对数据集的观察，这两种行为都包含了两种更细致的分类，分别是基于主机的行为和基于网络的行为。根据以上规则构建警报信息类别的属性分类树，如图9所示。

5），警报内容的属性分类树

警报内容是警报的具体信息。通过分析数据集合中警报内容的具体内容，可以分为基于行为的警报和基于特定协议的警报。根据具体报文的详情，能够将属于同一种行为或者同一种协议的警报信息类别归为一类，如图10所示。

2，属性值相似度的计算

根据上步骤给出属性分类树，针对不同属性开始计算属性值之间的相似度。计算过程分为两步。第一步计算两个属性值在属性分类树上的最短距离，即最短路径的长度。第二步，根据最短距离得到属性值间的相似度。

（1）计算属性间的最短距离

Step1：判断该属性值A到根结点的路径，用路径上的各节点表示路径；

Step2：判断该属性值B到根节点的路径；

Step3：找出路径中最早出现的共同父节点N；

Step4：计算属性值A到N的距离，计算属性B到N的距离，将两个距离值相加，即得出属性值A和属性值B的距离。

（2）计算属性值的相似度

一对属性值间的最短距离越短，说明在属性分类树上，这两个值靠得越近，相似度越高。反之，如果两个值间的最短距离越长，说明在属性分类树上两个值离得越远，相似度越低。为了量化相似度，可以采用排名的方式。首先计算任意属性值在属性分类树上最短距离的集合，由短到长进行排列，然后观察当前属性值对在该集合中的排名。排名越靠前，说明这对属性值越相似；排名越靠后，说明这对属性值越不相似。

下面以port属性为例，进行解释。

根据如图7所示的端口属性分类树：

这棵端口号属性分类树共有2层，第一层有4个一级结点，第二层是所有的65536个叶子结点，即所有的端口号。其中一级结点为：

（1）系统常用端口-system

为系统常用通信协议所占用的端口，如7、9、11、13等，共200个

（2）常见恶意软件占用端口-malicious

为常见的恶意软件使用的端口，如31、41、58、121等，共350个

（3）TCP/IP协议栈默认划分为私有的端口-private

这一类端口号是默认留给系统服务的。因此，从1-1024的端口号中，除开第（1）类和第（2）类的端口号，均属于private

（4）TCP/IP协议栈默认划分为共有的端口-public

这一类端口号是默认留给公共服务的。因此，从1025-65535的端口号中，除开第（1）类和第（2）类的端口号，均属于public。

可以看到，在这棵树上，任意两个不同端口号间的最短距离只有两个值，2或者4。经过计算，距离为2的属性对的数量占所有属性对总数的5%，距离为4的属性对数量占所有属性对总数的95%。因此，可以建立以下标准，通过属性值对间的最短路径长度来衡量端口号属性的相似度，见以下公式：

以上公式是是针对端口这一个属性给出的一种衡量尺度，其它的衡量尺度需要根据实际对应的属性树进行计算，根据同样的思路，可以得出所有属性的相似度计算方法。一般而言，经验公式如下：

当得到不同单条原始安全事件之间各属性相似度计算的方法以后，可以通过加权平均的方式计算两个单条原始安全事件之间的相似度。

根据不同的场景，可以对不同属性设定不同的权值。在本应用场景下，令所有属性的权值为1的时候，对不同事件进行计算。

聚类

这里对相似度进行计算的结果进行无参数的聚类方法，其思想是找到空间中最密集的那些点，然后围绕这些密集点进行聚类。优选地，选取DBSCAN聚类算法。如果将单条原始安全事件的每个属性视为一个维度，那么对于拥有n个属性的单条原始安全事件就对应于一个n维空间中的点。DBSCAN聚类算法首先按照以下定义将所有的单条原始安全事件划分为核心点、边界点或者噪声点：

（1）核心点：在距离半径以内点的数量超过阈值，即判断为核心点。使用单条原始安全事件相似性判断，可以转换为与目标原始安全事件相似度大于相似度阈值的单条原始安全事件数量超过数量阈值的单条原始安全事件，即被判定为核心点。

（2）边界点：边界点不是核心点，但是落在核心点的距离半径之内。使用单条原始安全事件相似性判断即是边界点并非核心点，但与核心点的相似度高于相似度阈值。

（3）噪声点：任何非核心、非边界的点均为噪声点。

正是因为一个区域内聚集的点很多，所以该区域才被识别为密集区域，而这些区域中的点也被识别为核心点。

另外，一个核心点领域内的点越多，那么该邻域内的点成为核心点的概率也越大，这反映了空间的密集与稀疏程度。因此，合适的阈值划分出的核心点应当远大于其它两类点，例如相似度阈值为0.7，数量阈值为1400得到的划分导致三类点数量非常接近是不合理的。这也是判断阈值是否合理的重要标准。同时，合适的阈值应当尽可能少地出现噪声点，而且相似度阈值不应过低。综合考虑核心点、边界点和噪声点的数量，优选地使用相似度阈值为0.8，数量阈值为80，即如果数据集中，与目标原始安全事件相似度在0.8以上的单条原始安全事件数量超过了80，则目标原始安全事件被识别为核心点。

给出在完成以上划分以后，执行如下步骤：

（1）将所有的点标记为核心点、边界点或噪声点；

（2）删除噪声点；

（3）将所有距离在阈值threshold之内的核心点划分为同一类；

（4）将每一个边界点指派到步骤（3）划分的类别中。

动态时间窗口的超警报信息挖掘

根据前面的聚类算法得到超警报信息以后，希望通过传统的数据挖掘方式从时间序列中寻找到有哪些超警报信息之间存在关联关系。数据挖掘首先要解决的问题是如何定义事务。考虑到单条原始安全事件之间存在较强的时效性。不考虑APT攻击的情况下，如果一个单条原始安全事件发生以后在一段时间内没有发生新的单条原始安全事件，那么可以认为该单条原始安全事件与下一个单条原始安全事件之间关联关系很小。这里采用动态时间窗口，将数据集划分成若干个事务信息的集合。优选地，设定动态时间窗口长度为5分钟。

具体划分事务信息集合的方法如下：

（1）首先读取一条单条原始安全事件的时间戳，作为本事务信息的初始时间，向后延迟5分钟作为时间窗口；

（2）依次读取单条原始安全事件集合中的记录。如果下一条单条原始安全事件的时间戳在当前时间窗口内，将该单条原始安全事件放入本事务信息中，然后以该单条原始安全事件的时间戳作为初始时间，向后延迟5分钟作为新的时间窗口；如果不在，即将当前事务信息生成为新的事务信息，开始以当前单条原始安全事件的时间戳作为初始时间，设定新的时间窗口，开始生成下一个事务信息。

根据时间窗口生成原始的事务信息集合以后，针对每个事务信息使用前述DBSCAN聚类方法，生成全局的超警报信息字典，并且得到单条原始安全事件与超警报信息的映射关系。

超警报信息举例原文如下：

15 11.11.79.* 220.170.88.36 80 public Attempted Information Leak ATTACK-RESPONSES 403 Forbidden

属性间使用空格分开。第一个字段代表超警报信息的编号，为15；srcIP为11.11.79.*，代表该超警报信息经过聚类，得到一个较抽象的ip属性值；destIP为220.170.88.36；srcPort为80，destPort为public，表示destPort向上完成聚类。Classification为Attempted Information Leak，content内容为ATTACK-RESPONSES 403 Forbidden。该超警报信息代表了一组源IP在11.11.79.*网段的ip，通过80端口，对目标IP220.170.88.36的public类别端口，完成了一组Attempted Information Leak的动作，动作详情为ATTACK-RESPONSES 403 Forbidden。

然后根据单条原始安全事件与超警报信息的对应关系，使用超警报信息替换原始的事务信息中的每一个单条原始安全事件，得到新的事务信息集合。新的事务信息集合内的条款项均为超警报信息。对new事务信息里的事务信息进行fp-growth挖掘。

本发明方法不需要对前提条件进行假设，不需要对分类对象的统计分布情况进行预估，针对网络安全事件的聚类，不需要指定分类的类别数量，而是依赖原始安全事件之间的相似程度进行聚类，针对超警报告警的挖掘时间窗口动态生成，并未固定生成事务信息集合的时间窗口周期，这样能够更好地把有内在联系的超警报关联起来。

1，本发明关联方法易于部署和维护，同时比那些在简单的规则指导下运行的系统更有效（处于成本和习惯方面的考虑，分析人员总是倾向于使用那些基于规则的分析系统，但规则的维护和升级其实需要更大的资源和更多的知识结构）；

2，本发明方法没有强制制定事件集合需要被划分成多少类，使得事件处理看起来更自然更符合逻辑，是一种更贴近实际环境的、无需制定分类类别的聚类方法；

3，本发明方法未对数据集的分布做出限制（一些基于机器学习的关联方法对网络行为有分布的限制。但在实际网络环境中，网络攻击行为可能并未满足模型的限制条件。但是在我们这种基于属性进行的聚类处理过程中并没有这种要求）。

上述实施例仅例示性说明本发明的原理及其功效，以及部分运用的实施例，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种网络安全事件关联方法，其特征在于：步骤如下

S11，记录网络环境中物理设备的IP地址，若有明确的拓扑结构，则按照网络拓扑划分网络节点中IP地址，若无明确的拓扑结构但知晓IP地址，则定义四段数字构成的IP地址a.b.c.d为子节点，前三段数字相同的IP地址a.b.c.*具有共同的父节点，前两段数字相同的IP地址a.b.*.*具有共同的祖先节点；

S12，针对标准网络协议，将端口分为系统常用端口、常见恶意软件占用端口、私有端口和公有端口；

S53，得到超警报信息以后，从时间序列中寻找超警报信息之间存在的关联关系：不考虑APT攻击的情况下，如果一个单条原始安全事件发生以后在一个动态时间窗口没有发生新的单条原始安全事件，那么认为该单条原始安全事件与下一个单条原始安全事件之间关联关系很小；

2.根据权利要求1所述的一种网络安全事件关联方法，其特征在于，所述的步骤S12中应用协议端口号有7，9，11，13等共200个；常见的恶意软件端口号有31，41，58，121等共350个；保留端口号有919个。

3.根据权利要求1所述的一种网络安全事件关联方法，其特征在于，所述的步骤S1中依据各属性树，所有属性各取值间的最短距离计算方法均为：

Step2，判断该属性值B到根节点的路径；

Step3，找出路径中最早出现的共同父节点N；

4.根据权利要求1所述的一种网络安全事件关联方法，其特征在于，所述的任意两个不同端口号间的最短距离为2或者4，其中最短距离为2的属性对的数量占所有属性对总数的5%，最短距离为4的属性对数量占所有属性对总数的95%。

5.根据权利要求1所述的一种网络安全事件关联方法，其特征在于，所述的步骤S6中，先读取一条单条原始安全事件的时间戳，作为本事务信息的初始时间，向后延迟5分钟作为时间窗口；依次读取单条原始安全事件集合中的记录，如果下一条单条原始安全事件的时间戳在当前时间窗口内，将该单条原始安全事件放入本事务信息中，然后以该单条原始安全事件的时间戳作为初始时间，向后延迟5分钟作为新的时间窗口；如果不在，即将当前事务信息生成为新的事务信息，开始以当前单条原始安全事件的时间戳作为初始时间，设定新的时间窗口，开始生成下一个事务信息。