CN101951363A

CN101951363A - 一种安全审计中的决策树生成方法

Info

Publication number: CN101951363A
Application number: CN2010102604826A
Authority: CN
Inventors: 王健; 刘衍珩; 张英杰; 高强
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2010-08-24
Filing date: 2010-08-24
Publication date: 2011-01-19

Abstract

本发明提供了一种安全审计中的决策树生成方法。该方法主要是对网络终端通信数据进行分类，根据网络数据属性值的特点来建立决策树，实现了对网络攻击行为的记录与取证，最终提取攻击行为的特征。该发明有效地防止了恶意攻击地发生，同时可以用来预测网络中潜在的安全问题。本发明涉及的主要模块有数据预处理模块、决策树建立模块和决策树修改模块。该发明应用在移动车载网络中，设计到的网络终端有网络访问请求、网络访问授权和策略执行点。通过这三个终端设备以及它们之间的通信规范能够实现在不改变现有的网络结构及通信协议的前提下，捕获通信中的数据包，并根据数据包中IP地址、协议类型和端口号等属性对数据包进行分类，最终建立适用于安全审计中的决策树。

Description

一种安全审计中的决策树生成方法

技术领域

本发明涉及计算机网络、网络通信、安全审计、计算机程序，尤其涉及一种安全审计中的决策树生成方法。它实现了对网络数据包的分类，基于网络数据的决策树的生成，能有效地防止恶意攻击。

背景技术

在当今的信息时代，计算机网络的应用无所不在，因而网络的安全性也就成为网络应用最关键的课题之一。然而，由于网络的脆弱性以及攻击手段的多样化，防火墙和入侵检测并不能彻底保障系统的安全，因此需要使用安全审计系统发现潜在问题并加以避免.

安全审计是指根据一定的安全策略记录和分析历史操作事件和数据，发现能够改进系统性能和安全的一种信息安全保护技术，位于防火墙系统和入侵检测系统之后，作为对二者的补充，对攻击行为进行记录和取证.待信息量积累到一定程度，就可以进行入侵行为建模，从而发现新的攻击特征，并将这种特征添加到防火墙的动态规则库中.

决策树算法是数据挖掘技术中一种常用的分类方法，易于理解且应用广泛。Quinlan提出的ID3(Interative Dichotomizer 3)算法是决策树的经典算法，之后的大部分算法都是由ID3算法改进而来.Quinlan提出的C4.5算法是对ID3算法的重大改进，提高了运行效率，针对连续属性值进行了处理，弥补了ID3算法只能处理离散型数据的缺陷.目前，决策树已被应用于众多不同的领域，并且已有人将安全审计与数据挖掘相结合进行研究。现有的决策树算法大多是基于ID3算法之上进行改进的，总体来说具有以下缺点：

(1)算法的复杂度高

在ID3算法中，计算某属性值的信息期望和信息熵分别如式(1)和式(2)所示：

I = (A = a_{j}) = - Σ_{i = 1}^{k} P_{ij} lo g_{2}^{p_{ij}} - - - (1)

Entropy (A) = Σ_{j = 1}^{m} P_{j} * I (A = a_{j}) - - - (2)

这两个公式需要进行对数运算和求和运算，而这两种运算在计算机中是非常耗时的，因此建树过程就会需要大量时间。

(2)属性的取值过多

虽然处理的是离散数据，但是数据的可取值却非常多。例如，端口号的取值范围是[0，65535]，而ip地址理论上则有多达2³²个可能的取值。决策树要求对每个属性的取值覆盖率为百分百，即任意属性的任意可能取值在决策树中都有对应的分支。

(3)正、反例集比例失调

网络中不具有恶意行为的数据包被定义为正例集，反之那些有害的、可能造成破坏的数据包则被定义为反例集。在实际网络环境下，大多数数据包都是安全的，正、反例集的比例严重失调。如果根据传统规则建树，则本发明使用的决策树将是非常不平衡的。

(4)更新频度要求高

网络中的数据具有较强的时间局部性，如果决策树不及时进行自我更新，那么短时间之内其预测分类的准确度就有可能因数据陈旧而急速下降。传统决策树的更新涉及到节点的分割合并等，算法复杂且耗时严重。

本发明提供了一种安全审计中的决策树生成方法，实现了对网络攻击行为的记录与取证，从而对攻击行为建模以达到最终提取攻击行为的特征。本发明降低了运算复杂度，控制属性取值，平衡正反例集和快速更新决策树等。同时该方法实现了对网络数据包的分类，能有效地防止恶性攻击的发生。

发明内容

本发明所要解决的技术问题是针对上述现有技术中存在的缺点，而提出的一种安全审计中的决策树生成方法。本发明主要有三大模块组成分别为：数据预处理模块、决策树建立模块和决策树修改模块。该发明应用在移动车载网络中，涉及到的终端有网络访问请求(Network Access Requestor，NAR)、网络访问授权(Network Access Authority，NAA)和策略执行点(Policy Enforcement Point，PEP)。通过这三个终端设备以及它们之间的通信规范能够实现在不改变现有的网络结构及通信协议的前提下，捕获通信中的数据包，并根据数据包中IP地址、协议类型和端口号等属性对数据包进行分类，最终建立适用于安全审计中的决策树。

附图说明

图1该发明应用的设备体系结构。

图2NAA、NAR和PEP之间通信流程图。

图3决策树模块的组成原理图

图4决策树建立过程示意图。

图5决策树工作过程流程图

具体实施方式

硬件组成：

●两套完整的主机系统，包括处理器、存储器、网络适配器软件组成：

●操作系统数据预处理模块

●数据预处理模块

●决策树建立模块

●决策树修改模块

●网络接入终端模块

●网络策略决策点模块

●网络策略执行点模块

1.决策树模型运行模块

本发明的决策树方法在以上硬件基础上运行，具体的建立过程如图4所示。

附图1所示的该模型建立的网络环境及各个部分间的通信，其中，网络接入终端、网络策略决策点、网络策略执行点是实现决策树分类模型的三个框架部分，而实际通信是这三个部分的底层通信，即NAR、PEP和NAA这三个部分之间的通信就完成了网络接入的整个过程，这个过程也是决策树应用的网络实体环境。

附图2所示的是NAR、PEP和NAA之间的通信流程图。NAR和NAA是本系统的通信支持与验证功能部分。NAR接入终端的用户界面，将用户欲接入网络的请求发送给PEP模块，PEP将该请求发送给NAA，NAA通过核实数据库中终端用户的身份信息最后将身份验证结果发送给PEP，PEP根据该结果做出相应的操作(是否允许用户接入网络以及用户接入网络后所具有的访问特权)，最后PEP将结果发送给NAR，NAR会将结果告之终端用户，这样用户可以做出相应的操作。这就是该通信模块的整个网络接入过程，接入的过程中PEP捕获了网络的数据包，数据预处理模块对捕获的数据包进行相应的处理，以便决策树建立模块对该数据包进行分类，最后建立适用于安全审计中的决策树。

附图3所示的是决策树模块的组成原理图。数据预处理模块、决策树建立模块和决策树修改模块。数据处理模块将网络中的数据进行处理后交由决策树建立模块来对数据进行分类，决策树建立模块将完成对数据分成正反例集，然后统计数据的属性值情况，根据数据的统计情况确定子节点，这样逐层确立子节点之后整个决策树就建立完毕。随着网络数据量的不断增加，一棵决策树不足以快速更新甚至是分类的精确度也随之下降，这时就要用到决策树修改模块，为了兼顾决策树的高精度与快速更新，可以采用化整为零的策略，即用许多规模小的决策树组成决策树森林，这样既调高了决策树的规模，保证了分类的精度，又控制了单棵决策树的大小，便于更新。更新时，采取替换单棵树的方法，即当数据达到饱和时，就建立新的决策树，将原来的某棵树替换掉。替换算法采用数理统计方法，在检索的过程中同时记录每棵树的检索成功率。替换时选择检索成功率最小的树进行替换。检索成功率K如公式(3)：

K = \frac{s + k}{s_{n}} - - - (3)

其中，s表示在该棵树上检索成功的次数，S_n表示该棵树建立以来，在其上检索的总次数，K为一个给定的大于0的初始常数，用来防止当一棵树刚刚建立时，其成功检索次数为0时即被删除。

附图4所示的是决策树建立过程示意图。图a中的节点为初始根节点，初始时只有一个无意义的根节点用-1表示。经过第一次统计，发现某一属性的取值最少，故以其为标准进行第一次分类如图b，接着以第一个分枝重复上述过程进行递归建树如图c，直到全部属性值都出现在任意路径中，如图d为最终建立的决策树。

附图5所示的是决策树工作过程流程图，其中，“数据包流入”是用于建立决策树所需要的数据。

本发明所述方法通过模块之间的相互协作主要完成两个工作：

1.决策树的建立过程，完整工作流程如下：

a)将数据预处理模块的数据包划分为正、反例集.正、反例集是根据事先设定的安全标准筛选出来的，假设同一个IP短时间内(2s)发出的链接数(除源网段号与源主机号以外其他属性不同的包就算一个新的连接)小于5个则称其发出的数据是安全的，反之则不安全.安全标准可以根据具体的应用环境自行设定；

b)统计满足当前分类条件的数据包的属性取值情况，选择可取值最少的属性作为划分节点，该属性的每一个值作为一个根节点的子节点；

c)以每一个子节点为根，返回到(2)重复建树过程，直至所有的属性都出现在从根节点到叶子节点的一条路径中.

d)如果决策树达到一定的规模，就会影响分类的精确度，这样就要利用决策树修改模块对决策树进行适当的修改，以提高决策树的分类精度及便于自我更新。

2.决策树的工作过程，完成工作流程如下：

a)对于一个刚进入网络的数据包，首先匹配黑名单，如果匹配成功则直接将该数据包放入黑名单中；

b)如果匹配不成功，就与已有的决策树进行匹配，看该数据包是否出现在已有的决策树中，如果匹配成功，将该数据包放入到safetable中；

c)如果匹配仍然不成功，暂时先把该数据包放到一个不确定表(unknown)中，等待该表中的数据包达到一个阈值；

d)该不确定表达到阈值之后，更新黑名单，建立新的决策树；

e)当决策树需要替换的时候，考虑执行决策树转换成决策树森林。

Claims

1.一种安全审计中的决策树生成方法，其特征在于根据用户的网络数据可以对数据进行分类，从而对分类的数据建立决策树，最后对建立的决策树不断地进行修改调整，所述方法包括数据预处理模块、决策树建立模块和决策树修改模块；

上述数据预处理模块完成了对网络数据的属性值的处理，所述方法主要考虑IP地址、端口号和协议类型等属性，将IP地址分成主机地址和网络地址两个独立的属性，这样所述方法建立决策树所需的属性即：源IP网段号、源IP主机号、源端口号、目的IP网段号、目的IP主机号、目的端口号和协议类型，为了排除原始属性变量之间的不同度量对分类的影响，以相同的量级参与分类，同时把把IP、端口号和协议类型全部转换成十进制处理；

上述决策树建立模块完成了对网络中的数据包进行分类，并统计满足当前分类条件的数据包的属性取值情况，根据决策树算法建立决策树，该树的每一个从根节点到叶子节点的路径都对应一条规则，这个规则可以用来作为判断数据包安全与否的依据，决策树从根节点到叶子节点的任意一条路径都包含数据预处理模块中的所有属性；

上述决策树修改模块将许多规模比较小的决策树组建成决策树森林，目的是提高决策树的分类精度和决策树更新的频率，同时也能控制单棵决策树的大小，更新的时候采取替换决策树的方法，即当数据达到饱和时就建立新的树，将原有的某棵树替换掉。