CN102045357A

CN102045357A - 一种基于仿射聚类分析的入侵检测方法

Info

Publication number: CN102045357A
Application number: CN201010611171XA
Authority: CN
Inventors: 张江; 戚建淮
Original assignee: SHENZHEN RONGDA ELECTRONICS CO Ltd
Current assignee: SHENZHEN RONGDA ELECTRONICS CO Ltd
Priority date: 2010-12-29
Filing date: 2010-12-29
Publication date: 2011-05-04

Abstract

本发明公开了一种基于仿射聚类分析的入侵检测方法，包括以下步骤：步骤1，建立入侵检测数据库的特征数据向量，并对所述特征数据向量进行标准化处理；步骤2，所述特征数据向量作为仿射聚类分析的输入数据向量，对计算机网络上的用户行为数据向量进行仿射聚类分析，所述仿射聚类分析的方法为先建立特征数据向量的测度矩阵，其中，以相关系数作为各特征数据向量之间的相似度；再对特征数据向量进行仿射聚类分析，得出识别结果。基于仿射聚类来建立入侵检测模型可以优化或完全抛弃既有模型，对用户行为重新划分，从中不断挖掘新的潜在模式，使该方法在入侵检测领域有广泛的应用前景。

Description

一种基于仿射聚类分析的入侵检测方法

技术领域

本发明属于信息安全技术领域，提出了基于仿射聚类分析(affinity propagation clustering)方法建立入侵检测数据库，并据此结果划分安全等级的方法，本发明的入侵检测方法主要应用于信息安全管理系统。

背景技术

随着计算机网络的迅速发展和广泛使用，网上的数据也频繁受到黑客的攻击和篡改，网络安全变得越来越重要。目前，常用的安全技术，如信息加密、防火墙等，可以作为保护网络的第一道防线，但仅应用上述技术是不够的，比如目前广泛使用的防火墙技术不能阻止内部攻击，不能提供实时检测等，人们由此提出了网络安全的第二道防线-入侵检测技术。入侵检测用于识别非授权使用计算机系统的个体(如黑客)和虽有合法授权但滥用其权限的用户(如内部攻击)。现有的入侵检测系统大都采用专家系统或基于统计的方法，这需要较多的经验，而数据挖掘(data mining)方法的优势在于它能从大量数据中提取人们感兴趣的、事先未知的知识和规律，而不依赖经验。

聚类分析是数理统计中的一种多元分析方法，它是用数学方法定量地确定样本的亲疏关系，从而客观地划分类型事物之间的界限。目前，聚类分析已广泛应用在各行各业，通常将被聚类的事物称为样本或实体，将被聚类的一组事物称为样本集。聚类法的基本思想认为，我们所研究的对象中各实体之间存在着程度不同的相似性，于是，根据众多单位的多个观测指标，找出能够度量各单位之间相似程度的统计量，以其作为划分类型的依据，将一些相似程度较大的单位聚合为一类，而将另外一些彼此相似程度较大的单位聚合为另一类。

运用数据挖掘中的仿射聚类分析方法建立入侵检测模型数据库的优点是：能高度自动化地分析原有数据，作出归纳性推理，从中挖掘出潜在的模式，预测出客户的行为，更重要的是它能够优化或完全抛弃既有的模型，对入侵行为重新划分并用显示或隐式的方法进行描述。该方法具有较强的实用性和自适应功能，利用此技术实现网络安全目前在国内外都是一种新的尝试。

入侵检测是对入侵行为的发觉。入侵检测系统将收集到的信息加以分析，判断网络中是否有违反安全策略的行为和遭到攻击的迹象，若找到入侵痕迹，认为与正常行为相符合的行为是正常行为，与攻击行为相符合的是入侵行为，二者都不符合的，则认为是异常数据，将其加入到数据仓库中作进一步分析。

入侵检测系统的基本框架如图1所示，该系统通过引擎观察原始数据，并计算用于模型评估的特征；检测器获取引擎的数据并利用检测模型评估它是否是一个攻击；数据仓库被用作数据和模型的中心存储地；检测模型生成单元实时生成自适应的入侵检测模型，该入侵检测模型送至检测器实时检测入侵行为。在整个检测系统中，自适应的入侵检测模型的产生无疑对入侵行为的辨识起着决定作用，如何快速准确地产生入侵检测模型就至关重要。

发明内容

入侵检测模型能否高效、准确地辨析海量的用户行为数据，并尽可能降低误判率、漏判率是判断一个入侵检测系统成功与否的标志。数据挖掘技术是一种决策支持过程，其主要基于人工智能(AI)、机器学习统计等技术，能从大量数据中提取或挖掘知识。本发明采用了具有可伸缩性、高维性、能处理不同类型属性、可按各种约束聚类等优点的仿射聚类方法建立入侵检测模型。

本发明采用的技术方案为：一种基于仿射聚类分析的入侵检测方法，包括以下步骤：

步骤1，建立入侵检测数据库的特征数据向量；

步骤2，所述特征数据向量作为仿射聚类分析的输入数据向量，对计算机网络上的用户行为数据向量进行仿射聚类分析，所述仿射聚类分析的方法包括如下步骤，

步骤21，建立特征数据向量的测度矩阵，其中，以相关系数作为各特征数据向量之间的相似度；

步骤21，对特征数据向量进行仿射聚类分析，得出识别结果。

优选地，所述特征数据向量包括一个时间窗口内目标主机是与当前连接相同的连接次数、出现SYN错误的连接在所述一个时间窗口内目标主机是与当前连接相同的连接次数中所占的百分比、目标端口相同的连接所占的百分比、目标端口不同的连接所占的百分比、目标端口与当前连接相同的连接次数、出现SYN错误的连接在所述目标端口与当前连接相同的连接次数中所占的百分比和目标主机不同的连接所占的百分比中的至少一个数据。

优选地，上述步骤2中的仿射聚类分析的方法如下：

首先，计算两个特征数据向量x_i，x_j的相似度s(i，j)，

s(i，j)＝-corr(x_i，x_j)，其中，1≤i≤N，1≤j≤N，N为待进行仿射聚类分析的行为数据的个数；

再建立数据点之间的传递信息，其中用r(i，k)反映作为候选类代表点的特征数据向量x_k适合作为特征数据向量x_i的类代表点的吸引度信息；用a(i，k)反映特征数据向量x_i选择作为候选类代表点的特征数据向量x_k作为其类代表点的归属度信息，根据吸引度、归属度和相似度进行仿射聚类分析；

现存仿射聚类分析的方法如下：

将进行入侵检测分析的所有行为数据向量中的任意两个特征数据向量间的归属度均初始化为0：

a(i，k)＝0，其中，1≤i≤N，1≤k≤N；

更新任意两个特征数据向量间的吸引度信息：

r (i, k) = s (i, k) - \max_{j : j &NotEqual; k} {a (i, j) + s (i, j)},

其中，1≤i≤N，1≤k≤N；

更新任意两个特征数据向量间的归属度信息：

a (k, k) &LeftArrow; \underset{j : j &NotEqual; k}{Σ} \max {0, r (j, k)}

a (i, k) &LeftArrow; \min {0, r (k, k) + \underset{j : j &NotElement; {i, k}}{Σ} \max {0, r (j, k)}}

其中，1≤i≤N，1≤k≤N，1≤j≤N；

作出判断：

其表示以使得r(i，k)+a(i，k)为最大值的数据点x_k作为数据点x_i的类代表点。

本发明的有益效果：相比较以前的方法而言，该方法主要有以下的优点：仿射聚类不存在像k-means等聚类分析方法那样易陷入局部最优，聚类结果与初始聚类中心相关，以及方法的可靠性仅仅是建立在反复多次重复运算的基础上等问题。因此，基于仿射聚类来建立入侵检测模型可以优化或完全抛弃既有模型，对用户行为重新划分，从中不断挖掘新的潜在模式，使该方法在入侵检测领域有广泛的应用前景。

附图说明

图1为入侵检测系统的基本框架。

图2为发明的基于仿射聚类分析的入侵检测方法的步骤。

具体实施方式

聚类分析是一种很好的数据驱动方法，然而对于入侵检测序列数据，庞大的计算量使它很难实用。基于此，本发明提出了将有效、快速的新聚类方法-仿射聚类用于分析检测模型的大数据集。该方法不用随机选择初始的类代表点，其将所有的数据点都作为潜在的类代表点，通过最小化能量函数与信息传递架构(Message passing architecture)，得到最优化的类代表点与它们对应的类。

如图2所示，本发明的入侵检测方法的具体步骤为：

步骤1：建立入侵检测数据库的特征数据向量。

入侵检测很大程度上依赖于收集信息的可靠性和正确性，选择哪些数据表现用户行为是首要问题。黑客们经常在系统和网络日志文件中留下踪迹，充分利用这些信息是检测入侵的必要条件。所选择的特征数据向量应能充分反映用户行为特征全貌，选取特征数据向量的一般原则为使数据量尽量小，提取难度不可太大，还要考虑学习过程的时间、用户行为的时效性等。

步骤2：进行仿射聚类分析。

仿射聚类按照“最大化类内相似性，最小化类间相似性”的原则，将数据对象分组为多个类或簇(cluster)，同一个簇中的对象具有较高相似度，而不同簇间的对象差别较大，对象间的相异度根据对象的属性值计算。聚类分析属观察式学习，不依赖预先定义的类和训练实例，由此形成的每个簇，可从中导出相应规则。

仿射聚类方法的模型：

通过最小化能量函数与信息传递架构(Message passing architecture)，APC将所有的点都作为可能的类代表点，并且得到最优化的类代表点与它们对应的类。较详细的介绍如下。

设特征数据向量集X＝{x₁，x₂，…x_N}是需要聚类的数据点集，通过后面一系列步骤，仿射聚类技术将被应用到这些数据点。

首先，两个数据点(或特征数据向量)x_i，x_j的相似度s(i，j)为它们的相关系数，而不是采用传统方法将数据点(或数据向量)的欧式距离的平方的负值作为数据点之间进行聚类分析的相似度，即：

s(i，j)＝-corr(x_i，x_j) (1)

其中，1≤i≤N，1≤j≤N。

第二，建立数据点之间的传递信息，并且作为优化问题信息将被更新。用r(i，k)表示作为候选类代表点的数据点x_k对数据点x_i的吸引度(Responsibility)信息，其中，1≤k≤N，r(i，k)反映候选类代表点x_k适合作为数据点x_i的类代表点的程度。a(i，k)表示数据点x_i对作为候选类代表点的数据点x_k的归属度(Availability)信息，其反映数据点x_i选择数据点x_k作为其类代表点的适合程度。在数据r(i，k)和a(i，k)之间存在两种信息交换，r(i，k)和a(i，k)越大，数据点x_k作为数据点x_i的类代表点的可能性越大。开始时，归属度被初始化a(i，k)＝0。

整个APC方法的具体步骤如下：

初始化：

将任意两个数据点间的归属度均初始化为0，即：

a(i，k)＝0 (2)

其中，1≤i≤N，1≤k≤N。

更新任意两个数据点间的吸引度信息：

r (i, k) = s (i, k) - \max_{j : j &NotEqual; k} {a (i, j) + s (i, j)} - - - (3)

其中，1≤i≤N，1≤k≤N。

更新任意两个数据点间的归属度信息：

a (k, k) &LeftArrow; \underset{j : j &NotEqual; k}{Σ} \max {0, r (j, k)} - - - (4)

a (i, k) &LeftArrow; \min {0, r (k, k) + \underset{j : j &NotElement; {i, k}}{Σ} \max {0, r (j, k)}} - - - (5)

其中，1≤i≤N，1≤k≤N，1≤j≤N。

作出判断：

c_{i} &LeftArrow; \underset{k}{\arg \max} {r (i, k) + a (i, k)} - - - (6)

公式(6)表示以使得r(i，k)+a(i，k)为最大值的数据点x_k作为数据点x_i的类代表点。

下面以《计算机工程》(李洋，2007)和《系统安全与入侵检测》(戴英侠等，2002)公开的一个小型用户行为数据库为例说明仿射聚类的具体实施方式。

实施时，如表1所示，选择在一个时间窗口内目标主机是与当前连接相同的连接次数Count、出现SYN错误的连接在连接次数Count中所占的百分比Serror、目标端口(service)相同的连接所占的百分比Same_srv、目标端口不同的连接所占的百分比Diff_srv、目标端口与当前连接相同的连接次数Srv_count、出现SYN错误的连接在连接次数Srv-count中所占的百分比Srv_serror和目标主机不同的连接所占的百分比rv_diff_host等作为特征数据向量，作为仿射聚类的输入数据集，得到分类结果Class。

表1的每一行(除参数序号与Class列外)作为1个数据点或者特征数据向量，为了便于分析，在进行仿射聚类分析之前，一般需要对各特征数据向量进行标准化处理，以使各特征数据向量均位于所设定的数值范围内，特征数据向量作标准化处理后仍是向量，本实施例中，标准化采用零-均值标准化，即标准化等于特征数据向量与其平均值的差值再除以其标准差，在此可通过matlab函数实现z＝(x-mean(x))/std(x)求所有标准化的特征数据向量间的相关系数，即所有数据点间的s(i，j)＝-corr(x_i，x_j)，然后代入仿射聚类方法的公式(2)至(6)，得到分类结果，其中分类结果中对应的同类的特征数据向量被给予了相同的标号，即如果x_i与x_j在一次聚类分析中对应为同类，则x_i在下次聚类分析中也定义为x_i。这样，样本特征数据向量逐渐收敛为三种不同的类。将特征数据向量中连接次数Count、出现SYN错误的连接在连接次数Count中所占的百分比Serror、目标端口与当前连接相同的连接次数Srv_count等各数据量的值最大的一类表示表示为攻击，值最小的一类表示正常，剩下的一类表示异常。

表1网络连接记录及分类

经过程序聚类后，识别出攻击、异常和安全三种类型的记录(也可根据需要设定其它分类数)。将该方法用于不同大小数据集，实验表明，此例中，聚类分析后识别出的结果，如表1的Class栏所示。从中可以看出，运行聚类后，记录3是唯一具有攻击倾向的记录；而记录4～6、12、13、19、20是具有异常行为模式的7条记录，需要进一步观察；剩下的记录1、2、7～11、14～18则是安全的。对分类的记录数据进行合理性分析，可以得出记录行为不具备攻击特性的用户，这样可提高其安全等级；而记录具备攻击特性的用户应予以重点监控。

另外，为提高准确性，可对其中的异常行为记录作进一步分析，再次运用仿射算法进行二次识别，划归出行为模式，再次应用聚类方法对异常行为作进一步分类记录。

Claims

1.一种基于仿射聚类分析的入侵检测方法，其特征在于：包括以下步骤：

步骤1，建立入侵检测数据库的特征数据向量；

步骤2，所述特征数据向量作为仿射聚类分析的输入数据向量，对计算机网络上的用户行为数据向量进行仿射聚类分析，所述仿射聚类分析的方法为先建立特征数据向量的测度矩阵，其中，以相关系数作为各特征数据向量之间的相似度；再对特征数据向量进行仿射聚类分析，得出识别结果。

2.根据权利要求1所述的入侵检测方法，其特征在于，所述特征数据向量包括一个时间窗口内目标主机是与当前连接相同的连接次数、出现SYN错误的连接在所述一个时间窗口内目标主机是与当前连接相同的连接次数中所占的百分比、目标端口相同的连接所占的百分比、目标端口不同的连接所占的百分比、目标端口与当前连接相同的连接次数、出现SYN错误的连接在所述目标端口与当前连接相同的连接次数中所占的百分比和目标主机不同的连接所占的百分比中的至少一个数据。

3.根据权利要求1或2所述的入侵检测方法，其特征在于，步骤2中的仿射聚类分析的方法如下：

首先，计算仿射聚类的两个特征数据向量x_i，x_j的相似度s(i，j)，

s(i，j)＝-corr(x_i，x_j)，其中，1≤i≤N，1≤j≤N，N为待进行仿射聚类分析的行为数据向量的个数；

仿射聚类分析的方法如下：

a(i，k)＝0，其中，1≤i≤N，1≤k≤N；

更新任意两个特征数据向量间的吸引度信息：

r (i, k) = s (i, k) - \max_{j : j &NotEqual; k} {a (i, j) + s (i, j)},

其中，1≤i≤N，1≤k≤N；

更新任意两个特征数据向量间的归属度信息：

a (k, k) &LeftArrow; \underset{j : j &NotEqual; k}{Σ} \max {0, r (j, k)}

a (i, k) &LeftArrow; \min {0, r (k, k) + \underset{j : j &NotElement; {i, k}}{Σ} \max {0, r (j, k)}}

其中，1≤i≤N，1≤k≤N，1≤j≤N；

作出判断：