CN105577679A

CN105577679A - 一种基于特征选择与密度峰值聚类的异常流量检测方法

Info

Publication number: CN105577679A
Application number: CN201610023675.7A
Authority: CN
Inventors: 何道敬; 倪谢俊; 黄琳
Original assignee: BEIJING QIHU CETENG TECHNOLOGY Co Ltd; East China Normal University
Current assignee: BEIJING QIHU CETENG TECHNOLOGY Co Ltd; East China Normal University
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2016-05-11
Anticipated expiration: 2036-01-14
Also published as: CN105577679B

Abstract

本发明公开了一种基于特征选择以及密度峰值聚类的网络流量异常检测方法包括如下阶段：流量采集阶段：通过网络分析工具监听网络，并将监听到的数据包采集到本地；特征提取阶段：从数据包中提取属于同一个流的数据包，对数据包进行特征抽取，并将提取的特征进行归一化；特征选择阶段：利用最大信息系数评估每个特征对分类决策的重要性，再根据特征之间的冗余度对特征进行简单聚类，选择出重要性最高的一个特征加入特征子集；聚类分析阶段：采用改进的基于密度峰值的聚类方法对特征进行聚类得到多个流量类型簇，对每一个流量类型簇进行少量抽样，并进行类别检测，利用抽样样本众数类别的流量类型来覆盖整个流量类型簇的流量类型，以检测出异常流量。

Description

一种基于特征选择与密度峰值聚类的异常流量检测方法

技术领域

本发明属于数据挖掘以及异常检测的交叉领域，特别涉及一种基于特征选择与密度峰值聚类的异常流量检测方法。

背景技术

当窥探、入侵等恶意行为发生时，网络上传输的流量在某些特性，如流量大小、数据包长以及数据包特定区域的内容等特性会表现出与正常流量的相异性，若能够尽早检测这些异常流量，就可以提前采取行动来保护网络安全。研究对这些异常流量的检测、定位造成异常的主机，进而对异常主机进行处理，对于避免网络拥塞、保证网络性能、避免网络资源的滥用以及保护网络信息安全，具有重要意义。

数据挖掘方法的易用性与自动性使其近年来成为异常检测领域的热点，受到许多研究机构的重视。当前基于数据挖掘的异常流量检测所面临的挑战主要有：

1.由于数据量往往较为庞大，提取的特征维度较高且存在无关特征，使得异常流量检测占用的计算资源高，分析时间长，因此需要有效的方法提取最合适的特征。

2.当前有监督的分类方法需要对未知的流量进行大量的人工标记，显然无法应用于大规模的数据量，而一些无监督的聚类方法尽管不需要标记，然而聚类精确度以及所需时间对一些参数，如聚类中心的个数敏感，难以达到满意的结果。

特征选择是一种较为常见的对提取的特征进行选择，使之具有更强的信息代表与相关性，并减少冗余的技术。然而大量的数据挖掘方法需要基于样本的标记，在没有标记的情况下对特征之间的互信息进行估计存在局限；此外，提取的特征不仅包含离散类型的特征，还包含连续特征。离散化的效果对结果影响较大。本文采用的基于最大信息系数的无监督特征选择，从而不仅确保在无标记情况下，信息之间的相关性能够得到较为准确的测量，且能够在不降低聚类精度的情况下，有效减少冗余的特征数量。

聚类是一种普遍的无监督学习方法，旨在将物体分类的有意义的组别。同一个簇中的成员看作相似的，而不同组别中的成员看作不同的。因此产生于不同机制的网络数据会被分到不同的组别中去。现有的一种聚类方法，基于密度峰值的聚类算法，尽管结合了基于距离以及基于密度两类聚类方法的优势，然而在其聚类中心的选择阶段需要对所有数据记录建立二维矩阵，以求记录其二者之间的距离，在单机上，所能处理的数据十分有限。本文根据其密度峰值特性，采用改进的基于抽样机制的密度峰值聚类算法，对其聚类中心选择阶段进行了一定比例抽样，使得可处理的数据量得到较大提高且仅带来微量误差下降。

本发明的目的在于克服现有技术的缺点与不足，提供一种基于无监督特征选择以及聚类的异常流量检测方法，在继承了无监督特征选择以及聚类无需标记的优势的同时，也具备处理更多数据的能力。

发明内容

本发明提出了一种基于特征选择以及密度峰值聚类的网络流量异常检测方法，包括如下阶段：

流量采集阶段：通过网络分析工具监听网络，并将监听到的数据包采集到本地；

特征提取阶段：从所述数据包中提取属于同一个流的数据包，对所述数据包进行特征抽取，并将提取的特征进行归一化；

特征选择阶段：利用最大信息系数评估每个特征对分类决策的重要性，再根据特征之间的冗余度对特征进行简单聚类，在相互之间存在冗余的特征中选择出重要性最高的一个特征加入特征子集；

聚类分析阶段：对所述特征子集的特征，采用改进的基于密度峰值的聚类方法对特征进行聚类，将其分为多个流量类型簇，对每一个所述流量类型簇进行少量抽样，通过已有的入侵数据库、网络流量和日志文件进行分析来对抽样的流量数据进行分辨并标记，利用抽样样本众数类别的流量类型来覆盖整个流量类型簇的流量类型，以检测出异常流量。

本发明提出的所述基于特征选择以及密度峰值聚类的网络流量异常检测方法中，所述流量采集阶段包括下述步骤：

步骤1a：初始化Linux系统；

步骤1b：使用yum命令来安装tcpdump；

步骤1c：采集通过系统的网卡的流量抓取tcp数据包，将数据包保存到本地的.cap文件中。

本发明提出的所述基于特征选择以及密度峰值聚类的网络流量异常检测方法中，所述特征提取阶段包括下述步骤：

步骤2a：从所述数据包的IP包头中提取五元组，所述五元组为源地址、源端口、目的地址、目的端口以及协议类型；

步骤2b：从所述数据包的TCP报头中提取flag字段的特征，包括基本特征、时间戳、从源主机到目标主机数据的字节数、从目标主机到源主机的数据字节数；

步骤2c：将连续的特征进行归一化，使之落在[0.0，1.0]的区间内。

本发明提出的所述基于特征选择以及密度峰值聚类的网络流量异常检测方法中，所述特征选择阶段包括下述步骤：

步骤3a：将所述数据的特征分为离散型与连续型，其中离散型的特征直接使用互信息公式计算两个特征之间的相关度；对于连续型的特征，使用最大信息系数来评估两个特征之间的相关度；

步骤3b：将每一个特征与其他特征之间的关联度进行求和，得到求和变量数值；

步骤3c：移除所述求和变量数值小于特定阈值的特征；

步骤3d：对于剩余的特征，将两者之间相关度大于特定阈值的特征进行聚类，形成簇，同一簇内的特征存在冗余，

步骤3e：对每一个簇，选取簇内与其他特征之间相关度最大的一个特征，加入并获得特征子集。

本发明提出的所述基于特征选择以及密度峰值聚类的网络流量异常检测方法中，所述方法的聚类分析阶段包括下述步骤：

步骤4a：将经过重要度以及冗余度筛选的特征所形成的子集导入系统用于聚类分析；

步骤4b：加入抽样机制，对每一个所述流量类型簇进行少量抽样，计算抽样样本在高维空间的密度以及距离，并确定聚类中心；

步骤4c：为高维空间中的每一个点选择距离最近的一个聚类中心；

步骤4d：通过对簇进行抽样以及样本进行鉴别，确定各数据的类型，以甄别出异常流量。

本发明的有益效果在于：

本发明通过数据挖掘方法进行异常流量检测，可以检测出以往未知的、潜在的异常流量，从而避免将这些流量数据划分到已知的类别中去；通过应用最大信息系数对特征之间的相关性进行估计，避免了对连续型特征进行离散化而造成的结果不精确；再利用特征之间的相关度，对特征进行聚类，将存在冗余的特征聚到一个簇中，并最后取簇中相关度最高的一个特征，加入到最终特征子集；通过对聚类中心选择阶段进行抽样优化，避免对所有的数据记录进行欧式距离的两两运算与保存，极大地降低了这个过程用到的数据量，且仅带来微量检测准确率的下降。

附图说明

图1是本发明基于特征选择与密度峰值聚类的异常流量检测方法的流程图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本实施例中有关的技术术语代表的含义如下：

1.tcpdump：tcpdump可以将网络中传送的数据包的头部完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。

2.MIC：最大信息系数。

3.局部密度

ρ_{i} = Σ_{j &Element; I_{S}} \ {i} χ (d_{ij} - d_{c}),

其中函数

χ (x) = \{\begin{matrix} 1, x < 0; \\ 0,, x &GreaterEqual; 0; \end{matrix}

参数d_c＞0为截断距离，I_s为参与密度计算的数据点集合，j为集合I_s内不等于i的数据记录的编号，d_ij为数据点i到数据点j之间的欧氏距离。

4.距离δ_i，设表示一个降序排列下标序，即它满足ρ_q1≥ρ_q2≥…ρ_qN，即可定义：为步骤3计算出的数据点i的密度，为对密度进行降序排序的数组，距离的定义为，若该点的密度为全局最大，就找一个距离最大的点作为该点的距离值，i的取值为1到N，N为参与计算的数据点的总数。若该点的密度非最大，则将其与所有密度更大的点之间的距离取最小值。

5.Maxredundancy保存当前特征与所有特征的冗余最大值，maxindex保存冗余度和当前特征最高的特征所在簇数。

6.Label[]：标记数组，大小与总数一样，表示第[i]数据属于哪个簇；Center[]：中心数组，大小与中心个数一样，表示第i个中心是第Center[i]条数据。

如图1所示，本发明基于特征选择以及密度峰值聚类的网络流量异常检测方法包括如下四个阶段：

聚类分析阶段：对所述特征子集的特征，采用改进的基于密度峰值的聚类方法对特征进行聚类，将其分为多个流量类型簇，对每一个所述流量类型簇进行少量抽样，通过已有的入侵数据库、网络流量和日志文件进行分析来对抽样的流量数据进行分辨并标记，对于已被记录的攻击形式，将收集到的信息与已知的网络入侵和系统误用模式数据库进行比较，从而发现违背安全策略的行为。该过程可以简单地通过字符串匹配以寻找一个简单的条目或指令，或复杂地利用正规的数学表达式来表示安全状态的变化。通常而言，一种入侵模式可以用一个过程(如执行一条指令)或一个输出(如获得权限)来表示。对于前者无法检测出的异常流量，通过统计正常使用时的测量属性，这些测量属性的平均值将被用来与网络、系统的行为进行比较，任何观察值在正常值范围之外时就认为有入侵发生。例如，当在晚上八点至早上六点之间不登录的帐户却在凌晨两点试图登录，日志的分析则将其标记不正常行为，因为它发现一个在晚8点至早6点不登录的帐户却在凌晨两点试图登录。利用抽样样本众数类别的流量类型来覆盖整个流量类型簇的流量类型，以检测出异常流量。

以下结合具体实施例，对本发明各个阶段做进一步阐述。

其中，在流量采集阶段包括如下实施步骤，

步骤1a：使用Centos6.5服务器，Linux下默认系统没有安装tcpdump，无法直接使用；

步骤1b：使用yum来直接安装tcpdump。命令为“yuminstall-ytcpdump”；

步骤1c：由于通常本地系统只设有一个网卡，并且通常只需要抓取TCP数据包，因此使用类似于“tcpdump-n-iethOandtcp”类似的命令就可以开始抓取数据包。为了将数据包保存下来，需要加上“-wethO.cap”，将数据包保存到ethO.cap文件中，以备下一步分析之用。

特征提取阶段包括如下实施步骤：

步骤2a：首先从IP包头中提取五元组：srcIP(源IP地址)，desIP(目的IP地址)，srcPort(源端口)，desPort(目的端口)，protype(协议类型)；

步骤2b：默认收集的均为TCP数据包，则提取TCP报头flag字段的的基本特征(flag)、时间戳(timestamp)、从源主机到目标主机数据的字节数(src_bytes)、从目标主机到源主机的数据字节数(des_bytes)等诸多特征；

步骤2c：为避免大数在聚类中的权重影响小数，将连续的特征进行归一化，使之落在[0.0，1.0]的区间内。

特征选择阶段包括如下实施步骤：

步骤3a：将数据的特征分为离散型与连续型，其中离散型的特征直接使用互信息公式计算两个特征之间的相关度；互信息公式：设两个随机变量(X，Y)的联合分布为p(x，y)，边际分布分别为p(x)，p(y)，互信息I(X；Y)是联合分布p(x，y)与乘积分布p(x)p(y)的相对熵，即

I (X; Y) = Σ_{x &Element; X} Σ_{y &Element; Y} p (x, y) l o g \frac{p (x, y)}{p (x) p (y)};

对于连续型的特征，使用最大信息系数来评估两个特征之间的相关度，设Fi为第i个特征，对于所有连续性特征，二重循环遍历，建立关联度矩阵M，M[i][j]＝M[j][i]＝MIC[Fi][Fi]；最大信息系数(maximalinformationcoefficient，MIC)：用来表示变量的相关性大小(适用于线性和非线性情况)。MIC具有以下三条重要性质：1)如果变量x，y存在函数关系，则当样本增加时，MIC值趋于1；2)如果变量x，y可以有参数方程c(t)＝[x(t)，y(t)]所表达的曲线描述，则当样本增加时，MIC值必然趋于1；3)如果变量x，y相互独立，则当样本增加时，MIC值必然趋于0。

步骤3b：将某一特征与其他特征之间的关联度进行求和，该变量从一定程度上代表了该特性对总体信息的贡献程度，在样本没有标记特征的前提，可以用于代替该特性对标记特征的互信息，实现无监督特征选择；对于每一个特征，计算其重要性M[i][i]＝M[i][i]＝Avg(MIC[i])；以上公式中，M[i][i]为关联度矩阵，Avg(MIC[i])为特征i与其他特征关联度之和的平均值。

步骤3c：对于步骤3b中求和变量数值较低(也即小于特定阈值θ1)的特征，进行移除，因为这代表该特征对分类无明显帮助；也即如果M[i][i]＞θ1，则加入到关联特征子集；

步骤3d：将剩余的特征，根据其两者之间相关度(也即大于特定阈值θ2)进行聚类，同一个簇内的特征存在冗余，因此对一个簇内的特征，取相关度最高的一个特征，以此来获得更精简的选择特征子集。若簇数为0，则将第一个特征设为一个簇，否则对于每一个特征，去遍历现有的簇，然后加入到关联度最大的一个。令maxredundancy＝0.0，maxindex＝0；如果MIC[F_i][F_j]＞maxredundancy，则令maxredundancy＝MIC[F_i][F_j]且maxindex＝F_j.index。若maxredundancy＜θ2，则说明该特征与其他所有特征冗余性并不强，为其独自创建一个簇。最终对每个簇进行遍历，取出其中最大关联的特征并加入到最终特征子集中。当某一特征的信息度(也即θ1)小于0.2时，可以认定其为无关特征；而当两个特征之间的冗余度(也即θ2)大于0.5时，认定两个特征之间存在冗余。若θ1值设置太高，会将富含信息量的特征排除掉，θ1值设置太低，会引入无关变量。若θ2值设置太低，会导致原本关联度并不高的特征聚到一起，最终选择其中的一个会损失信息量，θ2值设置太高，导致属性较难与其他属性达到冗余的定义，独立形成一个簇，导致最终选择的特征过多。

聚类分析阶段包括如下实施步骤：

步骤4a：将经过步骤3b重要度筛选以及步骤3d冗余度筛选的特征所形成的子集导入系统用于聚类分析。

步骤4b：载入特征选择好的低维数据，根据总条数N，确定样本数目为Sample＝C*N^(1/2)，进行随机抽样，C为不超过5的常数；给定用于确定截断距离dc的参数t∈(0，1)，计算距离d_ij，并令d_ij＝d_ji，i＜j，i，j∈IS；确定截断距离dc。将上一步计算的距离d_ij(i＜j)，共个距离值进行升序排序，设得到的序列为d₁＜＝d₂≤…≤d_M，取d_c＝d_f(Mt)，其中f(Mt)表示对Mt进行四舍五入后得到的整数。按照局部密度定义计算并生成其降序排列下标序确定聚类中心并初始化数据点归类属性标记具体为

步骤4c：在聚类阶段，需要对所有数据进行标记。即Label[i]＝argmin_j∈Centers(eculidean_distance(D[i]，Center[j]))。在对非聚类中心数据点进行归类时，判断c_qi是否为-1，若是则将与其密度大于它的距离最小的一个点的聚类中心值赋予c_qi；设j属于数据中心的编号，对于数据点D[i]，遍历聚类中心Center[]数组，保存该数据点到所有中心Center[j]的距离的最小值以及取得最小值的中心下标j，然后将Label[i]的值设为j，表示j为数据i的聚类簇编号。

步骤4d：这一步主要是聚类类型确定，由于步骤4c中的标记，这些数据已经被分为相应的簇，对于每一个簇，进行如下操作：从每一个簇中抽取少数量的记录，根据已有的入侵数据库、网络流量和日志文件对抽样的流量数据进行分辨，从而达到较高的检测率，采取多数表决制度，选择数量最大的记录类型作为该簇的记录类型。利用抽样样本众数类别的流量类型来表示整个流量类型簇的流量类型，检测出异常流量。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于特征选择以及密度峰值聚类的网络流量异常检测方法，其特征在于，包括如下阶段：

聚类分析阶段：对所述特征子集的特征，采用改进的基于密度峰值的聚类方法对特征进行聚类，将其分为多个流量类型簇，对每一个所述流量类型簇进行少量抽样，通过已有的入侵数据库、网络流量和日志文件进行分析来对抽样的流量数据进行分辨并标记，利用抽样样本众数类别的流量类型来表示整个流量类型簇的流量类型，以检测出异常流量。

2.根据权利要求1所述的基于特征选择以及密度峰值聚类的网络流量异常检测方法，其特征在于，所述流量采集阶段包括下述步骤：

步骤1a：初始化Linux系统；

步骤1b：使用yum命令来安装tcpdump；

3.根据权利要求1所述的基于特征选择以及密度峰值聚类的网络流量异常检测方法，其特征在于，所述特征提取阶段包括下述步骤：

步骤2c：将连续的特征进行归一化，使之落在[0.0,1.0]的区间内。

4.根据权利要求1所述的基于特征选择以及密度峰值聚类的网络流量异常检测方法，其特征在于，所述特征选择阶段包括下述步骤：

步骤3c：移除所述求和变量数值小于特定阈值的特征；

5.根据权利要求1所述的基于特征选择以及密度峰值聚类的网络流量异常检测方法，其特征在于，所述方法的聚类分析阶段包括下述步骤：