CN110493221B

CN110493221B - 一种基于聚簇轮廓的网络异常检测方法

Info

Publication number: CN110493221B
Application number: CN201910763799.2A
Authority: CN
Inventors: 刘晓洁; 邓真; 李涛; 黄云华
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2020-04-28
Anticipated expiration: 2039-08-19
Also published as: CN110493221A

Abstract

本发明公开了一种基于聚簇轮廓的网络异常检测方法，包括：根据训练数据生成聚簇，首先自适应生成DBSCAN聚类参数半径值Eps和形成高密度区域所需要的最少样本数Minpts，然后采用欧式距离公式，基于DBSCAN聚类算法将训练数据自动聚类为多个聚簇；聚簇轮廓的生成，根据DBSCAN聚类后生成的簇以及DBSCAN聚类算法中的Eps参数值建立各个簇的聚簇轮廓；对检测样本进行异常检测，基于聚簇轮廓对聚类生成的簇进行过滤，再根据过滤后的簇进行异常检测，判定检测点与核心点是否密度可达。本发明的优点是：对基于密度的DBSCAN聚类算法进行了改进，提出了聚簇轮廓概念，基于聚簇轮廓能够在检测过程首先基于轮廓对检测数据过滤，排除大量无关簇，减少检测过程扫描核心点数量，提高检测效率。

Description

一种基于聚簇轮廓的网络异常检测方法

技术领域

本发明涉及网络与信息安全技术领域，特别涉及一种基于DBSCAN聚簇轮廓的计算机网络异常检测方法。

背景技术

在网络与信息安全领域的入侵检测技术研究中，传统入侵检测方法是基于预先定义的检测规则，这种做法的局限性在于无法检测出规则外的入侵，对于新型的攻击无法发现。针对该问题，异常检测技术被广泛采用。异常检测技术是基于海量数据构建正常行为模型，不同于正常的行为被看作为恶意行为，通过发现检测数据中存在的异常数据达到检测恶意行为的目的。

在计算机网络异常检测所采用的算法中，聚类算法由于对先验知识的依赖较低，故常用于异常检测。现有的基于聚类的异常检测技术主要可以分为两类：第一类是同时对正常行为和异常行为的数据集进行聚类分析，然后逐个筛选生成的各个簇，通过一定的方法区分哪些是正常或是异常簇，最常被采用的是认为大的簇是正常而小的簇为异常；第二类通过对正常数据进行训练，生成主机的正常行为集，然后检测阶段通过与正常行为的偏离来判定行为异常。由于第一类方法不是事先训练正常行为模型，在检测中的筛选异常簇过程中判定哪些簇属于正常或是异常过程需要较多人工介入；第二类的异常检测技术首先建立正常行为模型，然后基于正常行为模型进行检测以发现异常行为的方法被更多的采用。

由于可用于网络异常检测的聚类算法较多，不同的聚类算法具有不同的异常检测应用场景与特点，如基于划分的k-means算法需要指定簇的数量，即需要知道正常样本构成的类数，基于层次的Birch算法虽然不用指定正常样本的类数，但是仅识别球形簇，而基于密度的DBSCAN算法不需要指定簇的数目，能够发现任意数量和形状的簇，解决了异常检测中正常行为模型的类数不确定、正常行为模型构成的簇形状不确定问题。鉴于真实网络环境中的正常行为数据往往具有多样化即类数不易确定且不同行为的规律及其构成簇的形状不同的特点，基于密度的DBSCAN算法成为异常检测的优先选择算法。DBSCAN算法虽然有如上优势，但因其在对样本的检测过程需要遍历扫描各个聚簇中所有的核心对象，即通过枚举方式得到，计算代价大，故存在计算机网络异常检测过程效率较低、实时性差问题，影响了该算法在计算机网络异常检测中的正常应用。

现有技术一的技术方案

中国专利公开号为CN106650443A的专利，该发明提出一种基于增量DBSCAN算法的恶意代码家族识别方法，其中包括基于密度聚类DBSCAN的异常检测过程。

其中的异常检测主要由两步构成，第一步是初始化数据库，存储DBSCAN聚类生成的各个簇，第二步是将检测样本与数据库中簇进行异常判定。该发明与现有技术相比优点在于采用基于密度的DBSCAN聚类算法，不需要训练阶段对聚簇数目进行设置，仅需根据DBSCAN聚类参数半径值Eps与形成高密度区域所需要的最少样本数Minpts把数据集的高密度与低密度区域进行区分，提高了检测的通用性和准确性。该发明基于DBSCAN检测的主要步骤如下：

步骤1，初始化数据库用于保存恶意代码特征向量；

步骤2，当对一个对象进行检测时首先利用Python脚本代码提取出其检测特征，并将特征转化为待检测的特征向量存储到数据库中；

步骤3：采用DBSCAN构成的聚簇中的所有数据与待检测的样本特征向量的根据欧式距离进行计算，统计小于DBSACN参数Eps的特征向量，记为集合S1；计算集合S1中所有核心向量的Eps范围内的核心向量，记为集合S2；将集合S1与集合S2进行合并得到集合S。计算中的核心向量是指以自身为中心在Eps范围内的对象个数不少于MinPts的特征向量；

步骤4：如果集合S为空，则检测的对象为噪音对象即异常样本。

现有技术一的缺点

现有技术一基于密度聚类虽然克服了现有基于划分的异常检测算法仅识别球形簇以及聚簇数不易确定和簇的形状不规则等情况存在的问题，但是存在异常检测中的检测准确率较低的问题，其算法在步骤3中可以看出，在对样本的检测过程，需要考察集合S1中所有的核心向量其Eps范围内的核心向量，即在检测过程需要扫描所有核心对象，导致异常检测中的检测效率较低。

发明内容

本发明针对现有DBSCAN聚类算法应用于计算机网络异常检测时存在的上述缺陷，提供了一种基于聚簇轮廓的网络异常检测方法，解决了上述问题。本发明中心思想是提出聚簇轮廓这个概念来刻画DBSCAN所生成簇在空间上的边界，如果一个待检测样本各个维度特征值不在某个簇的聚簇轮廓中，那么该样本一定与簇中所有核心点不满足密度可达，该样本的行为不属于该类网络行为，无需再和该簇中任意对象进行计算。即在该种情况下，假设簇中存在K个核心对象，要判断待检测对象不属于该聚簇，原DBSCAN算法要通过K次计算，而基于聚簇轮廓仅需要一次计算。若该样本与所有簇均不满足密度可达，则可判定其为异常。

为了实现以上发明目的，本发明采取的技术方案如下：

一种聚簇轮廓的网络异常检测方法，包括以下几点：

(1)根据训练数据生成聚簇：首先自适应生成DBSCAN聚类参数半径值Eps和形成高密度区域所需要的最少样本数Minpts，然后基于欧式距离公式，采用DBSCAN聚类算法将训练数据自动聚类为多个聚簇；

(2)聚簇轮廓的生成：根据DBSCAN聚类后生成的簇以及DBSCAN聚类算法中的Eps参数值建立各个簇的聚簇轮廓；

(3)对检测样本进行异常检测：基于聚簇轮廓对聚类生成的簇进行过滤，再根据过滤后的簇进行异常检测，判定检测点与核心点是否密度可达。若该样本与所有簇均不满足密度可达，则可判定其为异常。

进一步地，上述(1)点在生成聚簇之前需要确定DBSCAN聚类参数并且选定距离计算公式，具体工作为：

为了增强本方法的自适应性，训练过程如果手工确认参数将影响方法在应用过程中可用性，并且无法有效根据训练样本确定适应的参数值。本发明引用了一种基于数理统计的参数自适应确认方法，除了该方法，现公开的有多种DBSCAN参数的自适应生成方法，该方法是根据训练数据集的分布，对数据KNN分布的拟合与数学统计分析，自适应计算出对于数据集最优的全局参数Eps与Minpts值，参数的自适应生成可以在正常模型训练中避免人工干预，实现了分析流程的自动化。确定DBSCAN两个聚类参数Eps和Minpts后，基于DBSCAN聚类方法，根据训练数据生成检测模型。模型中包含主机的各个正常数据集，一个正常数据集对应生成的一个簇，其中簇可以等价表述为由一个核心对象p根据参数Eps和Minpts计算其所有满足密度可达的对象构成的集合。其中距离计算采用欧式距离计算公式，设两个对象X＝(x₁，x₂，...，x_n)与Y＝(y₁，y₂，...，y_n)为n维空间的两个向量，D_XY为两个数据样本的距离，本发明采用的欧氏距离计算方法如式(1)所示；

进一步地，将上述(1)-(3)点的工作细化如下：

第(1)点中基于DBSCAN聚类生成聚簇的细化步骤如下：

步骤1，针对训练数据集中任一样本p，计算其邻域N_Eps(p)中样本对象的个数是否大于等于设置的聚类参数Minpts，该步骤目的是判断行为样本p是否为核心对象；

步骤2，如果步骤1中判定样本p为核心对象，那么新建一个簇C_i，并且将对象p和p的邻域N_Eps(p)中所有对象加入簇C_i，然后判定新加入簇C_i的所有对象中是否存在核心对象，如果存在核心对象q，那么将核心对象q的邻域N_Eps(p)中所有对象加入簇C_i，并且计算新加入的对象是否存在核心对象，以此迭代，直到邻域中不存在核心对象，那么簇C_i生成完成。

第(2)点中聚簇轮廓生成的细化步骤如下：

步骤1，设第(1)点中DBSCAN聚类生成的一个簇中所有核心对象构成一个矩阵Core_cluster，矩阵中每一行代表一个核心对象，其中核心对象数量为i，每个对象的特征维度为j，X_ij是指第i个核心对象的第j维的值，Core_cluster的表示如式(2)所示；

计算聚簇Core_cluster中所有核心对象在其各个维度特征上的最大值和最小值，形成一个j*2维的矩阵temp_matrix，矩阵每一行代表在所有核心样本在该维度的最大值和最小值，设矩阵Core_cluster任一列k的最大值为Max_k，最小值为Min_k，temp_matrix矩阵表示如式(3)所示；

步骤2，计算聚簇轮廓各个维度的范围，根据DBSCAN参数Eps，将最小值即temp_matrix第一列所有值减去DBSCAN参数Eps，最大值即temp_matrix第二列所有值加上Eps；

步骤3，输出簇的聚簇轮廓，记为Cluster_profile，聚簇轮廓可以由一个j*2维的矩阵表示，如式(4)所示，每一行代表检测过程属于该簇的样本对象在各个维度的特征值上下边界，Min_k和Max_k是步骤1的Core_cluster矩阵中第k列的最小值和最大值，Eps是DBSCAN参数。

完成了以上三个步骤，即建立了聚簇轮廓。

本发明提出如果检测样本Y＝(y₁，y₂，...，y_j)中j个维度值的任一维度不属于Cluster_profile中该维度的范围中，则检测样本与簇中所有核心对象均不满足密度可达。

第(3)点异常检测的细化步骤如下：

步骤1，设正常行为模型中存在N个簇，设每个簇为C_i，对应聚簇轮廓Cluster_profile_i，一个聚簇轮廓的集合如式(5)所示。

对于一个待检测对象p，任选一个还未检测过的聚簇轮廓Cluster_profile_i；

步骤2，对于步骤1中选中的聚簇轮廓Cluster_profile_i，计算对象p的各个维度是否属于该聚簇轮廓，即计算任一维度p_i，是否满足Min_i-eps＜p_i＜Max_i-eps；

步骤3，如果p的各个维度均在聚簇范围中，则提取该聚簇轮廓对应簇的所有核心点形成检测向量集Detect；计算检测点与Detect中对象的距离，如果与任一对象距离小于Eps，则退出查找，标记对象正常；

步骤4，如果检测样本p在步骤2中不满足第i个簇的轮廓Cluster_profile_i，则无需再与该簇中任何核心对象进行计算；或者在步骤3中与簇中所有核心点距离均大于Eps，则检测是否还存在未检测过的聚簇轮廓，若存在则迭代回步骤1，否则输出检测点异常，结束检测。

与现有技术相比，本发明的优点在于：

本方法对基于密度的DBSCAN聚类算法进行了改进，提出了聚簇轮廓概念，不需要预测生成簇的数量，基于聚簇轮廓能够在检测过程中首先基于轮廓对检测数据过滤，减少检测过程扫描核心点数量，减少计算量。

本发明基于聚簇轮廓解决了不规则形状的簇构建的正常行为模型应用于异常检测过程中效率较低的问题，加快了检测时间。本发明与基于划分的聚类如经典的k-means相比，克服了在异常检测过程中存在的正常行为数据的聚簇数量无法预测、不规则形状的聚簇不易发现等影响检测效果问题。同时本发明提出的聚簇轮廓概念、构建以及检测方法，解决了基于密度的DBSCAN聚类算法检测效率较低无法满足真实网络环境时效性要求问题。综上所述本发明方案提高了基于DBSCAN的异常检测中的检测效率。

附图说明

图1是本发明实施例正常行为模型以及聚簇轮廓构建流程图；

图2是本发明实施例基于聚簇轮廓的检测流程图；

图3是本发明实施例聚簇轮廓对于检测效率提升对比图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下根据附图列举出具体实施例，对本发明做进一步详细说明。

一种聚簇轮廓的网络异常检测方法，提出了聚簇轮廓的概念和构建方法，针对DBSCAN算法在检测过程中需要扫描所有核心对象，导致异常检测中的检测效率较低问题，对DBSCAN算法的正常行为模型的建立和异常检测流程进行了改进，包括：基于聚簇轮廓改进的正常行为模型的建立流程和改进的正常行为模型的异常检测流程；

如图1所示，基于聚簇轮廓改进的正常行为模型的建立流程如下：

步骤1，根据训练数据集自适应生成聚类的参数，现有公开的自适应生成参数方法较多，本发明提出引用一种基于数理统计的参数自适应确认方法对于数据集最优的全局参数Eps与Minpts值，然后在样本数据集中任选一个未被访问的对象p，如果p是核心对象，那么找出从对象p出发的所有密度可达对象形成一个簇；如果点p是非核心对象，则重新选择一个未被访问的对象p，继续寻找下一个核心对象；数据集中所有的对象均被处理后完成聚类，输出各个聚簇。

步骤2，设DBSCAN聚类生成的一个簇中所有核心对象构成一个矩阵Core_cluster，矩阵中每一行代表一个核心对象，其中核心对象数量为i，每个对象的特征维度为j，X_ij是指第i个核心对象的第j维的值，Core_cluster的表示如式(6)所示；

针对该簇，计算聚簇中所有核心对象在各个维度特征上的最大值和最小值，形成一个j*2维的矩阵temp_matrix，矩阵每一行代表在所有核心样本在该维度的最大值和最小值，设矩阵Core_cluster任一列k的最大值为Max_k，最小值为Min_k，temp_matrix矩阵表示如式(7)所示；

步骤3，计算聚簇轮廓各个维度的范围，根据DBSCAN参数Eps，将最小值即temp_matrix第一列所有值减去DBSCAN参数Eps，最大值即temp_matrix第二列所有值加上Eps；

步骤4，输出簇的聚簇轮廓，记为Cluster_profile，聚簇轮廓可以由一个j*2维的矩阵表示，如式(8)所示，每一行代表检测过程属于该簇的样本对象在各个维度的特征值上下边界，Min_k和Max_k是Core_cluster矩阵中第k列的最小值和最大值，Eps是DBSCAN参数。

如图2所示，基于改进的正常行为模型的异常检测流程，包括步骤如下：

步骤1，设正常行为模型中存在N个簇，设每个簇为C_i，对应聚簇轮廓Cluster_profile_i，一个聚簇轮廓的集合如式(9)所示。

对于一个待检测对象p，任选一个还未检测的聚簇轮廓Cluster_profile_i；

步骤4，如果检测样本p在步骤2中不满足第i个簇的轮廓Cluster_profile_i，则无需与该簇中任何核心对象进行计算；或者在步骤3中与簇中所有核心点距离均大于Eps，则检测是否还存在未检测过的聚簇轮廓，若存在则迭代回步骤1，否则输出检测点异常，结束检测。

如图3所示，本发明方案提高了基于DBSCAN的异常检测中的检测效率。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的实施方法，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于聚簇轮廓的网络异常检测方法，其特征在于，包括以下步骤：

聚簇轮廓生成的细化步骤如下：

步骤1，设第(1)步中DBSCAN聚类生成的一个簇中所有核心对象构成一个矩阵Core_cluster，矩阵中每一行代表一个核心对象，其中核心对象数量为i，每个对象的特征维度为j，X_ij是指第i个核心对象的第j维的值，Core_cluster的表示如式(2)所示；

步骤3，输出簇的聚簇轮廓，记为Cluster_profile，聚簇轮廓可以由一个j*2维的矩阵表示，如式(4)所示，每一行代表检测过程属于该簇的样本对象在各个维度的特征值上下边界，Min_k和Max_k是步骤1的Core_cluster矩阵中第k列的最小值和最大值，eps是DBSCAN参数；

完成了以上三个步骤，即建立了聚簇轮廓；

如果检测样本Y＝(y₁，y₂，...，y_j)中j个维度值的任一维度不属于Cluster_profile中该维度的范围中，则检测样本与簇中所有核心对象均不满足密度可达；

(3)对检测样本进行异常检测：基于聚簇轮廓对聚类生成的簇进行过滤，再根据过滤后的簇进行异常检测，判定检测点与核心点是否密度可达；若该样本与所有簇均不满足密度可达，则可判定其为异常；

异常检测的细化步骤如下：

步骤1，设正常行为模型中存在N个簇，设每个簇为C_i，对应聚簇轮廓Cluster_profile_i，一个聚簇轮廓的集合如式(5)所示；

2.根据权利要求1所述的方法，其特征在于：(1)步在生成聚簇之前需要确定DBSCAN聚类参数并且选定距离计算公式，具体工作为：

确定DBSCAN两个聚类参数eps和Minpts，基于DBSCAN聚类方法，根据训练数据生成检测模型；模型中包含主机的各个正常数据集，一个正常数据集对应生成的一个簇，其中簇等价表述为由一个核心对象p根据参数eps和Minpts计算其所有满足密度可达的对象构成的集合；其中距离计算采用欧式距离计算公式，设两个对象X＝(x₁，x₂，...，x_n)与Y＝(y₁，y₂，...，y_n)为n维空间的两个向量，D_XY为两个数据样本的距离，本发明采用的欧氏距离计算方法如式(1)所示；

3.根据权利要求2所述的方法，其特征在于：第(1)步中基于DBSCAN聚类生成聚簇的细化步骤如下：