CN111464529A

CN111464529A - 一种基于聚类集成的网络入侵检测方法及系统

Info

Publication number: CN111464529A
Application number: CN202010240829.4A
Authority: CN
Inventors: 杜航原
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28

Abstract

本发明提供一种基于聚类集成的网络入侵检测方法及系统，能够提高网络入侵检测结果的有效性和鲁棒性。所述方法包括：获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合；构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐；确定基聚类集合中各基聚类划分的聚类集成权重；根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果。本发明涉及网络安全技术领域。

Description

一种基于聚类集成的网络入侵检测方法及系统

技术领域

本发明涉及网络安全技术领域，特别是指一种基于聚类集成的网络入侵检测方法及系统。

背景技术

伴随着网络用户个人信息泄露、各大数据库信息外泄、关键信息服务器设备受威胁及用户主机被入侵等事件的频繁发生，网络安全问题已经成为当今社会的热点议题之一。由于网络入侵行为方式的不断多样化和复杂化，基于防火墙等的静态安全防范技术已无法满足网络安全的实际需求，主动防御网络异常入侵行为的安全防护技术—入侵检测系统应运而生。

网络入侵检测的本质是对网络空间中的信息进行加工处理的过程。对于这样的信息处理问题的研究，通常会在经过标记的数据集上进行，通过标记后的带标签数据来检验算法的有效性。一方面，网络入侵样本标注门槛较高，用于网络入侵检测的数据集比较少，给检测方法的设计和验证带来了挑战。另一方面，真实环境中，对于新的网络入侵手段需要实时响应，通常没有足够多的时间来标记大量的入侵样本。

近年来，无需样本标记的无监督学习方法逐渐在网络入侵检测领域体现出独特的优势，其中以距离度量作为相似性评价指标对数据进行划分的聚类方法，已经在网络入侵检测中得到广泛应用。而大多数聚类方法的原理都基于一个相似的假设：待聚类的网络流量数据具有某一特定结构特征。因此，当数据的结构与算法假设的结构相符时会取得较好的聚类效果，反之聚类结果就难以反映数据真实的内在特性。

聚类集成算法的提出使聚类的研究和应用获得了重大进步，聚类集成通过使用多个基聚类结果的信息，最大程度的共享基聚类集体的信息，构造一个更优的聚类结果，能够提高聚类结果的质量和鲁棒性，在处理网络入侵检测任务时更具优势。同时，在网络入侵检测任务中聚类集成方法也面临以下难点：首先，实际入侵检测任务中，网络流量数据包含的类别数目事先无法获知；其次，类别标签是一种符号化表示形式，因此需要将不同基聚类中的类别标签校准为一致的表示形式。

因此，如何解决上述问题对于提高聚类集成方法处理网络入侵检测任务能力以及获得更优入侵检测结果尤为重要。

发明内容

本发明要解决的技术问题是提供一种基于聚类集成的网络入侵检测方法及系统，以提高网络入侵检测结果的有效性和鲁棒性。

为解决上述技术问题，本发明实施例提供一种基于聚类集成的网络入侵检测方法，包括：

获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合；

构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐；

确定基聚类集合中各基聚类划分的聚类集成权重；

根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果。

进一步地，所述获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合包括：

从网络流量监控系统获取待分析时段内的网络连接日志，将网络连接日志记录构成的数据集记作X＝{x_i}_i＝1,…,N，其中，X表示网络连接日志数据集，N表示数据集X中日志记录的数量，x_i为数据集X中第i条日志记录，一条日志记录作为一个样本；

使用多种传统聚类方法在不同的初始化条件下对数据集X进行类别划分，生成共T个基聚类划分结果，其中，T个基聚类划分结果构成的集合c＝{C_t}_t＝1,…,T，

C_t表示集合c中的第t个基聚类划分，1<t<T，C_t,k表示基聚类划分C_t中的第k个类别，K_t为C_t中包含的类别数量。

进一步地，所述构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐包括：

S21、计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益，用于表示经过聚类划分后这两个类别中数据描述不确定性的降低；

S22、根据得到的信息增益，计算基聚类集合中不同基聚类中任意两个类别之间的类别划分相似性，以度量不同基聚类内数据分布结构的相似性；

S23、根据得到的类别划分相似性，构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐。

进一步地，所述计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益包括：

S211、将第t个基聚类划分结果C_t的聚类符号向量记作

并将T个基聚类划分结果对应的聚类符号向量构成的集合记作Φ＝{λ_t}_t＝1,…,T；其中，每个基聚类划分结果对应一个聚类符号向量；λ_t,k为聚类符号向量λ_t的第k个分量，表示C_t中第k个类别的标签；

S212、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵：

其中，E(Φ|X)为聚类符号向量集合Φ关于数据集X的条件信息熵，用于表示数据集X在符号空间中数据描述的不确定性；E(λ_t|X)为第t个基聚类划分的聚类符号向量λ_t关于数据集X的条件信息熵，E(λ_t|X)表示为：

其中，P(λ_t,k|X)表示聚类符号向量λ_t关于数据集X的条件概率，P(λ_t,k|X)表示为：

其中，x_i(λ_t)为日志记录x_i在第t个聚类符号向量上的取值，即x_i在第t个基聚类划分中获得的类别标签；

S213、对于基聚类集合C中第m个基聚类划分中的第n个类别C_m,n和第p个基聚类划分中的第q个类别C_p,q，计算聚类符号向量集合Φ关于C_p,q和C_m,n构成的集合{C_m,n,C_p,q}的条件信息熵：

其中，E(Φ|{C_m,n,C_p,q})为聚类符号向量集合Φ关于C_p,q和C_m,n构成的集合{C_m,n,C_p,q}的条件信息熵，用于表示这两个类别在符号空间中数据描述的不确定性；E(λ_t|{C_m,n,C_p,q})为第t个基聚类划分C_t的聚类符号向量λ_t关于集合{C_m,n,C_p,q}的条件信息熵，E(λ_t|{C_m,n,C_p,q})表示为：

其中，K_t为第t个基聚类划分中的类别数量，P(λ_t,k|{C_m,n,C_p,q})为聚类符号向量λ_t关于集合{C_m,n,C_p,q}的条件概率，P(λ_t,k|{C_m,n,C_p,q})表示为：

其中，x_a(λ_t)表示集合{C_m,n,C_p,q}中的日志记录x_a在第t个聚类符号向量上的取值，即日志记录x_a在第t个基聚类划分中获得的类别标签；

S214、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵E(Φ|X)与Φ关于集合{C_m,n,C_p,q}的条件信息熵E(Φ|{C_m,n,C_p,q})的差值，作为类别C_m,n和C_p,q在符号空间中数据描述的信息增益G(Φ|{C_m,n,C_p,q})；

S215、按照S212～S214的方法，遍历计算基聚类集合c中不同基聚类中任意两个类别在符号空间中数据描述的信息增益。

进一步地，基聚类集合中不同基聚类中类别C_m,n和C_p,q之间的类别划分相似性表示为：

其中，Sim(C_m,n,C_p,q)表示类别C_m,n和C_p,q之间的类别划分相似性，α为信息增益G(Φ|{C_m,n,C_p,q})的标准差。

进一步地，所述根据得到的类别划分相似性，构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐包括：

S231、以不同基聚类划分中任意两个类别之间的类别划分相似性为元素，构建基聚类集合的类别划分相似性矩阵Θ＝[Sim(C_m,n,C_p,q)]_K×K，其中，

为基聚类集合C中的类别总数；

S232、以类别划分相似性矩阵Θ每一列元素之和构建一个K维对角矩阵，记为D，并定义差值矩阵Λ＝D-Θ；

S233、求出矩阵Λ特征值及特征向量，并选出最小的前R个特征值

以及对应的特征向量

其中，v_u为η_u对应的特征向量，R为网络连接日志数据集X中包含的网络入侵类型数量；

S234、利用S233获得的R个特征向量组成一个K×R的矩阵，将其中每一行视为一个R维向量，并对所有的R维向量进行聚类，得到相似性矩阵Θ的图最小分割结果，记作Cut＝{Cut_l}_l＝1,…,R，其中，Cut_l表示图最小分割结果中的第l个子集，Cut对应的聚类符号向量记为λ_Cut＝[λ_Cut,l]_l＝1,…,R，λ_Cut,l为λ_Cut的第l个分量，表示子集Cut_l的类别标签；

S235、利用S234获得的图最小分割结果进行基聚类集合C中类别标签的对齐，其中，对于数据集X中的日志记录x_i，其在第t个基聚类划分中的类别标签通过公式

l＝1,…,R进行对齐；其中，

表示日志记录x_i在第t个基聚类划分中对齐后的类别标签，

表示x_i在第t个基聚类划分中所属的类别。

进一步地，所述确定基聚类集合中各基聚类划分的聚类集成权重包括：

S31、利用高斯核函数对网络连接日志数据集X进行数据标准化映射，使映射后得到的标准化数据集Ψ服从高斯分布；

S32、计算每个基聚类划分在特征空间中数据描述的信息增益，用于表示经过聚类划分后每个类别中数据描述不确定性的降低；

S33、根据得到的每个基聚类划分在特征空间中数据描述的信息增益计算基聚类集合中各基聚类划分的聚类集成权重。

进一步地，所述计算每个基聚类划分在特征空间中数据描述的信息增益包括：

S321、计算标准化数据集Ψ关于网络连接日志数据集X的条件信息熵：

其中，E(Ψ|X)为标准化数据集Ψ关于网络连接日志数据集X的条件信息熵，用于表示数据集X在特征空间中数据描述的不确定性；

为标准化数据集Ψ的分布方差，表示为：

其中，ψ_i为标准化数据集Ψ中的第i个样本，μ_Ψ为标准化数据集Ψ的期望，||ψ_i-μ_Ψ||²表示为：

其中，

为高斯核函数，x_a、x_b以及x_c表示网络连接日志数据集X中不同于x_i的3条日志记录；

S322、计算标准化数据集Ψ关于每个基聚类划分的条件信息熵，用于描述各基聚类划分在特征空间中数据描述的不确定性；其中，Ψ关于第t个基聚类划分C_t的条件信息熵表示为：

其中，E(Ψ|C_t)为标准化数据集Ψ关于第t个基聚类划分C_t的条件信息熵，

为C_t中样本的方差，

表示为：

其中，ψ_e为标准化数据集Ψ中的第e个样本，

为C_t中样本的期望，

表示为：

其中，x_e、x_f、x_g以及x_h表示网络日志记录数据集X中的任意4条日志记录；

S323、利用S321和S322获得的标准化数据集Ψ的两个条件信息熵计算每个基聚类划分在特征空间中数据描述的信息增益，其中，第t个基聚类划分C_t在特征空间中数据描述的信息增益表示为：

I(Ψ|C_t)＝E(Ψ|X)-E(Ψ|C_t)

其中，I(Ψ|C_t)表示C_t在特征空间中数据描述的信息增益；

S324、利用S321～S323的方法，依次计算每个基聚类划分在特征空间中数据描述的信息增益。

进一步地，所述根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果包括：

S41，根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重，通过加权投票法进行网络日志记录数据集的聚类集成，确定每条日志记录的类别标签，其中，日志记录x_i的类别标签表示为：

其中，ω_t表示基聚类划分C_t的聚类集成权重，

x_i(λ_t)表示日志记录x_i在第t个聚类符号向量上的取值，即日志记录x_i在第t个基聚类划分中获得的类别标签；δ(·)表示阶跃函数；x_i(λ_*)为日志记录x_i在聚类集成结果中的类别标签，λ_*为聚类集成结果对应的聚类符号向量，δ(x_i(λ_t),x_i(λ_*))表示为：

S42，按照S41确定网络日志记录数据集X中的所有样本的类别标签，将类别标签相同的日志记录归类为同一网络入侵类型，进行网络入侵检测结果的输出。

本发明实施例还提供一种基于聚类集成的网络入侵检测系统，包括：

生成单元，用于获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合；

对齐单元，用于构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐；

确定单元，用于确定基聚类集合中各基聚类划分的聚类集成权重；

输出单元，用于根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果。

本发明的上述技术方案的有益效果如下：

上述方案中，获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合，这样，能够依据网络连接日志数据的分布情况确定其中的类别数目；构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐，从而解决网络连接日志数据多个基聚类划分的类别标签表示形式不一致的问题；确定基聚类集合中各基聚类划分的聚类集成权重，能有效反映由网络连接日志数据产生的各基聚类的质量和可靠性；根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果，能够削弱低质量基聚类对聚类集成结果的不良影响，从而提高网络入侵检测结果的有效性和鲁棒性。

附图说明

图1为本发明实施例提供的基于聚类集成的网络入侵检测方法的流程示意图；

图2为本发明实施例提供的基于聚类集成的网络入侵检测方法的详细流程示意图；

图3为本发明实施例提供的基于聚类集成的网络入侵检测系统的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

实施例一

如图1所示，本发明实施例提供的基于聚类集成的网络入侵检测方法，包括：

S1，获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合；

S2，构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐；

S3，确定基聚类集合中各基聚类划分的聚类集成权重；

S4，根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果。

本发明实施例所述的基于聚类集成的网络入侵检测方法，获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合，这样，能够依据网络连接日志数据的分布情况确定其中的类别数目；构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐，从而解决网络连接日志数据多个基聚类划分的类别标签表示形式不一致的问题；确定基聚类集合中各基聚类划分的聚类集成权重，能有效反映由网络连接日志数据产生的各基聚类的质量和可靠性；根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果，能够削弱低质量基聚类对聚类集成结果的不良影响，从而提高网络入侵检测结果的有效性和鲁棒性。

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，所述获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合(S1)包括：

S11、从网络流量监控系统获取待分析时段内的网络连接日志，将网络连接日志记录构成的数据集记作X＝{x_i}_i＝1,…,N，其中，X表示网络连接日志数据集，N表示数据集X中日志记录的数量，x_i为数据集X中第i条日志记录，一条日志记录作为一个样本；

本实施例中，假设获取的日志记录为5000000，即：N＝5000000，每条日志记录可以包括：连接持续时间、协议类型、目标主机的网络服务类型、访问系统敏感文件和目录的次数、root用户访问次数、访问控制文件的次数、连接正常或错误的状态、从源主机到目标主机的数据的字节数、文件创建操作的次数等多个关键属性。

本实施例中，除了从网络流量监控系统获取待分析时段内的网络连接日志进行网络入侵检测；也可以从现有的数据集(例如，KDD-CUP 99数据集，KDD-CUP 99数据集中每个连接记录用41个特征来描述，可分为TCP连接基本特征、TCP连接内容特征、基于时间的网络流量统计特征以及基于主机的网络流量统计特征四种类型，网络连接被标记为正常连接(normal)或异常(attack)，异常类型被细分为39种攻击类型)中获取网络连接日志进行网络入侵检测。

S12、使用多种传统聚类方法在不同的初始化条件下对数据集X进行类别划分，生成共T个基聚类划分结果，其中，T个基聚类划分结果构成的集合c＝{C_t}_t＝1,…,T，

本实施例中，例如，使用k-means(k均值)、k-medoids(k中心点)、k-modes(k模式)、高斯混合聚类以及谱聚类5种传统聚类方法，每种方法设置2种不同的初始化条件对数据集X进行类别划分，生成共T＝10个基聚类划分结果。

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，如图2所示，所述构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐(S2)包括：

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，所述计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益(S21)包括：

S211、将网络连接日志数据的聚类划分视为对该数据的一种符号化表示，每个基聚类划分结果对应一个聚类符号向量，将第t个基聚类划分结果C_t的聚类符号向量记作

S212、利用式(1)计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵：

其中，E(Φ|X)为聚类符号向量集合Φ关于数据集X的条件信息熵，用于表示数据集X在符号空间中数据描述的不确定性；E(λ_t|X)为第t个基聚类划分的聚类符号向量λ_t关于数据集X的条件信息熵，E(λ_t|X)由式(2)计算：

其中，P(λ_t,k|X)表示聚类符号向量λ_t关于数据集X的条件概率，P(λ_t,k|X)由式(3)计算：

其中，x_i(λ_t)为日志记录x_i在第t个聚类符号向量上的取值，即x_i在第t个基聚类划分中获得的类别标签，|{x_i|x_i(λ_t)＝λ_t,k,x_i∈X}|表示数据集X的第t个基聚类划分中类别标签为λ_t,k的日志记录的数量；

S213、对于基聚类集合c中第m个基聚类划分中的第n个类别C_m,n和第p个基聚类划分中的第q个类别C_p,q，利用式(4)计算计算聚类符号向量集合Φ关于C_p,q和C_m,n构成的集合{C_m,n,C_p,q}的条件信息熵：

其中，E(Φ|{C_m,n,C_p,q})为聚类符号向量集合Φ关于C_p,q和C_m,n构成的集合{C_m,n,C_p,q}的条件信息熵，用于表示这两个类别在符号空间中数据描述的不确定性；1≤m≤T，1≤n≤K_m，1≤p≤T，1≤q≤K_q，且满足p≠m，K_m为第m个基聚类划分中的类别数量，K_q为第q个基聚类划分中的类别数量；E(λ_t|{C_m,n,C_p,q})为第t个基聚类划分C_t的聚类符号向量λ_t关于集合{C_m,n,C_p,q}的条件信息熵，由式(5)计算：

其中，K_t为第t个基聚类划分中的类别数量，P(λ_t,k|{C_m,n,C_p,q})为聚类符号向量λ_t关于集合{C_m,n,C_p,q}的条件概率，P(λ_t,k|{C_m,n,C_p,q})由式(6)计算：

其中，x_a(λ_t)表示集合{C_m,n,C_p,q}中的日志记录x_a在第t个聚类符号向量上的取值，即日志记录x_a在第t个基聚类划分中获得的类别标签；|{x_a|x_a(λ_t)＝λ_t,k,x_a∈{C_m,n,C_p,q}}|表示集合{C_m,n,C_p,q}中的日志记录在第t个基聚类划分中类别标签为λ_t,k的数量；

S214、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵E(Φ|X)与Φ关于集合{C_m,n,C_p,q}的条件信息熵E(Φ|{C_m,n,C_p,q})的差值，作为类别C_m,n和C_p,q在符号空间中数据描述的信息增益G(Φ|{C_m,n,C_p,q})，如式(7)所示：

G(Φ|{C_m,n,C_p,q})＝E(Φ|X)-E(Φ|{C_m,n,C_p,q}) (7)

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，基聚类集合中不同基聚类中类别C_m,n和C_p,q之间的类别划分相似性的计算方法如式(8)所示：

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，所述根据得到的类别划分相似性，构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐(S23)包括：

为基聚类集合C中的类别总数；

以及对应的特征向量

S234、利用S233获得的R个特征向量组成一个K×R的矩阵，将其中每一行视为一个R维向量，可以使用K-means算法对所有的R维向量进行聚类，得到相似性矩阵Θ的图最小分割结果，记作Cut＝{Cut_l}_l＝1,…,R，其中，Cut_l表示图最小分割结果中的第l个子集，Cut对应的聚类符号向量记为λ_Cut＝[λ_Cut,l]_l＝1,…,R，λ_Cut,l为λ_Cut的第l个分量，表示子集Cut_l的类别标签；

S235、利用S234获得的图最小分割结果进行基聚类集合C中类别标签的对齐，其中，对于数据集X中的日志记录x_i，其在第t个基聚类划分中的类别标签通过式(9)进行对齐：

其中，

表示日志记录x_i在第t个基聚类划分中对齐后的类别标签，

表示x_i在第t个基聚类划分中所属的类别。

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，如图2所示，所述确定基聚类集合中各基聚类划分的聚类集成权重(S3)包括：

本实施例中，所述高斯核函数如式(10)所示：

其中，

为高斯核函数，x_α和x_β分别为网络日志记录数据集中任意两条日志记录，参数γ的取值设为||x_α-x_β||²的标准差，||x_α-x_β||表示日志记录x_α与x_β之间的欧氏距离，ψ_α和ψ_β分别表示x_α和x_β映射后的标准化数据。

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，所述计算每个基聚类划分在特征空间中数据描述的信息增益(S32)包括：

S321、利用式(11)计算标准化数据集Ψ关于网络连接日志数据集X的条件信息熵：

为标准化数据集Ψ的分布方差，由式(12)进行计算：

其中，ψ_i为标准化数据集Ψ中的第i个样本，μ_Ψ为标准化数据集Ψ的期望，||ψ_i-μ_Ψ||²由式(13)计算：

其中，

S322、计算标准化数据集Ψ关于每个基聚类划分的条件信息熵，用于描述各基聚类划分在特征空间中数据描述的不确定性；其中，Ψ关于第t个基聚类划分C_t的条件信息熵由式(14)计算：

为C_t中样本的方差，由式(15)进行计算：

其中，ψ_e为标准化数据集Ψ中的第e个样本，

为C_t中样本的期望，

由式(16)计算：

S323、利用S321和S322获得的标准化数据集Ψ的两个条件信息熵计算每个基聚类划分在特征空间中数据描述的信息增益，其中，第t个基聚类划分C_t在特征空间中数据描述的信息增益由式(17)计算：

I(Ψ|C_t)＝E(Ψ|X)-E(Ψ|C_t) (17)

其中，I(Ψ|C_t)表示C_t在特征空间中数据描述的信息增益；

本实施例中，S33中可以根据得到的I(Ψ|C_t)，通过式(18)计算基聚类划分C_t的聚类集成权重ω_t：

在前述基于聚类集成的网络入侵检测方法的具体实施方式中，进一步地，所述根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果(S4)包括：

S41，根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重，通过加权投票法进行网络日志记录数据集的聚类集成，确定每条日志记录的类别标签，其中，日志记录x_i的类别标签确定方法如式(19)所示：

其中，ω_t表示基聚类划分C_t的聚类集成权重；x_i(λ_t)表示日志记录x_i在第t个聚类符号向量上的取值，即日志记录x_i在第t个基聚类划分中获得的类别标签；δ(·)表示阶跃函数；x_i(λ_*)为日志记录x_i在聚类集成结果中的类别标签，λ_*为聚类集成结果对应的聚类符号向量，δ(x_i(λ_t),x_i(λ_*))由式(20)表示：

本实施例中，可以将网络入侵检测结果输出至网络安全管理人员，用于协助实时监控、检测网络系统和数据资源，尽早发现非法攻击网络系统和非法操作数据资源的入侵行为，提高网络系统的安全性和稳定性。

为验证本发明提出的基于聚类集成的网络入侵检测方法的有效性和先进性，将本发明与产生基聚类的方法k-means、k-medoids、k-modes、高斯混合聚类以及谱聚类进行入侵检测效果的对比，以10次实验的平均检测率和误检率为评价指标，基于网络连接日志数据集X对上述6种方法的网络入侵检测结果进行评价，评价结果如表1所示：

表1评价结果

由表1可以看出，本发明技术方案在进行网络入侵检测时，检测率高于产生基聚类的方法k-means、k-medoids、k-modes、高斯混合聚类以及谱聚类。

综上，本发明实施例所述的基于聚类集成的网络入侵检测方法具有以下优点：

1)利用条件信息熵作为不确定性度量，构建基聚类集合的类别划分相似性矩阵，通过对该矩阵进行图最小分割操作，解决了网络连接日志数据集多个基聚类划分的类别标签表示形式不一致的问题。

2)利用条件信息熵作为不确定性度量，计算网络连接日志数据集的每个基聚类划分在特征空间中数据描述的信息增益，进而确定各基聚类划分的集成权重，能有效反映由网络连接日志数据集产生的各基聚类的质量和可靠性。

3)通过加权投票方法对网络连接日志数据集的基聚类划分进行集成，能够削弱低质量基聚类对聚类集成结果的不良影响，从而提高网络入侵检测结果的有效性和鲁棒性。

实施例二

本发明还提供一种基于聚类集成的网络入侵检测系统的具体实施方式，由于本发明提供的基于聚类集成的网络入侵检测系统与前述基于聚类集成的网络入侵检测方法的具体实施方式相对应，该基于聚类集成的网络入侵检测系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述基于聚类集成的网络入侵检测方法具体实施方式中的解释说明，也适用于本发明提供的基于聚类集成的网络入侵检测系统的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图3所示，本发明实施例还提供一种基于聚类集成的网络入侵检测系统，包括：

生成单元11，用于获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合；

对齐单元12，用于构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐；

确定单元13，用于确定基聚类集合中各基聚类划分的聚类集成权重；

输出单元14，用于根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果。

本发明实施例所述的基于聚类集成的网络入侵检测系统，获取网络连接日志，使用多种传统聚类方法分别对获取的网络连接日志进行类别划分，生成基聚类集合，这样，能够依据网络连接日志数据的分布情况确定其中的类别数目；构建基聚类集合的类别划分相似性矩阵，通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐，从而解决网络连接日志数据多个基聚类划分的类别标签表示形式不一致的问题；确定基聚类集合中各基聚类划分的聚类集成权重，能有效反映由网络连接日志数据产生的各基聚类的质量和可靠性；根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成，生成网络连接日志数据的入侵检测结果，能够削弱低质量基聚类对聚类集成结果的不良影响，从而提高网络入侵检测结果的有效性和鲁棒性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。