CN111464529A - 一种基于聚类集成的网络入侵检测方法及系统 - Google Patents
一种基于聚类集成的网络入侵检测方法及系统 Download PDFInfo
- Publication number
- CN111464529A CN111464529A CN202010240829.4A CN202010240829A CN111464529A CN 111464529 A CN111464529 A CN 111464529A CN 202010240829 A CN202010240829 A CN 202010240829A CN 111464529 A CN111464529 A CN 111464529A
- Authority
- CN
- China
- Prior art keywords
- cluster
- base
- clustering
- division
- network connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Abstract
本发明提供一种基于聚类集成的网络入侵检测方法及系统,能够提高网络入侵检测结果的有效性和鲁棒性。所述方法包括:获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合;构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐;确定基聚类集合中各基聚类划分的聚类集成权重;根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果。本发明涉及网络安全技术领域。
Description
技术领域
本发明涉及网络安全技术领域,特别是指一种基于聚类集成的网络入侵检测方法及系统。
背景技术
伴随着网络用户个人信息泄露、各大数据库信息外泄、关键信息服务器设备受威胁及用户主机被入侵等事件的频繁发生,网络安全问题已经成为当今社会的热点议题之一。由于网络入侵行为方式的不断多样化和复杂化,基于防火墙等的静态安全防范技术已无法满足网络安全的实际需求,主动防御网络异常入侵行为的安全防护技术—入侵检测系统应运而生。
网络入侵检测的本质是对网络空间中的信息进行加工处理的过程。对于这样的信息处理问题的研究,通常会在经过标记的数据集上进行,通过标记后的带标签数据来检验算法的有效性。一方面,网络入侵样本标注门槛较高,用于网络入侵检测的数据集比较少,给检测方法的设计和验证带来了挑战。另一方面,真实环境中,对于新的网络入侵手段需要实时响应,通常没有足够多的时间来标记大量的入侵样本。
近年来,无需样本标记的无监督学习方法逐渐在网络入侵检测领域体现出独特的优势,其中以距离度量作为相似性评价指标对数据进行划分的聚类方法,已经在网络入侵检测中得到广泛应用。而大多数聚类方法的原理都基于一个相似的假设:待聚类的网络流量数据具有某一特定结构特征。因此,当数据的结构与算法假设的结构相符时会取得较好的聚类效果,反之聚类结果就难以反映数据真实的内在特性。
聚类集成算法的提出使聚类的研究和应用获得了重大进步,聚类集成通过使用多个基聚类结果的信息,最大程度的共享基聚类集体的信息,构造一个更优的聚类结果,能够提高聚类结果的质量和鲁棒性,在处理网络入侵检测任务时更具优势。同时,在网络入侵检测任务中聚类集成方法也面临以下难点:首先,实际入侵检测任务中,网络流量数据包含的类别数目事先无法获知;其次,类别标签是一种符号化表示形式,因此需要将不同基聚类中的类别标签校准为一致的表示形式。
因此,如何解决上述问题对于提高聚类集成方法处理网络入侵检测任务能力以及获得更优入侵检测结果尤为重要。
发明内容
本发明要解决的技术问题是提供一种基于聚类集成的网络入侵检测方法及系统,以提高网络入侵检测结果的有效性和鲁棒性。
为解决上述技术问题,本发明实施例提供一种基于聚类集成的网络入侵检测方法,包括:
获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合;
构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐;
确定基聚类集合中各基聚类划分的聚类集成权重;
根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果。
进一步地,所述获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合包括:
从网络流量监控系统获取待分析时段内的网络连接日志,将网络连接日志记录构成的数据集记作X={xi}i=1,…,N,其中,X表示网络连接日志数据集,N表示数据集X中日志记录的数量,xi为数据集X中第i条日志记录,一条日志记录作为一个样本;
使用多种传统聚类方法在不同的初始化条件下对数据集X进行类别划分,生成共T个基聚类划分结果,其中,T个基聚类划分结果构成的集合c={Ct}t=1,…,T,Ct表示集合c中的第t个基聚类划分,1<t<T,Ct,k表示基聚类划分Ct中的第k个类别,Kt为Ct中包含的类别数量。
进一步地,所述构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐包括:
S21、计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益,用于表示经过聚类划分后这两个类别中数据描述不确定性的降低;
S22、根据得到的信息增益,计算基聚类集合中不同基聚类中任意两个类别之间的类别划分相似性,以度量不同基聚类内数据分布结构的相似性;
S23、根据得到的类别划分相似性,构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐。
进一步地,所述计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益包括:
S211、将第t个基聚类划分结果Ct的聚类符号向量记作并将T个基聚类划分结果对应的聚类符号向量构成的集合记作Φ={λt}t=1,…,T;其中,每个基聚类划分结果对应一个聚类符号向量;λt,k为聚类符号向量λt的第k个分量,表示Ct中第k个类别的标签;
S212、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵:
其中,E(Φ|X)为聚类符号向量集合Φ关于数据集X的条件信息熵,用于表示数据集X在符号空间中数据描述的不确定性;E(λt|X)为第t个基聚类划分的聚类符号向量λt关于数据集X的条件信息熵,E(λt|X)表示为:
其中,P(λt,k|X)表示聚类符号向量λt关于数据集X的条件概率,P(λt,k|X)表示为:
其中,xi(λt)为日志记录xi在第t个聚类符号向量上的取值,即xi在第t个基聚类划分中获得的类别标签;
S213、对于基聚类集合C中第m个基聚类划分中的第n个类别Cm,n和第p个基聚类划分中的第q个类别Cp,q,计算聚类符号向量集合Φ关于Cp,q和Cm,n构成的集合{Cm,n,Cp,q}的条件信息熵:
其中,E(Φ|{Cm,n,Cp,q})为聚类符号向量集合Φ关于Cp,q和Cm,n构成的集合{Cm,n,Cp,q}的条件信息熵,用于表示这两个类别在符号空间中数据描述的不确定性;E(λt|{Cm,n,Cp,q})为第t个基聚类划分Ct的聚类符号向量λt关于集合{Cm,n,Cp,q}的条件信息熵,E(λt|{Cm,n,Cp,q})表示为:
其中,Kt为第t个基聚类划分中的类别数量,P(λt,k|{Cm,n,Cp,q})为聚类符号向量λt关于集合{Cm,n,Cp,q}的条件概率,P(λt,k|{Cm,n,Cp,q})表示为:
其中,xa(λt)表示集合{Cm,n,Cp,q}中的日志记录xa在第t个聚类符号向量上的取值,即日志记录xa在第t个基聚类划分中获得的类别标签;
S214、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵E(Φ|X)与Φ关于集合{Cm,n,Cp,q}的条件信息熵E(Φ|{Cm,n,Cp,q})的差值,作为类别Cm,n和Cp,q在符号空间中数据描述的信息增益G(Φ|{Cm,n,Cp,q});
S215、按照S212~S214的方法,遍历计算基聚类集合c中不同基聚类中任意两个类别在符号空间中数据描述的信息增益。
进一步地,基聚类集合中不同基聚类中类别Cm,n和Cp,q之间的类别划分相似性表示为:
其中,Sim(Cm,n,Cp,q)表示类别Cm,n和Cp,q之间的类别划分相似性,α为信息增益G(Φ|{Cm,n,Cp,q})的标准差。
进一步地,所述根据得到的类别划分相似性,构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐包括:
S232、以类别划分相似性矩阵Θ每一列元素之和构建一个K维对角矩阵,记为D,并定义差值矩阵Λ=D-Θ;
S234、利用S233获得的R个特征向量组成一个K×R的矩阵,将其中每一行视为一个R维向量,并对所有的R维向量进行聚类,得到相似性矩阵Θ的图最小分割结果,记作Cut={Cutl}l=1,…,R,其中,Cutl表示图最小分割结果中的第l个子集,Cut对应的聚类符号向量记为λCut=[λCut,l]l=1,…,R,λCut,l为λCut的第l个分量,表示子集Cutl的类别标签;
S235、利用S234获得的图最小分割结果进行基聚类集合C中类别标签的对齐,其中,对于数据集X中的日志记录xi,其在第t个基聚类划分中的类别标签通过公式l=1,…,R进行对齐;其中,表示日志记录xi在第t个基聚类划分中对齐后的类别标签,表示xi在第t个基聚类划分中所属的类别。
进一步地,所述确定基聚类集合中各基聚类划分的聚类集成权重包括:
S31、利用高斯核函数对网络连接日志数据集X进行数据标准化映射,使映射后得到的标准化数据集Ψ服从高斯分布;
S32、计算每个基聚类划分在特征空间中数据描述的信息增益,用于表示经过聚类划分后每个类别中数据描述不确定性的降低;
S33、根据得到的每个基聚类划分在特征空间中数据描述的信息增益计算基聚类集合中各基聚类划分的聚类集成权重。
进一步地,所述计算每个基聚类划分在特征空间中数据描述的信息增益包括:
S321、计算标准化数据集Ψ关于网络连接日志数据集X的条件信息熵:
其中,ψi为标准化数据集Ψ中的第i个样本,μΨ为标准化数据集Ψ的期望,||ψi-μΨ||2表示为:
S322、计算标准化数据集Ψ关于每个基聚类划分的条件信息熵,用于描述各基聚类划分在特征空间中数据描述的不确定性;其中,Ψ关于第t个基聚类划分Ct的条件信息熵表示为:
其中,xe、xf、xg以及xh表示网络日志记录数据集X中的任意4条日志记录;
S323、利用S321和S322获得的标准化数据集Ψ的两个条件信息熵计算每个基聚类划分在特征空间中数据描述的信息增益,其中,第t个基聚类划分Ct在特征空间中数据描述的信息增益表示为:
I(Ψ|Ct)=E(Ψ|X)-E(Ψ|Ct)
其中,I(Ψ|Ct)表示Ct在特征空间中数据描述的信息增益;
S324、利用S321~S323的方法,依次计算每个基聚类划分在特征空间中数据描述的信息增益。
进一步地,所述根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果包括:
S41,根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重,通过加权投票法进行网络日志记录数据集的聚类集成,确定每条日志记录的类别标签,其中,日志记录xi的类别标签表示为:
其中,ωt表示基聚类划分Ct的聚类集成权重,xi(λt)表示日志记录xi在第t个聚类符号向量上的取值,即日志记录xi在第t个基聚类划分中获得的类别标签;δ(·)表示阶跃函数;xi(λ*)为日志记录xi在聚类集成结果中的类别标签,λ*为聚类集成结果对应的聚类符号向量,δ(xi(λt),xi(λ*))表示为:
S42,按照S41确定网络日志记录数据集X中的所有样本的类别标签,将类别标签相同的日志记录归类为同一网络入侵类型,进行网络入侵检测结果的输出。
本发明实施例还提供一种基于聚类集成的网络入侵检测系统,包括:
生成单元,用于获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合;
对齐单元,用于构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐;
确定单元,用于确定基聚类集合中各基聚类划分的聚类集成权重;
输出单元,用于根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果。
本发明的上述技术方案的有益效果如下:
上述方案中,获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合,这样,能够依据网络连接日志数据的分布情况确定其中的类别数目;构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐,从而解决网络连接日志数据多个基聚类划分的类别标签表示形式不一致的问题;确定基聚类集合中各基聚类划分的聚类集成权重,能有效反映由网络连接日志数据产生的各基聚类的质量和可靠性;根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果,能够削弱低质量基聚类对聚类集成结果的不良影响,从而提高网络入侵检测结果的有效性和鲁棒性。
附图说明
图1为本发明实施例提供的基于聚类集成的网络入侵检测方法的流程示意图;
图2为本发明实施例提供的基于聚类集成的网络入侵检测方法的详细流程示意图;
图3为本发明实施例提供的基于聚类集成的网络入侵检测系统的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
实施例一
如图1所示,本发明实施例提供的基于聚类集成的网络入侵检测方法,包括:
S1,获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合;
S2,构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐;
S3,确定基聚类集合中各基聚类划分的聚类集成权重;
S4,根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果。
本发明实施例所述的基于聚类集成的网络入侵检测方法,获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合,这样,能够依据网络连接日志数据的分布情况确定其中的类别数目;构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐,从而解决网络连接日志数据多个基聚类划分的类别标签表示形式不一致的问题;确定基聚类集合中各基聚类划分的聚类集成权重,能有效反映由网络连接日志数据产生的各基聚类的质量和可靠性;根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果,能够削弱低质量基聚类对聚类集成结果的不良影响,从而提高网络入侵检测结果的有效性和鲁棒性。
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,所述获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合(S1)包括:
S11、从网络流量监控系统获取待分析时段内的网络连接日志,将网络连接日志记录构成的数据集记作X={xi}i=1,…,N,其中,X表示网络连接日志数据集,N表示数据集X中日志记录的数量,xi为数据集X中第i条日志记录,一条日志记录作为一个样本;
本实施例中,假设获取的日志记录为5000000,即:N=5000000,每条日志记录可以包括:连接持续时间、协议类型、目标主机的网络服务类型、访问系统敏感文件和目录的次数、root用户访问次数、访问控制文件的次数、连接正常或错误的状态、从源主机到目标主机的数据的字节数、文件创建操作的次数等多个关键属性。
本实施例中,除了从网络流量监控系统获取待分析时段内的网络连接日志进行网络入侵检测;也可以从现有的数据集(例如,KDD-CUP 99数据集,KDD-CUP 99数据集中每个连接记录用41个特征来描述,可分为TCP连接基本特征、TCP连接内容特征、基于时间的网络流量统计特征以及基于主机的网络流量统计特征四种类型,网络连接被标记为正常连接(normal)或异常(attack),异常类型被细分为39种攻击类型)中获取网络连接日志进行网络入侵检测。
S12、使用多种传统聚类方法在不同的初始化条件下对数据集X进行类别划分,生成共T个基聚类划分结果,其中,T个基聚类划分结果构成的集合c={Ct}t=1,…,T,Ct表示集合c中的第t个基聚类划分,1<t<T,Ct,k表示基聚类划分Ct中的第k个类别,Kt为Ct中包含的类别数量。
本实施例中,例如,使用k-means(k均值)、k-medoids(k中心点)、k-modes(k模式)、高斯混合聚类以及谱聚类5种传统聚类方法,每种方法设置2种不同的初始化条件对数据集X进行类别划分,生成共T=10个基聚类划分结果。
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,如图2所示,所述构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐(S2)包括:
S21、计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益,用于表示经过聚类划分后这两个类别中数据描述不确定性的降低;
S22、根据得到的信息增益,计算基聚类集合中不同基聚类中任意两个类别之间的类别划分相似性,以度量不同基聚类内数据分布结构的相似性;
S23、根据得到的类别划分相似性,构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐。
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,所述计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益(S21)包括:
S211、将网络连接日志数据的聚类划分视为对该数据的一种符号化表示,每个基聚类划分结果对应一个聚类符号向量,将第t个基聚类划分结果Ct的聚类符号向量记作并将T个基聚类划分结果对应的聚类符号向量构成的集合记作Φ={λt}t=1,…,T;其中,每个基聚类划分结果对应一个聚类符号向量;λt,k为聚类符号向量λt的第k个分量,表示Ct中第k个类别的标签;
S212、利用式(1)计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵:
其中,E(Φ|X)为聚类符号向量集合Φ关于数据集X的条件信息熵,用于表示数据集X在符号空间中数据描述的不确定性;E(λt|X)为第t个基聚类划分的聚类符号向量λt关于数据集X的条件信息熵,E(λt|X)由式(2)计算:
其中,P(λt,k|X)表示聚类符号向量λt关于数据集X的条件概率,P(λt,k|X)由式(3)计算:
其中,xi(λt)为日志记录xi在第t个聚类符号向量上的取值,即xi在第t个基聚类划分中获得的类别标签,|{xi|xi(λt)=λt,k,xi∈X}|表示数据集X的第t个基聚类划分中类别标签为λt,k的日志记录的数量;
S213、对于基聚类集合c中第m个基聚类划分中的第n个类别Cm,n和第p个基聚类划分中的第q个类别Cp,q,利用式(4)计算计算聚类符号向量集合Φ关于Cp,q和Cm,n构成的集合{Cm,n,Cp,q}的条件信息熵:
其中,E(Φ|{Cm,n,Cp,q})为聚类符号向量集合Φ关于Cp,q和Cm,n构成的集合{Cm,n,Cp,q}的条件信息熵,用于表示这两个类别在符号空间中数据描述的不确定性;1≤m≤T,1≤n≤Km,1≤p≤T,1≤q≤Kq,且满足p≠m,Km为第m个基聚类划分中的类别数量,Kq为第q个基聚类划分中的类别数量;E(λt|{Cm,n,Cp,q})为第t个基聚类划分Ct的聚类符号向量λt关于集合{Cm,n,Cp,q}的条件信息熵,由式(5)计算:
其中,Kt为第t个基聚类划分中的类别数量,P(λt,k|{Cm,n,Cp,q})为聚类符号向量λt关于集合{Cm,n,Cp,q}的条件概率,P(λt,k|{Cm,n,Cp,q})由式(6)计算:
其中,xa(λt)表示集合{Cm,n,Cp,q}中的日志记录xa在第t个聚类符号向量上的取值,即日志记录xa在第t个基聚类划分中获得的类别标签;|{xa|xa(λt)=λt,k,xa∈{Cm,n,Cp,q}}|表示集合{Cm,n,Cp,q}中的日志记录在第t个基聚类划分中类别标签为λt,k的数量;
S214、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵E(Φ|X)与Φ关于集合{Cm,n,Cp,q}的条件信息熵E(Φ|{Cm,n,Cp,q})的差值,作为类别Cm,n和Cp,q在符号空间中数据描述的信息增益G(Φ|{Cm,n,Cp,q}),如式(7)所示:
G(Φ|{Cm,n,Cp,q})=E(Φ|X)-E(Φ|{Cm,n,Cp,q}) (7)
S215、按照S212~S214的方法,遍历计算基聚类集合c中不同基聚类中任意两个类别在符号空间中数据描述的信息增益。
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,基聚类集合中不同基聚类中类别Cm,n和Cp,q之间的类别划分相似性的计算方法如式(8)所示:
其中,Sim(Cm,n,Cp,q)表示类别Cm,n和Cp,q之间的类别划分相似性,α为信息增益G(Φ|{Cm,n,Cp,q})的标准差。
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,所述根据得到的类别划分相似性,构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐(S23)包括:
S232、以类别划分相似性矩阵Θ每一列元素之和构建一个K维对角矩阵,记为D,并定义差值矩阵Λ=D-Θ;
S234、利用S233获得的R个特征向量组成一个K×R的矩阵,将其中每一行视为一个R维向量,可以使用K-means算法对所有的R维向量进行聚类,得到相似性矩阵Θ的图最小分割结果,记作Cut={Cutl}l=1,…,R,其中,Cutl表示图最小分割结果中的第l个子集,Cut对应的聚类符号向量记为λCut=[λCut,l]l=1,…,R,λCut,l为λCut的第l个分量,表示子集Cutl的类别标签;
S235、利用S234获得的图最小分割结果进行基聚类集合C中类别标签的对齐,其中,对于数据集X中的日志记录xi,其在第t个基聚类划分中的类别标签通过式(9)进行对齐:
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,如图2所示,所述确定基聚类集合中各基聚类划分的聚类集成权重(S3)包括:
S31、利用高斯核函数对网络连接日志数据集X进行数据标准化映射,使映射后得到的标准化数据集Ψ服从高斯分布;
本实施例中,所述高斯核函数如式(10)所示:
其中,为高斯核函数,xα和xβ分别为网络日志记录数据集中任意两条日志记录,参数γ的取值设为||xα-xβ||2的标准差,||xα-xβ||表示日志记录xα与xβ之间的欧氏距离,ψα和ψβ分别表示xα和xβ映射后的标准化数据。
S32、计算每个基聚类划分在特征空间中数据描述的信息增益,用于表示经过聚类划分后每个类别中数据描述不确定性的降低;
S33、根据得到的每个基聚类划分在特征空间中数据描述的信息增益计算基聚类集合中各基聚类划分的聚类集成权重。
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,所述计算每个基聚类划分在特征空间中数据描述的信息增益(S32)包括:
S321、利用式(11)计算标准化数据集Ψ关于网络连接日志数据集X的条件信息熵:
其中,ψi为标准化数据集Ψ中的第i个样本,μΨ为标准化数据集Ψ的期望,||ψi-μΨ||2由式(13)计算:
S322、计算标准化数据集Ψ关于每个基聚类划分的条件信息熵,用于描述各基聚类划分在特征空间中数据描述的不确定性;其中,Ψ关于第t个基聚类划分Ct的条件信息熵由式(14)计算:
其中,xe、xf、xg以及xh表示网络日志记录数据集X中的任意4条日志记录;
S323、利用S321和S322获得的标准化数据集Ψ的两个条件信息熵计算每个基聚类划分在特征空间中数据描述的信息增益,其中,第t个基聚类划分Ct在特征空间中数据描述的信息增益由式(17)计算:
I(Ψ|Ct)=E(Ψ|X)-E(Ψ|Ct) (17)
其中,I(Ψ|Ct)表示Ct在特征空间中数据描述的信息增益;
S324、利用S321~S323的方法,依次计算每个基聚类划分在特征空间中数据描述的信息增益。
本实施例中,S33中可以根据得到的I(Ψ|Ct),通过式(18)计算基聚类划分Ct的聚类集成权重ωt:
在前述基于聚类集成的网络入侵检测方法的具体实施方式中,进一步地,所述根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果(S4)包括:
S41,根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重,通过加权投票法进行网络日志记录数据集的聚类集成,确定每条日志记录的类别标签,其中,日志记录xi的类别标签确定方法如式(19)所示:
其中,ωt表示基聚类划分Ct的聚类集成权重;xi(λt)表示日志记录xi在第t个聚类符号向量上的取值,即日志记录xi在第t个基聚类划分中获得的类别标签;δ(·)表示阶跃函数;xi(λ*)为日志记录xi在聚类集成结果中的类别标签,λ*为聚类集成结果对应的聚类符号向量,δ(xi(λt),xi(λ*))由式(20)表示:
S42,按照S41确定网络日志记录数据集X中的所有样本的类别标签,将类别标签相同的日志记录归类为同一网络入侵类型,进行网络入侵检测结果的输出。
本实施例中,可以将网络入侵检测结果输出至网络安全管理人员,用于协助实时监控、检测网络系统和数据资源,尽早发现非法攻击网络系统和非法操作数据资源的入侵行为,提高网络系统的安全性和稳定性。
为验证本发明提出的基于聚类集成的网络入侵检测方法的有效性和先进性,将本发明与产生基聚类的方法k-means、k-medoids、k-modes、高斯混合聚类以及谱聚类进行入侵检测效果的对比,以10次实验的平均检测率和误检率为评价指标,基于网络连接日志数据集X对上述6种方法的网络入侵检测结果进行评价,评价结果如表1所示:
表1评价结果
由表1可以看出,本发明技术方案在进行网络入侵检测时,检测率高于产生基聚类的方法k-means、k-medoids、k-modes、高斯混合聚类以及谱聚类。
综上,本发明实施例所述的基于聚类集成的网络入侵检测方法具有以下优点:
1)利用条件信息熵作为不确定性度量,构建基聚类集合的类别划分相似性矩阵,通过对该矩阵进行图最小分割操作,解决了网络连接日志数据集多个基聚类划分的类别标签表示形式不一致的问题。
2)利用条件信息熵作为不确定性度量,计算网络连接日志数据集的每个基聚类划分在特征空间中数据描述的信息增益,进而确定各基聚类划分的集成权重,能有效反映由网络连接日志数据集产生的各基聚类的质量和可靠性。
3)通过加权投票方法对网络连接日志数据集的基聚类划分进行集成,能够削弱低质量基聚类对聚类集成结果的不良影响,从而提高网络入侵检测结果的有效性和鲁棒性。
实施例二
本发明还提供一种基于聚类集成的网络入侵检测系统的具体实施方式,由于本发明提供的基于聚类集成的网络入侵检测系统与前述基于聚类集成的网络入侵检测方法的具体实施方式相对应,该基于聚类集成的网络入侵检测系统可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述基于聚类集成的网络入侵检测方法具体实施方式中的解释说明,也适用于本发明提供的基于聚类集成的网络入侵检测系统的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图3所示,本发明实施例还提供一种基于聚类集成的网络入侵检测系统,包括:
生成单元11,用于获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合;
对齐单元12,用于构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐;
确定单元13,用于确定基聚类集合中各基聚类划分的聚类集成权重;
输出单元14,用于根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果。
本发明实施例所述的基于聚类集成的网络入侵检测系统,获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合,这样,能够依据网络连接日志数据的分布情况确定其中的类别数目;构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐,从而解决网络连接日志数据多个基聚类划分的类别标签表示形式不一致的问题;确定基聚类集合中各基聚类划分的聚类集成权重,能有效反映由网络连接日志数据产生的各基聚类的质量和可靠性;根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果,能够削弱低质量基聚类对聚类集成结果的不良影响,从而提高网络入侵检测结果的有效性和鲁棒性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于聚类集成的网络入侵检测方法,其特征在于,包括:
获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合;
构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐;
确定基聚类集合中各基聚类划分的聚类集成权重;
根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果。
2.根据权利要求1所述的基于聚类集成的网络入侵检测方法,其特征在于,所述获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合包括:
从网络流量监控系统获取待分析时段内的网络连接日志,将网络连接日志记录构成的数据集记作X={xi}i=1,…,N,其中,X表示网络连接日志数据集,N表示数据集X中日志记录的数量,xi为数据集X中第i条日志记录,一条日志记录作为一个样本;
3.根据权利要求1所述的基于聚类集成的网络入侵检测方法,其特征在于,所述构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐包括:
S21、计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益,用于表示经过聚类划分后这两个类别中数据描述不确定性的降低;
S22、根据得到的信息增益,计算基聚类集合中不同基聚类中任意两个类别之间的类别划分相似性,以度量不同基聚类内数据分布结构的相似性;
S23、根据得到的类别划分相似性,构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐。
4.根据权利要求3所述的基于聚类集成的网络入侵检测方法,其特征在于,所述计算基聚类集合中不同基聚类中任意两个类别在符号空间中数据描述的信息增益包括:
S211、将第t个基聚类划分结果Ct的聚类符号向量记作并将T个基聚类划分结果对应的聚类符号向量构成的集合记作Φ={λt}t=1,…,T;其中,每个基聚类划分结果对应一个聚类符号向量;λt,k为聚类符号向量λt的第k个分量,表示Ct中第k个类别的标签;
S212、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵:
其中,E(Φ|X)为聚类符号向量集合Φ关于数据集X的条件信息熵,用于表示数据集X在符号空间中数据描述的不确定性;E(λt|X)为第t个基聚类划分的聚类符号向量λt关于数据集X的条件信息熵,E(λt|X)表示为:
其中,P(λt,k|X)表示聚类符号向量λt关于数据集X的条件概率,P(λt,k|X)表示为:
其中,xi(λt)为日志记录xi在第t个聚类符号向量上的取值,即xi在第t个基聚类划分中获得的类别标签;
其中,E(Φ|{Cm,n,Cp,q})为聚类符号向量集合Φ关于Cp,q和Cm,n构成的集合{Cm,n,Cp,q}的条件信息熵,用于表示这两个类别在符号空间中数据描述的不确定性;E(λt|{Cm,n,Cp,q})为第t个基聚类划分Ct的聚类符号向量λt关于集合{Cm,n,Cp,q}的条件信息熵,E(λt|{Cm,n,Cp,q})表示为:
其中,Kt为第t个基聚类划分中的类别数量,P(λt,k|{Cm,n,Cp,q})为聚类符号向量λt关于集合{Cm,n,Cp,q}的条件概率,P(λt,k|{Cm,n,Cp,q})表示为:
其中,xa(λt)表示集合{Cm,n,Cp,q}中的日志记录xa在第t个聚类符号向量上的取值,即日志记录xa在第t个基聚类划分中获得的类别标签;
S214、计算聚类符号向量集合Φ关于网络连接日志数据集X的条件信息熵E(Φ|X)与Φ关于集合{Cm,n,Cp,q}的条件信息熵E(Φ|{Cm,n,Cp,q})的差值,作为类别Cm,n和Cp,q在符号空间中数据描述的信息增益G(Φ|{Cm,n,Cp,q});
6.根据权利要求5所述的基于聚类集成的网络入侵检测方法,其特征在于,所述根据得到的类别划分相似性,构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐包括:
S232、以类别划分相似性矩阵Θ每一列元素之和构建一个K维对角矩阵,记为D,并定义差值矩阵Λ=D-Θ;
S234、利用S233获得的R个特征向量组成一个K×R的矩阵,将其中每一行视为一个R维向量,并对所有的R维向量进行聚类,得到相似性矩阵Θ的图最小分割结果,记作Cut={Cutl}l=1,…,R,其中,Cutl表示图最小分割结果中的第l个子集,Cut对应的聚类符号向量记为λCut=[λCut,l]l=1,…,R,λCut,l为λCut的第l个分量,表示子集Cutl的类别标签;
7.根据权利要求6所述的基于聚类集成的网络入侵检测方法,其特征在于,所述确定基聚类集合中各基聚类划分的聚类集成权重包括:
S31、利用高斯核函数对网络连接日志数据集X进行数据标准化映射,使映射后得到的标准化数据集Ψ服从高斯分布;
S32、计算每个基聚类划分在特征空间中数据描述的信息增益,用于表示经过聚类划分后每个类别中数据描述不确定性的降低;
S33、根据得到的每个基聚类划分在特征空间中数据描述的信息增益计算基聚类集合中各基聚类划分的聚类集成权重。
8.根据权利要求7所述的基于聚类集成的网络入侵检测方法,其特征在于,所述计算每个基聚类划分在特征空间中数据描述的信息增益包括:
S321、计算标准化数据集Ψ关于网络连接日志数据集X的条件信息熵:
其中,ψi为标准化数据集Ψ中的第i个样本,μΨ为标准化数据集Ψ的期望,||ψi-μΨ||2表示为:
S322、计算标准化数据集Ψ关于每个基聚类划分的条件信息熵,用于描述各基聚类划分在特征空间中数据描述的不确定性;其中,Ψ关于第t个基聚类划分Ct的条件信息熵表示为:
其中,xe、xf、xg以及xh表示网络日志记录数据集X中的任意4条日志记录;
S323、利用S321和S322获得的标准化数据集Ψ的两个条件信息熵计算每个基聚类划分在特征空间中数据描述的信息增益,其中,第t个基聚类划分Ct在特征空间中数据描述的信息增益表示为:
I(Ψ|Ct)=E(Ψ|X)-E(Ψ|Ct)
其中,I(Ψ|Ct)表示Ct在特征空间中数据描述的信息增益;
S324、利用S321~S323的方法,依次计算每个基聚类划分在特征空间中数据描述的信息增益。
9.根据权利要求8所述的基于聚类集成的网络入侵检测方法,其特征在于,所述根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果包括:
S41,根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重,通过加权投票法进行网络日志记录数据集的聚类集成,确定每条日志记录的类别标签,其中,日志记录xi的类别标签表示为:
其中,ωt表示基聚类划分Ct的聚类集成权重,xi(λt)表示日志记录xi在第t个聚类符号向量上的取值,即日志记录xi在第t个基聚类划分中获得的类别标签;δ(·)表示阶跃函数;xi(λ*)为日志记录xi在聚类集成结果中的类别标签,λ*为聚类集成结果对应的聚类符号向量,δ(xi(λt),xi(λ*))表示为:
S42,按照S41确定网络日志记录数据集X中的所有样本的类别标签,将类别标签相同的日志记录归类为同一网络入侵类型,进行网络入侵检测结果的输出。
10.一种基于聚类集成的网络入侵检测系统,其特征在于,包括:
生成单元,用于获取网络连接日志,使用多种传统聚类方法分别对获取的网络连接日志进行类别划分,生成基聚类集合;
对齐单元,用于构建基聚类集合的类别划分相似性矩阵,通过相似性矩阵的图最小分割结果进行基聚类集合中类别标签的对齐;
确定单元,用于确定基聚类集合中各基聚类划分的聚类集成权重;
输出单元,用于根据得到的类别标签对齐后的基聚类划分和基聚类划分的聚类集成权重进行集成,生成网络连接日志数据的入侵检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010240829.4A CN111464529A (zh) | 2020-03-31 | 2020-03-31 | 一种基于聚类集成的网络入侵检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010240829.4A CN111464529A (zh) | 2020-03-31 | 2020-03-31 | 一种基于聚类集成的网络入侵检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111464529A true CN111464529A (zh) | 2020-07-28 |
Family
ID=71680907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010240829.4A Pending CN111464529A (zh) | 2020-03-31 | 2020-03-31 | 一种基于聚类集成的网络入侵检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111464529A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712115A (zh) * | 2020-12-29 | 2021-04-27 | 山西大学 | 一种网络用户群体划分方法及系统 |
CN112948341A (zh) * | 2021-02-22 | 2021-06-11 | 京东数字科技控股股份有限公司 | 用于识别异常的网络设备日志的方法和装置 |
CN114745161A (zh) * | 2022-03-23 | 2022-07-12 | 烽台科技(北京)有限公司 | 一种异常流量的检测方法、装置、终端设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149759A (zh) * | 2007-11-09 | 2008-03-26 | 山西大学 | 一种基于邻域模型的K-means初始聚类中心选择方法 |
CN103678512A (zh) * | 2013-12-26 | 2014-03-26 | 大连民族学院 | 一种动态数据环境下的数据流混合分类方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
CN109214427A (zh) * | 2018-08-13 | 2019-01-15 | 山西大学 | 一种加权投票聚类集成方法 |
CN109829494A (zh) * | 2019-01-28 | 2019-05-31 | 山西大学 | 一种基于加权相似性度量的聚类集成方法 |
CN109858522A (zh) * | 2018-12-29 | 2019-06-07 | 国网天津市电力公司电力科学研究院 | 一种基于数据挖掘的管理线损异常识别方法 |
-
2020
- 2020-03-31 CN CN202010240829.4A patent/CN111464529A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149759A (zh) * | 2007-11-09 | 2008-03-26 | 山西大学 | 一种基于邻域模型的K-means初始聚类中心选择方法 |
CN103678512A (zh) * | 2013-12-26 | 2014-03-26 | 大连民族学院 | 一种动态数据环境下的数据流混合分类方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
CN109214427A (zh) * | 2018-08-13 | 2019-01-15 | 山西大学 | 一种加权投票聚类集成方法 |
CN109858522A (zh) * | 2018-12-29 | 2019-06-07 | 国网天津市电力公司电力科学研究院 | 一种基于数据挖掘的管理线损异常识别方法 |
CN109829494A (zh) * | 2019-01-28 | 2019-05-31 | 山西大学 | 一种基于加权相似性度量的聚类集成方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712115A (zh) * | 2020-12-29 | 2021-04-27 | 山西大学 | 一种网络用户群体划分方法及系统 |
CN112948341A (zh) * | 2021-02-22 | 2021-06-11 | 京东数字科技控股股份有限公司 | 用于识别异常的网络设备日志的方法和装置 |
CN112948341B (zh) * | 2021-02-22 | 2024-02-09 | 京东科技控股股份有限公司 | 用于识别异常的网络设备日志的方法和装置 |
CN114745161A (zh) * | 2022-03-23 | 2022-07-12 | 烽台科技(北京)有限公司 | 一种异常流量的检测方法、装置、终端设备和存储介质 |
CN114745161B (zh) * | 2022-03-23 | 2023-08-22 | 烽台科技(北京)有限公司 | 一种异常流量的检测方法、装置、终端设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ibrahimi et al. | Management of intrusion detection systems based-KDD99: Analysis with LDA and PCA | |
US11256821B2 (en) | Method of identifying and tracking sensitive data and system thereof | |
Li et al. | On challenges in evaluating malware clustering | |
Ahmed et al. | Biometric recognition based on free-text keystroke dynamics | |
CN111464529A (zh) | 一种基于聚类集成的网络入侵检测方法及系统 | |
CN113489685B (zh) | 一种基于核主成分分析的二次特征提取及恶意攻击识别方法 | |
CN105516127A (zh) | 面向内部威胁检测的用户跨域行为模式挖掘方法 | |
CN111107072A (zh) | 一种基于认证图嵌入的异常登录行为检测方法及系统 | |
CN110149347B (zh) | 利用拐点半径实现动态自适应聚类的网络入侵检测方法 | |
CN108063776A (zh) | 基于跨域行为分析的内部威胁检测方法 | |
Somwang et al. | Computer network security based on support vector machine approach | |
Reddy et al. | A survey on SVM classifiers for intrusion detection | |
CN113904872A (zh) | 一种针对匿名服务网站指纹攻击的特征提取方法及系统 | |
CN112926045A (zh) | 一种基于逻辑回归模型的群控设备识别方法 | |
Lankewicz et al. | Real-time anomaly detection using a nonparametric pattern recognition approach | |
Mechtri et al. | Intrusion detection using principal component analysis | |
CN109344913B (zh) | 一种基于改进MajorClust聚类的网络入侵行为检测方法 | |
Nalavade et al. | Evaluation of k-means clustering for effective intrusion detection and prevention in massive network traffic data | |
CN112583847A (zh) | 一种面向中小企业网络安全事件复杂分析的方法 | |
Sipola et al. | Dimensionality reduction framework for detecting anomalies from network logs | |
Qin et al. | ADSAD: An unsupervised attention-based discrete sequence anomaly detection framework for network security analysis | |
CN115510248A (zh) | 基于深度学习的人员行为特征知识图谱构建与分析方法 | |
Yang et al. | Learning vector quantization neural network method for network intrusion detection | |
Wang et al. | TempatMDS: a masquerade detection system based on temporal and spatial analysis of file access records | |
Alves et al. | Evaluating the behaviour of stream learning algorithms for detecting invasion on wireless networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200728 |
|
RJ01 | Rejection of invention patent application after publication |