CN103368979A - 一种基于改进K-means算法的网络安全性验证装置 - Google Patents

一种基于改进K-means算法的网络安全性验证装置 Download PDF

Info

Publication number
CN103368979A
CN103368979A CN2013103436588A CN201310343658A CN103368979A CN 103368979 A CN103368979 A CN 103368979A CN 2013103436588 A CN2013103436588 A CN 2013103436588A CN 201310343658 A CN201310343658 A CN 201310343658A CN 103368979 A CN103368979 A CN 103368979A
Authority
CN
China
Prior art keywords
data
network
attribute
attack
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103436588A
Other languages
English (en)
Other versions
CN103368979B (zh
Inventor
张小松
牛伟纳
陈瑞东
王东
陈讲民
张建松
吴濛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201310343658.8A priority Critical patent/CN103368979B/zh
Publication of CN103368979A publication Critical patent/CN103368979A/zh
Application granted granted Critical
Publication of CN103368979B publication Critical patent/CN103368979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种基于改进K-means算法的网络安全性验证装置,其将数据挖掘方法引入到对网络攻击特征的提取中来,首先通过创建高度可受控的靶场验证环境来监控进出系统的流量,再利用分层机制来逐层捕获进出系统的异常流量和异常行为,最后使用改进后的K-means算法对收集到的情报数据进行特征分析处理,从而能够高效的对攻击行为进行检测、准确的发现网络中潜在的未知攻击。

Description

一种基于改进K-means算法的网络安全性验证装置
技术领域
本发明涉及互联网技术领域,提供了一种一种基于改进K-means算法的网络安全性验证装置。
背景技术
近十年来,虽然出现了各种防御技术和产品,但是网络攻击和蠕虫仍然活跃于Internet上,每年造成的损失达到数以亿计。为了准确、快速地对网络攻击进行检测以及对蠕虫爆发进行及时响应,网络安全研究者对此做出了不懈的努力,也取得了明显的成效。但是,当前的安全检测系统大多采用被动防御技术,例如防火墙技术和入侵检测技术等等。由于防火墙技术仅提供静态数据包过滤并不能阻止来自网络内部的攻击;同时入侵检测技术不仅不能有效的检测未知类型的攻击还有可能出现漏报和误报。Honeypot(蜜罐)主要是基于主动防御的思想来对攻击者进行欺骗的:通过布置一些主机、网络服务以及信息作为诱饵来诱使攻击者对它们进行攻击,然后对这些攻击活动进行监视、检测和分析,以获取黑客入侵网络的信息,便于网络管理人员采取防御措施从而减少对实际系统所造成的安全威胁。因为任何访问蜜罐的数据都被认为是可疑的,所以我们可以通过Honeypot捕获得到网络攻击、蠕虫攻击的样本,通过对采集到的样本数据进行分析,可以掌握黑客们的入侵信息,进而使我们能够在与黑客的斗争中掌握主动权。所以Honeypot可以补充已有的入侵检测方法的不足。
为了提高入侵检测系统的性能,许多网络安全研究者将数据挖掘技术应用到入侵检测系统中去。既可以从海量数据中发现隐含的、事先未知的网络、蠕虫攻击特征;又可以将这些新挖掘出来的未知攻击特征应用到入侵检测系统中达到降低漏报和误报的目的。
通过对现在已被使用的网络攻击检测技术和对已有专利的研究得出结论,到目前为止,还没有一种网络攻击检测方法可以适用于大规模高速网络,并且具有很高的准确性、较低的误报、漏报率,还能够准确地自动提取网络攻击特征。本专利提出的一种基于改进K-means算法的网络安全性验证装置是首个能够满足以上要求的检测方法。
与本发明相关的专利
    登陆中华人民共和国国家知识产权局,按照关键字“入侵检测”或“数据挖掘”搜索,找到7个相关专利,按照关键字“honeypot”搜索,找到2个专利。
基于分布式数据挖掘的协同入侵检测系统(申请号:200310111612.X)
    此专利的思想是基于分布式数据挖掘的协同入侵检测系统,系统包括控制台模块和客户端模块。控制台模块为客户端节点提供服务,为客户端模块之间的联系和合作提供信息;客户端模块完成数据挖掘所需数据的收集、处理和检测结果传输。但是,在数据采集部分,此专利未能对进出系统的数据进行有效的控制,导致收集得到的样本不准确或者是不完整。因此,此专利不能很好的对攻击数据进行控制、收集,因此会造成很高的误报。
基于数据挖掘的实时入侵检测方法 (申请号:201110428600.4)
    此专利的思想是在分布式实时系统架构中,增加了两个自适应管理模块,这两个模块用于实现基于数据挖掘的入侵检测系统检测策略及检测模型的自动生成与分发。该专利依然未能对进出系统的数据进行有效的控制,因此,此专利不能很好的对攻击数据进行控制、收集,因此会造成很高的误报。
一种垃圾邮件过滤的方法及系统 (申请号:201210037575.1)
    此专利只是将数据挖掘方法应用在垃圾邮件过滤的方法上,与本专利所说的入侵检测无关。
基于序列模式挖掘的程序级入侵检测系统和方法 (申请号:200510056935.2)
    此专利的思想是以特权程序运行时所产生的系统调用作为审计数据,利用数据挖掘技术中的序列模式表示一个特权程序的正常行为,根据序列的支持度或可信度在训练数据中挖掘正常序列模式,并建立相应的正常序列模式库;检测时通过将当前序列模式和正常序列模式进行比较和匹配来识别攻击行为。该系统依靠特征库识别恶意流量,但是
有些正常流量有时与恶意流量的某些特征非常相似导致产生误报;随着特征库的不断增长,网络的数据流速率可能会超过了入侵检测的最大检测速率,所以将会产生漏报。
一种基于数据挖掘的网络入侵检测系统及方法 (申请号:200910214602.6)
    此专利的思想是将数据挖掘技术和协议分析技术应用到入侵检测系统中。一方面,该检测方法在数据捕获阶段未能有效控制攻击数据的进出,导致攻击样本不完整。另一方面,数据挖掘技术自身可能存在收敛于局部最优解的问题,导致入侵检测系统的误报、漏报。
一种网络流量异常检测方法和系统 (申请号:200710063192.0)
    此专利的思想是接收数据包,判断数据包类型并利用预先建立的协议会话状态机对该数据包所属的会话或伪会话行为的正常程度进行度量;根据度量的结果,利用数据挖掘来判断该会话或伪会话是否为异常。该系统仅仅根据预先建立的协议会话状态机对网络数据流进行预处理,一方面,如果预先建立的协议会话状态机不准确,将导致误报;另一方面,建立的协议会话状态机不能适应新出现的新型网络攻击,将导致漏报。
基于贝叶斯统计模型的网络异常检测方法 (申请号:200710017919.1)
    此专利涉及一种基于贝叶斯统计模型的网络异常的检测方法,与本专利所说的数据挖掘方法无关。
一种实现诱骗网络数据流重定向的方法(申请号:200410044873.9)
    此专利的思想是对进入网络的所有数据进行重定向处理,如果数据报来自Internet,查其源地址是否在可疑IP列表中,若在可疑IP列表中,将其目的MAC地址替换为诱骗网络对应主机的MAC地址,再发往诱骗网络。若不在可疑IP列表中,按防火墙检测规则或入侵检测系统的检测规则进行检测,如果检测规则不匹配,表明该数据报是正常的,则发往要保护的网络;如果规则匹配,则表明该数据报是可疑的,把其源地址加入可疑IP列表,然后发往诱骗网络。但是防火墙仅提供静态包过滤功能,对现今日益复杂多变的攻击手段无法快速适应,而且入侵检测系统从网络采集数据进行检测,对报文流的检测存在歧义性,从而造成很高的漏报和误报。
基于动态审计域模型的协同安全强审计及态势评估系统(申请号:201110221705.2)
此专利的思想是,对于透过防火墙进入网络系统的各种访问,建立快速准确的审计机制,通过日常分析审计、实时分析审计、审计单元与IDS、Firewall和Honeypot间的联动技术,对整个系统安全态势进行分析和评估,为后面的入侵检测和电子取证提供基础。但由于攻击数据具有数据量大、维度高等特点,所以,仅仅依靠日常安全审计技术是不能有效的对海量攻击数据进行高效分析的,不能有效的从海量的工具数据中提取出未知的攻击特征。因此,此专利不能很好的处理海量的攻击数据,换句话说,也就是此专利的漏报率较高。
发明内容
本发明的目的在于以下技术问题:
一、高效率、高受控靶场环境
本发明的设计目标之一是能够创建一个高效率、高度可受控的靶场环境,从而能够监测、捕获和分析所有发生在靶场环境中的活动。要创建和维护一个成功的靶场环境,主要取决于三大关键因素:一是,如何创建一个具有高度诱惑性的靶场环境;二是,一旦靶场内部的某个蜜罐被攻破了,就必须容纳该攻击者并且要确保该蜜罐不会被用来攻击其他靶场;三是,捕获所有进出网络的信息,并且不能让攻击者察觉自己正处于监视下。这就对本发明所提出的一种基于改进K-means算法的网络安全性验证装置的效率、准确性提出了很高的要求。本发明提出的攻击特征检测方法是基于受控靶场的,我们监视、捕获和分析受控靶场中的攻击者的活动信息,因此能够高效、准确的捕捉到靶场中的攻击者的活动信息。
二、准确、无误的萃取攻击样本
因为任何访问蜜罐系统的行为默认情况下都是可疑的,但是在实际情况中,蜜罐收集到的数据并不一定全是攻击数据,在收集到的数据样本中,可能还含有一部分的正常数据。如何在蜜网中过滤掉这部分正常数据并对采集到的样本进行数据降维处理,从而提高网络攻击特征提取的准确性是本发明专利需要解决的一个技术问题。
三、能够对已知和未知网络攻击进行检测
通过在受控网络中放置入侵检测系统可以准确的检测出已知攻击,然而对未知特征的网络攻击,入侵检测系统却无能为力。所以,对未知特征的网络攻击进行检测是本专利中的一个技术难点。本发明采用改进的K-means算法从攻击样本中提取未知攻击特征,而后将新发现的知识应用到入侵检测系统中去,因此可以对已知和未知的网络攻击进行检测。
四、检测准确率高,漏报率、误报率低 
如何选取攻击特征直接影响到检测准确率,特别是对一些未知类型的变形攻击。本专利通过对各种网络攻击行为进行深入分析,建立了各自的行为模型,找出其不同之处,从而找到各攻击特有的特征行为。通过这些特征行为,本专利可以准确的将各种类型的网络攻击区分开,从而达到很高的准确率和很低的误报率。
为了实现上述目的本发明采用以下技术方案:
 一种基于改进K-means算法的网络安全性验证装置,其特征在于包括:
可控模块:通过防火墙将Internet、靶场以及管理网络隔离开,任何进入靶场以及管理网络的连接都会经过防火墙,通过在防火墙规则库中添加过滤条件,对进出靶场和管理网络的各个报文进行检查和控制;
数据捕获模块:对进出系统的可疑流量和异常行为进行捕获
样本数据预处理模块:首先剥离样本数据中的噪声数据,然后对其进行降维处理;
特征提取模块:利用改进的K-means算法对由样本数据预处理模块处理后的数据进行特征分析处理,从而能够高效的对攻击行为进行检测、准确的发现网络中潜在的未知攻击。
2.根据权利要求1所述的一种基于改进K-means算法的网络安全性验证装置,其特征在于,
数据捕获模块按如下步骤对进出系统的可疑流量和异常行为进行捕获:
步骤1:在数据捕获的初始阶段使用防火墙采集进出系统的可疑流量;
步骤2:数据捕获的第二阶段使用入侵检测系统来对网络中流动的报文进行捕获和分析,其中入侵检测系统是一种对网络传输进行实时监视,在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备;
入侵检测系统在检测到可疑的流量时能够进行识别和预警,并将可疑报文记录到一个二进制日志文件中便于后续的特征分析;
步骤3:数据捕获的第三阶段,通过在靶场蜜罐中部署诱饵,在攻击者探测或是访问系统中的诱饵时就触发报警,并将攻击样本记录到日志中去以便后续特征分析;
步骤4:数据捕获结束。
3.根据权利要求1所述的一种基于改进K-means算法的网络安全性验证装置,其特征在于,
特征提取模块提取特征包括以下步骤:
步骤1:首先对攻击样本进行数据预处理,将对分类无价值的属性去掉即进行降维,如果所有属性都重要则忽略此步骤,直接执行步骤2;
步骤2:将连续型的属性变量进行离散化处理形成决策树的训练集,如果没有连续取值的属性则忽略此步骤,具体操作如下:
(1) 根据K-means算法对对原始数据进行聚类,设聚类个数为K;
(2) 计算每个聚类的上下界(Sn,En),其中Sn是指每个类的上界而En是指每个类的下界,n属于1到K;
(3) 最后分别以ai为候选阈值点对Sn、En进行排序,得到连续型属性变量离散化处理的结果,其中i=1,2,…,2K。
步骤3:计算每个属性的信息增益和信息增益率,对于取值连续的属性分别计算以ai为分割点,i=l,2,??,2K,对应分类的信息增益率,选择最大信息增益率对应的聚类n,作为该属性分类的分割点,选择信息增益率最大的属性,作为当前的属性节点,得到决策树的根节点;
步骤4:根节点属性每一个可能的取值对应一个样本子集,对样本子集递归地执行步骤3,直到划分的每个样本子集中的观测数据在分类属性上取值都相同或没有剩余属性,生成决策树;
步骤5:首先根据步骤2的聚类结果,对子树的数据做分类,用子树中最频繁的类别来标记分类结果,不属于K-means同类的惩罚因子设为1标记为一类错误,属于同一类、但不是同一类别的惩罚因子设为0.5标记为二类错误,以此计算误判率,
然后计算每颗子树(具有多个叶节点)的误判次数的均值和方差以及计算子树替换成叶子节点后,叶子节点的误判次数均值,最后根据剪枝后的错误是否在标准误差内来决定是否对子树进行减枝,如果在标准误差内则进行剪枝,否则不进行剪枝操作;
步骤6:根据构造的决策树提取分类规则,对新的数据集进行分类;
步骤7:特征提取结束。
本发明具有以下有益效果:
一、高效率,高受控的靶场环境
本发明的通过创建高度可受控的靶场环境,使该靶场对攻击者能够具有足够的“诱惑性”,引诱攻击者扫描、探测或者攻击该靶场。通过严密的监视攻击者在靶场中的行为,可以获取大量有价值的攻击样本数据信息。
二、能够对已知和未知网络攻击进行检测
本发明对网络中潜在的攻击进行了深刻的分析,找到了一种攻击区别于其他网络攻击的本质的特征行为。本专利通过在受控网络中放置入侵检测产品系统可以准确的检测出已知攻击,通过在受控的靶场环境中捕获攻击样本,然后分析样本,本专利可以很好地提取出未知类型的网络攻击特征。
三、检测准确率高,漏报率、误报率低
本专利通过对各种进出系统的网络可疑流量和异常行为进行深入分析,利用改进的K-means算法针对各类攻击建立其行为模型,找出不同之处,从而找到各攻击特有的特征行为。通过这些特征行为,本专利可以准确的将各种类型的网络攻击区分开,从而达到很高的准确率和很低的误报率。
附图说明
图1为改进的K-means算法流程示意图。
具体实施方式
本发明的关键在于创建一个高效率、高受控的靶场环境,通过在靶场中部署诱饵(虚假的网络、系统以及文件)达到诱骗攻击者的目的。之后,通过严密的监控、检测靶场环境中的攻击者,收集攻击者行为、情报。最后,使用改进的K-means算法对收集到的攻击样本进行分析,获得攻击者的攻击行为特征。所以,我们首先要对靶场环境中诱饵文档的设计进行深入的分析。
部署在靶场环境中的诱饵(可以是Word,Excel,PDF,PowerPoint,邮件,即时消息日志等一些具有诱骗性的文档)使靶场能够具有足够的“诱惑性”,引诱攻击者来探测、攻击我们创建的靶场。在该蜜罐系统中,诱饵的设计都具有以下特点:
(1)标识
标识信息能够让靶场识别一个诱饵是否是诱饵文档,避免合法用户访问或者是触发诱饵文件的可能性。
(2)明显性
一个诱饵的明显性是指该诱饵能够被攻击者容易发现,眼睛容易观察或者吸引攻击者的注意。
(3)可信性
一个设计良好的诱饵应该能够引发攻击者的信任,使攻击者识别出他们是否正在从一个合法的源寻找一个真正的文件,或者使他们识别一个诱饵变得困难。在靶场环境中,我们假定任何诱饵的可信度可以通过攻击者失败辨别诱饵来衡量。
(4)诱惑性 
靶场环境的效率取决于该靶场中的诱惑信息是否具有足够的“诱惑性”,有足够“诱惑性”的靶场能够被更多的攻击者探测和攻击,进而能够在靶场中收集到尽可能丰富的攻击样本,便于后续的分析工作。在靶场环境中,诱惑信息(诸如URLs,用户名、密码文档等)一旦被攻击者访问或者是触发,都将触发靶场检测。
(5)互不干涉性
在操作系统中引入诱饵,诱饵可能会以多种方式干扰系统正常的操作。首要的担心就是诱饵可能会破坏真实数据,以至于不能进行合法的访问。我们依据靶场引入诱饵后,合法用户在成功访问正常文件的概率来定义系统的互不干扰性。
(6)易变性
由于攻击者可能知道在整个系统中都分布了诱饵了,他们的任务就是从大量的诱饵中辨别出真实的文件,所以诱饵的设计要求中就需要有高度的可变性。
除此以外,诱饵还应该具有可发觉、可辨别性等特性。其中,可发觉是指发现或者捕获攻击者的异常举动;可辨别是指合法的用户能够成功的访问真实的文件,与系统中的诱饵区别开来。
要创建并维护一个高度可受控的靶场环境,对进出靶场环境中的活动进行监控就凸显的尤为重要了。
一、数据控制
数据控制是指对进出靶场环境的数据流量进行有效的控制,何种数据能够到达何种目的地是由系统管理员来决定和控制的,该项功能是相当关键的。在我们的靶场环境中,一旦靶场内部的某个蜜罐被攻破了,就必须容纳该攻击者并且要确保该蜜罐不会被用来攻击其他靶场。数据控制的关键之处在于访问控制设备,例如防火墙,可用它将靶场和其他靶场或者Internet的其他部分隔离开。
靶场环境包括数据控制设计。其中,Internet是一个不可信的网络;靶场是一组用于被攻击的蜜罐的集合;管理网络是一个可信的网络,也是我们进行数据收集和分析的地方。通常在这类设计中,防火墙定义了如下规则进行数据流向的控制:
a、任何人都可以发起从Internet到靶场的连接。这样就可以允许攻击者们扫描、探测并最终攻入靶场。
b、防火墙控制着靶场内的主机发起与Internet连接的方式。这样就可以阻止如果靶场内部的某个蜜罐被攻破了,该蜜罐不会被用来当作“肉机”。
c、靶场和管理网络之间的没有任何的直接通信。这样可以确保被攻入的蜜罐不能和管理网络进行通信,从而也就不能修改或者销毁靶场管理网络收集到的攻击样本。
二、数据捕获
数据捕获是指把进入靶场环境内的入侵者的行为在其不知晓的情况下,完整的记录下来以用来特征分析。数据捕获是整个靶场验证中的关键所在,如果捕获数据失败了,那么整个系统也就失败了。因此,对数据进行恰当正确的捕获对于整个系统来说就凸显的尤其重要了。在靶场验证方法中,我们采用分层机制来捕获数据,因为数据捕获的层数越多,其效果也会越理想。
要能够对未知的网络攻击进行检测,对系统管理网络中的攻击样本进行准确、无误的特征提取就凸显的尤为重要了。鉴于样本数据中存在越来越多的连续属性,且对连续属性进行特征提取的效率低的问题,本专利将数据挖掘方法应用到攻击样本特征分析中来。但由于攻击样本数据具有数据量大、维度高等特点,所以直接将数据挖掘算法应用到特征分析会暴露一些算法的一些固有缺陷,从而影响特征分析。鉴于此,本专利从数据挖掘角度来分析攻击样本中的未知特征,对原有的数据挖掘算法进行改进,采用改进的K-means算法来对靶场获取到的样本进行特征分析,以使其高效、实用。攻击样本的特征提取由以下三部分组成:
(1)数据降维
数据降维也即特征降维或者特征选择,是对高维数据进行分析前的重要预处理步骤。数据降维的目的是在保留数据的大部分内在信息的同时将高维空间的数据样本嵌入到一个相对较低的空间。目前主要的降维技术主要有主成分分析(PCA)、Fisher线性判别分析(FLDA)以及相关的基于特征选择的算法。在使用改进的K-means算法对样本数据进行分析前,首先对样本数据进行降维处理,能够便于后续的分析工作,提高特征提取的准确度。
(2)K-means聚类
由于传统K-means算法将欧式距离作为常用的距离度量方法,但由于欧几里得距离度量会受单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大。以攻样本数据(1,0,0,0,0,0,1,1,1)为例(1,0,3,0,0,0,1,1,1)和(0,1,3,1,1,1,0,0,0)为实验数据, 测得欧式距离od是3与3<4之间,即两向量与样本是很相似,但是实际上两向量和样本意义却几乎完全相反。由于空间向量余弦夹角的相似度度量不会受指标刻度的影响,余弦值落于区间[-1,1],值越大,差异越小。如果将余弦距离引入到聚类算法中来,那么此时用余弦距离cosd分别是4/13与0可以很好的表示相似度,即采用欧式距离与余弦距离相结合来计算距离可以很好表示相似度。
(3)改进的K-means算法
C4.5 算法是机器学习算法中的一种分类决策树算法,其核心算法是 ID3 算法。 分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。C4.5算法继承了 ID3算法的优点,并对 ID3 算法进行了改进。
C4.5算法的优点是产生的分类规则易于理解,准确率较高。但是由于在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。KDT改进算法主要包括三个部分:改进后的K-means算法、C4.5原有算法部分以及改进的建树算法。其中,C4.5原有部分算法与C4.5类似;改进后的K-means算法采用欧式距离与余弦距离相结合的方法对样本数据进行聚类预处理;改进后的剪枝算法能够提高剪枝的准确度。
改进的K-means算法的具体流程图见附图1所示。
本专利思想是将数据挖掘方法引入对网络攻击特征提取中来,首先通过创建高度可受控的靶场环境来监控进出系统的流量,再利用分层机制来逐层的捕获进出系统的异常流量和异常行为,最后我们使用改进后的K-means算法对收集到的情报数据进行特征分析处理,从而能够高效的对攻击行为进行检测、准确的发现网络中潜在的未知攻击。
本发明所提出的一种基于改进K-means算法的网络安全性验证装置由下面的装置构成:可控模块,数据捕获模块,样本预处理模块和特征提取模块,下面分别给予描述。
一、可控模块
可控模块的功能是一旦靶场内部的某个蜜罐被攻破了,就必须容纳该攻击者并且要确保该蜜罐不会被用来攻击其他靶场。在创建靶场环境时,防火墙对从Internet到靶场网络环境的连接不作任何限制,但是对靶场环境中的蜜罐发起与Internet的连接作严格的限制,这样的控制措施就可以避免被攻陷的蜜罐作为攻击者的跳板对其他的靶场环境或者是其他的第三方网络进行探测或者发动拒绝服务攻击。
二、数据捕获模块
数据捕获模块的功能是获取靶场内部所进行的全部活动的集合,包括网络和系统两级的。该模块收集到的数据交由可信的管理网络以便作后续的分析处理。
三、样本数据预处理模块
样本数据预处理模块着眼于攻击样本数据本身具有的数据量大、维度高的特点,首先剥离样本数据中的噪声数据(正常流量或正常访问的数据),然后对处理后的数据做降维处理,以便后续改进的K-means算法中的建树处理以及特征提取。
四、特征提取模块
特征提取模块利用改进的K-means算法对由(3)处理后的数据进行特征分析处理,从而能够高效的对攻击行为进行检测、准确的发现网络中潜在的未知攻击。
本专利所提出的一种基于改进K-means算法的网络安全性验证装置基本按照如下步骤进行,首先创建可控的靶场环境,然后利用分层机制来逐层的捕获进出系统的异常流量和异常行为,最后再利用改进的K-means算法从可疑数据样本中提取出攻击特征。
本发明技术实现的具体实施例
下面给出本发明提出的一种基于改进K-means算法的网络安全性验证装置的一个具体实施例,本实施例只是对TCP协议和UDP协议的蠕虫检测方法进行了详细描述,但本专利可以适用于所有协议。
本发明实施例一:
一、可控模块的实施方式
防火墙将Internet、靶场以及管理网络隔离开。任何进入靶场以及管理网络的连接都会经过防火墙,通过在防火墙规则库中添加过滤条件,这样就可以对进出靶场和管理网络的各报文进行检查和控制。
二、数据捕获模块的实施方式
数据捕获模块的成功的关键在于层层的把关:数据捕获的层数越多,其效果就越理想。该模块按如下步骤对进出系统的可疑流量和异常行为进行捕获:
步骤1:防火墙作为访问控制层设备,不仅可以用于数据控制,同时还能记录进出蜜罐的活动。由于任何进出蜜罐的活动都被认为是可疑的,所以在数据捕获的初始阶段使用防火墙采集进出系统的可疑流量。
步骤2:数据捕获的第二阶段使用入侵检测系统对网络中流动的报文进行捕获和分析。该系统在检测到可疑的流量时能够进行识别和预警,并将可疑报文记录到一个二进制日志文件中便于后续的特征分析。
步骤3:数据捕获的第三阶段是靶场蜜罐。通过在靶场蜜罐中部署诱饵,在攻击者探测或是访问系统中的诱饵时就触发报警,并将攻击样本记录到日志中去以便后续特征分析。
步骤4:数据捕获结束。
三、样本数据预处理模块的实施方式
样本数据预处理效果的好坏对特征提取影响较大。样本数据存在于可信的管理网络的日志服务器中。在对样本数据预处理阶段,首先剥离样本数据中的噪声数据,然后处理后的数据做降维处理,以便后续的特征提取。
四、特征提取模块的实施方式
步骤1:首先对攻击样本进行数据预处理,将对分类无价值的属性去掉即进行降维,如果所有属性都重要则忽略此步骤,直接执行步骤2;
步骤2:将连续型的属性变量进行离散化处理形成决策树的训练集,如果没有连续取值的属性则忽略此步骤,具体操作如下:
(4) 根据K-means算法对对原始数据进行聚类,设聚类个数为K;
(5) 计算每个聚类的上下界(Sn,En),其中Sn是指每个类的上界而En是指每个类的下界,n属于1到K;
(6) 最后分别以ai为候选阈值点对Sn、En进行排序,得到连续型属性变量离散化处理的结果,其中i=1,2,…,2K。
步骤3:计算每个属性的信息增益和信息增益率,对于取值连续的属性分别计算以ai为分割点,i=l,2,??,2K,对应分类的信息增益率,选择最大信息增益率对应的聚类n,作为该属性分类的分割点,选择信息增益率最大的属性,作为当前的属性节点,得到决策树的根节点;
步骤4:根节点属性每一个可能的取值对应一个样本子集,对样本子集递归地执行步骤3,直到划分的每个样本子集中的观测数据在分类属性上取值都相同或没有剩余属性,生成决策树;
步骤5:首先根据步骤2的聚类结果,对子树的数据做分类,用子树中最频繁的类别来标记分类结果,不属于K-means同类的惩罚因子设为1标记为一类错误,属于同一类、但不是同一类别的惩罚因子设为0.5标记为二类错误,以此计算误判率,
然后计算每颗子树(具有多个叶节点)的误判次数的均值和方差以及计算子树替换成叶子节点后,叶子节点的误判次数均值,最后根据剪枝后的错误是否在标准误差内来决定是否对子树进行减枝,如果在标准误差内则进行剪枝,否则不进行剪枝操作;
步骤6:根据构造的决策树提取分类规则,对新的数据集进行分类;
步骤7:特征提取结束。

Claims (3)

1.一种基于改进K-means算法的网络安全性验证装置,其特征在于包括:
可控模块:通过防火墙将Internet、靶场以及管理网络隔离开,任何进入靶场以及管理网络的连接都会经过防火墙,通过在防火墙规则库中添加过滤条件,对进出靶场和管理网络的各个报文进行检查和控制;
数据捕获模块:对进出系统的可疑流量和异常行为进行捕获
样本数据预处理模块:首先剥离样本数据中的噪声数据,然后对其进行降维处理;
特征提取模块:利用改进的K-means算法对由样本数据预处理模块处理后的数据进行特征分析处理,从而能够高效的对攻击行为进行检测、准确的发现网络中潜在的未知攻击。
2.根据权利要求1所述的一种基于改进K-means算法的网络安全性验证装置,其特征在于,
数据捕获模块按如下步骤对进出系统的可疑流量和异常行为进行捕获:
步骤1:在数据捕获的初始阶段使用防火墙采集进出系统的可疑流量;
步骤2:数据捕获的第二阶段使用入侵检测系统来对网络中流动的报文进行捕获和分析,其中入侵检测系统是一种对网络传输进行实时监视,在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备;
入侵检测系统在检测到可疑的流量时能够进行识别和预警,并将可疑报文记录到一个二进制日志文件中便于后续的特征分析;
步骤3:数据捕获的第三阶段,通过在靶场蜜罐中部署诱饵,在攻击者探测或是访问系统中的诱饵时就触发报警,并将攻击样本记录到日志中去以便后续特征分析;
步骤4:数据捕获结束。
3.根据权利要求1所述的一种基于改进K-means算法的网络安全性验证装置,其特征在于,
特征提取模块提取特征包括以下步骤:
步骤1:首先对攻击样本进行数据预处理,将对分类无价值的属性去掉即进行降维,如果所有属性都重要则忽略此步骤,直接执行步骤2;
步骤2:将连续型的属性变量进行离散化处理形成决策树的训练集,如果没有连续取值的属性则忽略此步骤,具体操作如下:
a、根据K-means算法对对原始数据进行聚类,设聚类个数为K;
b、计算每个聚类的上下界(Sn,En),其中Sn是指每个类的上界而En是指每个类的下界,n属于1到K;
c、最后分别以ai为候选阈值点对Sn、En进行排序,得到连续型属性变量离散化处理的结果,其中i=1,2,…,2K。
步骤3:计算每个属性的信息增益和信息增益率,对于取值连续的属性分别计算以ai为分割点,i=l,2,??,2K,对应分类的信息增益率,选择最大信息增益率对应的聚类n,作为该属性分类的分割点,选择信息增益率最大的属性,作为当前的属性节点,得到决策树的根节点;
步骤4:根节点属性每一个可能的取值对应一个样本子集,对样本子集递归地执行步骤3,直到划分的每个样本子集中的观测数据在分类属性上取值都相同或没有剩余属性,生成决策树;
步骤5:首先根据步骤2的聚类结果,对子树的数据做分类,用子树中最频繁的类别来标记分类结果,不属于K-means同类的惩罚因子设为1标记为一类错误,属于同一类、但不是同一类别的惩罚因子设为0.5标记为二类错误,以此计算误判率,
然后计算具有多个叶节点的每颗子树的误判次数的均值和方差以及计算子树替换成叶子节点后,叶子节点的误判次数均值,最后根据剪枝后的错误是否在标准误差内来决定是否对子树进行减枝,如果在标准误差内则进行剪枝,否则不进行剪枝操作;
步骤6:根据构造的决策树提取分类规则,对新的数据集进行分类;
步骤7:特征提取结束。
CN201310343658.8A 2013-08-08 2013-08-08 一种基于改进K-means算法的网络安全性验证装置 Active CN103368979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310343658.8A CN103368979B (zh) 2013-08-08 2013-08-08 一种基于改进K-means算法的网络安全性验证装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310343658.8A CN103368979B (zh) 2013-08-08 2013-08-08 一种基于改进K-means算法的网络安全性验证装置

Publications (2)

Publication Number Publication Date
CN103368979A true CN103368979A (zh) 2013-10-23
CN103368979B CN103368979B (zh) 2015-02-04

Family

ID=49369516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310343658.8A Active CN103368979B (zh) 2013-08-08 2013-08-08 一种基于改进K-means算法的网络安全性验证装置

Country Status (1)

Country Link
CN (1) CN103368979B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及系统
CN103729798A (zh) * 2014-01-29 2014-04-16 河南理工大学 基于改进的K-Means聚类的煤矿安全评价系统
CN103795710A (zh) * 2014-01-10 2014-05-14 河海大学 一种基于CloudStack云平台的入侵检测系统的构建方法
CN104104587A (zh) * 2014-04-18 2014-10-15 天津大学 一种认证邮件协议的后一致性分析方法
CN105119919A (zh) * 2015-08-22 2015-12-02 西安电子科技大学 基于流量异常及特征分析的攻击行为检测方法
CN105224961A (zh) * 2015-11-04 2016-01-06 中国电子科技集团公司第四十一研究所 一种高识别度的红外光谱特征提取与匹配方法
CN105282176A (zh) * 2015-11-16 2016-01-27 上海斐讯数据通信技术有限公司 一种云计算环境下的数据安全系统和方法
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
CN106095798A (zh) * 2016-05-31 2016-11-09 北京红马传媒文化发展有限公司 一种基于特征数据库的性别特征的识别方法、系统及终端
CN106506556A (zh) * 2016-12-29 2017-03-15 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
CN106790175A (zh) * 2016-12-29 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种蠕虫事件的检测方法及装置
CN107204991A (zh) * 2017-07-06 2017-09-26 深信服科技股份有限公司 一种服务器异常检测方法及系统
CN107579866A (zh) * 2017-10-25 2018-01-12 重庆电子工程职业学院 一种无线虚拟化接入自主管理网络的业务与虚拟服务智能匹配方法
CN109274677A (zh) * 2018-10-11 2019-01-25 四川长虹电器股份有限公司 基于机器学习的ip分类方法及系统
CN105553998B (zh) * 2015-12-23 2019-02-01 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
CN110276195A (zh) * 2019-04-25 2019-09-24 北京邮电大学 一种智能设备入侵检测方法、设备及存储介质
CN110417745A (zh) * 2019-07-03 2019-11-05 长沙学院 一种支持ModbusTCP低延时处理的规则匹配方法和系统
CN110738272A (zh) * 2019-10-23 2020-01-31 智洋创新科技股份有限公司 一种输电线路通道可视化机械类连续告警样本的标注方法
CN110856178A (zh) * 2019-11-05 2020-02-28 天津大学 一种基于无线网络物理层iq信号的行为识别方法
CN111371758A (zh) * 2020-02-25 2020-07-03 东南大学 一种基于动态贝叶斯攻击图的网络欺骗效能评估方法
CN111756742A (zh) * 2020-06-24 2020-10-09 广州锦行网络科技有限公司 一种蜜罐欺骗防御系统及其欺骗防御方法
CN112261000A (zh) * 2020-09-25 2021-01-22 湖南大学 一种基于PSO-K算法的LDoS攻击检测方法
CN112367338A (zh) * 2020-11-27 2021-02-12 腾讯科技(深圳)有限公司 恶意请求检测方法及装置
CN117040931A (zh) * 2023-10-08 2023-11-10 网御安全技术(深圳)有限公司 低误报率的网络攻击检测方法、系统及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1599334A (zh) * 2003-09-16 2005-03-23 联想(北京)有限公司 一种入侵检测系统及其入侵检测方法
CN101242316A (zh) * 2008-02-03 2008-08-13 西安交大捷普网络科技有限公司 基于快速聚类算法的网络异常检测方法
US20090113535A1 (en) * 2007-10-30 2009-04-30 Aruba Networks, Inc. Securely Virtualizating Network Services
CN102790778A (zh) * 2012-08-22 2012-11-21 常州大学 一种基于网络陷阱的DDoS攻击防御系统
CN103095534A (zh) * 2013-02-28 2013-05-08 南京理工大学常熟研究院有限公司 一种二维k均值熵的网络攻击效果评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1599334A (zh) * 2003-09-16 2005-03-23 联想(北京)有限公司 一种入侵检测系统及其入侵检测方法
US20090113535A1 (en) * 2007-10-30 2009-04-30 Aruba Networks, Inc. Securely Virtualizating Network Services
CN101242316A (zh) * 2008-02-03 2008-08-13 西安交大捷普网络科技有限公司 基于快速聚类算法的网络异常检测方法
CN102790778A (zh) * 2012-08-22 2012-11-21 常州大学 一种基于网络陷阱的DDoS攻击防御系统
CN103095534A (zh) * 2013-02-28 2013-05-08 南京理工大学常熟研究院有限公司 一种二维k均值熵的网络攻击效果评估方法

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530347B (zh) * 2013-10-09 2016-09-14 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及系统
CN103530347A (zh) * 2013-10-09 2014-01-22 北京东方网信科技股份有限公司 一种基于大数据挖掘的互联网资源质量评估方法及系统
CN103795710A (zh) * 2014-01-10 2014-05-14 河海大学 一种基于CloudStack云平台的入侵检测系统的构建方法
CN103729798A (zh) * 2014-01-29 2014-04-16 河南理工大学 基于改进的K-Means聚类的煤矿安全评价系统
CN103729798B (zh) * 2014-01-29 2017-01-11 河南理工大学 基于改进的K-Means聚类的煤矿安全评价系统
CN104104587A (zh) * 2014-04-18 2014-10-15 天津大学 一种认证邮件协议的后一致性分析方法
CN104104587B (zh) * 2014-04-18 2017-12-26 天津大学 一种认证邮件协议的后一致性分析方法
CN105119919A (zh) * 2015-08-22 2015-12-02 西安电子科技大学 基于流量异常及特征分析的攻击行为检测方法
CN105224961A (zh) * 2015-11-04 2016-01-06 中国电子科技集团公司第四十一研究所 一种高识别度的红外光谱特征提取与匹配方法
CN105282176A (zh) * 2015-11-16 2016-01-27 上海斐讯数据通信技术有限公司 一种云计算环境下的数据安全系统和方法
CN105282176B (zh) * 2015-11-16 2019-07-19 上海斐讯数据通信技术有限公司 一种云计算环境下的数据安全系统和方法
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
CN105376255B (zh) * 2015-12-08 2019-06-07 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
CN105553998B (zh) * 2015-12-23 2019-02-01 中国电子科技集团公司第三十研究所 一种网络攻击异常检测方法
CN106095798A (zh) * 2016-05-31 2016-11-09 北京红马传媒文化发展有限公司 一种基于特征数据库的性别特征的识别方法、系统及终端
CN106506556B (zh) * 2016-12-29 2019-11-19 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
CN106790175B (zh) * 2016-12-29 2019-09-17 北京神州绿盟信息安全科技股份有限公司 一种蠕虫事件的检测方法及装置
US11451566B2 (en) 2016-12-29 2022-09-20 NSFOCUS Information Technology Co., Ltd. Network traffic anomaly detection method and apparatus
WO2018121157A1 (zh) * 2016-12-29 2018-07-05 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
CN106790175A (zh) * 2016-12-29 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种蠕虫事件的检测方法及装置
CN106506556A (zh) * 2016-12-29 2017-03-15 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
CN107204991A (zh) * 2017-07-06 2017-09-26 深信服科技股份有限公司 一种服务器异常检测方法及系统
CN107579866B (zh) * 2017-10-25 2019-05-10 重庆电子工程职业学院 一种无线虚拟化接入自主管理网络的业务与虚拟服务智能匹配方法
CN107579866A (zh) * 2017-10-25 2018-01-12 重庆电子工程职业学院 一种无线虚拟化接入自主管理网络的业务与虚拟服务智能匹配方法
CN109274677B (zh) * 2018-10-11 2021-04-27 四川长虹电器股份有限公司 基于机器学习的ip分类方法及系统
CN109274677A (zh) * 2018-10-11 2019-01-25 四川长虹电器股份有限公司 基于机器学习的ip分类方法及系统
CN110276195A (zh) * 2019-04-25 2019-09-24 北京邮电大学 一种智能设备入侵检测方法、设备及存储介质
CN110417745A (zh) * 2019-07-03 2019-11-05 长沙学院 一种支持ModbusTCP低延时处理的规则匹配方法和系统
CN110738272A (zh) * 2019-10-23 2020-01-31 智洋创新科技股份有限公司 一种输电线路通道可视化机械类连续告警样本的标注方法
CN110738272B (zh) * 2019-10-23 2020-11-03 智洋创新科技股份有限公司 一种输电线路通道可视化机械类连续告警样本的标注方法
CN110856178A (zh) * 2019-11-05 2020-02-28 天津大学 一种基于无线网络物理层iq信号的行为识别方法
CN111371758A (zh) * 2020-02-25 2020-07-03 东南大学 一种基于动态贝叶斯攻击图的网络欺骗效能评估方法
CN111756742A (zh) * 2020-06-24 2020-10-09 广州锦行网络科技有限公司 一种蜜罐欺骗防御系统及其欺骗防御方法
CN112261000A (zh) * 2020-09-25 2021-01-22 湖南大学 一种基于PSO-K算法的LDoS攻击检测方法
CN112367338A (zh) * 2020-11-27 2021-02-12 腾讯科技(深圳)有限公司 恶意请求检测方法及装置
CN117040931A (zh) * 2023-10-08 2023-11-10 网御安全技术(深圳)有限公司 低误报率的网络攻击检测方法、系统及相关设备

Also Published As

Publication number Publication date
CN103368979B (zh) 2015-02-04

Similar Documents

Publication Publication Date Title
CN103368979B (zh) 一种基于改进K-means算法的网络安全性验证装置
CN107241352B (zh) 一种网络安全事件分类与预测方法及系统
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN108471429B (zh) 一种网络攻击告警方法及系统
Elsayed et al. Machine-learning techniques for detecting attacks in SDN
CN108683687B (zh) 一种网络攻击识别方法及系统
Bilge et al. Disclosure: detecting botnet command and control servers through large-scale netflow analysis
Chen et al. Anomaly network intrusion detection using hidden Markov model
CN108881263B (zh) 一种网络攻击结果检测方法及系统
US20140165207A1 (en) Method for detecting anomaly action within a computer network
US20080276317A1 (en) Detection of Multi-Step Computer Processes Such as Network Intrusions
CN105208037A (zh) 一种基于轻量级入侵检测的DoS/DDoS攻击检测和过滤方法
Adams et al. Data analysis for network cyber-security
CN113904881B (zh) 一种入侵检测规则误报处理方法和装置
CN114021040A (zh) 基于业务访问的恶意事件的告警及防护方法和系统
CN110519231A (zh) 一种跨域数据交换监管系统及方法
CN113904795A (zh) 一种基于网络安全探针的流量快速精确检测方法
Thi et al. Federated learning-based cyber threat hunting for apt attack detection in SDN-enabled networks
Chakir et al. An efficient method for evaluating alerts of Intrusion Detection Systems
Sharma et al. An overview of flow-based anomaly detection
Ebrahimi et al. Automatic attack scenario discovering based on a new alert correlation method
Zali et al. Real-time intrusion detection alert correlation and attack scenario extraction based on the prerequisite-consequence approach
Elshoush An innovative framework for collaborative intrusion alert correlation
Wang et al. APTSID: an ensemble learning method for APT attack stage identification
CN117609990B (zh) 一种基于场景关联分析引擎的自适应安全防护方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Chen Ting

Inventor after: Zhang Xiaosong

Inventor after: Niu Weina

Inventor after: Chen Ruidong

Inventor after: Wang Dong

Inventor after: Chen Jiangmin

Inventor after: Zhang Jiansong

Inventor after: Wu Meng

Inventor before: Zhang Xiaosong

Inventor before: Niu Weina

Inventor before: Chen Ruidong

Inventor before: Wang Dong

Inventor before: Chen Jiangmin

Inventor before: Zhang Jiansong

Inventor before: Wu Meng

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: ZHANG XIAOSONG NIU WEINA CHEN RUIDONG WANG DONG CHEN JIANGMIN ZHANG JIANSONG WU MENG TO: CHEN TING ZHANG XIAOSONG NIU WEINA CHEN RUIDONG WANG DONG CHEN JIANGMIN ZHANG JIANSONG WU MENG

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Xiaosong

Inventor after: Niu Weina

Inventor after: Chen Ruidong

Inventor after: Wang Dong

Inventor after: Chen Ting

Inventor after: Chen Jiangmin

Inventor after: Zhang Jiansong

Inventor after: Wu Meng

Inventor before: Chen Ting

Inventor before: Zhang Xiaosong

Inventor before: Niu Weina

Inventor before: Chen Ruidong

Inventor before: Wang Dong

Inventor before: Chen Jiangmin

Inventor before: Zhang Jiansong

Inventor before: Wu Meng

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: NIU QIUNA YAN CHUNJUAN ZHANG JUNBO LU CHAO YAN CHUNJUAN LIU YONGJUN WANG CHUANXU CHEN BANGMING TO: YAN CHUNJUAN ZHANG JUNBO LU CHAO YAN CHUNJUAN NIU QIUNA LIU YONGJUN WANG CHUANXU CHEN BANGMING

C14 Grant of patent or utility model
GR01 Patent grant