CN102045357A - 一种基于仿射聚类分析的入侵检测方法 - Google Patents
一种基于仿射聚类分析的入侵检测方法 Download PDFInfo
- Publication number
- CN102045357A CN102045357A CN201010611171XA CN201010611171A CN102045357A CN 102045357 A CN102045357 A CN 102045357A CN 201010611171X A CN201010611171X A CN 201010611171XA CN 201010611171 A CN201010611171 A CN 201010611171A CN 102045357 A CN102045357 A CN 102045357A
- Authority
- CN
- China
- Prior art keywords
- affine
- cluster analysis
- intrusion detection
- characteristic vector
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于仿射聚类分析的入侵检测方法,包括以下步骤:步骤1,建立入侵检测数据库的特征数据向量,并对所述特征数据向量进行标准化处理;步骤2,所述特征数据向量作为仿射聚类分析的输入数据向量,对计算机网络上的用户行为数据向量进行仿射聚类分析,所述仿射聚类分析的方法为先建立特征数据向量的测度矩阵,其中,以相关系数作为各特征数据向量之间的相似度;再对特征数据向量进行仿射聚类分析,得出识别结果。基于仿射聚类来建立入侵检测模型可以优化或完全抛弃既有模型,对用户行为重新划分,从中不断挖掘新的潜在模式,使该方法在入侵检测领域有广泛的应用前景。
Description
技术领域
本发明属于信息安全技术领域,提出了基于仿射聚类分析(affinity propagation clustering)方法建立入侵检测数据库,并据此结果划分安全等级的方法,本发明的入侵检测方法主要应用于信息安全管理系统。
背景技术
随着计算机网络的迅速发展和广泛使用,网上的数据也频繁受到黑客的攻击和篡改,网络安全变得越来越重要。目前,常用的安全技术,如信息加密、防火墙等,可以作为保护网络的第一道防线,但仅应用上述技术是不够的,比如目前广泛使用的防火墙技术不能阻止内部攻击,不能提供实时检测等,人们由此提出了网络安全的第二道防线-入侵检测技术。入侵检测用于识别非授权使用计算机系统的个体(如黑客)和虽有合法授权但滥用其权限的用户(如内部攻击)。现有的入侵检测系统大都采用专家系统或基于统计的方法,这需要较多的经验,而数据挖掘(data mining)方法的优势在于它能从大量数据中提取人们感兴趣的、事先未知的知识和规律,而不依赖经验。
聚类分析是数理统计中的一种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型事物之间的界限。目前,聚类分析已广泛应用在各行各业,通常将被聚类的事物称为样本或实体,将被聚类的一组事物称为样本集。聚类法的基本思想认为,我们所研究的对象中各实体之间存在着程度不同的相似性,于是,根据众多单位的多个观测指标,找出能够度量各单位之间相似程度的统计量,以其作为划分类型的依据,将一些相似程度较大的单位聚合为一类,而将另外一些彼此相似程度较大的单位聚合为另一类。
运用数据挖掘中的仿射聚类分析方法建立入侵检测模型数据库的优点是:能高度自动化地分析原有数据,作出归纳性推理,从中挖掘出潜在的模式,预测出客户的行为,更重要的是它能够优化或完全抛弃既有的模型,对入侵行为重新划分并用显示或隐式的方法进行描述。该方法具有较强的实用性和自适应功能,利用此技术实现网络安全目前在国内外都是一种新的尝试。
入侵检测是对入侵行为的发觉。入侵检测系统将收集到的信息加以分析,判断网络中是否有违反安全策略的行为和遭到攻击的迹象,若找到入侵痕迹,认为与正常行为相符合的行为是正常行为,与攻击行为相符合的是入侵行为,二者都不符合的,则认为是异常数据,将其加入到数据仓库中作进一步分析。
入侵检测系统的基本框架如图1所示,该系统通过引擎观察原始数据,并计算用于模型评估的特征;检测器获取引擎的数据并利用检测模型评估它是否是一个攻击;数据仓库被用作数据和模型的中心存储地;检测模型生成单元实时生成自适应的入侵检测模型,该入侵检测模型送至检测器实时检测入侵行为。在整个检测系统中,自适应的入侵检测模型的产生无疑对入侵行为的辨识起着决定作用,如何快速准确地产生入侵检测模型就至关重要。
发明内容
入侵检测模型能否高效、准确地辨析海量的用户行为数据,并尽可能降低误判率、漏判率是判断一个入侵检测系统成功与否的标志。数据挖掘技术是一种决策支持过程,其主要基于人工智能(AI)、机器学习统计等技术,能从大量数据中提取或挖掘知识。本发明采用了具有可伸缩性、高维性、能处理不同类型属性、可按各种约束聚类等优点的仿射聚类方法建立入侵检测模型。
本发明采用的技术方案为:一种基于仿射聚类分析的入侵检测方法,包括以下步骤:
步骤1,建立入侵检测数据库的特征数据向量;
步骤2,所述特征数据向量作为仿射聚类分析的输入数据向量,对计算机网络上的用户行为数据向量进行仿射聚类分析,所述仿射聚类分析的方法包括如下步骤,
步骤21,建立特征数据向量的测度矩阵,其中,以相关系数作为各特征数据向量之间的相似度;
步骤21,对特征数据向量进行仿射聚类分析,得出识别结果。
优选地,所述特征数据向量包括一个时间窗口内目标主机是与当前连接相同的连接次数、出现SYN错误的连接在所述一个时间窗口内目标主机是与当前连接相同的连接次数中所占的百分比、目标端口相同的连接所占的百分比、目标端口不同的连接所占的百分比、目标端口与当前连接相同的连接次数、出现SYN错误的连接在所述目标端口与当前连接相同的连接次数中所占的百分比和目标主机不同的连接所占的百分比中的至少一个数据。
优选地,上述步骤2中的仿射聚类分析的方法如下:
首先,计算两个特征数据向量xi,xj的相似度s(i,j),
s(i,j)=-corr(xi,xj),其中,1≤i≤N,1≤j≤N,N为待进行仿射聚类分析的行为数据的个数;
再建立数据点之间的传递信息,其中用r(i,k)反映作为候选类代表点的特征数据向量xk适合作为特征数据向量xi的类代表点的吸引度信息;用a(i,k)反映特征数据向量xi选择作为候选类代表点的特征数据向量xk作为其类代表点的归属度信息,根据吸引度、归属度和相似度进行仿射聚类分析;
现存仿射聚类分析的方法如下:
将进行入侵检测分析的所有行为数据向量中的任意两个特征数据向量间的归属度均初始化为0:
a(i,k)=0,其中,1≤i≤N,1≤k≤N;
更新任意两个特征数据向量间的吸引度信息:
更新任意两个特征数据向量间的归属度信息:
其中,1≤i≤N,1≤k≤N,1≤j≤N;
作出判断:
本发明的有益效果:相比较以前的方法而言,该方法主要有以下的优点:仿射聚类不存在像k-means等聚类分析方法那样易陷入局部最优,聚类结果与初始聚类中心相关,以及方法的可靠性仅仅是建立在反复多次重复运算的基础上等问题。因此,基于仿射聚类来建立入侵检测模型可以优化或完全抛弃既有模型,对用户行为重新划分,从中不断挖掘新的潜在模式,使该方法在入侵检测领域有广泛的应用前景。
附图说明
图1为入侵检测系统的基本框架。
图2为发明的基于仿射聚类分析的入侵检测方法的步骤。
具体实施方式
聚类分析是一种很好的数据驱动方法,然而对于入侵检测序列数据,庞大的计算量使它很难实用。基于此,本发明提出了将有效、快速的新聚类方法-仿射聚类用于分析检测模型的大数据集。该方法不用随机选择初始的类代表点,其将所有的数据点都作为潜在的类代表点,通过最小化能量函数与信息传递架构(Message passing architecture),得到最优化的类代表点与它们对应的类。
如图2所示,本发明的入侵检测方法的具体步骤为:
步骤1:建立入侵检测数据库的特征数据向量。
入侵检测很大程度上依赖于收集信息的可靠性和正确性,选择哪些数据表现用户行为是首要问题。黑客们经常在系统和网络日志文件中留下踪迹,充分利用这些信息是检测入侵的必要条件。所选择的特征数据向量应能充分反映用户行为特征全貌,选取特征数据向量的一般原则为使数据量尽量小,提取难度不可太大,还要考虑学习过程的时间、用户行为的时效性等。
步骤2:进行仿射聚类分析。
仿射聚类按照“最大化类内相似性,最小化类间相似性”的原则,将数据对象分组为多个类或簇(cluster),同一个簇中的对象具有较高相似度,而不同簇间的对象差别较大,对象间的相异度根据对象的属性值计算。聚类分析属观察式学习,不依赖预先定义的类和训练实例,由此形成的每个簇,可从中导出相应规则。
仿射聚类方法的模型:
通过最小化能量函数与信息传递架构(Message passing architecture),APC将所有的点都作为可能的类代表点,并且得到最优化的类代表点与它们对应的类。较详细的介绍如下。
设特征数据向量集X={x1,x2,…xN}是需要聚类的数据点集,通过后面一系列步骤,仿射聚类技术将被应用到这些数据点。
首先,两个数据点(或特征数据向量)xi,xj的相似度s(i,j)为它们的相关系数,而不是采用传统方法将数据点(或数据向量)的欧式距离的平方的负值作为数据点之间进行聚类分析的相似度,即:
s(i,j)=-corr(xi,xj) (1)
其中,1≤i≤N,1≤j≤N。
第二,建立数据点之间的传递信息,并且作为优化问题信息将被更新。用r(i,k)表示作为候选类代表点的数据点xk对数据点xi的吸引度(Responsibility)信息,其中,1≤k≤N,r(i,k)反映候选类代表点xk适合作为数据点xi的类代表点的程度。a(i,k)表示数据点xi对作为候选类代表点的数据点xk的归属度(Availability)信息,其反映数据点xi选择数据点xk作为其类代表点的适合程度。在数据r(i,k)和a(i,k)之间存在两种信息交换,r(i,k)和a(i,k)越大,数据点xk作为数据点xi的类代表点的可能性越大。开始时,归属度被初始化a(i,k)=0。
整个APC方法的具体步骤如下:
初始化:
将任意两个数据点间的归属度均初始化为0,即:
a(i,k)=0 (2)
其中,1≤i≤N,1≤k≤N。
更新任意两个数据点间的吸引度信息:
其中,1≤i≤N,1≤k≤N。
更新任意两个数据点间的归属度信息:
其中,1≤i≤N,1≤k≤N,1≤j≤N。
作出判断:
公式(6)表示以使得r(i,k)+a(i,k)为最大值的数据点xk作为数据点xi的类代表点。
下面以《计算机工程》(李洋,2007)和《系统安全与入侵检测》(戴英侠等,2002)公开的一个小型用户行为数据库为例说明仿射聚类的具体实施方式。
实施时,如表1所示,选择在一个时间窗口内目标主机是与当前连接相同的连接次数Count、出现SYN错误的连接在连接次数Count中所占的百分比Serror、目标端口(service)相同的连接所占的百分比Same_srv、目标端口不同的连接所占的百分比Diff_srv、目标端口与当前连接相同的连接次数Srv_count、出现SYN错误的连接在连接次数Srv-count中所占的百分比Srv_serror和目标主机不同的连接所占的百分比rv_diff_host等作为特征数据向量,作为仿射聚类的输入数据集,得到分类结果Class。
表1的每一行(除参数序号与Class列外)作为1个数据点或者特征数据向量,为了便于分析,在进行仿射聚类分析之前,一般需要对各特征数据向量进行标准化处理,以使各特征数据向量均位于所设定的数值范围内,特征数据向量作标准化处理后仍是向量,本实施例中,标准化采用零-均值标准化,即标准化等于特征数据向量与其平均值的差值再除以其标准差,在此可通过matlab函数实现z=(x-mean(x))/std(x)求所有标准化的特征数据向量间的相关系数,即所有数据点间的s(i,j)=-corr(xi,xj),然后代入仿射聚类方法的公式(2)至(6),得到分类结果,其中分类结果中对应的同类的特征数据向量被给予了相同的标号,即如果xi与xj在一次聚类分析中对应为同类,则xi在下次聚类分析中也定义为xi。这样,样本特征数据向量逐渐收敛为三种不同的类。将特征数据向量中连接次数Count、出现SYN错误的连接在连接次数Count中所占的百分比Serror、目标端口与当前连接相同的连接次数Srv_count等各数据量的值最大的一类表示表示为攻击,值最小的一类表示正常,剩下的一类表示异常。
表1网络连接记录及分类
经过程序聚类后,识别出攻击、异常和安全三种类型的记录(也可根据需要设定其它分类数)。将该方法用于不同大小数据集,实验表明,此例中,聚类分析后识别出的结果,如表1的Class栏所示。从中可以看出,运行聚类后,记录3是唯一具有攻击倾向的记录;而记录4~6、12、13、19、20是具有异常行为模式的7条记录,需要进一步观察;剩下的记录1、2、7~11、14~18则是安全的。对分类的记录数据进行合理性分析,可以得出记录行为不具备攻击特性的用户,这样可提高其安全等级;而记录具备攻击特性的用户应予以重点监控。
另外,为提高准确性,可对其中的异常行为记录作进一步分析,再次运用仿射算法进行二次识别,划归出行为模式,再次应用聚类方法对异常行为作进一步分类记录。
Claims (3)
1.一种基于仿射聚类分析的入侵检测方法,其特征在于:包括以下步骤:
步骤1,建立入侵检测数据库的特征数据向量;
步骤2,所述特征数据向量作为仿射聚类分析的输入数据向量,对计算机网络上的用户行为数据向量进行仿射聚类分析,所述仿射聚类分析的方法为先建立特征数据向量的测度矩阵,其中,以相关系数作为各特征数据向量之间的相似度;再对特征数据向量进行仿射聚类分析,得出识别结果。
2.根据权利要求1所述的入侵检测方法,其特征在于,所述特征数据向量包括一个时间窗口内目标主机是与当前连接相同的连接次数、出现SYN错误的连接在所述一个时间窗口内目标主机是与当前连接相同的连接次数中所占的百分比、目标端口相同的连接所占的百分比、目标端口不同的连接所占的百分比、目标端口与当前连接相同的连接次数、出现SYN错误的连接在所述目标端口与当前连接相同的连接次数中所占的百分比和目标主机不同的连接所占的百分比中的至少一个数据。
3.根据权利要求1或2所述的入侵检测方法,其特征在于,步骤2中的仿射聚类分析的方法如下:
首先,计算仿射聚类的两个特征数据向量xi,xj的相似度s(i,j),
s(i,j)=-corr(xi,xj),其中,1≤i≤N,1≤j≤N,N为待进行仿射聚类分析的行为数据向量的个数;
再建立数据点之间的传递信息,其中用r(i,k)反映作为候选类代表点的特征数据向量xk适合作为特征数据向量xi的类代表点的吸引度信息;用a(i,k)反映特征数据向量xi选择作为候选类代表点的特征数据向量xk作为其类代表点的归属度信息,根据吸引度、归属度和相似度进行仿射聚类分析;
仿射聚类分析的方法如下:
将进行入侵检测分析的所有行为数据向量中的任意两个特征数据向量间的归属度均初始化为0:
a(i,k)=0,其中,1≤i≤N,1≤k≤N;
更新任意两个特征数据向量间的吸引度信息:
更新任意两个特征数据向量间的归属度信息:
其中,1≤i≤N,1≤k≤N,1≤j≤N;
作出判断:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010611171XA CN102045357A (zh) | 2010-12-29 | 2010-12-29 | 一种基于仿射聚类分析的入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010611171XA CN102045357A (zh) | 2010-12-29 | 2010-12-29 | 一种基于仿射聚类分析的入侵检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102045357A true CN102045357A (zh) | 2011-05-04 |
Family
ID=43911127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010611171XA Pending CN102045357A (zh) | 2010-12-29 | 2010-12-29 | 一种基于仿射聚类分析的入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102045357A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682048A (zh) * | 2011-10-28 | 2012-09-19 | 刘晓勇 | 一种自适应吸引传播聚类方法及装置 |
CN103607391A (zh) * | 2013-11-19 | 2014-02-26 | 北京航空航天大学 | 一种基于K-means的SQL注入攻击检测方法 |
CN104113869A (zh) * | 2014-06-20 | 2014-10-22 | 北京拓明科技有限公司 | 一种基于信令数据的潜在投诉用户预测方法及系统 |
CN105897517A (zh) * | 2016-06-20 | 2016-08-24 | 广东电网有限责任公司信息中心 | 一种基于svm的网络流量异常检测方法 |
CN106125643A (zh) * | 2016-06-22 | 2016-11-16 | 华东师范大学 | 一种基于机器学习技术的工控安防方法 |
CN107579956A (zh) * | 2017-08-07 | 2018-01-12 | 北京奇安信科技有限公司 | 一种用户行为的检测方法和装置 |
CN110166839A (zh) * | 2019-06-15 | 2019-08-23 | 韶关市启之信息技术有限公司 | 一种验证视频是否被观看的方法与系统 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN114780606A (zh) * | 2022-03-30 | 2022-07-22 | 欧阳安安 | 一种大数据挖掘方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005054982A2 (en) * | 2003-11-28 | 2005-06-16 | Manyworlds, Inc. | Adaptive recombinant systems |
CN101339553A (zh) * | 2008-01-14 | 2009-01-07 | 浙江大学 | 面向海量数据近似快速聚类和索引方法 |
CN101355504A (zh) * | 2008-08-14 | 2009-01-28 | 成都市华为赛门铁克科技有限公司 | 一种用户行为的确定方法和装置 |
-
2010
- 2010-12-29 CN CN201010611171XA patent/CN102045357A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005054982A2 (en) * | 2003-11-28 | 2005-06-16 | Manyworlds, Inc. | Adaptive recombinant systems |
CN101339553A (zh) * | 2008-01-14 | 2009-01-07 | 浙江大学 | 面向海量数据近似快速聚类和索引方法 |
CN101355504A (zh) * | 2008-08-14 | 2009-01-28 | 成都市华为赛门铁克科技有限公司 | 一种用户行为的确定方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682048B (zh) * | 2011-10-28 | 2015-09-02 | 刘晓勇 | 一种用于大型高维数据集的自动聚类任务的自适应吸引传播聚类方法及装置 |
CN102682048A (zh) * | 2011-10-28 | 2012-09-19 | 刘晓勇 | 一种自适应吸引传播聚类方法及装置 |
CN103607391B (zh) * | 2013-11-19 | 2017-02-01 | 北京航空航天大学 | 一种基于K‑means的SQL注入攻击检测方法 |
CN103607391A (zh) * | 2013-11-19 | 2014-02-26 | 北京航空航天大学 | 一种基于K-means的SQL注入攻击检测方法 |
CN104113869A (zh) * | 2014-06-20 | 2014-10-22 | 北京拓明科技有限公司 | 一种基于信令数据的潜在投诉用户预测方法及系统 |
CN104113869B (zh) * | 2014-06-20 | 2017-12-22 | 北京拓明科技有限公司 | 一种基于信令数据的潜在投诉用户预测方法及系统 |
CN105897517A (zh) * | 2016-06-20 | 2016-08-24 | 广东电网有限责任公司信息中心 | 一种基于svm的网络流量异常检测方法 |
CN106125643A (zh) * | 2016-06-22 | 2016-11-16 | 华东师范大学 | 一种基于机器学习技术的工控安防方法 |
CN107579956A (zh) * | 2017-08-07 | 2018-01-12 | 北京奇安信科技有限公司 | 一种用户行为的检测方法和装置 |
CN107579956B (zh) * | 2017-08-07 | 2021-05-11 | 奇安信科技集团股份有限公司 | 一种用户行为的检测方法和装置 |
CN110166839A (zh) * | 2019-06-15 | 2019-08-23 | 韶关市启之信息技术有限公司 | 一种验证视频是否被观看的方法与系统 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN113379176B (zh) * | 2020-03-09 | 2023-12-19 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN114780606A (zh) * | 2022-03-30 | 2022-07-22 | 欧阳安安 | 一种大数据挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102045357A (zh) | 一种基于仿射聚类分析的入侵检测方法 | |
CN110324316B (zh) | 一种基于多种机器学习算法的工控异常行为检测方法 | |
CN102098180B (zh) | 一种网络安全态势感知方法 | |
CN112738015B (zh) | 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法 | |
Ibrahimi et al. | Management of intrusion detection systems based-KDD99: Analysis with LDA and PCA | |
Abd Jalil et al. | Comparison of machine learning algorithms performance in detecting network intrusion | |
CN102045358A (zh) | 一种基于整合相关性分析与分级聚类的入侵检测方法 | |
CN112541022A (zh) | 异常对象检测方法、装置、存储介质及电子设备 | |
CN109117641A (zh) | 一种基于i-hmm的网络安全风险评估方法 | |
CN103581186A (zh) | 一种网络安全态势感知方法及系统 | |
CN111641634B (zh) | 一种基于蜜网的工业控制网络主动防御系统及其方法 | |
Singh et al. | User behavior profiling using ensemble approach for insider threat detection | |
CN115643035A (zh) | 基于多源日志的网络安全态势评估方法 | |
CN111835707A (zh) | 一种基于改进后的支持向量机的恶意程序识别方法 | |
Bateni et al. | Using Artificial Immune System and Fuzzy Logic for Alert Correlation. | |
CN114143037A (zh) | 一种基于进程行为分析的恶意加密信道检测方法 | |
CN110851422A (zh) | 一种基于机器学习的数据异常监测模型构建方法 | |
Sakr et al. | Filter versus wrapper feature selection for network intrusion detection system | |
Guowei et al. | Research on network intrusion detection method of power system based on random forest algorithm | |
CN116384736A (zh) | 一种智慧城市的风险感知方法及系统 | |
CN110365625B (zh) | 物联网安全检测方法、装置及存储介质 | |
CN112001423B (zh) | Apt恶意软件组织的开集识别方法、装置、设备和介质 | |
CN114218998A (zh) | 一种基于隐马尔可夫模型的电力系统异常行为分析方法 | |
Riad et al. | Visualize network anomaly detection by using k-means clustering algorithm | |
CN112925805A (zh) | 基于网络安全的大数据智能分析应用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110504 |