CN105376260B - 一种基于密度峰值聚类的网络异常流量监测系统 - Google Patents

一种基于密度峰值聚类的网络异常流量监测系统 Download PDF

Info

Publication number
CN105376260B
CN105376260B CN201510958055.8A CN201510958055A CN105376260B CN 105376260 B CN105376260 B CN 105376260B CN 201510958055 A CN201510958055 A CN 201510958055A CN 105376260 B CN105376260 B CN 105376260B
Authority
CN
China
Prior art keywords
abnormal weight
value
point
distance
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510958055.8A
Other languages
English (en)
Other versions
CN105376260A (zh
Inventor
王国胤
赵烜强
李智星
彭思源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201510958055.8A priority Critical patent/CN105376260B/zh
Publication of CN105376260A publication Critical patent/CN105376260A/zh
Application granted granted Critical
Publication of CN105376260B publication Critical patent/CN105376260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks

Abstract

本发明请求保护一种基于密度峰值聚类的网络异常流量监测系统,包括:特征选择模块:通过关键字源IP地址在单位时间一分钟内聚合而选择新特征空间模块;子空间映射模块:将高维特征空间映射到多个低维空间上形成多个新特征空间数据;异常权重赋值模块:基于密度和距离的距离权重赋值方法,计算出每个子空间中的每个数据点的异常权重;异常权值整合:计算出的所有子空间中的异常权值进行整合,得到原空间数据点的最终异常权值;异常权值阈值确定模块:将最终异常权值逆序排序后,取斜率突变处为检测阈值;异常流量检测模块:所有异常权值大于阈值的网络流量检测为异常流量,小于为正常流量。本发明能适应多样的网络环境,并提高检测精度和准确率。

Description

一种基于密度峰值聚类的网络异常流量监测系统
技术领域
本发明涉及网络入侵检测、机器学习等领域,尤其涉及一种基于多空间异常赋权的无监督的网络异常流量检测方法。
背景技术
网络入侵检测技术主要分为误用检测(Misuse Detection)和异常检测 (AnomalyDetection)两类。误用检测是将计算机行为与已知的应用或攻击特征进行比对的特征匹配方法,这种方法检测率比较高,但是只能对已知的攻击类型和已知的系统弱点进行检测,难以检测出未知的攻击。而相对而言,异常检测是根据异常监视器观察主体的活动,然后产生刻画这些活动行为的轮廓,每一个轮廓保存记录主体当前的行为,并定时将当前行为与存储的轮廓合并,通过比较当前行为与已保存的轮廓来判断异常行为检测网络入侵。大部分误用检测和异常检测的算法都极大地依赖带标签的训练数据。如果训练数据的标签不正确,通过算法训练得到的正常或异常模型就会不准确,算法的检测效率就会大大降低,甚至算法会完全失效。而无监督入侵检测算法可以在无标签的数据中学习并发现数据中的入侵行为,无监督入侵算法的研究是一个新兴的研究方向,具有广阔的研究前景。
发明内容
针对以下现有的不足,提出了一种能适应多样的网络环境,摆脱对先验知识的依赖,并提高检测精度和准确率的基于密度峰值聚类的网络异常流量监测系统。。本发明的技术方案如下:一种基于密度峰值聚类的网络异常流量监测系统,其包括:特征选择模块:用于对原始网络流量数据的特征进行提取和选择,按照关键字源IP地址在单位时间一分钟内生成21维聚合特征空间数据;
子空间映射模块:用于将生成的21维聚合特征空间数据映射到k个m维特征的数据子空间上,子空间的维数小于原空间维数,即m<21;
异常权重赋值模块:将本网络的数据流量看作数据点,根据数据点与相邻点的距离大小来计算出数据点的密度值,通过计算所有比该数据点密度更大的点之间的距离来计算出最小距离值,结合密度值和最小距离值计算出每个数据点的异常权值;
异常权值整合模块:将每个子空间计算出的异常权值进行整合并计算出所有网络流量的最终异常权值;
异常权值阈值确定模块:将最终异常权值进行逆序排序并生成曲线,取斜率突变处为异常权值阈值;
异常流量检测模块:所有网络流量的异常权值大于阈值的检测为异常,其余小于阈值的检测为正常。
进一步的,所述特征选择模块关键字选取源IP地址或目的IP地址,将抓取的网络流量数据根据时间戳以每一分钟为单位聚合起来并计算提取以下21个特征向量:单位时间内记录条数,源IP地址量,源IP地址数量熵,源端口数量,源端口数量熵,目的IP地址数量,目的IP地址数量熵,目的IP地址编辑距离,目的IP地址编辑距离方差,目的端口数量,目的端口数量熵,上行流量均值,上行流量方差,下行流量均值,下行流量方差,协议数量,协议数量熵,源操作系统数量,源操作系统数量熵,目的操作系统数量,目的操作系统数量熵。
进一步的,所述异常权重赋值模块计算该点的密度值具体为:
设该点为i则点i的密度值ρi由以下公式来定义:
其中当x<0时χ(x)=1,否则χ(x)=0,x是函数的参数,也就是dij-dc的值,且dij是点i与点j的距离,距离计算方法采用欧式距离,dc是截断距离,其取值是所有点之间距离的前1%到2%。
进一步的,所述异常权重赋值模块计算最小距离值具体为:点j的最小距离δi由以下公式来定义:
其中dij是点i与点j的距离,对于密度值最大的点,其值为δi=maxj(dij)。
进一步的,每个点的异常值由以下公式来定义:
其中0<α<1,djk表示点j与点k的距离;参数α用来调整最小距离值δi与密度值ρi可能造成的偏差。
进一步的,异常权值整合模块计算出最终异常权值具体为:首先分别计算出各个子空间上的每条网络流量数据的异常权值然后计算出原空间上的每条网络流量数据的异常权值最后通过的线性组合求出每条网络流量数据的最终的异常权值,其中a和b是组合参数。
进一步的,所述异常权值阈值确定模块具体为:将最终异常权值进行逆序排序并生成曲线,取斜率突变处为异常权值阈值;并依次计算每两点之间的斜率,然后比较相邻斜率大小,若前后相差0.5倍且位于前20%位置则相应地选取该处的值为异常权值阈值,否则选取第20%位置处的值为异常权值阈值。
本发明的优点及有益效果如下:
1、本发明采用基于无监督机器学习的方法,因此可以充分从数据中挖掘信息,避免有监督方法中训练集的使用而造成的信息偏置较大等缺点。
2、本发明是基于网络的入侵检测系统。其数据分析、检测基于网络流量数据,因此可以适应较为复杂的网络环境。
3、本发明具有较好的可拓展性。该方法在运行过程中,将持续采集网络流量数据,通过异常权值赋值标记所有网络流量数据。从长远的角度来看,这将使得其自动识别并建立更多的入侵模式。
4、本发明具有较好的兼容性。该方法所采用的技术是基于无监督,不需要对其他网络系统进行过多配置则可以很好的与之兼容。
附图说明
图1是本发明提供优选实施例总体框架图;
图2为特征空间映射到子空间流程图;
图3为子空间和原空间异常流量数据异常权值整合流程图;
图4为异常权值的阈值选取的示例图;
图5为网络流量数据检测流程图
具体实施方式
以下结合附图,对本发明作进一步说明:
如图1所示,101特征选择模块:对原始网络流量数据特征提取和选择,按照关键字在单位时间内聚合成新的特征空间数据;单位时间的长短决定了特征选择的粒度的粗细,根据最优原则,这里单位时间长度选取一分钟。关键字选取源IP地址或目的IP地址,将抓取的网络流量数据根据时间戳以每一分钟为单位聚合起来并计算提取以下21个特征向量:单位时间内记录条数,源IP地址量,源IP地址数量熵,源端口数量,源端口数量熵,目的IP地址数量,目的IP地址数量熵,目的IP地址编辑距离,目的IP地址编辑距离方差,目的端口数量,目的端口数量熵,上行流量均值,上行流量方差,下行流量均值,下行流量方差,协议数量,协议数量熵,源操作系统数量,源操作系统数量熵,目的操作系统数量,目的操作系统数量熵。
102子空间映射模块:将21维特征的数据空间映射到k个m维特征的数据子空间上,子空间的维数小于原空间维数m<21。多维数据映射到低维数据空间上是基于类簇属性单一性的特性,即如果在高维数据上有多个高聚集度的类簇单元,那么这些类簇单元也会在低维的空间数据上表现出来,意味着高维数据空间的属性信息会被体现在低维属性空间上。数据空间维度的减少不仅可以极大减少检测计算复杂度,还可以提供更细粒度的评估分析并更好地提高检测效果。因此,原21维特征空间数据映射到n(n-1)/2=210个子空间上,每个子空间的特征数量为2维,均为原空间的特征的两两组合,如图2所示。
103异常权重赋值模块:将网络数据流量看作成数据点,根据数据点与周围点的距离大小来计算出该点的密度值,通过与所有密度更大的点的距离来计算出最小距离值,结合密度值和最小距离值计算出每个数据点的异常权值。
点i的密度值ρi由以下公式来定义:
其中当x<0时χ(x)=1,否则χ(x)=0,且dij是点i与点j的距离,距离计算方法采用欧式距离,dc是截断距离,其取值是所有点之间距离的前1%到2%。
点j的最小距离δi由以下公式来定义:
其中dij是点i与点j的距离,对于密度值最大的点,其值为δi=maxj(dij)。
异常点有相对较大的局部密度值和相对较小的最小距离值,因此每个点的异常值由以下公式来定义:
其中0<α<1,djk表示点j与点k的距离;参数α用来调整最小距离值δi与密度值ρi可能造成的偏差,一般情况下α取值0.5。异常权值计算公式很好的反映了局部密度值与最小距离值对点的异常权值Oi贡献的关系,即局部密度值与异常权重成正比,最小距离值与异常权值成反比。异常权值Oi的小大范围为0 到1,值越大表示该点的异常可能性也越大,反之亦然。
根据异常权值公式(3)计算所有子空间上的所有网络流量数据的异常权值。
104异常权值整合模块:将每个子空间计算出的异常权值进行整合并计算出所有网络流量的最终异常权值。如图3所示,首先分别计算出各个子空间上的每条网络流量数据的异常权值然后计算出原空间上的每条网络流量数据的异常权值最后通过的线性组合求出每条网络流量数据的最终的异常权值,其中a和b是组合参数,由于多个子空间映射后的信息贡献度要大于原空间,一般而言参数取值a=0.6和b=0.4。
105异常权值阈值确定模块:将所有网络流量数据的最终异常权值进行逆序排序并生成曲线,并依次计算每两点之间的斜率,然后比较相邻斜率大小,若前后相差0.5倍且位于前20%位置则相应地选取该处的值为异常权值阈值,否则选取第20%位置处的值为异常权值阈值,如图4所示。
106异常流量检测模块:得到所有网络流量的最终异常权值后,将其与阈值进行比较,如图5,异常权值大于阈值的检测为异常,其余小于阈值的检测为正常。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种基于密度峰值聚类的网络异常流量监测系统,其特征在于:包括
特征选择模块(101):用于对原始网络流量数据的特征进行提取和选择,按照关键字源IP地址在单位时间一分钟内生成21维聚合特征空间数据,21个特征向量分别为:单位时间内记录条数,源IP地址量,源IP地址数量熵,源端口数量,源端口数量熵,目的IP地址数量,目的IP地址数量熵,目的IP地址编辑距离,目的IP地址编辑距离方差,目的端口数量,目的端口数量熵,上行流量均值,上行流量方差,下行流量均值,下行流量方差,协议数量,协议数量熵,源操作系统数量,源操作系统数量熵,目的操作系统数量,目的操作系统数量熵;空间映射模块(102):用于将生成的21维聚合特征空间数据映射到k个m维特征的数据子空间上,子空间的维数小于原空间维数,即m<21;异常权重赋值模块(103):将本网络的数据流量看作数据点,根据数据点与相邻点的距离大小来计算出数据点的密度值,通过计算所有比该数据点密度更大的点之间的距离来计算出最小距离值,结合密度值和最小距离值计算出每个数据点的异常权值;异常权值整合模块(104):将每个子空间计算出的异常权值进行整合并计算出所有网络流量的最终异常权值;异常权值阈值确定模块(105):具体为:将最终异常权值进行逆序排序并生成曲线,取斜率突变处为异常权值阈值;并依次计算每两点之间的斜率,然后比较相邻斜率大小,若前后相差0.5倍且位于前20%位置则相应地选取该处的值为异常权值阈值,否则选取第20%位置处的值为异常权值阈值;异常流量检测模块(106):所有网络流量的异常权值大于阈值的检测为异常,其余小于阈值的检测为正常。
2.根据权利要求1所述的基于密度峰值聚类的网络异常流量监测系统,其特征在于:所述异常权重赋值模块(103)计算该点的密度值具体为:
设该点为i,则点i的密度值ρi由以下公式来定义:
其中当x<0时χ(x)=1,x是函数的参数,也就是dij-dc的值,否则χ(x)=0,且dij是点i与点j的距离,距离计算方法采用欧式距离,dc是截断距离,其取值是所有点之间距离的前1%到2%。
3.根据权利要求2所述的基于密度峰值聚类的网络异常流量监测系统,其特征在于:所述异常权重赋值模块(103)计算最小距离值具体为:点j的最小距离δi由以下公式来定义:
其中dij是点i与点j的距离,对于密度值最大的点,其值为δi=maxj(dij)。
4.根据权利要求3所述的基于密度峰值聚类的网络异常流量监测系统,其特征在于:每个点的异常值由以下公式来定义:
其中0<α<1,djk表示点j与点k的距离;参数α用来调整最小距离值δi与密度值ρi可能造成的偏差。
5.根据权利要求4所述的基于密度峰值聚类的网络异常流量监测系统,其特征在于:异常权值整合模块(104)计算出最终异常权值具体为:首先分别计算出各个子空间上的每条网络流量数据的异常权值然后计算出原空间上的每条网络流量数据的异常权值最后通过的线性组合求出每条网络流量数据的最终的异常权值,其中a和b是组合参数。
CN201510958055.8A 2015-12-18 2015-12-18 一种基于密度峰值聚类的网络异常流量监测系统 Active CN105376260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958055.8A CN105376260B (zh) 2015-12-18 2015-12-18 一种基于密度峰值聚类的网络异常流量监测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958055.8A CN105376260B (zh) 2015-12-18 2015-12-18 一种基于密度峰值聚类的网络异常流量监测系统

Publications (2)

Publication Number Publication Date
CN105376260A CN105376260A (zh) 2016-03-02
CN105376260B true CN105376260B (zh) 2018-12-28

Family

ID=55378065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958055.8A Active CN105376260B (zh) 2015-12-18 2015-12-18 一种基于密度峰值聚类的网络异常流量监测系统

Country Status (1)

Country Link
CN (1) CN105376260B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101102B (zh) * 2016-06-15 2019-07-26 华东师范大学 一种基于pam聚类算法的网络异常流量检测方法
CN106254153B (zh) * 2016-09-19 2019-12-10 腾讯科技(深圳)有限公司 一种网络异常监控方法和装置
CN106777984B (zh) * 2016-12-19 2019-02-22 福州大学 一种基于密度聚类算法实现光伏阵列工作状态分析与故障诊断的方法
CN106971713B (zh) * 2017-01-18 2020-01-07 北京华控智加科技有限公司 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN107566192B (zh) * 2017-10-18 2019-09-20 中国联合网络通信集团有限公司 一种异常流量处理方法及网管设备
EP3756324A4 (en) * 2018-02-23 2021-10-06 Nokia Technologies Oy NETWORK SECURITY
CN109995772B (zh) * 2019-03-21 2021-06-15 长春理工大学 一种基于cfsfdp聚类的并行自适应异常检测方法
CN110149310B (zh) * 2019-04-09 2021-11-16 中国科学院计算机网络信息中心 流量入侵检测方法、装置及存储介质
CN110098983B (zh) * 2019-05-28 2021-06-04 上海优扬新媒信息技术有限公司 一种异常流量的检测方法及装置
CN110455292A (zh) * 2019-08-16 2019-11-15 四川九洲电器集团有限责任公司 飞行轨迹确定方法、设备、飞行轨迹推演系统及存储介质
CN112751813A (zh) * 2019-10-31 2021-05-04 国网浙江省电力有限公司 一种网络入侵检测方法及装置
CN110995692A (zh) * 2019-11-28 2020-04-10 江苏电力信息技术有限公司 基于因子分析与子空间协同表示的网络安全入侵检测方法
CN114386468A (zh) * 2020-10-16 2022-04-22 北京中科网威信息技术有限公司 网络异常流量检测方法、装置、电子设备及存储介质
CN114745304B (zh) * 2022-04-27 2024-02-27 北京广通优云科技股份有限公司 It运维系统中基于网络行为参数的业务突变点识别方法
CN116233026A (zh) * 2023-03-01 2023-06-06 深圳市创载网络科技有限公司 一种用于数据中心的智能管理方法及系统
CN117154647B (zh) * 2023-10-16 2024-01-02 北京易动空间科技有限公司 一种用于电推进系统的电源控制方法
CN117421386B (zh) * 2023-12-19 2024-04-16 成都市灵奇空间软件有限公司 基于gis的空间数据处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147078A1 (en) * 2011-04-27 2012-11-01 Whitewater Security Ltd. A system and a method for detecting abnormal occurrences
CN103530995A (zh) * 2013-10-12 2014-01-22 重庆邮电大学 基于目标空间关系约束的视频监控智能预警系统及方法
CN104462819A (zh) * 2014-12-09 2015-03-25 国网四川省电力公司信息通信公司 一种基于密度聚类的局部离群点检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012147078A1 (en) * 2011-04-27 2012-11-01 Whitewater Security Ltd. A system and a method for detecting abnormal occurrences
CN103530995A (zh) * 2013-10-12 2014-01-22 重庆邮电大学 基于目标空间关系约束的视频监控智能预警系统及方法
CN104462819A (zh) * 2014-12-09 2015-03-25 国网四川省电力公司信息通信公司 一种基于密度聚类的局部离群点检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Clustering by Fast Search and Find of Density Peaks;Alex Rodriguez 等;《Science》;20140627;正文第一页左栏倒数第1段至第5页中栏最后一段 *
Dimensionality Reduction Framework for Detecting Anomalies from Network Logs;Tuomo Sipola 等;《Engineering Intelligent Systems》;20130226;正文第2页倒数第2段至正文第15也最后一段 *
基于密度的聚类和基于网格的两大聚类算法;肖婷;《百度文库》;20130630;正文第2页第1段至第50页最后一段 *

Also Published As

Publication number Publication date
CN105376260A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN105376260B (zh) 一种基于密度峰值聚类的网络异常流量监测系统
US11048729B2 (en) Cluster evaluation in unsupervised learning of continuous data
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN103532776B (zh) 业务流量检测方法及系统
CN103795612B (zh) 即时通讯中的垃圾和违法信息检测方法
CN102802158B (zh) 基于信任评估的无线传感器网络异常检测方法
Din et al. Exploiting evolving micro-clusters for data stream classification with emerging class detection
CN107742127A (zh) 一种改进的防窃电智能预警系统及方法
Xia et al. A clustering approach to online freeway traffic state identification using ITS data
CN106789904B (zh) 物联网入侵检测方法及装置
CN107493277B (zh) 基于最大信息系数的大数据平台在线异常检测方法
CN106530704B (zh) 一种基于多元数据融合的浮动车聚集检测方法
CN106502234A (zh) 基于双轮廓模型的工业控制系统异常检测方法
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
CN108965055A (zh) 一种基于历史时间取点法的网络流量异常检测方法
CN103103570B (zh) 基于主元相似性测度的铝电解槽况诊断方法
CN101841435A (zh) Dns查询流量异常的检测方法、装置和系统
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN103631681A (zh) 一种在线修复风电场异常数据的方法
CN104281779A (zh) 一种异常数据判定与处理方法及装置
CN111144435A (zh) 基于lof和验证过滤框架的电能量异常数据监测方法
Tehrani et al. Online electricity theft detection framework for large-scale smart grid data
CN112101420A (zh) 一种相异模型下Stacking集成算法的异常用电用户识别方法
CN102801629A (zh) 一种流量矩阵的估计方法
CN113526282A (zh) 一种电梯中长期老化故障诊断方法、装置、介质和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant