CN109995772B - 一种基于cfsfdp聚类的并行自适应异常检测方法 - Google Patents

一种基于cfsfdp聚类的并行自适应异常检测方法 Download PDF

Info

Publication number
CN109995772B
CN109995772B CN201910215830.9A CN201910215830A CN109995772B CN 109995772 B CN109995772 B CN 109995772B CN 201910215830 A CN201910215830 A CN 201910215830A CN 109995772 B CN109995772 B CN 109995772B
Authority
CN
China
Prior art keywords
point
radius
newly added
points
added data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910215830.9A
Other languages
English (en)
Other versions
CN109995772A (zh
Inventor
任维武
底晓强
李锦青
毕琳
解男男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN201910215830.9A priority Critical patent/CN109995772B/zh
Publication of CN109995772A publication Critical patent/CN109995772A/zh
Application granted granted Critical
Publication of CN109995772B publication Critical patent/CN109995772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于CFSFDP聚类的并行自适应异常检测方法,涉及网络信息安全领域,解决现有基于CFSFDP聚类异常检测方法的时效性和实时性问题,本发明所述的检测方法将标记的原有中心点的聚类的核心区和边缘区分开处理,实现了轮廓的动态更新,使得基于CFSFDP的异常检测方法具有更高的时效性。本发明将原有数据点与实时输入的新数据点的距离计算平分成多份,多个进程并行计算,减少了计算时间,加快了聚类轮廓生成的速度,提高了基于CFSFDP异常检测方法的实时性。

Description

一种基于CFSFDP聚类的并行自适应异常检测方法
技术领域
本发明涉及网络信息安全领域,具体涉及一种基于CFSFDP(clustering by fastsearch and find of density peaks)聚类的并行自适应异常检测方法。
背景技术
入侵检测技术是保护信息安全,确保全球信息基础设施正常运行的一种常用手段,是信息安全领域的重要安全方向。异常检测技术是入侵检测技术的一种,通过建立正常行为轮廓,将正常行为和异常行为区分开,实现对异常行为的检测,与误用检测相比具有发现未知攻击的能力。聚类方法可以作为异常检测技术的核心方法,用于异常检测的聚类方法有多种:密度聚类、层次聚类、空间聚类和划分聚类。密度聚类能够生成任意形状的聚类,因此它的行为轮廓具有很高的精度,与之对应的是较高的检测性能,但密度聚类生成的轮廓不能实时更新,难以保证轮廓时效性,而且轮廓生成和异常检测过程需要耗费大量的计算资源,难以保证异常检测的实时性。为了提高基于CFSFDP聚类异常检测算法的时效性和实时性,有必要设计一种并行自适应的异常检测方法。
发明内容
本发明为了解决现有基于CFSFDP聚类异常检测方法的时效性和实时性问题,提供一种基于CFSFDP聚类的并行自适应异常检测方法,具体包括以下步骤:
步骤一、输入网络数据点,并在所述输入的网络数据点中分别标注原有中心点Ccl,属于聚类但在原有中心点半径d外的点Ecl以及离散点D;删除原有中心点半径d内除了中心点Ccl外的所有点;C为中心点标识,cl为聚类标识,E为边缘点标识;
步骤二、实时输入新的网络数据点,并行计算新加入的数据点与步骤一中的网络数据点的距离;具体过程为:
计算新加入的数据点i到原有中心点Ccl的距离DT(i,Ccl),其降序序列为DSC;新加入的数据点i到属于聚类但在原有中心点半径d外的点Ecl的距离DT(i,Ecl),其降序序列为DSE;新加入点i到离散点D的距离DT(i,D),离散点的降序序列为DSD,其中DS为降序序列标识;
步骤三、判断新加入的数据点i是否在原有中心点半径d内,如果是,则原有中心点半径d内数据点的密度值加1;如果否,执行步骤四;
步骤四、检索降序序列DSE和离散点的降序序列DSD,生成所述新加入的数据点i的半径内数据点密度值ρ和新加入的数据点i到原有中心点距离DT(i,Ccl),根据所述密度值ρ和新加入的数据点i到原有中心点Ccl的距离DT(i,Ccl)生成新加入的数据点i选择因子序列DSr
生成新加入的数据点i选择因子γi的计算公式为:
Figure BDA0002002057910000021
式中,ρi为i点的密度值,DTmin为到原有中心点距离DT(i,Ccl)中的最小距离,DTmax为到原有中心点距离DT(i,Ccl)中的最大距离,θ是选择系数,默认值为1;
步骤五、判断新加入的数据点i是否为新的中心点,如果否,则执行步骤六,如果是,执行步骤七;
步骤六、判定新加入的数据点i是否为离散点,如果是离散点,加入离散点序列,标注为D;如果不是离散点,则判定新加入的数据点i属于哪个聚类,检索DSC序列的末尾,即距离该DSC序列的末尾最近的聚类为新加入的数据点i属于的聚类,找到新加入的数据点i的中心点及聚类信息;
步骤七、扩大新的中心点的半径至边界,搜索新的中心点的半径外距离所述新的中心点最近点j,扩大中心点半径至最近点j,标注扩大后半径内所有点为cl,标注最近点j半径内所有的点为Nj,其中N为最近点标识;
步骤八、判断是否存在属于最近点j半径内的点但不属于新的中心点扩大半径后半径内的点,如果存在,则继续扩大半径;如果不存在,停止扩大,保留密度ρ的值,删除新的中心点扩大半径后内的所有点。
本发明的有益效果:
本发明所述的检测方法将中心点的核心区和边缘区分开处理,实现了轮廓的动态更新,使得基于CFSFDP的异常检测方法具有更高的时效性。
本发明将最复杂的距离计算平分成多份,多个进程并行计算,减少了计算时间,加快了轮廓生成速度,提高了基于CFSFDP异常检测方法的实时性。
附图说明
图1为本发明所述的一种基于CFSFDP聚类的并行自适应异常检测方法的流程图。
具体实施方式
具体实施方式一、结合图1说明本实施方式,一种基于CFSFDP聚类的并行自适应异常检测方法,该方法由以下步骤实现:
步骤1、输入网络数据;所述网络数据中的每一条数据表示一条网络连接,每一条数据包含两类特征:静态特征和动态特征。静态特征包括协议类型、服务类型和权限,动态特征包括连接持续时间、基于时间的网络流量统计和基于主机的网络流量统计;
步骤2、在步骤1中输入的网络数据上标注原有中心点为Ccl,其中C为中心点标识;标注属于聚类但在原有中心点半径d外的所有点为Ecl,其中E为边缘点标识,cl为聚类标识,标注离散点D,删除原有中心点半径d内除了中心点的所有点;
步骤3、新加入点为实时输入的新的网络数据,并行计算新加入点与步骤1中输入网络数据点的距离。将距离计算工作平均分为四份,每个进程单独执行一份,保留计算结果;具体过程为:
步骤31:原聚类为聚类算法CFSFDP已经生成的聚类信息,设网络数据中一共有n个数据点,则新加入点i需要进行n次距离运算,由于运算相互之间是独立的,所以可以均分为四份并行计算。
步骤32:保留三类结果,新加入点i到原有中心点Ccl的距离DT(i,Ccl),其距离降序序列为DSC,其中DS为降序序列标识;新加入点i到属于聚类但在中心点半径外的点Ecl的距离DT(i,Ecl),其距离降序序列为DSE。新加入点i到离散点D的距离DT(i,D),其降序序列为DSD
步骤4、判定新加入的点i是否在原有中心点半径d内,如果否,执行步骤5;如果是,原有中心点半径d内数据点的密度值加1;
步骤5、检索降序序列DSE和离散点的降序序列DSD,生成所述新加入的数据点i的半径内数据点密度值ρ和新加入的数据点i到原有中心点距离DT(i,Ccl),根据所述密度值ρ和新加入的数据点i到原有中心点Ccl的距离DT(i,Ccl)生成新加入的数据点i选择因子序列DSr
生成新加入的数据点i选择因子γi的计算公式为:
Figure BDA0002002057910000041
式中,ρi为i点的密度值,DTmin为到原有中心点距离DT(i,Ccl)中的最小距离,DTmax为到原有中心点距离DT(i,Ccl)中的最大距离,θ是选择系数,默认值为1;
步骤6、判断新加入的数据点i是否为新的中心点,如果否,则执行步骤7,如果是,执行步骤8;
本实施方式中的步骤6中,判断新加入的数据点i是否为新的中心点时,根据步骤5中选择因子γi的阶跃度来判定,当阶跃度为1时,即为新的中心点,阶跃度的计算方式为:
STC=Sgn(γii-1C)
式中,Sgn为单位阶跃函数,κC为中心点阶跃因子,γi-1是选择因子序列DSr中γi的前一个因子。
步骤7、判定新加入的数据点i是否为离散点,如果是离散点,加入离散点序列DSD,标注为D;如果不是离散点,则判定新加入的数据点i属于哪个聚类,检索DSC序列的末尾,即距离该DSC序列的末尾最近的聚类为新加入的数据点i属于的聚类,找到新加入的数据点i的中心点及聚类信息;
本实施方式的步骤7中,新加入的数据点i如果是离散点,离散点的选择因子值存在一个明显阶跃,即它的值小于其他聚类点的值,当阶跃度为1时,即为离散点,阶跃度的计算方式为:
STD=Sgn(γii-1D)
其中Sgn为单位阶跃函数,κD为离散点阶跃因子。
步骤8、扩大新的中心点的半径至边界,搜索新的中心点的半径外距离所述新的中心点最近点j,扩大中心点半径至最近点j,标注扩大后半径内所有点为cl,标注最近点j半径内所有的点为Nj,其中N为最近点标识;执行步骤9;
步骤9、判断是否存在属于最近点j半径内的点但不属于新的中心点扩大半径后半径内的点,如果存在,则继续扩大半径;如果不存在,停止扩大,保留密度ρ的值,删除新的中心点扩大半径后内的所有点。

Claims (2)

1.一种基于CFSFDP聚类的并行自适应异常检测方法,其特征是,该方法由以下步骤实现:
步骤一、输入网络数据点,并在所述输入的网络数据点中分别标注原有中心点Ccl,属于聚类但在原有中心点半径d外的点Ecl以及离散点D;删除原有中心点半径d内除了中心点Ccl外的所有点;C为中心点标识,cl为聚类标识,E为边缘点标识;
步骤二、实时输入新的网络数据点,并行计算新加入的数据点与步骤一中的网络数据点的距离;具体过程为:
计算新加入的数据点i到原有中心点Ccl的距离DT(i,Ccl),所述距离DT(i,Ccl)的降序序列为DSC;新加入的数据点i到属于聚类但在原有中心点半径d外的点Ecl的距离DT(i,Ecl),所述距离DT(i,Ecl)的降序序列为DSE;新加入点i到离散点D的距离DT(i,D),离散点的降序序列为DSD,其中DS为降序序列标识;
步骤三、判断新加入的数据点i是否在原有中心点半径d内,如果是,则原有中心点半径d内数据点的密度值加1;如果否,执行步骤四;
步骤四、检索降序序列DSE和离散点的降序序列DSD,生成所述新加入的数据点i的半径内数据点密度值ρ和新加入的数据点i到原有中心点距离DT(i,Ccl),根据所述密度值ρ和新加入的数据点i到原有中心点Ccl的距离DT(i,Ccl)生成新加入的数据点i选择因子序列DSr
生成新加入的数据点i选择因子γi的计算公式为:
Figure FDA0002918791830000011
式中,ρi为i点的密度值,DTmin为到原有中心点距离DT(i,Ccl)中的最小距离,DTmax为到原有中心点距离DT(i,Ccl)中的最大距离,θ是选择系数,默认值为1;
步骤五、判断新加入的数据点i是否为新的中心点,如果否,则执行步骤六,如果是,执行步骤七;
所述判断新加入的数据点i是否为新的中心点时,根据步骤四中选择因子γi的阶跃度来判定,当阶跃度为1时,即为新的中心点,阶跃度的计算方式为:
STC=Sgn(γii-1C)
式中,Sgn为单位阶跃函数,κC为中心点阶跃因子,γi-1是选择因子序列DSr中γi的前一个因子;
步骤六、判定新加入的数据点i是否为离散点,如果是离散点,加入离散点序列,标注为D;如果不是离散点,则判定新加入的数据点i属于哪个聚类,检索DSC序列的末尾,即距离该DSC序列的末尾最近的聚类为新加入的数据点i属于的聚类,找到新加入的数据点i的中心点及聚类信息;
所述新加入的数据点i如果是离散点,离散点的选择因子值存在一个阶跃,即它的值小于其他聚类点的值,当阶跃度为1时,即为离散点,阶跃度的计算方式为:
STD=Sgn(γii-1D)
其中Sgn为单位阶跃函数,κD为离散点阶跃因子;
步骤七、扩大新的中心点的半径至边界,搜索新的中心点的半径外距离所述新的中心点最近点j,扩大中心点半径至最近点j,标注扩大后半径内所有点为cl,标注最近点j半径内所有的点为Nj,其中N为最近点标识;执行步骤八;
步骤八、判断是否存在属于最近点j半径内的点但不属于新的中心点扩大半径后半径内的点,如果存在,则继续扩大半径;如果不存在,停止扩大,保留密度ρ的值,删除新的中心点扩大半径后内的所有点。
2.根据权利要求1所述的一种基于CFSFDP聚类的并行自适应异常检测方法,其特征在于:所述聚类信息为聚类标识,中心点标识以及边缘点标识。
CN201910215830.9A 2019-03-21 2019-03-21 一种基于cfsfdp聚类的并行自适应异常检测方法 Active CN109995772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910215830.9A CN109995772B (zh) 2019-03-21 2019-03-21 一种基于cfsfdp聚类的并行自适应异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910215830.9A CN109995772B (zh) 2019-03-21 2019-03-21 一种基于cfsfdp聚类的并行自适应异常检测方法

Publications (2)

Publication Number Publication Date
CN109995772A CN109995772A (zh) 2019-07-09
CN109995772B true CN109995772B (zh) 2021-06-15

Family

ID=67130744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910215830.9A Active CN109995772B (zh) 2019-03-21 2019-03-21 一种基于cfsfdp聚类的并行自适应异常检测方法

Country Status (1)

Country Link
CN (1) CN109995772B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376260A (zh) * 2015-12-18 2016-03-02 重庆邮电大学 一种基于密度峰值聚类的网络异常流量监测系统
CN107679553A (zh) * 2017-09-14 2018-02-09 深圳大学 基于密度峰值的聚类方法及装置
CN108734221A (zh) * 2018-05-23 2018-11-02 中国地质大学(武汉) 基于子类数目自动确定的改进密度峰值聚类方法及系统
CN109389140A (zh) * 2017-08-14 2019-02-26 中国科学院计算技术研究所 基于Spark的快速寻找聚类中心的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376260A (zh) * 2015-12-18 2016-03-02 重庆邮电大学 一种基于密度峰值聚类的网络异常流量监测系统
CN109389140A (zh) * 2017-08-14 2019-02-26 中国科学院计算技术研究所 基于Spark的快速寻找聚类中心的方法和系统
CN107679553A (zh) * 2017-09-14 2018-02-09 深圳大学 基于密度峰值的聚类方法及装置
CN108734221A (zh) * 2018-05-23 2018-11-02 中国地质大学(武汉) 基于子类数目自动确定的改进密度峰值聚类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Clustering by fast search and find of density peaks;Alex Rodriguez,et al.;《Science》;20140627;全文 *
基于人工蜂群优化的密度聚类异常入侵检测算法;任维武等;《吉林大学学报(理学版)》;20180131;全文 *

Also Published As

Publication number Publication date
CN109995772A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
Cheng et al. Clustering with local density peaks-based minimum spanning tree
CN112640380A (zh) 用于对事件的输入流进行异常检测的设备和方法
CN107682319A (zh) 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN110493221B (zh) 一种基于聚簇轮廓的网络异常检测方法
KR101930293B1 (ko) 정적 분석과 동적 분석을 이용하여 변종 악성코드를 식별하는 장치 및 방법
Zhang et al. Continuous k-means monitoring over moving objects
CN111459997A (zh) 一种时空轨迹数据的频繁模式增量挖掘方法和电子设备
EP4141715A1 (en) Anomaly detection
CN112199722B (zh) 一种基于K-means的差分隐私保护聚类方法
CN109995772B (zh) 一种基于cfsfdp聚类的并行自适应异常检测方法
JP2019006368A (ja) Gpsデータに基づく運転手を認証するためのシステムおよび方法
CN111782904B (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
CN110047509B (zh) 一种两级子空间划分方法及装置
WO2017028738A1 (zh) 一种基于区域的风险控制方法和设备
WO2016107297A1 (zh) MapReduce 平台上基于本地密度的聚类方法
WO2020161808A1 (ja) 優先度判定装置、優先度判定方法、及びコンピュータ可読媒体
KR101394591B1 (ko) 네트워크의 침입을 탐지하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN115906055A (zh) 基于密码库比对带有自动校准功能的密码测评方法和系统
CN112560984B (zh) 自适应K-Nets聚类的差分隐私保护方法
CN115859305A (zh) 一种基于知识图谱的工控安全态势感知方法及系统
CN111667394B (zh) 一种基于特征描述的地图缩放比例推断方法
CN114462093A (zh) 基于差分隐私的时空泛化轨迹数据发布方法
CN110377798B (zh) 基于角度熵的离群点检测方法
CN107248929B (zh) 一种多维关联数据的强关联数据生成方法
JP2010176626A (ja) 文書クラスタリングプログラム及び文書クラスタリング方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant