CN113762374B - 一种基于改进密度峰值聚类的异常轨迹检测方法 - Google Patents

一种基于改进密度峰值聚类的异常轨迹检测方法 Download PDF

Info

Publication number
CN113762374B
CN113762374B CN202111008601.3A CN202111008601A CN113762374B CN 113762374 B CN113762374 B CN 113762374B CN 202111008601 A CN202111008601 A CN 202111008601A CN 113762374 B CN113762374 B CN 113762374B
Authority
CN
China
Prior art keywords
connection
data
point
record
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111008601.3A
Other languages
English (en)
Other versions
CN113762374A (zh
Inventor
王帅
李伟
李涛
袁健
王蓉
王晓羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Ningzheng Information Technology Co ltd
Original Assignee
Nanjing Ningzheng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Ningzheng Information Technology Co ltd filed Critical Nanjing Ningzheng Information Technology Co ltd
Priority to CN202111008601.3A priority Critical patent/CN113762374B/zh
Publication of CN113762374A publication Critical patent/CN113762374A/zh
Application granted granted Critical
Publication of CN113762374B publication Critical patent/CN113762374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于改进密度峰值聚类的异常轨迹检测方法,包括如下步骤:步骤A:获取网络中的原始数据,把原始数据转换成ASCII格式的网络分组信息,再把网络分组信息经过数据预处理程序把属于一条连接的所有数据包整理成一条连接记录,每条连接记录由多个连接特征组成;步骤B:对连接记录的数据属性进行标准化处理;步骤C:通过收集连接记录和对其进行标准化后,获得了数据集U,接下来利用聚类算法来对这些连接记录进行分类;本发明的有益效果是:利用无参的核密度估计理论分析轨迹点的分布特征并自适应选取距离参数,从而来搜索和发现轨迹点的密度峰值,并以峰值点作为初始聚类中心实现异常轨迹行为检测。

Description

一种基于改进密度峰值聚类的异常轨迹检测方法
技术领域
本发明涉及信息异常轨迹检测领域,具体为一种基于改进密度峰值聚类的异常轨迹检测方法。
背景技术
随着网络技术研究的不断深入以及网络操作系统本身固有的诸多安全缺陷,如何保障信息安全、防范网络入侵成为人们最为关心的问题;
目前解决网络安全问题所采用的方法一般包括防火墙、数据加密、身份认证和入侵检测等,入侵检测很好的弥补了身份认证、访问控制、防火墙等传统保护机制所不能解决的问题,在近期入侵检测系统的发展过程中,研究人员提出了一些新的入侵检测技术,如神经网络、免疫系统、基因算法,然而还未有人将密度峰值算法聚类应用在网络数据的异常检测上。
发明内容
本发明的目的就在于将聚类算法应用在网络数据的异常检测上,在实现精准分配的同时还能解决因簇类而导致判断错误的问题,因此而提出一种基于改进密度峰值聚类的异常轨迹检测方法。
本发明的目的可以通过以下技术方案实现:一种基于改进密度峰值聚类的异常轨迹检测方法,包括如下步骤:
步骤A:获取网络中的原始数据,把原始数据转换成ASCII格式的网络分组信息,再把网络分组信息经过数据预处理程序把属于一条连接的所有数据包整理成一条连接记录,每条连接记录由多个连接特征组成;
步骤B:对连接记录的数据属性进行标准化处理;
步骤C:通过收集连接记录和对其进行标准化后,获得了数据集U,接下来利用聚类算法来对这些连接记录进行分类,聚类算法的分类步骤如下:
S01:计算样本两两之间的距离,找到距离最近的点,形成一个样本集A,并将它们从数据集U中删除;
S02:计算A中每个样本与数据集U中每个样本的距离,找出在U中与A最近的点,将它并入集合A,并从U中删除,直到A中的样本个数达到设定的阈值;
S03:从数据集U中找到样本两两间距离最近的两个点构成A2,重复上述过程,直到形成k个点集;
S04:搜索每个点集区域中的密度峰值,密度峰值为对应的连接记录的连接量与服务攻击量相加的总和,通过连接量除以总和能够得到该点的正常连接率,将该峰值点作为初始聚类中心;
S05:设定比例值N为90%,该比例值表示的意思为正常连接率,根据各个峰值点的正常连接率对相应的点集进行判定,位于N以上的类被判断为正常类,而其余的则被认为异常类,当得到标类后,就可以用来检测网络入侵行为;
S06:对归于异常类别的点集内的连接记录进行排除处理。
进一步在于:所述聚类算法是基于非参数核密度估计的密度峰值聚类算法。
进一步在于:所述连接特征包括连接持续的时间、连接使用的服务端口、连接的结束状态。
进一步在于:所述步骤B中的标准化处理是将数据按比例缩放,使之统一映射到[0,1]区间上,去除数据的单位限制,将其转化为无量纲的纯数值。
进一步在于:所述排除处理的步骤包括:
A01:获取所有被归于异常类别下的点集;
A02:获取点集下的连接记录;
A03:根据比例值N对连接记录的正常连接率进行判定处理,当正常连接率在N之上时,将该连接记录判定为正常类,并按照距离最近原则将其重新划分至最近的点集内,当正常连接率不在N之上时,则该连接记录仍然处于其对应的点集内。
与现有技术相比,本发明的有益效果是:
1、利用无参的核密度估计理论分析轨迹点的分布特征并自适应选取距离参
数,从而来搜索和发现轨迹点的密度峰值,并以峰值点作为初始聚类中心实现异常轨迹行为检测。
2、密度峰值算法聚类过程中样本分配策略往往会造成连带错误效应,一旦一个样本分配错误,便可能带来系列样本的簇类分配错误,形成类似“多米诺骨牌”效应,本发明会对异常类别下的点集内的连接记录进行排除处理,能够将分配错误的样本重新划分至正常类别下的点集内,能够有效解决上述存在的问题。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明系统流程图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图所示,一种基于改进密度峰值聚类的异常轨迹检测方法,包括如下步骤:
步骤A:获取网络中的原始数据,即数据采集,把原始数据转换成ASCII格式的网络分组信息,再把网络分组信息经过数据预处理程序把属于一条连接的所有数据包整理成一条连接记录,每条连接记录由多个连接特征组成,连接特征包括连接持续的时间、连接使用的服务端口、连接的结束状态;
其中,数据采集是入侵检测的基础,在计算机网络系统中,局域网普遍采用的是基于广播机制的IEEE 802.3协议,即以太网协议,主机之间传送数据时采用了网内广播的方式,即任何一台主机向了网内某台主机发送数据时,该数据均会在其子网内广播,也就是说数据会被任何台主机作为数据包接收,在进行检测时正是利用这一特性收集网络上传输的数据流量,这样的优点是数据的采集不会影响到主机和网络的性能;
步骤B:对连接记录的数据属性进行标准化处理,标准化处理是将数据按比例缩放,使之统一映射到[0,1]区间上,去除数据的单位限制,将其转化为无量纲的纯数值;
步骤C:通过收集连接记录和对其进行标准化后,获得了数据集U,接下来利用聚类算法来对这些连接记录进行分类,聚类算法是基于非参数核密度估计的密度峰值聚类算法,聚类算法的分类步骤如下:
S01:计算样本两两之间的距离,找到距离最近的点,形成一个样本集A,并将它们从数据集U中删除;
S02:计算A中每个样本与数据集U中每个样本的距离,找出在U中与A最近的点,将它并入集合A,并从U中删除,直到A中的样本个数达到设定的阈值;
S03:从数据集U中找到样本两两间距离最近的两个点构成A2,重复上述过程,直到形成k个点集;
S04:搜索每个点集区域中的密度峰值,密度峰值为对应的连接记录的连接量与服务攻击量相加的总和,通过连接量除以总和能够得到该点的正常连接率,将该峰值点作为初始聚类中心;
S05:设定比例值N为90%,该比例值表示的意思为正常连接率,根据各个峰值点的正常连接率对相应的点集进行判定,位于N以上的类被判断为正常类,而其余的则被认为异常类,当得到标类后,就可以用来检测网络入侵行为;
S06:对归于异常类别的点集内的连接记录进行排除处理;
其中,排除处理的步骤包括:
A01:获取所有被归于异常类别下的点集;
A02:获取点集下的连接记录;
A03:根据比例值N对连接记录的正常连接率进行判定处理,当正常连接率在N之上时,将该连接记录判定为正常类,并按照距离最近原则将其重新划分至最近的点集内,当正常连接率不在N之上时,则该连接记录仍然处于其对应的点集内。
本发明在使用时,获取原始数据,对原始数据进行格式的转换,将属于一条连接的数据包整理为一条连接记录,对连接记录进行标准化处理,利用聚类算法对这些连接记录进行分类,根据样本两两间的距离进行样本集的划分,将每个样本集中的峰值点作为对应的初始聚类中心,根据预先设定的比例值对各个峰值点做判定处理,将样本集分为正常类与异常类,并进一步对异常类别下的样本集进行更细致的连接记录重新划分的处理,首先获取该样本集下的所有连接记录,根据比例值对各个连接记录进行判定,处于比例值之上的改为正常类,并根据距离最近原则重新将其规划到最近的样本集内,当连接记录不在比例值之上时则不作任何处理。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (3)

1.一种基于改进密度峰值聚类的异常轨迹检测方法,其特征在于,
包括如下步骤:
步骤A:获取网络中的原始数据,把原始数据转换成ASCII格式的网络分组信息,再把网络分组信息经过数据预处理程序把属于一条连接的所有数据包整理成一条连接记录,每条连接记录由多个连接特征组成;
步骤B:对连接记录的数据属性进行标准化处理;
步骤C:通过收集连接记录和对其进行标准化后,获得了数据集U,接下来利用聚类算法来对这些连接记录进行分类,聚类算法的分类步骤如下:
S01:计算样本两两之间的距离,找到距离最近的点,形成一个样本集A,并将它们从数据集U中删除;
S02:计算A中每个样本与数据集U中每个样本的距离,找出在U中与A最近的点,将它并入集合A,并从U中删除,直到A中的样本个数达到设定的阈值;
S03:从数据集U中找到样本两两间距离最近的两个点构成A2,重复上述过程,直到形成k个点集;
S04:搜索每个点集区域中的密度峰值,密度峰值为对应的连接记录的连接量与服务攻击量相加的总和,通过连接量除以总和能够得到该点的正常连接率,将该峰值点作为初始聚类中心;
S05:设定比例值N为90%,该比例值表示的意思为正常连接率,根据各个峰值点的正常连接率对相应的点集进行判定,位于N以上的类被判断为正常类,而其余的则被认为异常类,当得到标类后,就可以用来检测网络入侵行为;
S06:对归于异常类别的点集内的连接记录进行排除处理;
所述步骤B中的标准化处理是将数据按比例缩放,使之统一映射到[0,1]区间上,去除数据的单位限制,将其转化为无量纲的纯数值;
所述排除处理的步骤包括:
A01:获取所有被归于异常类别下的点集;
A02:获取点集下的连接记录;
A03:根据比例值N对连接记录的正常连接率进行判定处理,当正常连接率在N之上时,将该连接记录判定为正常类,并按照距离最近原则将其重新划分至最近的点集内,当正常连接率不在N之上时,则该连接记录仍然处于其对应的点集内。
2.根据权利要求1所述的一种基于改进密度峰值聚类的异常轨迹检测方法,其特征在于,
所述聚类算法是基于非参数核密度估计的密度峰值聚类算法。
3.根据权利要求1所述的一种基于改进密度峰值聚类的异常轨迹检测方法,其特征在于,
所述连接特征包括连接持续的时间、连接使用的服务端口、连接的结束状态。
CN202111008601.3A 2021-08-31 2021-08-31 一种基于改进密度峰值聚类的异常轨迹检测方法 Active CN113762374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111008601.3A CN113762374B (zh) 2021-08-31 2021-08-31 一种基于改进密度峰值聚类的异常轨迹检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111008601.3A CN113762374B (zh) 2021-08-31 2021-08-31 一种基于改进密度峰值聚类的异常轨迹检测方法

Publications (2)

Publication Number Publication Date
CN113762374A CN113762374A (zh) 2021-12-07
CN113762374B true CN113762374B (zh) 2024-01-30

Family

ID=78792001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008601.3A Active CN113762374B (zh) 2021-08-31 2021-08-31 一种基于改进密度峰值聚类的异常轨迹检测方法

Country Status (1)

Country Link
CN (1) CN113762374B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN110929758A (zh) * 2019-10-24 2020-03-27 河海大学 一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法
CN111611293A (zh) * 2020-04-24 2020-09-01 太原太工天宇教育科技有限公司 一种基于特征加权与MapReduce的离群数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106572493B (zh) * 2016-10-28 2018-07-06 南京华苏科技有限公司 Lte网络中的异常值检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
CN107451618A (zh) * 2017-08-10 2017-12-08 中国人民大学 一种密度峰值聚类算法的差分隐私保护方法
CN110929758A (zh) * 2019-10-24 2020-03-27 河海大学 一种面向复杂数据的快速搜索和寻找密度峰值的聚类算法
CN111611293A (zh) * 2020-04-24 2020-09-01 太原太工天宇教育科技有限公司 一种基于特征加权与MapReduce的离群数据挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于聚类算法与序列异常技术的入侵检测新方法;刘绍海;刘青昆;安娜;顾跃举;;计算机安全(第08期);全文 *

Also Published As

Publication number Publication date
CN113762374A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN110505179B (zh) 一种网络异常流量的检测方法及系统
Zhe et al. DoS attack detection model of smart grid based on machine learning method
CN113037567B (zh) 一种用于电网企业的网络攻击行为仿真系统的仿真方法
CN109150859B (zh) 一种基于网络流量流向相似性的僵尸网络检测方法
CN116055413B (zh) 一种基于云边协同的隧道网络异常识别方法
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN112528277A (zh) 一种基于循环神经网络的混合入侵检测方法
CN111314910B (zh) 一种映射隔离森林的无线传感器网络异常数据检测方法
CN114666273B (zh) 一种面向应用层未知网络协议的流量分类方法
CN102611706A (zh) 一种基于半监督学习的网络协议识别方法及系统
CN114866485A (zh) 一种基于聚合熵的网络流量分类方法及分类系统
CN111274218A (zh) 一种电力信息系统多源日志数据处理方法
CN116032526A (zh) 一种基于机器学习模型优化的异常网络流量检测方法
CN116150688A (zh) 智能家居中轻量级的物联网设备识别方法与装置
CN113872962B (zh) 一种面向高速网络抽样数据采集场景的慢速端口扫描检测方法
CN113762374B (zh) 一种基于改进密度峰值聚类的异常轨迹检测方法
CN118018229A (zh) 基于大数据的网络威胁检测方法
CN117375889A (zh) 一种大数据异常行为监测方法、系统、设备及存储介质
CN113938410B (zh) 一种终端协议的识别方法及装置
CN116150632A (zh) 智能家居中基于局部敏感哈希的物联网设备识别方法
CN113225319A (zh) 软件定义网络异常流量检测方法
CN111274235B (zh) 一种未知协议的数据清洗和协议字段特征提取方法
CN111614611B (zh) 一种用于电网嵌入式终端的网络安全审计方法及装置
Atmojo et al. A New Approach for ARP Poisoning Attack Detection Based on Network Traffic Analysis
CN118378218B (zh) 一种用于电脑主机的安全监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant