CN112448911A - 一种基于K-Means的正常Server IP白名单的挖掘方法 - Google Patents

一种基于K-Means的正常Server IP白名单的挖掘方法 Download PDF

Info

Publication number
CN112448911A
CN112448911A CN201910794738.2A CN201910794738A CN112448911A CN 112448911 A CN112448911 A CN 112448911A CN 201910794738 A CN201910794738 A CN 201910794738A CN 112448911 A CN112448911 A CN 112448911A
Authority
CN
China
Prior art keywords
bars
flow
white list
server
total
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910794738.2A
Other languages
English (en)
Other versions
CN112448911B (zh
Inventor
刘亮
李凯
郑荣锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910794738.2A priority Critical patent/CN112448911B/zh
Publication of CN112448911A publication Critical patent/CN112448911A/zh
Application granted granted Critical
Publication of CN112448911B publication Critical patent/CN112448911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及计算机网络流量分析技术领域,旨在通过K‑Means聚类算法对网络流量进行聚类,从而挖掘出正常Server IP白名单。本发明首先采集所需通信流量,从中还原出两个IP间的双向流,并提取出初始白名单,然后解析双向流统计流基础信息并保存,之后便根据统计的流基础信息进行特征提取,将特征用K‑Means算法进行聚类,最后统计初始白名单在聚类结果中的分布从而得到正常Server IP白名单。本发明能够方便的从网络流量中提取出正常Server IP白名单,减少建立白名单时的工作量,并且更新方便。

Description

一种基于K-Means的正常Server IP白名单的挖掘方法
技术领域
本发明涉及计算机网络流量分析技术领域,旨在通过抓取网络流量并重组为双向流,然后以Server IP为研究对象提取对应流的相关特征,利用K-Means聚类算法对特征数据进行聚类,再分析预先构建的白名单在聚类结果中的分布,从而挖掘出正常Server IP白名单,得到该白名单后,便可以过滤掉许多正常网络行为产生的流量,减小入侵检测系统的检测压力。
背景技术
随着计算机技术与物联网技术的不断发展与普及,联网设备数量迅速增长,且联网设备产生的流量也越来越多,这对入侵检测系统(IDS)带来了巨大的挑战。入侵检测系统通过对网络流量进行实时监控,发现存在于其中的异常行为,但实际经过入侵检测系统的大部分流量其实是正常网络行为产生的流量,这种流量占比高且数量大,十分影响入侵检测系统的检测效率。
为了解决输入入侵检测系统的待检测流量正常流量占比较大的问题,需要对原始流量进行过滤,从而减小待检测流量的数量。目前主流的过滤方法为基于策略的过滤,通过编写规则文件,限制流量的长度、通信频率等,从而实现过滤功能;也有通过建立白名单,直接过滤掉目的地址在白名单内的流量。上述方法中,规则编写较为繁琐,且无法全面的考虑到流量的特征,而完善的白名单建立过程久,需要投入较多的人力,更新困难。
主流的过滤方法的确能够减小待检测流量的数量,但由于其局限性,过滤效果不太理想,因此本文提出了一种基于K-Means的正常Server IP白名单的挖掘方法。
发明内容
本发明提供的基于K-Means的正常Server IP白名单的挖掘方法能够通过对网络流量中的单个流进行重组、统计以及特征提取,然后利用K-Means聚类算法进行聚类,得到两个类别,通过分析白名单在聚类结果中的分布,从而完成对正常Server IP白名单的挖掘,之后便可以根据该白名单过滤出网络流中的正常流量,减小入侵检测系统的检测压力。
本发明所提出的“一种基于K-Means的正常Server IP白名单的挖掘方法”具体步骤如下:
步骤1:利用Streamdump进行流量采集,重组采集到的流量中所有的流,并将每个流单独保存为一个pcap文件为后续步骤提供数据基础;
步骤2:统计每个流的基本信息,通过分析每个流对应的pcap文件,提取出源IP、目的IP等信息保存至数据库,为后续特征提取提供数据支撑;
步骤3:从数据库中读取各流基本信息,以Server IP为对象,计算出每条流的上下行流量比值、上下行载荷大小等特征并保存;
步骤4:利用K-Means聚类算法,对提取得到的特征数据进行聚类,等到聚类结果,然后分析预先构建的白名单在聚类结果中的分布,从而挖掘出正常Server IP白名单。
附图说明
下面将结合附图来进一步阐明本发明的目标、实现方法和优点。
图1是展示本发明的总体流程图。
图2是展示本发明特征提取的流程图。
图3是展示本发明提取特征的属性介绍。
具体实施方式
如图1所示,本发明的总体流程包括进行流量采集、双向流生成、建立初始白名单、流信息统计、流特征提取、K-Means聚类、类别分析,最终得到一个正常Server IP白名单,下面将对这些步骤进行详细介绍。
1、 流量采集
本发明需要预先采集正常用户在一段时间内操作计算机所产生的网络流量,通过利用Wireshark和Streamdump等技术,将采集到的流量保存为pcap文件(一种数据报存储格式)用于后文处理。
2、 初始白名单
利用Wireshark分析在步骤1中得到的pcap文件,解析其中所有通信记录,然后提取较为知名的27家互联网企业的相关Server Name和Server IP并保存为csv文件,保存内如形如“git***, test.git***.com, 140.***.***.25”,本步骤中保存的csv文件即为初始白名单。
3、 双向流生成
利用Streamdump解析步骤1采集到的pcap文件,将流量根据四元组进行切割,每个数据流单独存入一个pcap文件,保存名称为四元组IP[Port]-IP[Port].pcap,以捕获到的第一个packet中的四元组参数进行命名,超过两分钟没有数据交换的连接视为连接断开。
4、 流信息统计
解析步骤3中保存的四元组参数命名IP[Port]-IP[Port].pcap文件,提取每一个流中的一些基础信息,如时间戳、源地址、源端口、目的地址、目的端口、上行流量包个数、下行流量包个数、上行流量载荷大小、下行流量载荷大小、服务器名和下行流量载荷大小与上行流量载荷大小得比值等,然后将其存入数据库中为后续步骤提供数据支撑。
5、 流特征提取
根据步骤4中得到的流基础信息,按照图2中的特征提取流程,以Server IP为研究对象,提取涉及Server IP的流特征,最终得到各Server IP的特征向量,特征向量中包含的各属性介绍如图3所示。
6、 K-Means聚类
步骤5完成后,将得到的流特征数据利用K-Means聚类算法进行聚类,把输入的特征集聚为两类,然后输出Server IP与类别标签对应的csv文件,用于类别分析。
7、 类别分析
由步骤6中的到聚类结果和步骤2中得到的初始白名单,可以分析初始白名单中的Server IP在聚类结果中不同类别上的分布,通过观察分布特征,便能挖掘出更为完善的Server IP白名单。

Claims (5)

1.一种基于K-Means的正常Server IP白名单的挖掘方法,其特征在于,所述方法包括如下步骤:
A. 采集大量的网络流量并进行解析,提取出常用互联网公司的Server IP及对应域名并保存得到初始白名单,然后还原两个IP间的双向流并保存为pcap文件;
B. 根据步骤A得到的双向流pcap文件,进行解析然后统计分析流的基本信息;
C. 根据步骤B得到的流信息,以Server IP为研究对象提取流特征;
D. 利用K-Means聚类算法进行聚类,然后分析聚类结果得到正常Server IP白名单。
2.根据权利要求1所述的一种基于K-Means的正常Server IP白名单的挖掘方法,其特征在于,所述的步骤A进一步包括如下步骤:
A1. 通过Wireshark和Streamdump流量采集工具采集所需网络流量并保存为pcap文件;
A2. 利用Streamdump解析出两个IP间的双向流,保存四元组参数命名IP[Port]-IP[Port].pcap文件;
A3. 从采集的网络流量中提取出常用域名的Server IP构建初始白名单。
3.根据权利要求1所述的一种基于K-Means的正常Server IP白名单的挖掘方法,其特征在于,所述的步骤B进一步包括如下步骤:
B1. 利用Streamdump解析步骤A中得到的四元组参数命名pcap文件;
B2. 根据解析结果,统计实验所需相关流信息;
B3. 提取的流信息具体包括:流开始时间戳、源地址、目的地址、源端口、目的端口、上行包个数、下行包个数、上行包总载荷大小(网络层)、下行包总载荷大小(网络层)、传输层上行包载荷不为0个数、传输层下行包载荷不为0个数、目的地址对应的域名、上行包总载荷与下行包总载荷的比值;
B4. 将提取到的流信息存入数据库。
4.根据权利要求1所述的一种基于K-Means的正常Server IP白名单的挖掘方法,其特征在于,所述的步骤C进一步包括如下步骤:
C1. 从数据库读取步骤B中提取到的流信息;
C2. 提取实验所需的流特征;
C3. 提取的流特征的属性包括:目的地址、域名、所有流中最大的下行流载荷大小、所有流中最大的上行流载荷大小、总上行流与总上行流和总下行流和的比值、下/上在[0-0.2)内的条数占总条数的值、下/上在[0.2-0.6)内的条数占总条数的值、下/上在[0.6-1)内的条数占总条数的值、下/上在[1-4)内的条数占总条数的值、下/上在[4-10)内的条数占总条数的值、下/上大于10的条数占总条数的值、上行流载荷在[2,6)KB的条数占总条数的比例、上行流载荷在[6,14)KB的条数占总条数的比例、上行流载荷大于14KB的条数占总条数的比例、下行流载荷在[0,2)KB的条数占总条数的比例、下行流载荷在[2,6)KB的条数占总条数的比例、下行流载荷在[6,14)KB的条数占总条数的比例、下行流载荷大于14KB的条数占总条数的比例;
C4. 将提取到的流特征集保存为CSV文件。
5.根据权利要求1所述的一种基于K-Means的正常Server IP白名单的挖掘方法,其特征在于,所述的步骤D进一步包括如下步骤:
D1. 利用K-Means聚类算法,对提取到的流特征集进行聚类,并将聚类结果以(ServerIP,聚类标签)的形式进行保存;
D2. 分析步骤A中得到的初始白名单在聚类结果中的分布,从而挖掘出正常Server IP白名单。
CN201910794738.2A 2019-08-27 2019-08-27 一种基于K-Means的正常Server IP白名单的挖掘方法 Active CN112448911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910794738.2A CN112448911B (zh) 2019-08-27 2019-08-27 一种基于K-Means的正常Server IP白名单的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910794738.2A CN112448911B (zh) 2019-08-27 2019-08-27 一种基于K-Means的正常Server IP白名单的挖掘方法

Publications (2)

Publication Number Publication Date
CN112448911A true CN112448911A (zh) 2021-03-05
CN112448911B CN112448911B (zh) 2022-02-11

Family

ID=74740751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910794738.2A Active CN112448911B (zh) 2019-08-27 2019-08-27 一种基于K-Means的正常Server IP白名单的挖掘方法

Country Status (1)

Country Link
CN (1) CN112448911B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500387A (zh) * 2022-02-14 2022-05-13 重庆邮电大学 基于机器学习的移动应用流量识别方法及系统
CN114866316A (zh) * 2022-04-29 2022-08-05 中国科学院信息工程研究所 安全防护方法、装置、设备、存储介质及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103428196A (zh) * 2012-12-27 2013-12-04 北京安天电子设备有限公司 一种基于url白名单的web应用入侵检测方法和装置
US8750161B1 (en) * 2010-12-20 2014-06-10 At&T Intellectual Property I, L.P. Metropolitan IP aggregation network design tool
CN104901971A (zh) * 2015-06-23 2015-09-09 北京东方棱镜科技有限公司 对网络行为进行安全分析的方法和装置
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
US20170279831A1 (en) * 2016-03-25 2017-09-28 Cisco Technology, Inc. Use of url reputation scores in distributed behavioral analytics systems
CN107294966A (zh) * 2017-06-21 2017-10-24 四川大学 一种基于内网流量的ip白名单构建方法
CN109462612A (zh) * 2018-12-27 2019-03-12 北京神州绿盟信息安全科技股份有限公司 一种僵尸网络中的攻击域名的确定方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8750161B1 (en) * 2010-12-20 2014-06-10 At&T Intellectual Property I, L.P. Metropolitan IP aggregation network design tool
CN103428196A (zh) * 2012-12-27 2013-12-04 北京安天电子设备有限公司 一种基于url白名单的web应用入侵检测方法和装置
CN104901971A (zh) * 2015-06-23 2015-09-09 北京东方棱镜科技有限公司 对网络行为进行安全分析的方法和装置
CN105376255A (zh) * 2015-12-08 2016-03-02 国网福建省电力有限公司 一种基于K-means聚类的Android平台入侵检测方法
US20170279831A1 (en) * 2016-03-25 2017-09-28 Cisco Technology, Inc. Use of url reputation scores in distributed behavioral analytics systems
CN107294966A (zh) * 2017-06-21 2017-10-24 四川大学 一种基于内网流量的ip白名单构建方法
CN109462612A (zh) * 2018-12-27 2019-03-12 北京神州绿盟信息安全科技股份有限公司 一种僵尸网络中的攻击域名的确定方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GERARDO REYES SALGADO: ""Defining Adaptive Whitelists by Using Clustering Techniques, a Security Application to Prevent Toll Fraud in VoIP Networks"", 《INT"L CONF. INFORMATION AND KNOWLEDGE ENGINEERING IEK16》 *
严彪等: "基于白名单机制的工控分级入侵检测算法", 《通信技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500387A (zh) * 2022-02-14 2022-05-13 重庆邮电大学 基于机器学习的移动应用流量识别方法及系统
CN114866316A (zh) * 2022-04-29 2022-08-05 中国科学院信息工程研究所 安全防护方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN112448911B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN107634848B (zh) 一种采集分析网络设备信息的系统和方法
US8179799B2 (en) Method for partitioning network flows based on their time information
CN107896160B (zh) 一种基于分布式系统的数据中心网络流量建模方法
CN108632100B (zh) 发现与呈现网络应用访问信息的方法和系统
CN104616205A (zh) 一种基于分布式日志分析的电力系统运行状态监视方法
GB2427490A (en) Network usage monitoring with standard message format
CN107800565A (zh) 巡检方法、装置、系统、计算机设备和存储介质
CN107818024A (zh) 一种基于spring拦截器的request ID传递方法及系统
CN112448911B (zh) 一种基于K-Means的正常Server IP白名单的挖掘方法
CN102611626B (zh) 网络流量解析系统及方法
CN101741608B (zh) 一种基于流量特征的p2p应用识别系统及方法
WO2012106861A1 (zh) 终端分布信息获取方法、数据获取装置以及通信系统
CN104994076A (zh) 一种基于机器学习的日常访问模型实现方法及系统
CN111259073A (zh) 基于日志、流量和业务访问的业务系统运行状态智能研判系统
CN104486116A (zh) 多维度查询流量数据的方法及系统
CN111935063A (zh) 一种终端设备异常网络访问行为监测系统及方法
CN115776449B (zh) 列车以太网通信状态监测方法及系统
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN112350882A (zh) 一种基于分布式的网络流量分析系统及方法
CN115277113A (zh) 一种基于集成学习的电网网络入侵事件检测识别方法
CN116405292A (zh) 一种网络流量特征自动识别提取的方法及系统
CN111080362A (zh) 广告监测系统及方法
CN114417796A (zh) 一种基于设备采点的动态报表统计方法及系统
CN115333915A (zh) 一种面向异构主机的网络管控系统
CN111614611B (zh) 一种用于电网嵌入式终端的网络安全审计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant