CN104394021A - 基于可视化聚类的网络流量异常分析方法 - Google Patents

基于可视化聚类的网络流量异常分析方法 Download PDF

Info

Publication number
CN104394021A
CN104394021A CN201410745810.XA CN201410745810A CN104394021A CN 104394021 A CN104394021 A CN 104394021A CN 201410745810 A CN201410745810 A CN 201410745810A CN 104394021 A CN104394021 A CN 104394021A
Authority
CN
China
Prior art keywords
cluster
point
time slot
port
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410745810.XA
Other languages
English (en)
Other versions
CN104394021B (zh
Inventor
周芳芳
王俊韡
赵颖
彭燕妮
施荣华
樊晓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201410745810.XA priority Critical patent/CN104394021B/zh
Publication of CN104394021A publication Critical patent/CN104394021A/zh
Application granted granted Critical
Publication of CN104394021B publication Critical patent/CN104394021B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于可视化聚类对网络流量进行异常分析的方法,步骤为:1)对网络流量监控数据记录进行预处理;2)对流量数据进行RadViz可视聚类,得到网络流量特征类似的流量时隙聚类;3)归纳2)所得到的流量时隙聚类的网络流量特征,得到流量特征异常的聚类;4)对2)所得到的流量时隙聚类过滤选择,得到不在聚类内离散的时隙点;5)结合IPPort矩阵对3)4)所得到的流量异常聚类中的和离散的时隙点进行分析。本发明能结合多角度快速对网络流量进行协同过滤,高效分析出网络流量的异常。

Description

基于可视化聚类的网络流量异常分析方法
技术领域
本发明涉及一种基于可视化聚类的网络流量异常分析方法。
背景技术
流量是网络中传播的数据量,数据传输是网络活动的基础,网络流量就是网络活动最重要的标志之一,几乎所有的网络应用和网络攻击在流量变化上都有迹可循。如今信息社会进入大数据时代,网络规模日益壮大,设备集成程度越来越高,数据容量越来越大,新兴的网络业务正在逐渐被开发,网络流量呈爆发性的增长,这些都有可能使得网络出现状况。
由于网络流量数据的海量和高维,传统的数据挖掘技术和算法让用户难以理解和使用,往往耗费大量的时间,也未能分析清楚数据之间的关联来反应完整的网络状态,而且不能以用户为驱动进行交互。而实践证明,用可视化的方法描述庞大的流量数据集合和复杂的关联规则,让用户在易于理解的图形结构中对流量进行直观的可视分析,效率和效果都会比对着一堆数据操作好很多。用户在看到直观的图片形式的网络流量表示图后,可以较快的对当前流量有一个清楚的认识,同时也便于用户继续执行流量分析及异常判断的步骤。
基于可视化方法对网络流量进行异常分析,能帮助用户直观地感受网络状态的发展,使用户能够在及时找出故障原因,预测运行态势,规避网络危险,从而做到防微杜渐,稳定网络环境,提升网络性能。
发明内容
本发明的主要目的是针对如今呈爆发性的增长的网络流量和网络问题,提出一种基于可视化聚类的,结合多角度快速对网络流量进行协同过滤可视聚类的方法,能高效分析出网络流量的异常。
为了实现上述技术目的,本发明的技术方案是,
一种基于可视化聚类对网络流量进行异常分析的方法,包括:
步骤1):对需监控的时间段内网络流量监控数据记录进行预处理,得到反应流量特征的关于各个时隙slot点的集合p的流量信息表Netflow_Info_Table;
步骤2):根据步骤1)得到的流量信息表Netflow_Info_Table,对集合p进行RadViz可视聚类,得到网络流量特征类似的时隙点聚类;
步骤3):初步归纳步骤2)得到的时隙点聚类的网络流量特征,得到Radviz中流量特征异常聚类中的时隙点集s1;
步骤4):根据步骤2)得到的时隙点聚类图像进行过滤选择,得到不在聚类内的离散时隙点集s2;
步骤5):根据步骤3)和步骤4)得到的点集合s1、s2,用IPPort矩阵反映每个时隙点的IP和端口的流量、连接情况,利用IPPort矩阵判断哪些时间点发生了何种异常,完成对该时间段网络流量的异常分析。
所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤1)包括:
步骤1.1):提取需监控时间段内的网络流量监控数据中的描述网络流量特征数据,即提取每一条流记录的时隙slot、发送方源IPsip、接收方目的IPdip、发送方端口sport、接收方端口dport、传输流大小byte字段;
步骤1.2):根据步骤1.1)得到的网络流量特征数据,计算对应每个时隙网络流量数据特征的相关统计信息,包括该时隙的源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;该时隙的主机总连接数sumCount;该时隙的总流量大小sumByte;并将每一个时隙点加入时隙slot点集合p中,其中Pi代表集合p中第i个时隙点;
步骤1.3):根据步骤1.2)计算得到的对应每个时隙网络流量数据特征的相关统计信息,建立关于各个时隙slot点集合p的流量信息表Netflow_Info_Table。
所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤2)包括:
步骤2.1):选取源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;主机总连接数sumCount;总流量大小sumByte作为6个维度的锚点,将其均匀分布在RadViz圆周;
步骤2.2):对时隙slot点集p中每个流量时隙点进行Radviz聚类,每个时隙点在Radviz以半径r的圆表示,r介于RadViz圆半径的1/60与1/70之间,受其对应维度锚点产生的弹簧力而在RadViz中处于平衡位置;
步骤2.3):用K-Means算法对RadViz圆环内时隙点聚类,设置初始聚类个数X为流量信息表Netflow_Info_Table中时隙记录条数;聚类内记录个数限制Nummin=30;在RadViz中随机选定K个时隙点作为聚类质心Centroid,每个质心代表聚类Ci,i=1,2,…,K;第一步对每个时隙点分别计算其到各个聚类质心的距离,选取距离该时隙点最近的聚类Ci作为这个时隙点的聚类;第二步对每个聚类重新计算质心,即对聚类中所有的点求平均坐标并作为新的质心;重复迭代第一步和第二步直到前后质心变动的距离d不大于时隙点半径r;第三步逐个判断每个聚类中记录个数Numi是否小于类内记录个数限制Nummin,若Numi<Nummin,则取消该聚类,K=K-1;聚类内的时隙点回复未被聚集状态;聚类Ci半径Ri为聚类Ci的质心到边缘时隙点最大值,其中Ri的最大值为Rmax
步骤2.4):对步骤2.3)中的初始聚类个数K、聚类内记录个数限制Nummin进行调整,重复执行步骤2.3),直到任一聚类Ci半径Ri总小于与之相邻聚类间质心距离,即得到最终聚类结果,其中初始聚类个数K的调整范围为0到之间的整数,聚类内记录个数限制Nummin为大于0的整数。
所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤2.4)中,最终聚类结果中的不同聚类由用户进行调整,包括:
步骤2.5):对步骤2.4)中得到的每一个聚类Ci,首先统计该聚类中记录个数Numi,然后以该聚类质心为圆心,以一半聚类半径即为半径,统计此区域内包含记录个数num,若则认为聚类Ci记录点分布离散,取消该聚类;若则记录来作为衡量聚类Ci的记录密度,其中Pi的最小值为Pmin;
步骤2.6):对步骤2.4)中由于Nummin限制未被聚类的时隙点,以及步骤2.5)中分散的时隙点,由用户选择组成新的聚类:第一步,随机选择一未被聚类的时隙点作为新聚类质心,然后以此时隙点为圆心、不大于当前已有聚类的最大半径Rmax的距离为半径,随机选择该范围内的另一未被聚类的时隙点加入点集作为新聚类中的点,然后重新计算点集内所有点的平均坐标作为新的聚类质心,再以新的质心为圆心,半径保持不变,继续加入新的时隙点并计算质心,直至范围内没有未被聚类的时隙点或点集加入时隙点会成为已形成过的不能聚类的点集为止;第二步,设所选点集中时隙点个数为n、点集中所有点的平均坐标到点集中任一点的最大值为l,若满足则认为六个维度对点集中时隙点影响相似,所选点集成为新的聚类,若不满足,则认为所形成的点集不符合聚类要求,记录该点集内容并标记为不能聚类的点集并取消聚类;随后重复进行第一步和第二步,直到连续3次出现点集为已形成过的不能聚类的点集,则认为剩下的离散点再不能构成聚类。
所述的一种基于可视化聚类对网络流量进行异常分析的方法,对所述步骤3)包括:
步骤3.1):通过步骤2)RadViz可视聚类,将Radviz圆心往每一聚类Ci的质心的向量,向圆心到源ip,目的ip,源端口,目的端口,连接数,流量大小六个维度锚点方向进行分解,得到六个维度的分量sipE1、dipE1、sportE1、dportE1、counter1、byte1,如果满足关系(stpE1>0)∩(dipE1<0)∩(dportE1<0),则认为聚类Ci符合DDos攻击的图像特征,标记Ci为异常聚类;如果满足(stpE1<0)∩(dipE1<0)∩(dportE1>0),符合端口扫描攻击的图像特征,标记Ci为异常聚类;
步骤3.2):对于步骤1.2)时隙slot点集p中的每一时隙点Pi,确定Pi为步骤2)所得到RadViz中的哪个聚类,若Pi所在聚类为步骤3.1)异常聚类,将Pi加入特征异常的聚类中的时隙点集s1中;
所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤4):根据得到的时间点聚类Radviz图像进行过滤选择,对于步骤1.2)时隙slot点集p中的每一时隙点Pi,若Pi不为步骤2)中聚类的点,将Pi加入不在聚类内的离散时隙点集s2中;
所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤5)包括:
步骤5.1):建立IPPort矩阵来反应时隙点6个维度的网络流量特征,IPPort包括源IP,目的IP,源端口,目的端口四个矩阵;将网络中的主机按顺序排列到到IP矩阵中,每个单位代表一个主机IP;将主机中端口按顺序排列到Port矩阵中,每个单位代表一个端口;对应IP和Port中的流量和连接数映射到对应矩阵的颜色,颜色由暗到亮对应数量级由低到高;并且实现四个矩阵对应固定某个IP或端口的交互过滤;
步骤5.2):根据步骤1.3)得到的流量信息表Netflow_Info_Table将s1、s2中时隙点的流量信息映射到IPPort矩阵中;
步骤5.3):根据对应时隙点的IPPort矩阵中由颜色代表的流量大小和连接数的分布,选择其中对应大数量级颜色的IP或端口,固定该IP或端口进行交互,过滤掉与之无关的流量信息,快速定位到网络可疑处查看流量分布情况,记录下所发现的异常信息,包括异常的时间点、异常类型和异常的IP与端口。
本发明的效果在于,根据已知的大量网络流量数据记录,充分挖掘不同网络流量特征对网络状态的影响情况,结合多角度快速对网络流量进行协同过滤,能高效分析出网络流量的异常。
本发明提出的基于可视化聚类的网络流量异常分析方法,基于RadViz聚类和IPPort矩阵映射方法,用直观明了的方式,将数据的结构及隐藏于其中的模式以图形图像的形式呈现出来。能够有效提高专业人员对于当前网络流量情况的认知,大大提高了接下来用户对于网络流量异常分析的效率。
下面结合附图对本发明作进一步说明。
附图说明
图1为本发明所述方法流程图;
图2为某公司网络的Netflow流量数据表结构图;
图3为Netflow网络流量特征Radviz聚类示意图;
图4为实施例中s1,A3小类中2013-4-3 11:00时隙的流量矩阵图;
图5为实施例中对活跃目的IP,172.30.0.4进行固定过滤后得到的流量分布图;
图6为实施例中s2,B3范围离散时隙点2013-4-1 22:00的流量矩阵图;
图7为实施例中对活跃目的IP,10.10.11.15进行固定过滤后得到的流量分布图。
具体实施方式
本发明公开了一种基于可视化聚类对网络流量进行异常分析的方法,参见图1,包括5个主要步骤:1)对网络流量监控数据记录进行预处理;2)对流量数据进行RadViz可视聚类,得到网络流量特征类似的流量时隙聚类;3)归纳2)所得到的流量时隙聚类的网络流量特征,得到流量特征异常的聚类;4)对2)所得到的流量时隙聚类过滤选择,得到不在聚类内离散的时隙点;5)结合IPPort矩阵对3)4)所得到的流量异常聚类中的和离散的时隙点进行分析。本发明能结合多角度快速对网络流量进行协同过滤,高效分析出网络流量的异常。
参见图2,利用本发明对某公司网络的Netflow日志进行网络流量的异常分析,日志时间是2013年4月1日到4月6日,时隙粒度为1小时,共147个时隙点,分析步骤如下所示:
步骤一,对给定的某网络流量监控日志Netflow数据进行预处理;包括3个步骤:
步骤1.1):提取需监控时间段内的网络流量监控数据中的描述网络流量特征数据,即提取每一条流记录的时隙slot、发送方源IPsip、接收方目的IPdip、发送方端口sport、接收方端口dport、传输流大小byte字段;
步骤1.2):根据步骤1.1)得到的网络流量特征数据,计算对应每个时隙网络流量数据特征的相关统计信息,包括该时隙的源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;该时隙的主机总连接数sumCount;该时隙的总流量大小sumByte;并将每一个时隙点加入时隙slot点集合p中,其中Pi代表集合p中第i个时隙点;
步骤1.3):根据步骤1.2)计算得到的对应每个时隙网络流量数据特征的相关统计信息,建立关于各个时隙slot点集合p的流量信息表Netflow_Info_Table。
步骤二,根据预处理后的流量信息表Netflow_Info_Table,对时隙点集进行可视化聚类。包括6个步骤:
步骤2.1):选取源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;主机总连接数sumCount;总流量大小sumByte作为6个维度的锚点,将其均匀分布在RadViz圆周;
步骤2.2):对时隙slot点集p中流量时隙点进行Radviz聚类,Radviz半径为350像素,每个时隙点在Radviz以半径5像素的圆表示,维度锚点对时隙点的弹簧拉力,大小正比于此时隙在该维度上的取值,时隙点在弹簧力的作用下迭代运动,直到该点速度大小为零,此时时隙点在Radviz中达到平衡,时隙点的最终位置计算公式如下:
x = Σ t = 1 n ( cos 2 πt n ) V n / Σ t = 1 n V n y = Σ t = 1 n ( sin 2 πt n ) V n / Σ t = 1 n V n
其中,n为圆周维度锚点个数;Vn为时隙点在圆周各维度上的取值。
步骤2.3):用K-Means算法对RadViz圆环内时隙点聚类,设置初始聚类个数 X为流量信息表Netflow_Info_Table中时隙记录条数;聚类内记录个数限制Nummin=30;在RadViz中随机选定K个时隙点作为聚类质心,每个质心代表聚类Ci,i=1,2,…,K;第一步对每个时隙点分别计算其到各个聚类质心的距离,选取距离该时隙点最近的聚类Ci作为这个时隙点的聚类;第二步对每个聚类重新计算质心,即对聚类中所有的点求平均坐标并作为新的质心;重复迭代第一步和第二步直到质心前后变动的距离d不大于时隙点半径r;第三步逐个判断每个聚类中记录个数Numi是否小于类内记录个数限制Nummin,若Numi<Nummin,则取消该聚类,K=K-1;聚类内的时隙点回复未被聚集的状态,如本例中A3,A4,C;聚类Ci半径Ri为聚类Ci的质心到边缘时隙点最大值,其中Ri的最大值为Rmax
步骤2.4):对步骤2.3)中的初始聚类个数K、聚类内记录个数限制Nummin进行调整,重复执行步骤2.3),直到任一聚类Ci半径Ri总小于与之相邻聚类间质心距离,即得到最终聚类结果,其中初始聚类个数K的调整范围为0到之间的整数,聚类内记录个数限制Nummin为大于0的整数。
参见图3,所示该时段的147个时隙点在Radviz中分布:通过K-means算法,调整至K=6,Nummin=20,得到如下图中A1,A2,A3,A4,B,C,6个聚类;由类内记录个数限制,取消A3,A4,C,其中时隙点回复未被聚类状态,此时K=3。
步骤2.5):对步骤2.4)中得到的每一个聚类Ci,首先统计该聚类中记录个数Numi,然后以该聚类质心为圆心,以一半聚类半径即为半径,统计此区域内包含记录个数num,若则认为聚类Ci记录点分布离散,取消该聚类,如上本例中B;若则记录来作为衡量聚类Ci的记录密度,其中Pi的最小值为Pmin
步骤2.6):对步骤2.4)中由于Nummin限制未被聚类的时隙点,以及步骤2.5)中分散的时隙点,由用户选择组成新的聚类:第一步,随机选择一未被聚类的时隙点作为新聚类质心,然后以此时隙点为圆心、不大于当前已有聚类的最大半径Rmax的距离为半径,随机选择该范围内的另一未被聚类的时隙点加入点集作为新聚类中的点,然后重新计算点集内所有点的平均坐标作为新的聚类质心,再以新的质心为圆心,半径保持不变,继续加入新的时隙点并计算质心,直至范围内没有未被聚类的时隙点或点集加入时隙点会成为已形成过的不能聚类的点集为止;第二步,设所选点集中时隙点个数为n、点集中所有点的平均坐标到点集中任一点的最大值为l,若满足则认为六个维度对点集中时隙点影响相似,所选点集成为新的聚类,若不满足,则认为所形成的点集不符合聚类要求,记录该点集内容并标记为不能聚类的点集并取消聚类;随后重复进行第一步和第二步,直到连续3次出现点集为已形成过的不能聚类的点集,则认为剩下的离散点再不能构成聚类。最终本例Radviz调整为图2所示A1,A2,A3,B1,B2,5个聚类和A4,B3,C处未被聚类的点。
步骤三,得到Radviz中流量特征异常聚类中的时隙点集,包括两个步骤:
步骤3.1):通过步骤2)RadViz可视聚类,将Radviz圆心往每一聚类Ci的质心的向量,向圆心到源ip,目的ip,源端口,目的端口,连接数,流量大小六个维度锚点方向进行分解,得到六个维度的分量sipE1、dipE1、sportE1、dportE1、counter1、byte1,如果满足关系(sipE1>0)∩(dipE1<0)∩(dportE1<0),则认为聚类Ci符合DDos攻击的图像特征,标记Ci为异常聚类;如果满足(sipE1<0)∩(dipE1<0)∩(dportE1>0),符合端口扫描攻击的图像特征,标记Ci为异常聚类;
我们可以从Radviz图像看出:A3聚类的特点是源端口熵非常大,源IP熵较大,目的IP熵和目的端口熵相对小,表现出DDos攻击的网络流量特征;A2小类靠近A4部分聚类点的特点是字节数、目的IP熵和目的端口熵影响相对小,连接数较大,源IP熵和源端口熵很大,表现出端口扫描的网络流量特征;
步骤3.2):对于步骤1.2)时隙slot点集p中的每一时隙点Pi,确定Pi为步骤2)所得到RadViz中的哪个聚类,若Pi所在聚类为步骤3.1)异常聚类,将Pi加入特征异常的聚类中的时隙点集s1中,根据步骤3.1)分析,将A2,A3范围的时隙点加入s1;
步骤四,得到不在聚类内的离散时隙点集:对于步骤1.2)时隙slot点集p中的每一时隙点Pi,根据步骤2)对流量时隙slot点集进行RadViz可视聚类,若Pi不为步骤2)中聚类的点,将Pi加入不在聚类的离散时隙点集s2中,根据步骤2)聚类结果,可以将A4,B3,C范围的时隙点加入s2;
步骤五,根据步骤3)4)得到的点集合s1、s2,用IPPort矩阵反映每个时隙点的IP,Port的流量、连接情况等网络特征,对该时间段网络流量进行分析,判断哪些时间点发生了何种异常,包括3个步骤:
步骤5.1):建立IPPort矩阵,包括源IP,目的IP,源端口,目的端口四个矩阵;将网络中的主机按顺序排列到到IP矩阵中,每个单位代表一个主机IP;将主机中端口按顺序排列到Port矩阵中,每个单位代表一个端口;对应IP和Port中的流量和连接数映射到对应矩阵的颜色;本例白色代表缺省数据,色调由暗转亮代表数量由小变大,黑色代表少量,红色代表大量。并且实现四个矩阵对应固定某个IP或端口的交互过滤,比如固定某个目的IP能获知哪些IP通过何种源端口发送信息,让所固定IP的某些目的端口产生了流量;
步骤5.2):根据步骤1.3)得到的流量信息表Netflow_Info_Table将s1、s2中时隙点的流量信息映射到IPPort矩阵中;
步骤5.3):根据对应时隙点的IPPort矩阵中由颜色代表的流量大小和连接数的分布,选择其中对应大数量级颜色的IP或端口,固定该IP或端口进行过滤交互,因为异常活跃的IP或端口往往伴随大量流量或连接数,固定要观察的IP或端口,过滤掉与之无关的流量信息,能快速定位到网络可疑处查看流量分布情况,比如端口扫描攻击在IPPort矩阵中往往会表现出目的IP连接数很大,目的IP对应主机几乎所有的目的端口都有少量流量的特征;发现异常后针对异常的主机和异常的端口提出处理建议,完成对该时间段网络流量的异常分析。
参见图4,上部的两个矩阵分别是源IP和目的IP矩阵,可以看出在两个IP矩阵中都有大量醒目红色的活动节点;下部的两个矩阵分别是源端口和目的端口矩阵,在源端口矩阵中,大量端口都有类似的活跃度,也是源端口熵值非常大的原因,在目的端口矩阵中,虽然也有大量活动端口,但大部分黑色和深蓝色端口的流量非常小,流量都集中在一些红色活跃端口上,因此目的端口熵值并不大。
对图4选中红色的活跃目的IP,172.30.0.4过滤后得到图5所示的流量分布,可以很明显的识别出少量IP通过大量源端口攻击了主机172.30.0.4的80号端口和25号端口,这是一次DDoS攻击。我们应调查恶意攻击的IP,并弥补主机172.30.0.4的HTTP网络服务和邮件应用的漏洞。
参见图6,在所示矩阵图的下部端口矩阵,明显可以看到在目的端口矩阵中几乎所有目的端口都有网络活动,而源端口矩阵中也有绝大部分端口参与了活动,而且上部两个IP矩阵也反映出很多活跃的主机。固定活跃目的IP,10.10.11.15,得到图7所示过滤视图,可以明显看出10.10.11.15使用少量的源端口访问了大部分的服务器的几乎端口,这是端口扫描攻击,应对10.10.11.15主机进行处理。
应用上述方法,对s1,s2的时隙点进行异常分析
还可以发现:
2013-04-03 15:00:00出现端口扫描攻击
2013-04-02 05:00:00出现DDos攻击
2013-04-03 09:00:00出现DDos攻击
2013-04-06 11:00:00出现端口扫描攻击
并针对所识别的恶意主机及端口,和受攻击主机及端口进行处理,完成对该公司2013年4月1日至6日,网络流量的异常分析。

Claims (7)

1.一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,包括: 
步骤1):对需监控的时间段内网络流量监控数据记录进行预处理,得到反应流量特征的关于各个时隙slot点的集合p的流量信息表Netflow_Info_Table; 
步骤2):根据步骤1)得到的流量信息表Netflow_Info_Table,对集合p进行RadViz可视聚类,得到网络流量特征类似的时隙点聚类; 
步骤3):初步归纳步骤2)得到的时隙点聚类的网络流量特征,得到Radviz中流量特征异常聚类中的时隙点集s1; 
步骤4):根据步骤2)得到的时隙点聚类图像进行过滤选择,得到不在聚类内的离散时隙点集s2; 
步骤5):根据步骤3)和步骤4)得到的点集合s1、s2,用IPPort矩阵反映每个时隙点的IP和端口的流量、连接情况,利用IPPort矩阵判断哪些时间点发生了何种异常,完成对该时间段网络流量的异常分析。 
2.根据权利要求1所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,所述步骤1)包括: 
步骤1.1):提取需监控时间段内的网络流量监控数据中的描述网络流量特征数据,即提取每一条流记录的时隙slot、发送方源IPsip、接收方目的IPdip、发送方端口sport、接收方端口dport、传输流大小byte字段; 
步骤1.2):根据步骤1.1)得到的网络流量特征数据,计算对应每个时隙网络流量数据特征的相关统计信息,包括该时隙的源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;该时隙的主机总连接数sumCount;该时隙的总流量大小sumByte;并将每一个时隙点加入时隙slot点集合p中,其中Pi代表集合p中第i个时隙点; 
步骤1.3):根据步骤1.2)计算得到的对应每个时隙网络流量数据特征的相关统计信息,建立关于各个时隙slot点集合p的流量信息表Netflow_Info_Table。 
3.根据权利要求2所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特 征在于,所述步骤2)包括: 
步骤2.1):选取源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;主机总连接数sumCount;总流量大小sumByte作为6个维度的锚点,将其均匀分布在RadViz圆周; 
步骤2.2):对时隙slot点集p中每个流量时隙点进行Radviz聚类,每个时隙点在Radviz以半径r的圆表示,r介于RadViz圆半径的1/60与1/70之间,受其对应维度锚点产生的弹簧力而在RadViz中处于平衡位置; 
步骤2.3):用K-Means算法对RadViz圆环内时隙点聚类,设置初始聚类个数X为流量信息表Netflow_Info_Table中时隙记录条数;聚类内记录个数限制Nummin=30;在RadViz中随机选定K个时隙点作为聚类质心Centroid,每个质心代表聚类Ci,i=1,2,···,K;第一步对每个时隙点分别计算其到各个聚类质心的距离,选取距离该时隙点最近的聚类Ci作为这个时隙点的聚类;第二步对每个聚类重新计算质心,即对聚类中所有的点求平均坐标并作为新的质心;重复迭代第一步和第二步直到前后质心变动的距离d不大于时隙点半径r;第三步逐个判断每个聚类中记录个数Numi是否小于类内记录个数限制Nummin,若Numi<Nummin,则取消该聚类,K=K-1;聚类内的时隙点回复未被聚集状态;聚类Ci半径Ri为聚类Ci的质心到边缘时隙点最大值,其中Ri的最大值为Rmax; 
步骤2.4):对步骤2.3)中的初始聚类个数K、聚类内记录个数限制Nummin进行调整,重复执行步骤2.3),直到任一聚类Ci半径Ri总小于与之相邻聚类间质心距离,即得到最终聚类结果,其中初始聚类个数K的调整范围为0到之间的整数,聚类内记录个数限制Nummin为大于0的整数。 
4.根据权利要求3所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,所述步骤2.4)中,最终聚类结果中的不同聚类由用户进行调整,包括: 
步骤2.5):对步骤2.4)中得到的每一个聚类Ci,首先统计该聚类中记录个数Numi,然后以该聚类质心为圆心,以一半聚类半径即为半径,统计此区域内包含记录个数num, 若则认为聚类Ci记录点分布离散,取消该聚类;若则记录来作为衡量聚类Ci的记录密度,其中Pi的最小值为Pmin; 
步骤2.6):对步骤2.4)中由于Nummin限制未被聚类的时隙点,以及步骤2.5)中分散的时隙点,由用户选择组成新的聚类:第一步,随机选择一未被聚类的时隙点作为新聚类质心,然后以此时隙点为圆心、不大于当前已有聚类的最大半径Rmax的距离为半径,随机选择该范围内的另一未被聚类的时隙点加入点集作为新聚类中的点,然后重新计算点集内所有点的平均坐标作为新的聚类质心,再以新的质心为圆心,半径保持不变,继续加入新的时隙点并计算质心,直至范围内没有未被聚类的时隙点或点集加入时隙点会成为已形成过的不能聚类的点集为止;第二步,设所选点集中时隙点个数为n、点集中所有点的平均坐标到点集中任一点的最大值为l,若满足则认为六个维度对点集中时隙点影响相似,所选点集成为新的聚类,若不满足,则认为所形成的点集不符合聚类要求,记录该点集内容并标记为不能聚类的点集并取消聚类;随后重复进行第一步和第二步,直到连续3次出现点集为已形成过的不能聚类的点集,则认为剩下的离散点再不能构成聚类。 
5.根据权利要求4所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,对所述步骤3)包括: 
步骤3.1):通过步骤2)RadViz可视聚类,将Radviz圆心往每一聚类Ci的质心的向量,向圆心到源ip,目的ip,源端口,目的端口,连接数,流量大小六个维度锚点方向进行分解,得到六个维度的分量sipEi、dipEi、sportEi、dportEi、counteri、bytei,如果满足关系(sipEi>0)∩(dipEi<0)∩(dportEi<0),则认为聚类Ci符合DDos攻击的图像特征,标记Ci为异常聚类;如果满足(sipEi<0)∩(dipEi<0)∩(dportEi>0),符合端口扫描攻击的图像特征,标记Ci为异常聚类; 
步骤3.2):对于步骤1.2)时隙slot点集p中的每一时隙点Pi,确定Pi为步骤2)所得到RadViz中的哪个聚类,若Pi所在聚类为步骤3.1)异常聚类,将Pi加入特征异常的聚类中的时隙点集s1中。
6.根据权利要求1所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,所述步骤4):根据得到的时间点聚类Radviz图像进行过滤选择,对于步骤1.2)时隙slot点集p中的每一时隙点Pi,若Pi不为步骤2)中聚类的点,将Pi加入不在聚类内的离散时隙点集s2中。
7.根据权利要求1所述的一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,所述步骤5)包括: 
步骤5.1):建立IPPort矩阵来反应时隙点6个维度的网络流量特征,IPPort包括源IP,目的IP,源端口,目的端口四个矩阵;将网络中的主机按顺序排列到到IP矩阵中,每个单位代表一个主机IP;将主机中端口按顺序排列到Port矩阵中,每个单位代表一个端口;对应IP和Port中的流量和连接数映射到对应矩阵的颜色,颜色由暗到亮对应数量级由低到高;并且实现四个矩阵对应固定某个IP或端口的交互过滤; 
步骤5.2):根据步骤1.3)得到的流量信息表Netflow_Info_Table将s1、s2中时隙点的流量信息映射到IPPort矩阵中; 
步骤5.3):根据对应时隙点的IPPort矩阵中由颜色代表的流量大小和连接数的分布,选择其中对应大数量级颜色的IP或端口,固定该IP或端口进行交互,过滤掉与之无关的流量信息,快速定位到网络可疑处查看流量分布情况,记录下所发现的异常信息,包括异常的时间点、异常类型和异常的IP与端口。 
CN201410745810.XA 2014-12-09 2014-12-09 基于可视化聚类的网络流量异常分析方法 Expired - Fee Related CN104394021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410745810.XA CN104394021B (zh) 2014-12-09 2014-12-09 基于可视化聚类的网络流量异常分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410745810.XA CN104394021B (zh) 2014-12-09 2014-12-09 基于可视化聚类的网络流量异常分析方法

Publications (2)

Publication Number Publication Date
CN104394021A true CN104394021A (zh) 2015-03-04
CN104394021B CN104394021B (zh) 2017-08-25

Family

ID=52611857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410745810.XA Expired - Fee Related CN104394021B (zh) 2014-12-09 2014-12-09 基于可视化聚类的网络流量异常分析方法

Country Status (1)

Country Link
CN (1) CN104394021B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055580A (zh) * 2016-05-23 2016-10-26 中南大学 一种基于Radviz的模糊聚类结果可视化方法
CN106330906A (zh) * 2016-08-23 2017-01-11 上海海事大学 一种大数据环境下的DDoS攻击检测方法
CN106506557A (zh) * 2016-12-29 2017-03-15 北京神州绿盟信息安全科技股份有限公司 一种端口扫描检测方法及装置
WO2017101656A1 (zh) * 2015-12-16 2017-06-22 网宿科技股份有限公司 Tcp传输数据的图形化分析方法和系统
CN107070930A (zh) * 2017-04-20 2017-08-18 中国电子技术标准化研究院 一种面向主机的可疑网络连接识别方法
CN107332802A (zh) * 2016-04-28 2017-11-07 中国移动通信集团江西有限公司 一种防火墙策略监控方法及装置
CN107770129A (zh) * 2016-08-17 2018-03-06 华为技术有限公司 用于检测用户行为的方法和装置
WO2018121157A1 (zh) * 2016-12-29 2018-07-05 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
CN108540322A (zh) * 2018-04-09 2018-09-14 南京理工大学 一种攻击图可视化效果的优化方法
CN109510793A (zh) * 2017-09-14 2019-03-22 蓝盾信息安全技术股份有限公司 一种基于协同过滤的安全事件预测技术
CN109688009A (zh) * 2018-12-28 2019-04-26 山东中孚安全技术有限公司 一种基于业务流量空间图的网络异常数据挖掘方法
CN110460558A (zh) * 2018-05-07 2019-11-15 南京联成科技发展股份有限公司 一种基于可视化的攻击模型发现的方法及系统
CN111339211A (zh) * 2018-12-19 2020-06-26 中国移动通信集团重庆有限公司 网络问题分析的方法、装置、设备及介质
CN113572653A (zh) * 2020-04-29 2021-10-29 华为技术有限公司 获取流量预测范围的方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应系统
CN102299863A (zh) * 2011-09-27 2011-12-28 北京网康科技有限公司 一种网络流量聚类的方法及其设备
CN103200133A (zh) * 2013-03-21 2013-07-10 南京邮电大学 一种基于网络流引力聚类的流量识别方法
CN103281293A (zh) * 2013-03-22 2013-09-04 南京江宁台湾农民创业园发展有限公司 一种基于多维分层相对熵的网络流量异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应系统
CN102299863A (zh) * 2011-09-27 2011-12-28 北京网康科技有限公司 一种网络流量聚类的方法及其设备
CN103200133A (zh) * 2013-03-21 2013-07-10 南京邮电大学 一种基于网络流引力聚类的流量识别方法
CN103281293A (zh) * 2013-03-22 2013-09-04 南京江宁台湾农民创业园发展有限公司 一种基于多维分层相对熵的网络流量异常检测方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017101656A1 (zh) * 2015-12-16 2017-06-22 网宿科技股份有限公司 Tcp传输数据的图形化分析方法和系统
CN107332802A (zh) * 2016-04-28 2017-11-07 中国移动通信集团江西有限公司 一种防火墙策略监控方法及装置
CN106055580B (zh) * 2016-05-23 2019-02-05 中南大学 一种基于Radviz的模糊聚类结果可视化方法
CN106055580A (zh) * 2016-05-23 2016-10-26 中南大学 一种基于Radviz的模糊聚类结果可视化方法
CN107770129A (zh) * 2016-08-17 2018-03-06 华为技术有限公司 用于检测用户行为的方法和装置
CN107770129B (zh) * 2016-08-17 2021-03-05 华为技术有限公司 用于检测用户行为的方法和装置
CN106330906A (zh) * 2016-08-23 2017-01-11 上海海事大学 一种大数据环境下的DDoS攻击检测方法
CN106330906B (zh) * 2016-08-23 2019-11-01 上海海事大学 一种大数据环境下的DDoS攻击检测方法
CN106506557B (zh) * 2016-12-29 2019-09-17 北京神州绿盟信息安全科技股份有限公司 一种端口扫描检测方法及装置
CN106506557A (zh) * 2016-12-29 2017-03-15 北京神州绿盟信息安全科技股份有限公司 一种端口扫描检测方法及装置
US11451566B2 (en) 2016-12-29 2022-09-20 NSFOCUS Information Technology Co., Ltd. Network traffic anomaly detection method and apparatus
WO2018121157A1 (zh) * 2016-12-29 2018-07-05 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
CN107070930B (zh) * 2017-04-20 2020-06-23 中国电子技术标准化研究院 一种面向主机的可疑网络连接识别方法
CN107070930A (zh) * 2017-04-20 2017-08-18 中国电子技术标准化研究院 一种面向主机的可疑网络连接识别方法
CN109510793A (zh) * 2017-09-14 2019-03-22 蓝盾信息安全技术股份有限公司 一种基于协同过滤的安全事件预测技术
CN108540322A (zh) * 2018-04-09 2018-09-14 南京理工大学 一种攻击图可视化效果的优化方法
CN110460558A (zh) * 2018-05-07 2019-11-15 南京联成科技发展股份有限公司 一种基于可视化的攻击模型发现的方法及系统
CN110460558B (zh) * 2018-05-07 2021-08-10 南京联成科技发展股份有限公司 一种基于可视化的攻击模型发现的方法及系统
CN111339211A (zh) * 2018-12-19 2020-06-26 中国移动通信集团重庆有限公司 网络问题分析的方法、装置、设备及介质
CN111339211B (zh) * 2018-12-19 2023-09-19 中国移动通信集团重庆有限公司 网络问题分析的方法、装置、设备及介质
CN109688009A (zh) * 2018-12-28 2019-04-26 山东中孚安全技术有限公司 一种基于业务流量空间图的网络异常数据挖掘方法
CN109688009B (zh) * 2018-12-28 2022-03-11 山东中孚安全技术有限公司 一种基于业务流量空间图的网络异常数据挖掘方法
CN113572653A (zh) * 2020-04-29 2021-10-29 华为技术有限公司 获取流量预测范围的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104394021B (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN104394021A (zh) 基于可视化聚类的网络流量异常分析方法
Rabbani et al. A hybrid machine learning approach for malicious behaviour detection and recognition in cloud computing
Peterson et al. A review and analysis of the bot-iot dataset
US10027562B2 (en) Detecting network services based on network flow data
Yao et al. Encrypted traffic classification based on Gaussian mixture models and Hidden Markov Models
CN108965248A (zh) 一种基于流量分析的p2p僵尸网络检测系统及方法
Cerroni et al. Decentralized detection of network attacks through P2P data clustering of SNMP data
CN104348741A (zh) 基于多尺度分析和决策树的p2p流量检测方法和系统
CN106663040A (zh) 用于计算机网络业务中的信任异常检测的方法及系统
Ran et al. A self-adaptive network traffic classification system with unknown flow detection
Pham et al. Lightweight Convolutional Neural Network Based Intrusion Detection System.
Jian-Qi et al. Dynamic entropy based DoS attack detection method
Zhao et al. Secure IoT edge: Threat situation awareness based on network traffic
Zheng et al. Two-layer detection framework with a high accuracy and efficiency for a malware family over the TLS protocol
Tilch et al. A multilayer graph model of the internet topology
JP6970344B2 (ja) 感染拡大攻撃検知装置、攻撃元特定方法及びプログラム
Layeghy et al. Benchmarking the Benchmark--Analysis of Synthetic NIDS Datasets
Rizzi et al. Low complexity, high performance neuro-fuzzy system for Internet traffic flows early classification
Lyu et al. Classifying and tracking enterprise assets via dual-grained network behavioral analysis
CN110490231A (zh) 一种有监督判别流形学习的Netflow数据降维方法
Chen et al. RNN-based DDoS detection in IoT scenario
Takyi et al. Clustering techniques for traffic classification: a comprehensive review
Cheng et al. A novel DDoS attack detection method using optimized generalized multiple kernel learning
Sanchez et al. Inter-domain traffic estimation for the outsider
Garcia A clustering-based analysis of DPI-labeled video flow characteristics in cellular networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170825