CN113225319A - 软件定义网络异常流量检测方法 - Google Patents

软件定义网络异常流量检测方法 Download PDF

Info

Publication number
CN113225319A
CN113225319A CN202110429280.8A CN202110429280A CN113225319A CN 113225319 A CN113225319 A CN 113225319A CN 202110429280 A CN202110429280 A CN 202110429280A CN 113225319 A CN113225319 A CN 113225319A
Authority
CN
China
Prior art keywords
data
abnormal
points
point
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110429280.8A
Other languages
English (en)
Inventor
仇炳楠
徐雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110429280.8A priority Critical patent/CN113225319A/zh
Publication of CN113225319A publication Critical patent/CN113225319A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种软件定义网络异常流量检测方法,准确率高,速度快。本发明目的软件定义网络异常流量检测方法,包括如下步骤:(10)样本数据获取:从软件定义网络抓取原始流量文件,对原始流量文件内所有的流量数据进行预处理,得到样本数据集;(20)数据粗粒度划分:采用局部异常因子法,将所述样本数据集进行粗粒度划分,得到正常数据和异常数据;(30)异常数据细粒度划分:采取K‑means方法,将所述异常数据进行细粒度划分,检测出异常数据及其种类。

Description

软件定义网络异常流量检测方法
技术领域
本发明属于信息安全技术领域,特别是一种软件定义网络异常流量检测方法。
背景技术
随着虚拟化和云计算技术的发展,软件定义网络作为一种新兴的网络架构,逐渐受到了研究者的青睐。它通过转发平面和数据平面分类的设计思想和网络可编程的特点,解决了传统网络灵活性差、难以管理、维护代价大等问题。然而由于软件定义网络在设计时对安全问题缺少相应的考虑,以及软件定义网络集中控制和开放性的特点,使得软件定义网络更容易遭受网络攻击,尤其是控制平面和数据平面。现阶段面对软件定义网络存在的安全问题,网络异常流量检测开始应用于软件定义网络,它能够感知软件定义网络中存在的异常流量,通过流量分析技术实现网络攻击溯源取证,帮助安全人员采取相应措施。
现有的网络异常流量检测基本处理流程如下:首先进行数据采集,包括终端数据、中间件数据、流量抓取、第三方设备日志。然后进行数据预处理,对采集的数据进行预处理,包括数据数值化、标准化、数据筛选,最终转换成平台可理解的格式化数据,以文件形式存储等待解析。最后进行数据分析,对数据进行识别、分类,筛选出异常的数据并进行报告。
上述网络异常检测方法存在如下不足:
1、检测方法准确率低,大约为80%-90%,误报率高,约为15%:现有的检测方法为提高效率,对数据特征的保留少,难以保证不丢失主要信息。
2、无法具体区分网络攻击的种类:现有检测方法对正常数据采用数学建模方式分析其行为,对于符合行为模型的网络流量认定为正常流量,不符合行为模型的网络流量只是认定为异常流量,无法对其进行分类。
3、与软件定义网络不适配:软件定义网络尚处于初期阶段,对软件定义网络的异常流量检测研究还不成熟。
发明内容
本发明的目的在于提供一种软件定义网络异常流量检测方法,准确率高,速度快。
实现本发明目的的技术解决方案为:
一种软件定义网络异常流量检测方法,包括如下步骤:
(10)样本数据获取:从软件定义网络抓取原始流量文件,对原始流量文件内所有的流量数据进行预处理,得到样本数据集;
(20)数据粗粒度划分:采用局部异常因子法,将所述样本数据集进行粗粒度划分,得到正常数据和异常数据;
(30)异常数据细粒度划分:采取K-means方法,将所述异常数据进行细粒度划分,检测出异常数据及其种类。
本发明与现有技术相比,其显著优点为:
1、检测方法准确率高,误报率低:本发明改善了现有技术中对主要信息保留不完整的问题,在样本数据获取步骤中对原始流量文件进行预处理中,采用了熵值法将最能体现原数据特征的属性进行提取,保留下来;准确率可以达到98%以上,误报率在5%以下。
2、可以区分具体攻击的类别:本发明对异常流量进行了进一步的分类,在步骤(30)中对异常流量数据进行细粒度的划分,区分出异常流量具体所属种类,包括DoS、U2R、R2L、probe等网络攻击类型。
3、适用于软件定义网络环境:本发明可以在软件定义网络平台中运行。
下面结合附图和具体实施方式对本发明作进一步的详细描述。
附图说明
图1是本发明软件定义网络异常流量检测方法的主流程图。
图2为图1中样本数据获取步骤的流程图。
图3为图1中数据粗粒度划分步骤的流程图。
图4为图1中数据细粒度划分步骤的流程图。
具体实施方式
如图1所示,本发明软件定义网络异常流量检测方法,包括如下步骤:
(10)样本数据获取:从软件定义网络抓取原始流量文件,对原始流量文件内所有的流量数据进行预处理,得到样本数据集;
如图2所,所述(10)样本数据获取步骤包括:
(11)原始流量文件抓取:利用抓包软件从软件定义网络获取原始流量文件;
(12)流量数据预处理:对原始流量文件中的流量数据进行数值化、标准化、归一化处理,得到同一类型的原始数据集;
(13)数据降维:采用熵值法计算原始数据集中所有特征参数的熵值,选取熵值较大的多个特征参数组成降维的样本数据集。
所述(13)数据降维步骤包括:
(131)数据集熵值计算:按下式计算含有n个变量x1,x2,…,xn的数据集X的熵H(X),
Figure BDA0003030759060000031
式中,pi是第i个变量的概率;
(132)特征参数选取:计算原始数据集中所有特征参数的熵值,从大到小排列,根据原始数据集规模大小,选取与原始数据集规模相应的熵值较大的多个特征参数组成样本数据集。
例如,实验使用KDD CUP 99网络入侵检测数据集,该数据集是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据,分成具有标识的训练数据和未加标识的测试数据。测试数据和训练数据有着不同的概率分布,测试数据包含了一些未出现在训练数据中的攻击类型,这使得入侵检测更具有现实性。
首先对数据集随机选取大小为2000的子集,将数据集进行数值化、标准化、归一化,首先将非数字类型的数据转化为数字,然后消除由于属性度量的差异对聚类产生的影响,对属性值进行标准化,最后将所有数值归一化,即把所有数值映射到[0,1]区间;
用熵值法选取区分度较大的特征参数,提高数据间的差异,主要包括duration(连接的持续时间)、src_bytes(从源主机发送到目的主机的数据的字节数)、dst_bytes(从目的主机发送到源主机的数据的字节数)、count(过去两秒内,与当前连接具有相同目标主机的连接数)、srv_count(过去两秒内,与当前连接有相同服务的连接数)、dst_host_count(前100个连接中,与当前连接目标主机相同的连接数)、dst_host_srv_count(前100个连接中,与当前连接目标主机相同且服务也相同的连接数)在内的7个特征作为输入数据。
(20)数据粗粒度划分:采用局部异常因子法,将所述样本数据集进行粗粒度划分,得到正常数据和异常数据;
如图3所示,所述(20)数据粗粒度划分步骤包括:
(21)数据点间距离计算:设样本数据集为D,假设共有n个检测样本,数据的特征参数个数为为m,对于
Figure BDA0003030759060000041
对于数据集D中任意两个数据点Xi,Xj,统一使用d(Xi,Xj)表示该两点间的距离,其中:
Figure BDA0003030759060000042
(22)计算第k距离:dk(O)表示点O的第k距离,需要满足下列条件:
①至少有k个点P′∈D\{O},满足d(O,P′)≤d(O,P)
②至多有k-1个点P′∈D\{O},满足d(O,P′)<d(O,P)
此时,dk(O)=d(O,P)
(23)计算第k距离邻域:设Nk(O)为点O的第k距离邻域,其计算方式如下:
Nk(O)={P′∈D\{O}|d(O,P′)≤dk(O)}
(24)计算可达距离:点P到中心点O的第k可达距离为:
dk(P,O)=max{dk(O),d(P,O)}
即点P到点O的第k可达距离至少是点O的第k距离;距离中心点O最近的k个点到中心点O的可达距离均为dk(O);
(25)计算局部可达密度:按下式计算所有属于点P的第k邻域内的点到点P的可达距离的平均值,即局部可达密度,
Figure BDA0003030759060000043
即所有属于点P的第k邻域内的点到点P的可达距离的平均值。若P与其邻域点同属一个簇,则可达距离就更可能取较小的dk(O),从而可达距离之和越小,使得局部可达密度越大。反之则可达距离更可能为较大的d(O,P),从而可达距离之和变大,局部可达密度越小;
(26)计算局部离群因子:按下式计算点P的第k邻域Nk(P)内非P点的局部可达密度与点P的局部可达密度之比的平均值,即局部离群因子LOFk(P):
Figure BDA0003030759060000051
表示点P的第k邻域Nk(P)内非P点的局部可达密度与点P的局部可达密度之比的平均值。如果这个比值越接近1,说明O的邻域点之间的密度接近,O可能与其第k邻域内的其他点同属一簇;如果这个比值小于1,说明O的密度比邻域点之间的密度大,即O可能为密集点;如果这个比值大于1,说明O的密度小于其邻域点之间的密度,即O可能为离群点;
(27)数据划分:对于输入的每个点计算其局部异常因子值LOFk(P),在k=600时,大于离群阈值-0.1的判定为异常,被判定为异常的数据划入异常数据集,其余数据划入正常数据集。
(30)异常数据细粒度划分:采取K-means方法,将所述异常数据进行细粒度划分,检测出异常数据及其种类。
如图4所示,所述(30)异常数据细粒度划分步骤包括:
(31)设定聚类中心:选定N个点作为初始聚类中心点;
(32)聚类分簇:把每个聚类中心划分成簇,计算每个非中心的点与各个中心的距离,将其放入与其距离最近的聚类中心所在的簇中;
(33)重新计算聚类中心:在完成一轮分簇后,计算每个簇内所有点的坐标平均值,这个平均值所在的坐标值即为新的聚类中心;
(34)算法收敛:重复步骤(32)和(33),如果所有簇的聚类中心计算结果与上一轮计算结果相同或计算结果的差值设定的阈值,就认定算法已经收敛,进入步骤(35),否则返回步骤(32);
(35)输出结果:每个簇内占主要数量的结果即为该簇的认定结果,认为此簇内所有点属于该类型数据,输出每个簇内点的数量和该簇被认定的数据类型。
实验结果表明,采用本发明方法,可以达到99.05%的检测率和0.72%的误报率。
本发明首先对数据进行了数据筛选,进行预处理和数据降维,在提高算法效率的同时保证了主要信息的完整性;然后对数据进行了粗粒度划分,划分为正常和异常数据集,经过初步划分,把异常数据缩小范围,方便进行具体分类处理;最后对异常数据进行细粒度划分,划分出具体的异常种类,方便网络安全人员提供针对性的解决方案。比现有技术提高了异常流量检测算法的准确率,降低了误报率,并减少了系统开销。

Claims (5)

1.一种软件定义网络异常流量检测方法,其特征在于,包括如下步骤:
(10)样本数据获取:从软件定义网络抓取原始流量文件,对原始流量文件内所有的流量数据进行预处理,得到样本数据集;
(20)数据粗粒度划分:采用局部异常因子法,将所述样本数据集进行粗粒度划分,得到正常数据和异常数据;
(30)异常数据细粒度划分:采取K-means方法,将所述异常数据进行细粒度划分,检测出异常数据及其种类。
2.根据权利要求1所述的异常流量检测方法,其特征在于,所述(10)样本数据获取步骤包括:
(11)原始流量文件抓取:利用抓包软件从软件定义网络获取原始流量文件;
(12)流量数据预处理:对原始流量文件中的流量数据进行数值化、标准化、归一化处理,得到同一类型的原始数据集;
(13)数据降维:采用熵值法计算原始数据集中所有特征参数的熵值,选取熵值较大的多个特征参数组成降维的样本数据集。
3.根据权利要求2所述的异常流量检测方法,其特征在于,所述(13)数据降维步骤包括:
(131)数据集熵值计算:按下式计算含有n个变量x1,x2,…,xn的数据集X的熵H(X),
Figure RE-FDA0003093208160000011
式中,pi是第i个变量的概率;
(132)特征参数选取:计算原始数据集中所有特征参数的熵值,从大到小排列,根据原始数据集规模大小,选取与原始数据集规模相应的熵值较大的多个特征参数组成样本数据集。
4.根据权利要求2所述的异常流量检测方法,其特征在于,所述(20)数据粗粒度划分步骤包括:
(21)数据点间距离计算:设样本数据集为D,假设共有n个检测样本,数据的特征参数个数为为m,对于
Figure RE-FDA0003093208160000012
对于数据集D中任意两个数据点Xi,Xj,统一使用d(Xi,Xj)表示该两点间的距离,其中:
Figure RE-FDA0003093208160000021
(22)计算第k距离:dk(O)表示点O的第k距离,需要满足下列条件:
①至少有k个点P′∈D\{O},满足d(O,P′)≤d(O,P)
②至多有k-1个点P′∈D\{O},满足d(O,P′)<d(O,P)
此时,dk(O)=d(O,P)
(23)计算第k距离邻域:设Nk(O)为点O的第k距离邻域,其计算方式如下:
Nk(O)={P′∈D\{O}|d(O,P′)≤dk(O)}
(24)计算可达距离:点P到中心点O的第k可达距离为:
dk(P,O)=max{dk(O),d(P,O)}
即点P到点O的第k可达距离至少是点O的第k距离;(25)计算局部可达密度:按下式计算所有属于点P的第k邻域内的点到点P的可达距离的平均值,即局部可达密度,
Figure RE-FDA0003093208160000022
(26)计算局部离群因子:按下式计算点P的第k邻域Nk(P)内非P点的局部可达密度与点P的局部可达密度之比的平均值,即局部离群因子LOFk(P):
Figure RE-FDA0003093208160000023
(27)数据划分:对于输入的每个点计算其局部异常因子值LOFk(P),在k=600时,大于离群阈值-0.1的判定为异常,被判定为异常的数据划入异常数据集,其余数据划入正常数据集。
5.根据权利要求2所述的异常流量检测方法,其特征在于,所述(30)异常数据细粒度划分步骤包括:
(31)设定聚类中心:选定N个点作为初始聚类中心点;
(32)聚类分簇:把每个聚类中心划分成簇,计算每个非中心的点与各个中心的距离,将其放入与其距离最近的聚类中心所在的簇中;
(33)重新计算聚类中心:在完成一轮分簇后,计算每个簇内所有点的坐标平均值,这个平均值所在的坐标值即为新的聚类中心;
(34)算法收敛:重复步骤(32)和(33),如果所有簇的聚类中心计算结果与上一轮计算结果相同或计算结果的差值设定的阈值,就认定算法已经收敛,进入步骤(35),否则返回步骤(32);
(35)输出结果:每个簇内占主要数量的结果即为该簇的认定结果,认为此簇内所有点属于该类型数据,输出每个簇内点的数量和该簇被认定的数据类型。
CN202110429280.8A 2021-04-21 2021-04-21 软件定义网络异常流量检测方法 Pending CN113225319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110429280.8A CN113225319A (zh) 2021-04-21 2021-04-21 软件定义网络异常流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110429280.8A CN113225319A (zh) 2021-04-21 2021-04-21 软件定义网络异常流量检测方法

Publications (1)

Publication Number Publication Date
CN113225319A true CN113225319A (zh) 2021-08-06

Family

ID=77088167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110429280.8A Pending CN113225319A (zh) 2021-04-21 2021-04-21 软件定义网络异常流量检测方法

Country Status (1)

Country Link
CN (1) CN113225319A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110247910A (zh) * 2019-06-13 2019-09-17 深信服科技股份有限公司 一种异常流量的检测方法、系统及相关组件

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110247910A (zh) * 2019-06-13 2019-09-17 深信服科技股份有限公司 一种异常流量的检测方法、系统及相关组件

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张硕 等: "基于网格LOF和自适应K-means的离群点检测算法", 《指挥信息系统与技术》 *

Similar Documents

Publication Publication Date Title
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN110213222B (zh) 基于机器学习的网络入侵检测方法
CN105577679B (zh) 一种基于特征选择与密度峰值聚类的异常流量检测方法
CN109729090B (zh) 一种基于wedms聚类的慢速拒绝服务攻击检测方法
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN111898647B (zh) 一种基于聚类分析的低压配电设备误告警识别方法
CN102420723A (zh) 一种面向多类入侵的异常检测方法
CN113037567B (zh) 一种用于电网企业的网络攻击行为仿真系统的仿真方法
CN112528277A (zh) 一种基于循环神经网络的混合入侵检测方法
CN109218321A (zh) 一种网络入侵检测方法及系统
CN109951462B (zh) 一种基于全息建模的应用软件流量异常检测系统及方法
CN114422184A (zh) 基于机器学习的网络安全攻击类型和威胁等级预测方法
CN116150688A (zh) 智能家居中轻量级的物联网设备识别方法与装置
CN116384736A (zh) 一种智慧城市的风险感知方法及系统
CN116170208A (zh) 一种基于半监督isodata算法的网络入侵实时检测方法
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN111314910A (zh) 一种新型映射隔离森林的无线传感器网络异常数据检测方法
CN111444233B (zh) 基于复制器神经网络模型发现环境监测异常数据的方法
CN114666273B (zh) 一种面向应用层未知网络协议的流量分类方法
CN113225319A (zh) 软件定义网络异常流量检测方法
Kim et al. An approach to online network monitoring using clustered patterns
CN111490976A (zh) 一种面向工控网络的动态基线管理与监测方法
CN116032526A (zh) 一种基于机器学习模型优化的异常网络流量检测方法
CN114666075B (zh) 基于深度特征粗糙编码的分布式网络异常检测方法及系统
CN114390002A (zh) 基于分组条件熵的网络流量多模块聚类异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806