CN110097120B - 网络流量数据分类方法、设备及计算机存储介质 - Google Patents

网络流量数据分类方法、设备及计算机存储介质 Download PDF

Info

Publication number
CN110097120B
CN110097120B CN201910362456.5A CN201910362456A CN110097120B CN 110097120 B CN110097120 B CN 110097120B CN 201910362456 A CN201910362456 A CN 201910362456A CN 110097120 B CN110097120 B CN 110097120B
Authority
CN
China
Prior art keywords
feature
data
classification
network traffic
network flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910362456.5A
Other languages
English (en)
Other versions
CN110097120A (zh
Inventor
徐小龙
蒋帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910362456.5A priority Critical patent/CN110097120B/zh
Publication of CN110097120A publication Critical patent/CN110097120A/zh
Application granted granted Critical
Publication of CN110097120B publication Critical patent/CN110097120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络流量数据分类方法、设备及计算机存储介质,利用相关性特征选择算法将样本特征分为高相关性特征、低相关性特征,然后使用主成分分析算法对高相关性特征的样本进行降维处理,使得样本更加有效的同时,大大降低了分类算法的计算开销,最后利用基于距离的k近邻算法进行分类,提升网络流量数据的分类准确率。本发明解决了目前分类算法训练时间过长、计算量大的缺陷,能够有效提高网络流量数据分类的质量,降低分类所需要的时间,解决网络流量数据分类的问题。

Description

网络流量数据分类方法、设备及计算机存储介质
技术领域
本发明涉及数据挖掘领域,特别是涉及一种网络流量数据分类方法、设备及计算机存储介质。
背景技术
网络流量就是网络上传输的数据量。很多网络应用具有自身的特性,对于网络环境的需求也不尽相同,因此只有对网络流量进行及时准确的识别和分类,才能准确地为不同应用提供合适的网络环境,有效利用网络资源,为用户提供更好的服务质量。
通过收集和分析计算机网络中若干关键点的流量信息,来检查网络或系统中是否存在违反安全策略的行为和被攻击的迹象是数据挖掘领域内一个重要的研究课题。目前对网络流量数据分类的研究主要集中在算法层面和数据层面。基于算法层面,大都是针对网络流量数据的特点使用传统的机器学习算法或者改进现有的机器学习算法,比如主成分分析结合支持向量机方法,随机森林等方法。虽然能够提高样本的分类准确率,但仍然有局限性,这些算法的训练时间过长,计算量大,无法进行实时监测。有的算法只能针对特定数据集,无法应用到其他的数据集上,不具有普适性。基于数据层面,大都是使用统计学习方法,分类时间长,容易受到噪声数据影响。
发明内容
发明目的:本发明要解决的技术问题是提供一种网络流量数据分类方法、设备及计算机存储介质,解决目前算法训练时间过长、计算量大的缺陷,能够有效提高网络流量数据分类的质量,降低分类所需要的时间,解决网络流量数据分类的问题。
技术方案:本发明所述的网络流量数据分类方法,包括以下步骤:
(1)获取系统的真实数据集和网络流量数据训练集;
(2)将数据集中的离散型数据转换为数值型数据;
(3)将数据集的数值型数据进行归一化;
(4)从数据集中计算特征-类别和特征-特征相关矩阵,用最佳优先搜索方法得到特征子集空间;
(5)通过计算特征子集空间中特征向量与对应的特征值,使用特征值大的特征向量对特征子集空间进行降维;
(6)计算步骤(5)所得特征子集空间中网络流量数据训练集的特征向量和真实数据集的特征向量间的欧氏距离,选取网络流量数据训练集中欧式距离最小的几个数据,确定其所在类别的出现频率,将出现频率最高的类别作为所述真实数据的预测分类。
进一步的,步骤(4)中所述的最佳优先搜索方法具体为:
(1)使用启发式方程计算第i个特征向量的估计值Merit,
Figure BDA0002047245200000021
其中,l为特征子集包含特征向量的个数,z是第i个特征向量所对应的类别,
Figure BDA0002047245200000022
是特征与类别之间的相关系数的平均值;
Figure BDA0002047245200000023
是特征与特征之间的相关系数的平均值;
(2)建立Merit最大的l个特征向量组成的特征子集空间。
进一步的,步骤(5)中进行降维的方法具体为:计算特征子集空间矩阵X的协方差矩阵,将协方差矩阵的特征向量按照对应特征值从大到小排列,取最大的t个特征值对应的特征向量组成矩阵P,Y=PX即为降维到t维后的特征子集空间。
进一步的,步骤(6)中所述欧式距离d的计算公式为:
Figure BDA0002047245200000024
其中,ai为特征子集空间中网络流量数据集的特征向量的第i列的特征值,bi为特征子集空间中训练数据集的特征向量的第i列的特征值,n表示特征向量的特征维度。
本发明所述的设备,包括计算机存储器和处理器,所述的存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行上述任一项所述的方法。
本发明所述的计算机存储介质,其上存储有计算机程序,所述的计算机程序在被计算机处理器执行时实现上述任一项所述的方法。
有益效果:1、本发明面向网络流量数据的分类方法,使用基于相关性特征选择技术和主成分分析降维技术,大幅降低了实际分类所需要的时间,提升了网络流量数据分类模型的性能,有效解决了网络流量数据过大导致的训练时间较长,无法进行实时检测等问题;
2、本发明面向网络流量数据的分类方法,利用改进的k近邻算法对邻居距离的远近进行加权处理,解决了数据分类平票情况,使得分类的样本更加有效。
附图说明
图1是本发明的实施例整体流程图;
图2是本发明与现有方法检测时间的比较示意图。
具体实施方式
本发明方法是一种网络流量数据分类方法,首先,获取系统的真实数据集和网络流量数据训练集,这两种数据集中很多特征由字母组成,应将将这些由字母型数据转换为数值型数据,对将样本中的连续型数据进行最大最小值归一化,每一列特征减去该列的最小值,然后除以该列特征的最大值与最小值的差。然后对网络流量数据进行特征选取,使用启发式方程计算特征的估计值,找出最佳的特征组合。接着对选取的特征数据按行排列组成矩阵X,得到X的协方差矩阵C,然后计算协方差矩阵C的特征值及对应的特征向量,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P,Y=PX即为降维到k维后的数据。最后计算测试数据点与各个训练数据点之间的欧式距离d,按照距离的递增关系进行排序。通过k近邻算法,选取距离最小的k个点,确定前k个点所在类别的出现频率,返回前k个点中出现频率最高的类别作为测试数据的预测分类。
本发明方法的网络流量数据训练集以NSL-KDD数据集为例,首先对数据集进行数据预处理,将离散型数据转换为数值型数据,对数值型数据进行最大最小值归一化处理,然后对数据进行特征选取与特征降维,最后使用基于距离的k近邻算法进行分类,具体算法流程如图1所示。该方法应用到实际入侵检测系统中,使用抓包工具TCPDump采集网络流量数据作为系统的真实数据集,然后将其转换成NSL-KDD数据集的形式,使用该方法进行网络入侵检测,检测出的结果作为输出,最后清除异常流量数据来保护系统的安全。包括如下步骤:
步骤1:获取待检测的系统的真实数据集和网络流量数据训练集,数据中很多特征由字母组成,应将对应字母型数据映射为数值型数据。例如,针对protocol_type特征,它由3种类型数据组成,分别为TCP,UDP和ICMP,由于并不能对这类数据进行距离计算,所以我们使用0、1、2将它们一一替换,对于类别的种类,normal映射为0,其他映射为1。X为NSL-KDD数据集中的一个样本X={0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05,0.00,normal}。X经过步骤1处理变为X1={0,0,17,9,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05,0.00,0}。
步骤2:将样本中的数值型数据进行最大最小值归一化,即每一列特征减去该列的最小值,然后除以该列特征的最大值与最小值的差。经过处理后X1变为X2={0.0,0,17,9,1.2863199039876152e-06,0.0,0,0.0,0.0,0.0,0.0,0,0.0,0,0,0.0,0.0,0.0,0.0,0,0,0,0.00196078431372549,0.00196078431372549,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.5882352941176471,0.09803921568627451,0.17,0.03,0.17,0.0,0.0,0.0,0.05,0.0,0}。
步骤3:从样本M中计算特征-类和特征-特征相关矩阵,然后用最佳优先搜索来找到l个特征子集。以空集N为例,开始时没有特征选择,并产生了所有可能的单个特征;使用启发式方程计算特征的估计值Merit,并选择Merit值最大的一个特征进入N,然后选择第二个拥有最大的Merit值的特征进入N,如果这两个特征的Merit值小于原来的Merit值,则去除这个第二个最大的Merit值的特征,然后在进行下一个,依次递进,找出使Merit最大的l个特征组合N。经过相关性特征选取后处理后,41维特征的X2变为31维的X3={0.0,0,17,9,1.2863199039876152e-06,0.0,0,0.0,0.0,0.0,0.0,0,0.0,0,0,0.0,0.0,0.0,0.0,0,0,0,0.00196078431372549,0.00196078431372549,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0}。
步骤4:对相关性高的特征数据按行排列组成矩阵X,得到X的协方差矩阵C,然后计算协方差矩阵C的特征值及对应的特征向量,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前t行组成矩阵P,Y=PX即为降维到t维后的数据。经过步骤4,X3的维度从31维变为23维。
步骤5:计算测试数据点P与各个训练数据点Q之间的欧式距离d,按照距离的递增关系进行排序。通过k近邻算法,选取距离最小的k个点,确定前k个点所在类别的出现频率,返回前k个点中出现频率最高的类别作为测试数据的预测分类。使用23维的样本来训练提出的模型,然后使用测试样本X4={0,tcp,private,S0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,123,6,1.00,1.00,0.00,0.00,0.05,0.07,0.00,255,26,0.10,0.05,0.00,0.00,1.00,1.00,0.00,0.00,neptune},经过数据预处理后进行测试,模型可以正确将其分类为1。使用测试样本X5={0,udp,other,SF,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,13,1,0.00,0.00,0.00,0.00,0.08,0.15,0.00,255,1,0.00,0.60,0.88,0.00,0.00,0.00,0.00,0.00,normal},经过数据预处理后进行测试,模型可以正确将其分类为0。本实施例提出的方法与现有的k近邻算法在时间上的比较如图2所示,实验数据表明,本实施例的方法对比现有技术在各项数据上都由较为明显的提升。
综上,本发明为解决了网络流量数据的分类问题,提出了一种网络流量数据分类方法,利用相关性特征选择算法将样本特征分为高相关性特征、低相关性特征;然后使用主成分分析算法对高相关性特征的样本进行降维处理,使得样本更加有效且大大降低分类的计算开销;最后利用基于距离的k近邻算法进行分类,提升网络流量数据的分类准确率。
本发明的实施例还提供了一种设备,设备包括存储器和至少一个处理器、存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序、至少一条通讯总线。所述至少一个处理器执行所述计算机程序时实现上述网络流量数据分类方法实施例中的步骤。
本发明的实施例还提供了一种计算机存储介质,其上存储有计算机程序。当所述计算机程序由处理器执行时,可以实现前述网络流量数据分类方法。例如,该计算机存储介质为计算机可读存储介质。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (5)

1.一种网络流量数据分类方法,其特征在于,包括以下步骤:
(1)获取系统的真实数据集和网络流量数据训练集;
(2)将数据集中的离散型数据转换为数值型数据;
(3)将数据集的数值型数据进行归一化;
(4)从数据集中计算特征-类别和特征-特征相关矩阵,用最佳优先搜索方法得到特征子集空间,最佳优先搜索方法具体为:
(41)使用启发式方程计算第i个特征向量的估计值Merit,
Figure FDA0003738935600000011
其中,l为特征子集包含特征向量的个数,z是第i个特征向量所对应的类别,
Figure FDA0003738935600000012
是特征与类别之间的相关系数的平均值;
Figure FDA0003738935600000013
是特征与特征之间的相关系数的平均值;
(42)建立Merit最大的l个特征向量组成的特征子集空间;
(5)通过计算特征子集空间中特征向量与对应的特征值,使用特征值大的特征向量对特征子集空间进行降维;
(6)计算步骤(5)所得特征子集空间中网络流量数据训练集的特征向量和真实数据集的特征向量间的欧氏距离,选取网络流量数据训练集中欧式距离最小的几个数据,确定其所在类别的出现频率,将出现频率最高的类别作为所述真实数据的预测分类。
2.根据权利要求1所述的网络流量数据分类方法,其特征在于,步骤(5)中进行降维的方法具体为:计算特征子集空间矩阵X的协方差矩阵,将协方差矩阵的特征向量按照对应特征值从大到小排列,取最大的t个特征值对应的特征向量组成矩阵P,Y=PX即为降维到t维后的特征子集空间。
3.根据权利要求1所述的网络流量数据分类方法,其特征在于,步骤(6)中所述欧式距离d的计算公式为:
Figure FDA0003738935600000014
其中,ai为特征子集空间中网络流量数据集的特征向量的第i列的特征值,bi为特征子集空间中训练数据集的特征向量的第i列的特征值,n表示特征向量的特征维度。
4.一种电子设备,包括计算机存储器和处理器,所述的存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得处理器执行如权利要求1至3任一项所述的网络流量数据分类方法。
5.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述的计算机程序在被计算机处理器执行时实现如权利要求1至3任一项所述的网络流量数据分类方法。
CN201910362456.5A 2019-04-30 2019-04-30 网络流量数据分类方法、设备及计算机存储介质 Active CN110097120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910362456.5A CN110097120B (zh) 2019-04-30 2019-04-30 网络流量数据分类方法、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910362456.5A CN110097120B (zh) 2019-04-30 2019-04-30 网络流量数据分类方法、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110097120A CN110097120A (zh) 2019-08-06
CN110097120B true CN110097120B (zh) 2022-08-26

Family

ID=67446617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910362456.5A Active CN110097120B (zh) 2019-04-30 2019-04-30 网络流量数据分类方法、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110097120B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110784381B (zh) * 2019-11-05 2021-04-13 安徽师范大学 一种基于粒子计算的流量分类方法
CN113472654B (zh) * 2021-05-31 2022-11-15 济南浪潮数据技术有限公司 一种网络流量数据转发方法、装置、设备及介质
CN117251830A (zh) * 2023-11-14 2023-12-19 成都态坦测试科技有限公司 闪存寿命预测方法、装置、可读存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108632279A (zh) * 2018-05-08 2018-10-09 北京理工大学 一种基于网络流量的多层异常检测方法
CN109242002A (zh) * 2018-08-10 2019-01-18 深圳信息职业技术学院 高维数据分类方法、装置及终端设备
CN109309630A (zh) * 2018-09-25 2019-02-05 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN109639481A (zh) * 2018-12-11 2019-04-16 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、系统及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108632279A (zh) * 2018-05-08 2018-10-09 北京理工大学 一种基于网络流量的多层异常检测方法
CN109242002A (zh) * 2018-08-10 2019-01-18 深圳信息职业技术学院 高维数据分类方法、装置及终端设备
CN109309630A (zh) * 2018-09-25 2019-02-05 深圳先进技术研究院 一种网络流量分类方法、系统及电子设备
CN109639481A (zh) * 2018-12-11 2019-04-16 深圳先进技术研究院 一种基于深度学习的网络流量分类方法、系统及电子设备

Also Published As

Publication number Publication date
CN110097120A (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN106982196B (zh) 一种异常访问检测方法及设备
US9230102B2 (en) Apparatus and method for detecting traffic flooding attack and conducting in-depth analysis using data mining
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN110097120B (zh) 网络流量数据分类方法、设备及计算机存储介质
CN112632609B (zh) 异常检测方法、装置、电子设备及存储介质
CN110602120B (zh) 一种面向网络的入侵数据检测方法
CN110083507B (zh) 关键性能指标分类方法及装置
CN114386514B (zh) 基于动态网络环境下的未知流量数据识别方法及装置
CN113762377B (zh) 网络流量识别方法、装置、设备及存储介质
CN114970694B (zh) 一种网络安全态势评估方法及其模型训练方法
CN114553591A (zh) 随机森林模型的训练方法、异常流量检测方法及装置
CN116633601A (zh) 一种基于网络流量态势感知的检测方法
Arya et al. Ensemble filter-based feature selection model for cyber attack detection in industrial Internet of Things
CN116346506B (zh) 一种网络安全数据智能防护方法
CN116232761B (zh) 基于shapelet的网络异常流量检测方法及系统
CN116030955B (zh) 基于物联网的医疗设备状态监测方法及相关装置
CN117749409A (zh) 一种大规模网络安全事件分析系统
CN107454084B (zh) 基于杂交带的最近邻入侵检测算法
CN116707859A (zh) 特征规则提取方法和装置、网络入侵检测方法和装置
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN114118680A (zh) 一种网络安全态势评估方法及系统
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
Jahromy et al. A new method for detecting network intrusion by using a combination of genetic algorithm and support vector machine classifier
Qi et al. An Intrusion Detection Feature Selection Method Based on Improved Mutual Information
CN117826771B (zh) 基于ai分析的冷轧机控制系统异常检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant