CN110097120B

CN110097120B - 网络流量数据分类方法、设备及计算机存储介质

Info

Publication number: CN110097120B
Application number: CN201910362456.5A
Authority: CN
Inventors: 徐小龙; 蒋帅
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-08-26
Anticipated expiration: 2039-04-30
Also published as: CN110097120A

Abstract

本发明公开了一种网络流量数据分类方法、设备及计算机存储介质，利用相关性特征选择算法将样本特征分为高相关性特征、低相关性特征，然后使用主成分分析算法对高相关性特征的样本进行降维处理，使得样本更加有效的同时，大大降低了分类算法的计算开销，最后利用基于距离的k近邻算法进行分类，提升网络流量数据的分类准确率。本发明解决了目前分类算法训练时间过长、计算量大的缺陷，能够有效提高网络流量数据分类的质量，降低分类所需要的时间，解决网络流量数据分类的问题。

Description

网络流量数据分类方法、设备及计算机存储介质

技术领域

本发明涉及数据挖掘领域，特别是涉及一种网络流量数据分类方法、设备及计算机存储介质。

背景技术

网络流量就是网络上传输的数据量。很多网络应用具有自身的特性，对于网络环境的需求也不尽相同，因此只有对网络流量进行及时准确的识别和分类，才能准确地为不同应用提供合适的网络环境，有效利用网络资源，为用户提供更好的服务质量。

通过收集和分析计算机网络中若干关键点的流量信息，来检查网络或系统中是否存在违反安全策略的行为和被攻击的迹象是数据挖掘领域内一个重要的研究课题。目前对网络流量数据分类的研究主要集中在算法层面和数据层面。基于算法层面，大都是针对网络流量数据的特点使用传统的机器学习算法或者改进现有的机器学习算法，比如主成分分析结合支持向量机方法，随机森林等方法。虽然能够提高样本的分类准确率，但仍然有局限性，这些算法的训练时间过长，计算量大，无法进行实时监测。有的算法只能针对特定数据集，无法应用到其他的数据集上，不具有普适性。基于数据层面，大都是使用统计学习方法，分类时间长，容易受到噪声数据影响。

发明内容

发明目的：本发明要解决的技术问题是提供一种网络流量数据分类方法、设备及计算机存储介质，解决目前算法训练时间过长、计算量大的缺陷，能够有效提高网络流量数据分类的质量，降低分类所需要的时间，解决网络流量数据分类的问题。

技术方案：本发明所述的网络流量数据分类方法，包括以下步骤：

(1)获取系统的真实数据集和网络流量数据训练集；

(2)将数据集中的离散型数据转换为数值型数据；

(3)将数据集的数值型数据进行归一化；

(4)从数据集中计算特征-类别和特征-特征相关矩阵，用最佳优先搜索方法得到特征子集空间；

(5)通过计算特征子集空间中特征向量与对应的特征值，使用特征值大的特征向量对特征子集空间进行降维；

(6)计算步骤(5)所得特征子集空间中网络流量数据训练集的特征向量和真实数据集的特征向量间的欧氏距离，选取网络流量数据训练集中欧式距离最小的几个数据，确定其所在类别的出现频率，将出现频率最高的类别作为所述真实数据的预测分类。

进一步的，步骤(4)中所述的最佳优先搜索方法具体为：

(1)使用启发式方程计算第i个特征向量的估计值Merit，

其中，l为特征子集包含特征向量的个数，z是第i个特征向量所对应的类别，

是特征与类别之间的相关系数的平均值；

是特征与特征之间的相关系数的平均值；

(2)建立Merit最大的l个特征向量组成的特征子集空间。

进一步的，步骤(5)中进行降维的方法具体为：计算特征子集空间矩阵X的协方差矩阵，将协方差矩阵的特征向量按照对应特征值从大到小排列，取最大的t个特征值对应的特征向量组成矩阵P，Y＝PX即为降维到t维后的特征子集空间。

进一步的，步骤(6)中所述欧式距离d的计算公式为：

其中，a_i为特征子集空间中网络流量数据集的特征向量的第i列的特征值，b_i为特征子集空间中训练数据集的特征向量的第i列的特征值，n表示特征向量的特征维度。

本发明所述的设备，包括计算机存储器和处理器，所述的存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得处理器执行上述任一项所述的方法。

本发明所述的计算机存储介质，其上存储有计算机程序，所述的计算机程序在被计算机处理器执行时实现上述任一项所述的方法。

有益效果：1、本发明面向网络流量数据的分类方法，使用基于相关性特征选择技术和主成分分析降维技术，大幅降低了实际分类所需要的时间，提升了网络流量数据分类模型的性能，有效解决了网络流量数据过大导致的训练时间较长，无法进行实时检测等问题；

2、本发明面向网络流量数据的分类方法，利用改进的k近邻算法对邻居距离的远近进行加权处理，解决了数据分类平票情况，使得分类的样本更加有效。

附图说明

图1是本发明的实施例整体流程图；

图2是本发明与现有方法检测时间的比较示意图。

具体实施方式

本发明方法是一种网络流量数据分类方法，首先，获取系统的真实数据集和网络流量数据训练集，这两种数据集中很多特征由字母组成，应将将这些由字母型数据转换为数值型数据，对将样本中的连续型数据进行最大最小值归一化，每一列特征减去该列的最小值，然后除以该列特征的最大值与最小值的差。然后对网络流量数据进行特征选取，使用启发式方程计算特征的估计值，找出最佳的特征组合。接着对选取的特征数据按行排列组成矩阵X，得到X的协方差矩阵C，然后计算协方差矩阵C的特征值及对应的特征向量，将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P，Y＝PX即为降维到k维后的数据。最后计算测试数据点与各个训练数据点之间的欧式距离d，按照距离的递增关系进行排序。通过k近邻算法，选取距离最小的k个点，确定前k个点所在类别的出现频率，返回前k个点中出现频率最高的类别作为测试数据的预测分类。

本发明方法的网络流量数据训练集以NSL-KDD数据集为例，首先对数据集进行数据预处理，将离散型数据转换为数值型数据，对数值型数据进行最大最小值归一化处理，然后对数据进行特征选取与特征降维，最后使用基于距离的k近邻算法进行分类，具体算法流程如图1所示。该方法应用到实际入侵检测系统中，使用抓包工具TCPDump采集网络流量数据作为系统的真实数据集，然后将其转换成NSL-KDD数据集的形式，使用该方法进行网络入侵检测，检测出的结果作为输出，最后清除异常流量数据来保护系统的安全。包括如下步骤：

步骤1：获取待检测的系统的真实数据集和网络流量数据训练集，数据中很多特征由字母组成，应将对应字母型数据映射为数值型数据。例如，针对protocol_type特征，它由3种类型数据组成，分别为TCP，UDP和ICMP，由于并不能对这类数据进行距离计算，所以我们使用0、1、2将它们一一替换，对于类别的种类，normal映射为0，其他映射为1。X为NSL-KDD数据集中的一个样本X＝{0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05,0.00,normal}。X经过步骤1处理变为X1＝{0,0,17,9,491,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,2,0.00,0.00,0.00,0.00,1.00,0.00,0.00,150,25,0.17,0.03,0.17,0.00,0.00,0.00,0.05,0.00,0}。

步骤2：将样本中的数值型数据进行最大最小值归一化，即每一列特征减去该列的最小值，然后除以该列特征的最大值与最小值的差。经过处理后X1变为X2＝{0.0,0,17,9,1.2863199039876152e-06,0.0,0,0.0,0.0,0.0,0.0,0,0.0,0,0,0.0,0.0,0.0,0.0,0,0,0,0.00196078431372549,0.00196078431372549,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.5882352941176471,0.09803921568627451,0.17,0.03,0.17,0.0,0.0,0.0,0.05,0.0,0}。

步骤3：从样本M中计算特征-类和特征-特征相关矩阵，然后用最佳优先搜索来找到l个特征子集。以空集N为例，开始时没有特征选择，并产生了所有可能的单个特征；使用启发式方程计算特征的估计值Merit，并选择Merit值最大的一个特征进入N，然后选择第二个拥有最大的Merit值的特征进入N，如果这两个特征的Merit值小于原来的Merit值，则去除这个第二个最大的Merit值的特征，然后在进行下一个，依次递进，找出使Merit最大的l个特征组合N。经过相关性特征选取后处理后，41维特征的X2变为31维的X3＝{0.0,0,17,9,1.2863199039876152e-06,0.0,0,0.0,0.0,0.0,0.0,0,0.0,0,0,0.0,0.0,0.0,0.0,0,0,0,0.00196078431372549,0.00196078431372549,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0}。

步骤4：对相关性高的特征数据按行排列组成矩阵X，得到X的协方差矩阵C，然后计算协方差矩阵C的特征值及对应的特征向量，将特征向量按对应特征值大小从上到下按行排列成矩阵，取前t行组成矩阵P，Y＝PX即为降维到t维后的数据。经过步骤4，X3的维度从31维变为23维。

步骤5：计算测试数据点P与各个训练数据点Q之间的欧式距离d，按照距离的递增关系进行排序。通过k近邻算法，选取距离最小的k个点，确定前k个点所在类别的出现频率，返回前k个点中出现频率最高的类别作为测试数据的预测分类。使用23维的样本来训练提出的模型，然后使用测试样本X4＝{0,tcp,private,S0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,123,6,1.00,1.00,0.00,0.00,0.05,0.07,0.00,255,26,0.10,0.05,0.00,0.00,1.00,1.00,0.00,0.00,neptune}，经过数据预处理后进行测试，模型可以正确将其分类为1。使用测试样本X5＝{0,udp,other,SF,146,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,13,1,0.00,0.00,0.00,0.00,0.08,0.15,0.00,255,1,0.00,0.60,0.88,0.00,0.00,0.00,0.00,0.00,normal}，经过数据预处理后进行测试，模型可以正确将其分类为0。本实施例提出的方法与现有的k近邻算法在时间上的比较如图2所示，实验数据表明，本实施例的方法对比现有技术在各项数据上都由较为明显的提升。

综上，本发明为解决了网络流量数据的分类问题，提出了一种网络流量数据分类方法，利用相关性特征选择算法将样本特征分为高相关性特征、低相关性特征；然后使用主成分分析算法对高相关性特征的样本进行降维处理，使得样本更加有效且大大降低分类的计算开销；最后利用基于距离的k近邻算法进行分类，提升网络流量数据的分类准确率。

本发明的实施例还提供了一种设备，设备包括存储器和至少一个处理器、存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序、至少一条通讯总线。所述至少一个处理器执行所述计算机程序时实现上述网络流量数据分类方法实施例中的步骤。

本发明的实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述网络流量数据分类方法。例如，该计算机存储介质为计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种网络流量数据分类方法，其特征在于，包括以下步骤：

(1)获取系统的真实数据集和网络流量数据训练集；

(2)将数据集中的离散型数据转换为数值型数据；

(3)将数据集的数值型数据进行归一化；

(4)从数据集中计算特征-类别和特征-特征相关矩阵，用最佳优先搜索方法得到特征子集空间，最佳优先搜索方法具体为：

(41)使用启发式方程计算第i个特征向量的估计值Merit，

是特征与类别之间的相关系数的平均值；

是特征与特征之间的相关系数的平均值；

(42)建立Merit最大的l个特征向量组成的特征子集空间；

2.根据权利要求1所述的网络流量数据分类方法，其特征在于，步骤(5)中进行降维的方法具体为：计算特征子集空间矩阵X的协方差矩阵，将协方差矩阵的特征向量按照对应特征值从大到小排列，取最大的t个特征值对应的特征向量组成矩阵P，Y＝PX即为降维到t维后的特征子集空间。

3.根据权利要求1所述的网络流量数据分类方法，其特征在于，步骤(6)中所述欧式距离d的计算公式为：

4.一种电子设备，包括计算机存储器和处理器，所述的存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得处理器执行如权利要求1至3任一项所述的网络流量数据分类方法。

5.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述的计算机程序在被计算机处理器执行时实现如权利要求1至3任一项所述的网络流量数据分类方法。