CN106250442A

CN106250442A - 一种网络安全数据的特征选择方法及系统

Info

Publication number: CN106250442A
Application number: CN201610597973.7A
Authority: CN
Inventors: 努尔布力; 王浩; 黄春虎
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2016-07-26
Filing date: 2016-07-26
Publication date: 2016-12-21

Abstract

本发明提出了一种网络安全数据的特征选择方法及系统，对KDDCUP99数据集进行数据规范化处理，对向量组进行Re‑Relieff数据降维，并剔除无关或相关性较小的数据，构成一个候选特征集，再利用改进的Re‑ReliefF算法获得一个与候选特征集具有最小相关性的特征，本发明提供的网络安全数据的特征选择方法及系统，对于数据里存在的冗余特征，借用了MRMR的思想，剔除了数据里的冗余数据，提高了分类器的效率。

Description

一种网络安全数据的特征选择方法及系统

技术领域

本发明涉及网络数据安全处理技术领域，特别涉及一种网络安全数据的特征选择方法及系统。

背景技术

对具有高维度小样本特性的数据进行特征选择是数据挖掘领域研究热点之一。该类型数据普遍存在数据量巨大、特征维度高、样本数量少的特点。常用的数据分析方法具有样本趋向性，进行高维小样本数据分析的效率低而准确性不高。

ReliefF算法具有评估效率高，对数据类型没有限制，可以较好地去除无关特征的优点，但ReliefF算法的缺点是设计没有考虑特征之间的相关性，不能去除冗余特征，算法会赋予所有和类别相关性高的特征较高的权值，而不管该特征是否和其余特征冗余。

mRmR(最大相关最小冗余)算法是基于信息理论的典型特征降维算法。主要思想是从特征空间中寻找与目标类别有最大相关性且相互之间具有最少冗余性的m个特征。mRmR算法可以得出与目标类别有最大相关性且相互之间具有最少冗余性的特征子集，但是其无法得到各个特征的权重系数，提取出来的特征子集无法体现不同特征对分类作用的差异。

支持向量机是20世纪90年代初由V.Vipnik等人根据统计学理论(StatisticalLearning Theory,简称:SLT)提出的一种新的机器学习方法，在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势，已经在模式识别、函数逼近和概率密度估计等方面取得了良好的效果；支持向量机从本质上讲是一种前向神经网路，根据结构风险最小化准则，在使训练样本分类误差极小化的前提下，尽量提高分类器的泛化推广能力。

专利CN201210055566.5提供了一种面向SNP数据的特征选择方法，其具体步骤如下：首先进行数据预处理；然后用重新设计的Relief算法剔除无关SNP特征；然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序；最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势，并在机器学习过程中使用二次划分方法，解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题，提高了分析效率和准确率，尽管Relief可以计算出每一个特征的权重，再使用SVM-RFE算法对权重进行比较，可以去除不相关的属性，但对冗余特征没有进行处理。

发明内容

有鉴于此，有必要提供一种能够剔除数据里的冗余数据的网络安全数据的特征选择方法。

为实现上述目的，本申请采用下述技术方案：

一种网络安全数据的特征选择方法，包括下述步骤：

步骤S110：构建KDDCUP99数据集，并对所述数据集进行处理，得到高维向量组；

步骤S120：基于Re-ReliefF算法剔除所述高维向量组中无关特征，构成候选特征集；

步骤S130：基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。

在一些实施例中，步骤S110中，构建KDDCUP99数据集，并对所述数据集进行处理，得到高维向量组，包括下述步骤：

将所述KDDCUP99数据集分为连续型数据及非数值型数据；

对所述连续型数据对连续型变量进行预处理，将其数据取值从[min，max]映射到[0，1]区间；

对于所述非数值型数据离散化处理，利用编码映射成数值；

用连续型变量的方法将所述数值从[min，max]映射到[0，1]区间。

在一些实施例中，步骤S120中，基于Re-ReliefF算法剔除所述高维向量组中无关特征，构成候选特征集，包括下述步骤：

将所述高维向量组的原始特征个数记为N，Re-ReliefF阶段设定迭代次数m，最近邻样本个数k，初始化权重W[A]＝0；

循环遍历所述高维向量组中的样本集，通过以下的权重公式计算并更新W[A]，权重公式如下：

w [A] = \frac{Σ_{i = 1}^{m} \underset{C &NotEqual; c l a s s (R_{i})}{Σ} \frac{P (C)}{1 - P (c l a s s (R_{i}))} Σ_{j = 1}^{k} d i f f (A, R_{i}, M_{j} (C))}{Σ_{i = 1}^{m} Σ_{j = 1}^{k} d i f f (A, R_{i}, H_{j})}

其中，m代表样本抽样次数，Mj(C)代表不同类别C中的第j个最近邻样本，P(C)代表C类目标样本数占样本总数的比例，class(Ri)表示Ri所属的类别，函数diff(A，R_i，R_j)是用来计算样本实例R_i和R_j关于某个特征A之间的距离大小；

将所有的特征按照W[A]从大到小排序，按照特征权值最低大于0.001，选出候选特征集。

在一些实施例中，步骤S130中，基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征，包括下述步骤：

通过Re-ReliefF计算出所述选特征集中每个特征的权重，选择其中最大的特征，构成候选特征子集；

进行遍历，计算所述候选特征子集与类之间的皮尔逊相关系数c(f_j,s_i)；

根据以下的选择准则，选择出特征子集，其中，c(f_j,f_i)是特征间的皮尔逊相关系数，代表两个特征间相关性大小的度量，其绝对值在[0,1]区间内，

\underset{f_{j} &Element; F - S_{m - 1}}{M A X} [F_{j} \div \frac{1}{m - 1} \underset{f_{i} &Element; S_{m - 1}}{Σ} | c (f_{i}, f_{j}) |];

使用SVM确定与所述候选特征集具有最小相关性的特征，形成特征子集。

另外，本发明还提供了一种网络安全数据的特征选择系统，包括：

数据采集模块，用于构建KDDCUP99数据集，并对所述数据集进行处理，得到高维向量组；

第一数据处理模块，用于基于Re-ReliefF算法剔除所述高维向量组中无关特征，构成候选特征集；

第二数据处理模块，基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。

在一些实施例中，数据采集模块包括：

数据分类单元，将所述KDDCUP99数据集分为连续型数据及非数值型数据；

数据处理单元，对所述连续型数据对连续型变量进行预处理，将其数据取值从[min，max]映射到[0，1]区间；

数据离散单元，对于所述非数值型数据离散化处理，利用编码映射成数值；及

数据映射单元，用连续型变量的方法将所述数值从[min，max]映射到[0，1]区间。

在一些实施例中，所述第一数据处理模块包括：

初始化单元，用于将所述高维向量组的原始特征个数记为N，Re-ReliefF阶段设定迭代次数m，最近邻样本个数k，初始化权重W[A]＝0；

第一计算单元，循环遍历所述高维向量组中的样本集，通过以下的权重公式计算并更新W[A]，权重公式如下：

w [A] = \frac{Σ_{i = 1}^{m} \underset{C &NotEqual; c l a s s (R_{i})}{Σ} \frac{P (C)}{1 - P (c l a s s (R_{i}))} Σ_{j = 1}^{k} d i f f (A, R_{i}, M_{j} (C))}{Σ_{i = 1}^{m} Σ_{j = 1}^{k} d i f f (A, R_{i}, H_{j})}

排序单元，用于将所有的特征按照W[A]从大到小排序，按照特征权值最低大于0.001_，选出候选特征集。

在一些实施例中，所述第二数据处理模块包括：

特征子集候选单元，通过改进的Re-ReliefF计算出所述选特征集中每个特征的权重，选择其中最大的特征，构成候选特征子集；

第二计算单元，用于进行遍历，计算所述候选特征子集与类之间的皮尔逊相关系数c(f_j,s_i)；

特征选择单元，根据以下的选择准则，选择出特征子集，其中，c(f_j,f_i)是特征间的皮尔逊相关系数，代表两个特征间相关性大小的度量，其绝对值在[0,1]区间内，

\underset{f_{j} &Element; F - S_{m - 1}}{M A X} [F_{j} \div \frac{1}{m - 1} \underset{f_{i} &Element; S_{m - 1}}{Σ} | c (f_{i}, f_{j}) |];

SVM单元，使用SVM确定与所述候选特征集具有最小相关性的特征，形成特征子集。

本发明采用上述技术方案，其有益效果在于：

本发明提出了一种网络安全数据的特征选择方法及系统，对KDDCUP99数据集进行数据规范化处理，对向量组进行Re-Relieff数据降维，并剔除无关或相关性较小的数据，构成一个候选特征集，再利用改进的Re-ReliefF算法获得一个与候选特征集具有最小相关性的特征，本发明提供的网络安全数据的特征选择方法及系统，对于数据里存在的冗余特征，借用了MRMR的思想，剔除了数据里的冗余数据，提高了分类器的效率。

另外，本发明对KDDCUP99数据集进行数据规范化处理，加快了算法的学习速度；同时，采用改进的ReliefF特征选择算法相对于原始ReliefF算法对于特征的区分度更高，对于分类性能差别不大的特征也具有很好的识别效果，降低了数据集的维度，提高了算法的速度；此外，采用改进的Re-ReliefF算法结合SVM能更有效区分有效的特征，减少有效特征的数量且能够进一步降低数据维度后，实现分类准确率相对高点的情况下降低预测时间和表现较好的鲁棒性。

附图说明

图1为本发明提供的网络安全数据的特征选择方法的步骤流程图。

图2为本发明提供的构建KDDCUP99数据集，并对所述数据集进行处理，得到高维向量组的步骤流程图。

图3为本发明提供的网络安全数据的特征选择系统的结构示意图。

图4为本发明实施例提供的数据采集模块的结构示意图。

图5为本发明实施例提供的第一数据处理模块的结构示意图。

图6为本发明实施例提供的第二数据处理模块的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本申请提供的网络安全数据的特征选择方法，包括下述步骤：

可以理解，在特征选择中，数据集的选择是研究和评价算法的第一步，数据集的准确与否好将直接决定各种算法的评价结果。本申请提供的KDDCUP99数据集由哥伦比亚大学IDS实验室整理形成的安全审计数据集KDDCUP99。该数据集分为训练集与检测集，该数据集中包含了大量的网络连接记录，每条连接记录含有41维特征，共有39种类型的攻击记录，其中，训练数据集中每个网络连接记录都被标记为正常或某种攻击，其中有22种攻击类型的记录。另有17种未知攻击类型出现在检测集中。

请参阅图2，构建KDDCUP99数据集，并对所述数据集进行处理，得到高维向量组，包括下述步骤：

步骤S111：将所述KDDCUP99数据集分为连续型数据及非数值型数据；

可以理解，由于KDDCUP99源数据集中既包含连续型数据又包含非数值型数据，所以对二者分别进行归一化处理。

步骤S112：对所述连续型数据对连续型变量进行预处理，将其数据取值从[min，max]映射到[0，1]区间；

可以理解，由于连续型数据，不同的度量单位会对聚类分析结果产生影响，为了使数据之间的量纲具有可比性，对连续型数据进行预处理，将其数据取值从[min，max]映射到[0，1]区间。

步骤S113：对于所述非数值型数据离散化处理，利用编码映射成数值；

步骤S114：用连续型变量的方法将所述数值从[min，max]映射到[0，1]区间。

可以理解，由于对于非数值型数据项，不能直接处理，因此先将其离散化，利用编码映射成数值，然后用类似连续型变量的方法将其数据取值从[min，max]映射到[0，1]区间。

可以理解，通过上述方法，KDDCUP99数据集经过预处理变成高维向量组。

具体地，基于Re-ReliefF算法剔除所述高维向量组中无关SNP特征，构成候选特征集，包括下述步骤：

步骤S121：将所述高维向量组的原始特征个数记为N，Re-ReliefF阶段设定迭代次数m，最近邻样本个数k，初始化权重W[A]＝0；

步骤S122：循环遍历所述高维向量组中的样本集，通过以下的权重公式计算并更新W[A]，权重公式如下：

w [A] = \frac{Σ_{i = 1}^{m} \underset{C &NotEqual; c l a s s (R_{i})}{Σ} \frac{P (C)}{1 - P (c l a s s (R_{i}))} Σ_{j = 1}^{k} d i f f (A, R_{i}, M_{j} (C))}{Σ_{i = 1}^{m} Σ_{j = 1}^{k} d i f f (A, R_{i}, H_{j})}

步骤S123：将所有的特征按照W[A]从大到小排序，按照特征权值最低大于0.001，选出候选特征集。

可以理解，本申请采用改进后的ReliefF特征选择算法相对于原始ReliefF算法对于特征的区分度更高，对于分类性能差别不大的特征也具有很好的识别效果。降低了数据集的维度，提高的了算法的速度。

步骤S130：基于Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。

具体地，基于Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征，包括下述步骤：

步骤S131：通过Re-ReliefF计算出所述选特征集中每个特征的权重，选择其中最大的特征，构成候选特征子集；

步骤S132：进行遍历，计算所述候选特征子集与类之间的皮尔逊相关系数c(f_j,s_i)；

步骤S133：根据以下的选择准则，选择出特征子集，其中，c(f_j,f_i)是特征间的皮尔逊相关系数，代表两个特征间相关性大小的度量，其绝对值在[0,1]区间内，

\underset{f_{j} &Element; F - S_{m - 1}}{M A X} [F_{j} \div \frac{1}{m - 1} \underset{f_{i} &Element; S_{m - 1}}{Σ} | c (f_{i}, f_{j}) |];

步骤S134：使用SVM确定与所述候选特征集具有最小相关性的特征，形成特征子集。

可以理解，SVM根据它在该实验中所需参数范围进行循环测试，然后比较得到支持向量机这两个参数的最佳值。模拟的参数C和λ的支持向量机从50000到0.01不等。支持向量机应用于该最佳参数(C和λ),得到特征子集最大化分类的评估指标。

可以理解，本申请采用改进的Re-ReliefF算法结合SVM能更有效区分有效的特征，减少有效特征的数量。改进的Re-ReliefF算法相对于Re-ReliefF算法在进一步降低数据维度后，实现分类准确率相对高点的情况下降低预测时间和表现较好的鲁棒性。

请参阅图3，本申请还提供了一种网络安全数据的特征选择系统200，包括：数据采集模块210、第一数据处理模块220及第二数据处理模块230。

其中：

数据采集模块210用于构建KDDCUP99数据集，并对所述数据集进行处理，得到高维向量组；

请参阅图4，数据采集模块210包括：数据分类单元211、数据处理单元212、数据离散单元213及数据映射单元214。其中，

数据分类单元211，将所述KDDCUP99数据集分为连续型数据及非数值型数据；数据处理单元212，对所述连续型数据对连续型变量进行预处理，将其数据取值从[min，max]映射到[0，1]区间；数据离散单元213，对于所述非数值型数据离散化处理，利用编码映射成数值；及数据映射单元214，用连续型变量的方法将所述数值从[min，max]映射到[0，1]区间。

可以理解，通过数据采集模块210KDDCUP99数据集经过预处理变成高维向量组。

请参阅图5，第一数据处理模块220用于基于Re-ReliefF算法剔除所述高维向量组中无关特征，构成候选特征集，包括：

初始化单元221，用于将所述高维向量组的原始特征个数记为N，Re-ReliefF阶段设定迭代次数m，最近邻样本个数k，初始化权重W[A]＝0；

第一计算单元222，循环遍历所述高维向量组中的样本集，通过以下的权重公式计算并更新W[A]，权重公式如下：

w [A] = \frac{Σ_{i = 1}^{m} \underset{C &NotEqual; c l a s s (R_{i})}{Σ} \frac{P (C)}{1 - P (c l a s s (R_{i}))} Σ_{j = 1}^{k} d i f f (A, R_{i}, M_{j} (C))}{Σ_{i = 1}^{m} Σ_{j = 1}^{k} d i f f (A, R_{i}, H_{j})}

排序单元223，用于将所有的特征按照W[A]从大到小排序，按照特征权值最低大于0.001，选出候选特征集。

可以理解，本申请提供的第一数据处理模块220采用改进后的ReliefF特征选择算法相对于原始ReliefF算法对于特征的区分度更高，对于分类性能差别不大的特征也具有很好的识别效果。降低了数据集的维度，提高的了算法的速度。

请参阅图6，第二数据处理模块230，基于Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征，包括：

特征子集候选单元231，通过Re-ReliefF计算出所述选特征集中每个特征的权重，选择其中最大的特征，构成候选特征子集；

第二计算单元232，用于进行遍历，计算所述候选特征子集与类之间的皮尔逊相关系数c(f_j,s_i)；

特征选择单元233，根据以下的选择准则，选择出特征子集，其中，c(f_j,f_i)是特征间的皮尔逊相关系数，代表两个特征间相关性大小的度量，其绝对值在[0,1]区间内，

\underset{f_{j} &Element; F - S_{m - 1}}{M A X} [F_{j} \div \frac{1}{m - 1} \underset{f_{i} &Element; S_{m - 1}}{Σ} | c (f_{i}, f_{j}) |];

SVM单元234，使用SVM确定与所述候选特征集具有最小相关性的特征，形成特征子集。

可以理解，本申请采用的第二数据处理模块230，基于改进的Re-ReliefF算法结合SVM能更有效区分有效的特征，减少有效特征的数量。改进的Re-ReliefF算法相对于Re-ReliefF算法在进一步降低数据维度后，实现分类准确率相对高点的情况下降低预测时间和表现较好的鲁棒性。

虽然本发明参照当前的较佳实施方式进行了描述，但本领域的技术人员应能理解，上述较佳实施方式仅用来说明本发明，并非用来限定本发明的保护范围，任何在本发明的精神和原则范围之内，所做的任何修饰、等效替换、改进等，均应包含在本发明的权利保护范围之内。

Claims

1.一种网络安全数据的特征选择方法，其特征在于，包括下述步骤：

2.如权利要求1所述的网络安全数据的特征选择方法，其特征在于，步骤S110中，构建KDDCUP99数据集，并对所述数据集进行处理，得到高维向量组，包括下述步骤：

将所述KDDCUP99数据集分为连续型数据及非数值型数据；

对于所述非数值型数据离散化处理，利用编码映射成数值；

3.如权利要求2所述的网络安全数据的特征选择方法，其特征在于，步骤S120中，基于Re-ReliefF算法剔除所述高维向量组中无关特征，构成候选特征集，包括下述步骤：

w [A] = \frac{Σ_{i = 1}^{m} \underset{C &NotEqual; c l a s s (R_{i})}{Σ} \frac{P (C)}{1 - P (c l a s s (R_{i}))} Σ_{j = 1}^{k} d i f f (A, R_{i}, M_{j} (C))}{Σ_{i = 1}^{m} Σ_{j = 1}^{k} d i f f (A, R_{i}, H_{j})}

4.如权利要求1所述的网络安全数据的特征选择方法，其特征在于，步骤S130中，基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征，包括下述步骤：

通过改进的Re-ReliefF计算出所述选特征集中每个特征的权重，选择其中最大的特征，构成候选特征子集；

根据以下的选择准则，选择出特征子集，其中，m-1个特征，要从F-S_m-1的特征集中选出第m个特征，c(f_j,f_i)是特征间的皮尔逊相关系数，代表两个特征间相关性大小的度量，其绝对值在[0,1]区间内，

\underset{f_{j} &Element; F - S_{m - 1}}{M A X} [F_{j} \div \frac{1}{m - 1} \underset{f_{i} &Element; S_{m - 1}}{Σ} | c (f_{i}, f_{j}) |];

5.一种网络安全数据的特征选择系统，其特征在于，包括：

6.如权利要求5所述的网络安全数据的特征选择系统，其特征在于，数据采集模块包括：

7.如权利要求5所述的网络安全数据的特征选择系统，其特征在于，所述第一数据处理模块包括：

w [A] = \frac{Σ_{i = 1}^{m} \underset{C &NotEqual; c l a s s (R_{i})}{Σ} \frac{P (C)}{1 - P (c l a s s (R_{i}))} Σ_{j = 1}^{k} d i f f (A, R_{i}, M_{j} (C))}{Σ_{i = 1}^{m} Σ_{j = 1}^{k} d i f f (A, R_{i}, H_{j})}

排序单元，用于将所有的特征按照W[A]从大到小排序，按照特征权值最低大于0.001，选出候选特征集。

8.如权利要求5所述的网络安全数据的特征选择系统，其特征在于，所述第二数据处理模块包括：

特征子集候选单元，通过Re-ReliefF计算出所述选特征集中每个特征的权重，选择其中最大的特征，构成候选特征子集；

\underset{f_{j} &Element; F - S_{m - 1}}{M A X} [F_{j} \div \frac{1}{m - 1} \underset{f_{i} &Element; S_{m - 1}}{Σ} | c (f_{i}, f_{j}) |];