CN106250442A - 一种网络安全数据的特征选择方法及系统 - Google Patents

一种网络安全数据的特征选择方法及系统 Download PDF

Info

Publication number
CN106250442A
CN106250442A CN201610597973.7A CN201610597973A CN106250442A CN 106250442 A CN106250442 A CN 106250442A CN 201610597973 A CN201610597973 A CN 201610597973A CN 106250442 A CN106250442 A CN 106250442A
Authority
CN
China
Prior art keywords
feature
data
sigma
relieff
network security
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610597973.7A
Other languages
English (en)
Inventor
努尔布力
王浩
黄春虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN201610597973.7A priority Critical patent/CN106250442A/zh
Publication of CN106250442A publication Critical patent/CN106250442A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种网络安全数据的特征选择方法及系统,对KDDCUP99数据集进行数据规范化处理,对向量组进行Re‑Relieff数据降维,并剔除无关或相关性较小的数据,构成一个候选特征集,再利用改进的Re‑ReliefF算法获得一个与候选特征集具有最小相关性的特征,本发明提供的网络安全数据的特征选择方法及系统,对于数据里存在的冗余特征,借用了MRMR的思想,剔除了数据里的冗余数据,提高了分类器的效率。

Description

一种网络安全数据的特征选择方法及系统
技术领域
本发明涉及网络数据安全处理技术领域,特别涉及一种网络安全数据的特征选择方法及系统。
背景技术
对具有高维度小样本特性的数据进行特征选择是数据挖掘领域研究热点之一。该类型数据普遍存在数据量巨大、特征维度高、样本数量少的特点。常用的数据分析方法具有样本趋向性,进行高维小样本数据分析的效率低而准确性不高。
ReliefF算法具有评估效率高,对数据类型没有限制,可以较好地去除无关特征的优点,但ReliefF算法的缺点是设计没有考虑特征之间的相关性,不能去除冗余特征,算法会赋予所有和类别相关性高的特征较高的权值,而不管该特征是否和其余特征冗余。
mRmR(最大相关最小冗余)算法是基于信息理论的典型特征降维算法。主要思想是从特征空间中寻找与目标类别有最大相关性且相互之间具有最少冗余性的m个特征。mRmR算法可以得出与目标类别有最大相关性且相互之间具有最少冗余性的特征子集,但是其无法得到各个特征的权重系数,提取出来的特征子集无法体现不同特征对分类作用的差异。
支持向量机是20世纪90年代初由V.Vipnik等人根据统计学理论(StatisticalLearning Theory,简称:SLT)提出的一种新的机器学习方法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,已经在模式识别、函数逼近和概率密度估计等方面取得了良好的效果;支持向量机从本质上讲是一种前向神经网路,根据结构风险最小化准则,在使训练样本分类误差极小化的前提下,尽量提高分类器的泛化推广能力。
专利CN201210055566.5提供了一种面向SNP数据的特征选择方法,其具体步骤如下:首先进行数据预处理;然后用重新设计的Relief算法剔除无关SNP特征;然后用改进的SVM-RFE算法对SNP特征进行关键性程度排序;最后使用十字交叉验证来筛选关键SNPs。该发明结合了Filter式特征选择和Wrapper式特征选择的优势,并在机器学习过程中使用二次划分方法,解决了SNP数据特征选择中的高维小样本及SNP致病组合模式的问题,提高了分析效率和准确率,尽管Relief可以计算出每一个特征的权重,再使用SVM-RFE算法对权重进行比较,可以去除不相关的属性,但对冗余特征没有进行处理。
发明内容
有鉴于此,有必要提供一种能够剔除数据里的冗余数据的网络安全数据的特征选择方法。
为实现上述目的,本申请采用下述技术方案:
一种网络安全数据的特征选择方法,包括下述步骤:
步骤S110:构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组;
步骤S120:基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集;
步骤S130:基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。
在一些实施例中,步骤S110中,构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组,包括下述步骤:
将所述KDDCUP99数据集分为连续型数据及非数值型数据;
对所述连续型数据对连续型变量进行预处理,将其数据取值从[min,max]映射到[0,1]区间;
对于所述非数值型数据离散化处理,利用编码映射成数值;
用连续型变量的方法将所述数值从[min,max]映射到[0,1]区间。
在一些实施例中,步骤S120中,基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集,包括下述步骤:
将所述高维向量组的原始特征个数记为N,Re-ReliefF阶段设定迭代次数m,最近邻样本个数k,初始化权重W[A]=0;
循环遍历所述高维向量组中的样本集,通过以下的权重公式计算并更新W[A],权重公式如下:
w [ A ] = Σ i = 1 m Σ C ≠ c l a s s ( R i ) P ( C ) 1 - P ( c l a s s ( R i ) ) Σ j = 1 k d i f f ( A , R i , M j ( C ) ) Σ i = 1 m Σ j = 1 k d i f f ( A , R i , H j )
其中,m代表样本抽样次数,Mj(C)代表不同类别C中的第j个最近邻样本,P(C)代表C类目标样本数占样本总数的比例,class(Ri)表示Ri所属的类别,函数diff(A,Ri,Rj)是用来计算样本实例Ri和Rj关于某个特征A之间的距离大小;
将所有的特征按照W[A]从大到小排序,按照特征权值最低大于0.001,选出候选特征集。
在一些实施例中,步骤S130中,基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征,包括下述步骤:
通过Re-ReliefF计算出所述选特征集中每个特征的权重,选择其中最大的特征,构成候选特征子集;
进行遍历,计算所述候选特征子集与类之间的皮尔逊相关系数c(fj,si);
根据以下的选择准则,选择出特征子集,其中,c(fj,fi)是特征间的皮尔逊相关系数,代表两个特征间相关性大小的度量,其绝对值在[0,1]区间内,
M A X f j ∈ F - S m - 1 [ F j ÷ 1 m - 1 Σ f i ∈ S m - 1 | c ( f i , f j ) | ] ;
使用SVM确定与所述候选特征集具有最小相关性的特征,形成特征子集。
另外,本发明还提供了一种网络安全数据的特征选择系统,包括:
数据采集模块,用于构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组;
第一数据处理模块,用于基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集;
第二数据处理模块,基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。
在一些实施例中,数据采集模块包括:
数据分类单元,将所述KDDCUP99数据集分为连续型数据及非数值型数据;
数据处理单元,对所述连续型数据对连续型变量进行预处理,将其数据取值从[min,max]映射到[0,1]区间;
数据离散单元,对于所述非数值型数据离散化处理,利用编码映射成数值;及
数据映射单元,用连续型变量的方法将所述数值从[min,max]映射到[0,1]区间。
在一些实施例中,所述第一数据处理模块包括:
初始化单元,用于将所述高维向量组的原始特征个数记为N,Re-ReliefF阶段设定迭代次数m,最近邻样本个数k,初始化权重W[A]=0;
第一计算单元,循环遍历所述高维向量组中的样本集,通过以下的权重公式计算并更新W[A],权重公式如下:
w [ A ] = Σ i = 1 m Σ C ≠ c l a s s ( R i ) P ( C ) 1 - P ( c l a s s ( R i ) ) Σ j = 1 k d i f f ( A , R i , M j ( C ) ) Σ i = 1 m Σ j = 1 k d i f f ( A , R i , H j )
其中,m代表样本抽样次数,Mj(C)代表不同类别C中的第j个最近邻样本,P(C)代表C类目标样本数占样本总数的比例,class(Ri)表示Ri所属的类别,函数diff(A,Ri,Rj)是用来计算样本实例Ri和Rj关于某个特征A之间的距离大小;
排序单元,用于将所有的特征按照W[A]从大到小排序,按照特征权值最低大于0.001选出候选特征集。
在一些实施例中,所述第二数据处理模块包括:
特征子集候选单元,通过改进的Re-ReliefF计算出所述选特征集中每个特征的权重,选择其中最大的特征,构成候选特征子集;
第二计算单元,用于进行遍历,计算所述候选特征子集与类之间的皮尔逊相关系数c(fj,si);
特征选择单元,根据以下的选择准则,选择出特征子集,其中,c(fj,fi)是特征间的皮尔逊相关系数,代表两个特征间相关性大小的度量,其绝对值在[0,1]区间内,
M A X f j ∈ F - S m - 1 [ F j ÷ 1 m - 1 Σ f i ∈ S m - 1 | c ( f i , f j ) | ] ;
SVM单元,使用SVM确定与所述候选特征集具有最小相关性的特征,形成特征子集。
本发明采用上述技术方案,其有益效果在于:
本发明提出了一种网络安全数据的特征选择方法及系统,对KDDCUP99数据集进行数据规范化处理,对向量组进行Re-Relieff数据降维,并剔除无关或相关性较小的数据,构成一个候选特征集,再利用改进的Re-ReliefF算法获得一个与候选特征集具有最小相关性的特征,本发明提供的网络安全数据的特征选择方法及系统,对于数据里存在的冗余特征,借用了MRMR的思想,剔除了数据里的冗余数据,提高了分类器的效率。
另外,本发明对KDDCUP99数据集进行数据规范化处理,加快了算法的学习速度;同时,采用改进的ReliefF特征选择算法相对于原始ReliefF算法对于特征的区分度更高,对于分类性能差别不大的特征也具有很好的识别效果,降低了数据集的维度,提高了算法的速度;此外,采用改进的Re-ReliefF算法结合SVM能更有效区分有效的特征,减少有效特征的数量且能够进一步降低数据维度后,实现分类准确率相对高点的情况下降低预测时间和表现较好的鲁棒性。
附图说明
图1为本发明提供的网络安全数据的特征选择方法的步骤流程图。
图2为本发明提供的构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组的步骤流程图。
图3为本发明提供的网络安全数据的特征选择系统的结构示意图。
图4为本发明实施例提供的数据采集模块的结构示意图。
图5为本发明实施例提供的第一数据处理模块的结构示意图。
图6为本发明实施例提供的第二数据处理模块的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
请参阅图1,本申请提供的网络安全数据的特征选择方法,包括下述步骤:
步骤S110:构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组;
可以理解,在特征选择中,数据集的选择是研究和评价算法的第一步,数据集的准确与否好将直接决定各种算法的评价结果。本申请提供的KDDCUP99数据集由哥伦比亚大学IDS实验室整理形成的安全审计数据集KDDCUP99。该数据集分为训练集与检测集,该数据集中包含了大量的网络连接记录,每条连接记录含有41维特征,共有39种类型的攻击记录,其中,训练数据集中每个网络连接记录都被标记为正常或某种攻击,其中有22种攻击类型的记录。另有17种未知攻击类型出现在检测集中。
请参阅图2,构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组,包括下述步骤:
步骤S111:将所述KDDCUP99数据集分为连续型数据及非数值型数据;
可以理解,由于KDDCUP99源数据集中既包含连续型数据又包含非数值型数据,所以对二者分别进行归一化处理。
步骤S112:对所述连续型数据对连续型变量进行预处理,将其数据取值从[min,max]映射到[0,1]区间;
可以理解,由于连续型数据,不同的度量单位会对聚类分析结果产生影响,为了使数据之间的量纲具有可比性,对连续型数据进行预处理,将其数据取值从[min,max]映射到[0,1]区间。
步骤S113:对于所述非数值型数据离散化处理,利用编码映射成数值;
步骤S114:用连续型变量的方法将所述数值从[min,max]映射到[0,1]区间。
可以理解,由于对于非数值型数据项,不能直接处理,因此先将其离散化,利用编码映射成数值,然后用类似连续型变量的方法将其数据取值从[min,max]映射到[0,1]区间。
可以理解,通过上述方法,KDDCUP99数据集经过预处理变成高维向量组。
步骤S120:基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集;
具体地,基于Re-ReliefF算法剔除所述高维向量组中无关SNP特征,构成候选特征集,包括下述步骤:
步骤S121:将所述高维向量组的原始特征个数记为N,Re-ReliefF阶段设定迭代次数m,最近邻样本个数k,初始化权重W[A]=0;
步骤S122:循环遍历所述高维向量组中的样本集,通过以下的权重公式计算并更新W[A],权重公式如下:
w [ A ] = Σ i = 1 m Σ C ≠ c l a s s ( R i ) P ( C ) 1 - P ( c l a s s ( R i ) ) Σ j = 1 k d i f f ( A , R i , M j ( C ) ) Σ i = 1 m Σ j = 1 k d i f f ( A , R i , H j )
其中,m代表样本抽样次数,Mj(C)代表不同类别C中的第j个最近邻样本,P(C)代表C类目标样本数占样本总数的比例,class(Ri)表示Ri所属的类别,函数diff(A,Ri,Rj)是用来计算样本实例Ri和Rj关于某个特征A之间的距离大小;
步骤S123:将所有的特征按照W[A]从大到小排序,按照特征权值最低大于0.001,选出候选特征集。
可以理解,本申请采用改进后的ReliefF特征选择算法相对于原始ReliefF算法对于特征的区分度更高,对于分类性能差别不大的特征也具有很好的识别效果。降低了数据集的维度,提高的了算法的速度。
步骤S130:基于Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。
具体地,基于Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征,包括下述步骤:
步骤S131:通过Re-ReliefF计算出所述选特征集中每个特征的权重,选择其中最大的特征,构成候选特征子集;
步骤S132:进行遍历,计算所述候选特征子集与类之间的皮尔逊相关系数c(fj,si);
步骤S133:根据以下的选择准则,选择出特征子集,其中,c(fj,fi)是特征间的皮尔逊相关系数,代表两个特征间相关性大小的度量,其绝对值在[0,1]区间内,
M A X f j ∈ F - S m - 1 [ F j ÷ 1 m - 1 Σ f i ∈ S m - 1 | c ( f i , f j ) | ] ;
步骤S134:使用SVM确定与所述候选特征集具有最小相关性的特征,形成特征子集。
可以理解,SVM根据它在该实验中所需参数范围进行循环测试,然后比较得到支持向量机这两个参数的最佳值。模拟的参数C和λ的支持向量机从50000到0.01不等。支持向量机应用于该最佳参数(C和λ),得到特征子集最大化分类的评估指标。
可以理解,本申请采用改进的Re-ReliefF算法结合SVM能更有效区分有效的特征,减少有效特征的数量。改进的Re-ReliefF算法相对于Re-ReliefF算法在进一步降低数据维度后,实现分类准确率相对高点的情况下降低预测时间和表现较好的鲁棒性。
请参阅图3,本申请还提供了一种网络安全数据的特征选择系统200,包括:数据采集模块210、第一数据处理模块220及第二数据处理模块230。
其中:
数据采集模块210用于构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组;
请参阅图4,数据采集模块210包括:数据分类单元211、数据处理单元212、数据离散单元213及数据映射单元214。其中,
数据分类单元211,将所述KDDCUP99数据集分为连续型数据及非数值型数据;数据处理单元212,对所述连续型数据对连续型变量进行预处理,将其数据取值从[min,max]映射到[0,1]区间;数据离散单元213,对于所述非数值型数据离散化处理,利用编码映射成数值;及数据映射单元214,用连续型变量的方法将所述数值从[min,max]映射到[0,1]区间。
可以理解,通过数据采集模块210KDDCUP99数据集经过预处理变成高维向量组。
请参阅图5,第一数据处理模块220用于基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集,包括:
初始化单元221,用于将所述高维向量组的原始特征个数记为N,Re-ReliefF阶段设定迭代次数m,最近邻样本个数k,初始化权重W[A]=0;
第一计算单元222,循环遍历所述高维向量组中的样本集,通过以下的权重公式计算并更新W[A],权重公式如下:
w [ A ] = Σ i = 1 m Σ C ≠ c l a s s ( R i ) P ( C ) 1 - P ( c l a s s ( R i ) ) Σ j = 1 k d i f f ( A , R i , M j ( C ) ) Σ i = 1 m Σ j = 1 k d i f f ( A , R i , H j )
其中,m代表样本抽样次数,Mj(C)代表不同类别C中的第j个最近邻样本,P(C)代表C类目标样本数占样本总数的比例,class(Ri)表示Ri所属的类别,函数diff(A,Ri,Rj)是用来计算样本实例Ri和Rj关于某个特征A之间的距离大小;
排序单元223,用于将所有的特征按照W[A]从大到小排序,按照特征权值最低大于0.001,选出候选特征集。
可以理解,本申请提供的第一数据处理模块220采用改进后的ReliefF特征选择算法相对于原始ReliefF算法对于特征的区分度更高,对于分类性能差别不大的特征也具有很好的识别效果。降低了数据集的维度,提高的了算法的速度。
请参阅图6,第二数据处理模块230,基于Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征,包括:
特征子集候选单元231,通过Re-ReliefF计算出所述选特征集中每个特征的权重,选择其中最大的特征,构成候选特征子集;
第二计算单元232,用于进行遍历,计算所述候选特征子集与类之间的皮尔逊相关系数c(fj,si);
特征选择单元233,根据以下的选择准则,选择出特征子集,其中,c(fj,fi)是特征间的皮尔逊相关系数,代表两个特征间相关性大小的度量,其绝对值在[0,1]区间内,
M A X f j ∈ F - S m - 1 [ F j ÷ 1 m - 1 Σ f i ∈ S m - 1 | c ( f i , f j ) | ] ;
SVM单元234,使用SVM确定与所述候选特征集具有最小相关性的特征,形成特征子集。
可以理解,SVM根据它在该实验中所需参数范围进行循环测试,然后比较得到支持向量机这两个参数的最佳值。模拟的参数C和λ的支持向量机从50000到0.01不等。支持向量机应用于该最佳参数(C和λ),得到特征子集最大化分类的评估指标。
可以理解,本申请采用的第二数据处理模块230,基于改进的Re-ReliefF算法结合SVM能更有效区分有效的特征,减少有效特征的数量。改进的Re-ReliefF算法相对于Re-ReliefF算法在进一步降低数据维度后,实现分类准确率相对高点的情况下降低预测时间和表现较好的鲁棒性。
本发明提出了一种网络安全数据的特征选择方法及系统,对KDDCUP99数据集进行数据规范化处理,对向量组进行Re-Relieff数据降维,并剔除无关或相关性较小的数据,构成一个候选特征集,再利用改进的Re-ReliefF算法获得一个与候选特征集具有最小相关性的特征,本发明提供的网络安全数据的特征选择方法及系统,对于数据里存在的冗余特征,借用了MRMR的思想,剔除了数据里的冗余数据,提高了分类器的效率。
另外,本发明对KDDCUP99数据集进行数据规范化处理,加快了算法的学习速度;同时,采用改进的ReliefF特征选择算法相对于原始ReliefF算法对于特征的区分度更高,对于分类性能差别不大的特征也具有很好的识别效果,降低了数据集的维度,提高了算法的速度;此外,采用改进的Re-ReliefF算法结合SVM能更有效区分有效的特征,减少有效特征的数量且能够进一步降低数据维度后,实现分类准确率相对高点的情况下降低预测时间和表现较好的鲁棒性。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

Claims (8)

1.一种网络安全数据的特征选择方法,其特征在于,包括下述步骤:
步骤S110:构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组;
步骤S120:基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集;
步骤S130:基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。
2.如权利要求1所述的网络安全数据的特征选择方法,其特征在于,步骤S110中,构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组,包括下述步骤:
将所述KDDCUP99数据集分为连续型数据及非数值型数据;
对所述连续型数据对连续型变量进行预处理,将其数据取值从[min,max]映射到[0,1]区间;
对于所述非数值型数据离散化处理,利用编码映射成数值;
用连续型变量的方法将所述数值从[min,max]映射到[0,1]区间。
3.如权利要求2所述的网络安全数据的特征选择方法,其特征在于,步骤S120中,基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集,包括下述步骤:
将所述高维向量组的原始特征个数记为N,Re-ReliefF阶段设定迭代次数m,最近邻样本个数k,初始化权重W[A]=0;
循环遍历所述高维向量组中的样本集,通过以下的权重公式计算并更新W[A],权重公式如下:
w [ A ] = Σ i = 1 m Σ C ≠ c l a s s ( R i ) P ( C ) 1 - P ( c l a s s ( R i ) ) Σ j = 1 k d i f f ( A , R i , M j ( C ) ) Σ i = 1 m Σ j = 1 k d i f f ( A , R i , H j )
其中,m代表样本抽样次数,Mj(C)代表不同类别C中的第j个最近邻样本,P(C)代表C类目标样本数占样本总数的比例,class(Ri)表示Ri所属的类别,函数diff(A,Ri,Rj)是用来计算样本实例Ri和Rj关于某个特征A之间的距离大小;
将所有的特征按照W[A]从大到小排序,按照特征权值最低大于0.001,选出候选特征集。
4.如权利要求1所述的网络安全数据的特征选择方法,其特征在于,步骤S130中,基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征,包括下述步骤:
通过改进的Re-ReliefF计算出所述选特征集中每个特征的权重,选择其中最大的特征,构成候选特征子集;
进行遍历,计算所述候选特征子集与类之间的皮尔逊相关系数c(fj,si);
根据以下的选择准则,选择出特征子集,其中,m-1个特征,要从F-Sm-1的特征集中选出第m个特征,c(fj,fi)是特征间的皮尔逊相关系数,代表两个特征间相关性大小的度量,其绝对值在[0,1]区间内,
M A X f j ∈ F - S m - 1 [ F j ÷ 1 m - 1 Σ f i ∈ S m - 1 | c ( f i , f j ) | ] ;
使用SVM确定与所述候选特征集具有最小相关性的特征,形成特征子集。
5.一种网络安全数据的特征选择系统,其特征在于,包括:
数据采集模块,用于构建KDDCUP99数据集,并对所述数据集进行处理,得到高维向量组;
第一数据处理模块,用于基于Re-ReliefF算法剔除所述高维向量组中无关特征,构成候选特征集;
第二数据处理模块,基于改进的Re-ReliefF算法获得一个与所述候选特征集具有最小相关性的特征。
6.如权利要求5所述的网络安全数据的特征选择系统,其特征在于,数据采集模块包括:
数据分类单元,将所述KDDCUP99数据集分为连续型数据及非数值型数据;
数据处理单元,对所述连续型数据对连续型变量进行预处理,将其数据取值从[min,max]映射到[0,1]区间;
数据离散单元,对于所述非数值型数据离散化处理,利用编码映射成数值;及
数据映射单元,用连续型变量的方法将所述数值从[min,max]映射到[0,1]区间。
7.如权利要求5所述的网络安全数据的特征选择系统,其特征在于,所述第一数据处理模块包括:
初始化单元,用于将所述高维向量组的原始特征个数记为N,Re-ReliefF阶段设定迭代次数m,最近邻样本个数k,初始化权重W[A]=0;
第一计算单元,循环遍历所述高维向量组中的样本集,通过以下的权重公式计算并更新W[A],权重公式如下:
w [ A ] = Σ i = 1 m Σ C ≠ c l a s s ( R i ) P ( C ) 1 - P ( c l a s s ( R i ) ) Σ j = 1 k d i f f ( A , R i , M j ( C ) ) Σ i = 1 m Σ j = 1 k d i f f ( A , R i , H j )
其中,m代表样本抽样次数,Mj(C)代表不同类别C中的第j个最近邻样本,P(C)代表C类目标样本数占样本总数的比例,class(Ri)表示Ri所属的类别,函数diff(A,Ri,Rj)是用来计算样本实例Ri和Rj关于某个特征A之间的距离大小;
排序单元,用于将所有的特征按照W[A]从大到小排序,按照特征权值最低大于0.001,选出候选特征集。
8.如权利要求5所述的网络安全数据的特征选择系统,其特征在于,所述第二数据处理模块包括:
特征子集候选单元,通过Re-ReliefF计算出所述选特征集中每个特征的权重,选择其中最大的特征,构成候选特征子集;
第二计算单元,用于进行遍历,计算所述候选特征子集与类之间的皮尔逊相关系数c(fj,si);
特征选择单元,根据以下的选择准则,选择出特征子集,其中,c(fj,fi)是特征间的皮尔逊相关系数,代表两个特征间相关性大小的度量,其绝对值在[0,1]区间内,
M A X f j ∈ F - S m - 1 [ F j ÷ 1 m - 1 Σ f i ∈ S m - 1 | c ( f i , f j ) | ] ;
SVM单元,使用SVM确定与所述候选特征集具有最小相关性的特征,形成特征子集。
CN201610597973.7A 2016-07-26 2016-07-26 一种网络安全数据的特征选择方法及系统 Pending CN106250442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610597973.7A CN106250442A (zh) 2016-07-26 2016-07-26 一种网络安全数据的特征选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610597973.7A CN106250442A (zh) 2016-07-26 2016-07-26 一种网络安全数据的特征选择方法及系统

Publications (1)

Publication Number Publication Date
CN106250442A true CN106250442A (zh) 2016-12-21

Family

ID=57603755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610597973.7A Pending CN106250442A (zh) 2016-07-26 2016-07-26 一种网络安全数据的特征选择方法及系统

Country Status (1)

Country Link
CN (1) CN106250442A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897413A (zh) * 2017-02-20 2017-06-27 重庆邮电大学 一种基于和声搜索的混合特征选择方法
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107404657A (zh) * 2017-07-03 2017-11-28 北京奇艺世纪科技有限公司 一种广告推荐方法和装置
CN107694098A (zh) * 2017-11-17 2018-02-16 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
CN107729952A (zh) * 2017-11-29 2018-02-23 新华三信息安全技术有限公司 一种业务流分类方法及装置
CN108154178A (zh) * 2017-12-25 2018-06-12 北京工业大学 基于改进的svm-knn算法的半监督托攻击检测方法
CN108985010A (zh) * 2018-06-15 2018-12-11 河南师范大学 基因分类方法与装置
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN110719279A (zh) * 2019-10-09 2020-01-21 东北大学 基于神经网络的网络异常检测系统及检测方法
CN111031042A (zh) * 2019-12-13 2020-04-17 电子科技大学 一种基于改进d-s证据理论的网络异常检测方法
CN111401783A (zh) * 2020-04-07 2020-07-10 国网山东省电力公司 一种电力系统运行数据集成特征选择方法
CN111652193A (zh) * 2020-07-08 2020-09-11 中南林业科技大学 基于多源影像的湿地分类方法
CN111898637A (zh) * 2020-06-28 2020-11-06 南京工程学院 一种基于ReliefF-DDC特征选择算法
CN112488871A (zh) * 2020-10-23 2021-03-12 广西电网有限责任公司电力科学研究院 一种电网原始输入特征冗余数据剔除方法及系统
CN112952830A (zh) * 2021-04-16 2021-06-11 山东科技大学 一种故障后电力系统暂态稳定预测方法
CN115102736A (zh) * 2022-06-15 2022-09-23 天津市国瑞数码安全系统股份有限公司 一种基于模式识别的网络安全评估的方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104887224A (zh) * 2015-05-29 2015-09-09 北京航空航天大学 面向癫痫脑电信号的特征提取与自动识别方法
CN104994366A (zh) * 2015-06-02 2015-10-21 陕西科技大学 一种基于特征加权的fcm视频关键帧提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104887224A (zh) * 2015-05-29 2015-09-09 北京航空航天大学 面向癫痫脑电信号的特征提取与自动识别方法
CN104994366A (zh) * 2015-06-02 2015-10-21 陕西科技大学 一种基于特征加权的fcm视频关键帧提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄春虎 等: "改进的ReliefF算法在入侵检测中的应用", 《激光杂志》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897413A (zh) * 2017-02-20 2017-06-27 重庆邮电大学 一种基于和声搜索的混合特征选择方法
CN107404657A (zh) * 2017-07-03 2017-11-28 北京奇艺世纪科技有限公司 一种广告推荐方法和装置
CN107368592B (zh) * 2017-07-26 2020-09-25 成都科来网络技术有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107368592A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种用于网络安全报告的文本特征模型建模方法及装置
CN107694098A (zh) * 2017-11-17 2018-02-16 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
CN107694098B (zh) * 2017-11-17 2019-07-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
CN107729952A (zh) * 2017-11-29 2018-02-23 新华三信息安全技术有限公司 一种业务流分类方法及装置
CN107729952B (zh) * 2017-11-29 2021-04-30 新华三信息安全技术有限公司 一种业务流分类方法及装置
CN108154178A (zh) * 2017-12-25 2018-06-12 北京工业大学 基于改进的svm-knn算法的半监督托攻击检测方法
CN108985010B (zh) * 2018-06-15 2022-04-08 河南师范大学 基因分类方法与装置
CN108985010A (zh) * 2018-06-15 2018-12-11 河南师范大学 基因分类方法与装置
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN110719279A (zh) * 2019-10-09 2020-01-21 东北大学 基于神经网络的网络异常检测系统及检测方法
CN111031042A (zh) * 2019-12-13 2020-04-17 电子科技大学 一种基于改进d-s证据理论的网络异常检测方法
CN111401783A (zh) * 2020-04-07 2020-07-10 国网山东省电力公司 一种电力系统运行数据集成特征选择方法
CN111898637A (zh) * 2020-06-28 2020-11-06 南京工程学院 一种基于ReliefF-DDC特征选择算法
CN111898637B (zh) * 2020-06-28 2022-09-02 南京工程学院 一种基于ReliefF-DDC特征选择算法
CN111652193A (zh) * 2020-07-08 2020-09-11 中南林业科技大学 基于多源影像的湿地分类方法
CN111652193B (zh) * 2020-07-08 2024-03-19 中南林业科技大学 基于多源影像的湿地分类方法
CN112488871A (zh) * 2020-10-23 2021-03-12 广西电网有限责任公司电力科学研究院 一种电网原始输入特征冗余数据剔除方法及系统
CN112952830A (zh) * 2021-04-16 2021-06-11 山东科技大学 一种故障后电力系统暂态稳定预测方法
CN112952830B (zh) * 2021-04-16 2024-06-11 山东科技大学 一种故障后电力系统暂态稳定预测方法
CN115102736A (zh) * 2022-06-15 2022-09-23 天津市国瑞数码安全系统股份有限公司 一种基于模式识别的网络安全评估的方法和系统
CN115102736B (zh) * 2022-06-15 2024-04-26 天津市国瑞数码安全系统股份有限公司 一种基于模式识别的网络安全评估的方法和系统

Similar Documents

Publication Publication Date Title
CN106250442A (zh) 一种网络安全数据的特征选择方法及系统
CN111199343B (zh) 一种多模型融合的烟草市场监管异常数据挖掘方法
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
Majhi et al. Fuzzy clustering using salp swarm algorithm for automobile insurance fraud detection
CN107341497A (zh) 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN111695626A (zh) 基于混合采样与特征选择的高维度不平衡数据分类方法
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
Yang et al. Finding key attribute subset in dataset for outlier detection
CN106067088A (zh) 电子银行访问行为的检测方法和装置
CN104881689A (zh) 一种多标签主动学习分类方法及系统
CN111292008A (zh) 一种基于知识图谱的隐私保护数据发布风险评估方法
CN112001788B (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN105893876A (zh) 芯片硬件木马检测方法和系统
CN109739844A (zh) 基于衰减权重的数据分类方法
CN108062566A (zh) 一种基于多核潜在特征提取的智能集成软测量方法
CN104809476A (zh) 一种基于分解的多目标进化模糊规则分类方法
CN110704694A (zh) 一种基于网络表示学习的组织层级划分方法及其应用
CN111047173B (zh) 基于改进d-s证据理论的社团可信度评估方法
CN110443290A (zh) 一种基于大数据的产品竞争关系量化生成方法及装置
CN114399367A (zh) 保险产品推荐方法、装置、设备及存储介质
Razavi Hajiagha et al. Fuzzy C-means based data envelopment analysis for mitigating the impact of units’ heterogeneity
Rofik et al. The Optimization of Credit Scoring Model Using Stacking Ensemble Learning and Oversampling Techniques
Jiang et al. Parameters calibration of traffic simulation model based on data mining
US20050278352A1 (en) Using affinity measures with supervised classifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161221