CN113505826B - 基于联合特征选择的网络流量异常检测方法 - Google Patents
基于联合特征选择的网络流量异常检测方法 Download PDFInfo
- Publication number
- CN113505826B CN113505826B CN202110772466.3A CN202110772466A CN113505826B CN 113505826 B CN113505826 B CN 113505826B CN 202110772466 A CN202110772466 A CN 202110772466A CN 113505826 B CN113505826 B CN 113505826B
- Authority
- CN
- China
- Prior art keywords
- feature
- attribute
- data
- flow data
- mutual information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000007637 random forest analysis Methods 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 230000010354 integration Effects 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 46
- 238000003066 decision tree Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000003776 cleavage reaction Methods 0.000 claims description 2
- 230000007017 scission Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 2
- 230000004069 differentiation Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Abstract
本发明公开了一种基于联合特征选择的网络流量异常检测方法,主要解决现有网络流量异常检测方法检测准确率低及性能较差的问题,其方案包括:采集网络流量数据,进行数据预处理;对预处理后的网络流量数据进行特征选择,得到相关性最大和互信息最大的特征序列集合;对两个特征序列集合进行特征集成,得到特征筛选集合;利用特征筛选集合对网络流量数据进行特征筛选,并生成训练样本集和测试样本集;构建随机森林分类模型,并对其进行训练;将测试样本集输入到训练好的随机森林分类模型中,得到检测结果。本发明由于综合考虑了属性特征和类别特征的相关性和互信息,提高了检测准确率和性能,可用于故障检测、恶意软件检测、数据外泄及恶意挖矿。
Description
技术领域
本发明属于网络安全技术领域,更进一步涉及一种网络流量异常检测方法,可用于故障检测、恶意软件检测、数据外泄及恶意挖矿。
背景技术
随着互联网技术的快速发展和网络规模的不断扩大,各种新技术蓬勃爆发,互联网已经成为人类生活中不可缺少的一部分,人们利用互联网进行社交、购物、工作等。但是同时,人们在享受互联网便利的过程中,不可避免地遭受网络异常的危害。目前普遍存在的多种网络异常,网络扫描,DDoS攻击,网络蠕虫病毒等,都可以通过网络流量的异常表现出来,网络流量异常能较全面地反映网络的实时状况。目前,网络流量异常检测已经作为一种有效的网络安全防护手段。但是,随着网络流量数据量的增加,主流的异常检测模型的识别效率越来越低,因为这些流量数据不仅规模庞大,而且有较高的维度,流量数据中存在着大量的噪声信息和冗余信息,这些信息极大降低了异常检测的效果。对网络流量进行有效的特征选择可以有效解决这一问题,良好的特征选择算法可以高效地剔除流量数据中的噪声特征和冗余特征,提升异常检测的效率和性能。因此,选择有效且高效的特征选择算法对异常流量检测是非常重要的。
华北电力大学和国家电网公司在专利申请号202011313089.9,申请公开号CN112511519 A的专利申请文献中提出“一种基于特征选择算法的网络入侵检测方法”。该方法的实施步骤是:第一步,从物联网设备中获得网络流量数据;第二步,使用QBSO-FS算法,对获得的网络流量数据在多种机器学习模型上的分类效果进行优化,获得优化子集;第三步,使用优化子集,利用决策策略,联合决策出新的特征子集;第四步,使用新的特征子集在复杂机器学习模型上进行分类训练,得出检测结果。该方法由于特征选择算法单一,不能剔除噪声或冗余的特征,导致检测模型的性能不佳。
中国科学院深圳先进技术研究院在专利申请号201911268314.9,申请公开号CN111064721 A的专利文献中提出“网络流量异常检测模型的训练方法及检测方法”。该方法的实施步骤是:第一步,根据训练样本确定隐藏层的层数和每层隐藏层中的神经元个数;第二步,根据所述隐藏层的层数和每层隐藏层中的神经元个数构建初始的特征提取网络;第三步,利用训练样本对所述的特征提取网络进行训练,得到训练完成的特征提取网络;第四步,去除所述训练完成的特征提取网络中的分类层,得到优化的特征提取网络;第五步,利用优化的特征提取网络提取训练样本的高级抽象特征数据,训练分类网络,完成网络流量检测模型的训练。由于网络流量数据具有较高的维度,该方法采用固定阈值的方法提取特征,导致原始流量数据的部分重要特征丢失,不能快速有效地进行网络流量检测,降低了检测模型的准确率和性能。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于联合特征选择的网络流量异常检测方法,以更加准确地选择网络流量的不同特征,提高网络异常流量检测准确率和性能。
为实现上述目的,本发明基于联合特征选择的网络流量异常检测方法,其特征在于,包括如下:
A)采集网络流量数据,进行数据预处理:
A1)从互联网网站上采集流量数据,提取能够反映流量特性的基本流量数据,包括数值型特征数据和字符型特征数据;
A2)对提取到的基本流量数据进行特征数据类型转换,并对转换后的数据进行标准化处理,得到预处理后的网络流量数据;
B)对预处理后的网络流量数据进行特征选择:
B1)利用基于相关性的特征选择算法和最佳优先搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M;
B2)利用基于互信息的特征选择算法和前向搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S;
C)对相关性最大的特征序列集合M与互信息最大的特征序列集合S进行特征集成,得到特征筛选集合Q:
C1)对相关性最大的特征序列集合M按照特征重要性从高到低进行排序,将其均分为优先特征子集M1、有用特征子集M2和无用特征子集M3;
C2)对互信息最大的特征序列集合S按照特征重要性从高到低进行排序,将其均分为优先特征子集S1、有用特征子集S2和无用特征子集S3;
C3)根据C1)和C2)的结果,对两个优先特征子集M1和S1进行并操作,得到优先特征集合U;对两个有用特征子集M2和S2进行交操作,得到有用特征集合I;删除无用特征子集M3和S3;
C4)对优先特征集合U和有用特征集合I进行并操作,得到特征筛选集合Q;
D)对预处理后的网络流量数据,利用特征筛选集合Q进行特征筛选,随机选取70%组成训练样本集,剩下的30%组成测试样本集;
E)以决策树作为个体分类器,将d个决策树进行组合构成随机森林分类模型,其中5≤d≤20;
F)训练随机森林分类模型:
从训练样本集中利用自助采样方法生成d个训练样本子集,分别对d个训练样本子集,选择其基尼指数最小的特征进行分裂,对获得的特征,重复上述操作,直到分裂停止时结束,得到d个训练好的决策树,输出d个分类结果;
对d个分类结果利用多数投票法得到最终的检测结果,即构成训练好的随机森林分类模型;
G)将测试样本集中的数据输入已经训练好的随机森林分类模型中,得到流量异常检测的检测结果。
本发明与现有技术相比,具有以下优点:
第一:本发明由于利用基于相关性特征选择算法和基于互信息特征选择算法分别提取网络流量数据的重要特征,减少了数据处理的时间和空间资源的消耗,降低了数据维度,剔除了噪声特征和冗余特征,保证了提取的特征的准确性;
第二:本发明由于对相关性最大的特征序列集合和互信息最大的特征序列集合,按照特征重要性排序并分为六个特征子集,并分别对其进行了并或交操作,使最终选择的特征集合对流量数据的表征更准确,提升模型检测结果的准确率;
第三:本发明由于采用决策树作为个体分类器构成随机森林分类模型,运算复杂度低,速度快,有效减少了模型检测的时间,提升了模型检测的效率。
附图说明
图1为本发明的实现流程图;
图2为随机森林分类模型图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步详细的描述。
参照图1,本实施例的实施包括如下步骤:
步骤1,采集网络流量数据,进行数据预处理。
1.1)从互联网网站上采集流量数据,提取能够反映流量特性的基本流量数据,包括数值型特征数据和字符型特征数据;
1.2)对提取到的基本流量数据进行特征数据类型转换:
本实例采取但不限于用独热编码技术,将基本流量数据中的字符型特征转换成数值型特征,比如将有4个取值的类别特征转换为(1,0,0,0)、(0,1,0,0)、(0,0,1,0)、(0,0,0,1);
1.3)对转换后的数据进行标准化处理,得到预处理后的网络流量数据:
其中,x'i代表第i个特征标准化后的值,xi代表第i个特征标准化前的值,min(X(i))代表第i个特征中的最小值,max(X(i))代表第i个特征中的最大值。
该网络流量数据中含有属性特征和类别特征,其中属性特征包括:TCP连接基本特征、TCP连接内容特征、基于时间的网络流量统计特征和基于主机的网络流量统计特征。
步骤2,对预处理后的网络流量数据进行特征选择。
2.1)利用基于相关性的特征选择算法和最佳优先搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M:
2.1.1)利用初始的属性特征集合F={f1,f2,…fi,…,fj,…,fn},计算第i个属性特征fi分别与第j个属性特征fj的相关系数和与类别特征c的相关系数/>
其中,n为属性特征的数量,f'i为第i个属性特征的值,f'j为第j个属性特征的值,c'为类别特征的值;
2.1.2)利用上述两个相关系数和/>分别计算第i个属性特征fi与第j个属性特征fj的平均相关度/>和与类别特征c的平均相关度/>
其中,k代表集合M中的特征个数;
2.1.3)利用上述两个平均相关度和/>计算集合M的启发式估计值Ms:
其中,Ms为集合M的启发式估计值;
2.1.4)选择启发式估计值最大的一个特征加入集合M,随后选择启发式估计值次大的特征加入集合M,重复步骤2.1.1)至2.1.3),计算出新的启发式估计值M's;
2.1.5)将新的启发式估计值M's与原来的启发式估计值Ms进行比较:
如果M's<Ms则去除这个启发式估计值次大的特征,然后再选择下一个,直到特征被选择完,得到属性特征和类别特征相关性最大的特征序列集合M;
否则,保留此启发式估计值次大的特征,返回2.1.1);
2.2)利用基于互信息的特征选择算法和前向搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S:
2.2.1)利用初始的候选属性特征集合G={g1,g2,…,gi,…,gn},计算属性特征集合G中每个属性特征和类别特征c的互信息I(G;c):
其中,p(gi,c)表示第i个属性特征gi和类别特征c的联合概率密度函数,p(gi)和p(c)分别表示第i个属性特征gi和类别特征c的边缘概率密度函数;
2.2.2)利用上述互信息I(G;c),计算已选属性特征集合S与类别特征c之间的互信息I(S;c):
I(S;c)=I(G;c)-∑{I(G;S)-I(G;S|c)},
其中,I(G;S)代表候选属性特征集合G和已选属性特征集合S之间的互信息,I(F;S|c)代表给定类别特征c条件下,候选属性特征集合G和已选属性特征集合S之间的互信息;
2.2.3)将互信息I(S;c)最高的属性特征放入已选属性特征集合S中,并从候选属性特征集合G中删除此属性特征,重复2.2.1)至2.2.2),直到候选属性特征集合G中的特征被删除完,得到属性特征和类别特征互信息最大的特征序列集合S。
步骤3,对相关性最大的特征序列集合M与互信息最大的特征序列集合S进行特征集成,得到特征筛选集合Q。
3.1)对相关性最大的特征序列集合M按照特征重要性从高到低进行排序,将其均分为优先特征子集M1、有用特征子集M2和无用特征子集M3;
3.2)对互信息最大的特征序列集合S按照特征重要性从高到低进行排序,将其均分为优先特征子集S1、有用特征子集S2和无用特征子集S3;
3.3)根据3.1)和3.2)的结果,对两个优先特征子集M1和S1进行并操作,即将两个优先特征子集中所有的特征进行组合,得到优先特征集合U;
3.4)根据3.1)和3.2)的结果,对两个有用特征子集M2和S2进行交操作,即将两个有用特征子集中共有的特征进行组合,得到有用特征集合I,并删除无用特征子集M3和S3;
3.5)根据3.3)和3.4)的结果,对优先特征集合U和有用特征集合I进行并操作,即将优先特征集合U和有用特征集合I中所有的特征进行组合,得到特征筛选集合Q。
步骤4,对预处理后的网络流量数据,利用特征筛选集合Q进行特征筛选,随机选取70%组成训练样本集,剩下的30%组成测试样本集。
步骤5,以决策树作为个体分类器,将d个决策树进行组合构成随机森林分类模型,其中5≤d≤20,本实例采取d=10。
所述个体分类器不限于决策树,还可以采用信息增益最大的ID3分类器,信息增益比最大的C4.5分类器。
步骤6,训练随机森林分类模型。
参照图2,本步骤通过训练构成训练好的随机森林分类模型,其包括从训练样本集中生成d个训练样本子集;分别训练d个决策树,输出d个分类结果;对d个分类结果利用多数投票法得到最终的检测结果这三部分,具体实现如下:
6.1)利用自助采样方法从训练样本集中生成d个训练样本子集{D1,D2,…Di,…,Dd},其中Di是第i个训练样本子集,i∈(1,d);
6.2)分别利用d个训练样本子集,训练d个决策树:
6.2.1)输入训练样本子集Di,从训练样本子集的所有属性特征中随机选择m个属性特征构成特征子集,其中1≤m≤41,本实例采取m=20;
6.2.2)计算特征子集中每个特征可能取值的基尼指数Gini_index(Di,a):
其中,a是对训练样本子集Di进行划分的特征,a有V个可能取值{a1,a2,…,ai,…,av},Di v即是第v个子节点所包含的样本集,Gini(Di v)是第v个子节点所包含的样本集的基尼值:
其中,pk是第k类样本在第v个子节点所包含的样本集Di v中所占的比例,k=1,2,…,|y|,y是样本类别的总数;
6.2.3)选择具有最小基尼指数的特征进行分裂;
6.2.4)对获得的特征,重复6.2.2)和6.2.3),直到分裂停止时结束,得到一个训练好的决策树,输出一个分类结果;
6.3)重复6.2.1)至6.2.4)共d次,得到d个训练好的决策树,对应d个分类结果;
6.4)对d个分类结果,利用多数投票法得到最终的检测结果,即构成训练好的随机森林分类模型。
步骤7,将测试样本集中的数据输入已经训练好的随机森林分类模型中,得到流量异常检测的检测结果。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验运行环境是:处理器为Interl(R)Core(TM)i5-5200 CPU@2.20GHz,内存为4.00GB,硬盘为457G,操作系统为Windows 8.1,编程环境为Python 3.8,编程软件为PyCharm Edition 2020.1.2x64。
本发明采用NSL-KDD数据集,是公认的网络流量数据集,为构建检测模型提供了数据基准,其中包括41个属性特征字段和1个类别特征字段。
2.仿真内容及其结果分析:
仿真实验:用本发明与现有3种差异化方法对NSL-KDD数据集的异常情况进行检测,对比其检测准确率和检测时间,结果如表1:
现有差异化方法有以下3种:
1、使用全部特征进行检测,不进行特征选择处理。
2、单独使用基于相关性的特征选择算法。
3、单独使用基于互信息的特征选择算法。
表1各差异化方法的准确率和检测时间
差异化方法 | 准确率(%) | 检测时间(s) |
不进行特征选择 | 70.56 | 4 |
利用基于相关性的特征选择算法 | 78.17 | 3 |
利用基于互信息的特征选择算法 | 78.90 | 3 |
本发明方法 | 82.59 | 1.5 |
表中的准确率是利用不同检测方法对NSL-KDD数据集进行分类异常检测,通过得到各自被正确划分为正常的样本数TP、被错误划分为正常的样本数FP、被错误划分为异常的样本数FN、被正确划分为异常的样本数TN,计算得到其各自的准确率为
表中检测时间是指利用python语言的time.clock()函数对不同检测方法的开始检测时间startTime及检测结束时间endTime进行记录,计算得到不同检测方法的检测时间为:检测结束时间endTime减开始检测时间startTime。
由表1可以看出,现有3种差异化方法进行网络流量异常检测的准确率低,本发明方法较高,且本发明的检测时间均比3种差异化方法的检测时间短。表明本发明方法的采用决策树作为个体分类器构建随机森林分类模型,节省了时间消耗,检测的效率高于现有的差异化方法。
Claims (9)
1.一种基于联合特征选择的网络流量异常检测方法,其特征在于,包括:
A)采集网络流量数据,进行数据预处理:
A1)从互联网网站上采集流量数据,提取能够反映流量特性的基本流量数据,包括数值型特征数据和字符型特征数据;
A2)对提取到的基本流量数据进行特征数据类型转换,并对转换后的数据进行标准化处理,得到预处理后的网络流量数据;
B)对预处理后的网络流量数据进行特征选择:
B1)利用基于相关性的特征选择算法和最佳优先搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M;
B2)利用基于互信息的特征选择算法和前向搜索方法,从预处理后的网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S;
C)对相关性最大的特征序列集合M与互信息最大的特征序列集合S进行特征集成,得到特征筛选集合Q:
C1)对相关性最大的特征序列集合M按照特征重要性从高到低进行排序,将其均分为优先特征子集M1、有用特征子集M2和无用特征子集M3;
C2)对互信息最大的特征序列集合S按照特征重要性从高到低进行排序,将其均分为优先特征子集S1、有用特征子集S2和无用特征子集S3;
C3)根据C1)和C2)的结果,对两个优先特征子集M1和S1进行并操作,得到优先特征集合U;对两个有用特征子集M2和S2进行交操作,得到有用特征集合I;删除无用特征子集M3和S3;
C4)对优先特征集合U和有用特征集合I进行并操作,得到特征筛选集合Q;
D)对预处理后的网络流量数据,利用特征筛选集合Q进行特征筛选,随机选取70%组成训练样本集,剩下的30%组成测试样本集;
E)以决策树作为个体分类器,将d个决策树进行组合构成随机森林分类模型,其中5≤d≤20;
F)训练随机森林分类模型:
从训练样本集中利用自助采样方法生成d个训练样本子集,分别对d个训练样本子集,选择其基尼指数最小的特征进行分裂,对获得的特征,重复上述操作,直到分裂停止时结束,得到d个训练好的决策树,输出d个分类结果;
对d个分类结果利用多数投票法得到最终的检测结果,即构成训练好的随机森林分类模型;
G)将测试样本集中的数据输入已经训练好的随机森林分类模型中,得到流量异常检测的检测结果。
2.根据权利要求1所述的方法,其特征在于,A2)中对提取到的基本流量数据进行特征数据类型转换,是采用独热编码技术,将基本流量数据中的字符型特征转换成数值型特征。
3.根据权利要求1所述的方法,其特征在于,A2)中对转换后的数据进行标准化处理,通过如下公式进行:
其中,x′i代表第i个特征标准化后的值,xi代表第i个特征标准化前的值,min(X(i))代表第i个特征中的最小值,max(X(i))代表第i个特征中的最大值。
4.根据权利要求1所述的方法,其特征在于,B1)从网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M,实现如下:
B1a)利用初始的属性特征集合F={f1,f2,…fi,…,fj,…,fn},计算第i个属性特征fi分别与第j个属性特征fj的相关系数和与类别特征c的相关系数/>
其中,n为属性特征的数量,fi′为第i个属性特征的值,fj'为第j个属性特征的值,c'为类别特征的值;
B1b)利用上述两个相关系数和/>分别计算第i个属性特征fi与第j个属性特征fj的平均相关度/>和与类别特征c的平均相关度/>
其中,k代表集合M中的特征个数;
B1c)利用上述两个平均相关度和/>计算集合M的启发式估计值Ms:
其中,Ms为集合M的启发式估计值;
B1d)选择启发式估计值最大的一个特征加入集合M,随后选择启发式估计值次大的特征加入集合M,重复步骤B1a)至B1c),计算出新的启发式估计值M′s;
B1e)将新的启发式估计值M′s与原来的启发式估计值Ms进行比较:
如果M′s<Ms则去除这个启发式估计值次大的特征,然后再选择下一个,直到特征被选择完,得到属性特征和类别特征相关性最大的特征序列集合M;
否则,保留此启发式估计值次大的特征,返回B1a)。
5.根据权利要求1所述的方法,其特征在于,B2)从网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S,实现如下:
B2a)利用初始的候选属性特征集合G={g1,g2,…,gi,…,gn},计算属性特征集合G中每个属性特征和类别特征c的互信息I(G;c):
其中,p(gi,c)表示第i个属性特征gi和类别特征c的联合概率密度函数,p(gi)和p(c)分别表示第i个属性特征gi和类别特征c的边缘概率密度函数;
B2b)利用上述互信息I(G;c),计算已选属性特征集合S与类别特征c之间的互信息I(S;c):
I(S;c)=I(G;c)-∑{I(G;S)-I(G;S|c)},
其中,I(G;S)代表候选属性特征集合G和已选属性特征集合S之间的互信息,I(F;S|c)代表给定类别特征c条件下,候选属性特征集合G和已选属性特征集合S之间的互信息;
B2c)将互信息I(S;c)最高的属性特征放入已选属性特征集合S中,并从候选属性特征集合G中删除此属性特征,重复B2a)至B2b),直到候选属性特征集合G中的特征被删除完,得到属性特征和类别特征互信息最大的特征序列集合S。
6.根据权利要求1所述的方法,其特征在于:所述C3)中对两个优先特征子集M1和S1进行并操作,是将两个优先特征子集中所有的特征进行组合,得到优先特征集合U。
7.根据权利要求1所述的方法,其特征在于:所述C3)中对两个有用特征子集M2和S2进行交操作,是将两个有用特征子集中共有的特征进行组合,得到有用特征集合I。
8.根据权利要求1所述的方法,其特征在于,所述C4)中,对优先特征集合U和有用特征集合I进行并操作,是将优先特征集合U和有用特征集合I中所有的特征进行组合,得到特征筛选集合Q。
9.根据权利要求1所述的方法,其特征在于,F)中训练随机森林分类模型,实现如下:
F1)利用自助采样方法从训练样本集中生成d个训练样本子集{D1,D2,…Di,…,Dd};
F2)分别利用d个训练样本子集,训练d个决策树:
F2a)输入训练样本子集Di,从训练样本子集的所有属性特征中随机选择m个属性特征构成特征子集,其中1≤m≤41;
F2b)计算特征子集中每个特征可能取值的基尼指数Gini_index(Di,a):
其中,a是对训练样本子集Di进行划分的特征,a有V个可能取值{a1,a2,…,ai,…,av},其中Di是第i个训练样本子集,i∈(1,d),Di v即是第v个子节点所包含的样本集,Gini(Di v)是第v个子节点所包含的样本集的基尼值:
其中,pk是第k类样本在第v个子节点所包含的样本集Di v中所占的比例,k=1,2,…,|y|,y是样本类别的总数;
F2c)选择具有最小基尼指数的特征进行分裂;
F2d)对获得的特征,重复F2b)和F2c),直到分裂停止时结束,得到一个训练好的决策树,输出一个分类结果;
F3)重复F2a)至F2d)共d次,得到d个训练好的决策树,对应d个分类结果;
F4)对d个分类结果,利用多数投票法得到最终的检测结果,即构成训练好的随机森林分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772466.3A CN113505826B (zh) | 2021-07-08 | 2021-07-08 | 基于联合特征选择的网络流量异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772466.3A CN113505826B (zh) | 2021-07-08 | 2021-07-08 | 基于联合特征选择的网络流量异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505826A CN113505826A (zh) | 2021-10-15 |
CN113505826B true CN113505826B (zh) | 2024-04-19 |
Family
ID=78011632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110772466.3A Active CN113505826B (zh) | 2021-07-08 | 2021-07-08 | 基于联合特征选择的网络流量异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505826B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113965377A (zh) * | 2021-10-21 | 2022-01-21 | 北京天融信网络安全技术有限公司 | 一种攻击行为检测方法及装置 |
CN115051955B (zh) * | 2022-06-22 | 2023-12-19 | 东北大学 | 一种基于三重特征选择和增量学习的在线流分类方法 |
CN117040942B (zh) * | 2023-10-10 | 2024-02-27 | 深圳创拓佳科技有限公司 | 一种基于深度学习的网络安全测试评估方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273747A (zh) * | 2017-05-22 | 2017-10-20 | 中国人民公安大学 | 勒索软件检测的方法 |
CN108874927A (zh) * | 2018-05-31 | 2018-11-23 | 桂林电子科技大学 | 基于超图和随机森林的入侵检测方法 |
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
JP2019102960A (ja) * | 2017-12-01 | 2019-06-24 | 日本電信電話株式会社 | サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム |
AU2020102142A4 (en) * | 2020-09-04 | 2020-10-15 | Acharya, Biswaranjan MR | Technique for multilayer protection from quantifiable vulnerabilities in industrial cyber physical system |
CN112187752A (zh) * | 2020-09-18 | 2021-01-05 | 湖北大学 | 一种基于随机森林的入侵检测分类方法及装置 |
WO2021018440A1 (en) * | 2019-07-26 | 2021-02-04 | Sony Corporation | METHODS FOR DETECTING A CYBERATTACK ON AN ELECTRONIC DEVICE, METHOD FOR OBTAINING A SUPERVISED RANDOM FOREST MODEL FOR DETECTING A DDoS ATTACK OR A BRUTE FORCE ATTACK, AND ELECTRONIC DEVICE CONFIGURED TO DETECT A CYBERATTACK ON ITSELF |
CN113051130A (zh) * | 2021-03-19 | 2021-06-29 | 南京航空航天大学 | 结合注意力机制的lstm网络的移动云负载预测方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL191744A0 (en) * | 2008-05-27 | 2009-02-11 | Yuval Elovici | Unknown malcode detection using classifiers with optimal training sets |
US10885469B2 (en) * | 2017-10-02 | 2021-01-05 | Cisco Technology, Inc. | Scalable training of random forests for high precise malware detection |
-
2021
- 2021-07-08 CN CN202110772466.3A patent/CN113505826B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273747A (zh) * | 2017-05-22 | 2017-10-20 | 中国人民公安大学 | 勒索软件检测的方法 |
JP2019102960A (ja) * | 2017-12-01 | 2019-06-24 | 日本電信電話株式会社 | サイバー攻撃検知システム、特徴量選定システム、サイバー攻撃検知方法、及びプログラム |
CN108874927A (zh) * | 2018-05-31 | 2018-11-23 | 桂林电子科技大学 | 基于超图和随机森林的入侵检测方法 |
CN109359669A (zh) * | 2018-09-10 | 2019-02-19 | 平安科技(深圳)有限公司 | 医保报销异常检测方法、装置、计算机设备和存储介质 |
WO2021018440A1 (en) * | 2019-07-26 | 2021-02-04 | Sony Corporation | METHODS FOR DETECTING A CYBERATTACK ON AN ELECTRONIC DEVICE, METHOD FOR OBTAINING A SUPERVISED RANDOM FOREST MODEL FOR DETECTING A DDoS ATTACK OR A BRUTE FORCE ATTACK, AND ELECTRONIC DEVICE CONFIGURED TO DETECT A CYBERATTACK ON ITSELF |
AU2020102142A4 (en) * | 2020-09-04 | 2020-10-15 | Acharya, Biswaranjan MR | Technique for multilayer protection from quantifiable vulnerabilities in industrial cyber physical system |
CN112187752A (zh) * | 2020-09-18 | 2021-01-05 | 湖北大学 | 一种基于随机森林的入侵检测分类方法及装置 |
CN113051130A (zh) * | 2021-03-19 | 2021-06-29 | 南京航空航天大学 | 结合注意力机制的lstm网络的移动云负载预测方法及系统 |
Non-Patent Citations (3)
Title |
---|
基于信息增益特征选择的网络异常检测模型;刘汝隽 等;计算机应用;20161215(第S2期);全文 * |
基于数据特征的Android恶意应用检测关键技术研究;许艳萍;中国博士学位论文全文数据库 信息科技辑;20180215;全文 * |
基于随机森林和XGBoost的网络入侵检测模型;陈卓 等;信号处理;20200612(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113505826A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113505826B (zh) | 基于联合特征选择的网络流量异常检测方法 | |
CN107294993B (zh) | 一种基于集成学习的web异常流量监测方法 | |
Ektefa et al. | Intrusion detection using data mining techniques | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN108595655B (zh) | 一种基于会话特征相似性模糊聚类的异常用户检测方法 | |
CN111833172A (zh) | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 | |
CN107577785A (zh) | 一种适用于法律识别的层次多标签分类方法 | |
CN102346829A (zh) | 基于集成分类的病毒检测方法 | |
CN110377605B (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
CN110134719B (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN109145114B (zh) | 基于Kleinberg在线状态机的社交网络事件检测方法 | |
CN111556016B (zh) | 一种基于自动编码器的网络流量异常行为识别方法 | |
CN112560596B (zh) | 一种雷达干扰类别识别方法及系统 | |
CN113420294A (zh) | 基于多尺度卷积神经网络的恶意代码检测方法 | |
CN111079427A (zh) | 一种垃圾邮件识别方法及系统 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN113705099A (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
CN110378190B (zh) | 基于主题识别的视频内容检测系统及检测方法 | |
CN113468538A (zh) | 一种基于相似性度量的漏洞攻击数据库构建方法 | |
CN114912026B (zh) | 一种网络舆情监测分析处理方法、设备及计算机存储介质 | |
CN113159181B (zh) | 基于改进的深度森林的工业控制系统异常检测方法和系统 | |
CN115643153A (zh) | 基于图神经网络的报警关联分析方法 | |
CN114547294A (zh) | 一种基于传播过程综合信息的谣言检测方法及系统 | |
Song et al. | Isolated forest in keystroke dynamics-based authentication: Only normal instances available for training | |
CN112422505A (zh) | 基于高维扩展关键特征向量的网络恶意流量识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |