CN116702132A - 网络入侵检测方法及系统 - Google Patents
网络入侵检测方法及系统 Download PDFInfo
- Publication number
- CN116702132A CN116702132A CN202310656699.6A CN202310656699A CN116702132A CN 116702132 A CN116702132 A CN 116702132A CN 202310656699 A CN202310656699 A CN 202310656699A CN 116702132 A CN116702132 A CN 116702132A
- Authority
- CN
- China
- Prior art keywords
- forest
- decision tree
- sub
- value
- network intrusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 238000003066 decision tree Methods 0.000 claims abstract description 141
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000007637 random forest analysis Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 3
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/566—Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Virology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供网络入侵检测方法及系统,能够有效提高分类检测能力,使得网络入侵检测模型具有很好的检测准确性。方法包括:拆分原始数据得到训练集和测试集,再经过数据处理后得到RDD数据,以便分布式处理;使用训练数据并行构建级联层深度森林,并划分子森林并行计算;使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林;使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;对级联每一层都采用前述过程进行优化和训练,得到最终的网络入侵检测模型;采用网络入侵检测模型对网络访问数据进行检测。
Description
技术领域
本发明属于网络入侵检测技术领域,具体涉及网络入侵检测方法及系统。
背景技术
在计算机视觉、信息安全和医学等领域,数据分类经常受到一类数据分布的偏斜影响。深度森林算法是一种集成学习算法,由随机森林和极端随机森林组成,其在不平衡学习领域得到了众多学者的青睐,另外,其具有良好的可并行性。在大数据时代下,不论是传统的基于统计学的机器学习算法还是近年来新兴大火的各种深度学习手段都被国内外研究者针对不平衡学习领域的特点进行改造,应用于该领域。
网络入侵数据集的显著特点就是数据不均衡和数据规模大,常见的机器学习算法,如逻辑回归算法、随机森林算法等在直接训练这类不均衡数据集时,效果都会大打折扣。所以常用的处理方式是,先将机器学习算法进行改进,然后再用改进后算法进行集成训练。深度森林作为一种较新的集成学习算法,其组成包括随机森林和极端随机森林,但在处理大规模数据时,随机森林数量限制了其并行计算的程度,用于网络入侵检测则会影响检测准确性。
发明内容
为了解决上述问题,本发明提供了网络入侵检测方法及系统,能够有效提高分类检测能力,防止决策树对某些样本数据的识别能力趋于一致,使得网络入侵检测模型具有很好的检测准确性。
本发明采用了以下方案:
<方法>
本发明提供网络入侵检测方法,包括以下步骤:
步骤1,对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集;
步骤2,拆分原始数据得到训练集和测试集,再经过数据处理后得到RDD数据,以便分布式处理;
步骤3,使用训练数据并行构建级联层深度森林,并划分子森林并行计算;
步骤4,使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林;
步骤4.1,计算各节点的AUCi值;
步骤4.2,基于每个节点的AUCi得到相应决策树的AUC值:
式中,k为节点数量,ni为第i个节点的样本数,AUCi为第i个节点的AUC值;
然后将决策树的AUC值按从大到小顺序排列,保留预定比例的AUC值高的决策树;
步骤4.3,计算决策树内积和,计算公式如下:
式中,k为包括决策树根节点在内的非叶子节点索引,采用深度优先策略遍历这些节点,在遍历的同时获得该节点分裂时的特征索引和特征值,对节点中的(i,v)对计算内积和S;
步骤4.4,基于步骤4.3,对每个子森林:比较任意决策树与其他决策树的内积和差值,将比较的目标记为目标决策树,将与之比较的其他决策树记为比较决策树;对于每个目标决策树,遍历计算其与所有比较决策树的内积和差值,并求取均值:
式中,P为目标决策树上的非叶节点总数,Q为比较决策树上的非叶节点总数,p和q分别是目标决策树P和比较决策树Q上非叶节点的序号,ip+1和iq+1分别为序号为p+1和q+1的特征索引,vp+1和iq+1分别为序号为p+1和q+1基尼系数最小的特征值;Amn为含有m个决策树的子森林中第n个子决策树内积和差值的均值;
步骤4.5,将每个子森林中所有Amn>阈值的目标决策树保留,每个子森林中保留的决策树形成新的子森林,所有新的子森林形成优化过的深度森林模型;
步骤5,使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;
步骤6,对级联每一层都采用步骤4和5进行优化,训练得到最终的网络入侵检测模型;
步骤7,采用网络入侵检测模型对网络访问数据进行检测。
优选地,本发明提供的网络入侵检测方法,在步骤4.2中,预定比例为3/4~1/2范围内任意值。
优选地,本发明提供的网络入侵检测方法,在步骤4.5中,阈值为25~35范围内任意值。
优选地,本发明提供的网络入侵检测方法,在步骤4.2中,预定比例A为2/3;在步骤4.5中阈值为30。
优选地,本发明提供的网络入侵检测方法,步骤3包括以下子步骤:
步骤3.1,使划分前后深度森林所产生的类向量保持完全一致;设子森林中决策树数量为m,则样本类向量的输出为:
式中,ui为子森林中第i棵树产生的类向量;
步骤3.2,设原深度森林中总共有M棵树,划分出的子森林数为G,则最终类向量为:
式中,mg为第g个子森林中决策树的数量;Q(mg)为第g个子森林输出的最终类向量。
优选地,本发明提供的网络入侵检测方法,在步骤4.1中,第i个节点的AUC值AUCi:
式中,1[f(t0)<f(t1)]为一个指示函数,当f(t0)<f(t1)时返回1,否则返回0;Di 0是第i个节点的反例集合,Di 1是第i个节点的正例集合。
<系统>
进一步,本发明还提供了网络入侵检测系统,能够自动实现上述<方法>,包括:
数据获取部,对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集;
预处理部,拆分原始数据得到训练集和测试集,再经过数据处理后得到RDD数据,以便分布式处理;
级联模型构建部,使用训练数据并行构建级联层深度森林,并划分子森林并行计算;
优化部,执行以下步骤4.1~4.5,使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林;
步骤4.1,计算各节点的AUCi值;
步骤4.2,基于每个节点的AUCi得到相应决策树的AUC值:
式中,k为节点数量,ni为第i个节点的样本数,AUCi为第i个节点的AUC值;
然后将决策树的AUC值按从大到小顺序排列,保留预定比例的AUC值高的决策树;
步骤4.3,计算决策树内积和,计算公式如下:
式中,k为包括决策树根节点在内的非叶子节点索引,采用深度优先策略遍历这些节点,在遍历的同时获得该节点分裂时的特征索引和特征值,对节点中的(i,v)对计算内积和S;
步骤4.4,基于步骤4.3,对每个子森林:比较任意决策树与其他决策树的内积和差值,将比较的目标记为目标决策树,将与之比较的其他决策树记为比较决策树;对于每个目标决策树,遍历计算其与所有比较决策树的内积和差值,并求取均值:
式中,P为目标决策树上的非叶节点总数,Q为比较决策树上的非叶节点总数,p和q分别是目标决策树P和比较决策树Q上非叶节点的序号,ip+1和iq+1分别为序号为p+1和q+1的特征索引,vp+1和iq+1分别为序号为p+1和q+1基尼系数最小的特征值;Amn为含有m个决策树的子森林中第n个子决策树内积和差值的均值;
步骤4.5,将每个子森林中所有Amn>阈值的目标决策树保留,每个子森林中保留的决策树形成新的子森林,所有新的子森林形成优化过的深度森林模型;
训练部,使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;
检测模型生成部,对级联每一层都采用优化部和训练部进行优化、训练,得到最终的网络入侵检测模型;
检测部,采用网络入侵检测模型对网络访问数据进行检测;
控制部,与数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部均通信相连,控制它们的运行。
优选地,本发明提供的网络入侵检测系统,还可以包括:输入显示部,与控制部通信相连,用于让用户输入操作指令,并进行相应显示。
优选地,本发明提供的网络入侵检测系统,在优化部中,预定比例为3/4~1/2范围内任意值。
优选地,本发明提供的网络入侵检测系统,在优化部中,阈值为25~35范围内任意值。
发明的作用与效果
本发明将深度森林算法作为网络入侵检测模型中的分类器,将深度森林划分为了多个子森林并行计算,在分布式计算中,每个节点训练出一个局部模型,然后将所有局部模型的预测结果进行聚合,得到全局模型的预测结果。在计算AUC时,将每个节点的AUCi进行加权平均得到相应决策树的AUC值,并将决策树的AUC值按从大到小顺序排列,保留预定比例的AUC值高的决策树;进一步,对每个子森林,比较任意决策树与其他决策树的内积和差值,进而得到差值累加的平均值Amn,将每个子森林中所有Amn>阈值的目标决策树保留形成新的子森林,所有新的子森林形成优化过的深度森林模型;通过此对模型的每一级联层进行优化。能够充分提高模型的分类能力,特别是对不平衡数据的分类能力,有效防止了决策树对某些样本数据的识别能力趋于一致。本发明最终生成的网络入侵检测模型具有很好的检测准确性,并且有效提高了算法的并行度,加快了入侵检测的速度,适用于大规模数据处理。并且,本发明分布式设计提高了方法的可扩展性和可靠性。
附图说明
图1为本发明实施例一涉及的网络入侵检测方法的主要处理过程的流程图;
图2为发明实施例一涉及的网络入侵检测方法的具体处理过程的流程图。
具体实施方式
以下结合附图对本发明涉及的网络入侵检测方法及系统的具体实施方案进行详细地说明。
<实施例一>
如图1~2所示,本实施例提供的网络入侵检测方法,该方法包含以下步骤:
步骤1,先对从UCI数据库中直接拿到的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集。这里数据库不限于UCI数据库,也可以采用NSL-KDD、CIC-IDS-2017、CIC-IDS-2018、UNSW-NB15等二分类异常检测数据集。
步骤2,拆分原始数据得到训练集和测试集,再经过数据处理后得到RDD数据,以便分布式处理。
步骤3,使用训练数据并行构建级联层随机森林,并划分子森林并行计算。具体实现包含以下子步骤:
步骤3.1,保证划分前后随机森林所产生的类向量保持完全一致。设子森林中决策树数量为m,则样本类向量的输出为:
式中,ui为子森林中第i棵树产生的类向量。
步骤3.2,若原森林中总共有M棵树,划分出的子森林数为G,则最终类向量为:
式中,mg为第g个子森林中决策树的数量,Q(mg)为第g个子森林输出的最终类向量。
步骤4,使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成随机森林。具体实现包含以下子步骤:
步骤4.1,计算各节点的AUCi值,其定义为:
式中,1[f(t0)<f(t1)]是一个指示函数,当f(t0)<f(t1)时返回1,否则返回0,
Di 0是反例集合,Di 1是正例集合。
步骤4.2,基于每个节点的AUCi得到相应决策树的AUC值:
上式中,k为节点数量,ni为第i个节点的样本数,AUCi为第i个节点的AUC值。
然后将决策树的AUC值按从大到小顺序排列,保留2/3的AUC值高的决策树;
步骤4.3,计算决策树内积和,计算公式如下:
式中,k为包括决策树根节点在内的非叶子节点索引,这里采用了深度优先策略遍历这些节点,在遍历的同时获得该节点分裂时的特征索引和特征值,对节点中的(i,v)对计算内积和S。
步骤4.4,计算子森林内积和用于分布式处理,假设子森林由l棵深度为D的决策树组成,每个非叶节点向量为vi,输入数据为x,则内积和的输出可以表示为:
式中,ωij为第j棵树的第i个节点的权重向量,这里的νij是vi的一个子集。
步骤4.5,对每个子森林:比较任意决策树与其他决策树的内积和差值,将比较的目标记为目标决策树,将与之比较的其他决策树记为比较决策树;对于每个目标决策树,遍历计算其与所有比较决策树(即、当前子森林中除该目标决策树以外的其余每个决策树)的内积和差值,并求取均值:
式中,P为目标决策树上的非叶节点总数,Q为比较决策树上的非叶节点总数,p和q分别是目标决策树P和比较决策树Q上非叶节点的序号,ip+1和iq+1分别为序号为p+1和q+1的特征索引,vp+1和iq+1分别为序号为p+1和q+1基尼系数最小的特征值;Amn为含有m个决策树的子森林中第n个子决策树内积和差值的均值;
步骤4.6,将每个子森林中所有Amn>30的目标决策树保留,每个子森林中保留的决策树形成新的子森林,所有新的子森林形成优化过的深度森林模型;
步骤5,使用验证集对当前级联层的模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层。
步骤6,在级联每一层都采用步骤4和5对随机森林进行相似度优化和训练,得到最终的网络入侵检测模型。
步骤7,采用步骤6中训练好的网络入侵检测模型对网络访问数据进行检测。
为了验证本发明方法的效果,本实施例中,还对构建的优化过的深度森林模型(LCHCDF)进行了测试:
首先,从UCI公共数据库中随机选择13个不平衡数据集,按照7:3的比例划分训练集和测试集,将测试集输入由训练集训练好的不平衡数据分类模型中,将模型预测值与测试集的标签进行比较。
然后,设计基准模型进行对比实验,采用绝对百分比误差MAPE评价指标的排名来评估拟合模型的优劣。MAPE的排名越接近0,代表模型拟合误差越小,拟合精度越高。
本实施例中主要对比的基线模型包括Adaboost、XGBoost、深度森林(DF)和相似度优化深度森林。表1给出了四个模型的训练参数,表2给出了四个模型对不平衡数据的预测结果,从中可以看出本发明所构建的不平衡分类模型的MAPE的平均排名为1.15,拟合结果精度最高,表示本发明构建的不平衡数据分类模型可在较高的置信水平下对不平衡数据中的少数类样本进行有效识别、分类,有利于准确、有效地对网络入侵进行识别检测。
表1各算法参数配置情况
表2各算法对13个UCI数据集的分类准确度比较情况
<实施例二>
进一步,本实施例二中提供能够自动实现以上本发明方法的网络入侵检测系统,该系统包括数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部、输入显示部、控制部。
数据获取部用于执行上文步骤1所描述的内容,对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集;
预处理部用于执行上文步骤2所描述的内容,拆分原始数据得到训练集和测试集,再经过数据处理后得到RDD数据,以便分布式处理;
级联模型构建部用于执行上文步骤3所描述的内容,使用训练数据并行构建级联层深度森林,并划分子森林并行计算;
优化部用于执行上文步骤4所描述的内容,使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林。
训练部用于执行上文步骤5所描述的内容,使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;
检测模型生成部用于执行上文步骤6所描述的内容,对级联每一层都采用优化部和训练部进行优化、训练,得到最终的网络入侵检测模型;
检测部用于执行上文步骤7所描述的内容,采用网络入侵检测模型对网络访问数据进行检测;
输入显示部用于让用户输入操作指令,并进行相应显示。
控制部与数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部、输入显示部均通信相连,控制它们的运行。
以上实施例仅仅是对本发明技术方案所做的举例说明。本发明所涉及的网络入侵检测方法及系统并不仅仅限定于在以上实施例中所描述的内容,而是以权利要求所限定的范围为准。本发明所属领域技术人员在该实施例的基础上所做的任何修改或补充或等效替换,都在本发明的权利要求所要求保护的范围内。
Claims (10)
1.网络入侵检测方法,其特征在于,包括:
步骤1,对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集;
步骤2,拆分原始数据得到训练集和测试集,再经过数据处理后得到RDD数据,以便分布式处理;
步骤3,使用训练数据并行构建级联层深度森林,并划分子森林并行计算;
步骤4,使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林;
步骤4.1,计算各节点的AUCi值;
步骤4.2,基于每个节点的AUCi得到相应决策树的AUC值:
式中,k为节点数量,ni为第i个节点的样本数,AUCi为第i个节点的AUC值;
然后将决策树的AUC值按从大到小顺序排列,保留预定比例的AUC值高的决策树;
步骤4.3,计算决策树内积和,计算公式如下:
式中,k为包括决策树根节点在内的非叶子节点索引,采用深度优先策略遍历这些节点,在遍历的同时获得该节点分裂时的特征索引和特征值,对节点中的(i,v)对计算内积和S;
步骤4.4,基于步骤4.3,对每个子森林:比较任意决策树与其他决策树的内积和差值,将比较的目标记为目标决策树,将与之比较的其他决策树记为比较决策树;对于每个目标决策树,遍历计算其与所有比较决策树的内积和差值,并求取均值:
式中,P为目标决策树上的非叶节点总数,Q为比较决策树上的非叶节点总数,p和q分别是目标决策树P和比较决策树Q上非叶节点的序号,ip+1和iq+1分别为序号为p+1和q+1的特征索引,vp+1和iq+1分别为序号为p+1和q+1基尼系数最小的特征值;Amn为含有m个决策树的子森林中第n个子决策树内积和差值的均值;
步骤4.5,将每个子森林中所有Amn>阈值的目标决策树保留,每个子森林中保留的决策树形成新的子森林,所有新的子森林形成优化过的深度森林模型;
步骤5,使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;
步骤6,对级联每一层都采用步骤4和5进行优化,训练得到最终的网络入侵检测模型;
步骤7,采用网络入侵检测模型对网络访问数据进行检测。
2.根据权利要求1所述的网络入侵检测方法,其特征在于:
其中,在步骤4.2中,预定比例为3/4~1/2范围内任意值。
3.根据权利要求1所述的网络入侵检测方法,其特征在于:
其中,在步骤4.5中,阈值为25~35范围内任意值。
4.根据权利要求1所述的网络入侵检测方法,其特征在于:
其中,在步骤4.2中,预定比例A为2/3;在步骤4.5中阈值为30。
5.根据权利要求1所述的网络入侵检测方法,其特征在于:
其中,步骤3包括以下子步骤:
步骤3.1,使划分前后深度森林所产生的类向量保持完全一致;设子森林中决策树数量为m,则样本类向量的输出为:
式中,ui为子森林中第i棵树产生的类向量;
步骤3.2,设原深度森林中总共有M棵树,划分出的子森林数为G,则最终类向量为:
式中,mg为第g个子森林中决策树的数量;Q(mg)为第g个子森林输出的最终类向量。
6.根据权利要求1所述的网络入侵检测方法,其特征在于:
其中,在步骤4.1中,第i个节点的AUC值AUCi:
式中,1[f(t0)<f(t1)]为一个指示函数,当f(t0)<f(t1)时返回1,否则返回0;Di 0是第i个节点的反例集合,Di 1是第i个节点的正例集合。
7.网络入侵检测系统,其特征在于,包括:
数据获取部,对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集;
预处理部,拆分原始数据得到训练集和测试集,再经过数据处理后得到RDD数据,以便分布式处理;
级联模型构建部,使用训练数据并行构建级联层深度森林,并划分子森林并行计算;
优化部,执行以下步骤4.1~4.5,使用验证数据并行评估模型的AUC值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林;
步骤4.1,计算各节点的AUCi值;
步骤4.2,基于每个节点的AUCi得到相应决策树的AUC值:
式中,k为节点数量,ni为第i个节点的样本数,AUCi为第i个节点的AUC值;
然后将决策树的AUC值按从大到小顺序排列,保留预定比例的AUC值高的决策树;
步骤4.3,计算决策树内积和,计算公式如下:
式中,k为包括决策树根节点在内的非叶子节点索引,采用深度优先策略遍历这些节点,在遍历的同时获得该节点分裂时的特征索引和特征值,对节点中的(i,v)对计算内积和S;
步骤4.4,基于步骤4.3,对每个子森林:比较任意决策树与其他决策树的内积和差值,将比较的目标记为目标决策树,将与之比较的其他决策树记为比较决策树;对于每个目标决策树,遍历计算其与所有比较决策树的内积和差值,并求取均值:
式中,P为目标决策树上的非叶节点总数,Q为比较决策树上的非叶节点总数,p和q分别是目标决策树P和比较决策树Q上非叶节点的序号,ip+1和iq+1分别为序号为p+1和q+1的特征索引,vp+1和iq+1分别为序号为p+1和q+1基尼系数最小的特征值;Amn为含有m个决策树的子森林中第n个子决策树内积和差值的均值;
步骤4.5,将每个子森林中所有Amn>阈值的目标决策树保留,每个子森林中保留的决策树形成新的子森林,所有新的子森林形成优化过的深度森林模型;
训练部,使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;
检测模型生成部,对级联每一层都采用优化部和训练部进行优化、训练,得到最终的网络入侵检测模型;
检测部,采用网络入侵检测模型对网络访问数据进行检测;
控制部,与数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部均通信相连,控制它们的运行。
8.根据权利要求7所述的网络入侵检测系统,其特征在于,还包括:
输入显示部,与控制部通信相连,用于让用户输入操作指令,并进行相应显示。
9.根据权利要求7所述的网络入侵检测系统,其特征在于:
其中,在优化部中,预定比例为3/4~1/2范围内任意值。
10.根据权利要求7所述的网络入侵检测系统,其特征在于:
其中,在优化部中,阈值为25~35范围内任意值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656699.6A CN116702132A (zh) | 2023-06-05 | 2023-06-05 | 网络入侵检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656699.6A CN116702132A (zh) | 2023-06-05 | 2023-06-05 | 网络入侵检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116702132A true CN116702132A (zh) | 2023-09-05 |
Family
ID=87823270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310656699.6A Pending CN116702132A (zh) | 2023-06-05 | 2023-06-05 | 网络入侵检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116702132A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117081858A (zh) * | 2023-10-16 | 2023-11-17 | 山东省计算中心(国家超级计算济南中心) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 |
CN118152937A (zh) * | 2024-05-09 | 2024-06-07 | 东北石油大学三亚海洋油气研究院 | 岩性识别模型的训练方法、装置、电子设备及存储介质 |
-
2023
- 2023-06-05 CN CN202310656699.6A patent/CN116702132A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117081858A (zh) * | 2023-10-16 | 2023-11-17 | 山东省计算中心(国家超级计算济南中心) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 |
CN117081858B (zh) * | 2023-10-16 | 2024-01-19 | 山东省计算中心(国家超级计算济南中心) | 一种基于多决策树入侵行为检测方法、系统、设备及介质 |
CN118152937A (zh) * | 2024-05-09 | 2024-06-07 | 东北石油大学三亚海洋油气研究院 | 岩性识别模型的训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nabil et al. | Prediction of students’ academic performance based on courses’ grades using deep neural networks | |
CN111444247B (zh) | 一种基于kpi指标的根因定位方法、装置及存储介质 | |
Jin et al. | An improved ID3 decision tree algorithm | |
CN116702132A (zh) | 网络入侵检测方法及系统 | |
CN110059852A (zh) | 一种基于改进随机森林算法的股票收益率预测方法 | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
CN111752995A (zh) | 一种学生数据挖掘系统及方法 | |
CN108876100A (zh) | 基于ism和ahp的神经网络食品安全风险预测模型 | |
Lottering et al. | A model for the identification of students at risk of dropout at a university of technology | |
CN115688024A (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN111062511B (zh) | 基于决策树与神经网络的水产养殖病害预测方法及系统 | |
Bruzzese et al. | DESPOTA: DEndrogram slicing through a pemutation test approach | |
Pan et al. | Network intrusion detection model based on PCA+ ADASYN and XGBoost | |
CN109409522B (zh) | 一种基于集成学习的生物网络推理算法 | |
CN113516189B (zh) | 基于两阶段随机森林算法的网站恶意用户预测方法 | |
CN113469288A (zh) | 融合多个机器学习算法的高危人员预警方法 | |
Kim et al. | Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams | |
Zhang et al. | Credit risk control algorithm based on stacking ensemble learning | |
CN117216375A (zh) | 一种信息推荐的训练方法、系统及存储介质和服务器 | |
Wang et al. | Feature selection methods in the framework of mRMR | |
CN109977030A (zh) | 一种深度随机森林程序的测试方法及设备 | |
CN111221704B (zh) | 一种确定办公管理应用系统运行状态的方法及系统 | |
Heredia-Márquez et al. | Feature Selection Ordered by Correlation-FSOC | |
Zhou et al. | Optimization of random forests algorithm based on ReliefF-SA | |
Liang et al. | A feature selection method based on improved genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |