CN113904846A - 结合高斯混合模型与排序学习的多阶段入侵检测方法 - Google Patents

结合高斯混合模型与排序学习的多阶段入侵检测方法 Download PDF

Info

Publication number
CN113904846A
CN113904846A CN202111174292.7A CN202111174292A CN113904846A CN 113904846 A CN113904846 A CN 113904846A CN 202111174292 A CN202111174292 A CN 202111174292A CN 113904846 A CN113904846 A CN 113904846A
Authority
CN
China
Prior art keywords
samples
sample
prediction result
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111174292.7A
Other languages
English (en)
Other versions
CN113904846B (zh
Inventor
金福生
陈梦楠
袁野
王树良
王国仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111174292.7A priority Critical patent/CN113904846B/zh
Publication of CN113904846A publication Critical patent/CN113904846A/zh
Application granted granted Critical
Publication of CN113904846B publication Critical patent/CN113904846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)

Abstract

结合高斯混合模型与排序学习的多阶段入侵检测方法,S1获取恶意入侵流量数据得到网络流量特征数据集;S2将网络流量特征数据集进行划分并提取最优特征;S3对先验信息集进行预测得到错误分类样本和重叠样本分布情况;S4将错误样本与最优特征测试集进行特征值匹配,通过模型预测得到第一阶段预测结果;S5结合错误样本分布情况,得到重叠样本与非重叠样本,以重叠样本的先验信息为该重叠样本制定预测标签,得到第二阶段预测结果;S6对非重叠样进行分类预测得到第一拼接向量;S7将第一拼接向量通过排序学习模型预测,得到第三阶段预测结果;结合高斯混合模型以及排序学习解决同特征不同标签的样本以及类别易混淆样本分类效果差的问题。

Description

结合高斯混合模型与排序学习的多阶段入侵检测方法
技术领域
本发明属于学习入侵检测技术领域,更具体的说是涉及一种结合高斯混合模型与排序学习的多阶段入侵检测方法。
背景技术
入侵检测是指系统通过对已有网络流量数据进行学习,捕捉正常流量数据与恶意流量数据之间的区别,从而判别出恶意流量数据的过程。
入侵场景下存在以下两种情况:1)网络入侵数据大都是packet-based或flow-based,导致提取出的特征维度较低,使得具有类似特性的入侵类型会得到相同的特征,由此造成入侵数据中出现特征值相同但标签不同的样本。2)网络入侵数据中各类入侵类型包含的范围较为模糊,由此造成概念宽泛的入侵类型之间范围交叉,导致范围交叉的入侵类型之间混淆程度大,难以正确分类。且当某种特征组合的的样本未被正确分类时,其对应的所有同特征样本都会被误分类,由此会极大地影响入侵检测系统的表现。
因此,如何提供一种入侵检测方法,能够提升模型在识别同特征不同标签样板以及类别易混淆样本的入侵检测方法是本领域亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种结合高斯混合模型与排序学习的多阶段入侵检测方法,够在入侵检测效果的基础上,进一步提升模型在识别同特征不同标签的样本以及类别易混淆样本的效果。
为了实现上述技术效果,采取以下技术方案:
一种结合高斯混合模型与排序学习的多阶段入侵检测方法,包括以下步骤:
S1:获取恶意入侵流量数据并进行特征提取和预处理得到网络流量特征数据集;
S2:将所述网络流量特征数据集进行过采样,划分并提取最优特征得到最优特征先验信息集、最优特征训练集和最优特征测试集;
S3:通过最优特征训练集训练出第一LightGBM模型,通过所述第一LightGBM模型对所述先验信息集进行预测得到错误分类样本和重叠样本分布情况;
S4:将所述错误分类样本与所述最优特征测试集进行特征值匹配,通过所述第一LightGBM模型对未成功匹配的样本进行预测得到第一阶段预测结果;
S5:将S4中成功匹配的样本作为同特征训练样本并根据所述重叠样本分布情况,得到重叠样本与非重叠样本,以所述重叠样本的先验信息为该重叠样本制定预测标签,得到第二阶段预测结果;
S6:将所述测试集非重叠样本进行升维得到高维测试集非重叠样本,将该高维测试集非重叠样本直接进行分类预测的预测结果和结合高斯混合模型后的分类预测结果进行结合得到第一拼接向量;
S7:将所述第一拼接向量通过预先构建的排序学习模型进行预测,得到第三阶段预测结果;
S8:结合第一阶段预测结果、第二阶段预测结果和第三阶段预测结果判断入侵数据类型。
进一步的,S1中,所述预处理包括填充空值、讲标型特征转换成数值型特征和特征缩放。
进一步的,S2包括:将所述网络流量特征数据集按照70%、15%、15%的比例划分为训练集、先验信息集和测试集,使用OBLR重采样策略对训练集进行过采样得到采样后的训练集,并使用遗传算法对先验信息集、测试集和采样后的训练集,进行特征选择,得到最优特征先验信息集、最优特征训练集和最优特征测试集。
进一步的,S6包括:
S61:从高维测试集非重叠样本中选取样本训练出第二LightGBM模型;
S62:使用高斯混合模型为所述高维测试集非重叠样本拟合高斯模型类别标签;
S63:对同一个高斯模型类别标签的样本进行特征值加权求和,得到第一代表样本;
S64:通过所述第二LightGBM模型对所述第一代表样本进行分类预测得到第一预测结果;
S65:通过所述第二LightGBM模型对高维测试集非重叠样本进行分类预测得到第二预测结果;
S66:将所述第一预测结果和所述第二预测结果进行线性拼接得到第一拼接向量。
进一步的,S7包括:
S71:从最优特征训练集中随机选择30000个训练样本进行核主成分分析处理,得到特征维数为100维的训练样本;
S72:从特征维数为100的训练样本中划分出15000个样本训练出第三LightGBM模型;划分出7000个样本通过高斯混合模型为每个样本拟合高斯模型类别标签,并通过对同一个高斯模型类别标签的样本进行特征值加权求和,得到第二代表样本;
S73:通过第三LightGBM模型对第二代表样本进行预测得到第三预测结果;通过第三LightGBM模型对S72中7000个样本进行预测得到第四预测结果;
S74:将第三预测结果和第四预测结果进行线性拼接,得到第二拼接向量;
S75:将步骤S72中同一高斯模型类别标签的所有样本进行两两组对,将每个对中两个样本所对应的第二拼接向量进行线性拼接,得到第一对特征向量,将每个对中两个样本与对应的第二拼接向量间的第一范数和第二范数拼接到第一对特征向量尾部得到排序训练样本,并通过该排序训练样本训练出排序学习模型;
S76:将高维测试集非重叠样本与S72中同一高斯模型类别标签的样本行两两组对,将每个对中两个样本分别所对应的第一拼接向量与第二拼接向量进行线性拼接,得到第二对特征向量,将每个对中两个样本与对应的第二拼接向量间的第一范数和第二范数拼接到第二对特征向量尾部得到排序测试样本;
S77:通过S75中得到的排序学习模型对S76中的排序测试样本进行预测,得到排序结果;
S78:从排序结果中提取出排名第一的对,以该对中异于高维测试集非重叠样本的另一样本所对应的真实标签作为第三阶段预测结果。
本发明的有益效果:
(1)针对实际入侵数据特征,额外划分出先验信息集,用来帮助寻找测试集中假定分错的数据样本,从而实现对测试集进行更深入的黑盒探索;
(2)针对特征相同但标签不同的数据,依据先验信息集统计出重叠样本特征的分布,通过该先验知识来实现测试集中对应同特征样本的预测,从而实现了在不增加模型计算负担的条件下对重叠样本的分类;
(3)针对易混淆数据的非重叠数据,本文通过KPCA(核主成分分析)升维来捕捉样本之间更加细致的差异信息,并通过对高斯混合模型聚类得到的每个簇中所有样本进行加权得到“代表样本”来实现分类器的分类。
(4)本发明利用排序学习来结合各基分类器来提升模型的分类表现,能够帮助实现网络入侵数据中同特征样本的分类并进一步提升易混淆样本的分类效果。综上所述,发明人提出通过先验信息集来帮助识别同特征入侵样本,然后在通过KPCA升维后的特征上进行高斯混合模型聚类,使用得到的每个簇中的“代表样本”帮助易混淆样本进行分类,最后通过排序学习结合各基分类器提升模型综合表现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种结合高斯混合模型与排序学习的多阶段入侵检测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1,一种结合高斯混合模型与排序学习的多阶段入侵检测方法,包括以下步骤:
S1:获取恶意入侵流量数据并进行特征提取和预处理得到网络流量特征数据集;使用开源工具TCPDump捕捉包含恶意入侵信息的原始网络流量数据,并舍弃不包含恶意入侵信息的原始网络流量数据,例如Pcap文件,可以直接下载使用互联网开源的网络入侵数据集,例如UNSW-NB15以及CIC-IDS2017。
S2:将网络流量特征数据集进过采样,划分并提取最优特征得到最优特征先验信息集、最优特征训练集和最优特征测试集;使用开源工具Argus、Bro-IDS或CICFlowMeter从捕捉到的原始网络流量数据中提取出带有类别标签的数据特征,如果S1中直接使用的是经过特征提取的网络流量数据,则可以省略特征提取。
S3:通过LightGBM模型对最优特征训练集进行训练得到第一LightGBM模型,通过训练好的第一LightGBM对先验信息集进行预测得到错误分类样本和重叠样本分布情况,重叠样本为错误样本与正确样本之间重叠的样本,重叠样本的分布情况即重叠样本的先验信息;
S4:将错误样本与最优特征测试集进行特征值匹配,将未成功匹配的样本即非同特征样本使用第一LightGBM模型进行预测得到第一阶段预测结果;依据错误样本去匹配最优特征测试集中的样本,如果样本之间特征值完全相同,则视为匹配成功,并将最优特征测试集中匹配到的样本视为需要进一步分类的样本,即同特征样本,后续会结合更多信息进行分类;
S5:将S4中成功匹配的样本结合重叠样本分布情况,得到测试集重叠样本与测试集非重叠样本,以测试集重叠样本的先验信息为该测试集重叠样本制定预测标签,得到第二阶段预测结果;
S6:将测试集非重叠样本进行升维得到高维测试集非重叠样本,将该高维测试集非重叠样本直接进行分类预测的预测结果和结合高斯混合模型(GMM)后的分类预测结果进行结合得到第一拼接向量;其中,通过核主成分分析对分重叠样本进行升维,主成分参数设置为100,得到特征维数为100的高维测试集非重叠样本;
S7:将第一拼接向量通过预先构建的排序学习模型LambdaMart进行预测,得到第三阶段预测结果;
S8:结合第一阶段预测结、第二阶段预测结果和第三阶段预测结果判断入侵数据类型。
为了进一步实施上述技术方案,S1中,所述预处理包括填充空值、讲标型特征转换成数值型特征和特征缩放;将空缺的值填充为0,将标称型特征按顺序编码为数字类型,按照每个特征的最大值与10的大小关系选择不同的缩放方式,当特征的最大值小于等于10时,使用MaxMin缩放方法进行缩放,当特征的最大值大于10时,使用以2为底的对数缩放方式进行缩放。
为了进一步实施上述技术方案,S2包括:将网络流量特征数据集按照70%、15%、15%的比例划分为训练集、先验信息集和测试集,并通过OBLR重采样对训练集进行采样;使用遗传算法对先验信息集、测试集和采样后的训练集进行特征选择,得到最优特征先验信息集、最优特征训练集和最优特征测试集;在遗传算法中,设定种群大小为20,使用LightGBM对包含特征子集的数据集进行训练与预测得到的准确度(accuracy)作为遗传算法中种群的适应度函数,种群迭代20次后得到当前最优特征子集,按照最优特征子集中包含的特征结合步骤五得到的训练集与测试集选择出对应的数据特征,得到经过特征选择后的训练集与测试集。
其中,利用OBLR重采样策略计算出训练集中各少数类的过采样数量,使用开源方法SMOTE按照对应过采样数量进行重采样。先验信息集可通过其中错分样本的先验信息帮助对重叠样本进行分类。
为了进一步实施上述技术方案,S6包括:
S61:从高维测试集非重叠样本中选取30000个样本训练出第二LightGBM模型;
S62:使用scikit-learn中的高斯混合模型为高维测试集非重叠样本拟合高斯模型类别标签;
S63:对同一个高斯模型类别标签的样本进行特征值加权求和,得到每一个高斯模型对应的第一代表样本;
S64:通过第二LightGBM模型对所述第一代表样本进行分类预测得到第一预测结果,并让第一代表样本的第一预测结果作为其所在高斯模型中高维测试集非重叠样本的预测概率;
S65:通过第二LightGBM模型对高维测试集非重叠样本进行分类预测得到第二预测结果;
S66:将第一预测结果和第二预测结果进行线性拼接得到第一拼接向量,使得每一个非重叠样本对应一个第一拼接向量。
为了进一步实施上述技术方案,S7包括:
S71:从最优特征训练集中随机选择30000个训练样本进行核主成分分析(KPCA)处理,使用径向基函数作为核函数;选择30000个样本进行KPCA处理的考虑在于平衡训练效率以及转换效果;将其中的主成分参数设置为100,得到特征维数为100维的训练样本;
S72:从训练样本中划分出15000个样本训练出第三LightGBM模型;划分出7000个样本通过高斯混合模型为每个样本拟合高斯模型类别标签,并通过对同一个高斯模型类别标签的样本进行特征值加权求和,得到第二代表样本;
S73:通过第三LightGBM模型对第二代表样本进行预测得到第三预测结果;通过第三LightGBM模型对S72中7000个样本进行预测得到第四预测结果;
S74:将第三预测结果和第四预测结果进行线性拼接,得到第二拼接向量;
S75:将步骤S72中同一标签的所有样本进行两两组对,将每个对中两个样本所对应的第二拼接向量进行线性拼接,得到第一对特征向量,将每个对中两个样本与其对应的第二拼接向量间的第一范数和第二范数拼接到第一对特征向量尾部得到排序训练样本,并通过该排序训练样本训练出排序学习模型;
S76:将高维测试集非重叠样本与S72中同一高斯模型类别标签的样本行两两组对,将每个对中两个样本分别所对应的第一拼接向量与第二拼接向量进行线性拼接,得到第二对特征向量,将每个对中两个样本与对应的第二拼接向量间的第一范数和第二范数拼接到第二对特征向量尾部得到排序测试样本;
S77:通过S75中得到的排序学习模型对S76中的排序测试样本进行预测,得到排序结果;
S78:排序学习模型LambdaMart对目标损失函数NDCG进行优化,可以得到对应每个高维非重叠样本的所有对的排序结果,从排序结果中提取出排名第一的对,以该对中异于高维非重叠样本的另一样本所对应的真实标签作为第三阶段预测结果。
为了进一步实施上述技术方案,本实例使用硬件为CPU:Intel(R)Xeon(R)Silver4110 CPU@2.10GHz、GPU:GeForce RTX 2080,显存容量12GB、内存:128GB、硬盘:4TB。软件为,Ubuntu 16.04.7 LTS,CUDA(10.2),cudnn(7.1.2),deap(1.2.2),lightgbm(2.3.0),imbalanced-learn(0.4.3),numpy(1.18.5),pandas(1.0.5),scikit-learn(0.20.4);使用准确率(Accuracy)作为衡量入侵检测方法检测效果的评价指标。
在网络入侵检测问题中,需要尽可能地识别出入侵样本,以帮助系统抵御网络攻击。本发明中的方法能够结合样本先验信息、高斯混合模型以及排序学习解决同特征不同标签的样本以及类别易混淆样本分类效果差的问题,极大地提升入侵检测方法的检测效果。
本发明中结合样本先验信息、高斯混合模型与排序学习的多阶段入侵检测方法与已有方法对一组测试数据进行测试,得到各方法检测准确率的测试结果如下表所示。
Figure BDA0003294659240000101
其中,CNN指卷积神经网络,WDLSTM(weight-dropped long short-term memorynetwork)指权重下降长短期记忆人工神经网络,Accuracy是常用的评价指标。
由上表可知,本发明方法与已有方法相比,在整体准确率方面有较大提升,所以本发明所述方法能极大地提升入侵检测系统的分类效果;
由上表可知,本发明方法与已有方法相比,额外对同特征不同标签以及易混淆的样本进行了分类并进一步提升了模型在此类数据的分类效果,所以本发明所述方法针对同特征不同标签以及易混淆的样本能进一步提升模型的分类表现。
本发明方法首先使用OBLR过采样策略对少数类过采样结合遗传算法找出样本最优特征子集,通过LightGBM模型对处理后的数据集进行训练并对测试集预测得到第一阶段预测结果;使用预先划分出的先验信息集帮助找出其中错分样本与测试集同特征样本中的重叠样本的先验分布,以此来对测试集中的该部分重叠样本进行预测得到二阶段预测结果;对于上述同特征样本中的非重叠样本,本方法使用高斯混合模型对升维后的样本进行拟合,通过“代表样本”代替每个簇中样本使用LightGBM进行预测,并将该结果与直接使用高斯混合模型对升维后的样本进行预测的结果通过排序学习整合,得到三阶段预测结果。最终,三个阶段的预测结果合并得到最终预测结果。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种结合高斯混合模型与排序学习的多阶段入侵检测方法,其特征在于,包括以下步骤:
S1:获取恶意入侵流量数据并进行特征提取和预处理得到网络流量特征数据集;
S2:将所述网络流量特征数据集进行过采样,划分并提取最优特征得到最优特征先验信息集、最优特征训练集和最优特征测试集;
S3:通过最优特征训练集训练出第一LightGBM模型,通过所述第一LightGBM模型对所述先验信息集进行预测得到错误分类样本和重叠样本分布情况;
S4:将所述错误分类样本与所述最优特征测试集进行特征值匹配,通过所述第一LightGBM模型对未成功匹配的样本进行预测得到第一阶段预测结果;
S5:将S4中成功匹配的样本作为同特征训练样本并根据所述重叠样本分布情况,得到测试集重叠样本与测试集非重叠样本,以所述测试集重叠样本的先验信息为该测试集重叠样本指定预测标签,得到第二阶段预测结果;
S6:将所述测试集非重叠样本进行升维得到高维测试集非重叠样本,将该高维测试集非重叠样本直接进行分类预测的预测结果和结合高斯混合模型后的分类预测结果进行结合得到第一拼接向量;
S7:将所述第一拼接向量通过预先构建的排序学习模型进行预测,得到第三阶段预测结果;
S8:结合第一阶段预测结果、第二阶段预测结果和第三阶段预测结果判断入侵数据类型。
2.根据权利要求1中的一种结合高斯混合模型与排序学习的多阶段入侵检测方法,其特征在于,S1中,所述预处理包括填充空值、将标称型特征转换成数值型特征和特征缩放。
3.根据权利要求1中的一种结合高斯混合模型与排序学习的多阶段入侵检测方法,其特征在于,S2包括:将所述网络流量特征数据集按照70%、15%、15%的比例划分为训练集、先验信息集和测试集,使用OBLR重采样策略对训练集进行过采样得到采样后的训练集,并使用遗传算法对先验信息集、测试集和采样后的训练集,进行特征选择,得到最优特征先验信息集、最优特征训练集和最优特征测试集。
4.根据权利要求1中的一种结合高斯混合模型与排序学习的多阶段入侵检测方法,其特征在于,S6包括:
S61:从所述高维测试集非重叠样本中选取样本训练出第二LightGBM模型;
S62:使用高斯混合模型为所述高维测试集非重叠样本拟合高斯模型类别标签;
S63:对同一个高斯模型类别标签的样本进行特征值加权求和,得到第一代表样本;
S64:通过所述第二LightGBM模型对所述第一代表样本进行分类预测得到第一预测结果;
S65:通过所述第二LightGBM模型对高维测试集非重叠样本进行分类预测得到第二预测结果;
S66:将所述第一预测结果和所述第二预测结果进行线性拼接得到第一拼接向量。
5.根据权利要求4中的一种结合高斯混合模型与排序学习的多阶段入侵检测方法,其特征在于,S7包括:
S71:从最优特征训练集中随机选择30000个训练样本进行核主成分分析处理,得到特征维数为100维的训练样本;
S72:从特征维数为100的训练样本中划分出15000个样本训练出第三LightGBM模型;划分出7000个样本通过高斯混合模型为每个样本拟合高斯模型类别标签,并通过对同一个高斯模型类别标签的样本进行特征值加权求和,得到第二代表样本;
S73:通过第三LightGBM模型对第二代表样本进行预测得到第三预测结果;通过第三LightGBM模型对S72中7000个样本进行预测得到第四预测结果;
S74:将第三预测结果和第四预测结果进行线性拼接,得到第二拼接向量;
S75:将步骤S72中同一高斯模型类别标签的所有样本进行两两组对,将每个对中两个样本所对应的第二拼接向量进行线性拼接,得到第一对特征向量,将每个对中两个样本与对应的第二拼接向量间的第一范数和第二范数拼接到第一对特征向量尾部得到排序训练样本,并通过该排序训练样本训练出排序学习模型;
S76:将高维测试集非重叠样本与S72中同一高斯模型类别标签的样本行两两组对,将每个对中两个样本分别所对应的第一拼接向量与第二拼接向量进行线性拼接,得到第二对特征向量,将每个对中两个样本与对应的第二拼接向量间的第一范数和第二范数拼接到第二对特征向量尾部得到排序测试样本;
S77:通过S75中得到的排序学习模型对S76中的排序测试样本进行预测,得到排序结果;
S78:从排序结果中提取出排名第一的对,以该对中异于高维测试集非重叠样本的另一样本所对应的真实标签作为第三阶段预测结果。
CN202111174292.7A 2021-10-09 2021-10-09 结合高斯混合模型与排序学习的多阶段入侵检测方法 Active CN113904846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111174292.7A CN113904846B (zh) 2021-10-09 2021-10-09 结合高斯混合模型与排序学习的多阶段入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111174292.7A CN113904846B (zh) 2021-10-09 2021-10-09 结合高斯混合模型与排序学习的多阶段入侵检测方法

Publications (2)

Publication Number Publication Date
CN113904846A true CN113904846A (zh) 2022-01-07
CN113904846B CN113904846B (zh) 2022-06-17

Family

ID=79190652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111174292.7A Active CN113904846B (zh) 2021-10-09 2021-10-09 结合高斯混合模型与排序学习的多阶段入侵检测方法

Country Status (1)

Country Link
CN (1) CN113904846B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2922268A1 (en) * 2014-03-21 2015-09-23 Philippe Baumard Autonomous detection of incongruous behaviors
CN110138784A (zh) * 2019-05-15 2019-08-16 重庆大学 一种基于特征选择的网络入侵检测系统
CN110808945A (zh) * 2019-09-11 2020-02-18 浙江大学 一种基于元学习的小样本场景下网络入侵检测方法
CN111340843A (zh) * 2020-02-19 2020-06-26 山东大学 基于环境自适应和小样本学习的电力场景视频检测方法
CN111817982A (zh) * 2020-07-27 2020-10-23 南京信息工程大学 一种面向类别不平衡下的加密流量识别方法
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN111901340A (zh) * 2020-07-28 2020-11-06 四川大学 一种面向能源互联网的入侵检测系统及其方法
CN112115467A (zh) * 2020-09-04 2020-12-22 长沙理工大学 一种基于集成学习的半监督分类的入侵检测方法
US20210004726A1 (en) * 2019-04-05 2021-01-07 Zscaler, Inc. Machine learning model abstraction layer for runtime efficiency
CN112348090A (zh) * 2020-11-10 2021-02-09 北京航空航天大学 一种基于近邻自编码器的近邻异常检测系统
CN113313138A (zh) * 2021-04-09 2021-08-27 中国烟草总公司郑州烟草研究院 基于概率生成模型的入侵行为特征转换方法、检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2922268A1 (en) * 2014-03-21 2015-09-23 Philippe Baumard Autonomous detection of incongruous behaviors
US20210004726A1 (en) * 2019-04-05 2021-01-07 Zscaler, Inc. Machine learning model abstraction layer for runtime efficiency
CN110138784A (zh) * 2019-05-15 2019-08-16 重庆大学 一种基于特征选择的网络入侵检测系统
CN110808945A (zh) * 2019-09-11 2020-02-18 浙江大学 一种基于元学习的小样本场景下网络入侵检测方法
CN111340843A (zh) * 2020-02-19 2020-06-26 山东大学 基于环境自适应和小样本学习的电力场景视频检测方法
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN111817982A (zh) * 2020-07-27 2020-10-23 南京信息工程大学 一种面向类别不平衡下的加密流量识别方法
CN111901340A (zh) * 2020-07-28 2020-11-06 四川大学 一种面向能源互联网的入侵检测系统及其方法
CN112115467A (zh) * 2020-09-04 2020-12-22 长沙理工大学 一种基于集成学习的半监督分类的入侵检测方法
CN112348090A (zh) * 2020-11-10 2021-02-09 北京航空航天大学 一种基于近邻自编码器的近邻异常检测系统
CN113313138A (zh) * 2021-04-09 2021-08-27 中国烟草总公司郑州烟草研究院 基于概率生成模型的入侵行为特征转换方法、检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FUSHENG JIN,MANGNAN CHEN,WEIWEI ZHANG,YE YUAN,SHULIANG WANG: "Intrusion detection on internet of vehicles via combining log-ratio oversampling,outlier detection and metric learning", 《INFORMATION SCIENCES》, 26 August 2021 (2021-08-26) *
HUU-DANH,TUAN DINH LE,THANH NGUYEN YU: "Static PE Malware Detection Using Gradient Boosting Decision Trees Algorithm", 《SPRINGERLINK》, 27 October 2018 (2018-10-27) *
胡枫杰: "基于LightGBM网络入侵检测系统的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, 31 May 2021 (2021-05-31) *

Also Published As

Publication number Publication date
CN113904846B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN111181939A (zh) 一种基于集成学习的网络入侵检测方法及装置
US10013636B2 (en) Image object category recognition method and device
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN109376786A (zh) 一种图像分类方法、装置、终端设备及可读存储介质
CN110717554B (zh) 图像识别方法、电子设备及存储介质
CN109934269B (zh) 一种电磁信号的开集识别方法和装置
CN110808971B (zh) 一种基于深度嵌入的未知恶意流量主动检测系统及方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN113095442A (zh) 基于半监督学习在多维度雷达数据下的冰雹识别方法
CN112990286A (zh) 一种数据不平衡场景下的恶意流量检测方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN111343147A (zh) 一种基于深度学习的网络攻击检测装置及方法
CN112367274A (zh) 一种工控未知协议流量识别方法
CN114139624A (zh) 一种基于集成模型挖掘时间序列数据相似性信息的方法
CN114239384A (zh) 一种基于非线性度量原型网络的滚动轴承故障诊断方法
CN113904846B (zh) 结合高斯混合模型与排序学习的多阶段入侵检测方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN104468276A (zh) 基于随机抽样多分类器的网络流量识别方法
CN110995713A (zh) 一种基于卷积神经网络的僵尸网络检测系统及方法
CN116015708A (zh) 基于深度学习预测不确定性的恶意流量开集识别方法及装置
CN115497564A (zh) 一种鉴定抗原模型建立方法及鉴定抗原方法
CN115331055A (zh) 一种基于对比思想和集成判别的图像开集识别方法
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
CN113837271A (zh) 一种基于特征选择的分类改进算法
CN113313138A (zh) 基于概率生成模型的入侵行为特征转换方法、检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant