CN115189942A - 一种伪标签引导下的多视角共识图半监督网络入侵检测系统 - Google Patents

一种伪标签引导下的多视角共识图半监督网络入侵检测系统 Download PDF

Info

Publication number
CN115189942A
CN115189942A CN202210804666.7A CN202210804666A CN115189942A CN 115189942 A CN115189942 A CN 115189942A CN 202210804666 A CN202210804666 A CN 202210804666A CN 115189942 A CN115189942 A CN 115189942A
Authority
CN
China
Prior art keywords
label
view
sample
network intrusion
intrusion detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210804666.7A
Other languages
English (en)
Inventor
王喆
李冬冬
郭威
吴松洋
冷悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Third Research Institute of the Ministry of Public Security
Original Assignee
East China University of Science and Technology
Third Research Institute of the Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology, Third Research Institute of the Ministry of Public Security filed Critical East China University of Science and Technology
Priority to CN202210804666.7A priority Critical patent/CN115189942A/zh
Publication of CN115189942A publication Critical patent/CN115189942A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种伪标签引导下的多视角共识图半监督网络入侵检测系统,包括为无标签入侵数据确定高置信度的伪标签,以及利用伪标签来指导共识图的学习过程。首先在入侵数据的各个视角采用K近邻法为无标签入侵数据分配多个伪标签,然后选择在所有视角中伪标签一致的无标签入侵数据对应的伪标签信息引入多视角共识图的学习优化过程。最终学习的最优共识图用于传播标签信息以得到最终网络入侵检测结果。本发明弥补了现有的半监督多视角网络入侵检测系统无法充分利用有限标签入侵数据的监督信息的缺陷,能生成额外的监督信息最终获得更好的网络入侵检测性能。

Description

一种伪标签引导下的多视角共识图半监督网络入侵检测系统
技术领域
本发明涉及一种伪标签引导下的多视角共识图半监督网络入侵检测系统,属于数据分类领域。
背景技术
随着信息时代的到来和互联网的普及,网络攻击对个人、公司及国家信息安全的威胁日益严重。如何准确识别当前访问是否为异常访问,并判断该异常访问所属攻击类别以快速部署相应防御措施,是网络入侵检测的主要研究内容。但由于存在海量的网络访问数据,而给海量网络数据打标签需要耗费大量的人力、物力,因此在实际操作中并不可行。半监督学习因为其可以仅利用少量标签样本的监督信息实现对大量无监督样本的分类,近年来成为网络入侵检测的主要手段之一。
不同类型的特征提取器可针对相同网络入侵样本采集到多种类型的数据特征以全面描述样本目标,其中每种类型的特征可以看作是样本的一个视角。合理利用此类异构多视角的数据可以大幅提升入侵检测的精度。如何在有限的标签样本场景下合理利用多个视角的特征是设计半监督多视角网络入侵检测系统的关键。
半监督多视角网络入侵系统的设计通常至少遵循以下三个原则中的一个原则:第一个原则是在特征空间中相近的两个网络入侵样本通常属于同一种攻击类型;第二个原则是相同簇结构内的样本拥有相同的标签;第三个原则是网络入侵样本分布在一个维度远低于原始特征空间的流形空间中,而此流形空间通过一个图来表表示各样本间的关系。由于基于图的半监督分类方法显示出的良好性能,本发明致力于学习到一个高质量的多视角共识图来执行网络入侵检测任务。
发明内容
技术问题:针对现有的网络入侵检测系统无法充分利用已有标签样本的监督信息的问题,本发明提供了一种伪标签引导下的多视角共识图半监督网络入侵检测系统。该发明利用有限标签网络入侵样本的监督信息生成额外的监督信息并引入到多视角共识图的学习过程中,获得一个可以更好的估计样本流形结构的多视角共识图以执行网络入侵检测任务。
技术方案:首先,将采集到的网络入侵样本随机挑选小部分人工打上标签作为标签样本集,剩余的网络入侵样本为无标签样本集;其次,在样本的每个视角中基于标签样本并采用近邻法为无标签样本分配对应视角的伪标签;接着,选择在所有视角中伪标签一致的无标签样本作为高置信度样本,并将对应的一致伪标签信息作为额外的监督信息;进而,采用自表示子空间学习方法在每个视角中学习到视角特定图,并采用最大对齐方式,结合原有的标签样本的监督信息与额外的监督信息在优化过程中动态地学习与所有学习到的视角特定图有最小差异的多视角共识图;同时,学习到的多视角共识图可将标签样本的监督信息传播至无标签样本,并得到指示标签矩阵;最后,上述步骤被联合集成在一个统一的学习框架中,并采用坐标下降法获得每个模块的最优解,并最终得出无标签样本的分类结果。
本发明解决其技术问题所采用的技术方案还可以进一步细化。所述无标签样本的各视角伪标签由其在原始特征空间中欧式距离最近的标签样本所属的标签确定,在实践中可基于标签样本训练其他经典的单视角分类模型以获取质量更高的伪标签,进而进一步提升最终的高置信度伪标签的质量。
有益效果:本发明与现有技术相比,具有以下优点:
在不额外引入较高计算代价的基础上,利用有限的现有标签网络入侵样本的监督信息,同时遵循多视角学习的一致性原则筛选得到高置信度伪标签作为额外的监督信息引入到多视角共识图的学习过程中。与现有方法仅使用有限标签样本的监督信息不同,本发明结合已有的标签信息和额外的标签信息所学的多视角共识图可以更好的估计样本的流形结构,从而实现更准确的网络入侵检测。
不同于传统方法通常采用高斯核函数构建表示样本关系的图,本发明采用自表示子空间学习方法学习每个视角的视角特定相似图,避免了调节高斯核宽参数导致的人工成本。
本发明采用最大对齐方式,结合原有的标签样本的监督信息与额外的监督信息在优化过程中动态地学习与所有学习到的视角特定图有最小差异的多视角共识图,充分的利用了样本的监督信息,各模块以一种相互耦合,相互增强的方法寻得最优解,大大提升了网络入侵检测系统的精度。
附图说明
图1是本发明伪标签引导下的多视角共识图半监督网络入侵检测系统流程图。
图2是本发明的高置信度伪标签生成流程图。
具体实施方式
为了更清楚的描述本发明的的内容,下面结合实例和说明书附图作进一步说明。下文所提的实例并非用来限制本发明所覆盖的范围。本发明的伪标签引导下的多视角共识图半监督网络入侵检测系统,包括以下步骤:
步骤1:输入网络入侵检测数据集
Figure BDA0003736377910000031
其中n为样本总数,V表示视角总数,dv表示第v个视角的特征维度,
Figure BDA0003736377910000032
分别表示标签样本集和无标签样本集,输入标签样本标签的独热形式(one-hot)矩阵Y。
步骤2:首先获取无标签网络入侵样本的伪标签,其具体步骤如下:
步骤2.1:利用标签网络入侵样本,在所有视角中分别使用最近邻方法给所有无标签样本分配一个初始的伪标签:
步骤2.1.1:利用以下公式计算标签样本与无标签样本两两间的欧氏距离:
Figure BDA0003736377910000033
Figure BDA0003736377910000034
是样本xi和xj的距离,d表示样本维度,上标v表示第v个视角;
步骤2.1.2:根据上一步计算的距离,选择最近的标签样本为无标签样本分配伪标签。
步骤2.2:针对所有的无标签样本,对比其各视角中分配的伪标签是否一致,并选择伪标签一致的无标签样本作为高置信度样本。
步骤2.3:将高置信度样本的伪标签作为额外的监督信息输出。
步骤3:针对样本的每个视角,采用自表示学习方法动态学习视角特定图。具体操作为:
Figure BDA0003736377910000041
其中:Xv和Sv分别表示第v个视角对应的样本和学习的视角特定图,V表示视角总数,||·||F表示对应矩阵的F范数,λ表示一个大于0的正则参数,diag(·)表示对应矩阵的对角元素,1表示全是1的向量。
步骤4:采用最大对齐的方式,并结合已有标签样本的标签信息和额外的监督信息动态学得一个与所有视角特定图有最小差异的多视角共识图。具体操作为:
Figure BDA0003736377910000042
其中,A表示学习到的多视角共识图,Fi是指示标签矩阵的第i行,Aij为共识图的第i行第j列元素,Y′为根据已有标签样本确定的额外的监督信息矩阵。(3)式中第一项用以约束共识图A与各视角的视角特定图Sv有最小的差异性,第二项约束拥有较大相似度的两个样本对应的标签之间的距离更近,第三项、第四项用以约束最终传播所得的标签更接近于真实标签和伪标签。
步骤5:将上述提到的模块统一为一个联合的优化框架:
Figure BDA0003736377910000043
其中,λ、α、β、μ、γ分别为对应模块的正则化参数。该框架采用坐标下降法优化,具体步骤为:
步骤5.1:优化参数Sv,并将其他参数视为常数:
步骤5.1.1:不考虑Sv的约束条件,对公式(4)针对Sv求偏导并令其为0,可以得到Sv不考虑约束条件时的解,即:
Figure BDA0003736377910000051
步骤5.1.2:进而考虑Sv约束条件,求解下式:
Figure BDA0003736377910000052
通过构造拉格朗日函数并结合KKT条件,可以得到Sv的最优解:
Figure BDA0003736377910000053
其中
Figure BDA0003736377910000054
并且S′ii=0,
Figure BDA0003736377910000055
需要注意的是,为保证图的质量,我们仅更近第i个样本的10个最近邻样本的相似度值。
步骤5.2:优化参数A,并将其他参数视为常数:求解下式:
Figure BDA0003736377910000056
其中
Figure BDA0003736377910000057
通过构造拉格朗日函数并结合KKT条件,可以得到A的最优解:
Figure BDA0003736377910000058
其中
Figure BDA0003736377910000059
并且Aii=0,
Figure BDA00037363779100000510
步骤5.3:对公式(4)针对F求偏导并令其为0,可以得到F在当前迭代步数的闭解:
Figure BDA00037363779100000511
步骤5.4:重复步骤5.1-5.3,直至公式(4)的值收敛,即为优化完成。
步骤6:根据下式输出无标签样本的分类结果:
Figure BDA00037363779100000512
上文中根据附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不脱离本发明的精神和原理的前提下,还可以做出若干改进和等同替换。本发明权利要求进行改进和等同替换后的技术和方案,均落入本发明的保护范围。
实验设计
实验数据集选取:本发明选用常规的网络安全数据集NSL-KDD用以评估本系统完成网络入侵检测任务的效果,该数据集详细信息如下表所示:
数据集 视角数 类别数 样本数 维度
NSL-KDD 3 5 2526 464/1144/104
本发明采用一种自适应的方法确定正则参数λ、α,即针对第i个样本,其对应的正则参数值为第11个最近邻的相似度值减去前10个最近邻的相似度值之和,最终的正则参数值为所有样本的正则参数值取平均;对于正则参数β、γ采用网格搜索法分别在[10-3;10-2;10-1]和[100;101;102;103]内搜索确定最优正则参数;μ设置为1。
对比模型:本发明提出的系统命名为PMvC。我们在LP,AMMSS,SMGI,AMGL,MLAN和MVCSD之间进行性能比较。
性能度量方式:本实验采用准确率ACC作为衡量模型性能的指标。对于给定的真实标签Yi和预测标签Fi,ACC的定义如下:
Figure BDA0003736377910000061
其中,δ(Fi,Yi)只有在Fi=Yi时为1,否则为0。
实验策略:对于本发明与其他对比模型,我们分别采用其最优参数,分别在包含10%、15%、20%、25%和30%的标签样本的数据集上运行系统,并汇报10次运行结果的平均值和标准差,为了避免随机性,标签样本在10次实验中都随机选取。
实验结果如下表所示,表中数据分别对应10次独立实验结果所得的ACC指标度量下的均值及标准差,每一行对应一个算法,每一列对应一个数据集,每个数据集上的最好结果都已使用粗体标出。
Figure BDA0003736377910000071
由表中结果可知,本发明提出的PMvC在包含不同比例的标签样本的网络安全数据集上均可以达到稳定的、最优的性能,出色的完成了网络入侵检测任务。

Claims (5)

1.一种伪标签引导下的多视角共识图半监督网络入侵检测系统,其具体步骤包括:
1)数据处理第一步:将采集到的网络入侵数据随机挑选小部分人工打上标签,打好标签后的标签样本与剩余的无标签样本共同参与后续的模型训练;
2)数据处理第二步:在样本的每个视角中,对每个无标签样本计算其与所有标签样本的距离,选择最近的标签样本并基于该标签样本的标签为无标签样本分配对应视角的伪标签;
3)训练第一步:选择在所有视角中伪标签一致的无标签样本作为高置信度样本,并将对应的一致伪标签信息作为额外的监督信息;
4)训练第二步:采用自表示子空间学习方法在每个视角中学习到视角特定图;
5)训练第三步:采用最大对齐方式,并结合原有的标签样本的监督信息与训练第一步获得的额外监督信息在优化过程中动态地学习与所有学习到的视角特定图有最小差异的多视角共识图;
6)训练第四步:学习到的多视角共识图可将标签样本的监督信息传播至无标签样本,并得到指示标签矩阵;
7)网络入侵检测过程:上述步骤被联合集成在一个统一的网络入侵检测系统中,并采用坐标下降法迭代获得每个模块的最优解,最终指示标签矩阵中无标签样本对应类别概率值最大的即为最终的无标签网络入侵数据的类别。
2.根据权利要求1中4)所述的方法,其特征在于:所述采用自表示子空间学习方法在每个视角中学习到视角特定图为:
Figure FDA0003736377900000011
Figure FDA0003736377900000012
其中:
Xv和Sv分别表示第v个视角对应的样本和学习的视角特定图,V表示视角总数,||·||F表示对应矩阵的F范数,λ表示一个大于0的正则参数,diag(·)表示对应矩阵的对角元素,1表示全是1的向量。
3.根据权利要求1中5)所述的方法,其特征在于:所述采用最大对齐方式,并结合原有的标签样本的监督信息与训练第一步获得的额外监督信息在优化过程中动态地学习与所有学习到的视角特定图有最小差异的多视角共识图为:
Figure FDA0003736377900000013
s.t.AT1=1,A≥0
其中:
A表示学习到的多视角共识图,Fi是指示标签矩阵的第i行,Aij为共识图的第i行第j列元素,Y为已有标签样本对应的独热形式(one-hot)的监督信息矩阵,Y′为根据已有标签样本确定的额外的监督信息矩阵。
4.根据权利要求1中7)所述的方法,其特征在于:所述一个统一的网络入侵检测系统为:
Figure FDA0003736377900000021
Figure FDA0003736377900000022
其中:
λ、α、β、μ、γ分别为对应模块的正则化参数。
5.根据权利要求1中7)所述的方法,其特征在于,所述最终指示标签矩阵中无标签样本对应类别概率值最大的即为最终的无标签网络入侵数据的类别,具体为:
Figure FDA0003736377900000023
CN202210804666.7A 2022-07-08 2022-07-08 一种伪标签引导下的多视角共识图半监督网络入侵检测系统 Pending CN115189942A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210804666.7A CN115189942A (zh) 2022-07-08 2022-07-08 一种伪标签引导下的多视角共识图半监督网络入侵检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210804666.7A CN115189942A (zh) 2022-07-08 2022-07-08 一种伪标签引导下的多视角共识图半监督网络入侵检测系统

Publications (1)

Publication Number Publication Date
CN115189942A true CN115189942A (zh) 2022-10-14

Family

ID=83516789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210804666.7A Pending CN115189942A (zh) 2022-07-08 2022-07-08 一种伪标签引导下的多视角共识图半监督网络入侵检测系统

Country Status (1)

Country Link
CN (1) CN115189942A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237748A (zh) * 2023-11-14 2023-12-15 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117274726A (zh) * 2023-11-23 2023-12-22 南京信息工程大学 一种基于多视角补标签的图片分类方法与系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237748A (zh) * 2023-11-14 2023-12-15 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117237748B (zh) * 2023-11-14 2024-02-23 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117274726A (zh) * 2023-11-23 2023-12-22 南京信息工程大学 一种基于多视角补标签的图片分类方法与系统
CN117274726B (zh) * 2023-11-23 2024-02-23 南京信息工程大学 一种基于多视角补标签的图片分类方法与系统

Similar Documents

Publication Publication Date Title
CN114926746B (zh) 基于多尺度差分特征注意力机制的sar图像变化检测方法
CN115189942A (zh) 一种伪标签引导下的多视角共识图半监督网络入侵检测系统
CN113076994B (zh) 一种开集域自适应图像分类方法及系统
CN115131618B (zh) 基于因果推理的半监督图像分类方法
CN111881722B (zh) 一种跨年龄人脸识别方法、系统、装置及存储介质
WO2023201772A1 (zh) 基于迭代域内适应和自训练的跨域遥感图像语义分割方法
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
CN109829514A (zh) 一种网络入侵检测方法、装置、计算机设备和存储介质
CN108009571A (zh) 一种新的直推式半监督数据分类方法及系统
CN113642486A (zh) 一种具有机载前端识别模型的无人机配网巡检方法
CN110245723A (zh) 一种安全可靠的图像分类半监督机器学习方法及装置
CN116258978A (zh) 一种自然保护区遥感影像弱标注的目标检测方法
CN117153268A (zh) 一种细胞类别确定方法及系统
CN110427019B (zh) 一种基于多变量判别分析的工业过程故障分类方法及控制装置
CN110020674B (zh) 一种提升局部类别区分度的跨领域自适应图像分类方法
CN114266321A (zh) 一种基于无约束先验信息模式的弱监督模糊聚类算法
CN107993311B (zh) 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法
CN110222793B (zh) 基于多视角主动学习的在线半监督分类方法及系统
CN111062484B (zh) 基于多任务学习的数据集选取方法及装置
CN111858343A (zh) 一种基于攻击能力的对抗样本生成方法
CN111031042A (zh) 一种基于改进d-s证据理论的网络异常检测方法
CN112257787B (zh) 基于生成式双重条件对抗网络结构的图像半监督分类方法
CN115511798A (zh) 一种基于人工智能技术的肺炎分类方法及装置
Clement et al. Beyond explaining: XAI-based Adaptive Learning with SHAP Clustering for Energy Consumption Prediction
Zhai et al. Maximizing conditional independence for unsupervised domain adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination