CN117095243A - 基于分支策略的小样本网络入侵检测增量学习分类方法 - Google Patents
基于分支策略的小样本网络入侵检测增量学习分类方法 Download PDFInfo
- Publication number
- CN117095243A CN117095243A CN202311345466.0A CN202311345466A CN117095243A CN 117095243 A CN117095243 A CN 117095243A CN 202311345466 A CN202311345466 A CN 202311345466A CN 117095243 A CN117095243 A CN 117095243A
- Authority
- CN
- China
- Prior art keywords
- session
- classifier
- sample
- network traffic
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000013459 approach Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/87—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种基于分支融合策略的小样本类增量网络入侵检测方法,包括:步骤一:将采集到的网络流量样本进行拆分处理,处理后的网络流量样本被转化为灰度图像表示;步骤二:将网络流量样本的灰度图像输入到骨干网络ViT中用于自监督模式的预训练以提高特征嵌入的表示能力;步骤三:初始化基础会话分支分类器的投影层参数,用于训练初始的检测分类模型;步骤四:学习每个新会话分支分类器模块,进而使用分支融合策略关联基础会话和新会话分支分类器从而帮助分类器模型完成训练和推理。本发明的有益效果是:本发明方法在不会遗忘已学习攻击类别的情况下,允许以增量、小样本、灵活的方式持续学习新攻击类别,实现保护目标网络系统免受恶意攻击。
Description
技术领域
本发明涉及网络信息安全技术领域,尤其涉及一种基于分支策略的小样本网络入侵检测增量学习分类方法。
背景技术
网络入侵检测系统 (NIDS) 检测网络系统中的多种恶意行为模式,是保护目标网络的可行方案。在过去的研究中已经提出了许多基于预定义类别的有监督学习网络入侵检测方法,但在实际应用中,数据格式是流式的,新的漏洞和攻击类别不断涌现,比如0-day、N-day,并且仅有少量的新攻击类别样本可被收集用于构建模型。这表明仅考虑已知的攻击类别,而不考虑不断容纳新增攻击类别的检测方法已无法满足有效网络入侵的实际应用需求。
考虑到已有攻击类别和持续新增攻击类别在可使用攻击样本数量上的差异,现有的解决方案主要可分为已知攻击类别模型训练和新攻击类别模型训练。在已有攻击类别模型训练中通过预定义类别的大规模训练样本预先训练一个初始检测模型用于预定义类别的网络入侵检测,进而在新攻击类别模型中采用不同的方法来帮助模型完成新攻击类别知识的学习。根据两个训练过程的划分,现有的解决方案主要有四种类型:基于模型重新训练的方法、基于模型微调的方法、基于增量学习的方法和基于小样本类增量学习的方法。在基于模型重新训练的方法中,当后续新增的攻击类别和样本可用时,利用所有可用的训练数据重新训练一个检测模型来替换初始的检测模型。随着数据的累积,训练样本越来越大,模型训练所需的时间也将线性增加,已有攻击类别和新增攻击类别可用样本数量的不平衡都严重阻碍了在现实世界中的应用。在基于模型微调的方法中,对后续不断新增的攻击类别仅利用收集的少量样本在初始检测模型上进行微调,而不考虑已使用过的大量训练样本,导致在学习新的攻击类别知识时存在严重的灾难性遗忘。基于增量学习的方法以增量的方法学习新攻击类别知识,并且仅使用每次新增数据。然而,这种类型的方法受到可用攻击样本数量的限制,当只有少量样本可用时面临严重的类不平衡问题,过拟合问题导致新类别检测性能不佳。此外,攻击样本的获取难度大,标注成本高也是应用时的难点。在此基础上,小样本类增量学习的方法被提出,能够实现使用少量的攻击样本不断学习新的攻击类别,同时不会忘记学习到的攻击类别知识。这种类型的方法被考虑为一种可行的解决方案。
现有的小样本类增量学习方法大多采用标准的监督模式来训练预训练模型。然而,标准的监督模式需要依赖于样本标签,在有限样本可用时无法有效增强模型的泛化能力。此外,使用预训练模型作为统一的特征提取器不可避免地混淆不同类别样本地特征嵌入,从而损失不同类别样本特征嵌入的独特性。为此,设计一个以增量方式学习只有少量样本的新攻击类别,同时不会忘记已经学习的攻击类别知识的网络入侵检测模型是一个紧迫的问题。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于分支策略的小样本网络入侵检测增量学习分类方法。
本发明提供了一种基于分支策略的小样本网络入侵检测增量学习分类方法,包括以下步骤:
步骤一:通过网络流量表示模块采集网络流量样本,网络流量样本包括已有攻击类别样本和新增攻击类别样本,将采集到的网络流量样本按照五元组、双向流的格式进行拆分处理,处理后的网络流量样本被转化为灰度图像;
步骤二:特征提取器使用ViT模型作为骨干网络,将所述步骤一的灰度图像输入ViT模型用于完成自监督模式的预训练以提高特征嵌入的表示能力,从而形成自监督预训练模型的参数;
步骤三:分支分类器学习模块包括基础会话分支分类器和新会话分支分类器,自监督预训练模型的参数在基础会话分支分类器中被进一步训练以完成初始的检测分类模型;
步骤四:对每个分支分类器学习模块进行学习训练,使用分支融合策略关联基础会话分支分类器和新会话分支分类器以帮助ViT模型的有效训练和推理。
作为本发明的进一步改进,在所述步骤一中,每个网络流量样本由不同数量的数据包组成,每个数据包由可变长度的字节组成,使用网络流量样本的前个数据包来表示整个网络流量样本,每个数据包前/>个字节表示;检查每个网络流量样本的数据包个数和每个数据包的字节数是否满足要求,即数据包的长度是否为/>,前/>个数据包中每个数据包的字节数是否为/>,如果不满足,则补0填充,如果超过,则将超出的部分截断,进而,数据包中的前/>个字节被表示为数值矩阵/>,/>表示数据包的高度,/>表示数据包的宽度,个数据包按到达的时间序列排列,最终网络流量样本被转换成灰度图像/>。
作为本发明的进一步改进,在所述步骤一中,还包括:
归一化步骤:将每个字节的数值归一化到范围0-1;
匿名化步骤:使用匿名化将网络流量样本的数据包中的 MAC 和 IP 地址替换为全0;
灰度图像设置步骤:将灰度图像设置为正方形,即,网络流量样本数据包的长度/>设置为 16,数据包的字节数/>设置为256。
作为本发明的进一步改进,在所述步骤二中,ViT模型将输入的灰度图像划分为多个块,使用块之间的位置编码表示块之间的时间序列关系,以满足网络流量数据格式要求,数据包对应划分的块,数据包的时间序列关系对应块间的位置编码。
作为本发明的进一步改进,在所述步骤二中,采用补丁掩码数据增强技术训练特征提取器,具体为:灰度图像通过随机块掩码增强,每个块和位置嵌入被输入到ViT模型中,每个块大小为,对应网络流量样本中的一个数据包。
作为本发明的进一步改进,所述步骤三包括:
步骤S1:针对不同会话进行重新投影,以增强不同会话中攻击类别样本特征嵌入的区分性;
步骤S2:使用余弦距离cosine作为度量函数计算网络流量样本的特征嵌入和所有类原型向量之间的相似度得分。
作为本发明的进一步改进,所述步骤S1具体为:
将所有会话的学习分为基础会话分类器学习阶段和新会话分类器学习阶段,基础会话分类器学习阶段对应已有攻击类别的学习,新会话分类器学习阶段对应新增攻击类别的学习,每个会话都设有一个对应的投影层用于学习原始特征嵌入的重新投影。
作为本发明的进一步改进,在执行所述步骤三之前,要先优化特征提取器的参数,特征提取器的参数优化和基础会话投影层的训练同时进行;在所述步骤S1中,在新会话分类器学习阶段,只训练新会话的投影层/>,基础会话的重投影参数用于新会话重投影的初始化,然后微调以适应新会话的攻击类别。
作为本发明的进一步改进,在所述步骤四中,包括:
分类器的训练步骤:在分类器的训练过程中,首先初始化会话投影层的参数和会话类的原型向量,然后通过计算网络流量样本的特征表示和会话类中的原型向量的相似度得分优化会话投影层的参数,新会话的投影层使用基础会话投影层的参数进行初始化后,再计算与所有已学习类原型的相似度分数;
分类器的推理步骤:在分类器推理期间,查询样本的特征嵌入被输入到对应分支分类器的投影层,并为每个会话计算所有类原型向量和相似度分数,不同会话的相似度得分被融合成一个完整的相似度得分矩阵,相似度得分最高的预测标签作为最终的预测结果。
本发明的有益效果是:1. 本发明方法在不会遗忘已学习的攻击类别的情况下,允许以增量、小样本、灵活的方式持续学习新攻击类别,实现了保护目标网络系统免受恶意攻击;2.本发明的方法具有很好的特征嵌入表示能力,并能够持续保持所有已见过攻击类别之间的判别能力。
附图说明
图1是本发明原始网络流量转化为灰度图像表示实例图;
图2是本发明基于分支策略的小样本网络入侵检测增量分类方法的整体框架图。
实施方式
本发明提出了一种基于分支策略的小样本网络入侵检测增量分类方法,该方法具有很好的特征嵌入表示能力,并持续保持所有已见过攻击类别之间的判别能力。本发明所提出的方法包括三个模块:网络流量表示模块、特征提取器模块和分支分类器学习模块。网络流量表示模块用于对捕获到的网络流量按照五元组格式进行拆分,进而转化为灰度图表示。特征提取器模块使用Visual Transformer (ViT) 作为骨干网络来学习网络流量样本的行为模式,并使用自监督模式的预训练模型来学习更丰富的特征嵌入。分支分类器学习模块包括基础会话分支分类器和新会话分支分类器,通过为不同的分支分类器设置对应的重新投影以增强不同攻击类别特征嵌入的判别性。基础会话分支分类器的投影层和基础分类器同时训练,后续的新会话分支分类器仅训练投影层,进一步使用分支融合策略关联不同分类器之间的上下文关系,辅助模型的训练和推理。
为了保护目标网络系统免受恶意攻击,本发明提出了一种基于分支策略的小样本网络入侵检测增量分类方法,包括以下步骤:
步骤一:通过网络流量表示模块采集网络流量样本,网络流量样本包括已有攻击类别样本和新增攻击类别样本,将采集到的网络流量样本按照五元组、双向流的格式进行拆分处理,处理后的网络流量样本被转化为灰度图像;
本发明提出了一种简洁直观的网络流量表示方法,该方法将网络流量样本转换为灰度图像,同时保持网络流量数据包之间的时间序列关系。具体来说,每个网络流量样本由不同数量的数据包组成,每个数据包由可变长度的字节组成。使用样本的前个数据包来表示整个样本,每个数据包前/>个字节表示。每个网络流量样本是一个网络流量会话,一个会话包括多个数据包(packets),每个数据包中的数据是二进制的字节。对于每个数据包前个字节表示,就是提取每个数据包中的/>个二进制字节码。为规范数据的输入格式需要检查网络流量样本的数据包个数和每个数据包的字节数是否满足要求:网络流量样本的数据包的长度为/>,前/>个数据包中每个数据包的字节数为B。如果不足,则补0填充;如果超过,则将超出的部分截断。进而,数据包中的前B个字节被表示为数值矩阵/>,/>表示数据包的高度,/>表示数据包的宽度,/>个数据包按到达的时间序列排列,最终样本为转换成灰度图像/>。
在所述步骤一中,还包括:
归一化步骤:由于网络流量数据包的字节采用8位十六进制编码,每个字节的数值类型对应灰度图中的一个像素值,范围为0-255,进一步将数值归一化到范围0-1以便于建模和参数优化。
作为本发明的进一步优选,出于安全和隐私原因,使用匿名化将网络流量样本的数据包中的 MAC 和 IP 地址替换为全 0。
作为本发明的进一步优选,为了处理方便,将灰度图像设置为正方形,即。网络流量样本数据包的长度/>和数据包的字节数/>的大小分别设置为16 和 256。以一个DoS-GoldenEye攻击样本为例,每个数据包的256个字节表示为数值为矩阵/>,整个攻击样本用灰度图表示为/>。该处理过程如图1所示。
步骤二:特征提取器使用ViT模型作为骨干网络, 将所述步骤一的灰度图像输入ViT模型用于完成自监督模式的预训练以提高特征嵌入的表示能力,从而形成自监督预训练模型的参数;
为了获得更丰富的特征嵌入,本发明采用自监督的方式来预训练特征提取器。在网络流量表示模块中,网络流量样本被转换为灰度图像,由于网络流量中数据包所具有的时间序列特性,灰度图像并不直接等同于灰度图像。一个合适的特征提取器模块应该能够学习网络流量样本中的两个方面的信息,包括每个数据包的特征嵌入和数据包之间的上下文时间序列关系。Visual Transformer (ViT) 将输入的灰度图像划分为多个块,使用块之间的位置编码来表示块之间的时间序列关系,其能够满足网络流量数据格式要求,数据包对应划分的块,包的时间序列关系对应块间的位置编码。本发明选择ViT模型作为特征提取器的骨干网络架构。此外,采用补丁掩码数据增强技术来训练特征提取器。灰度图像通过随机块掩码增强,每个块和位置嵌入被输入到ViT模型中,每个块大小为,对应网络流量样本中的一个数据包,如图2中的(a)所示。
步骤三:分支分类器学习模块包括基础会话分支分类器和新会话分支分类器,自监督预训练模型的参数在基础会话分支分类器中被进一步训练以完成初始的检测分类模型;
分支分类器学习模块负责网络流量样本的攻击检测任务,在攻击检测任务上,本发明采用原型网络的方式计算分类相似度,它是一种采用度量思想的小样本学习方法。在训练过程中,提供给模型(小样本网络入侵检测增量学习分类模型)的数据是支持集和查询样本。支持集包含来自多个类的数据,用于计算类的原型向量。类原型是类样本特征嵌入的平均值,计算公式为:
表示第i个会话中第k个类的原型向量,/>,/>是支持集,/>是特征提取器。/>是样本/>的真实标签。查询集样本的预测标签是用类原型向量计算的相似度得分最高的类。在FSCIL(小样本类增量学习)任务中,只有训练数据可用,而不是将其分为支持集和查询集,而是将其作为查询集来训练特征提取器,然后将其用作支持集来更新类原型向量。此外,本发明实施了更简单的训练策略,而不是情景元学习。为此,本发明利用随机初始化的原型向量和样本的特征嵌入来训练特征提取器并计算相似度得分。
所述步骤三包括:
步骤S1:针对不同会话进行重新投影,以增强不同会话中攻击类别样本特征嵌入的区分性;
在小样本类增量网络入侵检测中,使用一个特征提取器为所有会话提取最佳特征表示的同时不可避免的会丢失不同会话中攻击类别所特有的特征表示。为了缓解这个问题,本发明提出针对不同会话进行重新投影,以增强不同会话中攻击类别样本特征嵌入的区分性。如图2中的(b)所示,所有会话的学习分为两个阶段,基础会话学习阶段和新会话学习阶段,分别对应已有攻击类别和新增攻击类别的学习。每个会话都有一个对应的投影层用于学习原始特征嵌入的重新投影。此外,自监督预训练骨干网络是灰度图像重建任务,下游任务是攻击检测任务。预训练特征提取器与下游应用有不同的优化目标,在应用于攻击检测任务之前,需要优化特征提取器的参数。为了节省模型(小样本网络入侵检测增量学习分类模型)训练所需的时间,特征提取器的优化和基础会话/>层的训练同时进行。
表示预训练的特征提取器,/>和/>对应基础会话和后续会话/>层的训练。/>是一个全连接神经网络层,用于将样本的原始特征嵌入转换到另一个特征表示空间。
在新会话分类器学习阶段,只训练新会话的投影层。由于新会话中每个类只有少量数据可用,基础会话的重投影参数用于新会话重投影的初始化,然后微调以适应新会话的攻击类别。
步骤S2:使用余弦距离cosine作为度量函数计算网络流量样本的特征嵌入和所有类原型向量之间的相似度得分。表示第i个会话中的类原型向量。
步骤四:为了打破在增量学习过程中不同会话分支分类器学习之间的界限,对每个分支分类器学习模块进行学习训练,并使用分支融合策略关联基础会话分支分类器和新会话分支分类器以帮助ViT模型的有效训练和推理。
在步骤四中,包括:
分类器的训练步骤:在分类器的训练过程中,首先初始化会话投影层的参数和会话类的原型向量,然后通过计算网络流量样本的特征表示和会话类中的原型向量的相似度得分优化投影层的参数。新会话的投影层使用基础会话投影层的参数进行初始化,并计算与所有已学习类原型的相似度分数。每个会话中有一些类原型向量,并且每个会话中的类别标签不同。
分类器的推理步骤:在分类器推理期间,查询样本的特征嵌入被输入到对应分支分类器的投影层,并为每个会话计算所有类原型向量和相似性分数。P表示目前已学习过的所有类原型向量集合。
使用交叉熵损失函数计算分支分类器的训练损失,并使用反向传播算法优化模型。这些不同会话的相似度得分被融合成一个完整的相似度得分矩阵,相似度得分最高的预测标签作为最终的预测结果。
本发明的创新点为:
1.提出了一种基于分支策略的小样本网络入侵检测增量分类方法,该分支策略能够融合不同会话分支分类器的上下文关系;
2.提出了采用自监督预训练的ViT骨干模型来表示网络流量特征表示,并使用带有块掩码来获得更丰富的特征表示;
3.提出了一种简洁直观的网络流量表示方法,该方法将网络流量表示为灰度图像,同时保持数据包之间的时间序列关系。
本发明的有益效果是:1.本发明方法在不会遗忘已学习的攻击类别的情况下,允许以增量、小样本、灵活的方式持续学习新攻击类别,实现了保护目标网络系统免受恶意攻击;2.本发明的方法具有很好的特征嵌入表示能力,并能够持续保持所有已见过攻击类别之间的判别能力。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (9)
1.一种基于分支策略的小样本网络入侵检测增量学习分类方法,其特征在于,包括以下步骤:
步骤一:通过网络流量表示模块采集网络流量样本,网络流量样本包括已有攻击类别样本和新增攻击类别样本,将采集到的网络流量样本按照五元组、双向流的格式进行拆分处理,处理后的网络流量样本被转化为灰度图像;
步骤二:特征提取器使用ViT模型作为骨干网络,将所述步骤一的灰度图像输入ViT模型用于完成自监督模式的预训练以提高特征嵌入的表示能力,从而形成自监督预训练模型的参数;
步骤三:分支分类器学习模块包括基础会话分支分类器和新会话分支分类器,自监督预训练模型的参数在基础会话分支分类器中被进一步训练以完成初始的检测分类模型;
步骤四:对每个分支分类器学习模块进行学习训练,使用分支融合策略关联基础会话分支分类器和新会话分支分类器以帮助ViT模型的有效训练和推理。
2.根据权利要求1所述的小样本网络入侵检测增量学习分类方法,其特征在于,在所述步骤一中,每个网络流量样本由不同数量的数据包组成,每个数据包由可变长度的字节组成,使用网络流量样本的前个数据包来表示整个网络流量样本,每个数据包前/>个字节表示;检查每个网络流量样本的数据包个数和每个数据包的字节数是否满足要求,即数据包的长度是否为/>,前/>个数据包中每个数据包的字节数是否为/>,如果不满足,则补0填充,如果超过,则将超出的部分截断,进而,数据包中的前/>个字节被表示为数值矩阵/>,/>表示数据包的高度,/>表示数据包的宽度,/>个数据包按到达的时间序列排列,最终网络流量样本被转换成灰度图像/>。
3.根据权利要求2所述的小样本网络入侵检测增量学习分类方法,其特征在于,在所述步骤一中,还包括:
归一化步骤:将每个字节的数值归一化到范围0-1;
匿名化步骤:使用匿名化将网络流量样本的数据包中的 MAC 和 IP 地址替换为全0;
灰度图像设置步骤:将灰度图像设置为正方形,即 ,网络流量样本数据包的长度/>设置为16,数据包的字节数/>设置为256。
4.根据权利要求1所述的小样本网络入侵检测增量学习分类方法,其特征在于,在所述步骤二中,ViT模型将输入的灰度图像划分为多个块,使用块之间的位置编码表示块之间的时间序列关系,以满足网络流量数据格式要求,数据包对应划分的块,数据包的时间序列关系对应块间的位置编码。
5.根据权利要求4所述的小样本网络入侵检测增量学习分类方法,其特征在于,在所述步骤二中,采用补丁掩码数据增强技术训练特征提取器,具体为:灰度图像通过随机块掩码增强,每个块和位置嵌入被输入到ViT模型中,每个块大小为,对应网络流量样本中的一个数据包。
6.根据权利要求1所述的小样本网络入侵检测增量学习分类方法,其特征在于,所述步骤三包括:
步骤S1:针对不同会话进行重新投影,以增强不同会话中攻击类别样本特征嵌入的区分性;
步骤S2:使用余弦距离作为度量函数计算网络流量样本的特征嵌入和所有类原型向量之间的相似度得分。
7.根据权利要求6所述的小样本网络入侵检测增量学习分类方法,其特征在于,所述步骤S1具体为:
将所有会话的学习分为基础会话分类器学习阶段和新会话分类器学习阶段,基础会话分类器学习阶段对应已有攻击类别的学习,新会话分类器学习阶段对应新增攻击类别的学习,每个会话都设有一个对应的投影层用于学习原始特征嵌入的重新投影。
8.根据权利要求7所述的小样本网络入侵检测增量学习分类方法,其特征在于在,在执行所述步骤三之前,要先优化特征提取器的参数,特征提取器的参数优化和基础会话投影层的训练同时进行;在所述步骤S1中,在新会话分类器学习阶段,只训练新会话的投影层/>,基础会话的重投影参数用于新会话重投影的初始化,然后微调以适应新会话的攻击类别。
9.根据权利要求1所述的小样本网络入侵检测增量学习分类方法,其特征在于,在所述步骤四中,包括:
分类器的训练步骤:在分类器的训练过程中,首先初始化会话投影层的参数和会话类的原型向量,然后通过计算网络流量样本的特征表示和会话类中的原型向量的相似度得分优化会话投影层的参数,新会话的投影层使用基础会话投影层的参数进行初始化后,再计算与所有已学习类原型的相似度分数;
分类器的推理步骤:在分类器推理期间,查询样本的特征嵌入被输入到对应分支分类器的投影层,并为每个会话计算所有类原型向量和相似度分数,不同会话的相似度得分被融合成一个完整的相似度得分矩阵,相似度得分最高的预测标签作为最终的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345466.0A CN117095243B (zh) | 2023-10-18 | 2023-10-18 | 基于分支策略的小样本网络入侵检测增量学习分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345466.0A CN117095243B (zh) | 2023-10-18 | 2023-10-18 | 基于分支策略的小样本网络入侵检测增量学习分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095243A true CN117095243A (zh) | 2023-11-21 |
CN117095243B CN117095243B (zh) | 2024-05-07 |
Family
ID=88780669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311345466.0A Active CN117095243B (zh) | 2023-10-18 | 2023-10-18 | 基于分支策略的小样本网络入侵检测增量学习分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095243B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549894A (zh) * | 2022-01-20 | 2022-05-27 | 北京邮电大学 | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 |
US20220207410A1 (en) * | 2020-12-28 | 2022-06-30 | International Business Machines Corporation | Incremental learning without forgetting for classification and detection models |
CN115296857A (zh) * | 2022-07-12 | 2022-11-04 | 四川大学 | 基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法 |
CN115577746A (zh) * | 2022-09-15 | 2023-01-06 | 南京辰光融信技术有限公司 | 一种基于元学习的网络入侵检测方法 |
CN116366313A (zh) * | 2023-03-16 | 2023-06-30 | 中国科学院信息工程研究所 | 一种小样本异常流量检测方法和系统 |
CN116668327A (zh) * | 2023-05-23 | 2023-08-29 | 中国人民解放军战略支援部队信息工程大学 | 基于动态再训练的小样本恶意流量分类增量学习方法及系统 |
CN116863301A (zh) * | 2023-07-11 | 2023-10-10 | 中国人民解放军国防科技大学 | 基于余弦原型学习的小样本增量sar图像目标识别方法 |
-
2023
- 2023-10-18 CN CN202311345466.0A patent/CN117095243B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220207410A1 (en) * | 2020-12-28 | 2022-06-30 | International Business Machines Corporation | Incremental learning without forgetting for classification and detection models |
CN114549894A (zh) * | 2022-01-20 | 2022-05-27 | 北京邮电大学 | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 |
CN115296857A (zh) * | 2022-07-12 | 2022-11-04 | 四川大学 | 基于拓扑结构和DeepLearning-AIS的网络威胁感知及免疫方法 |
CN115577746A (zh) * | 2022-09-15 | 2023-01-06 | 南京辰光融信技术有限公司 | 一种基于元学习的网络入侵检测方法 |
CN116366313A (zh) * | 2023-03-16 | 2023-06-30 | 中国科学院信息工程研究所 | 一种小样本异常流量检测方法和系统 |
CN116668327A (zh) * | 2023-05-23 | 2023-08-29 | 中国人民解放军战略支援部队信息工程大学 | 基于动态再训练的小样本恶意流量分类增量学习方法及系统 |
CN116863301A (zh) * | 2023-07-11 | 2023-10-10 | 中国人民解放军国防科技大学 | 基于余弦原型学习的小样本增量sar图像目标识别方法 |
Non-Patent Citations (1)
Title |
---|
贾焰 等: "基于人工智能的网络空间安全防御战略研究", 《中国工程科学》, vol. 23, no. 3, pages 98 - 105 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095243B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109766992B (zh) | 基于深度学习的工控异常检测及攻击分类方法 | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
Idrissi et al. | An unsupervised generative adversarial network based-host intrusion detection system for internet of things devices | |
CN111552966A (zh) | 一种基于信息融合的恶意软件同源性检测方法 | |
CN110163069A (zh) | 用于辅助驾驶的车道线检测方法 | |
CN109977118A (zh) | 一种基于词嵌入技术和lstm的异常域名检测方法 | |
Boukabous et al. | Image and video-based crime prediction using object detection and deep learning | |
Hu et al. | A CAPTCHA recognition technology based on deep learning | |
CN105654054A (zh) | 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法 | |
Bedruz et al. | Philippine vehicle plate localization using image thresholding and genetic algorithm | |
CN112257741A (zh) | 一种基于复数神经网络的生成性对抗虚假图片的检测方法 | |
Lee et al. | License plate detection via information maximization | |
CN114299365A (zh) | 图像模型隐蔽后门的检测方法及系统、存储介质、终端 | |
CN117095243B (zh) | 基于分支策略的小样本网络入侵检测增量学习分类方法 | |
CN112750128B (zh) | 图像语义分割方法、装置、终端及可读存储介质 | |
CN111814588A (zh) | 行为检测方法以及相关设备、装置 | |
Saha et al. | Neural network based road sign recognition | |
CN113537173B (zh) | 一种基于面部补丁映射的人脸图像真伪识别方法 | |
CN114882582A (zh) | 基于联邦学习模式的步态识别模型训练方法与系统 | |
CN110458219B (zh) | 一种基于stft-cnn-rvfl的φ-otdr振动信号识别算法 | |
Oublal et al. | An advanced combination of semi-supervised Normalizing Flow & Yolo (YoloNF) to detect and recognize vehicle license plates | |
CN112613341A (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
Jian et al. | 2-layer parallel SVM network based on aggregated local descriptors for fingerprint liveness detection | |
Parasnis et al. | RoadScan: A Novel and Robust Transfer Learning Framework for Autonomous Pothole Detection in Roads | |
Apap et al. | Marathon bib number recognition using deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |