CN117354046A - 一种网络入侵检测方法、装置、电子装置和存储介质 - Google Patents
一种网络入侵检测方法、装置、电子装置和存储介质 Download PDFInfo
- Publication number
- CN117354046A CN117354046A CN202311540062.7A CN202311540062A CN117354046A CN 117354046 A CN117354046 A CN 117354046A CN 202311540062 A CN202311540062 A CN 202311540062A CN 117354046 A CN117354046 A CN 117354046A
- Authority
- CN
- China
- Prior art keywords
- network
- data
- intrusion detection
- network data
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 104
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 90
- 238000012549 training Methods 0.000 claims abstract description 56
- 239000013604 expression vector Substances 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 49
- 238000005070 sampling Methods 0.000 claims description 24
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 230000002708 enhancing effect Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 description 13
- 238000007781 pre-processing Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010606 normalization Methods 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 241001263038 Viguiera Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种网络入侵检测方法、装置、电子装置和存储介质,通过对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;特征提取网络模型用于提取特征表示向量;根据第一网络数据和第二网络数据,以及第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;根据目标分类网络模型对待检测网络数据进行网络入侵检测,进而提高网络入侵检测的准确度。
Description
技术领域
本申请涉及网络安全领域,特别是涉及一种网络入侵检测方法、装置、电子装置和存储介质。
背景技术
入侵检测系统(Intrusion Detection System,IDS)是一种对网络传输进行即时监视,在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备。IDS与其他网络安全设备的不同之处便在于,它是一种积极主动的安全防护技术,重在对网络、系统的运行状况进行监视,尽可能发现各种攻击企图、攻击行为或攻击结果,以保证网络系统资源的机密性、完整性和可用性。
现有技术中,IDS中有误用(签名)和异常(行为)两种检测方法。在误用检测中,系统存储已知的攻击特征,并在网络流量中去匹配这些特征。基于误用的IDS使用包含供给特征的数据库来检测数据中的入侵,具有良好的检测率,且可以检测到误报率较低的攻击,但无法检测到没有定义特征的未知攻击。基于异常的IDS通常通过在局域网中记录正常流量来建立模型,一旦系统监测到与该模型的特征存在偏差的行为,就会将其视为异常攻击。由于新攻击不存在特征码,因此基于异常的检测方法能够检测到新的攻击类型。但是由于网络技术的高速发展和网络规模的持续扩大,对于正常行为的模式识别也愈加复杂,因此网络入侵检测的误报率较高,导致网络入侵检测准确度较低。
针对现有技术中存在网络入侵检测准确度较低的问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种网络入侵检测方法、装置、电子装置和存储介质,以解决相关技术中存在网络入侵检测准确度较低的问题。
第一个方面,在本实施例中提供了一种网络入侵检测方法,所述方法包括:
对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;所述特征提取网络模型用于提取特征表示向量;所述第一网络数据为正常数据;
根据第一网络数据和第二网络数据,以及所述第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;所述第二网络数据为异常数据;
根据所述目标分类网络模型对待检测网络数据进行网络入侵检测。
在其中的一些实施例中,所述对第一网络数据进行随机增强之前,包括:
获取网络数据,并根据预设的标签,对清洗后的网络数据进行标签聚合,得到聚合后的网络数据;
根据预设的采样规则,对所述聚合后的网络数据进行采样,得到网络采样数据,并对所述网络采样数据进行筛选,得到所述第一网络数据和所述第二网络数据;所述预设的采样规则为增加对所述第一网络数据的采样数量的同时,减少对所述第二网络数据的采样数量。
在其中的一些实施例中,所述对第一网络数据进行随机增强,包括:
使用预设的随机高斯模糊函数,对所述第一网络数据进行第一预设次数的模糊处理,得到模糊后的数据;
使用预设的矩阵,对所述模糊后的数据进行第二预设次数的加权平均,得到随机增强后的第一网络数据。
在其中的一些实施例中,所述对第一网络数据进行随机增强,还包括:
获取所述第一网络数据中特征属性一致的目标数据;
对预设范围内的两个目标数据作内插值处理,得到随机增强后的第一网络数据。
在其中的一些实施例中,所述使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数,包括:
对所述第一网络数据进行随机增强后,得到所述第一网络数据的相关数据;
输入所述相关数据至第一特征提取网络模型中,得到所述相关数据的特征表示向量;
输入所述特征标识向量至第二特征提取网络模型,以将所述特征标识向量映射至第三特征提取网络模型;
根据所述第三特征提取网络模型,获取所述预设的特征提取网络模型的损失值,并根据所述损失值训练所述预设的特征提取网络模型,得到训练后的特征提取网络模型;
获取训练后的特征提取网络模型的第一目标参数。
在其中的一些实施例中,用于训练预设的分类网络模型的第一网络数据为未进行随机增强的第一网络数据。
在其中的一些实施例中,所述根据所述目标分类网络模型对待检测网络数据进行网络入侵检测,包括:
获取所述目标分类网络模型的第二目标参数;
根据所述第二目标参数,训练预设的网络入侵检测模型,得到训练完成的网络入侵检测模型的目标特征;
基于所述目标特征,并根据所述网络入侵检测模型对所述待检测网络数据进行数据特征分类,进而完成网络入侵检测。
第二个方面,在本实施例中提供了一种网络入侵检测装置,所述装置包括:训练模块和检测模块;
所述训练模块,用于对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;所述特征提取网络模型用于提取特征表示向量;所述第一网络数据为正常数据;根据第一网络数据和第二网络数据,以及所述第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;所述第二网络数据为异常数据;
所述检测模块,用于根据所述目标分类网络模型对待检测网络数据进行网络入侵检测。
第三个方面,在本实施例中提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的网络入侵检测方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的网络入侵检测方法。
与相关技术相比,在本实施例中提供的一种网络入侵检测方法、装置、电子装置和存储介质,通过对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;特征提取网络模型用于提取特征表示向量;根据第一网络数据和第二网络数据,以及第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;根据目标分类网络模型对待检测网络数据进行网络入侵检测,进而提高网络入侵检测的准确度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的网络入侵检测方法的终端的硬件结构框图。
图2是本申请实施例的网络入侵检测方法的流程图。
图3是本申请实施例提供的基于对比学习的网络入侵检测方法的流程示意图。
图4是本具体实施例的网络入侵检测方法的流程图。
图5是本具体实施例的基于对比学习的网络入侵检测装置的示意结构图。
图6是本实施例的网络入侵检测装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机、服务器或者类似的运算装置中执行。比如在终端上运行,图1是本申请实施例的网络入侵检测方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的网络入侵检测方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种网络入侵检测方法,图2是本申请实施例的网络入侵检测方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,对第一网络数据进行随机增强。
具体地,处理器使用随机增强的方法对第一网络数据进行处理,得到随机增强后的第一网络数据,有利于降低数据采集和数据标记的成本;其中,随机增强通过对第一网络数据添加微小改动或从已有数据中新创建合成数据进而增加数据量,包括但不限于基于释义的方法、基于噪声的方法以及基于采样的方法,在此不作具体限定。
步骤S220,使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;特征提取网络模型用于提取特征表示向量;第一网络数据为正常数据。
具体地,处理器获取待检测网络中的正常数据即第一网络数据,并对第一网络数据进行随机增强,并生成同一数据示例的两个相关表示,用于对比学习的输入;其后,通过随机增强后的第一网络数据对预设的用于提取特征表示向量的特征提取网络模型进行训练,进而获取训练后的特征提取网络模型,并获取特征提取网络模型的第一目标参数,即使用随机增强后的第一网络数据进行无监督对比学习,根据无监督对比学习的损失函数所得的损失值调整训练预设的特征提取网络过程的误差,直到该特征提取网络收敛,进而得到训练后的特征提取网络模型。进一步地,获取第一网络数据的方法包括对网络的运行状况进行监视,得到网络数据,并从网络数据中筛选得到第一网络数据;或者是预设网络数据集,进而在网络数据集中筛选正常流量数据;其中,随机增强通过对第一网络数据添加微小改动或从已有数据中新创建合成数据进而增加数据量,包括但不限于基于释义的方法、基于噪声的方法以及基于采样的方法,在此不作具体限定。示例性地,无监督对比学习的损失函数的特征在于:给定批处理batch中的一组输入数据,其中只包括一对正例,对比学习任务旨在对给定的原始数据,识别出它所对应的正例,并根据原始数据和对应的正例数据,计算损失函数,并根据无监督对比学习的损失函数所得的损失值调整训练过程的误差,直到特征提取网络模型达到收敛,将收敛后的网络结构参数即第一目标参数保存至本地。
步骤S230,根据第一网络数据和第二网络数据,以及第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;第二网络数据为异常数据。
具体地,处理器根据未进行随机增强的第一网络数据、训练后的特征提取网络的第一目标参数以及第二网络数据,对预设的分类网络模型进行训练,进而得到目标分类网络模型;其中,第二网络数据的获取方法与第一网络数据的获取方法一致,可以对网络的运行状况进行监视,得到网络数据,并从网络数据中筛选得到第二网络数据;或者预设网络数据集,进而在网络数据集中筛选异常流量数据作为第二网络数据,在此不作具体限定。通过输入网络数据中的正常网络数据和异常网络数据至预设的分类网络模型中,进行网络数据的分类预测,其后基于无监督对比学习获得的特征提取网络模型,根据有监督学习的损失函数对预设的分类网络模型进行模型参数的调整,以使预设的分类网络模型达到收敛,收敛后的分类网络模型即为目标分类网络模型。
步骤S240,根据目标分类网络模型对待检测网络数据进行网络入侵检测。
具体地,处理器根据收敛后的目标分类模型的参数,生成网络入侵检测模型,进而通过网络入侵检测模型实现对待检测网络数据进行入侵检测的功能。
通过上述步骤,根据网络数据的标签类型对网络数据进行聚合,并基于对比学习的无监督学习和有监督学习两阶段训练过程,得到第一网络数据和第二网络数据,进而生成检测精度较高的网络入侵检测模型,进而有效提升网络入侵检测效率,降低系统误报率。
在其中的一些实施例中,步骤S210之前包括步骤S201至步骤S202。
步骤S201,获取网络数据,并根据预设的标签,对清洗后的网络数据进行标签聚合,得到聚合后的网络数据。
步骤S202,根据预设的采样规则,对聚合后的网络数据进行采样,得到网络采样数据,并对网络采样数据进行筛选,得到第一网络数据和第二网络数据;预设的采样规则为增加对第一网络数据的采样数量的同时,减少对第二网络数据的采样数量。
具体地,处理器获取网络数据后,对网络数据进行预处理,包括但不限于数据清洗、标签聚合、数据重采样、特征选择、标签编码及数据归一化等方法;其中,网络数据可以由预设的网络流量数据集得到,也可以对网络历史数据进行采集得到;示例性地,对网络数据进行清洗的方法包括删除重复数据、删除缺失数据、删除无效数据等;其后,基于网络异常领域先验知识对网络流量的标签类型进行聚合,得到聚合后的网络数据,即将相似标签的流量数据聚合到同一个标签下,进而有利于减少分类任务输出向量的维度,同时减轻数据的不平衡性。对网络数据进行聚合后,根据预设的采样规则对网络数据进行重采样,得到网络采样数据;示例性地,预设的采样规则可以为减少正常网络数据的占比,提高异常网络数据的占比,进而减少网络数据的不平衡性。
在对网络数据进行重采样得到网络采样数据后,对网络采样数据进行筛选,具体地,对网络采样数据进行筛选的方法为根据网络采样数据的特征属性进行筛选,进一步地,筛选过程包含特征聚合和特征排序;具体地,特征聚合即计算特征间的相关性,清理相关度超过相关度阈值的冗余特征;特征排序即:将特征按照重要性指标的分数排序,并清理重要性低于重要性阈值的无效特征;其后对筛选后的网络数据进行数据编码及归一化,对于网络数据的标签字符进行数据独热编码,同时根据特征属性的数值进行数据归一化处理,进而得到包括正常网络数据的第一网络数据以及包括异常网络数据的第二网络数据。
通过上述步骤,处理器对网络数据进行预处理,基于网络异常领域先验知识对网络数据的标签类型进行聚合,进而减少异常数据的不平衡性。同时对网络数据进行清洗筛选等操作,进而提高了网络数据的准确性,进一步提高了训练网络模型的准确性,提高了后续网络入侵检测的准确性。
在其中的一些实施例中,步骤S210包括步骤S211至步骤S212。
步骤S211,使用预设的随机高斯模糊函数,对第一网络数据进行第一预设次数的模糊处理,得到模糊后的数据。
步骤S212,使用预设的矩阵,对模糊后的数据进行第二预设次数的加权平均,得到随机增强后的第一网络数据。
具体地,通过随机高斯模糊对包括正常网络数据的第一网络数据进行增强;即,使用预设的随机高斯模糊函数,对第一网络数据进行多次模糊处理,进而得到模糊后的数据,进而使用预设的矩阵对模糊后的数据进行多次加权平均,进而得到随机增强后的第一网络数据。示例性地,在第一网络数据上添加高斯噪声,进而生成第一网络数据的两个相关表示;其后将相关表示用于无监督对比学习的输入,即输入至预设的特征提取网络模型,以训练该特征提取网络模型直至收敛。
通过上述步骤,使用随机高斯模糊对第一网络数据进行增强,进而生成同一网络数据的两个相关表示,并将该相关表示用作无监督对比学习的输入,进而训练预设的特征提取网络模型至收敛,进而有利于后续根据收敛后的特征提取网络模型的模型参数对有监督学习中预设的分类网络模型进行训练,进而提高了网络入侵检测的准确性。
在其中的一些实施例中,步骤S210还包括步骤S213至步骤S214。
步骤S213,获取第一网络数据中特征属性一致的目标数据。
步骤S214,对预设范围内的两个目标数据作内插值处理,得到随机增强后的第一网络数据。
具体地,处理器获取第一网络数据对应的特征属性,并将特征属性一致的第一网络数据作为目标数据,其后对处于预设范围内的两个目标数据之间作内插值处理,进而得到随机增强后的第一网络数据。示例性地,在第一网络数据中获取同类别的点,并在同类别的点钟寻找多个近邻,随机在两个邻居间进行内插值处理,进而生成第一网络数据的两个相关表示;其后将相关表示用于无监督对比学习的输入,即输入至预设的特征提取网络模型,以训练该特征提取网络模型直至收敛。
通过上述步骤,使用内插值的方法对第一网络数据进行增强,进而生成同一网络数据的两个相关表示,并将该相关表示用作无监督对比学习的输入,进而训练预设的特征提取网络模型至收敛,进而有利于后续根据收敛后的特征提取网络模型的模型参数对有监督学习中预设的分类网络模型进行训练,进而提高了网络入侵检测的准确性。
进一步地,假设网络流量数据有N个样本,数据增强方法产生2N个数据点,用{xk}表示这个2N的数据集。其中xi和xi'是相对应的两个表示,本方法称为正例;对于给定的xi,{xj'}k≠i中的xj'是负相关的表示,本方法称为负例;对于给定的一个正对,其他2N-2个样本被视为负例;其中,正相关是因为通过3.1的增强方法得到的对应数据,具备相关性;剩下2N-2是不具备相关性的负例。对比学习的过程就在于最小化正例间的差异。由于异常数据量小,生成2N的数据在于减轻异常数据的不平衡性,进而充分学习异常数据的特征。
在其中的一些实施例中,步骤S220包括步骤S221至步骤S225。
步骤S221,对第一网络数据进行随机增强后,得到第一网络数据的相关数据。
步骤S222,输入相关数据至第一特征提取网络模型中,得到相关数据的特征表示向量。
步骤S223,输入特征标识向量至第二特征提取网络模型,以将特征标识向量映射至第三特征提取网络模型。
步骤S224,根据第三特征提取网络模型,获取预设的特征提取网络模型的损失值,并根据损失值训练预设的特征提取网络模型,得到训练后的特征提取网络模型。
步骤S225,获取训练后的特征提取网络模型的第一目标参数。
具体地,预设的特征提取网络模型包括第一特征提取网络模型、第二特征提取网络模型以及第三特征提取网络模型;处理器对第一网络数据进行随机增强,得到第一网络数据的相关数据,即前述的网络数据的相关表示;其后,将相关数据输入至第一特征提取网络中,获取相关数据的特征表示向量,并根据第二特征提取网络模型将相关数据的特征表示向量映射至第三特征提取网络模型中,进而获取预设的特征提取网络模型的损失值,并根据损失值训练预设的特征提取网络模型,得到训练后的特征提取网络模型。进一步地,通过训练预设的特征提取网络模型,进而实现无监督对比学习;示例性地,无监督对比学习包括特征编码器和投影头部两部分;将进行随机增强后的第一网络数据输入至特征编码器中,即第一特征提取网络模型,进而提取第一网络数据中的特征表示向量,其中特征编码器允许选择各种网络架构。其后,通过投影头部即第二特征提取网络模型,将第一网络数据中的特征表示向量映射至对比损失的空间,即第三特征提取网络模型中,进而实现对预设的特征提取网络模型的训练,最后,通过使用对比损失函数,以使该预设的特征提取网络模型收敛。此处的投影头部可以使用多层感知机实现,多层感知机(MLP,MultilayerPerceptron)包括隐藏层、BN层、ReLU激活函数和隐藏层。
通过上述步骤,通过第一网络数据训练预设的特征提取网络模型,进而实现更准确的无监督对比学习,其后获取训练完成的特征提取网络模型的第一目标参数,以使第一目标参数参与有监督学习的训练中,进而有利于提高后续网络入侵检测的准确度。
在其中的一些实施例中,用于训练预设的分类网络模型的第一网络数据为未进行随机增强的第一网络数据。
在其中的一些实施例中,步骤S230包括步骤S231至步骤S233。
步骤S231,获取目标分类网络模型的第二目标参数。
步骤S232,根据第二目标参数,训练预设的网络入侵检测模型,得到训练完成的网络入侵检测模型的目标特征。
步骤S232,基于目标特征,并根据网络入侵检测模型对待检测网络数据进行数据特征分类,进而完成网络入侵检测。
具体地,有监督训练的输入数据与无监督训练不同,包含正常类型和网络攻击类型的样本;在训练过程中加载训练后的特征提取网络模型的第一目标参数,即本地网络结构参数,进而训练得到高维的特征空间,即网络入侵检测模型;输入待检测网络数据至网络入侵模型中,进而对待检测网络数据进行数据特征的分类,进而完成网络入侵检测。示例性地,有监督训练的分类网络包含无监督对比学习阶段的特征编码器和分类头部两个部分,其中,分类头部基于特征空间将样本数据分类到正常网络数据及异常网络数据的细粒度标签,进而得到网络入侵检测的预测结果。
通过上述步骤,结合无监督对比学习和有监督学习,根据不同标签的网络数据进行训练,得到特征提取网络和分类网络的参数,进而根据参数训练网络入侵检测模型,进而有利于提高网络入侵检测模型对待检测网络数据进行数据特征分类的准确性,进而体改网络入侵检测的准确性。
下面通过具体实施例对本实施例进行描述和说明。
图3是本申请实施例提供的基于对比学习的网络入侵检测方法的流程示意图。以公开入侵检测数据集即CIC-IDS-2017数据集为例,它包含良性和最新的常见攻击,是使用流量特征提取工具-CICFlowMeter进行的网络流量分析的结果,使用基于时间戳、源和目标IP(Internet Protocol Address,互联网协议地址)、源和目标端口、协议和攻击CSV(Comma-Separated Values,字符分隔值)文件的标记流。本申请在Windows 10操作系统上进行仿真,使用编程语言Python 3.7,深度学习框架Pytorch 1.7,机器学习框架Scikit-learn1.0.2。如图3所示,本申请实施例中的网络入侵检测方法可包括如下步骤:收集原始流量数据,并对这些原始流量数据进行数据预处理,其中,数据预处理包括:数据清洗、标签聚合、数据重采样、数据编码以及数据归一化;其后使用预处理后的数据执行无监督对比学习任务,在进行无监督对比学习任务中,首先筛选攻击流量数据,并通过内插值或随机高斯模糊的方法进行随机数据增强,其后使用增强后的攻击数据训练预设的特征提取网络模型,进一步地,模型训练的过程为:输入数据至卷积神经网络中,并通过多层感知机输出低维特征,其后使用对比损失函数对比损失,直至该特征提取网络模型收敛,使用预处理后的数据执行有监督分类任务时,首先将预处理后的数据输入至预设的分类网络模型中,并使用无监督对比学习任务中的卷积神经网络,输出高维特征,以得到训练完成的分类网络,进而对待检测数据预测分类结果,已实现网络入侵检测。
图4是本具体实施例的网络入侵检测方法的流程图。如图4所示,该网络入侵检测方法包括步骤S410至步骤S440。
步骤S410,对数据集进行预处理操作。
示例性地,对数据集进行预处理操作的方法可以为:(1)去掉重复、缺失、存在异常值的行数据;(2)将数据集原本的15个类别标签聚合成7个类别,包含1个正常流量标签Benign和6个攻击类型流量标签,分别为Botnet ARES、Brute Force、Dos/DDos、Infiltration、PortScan以及Web Attack;聚合的逻辑是粗化标签的粒度,例如DDos、DoSHulk、Dos GoldenEye等Dos或DDos相关的攻击类型都归为Dos/DDos一个大类;聚合的目的是减少分类任务输出向量的维度,同时减轻数据的不平衡性;(3)该数据集中Benign标签的数据约220w行,攻击流量标签的数据共计约60w行,对正常流量的数据进行重采样后,达到降低正常数据占比的效果,进而减少数据不平衡性;(4)该数据集的每条原始数据有76种特征,这里构造相关矩阵corr()来分析变量之间的相关关系,进而对相关的特征进行删除或者降维的操作;同时使用信息熵的方法对特征的重要性进行排序,保留重要性高的49种特征;(5)选择出非数值的属性,在CIC-IDS-2017数据集中只有标签那一列,对非数值的属性进行One-hot独热编码;其后筛选出数值的属性,在数据集中即为各特征值,最后使用分位数信息转换特征值,将特征值转换为服从均匀分布,进而完成对数据集的预处理操作。
步骤S420,随机数据增强。
具体地,从预处理后的数据中筛选出攻击类型的流量数据进行随机数据增强,示例性地,使用随机高斯模糊的方法对特征数据进行增强,即在原数据的基础上增加高斯噪声,并做数据归一化即MinMaxScaler处理归一化到[0,1],增强后的数据与原数据作为一对输入数据。
步骤S430,第一阶段无监督对比学习。
具体地,将生成的一对数据输入到深度学习网络中,深度学习网络结构包含特征编码器f(·)和投影头部g(·)两个部分。具体地,特征编码器使用卷积神经网络,分别包含卷积层、BN层(BatchNormalization,批量归一化层)、ReLU层(Rectified Linear Unit,非线性层);投影头部使用一个多层感知机实现,多层感知机包括隐藏层、BN层、ReLU激活函数和隐藏层。无监督训练过程中,给定batch中的一组输入的数据,其中只包括一对正例,对比学习任务旨在对给定的xi,识别出它所对应的正例,则一对正对的损失函数为:
其中,sim(zi,zj)是预测值的相似度,1[k≠i]∈{0,1}是指示函数,当k≠i为1,示例性地,此处的相似度为余弦相似度,计算公式为:
其中,zi和zj分别表示增强后的数据与原数据。最后,使用训练集中的若干样本训练后,保存当前网络参数到本地。
步骤S440,第二阶段有监督学习。
具体地,将步骤S410预处理后的全量数据及标签输入到深度学习网络中,网络结构同步骤三中的特征编码器f(·),训练过程中加载本地预训练得到的网络参数以及使用训练集中的若干样本训练后收敛特征编码器的参数,并基于分类头部分类到正常标签及网络攻击的细粒度标签,得到网络入侵检测的预测结果。
进一步地,对数据进行随机增强的方法包括随机高斯模糊和内插值,进而生成{x}和{x′}两个相关表示,随机高斯模糊即在特征数据上添加高斯噪声,随机高斯模糊的添加方法用公式可以表示为:
其中,xi和x′i分别表示原始数据和增强数据,表示高斯分布,τ的取值范围为(0,1)。
内插值即在同类别的点中,寻找多个近邻,随机在两个邻居间进行内插值处理,具体地,可表示为:
x′i=τ(xj-xi)+xj
其中,xi和xj分别表示原始数据,x′i表示增强数据,τ的取值范围为(0,1)。
图5是本具体实施例的基于对比学习的网络入侵检测装置的示意结构图。包含离线先验知识数据、数据采集模块、数据预处理模块、基于深度异常检测模型的分类器以及流量策略模块五个部分;具体地,在网络上采集实时数据,并将该实时数据经过数据采集模块后生成原始的流量采集数据,其后,将原始流量数据和离线先验知识数据同时输入到数据预处理模块,数据预处理模块实现数据清洗、标签聚合、数据重采样、特征选择、标签编码及数据归一化的操作;处理后的数据输入到基于深度异常检测模型的分类器,即网络安全检测分类器中,网络安全检测分类器用于运行包括无监督对比学习和有监督学习的深度学习算法,进而得到网络流量数据的分类结果;最后由流量策略模块对网络流量数据进行处理,包括分发正常类型的网络流量,拦截异常类型的网络流量,以及对置信度低或者未知的流量类型进行进一步反馈干预,并作为离线先验数据更新到离线先验数据的知识数据库中。
在本实施例中还提供了一种网络入侵检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是本申请实施例的网络入侵检测装置的结构框图,如图6所示,该装置包括:训练模块10和检测模块20。
训练模块10,用于对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;特征提取网络模型用于提取特征表示向量;第一网络数据为正常数据;根据第一网络数据和第二网络数据,以及第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;第二网络数据为异常数据。
检测模块20,用于根据目标分类网络模型对待检测网络数据进行网络入侵检测。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;特征提取网络模型用于提取特征表示向量;第一网络数据为正常数据。
S2,根据第一网络数据和第二网络数据,以及第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;第二网络数据为异常数据。
S3,根据目标分类网络模型对待检测网络数据进行网络入侵检测。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的网络入侵检测方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种网络入侵检测方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种网络入侵检测方法,其特征在于,所述方法包括:
对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;所述特征提取网络模型用于提取特征表示向量;所述第一网络数据为正常数据;
根据第一网络数据和第二网络数据,以及所述第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;所述第二网络数据为异常数据;
根据所述目标分类网络模型对待检测网络数据进行网络入侵检测。
2.根据权利要求1所述的网络入侵检测方法,其特征在于,所述对第一网络数据进行随机增强之前,包括:
获取网络数据,并根据预设的标签,对清洗后的网络数据进行标签聚合,得到聚合后的网络数据;
根据预设的采样规则,对所述聚合后的网络数据进行采样,得到网络采样数据,并对所述网络采样数据进行筛选,得到所述第一网络数据和所述第二网络数据;所述预设的采样规则为增加对所述第一网络数据的采样数量的同时,减少对所述第二网络数据的采样数量。
3.根据权利要求1所述的网络入侵检测方法,其特征在于,所述对第一网络数据进行随机增强,包括:
使用预设的随机高斯模糊函数,对所述第一网络数据进行第一预设次数的模糊处理,得到模糊后的数据;
使用预设的矩阵,对所述模糊后的数据进行第二预设次数的加权平均,得到随机增强后的第一网络数据。
4.根据权利要求3所述的网络入侵检测方法,其特征在于,所述对第一网络数据进行随机增强,还包括:
获取所述第一网络数据中特征属性一致的目标数据;
对预设范围内的两个目标数据作内插值处理,得到随机增强后的第一网络数据。
5.根据权利要求1所述的网络入侵检测方法,其特征在于,所述使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数,包括:
对所述第一网络数据进行随机增强后,得到所述第一网络数据的相关数据;
输入所述相关数据至第一特征提取网络模型中,得到所述相关数据的特征表示向量;
输入所述特征标识向量至第二特征提取网络模型,以将所述特征标识向量映射至第三特征提取网络模型;
根据所述第三特征提取网络模型,获取所述预设的特征提取网络模型的损失值,并根据所述损失值训练所述预设的特征提取网络模型,得到训练后的特征提取网络模型;
获取训练后的特征提取网络模型的第一目标参数。
6.根据权利要求1所述的网络入侵检测方法,其特征在于,用于训练预设的分类网络模型的第一网络数据为未进行随机增强的第一网络数据。
7.根据权利要求1所述的网络入侵检测方法,其特征在于,所述根据所述目标分类网络模型对待检测网络数据进行网络入侵检测,包括:
获取所述目标分类网络模型的第二目标参数;
根据所述第二目标参数,训练预设的网络入侵检测模型,得到训练完成的网络入侵检测模型的目标特征;
基于所述目标特征,并根据所述网络入侵检测模型对所述待检测网络数据进行数据特征分类,进而完成网络入侵检测。
8.一种网络入侵检测装置,其特征在于,所述装置包括:训练模块和检测模块;
所述训练模块,用于对第一网络数据进行随机增强,并使用随机增强后的第一网络数据训练预设的特征提取网络模型,得到训练后的特征提取网络模型的第一目标参数;所述特征提取网络模型用于提取特征表示向量;所述第一网络数据为正常数据;根据第一网络数据和第二网络数据,以及所述第一目标参数,训练预设的分类网络模型,得到目标分类网络模型;所述第二网络数据为异常数据;
所述检测模块,用于根据所述目标分类网络模型对待检测网络数据进行网络入侵检测。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求7中任一项所述的网络入侵检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的网络入侵检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311540062.7A CN117354046A (zh) | 2023-11-17 | 2023-11-17 | 一种网络入侵检测方法、装置、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311540062.7A CN117354046A (zh) | 2023-11-17 | 2023-11-17 | 一种网络入侵检测方法、装置、电子装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117354046A true CN117354046A (zh) | 2024-01-05 |
Family
ID=89369513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311540062.7A Pending CN117354046A (zh) | 2023-11-17 | 2023-11-17 | 一种网络入侵检测方法、装置、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117354046A (zh) |
-
2023
- 2023-11-17 CN CN202311540062.7A patent/CN117354046A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qu et al. | A survey on the development of self-organizing maps for unsupervised intrusion detection | |
US10587632B1 (en) | Neural network-based malware detection | |
CN110851321B (zh) | 一种业务告警方法、设备及存储介质 | |
CN111475804A (zh) | 一种告警预测方法及系统 | |
CN113470695B (zh) | 声音异常检测方法、装置、计算机设备及存储介质 | |
CN114205106A (zh) | 用于检测可疑网络行为的深度嵌入式自学系统和方法 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN112822189A (zh) | 一种流量识别方法及装置 | |
CN114816909A (zh) | 一种基于机器学习的实时日志检测预警方法及系统 | |
CN117040917A (zh) | 一种具有监测预警功能的智慧型交换机 | |
CN114697068A (zh) | 一种恶意流量识别方法及相关装置 | |
CN112115965A (zh) | 一种基于svm的被动操作系统识别方法、存储介质及设备 | |
CN115396204A (zh) | 一种基于序列预测的工控网络流量异常检测方法及装置 | |
CN112884121A (zh) | 基于生成对抗深度卷积网络的流量识别方法 | |
CN113645305A (zh) | 一种物联网数据的传输节点确定方法及系统 | |
CN112039997A (zh) | 一种基于三重特征的物联网终端识别方法 | |
CN114615088A (zh) | 一种终端业务流量异常检测模型建立方法及异常检测方法 | |
CN112087450B (zh) | 一种异常ip识别方法、系统及计算机设备 | |
CN117633666A (zh) | 网络资产识别方法、装置、电子设备和存储介质 | |
CN113612645A (zh) | 一种物联网数据处理方法及系统 | |
CN117729027A (zh) | 异常行为检测方法、装置、电子设备及存储介质 | |
Ravi | Deep learning-based network intrusion detection in smart healthcare enterprise systems | |
CN115225731B (zh) | 一种基于混合神经网络的在线协议识别方法 | |
CN111291078A (zh) | 一种域名匹配检测方法及装置 | |
CN117354046A (zh) | 一种网络入侵检测方法、装置、电子装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |