CN117614742A - 一种蜜点感知增强的恶意流量检测方法 - Google Patents

一种蜜点感知增强的恶意流量检测方法 Download PDF

Info

Publication number
CN117614742A
CN117614742A CN202410085984.1A CN202410085984A CN117614742A CN 117614742 A CN117614742 A CN 117614742A CN 202410085984 A CN202410085984 A CN 202410085984A CN 117614742 A CN117614742 A CN 117614742A
Authority
CN
China
Prior art keywords
data
training
encoder
attack
honey
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410085984.1A
Other languages
English (en)
Other versions
CN117614742B (zh
Inventor
田志宏
刘园
易新凯
黎清源
周圆
孙彦斌
苏申
鲁辉
李默涵
徐光侠
仇晶
姜誉
谭庆丰
徐天福
郑志彬
崔宇
何群
邱日轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Softpole Network Technology Beijing Co ltd
Guangzhou University
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
Softpole Network Technology Beijing Co ltd
Guangzhou University
Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Softpole Network Technology Beijing Co ltd, Guangzhou University, Information and Telecommunication Branch of State Grid Jiangxi Electric Power Co Ltd filed Critical Softpole Network Technology Beijing Co ltd
Priority to CN202410085984.1A priority Critical patent/CN117614742B/zh
Publication of CN117614742A publication Critical patent/CN117614742A/zh
Application granted granted Critical
Publication of CN117614742B publication Critical patent/CN117614742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种蜜点感知增强的恶意流量检测方法。该方法主要是检测攻击者的恶意攻击行为。首先,主要分析攻击者的恶意攻击行为,生成并部署模拟正常Web服务器接收攻击的蜜点;采集并处理全流量数据和攻击者触发蜜点后产生的数据;预训练阶段,自监督对比学习的编码器使用无标签的全流量数据训练;微调阶段,使用完成预训练的编码器处理白名单流量数据和蜜点数据,处理后的数据输入给MLP分类器进行训练和评估,以调整CNN编码器和MLP分类器的参数;将训练好的模型部署到全流量入口,以识别全流量数据中的恶意流量。实施本发明,可以使模型更全面地学习蜜点数据中的多种攻击行为,增强系统识别高隐蔽威胁行为的能力。

Description

一种蜜点感知增强的恶意流量检测方法
技术领域
本发明涉及计算机网络安全技术领域,尤其涉及一种蜜点感知增强的恶意流量检测方法。
背景技术
蜜罐技术是一种典型的欺骗诱导技术,旨在吸引和检测攻击者,以便分析其行为、学习攻击技术,防范实际网络中的攻击。蜜罐通常被设计成看起来像是真实系统或网络服务,但实际上是虚拟的、弱化的,旨在引诱攻击者。当攻击者攻击相关网络应用时,路由器会将攻击者设定的目标攻击地址重定向到蜜罐所在的IP地址,攻击者的攻击行为就会被记录下来。但是蜜罐本身并不具有阻断和反制攻击者的能力,且在一些情况下,攻击者可能会发现蜜罐并试图绕过其防御,导致蜜罐失效。
自监督学习不需要人工标注的类别标签信息,直接利用数据本身作为监督信息,学习样本数据的特征表示,将其应用于下游的任务。对比式自监督学习是自监督学习的一种方法,通过同时最大化同一样本的不同增强实例之间的一致性,以及最小化不同样本的增强实例之间的一致性,学习未标记数据样本的特征表示,然后使用少量带标签的样本对其进行微调。现有的研究表明,对比式自监督学习不仅可以节省大量的标注成本,同时还可以提升给定相关任务的模型性能。但目前,在恶意流量检测方面使用对比式自监督学习的案例仍然较少。
发明内容
本发明的目的在于提供一种蜜点感知增强的恶意流量检测方法,其能够利用主动防御技术收集蜜点的恶意流量,对比式自监督学习可用于提取其中的有用特征,以识别潜在的威胁和攻击迹象,增强系统识别高隐蔽威胁行为的能力。
为实现上述目的,本发明提供了一种蜜点感知增强的恶意流量检测方法,该方法包括以下步骤:
S1:分析网络安全平台的攻击场景特征,获取网络攻击者的恶意攻击行为特征;
S2:根据攻击特征信息生成模拟正常Web服务器接收攻击的蜜点,设置蜜点初始配置并部署,同时采集全流量数据和攻击者触发蜜点后产生的数据;
S3:对采集到的数据进行预处理,将无标签的全流量数据集作为预训练数据集训练编码器;将白名单流量数据和含有恶意攻击行为的蜜点数据结合并划分作为下游分类器微调的训练集和测试集;
S4:选取预训练编码器类型为卷积神经网络CNN,并将上述处理生成的无标签预训练数据集输入到编码器中进行训练,得到无监督预训练后的CNN编码器;
S5:选取下游分类器模型为多层感知机MLP,微调阶段先将微调训练集输入到已经完成预训练的编码器中进行处理,再将经过编码器处理过的数据集输入给多层感知机进行微调训练,以调整CNN编码器和MLP分类器的神经网络权重,得到训练后的模型;
S6:将所述测试集输入到训练好的模型中,评估模型区别正常流量和恶意流量的能力;
S7:将训练好的模型部署到全流量入口,识别全流量数据集中的恶意流量,增强系统识别高隐蔽威胁行为的能力。
进一步地,S1中,所述分析网络安全平台的攻击场景特征,获取网络攻击者的恶意攻击行为特征包括:
分析网络安全平台的攻击场景特征,所述攻击场景特征包括:异常流量模式、异常登录活动和拒绝服务攻击(DDos)等;所述恶意攻击行为特征包括攻击者的攻击目标、攻击技术和攻击流程等。
进一步地,S2中,所述根据攻击特征信息生成模拟正常Web服务器接收攻击的蜜点包括:
根据收集的攻击特征信息,确定蜜点需求,生成蜜点配置文件,创建蜜点实例;
监控蜜点的运行状态,获取访问Web应用的全流量数据和攻击者触发蜜点产生的数据,根据白名单收集正常访问流量数据。
进一步地,S3中,所述预处理采集到的数据包括:
数据清理环节,识别数据中的缺失值和异常值,剔除含有缺失值和异常值的流量数据;
数据集归一化环节,将数据规范化到一定的环节,以消除不同特征之间的量纲差异;
数据集划分环节,无标签的全流量数据集全部作为预训练数据集训练编码器,将正常的白名单数据集和异常的触发蜜点产生的数据集打上标签,划分成微调训练集和微调测试集,用于训练和评估调整编码器和下游的分类器。
进一步地,S4中,所述预训练编码器结构和预训练过程如下:
根据数据集特征,预训练编码器由一个带有5个卷积层的卷积神经网络(CNN)和一个线性层构成,编码器结构中的卷积层有助于模型学习输入数据的局部特征,线性层的主要作用是将最后一层卷积的输出(通过展平操作)映射成一个向量;
训练编码器的具体步骤如下:
S41:给定一条无标签的全流量数据样本,通过数据增强的方法生成/>的增强样本/>和/>
S42:增强样本和/>经过编码器的卷积和池化等处理输出得到/>和/>
S43:和/>经过线性层的处理,映射到潜在空间输出得到/>和/>
S44:在含有N个样本的批次训练中,对于同一个样本/>经过编码器处理得到的/>和/>定义为正样本对,不同样本经过编码器处理得到的/>定义为负样本对;
S45:定义NT-Xent损失函数,该损失会使正样本对的特征表示在嵌入空间中更加接近,而将负样本对的特征表示推远,正样本对(,/>)损失计算如下:
进一步地,sim( )是计算余弦相似度,τ是温度系数,用于控制编码器模型对于不同样本之间差异的敏感性。
一个训练批次的个样本总体损失计算:
S46:重复步骤S41、S42、S43、S44、S45,进行多个批次训练以最小化损失函数值,优化编码器的参数。
进一步地,所述数据增强的方法主要包括:
数据增强是自监督学习中一种常用的技术,通过对原始数据进行变换和扩充,生成额外的训练样本,有助于提高模型的性能和泛化能力。自监督学习中经常使用的数据增强方法有随机缩放、随机抖动、随机翻转等;详细解释如下:
随机缩放主要是生成一个服从正态分布的随机数组,数组的长度和样本的特征维度相同,用样本特征值乘于该数组值,达到缩放样本的目的;
随机抖动主要是生成一个服从正态分布的随机数组,数组的长度和样本的特征维度相同,用样本特征值加上该数组值,达到随机抖动的目的;
随机翻转主要是翻转样本特征值的顺序,主要用于时间序列数据。
本发明基于样本特征,主要采用随机缩放和随机抖动的数据增强方式。
进一步地,S5中,所述下游分类器模型、微调阶段过程包括:
微调训练的下游分类器是一个带有两个全连接层的多层感知机MLP,MLP分类器MLP第一层是带有64个神经元的神经网络,用于接收经过编码器处理过的数据;第二层神经元的数量与分类类别数目保持一致,即2个神经元,将流量数据分类为恶意流量和正常流量。
微调训练分类器的步骤如下:
S51:对于给定微调训练集中的样本,首先经过编码器的卷积层处理,再经过最 后一层线性层映射得到是一个256维的向量,最小化NT-Xent损失函数值调整编码器 参数;
S52:将输入到MLP分类器中,然后经过两个全连接层的处理输出给sigmoid激活函数,得到对应类别的分类预测概率;
S53:重复步骤S51、S52,计算当前批次中所有样本的分类预测概率,定义交叉熵损失函数,计算分类损失:
其中,是样本的分类预测概率,是样本的真实标签类别,是样本总数;
S54:重复步骤S51、S52、S53,进行多个批次训练以最小化损失函数值,优化编码器和分类器的参数。
S55:执行步骤S51~S54,得到训练完成后的模型。
进一步地,S7中,所述将训练好的模型部署到全流量入口,识别全流量数据集中的恶意流量,包括:
保存达到目标精度的模型,将该模型部署到全流量入口,配置该模型的相关环境依赖和网络资源,识别入口流量中存在的恶意流量。
通过实施本发明实例,采用以下步骤:分析攻击者的恶意攻击行为,生成并部署模拟正常Web服务器接收攻击的蜜点;采集并处理全流量数据和攻击者触发蜜点后产生的数据;无标签的全流量数据作为预训练数据集训练编码器,白名单流量和蜜点数据结合作为下游分类器微调的训练集和测试集;预训练阶段,使用预训练集训练CNN编码器;微调阶段,使用完成预训练的编码器处理微调训练集,处理后的数据输入给MLP分类器进行训练,以调整CNN编码器和MLP分类器的参数;使用微调测试集,评估训练好的模型;将训练好的模型部署到全流量入口,以识别全流量数据中的恶意流量。具有如下有益效果:
对比式自监督学习可用于提取网络流量和系统日志中的有用特征,以识别潜在的威胁和攻击迹象。同时,该方法能够学习未标记数据中的特征模式,提高对未知攻击的检测能力。对比式自监督学习采用的数据增强方法,可以生成更多样化的训练数据,提高模型对复杂攻击的泛化能力。此外,蜜点数据中提供多种类型的攻击行为,使模型能够更全面地学习攻击者行为。
附图说明
图1是本申请实施例提供的蜜点感知增强的恶意流量检测方法流程图;
图2是本申请实施例提供的蜜点感知增强的恶意流量检测方法框架流程图;
图3是本申请实施例提供的模型预训练阶段和微调阶段的流程示意图;
图4是本申请实施例提供的预训练阶段的数据增强的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅为本发明一种较佳实施例而已,而不是全部的实施例,当然不能以此来限定本发明之权利范围。因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
如图1所示,一种蜜点感知增强的恶意流量检测方法,包括以下步骤:
S1:分析网络安全平台的攻击场景特征,获取网络攻击者的恶意攻击行为特征;
S2:根据攻击特征信息生成模拟正常Web服务器接收攻击的蜜点,设置蜜点初始配置并部署,同时采集全流量数据和攻击者触发蜜点后产生的数据;
S3:对采集到的数据进行预处理,将无标签的全流量数据集作为预训练数据集训练编码器;将白名单流量数据和含有恶意攻击行为的蜜点数据结合并划分作为下游分类器微调的训练集和测试集;
S4:选取预训练编码器类型为卷积神经网络CNN,并将上述处理生成的无标签预训练数据集输入到编码器中进行训练,得到无监督预训练后的CNN编码器;
S5:选取下游分类器模型为多层感知机MLP,微调阶段先将微调训练集输入到已经完成预训练的编码器中进行处理,再将经过编码器处理过的数据集输入给多层感知机进行微调训练,以调整CNN编码器和MLP分类器的神经网络权重,得到训练后的模型;
S6:将所述测试集输入到训练好的模型中,评估模型区别正常流量和恶意流量的能力;
S7:将训练好的模型部署到全流量入口,识别全流量数据集中的恶意流量,增强系统识别高隐蔽威胁行为的能力。
图2为基于蜜点感知增强的恶意流量检测方法的框架流程图,以恶意攻击流量情景为例,以下将详细描述本发明具体的实施细节。
在步骤S1中,分析网络安全平台的攻击场景特征,获取网络攻击者的恶意攻击行为特征包括:
分析网络安全平台的攻击场景特征,所述攻击场景特征包括:异常流量模式、异常登录活动和拒绝服务攻击(DDos)等;所述恶意攻击行为特征包括攻击者的攻击目标、攻击技术和攻击流程等。
在步骤S2中,根据攻击特征信息生成模拟正常Web服务器接收攻击的蜜点包括:
根据收集的攻击特征信息,确定蜜点需求,生成蜜点配置文件,创建蜜点实例;
监控蜜点的运行状态,获取访问Web应用的全流量数据和攻击者触发蜜点产生的数据,根据白名单收集正常访问流量数据。
在步骤S3中,预处理采集到的数据包括:
数据清理环节,识别数据中的缺失值和异常值,剔除含有缺失值和异常值的流量数据;
数据集归一化环节,将数据规范化到一定的环节,以消除不同特征之间的量纲差异;
数据集划分环节,无标签的全流量数据集全部作为预训练数据集训练编码器,将正常的白名单数据集和异常的触发蜜点产生的数据集打上标签,划分成微调训练集和微调测试集,用于训练和评估调整编码器和下游的分类器。
如图3所示,在步骤S4中,预训练编码器结构和预训练过程如下:
根据数据集特征,预训练编码器由一个带有5个卷积层的卷积神经网络(CNN)和一个线性层构成,编码器结构中的卷积层有助于模型学习输入数据的局部特征,线性层的主要作用是将最后一层卷积的输出(通过展平操作)映射成一个向量;
训练编码器的具体步骤如下:
S41:给定一条无标签的全流量数据样本,通过数据增强的方法生成/>的增强样本/>和/>
S42:增强样本和/>经过编码器的卷积和池化等处理输出得到/>和/>
S43:和/>经过线性层的处理,映射到潜在空间输出得到/>和/>
S44:在含有N个样本的批次训练中,对于同一个样本/>经过编码器处理得到的/>和/>定义为正样本对,不同样本经过编码器处理得到的/>定义为负样本对;
S45:定义NT-Xent损失函数,该损失会使正样本对的特征表示在嵌入空间中更加接近,而将负样本对的特征表示推远,正样本对(,/>)损失计算如下:
其中,sim( )是计算余弦相似度,τ是温度系数,用于控制编码器模型对于不同样本之间差异的敏感性。
一个训练批次的个样本总体损失计算:
S46:重复步骤S41、S42、S43、S44、S45,进行多个批次训练以最小化损失函数值,优化编码器的参数。
如图4所示,数据增强是自监督学习中一种常用的技术,通过对原始数据进行变换和扩充,生成额外的训练样本,有助于提高模型的性能和泛化能力。自监督学习中经常使用的数据增强方法有随机缩放、随机抖动、随机翻转等;详细解释如下:
随机缩放主要是生成一个服从正态分布的随机数组,数组的长度和样本的特征维度相同,用样本特征值乘于该数组值,达到缩放样本的目的;
随机抖动主要是生成一个服从正态分布的随机数组,数组的长度和样本的特征维度相同,用样本特征值加上该数组值,达到随机抖动的目的;
随机翻转主要是翻转样本特征值的顺序,主要用于时间序列数据。
在步骤S5中,下游分类器模型、微调阶段过程包括:
微调训练的下游分类器是一个带有两个全连接层的多层感知机MLP,MLP分类器第一层是带有64个神经元的神经网络,用于接收经过编码器处理的数据;第二层神经元的数量与分类类别数目保持一致,即2个神经元,将流量数据分类为恶意流量和正常流量。
如图3所示,微调训练分类器的步骤如下:
S51:对于给定微调训练集中的样本,首先经过编码器的卷积层处理,再经过最 后一层线性层映射得到是一个256维的向量,最小化NT-Xent损失函数值调整编码器 参数;
S52:将输入到MLP分类器中,然后经过两个全连接层的处理输出给sigmoid激活函数,得到对应类别的分类预测概率;
S53:重复步骤S51、S52,计算当前批次中所有样本的分类预测概率,定义交叉熵损失函数,计算分类损失:
其中,是样本的分类预测概率,是样本的真实标签类别,是样本总数;
S54:重复步骤S51、S52、S53,进行多个批次训练以最小化损失函数值,优化编码器和分类器的参数。
S65:执行步骤S51~S54,得到训练完成后的模型,输入微调测试集评估该模型。
在步骤S7中,保存达到目标精度的模型,将该模型部署到全流量入口,配置该模型的相关环境依赖和网络资源,识别入口流量中存在的恶意流量。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (8)

1.一种蜜点感知增强的恶意流量检测方法,其特征在于,包括以下步骤:
S1:分析网络安全平台的攻击场景特征,获取网络攻击者的恶意攻击行为特征;
S2:根据攻击特征信息生成模拟正常Web服务器接收攻击的蜜点,设置蜜点初始配置并部署,同时采集全流量数据和攻击者触发蜜点后产生的数据;
S3:对采集到的数据进行预处理,将无标签的全流量数据集作为预训练数据集训练编码器;将白名单流量数据和含有恶意攻击行为的蜜点数据结合并划分作为下游分类器微调的训练集和测试集;
S4:选取预训练编码器类型为卷积神经网络CNN,并将上述处理生成的无标签预训练数据集输入到编码器中进行训练,得到无监督预训练后的CNN编码器;
S5:选取下游分类器模型为多层感知机MLP,微调阶段先将微调训练集输入到已经完成预训练的编码器中进行处理,再将经过编码器处理过的数据集输入给多层感知机进行微调训练,以调整CNN编码器和MLP分类器的神经网络权重,得到训练后的模型;
S6:将所述测试集输入到训练好的模型中,评估模型区别正常流量和恶意流量的能力;
S7:将训练好的模型部署到全流量入口,识别全流量数据集中的恶意流量,增强系统识别高隐蔽威胁行为的能力。
2.根据权利要求1所述的一种蜜点感知增强的恶意流量检测方法,其特征在于,S1中,所述分析网络安全平台的攻击场景特征,获取网络攻击者的恶意攻击行为特征包括:
分析网络安全平台的攻击场景特征,所述攻击场景特征包括:异常流量模式、异常登录活动和拒绝服务攻击;所述恶意攻击行为特征包括攻击者的攻击目标、攻击技术和攻击流程。
3.根据权利要求1所述的一种蜜点感知增强的恶意流量检测方法,其特征在于,S2中,所述根据攻击特征信息生成模拟正常Web服务器接收攻击的蜜点包括:
根据收集的攻击特征信息,确定蜜点需求,生成蜜点配置文件,创建蜜点实例;
监控蜜点的运行状态,获取访问Web应用的全流量数据和攻击者触发蜜点产生的数据,根据白名单收集正常访问流量数据。
4.根据权利要求1所述的一种蜜点感知增强的恶意流量检测方法,其特征在于,S3中,所述预处理采集到的数据包括:
数据清理环节,识别数据中的缺失值和异常值,剔除含有缺失值和异常值的流量数据;
数据集归一化环节,对数据集进行规范化,以消除不同特征之间的量纲差异;
数据集划分环节,无标签的全流量数据集全部作为预训练数据集训练编码器,将正常的白名单数据集和异常的触发蜜点产生的数据集打上标签,划分成微调训练集和微调测试集,用于训练和评估调整编码器和下游的分类器。
5.根据权利要求1所述的一种蜜点感知增强的恶意流量检测方法,其特征在于,S4中,所述预训练编码器结构和预训练过程如下:
根据数据集特征,预训练编码器由一个带有5个卷积层的卷积神经网络CNN和一个线性层构成,编码器结构中的卷积层用于学习输入数据的局部特征,线性层的作用是将最后一层卷积的输出映射成一个向量;
训练编码器的具体步骤如下:
S41:给定一条无标签的全流量数据样本,通过数据增强的方法生成/>的增强样本/>和/>
S42:增强样本和/>经过编码器的卷积和池化处理输出得到/>和/>
S43:和/>经过线性层的处理,映射到潜在空间输出得到/>和/>
S44:在含有N个样本的批次训练中,对于同一个样本/>经过编码器处理得到的/>和/>定义为正样本对,不同样本经过编码器处理得到的/>和/>定义为负样本对;
S45:定义NT-Xent损失函数,正样本对(,/>)损失计算如下:
其中,sim( )是计算余弦相似度,τ是温度系数,用于控制编码器模型对于不同样本之间差异的敏感性;
一个训练批次的个样本总体损失计算:
S46:重复步骤S41、S42、S43、S44、S45,进行多个批次训练以最小化损失函数值,优化编码器的参数。
6.根据权利要求5所述的一种蜜点感知增强的恶意流量检测方法,其特征在于,所述数据增强的方法包括:
基于样本的特征,采用随机缩放和随机抖动的数据增强方式。
7.根据权利要求5所述的一种蜜点感知增强的恶意流量检测方法,其特征在于,S5中,所述下游分类器模型、微调阶段过程包括:
微调训练的下游分类器是一个带有两个全连接层的多层感知机MLP,MLP分类器第一层是带有64个神经元的神经网络,用于接收经过编码器处理过的数据;第二层神经元的数量与分类类别数目保持一致,即2个神经元,将流量数据分类为恶意流量和正常流量;
微调训练分类器的步骤如下:
S51:对于给定微调训练集中的样本,首先经过编码器的卷积层处理,再经过最后一层线性层映射得到/>,/>是一个256维的向量,最小化NT-Xent损失函数值调整编码器参数;
S52:将输入到MLP分类器中,然后经过两个全连接层的处理输出给sigmoid激活函数,得到对应类别的分类预测概率;
S53:重复步骤S51、S52,计算当前批次中所有样本的分类预测概率,定义交叉熵损失函数,计算分类损失:
其中,是样本的分类预测概率,/>是样本的真实标签类别,/>是样本总数;
S54:重复步骤S51、S52、S53,进行多个批次训练以最小化损失函数值,优化编码器和分类器的参数;
S55:执行步骤S51~S54,得到训练完成后的模型。
8.根据权利要求1所述的一种蜜点感知增强的恶意流量检测方法,其特征在于,S7中,所述将训练好的模型部署到全流量入口,识别全流量数据集中的恶意流量,包括:
保存达到目标精度的模型,将该模型部署到全流量入口,配置该模型的相关环境依赖和网络资源,识别入口流量中存在的恶意流量。
CN202410085984.1A 2024-01-22 2024-01-22 一种蜜点感知增强的恶意流量检测方法 Active CN117614742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410085984.1A CN117614742B (zh) 2024-01-22 2024-01-22 一种蜜点感知增强的恶意流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410085984.1A CN117614742B (zh) 2024-01-22 2024-01-22 一种蜜点感知增强的恶意流量检测方法

Publications (2)

Publication Number Publication Date
CN117614742A true CN117614742A (zh) 2024-02-27
CN117614742B CN117614742B (zh) 2024-05-07

Family

ID=89956488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410085984.1A Active CN117614742B (zh) 2024-01-22 2024-01-22 一种蜜点感知增强的恶意流量检测方法

Country Status (1)

Country Link
CN (1) CN117614742B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978613A (zh) * 2022-04-29 2022-08-30 南京信息工程大学 基于数据增强和自监督特征增强的网络入侵检测方法
CN116192500A (zh) * 2023-02-22 2023-05-30 电子科技大学 一种对抗标签噪声的恶意流量检测装置及方法
US20230169332A1 (en) * 2021-11-28 2023-06-01 Naver Corporation Method and system for machine learning from imbalanced data with noisy labels
US20230281310A1 (en) * 2022-03-01 2023-09-07 Meta Plataforms, Inc. Systems and methods of uncertainty-aware self-supervised-learning for malware and threat detection
CN117034112A (zh) * 2023-08-10 2023-11-10 浙江工业大学 一种基于样本增强与对比学习的恶意网络流量分类方法
CN117061256A (zh) * 2023-10-13 2023-11-14 北京中超伟业信息安全技术股份有限公司 基于动态蜜罐的网络安全系统及方法
CN117318980A (zh) * 2023-07-10 2023-12-29 北京理工大学 一种面向小样本场景的自监督学习恶意流量检测方法
CN117375997A (zh) * 2023-11-14 2024-01-09 广州大学 一种基于蜜点的恶意流量攻击安全知识平面构建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230169332A1 (en) * 2021-11-28 2023-06-01 Naver Corporation Method and system for machine learning from imbalanced data with noisy labels
US20230281310A1 (en) * 2022-03-01 2023-09-07 Meta Plataforms, Inc. Systems and methods of uncertainty-aware self-supervised-learning for malware and threat detection
CN114978613A (zh) * 2022-04-29 2022-08-30 南京信息工程大学 基于数据增强和自监督特征增强的网络入侵检测方法
CN116192500A (zh) * 2023-02-22 2023-05-30 电子科技大学 一种对抗标签噪声的恶意流量检测装置及方法
CN117318980A (zh) * 2023-07-10 2023-12-29 北京理工大学 一种面向小样本场景的自监督学习恶意流量检测方法
CN117034112A (zh) * 2023-08-10 2023-11-10 浙江工业大学 一种基于样本增强与对比学习的恶意网络流量分类方法
CN117061256A (zh) * 2023-10-13 2023-11-14 北京中超伟业信息安全技术股份有限公司 基于动态蜜罐的网络安全系统及方法
CN117375997A (zh) * 2023-11-14 2024-01-09 广州大学 一种基于蜜点的恶意流量攻击安全知识平面构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈铁明等: "基于样本增强的网络恶意流量智能检测方法", 通信学报, vol. 41, no. 06, 12 June 2020 (2020-06-12), pages 128 - 138 *

Also Published As

Publication number Publication date
CN117614742B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
Yuan et al. DeepDefense: identifying DDoS attack via deep learning
Balakrishnan et al. Deep Belief Network enhanced intrusion detection system to prevent security breach in the Internet of Things
US10848508B2 (en) Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend
CN111783442A (zh) 入侵检测方法、设备和服务器、存储介质
Liu et al. Detection of IoT botnet based on deep learning
Chang et al. Intrusion detection by backpropagation neural networks with sample-query and attribute-query
CN110351291B (zh) 基于多尺度卷积神经网络的DDoS攻击检测方法及装置
Sarwar et al. Design of an advance intrusion detection system for IoT networks
Park et al. Host-based intrusion detection model using siamese network
CN116318924A (zh) 一种小样本入侵检测方法、系统、介质、设备及终端
Karanam et al. Intrusion detection mechanism for large scale networks using CNN-LSTM
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
CN116633601A (zh) 一种基于网络流量态势感知的检测方法
Hussain et al. CNN-Fusion: An effective and lightweight phishing detection method based on multi-variant ConvNet
Ahmad et al. Artificial neural network approaches to intrusion detection: a review
Sekar et al. Prediction of Distributed Denial of Service Attacks in SDN using Machine Learning Techniques
Golovko et al. Neural network approaches for intrusion detection and recognition
CN116962047A (zh) 一种可解释的威胁情报生成方法、系统及装置
CN117614742B (zh) 一种蜜点感知增强的恶意流量检测方法
Feng et al. A deep belief network based machine learning system for risky host detection
Sivanantham et al. Web Hazard Identification and Detection Using Deep Learning-A Comparative Study
CN113468555A (zh) 一种客户端访问行为识别方法、系统及装置
Nguyen et al. Towards an attention-based threat detection system for iot networks
Juvonen et al. Anomaly detection framework using rule extraction for efficient intrusion detection
Al-Nafjan et al. Intrusion detection using PCA based modular neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant