CN116319033A - 网络入侵攻击检测方法、装置、设备及存储介质 - Google Patents

网络入侵攻击检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116319033A
CN116319033A CN202310301284.7A CN202310301284A CN116319033A CN 116319033 A CN116319033 A CN 116319033A CN 202310301284 A CN202310301284 A CN 202310301284A CN 116319033 A CN116319033 A CN 116319033A
Authority
CN
China
Prior art keywords
semantic
network
intrusion
vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310301284.7A
Other languages
English (en)
Inventor
顾钊铨
谭昊
张欢
张钧建
王乐
余涛
陈元
周可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202310301284.7A priority Critical patent/CN116319033A/zh
Publication of CN116319033A publication Critical patent/CN116319033A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络入侵攻击检测方法、装置、设备及存储介质,属于网络安全技术领域,该方法包括:获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;对所述第一特征向量进行语义映射处理,得到第一语义向量;确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。本发明通过语义相似度匹配判断未知入侵数据的网络入侵攻击类型,实现了提高检测网络中未知攻击的速度的技术效果。

Description

网络入侵攻击检测方法、装置、设备及存储介质
技术领域
本发明涉及网络安全技术领域,尤其涉及一种网络入侵攻击检测方法、装置、设备及存储介质。
背景技术
近年来,人们在享受互联网带来的高效与便利时,也面临着各式各样的网络安全威胁,例如垃圾邮件,恶意弹窗,高级可持续性威胁(APT,Advanced Persistent Threat)等。各种网络攻击事件日益激增,给各大公司造成了重大经济损失,甚至威胁了国家网络安全。因此,如何高效快速且精准的检测出网络攻击,并且采取防御措施成为亟需解决的问题。
目前,对未知攻击的检测主要是采用基于聚类或蜜罐的方法。其中,基于聚类的方法需要足够数量的攻击实例,但未知攻击的发生具有不确定性,往往很难在短时间内收集到足够数量的攻击实例,因此很难及时有效地检测到未知攻击。对于基于蜜罐的方法,在收集攻击样本时,需要消耗大量的资源来构建一个能够欺骗攻击者的蜜罐系统。同时,蜜罐系统仍然有被狡猾的入侵者利用的风险,从而反过来攻击其他系统。因此,在保障网络安全的前提下,目前的未知网络攻击检测方法还存在着检测速度慢的问题。
发明内容
本发明的主要目的在于提供一种网络入侵攻击检测方法、装置、设备及存储介质,旨在解决目前的未知网络攻击检测方法检测速度慢的问题。
为实现上述目的,本发明提供一种网络入侵攻击检测方法,该方法包括:
获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;
对所述第一特征向量进行语义映射处理,得到第一语义向量;
确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;
根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。
可选地,所述将所述未知入侵数据转换为第一特征向量的步骤包括:
对所述未知入侵数据进行预处理,得到标准输入数据;
将所述标准输入数据输入目标深度信念网络中,对所述标准输入数据进行特征映射,得到所述未知入侵数据对应的第一特征向量。
可选地,所述对所述第一特征向量进行语义映射处理,得到第一语义向量的步骤包括:
将所述第一特征向量输入目标语义映射模型,将所述第一特征向量从特征空间映射至语义空间,生成所述第一语义向量。
可选地,所述确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度的步骤包括:
对所述第一语义向量和各所述攻击语义向量进行概率线性判别分析,计算所述第一语义向量和各所述攻击语义向量之间的对数似然比;
将所述对数似然比作为所述语义相似度。
可选地,所述根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型的步骤包括:
比较所述语义相似度和预设的相似度阈值之间的大小关系;
若所述语义相似度大于所述相似度阈值,则确定所述攻击语义向量的网络入侵攻击类型,作为所述未知入侵数据的网络入侵攻击类型。
可选地,在所述获取未知入侵数据,将所述未知入侵数据转换为第一特征向量的步骤之前,还包括:
获取网络入侵数据集,对所述网络入侵数据集中的入侵数据进行情报分析,得到威胁情报文本数据;
将所述威胁情报文本数据转换为第二特征向量,对所述第二特征向量进行语义编码,得到第二语义向量;
基于所述第二语义向量构建所述预设网络入侵语义库。
可选地,在所述基于所述第二语义向量构建所述预设网络入侵语义库的步骤之后,还包括:
将所述网络入侵数据集输入初始自编码器网络中,对所述初始自编码器网络进行迭代训练;
构建所述初始自编码器网络的损失函数,其中,所述损失函数中包含平衡因子;
若所述损失函数收敛,则结束训练过程,得到目标自编码器网络,将所述目标自编码器网络作为所述目标语义映射模型。
此外,为实现上述目的,本发明还提供一种网络入侵攻击检测装置,所述网络入侵攻击检测装置包括:
获取模块,用于获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;
映射模块,用于对所述第一特征向量进行语义映射处理,得到第一语义向量;
确定模块,用于确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;
判断模块,用于根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。
此外,为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络入侵攻击检测程序,所述网络入侵攻击检测程序配置为实现如上文所述的网络入侵攻击检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络入侵攻击检测程序,所述网络入侵攻击检测程序被处理器执行时实现如上文所述的网络入侵攻击检测方法的步骤。
本发明提供的网络入侵攻击检测方法,获取未知入侵数据,将所述未知入侵数据转换为第一特征向量,对所述第一特征向量进行语义映射处理,得到第一语义向量,确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度,根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型,将未知入侵数据特征化为第一特征向量,再映射为第一语义向量,第一语义向量可以表征未知入侵数据的语义属性,与攻击语义向量进行相似度匹配,就可以有效检测出未知入侵数据的网络入侵攻击类型,检测过程无需攻击样本达到一定的数量即可有效进行,不仅实现实时检测未知攻击,检测速度也得到提高。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;
图2为本发明网络入侵攻击检测方法第一实施例的流程示意图;
图3为本发明网络入侵攻击检测方法第二实施例的流程示意图;
图4为本发明网络入侵攻击检测方法涉及的深度信念网络的结构示意图;
图5为本发明网络入侵攻击检测方法第三实施例的流程示意图;
图6为本发明网络入侵攻击检测方法第四实施例的流程示意图;
图7为本发明网络入侵攻击检测方法第五实施例的流程示意图;
图8为本发明网络入侵攻击检测装置的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
入侵检测系统(IDS,Intrusion Detection System)作为万物互通、网络互联时代下的重要安全保障,能够快速积极响应并识别网络中的异常行为。但是,在当前这种复杂的网络环境中,各种网络攻击种类繁多,由于网络攻击的不确定性,会出现一些恶意攻击类别的带标签数据量不足,新型未知的网络攻击难以被传统基于机器学习的IDS所发现的情况。
因此,未知攻击检测仍然是一个巨大的挑战。近年来,基于聚类的网络攻击检测方法逐渐被学者们提出。例如,基于k-means的大规模并行化网络入侵检测方法,通过spark-k-means进行局部聚类分析,将各聚类后所得的簇作为数据点进行再次集中聚类,利用投票法决定对应簇内的节点是否是异常请求。又例如,基于迁移学习的网络入侵检测模型,通过模型参数共享与微调,让网络模型能够快速学习新类型攻击。基于蜜罐的检测方法也有学者提出,例如,一种自适应的威胁检测体系结构,该体系结构将网络中蜜罐收集到的攻击数据实时传输到训练模型中,可以解决无法实时检测未知攻击的问题。但是,这种方法过于依赖从蜜罐中提取信息。从上述举例的方法中可以看出,基于聚类的方法需要足够数量的攻击实例,但未知攻击的发生具有不确定性,往往很难在短时间内收集到足够数量的攻击实例,因此很难及时有效地检测到未知攻击。基于蜜罐的方法,在收集攻击样本时,需要消耗大就量的资源来构建一个能够欺骗攻击者的蜜罐系统。同时,蜜罐系统仍然有被狡猾的入侵者利用的风险,从而反过来攻击其他系统。
与上述方法相比,仅通过语义描述检测未知攻击的零样本学习方法比基于聚类的方法速度更快,且消耗的资源明显少于基于蜜罐的方法。本发明的主要技术方案是:获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;对所述第一特征向量进行语义映射处理,得到第一语义向量;确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的电子设备结构示意图。
如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及网络入侵攻击检测程序。
在图1所示的电子设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在电子设备中,所述电子设备通过处理器1001调用存储器1005中存储的网络入侵攻击检测程序,并执行本发明实施例提供的网络入侵攻击检测方法。
本发明实施例提供了一种网络入侵攻击检测方法,参照图2,图2为本发明一种网络入侵攻击检测方法第一实施例的流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,网络入侵攻击检测方法的执行主体可以是台式电脑、个人电脑、服务器等设备,在本实施例中并不做限制,以下为便于描述,省略执行主体进行各实施例的阐述。
本实施例中,所述网络入侵攻击检测方法包括:
步骤S10,获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;
未知入侵数据是指攻击检测过程中监测到的未知攻击类型的数据,可以理解的是,未知入侵数据的数据量可以是极大的。第一特征向量是指表征未知入侵数据特征属性的特征向量。本实施例对获取未知入侵数据的方式不做限制,例如,可以通过监控程序实时检测网络中是否存在入侵数据,对于未知攻击类型的数据判定为未知入侵数据。本实施例对将未知入侵数据转换为第一特征向量的方式也不做限制,可以采用特征提取的方式将未知入侵数据转换为第一特征向量。
步骤S20,对所述第一特征向量进行语义映射处理,得到第一语义向量;
语义映射是指将特征向量映射为语义向量的处理过程,第一语义向量是与第一特征向量对应的语义向量,可以表征未知入侵数据的语义属性。本实施例对语义映射处理的方式不做限制,例如,可以采用自编码器作为语义映射处理的网络结构,利用自编码器中的隐藏层向量作为语义向量来表征未知入侵数据的语义属性。
在一些可行的实施方式中,对所述第一特征向量进行语义映射处理,得到第一语义向量的步骤可以包括:
步骤a,将所述第一特征向量输入目标语义映射模型,将所述第一特征向量从特征空间映射至语义空间,生成所述第一语义向量。
目标语义映射模型是从初始语义映射模型训练得到的模型,可以生成与第一特征向量对应的第一语义向量。本实施例对目标语义映射模型的具体形式不做限制,例如,其可以为变分自编码器网络结构,通过隐藏层描述未知入侵数据的语义属性。
步骤S30,确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;
预设网络入侵语义库(NAS,Network Attack Storage)是指存储有攻击语义向量的数据库,攻击语义向量是指从已知攻击数据中学习到语义属性而形成的语义向量。语义相似度是指评估语义向量之间的相似程度的指标,语义相似度越高,表示语义向量对应的入侵数据之间攻击类型相同的可能性越高。
本实施例对确定语义相似度的方式不做限制,例如,可以采用余弦相似度来计算语义向量之间的相似度。两个向量的余弦值,其角度为0°时余弦值等于1,表示两个向量趋向于相似。相反,如果两个相反的矢量之间的角度等于180°,余弦值等于-1。如果两个垂直向量之间的角等于90°,余弦等于0。可以使用的计算公式如下公式1。
公式1:
Figure BDA0004145221020000071
其中,每个语义向量都存在对应的网络入侵标签,可以定义已知类和未知类语义向量集分别为:
Figure BDA0004145221020000072
和/>
Figure BDA0004145221020000073
其中/>
Figure BDA0004145221020000074
是与第i种已知类、未知类相对应的语义属性矢量,Rq为q维的语义实向量空间。
步骤S40,根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。
语义相似度越高表示进行比较的两个向量之间越接近,可以确定未知入侵数据与该攻击语义向量的网络入侵攻击类型一致。对于上述采用余弦相似度比较语义相似度的例子,分别取出NAS中的每个攻击语义向量,与
Figure BDA0004145221020000075
一起计算余弦值。我们可以从NAS中得到余弦值最接近1的向量/>
Figure BDA0004145221020000076
是与/>
Figure BDA0004145221020000077
最相似的向量,/>
Figure BDA0004145221020000078
的攻击类型是根据向量/>
Figure BDA0004145221020000079
的标签来确定的。
在本实施例中,获取未知入侵数据,将所述未知入侵数据转换为第一特征向量,对所述第一特征向量进行语义映射处理,得到第一语义向量,确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度,根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型,将未知入侵数据特征化为第一特征向量,再映射为第一语义向量,第一语义向量可以表征未知入侵数据的语义属性,与攻击语义向量进行相似度匹配,就可以有效检测出未知入侵数据的网络入侵攻击类型,检测过程无需攻击样本达到一定的数量即可有效进行,不仅实现实时检测未知攻击,检测速度也得到提高。
进一步的,在本发明网络入侵攻击检测方法的第二实施例中,参照图3,该方法包括:
步骤S11,对所述未知入侵数据进行预处理,得到标准输入数据;
预处理是指将未知入侵数据处理为标准输入数据的处理过程,标准输入数据是指未知入侵数据的不同表现形式,经过预处理的标准输入数据可以便于后续模型处理的过程。本实施例对预处理的方式不做限制,例如,可以包括流量包清洗、字符型特征属性数值化和归一化、数据标签化、标签数值化这些处理步骤。
此外,在整个网络模型的训练过程中,对于获取到的网络入侵数据集可以进行与上述未知入侵数据相近的预处理过程。以NSL-KDD网络入侵公开数据集为例,该数据集由38个数字型属性特征和3个字符型属性特征组成。首先,可以使用one-hot编码技术数值化数据内部的字符型特征,可以包括“protocol_type”、“service”和“flag”。接着对训练集中不同的特征进行标准化,使得整体的数据服从均值为0方差为1的分布。将数据集中的不同类型的数据进行标签数值化,使用数值区分不同攻击类型的数据。还可以将数据集划分为训练集(已知类网络入侵数据集Ds)和测试集(未知类网络入侵数据集Du。已知类网络入侵数据集及器网络入侵属性构建训练集
Figure BDA0004145221020000081
Figure BDA0004145221020000082
其中/>
Figure BDA0004145221020000083
表示第i个训练样本即第i个已知类网络入侵数据,/>
Figure BDA0004145221020000084
是与每个已知类样本/>
Figure BDA0004145221020000085
所对应的类别标签。Xs是已知类样本数据集,Ys是已知类的标签集,Ns是已知类的样本总数,上标s表示已知类。未知类网络入侵数据集及其标签构建测试集/>
Figure BDA0004145221020000086
Figure BDA0004145221020000087
其中/>
Figure BDA0004145221020000088
表示第i个训练样本即第i个未知网络入侵数据,/>
Figure BDA0004145221020000089
是与每个已知类样本/>
Figure BDA00041452210200000810
所对应的类别标签。Xu是未知类样本数据集,Yu是未知类的标签集,Nu是未知类的样本总数,上标u表示未知类。已知类和未知类的标签集不相交,即/>
Figure BDA0004145221020000091
步骤S12,将所述标准输入数据输入目标深度信念网络中,对所述标准输入数据进行特征映射,得到所述未知入侵数据对应的第一特征向量。
目标深度信念网络是指初始深度信念网络训练完成后得到的网络结构。深度信念网络(DBN,Deep Belief Network)是由多层受限玻尔兹曼机网络(RBM,RestrictedBoltzmann Machines)和单层全连接网络依次堆叠构成的深度神经网络。如图4所示,本实施例中的DBM包括3层RBM和顶层的BP。
初始深度信念网络训练的过程可以包括无监督的预训练和基于BP(BackPropagation,反向传播)算法的权值微调两个过程。无监督的预训练过程,通过对比分歧算法逐层训练RBM网络,将无标签的网络入侵数据映射至不同特征空间,从而保留数据的关键特征信息,获得较优的低维表示。基于BP算法的权值微调过程,BP网络设置在深度信念网络的最后一层(顶层),利用被附加到DBN顶层的带标签数据,将误差损失自顶而下地逐层传播至每一层RBM网络,对整个DBN的权值进行调整,从而获得最优的低维表示数据。
在基于BP算法的权值微调过程中,首先计算训练样本xi经过DBN网络的实际输出表示xi′,对于输出层节点m,根据以下公式2计算其实际输出和期望输出的误差项δm
公式2:
δm=xi′·(1-xi′)(vi-xi′)
计算每个隐藏层神经元h的误差项δh,更新每个网络模型参数,参见公式3。
公式3:
Figure BDA0004145221020000092
其中,whm为隐藏层神经元h与后续输出层节点m的连接权值。其更新公式如下公式4。
公式4:
Δwij=α·δh·xi
wij=wij+Δwij
其中,α表示学习速率,具体数值需要通过实验来设置。为了提高DBN网络的性能,可以采用Adam优化器来动态优化训练过程中的学习率,提升网络的训练收敛速度。重复以上步骤,直至模型收敛。
将标准输入数据输入目标深度信念网络中,就可以得到
Figure BDA0004145221020000101
的特征向量
Figure BDA0004145221020000102
在本实施例中,将经过预处理的标准输入数据输入目标深度信念网络中,可以提取出未知入侵数据的特征向量,特征向量可以表征标准输入数据的特征属性,作为语义映射的数据基础。
进一步的,在本发明网络入侵攻击检测方法的第三实施例中,参照图5,该方法包括:
步骤S31,对所述第一语义向量和各所述攻击语义向量进行概率线性判别分析,计算所述第一语义向量和各所述攻击语义向量之间的对数似然比;
概率线性判别分析(PLDA,Probabilistic Linear Discriminant Analysis)也可以作为语义相似度评估的方式,在评估过程中,对向量之间的相似度进行判别打分。打分使用的计算公式可以为如下公式5。
公式5:
Figure BDA0004145221020000103
其中,γ1和γ2分别表示两个样本的语义属性矢量,这两条样本来自同一空间的假设为Zs,来自不同的空间的假设为Zd
步骤S32,将所述对数似然比作为所述语义相似度。
在上述分值计算方式中,比值越高,得分越高,两各向量属于同一类的可能性越大。PLDA可以看作一种生成模型,那么在使用PLDA进行计算之前,还可以进行PLDA模型的训练。可以定义第m类网络入侵数据的第n条数据的语义属性矢量为γmn,那么可以定义γmn的生成模型为如下公式6。
公式6:
Figure BDA0004145221020000104
其中,μ为数据均值,ρ和
Figure BDA0004145221020000105
是空间特征矩阵,σ为噪声协方差。模型的训练过程可以通过EM(Expectation-Maximization,期望最大化)算法迭代求解上述的参数。
在一些可行的实施方式中,根据语义相似度判断未知入侵数据的网络入侵攻击类型的步骤可以包括:
步骤d,比较所述语义相似度和预设的相似度阈值之间的大小关系;
步骤e,若所述语义相似度大于所述相似度阈值,则确定所述攻击语义向量的网络入侵攻击类型,作为所述未知入侵数据的网络入侵攻击类型。
相似度阈值可以为预先设置的阈值。在语义相似度大于相似度阈值的情况下,可以认为第一语义向量和该次比较的攻击语义向量符合相似度的要求,未知入侵数据的网络入侵攻击类型与该攻击语义向量的标签类型相同。在语义相似度小于相似度阈值的情况下,可以继续计算其它攻击语义向量与第一语义向量之间的语义相似度。
相似度阈值还可以是将网络入侵数据集中的训练集和测试集作为数据输入,通过对语义向量之间的相似度计算,得到的整体模型的检测阈值。
在本实施例中,采用与余弦相似度计算不同的PLDA打分方法来评估语义向量之间的相似度,相似度评估的方式更为丰富,对于相似度的评估更为全面。
进一步的,在本发明网络入侵攻击检测方法的第四实施例中,参照图6,该方法包括:
步骤S50,获取网络入侵数据集,对所述网络入侵数据集中的入侵数据进行情报分析,得到威胁情报文本数据;
网络入侵数据集是指包含已收集到的入侵数据的数据集,其中入侵数据可以为已知攻击类别的数据,也可以为未知攻击类别的数据。情报分析是指对入侵数据中包含的威胁情报进行识别,以文本形式输出威胁情报文本分析的过程。威胁情报文本数据可视为入侵数据的文本描述形式数据。本实施例对情报分析的具体实施方式不做限制,例如,可以通过识别入侵数据中是否包含威胁代码的方式进行分析,将识别到的威胁代码以文本的形式描述,生成威胁情报文本数据。
步骤S60,将所述威胁情报文本数据转换为第二特征向量,对所述第二特征向量进行语义编码,得到第二语义向量;
可以通过深度词嵌入的方法将威胁情报文本数据转换为第二特征向量。以BERT(Bidirectional Encoder Representation from Transformers,基于变换器的双向编码器表示)词嵌入方法为例,通过BERT预训练模型,对于每条标注的文本,设输入文本为W,n是该文本中的词汇数量,则一条标注文本可以表示为W=[w1,w2,…,wn]。使用BERT模型对每个W进行语义向量编码,E=Bert(W)∈Rn×v,其中E为表征的语义向量,v为该语义向量的维度。
步骤S70,基于所述第二语义向量构建所述预设网络入侵语义库。
第二语义向量可以表征入侵数据的语义属性,将所有的第二语义向量保存,就可以组建出预设网络入侵语义库。在预设网络入侵语义库中,第二语义向量还可以与入侵数据的标签关联,表示该入侵数据的攻击类型。
在本实施例中,基于威胁情报文本数据构建预设网络入侵语义库,预设网络入侵语义库中的第二语义向量可以作为语义相似度评估的参照,
进一步的,在本发明网络入侵攻击检测方法的第五实施例中,参照图7,该方法包括:
步骤S71,将所述网络入侵数据集输入初始自编码器网络中,对所述初始自编码器网络进行迭代训练;
可以使用自编码器网络作为语义映射模型,生成特征向量的语义向量。在本实施例中,以变分自动编码器(VAE,Variational Auto-Encoder)为例,其包含两个部分:编码器和解码器。编码器将提取出的输入样本的特征向
Figure BDA0004145221020000121
从特征空间映射V到语义空间/>
Figure BDA0004145221020000122
生成语义向量/>
Figure BDA0004145221020000123
每种数据对应同一个高维语义向量。解码器将编码器生成的语义向量映射回特征空间得到近似原始数据的特征向量v′,避免映射域偏移。
具体来说,将编码器内部神经网络中的参数设为θ,解码器内部神经网络中的参数设为
Figure BDA0004145221020000124
θ让网络从x映射到z,/>
Figure BDA0004145221020000125
让网络从z重构回x,因此,编码器可以表示为qθ(z|x),解码器可以表示为/>
Figure BDA0004145221020000126
步骤S72,构建所述初始自编码器网络的损失函数,其中,所述损失函数中包含平衡因子;
为了更好的将原始数据空间中的信息进行解耦,从而获取更优的高维表征向量。可以引入β-VAE,其损失函数为如下公式7。
公式7:
Figure BDA0004145221020000131
其中,β是表征能力和解耦能力之间的平衡因子,较大的β超参数能够降低原始数据的信息丰富度,提升模型的解耦能力。
步骤S73,若所述损失函数收敛,则结束训练过程,得到目标自编码器网络,将所述目标自编码器网络作为所述目标语义映射模型。
在损失函数收敛的情况下,可视为模型训练已达到较为理想的效果,此时的VAE网络可以作为目标语义映射模型。在损失函数未收敛的情况下,可以继续对模型进行训练。
在本实施例中,使用β-VAE作为目标语义映射模型,引入表征能力和解耦能力之间的平衡因子,可以更好的将原始数据空间中的信息进行解耦,得到的语义向量表征语义属性的能力更好。
本发明实施例还提供一种网络入侵攻击检测装置,如图8所示,所述网络入侵攻击检测装置包括:
获取模块101,用于获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;
映射模块102,用于对所述第一特征向量进行语义映射处理,得到第一语义向量;
确定模块103,用于确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;
判断模块104,用于根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。
可选地,获取模块101还用于:
对所述未知入侵数据进行预处理,得到标准输入数据;
将所述标准输入数据输入目标深度信念网络中,对所述标准输入数据进行特征映射,得到所述未知入侵数据对应的第一特征向量。
可选地,映射模块102还用于:
将所述第一特征向量输入目标语义映射模型,将所述第一特征向量从特征空间映射至语义空间,生成所述第一语义向量。
可选地,确定模块103还用于:
对所述第一语义向量和各所述攻击语义向量进行概率线性判别分析,计算所述第一语义向量和各所述攻击语义向量之间的对数似然比;
将所述对数似然比作为所述语义相似度。
可选地,判断模块104还用于:
比较所述语义相似度和预设的相似度阈值之间的大小关系;
若所述语义相似度大于所述相似度阈值,则确定所述攻击语义向量的网络入侵攻击类型,作为所述未知入侵数据的网络入侵攻击类型。
可选地,网络入侵攻击检测装置还包括构建模块,用于:
获取网络入侵数据集,对所述网络入侵数据集中的入侵数据进行情报分析,得到威胁情报文本数据;
将所述威胁情报文本数据转换为第二特征向量,对所述第二特征向量进行语义编码,得到第二语义向量;
基于所述第二语义向量构建所述预设网络入侵语义库。
可选地,网络入侵攻击检测装置还包括训练模块,用于:
将所述网络入侵数据集输入初始自编码器网络中,对所述初始自编码器网络进行迭代训练;
构建所述初始自编码器网络的损失函数,其中,所述损失函数中包含平衡因子;
若所述损失函数收敛,则结束训练过程,得到目标自编码器网络,将所述目标自编码器网络作为所述目标语义映射模型。
本发明实施例还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络入侵攻击检测程序,所述网络入侵攻击检测程序配置为实现如上文所述的网络入侵攻击检测方法的步骤。本发明实施例电子设备的具体实施方式参见上述网络入侵攻击检测方法各实施例,在此不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络入侵攻击检测程序,所述网络入侵攻击检测程序被处理器执行时实现如上文所述的网络入侵攻击检测方法的步骤。本发明实施例计算机可读存储介质的具体实施方式参见上述网络入侵攻击检测方法各实施例,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种网络入侵攻击检测方法,其特征在于,所述网络入侵攻击检测方法包括以下步骤:
获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;
对所述第一特征向量进行语义映射处理,得到第一语义向量;
确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;
根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。
2.如权利要求1所述的网络入侵攻击检测方法,其特征在于,所述将所述未知入侵数据转换为第一特征向量的步骤包括:
对所述未知入侵数据进行预处理,得到标准输入数据;
将所述标准输入数据输入目标深度信念网络中,对所述标准输入数据进行特征映射,得到所述未知入侵数据对应的第一特征向量。
3.如权利要求1所述的网络入侵攻击检测方法,其特征在于,所述对所述第一特征向量进行语义映射处理,得到第一语义向量的步骤包括:
将所述第一特征向量输入目标语义映射模型,将所述第一特征向量从特征空间映射至语义空间,生成所述第一语义向量。
4.如权利要求1所述的网络入侵攻击检测方法,其特征在于,所述确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度的步骤包括:
对所述第一语义向量和各所述攻击语义向量进行概率线性判别分析,计算所述第一语义向量和各所述攻击语义向量之间的对数似然比;
将所述对数似然比作为所述语义相似度。
5.如权利要求1所述的网络入侵攻击检测方法,其特征在于,所述根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型的步骤包括:
比较所述语义相似度和预设的相似度阈值之间的大小关系;
若所述语义相似度大于所述相似度阈值,则确定所述攻击语义向量的网络入侵攻击类型,作为所述未知入侵数据的网络入侵攻击类型。
6.如权利要求1-5任一项所述的网络入侵攻击检测方法,其特征在于,在所述获取未知入侵数据,将所述未知入侵数据转换为第一特征向量的步骤之前,还包括:
获取网络入侵数据集,对所述网络入侵数据集中的入侵数据进行情报分析,得到威胁情报文本数据;
将所述威胁情报文本数据转换为第二特征向量,对所述第二特征向量进行语义编码,得到第二语义向量;
基于所述第二语义向量构建所述预设网络入侵语义库。
7.如权利要求6所述的网络入侵攻击检测方法,其特征在于,在所述基于所述第二语义向量构建所述预设网络入侵语义库的步骤之后,还包括:
将所述网络入侵数据集输入初始自编码器网络中,对所述初始自编码器网络进行迭代训练;
构建所述初始自编码器网络的损失函数,其中,所述损失函数中包含平衡因子;
若所述损失函数收敛,则结束训练过程,得到目标自编码器网络,将所述目标自编码器网络作为所述目标语义映射模型。
8.一种网络入侵攻击检测装置,其特征在于,所述网络入侵攻击检测装置包括:
获取模块,用于获取未知入侵数据,将所述未知入侵数据转换为第一特征向量;
映射模块,用于对所述第一特征向量进行语义映射处理,得到第一语义向量;
确定模块,用于确定所述第一语义向量与预设网络入侵语义库中的各个攻击语义向量之间的语义相似度;
判断模块,用于根据所述语义相似度判断所述未知入侵数据的网络入侵攻击类型。
9.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网络入侵攻击检测程序,所述网络入侵攻击检测程序配置为实现如权利要求1至7中任一项所述的网络入侵攻击检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有网络入侵攻击检测程序,所述网络入侵攻击检测程序被处理器执行时实现如权利要求1至7中任一项所述的网络入侵攻击检测方法的步骤。
CN202310301284.7A 2023-03-17 2023-03-17 网络入侵攻击检测方法、装置、设备及存储介质 Pending CN116319033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310301284.7A CN116319033A (zh) 2023-03-17 2023-03-17 网络入侵攻击检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310301284.7A CN116319033A (zh) 2023-03-17 2023-03-17 网络入侵攻击检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116319033A true CN116319033A (zh) 2023-06-23

Family

ID=86803006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310301284.7A Pending CN116319033A (zh) 2023-03-17 2023-03-17 网络入侵攻击检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116319033A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117792801A (zh) * 2024-02-28 2024-03-29 贵州华谊联盛科技有限公司 一种基于多元事件分析的网络安全威胁识别方法及系统
CN117834228A (zh) * 2023-12-25 2024-04-05 浙江大学 基于bert模型的强化学习蜜罐构建方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117834228A (zh) * 2023-12-25 2024-04-05 浙江大学 基于bert模型的强化学习蜜罐构建方法及装置
CN117792801A (zh) * 2024-02-28 2024-03-29 贵州华谊联盛科技有限公司 一种基于多元事件分析的网络安全威胁识别方法及系统
CN117792801B (zh) * 2024-02-28 2024-05-14 贵州华谊联盛科技有限公司 一种基于多元事件分析的网络安全威胁识别方法及系统

Similar Documents

Publication Publication Date Title
CN116319033A (zh) 网络入侵攻击检测方法、装置、设备及存储介质
CN111371806A (zh) 一种Web攻击检测方法及装置
CN109831460B (zh) 一种基于协同训练的Web攻击检测方法
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
WO2021068563A1 (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN111431849B (zh) 一种网络入侵检测方法及装置
CN112464233B (zh) 一种云平台上基于rnn的恶意软件检测方法
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN112199957A (zh) 基于属性和关系信息联合嵌入的人物实体对齐方法及系统
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN116722992A (zh) 一种基于多模态融合的诈骗网站识别方法及装置
CN115186012A (zh) 一种用电量数据检测方法、装置、设备及存储介质
WO2022156822A1 (zh) 一种分类模型训练方法及系统
CN117236334A (zh) 一种项目数据安全信息分级处理方法
WO2021244105A1 (zh) 一种特征向量维度压缩方法、装置、设备、介质
CN117828029A (zh) 一种基于情感-风格去偏的多领域虚假新闻检测方法
CN112613032A (zh) 基于系统调用序列的主机入侵检测方法及装置
CN114528908B (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN113159155B (zh) 再犯罪风险预警混合属性数据处理方法、介质和设备
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN112148902B (zh) 数据处理方法、装置、服务器及存储介质
CN115840817A (zh) 基于对比学习的信息聚类处理方法、装置和计算机设备
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination