CN116170237A - 一种融合gnn和acgan的入侵检测方法 - Google Patents

一种融合gnn和acgan的入侵检测方法 Download PDF

Info

Publication number
CN116170237A
CN116170237A CN202310454909.3A CN202310454909A CN116170237A CN 116170237 A CN116170237 A CN 116170237A CN 202310454909 A CN202310454909 A CN 202310454909A CN 116170237 A CN116170237 A CN 116170237A
Authority
CN
China
Prior art keywords
node
representing
acgan
graph
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310454909.3A
Other languages
English (en)
Other versions
CN116170237B (zh
Inventor
孙捷
车洵
胡牧
金奎�
袁海磊
罗小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongzhiwei Information Technology Co ltd
Original Assignee
Nanjing Zhongzhiwei Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongzhiwei Information Technology Co ltd filed Critical Nanjing Zhongzhiwei Information Technology Co ltd
Priority to CN202310454909.3A priority Critical patent/CN116170237B/zh
Publication of CN116170237A publication Critical patent/CN116170237A/zh
Application granted granted Critical
Publication of CN116170237B publication Critical patent/CN116170237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种融合GNN和ACGAN的入侵检测方法,包括以下步骤:S1,将GNN中E‑GraphSAGE嵌入ACGAN的判别器,构造挖掘网络流之间隐藏的图结构的入侵检测框架;S2,通过生成器和判别器的博弈对抗训练模型参数;S3,利用已训练好的生成器生成新的攻击流量,加入原数据集平衡训练数据集;S4,利用增广的数据重新训练ACGAN获得进一步优化的模型参数,提升判别器的检测精度;本方法具有增强检测未知攻击的能力、提高检测性能的特点。

Description

一种融合GNN和ACGAN的入侵检测方法
技术领域
本发明涉及网络安全领域,特别涉及一种融合GNN和ACGAN的入侵检测方法。
背景技术
近年来,物联网在多个领域提供广泛的智能、互联设备及应用,例如智能交通、智慧城市、智能制造等。这便于攻击者对不安全的设备连接进行网络攻击,例如常见的DDos攻击、Dos攻击、蠕虫攻击等。随着物联网在全球产业链中越来越快地部署,网络攻击频率将越来越高,攻击方式更加多样化,导致网络安全问题变得愈发严重。网络入侵检测系统是网络攻击检测的一种重要技术,通过实时监测网络传输,在发现可疑传输时发出警报或采取主动反应措施。因此,这种积极主动地安全防护技术在网络安全中发挥着重要作用。
蓬勃发展的深度学习逐渐成为网络入侵检测的主流方案。相比于传统的机器学习检测方法,深度学习擅长从海量、高维的原始数据,如图像、文本等中自动提取特征,进而有效地提高入侵检测率,降低误报率和漏报率。同时,深度神经网络搭建具有高度的灵活性。通过网络深度、宽度的拓展以及增加新的神经模块来捕捉细致、易变的攻击特征,安全运维者可以应对攻击数据的大规模增长和攻击者手段的不断升级。目前,研究者使用CNN、LSTM、AE等深度学习模型设计了一系列入侵检测的解决方案。例如:现有技术提到了一种入侵检测方法,使用BoT-IoT数据集训练CNN,测试结果显示攻击流量检测的准确率达到92.85%。考虑流量受时间因素的影响,现有技术提到了一种入侵检测系统,采用平滑激活函数改变样本沿时间轴的分布,从而提高了多分类检测的精确率。研究人员还试图利用BiLSTM方法解决网络流量的二分类和多分类问题。针对传统机器学习检测假阳性率高的问题,现有技术记载了一种入侵检测模型,其中ICVAE进行自动降维和初始化DNN隐藏层的权值,使得DNN在NSL-KDD和UNSW-NB15数据集上的检测误报率低于KNN、SVM、DBN等入侵检测方法;另外,一些混合方法,例如联合CNN与LSTM被讨论,目标是获得比单一模型更准确的流量检测结果。上述入侵检测方法均将网络流量视为欧式空间的序列,并未考虑网络流之间的关联性。然而,挖掘这些关联关系可有助于提高神经网络的分类决策能力。
事实上,网络流之间存在着非欧式空间的图结构关系。例如,NF-ToN-IoT-v2数据集记录了大量从相同源IP地址到目的IP地址的网络流。这些IP地址之间的交互可以将批量网络流映射为图模型。目前,图神经网络Graph Neural Network, GNN是处理图信息的典型深度学习方法,它可以直接在图结构上进行网络训练,便于学习流量特征后进行分类决策。例如:现有技术记载了一种网络异常检测方法,其将网络流转化为一阶图和二阶图,分别从单个主机和全部主机的角度学习网络流的潜在图特征。相比于每条流量的单一序列特征,这些图特征使得攻击检测的准确率有较大的提升。根据P2P僵尸网络节点交互特征及网络拓扑结构信息,利用多层图卷积自动学习ISCX-2014数据集中网络流的内在特征,再通过节点分类模块完成入侵检测。实验结果表明,GNN的检测准确率和模型稳定性优于CNN-LSTM、SOM两类对比方法。为了克服传统入侵检测不考虑流量数据互联模式的问题,现有技术提到了一种网络入侵检测系统,其结合边特征和节点特征检测网络攻击,在基准入侵检测数据集上的大量实验验证了GNN的高效检测潜力。
实际网络活动中正常流量占主导地位,而异常的攻击流量的数量相对较少。显然,类不平衡问题在入侵检测数据集中普遍存在,严重影响了上述基于GNN的入侵检测性能。生成对抗网络Generative Adversarial Network, GAN是近年来最具前景的数据增广方法之一。GAN可以学习原始样本的数据分布特征,并获得具有类似特征的生成样本。因此,GAN为网络入侵检测中数据不平衡问题提供了一种可行的解决方案。它可以有效地生成占比小的攻击流量。对GAN生成的攻击流量数据集进行重新采样,这些重采样数据有助于改善随机森林的训练效果,使之获得更好的二分类性能。利用人工神经网络ANN对入侵检测系统进行建模,现有技术记载了一种入侵检测系统,其中GAN生成合成样本,合成样本与原始样本共同被用于训练G-NIDS,以提高G-NIDS的攻击检测性能与模型稳定性。现有技术还记载了一种数据分布,其采用GAN的生成器学习数据特征来生成攻击网络流,IDA-GAN能够识别准确的二分类边界,生成高质量和多样化的入侵样本。注意到网络入侵检测包括二分类和多分类检测,其中二分类仅区分良性和攻击流量,多分类还要区分攻击流量的攻击类型,GAN难以解决多分类的数据不均衡问题,基于ACGAN的数据增广方法的生成器利用标签生成攻击样本,可扩充原数据库中的攻击流量。
因此,急需提供一种针对流量数据非结构化和类不平衡导致的入侵检测性能降低问题的方法。
发明内容
为实现上述目的,发明人提供了一种融合GNN和ACGAN的入侵检测方法,包括以下步骤:
S1,将GNN中E-GraphSAGE嵌入ACGAN的判别器,构造挖掘网络流之间隐藏的图结构的入侵检测框架;
S2,通过生成器和判别器的博弈对抗训练模型参数;
S3,利用已训练好的生成器生成新的攻击流量,加入原数据集平衡训练数据集;
S4,利用增广的数据集重新训练ACGAN获得进一步优化的模型参数,提升判别器的检测精度。
作为本发明的一种优选方式,步骤S1,将GNN中E-GraphSAGE嵌入ACGAN的判别器包括网络图构建,所述网络图构建包括以下步骤:
S101,将入侵检测数据集中源IP地址映射为172.16.0.1到172.31.0.1之间的一个随机IP地址;
S102,将源IP地址和源端口号构成一个二元组,用于识别源节点,而目的IP地址和目的端口号构成另一个二元组,用于识别目的节点;
S103,将一个元素都为1的向量嵌入所有节点,其维度等于流特征的维度,标准化流特征且标记为向量H,结合网络流的类标签label共同作为边嵌入向量(H,label)。
作为本发明的一种优选方式,所述流特征包括传入字节数、输出字节数、TCP层若干个FLAGS字段和流持续时间。
作为本发明的一种优选方式,步骤S1中,构造挖掘网络流之间隐藏的图结构的入侵检测框架包括以下步骤:
S104,输入层将随机噪声z、真实网络流的类标签label传给生成器G,生成器G根据label将随机噪声z转化为生成流特征HG
S105,源节点、目的节点分别与边嵌入向量(H,label)、生成流特征HG结合构建真实图和生成图;
S106,将真实图和生成图传输给判别器D,判别器D利用E-GraphSAGE采样、聚合图中边特征,并进行二分类和/或多分类检测。
作为本发明的一种优选方式,构建生成器G包括以下步骤:
生成器G利用Embedding层将真实网络流的类标签label转换为100维向量,并与生成的100维正态随机数相乘后分别输入100个神经元;
将输入层结果依次输入3个均含有100个神经元的隐藏层;
将隐藏层结果输入含有n个神经元的输出层,并获得生成流特征HG
生成的边特征联合真实流量的源IP地址和目的IP地址构成生成图;
根据式(1)、式(2)获得代价函数LS、LC
Figure SMS_1
Figure SMS_2
其中,LS,表示样本真实与否的代价函数,LC表示样本分类准确性的代价函数,E[]表示数学期望,X real 表示真实样本,X fake 表示生成样本,P表示概率值,S表示样本本源,C表示类集合,c表示其中的一个类;
训练生成器G需要最大化以下目标函数式(3):
Figure SMS_3
作为本发明的一种优选方式,构建判别器D包括以下步骤:
判别器D利用E-GraphSAGE对真实图
Figure SMS_4
、生成图/>
Figure SMS_5
进行全邻域随机采样、和边信息聚合,通过边分类来判别攻击类型;
进行全邻域随机采样包括步骤:对于真实图
Figure SMS_6
或生成图/>
Figure SMS_7
中任意一条边uv的两个端点u,v,E-GraphSAGE随机采样两个端点的一跳、二跳邻居节点及它们的连接边;
进行边信息聚合包括步骤:E-GraphSAGE初始化任意节点v的特征向量为
Figure SMS_8
,其维数等于边特征的维数,按照式(4)拼接节点v的邻居节点特征和边特征后进行加权和激活运算得到第k-1层边特征,表达式为:
Figure SMS_9
其中
Figure SMS_10
表示拼接函数,/>
Figure SMS_11
表示边uv的边特征;
再按照式(5)经过聚合边特征
Figure SMS_12
得到节点v的第k层邻居节点的点特征,表达式为:/>
Figure SMS_13
其中,AGG( )表示聚合函数,
Figure SMS_14
表示节点v的采样邻域,/>
Figure SMS_15
表示节点v采样邻域的边数量;
按照式(6)拼接节点特征
Figure SMS_16
与聚合特征/>
Figure SMS_17
,拼接后的向量经过加权和激活运算得到第k层的节点嵌入;
Figure SMS_18
经过K次迭代后获得第K层的节点嵌入,表达式为:
Figure SMS_19
最后,将端点u,v的节点嵌入按照式(8)拼接而获得边uv的边嵌入,式(8)为:
Figure SMS_20
将边嵌入输入Softmax后获得多分类检测结果;
根据上述真实图
Figure SMS_21
、生成图/>
Figure SMS_22
的全邻域随机采样和边信息聚合结果,定义式(9)、式(10)的损失函数:
Figure SMS_23
Figure SMS_24
构建的判别器D的优化目标函数为:
Figure SMS_25
作为本发明的一种优选方式,增广的数据集包括步骤:针对数量少的攻击流量,根据类标签label生成指定数量的攻击流量且增加至原训练集用于增广训练数据量。
区别于现有技术,上述技术方案所达到的有益效果有:本方法融合E-GraphSAGE和ACGAN构造了一种新的入侵检测框架GraphACGAN,首先,本方法将E-GraphSAGE嵌入ACGAN的判别器,并经过生成器和判别器的博弈对抗训练模型参数;接着,利用已训练好的生成器生成新的攻击流量,加入原数据集以平衡训练数据集,再重新训练ACGAN获得更优的模型参数,以进一步提升判别器的检测精度;仿真实验表明,GraphACGAN通过数据增广不仅可提高F1值和精确率,而且可增强检测未知攻击的能力;能有效的解决流量数据非结构化和数据不平衡导致的检测性能降低的问题。
附图说明
图1为具体实施方式所述基于E-GraphSAGE的入侵检测系统图。
图2为具体实施方式所述ACGAN的网络结构图。
图3为具体实施方式所述GraphACGAN的框架图。
图4为具体实施方式所述生成器G的网络结构图。
图5为具体实施方式所述NF-ToN-IoT-v2数据集上三种方法的F1值对比图。
图6为具体实施方式所述NF-UNSW-NB15-v2数据集上三种方法的F1值对比图。
图7为具体实施方式所述网络入侵检测的可视化图一。
图8为具体实施方式所述网络入侵检测的可视化图二。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
如图1至图4所示,本实施例提供了一种融合GNN和ACGAN的入侵检测方法,在本实施例的具体实施过程中,其涉及:
E-GraphSAGE模型原理:作为经典的图神经网络(GNN),E-GraphSAGE通过捕获图的边特征和节点特征实现边分类。图1给出了基于E-GraphSAGE的入侵检测系统;首先,网络流数据集中一批流量被构造成一个图结构;接着对图中任意两个节点u、v,进行全域采样,即它们的二跳邻居节点a-d分别将边特征聚合到对应的一跳邻居节点1-4,四个节点再分别将边特征聚合到对应的节点u、v,实现流量特征的两层聚合;最后,拼接节点u、v的流量特征作为边uv的嵌入表示,再输入激活函数获得网络流的多分类结果。
ACGAN模型原理:在2014年提出的生成对抗网络GAN模型框架包含2个相互对抗的多层感知机,即生成器G和判别器D。生成器G接收随机噪声并输出与真实样本相似的伪样本,而判别器D的任务是区分生成样本与真实样本。当博弈对抗训练达到纳什平衡时,2个网络都学习到样本分布。于是,生成器G可用于生成新样本,判别器D可用于二分类。然而,入侵检测既要判别良性和攻击流量,又要判别攻击类型。为了解决多分类问题,ACGAN改进了GAN,如图2所示。
图2中ACGAN将随机噪声z和类别标签c输入生成器G获得生成样本Xfake,并与同标签的真实样本Xreal一起输入判别器D获得如下两类代价函数式(1)、式(2):样本真实与否的代价函数LS和样本分类准确性的代价函数LC:
Figure SMS_26
Figure SMS_27
其中,E[]表示数学期望,X real 表示真实样本,X fake 表示生成样本,P表示概率值,S表示样本本源,C表示类集合,c表示其中的一个类;
训练过程中生成器G最大化LC - LS以使生成样本尽可能地被认为是真实样本,而判别器D最大化LC + LS以尽可能区分真假样本及K个类型。ACGAN比GAN更适合应用于网络入侵检测,因为它能够判别攻击类型,这便于安全运维者采取相应的防御措施。
在本实施例中,则融合E-GraphSAGE和ACGAN构造了一种新的入侵检测框架GraphACGAN,在本实施例的具体实施过程中,需进行网络图构建,具体的:网络流是记录计算机通信的常见格式,由标识通信源、目的地的IP字段及流特征组成。其中流特征包括传入字节数、输出字节数、TCP层多个FLAGS字段、流持续时间等。根据GNN原理,批量网络流可以构建为图结构。为此,本实施例首先将入侵检测数据集中源IP地址映射为172.16.0.1到172.31.0.1之间的一个随机IP地址,以避免源IP地址为少数攻击流量提供无意标签的潜在问题。接着,源IP地址和源端口号构成一个二元组用于识别源节点“IPV4_SRC_ADDR”,而目的IP地址和目的端口号构成另一个二元组用于识别目的节点“IPV4_DST_ADDR”。由此,图中节点不包含任何流特征,需将一个元素都为1的向量嵌入所有节点,其维度等于流特征的维度。最后,标准化流特征且标记为向量H,再结合网络流类标签label共同作为边嵌入向量(H,label)。
对于入侵检测框架,入侵检测数据集普遍存在类不平衡问题,这对E-GraphSAGE的检测性能产生较大影响。因此,在本实施例中,融合E-GraphSAGE与ACGAN设计如图3所示的入侵检测框架GraphACGAN。GraphACGAN利用ACGAN的对抗学习提高E-GraphSAGE的入侵检测准确率,同时利用ACGAN的生成器扩充网络流数据集,以解决类不平衡问题。
由图3可见,输入层将随机噪声z、真实网络流的类标签label传给生成器G,生成器G根据label将随机噪声z转化为生成流特征HG。接着,源节点“IPV4_SRC_ADDR”、目的节点“IPV4_DST_ADDR”分别与边嵌入向量(H,label)、生成流特征HG结合构建真实图、生成图。两个图传输给判别器D,判别器D利用E-GraphSAGE采样、聚合图中边特征,并进行多分类检测。若降低分类要求,判别器D也可以进行二分类。两种检测方式使得本实施例的入侵检测框架具有灵活性和伸缩性,可以适应不同的网络态势和用户需求,进行快速的二分类检测和精细的多分类检测。
在本实施例中的生成器G的网络结构如图4所示。G先利用Embedding层将真实网络流的类标签label转换为100维向量,并与生成的100维正态随机数相乘后分别输入100个神经元;再将输入层结果依次输入2个均含有100个神经元的隐藏层;最后将隐藏层结果输入含有n个神经元的输出层,并获得生成流特征HG。生成的15000条边特征联合15000条真实流量的源IP地址和目的IP地址构成生成图。
根据上述实施例中的两类代价函数,训练生成器G需要最大化以下目标函数LG,表达式为:
Figure SMS_28
最大化第一项可使生成流特征HG尽可能与真实流特征H相似,最大化第二项可使生成流特征HG与类标签更相似,这使得训练好的生成器按照类标签生成可用的流量数据。
在本实施例中的判别器D应用E-GraphSAGE对真实图
Figure SMS_29
、生成图/>
Figure SMS_30
进行以下采样、聚合过程,再由边分类来判别攻击类型。
全邻域随机采样:类似于图1,对于真实图或生成图中任意一条边uv的两个端点u、v,E-GraphSAGE随机采样两个端点的一跳、二跳邻居节点及它们的连接边。
边信息聚合:E-GraphSAGE初始化任意节点v的特征向量为
Figure SMS_31
,其维数等于边特征的维数。按照下式(4)拼接节点v的邻居节点特征和边特征后进行加权和激活运算得到第k-1层边特征。
Figure SMS_32
;/>
其中
Figure SMS_33
表示拼接函数,/>
Figure SMS_34
表示边uv的边特征,再按照式(5)经过聚合边特征/>
Figure SMS_35
得到节点v的第k层邻居节点的点特征。
Figure SMS_36
其中,AGG( )表示聚合函数,
Figure SMS_37
表示节点v的采样邻域,/>
Figure SMS_38
表示节点v采样邻域的边数量;
按照式(6)拼接节点特征
Figure SMS_39
与聚合特征/>
Figure SMS_40
,拼接后的向量经过加权和激活运算得到第k层的节点嵌入;
Figure SMS_41
反复上面的采样、聚合过程,经过K次迭代后获得第K次的节点嵌入,表示式为:
Figure SMS_42
最后,将端点u,v的节点嵌入按照式(8)拼接而获得边uv的边嵌入:
Figure SMS_43
将边嵌入输入Softmax后获得多分类检测结果;
根据上述真实图和生成图的采样、聚合结果,定义下面两个损失函数:
Figure SMS_44
Figure SMS_45
第一个损失函数最大化Lreal可以更好地学习真实图的信息,而第二个损失函数最大化Lfake可使判别精度更高;于是,判别器D设计以下优化目标函数:
Figure SMS_46
在本实施例中,对于增广攻击流量,如前所述,数据增广技术可以缓解入侵检测数据集的类不均衡问题,弥补现有攻击样本的滞后性,进而增强检测模型的鲁棒性。当ACGAN模型训练好后,本实施例则充分挖掘图3中生成器G的生成功能。针对数量偏少的攻击流量,根据类标签label生成指定数量的攻击流量且增加至原训练集以增广训练数据量。类均衡的数据集可以避免再次训练模型时的过拟合,进一步提高判别器D的检测精度。
下面则是融合E-GraphSAGE与ACGAN的网络入侵检测算法:
输入:网络流,类标签label;
输出:分类检测结果;
初始化:判别器D的初始参数
Figure SMS_47
,生成器G的初始参数/>
Figure SMS_48
优化迭代步长
Figure SMS_49
;/>
For:
Figure SMS_50
入侵检测数据集中的网络流形成真实图
Figure SMS_51
按照正态分布产生噪声z;
类标签和噪声输入生成器D获得生成图
Figure SMS_52
固定生成器G的参数
Figure SMS_53
,按照以下迭代表达式更新判别器D的参数/>
Figure SMS_54
Figure SMS_55
Figure SMS_56
固定判别器D的参数
Figure SMS_57
,按照以下迭代表达式更新生成器G的参数/>
Figure SMS_58
Figure SMS_59
Figure SMS_60
end for。
在不同的实施例中,还对本方法进行了仿真实验及结果分析。
实验环境与数据集:
为了评估基于Graph和ACGAN的网络入侵检测系统性能,本实施例使用两个公开的入侵检测数据集:NF-ToN-IoT-v2和NF-UNSW-NB15-v2数据集。这两个数据集用于评估基于机器学习的网络入侵检测系统,其概述如表1所示,类分布及占比如表2所示;本实施例随机选择每个数据集的70%流量记录用于训练,30%流量记录用于测试与评估。
表1 两种入侵检测数据集概述
Figure SMS_61
表2两个入侵检测数据集的类分布情况
Figure SMS_62
评价指标:
本实施例采用准确率Accuracy、精确率Precision、召回率Recall和F1值F1-score四种标准度量来定量分析和评价本入侵检测方法的性能,其中:
Figure SMS_64
Figure SMS_67
Figure SMS_69
Figure SMS_65
其中/>
Figure SMS_66
、/>
Figure SMS_68
、/>
Figure SMS_70
和/>
Figure SMS_63
分别表示真阳性、真阴性、假阳性和假阴性。
实验结果分析:
首先,本实施例在NF-ToN-IoT-v2、NF-UNSW-NB15-v2数据集上分别测试GraphACGAN的二分类和多分类性能。表3给出了二分类的入侵检测结果,可见两个基准数据集的Accuracy、Precision、Recall、F1值都达到了理想效果。这说明E-GraphSAGE通过采样、聚合多个邻居的边特征可使流量特征的提取更加精准,同时ACGAN中生成器G和判别器D的博弈增强了判别器的检测性能。两个方面的共同作用提升了GraphACGAN的二分类检测精度。
表3 两个数据集的二分类检测结果
Figure SMS_71
基于上述原因,GraphACGAN的多分类检测结果也达到了良好性能。表4和表5显示,在NF-ToN-IoT-v2、NF-UNSW-NB15-v2数据集上的加权Precision分别为96.27%、98.12%,F1值为95.80%、97.37%,反映出GraphACGAN对大部分类型的网络流具有稳定的检测性能。但是,NF-ToN-IoT-v2 和 NF-UNSW-NB15-v2中占比低的攻击流量,如:DoS、DDoS、MITM、Generic、Shellcode、Analysis的检测结果有待提高,这是由类不均衡引起的。为了提高攻击流量的检测精度,有必须增广的检测数据集。
表4 NF-ToN-IoT-v2数据集的多分类检测结果
Figure SMS_72
表5 NF-UNSW-NB15-v2数据集的多分类检测结果
Figure SMS_73
接着,本实施例在两个数据集上对比GraphACGAN、E-GraphSAGE和ACGAN的二分类、多分类检测性能。两个数据集都存在类不均衡问题,所以选用加权F1值作为性能指标。由表6可见,GraphACGAN的加权F1值都高于E-GraphSAGE、ACGAN,特别是多分类检测。例如,GraphACGAN在两个数据集上多分类的加权F1值分别比E-GraphSAGE、ACGAN提高了1.96%、14.83%和2.05%、21.78%。这是因为ACGAN未能利用网络流之间的非欧式图结构关系,输入单条流量不仅使得训练效率低,而且无法挖掘多条流量的共同特征来提高判别准确率;而E-GraphSAGE虽已将流量数据转换成了图结构,但缺少额外的辅助器来帮助它进一步提升检测器的性能。本实施例融合E-GraphSAGE和ACGAN的优点,构建的新型深度学习框架获得了更优的攻击识别能力。
表6 三种方法的入侵检测性能比较
Figure SMS_74
图5和图6给出了三种方法在NF-ToN-IoT-v2和NF-UNSW-NB15-v2数据集上的F1值,其中GraphACGAN的多分类检测精度均高于E-GraphSAGE和ACGAN。同时,E-GraphSAGE和ACGAN也不易判别出占比低的攻击流量,特别是ACGAN无法检测出DoS、MITM和Worms攻击。
针对上述实验中类不均衡问题,本实施例通过攻击流量的数据增广尝试提高GraphACGAN的检测性能。在NF-ToN-IoT-v2、NF-UNSW-NB15-v2数据集中分别加入2000条生成的攻击流量样本。由表7可见,使用增广数据集训练后,GraphACGAN在两个数据集上加权F1值均有所提高,并且多分类的增益更高。扩充攻击流量数据可以缓解类不平衡问题,进一步提高了ACGAN判别器D的检测精度。同时,生成样本扩展了新的攻击类型,使得GraphACGAN具有检测未知攻击的能力。
表7 数据增广前后GraphACGAN的检测性能对比
Figure SMS_75
最后,为了直观地理解本实施例分类器的良好性能,本实施例将训练好的GraphACGAN在不同于NF-ToN-IoT-v2、NF-UNSW-NB15-v2数据集的NF-BoT-IoT-v2数据集上进行测试,并可视化图模型的边嵌入。本实施例先获取NF-BoT-IoT-v2数据集的边嵌入特征,再应用统一流形近似和投影(UMAP)降维算法将高维数据映射到二维来实现分类的可视化,如图7和图8所示。从NF-BoT-IoT-v2数据集中随机采样10000条网络流,图7给出了良性流量和4种攻击流量的边嵌入特征。这些特征混杂在一起,无法识别出对应的流量类型。图8为分离的良性流量和4种攻击流量的边嵌入特征,其对应的良性流量和4种攻击流量被明显地分离开来,形成了位于不同位置的一个个聚类。这些聚类的规模大小对应着不同类型流量的数据量,其中占比小的攻击流量形成的聚类明显小于占比大的良性流量。
上述实施例提出得一种融合GNN和ACGAN的网络入侵检测方法,该方法既利用GNN中有效挖掘了入侵网络流之间隐藏的复杂图结构关系,又利用ACGAN融合E-GraphSAGE以助力提高二分类、多分类检测性能。且实验结果表明,GraphACGAN相比于E-GraphSAGE、ACGAN具有更好的检测准确率和F1值。同时,增广攻击流量数据进一步增强了GraphACGAN的检测能力,能够更精准地捕获多种类型的网络攻击。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (7)

1.一种融合GNN和ACGAN的入侵检测方法,其特征在于,包括以下步骤:
S1,将GNN中E-GraphSAGE嵌入ACGAN的判别器,构造挖掘网络流之间隐藏的图结构的入侵检测框架;
S2,通过生成器和判别器的博弈对抗训练模型参数;
S3,利用已训练好的生成器生成新的攻击流量,加入原数据集平衡训练数据集;
S4,利用增广的数据集重新训练ACGAN获得进一步优化的模型参数,提升判别器的检测精度。
2.根据权利要求1所述的方法,其特征在于,步骤S1,将GNN中E-GraphSAGE嵌入ACGAN的判别器包括网络图构建,所述网络图构建包括以下步骤:
S101,将入侵检测数据集中源IP地址映射为172.16.0.1到172.31.0.1之间的一个随机IP地址;
S102,将源IP地址和源端口号构成一个二元组,用于识别源节点,而目的IP地址和目的端口号构成另一个二元组,用于识别目的节点;
S103,将一个元素都为1的向量嵌入所有节点,其维度等于流特征的维度,标准化流特征且标记为向量H,结合网络流的类标签label共同作为边嵌入向量(H,label)。
3.根据权利要求2所述的方法,其特征在于:所述流特征包括传入字节数、输出字节数、TCP层若干个FLAGS字段和流持续时间。
4.根据权利要求2所述的方法,其特征在于,步骤S1中,构造挖掘网络流之间隐藏的图结构的入侵检测框架包括以下步骤:
S104,输入层将随机噪声z、真实网络流的类标签label传给生成器G,生成器G根据label将随机噪声z转化为生成流特征HG
S105,源节点、目的节点分别与边嵌入向量(H,label)、生成流特征HG结合构建真实图和生成图;
S106,将真实图和生成图传输给判别器D,判别器D利用E-GraphSAGE采样、聚合图中边特征,并进行二分类和/或多分类检测。
5.根据权利要求4所述的方法,其特征在于:构建生成器G包括以下步骤:
生成器G利用Embedding层将真实网络流的类标签label转换为100维向量,并与生成的100维正态随机数相乘后分别输入100个神经元;
将输入层结果依次输入3个均含有100个神经元的隐藏层;
将隐藏层结果输入含有n个神经元的输出层,并获得生成流特征HG
生成的边特征联合真实流量的源IP地址和目的IP地址构成生成图;
根据式(1)、式(2)获得代价函数LS、LC
Figure QLYQS_1
Figure QLYQS_2
其中,LS,表示样本真实与否的代价函数,LC表示样本分类准确性的代价函数,E[]表示数学期望,X real 表示真实样本,X fake 表示生成样本,P表示概率值,S表示样本本源,C表示类集合,c表示其中的一个类;
训练生成器G需要最大化以下目标函数式(3):
Figure QLYQS_3
6.根据权利要求5所述的方法,其特征在于:构建判别器D包括以下步骤:
判别器D利用E-GraphSAGE对真实图
Figure QLYQS_4
、生成图/>
Figure QLYQS_5
进行全邻域随机采样、和边信息聚合,通过边分类来判别攻击类型;
进行全邻域随机采样包括步骤:对于真实图
Figure QLYQS_6
或生成图/>
Figure QLYQS_7
中任意一条边uv的两个端点u,v,E-GraphSAGE随机采样两个端点的一跳、二跳邻居节点及它们的连接边;
进行边信息聚合包括步骤:E-GraphSAGE初始化任意节点v的特征向量为
Figure QLYQS_8
,其维数等于边特征的维数,按照式(4)拼接节点v的邻居节点特征和边特征后进行加权和激活运算得到第k-1层边特征,表达式为:
Figure QLYQS_9
其中
Figure QLYQS_10
表示拼接函数,/>
Figure QLYQS_11
表示边uv的边特征;
再按照式(5)经过聚合边特征
Figure QLYQS_12
得到节点v的第k层邻居节点的点特征,表达式为:
Figure QLYQS_13
其中,AGG( )表示聚合函数,
Figure QLYQS_14
表示节点v的采样邻域,/>
Figure QLYQS_15
表示节点v采样邻域的边数量;
按照式(6)拼接节点特征
Figure QLYQS_16
与聚合特征/>
Figure QLYQS_17
,拼接后的向量经过加权和激活运算得到第k层的节点嵌入;
Figure QLYQS_18
经过K次迭代后获得第K层的节点嵌入,表达式为:
Figure QLYQS_19
最后,将端点u,v的节点嵌入按照式(8)拼接而获得边uv的边嵌入,式(8)为:
Figure QLYQS_20
将边嵌入输入Softmax后获得多分类检测结果;
根据上述真实图
Figure QLYQS_21
、生成图/>
Figure QLYQS_22
的全邻域随机采样和边信息聚合结果,定义式(9)、式(10)的损失函数:
Figure QLYQS_23
;/>
Figure QLYQS_24
构建的判别器D的优化目标函数为:
Figure QLYQS_25
7.根据权利要求1所述的方法,其特征在于,增广的数据集包括步骤:针对数量少的攻击流量,根据类标签label生成指定数量的攻击流量且增加至原训练集用于增广训练数据量。
CN202310454909.3A 2023-04-25 2023-04-25 一种融合gnn和acgan的入侵检测方法 Active CN116170237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310454909.3A CN116170237B (zh) 2023-04-25 2023-04-25 一种融合gnn和acgan的入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310454909.3A CN116170237B (zh) 2023-04-25 2023-04-25 一种融合gnn和acgan的入侵检测方法

Publications (2)

Publication Number Publication Date
CN116170237A true CN116170237A (zh) 2023-05-26
CN116170237B CN116170237B (zh) 2023-07-25

Family

ID=86411769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310454909.3A Active CN116170237B (zh) 2023-04-25 2023-04-25 一种融合gnn和acgan的入侵检测方法

Country Status (1)

Country Link
CN (1) CN116170237B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493262A (zh) * 2019-09-17 2019-11-22 武汉思普崚技术有限公司 一种改进分类的网络攻击检测方法及系统
CN112309112A (zh) * 2020-09-10 2021-02-02 浙江工业大学 一种基于GraphSAGE-GAN的交通路网数据修复方法
CN113283476A (zh) * 2021-04-27 2021-08-20 广东工业大学 一种物联网网络入侵检测方法
CN114091661A (zh) * 2021-11-24 2022-02-25 北京工业大学 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法
CN114492768A (zh) * 2022-04-06 2022-05-13 南京众智维信息科技有限公司 一种基于小样本学习的孪生胶囊网络入侵检测方法
WO2022101515A1 (en) * 2020-11-16 2022-05-19 UMNAI Limited Method for an explainable autoencoder and an explainable generative adversarial network
CN115175192A (zh) * 2022-07-05 2022-10-11 杭州电子科技大学 一种基于图神经网络的车联网入侵检测方法
CN115580450A (zh) * 2022-09-23 2023-01-06 北京天融信网络安全技术有限公司 流量检测的方法、装置、电子设备及计算机可读存储介质
CN115622806A (zh) * 2022-12-06 2023-01-17 南京众智维信息科技有限公司 一种基于bert-cgan的网络入侵检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110493262A (zh) * 2019-09-17 2019-11-22 武汉思普崚技术有限公司 一种改进分类的网络攻击检测方法及系统
CN112309112A (zh) * 2020-09-10 2021-02-02 浙江工业大学 一种基于GraphSAGE-GAN的交通路网数据修复方法
WO2022101515A1 (en) * 2020-11-16 2022-05-19 UMNAI Limited Method for an explainable autoencoder and an explainable generative adversarial network
CN113283476A (zh) * 2021-04-27 2021-08-20 广东工业大学 一种物联网网络入侵检测方法
CN114091661A (zh) * 2021-11-24 2022-02-25 北京工业大学 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法
CN114492768A (zh) * 2022-04-06 2022-05-13 南京众智维信息科技有限公司 一种基于小样本学习的孪生胶囊网络入侵检测方法
CN115175192A (zh) * 2022-07-05 2022-10-11 杭州电子科技大学 一种基于图神经网络的车联网入侵检测方法
CN115580450A (zh) * 2022-09-23 2023-01-06 北京天融信网络安全技术有限公司 流量检测的方法、装置、电子设备及计算机可读存储介质
CN115622806A (zh) * 2022-12-06 2023-01-17 南京众智维信息科技有限公司 一种基于bert-cgan的网络入侵检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AUGUSTUS ODENA ET AL.: "Conditional Image Synthesis with Auxiliary Classifier GANs", PROCEEDINGS OF THE 34TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING *
HONGWEI WANG ET AL.: "GraphGAN:Graph Representation Learning With Generative Adversarial Nets", THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, vol. 32, no. 1 *
WAI WENG LO ET AL.: "E-GraphSAGE:A Graph Neural Network based Intrusion Detection System for IoT", NOMS 2022-2022 IEEE/IFIP NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM *
常超舜: "基于多特征融合的社交网络虚假信息检测系统的研究与实现", 中国优秀硕士学位论文全文数据库 信息科技辑 *
李传: "基于生成对抗网络的入侵检测研究与实现", 中国优秀硕士学位论文全文数据库 信息科技辑 *

Also Published As

Publication number Publication date
CN116170237B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
Lo et al. E-graphsage: A graph neural network based intrusion detection system for iot
Yang et al. TLS/SSL encrypted traffic classification with autoencoder and convolutional neural network
CN110808971B (zh) 一种基于深度嵌入的未知恶意流量主动检测系统及方法
WO2019175880A1 (en) Method and system for classifying data objects based on their network footprint
US11934536B2 (en) Dynamic network risk predicting method based on a graph neural network
Bodström et al. State of the art literature review on network anomaly detection with deep learning
Alabadi et al. Anomaly detection for cyber-security based on convolution neural network: A survey
CN111367908A (zh) 一种基于安全评估机制的增量式入侵检测方法及系统
Alhayali et al. Optimized machine learning algorithm for intrusion detection
Xiao et al. Novel dynamic multiple classification system for network traffic
CN114697096A (zh) 基于空时特征和注意力机制的入侵检测方法
Shettar et al. Intrusion detection system using MLP and chaotic neural networks
CN113821793A (zh) 一种基于图卷积神经网络的多阶段攻击场景构建方法及系统
Wang et al. Res-TranBiLSTM: An intelligent approach for intrusion detection in the Internet of Things
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN112261063A (zh) 结合深度分层网络的网络恶意流量检测方法
CN116684877A (zh) 一种基于gyac-lstm的5g网络流量异常检测方法及系统
Chakraborty et al. Industrial control system device classification using network traffic features and neural network embeddings
Liao et al. A Survey of Deep Learning Technologies for Intrusion Detection in Internet of Things
Srinivasan et al. Original Research Article Detection of Data imbalance in MANET network based on ADSY-AEAMBi-LSTM with DBO Feature selection
Maddu et al. Network intrusion detection and mitigation in SDN using deep learning models
Zhang et al. A Step-Based Deep Learning Approach for Network Intrusion Detection.
CN116170237B (zh) 一种融合gnn和acgan的入侵检测方法
CN116760569A (zh) 一种基于图神经网络模型的物联网入侵检测方法
CN111291078A (zh) 一种域名匹配检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant