CN116527346A - 基于深度学习图神经网络理论的威胁节点感知方法 - Google Patents
基于深度学习图神经网络理论的威胁节点感知方法 Download PDFInfo
- Publication number
- CN116527346A CN116527346A CN202310426785.8A CN202310426785A CN116527346A CN 116527346 A CN116527346 A CN 116527346A CN 202310426785 A CN202310426785 A CN 202310426785A CN 116527346 A CN116527346 A CN 116527346A
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- matrix
- nodes
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 230000008447 perception Effects 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 127
- 230000003595 spectral effect Effects 0.000 claims abstract description 60
- 238000001228 spectrum Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 238000002790 cross-validation Methods 0.000 claims abstract description 7
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 36
- 238000011176 pooling Methods 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000003475 lamination Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于深度学习图神经网络理论的威胁节点感知方法,以提高网络安全性能,威胁节点的检测效率和正确率,包括:将原始数据流量进行数据清洗,并利用Apriori算法进行信息关联规则生成,再进行特征转换和数据预处理的步骤,得到能预处理数据;基于关联规则,将涉及到的节点之间的关系构建出舆情关键节点拓扑结构;利用图的傅里叶变换,将时域信号转换为频域,利用拉普拉斯矩阵求解特征值,构建舆情信息的谱域图模型;定义图神经网络的结构,使用预处理数据和舆论关键节点拓扑结构来训练谱域图模型;之后使用交叉验证集来检测谱域图模型的预测结果是否正确,并计算谱域图模型的准确率、精确率、召回率和F1得分指标。
Description
技术领域
本发明涉及网络安全技术等领域,具体的说,是基于深度学习图神经网络理论的威胁节点感知方法。
背景技术
传统的基于规则、签名的威胁节点感知方法通常需要大量的人工特征工程和手动调参,在处理复杂的网络威胁时存在局限性,需要进行智能化的改进,传统方法难以建模复杂的非线性关系,其准确性和鲁棒性可能受到限制。近年来,人工智能技术在网络安全领域得到广泛应用,例如利用深度学习等算法,进行入侵检测、异常检测等,以提高其准确性和鲁棒性,具有自动特征提取的优点,可以有效处理大规模和复杂的数据,提高了模型的效率和可用性。
发明内容
本发明的目的在于提供基于深度学习图神经网络理论的威胁节点感知方法,以提高网络安全性能,威胁节点的检测效率和正确率。
本发明通过下述技术方案实现:基于深度学习图神经网络理论的威胁节点感知方法,包括下述步骤:
1)将原始数据流量进行数据清洗,并利用Apriori算法进行信息关联规则生成,再继续进行特征转换和数据预处理的步骤,以得到节点特征矩阵和进行谱域图模型训练的预处理数据;
2)经步骤1)后,将节点特征矩阵和网络会话信息节点的邻接矩阵组合在一起,构建出舆情关键节点的拓扑结构;
3)利用图的傅里叶变换,将步骤2)拓扑结构的时域信号转换为频域,利用拉普拉斯矩阵求解特征值,构建舆情信息的谱域图模型;并定义图神经网络的结构,使用预处理数据和舆论关键节点的拓扑结构来训练谱域图模型;
4)完成谱域图模型的训练之后,对谱域图模型进行测试和评估:使用预处理数据中的交叉验证集来检测谱域图模型的预测结果是否正确,并计算谱域图模型的准确率、精确率、召回率和F1得分指标。
进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤1)包括下述步骤:
1.1)去重复,由于同一个网络数据包可能会被发送多次,因此需要对原始数据进行去重复处理,保证后续分析的准确性和效率;
1.2)剔除诸如包长度为0的数据包、源IP和目的IP相同的数据包、包长度异常的数据包在内的异常数据;
1.3)通过Apriori数据格式转换,将原始数据转换为以网络会话为单位的格式:其中,每个网络会话(session)看作一个“事务(transaction)”,每个事务由包含的网络数据组成;
1.4)对事务的列表进行支持度计算:首先计算每个项集在事务的列表中的支持度,即项集在所有事务中出现的频率;支持度计算的公式如下:支持度=项集出现次数/总事务数;
1.5)进行支持度筛选:根据设定的支持度阈值,筛选出支持度大于等于阈值的项集,定义此类项集为频繁项集,其中频繁项集的每个项集表示一个节点集合,该集合包含若干个节点;
1.6)生成关联规则:对于每个频繁项集,可以根据设定的置信度阈值,生成关联规则;其中,关联规则的置信度定义为规则的后件出现在规则的前件中的频率,计算公式如下:置信度=规则的支持度/前件的支持度;
1.7)进行置信度筛选:根据设定的置信度阈值,筛选出置信度大于等于阈值的关联规则;
1.8)输出频繁项集和关联规则:输出符合支持度和置信度阈值要求的频繁项集和关联规则;
1.9)将步骤1.8)所得到的关联规则转化为一个节点特征矩阵:将频繁项集的每个项集表示一个节点集合,该集合包含若干个节点,将每个节点与关联规则之间的联系强度表示为节点特征矩阵中的一个元素;在节点特征矩阵中,每一行对应一个节点,每一列对应一个关联规则;如某个节点与某个关联规则之间存在联系,那么对应的节点特征矩阵元素值为一个非零实数,否则为零;
1.10)计算联系强度:将关联规则转化为节点特征矩阵后,用关联规则中的支持度来表示节点与关联规则之间的联系强度;
1.11)对节点特征矩阵使用“最大-最小归一化”方法进行归一化处理,以消除特征值的差异,确保不同特征之间具有相同的尺度和范围;
1.12)将经过步骤1.11)处理后的节点特征矩阵作为数据集,使用K折交叉验证方法划分数据集,即将数据集分成K个相等大小的交叉验证子集,用于后续的模型训练和测试。
进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤2)包括下述步骤:
2.1)通过分析原始数据中的网络会话信息来获取节点之间的连接情况构造一个邻接矩阵,每个网络会话看作是一个节点,不同会话之间的通信看作是节点之间的连接,根据会话之间的交互情况,构建邻接矩阵来描述节点之间的连接情况;
2.2)将步骤2.1)中构造的邻接矩阵与步骤1.11)归一化后的节点特征矩阵进行拼接,形成一个新的矩阵;将新的矩阵作为一个图形式的数据结构,这个新的图数据结构就是舆情关键节点拓扑结构的一种表示形式,其中图数据结构的节点对应新的矩阵中的行,节点之间的边对应邻接矩阵中的非零元素;这样,就得到了一个以舆情关键节点为中心的图数据结构,其中每个节点都包括了其特征信息和与其他节点的连接情况。
进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤3)包括下述步骤:
3.1)通过对邻接矩阵应用图的傅里叶变换来实现将时域信号转换到频域,得到的谱表示捕获了图拓扑的重要特征,并用于进一步分析,具体为:将具有邻接矩阵A的图G的图的傅里叶变换定义为其中φ1,φ2,...,φn是图的特征向量,λ1,λ2,...,λn是相应的特征值;/>表示信号f在频域上的表示;傅里叶逆变换公式如下其中/>是$φj$的复共轭;
3.2)使用拉普拉斯矩阵解决图的特征值和特征向量;其中,特征向量提供一组基函数,用于在谱域中表示图信号;特征向量可以将图信号分解为一系列基本函数的线性组合,从而将图信号的频域信息表示为一组系数;而基本函数的线性集合的选择是基于拉普拉斯矩阵的性质和图结构的特点进行的,可以用于构建图卷积神经网络的频域卷积层;将图G的对称归一化拉普拉斯矩阵(Symmetric Normalized Laplacian)定义为其中A是图G的邻接矩阵,D是是图的度数矩阵,通过求解Lsym的特征值和特征向量,可以得到图G在频域上的表示,这些表示用来训练和设计图神经网络模型;
3.3)使用一个基于改进的谱图卷积网络(GCN)架构的图神经网络来定义网络结构;这个改进的谱图卷积网络(GCN)架构可以将图G的谱表示作为输入,并在频域中执行卷积操作,谱卷积操作公式如下H(l)是第l层的节点特征表示,是邻接矩阵加上自环的结果,/>是/>的度矩阵,W(l)是第l层的权重矩阵,σ(·)是激活函数,并选择GELU函数作为激活函数;
3.4)将预处理数据和舆论关键节点的拓扑结构输入改进的谱图卷积网络(GCN)架构的图神经网络进行训练;改进的谱图卷积网络将学习提取区分特征并根据图中节点的拓扑信息对威胁节点进行分类;训练时使用的优化器是SGD,学习率为1e-4,损失函数是MSE。
进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤4)包括下述步骤:
4.1)将步骤1.12)得到的用于测试模型的交叉验证子集喂给已经训练好的谱域图模型进行预测,每次使用其中K-1个交叉验证子集进行训练,剩余一个交叉验证子集进行测试,最终得到K个测试结果的平均值作为模型的最终性能指标;
4.2)对谱域图模型的预测结果进行评估,计算谱域图模型的准确率、精确率、召回率和F1得分指标;其中,准确率指的是谱域图模型正确预测的样本数与总样本数之比;精确率指的是谱域图模型正确预测的正样本数与预测的所有正样本数之比;召回率指的是谱域图模型正确预测的正样本数与实际的所有正样本数之比;F1得分指标综合考虑了精确率和召回率,是二者的调和平均数,可以用来综合评价谱域图模型的性能,其公式如下:
其中,TP(True Positive)表示谱域图模型正确预测的正样本数;TN(TrueNegative)表示谱域图模型正确预测的负样本数;FP(False Positive)表示谱域图模型错误地将负样本预测为正样本的数目;FN(False Negative)表示谱域图模型错误地将正样本预测为负样本的数目。
进一步的为更好地实现本发明,特别采用下述设置方式:所述改进的谱图卷积网络(GCN)架构包括:
输入层:输入层将图形信号X作为输入,它是一个N x F矩阵,其中N是图形中的节点数,F是每个节点的特征数;
改进的图卷积层:采用谱分解卷积在图上进行卷积操作,对拉普拉斯矩阵进行谱分解,得到其特征值和特征向量,然后将特征向量作为滤波器的系数,对输入的图信号进行频谱过滤,从而提高图信号的频谱过滤能力,增强模型的分类性能;谱分解卷积的计算过程表示为三个步骤:特征分解、频域滤波和特征重构;图的拉普拉斯矩阵为L,特征值为λ,特征向量矩阵为U,则L可以表示为:L=UΛUT,其中,Λ是对角矩阵,其对角线上的元素为特征值λ;特征向量矩阵U的每一列是一个拉普拉斯矩阵的特征向量,并看作是滤波器的系数;对于输入的图信号X∈RN×C,先将其在特征向量矩阵U上投影,得到:然后对/>进行频域滤波,得到:/>其中,α是控制滤波器截止频率的参数,将/>投影回原来的特征空间,得到输出图信号Y,且/>之后图卷积层的输出是一个新的图信号X',它是一个N x F'矩阵,其中,F'是每个节点的输出特征数量;
池化层(Pooling Layer):将节点划分为不同的子图,然后在每个子图上进行池化操作,用于降低维度和增加非线性;
Batch Normalization层:该层用于规范化前一层的输出,解决梯度消失和梯度爆炸的问题,从而加快收敛速度,并提高其稳健性;
GELU Activation层:使用GELU高斯误差线性单元激活函数,GELU是一种可微分的非线性函数,它在近似于零的区域中具有非常小的斜率,用于减缓梯度消失问题,并且在激活函数中引入非线性,从而增强模型的表示能力;
Dropout层:该层随机丢弃一定比例的节点特征向量,以避免过拟合;
改进的图注意力机制层(Graph Attention Mechanism Layer):可以用于捕捉节点之间的重要性,从而对节点特征进行加权聚合,在该层中,使用多头注意力机制(Multi-Head Attention),使它可以让模型学习多个不同的注意力表示,从而加强对不同节点的关注程度,提高威胁节点的感知能力;每个节点都有一个向量表示其特征,图注意力机制将这些向量作为输入,并将它们映射到一个注意力向量上;然后,注意力向量被用来计算每个节点的加权和;改进的图注意力机制层的输出是一个新的图信号X”,它是一个N x F”矩阵,其中F”是每个节点的输出特征数;
Fully Connected层:将多头注意力表示进行连接,并进行矩阵乘法运算,以得到一个最终的节点特征向量;
图汇集层:聚合来自多个节点的信息,生成更高层次的节点表示;图汇集层的输出是一个新的图信号X”',它是一个M x F”'矩阵,其中M是汇集节点的数量,F”'是每个汇集节点的输出特征的数量;
输出层:该层将经过多层图卷积和池化操作后的节点特征作为输入,使用softmax函数将它们映射到一个概率分布上,该概率分布表示每个节点属于每个类别的概率;该层的输出用来进行节点分类任务,其数学表达式如下:其中,是汇集层上第j个节点的特征,W(L)和b(L)是汇集层到输出层的权重和偏置,softmax是激活函数,yi是节点i属于不同类别的概率分布。
本发明与现有技术相比,具有以下优点及有益效果:
本发明采用信息特征和不良舆情节点拓扑结构,能够更加准确地感知潜在的威胁节点,从而帮助提升安全预警和威胁识别的效果,达到更精准的威胁节点感知效果。
本发明采用改进的谱图卷积网络(GNN)架构,能够自动提取并学习特征,大大提高了分析的效率,从而减少了人力成本和分析时间,实现更高效的自动化分析效果。
本发明具有更广泛的应用场景:不仅适用于信息安全领域,还可以应用于其他领域,如社交网络分析、金融风险控制等,具有较广泛的应用前景。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
实施例1:
本发明设计出基于深度学习图神经网络理论的威胁节点感知方法,以提高网络安全性能,威胁节点的检测效率和正确率,包括下述步骤:
1)将原始数据流量进行数据清洗,并利用Apriori算法进行信息关联规则生成,再继续进行特征转换和数据预处理的步骤,以得到节点特征矩阵和进行谱域图模型训练的预处理数据;
2)经步骤1)后,将节点特征矩阵和网络会话信息节点的邻接矩阵组合在一起,构建出舆情关键节点的拓扑结构;
3)利用图的傅里叶变换,将步骤2)拓扑结构的时域信号转换为频域,利用拉普拉斯矩阵求解特征值,构建舆情信息的谱域图模型;并定义图神经网络的结构,使用预处理数据和舆论关键节点的拓扑结构来训练谱域图模型;
4)完成谱域图模型的训练之后,对谱域图模型进行测试和评估:使用预处理数据中的交叉验证集来检测谱域图模型的预测结果是否正确,并计算谱域图模型的准确率、精确率、召回率和F1得分指标。
实施例2:
本实施例是在上述实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤1)包括下述步骤:
1.1)去重复,由于同一个网络数据包可能会被发送多次,因此需要对原始数据进行去重复处理,保证后续分析的准确性和效率;
1.2)剔除诸如包长度为0的数据包、源IP和目的IP相同的数据包、包长度异常的数据包在内的异常数据;
1.3)通过Apriori数据格式转换,将原始数据转换为以网络会话为单位的格式:其中,每个网络会话(session)看作一个“事务(transaction)”,每个事务由包含的网络数据组成;
1.4)对事务的列表进行支持度计算:首先计算每个项集在事务的列表中的支持度,即项集在所有事务中出现的频率;支持度计算的公式如下:支持度=项集出现次数/总事务数;
1.5)进行支持度筛选:根据设定的支持度阈值,筛选出支持度大于等于阈值的项集,定义此类项集为频繁项集,其中频繁项集的每个项集表示一个节点集合,该集合包含若干个节点;
1.6)生成关联规则:对于每个频繁项集,可以根据设定的置信度阈值,生成关联规则;其中,关联规则的置信度定义为规则的后件出现在规则的前件中的频率,计算公式如下:置信度=规则的支持度/前件的支持度;
1.7)进行置信度筛选:根据设定的置信度阈值,筛选出置信度大于等于阈值的关联规则;
1.8)输出频繁项集和关联规则:输出符合支持度和置信度阈值要求的频繁项集和关联规则;
1.9)将步骤1.8)所得到的关联规则转化为一个节点特征矩阵:将频繁项集的每个项集表示一个节点集合,该集合包含若干个节点,将每个节点与关联规则之间的联系强度表示为节点特征矩阵中的一个元素;在节点特征矩阵中,每一行对应一个节点,每一列对应一个关联规则;如某个节点与某个关联规则之间存在联系,那么对应的节点特征矩阵元素值为一个非零实数,否则为零;
1.10)计算联系强度:将关联规则转化为节点特征矩阵后,用关联规则中的支持度来表示节点与关联规则之间的联系强度;
1.11)对节点特征矩阵使用“最大-最小归一化”方法进行归一化处理,以消除特征值的差异,确保不同特征之间具有相同的尺度和范围;
1.12)将经过步骤1.11)处理后的节点特征矩阵作为数据集,使用K折交叉验证方法划分数据集,即将数据集分成K个相等大小的交叉验证子集,用于后续的模型训练和测试。
实施例3:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤2)包括下述步骤:
2.1)通过分析原始数据中的网络会话信息来获取节点之间的连接情况构造一个邻接矩阵,每个网络会话看作是一个节点,不同会话之间的通信看作是节点之间的连接,根据会话之间的交互情况,构建邻接矩阵来描述节点之间的连接情况;
2.2)将步骤2.1)中构造的邻接矩阵与步骤1.11)归一化后的节点特征矩阵进行拼接,形成一个新的矩阵;将新的矩阵作为一个图形式的数据结构,这个新的图数据结构就是舆情关键节点拓扑结构的一种表示形式,其中图数据结构的节点对应新的矩阵中的行,节点之间的边对应邻接矩阵中的非零元素;这样,就得到了一个以舆情关键节点为中心的图数据结构,其中每个节点都包括了其特征信息和与其他节点的连接情况。
实施例4:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤3)包括下述步骤:
3.1)通过对邻接矩阵应用图的傅里叶变换来实现将时域信号转换到频域,得到的谱表示捕获了图拓扑的重要特征,并用于进一步分析,具体为:将具有邻接矩阵A的图G的图的傅里叶变换定义为其中φ1,φ2,...,φn是图的特征向量,λ1,λ2,...,λn是相应的特征值;/>表示信号f在频域上的表示;傅里叶逆变换公式如下其中/>是$φj$的复共轭;
3.2)使用拉普拉斯矩阵解决图的特征值和特征向量;其中,特征向量提供一组基函数,用于在谱域中表示图信号;特征向量可以将图信号分解为一系列基本函数的线性组合,从而将图信号的频域信息表示为一组系数;而基本函数的线性集合的选择是基于拉普拉斯矩阵的性质和图结构的特点进行的,可以用于构建图卷积神经网络的频域卷积层;将图G的对称归一化拉普拉斯矩阵(Symmetric Normalized Laplacian)定义为其中A是图G的邻接矩阵,D是是图的度数矩阵,通过求解Lsym的特征值和特征向量,可以得到图G在频域上的表示,这些表示用来训练和设计图神经网络模型;
3.3)使用一个基于改进的谱图卷积网络(GCN)架构的图神经网络来定义网络结构;这个改进的谱图卷积网络(GCN)架构可以将图G的谱表示作为输入,并在频域中执行卷积操作,谱卷积操作公式如下H(l)是第l层的节点特征表示,是邻接矩阵加上自环的结果,/>是/>的度矩阵,W(l)是第l层的权重矩阵,σ(·)是激活函数,并选择GELU函数作为激活函数;
3.4)将预处理数据和舆论关键节点的拓扑结构输入改进的谱图卷积网络(GCN)架构的图神经网络进行训练;改进的谱图卷积网络将学习提取区分特征并根据图中节点的拓扑信息对威胁节点进行分类;训练时使用的优化器是SGD,学习率为1e-4,损失函数是MSE。
实施例5:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述步骤4)包括下述步骤:
4.1)将步骤1.12)得到的用于测试模型的交叉验证子集喂给已经训练好的谱域图模型进行预测,每次使用其中K-1个交叉验证子集进行训练,剩余一个交叉验证子集进行测试,最终得到K个测试结果的平均值作为模型的最终性能指标;
4.2)对谱域图模型的预测结果进行评估,计算谱域图模型的准确率、精确率、召回率和F1得分指标;其中,准确率指的是谱域图模型正确预测的样本数与总样本数之比;精确率指的是谱域图模型正确预测的正样本数与预测的所有正样本数之比;召回率指的是谱域图模型正确预测的正样本数与实际的所有正样本数之比;F1得分指标综合考虑了精确率和召回率,是二者的调和平均数,可以用来综合评价谱域图模型的性能,其公式如下:
其中,TP(True Positive)表示谱域图模型正确预测的正样本数;TN(TrueNegative)表示谱域图模型正确预测的负样本数;FP(False Positive)表示谱域图模型错误地将负样本预测为正样本的数目;FN(False Negative)表示谱域图模型错误地将正样本预测为负样本的数目。
实施例6:
本实施例是在上述任一实施例的基础上进一步优化,与前述技术方案相同之处在此不再赘述,进一步为更好地实现本发明所述的基于深度学习图神经网络理论的威胁节点感知方法,特别采用下述设置方式:所述改进的谱图卷积网络(GCN)架构包括:
输入层:输入层将图形信号X作为输入,它是一个N x F矩阵,其中N是图形中的节点数,F是每个节点的特征数;
改进的图卷积层:采用谱分解卷积在图上进行卷积操作,对拉普拉斯矩阵进行谱分解,得到其特征值和特征向量,然后将特征向量作为滤波器的系数,对输入的图信号进行频谱过滤,从而提高图信号的频谱过滤能力,增强模型的分类性能;谱分解卷积的计算过程表示为三个步骤:特征分解、频域滤波和特征重构;图的拉普拉斯矩阵为L,特征值为λ,特征向量矩阵为U,则L可以表示为:L=UΛUT,其中,Λ是对角矩阵,其对角线上的元素为特征值λ;特征向量矩阵U的每一列是一个拉普拉斯矩阵的特征向量,并看作是滤波器的系数;对于输入的图信号X∈RN×C,先将其在特征向量矩阵U上投影,得到:然后对/>进行频域滤波,得到:/>其中,α是控制滤波器截止频率的参数,将/>投影回原来的特征空间,得到输出图信号Y,且/>之后图卷积层的输出是一个新的图信号X',它是一个N x F'矩阵,其中,F'是每个节点的输出特征数量;
池化层(Pooling Layer):将节点划分为不同的子图,然后在每个子图上进行池化操作,用于降低维度和增加非线性;
Batch Normalization层:该层用于规范化前一层的输出,解决梯度消失和梯度爆炸的问题,从而加快收敛速度,并提高其稳健性;
GELU Activation层:使用GELU高斯误差线性单元激活函数,GELU是一种可微分的非线性函数,它在近似于零的区域中具有非常小的斜率,用于减缓梯度消失问题,并且在激活函数中引入非线性,从而增强模型的表示能力;
Dropout层:该层随机丢弃一定比例的节点特征向量,以避免过拟合;
改进的图注意力机制层(Graph Attention Mechanism Layer):可以用于捕捉节点之间的重要性,从而对节点特征进行加权聚合,在该层中,使用多头注意力机制(Multi-Head Attention),使它可以让模型学习多个不同的注意力表示,从而加强对不同节点的关注程度,提高威胁节点的感知能力;每个节点都有一个向量表示其特征,图注意力机制将这些向量作为输入,并将它们映射到一个注意力向量上;然后,注意力向量被用来计算每个节点的加权和;改进的图注意力机制层的输出是一个新的图信号X”,它是一个N x F”矩阵,其中F”是每个节点的输出特征数;
Fully Connected层:将多头注意力表示进行连接,并进行矩阵乘法运算,以得到一个最终的节点特征向量;
图汇集层:聚合来自多个节点的信息,生成更高层次的节点表示;图汇集层的输出是一个新的图信号X”',它是一个M x F”'矩阵,其中M是汇集节点的数量,F”'是每个汇集节点的输出特征的数量;
输出层:该层将经过多层图卷积和池化操作后的节点特征作为输入,使用softmax函数将它们映射到一个概率分布上,该概率分布表示每个节点属于每个类别的概率;该层的输出用来进行节点分类任务,其数学表达式如下:其中,是汇集层上第j个节点的特征,W(L)和b(L)是汇集层到输出层的权重和偏置,softmax是激活函数,yi是节点i属于不同类别的概率分布。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (6)
1.基于深度学习图神经网络理论的威胁节点感知方法,其特征在于:包括下述步骤:
1)将原始数据流量进行数据清洗,并利用Apriori算法进行信息关联规则生成,再继续进行特征转换和数据预处理的步骤,以得到节点特征矩阵和进行谱域图模型训练的预处理数据;
2)经步骤1)后,将节点特征矩阵和网络会话信息节点的邻接矩阵组合在一起,构建出舆情关键节点的拓扑结构;
3)利用图的傅里叶变换,将步骤2)拓扑结构的时域信号转换为频域,利用拉普拉斯矩阵求解特征值,构建舆情信息的谱域图模型;并定义图神经网络的结构,使用预处理数据和舆论关键节点的拓扑结构来训练谱域图模型;
4)完成谱域图模型的训练之后,对谱域图模型进行测试和评估:使用预处理数据中的交叉验证集来检测谱域图模型的预测结果是否正确,并计算谱域图模型的准确率、精确率、召回率和F1得分指标。
2.根据权利要求1所述的基于深度学习图神经网络理论的威胁节点感知方法,其特征在于:所述步骤1)包括下述步骤:
1.1)对原始数据进行去重复处理;
1.2)剔除诸如包长度为0的数据包、源IP和目的IP相同的数据包、包长度异常的数据包在内的异常数据;
1.3)通过Apriori数据格式转换,将原始数据转换为以网络会话为单位的格式:其中,每个网络会话看作一个“事务”,每个事务由包含的网络数据组成;
1.4)对事务的列表进行支持度计算:首先计算每个项集在事务的列表中的支持度,即项集在所有事务中出现的频率;支持度计算的公式如下:支持度=项集出现次数/总事务数;
1.5)进行支持度筛选:根据设定的支持度阈值,筛选出支持度大于等于阈值的项集,定义此类项集为频繁项集,其中频繁项集的每个项集表示一个节点集合,该集合包含若干个节点;
1.6)生成关联规则:对于每个频繁项集,根据设定的置信度阈值,生成关联规则;其中,关联规则的置信度定义为规则的后件出现在规则的前件中的频率,计算公式如下:置信度=规则的支持度/前件的支持度;
1.7)进行置信度筛选:根据设定的置信度阈值,筛选出置信度大于等于阈值的关联规则;
1.8)输出频繁项集和关联规则:输出符合支持度和置信度阈值要求的频繁项集和关联规则;
1.9)将步骤1.8)所得到的关联规则转化为一个节点特征矩阵:将频繁项集的每个项集表示一个节点集合,该集合包含若干个节点,将每个节点与关联规则之间的联系强度表示为节点特征矩阵中的一个元素;在节点特征矩阵中,每一行对应一个节点,每一列对应一个关联规则;如某个节点与某个关联规则之间存在联系,那么对应的节点特征矩阵元素值为一个非零实数,否则为零;
1.10)计算联系强度:将关联规则转化为节点特征矩阵后,用关联规则中的支持度来表示节点与关联规则之间的联系强度;
1.11)对节点特征矩阵使用“最大-最小归一化”方法进行归一化处理,以消除特征值的差异,确保不同特征之间具有相同的尺度和范围;
1.12)将经过步骤1.11)处理后的节点特征矩阵作为数据集,使用K折交叉验证方法划分数据集,即将数据集分成K个相等大小的交叉验证子集,用于后续的模型训练和测试。
3.根据权利要求2所述的基于深度学习图神经网络理论的威胁节点感知方法,其特征在于:所述步骤2)包括下述步骤:
2.1)通过分析原始数据中的网络会话信息来获取节点之间的连接情况构造一个邻接矩阵,每个网络会话看作是一个节点,不同会话之间的通信看作是节点之间的连接,根据会话之间的交互情况,构建邻接矩阵来描述节点之间的连接情况;
2.2)将步骤2.1)中构造的邻接矩阵与步骤1.11)归一化后的节点特征矩阵进行拼接,形成一个新的矩阵;将新的矩阵作为一个图形式的数据结构,其中图数据结构的节点对应新的矩阵中的行,节点之间的边对应邻接矩阵中的非零元素;这样,就得到了一个以舆情关键节点为中心的图数据结构,其中每个节点都包括了其特征信息和与其他节点的连接情况。
4.根据权利要求3所述的基于深度学习图神经网络理论的威胁节点感知方法,其特征在于:所述步骤3)包括下述步骤:
3.1)通过对邻接矩阵应用图的傅里叶变换来实现将时域信号转换到频域,得到的谱表示捕获了图拓扑的重要特征,并用于进一步分析,具体为:将具有邻接矩阵A的图G的图的傅里叶变换定义为其中φ1,φ2,X,φn是图的特征向量,λ1,λ2,X,λn是相应的特征值;/>表示信号f在频域上的表示;傅里叶逆变换公式如下其中/>是$φj$的复共轭;
3.2)使用拉普拉斯矩阵解决图的特征值和特征向量;其中,特征向量提供一组基函数,用于在谱域中表示图信号;特征向量将图信号分解为一系列基本函数的线性组合,从而将图信号的频域信息表示为一组系数;而基本函数的线性集合的选择是基于拉普拉斯矩阵的性质和图结构的特点进行的,用于构建图卷积神经网络的频域卷积层;将图G的对称归一化拉普拉斯矩阵定义为其中A是图G的邻接矩阵,D是是图的度数矩阵,通过求解Lsym的特征值和特征向量,得到图G在频域上的表示;
3.3)使用一个基于改进的谱图卷积网络架构的图神经网络来定义网络结构;改进的谱图卷积网络架构将图G的谱表示作为输入,并在频域中执行卷积操作,谱卷积操作公式如下H(l)是第l层的节点特征表示,/>是邻接矩阵加上自环的结果,/>是/>的度矩阵,W(l)是第l层的权重矩阵,σ(·)是激活函数,并选择GELU函数作为激活函数;
3.4)将预处理数据和舆论关键节点的拓扑结构输入改进的谱图卷积网络架构的图神经网络进行训练;改进的谱图卷积网络将学习提取区分特征并根据图中节点的拓扑信息对威胁节点进行分类;训练时使用的优化器是SGD,学习率为1e-4,损失函数是MSE。
5.根据权利要求2所述的基于深度学习图神经网络理论的威胁节点感知方法,其特征在于:所述步骤4)包括下述步骤:
4.1)将步骤1.12)得到的用于测试模型的交叉验证子集喂给已经训练好的谱域图模型进行预测,每次使用其中K-1个交叉验证子集进行训练,剩余一个交叉验证子集进行测试,最终得到K个测试结果的平均值作为模型的最终性能指标;
4.2)对谱域图模型的预测结果进行评估,计算谱域图模型的准确率、精确率、召回率和F1得分指标;其中,准确率指的是谱域图模型正确预测的样本数与总样本数之比;精确率指的是谱域图模型正确预测的正样本数与预测的所有正样本数之比;召回率指的是谱域图模型正确预测的正样本数与实际的所有正样本数之比;F1得分指标综合考虑了精确率和召回率,是二者的调和平均数,用来综合评价谱域图模型的性能,其公式如下:
其中,TP表示谱域图模型正确预测的正样本数;TN表示谱域图模型正确预测的负样本数;FP表示谱域图模型错误地将负样本预测为正样本的数目;FN表示谱域图模型错误地将正样本预测为负样本的数目。
6.根据权利要求5所述的基于深度学习图神经网络理论的威胁节点感知方法,其特征在于:所述改进的谱图卷积网络架构包括:
输入层:输入层将图形信号X作为输入,它是一个NxF矩阵,其中N是图形中的节点数,F是每个节点的特征数;
改进的图卷积层:采用谱分解卷积在图上进行卷积操作,对拉普拉斯矩阵进行谱分解,得到其特征值和特征向量,然后将特征向量作为滤波器的系数,对输入的图信号进行频谱过滤,从而提高图信号的频谱过滤能力,增强模型的分类性能;谱分解卷积的计算过程表示为三个步骤:特征分解、频域滤波和特征重构;图的拉普拉斯矩阵为L,特征值为λ,特征向量矩阵为U,则L表示为:L=UΛUT,其中,Λ是对角矩阵,其对角线上的元素为特征值λ;特征向量矩阵U的每一列是一个拉普拉斯矩阵的特征向量,并看作是滤波器的系数;对于输入的图信号X∈RN×C,先将其在特征向量矩阵U上投影,得到:然后对/>进行频域滤波,得到:/>其中,α是控制滤波器截止频率的参数,将/>投影回原来的特征空间,得到输出图信号Y,且/>之后图卷积层的输出是一个新的图信号X',它是一个NxF'矩阵,其中,F'是每个节点的输出特征数量;
池化层:将节点划分为不同的子图,然后在每个子图上进行池化操作,用于降低维度和增加非线性;
Batch Normalization层:该层用于规范化前一层的输出,解决梯度消失和梯度爆炸的问题,从而加快收敛速度,并提高其稳健性;
GELU Activation层:使用GELU高斯误差线性单元激活函数,GELU是一种可微分的非线性函数,它在近似于零的区域中具有非常小的斜率,用于减缓梯度消失问题,并且在激活函数中引入非线性,从而增强模型的表示能力;
Dropout层:该层随机丢弃一定比例的节点特征向量,以避免过拟合;
改进的图注意力机制层:用于捕捉节点之间的重要性,从而对节点特征进行加权聚合,在该层中,使用多头注意力机制,使它让模型学习多个不同的注意力表示,从而加强对不同节点的关注程度,提高威胁节点的感知能力;每个节点都有一个向量表示其特征,图注意力机制将这些向量作为输入,并将它们映射到一个注意力向量上;然后,注意力向量被用来计算每个节点的加权和;改进的图注意力机制层的输出是一个新的图信号X”,它是一个NxF”矩阵,其中F”是每个节点的输出特征数;
Fully Connected层:将多头注意力表示进行连接,并进行矩阵乘法运算,以得到一个最终的节点特征向量;
图汇集层:聚合来自多个节点的信息,生成更高层次的节点表示;图汇集层的输出是一个新的图信号X”',它是一个MxF”'矩阵,其中M是汇集节点的数量,F”'是每个汇集节点的输出特征的数量;
输出层:该层将经过多层图卷积和池化操作后的节点特征作为输入,使用softmax函数将它们映射到一个概率分布上,该概率分布表示每个节点属于每个类别的概率;该层的输出用来进行节点分类任务,其数学表达式如下:其中,/>是汇集层上第j个节点的特征,W(L)和b(L)是汇集层到输出层的权重和偏置,softmax是激活函数,yi是节点i属于不同类别的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310426785.8A CN116527346A (zh) | 2023-04-20 | 2023-04-20 | 基于深度学习图神经网络理论的威胁节点感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310426785.8A CN116527346A (zh) | 2023-04-20 | 2023-04-20 | 基于深度学习图神经网络理论的威胁节点感知方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116527346A true CN116527346A (zh) | 2023-08-01 |
Family
ID=87402365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310426785.8A Pending CN116527346A (zh) | 2023-04-20 | 2023-04-20 | 基于深度学习图神经网络理论的威胁节点感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116527346A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557118A (zh) * | 2023-11-13 | 2024-02-13 | 国网江苏省电力有限公司镇江供电分公司 | 基于机器学习的ups系统供电拓扑图生成方法 |
CN118471542A (zh) * | 2024-07-12 | 2024-08-09 | 杭州城市大脑技术与服务有限公司 | 一种基于大数据的医疗健康管理系统 |
-
2023
- 2023-04-20 CN CN202310426785.8A patent/CN116527346A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557118A (zh) * | 2023-11-13 | 2024-02-13 | 国网江苏省电力有限公司镇江供电分公司 | 基于机器学习的ups系统供电拓扑图生成方法 |
CN118471542A (zh) * | 2024-07-12 | 2024-08-09 | 杭州城市大脑技术与服务有限公司 | 一种基于大数据的医疗健康管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105224872B (zh) | 一种基于神经网络聚类的用户异常行为检测方法 | |
CN112101480B (zh) | 一种多变量聚类与融合的时间序列组合预测方法 | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN116527346A (zh) | 基于深度学习图神经网络理论的威胁节点感知方法 | |
Du et al. | GAN-based anomaly detection for multivariate time series using polluted training set | |
CN110166484A (zh) | 一种基于LSTM-Attention网络的工业控制系统入侵检测方法 | |
CN115348074B (zh) | 深度时空混合的云数据中心网络流量实时检测方法 | |
CN112087442B (zh) | 基于注意力机制的时序相关网络入侵检测方法 | |
CN109145516A (zh) | 一种基于改进型极限学习机的模拟电路故障识别方法 | |
CN103268484A (zh) | 用于高精度人脸识别的分类器设计方法 | |
Lawrence et al. | Explaining neural matrix factorization with gradient rollback | |
CN111310719B (zh) | 一种未知辐射源个体识别及检测的方法 | |
CN116318928A (zh) | 一种基于数据增强和特征融合的恶意流量识别方法及系统 | |
CN116506210A (zh) | 基于流量特征融合的网络入侵检测方法及系统 | |
Tan et al. | Recognizing the content types of network traffic based on a hybrid DNN-HMM model | |
CN113343123B (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
Pandey et al. | A metaheuristic autoencoder deep learning model for intrusion detector system | |
CN117749409A (zh) | 一种大规模网络安全事件分析系统 | |
CN117235566A (zh) | 一种基于多频带滤波和余弦注意力的图异常检测方法 | |
CN116662982A (zh) | 基于关联欺诈感知的欺诈行为检测方法及装置 | |
CN116170187A (zh) | 一种基于cnn和lstm融合网络的工业互联网入侵监测方法 | |
CN113852612B (zh) | 一种基于随机森林的网络入侵检测方法 | |
Krishnamurthy et al. | Segregation in social networks: Markov bridge models and estimation | |
CN114584350B (zh) | 基于流形的网络数据包特征的降维及聚类的攻击识别方法 | |
CN113904801B (zh) | 一种网络入侵检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |