CN117014210A - 基于ChebNet图卷积神经网络的邮件蠕虫检测系统 - Google Patents

基于ChebNet图卷积神经网络的邮件蠕虫检测系统 Download PDF

Info

Publication number
CN117014210A
CN117014210A CN202311024681.0A CN202311024681A CN117014210A CN 117014210 A CN117014210 A CN 117014210A CN 202311024681 A CN202311024681 A CN 202311024681A CN 117014210 A CN117014210 A CN 117014210A
Authority
CN
China
Prior art keywords
mail
graph
matrix
worm
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311024681.0A
Other languages
English (en)
Inventor
周翰逊
娄权威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN202311024681.0A priority Critical patent/CN117014210A/zh
Publication of CN117014210A publication Critical patent/CN117014210A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/308Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information retaining data, e.g. retaining successful, unsuccessful communication attempts, internet access, or e-mail, internet telephony, intercept related information or call content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)

Abstract

基于ChebNet图卷积神经网络的邮件蠕虫检测系统,包括以下步骤:步骤1)基于开源威胁情报信息库、恶意样本分享站点、在线病毒扫描器等渠道收集有关蠕虫邮件的数据,并对原始数据进行预处理,得到蠕虫邮件的历史特征,并构建邻接矩阵关系图来表示蠕虫邮件节点之间的关系;步骤2)得到增强ChebNet图卷积神经网络模型;步骤3)将待检测的蠕虫邮件数据代入增强ChebNet图卷积神经网络模型中,进行分类或者回归提取邮件特征,对邮件进行预测和判定,根据判定结果实现蠕虫邮件的检测和预警。本发明通过上述步骤,解决目前邮件蠕虫检测技术的不足,达到保护网络安全的目的。

Description

基于ChebNet图卷积神经网络的邮件蠕虫检测系统
技术领域
本发明属于计算机网络安全领域领域,特别涉及一种基于ChebNet图卷积神经网络的邮件蠕虫检测系统。
背景技术
邮件蠕虫是一种恶意软件,通常通过电子邮件或其他通信方式传播。它可以自我复制并感染计算机网络中的其他系统,从而形成一个蠕虫网络。邮件蠕虫可能会执行未经授权的操作或窃取敏感信息,造成严重的损害和数据泄露。因此,检测和预防邮件蠕虫攻击对于保护计算机网络安全至关重要。
ChebNet是一种基于图卷积神经网络GCN的模型,用于处理图形数据。与传统的卷积神经网络不同,GCN可以处理非欧几里得结构的数据,如网状结构或图形数据。ChebNet则使用切比雪夫多项式逼近来实现空间卷积操作,以提高图形数据的特征提取精度。
在邮件蠕虫检测中,可以将网络流量数据转换为图形数据,并将其输入到增强ChebNet中进行特征提取和分类。具体而言,可以将网络节点表示为向量,每个向量代表一个网络节点的属性或行为。然后,使用ChebNet对这些向量进行卷积操作,以提取节点之间的关系和拓扑结构信息。最后,可以使用softmax函数将每个节点分类为正常或感染的邮件蠕虫。ChebNet在处理图形数据时具有良好的性能和鲁棒性,因此可以用于检测和防御邮件蠕虫攻击。
发明内容
针对现有技术的不足,本发明提供一种基于增强ChebNet图卷积神经网络的邮件蠕虫检测系统,旨在解决目前邮件蠕虫检测技术的不足,达到保护系统安全的目的。
本发明是通过以下技术方案实现的:基于ChebNet图卷积神经网络的邮件蠕虫检测系统,包括以下步骤:
步骤1)基于开源威胁情报信息库、恶意样本分享站点、在线病毒扫描器等渠道收集有关蠕虫邮件的数据,并对原始数据进行预处理,得到蠕虫邮件的历史特征,并构建邻接矩阵关系图来表示蠕虫邮件节点之间的关系;
1.1)数据收集;
1.2)数据清洗和去重;
1.3)数据标注和分类;
1.4)特征提取和选择;
1.5)构建邻接矩阵关系图;
首先,每个将每个蠕虫邮件转化为二进制形式,并将每个二进制数值表示为一个节点,根据二进制序列建立含有节点和边的图结构,其中节点表示二进制数值,边表示相邻二进制数值之间的依赖关系;通过对这些节点的特征进行分析和计算,捕捉到节点之间的关联性,节点是对应的二进制数值和操作码,二进制数值表示蠕虫邮件中数据,操作码用于描述计算机执行的操作类型和参数,节点之间的连通性表示它们之间的关联关系;
此外,所有蠕虫邮件被抽象为一组动态图网络结构集合G={G1,G2,···GT},其中Gt={Vt,Et}代表第t个字节长文件的图结构信息,为第t个字节长的特征向量;Xt∈RN×N为邮件蠕虫邮件的第t个字节长的二维特征矩阵,其元素xij表示字节i和字节j紧邻出现的次数除以t;/>为邮件在第1个至第T个文本段所堆叠的三维特征矩阵,其中N个邮件关联关系通过二维邻接矩阵A∈RN×N表示;邻接矩阵关系图的通过A'∈R3N ×3N二维矩阵表示,公式(1)所示:
步骤2)得到增强ChebNet图卷积神经网络模型;
增强ChebNet图卷积模型包含4个部分:图数据输入、卷积层特征提取、全连接层分类和矩阵乘积输出结果,由于需要进行特征分解计算,在参数和计算量上较大,用切比雪夫多项式替换图卷积的卷积核,加速特征矩阵的求解;
2.1)信息融合:利用拉普拉斯矩阵L对图的信息进行融合,信息融合通过在每个图层中应用切比雪夫多项式近似图形信号的方式进行实现;通过计算切比雪夫多项式的系数来构造一个滤波器,滤波器看作是一个局部子图上的加权平均,通过不同的滤波器组合,从不同的数据子图中捕捉关键特征,并将这些信息进行融合;
2.2)特征分解:模型使用基于图形结构的普适近似方法,利用Chebyshev多项式来近似拉普拉斯矩阵的函数,通过这种方法在谱域上对图形数据进行卷积操作,在特征分解过程中,拉普拉斯矩阵被分解为本征向量和本征值的形式,其中本征值表示了数据在频率域中的变化情况,不需要进行像传统的卷积神经网络那样的卷积运算,如下式将拉普拉斯矩阵X进行特征分解,得到特征值和特征向量,特征分解如公式(2)所示
式中:为列向量U被称为切比雪夫矩阵,Λ是对角线矩阵,它的对角线元素是X的的特征值,U-1表示矩阵U的逆矩阵;
2.3)归一化:在模型中,使用拉普拉斯矩阵的特征向量来进行谱卷积操作,对拉普拉斯矩阵的特征向量进行归一化处理,将原本的空域信息转换为频域信息;对于拉普拉斯矩阵
L=U1,将每个特征向量除以相应的特征值的平方根,得到归一化后的特征向量,使得每个特征向量都具有单位长度,方便进行谱卷积操作,保证特征向量之间的正交性,通过对拉普拉斯矩阵的特征向量进行归一化处理,将图像数据从空域转换为频域,利用谱卷积操作对图像数据进行卷积,通过对拉普拉斯矩阵的特征向量进行归一化处理,将图像数据从空域转换为频域,利用谱卷积操作对图像数据进行卷积,归一化的特征向量如公式(3)所示;
式中:ui表示节点i的特征向量,λi拉普拉斯矩阵的第i个特征值,也即是特征向量的本征值,则表示归一化后的特征向量,i的个数为图中的节点数,N为最大节点个数;
2.4)图卷积:利用拉普拉斯矩阵的Chebyshev多项式逼近滤波器函数,图卷积操作用于从节点邻居节点的特征中提取新的特征表示;图卷积操作看作是对每个节点的输入特征向量与邻居节点的特征向量进行线性聚合,得到该节点的新特征向量,图f与卷积核gθ的卷积公式如式(4)所示:
f*gθ=U((UTgθ)⊙(UTf)) (4)
式中:*表示图卷积运算,⊙表示哈德曼乘积,f表示输入节点的特征向量,gθ表示学习到的权重参数,θ是模型可学习的参数;
2.5)矩阵乘积:使用前一时间步和当前时间步的特征向量计算预测结果;在时间序列数据中,相邻的时间步之间存在关联性,在相关性预测任务中,前一时间步的相关性大小对当前时间步的流相关性有较大的影响,作为一个有效的参考信息,通过利用前一时间步的特征向量,捕获这种关联性,经过图卷积操作的前后时间步做矩阵乘积,对前一时间步的输出和当前时间步的输出进行矩阵乘积,执行归一化操作,得到预测结果,公式如(5):
式中:Ht表示当前时间步图卷积结果,Pt表示当前预测结果,t表示当前时间步,n表示考虑的多少个相邻时间步;
模型利用切比雪夫多项式来构建切比雪夫卷积核,将全局卷积转换为局部卷积,切比雪夫多项式如式(6)所示,图卷积的运算如式(7)所示:
Tn+1(x)=2xTn(x)-Tn-1(x) (6)
式中:M为卷积核的感受野半径;θk为切比雪夫多项式的系数;Lk为对应的拉普拉斯矩阵;x为输入特征;Tn(x)代表第n阶的切比雪夫多项式,取值范围为n≥0的非负整数集合;
如式(8)为切比雪夫卷积核的计算,通过对拉普拉斯矩阵进行变换,得到了一个新的矩阵具体公式如(9):
式中:βk是训练过程中的参数;Tk是k阶切比雪夫多项式;λmax是拉普拉斯矩阵L的最大值;Λ是n个特征值构成的对角矩阵,是将特征值进行归一化后得到的新的对角矩阵。
步骤3)将待检测的蠕虫邮件数据代入增强ChebNet图卷积神经网络模型中,进行分类或者回归提取邮件特征,对邮件进行预测和判定,根据判定结果实现蠕虫邮件的检测和预警;
具体的:待检测的蠕虫邮件数据代入至增强ChebNet图卷积神经网络模型,设定阈值,根据增强ChebNet图卷积神经网络模型预测的概率或置信度值,将附件划分为恶意和非恶意,超过阈值的附件被视为恶意邮件蠕虫,需要预警,低于阈值的邮件被视为非恶意,无需进行预警。
本发明创造的有益效果为:有效地识别恶意蠕虫邮件,有助于保护计算机网络免受感染和攻击。它可以提供的恶意邮件检测,帮助企业、组织和个人及时采取防御措施,减少潜在的损失。模型具备一定的跨域泛化能力,能够适应未知的恶意蠕虫邮件。这使得它能够应对新的威胁和变种,不仅依赖于已知的特征和模式,而且能够学习并推断新出现的恶意行为,提供快速响应和更新。模型能够自动从邮件中提取和学习特征表示,不再需要依赖手动设计的规则和特征。这使得恶意蠕虫邮件的检测过程更加高效、智能化,并减轻了人工分析的负担。通过增强ChebNet图卷积神经网络,可以提升网络安全性、快速应对新威胁、实现自化检测并减少潜在的损失和风险,对个人、组织和社会产生积极的影响。
附图说明
图1为本发明方法流程图。
具体实施方式
基于ChebNet图卷积神经网络的邮件蠕虫检测系统,包括以下步骤:
步骤1)基于开源威胁情报信息库、恶意样本分享站点、在线病毒扫描器等渠道收集有关蠕虫邮件的数据,并对原始数据进行预处理,得到蠕虫邮件的历史特征,并构建邻接矩阵关系图来表示蠕虫邮件节点之间的关系;
1.1)数据收集;从开源威胁情报信息库、恶意样本分享站点、在线病毒扫描器等渠道获取有关蠕虫邮件的数据。根据任务目标,收集与蠕虫邮件相关的二进制文件并将其保存在本地或云端存储中。数据收集在蠕虫邮件检测中也是非常重要的步骤。可以通过开源威胁情报信息库、恶意样本分享站点、在线病毒扫描器等渠道获取与蠕虫邮件相关系关容,并将其保存在本地或云端存储中。根据任务目标,可以采集不同来源的数据,包括已知感染的蠕虫邮件和潜在的未知蠕虫邮件样本,以便对蠕虫邮件进行全面的检测和预防。
1.2)数据清洗和去重:对收集到的数据进行去重、过滤和清洗,去掉重复数据、无效数据和不规范数据。
1.3)数据标注和分类;对蠕虫邮件进行数据标注和分类也是非常重要的步骤。根据蠕虫邮件的定义和特征,可以将数据分为蠕虫邮件和正常文件两类,并进一步对蠕虫邮件进行细致的分类,例如根据不同传播方式、感染规模等特征将其分为不同类型的蠕虫邮件。通过对数据进行标注和分类,可以帮助机器学习算法更好地区分蠕虫邮件和正常文件,并对不同类型的蠕虫邮件进行有效的检测和预防。
1.4)特征提取和选择;需要选取与检测目标相关的特征,例如可以从蠕虫邮件的传播方式、感染路径、感染规模等方面提取特征,并将其用于训练蠕虫邮件检测模型。此外,还可以通过数据收集来获取与蠕虫邮件相关的信息,以便进行进一步的分析和研究。通过对数据进行有效的特征提取和选择,可以提高蠕虫邮件检测的准确性和效率。
1.5)构建邻接矩阵关系图;
首先,将蠕虫邮件的每个二进制的取值看做是一个节点,即0-255,将两个相邻的二进制之间的关系看做是一条边,构建一个动态图Dynamic Graph,其中节点和边的属性可以随时间变化。然后使用图卷积操作来学习提取蠕虫邮件的历史特征,例如感染速度、扩散路径、感染规模等,以便对蠕虫邮件进行及时检测和预防。为了有效应对蠕虫邮件的攻击,需要不断优化和更新基于图卷积的检测算法,并加强网络安全措施以防止蠕虫邮件的传播。
其次,使用图卷积神经网络,对动态图进行空间特征提取,捕捉节点和边之间的相互影响。对时间特征序列进行分析,捕捉动态图中的时序变化和周期性。此外,利用矩阵乘积将前一时间步和当前时间步的特征向量进行融合,从而使得过去的信息能够结合到当前时间步进行处理时间序列信息。
具体的:
首先,每个将每个蠕虫邮件转化为二进制形式,并将每个二进制数值表示为一个节点,根据二进制序列建立含有节点和边的图结构,其中节点表示二进制数值,边表示相邻二进制数值之间的依赖关系;通过对这些节点的特征进行分析和计算,捕捉到节点之间的关联性,节点是对应的二进制数值和操作码,二进制数值表示蠕虫邮件中数据,操作码用于描述计算机执行的操作类型和参数,节点之间的连通性表示它们之间的关联关系;
此外,所有蠕虫邮件被抽象为一组动态图网络结构集合G={G1,G2,···GT},其中Gt={Vt,Et}代表第t个字节长文件的图结构信息,为第t个字节长的特征向量;Xt∈RN×N为邮件蠕虫邮件的第t个字节长的二维特征矩阵,其元素xij表示字节i和字节j紧邻出现的次数除以t;/>为邮件在第1个至第T个文本段所堆叠的三维特征矩阵,其中N个邮件关联关系通过二维邻接矩阵A∈RN×N表示;邻接矩阵关系图的通过A'∈R3N ×3N二维矩阵表示,公式(1)所示:
步骤2)得到增强ChebNet图卷积神经网络模型;
增强ChebNet图卷积主要包含4个部分:图数据输入、卷积层特征提取、全连接层分类和矩阵乘积输出结果。一般的频域卷积网络使用傅里叶变换来实现,原始频谱卷积网络通过对图中拉普拉斯矩阵进行特征分解,求得所有的特征值及特征向量,并将其用于实现卷积操作。由于需要进行特征分解计算,因此该方法在参数和计算量上较大,用切比雪夫多项式替换图卷积的卷积核,加速特征矩阵的求解。
增强ChebNet图卷积神经网络可以对图的结点、结构和边等信息进行融合,并转换为频域中的信息,具体操作如下:
2.1)信息融合:利用拉普拉斯矩阵L对图的信息进行融合,其信息融合主要通过在每个图层中应用切比雪夫多项式近似图形信号的方式进行实现。具体而言,通过计算切比雪夫多项式的系数来构造一个滤波器,该滤波器可以被看作是一个局部(与中心节点相邻的节点)子图上的加权平均。通过不同的滤波器组合,可以从不同的数据子图中捕捉关键特征,并将这些信息以一种高效且可扩展的方式进行融合。
2.2)特征分解:模型使用基于图形结构的普适近似方法,利用Chebyshev多项式来近似拉普拉斯矩阵的函数。这种方法使得可以在谱域上对图形数据进行卷积操作,并且具有可扩展性和高效性。在特征分解过程中,拉普拉斯矩阵被分解为本征向量和本征值的形式,其中本征值表示了数据在频率域中的变化情况。这种方法不需要进行像传统的卷积神经网络那样的卷积运算,从而大大减少了计算量,如下式将拉普拉斯矩阵X进行特征分解,得到特征值和特征向量,特征分解如公式(2)所示
式中:为列向量U被称为切比雪夫矩阵,Λ是对角线矩阵,它的对角线元素是X的的特征值,U-1表示矩阵U的逆矩阵。
2.3)归一化:在模型中,使用拉普拉斯矩阵的特征向量来进行谱卷积操作。为了提高计算效率和表达能力,需要对拉普拉斯矩阵的特征向量进行归一化处理,从而将原本的空域信息转换为频域信息。具体而言,对于拉普拉斯矩阵L=UΛU-1,可以将每个特征向量除以相应的特征值的平方根,得到归一化后的特征向量,这样做的目的是使得每个特征向量都具有单位长度,从而方便进行谱卷积操作,同时也保证了特征向量之间的正交性,通过对拉普拉斯矩阵的特征向量进行归一化处理,可以将图像数据从空域转换为频域,从而利用谱卷积操作对图像数据进行卷积,通过对拉普拉斯矩阵的特征向量进行归一化处理,可以将图像数据从空域转换为频域,从而利用谱卷积操作对图像数据进行卷积,归一化的特征向量如公式(3)所示。
式中:ui表示节点i的特征向量,λi拉普拉斯矩阵的第i个特征值,也即是特征向量的本征值,则表示归一化后的特征向量,i的个数为图中的节点数,N为最大节点个数。
2.4)图卷积:其核心在于利用拉普拉斯矩阵的Chebyshev多项式逼近滤波器函数。图卷积操作是模型中的一个重要组成部分,用于从节点邻居节点的特征中提取新的特征表示。具体而言,图卷积操作可以看作是对每个节点的输入特征向量与邻居节点的特征向量进行线性聚合,得到该节点的新特征向量。图与卷积核的卷积公式如式(4)所示:
f*gθ=U((UTgθ)⊙(UTf)) (4)
式中:*表示图卷积运算,⊙表示哈德曼乘积,f表示输入节点的特征向量,gθ表示学习到的权重参数,θ是模型可学习的参数。
2.5)矩阵乘积:使用了前一时间步和当前时间步的特征向量来计算预测结果。这是因为在时间序列数据中,相邻的时间步之间通常存在一定的关联性,在相关性预测任务中,前一时间步的相关性大小对当前时间步的流相关性有较大的影响,通常可以作为一个有效的参考信息。通过利用前一时间步的特征向量,可以更好地捕获这种关联性,从而提高预测准确度,经过图卷积操作的前后时间步做矩阵乘积,对前一时间步的输出和当前时间步的输出进行矩阵乘积,执行归一化操作,得到预测结果,公式如(5):
式中:Ht表示当前时间步图卷积结果,Pt表示当前预测结果,t表示当前时间步,n表示考虑的多少个相邻时间步。
模型利用切比雪夫多项式来构建切比雪夫卷积核,将全局卷积转换为局部卷积,提高了处理效率,切比雪夫多项式如式(6)所示。图卷积的运算如式(7)所示:
Tn+1(x)=2xTn(x)-Tn-1(x) (6)
式中:M为卷积核的感受野半径;θk为切比雪夫多项式的系数;Lk为对应的拉普拉斯矩阵;x为输入特征;Tn(x)代表第n阶的切比雪夫多项式,取值范围为n≥0的非负整数集合。
如式(8)为切比雪夫卷积核的计算,通过对拉普拉斯矩阵进行变换,得到了一个新的矩阵具体公式如(9):
式中:βk是训练过程中的参数;Tk是k阶切比雪夫多项式;λmax是拉普拉斯矩阵L的最大值;Λ是n个特征值构成的对角矩阵,是将特征值进行归一化后得到的新的对角矩阵。
步骤3)将待检测的蠕虫邮件数据代入增强ChebNet图卷积神经网络模型中,进行分类或者回归提取邮件特征,对邮件进行预测和判定,根据判定结果实现蠕虫邮件的检测和预警。

Claims (5)

1.基于ChebNet图卷积神经网络的邮件蠕虫检测系统,其特征在于,包括以下步骤:
步骤1)基于开源威胁情报信息库、恶意样本分享站点、在线病毒扫描器等渠道收集有关蠕虫邮件的数据,并对原始数据进行预处理,得到蠕虫邮件的历史特征,并构建邻接矩阵关系图来表示蠕虫邮件节点之间的关系;
步骤2)得到增强ChebNet图卷积神经网络模型;
步骤3)将待检测的蠕虫邮件数据代入增强ChebNet图卷积神经网络模型中,进行分类或者回归提取邮件特征,对邮件进行预测和判定,根据判定结果实现蠕虫邮件的检测和预警。
2.根据权利要求1所述的基于ChebNet图卷积神经网络的邮件蠕虫检测系统,其特征在于,所述的步骤1)中,具体方法为:
1.1)数据收集;1.2)数据清洗和去重;1.3)数据标注和分类;1.4)特征提取和选择;1.5)构建邻接矩阵关系图。
3.根据权利要求2所述的基于ChebNet图卷积神经网络的邮件蠕虫检测系统,其特征在于,所述的步骤1.5)中,具体方法为:
首先,每个将每个蠕虫邮件转化为二进制形式,并将每个二进制数值表示为一个节点,根据二进制序列建立含有节点和边的图结构,其中节点表示二进制数值,边表示相邻二进制数值之间的依赖关系;通过对这些节点的特征进行分析和计算,捕捉到节点之间的关联性,节点是对应的二进制数值和操作码,二进制数值表示蠕虫邮件中数据,操作码用于描述计算机执行的操作类型和参数,节点之间的连通性表示它们之间的关联关系;
此外,所有蠕虫邮件被抽象为一组动态图网络结构集合G={G1,G2,···GT},其中Gt={Vt,Et}代表第t个字节长文件的图结构信息,为第t个字节长的特征向量;Xt∈RN×N为邮件蠕虫邮件的第t个字节长的二维特征矩阵,其元素xij表示字节i和字节j紧邻出现的次数除以t;/>为邮件在第1个至第T个文本段所堆叠的三维特征矩阵,其中N个邮件关联关系通过二维邻接矩阵A∈RN×N表示;邻接矩阵关系图的通过A'∈R3N×3N二维矩阵表示,公式(1)所示:
4.根据权利要求2所述的基于ChebNet图卷积神经网络的邮件蠕虫检测系统,其特征在于,所述的步骤2)中,具体方法为:
增强ChebNet图卷积模型包含4个部分:图数据输入、卷积层特征提取、全连接层分类和矩阵乘积输出结果,由于需要进行特征分解计算,在参数和计算量上较大,用切比雪夫多项式替换图卷积的卷积核,加速特征矩阵的求解;
增强ChebNet图卷积神经网络对图的结点、结构和边等信息进行融合,并转换为频域中的信息,具体操作如下:
2.1)信息融合:利用拉普拉斯矩阵L对图的信息进行融合,信息融合通过在每个图层中应用切比雪夫多项式近似图形信号的方式进行实现;通过计算切比雪夫多项式的系数来构造一个滤波器,滤波器看作是一个局部子图上的加权平均,通过不同的滤波器组合,从不同的数据子图中捕捉关键特征,并将这些信息进行融合;
2.2)特征分解:模型使用基于图形结构的普适近似方法,利用Chebyshev多项式来近似拉普拉斯矩阵的函数,通过这种方法在谱域上对图形数据进行卷积操作,在特征分解过程中,拉普拉斯矩阵被分解为本征向量和本征值的形式,其中本征值表示了数据在频率域中的变化情况,不需要进行像传统的卷积神经网络那样的卷积运算,如下式将拉普拉斯矩阵X进行特征分解,得到特征值和特征向量,特征分解如公式(2)所示
式中:为列向量U被称为切比雪夫矩阵,Λ是对角线矩阵,它的对角线元素是X的的特征值,U-1表示矩阵U的逆矩阵;
2.3)归一化:在模型中,使用拉普拉斯矩阵的特征向量来进行谱卷积操作,对拉普拉斯矩阵的特征向量进行归一化处理,将原本的空域信息转换为频域信息;对于拉普拉斯矩阵L=U,将每个特征向量除以相应的特征值的平方根,得到归一化后的特征向量,使得每个特征向量都具有单位长度,方便进行谱卷积操作,保证特征向量之间的正交性,通过对拉普拉斯矩阵的特征向量进行归一化处理,将图像数据从空域转换为频域,利用谱卷积操作对图像数据进行卷积,通过对拉普拉斯矩阵的特征向量进行归一化处理,将图像数据从空域转换为频域,利用谱卷积操作对图像数据进行卷积,归一化的特征向量如公式(3)所示;
式中:ui表示节点i的特征向量,λi拉普拉斯矩阵的第i个特征值,也即是特征向量的本征值,则表示归一化后的特征向量,i的个数为图中的节点数,N为最大节点个数;
2.4)图卷积:利用拉普拉斯矩阵的Chebyshev多项式逼近滤波器函数,图卷积操作用于从节点邻居节点的特征中提取新的特征表示;图卷积操作看作是对每个节点的输入特征向量与邻居节点的特征向量进行线性聚合,得到该节点的新特征向量,图f与卷积核gθ的卷积公式如式(4)所示:
f*gθ=U((UTgθ)⊙(UTf)) (4)
式中:*表示图卷积运算,⊙表示哈德曼乘积,f表示输入节点的特征向量,gθ表示学习到的权重参数,θ是模型可学习的参数;
2.5)矩阵乘积:使用前一时间步和当前时间步的特征向量计算预测结果;在时间序列数据中,相邻的时间步之间存在关联性,在相关性预测任务中,前一时间步的相关性大小对当前时间步的流相关性有较大的影响,作为一个有效的参考信息,通过利用前一时间步的特征向量,捕获这种关联性,经过图卷积操作的前后时间步做矩阵乘积,对前一时间步的输出和当前时间步的输出进行矩阵乘积,执行归一化操作,得到预测结果,公式如(5):
式中:Ht表示当前时间步图卷积结果,Pt表示当前预测结果,t表示当前时间步,n表示考虑的多少个相邻时间步;
模型利用切比雪夫多项式来构建切比雪夫卷积核,将全局卷积转换为局部卷积,切比雪夫多项式如式(6)所示,图卷积的运算如式(7)所示:
Tn+1(x)=2xTn(x)-Tn-1(x) (6)
式中:M为卷积核的感受野半径;θk为切比雪夫多项式的系数;Lk为对应的拉普拉斯矩阵;x为输入特征;Tn(x)代表第n阶的切比雪夫多项式,取值范围为n≥0的非负整数集合;
如式(8)为切比雪夫卷积核的计算,通过对拉普拉斯矩阵进行变换,得到了一个新的矩阵具体公式如(9):
式中:βk是训练过程中的参数;Tk是k阶切比雪夫多项式;λmax是拉普拉斯矩阵L的最大值;Λ是n个特征值构成的对角矩阵,是将特征值进行归一化后得到的新的对角矩阵。
5.根据权利要求1所述的基于增强ChebNet图卷积神经网络的邮件蠕虫检测系统,其特征在于,所述的步骤3)中,具体方法为:所述的待检测的蠕虫邮件数据代入至增强ChebNet图卷积神经网络模型,设定阈值,根据增强ChebNet图卷积神经网络模型预测的概率或置信度值,将附件划分为恶意和非恶意,超过阈值的附件被视为恶意邮件蠕虫,需要预警,低于阈值的邮件被视为非恶意,无需进行预警。
CN202311024681.0A 2023-08-15 2023-08-15 基于ChebNet图卷积神经网络的邮件蠕虫检测系统 Pending CN117014210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311024681.0A CN117014210A (zh) 2023-08-15 2023-08-15 基于ChebNet图卷积神经网络的邮件蠕虫检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311024681.0A CN117014210A (zh) 2023-08-15 2023-08-15 基于ChebNet图卷积神经网络的邮件蠕虫检测系统

Publications (1)

Publication Number Publication Date
CN117014210A true CN117014210A (zh) 2023-11-07

Family

ID=88574226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311024681.0A Pending CN117014210A (zh) 2023-08-15 2023-08-15 基于ChebNet图卷积神经网络的邮件蠕虫检测系统

Country Status (1)

Country Link
CN (1) CN117014210A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117978461A (zh) * 2024-01-15 2024-05-03 兵器装备集团财务有限责任公司 基于孤立森林的异常登录检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117978461A (zh) * 2024-01-15 2024-05-03 兵器装备集团财务有限责任公司 基于孤立森林的异常登录检测方法及系统

Similar Documents

Publication Publication Date Title
Jha et al. Intrusion detection system using support vector machine
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN112884204B (zh) 网络安全风险事件预测方法及装置
Alabadi et al. Anomaly detection for cyber-security based on convolution neural network: A survey
CN114816909A (zh) 一种基于机器学习的实时日志检测预警方法及系统
CN112333195B (zh) 基于多源日志关联分析的apt攻击场景还原检测方法及系统
CN113269228B (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
CN115086004B (zh) 一种基于异质图的安全事件识别方法及系统
CN117014210A (zh) 基于ChebNet图卷积神经网络的邮件蠕虫检测系统
Heimowitz et al. A unified view of diffusion maps and signal processing on graphs
CN116318928A (zh) 一种基于数据增强和特征融合的恶意流量识别方法及系统
Karanam et al. Intrusion detection mechanism for large scale networks using CNN-LSTM
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN110650124A (zh) 一种基于多层回声状态网络的网络流量异常检测方法
Makridis et al. XAI enhancing cyber defence against adversarial attacks in industrial applications
Aburomman et al. Evolutionof Intrusion Detection Systems Based on Machine Learning Methods
CN116318925A (zh) 一种多cnn融合入侵检测方法、系统、介质、设备及终端
Rinish Reddy et al. Convolutional neural network based intrusion detection system and predicting the DDoS attack
Belguendouz et al. Static classification of IoT malware using grayscale image representation and lightweight convolutional neural networks
CN115175192A (zh) 一种基于图神经网络的车联网入侵检测方法
Bui et al. One-class fusion-based learning model for anomaly detection
CN114519605A (zh) 广告点击欺诈检测方法、系统、服务器和存储介质
Kaleem et al. A cognitive approach for attribute selection in internet dataset
Deng et al. A Ransomware Classification Method Based on Entropy Map
Rani et al. Prediction of network intrusion using an efficient feature selection method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination