CN113489606A - 一种基于图神经网络的网络应用识别方法及装置 - Google Patents

一种基于图神经网络的网络应用识别方法及装置 Download PDF

Info

Publication number
CN113489606A
CN113489606A CN202110730855.XA CN202110730855A CN113489606A CN 113489606 A CN113489606 A CN 113489606A CN 202110730855 A CN202110730855 A CN 202110730855A CN 113489606 A CN113489606 A CN 113489606A
Authority
CN
China
Prior art keywords
network
network application
vertex
graph
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110730855.XA
Other languages
English (en)
Inventor
逄博
符永铨
任思远
王晔
廖清
贾焰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Peng Cheng Laboratory
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology, Peng Cheng Laboratory filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110730855.XA priority Critical patent/CN113489606A/zh
Publication of CN113489606A publication Critical patent/CN113489606A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于图神经网络的网络应用识别方法及装置。所述基于图神经网络的网络应用识别方法,包括:分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图;基于图神经网络构建网络应用识别模型;其中,所述网络应用识别模型包括两个SGC网络层;根据所述链图生成训练数据集,通过所述训练数据集训练所述网络应用识别模型;将待测试的网络流量文件输入训练后的所述网络应用识别模型,得到网络应用类型。本发明能够实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。

Description

一种基于图神经网络的网络应用识别方法及装置
技术领域
本发明涉及网络通信技术领域,尤其涉及一种基于图神经网络的网络应用识别方法及装置。
背景技术
从网络流量识别出网络应用类型是网络安全和网络管理领域中的重要需求,是进行服务质量控制,异常检测,网络计费的基础。
传统的网络应用识别方法主要包括基于端口的网络应用识别方法、基于深度包检测的网络应用识别方法、基于统计机器学习的网络应用识别方法和基于深度学习的网络应用识别方法等。随着网络应用的不断发展,传统的网络应用识别方法面临分类规则过时、人工特征提取费时的问题,而基于深度学习的网络应用识别方法尽管通过原始数据缓解了人工特征提取的不足,但却忽略了网络流量的时序结构信息,分类精度较低,难以保证高效准确地识别网络应用类型。
发明内容
为克服现有技术的缺陷,本发明提供一种基于图神经网络的网络应用识别方法及装置,能够实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
为了解决上述技术问题,第一方面,本发明一实施例提供一种基于图神经网络的网络应用识别方法,包括:
分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图;
基于图神经网络构建网络应用识别模型;其中,所述网络应用识别模型包括两个SGC网络层;
根据所述链图生成训练数据集,通过所述训练数据集训练所述网络应用识别模型;
将待测试的网络流量文件输入训练后的所述网络应用识别模型,得到网络应用类型。
进一步地,所述分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图,具体为:
对于所述网络流量文件中的每一原始IP报文,以所述原始IP报文作为顶点,根据所述原始IP报文的载荷数据得到所述顶点的特征信息,以邻接的两个所述原始IP报文之间的传输时序作为边,得到顶点集合和边集合;
根据所述顶点集合和所述边集合生成所述链图,并将所述网络流量文件对应的网络应用类型作为所述链图的标签。
进一步地,所述根据所述原始IP报文的载荷数据得到所述顶点的特征信息,具体为:
将所述原始IP报文的载荷数据截断或扩充为预设长度的字节向量,以所述字节向量作为所述顶点的特征信息。
进一步地,所述预设长度为1500字节。
进一步地,所述网络应用识别模型包括依次连接的第一SGC网络层、第二SGC网络层和全连接层。
进一步地,所述第一SGC网络层为
Figure BDA0003138385770000021
其中,
Figure BDA0003138385770000022
表示所述第一SGC网络层输出的n个特征信息,
Figure BDA0003138385770000023
Figure BDA0003138385770000024
A表示所述链图的邻接矩阵,
Figure BDA0003138385770000025
aij=1表示所述顶点i与所述顶点j邻接,aij=0表示所述顶点i与所述顶点j不邻接,I是单位矩阵,
Figure BDA0003138385770000026
表示矩阵
Figure BDA0003138385770000027
的顶点度对角矩阵,
Figure BDA0003138385770000028
X表示n个所述顶点的特征信息,X=[x1,...,xn]T;Θ(k)表示参数矩阵,k表示所述参数矩阵的索引;
所述第二SGC网络层为
Figure BDA0003138385770000031
其中,
Figure BDA0003138385770000032
表示所述第二SGC网络层输出的n个特征信息,
Figure BDA0003138385770000033
所述全连接层为
Figure BDA0003138385770000034
其中,
Figure BDA0003138385770000035
表示所述全连接层输出的网络应用类型,
Figure BDA0003138385770000036
Figure BDA0003138385770000037
C表示分类数目。
进一步地,所述根据所述链图生成训练数据集,通过所述训练数据集训练所述网络应用识别模型,具体为:
根据所述训练数据集的真实网络应用类型和预测网络应用类型,采用逻辑回归损失函数构建最小化多分类损失函数;
采用随机梯度下降SGD算法对所述最小化多分类损失函数进行预设轮数的训练,得到训练后的所述网络应用识别模型的模型参数。
进一步地,所述将待测试的网络流量文件输入训练后的所述网络应用识别模型,得到网络应用类型,具体为:
将所述待测试的网络流量文件对应的链图输入训练后的所述网络应用识别模型,得到所述网络应用类型。
第二方面,本发明一实施例提供一种基于图神经网络的网络应用识别装置,包括:
链图抽取模块,用于分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图;
模型构建模块,用于基于图神经网络构建网络应用识别模型;其中,所述网络应用识别模型包括两个SGC网络层;
模型训练模块,用于根据所述链图生成训练数据集,通过所述训练数据集训练所述网络应用识别模型;
类型识别模块,用于将待测试的网络流量文件输入训练后的所述网络应用识别模型,得到网络应用类型。
进一步地,所述分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图,具体为:
对于所述网络流量文件中的每一原始IP报文,以所述原始IP报文作为顶点,根据所述原始IP报文的载荷数据得到所述顶点的特征信息,以邻接的两个所述原始IP报文之间的传输时序作为边,得到顶点集合和边集合;
根据所述顶点集合和所述边集合生成所述链图,并将所述网络流量文件对应的网络应用类型作为所述链图的标签。
本发明的实施例,具有如下有益效果:
通过分析网络流量文件中网络流量的传输时序结构,从网络流量文件中抽取出链图,基于图神经网络构建网络应用识别模型;其中,网络应用识别模型包括两个SGC网络层,根据链图生成训练数据集,通过训练数据集训练网络应用识别模型,将待测试的网络流量文件输入训练后的网络应用识别模型,得到网络应用类型,完成网络应用识别。相比于现有技术,本发明的实施例通过从网络流量文件中抽取出描述网络流量的传输时序结构的链图,并基于图神经网络构建网络应用识别模型,以通过链图的训练数据集来训练网络应用识别模型,能够实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
附图说明
图1为本发明第一实施例中的一种基于图神经网络的网络应用识别方法的流程示意图;
图2为本发明第一实施例中的链图的结构示意图;
图3为本发明第一实施例中的网络应用识别模型的结构示意图图;
图4为本发明第二实施例中的一种基于图神经网络的网络应用识别装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。
第一实施例:
如图1所示,第一实施例提供一种基于图神经网络的网络应用识别方法,包括步骤S1~S4:
S1、分析网络流量文件中网络流量的传输时序结构,从网络流量文件中抽取出链图;
S2、基于图神经网络构建网络应用识别模型;其中,网络应用识别模型包括两个SGC网络层;
S3、根据链图生成训练数据集,通过训练数据集训练网络应用识别模型;
S4、将待测试的网络流量文件输入训练后的网络应用识别模型,得到网络应用类型。
本实施例通过从网络流量文件中抽取出描述网络流量的传输时序结构的链图,并基于图神经网络构建网络应用识别模型,以通过链图的训练数据集来训练网络应用识别模型,能够实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,所述分析网络流量文件中网络流量的传输时序结构,从网络流量文件中抽取出链图,具体为:对于网络流量文件中的每一原始IP报文,以原始IP报文作为顶点,根据原始IP报文的载荷数据得到顶点的特征信息,以邻接的两个原始IP报文之间的传输时序作为边,得到顶点集合和边集合;根据顶点集合和边集合生成链图,并将网络流量文件对应的网络应用类型作为链图的标签。
其中,若缺少网络流量文件对应的网络应用类别,则设置链图的标签为空。
在本实施例的一优选实施方式中,所述根据原始IP报文的载荷数据得到顶点的特征信息,具体为:将原始IP报文的载荷数据截断或扩充为预设长度的字节向量,以字节向量作为顶点的特征信息。
其中,预设长度为1500字节。
作为示例性地,网络流量文件通常为pcap文件,包含原始IP报文信息。在获取网络流量文件后,根据网络流量文件包含的原始IP报文信息分析网络流量的传输时序结构,即对于每一原始IP报文,以原始IP报文作为顶点,根据原始IP报文的载荷数据得到顶点的特征信息,以原始IP报文的传输先后序列关系作为边,充分挖掘网络流量的结构信息,从网络流量文件中抽取出链图,具体过程如下:
1、抽取顶点集合:将网络流量文件中的每一原始IP报文作为顶点;
2、抽取顶点的特征信息:对于每一原始IP报文,保留原始IP报文的载荷数据,删除原始IP报文的其余部分,将原始IP报文剩余的载荷数据截断为长度统一的字节向量,截断阈值通常为1500字节,若原始IP报文剩余的载荷数据的长度不到1500字节,则通过填充零字节扩充为长度统一的字节向量,将字节向量作为顶点的特征信息;
3、抽取边集合:根据网络流量文件的原始IP报文件的邻接存储序列抽取顶点之间的边的集合,若两个原始IP报文在网络流量文件中为邻接关系,则在对应的两个顶点之间建立一条无向边或有向边;
4、生成链图:利用顶点集合和边集合生成一个链图,将网络流量文件对应的网络应用类型作为链图的标签,若仅有网络流量文件而缺乏网络应用类型,则将链图的标签设置为空。链图的结构如图2所示。
本实施例通过从网络流量文件中抽取出链图,利用链图描述网络流量的传输时序结构,以便后续在进行网络应用识别的过程中考虑到网络流量的传输时序结构,实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,网络应用识别模型包括依次连接的第一SGC网络层、第二SGC网络层和全连接层。
在本实施例的一优选实施方式中,第一SGC网络层为
Figure BDA0003138385770000071
其中,
Figure BDA0003138385770000072
表示第一SGC网络层输出的n个特征信息,
Figure BDA0003138385770000073
Figure BDA0003138385770000074
A表示链图的邻接矩阵,
Figure BDA0003138385770000075
aij=1表示顶点i与顶点j邻接,aij=0表示顶点i与顶点j不邻接,I是单位矩阵,
Figure BDA0003138385770000076
表示矩阵
Figure BDA0003138385770000077
的顶点度对角矩阵,
Figure BDA0003138385770000078
X表示n个顶点的特征信息,X=[x1,...,xn]T;Θ(k)表示参数矩阵,k表示参数矩阵的索引;
第二SGC网络层为
Figure BDA0003138385770000079
其中,
Figure BDA00031383857700000710
表示第二SGC网络层输出的n个特征信息,
Figure BDA00031383857700000711
全连接层为
Figure BDA00031383857700000712
其中,
Figure BDA00031383857700000713
表示全连接层输出的网络应用类型,
Figure BDA00031383857700000714
Figure BDA00031383857700000715
C表示分类数目。
作为示例性地,采用图神经网络架构构建网络应用识别模型,聚合链图的特征表示,以通过网络应用识别模型输出识别的网络应用类型。图神经网络模型支持GCN、GAT、SGC、TAG等常见单层模型类型,采用两层SGC模型结构的图神经网络的综合精度较好。网络应用识别模型的结构如图3所示,具体如下:
1、第一SGC网络层:采用单层SGC模型,模型输入n个顶点的特征信息X=[x1,...,xn]T,其中每个特征信息xi的长度为1500字节,模型输出长度为n个256字节的特征信息
Figure BDA00031383857700000716
设n代表顶点数量,
Figure BDA00031383857700000717
表示链图的邻接矩阵,aij=1表示顶点i与顶点j邻接,aij=0表示顶点i与顶点j不邻接;D表示邻接矩阵A的顶点度对角矩阵,D=diag(∑ja1j,...,∑janj),D的第i个对角元素为∑jaij,非对角元素为0;I是单位矩阵;
Figure BDA0003138385770000081
Figure BDA0003138385770000082
表示矩阵
Figure BDA0003138385770000083
的顶点度对角矩阵,
Figure BDA0003138385770000084
Figure BDA0003138385770000085
的第i个对角元素为
Figure BDA0003138385770000086
非对角元素为0;设
Figure BDA0003138385770000087
Θ(k)表示参数矩阵,k表示参数矩阵的索引;
第一SGC网络层的单层SGC模型结构表示为:
Figure BDA0003138385770000088
2、第二SGC网络层:采用与第一SGC网络层相同的单层SGC模型,模型输入为第一层的特征表示
Figure BDA0003138385770000089
模型输出长度为n个256字节的特征信息
Figure BDA00031383857700000810
第二SGC网络层的单层SGC模型结构可以表示为:
Figure BDA00031383857700000811
3、全连接层:计算特征信息
Figure BDA00031383857700000812
中n个向量的平均值
Figure BDA00031383857700000813
作为链图的整体特征信息,模型输入为特征信息
Figure BDA00031383857700000814
输出采用softmax全连接层模型,模型输出为链图的分类结果:
Figure BDA00031383857700000815
其中,
Figure BDA00031383857700000816
C表示分类数目。
本实施例通过采用图神经网络架构,依次连接第一SGC网络层、第二SGC网络层和全连接层来构建网络应用识别模型,能够进一步提高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,所述根据链图生成训练数据集,通过训练数据集训练网络应用识别模型,具体为:根据训练数据集的真实网络应用类型和预测网络应用类型,采用逻辑回归损失函数构建最小化多分类损失函数;采用随机梯度下降SGD算法对最小化多分类损失函数进行预设轮数的训练,得到训练后的网络应用识别模型的模型参数。
作为示例性地,面向采用图神经网络架构构建的网络应用识别模型及其训练参数,以最小化损失函数作为目标,根据链图的训练数据集训练网络应用识别模型得到训练后的网络应用识别模型,具体过程如下:
1、设Y=R1×C表示所有链图样本的真实网络应用类型,
Figure BDA00031383857700000817
表示网络应用识别模型输出的预测网络应用类型,采用逻辑回归损失函数构建最小化多分类损失函数;
2、采用随机梯度下降SGD算法训练最小化多分类损失函数,默认设置样本批量训练大小为128,训练轮数为500,输出训练后的模型参数
Figure BDA0003138385770000091
得到训练后的网络应用识别模型。
本实施例通过利用链图的训练数据集训练网络应用识别模型,能够在进行网络应用识别的过程中考虑到网络流量的传输时序结构,实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,所述将待测试的网络流量文件输入训练后的网络应用识别模型,得到网络应用类型,具体为:将待测试的网络流量文件对应的链图输入训练后的网络应用识别模型,得到网络应用类型。
作为示例性地,将待测试的网络流量文件生成链图,抽取链图的特征信息X=[x1,...,xn]T,利用参数为
Figure BDA0003138385770000092
的网络应用识别模型计算
Figure BDA0003138385770000093
输出网络应用类型。
本实施例适合IPv4、IPv6的报文,能够支持对未遇到的IP报文序列进行分类,本实施例通过引入图神经网络架构抽取网络流量的结构化信息和原始报文信息,能有效提升应用识别的精度到90%以上。
如图4所示,第二实施例提供一种基于图神经网络的网络应用识别装置,包括:链图抽取模块21,用于分析网络流量文件中网络流量的传输时序结构,从网络流量文件中抽取出链图;模型构建模块22,用于基于图神经网络构建网络应用识别模型;其中,网络应用识别模型包括两个SGC网络层;模型训练模块23,用于根据链图生成训练数据集,通过训练数据集训练网络应用识别模型;类型识别模块24,用于将待测试的网络流量文件输入训练后的网络应用识别模型,得到网络应用类型。
本实施例通过链图抽取模块21,从网络流量文件中抽取出描述网络流量的传输时序结构的链图,并通过模型构建模块22,基于图神经网络构建网络应用识别模型,以通过模型训练模块23,利用链图的训练数据集来训练网络应用识别模型,能够实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,所述分析网络流量文件中网络流量的传输时序结构,从网络流量文件中抽取出链图,具体为:对于网络流量文件中的每一原始IP报文,以原始IP报文作为顶点,根据原始IP报文的载荷数据得到顶点的特征信息,以邻接的两个原始IP报文之间的传输时序作为边,得到顶点集合和边集合;根据顶点集合和边集合生成链图,并将网络流量文件对应的网络应用类型作为链图的标签。
其中,若缺少网络流量文件对应的网络应用类别,则设置链图的标签为空。
在本实施例的一优选实施方式中,所述根据原始IP报文的载荷数据得到顶点的特征信息,具体为:将原始IP报文的载荷数据截断或扩充为预设长度的字节向量,以字节向量作为顶点的特征信息。
其中,预设长度为1500字节。
作为示例性地,网络流量文件通常为pcap文件,包含原始IP报文信息。在获取网络流量文件后,根据网络流量文件包含的原始IP报文信息分析网络流量的传输时序结构,即对于每一原始IP报文,以原始IP报文作为顶点,根据原始IP报文的载荷数据得到顶点的特征信息,以原始IP报文的传输先后序列关系作为边,充分挖掘网络流量的结构信息,从网络流量文件中抽取出链图,具体过程如下:
1、抽取顶点集合:将网络流量文件中的每一原始IP报文作为顶点;
2、抽取顶点的特征信息:对于每一原始IP报文,保留原始IP报文的载荷数据,删除原始IP报文的其余部分,将原始IP报文剩余的载荷数据截断为长度统一的字节向量,截断阈值通常为1500字节,若原始IP报文剩余的载荷数据的长度不到1500字节,则通过填充零字节扩充为长度统一的字节向量,将字节向量作为顶点的特征信息;
3、抽取边集合:根据网络流量文件的原始IP报文件的邻接存储序列抽取顶点之间的边的集合,若两个原始IP报文在网络流量文件中为邻接关系,则在对应的两个顶点之间建立一条无向边或有向边;
4、生成链图:利用顶点集合和边集合生成一个链图,将网络流量文件对应的网络应用类型作为链图的标签,若仅有网络流量文件而缺乏网络应用类型,则将链图的标签设置为空。
本实施例通过从网络流量文件中抽取出链图,利用链图描述网络流量的传输时序结构,以便后续在进行网络应用识别的过程中考虑到网络流量的传输时序结构,实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,网络应用识别模型包括依次连接的第一SGC网络层、第二SGC网络层和全连接层。
在本实施例的一优选实施方式中,第一SGC网络层为
Figure BDA0003138385770000111
其中,
Figure BDA0003138385770000112
表示第一SGC网络层输出的n个特征信息,
Figure BDA0003138385770000113
Figure BDA0003138385770000114
A表示链图的邻接矩阵,
Figure BDA0003138385770000115
aij=1表示顶点i与顶点j邻接,aij=0表示顶点i与顶点j不邻接,I是单位矩阵,
Figure BDA0003138385770000116
表示矩阵
Figure BDA0003138385770000117
的顶点度对角矩阵,
Figure BDA0003138385770000118
X表示n个顶点的特征信息,X=[x1,...,xn]T;Θ(k)表示参数矩阵,k表示参数矩阵的索引;
第二SGC网络层为
Figure BDA0003138385770000119
其中,
Figure BDA00031383857700001110
表示第二SGC网络层输出的n个特征信息,
Figure BDA00031383857700001111
全连接层为
Figure BDA00031383857700001112
其中,
Figure BDA00031383857700001113
表示全连接层输出的网络应用类型,
Figure BDA00031383857700001114
Figure BDA00031383857700001115
C表示分类数目。
作为示例性地,采用图神经网络架构构建网络应用识别模型,聚合链图的特征表示,以通过网络应用识别模型输出识别的网络应用类型。图神经网络模型支持GCN、GAT、SGC、TAG等常见单层模型类型,采用两层SGC模型结构的图神经网络的综合精度较好。具体如下:
1、第一SGC网络层:采用单层SGC模型,模型输入n个顶点的特征信息X=[x1,...,xn]T,其中每个特征信息xi的长度为1500字节,模型输出长度为n个256字节的特征信息
Figure BDA0003138385770000121
设n代表顶点数量,
Figure BDA0003138385770000122
表示链图的邻接矩阵,aij=1表示顶点i与顶点j邻接,aij=0表示顶点i与顶点j不邻接;D表示邻接矩阵A的顶点度对角矩阵,D=diag(∑ja1j,...,∑janj),D的第i个对角元素为∑jaij,非对角元素为0;I是单位矩阵;
Figure BDA0003138385770000123
Figure BDA0003138385770000124
表示矩阵
Figure BDA0003138385770000125
的顶点度对角矩阵,
Figure BDA0003138385770000126
Figure BDA0003138385770000127
的第i个对角元素为
Figure BDA0003138385770000128
非对角元素为0;设
Figure BDA0003138385770000129
Θ(k)表示参数矩阵,k表示参数矩阵的索引;
第一SGC网络层的单层SGC模型结构表示为:
Figure BDA00031383857700001210
2、第二SGC网络层:采用与第一SGC网络层相同的单层SGC模型,模型输入为第一层的特征表示
Figure BDA00031383857700001211
模型输出长度为n个256字节的特征信息
Figure BDA00031383857700001212
第二SGC网络层的单层SGC模型结构可以表示为:
Figure BDA00031383857700001213
3、全连接层:计算特征信息
Figure BDA00031383857700001214
中n个向量的平均值
Figure BDA00031383857700001215
作为链图的整体特征信息,模型输入为特征信息
Figure BDA00031383857700001216
输出采用softmax全连接层模型,模型输出为链图的分类结果:
Figure BDA00031383857700001217
其中,
Figure BDA00031383857700001218
C表示分类数目。
本实施例通过采用图神经网络架构,依次连接第一SGC网络层、第二SGC网络层和全连接层来构建网络应用识别模型,能够进一步提高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,所述根据链图生成训练数据集,通过训练数据集训练网络应用识别模型,具体为:根据训练数据集的真实网络应用类型和预测网络应用类型,采用逻辑回归损失函数构建最小化多分类损失函数;采用随机梯度下降SGD算法对最小化多分类损失函数进行预设轮数的训练,得到训练后的网络应用识别模型的模型参数。
作为示例性地,面向采用图神经网络架构构建的网络应用识别模型及其训练参数,以最小化损失函数作为目标,根据链图的训练数据集训练网络应用识别模型得到训练后的网络应用识别模型,具体过程如下:
1、设Y=R1×C表示所有链图样本的真实网络应用类型,
Figure BDA0003138385770000131
表示网络应用识别模型输出的预测网络应用类型,采用逻辑回归损失函数构建最小化多分类损失函数;
2、采用随机梯度下降SGD算法训练最小化多分类损失函数,默认设置样本批量训练大小为128,训练轮数为500,输出训练后的模型参数
Figure BDA0003138385770000132
得到训练后的网络应用识别模型。
本实施例通过利用链图的训练数据集训练网络应用识别模型,能够在进行网络应用识别的过程中考虑到网络流量的传输时序结构,实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
在优选的实施例当中,所述将待测试的网络流量文件输入训练后的网络应用识别模型,得到网络应用类型,具体为:将待测试的网络流量文件对应的链图输入训练后的网络应用识别模型,得到网络应用类型。
作为示例性地,将待测试的网络流量文件生成链图,抽取链图的特征信息X=[x1,...,xn]T,利用参数为
Figure BDA0003138385770000133
的网络应用识别模型计算
Figure BDA0003138385770000134
输出网络应用类型。
本实施例适合IPv4、IPv6的报文,能够支持对未遇到的IP报文序列进行分类,本实施例通过引入图神经网络架构抽取网络流量的结构化信息和原始报文信息,能有效提升应用识别的精度到90%以上。
综上所述,实施本发明的实施例,具有如下有益效果:
通过分析网络流量文件中网络流量的传输时序结构,从网络流量文件中抽取出链图,基于图神经网络构建网络应用识别模型;其中,网络应用识别模型包括两个SGC网络层,根据链图生成训练数据集,通过训练数据集训练网络应用识别模型,将待测试的网络流量文件输入训练后的网络应用识别模型,得到网络应用类型,完成网络应用识别。本发明的实施例通过从网络流量文件中抽取出描述网络流量的传输时序结构的链图,并基于图神经网络构建网络应用识别模型,以通过链图的训练数据集来训练网络应用识别模型,能够实现无人工规则下的高分类精度,保证高效准确地识别网络应用类型。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (10)

1.一种基于图神经网络的网络应用识别方法,其特征在于,包括:
分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图;
基于图神经网络构建网络应用识别模型;其中,所述网络应用识别模型包括两个SGC网络层;
根据所述链图生成训练数据集,通过所述训练数据集训练所述网络应用识别模型;
将待测试的网络流量文件输入训练后的所述网络应用识别模型,得到网络应用类型。
2.如权利要求1所述的基于图神经网络的网络应用识别方法,其特征在于,所述分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图,具体为:
对于所述网络流量文件中的每一原始IP报文,以所述原始IP报文作为顶点,根据所述原始IP报文的载荷数据得到所述顶点的特征信息,以邻接的两个所述原始IP报文之间的传输时序作为边,得到顶点集合和边集合;
根据所述顶点集合和所述边集合生成所述链图,并将所述网络流量文件对应的网络应用类型作为所述链图的标签。
3.如权利要求2所述的基于图神经网络的网络应用识别方法,其特征在于,所述根据所述原始IP报文的载荷数据得到所述顶点的特征信息,具体为:
将所述原始IP报文的载荷数据截断或扩充为预设长度的字节向量,以所述字节向量作为所述顶点的特征信息。
4.如权利要求3所述的基于图神经网络的网络应用识别方法,其特征在于,所述预设长度为1500字节。
5.如权利要求2所述的基于图神经网络的网络应用识别方法,其特征在于,所述网络应用识别模型包括依次连接的第一SGC网络层、第二SGC网络层和全连接层。
6.如权利要求5所述的基于图神经网络的网络应用识别方法,其特征在于,
所述第一SGC网络层为
Figure FDA0003138385760000021
其中,
Figure FDA0003138385760000022
表示所述第一SGC网络层输出的n个特征信息,
Figure FDA0003138385760000023
Figure FDA0003138385760000024
A表示所述链图的邻接矩阵,
Figure FDA0003138385760000025
aij=1表示所述顶点i与所述顶点j邻接,aij=0表示所述顶点i与所述顶点j不邻接,I是单位矩阵,
Figure FDA0003138385760000026
表示矩阵
Figure FDA0003138385760000027
的顶点度对角矩阵,
Figure FDA0003138385760000028
X表示n个所述顶点的特征信息,X=[x1,...,xn]T;Θ(k)表示参数矩阵,k表示所述参数矩阵的索引;
所述第二SGC网络层为
Figure FDA0003138385760000029
其中,
Figure FDA00031383857600000210
表示所述第二SGC网络层输出的n个特征信息,
Figure FDA00031383857600000211
所述全连接层为
Figure FDA00031383857600000212
其中,
Figure FDA00031383857600000213
表示所述全连接层输出的网络应用类型,
Figure FDA00031383857600000214
Figure FDA00031383857600000215
C表示分类数目。
7.如权利要求1所述的基于图神经网络的网络应用识别方法,其特征在于,所述根据所述链图生成训练数据集,通过所述训练数据集训练所述网络应用识别模型,具体为:
根据所述训练数据集的真实网络应用类型和预测网络应用类型,采用逻辑回归损失函数构建最小化多分类损失函数;
采用随机梯度下降SGD算法对所述最小化多分类损失函数进行预设轮数的训练,得到训练后的所述网络应用识别模型的模型参数。
8.如权利要求1所述的基于图神经网络的网络应用识别方法,其特征在于,所述将待测试的网络流量文件输入训练后的所述网络应用识别模型,得到网络应用类型,具体为:
将所述待测试的网络流量文件对应的链图输入训练后的所述网络应用识别模型,得到所述网络应用类型。
9.一种基于图神经网络的网络应用识别装置,其特征在于,包括:
链图抽取模块,用于分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图;
模型构建模块,用于基于图神经网络构建网络应用识别模型;其中,所述网络应用识别模型包括两个SGC网络层;
模型训练模块,用于根据所述链图生成训练数据集,通过所述训练数据集训练所述网络应用识别模型;
类型识别模块,用于将待测试的网络流量文件输入训练后的所述网络应用识别模型,得到网络应用类型。
10.如权利要求9所述的基于图神经网络的网络应用识别装置,其特征在于,所述分析网络流量文件中网络流量的传输时序结构,从所述网络流量文件中抽取出链图,具体为:
对于所述网络流量文件中的每一原始IP报文,以所述原始IP报文作为顶点,根据所述原始IP报文的载荷数据得到所述顶点的特征信息,以邻接的两个所述原始IP报文之间的传输时序作为边,得到顶点集合和边集合;
根据所述顶点集合和所述边集合生成所述链图,并将所述网络流量文件对应的网络应用类型作为所述链图的标签。
CN202110730855.XA 2021-06-29 2021-06-29 一种基于图神经网络的网络应用识别方法及装置 Withdrawn CN113489606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110730855.XA CN113489606A (zh) 2021-06-29 2021-06-29 一种基于图神经网络的网络应用识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110730855.XA CN113489606A (zh) 2021-06-29 2021-06-29 一种基于图神经网络的网络应用识别方法及装置

Publications (1)

Publication Number Publication Date
CN113489606A true CN113489606A (zh) 2021-10-08

Family

ID=77936651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110730855.XA Withdrawn CN113489606A (zh) 2021-06-29 2021-06-29 一种基于图神经网络的网络应用识别方法及装置

Country Status (1)

Country Link
CN (1) CN113489606A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115442309A (zh) * 2022-09-01 2022-12-06 深圳信息职业技术学院 一种基于图神经网络的包粒度网络流量分类方法
CN116318929A (zh) * 2023-03-07 2023-06-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于安全告警数据的攻击策略抽取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115442309A (zh) * 2022-09-01 2022-12-06 深圳信息职业技术学院 一种基于图神经网络的包粒度网络流量分类方法
CN115442309B (zh) * 2022-09-01 2023-06-09 深圳信息职业技术学院 一种基于图神经网络的包粒度网络流量分类方法
CN116318929A (zh) * 2023-03-07 2023-06-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于安全告警数据的攻击策略抽取方法
CN116318929B (zh) * 2023-03-07 2023-08-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于安全告警数据的攻击策略抽取方法

Similar Documents

Publication Publication Date Title
CN111798312B (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN112291424B (zh) 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN111191767B (zh) 一种基于向量化的恶意流量攻击类型的判断方法
CN112491643B (zh) 深度报文检测方法、装置、设备及存储介质
CN113489606A (zh) 一种基于图神经网络的网络应用识别方法及装置
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN113254649B (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN111431819A (zh) 一种基于序列化的协议流特征的网络流量分类方法和装置
CN110147911A (zh) 一种基于内容感知的社交影响力预测模型及预测方法
CN114095447B (zh) 一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法
CN115357904A (zh) 一种基于程序切片和图神经网络的多类漏洞检测方法
CN114491200A (zh) 基于图神经网络的异源兴趣点匹配方法和装置
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
Yang et al. Deep learning-based reverse method of binary protocol
CN117235624B (zh) 排放数据造假检测方法、装置及系统和存储介质
CN117372144A (zh) 应用于小样本场景的风控策略智能化方法及系统
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
CN109543571B (zh) 一种面向复杂产品异形加工特征的智能识别与检索方法
CN117640794A (zh) 一种网络流划分方法和系统
CN116524522A (zh) 一种基于卷积神经网络的女书文字识别方法及系统
CN113627464B (zh) 图像处理方法、装置、设备和存储介质
CN113239272B (zh) 一种网络管控系统的意图预测方法和意图预测装置
CN116094971A (zh) 一种工控协议识别方法、装置、电子设备及存储介质
CN114615052A (zh) 一种基于知识编译的入侵检测方法及系统
CN112528662A (zh) 基于元学习的实体类别识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211008

WW01 Invention patent application withdrawn after publication