CN113489606A

CN113489606A - 一种基于图神经网络的网络应用识别方法及装置

Info

Publication number: CN113489606A
Application number: CN202110730855.XA
Authority: CN
Inventors: 逄博; 符永铨; 任思远; 王晔; 廖清; 贾焰
Original assignee: Shenzhen Graduate School Harbin Institute of Technology; Peng Cheng Laboratory
Current assignee: Shenzhen Graduate School Harbin Institute of Technology; Peng Cheng Laboratory
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-10-08

Abstract

本发明公开了一种基于图神经网络的网络应用识别方法及装置。所述基于图神经网络的网络应用识别方法，包括：分析网络流量文件中网络流量的传输时序结构，从所述网络流量文件中抽取出链图；基于图神经网络构建网络应用识别模型；其中，所述网络应用识别模型包括两个SGC网络层；根据所述链图生成训练数据集，通过所述训练数据集训练所述网络应用识别模型；将待测试的网络流量文件输入训练后的所述网络应用识别模型，得到网络应用类型。本发明能够实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

Description

一种基于图神经网络的网络应用识别方法及装置

技术领域

本发明涉及网络通信技术领域，尤其涉及一种基于图神经网络的网络应用识别方法及装置。

背景技术

从网络流量识别出网络应用类型是网络安全和网络管理领域中的重要需求，是进行服务质量控制，异常检测，网络计费的基础。

传统的网络应用识别方法主要包括基于端口的网络应用识别方法、基于深度包检测的网络应用识别方法、基于统计机器学习的网络应用识别方法和基于深度学习的网络应用识别方法等。随着网络应用的不断发展，传统的网络应用识别方法面临分类规则过时、人工特征提取费时的问题，而基于深度学习的网络应用识别方法尽管通过原始数据缓解了人工特征提取的不足，但却忽略了网络流量的时序结构信息，分类精度较低，难以保证高效准确地识别网络应用类型。

发明内容

为克服现有技术的缺陷，本发明提供一种基于图神经网络的网络应用识别方法及装置，能够实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

为了解决上述技术问题，第一方面，本发明一实施例提供一种基于图神经网络的网络应用识别方法，包括：

分析网络流量文件中网络流量的传输时序结构，从所述网络流量文件中抽取出链图；

基于图神经网络构建网络应用识别模型；其中，所述网络应用识别模型包括两个SGC网络层；

根据所述链图生成训练数据集，通过所述训练数据集训练所述网络应用识别模型；

将待测试的网络流量文件输入训练后的所述网络应用识别模型，得到网络应用类型。

进一步地，所述分析网络流量文件中网络流量的传输时序结构，从所述网络流量文件中抽取出链图，具体为：

对于所述网络流量文件中的每一原始IP报文，以所述原始IP报文作为顶点，根据所述原始IP报文的载荷数据得到所述顶点的特征信息，以邻接的两个所述原始IP报文之间的传输时序作为边，得到顶点集合和边集合；

根据所述顶点集合和所述边集合生成所述链图，并将所述网络流量文件对应的网络应用类型作为所述链图的标签。

进一步地，所述根据所述原始IP报文的载荷数据得到所述顶点的特征信息，具体为：

将所述原始IP报文的载荷数据截断或扩充为预设长度的字节向量，以所述字节向量作为所述顶点的特征信息。

进一步地，所述预设长度为1500字节。

进一步地，所述网络应用识别模型包括依次连接的第一SGC网络层、第二SGC网络层和全连接层。

进一步地，所述第一SGC网络层为

其中，

表示所述第一SGC网络层输出的n个特征信息，

A表示所述链图的邻接矩阵，

a_ij＝1表示所述顶点i与所述顶点j邻接，a_ij＝0表示所述顶点i与所述顶点j不邻接，I是单位矩阵，

表示矩阵

的顶点度对角矩阵，

X表示n个所述顶点的特征信息，X＝[x₁,...,x_n]^T；Θ^(k)表示参数矩阵，k表示所述参数矩阵的索引；

所述第二SGC网络层为

其中，

表示所述第二SGC网络层输出的n个特征信息，

所述全连接层为

其中，

表示所述全连接层输出的网络应用类型，

C表示分类数目。

进一步地，所述根据所述链图生成训练数据集，通过所述训练数据集训练所述网络应用识别模型，具体为：

根据所述训练数据集的真实网络应用类型和预测网络应用类型，采用逻辑回归损失函数构建最小化多分类损失函数；

采用随机梯度下降SGD算法对所述最小化多分类损失函数进行预设轮数的训练，得到训练后的所述网络应用识别模型的模型参数。

进一步地，所述将待测试的网络流量文件输入训练后的所述网络应用识别模型，得到网络应用类型，具体为：

将所述待测试的网络流量文件对应的链图输入训练后的所述网络应用识别模型，得到所述网络应用类型。

第二方面，本发明一实施例提供一种基于图神经网络的网络应用识别装置，包括：

链图抽取模块，用于分析网络流量文件中网络流量的传输时序结构，从所述网络流量文件中抽取出链图；

模型构建模块，用于基于图神经网络构建网络应用识别模型；其中，所述网络应用识别模型包括两个SGC网络层；

模型训练模块，用于根据所述链图生成训练数据集，通过所述训练数据集训练所述网络应用识别模型；

类型识别模块，用于将待测试的网络流量文件输入训练后的所述网络应用识别模型，得到网络应用类型。

本发明的实施例，具有如下有益效果：

通过分析网络流量文件中网络流量的传输时序结构，从网络流量文件中抽取出链图，基于图神经网络构建网络应用识别模型；其中，网络应用识别模型包括两个SGC网络层，根据链图生成训练数据集，通过训练数据集训练网络应用识别模型，将待测试的网络流量文件输入训练后的网络应用识别模型，得到网络应用类型，完成网络应用识别。相比于现有技术，本发明的实施例通过从网络流量文件中抽取出描述网络流量的传输时序结构的链图，并基于图神经网络构建网络应用识别模型，以通过链图的训练数据集来训练网络应用识别模型，能够实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

附图说明

图1为本发明第一实施例中的一种基于图神经网络的网络应用识别方法的流程示意图；

图2为本发明第一实施例中的链图的结构示意图；

图3为本发明第一实施例中的网络应用识别模型的结构示意图图；

图4为本发明第二实施例中的一种基于图神经网络的网络应用识别装置的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。

第一实施例：

如图1所示，第一实施例提供一种基于图神经网络的网络应用识别方法，包括步骤S1～S4：

S1、分析网络流量文件中网络流量的传输时序结构，从网络流量文件中抽取出链图；

S2、基于图神经网络构建网络应用识别模型；其中，网络应用识别模型包括两个SGC网络层；

S3、根据链图生成训练数据集，通过训练数据集训练网络应用识别模型；

S4、将待测试的网络流量文件输入训练后的网络应用识别模型，得到网络应用类型。

本实施例通过从网络流量文件中抽取出描述网络流量的传输时序结构的链图，并基于图神经网络构建网络应用识别模型，以通过链图的训练数据集来训练网络应用识别模型，能够实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

在优选的实施例当中，所述分析网络流量文件中网络流量的传输时序结构，从网络流量文件中抽取出链图，具体为：对于网络流量文件中的每一原始IP报文，以原始IP报文作为顶点，根据原始IP报文的载荷数据得到顶点的特征信息，以邻接的两个原始IP报文之间的传输时序作为边，得到顶点集合和边集合；根据顶点集合和边集合生成链图，并将网络流量文件对应的网络应用类型作为链图的标签。

其中，若缺少网络流量文件对应的网络应用类别，则设置链图的标签为空。

在本实施例的一优选实施方式中，所述根据原始IP报文的载荷数据得到顶点的特征信息，具体为：将原始IP报文的载荷数据截断或扩充为预设长度的字节向量，以字节向量作为顶点的特征信息。

其中，预设长度为1500字节。

作为示例性地，网络流量文件通常为pcap文件，包含原始IP报文信息。在获取网络流量文件后，根据网络流量文件包含的原始IP报文信息分析网络流量的传输时序结构，即对于每一原始IP报文，以原始IP报文作为顶点，根据原始IP报文的载荷数据得到顶点的特征信息，以原始IP报文的传输先后序列关系作为边，充分挖掘网络流量的结构信息，从网络流量文件中抽取出链图，具体过程如下：

1、抽取顶点集合：将网络流量文件中的每一原始IP报文作为顶点；

2、抽取顶点的特征信息：对于每一原始IP报文，保留原始IP报文的载荷数据，删除原始IP报文的其余部分，将原始IP报文剩余的载荷数据截断为长度统一的字节向量，截断阈值通常为1500字节，若原始IP报文剩余的载荷数据的长度不到1500字节，则通过填充零字节扩充为长度统一的字节向量，将字节向量作为顶点的特征信息；

3、抽取边集合：根据网络流量文件的原始IP报文件的邻接存储序列抽取顶点之间的边的集合，若两个原始IP报文在网络流量文件中为邻接关系，则在对应的两个顶点之间建立一条无向边或有向边；

4、生成链图：利用顶点集合和边集合生成一个链图，将网络流量文件对应的网络应用类型作为链图的标签，若仅有网络流量文件而缺乏网络应用类型，则将链图的标签设置为空。链图的结构如图2所示。

本实施例通过从网络流量文件中抽取出链图，利用链图描述网络流量的传输时序结构，以便后续在进行网络应用识别的过程中考虑到网络流量的传输时序结构，实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

在优选的实施例当中，网络应用识别模型包括依次连接的第一SGC网络层、第二SGC网络层和全连接层。

在本实施例的一优选实施方式中，第一SGC网络层为

其中，

表示第一SGC网络层输出的n个特征信息，

A表示链图的邻接矩阵，

a_ij＝1表示顶点i与顶点j邻接，a_ij＝0表示顶点i与顶点j不邻接，I是单位矩阵，

表示矩阵

的顶点度对角矩阵，

X表示n个顶点的特征信息，X＝[x₁,...,x_n]^T；Θ^(k)表示参数矩阵，k表示参数矩阵的索引；

第二SGC网络层为

其中，

表示第二SGC网络层输出的n个特征信息，

全连接层为

其中，

表示全连接层输出的网络应用类型，

C表示分类数目。

作为示例性地，采用图神经网络架构构建网络应用识别模型，聚合链图的特征表示，以通过网络应用识别模型输出识别的网络应用类型。图神经网络模型支持GCN、GAT、SGC、TAG等常见单层模型类型，采用两层SGC模型结构的图神经网络的综合精度较好。网络应用识别模型的结构如图3所示，具体如下：

1、第一SGC网络层：采用单层SGC模型，模型输入n个顶点的特征信息X＝[x₁,...,x_n]^T，其中每个特征信息x_i的长度为1500字节，模型输出长度为n个256字节的特征信息

设n代表顶点数量，

表示链图的邻接矩阵，a_ij＝1表示顶点i与顶点j邻接，a_ij＝0表示顶点i与顶点j不邻接；D表示邻接矩阵A的顶点度对角矩阵，D＝diag(∑_ja_1j,...,∑_ja_nj)，D的第i个对角元素为∑_ja_ij，非对角元素为0；I是单位矩阵；

设

表示矩阵

的顶点度对角矩阵，

的第i个对角元素为

非对角元素为0；设

Θ^(k)表示参数矩阵，k表示参数矩阵的索引；

第一SGC网络层的单层SGC模型结构表示为：

2、第二SGC网络层：采用与第一SGC网络层相同的单层SGC模型，模型输入为第一层的特征表示

模型输出长度为n个256字节的特征信息

第二SGC网络层的单层SGC模型结构可以表示为：

3、全连接层：计算特征信息

中n个向量的平均值

作为链图的整体特征信息，模型输入为特征信息

输出采用softmax全连接层模型，模型输出为链图的分类结果：

其中，

C表示分类数目。

本实施例通过采用图神经网络架构，依次连接第一SGC网络层、第二SGC网络层和全连接层来构建网络应用识别模型，能够进一步提高分类精度，保证高效准确地识别网络应用类型。

在优选的实施例当中，所述根据链图生成训练数据集，通过训练数据集训练网络应用识别模型，具体为：根据训练数据集的真实网络应用类型和预测网络应用类型，采用逻辑回归损失函数构建最小化多分类损失函数；采用随机梯度下降SGD算法对最小化多分类损失函数进行预设轮数的训练，得到训练后的网络应用识别模型的模型参数。

作为示例性地，面向采用图神经网络架构构建的网络应用识别模型及其训练参数，以最小化损失函数作为目标，根据链图的训练数据集训练网络应用识别模型得到训练后的网络应用识别模型，具体过程如下：

1、设Y＝R^1×C表示所有链图样本的真实网络应用类型，

表示网络应用识别模型输出的预测网络应用类型，采用逻辑回归损失函数构建最小化多分类损失函数；

2、采用随机梯度下降SGD算法训练最小化多分类损失函数，默认设置样本批量训练大小为128，训练轮数为500，输出训练后的模型参数

得到训练后的网络应用识别模型。

本实施例通过利用链图的训练数据集训练网络应用识别模型，能够在进行网络应用识别的过程中考虑到网络流量的传输时序结构，实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

在优选的实施例当中，所述将待测试的网络流量文件输入训练后的网络应用识别模型，得到网络应用类型，具体为：将待测试的网络流量文件对应的链图输入训练后的网络应用识别模型，得到网络应用类型。

作为示例性地，将待测试的网络流量文件生成链图，抽取链图的特征信息X＝[x₁,...,x_n]^T，利用参数为

的网络应用识别模型计算

输出网络应用类型。

本实施例适合IPv4、IPv6的报文，能够支持对未遇到的IP报文序列进行分类，本实施例通过引入图神经网络架构抽取网络流量的结构化信息和原始报文信息，能有效提升应用识别的精度到90％以上。

如图4所示，第二实施例提供一种基于图神经网络的网络应用识别装置，包括：链图抽取模块21，用于分析网络流量文件中网络流量的传输时序结构，从网络流量文件中抽取出链图；模型构建模块22，用于基于图神经网络构建网络应用识别模型；其中，网络应用识别模型包括两个SGC网络层；模型训练模块23，用于根据链图生成训练数据集，通过训练数据集训练网络应用识别模型；类型识别模块24，用于将待测试的网络流量文件输入训练后的网络应用识别模型，得到网络应用类型。

本实施例通过链图抽取模块21，从网络流量文件中抽取出描述网络流量的传输时序结构的链图，并通过模型构建模块22，基于图神经网络构建网络应用识别模型，以通过模型训练模块23，利用链图的训练数据集来训练网络应用识别模型，能够实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

其中，预设长度为1500字节。

4、生成链图：利用顶点集合和边集合生成一个链图，将网络流量文件对应的网络应用类型作为链图的标签，若仅有网络流量文件而缺乏网络应用类型，则将链图的标签设置为空。

在本实施例的一优选实施方式中，第一SGC网络层为

其中，

表示第一SGC网络层输出的n个特征信息，

A表示链图的邻接矩阵，

表示矩阵

的顶点度对角矩阵，

第二SGC网络层为

其中，

表示第二SGC网络层输出的n个特征信息，

全连接层为

其中，

表示全连接层输出的网络应用类型，

C表示分类数目。

作为示例性地，采用图神经网络架构构建网络应用识别模型，聚合链图的特征表示，以通过网络应用识别模型输出识别的网络应用类型。图神经网络模型支持GCN、GAT、SGC、TAG等常见单层模型类型，采用两层SGC模型结构的图神经网络的综合精度较好。具体如下：

设n代表顶点数量，

设

表示矩阵

的顶点度对角矩阵，

的第i个对角元素为

非对角元素为0；设

Θ^(k)表示参数矩阵，k表示参数矩阵的索引；

第一SGC网络层的单层SGC模型结构表示为：

模型输出长度为n个256字节的特征信息

第二SGC网络层的单层SGC模型结构可以表示为：

3、全连接层：计算特征信息

中n个向量的平均值

作为链图的整体特征信息，模型输入为特征信息

输出采用softmax全连接层模型，模型输出为链图的分类结果：

其中，

C表示分类数目。

1、设Y＝R^1×C表示所有链图样本的真实网络应用类型，

得到训练后的网络应用识别模型。

的网络应用识别模型计算

输出网络应用类型。

综上所述，实施本发明的实施例，具有如下有益效果：

通过分析网络流量文件中网络流量的传输时序结构，从网络流量文件中抽取出链图，基于图神经网络构建网络应用识别模型；其中，网络应用识别模型包括两个SGC网络层，根据链图生成训练数据集，通过训练数据集训练网络应用识别模型，将待测试的网络流量文件输入训练后的网络应用识别模型，得到网络应用类型，完成网络应用识别。本发明的实施例通过从网络流量文件中抽取出描述网络流量的传输时序结构的链图，并基于图神经网络构建网络应用识别模型，以通过链图的训练数据集来训练网络应用识别模型，能够实现无人工规则下的高分类精度，保证高效准确地识别网络应用类型。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。