CN114338442B

CN114338442B - 一种基于特征数据和深度学习的网络流量识别方法及系统

Info

Publication number: CN114338442B
Application number: CN202111354668.2A
Authority: CN
Inventors: 赵曰峰; 王若楠
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2024-05-10
Anticipated expiration: 2041-11-16
Also published as: CN114338442A

Abstract

本发明属于互联网技术领域，提供了一种基于特征数据和深度学习的网络流量识别方法及系统，该方法包括如下步骤：获取待识别网络流量数据；对待识别网络流量数据进行预处理，得到特征数据；根据特征数据和训练好的神经网络模型进行服务类型分类，得到网络流量的服务类型；所述训练好的神经网络模型包括两层，第一层用于判断网络流量数据是否为Tor或VPN网络流量数据，第二层用于对Tor或VPN数据的网络流量数据进行分类；将网络流量的分类结果通过可视化界面展示，对网络流量的未来发展形式进行预测。

Description

一种基于特征数据和深度学习的网络流量识别方法及系统

技术领域

本发明属于互联网技术领域，尤其涉及一种基于特征数据和深度学习的网络流量识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

由于互联网流量的快速变化和网络技术的快速迭代性，传统的基于规则的方法，如深度包检测、异常端口检测，准确率低。机器学习是一种广泛应用的分类技术，因为它可以从数据集自动学习生成模型。由于网络数据流量大、结构复杂，机器学习的处理能力往往有限，普遍存在误报率高、泛化能力差、实时性差的缺点。因此，如何建立一个能够有效识别各种复杂加密流量的系统是一个迫切需要解决的问题。

现有的网络流量识别方法一方面获取的数据未进行进一步筛选得到具有代表性的特征数据，影响分类的结果，造成网络流量的类型识别错误；另一方面现有的分类模型采用的分类模型，算法复杂度高，识别效率低。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种基于特征数据和深度学习的网络流量识别方法，其在各类加密流量的识别中通过减少参数，降低计算复杂度的情况下提高了模型的识别效率和识别的准确率，同时通过可以可视化看到流量的实时分类状况和预测未来流量的可能分类结果。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于特征数据和深度学习的网络流量识别方法，包括如下步骤：

获取待识别网络流量数据；

对待识别网络流量数据进行预处理，得到特征数据；

根据特征数据和训练好的神经网络模型进行服务类型分类，得到网络流量的服务类型；所述训练好的神经网络模型包括两层，第一层用于判断网络流量数据是否为Tor或VPN网络流量数据，第二层用于对Tor或VPN数据的网络流量数据进行分类；

将网络流量的分类结果通过可视化界面展示。

本发明的第二个方面提供一种基于特征数据和深度学习的网络流量识别系统，包括：

数据获取模块，被配置为：获取待识别网络流量数据；

数据预处理模块，被配置为：对待识别网络流量数据进行预处理，得到特征数据；

分类识别模块，被配置为：根据特征数据和训练好的神经网络模型进行服务类型分类，得到网络流量的服务类型。所述训练好的神经网络模型包括两层，第一层用于判断网络流量数据是否为Tor或VPN网络流量数据，第二层用于对Tor或VPN数据的网络流量数据进行分类；

可视化模块，被配置为：将网络流量的分类结果通过可视化界面展示。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于特征数据和深度学习的网络流量识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于特征数据和深度学习的网络流量识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

对输入的流量数据进行两层分类，第一层分类用于确定输入流量是否是加密流量，第二层分类进一步对流量进行分类，识别具体是哪种服务产生的流量。本发明在各类加密流量的识别中在增加少量参数的情况下带来出色的准确率，同时通过本系统可以可视化看到流量的实时分类状况和预测未来流量的可能分类结果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明网络流量识别方法流程图；

图2是神经网络模型结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于特征数据和深度学习的网络流量识别系统，包括如下步骤：

步骤一：获取待识别网络流量数据；

步骤二：对待识别网络流量数据进行预处理，得到结构化数据；

步骤三：根据结构化数据和训练好的神经网络模型进行服务类型分类，得到网络流量的服务类型；所述训练好的神经网络模型包括两层，第一层用于判断网络流量数据是否为Tor或VPN网络流量数据，第二层用于对Tor或VPN数据的网络流量数据进行分类；

步骤四：将网络流量的分类结果通过可视化界面展示；

包括如下步骤：

读取网络流量的分类结果，提取该图像文件的轮廓图；

导入轮廓图，根据预设的分类类别将该轮廓图进行区域划分，生成对应类别的区域子轮廓图；

将每个类别的区域子轮廓图分别进行面积、尺寸可视化处理，分别生成面积可视化区域子图；

对生成的各个面积可视化区域子图进行颜色填充隐藏，生成可视化图形子图；

将生成的各个可视化图形子图组合成可视化图形。

在步骤一中，在网络通信过程中，所述待识别网络流量数据通过抓包工具抓取，例如可以采用wireshark抓包工具等。

在步骤二中，所述预处理过程包括数据清洗、数值化、归一化、结构化的一系列操作；

其中，所述的数据清洗是处理数据中不协调的部分，保证数据质量。

所述的数值化是指使用读热编码将字符编码转换成数值变量。

所述归一化是为了防止特征之间数值范围差异较大影响模型训练效果，将特征值经过归一化落在[0,1]的范围内。

所述结构化是将数据改造成满足神经网络模型输入格式化数据。

所述待识别网络流量数据包括训练数据集和测试集。

进一步地，由于同一个类型的网络流量数据具有几万条甚至几十万条，因此训练的数据集需要有代表性，本发明对预处理得到的结构化数据进一步进行了筛选。

所述训练数据在输入神经网络模型之前进行了筛选，所述训练数据集的筛选过程包括：将具有N个属性的结构化数据，一次删除一个特征项，生成一个集合，以此类推生成N-1个集合，并用这些子集作为模型的输入，将得到的每个集合进行重要性排序，得到前i个数据集作为神经网络的输入。

本发明采用一种新的方法进行特征提取，选取排名靠前的前N个特征数据集作为神经网络的输入。

所述特征数据的排名采用十折交叉验证的方法，使用真阳性率和假阳性率作为评判标准。

在步骤三中，所述神经网络模型采用一维卷积神经网络和图解通道注意力机制网络，具体的结构为：采用了两个一维卷积神经网络层，每个一维卷积神经网络层后面添加一个图解通道注意力机制网络，所述图解通道注意力机制网络包括k个相邻的通道，最后添加了一个扁平层、一个退出层和一个致密层。

本发明的ECA层使用k个相邻的通道，而不是两个完全连接的层。

通过在一层CNN模型的基础上，另加一层ECA的性能比加一层CNN参数少很多并且运算性能有很大的提升。

为了进一步提高性能，所述图解通道注意力机制网络所有通道共享权重信息，某一通道i的权重计算公式为：

其中，i表示当前通道，j表示当前通道的相邻通道，表示所有相邻通道的集合，σ表示神经元的激励函数，ω^j为该输出神经元对应的权重矩阵，ω＝σ(C1D_k(y))，其中C1D代表一维卷积，/>其中|·|_odd代表最近的奇数，γ和b分别设置为2和1。

ECA注意力通道机制考虑每个通道及其k个邻居，减少了计算量的同时获得了更高的精度。

该系统使用一维卷积神经网络作为基本分类模型，ECA放在卷积层的后面，进一步提高卷积神经网络的性能，最后加入全连接层进行预测。

所述第一层分类使用两层一维卷积神经网络，每一层网络追加在ECA注意力通道机制，将数据集中特征值为0的特征项删除，以此为特征数据进行特征选择。

所述分类结果包括聊天、E-Mail、P2P、网络电话、浏览器、文件传输、视频流、语音流等。

为了验证本发明提出的方法由于最新的分类算法，通过采用CIC-Darknet2020数据集，进行了试验，采用分类的精确率、召回率以及F1分数进行比较本实施例的算法和现有的算法，试验的结果如下：

朴素贝叶斯算法的精确率为57.36％，召回率为51.09％，F1分数为52.49％；K近邻算法的精确率为84.78％，召回率为82.73％，F1分数为82.33％；两层一维卷积神经网络算法的精确率为86.80％，召回率为86.07％，F1分数为84.94％；本实施例的算法的精确率为87.01％，召回率为86.41％，F1分数为85.34％。

通过上述实验结果对比，可以得到这一特点使得基于神经网络模型的分类模型仅用10个参数就获得了明显的提升。显然，在二进制分类中，我们的模型的性能优于最新的分类算法。

实施例二

数据获取模块，被配置为：获取待识别网络流量数据；

可视化模块，被配置为：将网络流量的分类结果通过可视化界面展示，对网络流量的未来发展形式进行预测。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于特征数据和深度学习的网络流量识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于特征数据和深度学习的网络流量识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征数据和深度学习的网络流量识别方法，其特征在于，包括如下步骤：

获取待识别网络流量数据；

对待识别网络流量数据进行预处理，得到特征数据；

将网络流量的分类结果通过可视化界面展示；

所述神经网络模型采用一维卷积神经网络和图解通道注意力机制网络，具体的结构为：采用了两个一维卷积神经网络层，每个一维卷积神经网络层后面添加一个图解通道注意力机制网络，所述图解通道注意力机制网络包括k个相邻的通道，最后添加了一个扁平层、一个退出层和一个致密层；

所述第一层采用两个一维卷积神经网络，每一个的一维卷积神经网络添加图解通道注意力机制。

2.如权利要求1所述的一种基于特征数据和深度学习的网络流量识别方法，其特征在于，所述预处理的过程包括数据清洗、数值化、归一化以及结构化。

3.如权利要求1所述的一种基于特征数据和深度学习的网络流量识别方法，其特征在于，所述待识别网络流量数据包括训练数据集和测试集，所述训练数据在输入神经网络模型之前进行了筛选，所述训练数据集的筛选过程包括：将具有N个属性的结构化数据，一次删除一个特征项，生成一个集合，以此类推生成N-1个集合，将得到的每个集合进行重要性排序，得到前M个数据集作为训练数据集。

4.如权利要求1所述的一种基于特征数据和深度学习的网络流量识别方法，其特征在于，所述将网络流量的分类结果通过可视化界面展示，包括如下步骤：

读取网络流量的分类结果，提取该分类结果的轮廓图；

将生成的各个可视化图形子图组合成可视化图形。

5.如权利要求1所述的基于特征数据和深度学习的网络流量识别方法，其特征在于，所述分类结果包括聊天、E-Mail、P2P、网络电话、浏览器、文件传输、视频流以及语音流。

6.一种基于特征数据和深度学习的网络流量识别系统，其特征在于，包括：

数据获取模块，被配置为：获取待识别网络流量数据；

分类识别模块，被配置为：根据特征数据和训练好的神经网络模型进行服务类型分类，得到网络流量的服务类型；所述训练好的神经网络模型包括两层，第一层用于判断网络流量数据是否加密，第二层用于对未加密或已解密的网络流量数据进行分类；

预测模块，被配置为：将网络流量的分类结果通过可视化界面展示，对网络流量的未来发展形式进行预测；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的一种基于特征数据和深度学习的网络流量识别方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的一种基于特征数据和深度学习的网络流量识别方法中的步骤。