CN111860628A

CN111860628A - 一种基于深度学习的流量识别与特征提取方法

Info

Publication number: CN111860628A
Application number: CN202010651188.1A
Authority: CN
Inventors: 刘畅
Original assignee: Shanghai Chengan Technology Group Co Ltd
Current assignee: Shanghai Chengan Technology Group Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-30

Abstract

本发明公开了一种基于深度学习的流量识别与特征提取方法，包括：数据包抓取，数据集建立，卷积神经网络建立，模型训练，模型自习及优化，网络数据包特征提取。本发明充分利用卷积神经网络在数据处理应用上的良好性能，设计一种兼具快速和准确的适合网络报文处理的卷积神经网络。并利用训练好的模型进行流量分类预测，把结果中预测错误和分类在正确类型下概率不足的数据包挑出来重新融入训练集训练模型，实现模型的自主优化。利用类激活映射（Class Activation Mapping）的方法，对流量进行特征提取，提取的特征字段可以使我们了解特定类型的数据包的特点，特征字段不仅可用于传统的DPI技术，亦适用于已经部署了DPI流量分类的应用场景。

Description

一种基于深度学习的流量识别与特征提取方法

技术领域

本发明涉及数据的深度学习算法技术领域，尤其涉及一种基于深度学习的流量识别与特征提取方法。

背景技术

网络流量分类是现代通讯网络中的一个重要任务，它为网络资源调配、网络入侵检测、恶意软件检测、运营商监管调控与定价等应用领域提供了判断依据与底层技术支持。同时随着SD-WAN和SRv6等技术的发展，提供个性化的网络服务以及流量工程都对流量分类技术提出了更高的要求。当今移动互联网的蓬勃发展，大量新型网络应用的出现，致使当今的网络流量呈现出了网络流量数据规模庞大、网络应用类型繁多、网络协议多样等特点。针对新型的网络特点，如何精准高效的对网络流量进行分类一直是产业界、学术界和网络监管部门广泛关注的热点问题。

目前网络流量分类主要有三种方法：基于端口的分类、基于负载的分类、基于流统计特征分类，其中最后一类方法往往与机器学习相关。基于端口分类的方法出现最早，其只需检测TCP或UDP报文头的源端口号、目的端口号，并与不同应用对应的标准端口进行比对即可知道报文所属的应用类型。标准端口号是互联网数字分配机构IANA对常见应用分配的固定端口号，例如：21端口对应FTP，22端口对应SSH，80端口对应HTTP，443端口对应HTTPS等。由于当时互联网应用较少，分配的端口号和应用一一对应，根据端口号就能方便而准确地知道流量对应的应用。但是随着互联网应用的发展，一些新的特点出现了，比如许多P2P应用会使用动态端口号，部分服务器允许手动指定端口号，恶意流量有意使用其他应用的默认端口号，或采用动态端口号，这都导致了基于端口号的分类方法准确率非常低，单纯使用基于端口的分类方法已不再适合现代网络的流量检测。基于负载分类的方法是对网络流量数据的数据包载荷进行深度包检测(Deep Packet Inspection,DPI)，在应用层内容搜索协议特征串，例如‘Bittorrent Protocol’对应Bittorrent协议，Get、Post、Delete、Ｐut、Head对应HTTP协议，220对应FTP协议等。此方法与基于端口号分类的方法类似，都是检测数据内容，与已知规律匹配。深度包检测对未被封装到其他应用层协议和未加密的流量非常可靠，往往被用于判断流量数据的真实类别。但是，目前的趋势表明，互联网上的加密流量部分正在不断增加，许多应用程序使用协议封装或混淆来规避通过过滤强制实施的网络策略。另外，由于由于隐私或性能问题，访问全部有效载荷通常是不方便的。由于新应用大量产生，面对识别特征库中不存在的未知流量，深度包检测也无从判断。因此，基于负载分类的DPI技术也日渐不能满足现今网络流量分类的要求。

基于流统计特征分类的方法通常用到机器学习算法，是近年来的研宄热点。流指网络流，其定义是具有相同五元组的连续数据包。统计特征从包头提取，可用于负载加密的流量分类，能保护用户隐私、分类未知协议。常见的流统计特征有数据包数量、传输方向、数据包长度、数据包到达时间间隔等。流统计特征数量很大，如Moore数据集由248个流统计特征组成，无法事先确定能根据某个或某几个特征准确判断网络流类别，不能像前两种分类方法一样进行简单的查找与对比。利用机器学习算法的分类方法还面临难以获得同时适用于多个应用的流特征集、时空跨越性较差、结果精度过于依赖特征选取环节等挑战。

自2012年Hinton课题组通过构卷积神经网络AlexNet从而证明了深度学习的巨大潜力后，对于深度学习的研究呈爆发式增长。随着近几年计算机性能的大幅增长，数据获取效率的迅速提高，深度学习的实现变得更加简单，在图像处理、语音识别、数据挖掘、自然语言处理等领域都得到了大量应用。深度学习具有更多的网络层和更强大的复杂函数拟合函数。当数据集比较大时，深度学习算法较机器学习算法有明显的优势。面对大数据集时，深度学习算法可以更容易的进行数据扩展，对数据进行充分利用，以达到更高的分类精度；相对的，机器学习属于浅层模型，计算能力有限，想要提高模型分类精度往往需要更加复杂的方法，简单的增加数据量很难达到效果。深度学习算法不需要人工进行特征选择、提取；同时深度学习适应性强，易于迁移。

深度学习技术也被初步运用于网络流量分类的场合，把网络数据包预处理后建立数据集，使用CNN、LSTM等神经网络进行训练后可以得到能够进行流量分类的模型，从而实现流量分类。但是目前还有一些问题没有得到解决：1、在分类数比较多的数据集上的分类精度有待提高；2、模型是用事先准备好的数据集训练的，在实际应用中难以根据新产生的数据包优化模型；3、深度学习应用在流量分类问题上的可解释性比较差，训练好的神经网络模型仅可以进行流量分类，浪费了模型内部丰富的信息。

发明内容

本发明提供的一种技术方案是一种基于深度学习的流量识别与特征提取方法，针对现有各类流量分类技术存在的局限，提出一种改进的、可以自主学习优化、基于深度学习技术的流量分类方法。

本发明的技术的具体步骤包括：

步骤1：数据包的抓取：

使用进程抓包工具openQPA进行抓包，每个进程产生的数据包都保存在单独的pcap文件中，也针对一些应用的特点，把单个应用的数据包进一步分开。比如把微信数据包，分成微信聊天数据包、微信图片数据包、微信视频通话数据包等，提供颗粒度更细的分类。

适当预处理网络数据包，建立网络数据包分类的数据集。由于卷积神经网络具有的局部感受野、权值共享、次采样使得它在具有自动高层次特提取能力的同时尽量减小了计算开销。

步骤2：数据集的建立

Scapy库是开源的网络流量包解析库，使用Scapy库对pcap文件进行处理，移除头部的MAC地址和IP地址等信息。这些信息与数据包的应用类型无关，属于干扰信息，故要一般要去除。但是如果有基于IP地址过滤数据包的需求，则无需去除这部分。为了节省计算资源，把剩下的数据包以字节为单位转换成16*16的矩阵的形式，多余的数据丢弃不用，如果数据不够用0x00补齐。虽然这样会丢失部分信息，但这是一种折中的策略，事实证明这样的处理方式几乎不影响分类的准确性，同时可以显著地提高训练和预测时候的速度。最后用uint8的格式把数据包组成的矩阵存在numpy数组中并打乱顺序，保存为numpy数据文件，供后面模型训练读取，同时建立对应的标签数据集，这里总供使用了18类数据包，故标签值为0~17。数据集分为训练集和测试集，比例为9:1。

步骤3：卷积神经网络的建立

使用三次卷积层，对于前两个卷积层，卷积核的尺寸均为3*3，非线性激活函数均使用RELU；第一层卷积层设置12个卷积核，第二层卷积层设置24个卷积核，在第一层卷积层后面设置一个2*2的最大池化层。第三层卷积层设计为384个1*1卷积核，使用sigmoid激活函数，选择较小的卷积核可以防止后面层的输入尺寸过小，以免影响特征提取的精度。然后使用一个全局平均池化层和一个含有18个神经元的全连接层作为输出层，对应于18个分类。该模型结构轻量化，经测试适合网络数据包处理之用，计算速度快。

步骤4：模型的训练

使用GPU硬件进行训练，合理调整初始学习率，并且每隔5个epoch下调一次学习率，使用NAG算法在训练集上进行训练，训练的时候不使用测试集，训练准确率达到一定的程度的时候终止训练。

步骤5：调用模型预测并充实训练集以实现自我学习和模型优化

流量的预测过程是利用神经网络模型正向传播实现的，在测试集中挑选一个网络数据包给模型输入，经过正向传播，在输出层可以得到一个1*18的向量，经过Softmax函数归一化之后就得到了该数据包分别归属于每个类的预测概率，最大概率对应的类别就是该数据包的预测结果。一般来说，数据包归属于其应用类别的的预测概率通常在90%以上，实现良好的预测。但是也有一些数据包属于几个类别的概率都比较高甚至在其所属类别未能取得最大概率，这样的数据包就是预测效果不良以及预测错误的数据包。把这样的数据包增加进训练集，同时适当调整原来训练集的样本，每隔一段时间再重新训练模型，得到新的模型后再预测并获取预测不良以及预测错误的数据包……如此不断循环，模型就得到了自我更新。

因此，在训练集上使用模型进行数据包分类预测，得到一个数据包分类在各类型下的概率，如果最大概率不在该数据包的种类之下，则为分类错误，把该数据包挑出来放在训练集内；如果分类正确但是该最大概率低于50%或者排名前三概率值比较接近的时候，视为该数据包分类不良，把该数据包也增加到训练集内。使用更新的训练集进行训练，如此往复，模型能够得到了不断的优化。

步骤6：网络数据包特征提取

数据包的特征提取用到了类激活映射的概念，类激活图可视化是指对输入图像生成类激活的热力图, 表示每个位置对该类别的重要程度. 有助于了解一张图片的那个部分使得卷积神经网络做出最终的决策，还可以定位图像中特定的目标。具体说来就是利用网络中的全局平均池化层的权重对最后一个卷积层的特征图进行加权求和即可得到类激活图，该图中值较大的区域就是网络数据包分类时神经网络的主要关注点和判断依据，我们可以将这样区域中的数据作为该类数据包的特征字段取出，进行进一步的协议分析。

由于卷积神经网络的最后一层使用全局平均池化（Global Average Pooling，GAP），使用类激活映射计算出根据最后全连接层的权重加权的特征图集叠加而成的一个特征图，这时候权重就代表了每个特征图对于最后分类结果的贡献程度。选取该加权算出的特征图中值最高的区域即得该数据包的特征字段，也就是该神经网络最关心的区域。因此，该特征字段也可以用于传统的DPI技术，可以用来方便地建立传统DPI的特征库，特别用于已经部署DPI技术的场合。

本发明的优点是：充分利用卷积神经网络在数据处理应用上的良好性能，设计一种兼具快速和准确的适合网络报文处理的卷积神经网络。并利用训练好的模型进行流量分类预测，把结果中预测错误和分类在正确类型下概率不足的数据包挑出来重新融入训练集训练模型，实现模型的自主优化。利用类激活映射（Class Activation Mapping）的方法，对流量进行特征提取，提取的特征字段可以使我们了解特定类型的数据包的特点，特征字段不仅可用于传统的DPI技术，亦适用于已经部署了DPI流量分类的应用场景。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为基于深度学习的流量识别与特征提取方法的实施流程图；

图2为处理好的网络数据包的可视化图；

图3为本方法所用的卷积神经网络的结构；

图4为测试集中各类型的数据包识别准确率统计图；

图5为模型预测效果的混淆矩阵图；

图6为用类激活映射计算方法来提取网络数据包特征的示意图。

具体实施方式

实施例

步骤1：数据包的抓取：

步骤2：数据集的建立

Scapy库是开源的网络流量包解析库，使用Scapy库对pcap文件进行处理，移除头部的MAC地址和IP地址等信息。这些信息与数据包的应用类型无关，属于干扰信息，故要一般要去除。但是如果有基于IP地址过滤数据包的需求，则无需去除这部分。为了节省计算资源，把剩下的数据包以字节为单位转换成16*16的矩阵的形式，超过256Byte的多余的数据丢弃不用，如果数据不够用0x00补齐。如图2所示，每类数据包随机抽取一个进行展示，可视化为灰度图，每一个像素是8bit，正好是数据包中的一个字节。这样的矩阵是直接输入神经网络进行训练和预测的。

虽然多余的数据丢弃不用会丢失部分信息，但这是一种折中的策略，事实证明这样的处理方式几乎不影响分类的准确性，同时可以显著地提高训练和预测时候的速度。最后用uint8的格式把数据包组成的矩阵存在numpy数组中并打乱顺序，保存为numpy数据文件，供后面模型训练读取，同时建立对应的标签数据集，这里总供使用了18类数据包，故标签值为0~17。数据集分为训练集和测试集，比例为9:1。

步骤3：卷积神经网络的建立

如图3所示，该结构包含三层卷积层，一层最大池化层，一层全局平局池化层和一层全连接层，可兼顾数据包分类和基于类激活映射的特征提取算法，结构轻巧简单，计算开销小，便于训练和部署。

步骤4：模型的训练

如图4所示，流量的预测过程是利用神经网络模型正向传播实现的，在测试集中挑选一个网络数据包给模型输入，经过正向传播，在输出层可以得到一个1*18的向量，经过Softmax函数归一化之后就得到了该数据包分别归属于每个类的预测概率，最大概率对应的类别就是该数据包的预测结果。一般来说，数据包归属于其应用类别的的预测概率通常在90%以上，实现良好的预测。如图5所示，该矩阵说明了每类测试数据包（每类数量均为500个）在预测时的详细结果，如果预测正确，Predict Class应该和Aactual Class重合，也就是数据应该落在混淆矩阵的对角线上，从图中可以看出绝大多数的样本都落在了对角线上。

但是也有一些数据包属于几个类别的概率都比较高甚至在其所属类别未能取得最大概率，这样的数据包就是预测效果不良以及预测错误的数据包，如图5中，只有少数样本预测错误。把这样的数据包增加进训练集，同时适当调整原来训练集的样本，每隔一段时间再重新训练模型，得到新的模型后再预测并获取预测不良以及预测错误的数据包……如此不断循环，模型就得到了自我更新。

步骤6：网络数据包特征提取

利用网络中的全局平均池化层的权重对最后一个卷积层的特征图进行加权求和即可得到类激活图，该图中值较大的区域就是网络数据包分类时神经网络的主要关注点和判断依据，我们可以将这样区域中的数据作为该类数据包的特征字段取出，进行进一步的协议分析，也可以用这些特征字段建立特征库，应用在传统DPI的场合。

如图6所示，图中背景的矩阵可视化代表一个网络数据包（此处为foxmail的接收的邮件数据包为例），等高线绘制出了利用类激活映射在foxmail类别下计算出了类激活图，数值高的区域就是本例卷积神经网络最感兴趣的区域，如图中方框圈出的区域，获取该区域内的数据即完成了特征提取。

综上，本方案中使用的卷积神经网络对18类流量包进行了分类，例如，类型分别为Windows远程桌面'win_remote'、SAMBA文件传输 'samba'、HTTP网页'http'、QQ视频通话'qq_videocall'、微信聊天 'wechat'、百度网盘下载'baidudisk'、QQ聊天 'OICQ'、BitTorrent下载'bittorrent3'、Foxmail邮箱客户端'foxmail_pop'、FTP数据传输'ftp_data'、迅雷下载'thunder'、AnyDesk远程桌面'anydesk'、TeamViewer远程桌面'teamviewer'、Office365网页版'office365'、微信企业版'wxwork'、微信ACK握手包'wechat_ACK'、微信图片传输'wechat_pic'、微信视频通话'wechat_voicecall'。

实际分类效果总体准确率超过98%，如图4所示。同时由于本例中的卷积神经网络结构较为简洁、网络数据包预处理方式合理，其训练过程中准确率上升较快，计算开销小。

此外，在预测的时候选出预测不良和预测错误的样本加入训练集，再定期往复训练的机制，使得网络识别的卷积神经网络模型具备了一定的自我更新、自我学习的能力，辅以进程抓包等方式更新的数据集，使得模型可以不断适应新的识别需求，更好地服务于发展迅速的各类互联网业务。

最后，在网络数据包识别的卷积神经网络中引入全局平均池化层配合类激活映射算法，使得网络数据包特征提取变得方便不少，有助于快速建立特征库，服务于DPI应用场景。DPI技术也可以反过来帮助深度学习流量识别模型的优化，可以帮助建立和更新数据集。特征提取在恶意流量、恶意代码的识别和防控等领域也有重要的作用。

本发明实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明的。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明的所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于深度学习的流量识别与特征提取方法，其特征在于：包括；

数据包抓取，利用进程抓包工具将每个进程产生的数据包保存在单独且对应的pcap文件中；

数据集建立，利用网络流量包解析库对所述pcap文件处理并移除pcap文件头部的MAC地址和IP地址，把pcap文件中多个类别的数据包以字节为单位转换成矩阵的形式，并将该矩阵存于numpy数组中打乱顺序后保存为numpy数据文件；对该numpy数据文件建立对应的标签数据集；

卷积神经网络建立，使用三次卷积层，第一卷积层设置2*2的最大池化层；第二卷积层后使用一个全局平均池化层，第三卷积层使用一个含有多类神经元的全连接层作为输出层；第一及第二卷积层的非线性激活函数使用RELU函数；第三卷积层采用sigmoid激活函数；

模型训练，使用硬件进行训练，每隔5个epoch下调一次学习率，使用NAG算法在训练集上进行训练，训练时不使用测试集，训练准确率达到预设标准时终止训练；

模型自习及优化，在测试集中挑选数据包给模型输入，经过正向传播，在输出层可以得到一个向量，经过Softmax函数归一化之后就得到了该数据包分别归属于每个类别的预测概率，其中最大概率对应的类别就是对应数据包的预测结果；若数据包未能在其对应的类别中去的最大概率，则将该数据包加入训练集中重新训练模型，得到的新模型再次自习及优化；

网络数据包特征提取，利用卷积神经网络中的全局平均池化层的权重对最后一个卷积层的特征图进行加权求和得到类激活图，将该类激活图中加权求和值较大的区域数据作为该类数据包的特征字段取出。

2.根据权利要求1所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：数据集建立时，把pcap文件内的18个类别的数据包以字节为单位转换成16*16的矩阵形式，如果数据不够用0x00补齐。

3.根据权利要求2所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：数据集建立时，将16*16矩阵，用uint8的格式把数据包组成的矩阵存余numpy数组中并打乱顺序，保存为numpy数据文件。

4.根据权利要求1所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：所述第一卷积层和第二卷积层的卷积核的尺寸均为3*3；第一层卷积层设置12个卷积核，第二层卷积层设置24个卷积核；第三层卷积层设计为384个1*1卷积核。

5.根据权利要求1所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：模型自习及优化时，输出层得到的向量规格为1*18。

6.根据权利要求2所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：换成16*16矩阵形式的数据包，超过256byte的多余数据丢弃不用，如果数据不够用0x00补齐。

7.根据权利要求1所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：在数据包抓取时采用openQPA进程抓包工具进行抓包。

8.根据权利要求1所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：在数据集建立时，使用Scapy库对pcap文件进行处理。

9.根据权利要求6所述的一种基于深度学习的流量识别与特征提取方法，其特征在于：在模型训练时，采用GPU硬件进行训练。