CN111901300A

CN111901300A - 一种对网络流量进行分类的方法和分类装置

Info

Publication number: CN111901300A
Application number: CN202010589844.XA
Authority: CN
Inventors: 叶志钢; 程波; 谭国权; 曾伟; 王赟
Original assignee: Wuhan Greenet Information Service Co Ltd
Current assignee: Wuhan Greenet Information Service Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-11-06
Anticipated expiration: 2040-06-24
Also published as: CN111901300B

Abstract

本发明公开了一种对网络流量进行分类的方法和分类装置，该方法包括：获取包括多个数据包的网络流量；对网络流量进行解析，得到网络流量的安全协议信息、流信息和指定数量的数据包的负载信息；对安全协议信息、流信息和指定数量的数据包的负载信息进行转换得到目标图片；基于深度学习网络对目标图片进行识别，确定网络流量所属的应用。在本发明中，获取网络流量的安全协议信息、流信息和指定数量的数据包的负载信息，对安全协议信息、流信息和指定数量的数据包的负载信息进行转换得到目标图片，采用此种方式，把网络流量转成深度学习网络可分析的格式，可以对网络流量进行分类。

Description

一种对网络流量进行分类的方法和分类装置

技术领域

本发明属于网络通信技术领域，更具体地，涉及一种对网络流量进行分类的方法和分类装置。

背景技术

随着人们的网络安全意识不断提高，在安全和隐私保护需求的驱动下，网络通信加密化已成为不可阻挡的趋势，加密网络流量呈现爆炸增长，加密流量中又几乎全是HPPTS(Hyper Text Transfer Protocol over SecureSocket Layer，简写为HPPTS)类型的加密。HTTPS的推出，原本旨在在不安全的网络上建立安全信道，通过服务器证书验证和数据包加密，使得网页基本不会被篡改，保证用户端收到的数据内容正确，这对支付类网页尤其重要，这种方式既能防止各种窃听又能防范中间人攻击。

但是流量加密是把双刃剑，在对隐私进行保护的同时，也带来诸多问题，例如，无处不在的网络黑产(爬虫、刷量、薅羊毛)，越来越多的恶意网络服务通过加密和隧道技术绕过防火墙和入侵检测系统，恐怖分子经常使用加密的通信工具等等。流量加密也使得基于流量识别的系统或产品变得不可用，例如应用路由、网络可视化管理和内容计费等等，这些产品本身并不关心数据包中所含的信息，举例而言，对于微信聊天所发送的报文，这些系统并不关心聊天内容，而仅仅想知道这是微信APP产生的报文。由于HTTPS的广泛使用，虽然保证内容安全，但是使得基于特征分析的传统流量分析方法失效。

鉴于此，克服该现有技术产品所存在的不足是本技术领域亟待解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种对网络流量进行分类的方法和分类装置，其目的在于，把网络流量转成图片，深度学习网络通过对图片的分析，可以学习到特征信息之间的关联关系，而这些特征关系有可能符合某一个应用的特征，由此可以对网络流量进行分类

为实现上述目的，按照本发明的一个方面，提供了一种对网络流量进行分类的方法，所述方法包括：

获取包括多个数据包的网络流量；

对所述网络流量进行解析，得到所述网络流量的安全协议信息、流信息和指定数量的所述数据包的负载信息；

对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片；

基于深度学习网络对所述目标图片进行识别，确定所述网络流量所属的应用。

优选地，所述基于深度学习网络对所述目标图片进行识别，确定所述网络流量所属的应用包括：

通过所述深度学习网络对所述目标图片进行识别，得出第一分类概率和第二分类概率，其中，所述第一分类概率在全部分类结果中概率值最大，所述第二分类概率仅低于所述第一分类概率；

判断所述第一分类概率与所述第二分类概率的概率差值是否大于预设的概率阈值；

若大于所述预设的概率阈值，则所述网络流量所属的应用为所述第一分类概率对应的应用。

优选地，所述基于深度学习网络对所述目标图片进行识别，确定所述网络流量所属的应用还包括：

若不大于所述预设的概率阈值，则获取所述网络流量的目的IP地址；

将所述网络流量的目的IP地址与IP地址库进行匹配；

判断在所述IP地址库中是否存在与所述网络流量的目的IP地址相同的目标IP地址；

若存在，则所述网络流量所属的应用为所述目标IP地址对应的应用。

优选地，对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片包括：

对所述安全协议信息和所述流信息进行整合，形成第一序列；

将所述数据包的负载部分的前m个字节和后n个字节形成一个负载序列；

将所述第一序列和指定数量的所述负载序列按照预设的格式进行存储，得到目标图片。

优选地，所述安全协议信息包括：加密套件列表和公钥长度；

所述流信息包括上行字节数、下行字节数、上行平均包长、下行平均包长、流持续时间、目的端口、传输协议、多个数据包的长度序列、多个数据包的时间间隔序列和多个数据包的字节分布概率序列。

优选地，所述方法还包括：

在得到所述网络流量的安全协议信息后，根据所述安全协议信息得到所述网络流量的安全证书；

基于证书特征库对所述安全证书进行匹配，确定所述网络流量所属的应用。

优选地，所述基于证书特征库对所述安全证书进行匹配，确定所述网络流量所属的应用包括：

判断所述证书特征库是否存在所述安全证书；

若存在，则判断在所述证书特征库中，所述安全证书对应的应用是否唯一；

若唯一，则所述网络流量所属的应用为所述安全证书对应的应用；

若不唯一，则采用深度学习网络对所述网络流量进行分类。

优选地，所述获取包括多个数据包的网络流量包括：

获取数据包的源IP地址、源端口地址、目的IP地址、目的端口地址和传输协议；

将源IP地址、源端口地址、目的IP地址、目的端口地址和传输协议相同的多个数据包整合为一条网络流量。

优选地，所述目标图片为无损压缩格式的图片，所述目标图片的像素大小为64*64。

为实现上述目的，按照本发明的另一个方面，提供了一种分类装置，所述分类装置包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行本发明所述的方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：本发明提供一种对网络流量进行分类的方法和分类装置，所述方法包括：获取包括多个数据包的网络流量；对所述网络流量进行解析，得到所述网络流量的安全协议信息、流信息和指定数量的所述数据包的负载信息；对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片；基于深度学习网络对所述目标图片进行识别，确定所述网络流量所属的应用。

在本发明中，获取网络流量的安全协议信息、流信息和指定数量的所述数据包的负载信息，对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片，采用此种方式，把网络流量转成深度学习网络可分析的格式，而且将一条网络流量的多个数据包的特征信息合成一张图片后，深度学习网络可以学习到特征信息之间的关联关系，而这些特征关系有可能符合某一个应用的特征，由此可以对网络流量进行分类。而且，本发明根据实际情况优化了生成图片所需要的信息以及格式，可以提高分类的准确性。

附图说明

图1是本发明实施例提供的一种对网络流量进行分类的方法的流程示意图；

图2是本发明实施例提供的另一种对网络流量进行分类的方法的流程示意图；

图3是本发明实施例提供的将网络流量转换为图片所需的数据信息示意图；

图4是本发明实施例提供的一种分类装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1：

当前流量识别的典型方法是基于IP、端口、字节特征，辅以流关联等技术，此类技术有效的前提是报文中存在人工可识别(可理解、可描述)的规律，例如，某个APP的所有通信报文，其payload的前4字节总是0xff0x00 0ff 0x00，那么payload前4字节是0xff 0x000xff 0x00就可以当做这个APP指纹。显然，对于HPPTS流量，不存在明显规律或者说不能在有限的时间内找到规律，导致无法确定流量所属的应用。为解决前述问题，本实施例提出了方法，可以基于深度学习进行流量识别。

在机器视觉领域，可以利用卷积神经网络对图像进行分类。卷积神经网络、残差网络之类的深度学习网络基于的是表示学习思想，可以从原始信息中自动提取关键信息并生成有区分性的指纹。本发明提供了一种对网络流量进行分类的方法，尤其适用于经过加密的网络流量，例如，HTTPS形式的网络流量，该方法解决了HTTPS流量占比不断增大，传统的流量分类方法失效的问题。

下面参阅图1，具体说明本实施例的对网络流量进行分类的方法，该方法具体包括如下步骤：

步骤101：获取包括多个数据包的网络流量。

在本实施例中，一条待分类的网络流量包括多个数据包，同一个网络流量所包含的数据包的五元组的值相同。其中，一条网络流量所包含的数据包的数目可以依据目标图片的像素大小而定。

具体地，针对每一个数据包，获取数据包的源IP地址、源端口地址、目的IP地址、目的端口地址和传输协议，将源IP地址、源端口地址、目的IP地址、目的端口地址和传输协议相同的多个数据包整合为一条网络流量。其中，前述的目的IP地址即为服务器IP地址。

步骤102：对所述网络流量进行解析，得到所述网络流量的安全协议信息、流信息和指定数量的所述数据包的负载信息。

其中，所述安全协议信息包括：加密套件列表和公钥长度。

其中，流信息可以理解为流统计信息，反映的是一条网络流量的流的信息。具体地，所述流信息包括上行字节数、下行字节数、上行平均包长、下行平均包长、流持续时间、目的端口、传输协议、多个数据包的长度序列、多个数据包的时间间隔序列和多个数据包的字节分布概率序列。

其中，一条网络流量中可能包含成千上万的数据包，假设把每个包的信息都提取出来，所需要的空间太大，一张图片不能存储不下如此多的信息。因此，只获取指定数量的数据包的负载信息，其中指定数量可以依据目标图片的像素大小而定，例如，指定数量为15个。在本实施例中，设定指定数量为N，可以获取前N个负载大于0的数据包的负载信息。具体地，在接收到第一个数据包后，判断数据包的负载部分是否大于0，若大于0，则获取数据包的负载信息，直至得到指定数量的数据包的负载信息。

在实际应用场景下，对于分类准确率显著有益的信息使用原始值，例如tls信息、字节数和平均包长直接用原始值；对准确率不能确定有益也不能确定无益的信息进行归一化处理，例如包的时间间隔(单位毫秒)，需在0-255之间做归一化处理，最终用一个字节保存；对准确率显著无益的信息不作为生成图片的基础信息，例如源IP地址和源端口不能做为生成图片的基础信息，因为，源IP地址和源端口对于应用来说是随机的，没有指向性。

在实际应用场景下，在接收到一个数据包后，会建立以五元组作为索引的一个哈希表，通过哈希表获取多个数据包的长度序列、多个数据包的时间间隔序列和多个数据包的字节分布概率序列。

步骤103：对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片。

其中，所述目标图片为无损压缩格式的图片，例如png格式的图片，所述目标图片的像素大小可以依据实际情况而定，例如，所述目标图片的像素大小为64*64。

在本实施例中，对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片。其中，所述安全协议信息为TLS(Transport Layer Security，简写为TLS)信息。

具体而言，对所述安全协议信息和所述流信息进行整合，形成第一序列；将指定数量的所述数据包的负载部分的前m个字节和后n个字节形成一个负载序列；将所述第一序列和多个所述负载序列按照预设的格式进行存储，得到目标图片。其中，m和n的取值可以依据目标图片的像素大小而定。

在本实施例中，一个字节信息对应一个像素信息，从而得到多个像素信息，将多个像素信息进行拼接得到像素信息序列，然后再采用函数对像素信息序列进行转换得到目标图片。

举例而言，将像素信息序列保存为图片的python代码如下：

def matrix2img(matrix,img_path):

"""将像素矩阵保存为图片"""

im＝Image.fromarray(np.uint8(matrix))#matrix如果是uint16的矩阵而不转为uint8的矩阵话，Image.fromarray这句会报错

#显示图片，默认不显示

#im.show()

im＝im.convert('RGB')

im.save(img_path)。

举例而言，目标图片的像素大小为64*64，指定数量为15，m和n的取值均为128，每个序列占用256个字节，则组成目标图片的基础信息一共4096个字节，拼接成的4096个字节的信息就对应图片64*64像素的信息。

结合图3，按照下述方式设置每个参数项所占的字节数，其中，加密套件列表占用32Byte、公钥长度占用2Bytes，上行字节数占用4Bytes、下行字节数占用4Bytes、上行平均包长2Bytes、下行平均包长占用2Bytes、流持续时间占用4Bytes、目的端口占用2Bytes、传输协议占用2Bytes(其中，TCP为00 06，UDP为00 17)，前15个数据包长度序列占用2Byte来存储、前15个数据包的时间序列(第一个数据包的时间为001B，第N个包的与第N-1个包的间隔的归一化值)、前15个数据包的字节分布概率列表中每个占比占用2Bytes，字节分布概率列表具体包括0x00-0x40的占比、0x41-0x80的占比、0x81-0Xc0的占比和0xc1-0xff的占比，每个占比值2Bytes。第一序列包含TLS信息和流信息，不够256字节的部分以0xff补齐，第2-16序列由前15个payload长度大于0的payload组成，分别取payload前128字节和后128字节组成256字节，若payload长度小于128字节，则以0xff补齐。

在实际应用场景下，也可以灵活设定目标图片的像素大小，根据目标图片的像素大小设定指定数量、m和n的取值等参数。

步骤104：基于深度学习网络对所述目标图片进行识别，确定所述网络流量所属的应用。

在本实施例中，基于深度学习网络对所述目标图片进行识别后，会输出分类结果以及相应的概率值。

在可选的实施例中，可以将概率值最大的分类结果作为输出结果，确定所述网络流量所属的应用。不过，存在最高的分类概率与次高的分类概率相差较小的情况，此时，若还是采用最高的分类概率对应的分类结果作为输出结果的话，会导致分类的准确率较低。

为解决前述分类准确率低的问题，在优选的实施例中，通过所述深度学习网络对所述目标图片进行识别，得出第一分类概率和第二分类概率，其中，所述第一分类概率在全部分类结果中概率值最大，所述第二分类概率仅低于所述第一分类概率。然后，判断所述第一分类概率与所述第二分类概率的概率差值是否大于预设的概率阈值，若大于所述预设的概率阈值，则所述网络流量所属的应用为所述第一分类概率对应的应用。其中，预设的概率阈值可以依据实际情况进行设定，例如50％，在此，不做具体限定。

在本实施例中，对于深度学习网络给出的分类结果，不能直接使用，而是比较分类前两名，如果第一名比第二名的概率高出某个概率阈值，才能把第一名当成最终结果，这样是减少误判带来的损失。其中，概率阈值可在深度学习网络的训练阶段确定，或者直接采用经验值。

在本实施例中，将一条网络流量的多个数据包的特征信息合成一张图片后，深度学习网络可以学习到特征信息之间的关联关系，而这些特征关系有可能符合某一个应用的特征，由此可以对网络流量进行分类。例如，某个应用有如下特征：第一个报文负载长度为5，第二个报文负载长度为10，第三个报文负载长度为20，第四个报文负载长度为30，如果把每个报文单独交给深度学习网络去学习，由于深度学习网络并不能学到输入与输入之间的关系，因此深度学习网络并不能学到这种长度组合(5 10 20 30)是一种特征，而将多个数据包的特征信息合成一张图片后，深度学习网络便可以学习到前述特征。

本实施例的分类方法可以应用在流量分析与控制系统，对经过的网络报文进行分析，判断其所属的应用，然后进行可视化展现、引流或者控制。

在本实施例中，获取网络流量的安全协议信息、流信息和指定数量的所述数据包的负载信息，对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片，采用此种方式，把网络流量转成深度学习网络可分析的格式，而且将一条网络流量的多个数据包的特征信息合成一张图片后，深度学习网络可以学习到特征信息之间的关联关系，而这些特征关系有可能符合某一个应用的特征，由此可以对网络流量进行分类，本发明根据实际情况优化了生成图片所需要的信息以及格式，可以提高分类的准确性。

此外，在普通深度学习网络中增加超参数，深度学习网络输出的第一名比第二名高出设定的参数值时，才直接把学习网络的输出结果当最终结果，以降低误判。

实施例2：

在实际应用场景下，网络流量中有可能会携带证书信息，通过证书信息可以确定网络流量所属的应用，通过证书信息可以确定网络流量所属的应用时，可以不通过深度学习网络进行流量的识别，提高分类的效率。

参阅图2，本实施例提供了另一种对网络流量进行分类的方法，结合实施例1，该方法的具体实现过程如下：

在本实施例中，获取到包括多个数据包的网络流量后，对所述网络流量进行解析，得到所述网络流量的安全证书，判断证书特征库是否存在所述安全证书，若存在，则网络流量所属的应用为所述安全证书对应的应用；若不存在，则采用深度学习网络进行分类。其中，证书特征库中存在安全证书和应用之间的映射关系。

在实际应用场景下，安全证书与应用之间的对应关系可能不唯一，即，一个安全证书有可能对应两个应用，此时，不能以证书特征库的匹配结果作为分类依据。在优选的实施例中，当证书特征库存在所述安全证书时，需要继续判断在所述证书特征库中，所述安全证书对应的应用是否唯一，若唯一，则所述网络流量所属的应用为所述安全证书对应的应用。

若不唯一，则采用深度学习网络对所述网络流量进行分类，将所述安全协议信息、流信息和指定数量的所述数据包的负载信息转换成目标图片，基于深度学习网络对所述目标图片进行识，并获取深度学习网络输出的分类结果以及相应的概率值。

此外，如图3所示，在本实施例中，也可以结合IP地址库进行流量的分类。若所述第一分类概率与所述第二分类概率的概率差值不大于预设的概率阈值，则获取所述网络流量的目的IP地址；将所述网络流量的目的IP地址与IP地址库进行匹配；判断在所述IP地址库中是否存在与所述网络流量的目的IP地址相同的目标IP地址；若存在，则所述网络流量所属的应用为所述目标IP地址对应的应用。若不存在，则以第一分类概率对应的应用作为网络流量对应的应用。

在本实施例中，通过证书特征库进行证书内容的匹配，以对流量进行分类，通过IP地址库进行服务器IP地址的匹配，以对流量进行分类，可以对网络流量的分类起到增强和辅助作用。

在本实施例中，可以通过深度学习网络的分类结果更新证书特征库和IP地址库。对于证书特征库中不存在的证书，可以将安全证书和对应的应用的映射关系添加至证书特征库；对于IP地址库中不存在的证书，可以将IP地址和对应的应用的映射关系添加至证书特征库。

在可选的实施例中，当通过证书特征库的匹配结果不唯一，而通过深度学习网络得到的第一分类概率和第二分类概率之间的概率差值小于预设的概率阈值时，获取通过证书特征库所得到的分类结果集，判断第一分类概率对应的应用是否存在于所述分类结果集，若存在，则以第一分类概率对应的应用作为网络流量对应的应用。

本发明获取网络流量的安全协议信息、流信息和指定数量的所述数据包的负载信息，对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片，采用此种方式，把网络流量转成深度学习网络可分析的格式，而且将一条网络流量的多个数据包的特征信息合成一张图片后，深度学习网络可以学习到特征信息之间的关联关系，而这些特征关系有可能符合某一个应用的特征，由此可以对网络流量进行分类，本发明根据实际情况优化了生成图片所需要的信息以及格式，可以提高分类的准确性。

此外，在普通深度学习网络中增加超参数，深度学习网络输出的第一名比第二名高出设定的参数值时，才直接把学习网络的输出结果当最终结果，以降低误判。而且，将证书特征库和IP地址库与深度学习网络三者结合，对网络流量的分类起到增强和辅助作用。

实施例3：

请参阅图4，图4是本发明实施例提供的一种分类装置的结构示意图。本实施例的分类装置包括一个或多个处理器41以及存储器42。其中，图4中以一个处理器41为例。

处理器41和存储器42可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器42作为一种基于方法的非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，上述实施例的方法以及对应的程序指令。处理器41通过运行存储在存储器42中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，实现前述实施例的方法。

其中，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器42可选包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至处理器41。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

值得说明的是，上述装置和系统内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(Read Only Memory，简写为ROM)、随机存取存储器(RandomAccessMemory，简写为RAM)、磁盘或光盘等。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对网络流量进行分类的方法，其特征在于，所述方法包括：

获取包括多个数据包的网络流量；

2.根据权利要求1所述的方法，其特征在于，所述基于深度学习网络对所述目标图片进行识别，确定所述网络流量所属的应用包括：

3.根据权利要求2所述的方法，其特征在于，所述基于深度学习网络对所述目标图片进行识别，确定所述网络流量所属的应用还包括：

将所述网络流量的目的IP地址与IP地址库进行匹配；

4.根据权利要求1所述的方法，其特征在于，对所述安全协议信息、流信息和指定数量的所述数据包的负载信息进行转换得到目标图片包括：

5.根据权利要求4所述的方法，其特征在于，所述安全协议信息包括：加密套件列表和公钥长度；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述基于证书特征库对所述安全证书进行匹配，确定所述网络流量所属的应用包括：

判断所述证书特征库是否存在所述安全证书；

若不唯一，则采用深度学习网络对所述网络流量进行分类。

8.根据权利要求1所述的方法，其特征在于，所述获取包括多个数据包的网络流量包括：

9.根据权利要求1所述的方法，其特征在于，所述目标图片为无损压缩格式的图片，所述目标图片的像素大小为64*64。

10.一种分类装置，其特征在于，所述分类装置包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行如权利要求1～9任一项所述的方法。