CN115314240A

CN115314240A - 面向加密异常流量识别的数据处理方法

Info

Publication number: CN115314240A
Application number: CN202210712853.2A
Authority: CN
Inventors: 吕志泉; 楼书逸; 文静; 韩志辉; 严寒冰; 周昊; 饶毓; 贺铮; 严定宇; 刘玲; 秦佳伟; 刘燚; 祖小月
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-08

Abstract

本发明公开了一种面向加密异常流量识别的数据处理方法，所述方法包括如下步骤：获取网络中的具有标签的加密流量数据，分别将不同标签的所述加密流量数据切分为多个会话单元，其中，每个会话单元包括若干数据包；根据每个会话单元所包括的数据包生成该会话单元相应的流量图像，每个流量图像包括若干与所述数据包一一对应的图像元素，并将所有会话单元的流量图像组成第一图像集；从所述第一图像集中随机选取至少一部分的流量图像，对其中每个流量图像的至少一部分图像元素进行图形处理，并得到第二图像集，以用于根据监督式机器学习方法进行加密异常流量识别。本发明能够有效扩充用于机器学习模型的训练数据集，实现数据增强。

Description

面向加密异常流量识别的数据处理方法

技术领域

本发明涉及计算机网络安全领域，具体涉及一种面向加密异常流量识别的数据处理方法。

背景技术

随着互联网技术的飞速发展，网络逐渐成为人们生产和生活中必不可缺的一部分，极大地方便了人们的生产生活。与此同时，日趋复杂的网络环境也产生了纷繁多样的网络攻击，给社会带来巨大的经济损失，并对国家安全形成巨大挑战。针对网络中数据的流量开展威胁检测是应对上述挑战的有效方式之一。近年来，由于加密通信协议的广泛应用，传统的依靠明文特征的检测方法变的越来越不可行，如何对加密流量开展威胁检测是一个亟待解决的重要问题。目前，根据网络中的流量是否具有威胁，可以将其分为正常流量(白流量)、恶意流量(黑流量)、异常流量(灰流量)，而加密流量的广泛存在使得直接检测黑流量变得越来越困难。加密异常流量是指与正常流量有差别，但又无法直接归类为威胁流量的一类加密流量，深入分析这类流量，往往能够从中发现新型攻击行为，因此，加密异常流量检测方法是目前很多研究者重点关注的一个问题。

基于监督式机器学习的异常流量检测是近年来研究较多的一种检测方法，在很多应用场景中取得了很好的效果。这种方式的基本思路是，收集一批正常流量与恶意流量数据作为训练集，训练一个深度学习(深层次神经网络)或者传统的机器学习(随机森林、SVM等)模型，然后对实际流量开展识别，对于识别为恶意流量的数据，将其作为加密异常流量进行进一步人工分析，结合威胁情报或者主动探测等手段，综合判定其最终属性。其中，基于深度学习的异常流量检测方法是目前比较热门的研究方向，一种比较常见的方法是将流量数据转化为图像数据，利用深度学习模型优异的图像识别能力实现图像识别，间接实现异常流量识别的目的。图像转换方式既可以采用二进制灰度图方法，也可以采用提取了数据包长度序列的语义方法。

在实际应用过程中，恶意流量数据尤其是高隐蔽威胁流量数据往往是相对较少的，某些APT组织的实际攻击流量非常难以获得。监督式机器学习方法往往需要大量的训练数据，以支撑机器学习模型得以充分的学习其数据特征，才能有较好的泛化能力和识别效果。恶意流量数据的稀少与机器学习模型的数据需求形成一对现实矛盾，严重制约了基于监督式机器学习方法的应用范围。

传统的机器学习领域中，数据增强是解决训练数据缺少的一个有效方法。数据增强，是指基于有限的训练数据生成更多的训练数据，用于丰富训练数据统计分布，使通过训练集训练得到的机器学习模型的泛化能力更强。数据增强是机器学习尤其是深度学习领域常用的数据预处理工作之一。例如，在计算机视觉领域，如果训练集中的图像样本较少，可以使用旋转(Rotation)、反转(Flip)、缩放(Zoom)、平移(Shift)、加噪(Noise)、颜色变换(Color)等方式实现数据增强。在基于深度学习的异常流量检测方法中，流量图像都具有自身特有的语义特征，上述传统的数据增强方式往往会破坏其语义特征，造成增强后的新图像数据难以反映恶意流量的真实特征，严重影响模型训练效果。

发明内容

基于上述现状，本发明的主要目的在于提供一种面向加密异常流量识别的数据处理方法、电子设备和计算机可读存储介质，充分考虑网络数据流量的语义特征，通过模拟实际网络通信过程中可能出现的丢包、乱序、重传等传输因素造成的差异以及同类别样本通信过程中产生的数据差异等实际情况，能够有效扩充用于机器学习模型的训练数据集，实现数据增强，为提高机器学习模型泛化能力提供有效的数据支撑。

为实现上述目的，本发明采用的技术方案如下：

本发明的第一方面提供了一种面向加密异常流量识别的数据处理方法，所述方法包括如下步骤：

S100，获取网络中的具有标签的加密流量数据，分别将不同标签的所述加密流量数据切分为多个会话单元，其中，每个会话单元包括若干数据包；

S200，根据每个会话单元所包括的数据包生成该会话单元相应的流量图像，每个流量图像包括若干与所述数据包一一对应的图像元素，并将所有会话单元的流量图像组成第一图像集；

S300，从所述第一图像集中随机选取至少一部分的流量图像，对其中每个流量图像的至少一部分图像元素进行图形处理，并得到第二图像集，以用于根据监督式机器学习方法进行加密异常流量识别。

进一步地，所述步骤S100中，所述加密流量数据的标签包括正常流量和恶意流量。

进一步地，所述步骤S100中，所述数据包具有四元组信息，所述四元组信息包括源IP地址、源端口号，目的IP地址和目的端口号，并根据所述四元组信息将所述加密流量数据切分为多个会话单元。

进一步地，所述方法还包括：根据所述四元组信息确定所述数据包的传输方向。

进一步地，所述步骤S200中，从每个会话单元中根据预设阈值选取在时序上的前N个数据包，并根据所述N个数据包生成所述流量图像，具体为：

基于每个数据包生成预设宽度的柱形条，并将所有数据包生成的柱形条根据时序沿时间轴依次排列；

每个柱形条相对于所述时间轴在垂直方向上的位置根据该柱形条所对应的数据包的传输方向确定；

每个柱形条的高度根据该柱形条所对应的数据包的大小确定；

相邻两个柱形条在时间轴上的间隙由该两个柱形条所对应的数据包的时间间隔确定。

进一步地，所述步骤S200中，

当某个数据包的传输方向为从客户端至服务端时，则将该数据包所对应的柱形条以所述时间轴为起始并向所述时间轴的一侧的延伸；

当某个数据包的传输方向为从服务端至客户端时，则将该数据包所对应的柱形条以所述时间轴为起始并向所述时间轴的另一侧延伸。

进一步地，所述步骤S300中，所述图形处理的方式包括：

根据第一抽样比例从所述流量图像中选取若干柱形条作为第一目标对象，沿所述时间轴在所述第一目标对象之后插入与所述第一目标对象相同的若干柱形条；或，

根据第二抽样比例从所述流量图像中选取若干柱形条作为第二目标对象，并将所述第二目标对象从所述时间轴上删除；或，

根据第三抽样比例从所述流量图像中选取若干柱形条作为第三目标对象，并按照预设幅值系数对所述第三目标对象所对应的柱形条的高度进行调整；或，

根据第四抽样比例从所述流量图像中选取若干对相邻的柱形条作为第四目标对象，并将每一对相邻的柱形条在所述时间轴上的位置互换。

进一步地，所述每个流量图像的至少一部分图像元素分别从所述图形处理的方式中随机选取至少两种或两种以上进行图形处理。

本发明的第二方面提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如上述第一方面所述的数据处理方法。

本发明的第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于运行以实现如上述第一方面所述的数据处理方法。

本发明与现有技术相比具有明显的优点和有益效果，其至少具有下列优点：

本发明的数据处理方法，其用于机器学习数据增强，充分考虑了实际应用场景的复杂性。实际场景中，通信双方由于网络环境以及通信实体的各种原因，往往会出现丢包、重传、乱序等各种情况，由于往往都是加密流量数据，流量采集者一般很难进行全面细致的数据处理，从而造成流量图像的失真。本发明的数据处理方法能够实际模拟上述实际情况，采用基于数据包元素的各种操作以模拟可能出现的各种情况，由此得到的增强的新数据既能扩充训练数据集，又能反映真实网络环境下的数据情况。

另外，相对于传统的图像数据方法，本发明的数据处理方法进一步扩充了机器学习领域中数据增强的方式，尤其是流量数据在机器学习尤其是深度学习领域中的研究相对较少，目前还没有专门针对流量数据的数据增强方法。本发明的数据处理方法面向网络流量分析领域的特殊场景，充分考虑网络流量数据的语义特征，不同于传统图像数据增强方式，为机器学习领域中提供了一种更为有效、适用的数据增强方式。

本发明的电子设备和计算机可读存储介质，通过所述的数据处理方法，并用于机器学习数据增强，能对训练数据集进行有效的扩充，且新增数据能反映真实网络环境下的数据情况。

附图说明

图1为本发明的面向加密异常流量识别的数据处理方法的一种优选实施方式的流程示意图；

图2为本发明的面向加密异常流量识别的数据处理方法的一种优选实施方式的流量图像示意图；

图3为本发明的面向加密异常流量识别的数据处理方法的一种优选实施方式的对流量图像进行基于数据包的操作的示意图。

附图标记说明：

11第一柱形条，12第二柱形条，13第三柱形条，14第四柱形条，15第五柱形条，16第六柱形条，17第七柱形条，2时间轴。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的面向加密异常流量识别的数据处理方法，其具体实施方式、方法、步骤、特征及其功效，详细说明如后。

参见图1，一种面向加密异常流量识别的数据处理方法，包括如下步骤：

通过上述步骤，针对网络中已具有标签的加密流量数据，首先将原始的流量数据切分为多个会话单元，然后将每个会话单元转化为对应的流量图像并组成图像集，之后从第一图像集中随机选择一部分流量图像，并对这一部分流量图像进行基于数据包的操作，以实现对流量图像数据增强，由此得到新的图像集，可应用于基于监督式机器学习方法的加密异常流量识别场景。

具体地，在步骤S100中，

关于标签，用于对流量数据进行分类，后续可以基于打上标签的数据集进行模型训练，模型通过机器学习能学会对未来未打标签的加密数据流量(例如灰流量)进行预测，并自动打上相应的标签(例如黑流量或白流量)。

关于加密流量数据，是指使用通信协议的流量，这里的通信协议可以是TLS协议(Transport Layer Security，安全传输层协议)，其用于在两个通信应用程序之间提供保密性和数据完整性。该协议由两层组成：TLS记录协议(TLS Record)和TLS握手协议(TLSHandshake)。较低的层为TLS记录协议，位于某个可靠的传输协议(例如TCP)上面。此外，所述方法还可应用于其他已知的公开加密协议，例如SSH协议(Secure Shell)

作为可选的实施例，所述步骤S100中，所述加密流量数据的标签包括正常流量和恶意流量。

具体地，正常流量(白流量)一般是指日常的上网行为以及正常网络应用产生的加密流量。恶意流量(黑流量)一般是指主机中的木马、远程控制后门等恶意程序和其控制者之间进行网络通信产生的加密流量。异常流量(灰流量)一般是指无法直接确定其网络通信行为属于正常还是恶意的其他加密流量。

通过将已知流量打上正常流量或恶意流量的标签，以实现对流量数据的分类。例如，浏览器上网的加密流量会话打上正常流量标签，已知恶意程序产生的加密流量打上恶意流量标签。由此，基于已具有正常流量和恶意流量标签的加密流量数据，能够为后续的机器学习提供有效的数据支撑。

作为可选的实施例，所述步骤S100中，所述数据包具有四元组信息，所述四元组信息包括源IP地址、源端口号，目的IP地址和目的端口号，并根据所述四元组信息将所述加密流量数据切分为多个会话单元。

由于网络中的大批流量数据可能会有很多会话，通常在计算机网路中通常根据五元组(即：源IP地址、源端口号、目的IP地址、目的端口号、协议)来确定一个会话，而所述方法是针对使用同一个协议的流量数据，因此选取源IP地址、源端口号、目的IP地址、目的端口号作为四元组，从而将流量数据切分为多个会话单元。

由此，基于数据包的四元组信息，对加密流量数据进行切分，充分考虑到网络流量数据的语义特征，由此得到的训练数据能够真实反映网络中的数据情况。

作为可选的实施例，所述方法还包括：根据所述四元组信息确定所述数据包的传输方向。

具体地，网络通信协议通常包括源IP地址、源端口号，目的IP地址和目的端口号，由此可以对网络中的数据流量进行区分，以对客户端和服务端的数据包传输方向进行识别，并用于生成流量图像。

由此，根据确定得到的数据包的传输方向，可以在生成的流量图像中进行标识，易于实现，并有助于提高机器学习效率。

作为可选的实施例，参见图2，所述步骤S200中，从每个会话单元中根据预设阈值选取在时序上的前N个数据包，并根据所述N个数据包生成所述流量图像，具体为：

通过上述步骤，基于数据包为每个会话单元生成一幅流量图像，能够体现网络流量数据自身特有的语义特征，为后续的数据处理和增强提供有效的数据支撑。

具体地，关于所述预设阈值，可以根据实际会话中数据包数量的统计值来确定，例如，预设阈值N＝30，则针对每一个会话单元，固定选取前30个数据包生成该会话单元的流量图像。其中，将每一个数据包转换为一个柱形条，并按照数据包时间序列依次排列至一个时间轴上，参见图2，第一柱形条11和第二柱形条12的宽边与时间轴2平行，时间轴2沿水平方向延伸，柱形条朝上或者朝下表示客户端至服务端的数据包或服务端至客户端的数据包，柱形条的高度表示数据包的大小，柱形条之间的间隙表示数据包之间的时间间隔。另外，时间轴2也可以沿垂直方向延伸设置。

作为可选的实施例，所述步骤S200中，

参见图2，第一柱形条11以时间轴2为起始底边并向时间轴2的上方一侧延伸，以用于表示该柱形条所对应的数据包的传输方向为从客户端至服务端，同时，第二柱形条12以时间轴2为起始底边并向时间轴2的下方一侧延伸，以用于表示该柱形条所对应的数据包的传输方向为从服务端至客户端，通过这样的图形方式，可以方便地、直观地显示出数据包的传输方向，便于后续机器识别和学习。

作为可选的实施例，参见图3，所述步骤S300中，所述对其中每个流量图像进行基于数据包的操作，包括如下步骤：

S310，根据第一抽样比例从所述流量图像中选取若干柱形条作为第一目标对象，沿所述时间轴在所述第一目标对象之后插入与所述第一目标对象相同的若干柱形条；或，

S320，根据第二抽样比例从所述流量图像中选取若干柱形条作为第二目标对象，并将所述第二目标对象从所述时间轴上删除；或，

S330，根据第三抽样比例从所述流量图像中选取若干柱形条作为第三目标对象，并按照预设幅值系数对所述第三目标对象所对应的柱形条的高度进行调整；或，

S340，根据第四抽样比例从所述流量图像中选取若干对相邻的柱形条作为第四目标对象，并将每一对相邻的柱形条在所述时间轴上的位置互换。

通过上述步骤，所述数据处理方法，面向高隐蔽威胁流量样本稀少、难以支撑机器学习模型训练的现实问题，能够充分考虑网络流量语义特征，模拟实际通信过程中可能出现的丢包、乱序、重传等传输因素造成的差异，以及同类别样本通信过程中产生的数据差异等实际情况，在数据更逼近实际应用场景的前提下，有效扩充了机器学习模型训练数据集，实现了数据增强的目标，为提高机器学习模型泛化能力提供有效的数据支撑。

具体地，

关于步骤S310，增加操作，即紧跟在随机选取的柱形条之后增加相同的柱形条，参见在图3中增加的第三柱形条13，以模拟数据包在网络传输过程中出现的重传情况。

关于步骤S320，删除操作，即删除随机选取的柱形条，参见在图3中删除的第四柱形条14，以模拟数据包在网络传输过程中出现的丢包情况。

关于步骤S330，修改操作，即修改随机选取的柱形条的高度(一般是微调)，参见图3中对第五柱形条15的高度进行修改，以模拟数据包在网络传输过程中出现的数据差错情况。

关于步骤S340，交换操作，即交换随机选取的相邻两个柱形条，参见图3中的第六柱形条16和第七柱形条17，将两者在时间轴的位置进行互换，以模拟数据包在网络传输过程中出现的乱序情况。

其中，第一抽样比例、第二抽样比例、第三抽样比例和第四抽样比例可以相同，也可以不同，一般在相对较小的比例范围(例如，3～5％)内进行随机选取。

例如，从第一图像集中随机选择80％的流量图像，并对选取的流量图像进行随机化的增加、删除、修改和交换这四种操作，即按第一抽样比例为5％随机选取柱形条并进行增加操作，按第二抽样比例为5％随机选取柱形条并进行删除操作，按第三抽样比例为5％随机选取柱形条并进行修改操作，其中，预设幅值系数为+10％或-10％，按第四抽样比例为5％随机选取相邻的两个柱形条并进行交换操作。

需要说明的是，随机选取的柱形条可以是单个分布，也可是连续多个分布。从第一图像集中选取的流量图像的比例可以根据实际情况确定，例如可以统计在不同环境下大量真实数据流量中各种丢包、乱序等情况的比例，并根据统计得到的比例来确定从第一图像集中选取流量图像的比例。对每一幅流量图像的操作及其次数也为随机确定。

作为上述实施例的进一步改进，所述每个流量图像的至少一部分图像元素分别从所述图形处理的方式中随机选取至少两种或两种以上进行图形处理。

一般地，每一幅流量图像从所述四种图形处理的方式中随机选取两种或两种以上。考虑到现实网路中，重传、丢包、数据差错、乱序同时出现的可能性不大，因而可以对每一幅流量图像随机选取两种操作，以模拟实际网络情况。

由此，可以更加真实地模拟现实网络中的数据流量传输状况，一方面使得用于深度学习的训练数据更加切实有效，另一方面亦能有助于提高学习模型泛化能力。

本发明还提供了一种电子设备，包括处理器；以及存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如上述实施例所述的面向加密异常流量识别的数据处理方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于运行以实现如上述实施例所述的面向加密异常流量识别的数据处理方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种面向加密异常流量识别的数据处理方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的数据处理方法，其特征在于，所述步骤S100中，所述加密流量数据的标签包括正常流量和恶意流量。

3.如权利要求1所述的数据处理方法，其特征在于，所述步骤S100中，所述数据包具有四元组信息，所述四元组信息包括源IP地址、源端口号，目的IP地址和目的端口号，并根据所述四元组信息将所述加密流量数据切分为多个会话单元。

4.如权利要求3所述的数据处理方法，其特征在于，所述方法还包括：根据所述四元组信息确定所述数据包的传输方向。

5.如权利要求1所述的数据处理方法，其特征在于，所述步骤S200中，从每个会话单元中根据预设阈值选取在时序上的前N个数据包，并根据所述N个数据包生成所述流量图像，具体为：

6.如权利要求5所述的数据处理方法，其特征在于，所述步骤S200中，

7.如权利要求5所述的数据处理方法，其特征在于，所述步骤S300中，所述图形处理的方式包括：

8.如权利要求7所述的数据处理方法，其特征在于，所述每个流量图像的至少一部分图像元素分别从所述图形处理的方式中随机选取至少两种或两种以上进行图形处理。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时，能够实现如权利要求1至8任一项所述的数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序用于运行以实现如权利要求1至8任一项所述的信息技术服务需求的处理方法。