CN111147396A

CN111147396A - 一种基于序列特征的加密流量分类方法

Info

Publication number: CN111147396A
Application number: CN201911366473.2A
Authority: CN
Inventors: 梁恺; 马春光
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-12
Anticipated expiration: 2039-12-26
Also published as: CN111147396B

Abstract

本发明提供一种基于序列特征的加密流量分类方法，通过对原始加密流量数据进行预处理；将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征；将局部特征的输出结果使用长短时记忆网络学习数据分组的全局特征。本发明不需要人工提取特征，并且在此基础上，能够保证加密流量数据原有的序列特征，将其指定到具体应用；解决了的传统循环神经网络严重的梯度消失和梯度爆炸的问题；有效地解决了关于两种不同传输层协议的数据包长度不同的问题，并且过滤了网络层和数据链路层的干扰信息；很好地解决了长序列数据的预测问题。

Description

一种基于序列特征的加密流量分类方法

技术领域

本发明属于网络安全领域，具体涉及一种基于序列特征的加密流量分类方法。

背景技术

近年来，随着互联网的快速发展，网络已经成为我们生产与生活中不可或缺的一部分，同时也为网络安全带来了重大挑战。自“棱镜”监控事件曝光后，越来越多的用户和企业开始重视信息的保护和安全传输，导致全球的网络加密流量不断飙升。由于加密流量大多是将应用层的数据加密，所以传统的非加密流量识别方法，比如端口号匹配、深度包检测等技术无法满足识别加密流量的需求。后来相关研究人员采用传统的机器学习的方法来识别加密流量，但是这种方法存在准确率低，提取特征依赖专家经验等缺点。

深度学习方法由于自动选择特征的优点，成为备受研究人员青睐的流量分类方法。深度学习的另一个优点是，与传统的机器学习方法相比较，它具有更强的学习能力。目前，研究人员在使用深度学习方法来识别加密流量，总是将原始加密流量数据进行升维，转换为图像分类的问题来对加密流量进行分类。目前研究中所使用的数据预处理方法存在以下两点问题： 1.破坏了加密流量数据原始的序列特征，不能更加清楚地认识数据本身的特性；2.如果在分类之前对数据采用one-hot编码，会将连续数据离散化，这样破坏了序列数据本身的有序性。

本发明解决了上述两个问题，立足于数据本身，提出了一种基于序列特征的加密流量分类方法，并且在保证不需对加密数据进行解密的情况下，构建了一个更加有效的分类模型，将原始加密流量分类到具体应用。

发明内容

本发明的目的在于提供了一种基于序列特征的加密流量分类方法，不需要人工提取特征，并且在此基础上，能够保证加密流量数据原有的序列特征，将其指定到具体应用。

本发明的目的是这样实现的：

一种基于序列特征的加密流量分类方法，具体的步骤为：

步骤1.对原始加密流量数据进行预处理；

步骤2.将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征；

步骤3.将步骤2的输出结果使用长短时记忆网络学习数据分组的全局特征。

所述对原始加密流量数据进行预处理的具体步骤为：

步骤1.1.采用pickle工具包提取原始流量数据的标签，即每条流量所属的应用；

步骤1.2.使用分析工具来统计pcap数据中数据分组的最大长度，并且使用scapy流量数据处理工具过滤掉数据分组的头部信息，并得到TCP和UDP数据分组；

步骤1.3.统一TCP和UDP数据分组的字节长度，字节长度为步骤2得到的最大长度；

步骤1.4.将数据与所属应用进行整合，标记经过上述处理的数据；

步骤1.5.标准化流量数据，对数据的每一字节特征除以255，转换为区间为[0,1]的数，并将流量标签转换为one-hot编码。

所述使用基于注意力机制的一维卷积网络学习数据分组的局部特征的具体步骤为：

步骤2.1.将数据预处理之后的分组字节矩阵转换为神经网络的固定输入格式；

步骤2.2.在输入层和卷积层中间定义注意力隐藏层；在模型的输入层后面增加两层全连接层dense1和dense2，然后再定义一层注意力隐藏层，将注意力隐藏层与经过两层全连接之后的特征向量进行整合，最终注意力隐藏层返回的维度与dense2相同，与序列向量进行点乘计算和归一化之后，拼接成带有权重的特征向量；

步骤2.3.改变权重的特征向量的维度，使其满足一维卷积神经网络的输入格式；在模型中加入两层一维卷积神经网络，设置并调节其卷积核大小、激活函数、过滤器个数、步长、丢弃率；

步骤2.4.在模型中加入最大池化，在保证卷积计算提取的特征不变的情况下删除冗余信息，将重要的特征抽取出来。

所述使用长短时记忆网络学习数据分组的全局特征的具体步骤为：

步骤3.1.将一维卷积神经网络输出的结果作为长短时记忆网络模型的输入；

步骤3.2.设置并调节相关参数，步长、输出维度和类型；

步骤3.3.将数据进行扁平化操作；

步骤3.4.采用softmax分类器将加密流量按照应用程序进行分类。

所述步骤2.3的两层一维卷积神经网络的卷积层为 C＝f(xk+b)

其中x代表进行特征重组之后的权重向量，k代表卷积核，b代表偏置值。f表示为激活函数，在本发明中使用的激活函数为Relu函数；

所述步骤2.3的两层一维卷积神经网络的池化层为 S＝βdown(C)+b

其中β和b为标量参数，down为下采样选择的函数，采用最大池化。

所述步骤3.1的长短时记忆网络模型存在判别信息筛选记忆单元，每个单元中均设置有输入门I_t、输出门O_t、遗忘门F_t，输入门的计算公式为

I_t＝f(W_t×[H_t-1,x_t]+b_i)

遗忘门F_t的计算公式为

F_t＝f(W_f×[H_t-1,x_t]+b_f)

输出门O_t的计算公式为

O_t＝f(W_o×[H_t-1,x_t]+b_o)

当前状态C_t的计算公式为

C_t＝F_t×C_t-1+I_t×tanh(W_c×[H_t-1,x_t]+b_c)

根据当前状态C_t输出的值得到输出H_t的计算公式为

H_t＝O_t×tanh(C_t)

其中，x_t表示在时刻t下的输入，W_i，W_f，W_o，W_c表示权重矩阵；b_i，b_f，b_o，b_c是偏置向量，f(x)和tanh是激活函数，H_t为单元时刻t的输出。

本发明的有益效果在于：不需要人工提取特征，并且在此基础上，能够保证加密流量数据原有的序列特征，将其指定到具体应用；解决了的传统循环神经网络严重的梯度消失和梯度爆炸的问题；有效地解决了关于两种不同传输层协议的数据包长度不同的问题，并且过滤了网络层和数据链路层的干扰信息；很好地解决了长序列数据的预测问题。

附图说明

图1为本发明的总体结构图。

图2为本发明的数据预处理的流程示意图。

图3为本发明使用的基于注意力机制的一维卷积网络的网络结构示意图。

图4为本发明使用的长短时记忆网络提取流量全局特征的流程示意图。

具体实施方式

下面结合附图对本发明做进一步的描述：

实施例1

图1是本发明一种基于序列特征的加密流量分类方法的总体结构图。如图1所示，本发明主要包括虚线框内的3个模块：数据预处理模块、局部序列特征提取模块和全局序列特征提取模块。本发明提出的是一种有监督的分类方法，要求样本数据都带有标签。

数据预处理模块：读入原始加密流量pcap格式数据包文件，之后统计数据包的最大长度，并统一数据包特征向量的协议和长度，对其进行归一化操作，最终将其与所属标签进行整合。

本发明所用到的加密流量公开数据集“ICSN VPN-nonVPN”包括7种常规加密流量和7种协议封装流量，所涉及到的应用程序是当今最流行的，并且流量的类型也具有多样性。这套数据有VPN和非VPN两种数据类型和标签，其中非VPN流量(非VPN流量采用的是协议隧道封装技术，对于应用层信息也是加密的)。如果按照流量的业务类型进行分类，可以将这套数据分为以下7个大类：browsing，email，chat，streaming，file transfer，voip，Trap2p。如果将这套数据按照应用程序分类，可以分为以下的17类：aim，email，facebook，ftps，gmail， hangouts，icq，netflix，scp，sftp，skype，spotify，tor，vimeo，voipbuster，youtube，torrent。本发明最终将这套数据集中的原始加密流量分类到指定应用，属于一种细粒度的分类。

由于数据集“ICSN VPN-nonVPN”是在数据链路层收集到的，所以它包含一些地址干扰信息和路径干扰信息。其中包含有关数据链路的信息，如媒体访问控制(MAC)地址等特征。因此在数据预处理阶段首先要排除路径和地址的干扰。在传输层中，TCP和UDP在数据段头部长度上不同。TCP数据段头长度是20个字节长度，UDP数据段头是8个字节长度。为了使两种传输层协议最终的特征向量长度相同，需要在UDP数据包段头的尾部进行补零，使其与TCP数据包段头的长度相等。

由于数据集中包含一些对分类来说没有意义的信息，如建立连接或完成连接过程中的 SYN，ACK，FIN标志段，而且数据集中还有一些应用层服务字段(如DNS)，这些都需要从数据集中删除。最后再将数据包转换为神经网络具有固定输入格式的分组字节矩阵。

局部序列特征提取模块：采用基于注意力机制的一维卷积神经网络学习分组数据的局部序列特征；将具有固定格式的序列向量首先通过全连接层进行特征降维，之后与自定义的注意力组件进行特征重组(特征向量权重计算)，然后再将特征重组之后的向量转换为一维卷积神经网络的输入格式，与卷积层进行连接。这里需要配置和调节网络的卷积核大小，个数，步长，激活函数，丢弃率和最大池化等参数。

经前人的研究发现流量数据是一个按层次结构组织的一维字节流。字节、数据包、会话和整个流量的结构与自然语言处理领域中的字符，字，句和整篇文章的结构非常相似。所以说这种序列类型非常适合用一维卷积神经网络进行序列特征的学习。

在进入卷积网络层之前，首先在输入层和卷积层之间引入注意力隐藏层。注意力层是为每个数据分组字节创建权重向量。权重向量与数据包字节向量进行拼接，作为新的特征向量，将其输入到模型中。

卷积神经网络模型主要由输入层、卷积层、池化层组成。卷积层共有两层分别为C1、C2，卷积层可描述为 C＝f(xk+b)

其中，x代表进行特征重组之后的权重向量，k代表卷积核，b代表偏置值。f表示为激活函数，在本发明中使用的激活函数为Relu函数。卷积层C1在序列化数据集上使用滑窗与原始数据进行卷积操作后得到第一层特征，卷积层C2在得到的特征上继续作与C1相同操作后得到更高级别的特征。

池化层为S，池化层通常又称为下采样层，其主要作用是在保持原始特征不变的前提下删除掉一些冗余特征信息把重要的特征抽取出来，在一定程度上可以防止模型过拟合。池化层可描述为：

S＝βdown(C)+b

其中β和b为标量参数，down为下采样选择的函数，一般分为最大池化和平均池化。本发明中采用的是最大池化。

全局序列特征提取模块：将卷积神经网络输出的结果作为长短时记忆网络的输入，并设置和调节网络的时间步长、特征数、输出维度和返回类型等基本参数，之后通过全连接层并进行“扁平化”(flatten)操作，最后采用softmax分类器进行分类。

传统的神经网络结构主要由三部分组成：输入层，隐藏层和输出层，通过全连接相连，只能解决输入和输出相互独立的情况。为了解决序列化数据的预测问题，循环神经网络(RNN) 应运而生。循环神经网络主要是预测下一时刻的输出依赖于当前时刻的输入和前段时间的记忆。循环神经网络(RNN)的优点是可以提取数据的时序特征，但是也存在着一些问题，最严重的就是传统的循环神经网络(RNN)不能解决较长时间的的信息依赖。并且很多研究证实，RNN在训练过程中会出现严重的梯度消失和梯度爆炸的问题。而长短时记忆网络很好地解决了的传统循环神经网络的问题。

长短时记忆网络相比于循环神经网络，其中算法加入了一个判别信息筛选的“处理器”记忆单元，每个单元中设置了三扇门，分别为输入门I_t、输出门O_t、和遗忘门F_t，它们分别代表序列的输入，读取和前面状态的重置操作。假设x_t表示在时刻t下的输入，W_i，W_f，W_o，W_c表示权重矩阵；b_i，b_f，b_o，b_c是偏置向量，f(x)和tanh是激活函数，H_t为单元时刻t的输出。C_t表示记忆单元在t时刻的状态。则长短时记忆网络单元在t时刻的更新过程如下：

输入门：输入门决定的是在C_t-1状态下需要更新的参数，并且将输入门的结果与当前时刻的输入进行计算，作为状态C_t，公式如下：

I_t＝f(W_t×[H_t-1,x_t]+b_i)

遗忘门：遗忘门通过观察为在当前时刻的输入x_t、上一阶段的输出H_t-1和状态C_t-1之间提供一个遗忘系数，这个系数是区间在[0,1]的数，并控制上一状态C_t-1和当前状态C_t的信息，公式如下：

F_t＝f(W_f×[H_t-1,x_t]+b_f)

输出门：根据当前状态C_t输出的值得到输出H_t，公式如下：

O_t＝f(W_o×[H_t-1,x_t]+b_o)

H_t＝O_t×tanh(C_t)

当前状态是将以上的计算结果都结合在一起，存储到神经单元中，公式如下：

C_t＝F_t×C_t-1+I_t×tanh(W_c×[H_t-1,x_t]+b_c)

本发明通过使用长短时记忆网络的优点来学习流量数据的全局序列特征，能够很好地解决长序列数据的预测问题。

图2是本发明一种基于序列特征的加密流量分类方法的数据预处理流程图。

用pickle工具包提取完原始流量数据之后，进行如下步骤：

步骤一、读入pcap格式数据包文件；首先统计最大的数据包长度，过滤pcap文件头部信息，获取数据中未加密的有效载荷。

步骤二、对分组数据进行填充并删除干扰信息；由于样本的特征信息(本发明使用的是公开数据集)主要分布在头部(前300个字节)和尾部(后1200～1500字节)，而且TCP和UDP数据包头大小都不一致，考虑到卷积神经网络的输入维度需要统一，因此需要对UDP 数据分组进行填充。而且由于数据包中含有一些链路层、网络层和应用层的干扰信息，所以也需要删除。

步骤三、对分组数据进行归一化；将每个分组的特征信息归一化为[0,1]，由于每个字节范围是0～255，因此每个数据分组均除以255。

步骤四、对字节序列进行标记；将标签信息转换为one-hot编码，形成标签向量，并与样本数据进行整合。

图3是本发明一种基于序列特征的加密流量分类方法的局部序列特征提取流程示意图 (网络结构示意图)。具体步骤和相关参数设置如下：

步骤一、定义注意力模型。首先在模型的输入层后面增加两层全连接层dense1和dense2，用于特征降维，然后再定义一层注意力隐藏层，将注意力隐藏层与降维后的特征向量进行组合，最终注意力隐藏层返回的维度与dense2相同，在组合的过程中进行点乘计算和归一化得到最后的加权向量。

步骤二、首先将步骤一输出的结果转化成一维卷积网络的输入格式，并拼接一层一维卷积层，参数配置和调节情况如下：卷积核设置为30，步长设置为5，激活函数设置为ReLU 函数，丢弃率为0.01。

步骤三、在步骤二的基础上，再加入一层一维卷积网络。第二层参数配置和调节情况如下：卷积核设置为10，步长设置为4，激活函数设置为ReLU函数。在模型中每增加一层卷积层，就向其中加入丢弃率，设置为0.01。

步骤四、完成卷积计算之后，然后在模型中添加一层最大池化层，池化窗口大小设置为 2。

图4是本发明一种基于序列特征的加密流量分类方法使用的长短时记忆网络提取流量全局特征的流程示意图。具体步骤如下：

步骤一、在学习完数据分组的局部序列特征之后，将其输出的结果作为模型的输入，在模型中加入一层长短时记忆网络学习其全局序列特征，设置并调节输出维度，样本数量、步长、特征数量还有返回类型等参数。

步骤二、再将数据进行“扁平化”(flatten)操作，用于数据降维。

步骤三、在模型中加入全连接层，最后使用softmax分类器将流量分类到指定应用。

实施例2

本发明公开了一种基于序列特征的加密流量分类方法，涉及计算机网络安全领域，该技术方案包括：对经过数据预处理后的加密流量数据使用基于注意力机制的一维卷积神经网络和长短时记忆网络分别学习加密流量的局部和全局特征，并且实现最终判定。本发明在不需要人工提取特征的情况下，能将加密流量指定到具体应用，从而对加密流量进行分类。

为了将原始流量数据统一为固定的模型输入形式，本发明使用了一种对加密流量数据的预处理方法，具体步骤如下：

步骤一，采用pickle工具包提取原始加密流量数据的标签，即每条流量所属的应用。

步骤二，使用流量分析工具来统计pcap数据中数据包的最大长度，并使用scapy流量数据处理工具过滤掉数据包头部信息，得到含有TCP和UDP协议的数据包，这一步骤的目的是为了统一协议和过滤流量中对分类没有意义的信息。

步骤三，统一TCP和UDP数据包长度(长度为步骤二得到的最大长度)。

步骤四，标注经过上述处理的数据，整合数据与所属应用。

步骤五，标准化流量数据，将其每一字节特征除以255，将每一字节映射为区间[0,1]的数，并将流量标签转换为one-hot编码，最终得到分组字节矩阵(Packet Byte Matrix，PBM)。这一步骤的目的是为了将特征矩阵转换成模型的输入格式。

通过上述过程，可以有效地解决关于两种不同传输层协议的数据包长度不同的问题，并且过滤了网络层和数据链路层的干扰信息。

本发明使用上述得到的数据预处理结果，提供了使用加入注意力机制的一维卷积网络学习加密流量局部序列特征的算法，具体步骤如下：

步骤一，将处理后的TCP和UDP分组字节矩阵转换为固定的模型输入形式。

步骤二，在输入层和卷积层中间定义注意力隐藏层。首先在模型的输入层,后面增加两层全连接层dense1和dense2，然后再定义一层注意力隐藏层，将注意力隐藏层与经过两层全连接之后的特征向量进行整合，最终注意力隐藏层返回的维度与dense2相同，在整合的过程中进行点乘计算和归一化得到最后的加权特征向量。

步骤三，按照本发明的研究方案，改变加权向量的维度，使其满足一维卷积网络的输入形式，并在模型中加入两层一维卷积网络，设置并调节其卷积核大小和数量、激活函数、步长、丢弃率等参数。

步骤四，在步骤三的基础上，再向模型中加入最大池化，设置和调节最大池化窗口，用来删除冗余信息并抽取重要特征，并防止模型过拟合。

本发明提供了一种使用长短时记忆网络学习数据分组的全局序列特征的算法，将一维卷积神经网络和长短时记忆网络进行整合，能够学习加密流量数据的全局序列特征，只需要配置和调节长短时记忆网络的相关参数，并且在进行“扁平化”操作，最终采用softmax分类器将流量分类到指定的应用。

Claims

1.一种基于序列特征的加密流量分类方法，其特征在于，具体的步骤为：

步骤1.对原始加密流量数据进行预处理；

2.根据权利要求1所述的一种基于序列特征的加密流量分类方法，其特征在于：所述对原始加密流量数据进行预处理的具体步骤为：

3.根据权利要求1所述的一种基于序列特征的加密流量分类方法，其特征在于，所述使用基于注意力机制的一维卷积网络学习数据分组的局部特征的具体步骤为：

4.根据权利要求1所述的一种基于序列特征的加密流量分类方法，其特征在于，所述使用长短时记忆网络学习数据分组的全局特征的具体步骤为：

步骤3.2.设置并调节相关参数，步长、输出维度和类型；

步骤3.3.将数据进行扁平化操作；

5.根据权利要求1所述的一种基于序列特征的加密流量分类方法，其特征在于：所述步骤2.3的两层一维卷积神经网络的卷积层为

C＝f(xk+b)

所述步骤2.3的两层一维卷积神经网络的池化层为

S＝βdown(C)+b

6.根据权利要求1所述的一种基于序列特征的加密流量分类方法，其特征在于：所述步骤3.1的长短时记忆网络模型存在判别信息筛选记忆单元，每个单元中均设置有输入门I_t、输出门O_t、遗忘门F_t，输入门的计算公式为

I_t＝f(W_t×[H_t-1,x_t]+b_i)

遗忘门F_t的计算公式为

F_t＝f(W_f×[H_t-1,x_t]+b_f)

输出门O_t的计算公式为

O_t＝f(W_o×[H_t-1,x_t]+b_o)

当前状态C_t的计算公式为

C_t＝F_t×C_t-1+I_t×tanh(W_c×[H_t-1,x_t]+b_c)

根据当前状态C_t输出的值得到输出H_t的计算公式为

H_t＝O_t×tanh(C_t)