CN115134176B

CN115134176B - 一种基于不完全监督的暗网加密流量分类方法

Info

Publication number: CN115134176B
Application number: CN202211068208.8A
Authority: CN
Inventors: 胥帅; 黄钰; 许建秋; 关东海
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-29
Anticipated expiration: 2042-09-02
Also published as: CN115134176A

Abstract

本发明公开了一种基于不完全监督的暗网加密流量分类方法，其包括如下步骤：对暗网加密流量数据预处理获得多个单独的流量会话数据；为少量流量会话数据打上分类标签获得初始训练数据集；对预处理后的流量会话数据进行特征选取；利用已标注的初始训练数据集预训练LSTM分类模型；利用预训练完成的LSTM对未标注的流量会话数据进行分类；将LSTM最后一个隐藏层的状态输入DBSCAN进行聚类；将LSTM的分类结果与DBSCAN聚类结果进行双重校验；利用训练好的LSTM对类别标签未知的暗网加密流量进行分类。本发明在不对加密流量进行解密的前提下，实现了针对暗网加密流量的细粒度分类。

Description

一种基于不完全监督的暗网加密流量分类方法

技术领域

本发明属于暗网加密流量分类领域，涉及一种基于不完全监督的暗网加密流量分类方法。

背景技术

互联网技术快速发展，使得互联的规模与流量越来越大。在网络通信中，加密流量已经成为通信的主流。随着各种数据传输加密技术的广泛应用，当前网络流量加密已经成为事实上的标准做法。Tor是最流行的流量加密技术之一。Tor又称洋葱网络，其由遍布全球的中继服务器或桥接服务器组成，流量在层层服务器中加解密，从而实现隐藏信息、扰乱网络流量监控与分析。暗网是只能通过Tor等网络通讯工具访问的最大的已部署匿名网络之一，它因其特有的匿名性而被命名为暗网。暗网中的流量加密传输有益于保护普通用户的隐私，同时也为恶意应用（如枪支、毒品、信用卡贩卖等非法交易）提供可乘之机，通过流量加密逃避网络审查检测，如果不及时分辨将会对网络安全造成极大的影响。因此，在日益严重的网络安全威胁下，对暗网加密流量进行细粒度分类具有重要的现实意义。在分析暗网流量时，会面临流量不解密就无法识别流量的问题，暗网因其独特的匿名性使人们无法直接解密暗网流量。传统的网络流量分类方案一般基于端口识别或有效荷载展开，前者由于端口隐藏、动态端口等技术的普及已逐渐失效，后者则受密文限制，无法获取加密流量中的特征字符。当前，各类安全防护软件、探针主要针对非加密流量进行检测识别，无法有效应对来自暗网的加密流量。一些恶意网络行为制造者在使用加密协议对流量进行加密的同时，往往还会使用伪装技术对流量进行混淆或模仿正常流量通信模式,这进一步加大了暗网加密流量分类的难度。

总结起来，目前网络加密流量分类技术主要存在三个方面不足：（1）网络流量经加密后，外部可见的内容发生了较大变化，绝大部分非加密流量识别方法不再适用；（2）当前流行的基于机器学习和深度学习的分类方法对已知样本的依赖性强，需要大量的训练数据支撑才能获得较好的分类性能，然而暗网加密流量一方面难以获取，另一方面对加密流量所属类别进行人工识别的成本极高并且标注类别往往极不均衡，随着加密算法不断更新，难以提供足量训练数据支撑模型训练；（3）现有模型往往依赖人工特征提取，一些复杂的隐含特征可能和最终的结果具有很强的相关性却难以通过特征工程提取，因而在攻击者更新加密方式后需要重新进行特征提取，否则分类准确率会快速下降。综上所述，现有方案没有综合考虑暗网加密流量的有效外部统计特征和内在载荷序列特征，在细粒度的加密流量分类任务上性能较差。

发明内容

本发明的目的在于提出一种基于不完全监督的暗网加密流量分类方法，该方法针对类别标签稀缺的暗网加密流量，兼顾加密流量的外部统计特征和深层时序特征，在不对加密流量进行解密的前提下，利用不完全监督的方式对加密流量的隐含特征进行自动提取，实现了针对暗网加密流量的细粒度分类。

本发明为了实现上述目的，采用如下技术方案：

一种基于不完全监督的暗网加密流量分类方法，包括如下步骤：

步骤1. 对暗网加密流量数据进行预处理，获得多条单独的流量会话数据；

步骤2. 为少量流量会话数据打上分类标签，获得初始训练数据集；

步骤3. 对步骤1预处理后的流量会话数据进行特征选取；

步骤4. 利用步骤2已标注的初始训练数据集，预训练LSTM分类模型；

步骤5. 针对未标注的流量会话数据利用步骤4预训练完成的LSTM分类模型进行分类；

步骤6. 将LSTM分类模型最后一个隐藏层的状态输入DBSCAN进行聚类；

步骤7. 将步骤5中LSTM的分类结果与步骤6中DBSCAN聚类结果进行双重校验；

步骤8. 利用训练好的LSTM分类模型对类别标签未知的暗网加密流量进行分类。

本发明具有如下优点：

如上所述，本发明述及了一种基于不完全监督的暗网加密流量分类方法，该方法针对细粒度类别标签稀缺的暗网加密流量，兼顾加密流量的外部统计特征和深层时序特征，在不对暗网加密流量进行解密的前提下，利用LSTM分类模型从加密流量的外部统计特征和内部荷载中自动提取序列信息用于分类，通过利用不完全监督的方式对加密流量的隐含特征进行自动提取，实现了暗网加密流量的细粒度分类，为非法交易检测、恶意攻击预防等网络空间安全应用提供支撑，本发明方法在降低计算开销的同时保护了用户隐私，并且本发明方法不受流量端口隐藏技术的影响，因而拥有更广泛的应用场景。

附图说明

图1为本发明实施例中基于不完全监督的暗网加密流量分类方法流程图。

图2为本发明实施例中LSTM分类模型结构图。

图3为本发明实施例中针对未标注的会话数据进行分类的流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本实施例述及了一种基于不完全监督的暗网加密流量分类方法，如图1所示。

该基于不完全监督的暗网加密流量分类方法，包括如下步骤：

步骤1. 对暗网加密流量数据进行预处理，获得多条单独的流量会话数据。

使用网络抓包工具，例如Wireshark和tcpdump捕获暗网通信工具TOR的加密网络流量，其原始文件格式为pcap，共包含8种类型的流量，分别如下：

Browsing（使用Firefox等浏览器时生成的 HTTP 和 HTTPS流量）；

Email（使用Thunderbird 客户端时生成的流量样本）；

Chat（使用即时消息应用程序时生成的流量）；

Audio-Streaming（使用音频应用程序生成的连续稳定数据流）；

Video-Streaming（使用视频应用程序生成的连续稳定数据流）；

FTP（使用Skype等应用程序发送或接收文件和文档时生成的流量）；

VoIP（使用语音应用程序生成的所有流量）；

P2P（使用Bittorent等文件共享协议生成的流量）。

以上各个类型的流量分布极不均衡，这8种类型的流量即下文中的8种细粒度类别标签。

使用USTC-TK2016工具集对格式为pcap的原始流量文件（即暗网加密流量数据）进行预处理，包括将pcap文件中的重复、冗余、空白等噪声删除。

然后将流量按会话层的形式进行切分，获得一条条单独的流量会话数据。

步骤2. 采用人工识别并标记的方式，为预处理后的部分（少量）流量会话数据打上分类标签，获得少量初始训练数据集。例如，随机选择100条会话数据并依据专家知识为其逐一打上标签，标签为以上8种类别之一。

本发明仅需依据专家知识标注极少量流量会话数据，而无需标注全体数据集，即本发明提出的模型是不完全监督的。

步骤3. 对步骤1预处理后的流量会话数据进行特征选取。

步骤3.1. 利用网络流量特征提取工具CICFlowMeter提取每一条流量会话数据的统计特征，包括Source Port、Flow Bytes/s、Destination Port、Fwd IAT Max、Flow IATMax等，共计M个数值化的统计特征，M为自然数，例如取值为20。

步骤3.2. 针对每一条流量会话数据，截取加密后的流量荷载，即每条会话传输的有效数据，这些有效数据由一系列大小在0-255的字节组成。

由于每一条流量会话数据的有效荷载存在差异，本发明截取每一条流量会话中密文形式的有效荷载前N个字节，N为自然数，例如取值为800。

对于有效荷载长度不满N个字节的流量会话，将有效荷载长度填充到N个字节，填充的内容是传输包中不会出现的异常值(例如：0x0fffffff)。

通过这种方式，所有会话截取到的有效荷载均为800个字节。

将提取到的M个数值化的统计特征和1个长度为N个字节的荷载特征进行拼接，获得长度为M+N的特征向量；此时，每一条会话利用M+N维向量表示。

为剔除不同特征数值采用不同量纲带来的影响，使用min-max数据标准化方法对特征向量中的每一维度的特征数值进行处理，将其缩放至0-1区间。计算方法为：

x*=(x-min)/(max-min)。

其中，x*为标准化以后的特征数值；x为输入的某一维度的特征数值；min和max分别表示对应维度的特征数值的最小值和最大值。

需要说明的是，本发明无需将加密后的有效载荷解密成明文，在降低计算开销的同时保护用户隐私，并且不受流量端口隐藏技术的影响，因此拥有更广泛的应用场景。

步骤4. 利用步骤2已标注的初始训练数据集，预训练LSTM分类模型。

网络流量本质上是一种时序数据，是按照层次化结构组织起来的一维字节流，即每一条流量会话数据均可视作由多个字节序列组成的流量单元。

因此，本发明可以利用长短时记忆神经网络（Long Short-Term Memory, LSTM）去学习网络流量的时序特征，从而用于流量分类任务。LSTM 是循环神经网络（RecurrentNeural Network, RNN）的一个变种，主要应用在数据分类问题中。

本发明通过LSTM自动提取流量会话数据外部统计信息和内部荷载中的序列特征。

LSTM分类模型的结构图如附图2所示，其由输入层、隐藏层、两层全连接的神经网络和1个Softmax神经网络分类器构成。该LSTM分类模型结构的核心是中间的隐藏层，针对网络加密流量分类问题，选择保留20个隐藏层神经元。

x _t表示t时刻传入LSTM分类模型的输入数据，其中，t∈[1,n]，n表示输入序列的总长度，即M+N。c _t表示t时LSTM分类刻模型记录的历史状态。h _t表示t时刻LSTM分类模型记录的历史信息的隐藏向量。

LSTM的预训练使用步骤2获取的已标注的初始训练数据集进行，初始训练数据集中每一条加密流量会话样本在步骤3完成特征选取后，将由 LSTM自动选取有效的特征。

LSTM分类模型训练过程中，通过向前操作，将 LSTM分类模型上一时刻的信息以记忆流的形态不断向后传递，影响每个新输入数据的处理和每个阶段的输出。

LSTM提取完隐藏特征后发送到两层全连接的神经网络和1个Softmax神经网络分类器，两层神经网络的隐藏节点个数依次为50个和20个。

Softmax神经网络分类器本质上是一种神经元输出的概率分布形式，Softmax神经网络分类器的最后一个输出层的节点个数与流量类别数量一致。

Softmax生成一个Z维的数组作为输出结果，分别表示当前处理的加密流量会话样本属于Z种类别的概率，Z表示当前处理的加密流量会话样本所属类别，在本实施例中即8个。

在LSTM分类模型训练过程中，使用交叉熵损失Loss作为其优化目标函数，并且利用反向传播算法回传梯度以最小化目标函数，目标函数的计算方式为：

。

其中，i为Z种样本类别中的其中之一。

D表示训练数据集中流量会话样本的数量，d表示其中一条会话样本。

p _d(i)表示当前样本d的真实类别概率分布中第i个类别的取值。

表示LSTM分类模型对当前样本d的分类结果属于第i个类别的概率。

步骤5. 针对未标注的流量会话数据利用步骤4预训练完成的LSTM分类模型进行分类。

将未标注的一条流量会话数据d’，输入到步骤4预训练完成的LSTM分类模型中，LSTM分类模型输出该流量会话数据d’在Z个类别上的概率分布p _d ’。

选取p _d ’中数值最大的概率值对应的类别，作为当前会话所属的类别，将该类别记为c。

步骤6. 将LSTM分类模型最后一个隐藏层的状态输入DBSCAN进行聚类。

对于上述类别未知的流量会话数据d’，将步骤5中LSTM分类模型在最后一个隐藏层的计算结果作为该流量会话数据d’的隐含特征向量，将其作为DBSCAN聚类算法的输入。

DBSCAN(Density-Based Spatial Clustering of Applications with Noise的简称)聚类算法是一种无监督的基于密度的聚类算法，根据给定样本的特征向量将距离接近的样本自动聚类。

本发明将DBSCAN聚类算法的半径参数eps设为0.1，将最小包含点数minpts设为1。

上述类别未知的流量会话数据d’的特征向量输入DBSCAN聚类算法后，会输出流量会话数据d’所属的类别，将该流量会话数据d’ 所属的类别记为c’。

步骤7. 将步骤5中LSTM的分类结果与步骤6中DBSCAN聚类结果进行双重校验。

如图3所示，设定阈值δ，根据步骤5和步骤6对于流量会话数据d’的分类结果即类别c和类别c’，分别选取类别c和类别c’中置信度最高的样本，记为样本m和m’。

若样本m和m’之间的欧式距离dist(m,m’)≤δ，欧式距离的计算方式为：

；

其中，m ₁、m ₂…m _k分别表示样本m的k维坐标，m’ ₁、m’ ₂…m’ _k分别表示样本m’的k维坐标，则认为类别c和类别c’属于同一类别；此时，流量会话数据d’的所属类别标记为c。

将该流量会话数据d’加入步骤2已标记类别的流量会话样本集合中，扩充初始训练数据集，用于LSTM分类模型和DBSCAN聚类算法的重新训练。

若样本m和m’之间的欧式距离dist(m,m’)＞δ，则认为类别c和类别c’不属于同一类别，此时，将流量会话数据d’送回未标注的会话样本集合。

重复上述步骤5至步骤7，直到所有未标注的流量会话样本均被打上标签。

现有基于深度学习的方法需要大量的已标注的训练数据，模型训练过程是有监督的，这耗费的人力成本极高，本发明针对性提出一种不完全监督的暗网加密流量分类方法。

该方法通过人工标注极少量加密流量会话数据，随后依次利用LSTM进行有监督的分类、利用DBSCAN进行无监督的聚类，通过“双重校验”判断分类与聚类结果是否一致。

若一致，则把该样本加入类别已知的已标注样本集合，从而重新训练LSTM模型和DBSCAN模型，如此往复，直到所有流量会话数据均被加入类别已知的已标注样本集合。

相比于传统的深度学习方法所采用的有监督形式，本发明避免了现有技术在加密流量分类任务中依赖人工标注全体数据集的不足，极大减小了标注数据所产生的代价。

对于来自暗网的一条未标注类别的加密流量，按照以下步骤对其所属类别进行分类：

步骤8.1. 依据步骤1对加密流量数据进行预处理，得到流量会话样本。

步骤8.2. 依据步骤3对预处理后的流量会话样本进行特征选取。

步骤8.3. 依据步骤5利用训练好的LSTM分类模型对会话样本进行分类，得到分类结果。

本发明方法在不对加密流量进行解密的前提下，利用不完全监督的方式，对加密流量的隐含特征进行自动提取，实现了对暗网加密流量的细粒度分类。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于不完全监督的暗网加密流量分类方法，其特征在于，包括如下步骤：

步骤1. 对暗网加密流量数据进行预处理，获得多个单独的流量会话数据；

步骤2. 为部分流量会话数据打上分类标签，获得初始训练数据集；

步骤3. 对步骤1预处理后的流量会话数据进行特征选取；

所述步骤7具体为：

设定阈值δ，根据步骤5和步骤6对于流量会话数据d’的分类结果即类别c和类别c’，分别选取类别c和类别c’中置信度最高的样本，记为样本m和m’；

；

其中，m ₁、m ₂…m _k分别表示样本m的k维坐标，m’ ₁、m’ ₂…m’ _k分别表示样本m’的k维坐标，则认为类别c和类别c’属于同一类别；此时，流量会话数据d’的所属类别标记为c；

将该流量会话数据d’加入步骤2已标记类别的流量会话样本集合中，扩充初始训练数据集，用于LSTM分类模型和DBSCAN聚类算法的重新训练；

若样本m和m’之间的欧式距离dist(m,m’)＞δ，则认为类别c和类别c’不属于同一类别，此时，将流量会话数据d’送回未标注的会话样本集合；

重复上述步骤5至步骤7，直到所有未标注的流量会话样本均被打上标签；

2.根据权利要求1所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤1具体为：

利用网络抓包工具收集暗网通信工具TOR的加密流量数据，收集到的原始文件格式为pcap；

对格式为pcap的加密流量数据进行预处理，包括将pcap文件中的重复、冗余以及空白噪声删除，然后将加密流量按会话层的形式进行切分，获得一条条单独的流量会话数据。

3.根据权利要求1所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤2具体为：

对预处理后的流量会话数据，采用人工识别并标记分类标签的方式，获得部分训练数据。

4.根据权利要求1所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤3具体为：

步骤3.1. 提取每一条流量会话数据的统计特征，共计M个数值化的统计特征；

步骤3.2. 针对每一条流量会话数据，截取加密后的流量荷载，即每条会话传输的有效数据，这些有效数据由一系列大小在0-255的字节组成；

截取每一条会话中密文形式的有效荷载前N个字节；对于有效荷载长度不满N个字节的会话，填充到N个字节，填充的内容是传输包中不会出现的异常值；

将提取到的M个数值化的统计特征和1个长度为N个字节的荷载特征进行拼接，获得长度为M+N的特征向量；此时，每一条会话利用M+N维向量表示；

其中，M和N均为自然数；

为剔除不同特征数值采用不同量纲带来的影响，使用min-max数据标准化方法对特征向量中的每一维度的特征数值进行处理，将其缩放至0-1区间，计算方法为：

x*=(x-min)/(max-min)；其中，x*为标准化以后的特征数值；x为输入的某一维度的特征数值；min和max分别表示对应维度的特征数值的最小值和最大值。

5.根据权利要求1所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤4具体为：

LSTM分类模型的预训练使用步骤2获取的已标注的初始训练数据集进行，初始训练数据集中每一条加密会话样本在步骤3完成特征选取后，由 LSTM自动选取有效特征；

LSTM分类模型训练过程中，通过向前操作，将 LSTM分类模型上一时刻的信息以记忆流的形态不断向后传递，影响每个新输入数据的处理和每个阶段的输出；

LSTM提取完隐藏特征后发送到两层全连接的神经网络和1个Softmax神经网络分类器，Softmax生成一个Z维的数组作为输出结果，分别表示加密会话样本属于Z种类别的概率；

其中，Z表示加密会话样本所属类别。

6.根据权利要求5所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤4中，使用交叉熵损失Loss作为LSTM分类模型的优化目标函数，并且利用反向传播算法回传梯度以最小化目标函数，目标函数的计算方式为：

；

其中，i为Z种样本类别中的其中之一；

D表示训练数据集中会话样本的数量，d表示其中一条会话样本；

p _d(i)表示当前样本d的真实类别概率分布中第i个类别的取值；

7.根据权利要求1所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤5具体为：

将未标注的一条流量会话数据d’，输入到步骤4预训练完成的LSTM分类模型中；

LSTM分类模型输出该流量会话数据d’在Z个类别上的概率分布p _d ’，选取概率分布p _d ’中数值最大的概率值对应的类别，作为当前会话所属的类别，将该类别记为c。

8.根据权利要求7所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤6具体为：

对于类别未知的流量会话数据d’，将步骤5中LSTM分类模型在最后一个隐藏层的计算结果作为该流量会话数据d’的隐含特征向量，将其作为DBSCAN聚类算法的输入；

类别未知的流量会话数据d’的特征向量输入DBSCAN聚类算法后，会输出流量会话数据d’所属的类别，将该流量会话数据d’ 所属的类别记为c’。

9.根据权利要求1所述的基于不完全监督的暗网加密流量分类方法，其特征在于，

所述步骤8具体为：

步骤8.1. 依据步骤1对加密流量数据进行预处理，得到流量会话样本；

步骤8.2. 依据步骤3对预处理后的流量会话样本进行特征选取；