CN114650259A

CN114650259A - 一种分层级检测的vpn工具精细化分类方法

Info

Publication number: CN114650259A
Application number: CN202210238154.9A
Authority: CN
Inventors: 吉庆兵; 倪绿林; 胡晓艳; 谈程; 罗杰; 康璐; 刘成
Original assignee: Northwestern Polytechnical University; CETC 30 Research Institute
Current assignee: Northwestern Polytechnical University; CETC 30 Research Institute
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-21
Anticipated expiration: 2042-03-10
Also published as: CN114650259B

Abstract

本发明公开了一种分层级检测的VPN工具精细化分类方法，包括如下步骤：(1)根据不同VPN工具密钥协商特征，提取单条流的长度特征与时间相关性特征，生成不同代理协议的流量分类数据集；(2)构建基于集成学习的GBDT‑LR训练模型，实现对VPN工具代理协议层级的初步分类；(3)针对初步分类的代理协议类别，构建第二层级对不同VPN工具分类的1D‑CNN训练模型；(4)使用最大熵分类器优化1D‑CNN训练模型的预测VPN工具类别与真实标签差距，并最终输出VPN工具的识别结果。本发明能够精确地识别出多种私有VPN工具，提高网络空间安全的监管效率和力度。

Description

一种分层级检测的VPN工具精细化分类方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种分层级检测的VPN 工具精细化分类方法。

背景技术

随着网络空间安全形势的日益严峻，对于网络空间的监管也更加严格。为了逃避监管，私有VPN工具通过启用匿名代理的方式，隐匿用户真实网络地址，帮助用户访问境外节点，获取境外相关信息，给我国的网络监管与网络安全治理带来了不小的挑战，针对这部分私有VPN工具开展分类研究与安全监管已经刻不容缓。

随着VPN技术的发展，被VPN技术掩盖下的加密流量失去了原有流量的报文头部信息、流量侧信道特征信息，导致针对VPN流量的检测识别与分类更加困难。同时，调研发现，当前私有VPN工具大多采用SOCKS5代理协议、Shadowsocks代理协议或是Vmess协议实现真实网络地址的隐匿与用户行为数据的加密传输，被各式代理协议掩盖下的加密流量特征相对混淆，且无明显握手过程，难以准确分类。

国内外近年来针对VPN代理协议分类的研究也尚处于起步阶段，其主要通过提取常规流量特征并输入RF模型的方式进行分类。整体分类准确性欠佳，存在一些局限性。而涉及到具体的VPN工具分类，启用同一款代理协议的VPN工具其流量呈现出高度相似性，常规加密流量检测手段难以识别，业界目前也还没有开展相应研究，有待进一步探索。因此研究现状总结为：1)目前针对VPN代理协议分类的研究存在一定的缺口，对国内用户所主要使用的VPN工具也没有总体性代理协议的分析研究；2)目前针对使用具备混淆性代理协议的 VPN工具检测准确率较低，难以做到有效的VPN工具监管。

发明内容

为实现对私有VPN工具的精细化分类识别，进而为打击我国 VPN灰色犯罪提供有力支撑。本发明针对国内市场上主流的多款私有VPN工具展开研究，并针对VPN工具代理方式差异性、流量特征混淆性问题，提出了一种分层级检测的VPN工具精细化分类方法。

为了达到上述目的，本发明提供如下技术方案：

一种分层级检测的VPN工具精细化分类方法，包括如下步骤：

(1)根据不同VPN工具密钥协商特征，提取单条流的长度特征与时间相关性特征，生成不同代理协议的流量分类数据集；

(2)构建基于集成学习的GBDT-LR训练模型，实现对VPN工具代理协议层级的初步分类；

(3)针对初步分类的代理协议类别，构建第二层级对不同VPN 工具分类的1D-CNN训练模型；

(4)使用最大熵分类器优化1D-CNN训练模型的预测VPN工具类别与真实标签差距，并最终输出VPN工具的识别结果。

进一步地，步骤(1)具体包括如下子步骤：

(1.1)选取多种VPN工具及V2Ray工具，将其使用的代理协议类型作为标签数据，并在校园网中运行以构建相应网络流量数据；

(1.2)调研VPN工具所使用代理协议在密钥协商阶段的具体过程，了解协议差异性特征；

(1.3)针对不同代理协议的密钥协商阶段的协议差异性特征，提取与密钥协商相关联的流量特征，包括长度特征与时间相关性特征；

(1.4)重复(1.1)～(1.3)操作，直到提取所有VPN工具在密钥协商阶段相关联的流量特征。

进一步地，步骤(1.1)中VPN工具使用的代理协议包括SOCKS5 和Shadowsocks代理协议，V2Ray工具使用VMess代理协议。

进一步地，步骤(1.3)具体包括如下子步骤：

(1.3.1)对上述步骤(1.1)中得到的网络流量数据，提取单条流上的前n个数据包长度信息，作为VPN工具代理协议的流量特征；

(1.3.2)提取单条流的时间相关性的多种流量特征；

(1.3.3)提取单条流的IP数据包序列的多种流量特征，以及连接特性的多种特征，最终与步骤(1.3.1)、(1.3.2)提取的流量特征构成代理协议的分类特征集。

进一步地，步骤(2)具体包括如下子步骤：

(2.1)首先对经过步骤(1)得到的网络流量数据进行特征学习，构造多轮决策树，以生成一个GBDT强分类器；

(2.2)利用训练好的GBDT模型对网络流量数据的流量特征进行迭代分类，并以每棵迭代分裂过程中生成的决策树的预测值所属叶子节点作为路径特征进行one-hot编码，将当前待分类样本i被成功标记到的叶子节点标记为1，其余叶子节点标记为0，得到该样本的一条标记向量W_i；

(2.3)综合该样本在每一棵决策树上的输出向量 {W₁,W₂,W₃,..,W_n}，最终构成一个对每一棵决策树输出的叶节点位置都进行了标记的离散特征向量；

(2.4)将该离散特征向量作为新训练数据输入LR模型，并通过 sigmoid函数输出结果，完成对于GBDT-LR模型的训练。

进一步地，步骤(2.1)具体包括如下子步骤：

(2.1.1)GBDT算法使用CART树即分类回归树作为决策树分类器，通过多轮次的迭代产生多个弱分类器；

(2.1.2)在每一轮迭代后计算损失函数的负梯度，将其作为残差的近似值；

(2.1.3)每个分类器的训练基于上一轮预测结果的残差，以串行的方式向残差减少的方向即梯度下降方向进行梯度迭代，并生成一颗新的决策树；

(2.1.4)最终将每个弱分类器得到的结果进行基函数线性相加，从而得到最后的强分类器。

进一步地，步骤(2.4)中LR模型是一种基于逻辑回归的分类方法，其使用sigmoid函数将线性回归的结果映射为[0,1]之间的概率数值，并作为最终的代理协议分类结果输出，其函数表示为：

其中z表示为已标记的离散特征向量，σ(z)表示为映射的概率值。

进一步地，步骤(3)具体包括如下子步骤：

(3.1)筛选出第一层经过代理协议分类后的待测VPN工具流量；

(3.2)对输入的流量进行特征预处理操作，并转换为IDX文件作为训练集；

(3.3)针对不同代理协议分别构建1D-CNN训练模型，以自动提取其VPN工具的可识别特征。

进一步地，步骤(3.1)中经过第一层级代理协议分类后，此时的流量已按照数据流级别分为Shadowsocks代理协议流量、SOCKS5 代理协议流量、VMess代理协议流量；VMess代理协议流量对应的 VPN工具为V2Ray，此时该工具已能被第一层级准确识别，因此不进入第二层级的识别模型。

进一步地，步骤(3.2)具体包括如下子步骤：

(3.2.1)分别对经过步骤(3.1)得到的SOCKS5代理协议流量与Shadowsocks代理协议流量删除报文以太网帧头、删除重复报文与空白报文、删除报文中对于应用程序识别与流量分类毫无意义的标识符；

(3.2.2)将各数据包长度统一为441字节的阈值长度，对超过 441字节长度的数据包进行修剪，少于此阈值的数据包在末尾处进行补零操作；

(3.2.3)将预处理后的数据报文转换为二维格式的IDX文件。

进一步地，步骤(3.3)中，使用SOCKS5代理协议的VPN工具流量握手过程相对明显，而使用Shadowsocks代理协议的VPN工具流量特征相对混淆，采用两个1D-CNN训练模型分别对不同的代理协议的数据进行训练。

进一步地，步骤(3.3)中所构建的1D-CNN训练模型结构包括多组CNN单元、一个Flatten层与一组分类单元，每组CNN单元都包括两个执行卷积操作的一维卷积层和一个执行池化操作的最大池化层，其工作过程为：CNN单元对经过步骤(3.2)得到的IDX格式数据提取一维序列，并以卷积操作和池化操作的方式抽取重要特征； Flatten层执行“压平”操作，将多维特征一维化，并将数据输入后续的分类单元。

进一步地，步骤(4)中1D-CNN训练模型的分类单元最终通过 Softmax分类器输出多种VPN工具精细化分类结果，其结果为概率预测值，选择最大概率值对应的识别结果即为最终识别的VPN工具具体类别。

与现有技术相比，本发明具有如下有益效果：

(1)本发明能够精确地识别出多种私有VPN工具，提高网络空间安全的监管效率和力度；

(2)本发明基于分层阶段构建可识别模型，不仅填补了在VPN 代理协议部分的研究空缺，还满足了不同粒度的VPN工具分类需求；

(3)本发明在复杂的网络环境中进行数据集采样测试，检测结果更加符合真实网络环境下的需求。

附图说明

图1为本发明提供的分层级检测的VPN工具精细化识别框架。

图2为针对SOCKS代理协议和Shadowsocks代理协议的两种 1D-CNN识别模型。

图3为各分类算法以及本发明识别VPN工具的总体对比结果。

图4为各分类算法以及本发明对5种私有VPN工具的准确率对比结果。

图5为各分类算法以及本发明对5种私有VPN工具的召回率对比结果。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提出了一种分层级检测的VPN工具精细化分类方法，检测框架如图1所示，包括两个层级，第一层级为基于GBDT-LR的代理协议分类方法，首先分析各工具代理协议的密钥协商过程，提取与密钥协商过程相关联的部分流量特征，如一条流交互的前N个数据包的包长度特征与部分时间相关性特征，建立GBDT-LR模型完成 SOCKS5代理协议、Shadowsocks代理协议与Vmess协议(V2Ray工具)分类；第二层级为基于1D-CNN的VPN工具精细化分类方法，通过深度学习模型中的1D-CNN模型自动提取该VPN工具私有特征，并进行自动学习与训练，从而实现对具体的四款私有VPN工具的精准分类，并结合第一层级针对V2Ray工具的分类结果，最终实现对5 款私有VPN工具(PandaVPN、蓝灯、佛跳墙VPN、旋风加速器与 V2Ray工具)的精细化分类识别。

具体地说，本实施例的VPN工具精细化分类方法包括以下步骤：

(1)根据不同VPN工具密钥协商特征，提取单条流的长度特征与时间相关性特征，生成不同代理协议的流量分类数据集。

本步骤的具体过程如下：

(1.1)选取四种国内私有免费VPN工具及V2Ray工具，将其使用的代理协议类型作为标签数据，并在校园网中运行以构建相应网络流量数据。其中调研不同的测评网站中提出的2021年10款最好用的免费VPN工具，以及结合对私有VPN工具的使用情况，选择了其中PandaVPN、蓝灯、佛跳墙VPN、旋风加速器以及V2Ray工具，前面四种采用SOCKS5、Shadowsocks代理协议，V2Ray工具使用VMess 代理协议。其中前四款私有VPN工具信息如下表1所示。

表1四种私有VPN工具信息

(1.3)针对不同代理协议的密钥协商阶段的协议差异性特征，提取与密钥协商相关联的流量特征，包括长度特征与时间相关性特征。具体过程如下：

(1.3.1)对上述步骤(1.1)中得到的网络流量数据，提取单条流上的前6个数据包长度信息，作为VPN工具代理协议的特征；

(1.3.2)提取单条流的时间相关性的5种流量特征；

(1.3.3)提取单条流的IP数据包序列的4种流量特征，以及连接特性的2种特征，最终构成17种代理协议的分类特征集。实验中使用的17组特征类别及名称如下表2所示。

表2实验使用的17组特征信息

(1.4)重复(1.1)～(1.3)操作，直到提取所有VPN工具在密钥协商阶段相关联的流量特征。本实施例在实验部分的数据集构建中，对于每一款VPN工具，其VPN工具自身流量与VPN工具业务流量均进行50次独立拨测，从而构造出总计500条VPN工具网络流量样本，基本满足本实验需要。

(2)构建基于集成学习的GBDT-LR训练模型，实现对VPN工具代理协议层级的初步分类。

本步骤中具体过程如下：

(2.1)首先对经过步骤(1)得到的训练集流量数据进行特征学习，构造多轮决策树，以生成一个GBDT强分类器。具体过程如下：

(2.1.1)GBDT算法使用CART树(Classification and Regression Trees，分类回归树)作为决策树分类器，通过多轮次的迭代产生多个弱分类器。其中随着迭代次数越多，决策树最大深度递增，针对代理协议的分类准确率也随之上升，本实施例从实验结果中得到当最大决策树最大深度为8时得到最高的准确率，超过8则会出现过拟合现象；

(2.1.3)每个分类器的训练基于上一轮预测结果的残差，以串行的方式向残差减少的方向(即梯度下降方向)进行梯度迭代，并生成一颗新的决策树；

(2.2)利用训练好的GBDT模型对网络流量数据的17组流量特征进行迭代分类，并以每棵迭代分裂过程中生成的决策树的预测值所属叶子节点作为路径特征进行one-hot编码，将当前待分类样本i被成功标记到的叶子节点标记为1，其余叶子节点标记为0，得到该样本的一条标记向量W_i；

(2.3)综合该样本在每一棵决策树上的输出向量 {W₁,W₂,W₃,..,W_m}，最终构成一个对每一棵决策树输出的叶节点位置都进行了标记的离散特征向量；

(2.4)将该离散特征向量作为新训练数据输入LR模型，并通过 sigmoid函数输出结果，完成对于GBDT-LR模型的训练。其中 GBDT-LR模型训练的超参数如下表3所示。

表3 GBDT-LR模型超参数列表

LR模型是一种基于逻辑回归的分类方法，其使用sigmoid函数将线性回归的结果映射为[0,1]之间的概率数值，并作为最终的代理协议分类结果输出，其函数表示为：

(3)针对初步分类的代理协议类别，构建第二层级对不同VPN 工具分类的1D-CNN训练模型。

本步骤具体过程如下：

(3.1)筛选出第一层经过代理协议分类后的待测VPN工具流量。经过第一层级代理协议分类后，此时的流量已按照数据流级别分为 Shadowsocks代理协议流量、SOCKS5代理协议流量、VMess代理协议流量。VMess代理协议流量对应的VPN工具为V2Ray，此时该工具已能被第一层级准确识别，因此不进入第二层级的识别模型；

(3.2)对输入的流量进行特征预处理操作，并转换为IDX文件作为训练集。具体过程如下：

(3.2.3)将预处理后的数据报文转换为二维格式的IDX文件。

(3.3)针对不同代理协议分别构建1D-CNN训练模型，以自动提取其VPN工具的可识别特征。由于使用SOCKS5代理协议的VPN 工具流量握手过程相对明显，识别模型较为简单，而使用Shadowsocks 代理协议的VPN工具流量特征相对混淆，此时要考虑更为复杂的识别模型。因此考虑到训练模型的泛化能力，避免模型过拟合，采用两个1D-CNN模型分别对不同的代理协议的数据进行训练。本实施例所构建的1D-CNN模型结构如图2所示，该模型结构包括多组CNN单元、一个Flatten层与一组分类单元。1D-CNN to SOCKS5模型中两组CNN单元与一组分类单元所选取的参数如表4与表5所示， 1D-CNN to Shadowsocks模型中参数如表6与表7所示。

表4 1D-CNN to SOCKS5模型CNN单元参数列表

表5 1D-CNN to SOCKS5模型分组单元参数列表

表6 1D-CNN to Shadowsocks模型CNN单元参数列表

表7 1D-CNN to Shadowsocks模型分组单元参数列表

模型中每组CNN单元都包括两个执行卷积操作的一维卷积层和一个执行池化操作的最大池化层，其工作过程为：CNN单元对经过步骤(3.2)得到的IDX格式数据提取一维序列，并以卷积操作和池化操作的方式抽取重要特征；Flatten层执行“压平”操作，将多维特征一维化，并将数据输入后续的分类单元。

本实施例的实验以及对比实验的设置将从两层级中分别使用的集成学习方法以及深度学习方法出发，选用相对应的模型方法以验证面向代理协议的两层级VPN工具分类方法的有效性。其中，集成学习方面，本实施例的对比实验选择了同样包含多个决策树分类器的随机森林模型；而深度学习方面，本实施例的对比实验选择了与 1D-CNN模型类似的2D-CNN模型。最终的总体对比实验结果如图3 所示，针对每一种VPN工具的精细化识别准确率如图4所示，召回率结果如图5所示。

需要说明的是，对于本实施例，为了简便描述，故将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

Claims

1.一种分层级检测的VPN工具精细化分类方法，其特征在于，包括如下步骤：

(3)针对初步分类的代理协议类别，构建第二层级对不同VPN工具分类的1D-CNN训练模型；

2.根据权利要求1所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(1)具体包括如下子步骤：

3.根据权利要求2所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(1.1)中VPN工具使用的代理协议包括SOCKS5和Shadowsocks代理协议，V2Ray工具使用VMess代理协议。

4.根据权利要求3所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(1.3)具体包括如下子步骤：

(1.3.2)提取单条流的时间相关性的多种流量特征；

5.根据权利要求4所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(2)具体包括如下子步骤：

(2.3)综合该样本在每一棵决策树上的输出向量{W₁,W₂,W₃,..,W_n}，最终构成一个对每一棵决策树输出的叶节点位置都进行了标记的离散特征向量；

(2.4)将该离散特征向量作为新训练数据输入LR模型，并通过sigmoid函数输出结果，完成对于GBDT-LR模型的训练。

6.根据权利要求5所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(2.1)具体包括如下子步骤：

7.根据权利要求5所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(2.4)中LR模型是一种基于逻辑回归的分类方法，其使用sigmoid函数将线性回归的结果映射为[0,1]之间的概率数值，并作为最终的代理协议分类结果输出，其函数表示为：

8.根据权利要求3-7任一项所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(3)具体包括如下子步骤：

(3.1)筛选出第一层经过代理协议分类后的待测VPN工具流量；

9.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(3.1)中经过第一层级代理协议分类后，此时的流量已按照数据流级别分为Shadowsocks代理协议流量、SOCKS5代理协议流量、VMess代理协议流量；VMess代理协议流量对应的VPN工具为V2Ray，此时该工具已能被第一层级准确识别，因此不进入第二层级的识别模型。

10.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(3.2)具体包括如下子步骤：

(3.2.2)将各数据包长度统一为441字节的阈值长度，对超过441字节长度的数据包进行修剪，少于此阈值的数据包在末尾处进行补零操作；

(3.2.3)将预处理后的数据报文转换为二维格式的IDX文件。

11.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(3.3)中，使用SOCKS5代理协议的VPN工具流量握手过程相对明显，而使用Shadowsocks代理协议的VPN工具流量特征相对混淆，采用两个1D-CNN训练模型分别对不同的代理协议的数据进行训练。

12.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(3.3)中所构建的1D-CNN训练模型结构包括多组CNN单元、一个Flatten层与一组分类单元，每组CNN单元都包括两个执行卷积操作的一维卷积层和一个执行池化操作的最大池化层，其工作过程为：CNN单元对经过步骤(3.2)得到的IDX格式数据提取一维序列，并以卷积操作和池化操作的方式抽取重要特征；Flatten层执行“压平”操作，将多维特征一维化，并将数据输入后续的分类单元。

13.根据权利要求12所述的一种分层级检测的VPN工具精细化分类方法，其特征在于，步骤(4)中1D-CNN训练模型的分类单元最终通过Softmax分类器输出多种VPN工具精细化分类结果，其结果为概率预测值，选择最大概率值对应的识别结果即为最终识别的VPN工具具体类别。