CN114650259A - 一种分层级检测的vpn工具精细化分类方法 - Google Patents

一种分层级检测的vpn工具精细化分类方法 Download PDF

Info

Publication number
CN114650259A
CN114650259A CN202210238154.9A CN202210238154A CN114650259A CN 114650259 A CN114650259 A CN 114650259A CN 202210238154 A CN202210238154 A CN 202210238154A CN 114650259 A CN114650259 A CN 114650259A
Authority
CN
China
Prior art keywords
vpn
tool
classification
flow
protocol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210238154.9A
Other languages
English (en)
Other versions
CN114650259B (zh
Inventor
吉庆兵
倪绿林
胡晓艳
谈程
罗杰
康璐
刘成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
CETC 30 Research Institute
Original Assignee
Northwestern Polytechnical University
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, CETC 30 Research Institute filed Critical Northwestern Polytechnical University
Priority to CN202210238154.9A priority Critical patent/CN114650259B/zh
Publication of CN114650259A publication Critical patent/CN114650259A/zh
Application granted granted Critical
Publication of CN114650259B publication Critical patent/CN114650259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/29Flow control; Congestion control using a combination of thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4641Virtual LANs, VLANs, e.g. virtual private networks [VPN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种分层级检测的VPN工具精细化分类方法,包括如下步骤:(1)根据不同VPN工具密钥协商特征,提取单条流的长度特征与时间相关性特征,生成不同代理协议的流量分类数据集;(2)构建基于集成学习的GBDT‑LR训练模型,实现对VPN工具代理协议层级的初步分类;(3)针对初步分类的代理协议类别,构建第二层级对不同VPN工具分类的1D‑CNN训练模型;(4)使用最大熵分类器优化1D‑CNN训练模型的预测VPN工具类别与真实标签差距,并最终输出VPN工具的识别结果。本发明能够精确地识别出多种私有VPN工具,提高网络空间安全的监管效率和力度。

Description

一种分层级检测的VPN工具精细化分类方法
技术领域
本发明涉及网络安全技术领域,尤其涉及一种分层级检测的VPN 工具精细化分类方法。
背景技术
随着网络空间安全形势的日益严峻,对于网络空间的监管也更加 严格。为了逃避监管,私有VPN工具通过启用匿名代理的方式,隐 匿用户真实网络地址,帮助用户访问境外节点,获取境外相关信息, 给我国的网络监管与网络安全治理带来了不小的挑战,针对这部分私 有VPN工具开展分类研究与安全监管已经刻不容缓。
随着VPN技术的发展,被VPN技术掩盖下的加密流量失去了原 有流量的报文头部信息、流量侧信道特征信息,导致针对VPN流量 的检测识别与分类更加困难。同时,调研发现,当前私有VPN工具 大多采用SOCKS5代理协议、Shadowsocks代理协议或是Vmess协议 实现真实网络地址的隐匿与用户行为数据的加密传输,被各式代理协 议掩盖下的加密流量特征相对混淆,且无明显握手过程,难以准确分 类。
国内外近年来针对VPN代理协议分类的研究也尚处于起步阶段, 其主要通过提取常规流量特征并输入RF模型的方式进行分类。整体 分类准确性欠佳,存在一些局限性。而涉及到具体的VPN工具分类, 启用同一款代理协议的VPN工具其流量呈现出高度相似性,常规加 密流量检测手段难以识别,业界目前也还没有开展相应研究,有待进 一步探索。因此研究现状总结为:1)目前针对VPN代理协议分类的 研究存在一定的缺口,对国内用户所主要使用的VPN工具也没有总 体性代理协议的分析研究;2)目前针对使用具备混淆性代理协议的 VPN工具检测准确率较低,难以做到有效的VPN工具监管。
发明内容
为实现对私有VPN工具的精细化分类识别,进而为打击我国 VPN灰色犯罪提供有力支撑。本发明针对国内市场上主流的多款私 有VPN工具展开研究,并针对VPN工具代理方式差异性、流量特征 混淆性问题,提出了一种分层级检测的VPN工具精细化分类方法。
为了达到上述目的,本发明提供如下技术方案:
一种分层级检测的VPN工具精细化分类方法,包括如下步骤:
(1)根据不同VPN工具密钥协商特征,提取单条流的长度特征 与时间相关性特征,生成不同代理协议的流量分类数据集;
(2)构建基于集成学习的GBDT-LR训练模型,实现对VPN工 具代理协议层级的初步分类;
(3)针对初步分类的代理协议类别,构建第二层级对不同VPN 工具分类的1D-CNN训练模型;
(4)使用最大熵分类器优化1D-CNN训练模型的预测VPN工具 类别与真实标签差距,并最终输出VPN工具的识别结果。
进一步地,步骤(1)具体包括如下子步骤:
(1.1)选取多种VPN工具及V2Ray工具,将其使用的代理协议 类型作为标签数据,并在校园网中运行以构建相应网络流量数据;
(1.2)调研VPN工具所使用代理协议在密钥协商阶段的具体过 程,了解协议差异性特征;
(1.3)针对不同代理协议的密钥协商阶段的协议差异性特征, 提取与密钥协商相关联的流量特征,包括长度特征与时间相关性特征;
(1.4)重复(1.1)~(1.3)操作,直到提取所有VPN工具在密 钥协商阶段相关联的流量特征。
进一步地,步骤(1.1)中VPN工具使用的代理协议包括SOCKS5 和Shadowsocks代理协议,V2Ray工具使用VMess代理协议。
进一步地,步骤(1.3)具体包括如下子步骤:
(1.3.1)对上述步骤(1.1)中得到的网络流量数据,提取单条 流上的前n个数据包长度信息,作为VPN工具代理协议的流量特征;
(1.3.2)提取单条流的时间相关性的多种流量特征;
(1.3.3)提取单条流的IP数据包序列的多种流量特征,以及连 接特性的多种特征,最终与步骤(1.3.1)、(1.3.2)提取的流量特征构 成代理协议的分类特征集。
进一步地,步骤(2)具体包括如下子步骤:
(2.1)首先对经过步骤(1)得到的网络流量数据进行特征学习, 构造多轮决策树,以生成一个GBDT强分类器;
(2.2)利用训练好的GBDT模型对网络流量数据的流量特征进 行迭代分类,并以每棵迭代分裂过程中生成的决策树的预测值所属叶 子节点作为路径特征进行one-hot编码,将当前待分类样本i被成功标 记到的叶子节点标记为1,其余叶子节点标记为0,得到该样本的一 条标记向量Wi
(2.3)综合该样本在每一棵决策树上的输出向量 {W1,W2,W3,..,Wn},最终构成一个对每一棵决策树输出的叶节点位置 都进行了标记的离散特征向量;
(2.4)将该离散特征向量作为新训练数据输入LR模型,并通过 sigmoid函数输出结果,完成对于GBDT-LR模型的训练。
进一步地,步骤(2.1)具体包括如下子步骤:
(2.1.1)GBDT算法使用CART树即分类回归树作为决策树分类 器,通过多轮次的迭代产生多个弱分类器;
(2.1.2)在每一轮迭代后计算损失函数的负梯度,将其作为残差 的近似值;
(2.1.3)每个分类器的训练基于上一轮预测结果的残差,以串行 的方式向残差减少的方向即梯度下降方向进行梯度迭代,并生成一颗 新的决策树;
(2.1.4)最终将每个弱分类器得到的结果进行基函数线性相加, 从而得到最后的强分类器。
进一步地,步骤(2.4)中LR模型是一种基于逻辑回归的分类方 法,其使用sigmoid函数将线性回归的结果映射为[0,1]之间的概率数 值,并作为最终的代理协议分类结果输出,其函数表示为:
Figure BDA0003540677390000041
其中z表示为已标记的离散特征向量,σ(z)表示为映射的概率值。
进一步地,步骤(3)具体包括如下子步骤:
(3.1)筛选出第一层经过代理协议分类后的待测VPN工具流量;
(3.2)对输入的流量进行特征预处理操作,并转换为IDX文件 作为训练集;
(3.3)针对不同代理协议分别构建1D-CNN训练模型,以自动 提取其VPN工具的可识别特征。
进一步地,步骤(3.1)中经过第一层级代理协议分类后,此时 的流量已按照数据流级别分为Shadowsocks代理协议流量、SOCKS5 代理协议流量、VMess代理协议流量;VMess代理协议流量对应的 VPN工具为V2Ray,此时该工具已能被第一层级准确识别,因此不 进入第二层级的识别模型。
进一步地,步骤(3.2)具体包括如下子步骤:
(3.2.1)分别对经过步骤(3.1)得到的SOCKS5代理协议流量 与Shadowsocks代理协议流量删除报文以太网帧头、删除重复报文与 空白报文、删除报文中对于应用程序识别与流量分类毫无意义的标识 符;
(3.2.2)将各数据包长度统一为441字节的阈值长度,对超过 441字节长度的数据包进行修剪,少于此阈值的数据包在末尾处进行 补零操作;
(3.2.3)将预处理后的数据报文转换为二维格式的IDX文件。
进一步地,步骤(3.3)中,使用SOCKS5代理协议的VPN工具 流量握手过程相对明显,而使用Shadowsocks代理协议的VPN工具 流量特征相对混淆,采用两个1D-CNN训练模型分别对不同的代理协 议的数据进行训练。
进一步地,步骤(3.3)中所构建的1D-CNN训练模型结构包括 多组CNN单元、一个Flatten层与一组分类单元,每组CNN单元都 包括两个执行卷积操作的一维卷积层和一个执行池化操作的最大池 化层,其工作过程为:CNN单元对经过步骤(3.2)得到的IDX格式 数据提取一维序列,并以卷积操作和池化操作的方式抽取重要特征; Flatten层执行“压平”操作,将多维特征一维化,并将数据输入后续 的分类单元。
进一步地,步骤(4)中1D-CNN训练模型的分类单元最终通过 Softmax分类器输出多种VPN工具精细化分类结果,其结果为概率预 测值,选择最大概率值对应的识别结果即为最终识别的VPN工具具体 类别。
与现有技术相比,本发明具有如下有益效果:
(1)本发明能够精确地识别出多种私有VPN工具,提高网络空 间安全的监管效率和力度;
(2)本发明基于分层阶段构建可识别模型,不仅填补了在VPN 代理协议部分的研究空缺,还满足了不同粒度的VPN工具分类需求;
(3)本发明在复杂的网络环境中进行数据集采样测试,检测结 果更加符合真实网络环境下的需求。
附图说明
图1为本发明提供的分层级检测的VPN工具精细化识别框架。
图2为针对SOCKS代理协议和Shadowsocks代理协议的两种 1D-CNN识别模型。
图3为各分类算法以及本发明识别VPN工具的总体对比结果。
图4为各分类算法以及本发明对5种私有VPN工具的准确率对 比结果。
图5为各分类算法以及本发明对5种私有VPN工具的召回率对 比结果。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说 明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用 以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发 明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领 域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施 例,都属于本发明保护的范围。
本实施例提出了一种分层级检测的VPN工具精细化分类方法, 检测框架如图1所示,包括两个层级,第一层级为基于GBDT-LR的 代理协议分类方法,首先分析各工具代理协议的密钥协商过程,提取 与密钥协商过程相关联的部分流量特征,如一条流交互的前N个数 据包的包长度特征与部分时间相关性特征,建立GBDT-LR模型完成 SOCKS5代理协议、Shadowsocks代理协议与Vmess协议(V2Ray工 具)分类;第二层级为基于1D-CNN的VPN工具精细化分类方法, 通过深度学习模型中的1D-CNN模型自动提取该VPN工具私有特征, 并进行自动学习与训练,从而实现对具体的四款私有VPN工具的精 准分类,并结合第一层级针对V2Ray工具的分类结果,最终实现对5 款私有VPN工具(PandaVPN、蓝灯、佛跳墙VPN、旋风加速器与 V2Ray工具)的精细化分类识别。
具体地说,本实施例的VPN工具精细化分类方法包括以下步骤:
(1)根据不同VPN工具密钥协商特征,提取单条流的长度特征 与时间相关性特征,生成不同代理协议的流量分类数据集。
本步骤的具体过程如下:
(1.1)选取四种国内私有免费VPN工具及V2Ray工具,将其使 用的代理协议类型作为标签数据,并在校园网中运行以构建相应网络 流量数据。其中调研不同的测评网站中提出的2021年10款最好用的 免费VPN工具,以及结合对私有VPN工具的使用情况,选择了其中PandaVPN、蓝灯、佛跳墙VPN、旋风加速器以及V2Ray工具,前面 四种采用SOCKS5、Shadowsocks代理协议,V2Ray工具使用VMess 代理协议。其中前四款私有VPN工具信息如下表1所示。
表1四种私有VPN工具信息
Figure BDA0003540677390000081
(1.2)调研VPN工具所使用代理协议在密钥协商阶段的具体过 程,了解协议差异性特征;
(1.3)针对不同代理协议的密钥协商阶段的协议差异性特征, 提取与密钥协商相关联的流量特征,包括长度特征与时间相关性特征。 具体过程如下:
(1.3.1)对上述步骤(1.1)中得到的网络流量数据,提取单 条流上的前6个数据包长度信息,作为VPN工具代理协议的特征;
(1.3.2)提取单条流的时间相关性的5种流量特征;
(1.3.3)提取单条流的IP数据包序列的4种流量特征,以及 连接特性的2种特征,最终构成17种代理协议的分类特征集。实验 中使用的17组特征类别及名称如下表2所示。
表2实验使用的17组特征信息
Figure BDA0003540677390000082
Figure BDA0003540677390000091
(1.4)重复(1.1)~(1.3)操作,直到提取所有VPN工具在密 钥协商阶段相关联的流量特征。本实施例在实验部分的数据集构建中, 对于每一款VPN工具,其VPN工具自身流量与VPN工具业务流量 均进行50次独立拨测,从而构造出总计500条VPN工具网络流量样本,基本满足本实验需要。
(2)构建基于集成学习的GBDT-LR训练模型,实现对VPN工 具代理协议层级的初步分类。
本步骤中具体过程如下:
(2.1)首先对经过步骤(1)得到的训练集流量数据进行特征学 习,构造多轮决策树,以生成一个GBDT强分类器。具体过程如下:
(2.1.1)GBDT算法使用CART树(Classification and Regression Trees,分类回归树)作为决策树分类器,通过多轮次的迭代产生多 个弱分类器。其中随着迭代次数越多,决策树最大深度递增,针对代 理协议的分类准确率也随之上升,本实施例从实验结果中得到当最大 决策树最大深度为8时得到最高的准确率,超过8则会出现过拟合现 象;
(2.1.2)在每一轮迭代后计算损失函数的负梯度,将其作为残 差的近似值;
(2.1.3)每个分类器的训练基于上一轮预测结果的残差,以串 行的方式向残差减少的方向(即梯度下降方向)进行梯度迭代,并生 成一颗新的决策树;
(2.1.4)最终将每个弱分类器得到的结果进行基函数线性相加, 从而得到最后的强分类器。
(2.2)利用训练好的GBDT模型对网络流量数据的17组流量特 征进行迭代分类,并以每棵迭代分裂过程中生成的决策树的预测值所 属叶子节点作为路径特征进行one-hot编码,将当前待分类样本i被成 功标记到的叶子节点标记为1,其余叶子节点标记为0,得到该样本 的一条标记向量Wi
(2.3)综合该样本在每一棵决策树上的输出向量 {W1,W2,W3,..,Wm},最终构成一个对每一棵决策树输出的叶节点位置 都进行了标记的离散特征向量;
(2.4)将该离散特征向量作为新训练数据输入LR模型,并通过 sigmoid函数输出结果,完成对于GBDT-LR模型的训练。其中 GBDT-LR模型训练的超参数如下表3所示。
表3 GBDT-LR模型超参数列表
Figure BDA0003540677390000101
LR模型是一种基于逻辑回归的分类方法,其使用sigmoid函数 将线性回归的结果映射为[0,1]之间的概率数值,并作为最终的代理协 议分类结果输出,其函数表示为:
Figure BDA0003540677390000102
其中z表示为已标记的离散特征向量,σ(z)表示为映射的概率值。
(3)针对初步分类的代理协议类别,构建第二层级对不同VPN 工具分类的1D-CNN训练模型。
本步骤具体过程如下:
(3.1)筛选出第一层经过代理协议分类后的待测VPN工具流量。 经过第一层级代理协议分类后,此时的流量已按照数据流级别分为 Shadowsocks代理协议流量、SOCKS5代理协议流量、VMess代理协 议流量。VMess代理协议流量对应的VPN工具为V2Ray,此时该工具已能被第一层级准确识别,因此不进入第二层级的识别模型;
(3.2)对输入的流量进行特征预处理操作,并转换为IDX文件 作为训练集。具体过程如下:
(3.2.1)分别对经过步骤(3.1)得到的SOCKS5代理协议流 量与Shadowsocks代理协议流量删除报文以太网帧头、删除重复报文 与空白报文、删除报文中对于应用程序识别与流量分类毫无意义的标 识符;
(3.2.2)将各数据包长度统一为441字节的阈值长度,对超过 441字节长度的数据包进行修剪,少于此阈值的数据包在末尾处进行 补零操作;
(3.2.3)将预处理后的数据报文转换为二维格式的IDX文件。
(3.3)针对不同代理协议分别构建1D-CNN训练模型,以自动 提取其VPN工具的可识别特征。由于使用SOCKS5代理协议的VPN 工具流量握手过程相对明显,识别模型较为简单,而使用Shadowsocks 代理协议的VPN工具流量特征相对混淆,此时要考虑更为复杂的识别模型。因此考虑到训练模型的泛化能力,避免模型过拟合,采用两 个1D-CNN模型分别对不同的代理协议的数据进行训练。本实施例所 构建的1D-CNN模型结构如图2所示,该模型结构包括多组CNN单 元、一个Flatten层与一组分类单元。1D-CNN to SOCKS5模型中两 组CNN单元与一组分类单元所选取的参数如表4与表5所示, 1D-CNN to Shadowsocks模型中参数如表6与表7所示。
表4 1D-CNN to SOCKS5模型CNN单元参数列表
Figure BDA0003540677390000121
表5 1D-CNN to SOCKS5模型分组单元参数列表
Figure BDA0003540677390000122
表6 1D-CNN to Shadowsocks模型CNN单元参数列表
Figure BDA0003540677390000123
Figure BDA0003540677390000131
表7 1D-CNN to Shadowsocks模型分组单元参数列表
Figure BDA0003540677390000132
模型中每组CNN单元都包括两个执行卷积操作的一维卷积层和 一个执行池化操作的最大池化层,其工作过程为:CNN单元对经过 步骤(3.2)得到的IDX格式数据提取一维序列,并以卷积操作和池 化操作的方式抽取重要特征;Flatten层执行“压平”操作,将多维特 征一维化,并将数据输入后续的分类单元。
(4)使用最大熵分类器优化1D-CNN训练模型的预测VPN工具 类别与真实标签差距,并最终输出VPN工具的识别结果。
本实施例的实验以及对比实验的设置将从两层级中分别使用的 集成学习方法以及深度学习方法出发,选用相对应的模型方法以验证 面向代理协议的两层级VPN工具分类方法的有效性。其中,集成学 习方面,本实施例的对比实验选择了同样包含多个决策树分类器的随 机森林模型;而深度学习方面,本实施例的对比实验选择了与 1D-CNN模型类似的2D-CNN模型。最终的总体对比实验结果如图3 所示,针对每一种VPN工具的精细化识别准确率如图4所示,召回 率结果如图5所示。
需要说明的是,对于本实施例,为了简便描述,故将其表述为一 系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描 述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述 的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请 所必须的。

Claims (13)

1.一种分层级检测的VPN工具精细化分类方法,其特征在于,包括如下步骤:
(1)根据不同VPN工具密钥协商特征,提取单条流的长度特征与时间相关性特征,生成不同代理协议的流量分类数据集;
(2)构建基于集成学习的GBDT-LR训练模型,实现对VPN工具代理协议层级的初步分类;
(3)针对初步分类的代理协议类别,构建第二层级对不同VPN工具分类的1D-CNN训练模型;
(4)使用最大熵分类器优化1D-CNN训练模型的预测VPN工具类别与真实标签差距,并最终输出VPN工具的识别结果。
2.根据权利要求1所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(1)具体包括如下子步骤:
(1.1)选取多种VPN工具及V2Ray工具,将其使用的代理协议类型作为标签数据,并在校园网中运行以构建相应网络流量数据;
(1.2)调研VPN工具所使用代理协议在密钥协商阶段的具体过程,了解协议差异性特征;
(1.3)针对不同代理协议的密钥协商阶段的协议差异性特征,提取与密钥协商相关联的流量特征,包括长度特征与时间相关性特征;
(1.4)重复(1.1)~(1.3)操作,直到提取所有VPN工具在密钥协商阶段相关联的流量特征。
3.根据权利要求2所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(1.1)中VPN工具使用的代理协议包括SOCKS5和Shadowsocks代理协议,V2Ray工具使用VMess代理协议。
4.根据权利要求3所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(1.3)具体包括如下子步骤:
(1.3.1)对上述步骤(1.1)中得到的网络流量数据,提取单条流上的前n个数据包长度信息,作为VPN工具代理协议的流量特征;
(1.3.2)提取单条流的时间相关性的多种流量特征;
(1.3.3)提取单条流的IP数据包序列的多种流量特征,以及连接特性的多种特征,最终与步骤(1.3.1)、(1.3.2)提取的流量特征构成代理协议的分类特征集。
5.根据权利要求4所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(2)具体包括如下子步骤:
(2.1)首先对经过步骤(1)得到的网络流量数据进行特征学习,构造多轮决策树,以生成一个GBDT强分类器;
(2.2)利用训练好的GBDT模型对网络流量数据的流量特征进行迭代分类,并以每棵迭代分裂过程中生成的决策树的预测值所属叶子节点作为路径特征进行one-hot编码,将当前待分类样本i被成功标记到的叶子节点标记为1,其余叶子节点标记为0,得到该样本的一条标记向量Wi
(2.3)综合该样本在每一棵决策树上的输出向量{W1,W2,W3,..,Wn},最终构成一个对每一棵决策树输出的叶节点位置都进行了标记的离散特征向量;
(2.4)将该离散特征向量作为新训练数据输入LR模型,并通过sigmoid函数输出结果,完成对于GBDT-LR模型的训练。
6.根据权利要求5所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(2.1)具体包括如下子步骤:
(2.1.1)GBDT算法使用CART树即分类回归树作为决策树分类器,通过多轮次的迭代产生多个弱分类器;
(2.1.2)在每一轮迭代后计算损失函数的负梯度,将其作为残差的近似值;
(2.1.3)每个分类器的训练基于上一轮预测结果的残差,以串行的方式向残差减少的方向即梯度下降方向进行梯度迭代,并生成一颗新的决策树;
(2.1.4)最终将每个弱分类器得到的结果进行基函数线性相加,从而得到最后的强分类器。
7.根据权利要求5所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(2.4)中LR模型是一种基于逻辑回归的分类方法,其使用sigmoid函数将线性回归的结果映射为[0,1]之间的概率数值,并作为最终的代理协议分类结果输出,其函数表示为:
Figure FDA0003540677380000031
其中z表示为已标记的离散特征向量,σ(z)表示为映射的概率值。
8.根据权利要求3-7任一项所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(3)具体包括如下子步骤:
(3.1)筛选出第一层经过代理协议分类后的待测VPN工具流量;
(3.2)对输入的流量进行特征预处理操作,并转换为IDX文件作为训练集;
(3.3)针对不同代理协议分别构建1D-CNN训练模型,以自动提取其VPN工具的可识别特征。
9.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(3.1)中经过第一层级代理协议分类后,此时的流量已按照数据流级别分为Shadowsocks代理协议流量、SOCKS5代理协议流量、VMess代理协议流量;VMess代理协议流量对应的VPN工具为V2Ray,此时该工具已能被第一层级准确识别,因此不进入第二层级的识别模型。
10.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(3.2)具体包括如下子步骤:
(3.2.1)分别对经过步骤(3.1)得到的SOCKS5代理协议流量与Shadowsocks代理协议流量删除报文以太网帧头、删除重复报文与空白报文、删除报文中对于应用程序识别与流量分类毫无意义的标识符;
(3.2.2)将各数据包长度统一为441字节的阈值长度,对超过441字节长度的数据包进行修剪,少于此阈值的数据包在末尾处进行补零操作;
(3.2.3)将预处理后的数据报文转换为二维格式的IDX文件。
11.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(3.3)中,使用SOCKS5代理协议的VPN工具流量握手过程相对明显,而使用Shadowsocks代理协议的VPN工具流量特征相对混淆,采用两个1D-CNN训练模型分别对不同的代理协议的数据进行训练。
12.根据权利要求8所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(3.3)中所构建的1D-CNN训练模型结构包括多组CNN单元、一个Flatten层与一组分类单元,每组CNN单元都包括两个执行卷积操作的一维卷积层和一个执行池化操作的最大池化层,其工作过程为:CNN单元对经过步骤(3.2)得到的IDX格式数据提取一维序列,并以卷积操作和池化操作的方式抽取重要特征;Flatten层执行“压平”操作,将多维特征一维化,并将数据输入后续的分类单元。
13.根据权利要求12所述的一种分层级检测的VPN工具精细化分类方法,其特征在于,步骤(4)中1D-CNN训练模型的分类单元最终通过Softmax分类器输出多种VPN工具精细化分类结果,其结果为概率预测值,选择最大概率值对应的识别结果即为最终识别的VPN工具具体类别。
CN202210238154.9A 2022-03-10 2022-03-10 一种分层级检测的vpn工具精细化分类方法 Active CN114650259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210238154.9A CN114650259B (zh) 2022-03-10 2022-03-10 一种分层级检测的vpn工具精细化分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210238154.9A CN114650259B (zh) 2022-03-10 2022-03-10 一种分层级检测的vpn工具精细化分类方法

Publications (2)

Publication Number Publication Date
CN114650259A true CN114650259A (zh) 2022-06-21
CN114650259B CN114650259B (zh) 2023-05-26

Family

ID=81994194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210238154.9A Active CN114650259B (zh) 2022-03-10 2022-03-10 一种分层级检测的vpn工具精细化分类方法

Country Status (1)

Country Link
CN (1) CN114650259B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109104441A (zh) * 2018-10-24 2018-12-28 上海交通大学 一种基于深度学习的加密恶意流量的检测系统和方法
WO2020143226A1 (zh) * 2019-01-07 2020-07-16 浙江大学 一种基于集成学习的工业控制系统入侵检测方法
CN112468324A (zh) * 2020-11-11 2021-03-09 国网冀北电力有限公司信息通信分公司 基于图卷积神经网络的加密流量分类方法及装置
CN112769633A (zh) * 2020-12-07 2021-05-07 深信服科技股份有限公司 一种代理流量检测方法、装置、电子设备及可读存储介质
CN112822189A (zh) * 2021-01-04 2021-05-18 中国电力科学研究院有限公司 一种流量识别方法及装置
CN113676348A (zh) * 2021-08-04 2021-11-19 南京赋乐科技有限公司 一种网络通道破解方法、装置、服务器及存储介质
CN113794687A (zh) * 2021-08-17 2021-12-14 北京天融信网络安全技术有限公司 基于深度学习的恶意加密流量检测方法及装置
CN114095446A (zh) * 2021-11-10 2022-02-25 北京天融信网络安全技术有限公司 一种加密流量分类模型训练方法、检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109104441A (zh) * 2018-10-24 2018-12-28 上海交通大学 一种基于深度学习的加密恶意流量的检测系统和方法
WO2020143226A1 (zh) * 2019-01-07 2020-07-16 浙江大学 一种基于集成学习的工业控制系统入侵检测方法
CN112468324A (zh) * 2020-11-11 2021-03-09 国网冀北电力有限公司信息通信分公司 基于图卷积神经网络的加密流量分类方法及装置
CN112769633A (zh) * 2020-12-07 2021-05-07 深信服科技股份有限公司 一种代理流量检测方法、装置、电子设备及可读存储介质
CN112822189A (zh) * 2021-01-04 2021-05-18 中国电力科学研究院有限公司 一种流量识别方法及装置
CN113676348A (zh) * 2021-08-04 2021-11-19 南京赋乐科技有限公司 一种网络通道破解方法、装置、服务器及存储介质
CN113794687A (zh) * 2021-08-17 2021-12-14 北京天融信网络安全技术有限公司 基于深度学习的恶意加密流量检测方法及装置
CN114095446A (zh) * 2021-11-10 2022-02-25 北京天融信网络安全技术有限公司 一种加密流量分类模型训练方法、检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENG YUAN LIN: "An Efficient Approach for Encrypted Traffic Classification using CNN and Bidirectional GRU" *
WEI WANG: "End-to-end encrypted traffic classification with one-dimensional convolution neural networks" *
王垚 等: "GBDT与LR融合模型在加密流量识别中的应用" *

Also Published As

Publication number Publication date
CN114650259B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN110380989B (zh) 网络流量指纹特征二阶段多分类的物联网设备识别方法
CN107766933B (zh) 一种解释卷积神经网络的可视化方法
CN106909643B (zh) 基于知识图谱的社交媒体大数据主题发现方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN110351301B (zh) 一种http请求双层递进式异常检测方法
CN110532564B (zh) 一种基于cnn和lstm混合模型的应用层协议在线识别方法
CN114615093B (zh) 基于流量重构与继承学习的匿名网络流量识别方法及装置
CN109167680A (zh) 一种基于深度学习的流量分类方法
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
CN113079069A (zh) 一种面向大规模加密网络流量的混合粒度训练及分类方法
CN114386514B (zh) 基于动态网络环境下的未知流量数据识别方法及装置
CN108737290A (zh) 基于负载映射与随机森林的非加密流量识别方法
Wu et al. Tdae: Autoencoder-based automatic feature learning method for the detection of dns tunnel
CN109359701A (zh) 一种高精度提取和快速分类的三维模型数据解析方法
Liu et al. Dynamic traffic classification algorithm and simulation of energy Internet of things based on machine learning
CN111178543A (zh) 一种基于元学习的概率域泛化学习方法
CN112383488A (zh) 一种适用于加密与非加密数据流的内容识别方法
CN112633475A (zh) 大规模网络突发流量识别模型、方法及模型的训练方法
CN114650259A (zh) 一种分层级检测的vpn工具精细化分类方法
CN104468276A (zh) 基于随机抽样多分类器的网络流量识别方法
CN117318980A (zh) 一种面向小样本场景的自监督学习恶意流量检测方法
CN116827873A (zh) 一种基于局部-全局特征注意力的加密应用流量分类方法及系统
CN114666273B (zh) 一种面向应用层未知网络协议的流量分类方法
CN113852612B (zh) 一种基于随机森林的网络入侵检测方法
CN114358177A (zh) 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant