CN111835720B

CN111835720B - 基于特征增强的vpn流量web指纹识别方法

Info

Publication number: CN111835720B
Application number: CN202010521565.XA
Authority: CN
Inventors: 陈丹伟; 王晶
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-04-07
Anticipated expiration: 2040-06-10
Also published as: CN111835720A

Abstract

本发明揭示了一种基于特征增强的VPN流量WEB指纹识别方法，包括如下步骤：S1、抓取SSL/TLS隧道内的流量信息并加以保存；S2、对所抓取的流量信息进行预处理，设置过滤规则、删除不符合过滤规则的流量信息；S3、根据流量密度完成激增周期特征提取；S4、利用LightGBM算法、结合经过预处理的流量信息及所提取的激增周期特征，建立并训练识别模型；S5、将所得到的、经过训练的识别模型应用于WEB指纹识别过程中，最终完成WEB指纹识别。本发明通过使用新的分类特征流量激增周期，在特征增强的基础上有效地提高了指纹识别对加密流量的识别性能。

Description

基于特征增强的VPN流量WEB指纹识别方法

技术领域

本发明为一种识别方法，具体涉及一种适用于动态网络页面识别的基于特征增强的VPN流量WEB指纹识别方法，属于网络安全技术领域。

背景技术

近年来，随着互联网技术的不断发展，网络规模以及网络用户量的不断扩大、网络流量的多样性也随之不断增加。据中国互联网协会发布的《中国互联网发展报告2019》显示，截至2019年6月，全球网民的总数突破50亿，互联网普及率超过50%。在网民规模和网络普及率逐年递增、网络用户对于安全隐私等问题的关注度不断提升的大背景下，整个网络环境对于网络安全、数据保护方面的需求也越来越强烈。为了保护用户的隐私、满足网络安全的需求，通信过程中需要对网络流量进行加密。

同时，再加上现代企事业单位业务的多样化发展和单位本身在网络方面的各项需求也在不断增长，单位总部与分部之间、单位内人员与出差人员之间的联系日趋紧密。在上述需求的催生下，相关技术开始陆续出现并逐步发展。

VPN（Virtual Private Network，虚拟专用网络）技术可以在公共互联网建立一个安全的、专用的网络以实现单位、员工之间的信息交流和信息共享。VPN技术使用安全的隧道将网络流量进行传输，传输的信息和源/目标地址会在隧道的两端进行加密。因此，这项技术不仅能够从根本上满足企事业用户的低通信费和高灵活性双重需求，而且还可以提供与专线相媲美的通信安全保障。

总体而言，VPN技术是一种低成本、安全、灵活的远程网络接入解决方案。但是在实际的技术应用中，加密流量也给恶意网路攻击提供了可乘之机，因此，出于有效改善服务质量、进一步提升网络管理水平的考虑，加密流量识别技术的开发就显得尤为重要。

Web指纹识别技术是一种通过流量分析来识别数据流目标网址的数据挖掘技术，其应用非常广泛。例如在企业网络管理中，企业的系统管理员会使用该技术阻止外部人员访问某些内部网站。但当通信过程被加密时，客户端会使用VPN隧道技术或代理服务器来隐藏目标网站的信息，由于数据流在加密过程中会隐藏相应数据，指纹识别的难度会因此增加。

综上所述，如何基于上述研究现状，设计出一种全新的、VPN流量WEB指纹识别方法，在增强特征的基础上提高WEB指纹识别技术在网页流量中的识别率，克服现有技术中所存在的诸多不足，也就成为了本领域内技术人员所共同关注的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种适用于动态网络页面识别的基于特征增强的VPN流量WEB指纹识别方法，具体如下。

一种基于特征增强的VPN流量WEB指纹识别方法，包括如下步骤：

S1、抓取SSL / TLS隧道内的流量信息并加以保存；

S2、对所抓取的流量信息进行预处理，设置过滤规则、删除不符合过滤规则的流量信息；

S3、根据流量密度完成激增周期特征提取；

S4、利用LightGBM算法、结合经过预处理的流量信息及所提取的激增周期特征，建立并训练识别模型；

S5、将所得到的、经过训练的识别模型应用于WEB指纹识别过程中，最终完成WEB指纹识别。

优选地，S1具体包括如下步骤：使用流量抓包软件WireShark在出口路由器上抓取SSL / TLS隧道内的流量信息，将所抓取的流量信息以pcap格式逐一保存为数据包，随后将全部数据包进行汇总、得到原始数据集。

优选地，S2具体包括如下步骤：使用WireShark对所述原始数据集内的数据包进行处理，设置过滤规则、按照所述过滤规则对不符合条件的数据包进行删除、得到经过预处理后的原始数据集。

优选地，所述过滤规则包括：删除所述原始数据集内的非TCP数据包及纯ACK数据包。

优选地，S3具体包括如下步骤：

S31、将所述原始数据集内的数据包转换为时间戳序列，所述时间戳序列内包含若干成对数据，所述成对数据包括一一对应的时间及数据包大小；

S32、将所述时间戳序列转换为在100ms非重叠窗口中计算出的比特率时间序列；

S33、以自适应的方法寻找特定阈值

，从所述比特率时间序列中提取高于特定阈值

的连续时间序列，将结果作为激增周期并加以输出。

优选地，S33中所述以自适应的方法寻找特定阈值

，具体包括如下步骤：从可能的最大值开始、降序寻找阈值，直至寻找到某一阈值可以使突发周期覆盖80％以上的已传输流量信息。

优选地，在所述激增周期中，连续时间序列按照其时序降序排列；所述激增周期中传输的流量信息的字节总数为该激增周期的大小，所述激增周期的大小的矢量用作表示样本的特征。

优选地，S4具体包括如下步骤：

S41、将经过预处理后的原始数据集划分为训练集和测试集；

S42、将LightGBM分类器的参数设置为默认值，将所述训练集作为LightGBM算法的数据对所述LightGBM分类器进行训练；

S43、调整所述LightGBM分类器的参数，再次将所述训练集作为LightGBM算法的数据对所述LightGBM分类器进行训练，循环操作直至所述LightGBM分类器对所述训练集的应用类型识别效果达到预设值；

S44、使用测试集对所述LightGBM分类器的识别效果进行测试，若测试合格则结束流程，将所述LightGBM分类器作为识别模型；若测试不合格则返回S43，重复执行前序流程。

优选地，在S41中，将经过预处理后的原始数据集按比例划分为训练集和测试集，划分比例为训练集∶测试集=2∶1。

本发明的优点主要体现在以下几个方面：

本发明采用有监督学习的机器学习算法，提出了一种基于特征增强的VPN流量WEB指纹识别方法，并取得了较为理想的实验结果。本发明通过使用新的分类特征流量激增周期，在特征增强的基础上有效地提高了指纹识别对加密流量的识别性能。

与现有的网页流量识别方法相比，本发明提出的方法能够更加精确地感知动态网页流量的变化、增加流量识别的敏感度，进而得到更为准确的识别结果。

此外，本发明还为WEB指纹识别技术的相关研究和应用提供了一种全新的思路，为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸和深入研究，行业应用前景广阔。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的方法整体流程示意图；

图2为本发明的方法中激增周期特征提取部分的流程示意图。

具体实施方式

本发明揭示了一种基于特征增强的VPN流量WEB指纹识别方法，特别适用于动态网络页面识别，具体方案如下。

如图1所示，一种基于特征增强的VPN流量WEB指纹识别方法，包括如下步骤。

S1、抓取SSL / TLS隧道内的流量信息并加以保存。

在这一操作中，具体包括：使用流量抓包软件WireShark在出口路由器上抓取SSL/ TLS隧道内的流量信息，将所抓取的流量信息以pcap格式逐一保存为数据包，随后将全部数据包进行汇总、得到原始数据集。

S2、对所抓取的流量信息进行预处理，设置过滤规则、删除不符合过滤规则的流量信息。

在这一操作中，具体包括：使用WireShark对所述原始数据集内的数据包进行处理，设置过滤规则、按照所述过滤规则对不符合条件的数据包进行删除、得到经过预处理后的原始数据集。

所述过滤规则包括：删除所述原始数据集内的非TCP数据包及纯ACK数据包。

S3、根据流量密度完成激增周期特征提取。

在这一操作中，具体包括：

S33、以自适应的方法寻找特定阈值

，从所述比特率时间序列中提取高于特定阈值

的连续时间序列，将结果作为激增周期并加以输出。

此处所述以自适应的方法寻找特定阈值

，具体为，从可能的最大值开始、降序寻找阈值，直至寻找到某一阈值可以使突发周期覆盖80％以上的已传输流量信息。

选择最大的N个周期，其中N任意取值。在所述激增周期中，连续时间序列按照其时序降序排列；所述激增周期中传输的流量信息的字节总数为该激增周期的大小，所述激增周期的大小的矢量用作表示样本的特征。

S4、利用LightGBM算法、结合经过预处理的流量信息及所提取的激增周期特征，建立并训练识别模型，实现对动态网页加密数据流的识别分析。

在这一操作中，具体包括：

S41、将经过预处理后的原始数据集按照2：1的比例划分为训练集和测试集；

综上所述，本发明提出了一种基于特征增强的VPN流量WEB指纹识别方法，面对动态网页流量密度大、变化快的问题，根据流量密度的激增时间定义了一个新的特征流量激增周期，使用LightGBM算法，降低了建模时间，提高了动态网页流量识别率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

最后，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于特征增强的VPN流量WEB指纹识别方法，其特征在于，包括如下步骤：

S1、抓取SSL/TLS隧道内的流量信息并加以保存；

S2、对所抓取的流量信息进行预处理，设置过滤规则、删除不符合过滤规则的流量信息，包括如下步骤：

使用流量抓包软件WireShark对原始数据集内的数据包进行处理，设置过滤规则、按照所述过滤规则对不符合条件的数据包进行删除、得到经过预处理后的原始数据集；

S3、根据流量密度完成激增周期特征提取，具体包括如下步骤：

S33、以自适应的方法寻找特定阈值I_th，从所述比特率时间序列中提取高于特定阈值I_th的连续时间序列，将结果作为激增周期并加以输出；

S4、利用LightGBM算法、结合经过预处理的流量信息及所提取的激增周期特征，建立并训练识别模型，具体包括如下步骤：

S43、调整所述LightGBM分类器的参数，再次将所述训练集作为LightGBM 算法的数据对所述LightGBM分类器进行训练，循环操作直至所述LightGBM分类器对所述训练集的应用类型识别效果达到预设值；

S44、使用测试集对所述LightGBM分类器的识别效果进行测试，若测试合格则结束流程，将所述LightGBM分类器作为识别模型；若测试不合格则返回S43，重复执行前序流程；

2.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法，其特征在于，S1具体包括如下步骤：使用流量抓包软件WireShark在出口路由器上抓取SSL/TLS隧道内的流量信息，将所抓取的流量信息以pcap格式逐一保存为数据包，随后将全部数据包进行汇总、得到原始数据集。

3.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法，其特征在于，所述过滤规则包括：删除所述原始数据集内的非TCP数据包及纯ACK数据包。

4.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法，其特征在于，S33中所述以自适应的方法寻找特定阈值I_th，具体包括如下步骤：从可能的最大值开始、降序寻找阈值，直至寻找到某一阈值可以使突发周期覆盖80％以上的已传输流量信息。

5.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法，其特征在于：在所述激增周期中，连续时间序列按照其时序降序排列；所述激增周期中传输的字节总数为该激增周期的大小，所述激增周期的大小的矢量用作表示样本的特征。