CN111209959A

CN111209959A - 基于数据包时序的加密网页流量分割点识别方法

Info

Publication number: CN111209959A
Application number: CN202010007696.6A
Authority: CN
Inventors: 杨超; 孟献昆; 苏锐丹; 尤伟; 郑昱; 郭刚; 陈明哲
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-01-05
Filing date: 2020-01-05
Publication date: 2020-05-29
Anticipated expiration: 2040-01-05
Also published as: CN111209959B

Abstract

本发明提出了一种基于数据包时序的加密网页流量分割点识别方法，用于解决现有技术中存在的识别准确率较低的技术问题。实现步骤为，获取加密网页流量原始数据集T；定义加密网页流量数据T_i的矢量数据包；基于数据包时序获取加密网页流量数据T_i的序列段集合；获取加密网页流量序列T_i'的时序特征向量集合CT_i和标签集合Y_i；获取训练集集合V^train和测试集集合V^test；构建分类模型M；最后获取加密网页流量分割点的识别结果。本发明通过数据包时序对数据包进行分段，并以此进行特征构造对加密网页流量分割点进行识别，解决了现有技术识别准确率较低的问题，同时由于采用分段处理，能够提高识别方法的效率。

Description

基于数据包时序的加密网页流量分割点识别方法

技术领域

本发明属于网络安全与用户隐私领域，涉及一种加密网页流量分割点识别方法，具体涉及一种基于数据包时序的加密网页流量分割点识别方法。

背景技术

加密通信网络的目的是隐藏通信双方的关系和内容，一旦双方建立了加密通信网络，通信内容就会被加密，第三方的源和目标IP等路由信息就会被隐藏。然而这种高度的匿名性却给那些利用网络从事违法犯罪的不法分子提供了便利，同时也给网络监管机构带来了更大的困难和挑战。

当用户通过加密通信网络进行网页访问活动时产生的多次请求和应答的流量就是加密网页流量，使用网站指纹识别技术对这些加密网页流量进行识别，就可以在不破解用户加密数据的情况下得到用户访问的网页信息，对用户网络进行内容审查。在对进行加密网页流量进行网站指纹识别时，其中最重要的一步就是确保输入的待识别流量是单网页加密流量，因为现有的网站指纹识别技术都是基于单网页流量进行网站指纹模型的构建，如果输入的待检测加密网页流量是多个网页的混杂流量，就会造成网站指纹模型的识别错误，影响网站指纹识别技术在现实场景的应用。所以对每个加密网页流量的起始数据包即加密网页流量分割点进行识别，在此基础上得到单网页的加密网页流量，就显得格外重要。

目前对于加密网页流量的分割点识别方法的研究，主要基于对加密网页流量数据包的时间间隔的分析。其中有两种方法较为广泛，一种是根据数据包的时间间隔对加密网页流量进行分析，一种是使用机器学习的方法提取分割点周围的特征进行分析。前一种方法是最朴素的一种方法，根据数据包之间的间隔确认加密网页分割点的位置，当相邻数据包之间的时间间隔大于某一数值时，就认为第二个数据包为加密网页流量的分割点，这种方法仅仅能识别两个网页起始访问时间时间间隔较大时产生的加密网页流量分割点，对同时打开两个网页即零时间间隔加密网页流量分割点就不能识别，因此，后一种方法得到了更多研究人员的关注。

目前，使用机器学习的方法提取分割点周围的特征进行分析的方法大多包含以下三个步骤：1)加密网页流量数据获取与预处理；2)特征提取；3)机器学习分类器构建。在数据获取与预处理步骤中，需要获取加密网页流量数据，并将数据进行初步分组与序列化；在特征提取步骤中，需要从每组数据中提取具有能显著区分分割点和非分割点特性的特征；在分类器构建步骤中，需要将从特征提取步骤中得到特征输入到分类器中进行训练，并得到分类模型。目前最常用的分类算法是随机森林。

2016年，滑铁卢大学的Tao Wang等人在Proceedings on Privacy EnhancingTechnologies期刊上发表了论文“On Realistically Attacking Tor with WebsiteFingerprinting”，提出一种使用机器学习对加密网页流量数据进行分割点识别的方法。该方法主要使用数据包之间的时间间隔特点进行特征提取和构造，对分割点的识别使用了23个特征，包括每个数据包与相邻的5个数据包之间的到达时间间隔、每个数据包与下一个传入数据包之间的间隔时间，以及每个数据包与前后50个数据包之间到达时间的时间间隔平均值、标准差、最大值，以及每个数据包前2、4、6、…16、18个数据包和后2、4、6、…16、18个数据包之间的到达时间的时间间隔，以及每个数据包前后5、10个数据包中传入数据包和传出数据包的数量。然而这种方法在用于加密网页流量分割点识别时，对于高度同质化的流量所提取出的时间间隔特征不能明显的区分网页分割点，因此对于零时间间隔的加密网页流量的识别准确率较低，除此之外该方法在构建特征向量时需要对每个数据包前后的50个数据包进行时间间隔的统计和缓存，需要很大的计算空间，影响分割点的识别效率。

发明内容

本发明的目的在于克服上述现有技术存在的不足，提出了一种基于数据包时序的加密网页流量分割点识别方法，用于解决现有技术中存在的识别准确率较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取加密网页流量原始数据集T：

(1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络，计算机D包含匿名浏览器C和抓包软件，网页服务器S包括至少一个网页W；

(1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问，并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取，得到加密网页流量原始数据集T，T＝{T₁,T₂,...T_i,...T_n}，其中，T_i表示第i次抓取的包含m个数据包的加密网页流量数据，第j个数据包的时间戳和长度分别为t_ij和l_ij，n≥2，m≥3；

(2)定义加密网页流量数据T_i的矢量数据包：

定义加密网页流量数据T_i中带有方向的数据包为矢量数据包，匿名浏览器C通过加密网络N向网页服务器S发送的请求数据包为矢量数据包-l_ij，网页服务器S通过加密网络N向匿名浏览器C发送的应答数据包为矢量数据包+l_ij；

(3)基于数据包时序获取加密网页流量数据T_i的序列段集合：

(3a)将加密网页流量数据T_i中数据包的矢量数据包记为l'_ij，并以[时间戳，矢量]为格式对T_i进行序列化，得到加密网页流量序列T'_i：

T'_i＝{(t_i1,l'_i1),(t_i2,l'_i2),...,(t_ij,l'_ij),...(t_im,l'_im)}；

(3b)以Δt为单位时间对加密网页流量序列T'_i进行划分，得到包括s段子序列的序列段集合T'_i＝{T'_i1,T'_i2,...T'_ik,...T'_is}，其中，T'_ik表示第k段序列；

(4)获取加密网页流量序列T'_i的时序特征向量集合CT_i和标签集合Y_i：

(4b)计算第k段T'_ik内序列个数的统计值和矢量的统计值，以及第k段T'_ik内相邻序列之间时间间隔的统计值，其中：

第k段T'_ik内序列个数的统计值和矢量的统计值，包括矢量为“+”的序列个数scn_k和序列总矢量和scl_k、矢量为“-”的序列个数csn_k和序列总矢量和csl_k、scl_k的长度|scl_k|和csl_k的长度|csl_k|、序列总个数vn_k和序列总矢量和vl_k，以及序列总矢量长度vl'_k、scn_k与vn_k的比值

csn_k与vn_k的比值

scl_k与vl_k的比值

csl_k与vl_k的比值

|scl_k|与vl'_k的比值

|csl_k|与vl'_k的比值

k≥2，其中：

vn_k＝scn_k+csn_k

vl_k＝scl_k+csl_k

vl'_k＝|scl_k|+|csl_k|

第k段T'_ik内相邻序列之间时间间隔的统计值，包括最大时间间隔、最小时间间隔、所有时间间隔的平均值和标准差；

(4c)将加密网页流量序列T'_i中第k段T'_ik内序列个数的统计值和矢量的统计值，以及第k段T'_ik内相邻序列之间时间间隔的统计值组成时序特征向量CT_ik，并将T'_i中s段的时序特征向量组成时序特征向量集合CT_i：

CT_i＝{CT_i1,CT_i2,...CT_ik,...CT_is}；

(4d)通过标签y_ik对第k段T'_ik的时序特征向量CT_ik进行标注，得到标签集合Y_i：Y_i＝{y_i1,y_i2,...y_ik,...y_is}，其中：

0表示为加密网页流量的分割点，1表示为非加密网页流量的分割点；

(5)获取训练集集合V^train和测试集集合V^test：

将从时序特征向量集合CT_i中随机选取的半数以上的特征向量，以及每个特征向量在标签集合Y_i中对应的标签作为训练集V_i ^train，n个训练集组成训练集集合V^train，同时将CT_i其余特征向量和每个特征向量在标签集合Y_i中对应的标签作为测试集V_i ^test，n个测试集组成测试集集合V^test，其中：

(6)构建分类模型M：

将训练集集合V^train作为随机森林算法的输入进行训练，得到分类模型M；

(7)获取加密网页流量分割点的识别结果：

将测试集集合V^test作为分类模型M的输入进行分类，得到V^test中每个特征向量的标签。

本发明与现有技术相比，具有如下优点：

1.本发明根据数据包时序对数据包序列进行分段，并统计段内的序列个数的统计值和矢量的统计值等多种特征构建训练集，输入随机森林算法进行训练得出一个分类模型来识别加密网页流量的分割点，根据数据包时序对数据包序列进行分段处理，所提取的段内不同方向数据包序列个数和长度特征能够通过双向流量分布不均衡的特点，体现出加密网页流量分割点与非分割点的明显区别，从而使得根据时序特征通过随机森林算法建立的分类模型能够准确识别加密网络流量的分割点，与现有技术相比，有效提高了加密网页流量分割点识别准确率。

2.本发明在进行特征构建时，根据数据包时序对数据包序列进行分段，对段内的数据包序列进行个数和长度的统计计算，避免对每个数据包进行分割点特征向量构造的步骤，减少加密网页流量分割点识别时特征向量的数量，解决了现有技术对每个数据包进行特征构造的方法特征提取繁琐、识别效率低的问题，提高了特征向量的构造效率，与现有技术相比，提高了加密网页流量分割点识别的效率。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明包括如下步骤：

步骤1)获取加密网页流量原始数据集T：

步骤1a)构建包含计算机D、加密网络N和网页服务器S的数据采集网络，计算机D包含匿名浏览器C和抓包软件，网页服务器S包括至少一个网页W；

该步骤中的计算机D可以包含装有Windows系统、Linux系统等主流操作系统的计算机，本实例中选取的是一款Windows 10系统的计算机；加密网络N可以包括洋葱网络、虚拟专用网络(Virtual Private Network，VPN)等的网络，本实例中选取的是洋葱网络；匿名浏览器C可以包含洋葱头(The Onion Router，Tor)浏览器、火狐浏览器、谷歌浏览器等主流浏览器，本实例选取的是洋葱头浏览器；抓包软件包含Wireshark、Sniffer、tcpdump等主流抓包软件，本实例选用的是Wireshark作为抓包软件；网页服务器S可以包含所有可以提供网页服务的网页服务器，本实例选择百度搜索的网页服务器；网页W可以包含网页服务器所提供的所有单页网页，本实例选择百度搜索首页作为访问的目标网页，网页地址为“https://www.baidu.com/”；

步骤1b)匿名浏览器C通过加密网络N对网页服务器S所包含的网页W进行n次访问，并通过抓包软件对每次访问的请求和应答过程所产生的双向加密网页流量数据进行抓取，得到加密网页流量原始数据集T，T＝{T₁,T₂,...T_i,...T_n}，其中，T_i表示第i次抓取的包含m个数据包的加密网页流量数据，第j个数据包的时间戳和长度分别为t_ij和l_ij，n≥2，m≥3；

在对访问网页的流量进行抓取时，因为访问的网页W不同或者网络波动等因素的影响，每次抓取的数据包数目m可能不一样，本实例中对百度搜索首页进行访问2次，因为网络波动的影响，两次得到的数据包数目m值分别为506，522；

步骤2)定义加密网页流量数据T_i的矢量数据包：

本实例中洋葱头浏览器通过洋葱网络向百度首页的网页服务器发送的一个请求数据包长度为565，则其矢量数据包表示为-565，百度首页的网页服务器通过洋葱网络向洋葱头浏览器发送的一个应答数据包长度为1448，则其矢量数据包表示为+1448；通过矢量数据包的定义，可以将数据包的方向和长度使用一个矢量表示，通过矢量数据包在数据包方向和长度的基础上进行丰富的特征构建，可以表现出数据包的局部分布特性，这是接下来分割点特征构造的基础；

步骤3)基于数据包时序获取加密网页流量数据T_i的序列段集合：

步骤3a)将加密网页流量数据T_i中数据包的矢量数据包记为l'_ij，并以[时间戳，矢量]为格式对T_i进行序列化，得到加密网页流量序列T'_i：

T'_i＝{(t_i1,l'_i1),(t_i2,l'_i2),...,(t_ij,l'_ij),...(t_im,l'_im)}；

步骤3b)以Δt为单位时间对加密网页流量序列T'_i进行划分，得到包括s段子序列的序列段集合T'_i＝{T'_i1,T'_i2,...T'_ik,...T'_is}，其中，T'_ik表示第k段序列；

Δt可以根据实验效果进行调整，本实例为了方便计算，选择Δt的单位时间为1s；本实例中T₁第一个序列的时间戳为分为1564713657.091550s，最后一个序列的时间戳为1564713665.372121s，时间间隔为8.280571s，故将这个序列分为9个序列，与第一个序列时间戳时间间隔小于1s的序列在T₁的第一个子序列中，与第一个序列时间戳时间间隔大于等于1s并小于2s的序列在T₁的第二个子序列中，与第一个序列时间戳时间间隔大于等于2s并小于3s的序列在T₁的第二个子序列中，…以此类推，得到9个子序列；

步骤4)获取加密网页流量序列T'_i的时序特征向量集合CT_i和标签集合Y_i：

步骤4b)计算第k段T'_ik内序列个数的统计值和矢量的统计值，以及第k段T'_ik内相邻序列之间时间间隔的统计值，其中：

csn_k与vn_k的比值

scl_k与vl_k的比值

csl_k与vl_k的比值

|scl_k|与vl'_k的比值

|csl_k|与vl'_k的比值

k≥2，其中：

vn_k＝scn_k+csn_k

vl_k＝scl_k+csl_k

vl'_k＝|scl_k|+|csl_k|

步骤4b)中对第k段T'_ik内子序列矢量的统计值，需要该子序列的总矢量和进行计算，计算时以矢量形式进行求和运算，计算结果以数字形式表示，当矢量计算结果为“-”时，以负整数形式表示该计算结果，其数值为-1与矢量长度的乘积，当矢量计算结果为“+”时，以正整数形式表示该计算结果，其数值为+1与矢量长度的乘积，对单个方向的序列总矢量和csl_k与scl_k计算时遵循一样的表示原则；

步骤4c)将加密网页流量序列T'_i中第k段T'_ik内序列个数的统计值和矢量的统计值，以及第k段T'_ik内相邻序列之间时间间隔的统计值组成时序特征向量CT_ik，并将T'_i中s段的时序特征向量组成时序特征向量集合CT_i：

CT_i＝{CT_i1,CT_i2,...CT_ik,...CT_is}；

步骤4d)通过标签y_ik对第k段T'_ik的时序特征向量CT_ik进行标注，得到标签集合Y_i：Y_i＝{y_i1,y_i2,...y_ik,...y_is}，其中：

步骤3)和步骤4)中根据数据包时序对数据包序列进行分段处理，所提取的段内不同方向数据包序列个数和长度特征能够通过双向流量分布不均衡的特点，体现出加密网页流量分割点与非分割点的明显区别，与现有技术相比，其特征更能表现出分割点的特征，从而使得后续步骤中根据时序特征通过随机森林算法建立的分类模型能够准确识别加密网络流量的分割点，有效提高了加密网页流量分割点识别准确率，除此之外，根据数据包时序对数据包序列进行分段，对段内的数据包序列进行个数和长度的统计计算，避免对每个数据包进行分割点特征向量构造的步骤，减少加密网页流量分割点识别时特征向量的数量，解决了现有技术对每个数据包进行特征构造的方法特征提取繁琐、识别效率低的问题，提高了特征向量的构造效率，与现有技术相比，提高了加密网页流量分割点识别的效率；

步骤5)获取训练集集合V^train和测试集集合V^test：

步骤6)构建分类模型M：

步骤6a)从训练集集合V^train中有放回的随机抽取q次，每次抽取的p个特征向量组成子训练集集合V'^train：

其中

表示第c个子训练集，1≤c≤q，且

CT_cr为第r个特征向量，且CT_cr＝(fea₁,fea₂,...,fea_u,fea_w)，fea_u为第u个特征，w为特征总数；

步骤6b)从

中的特征向量CT_cr中随机选择o_r个特征组成部分特征向量CT_c'_r，

对应的部分特征向量组成部分特征子训练集

并将

作为决策树算法的输入构建决策树tree_c，所有决策树组成分类模型M：

M＝{tree₁,tree₂,...tree_c,...tree_q}

其中tree_c为第c个决策树，1≤c≤q；

步骤6a)步骤6b)是通过调用python的sklearn库中的随机森林算法函数RandomForestClassifier来实现的，将训练集合V^train作为随机森林算法的输入，以与步骤6a)步骤6b)相同的方式，构建分类模型M；

步骤7)获取加密网页流量分割点的识别结果：

将测试集集合V^test作为分类模型M的输入进行分类，得到V^test中每个特征向量的标签，当标签为1时，说明预测样本为非加密网页流量的分割点，当标签为0时，说明该预测样本为加密网页流量的分割点。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于数据包时序的加密网页流量分割点识别方法，其特征在于，包括以下步骤：

(1)获取加密网页流量原始数据集T：

(2)定义加密网页流量数据T_i的矢量数据包：

(3)基于数据包时序获取加密网页流量数据T_i的序列段集合：

(3a)将加密网页流量数据T_i中数据包的矢量数据包记为l′_ij，并以[时间戳，矢量]为格式对T_i进行序列化，得到加密网页流量序列T′_i：

T′_i＝{(t_i1,l′_i1),(t_i2,l′_i2),...,(t_ij,l′_ij),...(t_im,l′_im)}；

(3b)以Δt为单位时间对加密网页流量序列T′_i进行划分，得到包括s段子序列的序列段集合T′_i＝{T′_i1,T′_i2,...T′_ik,...T′_is}，其中，T′_ik表示第k段序列；

(4)获取加密网页流量序列T′_i的时序特征向量集合CT_i和标签集合Y_i：

(4b)计算第k段T′_ik内序列个数的统计值和矢量的统计值，以及第k段T′_ik内相邻序列之间时间间隔的统计值，其中：

第k段T′_ik内序列个数的统计值和矢量的统计值，包括矢量为“+”的序列个数scn_k和序列总矢量和scl_k、矢量为“-”的序列个数csn_k和序列总矢量和csl_k、scl_k的长度|scl_k|和csl_k的长度|csl_k|、序列总个数vn_k和序列总矢量和vl_k，以及序列总矢量长度vl′_k、scn_k与vn_k的比值