CN115002030A

CN115002030A - 一种网站指纹识别方法、装置、存储器和处理器

Info

Publication number: CN115002030A
Application number: CN202210455579.5A
Authority: CN
Inventors: 王灿; 吴宣够; 余正红; 赵伟
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-09-02

Abstract

本申请公开了一种网站指纹识别方法、装置、存储器和处理器，获取网站流量并按照会话分割成若干个子流量；按照同一预设的时间间隔划分所述每个子流量中的数据包；获取属于同一预设时间间隔内的数据包的时间标签，将所述时间标签的数量按照流量方向分别累加获得第一标签数量和第二标签数量；累加一预设的第一差额至所述第一标签数量中获得第三标签数量；将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序获得处理后的子流量数据；利用机器学习模型识别所述处理后的子流量数据并获得对应的网站指纹。通过本方法能够识别出对使用了WTF‑PAT的tor流量进行识别，可以确定用户正在通过加密连接访问哪些网站。

Description

一种网站指纹识别方法、装置、存储器和处理器

技术领域

本申请涉及网络安全技术领域，具体涉及一种网站指纹识别的方法。

背景技术

Tor是一种专门防范流量过滤、嗅探分析的技术，Tor在由“onion routers”(洋葱)组成的表层网(overlay network)上进行通信，可以实现匿名对外连接、匿名隐藏服务。具体的，Tor通过创建一个从客户端跨三个节点的加密电路来提供这种保护，这些加密电路在客户端和服务器(通常是一个网站)之间中继加密通信。在这种设计中，没有一个Tor节点或窃听者能够将用户的身份(即IP地址和位置)与其访问的网站联系起来。如图2示出了不同网站使用普通Tor加密，根据数据包大小提取特征策略图。图2a中以Facebook和Skype站点为例，在使用普通Tor加密访问后可以观察到两个站点在固定时间间隔内数据包大小总量的差异性还是非常明显的。图2b以Facebook和Skype为例，在5s的时间段内数据包总量的和时间的关系图，可以通过数据包总量观察到两个不同站点的差异性，也可以从宏观的角度说明数据包的大小是特征提取的有效手段。

但是，现有技术研究表明，Tor容易受到一类名为网站指纹(WF)的流量分析攻击。WF攻击允许对手了解客户端在线活动的信息，即使流量是加密的。为了执行攻击，一个被动的本地窃听者从客户端和入口节点之间的网络流量中收集侧通道信息。然后，攻击者从收集到的流量中提取各种特征，如数据包统计或流量突发模式，并将这些信息输入机器学习分类器，以识别客户端访问过哪个网站。这种攻击的有效的性和准确度都非常高。

现有技术中，网站指纹防御WTF-PAD技术能够防止上述流量分析攻击。具体的，网站指纹防御WTF-PAD技术在信道使用率较低时才添加填充，形成如图3所示的流量，每股子流的大小均相同，因此在带宽可控的情况下实现了掩盖流量突发的效果，从而避免现有的流量攻击方法通过识别流量的大小区别可能的访问网站。增加WTF-PAD防御机制以后，每个数据包大小都是相同的。普通的特征提取手段发挥作用很小，需要寻找一种更合适的网站指纹识别方法。

发明内容

本申请实施例提供了一种网站指纹识别方法、装置、存储器和处理器，以至少解决增加了WTF-PAD方法的网站指纹无法识别的问题。

根据本申请的一个方面，提供一种网站指纹识别方法，包括：

获取网站流量并按照会话分割成若干个子流量；

按照同一预设的时间间隔划分所述每个子流量中的数据包；

获取属于同一预设时间间隔内的数据包的时间标签，将所述时间标签的数量按照流量方向分别累加获得第一标签数量和第二标签数量，所述第一标签数量为所有按照第一流量方向的数据包的时间标签数量之和，所述第二标签数量为所有按照第二流量方向的数据包的时间标签数量之和；

累加一预设的第一差额至所述第一标签数量中获得第三标签数量，所述第一差额用于扩大所述第一标签数量与第二标签数量之间的差值；

将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序获得处理后的子流量数据；

利用机器学习模型识别所述处理后的子流量数据并获得对应的网站指纹。

进一步的，在本发明中，所述将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序之后、获得处理后的子流量数据之前，包括：在所述排序的队尾补充若干个交替排列的第四标签数量和第五标签数量，所述第四标签数量为所述属于同一子流量中所有的第二标签数量的均值，所述第五标签数量为所述属于同一子流量中所有的第三标签数量的均值，所述第四标签的数量和第五标签的数量均为同一预设的会话时间中除所述所有子流量占据的时间以外的剩余时间按照所述同一预设的时间间隔能够划分出的区间数量。

进一步的，在本发明中，所述同一预设的会话时间为10秒。

进一步的，在本发明中，所述按照同一预设的时间间隔划分所述每个子流量中的数据包，包括：所述同一预设时间间隔为0.03秒～1秒。

进一步的，在本发明中，所述累加一预设的第一差额至所述第一标签数量中获得第三标签数量，包括：

将所述第一标签数量扩大至原来的50～100倍。

进一步的，在本发明中，所述机器学习模型为双向GRU模型。

进一步的，在本发明中，所述机器学习模型的Dropout层全连接层丢失率为0.1。

本发明的第二个方面，在于提供一种网站指纹识别装置，包括：

网站流量获取模块，用于获取网站流量并按照会话分割成若干个子流量；

划分模块，用于按照同一预设的时间间隔划分所述每个子流量中的数据包；

获取模块，用于获取属于同一预设时间间隔内的数据包的时间标签，将所述时间标签的数量按照流量方向分别累加获得第一标签数量和第二标签数量；所述第一标签数量为所有按照第一流量方向的数据包的时间标签数量之和，所述第二标签数量为所有按照第二流量方向的数据包的时间标签数量之和；

累加模块，用于累加一预设的第一差额至所述第一标签数量中获得第三标签数量，所述第一差额用于扩大所述第一标签数量与第二标签数量之间的差值；

处理模块，用于将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序获得处理后的子流量数据；

识别模块，用于利用机器学习模型识别所述处理后的子流量数据并获得对应的网站指纹

本发明的第三个方面，在于提供一种存储器，用于存储软件，所述软件用于执行上述第一方面所述的方法。

本发明的第四个方面，一种处理器，其特征在于：用于执行软件，所述软件用于执行上述第一方面所述的方法。

本申请提供一种网站指纹识别方法，获取网站流量并按照会话分割成若干个子流量；按照同一预设的时间间隔划分所述每个子流量中的数据包；获取属于同一预设时间间隔内的数据包的时间标签，将所述时间标签的数量按照流量方向分别累加获得第一标签数量和第二标签数量，所述第一标签数量为所有按照第一流量方向的数据包的时间标签数量之和，所述第二标签数量为所有按照第二流量方向的数据包的时间标签数量之和；累加一预设的第一差额至所述第一标签数量中获得第三标签数量，所述第一差额用于扩大所述第一标签数量与第二标签数量之间的差值；将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序获得处理后的子流量数据；利用机器学习模型识别所述处理后的子流量数据并获得对应的网站指纹。上述装置对使用了WTF-PAT的tor流量进行分类，可以确定用户正在通过加密连接访问哪些网站。其中，所使用到的模型是使用多组训练数据训练出来的。通过上述方法，实现对网站指纹被动识别。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种网站指纹识别方法的流程示意图；

图2是现有技术中不同网站使用普通Tor加密，根据数据包大小提取特征策略图；

图3是现有技术中采用网站指纹防御WTF-PAD技术所获取到的数据包的形式示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明的实施例针对现有技术中采用网站指纹防御WTF-PAD技术的这类网络流量进行分析，以识别出访问的目标网站。对这类技术的技术原理进行分析，其能够掩盖目标网站的机理是在于向真实的流量中多次较为平稳地注入虚拟流量，使得整体流量被包装成较为平稳的状态，以使得真实的网站访问流量爆发被掩饰，从而无法通过流量爆发的特征来识别出目标网站。正是因为整流流量无法作为特征来识别目标，因此本实施例的方案从更为基础的流量包维度分析流量的特征，以期发现更深层次的特征，从而识别出相应的目标网站。

真实网站的访问，会导致流量出现爆发增长，具体包括请求和问答两个方向的流量增长，而且不同的网站通常具有不同的爆发规律，至少体现在上述两个不同方向的交互频率和流量大小会出现增长但不同网站的交互频率和流量大小不完全一样而是呈现各有规律的情况，但网站指纹防御WTF-PAD技术中注入的虚拟流量，其防御速率处于一个固定的区间，即这类流量虚拟出的交互频率、流量大小始终是较为平稳的，针对不同的网站没有做实质的区分。

因此，基于上述原因，可以预见的是，将能够反映交互维度的数据例如交互频率和/或流量大小作为特征，能够很好地反映出流量指向的网站，并且还能够克服其中虚拟流量的影响。

现有技术中，通过机器学习模型对特征和网站进行关联学习是容易想到的，在本申请实施例中，还需要进一步考虑本申请实施例所依赖的特征是否适合使用机器学习模型。现有技术中，常见的方式会以-1、+1的组合来代表不同方向的数据，结合数据包的大小总共两个维度的数据来表达一个数据包，以上述数据包的数据喂入机器学习模型进行机器学习时，由于数据包的大小和代表方向的数据之间区分度不大，面对海量数据时，很可能导致模型无法识别出数据的区别，导致无法获得满意的分类效果。因此，为了能够更好地对本实施例中所提出的采用更为基础的流量包维度的数据进行特征区分，本申请的实施例提出重点关注代表方向的数据而忽略代表数据包大小的数据，同时将上述不同的方向的数据增加区分度，以更好地区别出上下行数据的交互的特点，更好地让机器学习模型完成训练。

因此，本申请的实施例提出一种网站指纹的识别方法，其基本思想是基于机器学习模型，从前期模型数据收集到部署包括以下步骤：

第一步、数据采集

采集WTF-PAD类型Tor流量原始数据，并对原始数据进行数据标注。

具体的，在本实施例中提供一种可选的方式，使用WTF-PAD官方提供的脚本和模拟器来构造防御填充数据，将所有数据都构造成本实施例的目标识别数据，使用多台机器访问常见每个站点的主页若干次次，并分别转储每次访问产生的流量。

第二步、数据处理

将原始数据切分成数据流，制定特征放大策略，对每条流进行特征提取，整理并分类为训练集、测试集与验证集。

具体的数据处理过程与模型训练好之后具体实施例的方法步骤中相同，下文将统一介绍。

第三步、模型构建

构建并调优循环神经网络模型Gate Recurrent Unit，简称GRU模型，该模型对与时间特征有关联的数据比较敏感，较适合本申请实施例中所选用的交互频率这样的特征。本实施例中，模型选择双向GRU模型，包括连续四个双向GRU层、全连接层、softmax层。经过调试和选择，本实施例中推荐的具体模型参数如下：第一双向GRU层的隐藏层神经元个数为128；第二双向GRU层的隐藏层神经元个数为128；第三双向GRU层的隐藏层神经元个数为128；第四双向GRU层的隐藏层神经元个数为128；Dropout层全连接层丢失率为0.1；全连接层隐藏层神经元个数为64。

更为具体的，所述GRU模型包括：

更新门：决定有多少过去的信息可以继续传递到未来。将前一时刻的输出ht-1和当前时刻的输入xt分别进行线性变换，也就是分别右乘权重矩阵，然后相加后的数据送入更新门，也就是使用逻辑函数σ计算出在[0,1]之间的数值zt：

z_t＝σ(W_z·[h_t-1,x_t])

重置门：决定有多少历史信息不能继续传递到下一时刻。同更新门的数据处理一样，将前一时刻的输出ht-1和当前时刻的输入xt分别进行线性变换，也就是分别右乘权重矩阵，然后相加后的数据送入重置门，也就是使用逻辑函数σ计算出在[0,1]之间的数值rt。只是两次的权重矩阵的数值和用处不同：

r_t＝σ(W_r·[h_t-1,x_t])

重置阶段：利用重置门控制当前信息和记忆信息的数据量，并生成新的记忆信息继续向前传递：

h＝tanh(W·[r_t*h_t-1,x_t])

更新阶段：隐藏状态的输出信息由前一时刻的隐藏状态信息ht-1和当前时刻的隐藏状态输出ht，利用更新门控制这两个信息传递到未来的数据：

h_t＝(1-z_t)*h_t-1+z_t*t

上面的式子中Wr、Wz、W均为权重矩阵。

第四步、数据训练

将训练集数据输入模型进行训练。

第五步、模型验证

将测试集输入以训练完成模型，验证准确率，输出测试网站名称。

第六步、模型部署

将训练好的模型部署于真实网络节点中，分类已标注的站点，起到威胁监测的作用。

以训练好的模型为基础获得如图1所示为本申请实施例提出的一种网站指纹识别方法，包括如下步骤：

步骤S102、获取网站流量并按照会话分割成若干个子流量。

步骤S104、按照同一预设的时间间隔划分所述每个子流量中的数据包；

步骤S106、获取属于同一预设时间间隔内的数据包的时间标签，将所述时间标签的数量按照流量方向分别累加获得第一标签数量和第二标签数量，所述第一标签数量为所有按照第一流量方向的数据包的时间标签数量之和，所述第二标签数量为所有按照第二流量方向的数据包的时间标签数量之和；

步骤S108、累加一预设的第一差额至所述第一标签数量中获得第三标签数量，所述第一差额用于扩大所述第一标签数量与第二标签数量之间的差值；

步骤S110、将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序获得处理后的子流量数据；

步骤S112、利用机器学习模型识别所述处理后的子流量数据并获得对应的网站指纹。

上述方法中给出了一种对流量数据的处理，将流量数据中代表流量交互方向的数据累加后形成第一标签数量和第二标签数量，并且通过累加预设的第一差额从而扩大代表不同方向交互数量的区分度，在此过程中，需要结合流量数据的时间维度构造出喂入给机器学习模型的统一的数据形式。上述方法，将关注的数据经过处理后聚焦到流量方向上并适当扩大差异，从而更方便机器学习模型训练以及识别具体的网站指纹。

在本实施例中，为了统一数据形式，考虑不同会话的大小可能不同，需要将不满足预设的会话时间的会话进行数据补足。具体通过以下方式实现：所述将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序之后、获得处理后的子流量数据之前，包括：在所述排序的队尾补充若干个交替排列的第四标签数量和第五标签数量，所述第四标签数量为所述属于同一子流量中所有的第二标签数量的均值，所述第五标签数量为所述属于同一子流量中所有的第三标签数量的均值，所述第四标签的数量和第五标签的数量均为同一预设的会话时间中除所述所有子流量占据的时间以外的剩余时间按照所述同一预设的时间间隔能够划分出的区间数量。上述补足过程，为了方式补足数据对真实获取的流量数据的不良影响，取补足的数据为以这些真实获取的流量数据为基础处理得到的标签均值，由此兼顾了数据量的不足以及整体保持与真实获取的数据交互频率一致的效果。

本实施例中，所述同一预设的会话时间为10秒。10秒的数据量足以能够区分出对不同网站的浏览，因此本申请实施例以每个10秒获取的数据构成的子流作为识别的数据源，后续经过处理后的数据形成标准的数据形式作为处理后的子流量数据喂入模型。

本实施例中，所述按照同一预设的时间间隔划分所述每个子流量中的数据包，包括：所述同一预设时间间隔为0.03秒～1秒。本实施例中具体选择0.05秒来作为预设的时间间隔来划分每个子流中的数据包。因此，每个10秒时间区间内，能够划分出的每个时间间隔内的流量序列长度为L＝200。

本实施例中，所述累加一预设的第一差额至所述第一标签数量中获得第三标签数量，包括：

将所述第一标签数量扩大至原来的50～100倍。

本实施例中，第一流量方向以+1表示，第二流量方向以-1表示，在每个时间间隔内的200个数据包中所有+1的时间标签进行累加获得第一标签数量，同样的，在每个时间间隔内的200个数据包中所有+1的时间标签进行累加获得第二标签数量。为了扩大第一时间标签和第二时间标签之间的差异，因此将第一标签数量扩大。上述扩大是在累加结束后进行的，也可以通过累加前更变第一流量方向+1的数据为扩大后的倍数，例如+100，然后再进行累加，扩大处理的先后不影响实现每个时间间隔内的不同方向标签数量的差异化的效果。

例如，在某些实施例中，具体提供如下的处理过程：

先将所有网络流量按照类别划分为Y{Y1,Y2,…,Yn}，其中Yi表示对应标签为i的分散式应用程序。

以会话作为切割标准，将Yi对应的流量切分成若干条子流并导出到相同的CSV文件中，CSV文件中的每一行都包含从数据包中获取的信息，包括时间戳、数据包长度(一个固定值)、数据包方向。Yi的所有子流经过以下步骤处理成新的序列：

①从Yi对应的CSV文件中提取每个子流的记录，其中包括了流中每个数据包的成对列表，{时间戳，数据包方向}。

②将子流中每个数据包时间戳减去第一个数据包时间戳来规范化所有时间戳值；

③设置时间间隔T＝0.05s与流量序列长度L＝200，将一道流中每隔0.05s内的数据依据数据包方向将时间戳个数累加起来，其中正向请求包的时间戳数目初始值设定为0，反向请求包的时间戳数目初始值设定为100；

本申请的实施例中的第二个方面，还提供一种网站指纹识别装置，包括

识别模块，用于利用机器学习模型识别所述处理后的子流量数据并获得对应的网站指纹。

上述装置对使用了WTF-PAT的tor流量进行分类，可以确定用户正在通过加密连接访问哪些网站。其中，所使用到的模型是使用多组训练数据训练出来的。通过上述方法，实现对网站指纹被动识别。

根据本申请的再一个方面，提供一种处理器，用于执行软件，所述软件用于执行所述的一种一种网站指纹识别方法。

根据本申请的又一个方面，提供一种存储器，用于存储软件，所述软件用于执行所述的一种网站指纹识别方法。

需要说明的是，上述软件执行的一种网站指纹识别与前面的介绍的一种网站指纹识别相同，在此不再赘述。

在本实施例中，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行以上实施例中的方法。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

上述程序可以运行在处理器中，或者也可以存储在存储器中(或称为计算机可读介质)，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种网站指纹识别方法，其特征在于：

获取网站流量并按照会话分割成若干个子流量；

按照同一预设的时间间隔划分所述每个子流量中的数据包；

2.根据权利要求1所述的方法，其特征在于：所述将属于同一子流量中所有的所述第二标签数量、第三标签数量两两一组并按照时间序列排序之后、获得处理后的子流量数据之前，包括：在所述排序的队尾补充若干个交替排列的第四标签数量和第五标签数量，所述第四标签数量为所述属于同一子流量中所有的第二标签数量的均值，所述第五标签数量为所述属于同一子流量中所有的第三标签数量的均值，所述第四标签的数量和第五标签的数量均为同一预设的会话时间中除所述所有子流量占据的时间以外的剩余时间按照所述同一预设的时间间隔能够划分出的区间数量。

3.根据权利要求2所述的方法，其特征在于：所述同一预设的会话时间为10秒。

4.根据权利要求1所述的方法，其特征在于：所述按照同一预设的时间间隔划分所述每个子流量中的数据包，包括：所述同一预设时间间隔为0.03秒～1秒。

5.根据权利要求1所述的方法，其特征在于：所述累加一预设的第一差额至所述第一标签数量中获得第三标签数量，包括：

将所述第一标签数量扩大至原来的50～100倍。

6.根据权利要求1所述的方法，其特征在于：所述机器学习模型为双向GRU模型。

7.根据权利要求1所述的方法，其特征在于：所述机器学习模型的Dropout层全连接层丢失率为0.1。

8.一种网站指纹识别装置，其特征在于：包括

9.一种存储器，其特征在于：用于存储软件，所述软件用于执行所述权利要求1-7中任意一项所述的方法。

10.一种处理器，其特征在于：用于执行软件，所述软件用于执行所述权利要求1-7中任意一项所述的方法。