CN113938290B

CN113938290B - 一种用户侧流量数据分析的网站去匿名方法和系统

Info

Publication number: CN113938290B
Application number: CN202111031350.0A
Authority: CN
Inventors: 李瑞轩; 辜希武; 王少阳; 李玉华; 张叶钦; 罗雅馨
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2022-11-11
Anticipated expiration: 2041-09-03
Also published as: CN113938290A

Abstract

本发明公开一种用户侧流量数据分析的网站去匿名方法和系统，属于网络信息安全领域。包括：将大量带标签的监控网站流量数据样本进行去冗余，将处理好的样本中每个会话的网站流量数据抽象压缩为流量突发序列，流量突发序列中的每个元素表示同一方向上连续发送或接收的数据包的数量，将该流量突发序列输入至深度学习模型中提取特征向量，并使用特征向量集构建分类器；从现实环境中采集网站流量数据样本，通过同样的处理方式抽象压缩为流量突发序列后，使用分类器鉴别网站的类别。本发明基于用户侧流量数据进行分析，客户端侧流量数据更加易于获取，更能反映真实的网络环境。采用Brust序列数据代替传统网络数据包，能够有效利用长序列数据的长距离信息。

Description

一种用户侧流量数据分析的网站去匿名方法和系统

技术领域

本发明属于网络信息安全领域，更具体地，涉及一种用户侧流量数据分析的网站去匿名方法和系统。

背景技术

目前，随着网络信息时代的技术飞速发展，人们在尝试不断追求信息获取效率的同时，也越来越注重网络隐私的保护。现如今媒体人、政府官员、以及相关注重个人隐私的网络活动者都借助于匿名软件来保护个人的隐私以免潜在的泄露风险。同时，Tor等主流匿名架构作为开源项目对外提供免费的匿名服务，也为网络犯罪和其他犯罪活动提供了极大的便利。然而，匿名网络的重路由技术使得数据的加密方式更加复杂，传统的流量分析技术很难提取出有效的网站类别信息。

一般来说，基于流量分析的网站去匿名化方法主要在匿名网络架构的内部、服务端侧以及用户侧三处的流量数据进行分析。分析匿名网络架构内部的数据需要在数据的内部进行分析，因此研究人员需要获得网络架构的操作权限。专利CN109728977A公开了一种JAP匿名流量监测方法及系统。通过使用三台Mix节点服务器以及Infoservice服务器构建JAP匿名通信网络，并获取对应的Mix节点服务器流量数据和普通HTTP流量数据。提取数据包占比、关键字等特征信息，基于机器学习分类器进行流量分类。专利CN112788159A公开使用服务端一侧的DNS流量数据构建DNS序列，并建立DNS流量指纹库，并通过基于网页指纹的KNN距离函数分析网页的类别，解决了基于HTTP协议的网页指纹识别方法难以适应变化的网络环境的特点。

以上两种基于流量数据的网站去匿名化方法分别从网络架构的内部以及服务端侧分析流量数据。然而这两种识别方法获取流量数据的方式过于复杂，研究人员需要获取对匿名网络架构的控制权，这使得方法缺乏普适性以及应用效果。而客户端侧的流量数据更加易于获取，研究人员从客户端浏览器到匿名网络架构的入口节点之间任意一个节点的位置获取接入权限即可。通过客户端侧信道的流量数据作为分析依据，能够更加高效快速的实现网站内容的去匿名化。专利CN106953854A公开根据UDP连接数、翻墙权值、UDP流信息熵和相似报文出现频数四个特征建立了跨版本识别匿名网络架构流量的SVM分类模型。专利CN111953693A也公开了一种Tor网络通信流量的识别分析方法，基于对Tor通信协议的分析，提取SSL/TLS握手特征信息以及报文长度等，通过特征的对比实现了Tor网络通信流量的分析。在这两种用户侧的去匿名化分析中，由于需要对数据进行特征处理及分析，而需要消耗大量的人力和计算成本，同时流量数据的本身的高度冗余性，使得数据提取的特征有效性大大降低不利于模型的迁移应用，同时面对时刻变化的网路环境，在一些场景中，去匿名化方法有较高的时效性要求，高冗余的数据显然会造成数据延迟的影响。

发明内容

针对现有技术基于流量分析的去匿名化技术中数据冗余以及特征提取困难的缺陷和改进需求，本发明提供了一种用户侧流量数据分析的网站去匿名方法和系统，其目的在于一方面，通过生成流量突发序列提出大量的流量数据冗余信息，只保留流量数据的数据包长度、到达时间和方向等信息；另一方面，基于深度学习算法的特征自动提取的功能，实现一种端到端的匿名网络流量的分析技术。

为实现上述目的，按照本发明的第一方面，提供了一种用户侧流量数据分析的网站去匿名方法，该方法包括两个阶段：

第一阶段：将大量的带标签的监控网站流量数据样本进行去冗余，将处理好的样本中每个会话的网站流量数据抽象成为网站流量指纹序列，将网站流量指纹序列压缩为流量突发序列，流量突发序列中的每个元素表示同一方向上连续发送或接收的数据包的数量，将该流量突发序列输入至深度学习模型中提取数据的特征向量，并使用特征向量集构建网页类别分类器；

第二阶段：从现实环境中采集网站流量数据样本，通过同样的处理方式抽象压缩为流量突发序列后，使用分类器鉴别网站的类别。

优选地，对监控网站列表中的每个网站，进行模拟浏览操作和流量抓取，每个网站抓取N次流量记录，所述流量记录为单次访问网站过程所产生的流量数据。

优选地，采用Tor信元的方式构建网站流量指纹序列，网页i的第j个通信信元序列的指纹实例

可表示为：

其中，1表示流量数据从客户端流出的一个通信信元，-1表示流量数据流入客户端的一个通信信元。

有益效果：本发明采用更加具有匿名通信特征的Tor信元作为构建序列的单元，相比于基于数据包构建更加具有代表性，在于多个tor信元组成数据包，它是更加细粒度的划分，且tor信元长度固定，能够更加清晰地刻画突发序列特征。

序列Burst特征可通过连续的同方向信元单元所表示。Burst指纹序列对用户浏览网页的行为进行了简洁直接的刻画，在面对匿名网站数据的高度隐蔽性的前提下，Burst指纹序列是攻击者十分直接有效的数据分析表示方法。由于Burst指纹序列具有明显的数据序列长，结构简单的特点。因此数据在输入到深度学习模型中时，数据的编码转换更加简单。

优选地，所述深度学习模型包括：

由两个一维时序卷积层基本块构成的Burst特征学习模块，用于压缩流量突发序列的特征维度，并提取空间特征向量，其中，每个残差块由8个残差结构构成；

第一Flatten层，用于将Burst特征学习模块输出的空间特征向量展开，并发送给双向LSTM层；

双向LSTM层，用于进一步提取流量突发序列的时序特征，得到时空特征向量；

第二Flatten层，用于将双向LSTM层输出的时空特征向量展开，并发送给Softmax分类器；

Softmax分类器，用于使用Softmax函数归一化以此获得每种数据类别的概率分布。

有益效果：针对现有深度学习攻击模型在处理长指纹序列上的不足，结合时序卷积网络模型以及双向长短期记忆网络构建TCN-BL分类攻击模型，时序卷积网络提取较大感受野的数据特征而忽略可能受防御策略影响的细节特征。这样能够很好地在降低模型的深度的同时提取更加有效的数据特征信息，通过双向长短期记忆网络提取特征向量的上下文关系，以此应对不同场景的数据分布问题，解决了模型在数据序列长距离特征提取能力不足的问题。

优选地，一维时序卷积层基本块是由残差结构和空洞时序卷积模块构成。

有益效果：采用残差网络结构块结合时序卷积模型中的膨胀因果卷积作为数据特征提取器，残差网络的目的是在模型深度增加时保持稳定性，不会出现数据的过拟合。

优选地，使用训练好的深度学习模型对捕捉到的匿名网站流量数据对应的网站内容进行关联，分析出网站类别，若分类结果在监控网站列表中，则认为该网站来源需要被重视，否则，认为该网站不属于关注内容。

为实现上述目的，按照本发明的第二方面，提供了一种用户侧流量数据分析的网站去匿名系统，该系统包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的用户侧流量数据分析的网站去匿名方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

本发明基于用户端数据进行分析，客户端侧的流量数据相较于服务端侧数据而言更加易于获取，同时，客户端侧的流量数据来源也更加丰富，更能反映真实的网络环境；采用一种Brust序列数据代替传统的网络数据包序列的压缩数据的方式，能够有效利用长序列数据的长距离信息，简化流量数据分析的成本，提高了计算速度；使用深度学习算法构建流量突发序列的特征提取器模型，避免了人工提取流量数据特征的高成本、提取不充分的问题。

附图说明

图1为本发明提供的一种用户侧匿名网络流量数据的去匿名分析方法流程图；

图2为本发明提供的网站指纹序列分类的深度学习网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供一种用户侧匿名网络流量数据的去匿名分析方法，该方法包括：匿名网站流量采集、突发序列生成、数据模型训练及有效信息分析。

匿名网站流量采集模块对用户侧匿名网络流量进行采集，用于分类器模型的训练以及数据分析。使用Selenium脚本操纵Tor浏览器自动化运行浏览网站，并通过网关路由器抓取产生的流量数据，按照浏览网站的类别进行流量数据的标注。

突发序列生成模块用于将采集到了匿名流量数据进行清洗，去除冗余数据；对数据包长度、方向以及其时间间隔进行分析，并抽象出一次完整的网站访问过程中的流量突发序列。

数据模型训练模块用于构建依次由一维时序卷积层、一维时序卷积层、Flatten层、双向LSTM层、Dropout层连接组成的深度学习特征提取器模型进行流量突发序列的特征提取。并使用Softmax分类器进行特征向量的分类以及模型参数的更新。重复训练模型后得到收敛后的模型参数并保存。

有效信息分析模块用于根据训练完成的模型对捕捉的匿名网络流量数据对应的网站内容进行关联，分析出网站类别或具体网站信息。

如图1所示，实施例的具体实施步骤如下：

步骤1设置Tor环境代理，使用Python3+Selenium制作针对Tor浏览器的爬虫脚本模拟网页浏览过程，并调用Tshark抓包命令进行数据抓取。

1.1在海外云主机上配置Tor代理环境，修改本地torrc配置文件设置为全局代理，连接模式为obfs4桥接模式。

1.2编写脚本使用Selenium插件控制Tor浏览器模拟浏览网站的操作，每次浏览网站操作在点击操作结束后，停留在当前网页15秒并关闭浏览器，同时清除所有缓存信息。

1.3将1.2所述一次访问网站的过程产生的流量数据视为一条流量数据记录，同时，按照需求的监控网站列表逐个进行模拟操作与流量抓取，每个网站抓取N次记录，每次记录时切换主机IP，消除主机环境影响。

步骤2根据步骤1所述的流量数据形式，清除冗余数据包和无效数据，提取流量记录的数据包长度、方向以及时序信息，并以此生成流量突发序列。

2.1将抓取的网站浏览流量数据包进行清洗和去冗余，并提取流量记录的数据包长度、方向以及时序信息构成流量数据包长度序列S_i＝{+P₁,-P₂,-P₃,…,+P_k}。

2.2由于Tor流量数据是按照固定大小的Tor信元结构组成，因此本发明使用Tor信元描述流量Burst序列数据，即数据包长度进一步细分为P_k＝{C₁,C₂,…,C_j}。由此得到网页i的第j个通信信元序列的指纹实例

这里，使用1表示流量数据从客户端流出的一个通信信元，-1表示流量数据流入客户端的一个通信信元，序列Burst特征通过连续的同方向信元单元所表示。

步骤3构建深度学习特征提取器与分类器模型。

如图2所示，依次构建由一维时序卷积层、一维时序卷积层、Flatten层、双向LSTM层、Dropout层连接组成的深度学习特征提取器对流量突发序列数据进行特征提取。其中，时序卷积是由残差结构和空洞时序卷积模块构成，具体如图2所示，核心参数是卷积过滤器大小以及膨胀系数。

其具体参数设置如下：

第一时序卷积层卷积过滤器大小为8，膨胀系数为[2,4,8,16]；

第二时序卷积层卷积过滤器大小为8，膨胀系数为[2,4,8,16]；

Flatten层将向量平铺为一维特征向量；

双向LSTM层的神经元个数为256；

Dropout层降采样比率为0.5。

步骤4将生成的训练集数据输入到模型中进行训练。

4.1将训练数据集以10：1的比例留出验证集用于模型验证及参数更新。将训练数据依次输入到模型中各个功能层中进行训练。

4.2设置模型训练轮数为30，批处理大小设置为128，学习率为0.002，采用Adam优化器。

4.3每轮结束后，分别计算训练集与验证集的精确度Acc。

4.4按照4.2～4.3所示重复训练R次，直至损失值收敛，得到训练好的深度学习模型，并保存。

步骤5按照步骤1所述部署测试网点的环境，并捕捉相关流量数据。将数据预处理过后输入到已训练好的模型进行测试。

5.1设置监控网站列表W，并将测试数据划分为开放世界场景数据集L_w+i以及封闭时间场景数据集L_w。

5.2使用封闭世界场景数据集L_w测试模型的分类延迟τ以及模型的分类精确度η。

5.3若封闭场景下的分类延迟τ以及模型的分类精确度η在合理阈值范围内，则根据开放世界场景数据集进行分类测试，否则重新按步骤4建模。

5.4若分类结果在监控网站列表W中，则认为该网站流量数据分类结果成功，网站来源需要被重视。否则，认为该网站不属于关注内容。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户侧流量数据分析的网站去匿名方法，其特征在于，该方法包括两个阶段：

第二阶段：从现实环境中采集网站流量数据样本，通过同样的处理方式抽象压缩为流量突发序列后，使用分类器鉴别网站的类别；

其中，所述深度学习模型包括：

由两个一维时序卷积层基本块构成的Burst特征学习模块，用于压缩流量突发序列的特征维度，并提取空间特征向量，其中，每个残差块由8个残差结构构成；一维时序卷积层基本块是由残差结构和空洞时序卷积模块构成；

2.如权利要求1所述的方法，其特征在于，对监控网站列表中的每个网站，进行模拟浏览操作和流量抓取，每个网站抓取N次流量记录，所述流量记录为单次访问网站过程所产生的流量数据。

3.如权利要求1所述的方法，其特征在于，采用Tor信元的方式构建网站流量指纹序列，网页i的第j个通信信元序列的指纹实例

可表示为：

4.如权利要求1所述的方法，其特征在于，使用训练好的深度学习模型对捕捉到的匿名网站流量数据对应的网站内容进行关联，分析出网站类别，若分类结果在监控网站列表中，则认为网站来源需要被重视，否则，认为该网站不属于关注内容。

5.一种用户侧流量数据分析的网站去匿名系统，其特征在于，该系统包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至4任一项所述的用户侧流量数据分析的网站去匿名方法。