CN114500071B

CN114500071B - 一种针对目标网站动态增长的自适应指纹攻击方法和系统

Info

Publication number: CN114500071B
Application number: CN202210125891.8A
Authority: CN
Inventors: 王良民; 姚旺; 宋香梅; 周强; 冯霞; 阎星娥; 李唱
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2024-04-16
Anticipated expiration: 2042-02-10
Also published as: CN114500071A

Abstract

本发明公开一种针对目标网站动态增长的自适应指纹攻击方法和系统，首先创建容量固定且存储内容动态更新的容器为所有目标网站分配训练集空间和校正集空间，并通过修改指纹攻击模型结构增加其可预测的网站数量，以获得待训练的新模型。然后利用容器中保存下来的训练集和新目标网站的流量样本一起训练新模型，同时旧模型利用动态调整损失率的知识蒸馏向新模型传授旧目标网站中的复杂模式。克服存储开销和计算开销快速增长的缺点。最后在新模型上添加校正层，校正训练新模型时由于新旧流量样本的不平衡从而导致对新目标网站的预测偏向性，实现在固定的存储空间以及与新增目标网站数量线性相关的时间里有效识别所有目标网站。

Description

一种针对目标网站动态增长的自适应指纹攻击方法和系统

技术领域

本发明涉及网络安全技术，具体涉及一种针对目标网站动态增长的自适应指纹攻击方法和系统。

背景技术

随着现代互联网的快速发展，人们使用浏览器访问互联网也越来越频繁。他们访问各种网站的主要目的在于娱乐、社交、购物等。同时越来越多的互联网用户开始关注他们网络上的隐私信息。匿名通信系统Tor通过洋葱加密和多层代理等技术，致力于保护用户在访问网络时的隐私性，防止黑客等窃听者关联用户及其通信对象，解决了普通用户上网时隐私泄露的问题。然而，随着相关技术的不断发展和应用，Tor网络也间接为匿名实施网络违法犯罪行为提供了保护，越来越多不法分子选择使用Tor网络隐藏他们的身份信息。在这种情况下，需要一种有效的手段来监管匿名网络中用户的行为。

网站指纹攻击技术应运而生。尽管Tor网络隐藏了数据包的源和目的地址，但访问不同网站时产生的网络流量中的一些信息仍然能够形成唯一的指纹，更准确的说，它们为数据包的方向、大小和时间相关信息。因此，攻击者可以通过发送和接收流量上这些特定模式推断出不法分子访问了哪些网站。这些攻击者可以为政府机构、监管部门和网络管理员等。另一方面，防御者已经开发出各种轻量级防御策略，用以抵御攻击。因此，面对轻量级防御策略时，欲仍需较高的攻击成功率，每个目标网站通常需要收集大量流量样本来训练攻击模型。

然而现有方案通常只考虑攻击者能够一次性确定全部需要待识别的目标网站，即目标网站列表是静态的情况。同时它们默认攻击者具有足够的存储资源来同时存储这些大量的训练样本，并且忽略了目标网站每次动态增加时，攻击者都完全重新训练模型，间接导致消耗大量的计算资源、时间和经济成本的问题。因此，需要一个更加有效的网站指纹攻击方法来应对轻量级防御下目标网站动态增长的场景。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种针对目标网站动态增长的自适应指纹攻击方法和系统。

技术方案：本发明的一种针对目标网站动态增长的自适应指纹攻击方法，依次包括以下步骤：

步骤(1)、创建一个容量固定为M的容器，该容器存储旧目标网站样本和当前收集到的新目标网站样本；依据旧目标网站样本数量N_old为每个旧目标网站分配一个容量相同的子容器，即每个子容器的容量为M/N_old；各子容器的存储空间均被划分为训练集空间和校正集空间；训练集中保存有每个目标网站的核心流量样本集和普通流量样本集；

每当目标网站动态增加时,使用动态更新策略对容器进行更新；

步骤(2)、将目标网站增加之前训练所得的指纹攻击模型作为旧模型Model’ 保存；然后根据步骤(1)中新增的目标网站数目N_new,创建一个新的全连接分类层FC，该全连接分类层包含与当前目标网站相同数量(即N_old+N_new)的神经元,对其进行分段初始化来替换旧模型中的全连接分类层FC′，得到待训练的新模型Model；

步骤(3)、将步骤(1)容器里旧目标网站的训练集和新目标网站的流量样本打包后随机打乱同时送入步骤(2)中的新旧两个指纹攻击模型，利用输出计算蒸馏损失L_d和分类损失L_c,然后使用动态调整的蒸馏损失率对两种损失进行加权得到损失函数loss，通过损失函数loss来更新新模型的参数,从而在最大程度上帮助新模型回忆和保存旧知识；

步骤(4)、在新指纹攻击模型上添加一个只包含两个参数的校正层，使用步骤(1)容器中的校正集训练校正层，来校正步骤(3)中新指纹攻击模型对新目标网站的预测偏向性；

当下一次新增目标网站到来时，使用步骤(1)中的动态更新策略对容器进行更新，并返回步骤(2)。

进一步地，所述步骤(1)中容器的具体结构如下：

假设容器容量为M个流量样本，当前旧目标网站数量为N_old，则此时容器的存储空间则被划分为N_old个子容器，每个子容器的容量为M/N_old，并分配给每个旧目标网站，其中每个子容器的存储空间被划分为训练集和校正集两个部分，所有子容器的训练集部分构成数据集E_t，校正集部分构成数据集E_v；并且校正集所占用的存储空间远小于训练集，同时每个目标网站的校正集大小是相等且固定的；训练集中核心流量样本集和普通流量样本集的大小比例为1∶1。

进一步地，所述步骤(1)中容器动态更新策略的具体内容如下：

核心流量样本以优先级列表的方式构造，以确保每个子容器中从第一个流量样本开始的任何子集，其平均特征向量是该目标网站全部训练流量样本平均特征向量最好的一个近似，并且在任何阶段丢弃流量样本时都不违反这个属性，用于最大层度上保存每个网站流量样本间存在着的一些最具有代表性的共性特征；

普通流量样本集通过随机选取得到，使用普通流量样本对训练集进行数据增强，模拟实际攻击场景下捕获到的目标网站流量样本各种非典型状态；当N_new个新目标网站到来时，每个子容器均丢弃个流量样本的训练集，为创建新的子容器留出空间；

容器更新结束后，存储空间则被划分为(N_old+N_new)个子容器分配给每个新旧目标网站，此时每个子容器容量为M/(N_old+N_new)，并且每个子容器之间对应部分的流量样本数量相同。

进一步地，所述步骤(2)的具体过程为：

将之前目标网站增加后训练得到的旧指纹攻击模型保存为Model’，拷贝该旧模型现有全连接分类层FC′中N_old个神经元的权重参数w′以及偏差参数b′，根据任务需求新增的N_new个目标网站数目，新建包含N_old+N_new个神经元全连接分类层FC，将新全连接分类层前N_old个神经元的权重参数和偏置项参数分别赋值初始化为w′和b′，并从反向传播考虑，将剩余的N_new个神经元偏差b置零，权重进行初始化为其中参数a为激活函数的负斜率；

最后替换旧全连接分类层FC′得到的新模型Model。

进一步地，所述步骤(3)中蒸馏损失以及分类损失的计算方法如下：

假设步骤(2)中Model′和Model对用于训练的流量样本e的预测结果分别为和/>

代表旧模型Model’认为流量样本e的类型分别属于不同网站标签 [1,…,N_old]的概率；

示新模型Model认为流量样本e的类型分别属于不同网站标签[1,…,N_old,N_old+1,…,N_old+N_new]的概率；

然后利用和/>计算蒸馏损失L_d：

其中T是温度系数，用于在计算蒸馏损失时放大非最高概率所对应类的损失值以加强对Model′中暗知识的表达，以向Model传授旧目标网站流量样本中存在的复杂特征模式同时计算分类损失；

其中y指流量样本e所属的目标网站标签，δ为指示函数，当标签与当前输出的神经元所属类别一致时为1，否则为0，此处，n和j均为临时局部变量。

进一步地，所述步骤(3)使用动态调整的蒸馏损失率对两种损失进行加权的具体过程如下：

创建一个用于存储历次目标网站动态增加时更新Model收敛后得到的损失值列表假设当前是第k次目标网站动态增加，此时/>

由于旧目标网站的占比会越来越高，因此分类损失L_c的权重初步设计为 γ＝N_old/(N_old+N_new)；但同时考虑到随着新目标网站的增加，旧流量样本会不断丢失，Model′攻击的成功率会不可避免的出现下降。因此在γ前面添加一个根据损失值动态调整的校正系数来缓解这种下降进一步带来的负面影响，其中μ的初始值为1；

最终的损失函数为loss＝μγL_d+(1-μγ)L_c。

进一步地，所述步骤(4)校正对新目标网站的预测偏向性的具体过程如下：

所述校正层保留新模型Model对旧目标网站(1,...,N_old)输出的预测置信度，其具体结构为：

其中o_j是第j类目标网站的预测置信度，通过参数∝和β来调整对新目标网站(N_old+1,...,N_old+N_new)输出的预测置信度；参数∝和β分别为线性模型的权重和截距；

该部分本质是一个线性模型，为所有新目标网站共享。通过一个体积很小但各新旧目标网站流量样本数量平衡的校正集来对它进行训练，以此向新指纹攻击模型传达在实际攻击场景下，每个目标网站的流量样本会接近等概率出现这一信息。在训练校正层中参数的过程中，冻结新指纹攻击模型中的相关参数，使其中的深度神经网络DNN不参与反向传播，从而加快校正层收敛速度，减少模型的训练开销；

训练校正层的损失函数计算方法为

其中，y为校正集中流量样本e所属的目标网站标签。

本发明还公开一种用于实现上述针对目标网站动态增长的自适应指纹攻击方法的系统，包括目标网站流量采集和预处理模块、容器内容动态更新模块、指纹攻击模型结构更新模块、指纹攻击模型训练模块和目标网站攻击模块；

所述目标网站流量采集和预处理模块采集交换机等网络设备处的原始网站流量文件，并从中提取目标网站指纹以“网站类别标签.npy”格式存储为网站流量样本；

所述容器内容动态更新模块首次运行时创建一个固定容量的容器，之后随着目标网站的动态增加更新容器中的内容来为所有目标网站分配存储空间；

所述指纹攻击模型结构更新模块根据新增目标网站数量调整模型结构得到新指纹攻击模型；

所述指纹攻击模型训练模块使用容器中的训练集和采集到的新目标网站流量样本并结合动态调整损失率的知识蒸馏训练新模型，然后使用容器中的校正集训练校正层，以校正新模型对新目标网站的预测偏向性；

所述目标网站攻击模块首先对待识别的网站流量文件预处理得到网站指纹，然后使用训练好的指纹攻击模型对其进行预测，分配网站类别标签。

本发明还公开一种计算机存储介质，该计算机存储介质中存储有针对目标网站动态增长的自适应指纹攻击程序，执行该程序时实现上述针对目标网站动态增长的自适应指纹攻击方法。

有益效果：本发明针对在使用了轻量级防御技术的Tor网络中目标网站动态增加的问题，提出自适应的指纹攻击技术方案，通过创建一个固定容量的容器并动态更新其中的存储内容，然后与新目标网站的流量样本一起通过动态调整损失率的知识蒸馏训练调整结构后得到的新模型，在最大程度上帮助新模型回忆和保存了旧目标网站中的知识。利用校正层校正了新模型对新目标网站的预测偏向性。实现了每次目标网站动态增加后在固定的存储空间内完成对所有目标网站的有效识别，并且时间复杂度和新增加的目标网站数量线性相关。

附图说明

图1为本发明的整体流程示意图；

图2为本发明的系统结构图；

图3为实施例中容器内部流量样本存储策略示意图；

图4为实施例中网站指纹攻击模型每次更新后的结构示意图；

图5为实施例中容器内部各部分流量样本走向和方案整体工作方式示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本发明首先创建一个容量固定且存储内容动态更新的容器为所有目标网站分配训练集空间和校正集空间，并通过修改指纹攻击模型结构增加其可预测的网站数量，以获得待训练的新模型。然后利用容器中保存下来的训练集和新目标网站的流量样本一起训练新模型，同时旧模型利用动态调整损失率的知识蒸馏向新模型传授旧目标网站中的复杂模式。从而在最大程度上帮助新模型回忆和保存旧目标网站中的知识，克服了现有方案在此场景下存储开销和计算开销快速增长的缺点。最后在新模型上添加一个校正层，校正训练新模型时由于新旧流量样本的不平衡从而导致对新目标网站的预测偏向性，实现了在固定的存储空间以及与新增目标网站数量线性相关的时间里有效识别所有目标网站。

实施例1：

如图1所示，本实施例的针对目标网站动态增长的自适应指纹攻击方法具体步骤为：

S101：创建一个容量固定为M的容器，该容器存储旧目标网站样本和当前收集到的新目标网站样本；依据旧目标网站样本数量N_old为每个旧目标网站分配一个容量相同的子容器，即每个子容器的容量为M/N_old；各子容器的存储空间均被划分为训练集空间和校正集空间；训练集中保存有每个目标网站的核心流量样本集和普通流量样本集；

S102：如图4所示，将目标网站增加之前训练所得的指纹攻击模型作为旧模型Model’保存；；根据步骤(1)中新增的目标网站数目N_new,创建一个新的全连接分类层FC，该全连接分类层包含与当前目标网站相同数量(即N_old+N_new) 的神经元,对其进行分段初始化来替换旧模型中的全连接分类层FC′，得到待训练的新模型Model；

此处的旧模型Model’，除在第一次目标网站进行动态增加时是预先训练所得，之后每一次目标网站再次动态增加时旧模型均指上一次增加后训练得到的模型，这是一个会不断循环的过程，通过旧模型协助修改全连接分类层的新模型的训练；

S103：将步骤(1)容器里旧目标网站的训练集和新目标网站的流量样本打包后随机打乱同时送入步骤(2)中的新旧两个指纹攻击模型，利用输出计算蒸馏损失L_d和分类损失L_c,然后使用动态调整的蒸馏损失率对两种损失进行加权得到损失函数loss，通过损失函数loss来更新新模型的参数,从而在最大程度上帮助新模型回忆和保存旧知识；

S104：在新指纹攻击模型上添加一个只包含两个参数的校正层，使用步骤(1) 容器中的校正集训练校正层，来校正步骤(3)中新指纹攻击模型对新目标网站的预测偏向性；当下一次新增目标网站到来时，使用步骤(1)中的动态更新策略对容器进行更新，并返回步骤(2)。

实施例2：

如图2所示，本实施例的针对目标网站动态增长的自适应指纹攻击方系统，包括目标网站流量采集和预处理模块100、容器内容动态更新模块200、指纹攻击模型结构更新模块300、指纹攻击模型训练模块400和目标网站攻击模块500；

目标网站流量采集和预处理模块100采集交换机等网络设备处的原始网站流量文件，并从中提取网站指纹以“网站类别标签.npy”格式存储为网站流量样本；

容器内容动态更新模块200首次运行时创建一个固定容量的容器，之后随着目标网站的动态增加更新容器中的内容来为所有目标网站分配训练集空间和校正集空间；

指纹攻击模型结构更新模块300根据新增目标网站数量调整模型结构得到新指纹攻击模型；

指纹攻击模型训练模块400使用容器中的训练集和采集到的新目标网站流量样本并结合动态调整损失率的知识蒸馏训练新模型，然后使用容器中的校正集训练校正层，以校正新模型对新目标网站的预测偏向性；

目标网站攻击模块500首先对待识别的网站流量文件预处理得到网站指纹，然后使用训练好的指纹攻击模型对其进行预测，为待识别的网站流量文件分配网站类别标签。

实施例3：

如图3所示，本实施例的其他内容同实施例1，容器的具体结构如下：

第一次训练网站指纹攻击模型时，首先创建一个储存空间固定为M的容器。之后假设当前已进行过k-1次目标网站动态增加，现有旧目标网站数量为N_old。此时每个旧目标网站分配到的子容器空间为M/N_old，将这部分存储空间进一步划分为训练集train和val，且train>>val。train中核心流量样本与普通流量样本的大小比例为1:1。此时进行第k次目标网站动态增加，此次增加N_new个目标网站，在此期间每个子容器则分配到的存储空间为M/(N_old+N_new)。

其中核心流量样本管理方法如下：

其中，Q为核心流量样本集，(q₁,q₂,…,q_n)为按照优先级从高到低排列下来的核心流量样本。核心流量样本集以优先级列表的形式构造，列表中越靠前优先级越高，反之越低，每次丢弃的为优先级最低的核心流量样本。通过在训练集中引入核心流量样本集和普通流量样本集来训练模型，从而增加鲁棒性，

实施例4：

如图4所示，本实施例的其他内容同实施例1，网站指纹攻击模型每次更新结构的策略：

拷贝模型现有全连接分类层FC′中N_old个神经元的权重参数w′以及偏差参数b′，根据任务需求新增的N_new个目标网站数目，新建包含N_old+N_new个神经元全连接分类层FC，将新全连接分类层前N_old个神经元的权重参数和偏置项参数分别赋值初始化为w′和b′，并从反向传播考虑，将剩余的N_new个神经元偏差b置零，权重进行初始化为其中参数a为激活函数的负斜率。替换旧全连接分类层FC′得到的新模型Model。

实施例5：

如图5所示，本实施例的其他内容同实施例1，容器内部各部分流量样本走向和方案整体工作方式：

将容器中每个子容器的训练集部分和新目标网站的训练流量样本打包后随机打乱同时输入到旧模型Model′和新模型Model中，得到两者输出后，计算蒸馏损失，然后结合训练集流量样本的硬标签计算分类损失，并按照动态调整的蒸馏损失率对两种损失进行加权得到最终的损失loss＝μγL_d+(1-μγ)L_c来更新新模型Model中的参数。最后在Model后面添加一个只包含两个参数的校正层，使用容器中校正集进行训练，来校正Model对新目标网站的预测偏向性。

经过实验验证，通过本发明技术方案针对目标网站动态增长的自适应指纹攻击，其最终存储开销的复杂度能够控制在O(1)，计算开销的复杂度能够控制在O(N)。

Claims

1.一种针对目标网站动态增长的自适应指纹攻击方法，其特征在于：依次包括以下步骤：

每当目标网站动态增加时,使用动态更新策略对容器进行更新，容器动态更新策略的具体内容如下：

核心流量样本集以优先级列表的方式构造，以确保每个子容器中从第一个流量样本开始的任何子集，其平均特征向量是该目标网站全部训练流量样本平均特征向量最好的一个近似，并且在任何阶段丢弃流量样本时都不违反这个属性；

普通流量样本集通过随机选取得到，使用普通流量样本对训练集进行数据增强；当N_new个新目标网站到来时，每个子容器均丢弃个流量样本的训练集，为创建新的子容器留出空间；

容器更新结束后，存储空间则被划分为(N_old+N_new)个子容器分配给每个新旧目标网站，此时每个子容器容量为M/(N_old+N_new)，并且每个子容器之间对应部分的流量样本数量相同；

步骤(2)、将目标网站增加之前训练所得的指纹攻击模型作为旧模型Model’保存；然后根据步骤(1)中新增的目标网站数目N_new,创建一个新的全连接分类层FC，该全连接分类层包含与当前目标网站相同数量的神经元,对其进行分段初始化来替换旧模型中的全连接分类层FC′，得到待训练的新模型Model；

最后替换旧全连接分类层FC′得到的新模型Model；

步骤(3)、将步骤(1)容器里旧目标网站的训练集和新目标网站的流量样本打包后随机打乱同时送入步骤(2)中的新旧两个指纹攻击模型，利用输出计算蒸馏损失L_d和分类损失L_c，然后使用动态调整的蒸馏损失率对两种损失进行加权得到损失函数loss，通过损失函数loss来更新新模型的参数；

步骤(4)、在新指纹攻击模型Model上添加一个只包含权重和截距参数的校正层，使用步骤(1)容器中的校正集训练校正层，来校正步骤(3)中新指纹攻击模型对新目标网站的预测偏向性；当下一次新增目标网站到来时，使用步骤(1)中的动态更新策略对容器进行更新，并返回步骤(2)；

上述校正对新目标网站的预测偏向性的具体过程如下：

所述校正层保留新模型Model对旧目标网站(1，...，N_old)输出的预测置信度，其具体结构为：

其中o_j是第k类目标网站的预测置信度，通过参数∝和β来调整对新目标网站(N_old+1，...，N_old+N_new)输出的预测置信度；参数∝和β分别为线性模型的权重和截距；

在训练校正层中参数的过程中，冻结新指纹攻击模型中的相关参数，使其中的深度神经网络DNN不参与反向传播；

训练校正层的损失函数计算方法为：

其中，y为校正集中流量样本e所属的目标网站标签。

2.根据权利要求1所述的针对目标网站动态增长的自适应指纹攻击方法，其特征在于：所述步骤(1)中容器的具体结构如下：

3.根据权利要求1所述的针对目标网站动态增长的自适应指纹攻击方法，其特征在于：所述步骤(3)中蒸馏损失以及分类损失的计算方法如下：

代表旧模型Model’认为流量样本e的类型分别属于不同网站标签[1，...，N_old]的概率；

示新模型Model认为流量样本e的类型分别属于不同网站标签[1，...，N_old，N_old+1，...，N_old+N_new]的概率；

然后利用和/>计算蒸馏损失L_d：

其中T是温度系数；

其中y指流量样本e所属的目标网站标签，δ为指示函数，当标签与当前输出的神经元所属类别一致时为1，否则为0。

4.根据权利要求1所述的针对目标网站动态增长的自适应指纹攻击方法，其特征在于：所述步骤(3)使用动态调整的蒸馏损失率对两种损失进行加权的具体过程如下：

分类损失L_c的权重初始为γ＝N_old/(N_old+N_new)；然后在γ前面添加一个根据损失值动态调整的校正系数μ的初始值为1；

最终的损失函数为loss＝μγL_d+(1-μγ)L_c。

5.一种用于实现权利要求1至4任意一项所述的针对目标网站动态增长的自适应指纹攻击方法的系统，其特征在于：包括目标网站流量采集和预处理模块、容器内容动态更新模块、指纹攻击模型结构更新模块、指纹攻击模型训练模块和目标网站攻击模块；

所述目标网站流量采集和预处理模块采集网络设备处的原始网站流量文件，并从中提取目标网站指纹以“网站类别标签.npy”格式存储为网站流量样本；