CN114500071B - 一种针对目标网站动态增长的自适应指纹攻击方法和系统 - Google Patents
一种针对目标网站动态增长的自适应指纹攻击方法和系统 Download PDFInfo
- Publication number
- CN114500071B CN114500071B CN202210125891.8A CN202210125891A CN114500071B CN 114500071 B CN114500071 B CN 114500071B CN 202210125891 A CN202210125891 A CN 202210125891A CN 114500071 B CN114500071 B CN 114500071B
- Authority
- CN
- China
- Prior art keywords
- new
- old
- model
- container
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000012937 correction Methods 0.000 claims abstract description 45
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 6
- 210000002569 neuron Anatomy 0.000 claims description 17
- 238000004821 distillation Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 230000007123 defense Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241000234282 Allium Species 0.000 description 1
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种针对目标网站动态增长的自适应指纹攻击方法和系统,首先创建容量固定且存储内容动态更新的容器为所有目标网站分配训练集空间和校正集空间,并通过修改指纹攻击模型结构增加其可预测的网站数量,以获得待训练的新模型。然后利用容器中保存下来的训练集和新目标网站的流量样本一起训练新模型,同时旧模型利用动态调整损失率的知识蒸馏向新模型传授旧目标网站中的复杂模式。克服存储开销和计算开销快速增长的缺点。最后在新模型上添加校正层,校正训练新模型时由于新旧流量样本的不平衡从而导致对新目标网站的预测偏向性,实现在固定的存储空间以及与新增目标网站数量线性相关的时间里有效识别所有目标网站。
Description
技术领域
本发明涉及网络安全技术,具体涉及一种针对目标网站动态增长的自适应指 纹攻击方法和系统。
背景技术
随着现代互联网的快速发展,人们使用浏览器访问互联网也越来越频繁。他 们访问各种网站的主要目的在于娱乐、社交、购物等。同时越来越多的互联网用 户开始关注他们网络上的隐私信息。匿名通信系统Tor通过洋葱加密和多层代理 等技术,致力于保护用户在访问网络时的隐私性,防止黑客等窃听者关联用户及其通信对象,解决了普通用户上网时隐私泄露的问题。然而,随着相关技术的不 断发展和应用,Tor网络也间接为匿名实施网络违法犯罪行为提供了保护,越来 越多不法分子选择使用Tor网络隐藏他们的身份信息。在这种情况下,需要一种 有效的手段来监管匿名网络中用户的行为。
网站指纹攻击技术应运而生。尽管Tor网络隐藏了数据包的源和目的地址, 但访问不同网站时产生的网络流量中的一些信息仍然能够形成唯一的指纹,更准 确的说,它们为数据包的方向、大小和时间相关信息。因此,攻击者可以通过发 送和接收流量上这些特定模式推断出不法分子访问了哪些网站。这些攻击者可以为政府机构、监管部门和网络管理员等。另一方面,防御者已经开发出各种轻量 级防御策略,用以抵御攻击。因此,面对轻量级防御策略时,欲仍需较高的攻击 成功率,每个目标网站通常需要收集大量流量样本来训练攻击模型。
然而现有方案通常只考虑攻击者能够一次性确定全部需要待识别的目标网 站,即目标网站列表是静态的情况。同时它们默认攻击者具有足够的存储资源来 同时存储这些大量的训练样本,并且忽略了目标网站每次动态增加时,攻击者都 完全重新训练模型,间接导致消耗大量的计算资源、时间和经济成本的问题。因 此,需要一个更加有效的网站指纹攻击方法来应对轻量级防御下目标网站动态增长的场景。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种针对目 标网站动态增长的自适应指纹攻击方法和系统。
技术方案:本发明的一种针对目标网站动态增长的自适应指纹攻击方法,依 次包括以下步骤:
步骤(1)、创建一个容量固定为M的容器,该容器存储旧目标网站样本和当 前收集到的新目标网站样本;依据旧目标网站样本数量Nold为每个旧目标网站分 配一个容量相同的子容器,即每个子容器的容量为M/Nold;各子容器的存储空间 均被划分为训练集空间和校正集空间;训练集中保存有每个目标网站的核心流量样 本集和普通流量样本集;
每当目标网站动态增加时,使用动态更新策略对容器进行更新;
步骤(2)、将目标网站增加之前训练所得的指纹攻击模型作为旧模型Model’ 保存;然后根据步骤(1)中新增的目标网站数目Nnew,创建一个新的全连接分类 层FC,该全连接分类层包含与当前目标网站相同数量(即Nold+Nnew)的神经 元,对其进行分段初始化来替换旧模型中的全连接分类层FC′,得到待训练的新模 型Model;
步骤(3)、将步骤(1)容器里旧目标网站的训练集和新目标网站的流量样 本打包后随机打乱同时送入步骤(2)中的新旧两个指纹攻击模型,利用输出计 算蒸馏损失Ld和分类损失Lc,然后使用动态调整的蒸馏损失率对两种损失进行加 权得到损失函数loss,通过损失函数loss来更新新模型的参数,从而在最大程度上 帮助新模型回忆和保存旧知识;
步骤(4)、在新指纹攻击模型上添加一个只包含两个参数的校正层,使用步 骤(1)容器中的校正集训练校正层,来校正步骤(3)中新指纹攻击模型对新目标网站的预测偏向性;
当下一次新增目标网站到来时,使用步骤(1)中的动态更新策略对容器进 行更新,并返回步骤(2)。
进一步地,所述步骤(1)中容器的具体结构如下:
假设容器容量为M个流量样本,当前旧目标网站数量为Nold,则此时容器的存 储空间则被划分为Nold个子容器,每个子容器的容量为M/Nold,并分配给每个旧目 标网站,其中每个子容器的存储空间被划分为训练集和校正集两个部分,所有子容 器的训练集部分构成数据集Et,校正集部分构成数据集Ev;并且校正集所占用的存 储空间远小于训练集,同时每个目标网站的校正集大小是相等且固定的;训练集中 核心流量样本集和普通流量样本集的大小比例为1∶1。
进一步地,所述步骤(1)中容器动态更新策略的具体内容如下:
核心流量样本以优先级列表的方式构造,以确保每个子容器中从第一个流量样本开始的任何子集,其平均特征向量是该目标网站全部训练流量样本平均特征向量 最好的一个近似,并且在任何阶段丢弃流量样本时都不违反这个属性,用于最大层 度上保存每个网站流量样本间存在着的一些最具有代表性的共性特征;
普通流量样本集通过随机选取得到,使用普通流量样本对训练集进行数据增强,模拟实际攻击场景下捕获到的目标网站流量样本各种非典型状态;当Nnew个新目标 网站到来时,每个子容器均丢弃个流量样本的训练集,为创建新 的子容器留出空间;
容器更新结束后,存储空间则被划分为(Nold+Nnew)个子容器分配给每个新 旧目标网站,此时每个子容器容量为M/(Nold+Nnew),并且每个子容器之间对应 部分的流量样本数量相同。
进一步地,所述步骤(2)的具体过程为:
将之前目标网站增加后训练得到的旧指纹攻击模型保存为Model’,拷贝该旧 模型现有全连接分类层FC′中Nold个神经元的权重参数w′以及偏差参数b′,根据任 务需求新增的Nnew个目标网站数目,新建包含Nold+Nnew个神经元全连接分类 层FC,将新全连接分类层前Nold个神经元的权重参数和偏置项参数分别赋值初始 化为w′和b′,并从反向传播考虑,将剩余的Nnew个神经元偏差b置零,权重进行 初始化为其中参数a为激活函数的负斜率;
最后替换旧全连接分类层FC′得到的新模型Model。
进一步地,所述步骤(3)中蒸馏损失以及分类损失的计算方法如下:
假设步骤(2)中Model′和Model对用于训练的流量样本e的预测结果分别为和/>
代表旧模型Model’认为流量样本e的类型分别属于不同网站标签 [1,…,Nold]的概率;
示新模型Model认为流量样本e的类型分别属于不同网站标签[1,…,Nold,Nold+1,…,Nold+Nnew]的概率;
然后利用和/>计算蒸馏损失Ld:
其中T是温度系数,用 于在计算蒸馏损失时放大非最高概率所对应类的损失值以加强对Model′中暗知 识的表达,以向Model传授旧目标网站流量样本中存在的复杂特征模式同时计算 分类损失;
其中y指流量样本e所 属的目标网站标签,δ为指示函数,当标签与当前输出的神经元所属类别一致时 为1,否则为0,此处,n和j均为临时局部变量。
进一步地,所述步骤(3)使用动态调整的蒸馏损失率对两种损失进行加权 的具体过程如下:
创建一个用于存储历次目标网站动态增加时更新Model收敛后得到的损失 值列表假设当前是第k次目标网站动态增加,此时/>
由于旧目标网站的占比会越来越高,因此分类损失Lc的权重初步设计为 γ=Nold/(Nold+Nnew);但同时考虑到随着新目标网站的增加,旧流量样本会 不断丢失,Model′攻击的成功率会不可避免的出现下降。因此在γ前面添加一个 根据损失值动态调整的校正系数来缓解这种下降进一 步带来的负面影响,其中μ的初始值为1;
最终的损失函数为loss=μγLd+(1-μγ)Lc。
进一步地,所述步骤(4)校正对新目标网站的预测偏向性的具体过程如下:
所述校正层保留新模型Model对旧目标网站(1,...,Nold)输出的预测置信度, 其具体结构为:
其中oj是第j类目标网站的预测置信度,通过参数∝和β来调整对新目标网站(Nold+1,...,Nold+Nnew)输出的预测置信度;参数∝和β分别为线性模型的权重 和截距;
该部分本质是一个线性模型,为所有新目标网站共享。通过一个体积很小但 各新旧目标网站流量样本数量平衡的校正集来对它进行训练,以此向新指纹攻击 模型传达在实际攻击场景下,每个目标网站的流量样本会接近等概率出现这一信 息。在训练校正层中参数的过程中,冻结新指纹攻击模型中的相关参数,使其中的深度神经网络DNN不参与反向传播,从而加快校正层收敛速度,减少模型的 训练开销;
训练校正层的损失函数计算方法为
其中,y为校正集中流量样本e所属的目标网站标签。
本发明还公开一种用于实现上述针对目标网站动态增长的自适应指纹攻击 方法的系统,包括目标网站流量采集和预处理模块、容器内容动态更新模块、指 纹攻击模型结构更新模块、指纹攻击模型训练模块和目标网站攻击模块;
所述目标网站流量采集和预处理模块采集交换机等网络设备处的原始网站 流量文件,并从中提取目标网站指纹以“网站类别标签.npy”格式存储为网站流量 样本;
所述容器内容动态更新模块首次运行时创建一个固定容量的容器,之后随着 目标网站的动态增加更新容器中的内容来为所有目标网站分配存储空间;
所述指纹攻击模型结构更新模块根据新增目标网站数量调整模型结构得到 新指纹攻击模型;
所述指纹攻击模型训练模块使用容器中的训练集和采集到的新目标网站流 量样本并结合动态调整损失率的知识蒸馏训练新模型,然后使用容器中的校正集 训练校正层,以校正新模型对新目标网站的预测偏向性;
所述目标网站攻击模块首先对待识别的网站流量文件预处理得到网站指纹, 然后使用训练好的指纹攻击模型对其进行预测,分配网站类别标签。
本发明还公开一种计算机存储介质,该计算机存储介质中存储有针对目标网 站动态增长的自适应指纹攻击程序,执行该程序时实现上述针对目标网站动态增 长的自适应指纹攻击方法。
有益效果:本发明针对在使用了轻量级防御技术的Tor网络中目标网站动态 增加的问题,提出自适应的指纹攻击技术方案,通过创建一个固定容量的容器并 动态更新其中的存储内容,然后与新目标网站的流量样本一起通过动态调整损失 率的知识蒸馏训练调整结构后得到的新模型,在最大程度上帮助新模型回忆和保 存了旧目标网站中的知识。利用校正层校正了新模型对新目标网站的预测偏向性。实现了每次目标网站动态增加后在固定的存储空间内完成对所有目标网站的有 效识别,并且时间复杂度和新增加的目标网站数量线性相关。
附图说明
图1为本发明的整体流程示意图;
图2为本发明的系统结构图;
图3为实施例中容器内部流量样本存储策略示意图;
图4为实施例中网站指纹攻击模型每次更新后的结构示意图;
图5为实施例中容器内部各部分流量样本走向和方案整体工作方式示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述 实施例。
本发明首先创建一个容量固定且存储内容动态更新的容器为所有目标网站 分配训练集空间和校正集空间,并通过修改指纹攻击模型结构增加其可预测的网 站数量,以获得待训练的新模型。然后利用容器中保存下来的训练集和新目标网 站的流量样本一起训练新模型,同时旧模型利用动态调整损失率的知识蒸馏向新 模型传授旧目标网站中的复杂模式。从而在最大程度上帮助新模型回忆和保存旧目标网站中的知识,克服了现有方案在此场景下存储开销和计算开销快速增长的 缺点。最后在新模型上添加一个校正层,校正训练新模型时由于新旧流量样本的 不平衡从而导致对新目标网站的预测偏向性,实现了在固定的存储空间以及与新 增目标网站数量线性相关的时间里有效识别所有目标网站。
实施例1:
如图1所示,本实施例的针对目标网站动态增长的自适应指纹攻击方法具体 步骤为:
S101:创建一个容量固定为M的容器,该容器存储旧目标网站样本和当前收 集到的新目标网站样本;依据旧目标网站样本数量Nold为每个旧目标网站分配一 个容量相同的子容器,即每个子容器的容量为M/Nold;各子容器的存储空间均被 划分为训练集空间和校正集空间;训练集中保存有每个目标网站的核心流量样本集 和普通流量样本集;
S102:如图4所示,将目标网站增加之前训练所得的指纹攻击模型作为旧模 型Model’保存;;根据步骤(1)中新增的目标网站数目Nnew,创建一个新的全连 接分类层FC,该全连接分类层包含与当前目标网站相同数量(即Nold+Nnew) 的神经元,对其进行分段初始化来替换旧模型中的全连接分类层FC′,得到待训练 的新模型Model;
此处的旧模型Model’,除在第一次目标网站进行动态增加时是预先训练所得, 之后每一次目标网站再次动态增加时旧模型均指上一次增加后训练得到的模型, 这是一个会不断循环的过程,通过旧模型协助修改全连接分类层的新模型的训练;
S103:将步骤(1)容器里旧目标网站的训练集和新目标网站的流量样本打 包后随机打乱同时送入步骤(2)中的新旧两个指纹攻击模型,利用输出计算蒸 馏损失Ld和分类损失Lc,然后使用动态调整的蒸馏损失率对两种损失进行加权得 到损失函数loss,通过损失函数loss来更新新模型的参数,从而在最大程度上帮助 新模型回忆和保存旧知识;
S104:在新指纹攻击模型上添加一个只包含两个参数的校正层,使用步骤(1) 容器中的校正集训练校正层,来校正步骤(3)中新指纹攻击模型对新目标网站 的预测偏向性;当下一次新增目标网站到来时,使用步骤(1)中的动态更新策 略对容器进行更新,并返回步骤(2)。
实施例2:
如图2所示,本实施例的针对目标网站动态增长的自适应指纹攻击方系统, 包括目标网站流量采集和预处理模块100、容器内容动态更新模块200、指纹攻击模型结构更新模块300、指纹攻击模型训练模块400和目标网站攻击模块500;
目标网站流量采集和预处理模块100采集交换机等网络设备处的原始网站 流量文件,并从中提取网站指纹以“网站类别标签.npy”格式存储为网站流量样本;
容器内容动态更新模块200首次运行时创建一个固定容量的容器,之后随着 目标网站的动态增加更新容器中的内容来为所有目标网站分配训练集空间和校 正集空间;
指纹攻击模型结构更新模块300根据新增目标网站数量调整模型结构得到 新指纹攻击模型;
指纹攻击模型训练模块400使用容器中的训练集和采集到的新目标网站流 量样本并结合动态调整损失率的知识蒸馏训练新模型,然后使用容器中的校正集 训练校正层,以校正新模型对新目标网站的预测偏向性;
目标网站攻击模块500首先对待识别的网站流量文件预处理得到网站指纹, 然后使用训练好的指纹攻击模型对其进行预测,为待识别的网站流量文件分配网 站类别标签。
实施例3:
如图3所示,本实施例的其他内容同实施例1,容器的具体结构如下:
第一次训练网站指纹攻击模型时,首先创建一个储存空间固定为M的容器。 之后假设当前已进行过k-1次目标网站动态增加,现有旧目标网站数量为Nold。 此时每个旧目标网站分配到的子容器空间为M/Nold,将这部分存储空间进一步 划分为训练集train和val,且train>>val。train中核心流量样本与普通流量样 本的大小比例为1:1。此时进行第k次目标网站动态增加,此次增加Nnew个目标 网站,在此期间每个子容器则分配到的存储空间为M/(Nold+Nnew)。
其中核心流量样本管理方法如下:
其中,Q为核心流量样本集,(q1,q2,…,qn)为按照优先级从高到低排列下来的核心流量样本。 核心流量样本集以优先级列表的形式构造,列表中越靠前优先级越高,反之越低, 每次丢弃的为优先级最低的核心流量样本。通过在训练集中引入核心流量样本集 和普通流量样本集来训练模型,从而增加鲁棒性,
实施例4:
如图4所示,本实施例的其他内容同实施例1,网站指纹攻击模型每次更新 结构的策略:
拷贝模型现有全连接分类层FC′中Nold个神经元的权重参数w′以及偏差参数b′,根据任务需求新增的Nnew个目标网站数目,新建包含Nold+Nnew个神经元全 连接分类层FC,将新全连接分类层前Nold个神经元的权重参数和偏置项参数分别 赋值初始化为w′和b′,并从反向传播考虑,将剩余的Nnew个神经元偏差b置零, 权重进行初始化为其中参数a为激活函数的负 斜率。替换旧全连接分类层FC′得到的新模型Model。
实施例5:
如图5所示,本实施例的其他内容同实施例1,容器内部各部分流量样本走向 和方案整体工作方式:
将容器中每个子容器的训练集部分和新目标网站的训练流量样本打包后随 机打乱同时输入到旧模型Model′和新模型Model中,得到两者输出后,计算蒸馏 损失,然后结合训练集流量样本的硬标签计算分类损失,并按照动态调整的蒸馏 损失率对两种损失进行加权得到最终的损失loss=μγLd+(1-μγ)Lc来更新新 模型Model中的参数。最后在Model后面添加一个只包含两个参数的校正层,使 用容器中校正集进行训练,来校正Model对新目标网站的预测偏向性。
经过实验验证,通过本发明技术方案针对目标网站动态增长的自适应指纹攻 击,其最终存储开销的复杂度能够控制在O(1),计算开销的复杂度能 够控制在O(N)。
Claims (5)
1.一种针对目标网站动态增长的自适应指纹攻击方法,其特征在于:依次包括以下步骤:
步骤(1)、创建一个容量固定为M的容器,该容器存储旧目标网站样本和当前收集到的新目标网站样本;依据旧目标网站样本数量Nold为每个旧目标网站分配一个容量相同的子容器,即每个子容器的容量为M/Nold;各子容器的存储空间均被划分为训练集空间和校正集空间;训练集中保存有每个目标网站的核心流量样本集和普通流量样本集;
每当目标网站动态增加时,使用动态更新策略对容器进行更新,容器动态更新策略的具体内容如下:
核心流量样本集以优先级列表的方式构造,以确保每个子容器中从第一个流量样本开始的任何子集,其平均特征向量是该目标网站全部训练流量样本平均特征向量最好的一个近似,并且在任何阶段丢弃流量样本时都不违反这个属性;
普通流量样本集通过随机选取得到,使用普通流量样本对训练集进行数据增强;当Nnew个新目标网站到来时,每个子容器均丢弃个流量样本的训练集,为创建新的子容器留出空间;
容器更新结束后,存储空间则被划分为(Nold+Nnew)个子容器分配给每个新旧目标网站,此时每个子容器容量为M/(Nold+Nnew),并且每个子容器之间对应部分的流量样本数量相同;
步骤(2)、将目标网站增加之前训练所得的指纹攻击模型作为旧模型Model’保存;然后根据步骤(1)中新增的目标网站数目Nnew,创建一个新的全连接分类层FC,该全连接分类层包含与当前目标网站相同数量的神经元,对其进行分段初始化来替换旧模型中的全连接分类层FC′,得到待训练的新模型Model;
将之前目标网站增加后训练得到的旧指纹攻击模型保存为Model’,拷贝该旧模型现有全连接分类层FC′中Nold个神经元的权重参数w′以及偏差参数b′,根据任务需求新增的Nnew个目标网站数目,新建包含Nold+Nnew个神经元全连接分类层FC,将新全连接分类层前Nold个神经元的权重参数和偏置项参数分别赋值初始化为w′和b′,并从反向传播考虑,将剩余的Nnew个神经元偏差b置零,权重进行初始化为其中参数a为激活函数的负斜率;
最后替换旧全连接分类层FC′得到的新模型Model;
步骤(3)、将步骤(1)容器里旧目标网站的训练集和新目标网站的流量样本打包后随机打乱同时送入步骤(2)中的新旧两个指纹攻击模型,利用输出计算蒸馏损失Ld和分类损失Lc,然后使用动态调整的蒸馏损失率对两种损失进行加权得到损失函数loss,通过损失函数loss来更新新模型的参数;
步骤(4)、在新指纹攻击模型Model上添加一个只包含权重和截距参数的校正层,使用步骤(1)容器中的校正集训练校正层,来校正步骤(3)中新指纹攻击模型对新目标网站的预测偏向性;当下一次新增目标网站到来时,使用步骤(1)中的动态更新策略对容器进行更新,并返回步骤(2);
上述校正对新目标网站的预测偏向性的具体过程如下:
所述校正层保留新模型Model对旧目标网站(1,...,Nold)输出的预测置信度,其具体结构为:
其中oj是第k类目标网站的预测置信度,通过参数∝和β来调整对新目标网站(Nold+1,...,Nold+Nnew)输出的预测置信度;参数∝和β分别为线性模型的权重和截距;
在训练校正层中参数的过程中,冻结新指纹攻击模型中的相关参数,使其中的深度神经网络DNN不参与反向传播;
训练校正层的损失函数计算方法为:
其中,y为校正集中流量样本e所属的目标网站标签。
2.根据权利要求1所述的针对目标网站动态增长的自适应指纹攻击方法,其特征在于:所述步骤(1)中容器的具体结构如下:
假设容器容量为M个流量样本,当前旧目标网站数量为Nold,则此时容器的存储空间则被划分为Nold个子容器,每个子容器的容量为M/Nold,并分配给每个旧目标网站,其中每个子容器的存储空间被划分为训练集和校正集两个部分,所有子容器的训练集部分构成数据集Et,校正集部分构成数据集Ev;并且校正集所占用的存储空间远小于训练集,同时每个目标网站的校正集大小是相等且固定的;训练集中核心流量样本集和普通流量样本集的大小比例为1∶1。
3.根据权利要求1所述的针对目标网站动态增长的自适应指纹攻击方法,其特征在于:所述步骤(3)中蒸馏损失以及分类损失的计算方法如下:
假设步骤(2)中Model′和Model对用于训练的流量样本e的预测结果分别为和/>
代表旧模型Model’认为流量样本e的类型分别属于不同网站标签[1,...,Nold]的概率;
示新模型Model认为流量样本e的类型分别属于不同网站标签[1,...,Nold,Nold+1,...,Nold+Nnew]的概率;
然后利用和/>计算蒸馏损失Ld:
其中T是温度系数;
其中y指流量样本e所属的目标网站标签,δ为指示函数,当标签与当前输出的神经元所属类别一致时为1,否则为0。
4.根据权利要求1所述的针对目标网站动态增长的自适应指纹攻击方法,其特征在于:所述步骤(3)使用动态调整的蒸馏损失率对两种损失进行加权的具体过程如下:
创建一个用于存储历次目标网站动态增加时更新Model收敛后得到的损失值列表假设当前是第k次目标网站动态增加,此时/>
分类损失Lc的权重初始为γ=Nold/(Nold+Nnew);然后在γ前面添加一个根据损失值动态调整的校正系数μ的初始值为1;
最终的损失函数为loss=μγLd+(1-μγ)Lc。
5.一种用于实现权利要求1至4任意一项所述的针对目标网站动态增长的自适应指纹攻击方法的系统,其特征在于:包括目标网站流量采集和预处理模块、容器内容动态更新模块、指纹攻击模型结构更新模块、指纹攻击模型训练模块和目标网站攻击模块;
所述目标网站流量采集和预处理模块采集网络设备处的原始网站流量文件,并从中提取目标网站指纹以“网站类别标签.npy”格式存储为网站流量样本;
所述容器内容动态更新模块首次运行时创建一个固定容量的容器,之后随着目标网站的动态增加更新容器中的内容来为所有目标网站分配存储空间;
所述指纹攻击模型结构更新模块根据新增目标网站数量调整模型结构得到新指纹攻击模型;
所述指纹攻击模型训练模块使用容器中的训练集和采集到的新目标网站流量样本并结合动态调整损失率的知识蒸馏训练新模型,然后使用容器中的校正集训练校正层,以校正新模型对新目标网站的预测偏向性;
所述目标网站攻击模块首先对待识别的网站流量文件预处理得到网站指纹,然后使用训练好的指纹攻击模型对其进行预测,分配网站类别标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210125891.8A CN114500071B (zh) | 2022-02-10 | 2022-02-10 | 一种针对目标网站动态增长的自适应指纹攻击方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210125891.8A CN114500071B (zh) | 2022-02-10 | 2022-02-10 | 一种针对目标网站动态增长的自适应指纹攻击方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114500071A CN114500071A (zh) | 2022-05-13 |
CN114500071B true CN114500071B (zh) | 2024-04-16 |
Family
ID=81478152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210125891.8A Active CN114500071B (zh) | 2022-02-10 | 2022-02-10 | 一种针对目标网站动态增长的自适应指纹攻击方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114500071B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602113A (zh) * | 2019-09-19 | 2019-12-20 | 中山大学 | 一种基于深度学习的层次化钓鱼网站检测方法 |
CN111027060A (zh) * | 2019-12-17 | 2020-04-17 | 电子科技大学 | 基于知识蒸馏的神经网络黑盒攻击型防御方法 |
CN112087447A (zh) * | 2020-09-07 | 2020-12-15 | 广西师范大学 | 面向稀有攻击的网络入侵检测方法 |
CN112491823A (zh) * | 2020-11-13 | 2021-03-12 | 齐鲁工业大学 | 基于区块链的DDoS攻击联合防御系统及方法 |
WO2021082633A1 (zh) * | 2019-10-29 | 2021-05-06 | 支付宝(杭州)信息技术有限公司 | 实现安全防御的多方联合训练神经网络的方法及装置 |
CN112764758A (zh) * | 2021-01-21 | 2021-05-07 | 中国工商银行股份有限公司 | 代码坏味道检测方法和装置 |
CN113132410A (zh) * | 2021-04-29 | 2021-07-16 | 深圳信息职业技术学院 | 一种用于检测钓鱼网址的方法 |
WO2021196911A1 (zh) * | 2020-03-30 | 2021-10-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的网络安全防护方法、装置、电子设备 |
CN113938290A (zh) * | 2021-09-03 | 2022-01-14 | 华中科技大学 | 一种用户侧流量数据分析的网站去匿名方法和系统 |
-
2022
- 2022-02-10 CN CN202210125891.8A patent/CN114500071B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110602113A (zh) * | 2019-09-19 | 2019-12-20 | 中山大学 | 一种基于深度学习的层次化钓鱼网站检测方法 |
WO2021082633A1 (zh) * | 2019-10-29 | 2021-05-06 | 支付宝(杭州)信息技术有限公司 | 实现安全防御的多方联合训练神经网络的方法及装置 |
CN111027060A (zh) * | 2019-12-17 | 2020-04-17 | 电子科技大学 | 基于知识蒸馏的神经网络黑盒攻击型防御方法 |
WO2021196911A1 (zh) * | 2020-03-30 | 2021-10-07 | 腾讯科技(深圳)有限公司 | 基于人工智能的网络安全防护方法、装置、电子设备 |
CN112087447A (zh) * | 2020-09-07 | 2020-12-15 | 广西师范大学 | 面向稀有攻击的网络入侵检测方法 |
CN112491823A (zh) * | 2020-11-13 | 2021-03-12 | 齐鲁工业大学 | 基于区块链的DDoS攻击联合防御系统及方法 |
CN112764758A (zh) * | 2021-01-21 | 2021-05-07 | 中国工商银行股份有限公司 | 代码坏味道检测方法和装置 |
CN113132410A (zh) * | 2021-04-29 | 2021-07-16 | 深圳信息职业技术学院 | 一种用于检测钓鱼网址的方法 |
CN113938290A (zh) * | 2021-09-03 | 2022-01-14 | 华中科技大学 | 一种用户侧流量数据分析的网站去匿名方法和系统 |
Non-Patent Citations (1)
Title |
---|
马陈城 ; 杜学绘 ; 曹利峰 ; 吴蓓 ; .基于深度神经网络burst特征分析的网站指纹攻击方法.计算机研究与发展.(04),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114500071A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Blockchain assisted decentralized federated learning (BLADE-FL): Performance analysis and resource allocation | |
CN110889133B (zh) | 一种基于身份行为混淆的抗网络追踪隐私保护方法及系统 | |
Xu et al. | Secure and reliable transfer learning framework for 6G-enabled Internet of Vehicles | |
Yao et al. | ACE: Adaptively similarity-preserved representation learning for individual treatment effect estimation | |
Zhu et al. | A fine-grained differentially private federated learning against leakage from gradients | |
Wen | Cloud computing intrusion detection technology based on BP-NN | |
CN107798106A (zh) | 一种分布式爬虫系统中的url去重方法 | |
CN114844715B (zh) | 一种网络安全防御策略优化方法、设备及介质 | |
CN113411826A (zh) | 一种基于注意力机制强化学习的边缘网络设备缓存方法 | |
CN114708479B (zh) | 一种基于图结构和特征的自适应防御方法 | |
EP3633950B1 (en) | Method for evaluating domain name and server using the same | |
Wang et al. | Federated unlearning and its privacy threats | |
CN116187469A (zh) | 一种基于联邦蒸馏学习框架的客户端成员推理攻击方法 | |
Ahmed et al. | 5G-empowered drone networks in federated and deep reinforcement learning environments | |
CN114500071B (zh) | 一种针对目标网站动态增长的自适应指纹攻击方法和系统 | |
Reddy et al. | A hybrid neural network architecture for early detection of DDOS attacks using deep learning models | |
CN114282692A (zh) | 一种纵向联邦学习的模型训练方法及系统 | |
Lv et al. | Blockchain based decentralized learning for security in digital twins | |
Outchakoucht et al. | Machine learning based access control framework for the Internet of Things | |
Babakniya et al. | A data-free approach to mitigate catastrophic forgetting in federated class incremental learning for vision tasks | |
CN113537400A (zh) | 一种基于分支神经网络的边缘计算节点的分配与退出方法 | |
CN117494183A (zh) | 基于知识蒸馏的生成对抗网络模型的隐私数据生成方法及系统 | |
CN115470520A (zh) | 一种在垂直联邦框架下的差分隐私及去噪的数据保护方法 | |
CN113194092B (zh) | 一种精准的恶意流量变种检测方法 | |
Gu et al. | An online website fingerprinting defense based on the non-targeted adversarial patch |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |