CN113938291A

CN113938291A - 一种基于对抗攻击算法的加密流量分析防御方法和系统

Info

Publication number: CN113938291A
Application number: CN202111033459.8A
Authority: CN
Inventors: 李瑞轩; 辜希武; 王少阳; 李玉华
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2022-01-14
Anticipated expiration: 2041-09-03
Also published as: CN113938291B

Abstract

本发明公开一种基于对抗攻击算法的加密流量分析防御方法和系统，属于网络信息安全领域。包括：S1.将网站流量数据样本中每个会话的网站流量数据抽象压缩为流量突发序列并作为样本，得到样本集，流量突发序列中的每个元素表示同一方向上连续发送或接收的数据包的数量；S2.对于样本集中的每个样本，从样本集中随机抽取与当前样本标签不同的多个样本作为目标样本池，从目标样本池中选取距离当前样本最近的目标样本；S3.对当前样本添加扰动使其逼近目标样本，对填充扰动后样本判断分类误判概率是否达到阈值，若是，结束，否则，进入步骤S2。本发明保证网络数据的完整性和可靠性，同时保证数据的扰动尽可能小以减小防御策略的负载消耗。

Description

一种基于对抗攻击算法的加密流量分析防御方法和系统

技术领域

本发明属于网络信息安全领域，更具体地，涉及一种基于对抗攻击算法的加密流量分析防御方法和系统。

背景技术

随着网络用户个人隐私保护意识的不断增强，网络数据加密方式的普及率逐渐提高，人们在追求高效信息获取效率的同时也更加注重个人的隐私保护。而然，攻击者仍然能够通过一些数据分析手段对加密或者使用匿名软件传输的数据进行分析。目前的研究表明，网站指纹识别技术是一种针对加密流量数据，尤其是匿名网络数据常见的网络攻击方式，如何针对流量数据分析的网络攻击形式制定相应的防御策略是一项亟待解决的问题。针对加密流量数据分析的防御方式为了不影响数据信息的完整性，一般采用通过在流量数据传输的过程中添加哑包的方式，破坏某一特定网络行为产生的流量数据分布形式，使得攻击者无法发觉网络流量数据所关联的用户行为。目前的防御方式主要使用监测填充技术。即监测当前用户的行为模式，根据流量数据的分布规律，有目的的人为插入哑包，使得原有的流量数据分布被隐藏。例如，专利CN109104426A通过研究网络传输过程中的发包速率，提出一种在减少发包速率差异化的同时保证插入哑包所带来的额外带宽开销最小化的加密流量分析防御技术。然而该方法的哑包作为接收数据被接收端接收，仍然存在一定的额外带宽开销。同时该方法需要针对特定用户行为产生的完整流量数据进行分析之后才能做出相应的响应，对于实时性要求较高的网络传输过程来说可操作性较低。另外，专利CN108881306A提出了基于数据包大小序列的加密流量分析防御策略的实施方法。该方法通过人为设置填充包的大小为填充数据包到2的幂次方大小但是不超过传输层最大传输单元MTU，并且每个数据包都会判断是否填充，满足了实时性的要求，但负载开销大幅度增加了。由此可以看出，目前针对加密流量分析的防御技术还普遍存在负载开销大，可操作性不强的问题。

发明内容

针对现有技术加密流量分析防御技术中的负载开销大，可操作性不强的缺陷和改进需求，本发明提供了一种基于对抗攻击算法的加密流量分析防御方法和系统，其目的在于采用深度学习对抗攻击算法生成经过扰动填充后的对抗性样本，使得填充产生的带宽负载消耗达到最优，使用深度学习技术分析流量数据特征，大大减少了防御过程中的流量监控算法的复杂度，使得可操作性性增强。

为实现上述目的，按照本发明的第一方面，提供了一种基于对抗攻击算法的加密流量分析防御方法，该方法包括：

S1.将网站流量数据样本中每个会话的网站流量数据抽象成为网站流量指纹序列，将网站流量指纹序列压缩为流量突发序列并作为样本，得到样本集，流量突发序列中的每个元素表示同一方向上连续发送或接收的数据包的数量；

S2.对于样本集中的每个样本，从样本集中随机抽取与当前样本标签不同的多个样本作为目标样本池，从目标样本池中选取距离当前样本最近的目标样本；

S3.对当前样本添加扰动使其逼近目标样本，对填充扰动后的样本进行判定，判断分类误判概率是否达到阈值，若是，则认为生成对抗性样本，结束，否则，进入步骤S2。

优选地，采用Tor信元的方式构建网站流量指纹序列，网页i的第j个通信信元序列的指纹实例

可表示为：

其中，1表示流量数据从客户端流出的一个通信信元，-1表示流量数据流入客户端的一个通信信元。

有益效果：序列Burst特征可通过连续的同方向信元单元所表示。Burst指纹序列对用户浏览网页的行为进行了简洁直接的刻画，在面对匿名网站数据的高度隐蔽性的前提下，Burst指纹序列是攻击者十分直接有效的数据分析表示方法。由于Burst指纹序列具有明显的数据序列长，结构简单的特点。因此数据在输入到深度学习模型中时，数据的编码转换更加简单。

优选地，步骤S3中，按当前样本和目标样本的距离函数的偏导，在正方向上添加扰动

其中，α表示扰动步长，ε()表示阶跃函数，n表示一个样本序列中突发单元个数，b_i表示第i个突发单元，S_t表示目标样本，S₀′表示当前样本上一轮扰动后。

有益效果：不同于传统的对抗攻击算法的损失值更新策略，基于距离函数的偏导更新策略是更加透明且易于控制的，减少了扰动值更新时的人为参数设定误差。

优选地，步骤S3中，当前样本上一轮扰动后S₀′和目标样本S_t之间的二范式距离函数f：

作为生成扰动方向的控制函数，bti表示S_t中第i个突发单元，当控制函数的值超过预设阈值时，当前样本添加扰动后的样本S′＝S+Δ在判别器D上的预测标签与原标签出现分歧，即D(S′)≠L_S，L_S为原标签，则认为对抗性样本生成成功。

有益效果：通过针对迭代形式的扰动更新，避免了一次性更新方式数据不准确，无法收敛的情况。同时，通过判别器进行验证更新能够有效的纠正扰动的更新方向。

优选地，所述判别器采用多层一维卷积神经网络结构，其结构层次为：一维卷积层、批归一化层、ReLU非线性变换层、一维卷积层、批归一化层、ReLU非线性变换层、最大池化层、Dropout层、全连接层、批归一化层、Dropout层。

有益效果：判别器使用当前效果最好的攻击分类器模型进行构建，使得生成的对抗性样本具有更好的攻击适应性和鲁棒性。

优选地，若判断分类误判概率未达到阈值、且扰动次数达到指定次数、且当前样本和扰动后样本的曼哈顿距离不小于更新最小阈值，则使用曼哈顿距离更新扰动，进入步骤S3，其他情况，直接进入步骤S2。

有益效果：系统针对扰动生成算法在一些极端情况下进行的扰动更新方法进行算法的扩充，为应对复杂网络环境的网站流量数据提供应对策略，使得算法相对于当前的流行算法的实际应用价值更高。

为实现上述目的，按照本发明的第二方面，提供了一种基于对抗攻击算法的加密流量分析防御系统，该系统包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的基于对抗攻击算法的加密流量分析防御方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

本发明将通过引入深度学习对抗攻击算法快速梯度下降法，通过修改其扰动方式，迭代地为当前样本添加扰动，最终使攻击判别器产生误判。为保证网络数据的完整性和可靠性，扰动的方式只能使添加数据，不能修改或删除数据，即通过Padding策略添加扰动；同时为保证数据的扰动尽可能小以减小防御策略的负载消耗，不同于快速梯度下降法基于模型在输入数据梯度上的消耗，而是基于当前样本和目标样本的欧式距离逼近的策略进行扰动。

附图说明

图1为本发明提供的一种基于对抗攻击算法的加密流量分析防御方法流程图；

图2为本发明提供的生成对抗性样本的原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于对抗攻击算法的加密流量分析防御方法，主要包括：流量数据样本的预处理、对抗性样本生成、判别器构造及生成样本检测。

在流量数据样本的预处理方法模块中，本发明通过将流量数据简化成流量突发序列用于描述不同用户行为下的流量数据分布模式。同时也能够减少流量数据带来的信息冗余，简化计算。

在对抗样本生成模块，本发明基于Deep Fool算法，通过设置目标样本池，从样本池中选取目标样本，通过在原样本上添加扰动不断逼近样本的方法生成对抗性样本。这种指定方向的填充方式使得生成的对抗性流量数据能够充分打破原有数据的分布，使其随机化程度更高。

构造判别器使得在生成扰动的过程中得出扰动填充方式的最优解，当原样本在添加扰动后，通过判别器对填充扰动后的样本进行判定，直到分类误判概率达到阈值，则认为生成的对抗性流量数据成功。

生成样本检测模块对最后生成的对抗性样本的有效性进行进一步验证。通过普适的加密流量分析攻击算法验证误判效果，并通过对样本的特征类别进行概率函数建模分析数据的信息泄露情况。

实施例具体实施步骤如图1所示：

步骤1使用Selenium+Python脚本控制Tor浏览器模拟用户访问网页。后台使用Tshark抓包工具对每一次完整的网页浏览进行流量数据的获取。并将流量数据预处理成流量突发序列。

1.1建立监控网站列表模拟Tor网络环境数据，并Selenium+Python脚本控制Tor浏览器模拟用户访问网页。

1.2使用Tshark获取网站访问时的流量数据，每次访问结束后，清除浏览器的缓存数据，保存每次记录的流量数据为一次完整的会话数据。

1.3将会话流量数据的数据包长度、传输方向提取出来，基于Tor固定通信单元长度512字节为单位划分数据长度序列，组成流量突发序列，以±区分流量传输方向，如：数据包序列(1328，-556，535,-1084)可划分为流量突发序列(+2，-1，+1，-2)。

步骤2基于改进的DeepFool算法对构造的流量突发序列进行对抗性样本生成。

2.1定义流量Burst序列样本的输入表示，假设Burst序列长度的最大值为n，定义原样本Burst序列为S＝{b1,b2,…,bn}，目标样本序列为T，将原样本和目标样本同时输入到扰动生成器G当中。

2.2如图2所示，通过在d(S_t,S₀′)上对突发b_i求偏导数求出对应距离行数的梯度，并通过放大器α生成数据的扰动

一方面，对样本的突发的偏导规定了扰动产生的方向，然而，扰动大小的范围却和梯度值不成比例，因此，本发明引入了放大器α进行扰动值Δ的修正，并使用符号函数统一步长。另一方面，基于网络流量数据的对抗性样本需要保证原有流量数据信息的完整性，防止匿名用户接收或者发送的信息失真，因此，使用阶跃函数ε(t)对扰动进行限制，即，当梯度值大于等于0时，扰动按照上式更新，当梯度小于0时，扰动值置零。

即，按原样本和目标样本的距离函数的偏导在正方向上添加扰动

使得原样本

和目标样本S_t之间的二范式距离函数f:

作为生成扰动方向的控制函数，n为样本维度。

2.3当控制函数的值超过某一设定的阈值时，原样本添加扰动后的样本S′＝S+Δ在判别器D上的预测标签与原标签出现分歧，即D(S′)≠L_S，L_S为原标签；则认为对抗性样本生成成功。

2.4判别器采用多层一维卷积神经网络结构，其结构层次为：一维卷积层、批归一化层、ReLu非线性变换层、一维卷积层、批归一化层、ReLu非线性变换层、最大池化层、Dropout层(以上结构单元重复四组)、全连接层、批归一化层、Dropout层。具体结构参数如下：

一维卷积层的卷积核大小为8，过滤器大小为32*d，其中，d为重复结构单元序号；

批归一化层用于对特征向量归一化，按列执行；

ReLU非线性变换层变换系数为1.0；

批归一化层用于对特征向量归一化，按列执行：

ReLU非线性变换层变换系数为1.0；

最大池化层池大小为8；

Dropout层降采样系数为0.1；

全连接层神经元个数512；

Dropout层降采样系数为0.5。

步骤3评估对抗性样本的效果，并构造防御填充流量数据。

3.1构建攻击分类器池包含N种先进的攻击模型(N≥3)，使用生成的对抗性样本进行模型的训练分析。

3.2对于攻击分类器池中的任意攻击分类器A_i，若模型对对抗性样本的误判率为η_i，则当攻击分类池中的所有攻击分类器的误判平均值

τ为给定的阈值，则对抗性样本的防御有效。

3.3与3.2同步地，通过WeFDE信息泄露分析得出对抗性样本的信息泄露量α，当α＜3.5比特(经实验无防御数据集的信息泄漏量)时，数据认为是有效防御数据。

3.4综合3.2和3.3，若同时符合条件，计算填充数据包时的网络带宽消耗

当BWO小于给定阈值时，认为该方法符合要求，否则，重新构造对抗性样本。

3.5将生成的对抗性流量突发序列样本还原成流量数据，其中每个作为填充单元每个Tor信元使用无TCP序列号的数据包传输以保证通过确认机制使填充数据无法被接收端接收，从而保留原始流量数据信息，使网络带宽消耗最小。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对抗攻击算法的加密流量分析防御方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，采用Tor信元的方式构建网站流量指纹序列，网页i的第j个通信信元序列的指纹实例

可表示为：

3.如权利要求1所述的方法，其特征在于，步骤S3中，按当前样本和目标样本的距离函数的偏导，在正方向上添加扰动

其中，α表示扰动步长，ε( )表示阶跃函数，n表示一个样本序列中突发单元个数，b_i表示第i个突发单元，S_t表示目标样本，S₀′表示当前样本上一轮扰动后样本。

4.如权利要求3所述的方法，其特征在于，步骤S3中，当前样本上一轮扰动后S₀′和目标样本S_t之间的二范式距离函数f：

作为生成扰动方向的控制函数，

表示S_t中第i个突发单元，当控制函数的值超过预设阈值时，当前样本添加扰动后的样本S′＝S+Δ在判别器D上的预测标签与原标签出现分歧，即D(S′)≠L_S，L_S为原标签，则认为对抗性样本生成成功。

5.如权利要求4所述的方法，其特征在于，所述判别器采用多层一维卷积神经网络结构，其结构层次为：一维卷积层、批归一化层、ReLU非线性变换层、一维卷积层、批归一化层、ReLU非线性变换层、最大池化层、Dropout层、全连接层、批归一化层、Dropout层。

6.如权利要求1所述的方法，其特征在于，若判断分类误判概率未达到阈值、且扰动次数达到指定次数、且当前样本和扰动后样本的曼哈顿距离不小于更新最小阈值，则使用曼哈顿距离更新扰动，进入步骤S3，其他情况，直接进入步骤S2。

7.一种基于对抗攻击算法的加密流量分析防御系统，其特征在于，该系统包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至6任一项所述的基于对抗攻击算法的加密流量分析防御方法。