CN115549955A

CN115549955A - 一种基于深度学习的轻量级加密流量分析防御方法

Info

Publication number: CN115549955A
Application number: CN202210982284.3A
Authority: CN
Inventors: 谭智瀚; 胡宁; 刘玲; 黄雅雅; 陈依兴; 邹金财
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-12-30

Abstract

本发明涉及网络安全通信领域，公开了一种基于深度学习的轻量级加密流量分析防御方法，包括以下步骤：第一步：提前收集不同用户访问不同目标网站时在其客户端产生的流量数据，将其抽象成为不同的流量模式并作为分类模型测试数据集；将不同目标网站流量数据抽象成为不同的网站流量指纹序列并作为分类模型训练数据集；第二步：将测试数据集输入分类器，被分类器成功分类；第三步：统计被分类器成功分类的流量模式的共同特征；第四步：对成功分类的流以及流入的实时流量进行数据填充，填充量为流长度L*α，α在(0，1)之间；第五步：经填充后的流量从中间节点流出；第六步：攻击者不能成功匹配用户和其访问的目标网站。

Description

一种基于深度学习的轻量级加密流量分析防御方法

技术领域

本发明涉及网络安全通信领域，具体涉及一种基于深度学习的轻量级加密流量分析防御方法。

背景技术

近年来，在安全通信和个人隐私保护需求的驱动下，选择匿名通信的用户数量逐渐增长。为了保护敏感数据的机密性，处于匿名通信中的流量几乎均已被加密。针对加密流量的分析技术仍在不断发展中，典型的加密流量分析技术包括网站指纹攻击，这种攻击能够匹配用户与其访问的网站。攻击者根据检测到的客户端产生的流量模式和提前记录的网站指纹推断这一信息。目前防御这些攻击的方法为了降低攻击成功率，会添加大量的延迟和带宽开销，在实际的匿名通信系统中不仅会给用户带来糟糕的用户体验同时也影响网络性能。

基于深度学习的轻量级加密流量分析防御方法能够很好的解决这一问题，在防御能力和网络开销之间做出权衡，有针对性地更改流量前后特征，在保证防御能力最优的情况下，引入最低的时延开销和带宽开销，为此本发明提出了一种基于深度学习的轻量级加密流量分析防御方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供一种基于深度学习的轻量级加密流量分析防御方法，以解决上述的问题。

(二)技术方案

为实现上述所述目的，本发明提供如下技术方案：

一种基于深度学习的轻量级加密流量分析防御方法，包括以下步骤：

第一步：提前收集不同用户访问不同目标网站时在其客户端产生的流量数据，将其抽象成为不同的流量模式并作为分类模型测试数据集；

将不同目标网站流量数据抽象成为不同的网站流量指纹序列并作为分类模型训练数据集，网站流量指纹序列和客户端产生的流量模式均以流量突发为单位，流量突发表示同一方向上连续发送或接收的数据包的个数；

第二步：将测试数据集输入分类器，被分类器成功分类；

第三步：统计被分类器成功分类的流量模式的共同特征；

第四步：对成功分类的流以及流入的实时流量进行数据填充，填充量为流长度L*α，α在(0，1)之间；

第五步：经填充后的流量从中间节点流出；

第六步：攻击者不能成功匹配用户和其访问的目标网站。

优选的，所述第二步中分类器是基于卷积神经网络算法和训练数据集生成。

分类器由两层卷积层、两个最大池化层和三层全连接神经网络组成。

所述第四中进行数据填充具体内容如下：

S1：将被成功分类的流的特征放进bin文件里，进行编号，被编号为b0,b1...bn

S2：流入的实时流量从中间节点流入，当突发个数达到被选中流长度的α时对其进行填充，直到突发个数与被选中的流长度相等，再次随机选中一条被成功分类的流。

S3：设置填充缓冲区；

S4：从缓冲区中选择混淆数据包进行填充，不影响真实数据包的传输速度，且不会延迟真实数据包的到达时间。

优选的，所述S1中进行编号包括以下内容：将被成功分类的流的特征放进bin文件里，每个bin包含一条流的特征，这些bin互斥且共同构成填充数据结构，覆盖从最小到最大的流长度区间值，每个bin都有对应的范围，b0对应的范围最小，bn最大。

优选的，所述S2中的中间节点在两个突发之间的时间间隔中进行填充。

优选的，所述填充所用的混淆数据包直接从缓冲区中取，选用历史ACK消息。

(三)有益效果

与现有技术相比，本发明提供的基于深度学习的轻量级加密流量分析防御方法，具备以下有益效果：

1、该基于深度学习的轻量级加密流量分析防御方法，将其长度L*α作为填充混淆数据包的数量，α在(0，1)范围之间。每条流的α都不同，可以动态调整。可以在防御效果和带宽开销之间做出权衡，尽量在保证防御效果较好的同时引入最小的填充。

2、该基于深度学习的轻量级加密流量分析防御方法，通过设置填充缓冲区，当达到填充条件时，会直接从缓冲区中选择混淆数据包进行填充。能够达到减小填充过程中的时延。

3、该基于深度学习的轻量级加密流量分析防御方法，填充所用的混淆数据包直接从缓冲区中取，选用历史ACK消息，使用以前被服务器丢弃过的混淆数据包可以避免额外的带宽开销。因为HTTP/HTTPS基于TCP传输协议，其中每个TCP包都有一个序号，服务器接收到客户端的消息后会返回一个确认ACK，表示已接收到该包。如果服务器接收到一个之前发送过的确认ACK会将其丢弃。因此，将历史确认ACK消息作为混淆数据包，在正常通信情况下服务器会直接丢弃该混淆数据包。

附图说明

图1为本发明实施例轻量级加密流量分析防御方法的整体流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1，本实施例提供的基于深度学习的轻量级加密流量分析防御方法，包括以下步骤：

步骤S101：收集训练数据集：将不同目标网站流量数据抽象成为不同的网站流量指纹序列并作为分类器的训练数据集。

步骤S102：收集测试数据集：提前收集不同用户访问不同目标网站时在其客户端产生的流量数据，将其抽象成为不同的流量模式并作为分类模型测试数据集。

步骤S103：训练分类器：基于卷积神经网络算法和训练数据集生成分类器。

步骤S104：分类器预分类：将测试数据集输入分类器，其中会有流被成功和其访问的目标网站匹配，也就是被分配器成功分类。

步骤S105：统计易被分类特征：统计被预分类成功的流特征，在实时流中通过填充来干扰这些易被分类的特征，包括流长度和数据包发送时间间隔。

步骤S106：填充数据结构：将被成功分类的流的特征放进bin文件里，每个bin包含一条流的特征，这些bin互斥且共同构成填充数据结构。覆盖从最小到最大的流长度区间值，每个bin都有对应的范围，bin被编号为b0,b1...bn等。b0对应的范围最小，bn最大。为了有效降低流量分析精确率会优先选择较小的bin作为填充依据。

步骤S107：流量流入：实时流从中间节点流入，中间节点在两个突发之间的时间间隔中进行填充，不影响真实数据包的传输速度，且不会延迟真实数据包的到达时间。

步骤S108:填充规则：随机选择一个bin，根据其包含的流的长度对实时经过的流进行填充，填充量为流长度L*α，α在(0，1)之间。

步骤S109：填充混淆数据包：中间节点计算经过的流突发个数以及数据包间间隔，当流突发个数达到L*α时，在两个数据包的间隔空隙中进行填充。填充所用的混淆数据包直接从缓冲区中取。

步骤S110：流量流出：经填充后的流量从中间节点流出，此时流量特征已被改变。

步骤S111：目标网站指纹：此时目标网站指纹和客户端处的流量模式不一致，攻击者不能成功匹配用户和其访问的目标网站。

该分类器算法基于卷积神经网络，由两层卷积层、两个最大池化层和三层全连接神经网络组成；

第一层有n1个w1大小的卷积核，第一层卷积的作用是找出流Fx的流量模式和网站指纹之间的相关性，之后的最大池化操作是增强它们之间的特征的紧密性，并有效缩小卷积核的尺寸；

第二层卷积的输入是n2个w2大小的卷积核，主要作用是找出除时间间隔和突发包含的数据包个数之外的相关额外特征，之后的第二步最大池化操作同第一步最大池化作用相同；

第二层卷积输出的特征图经过三层的全连接操作会有一个神经元的输出P，输出值P是一个高度浓缩的特征相关值，范围在(0，1)之间，代表输入流的模式和网站指纹的相关性。P越大说明它们的相关性越高，大于临界值θ将认定两条流是由客户端发出的同一条流，即判定用户访问了该网站，θ是在提前得知分类结果的情况下，根据实验得出的边界值。

分类器输入用公式V＝Conv2(W，F，″valid″)+b表示，输出公式用P＝φ(V)表示，其中conv2()是Matlab中卷积运算的函数，第三个参数valid指明卷积运算的类型，这里的卷积方式就是valid型。W是卷积核矩阵，F是输入特征矩阵，b是偏置。φ(x)是激活函数。θ是在实验过程中得出的分类结果较好的边界值。(n1，w1，n2，w2)是在分类过程中的调优参数，会根据实际分类情况不断做调整。

本发明上述实施例提供的基于深度学习的轻量级加密流量分析防御方法，填充所用的混淆数据包直接从缓冲区中取，选用历史ACK消息，使用以前被服务器丢弃过的混淆数据包可以避免额外的带宽开销。因为HTTP/HTTPS基于TCP传输协议，其中每个TCP包都有一个序号，服务器接收到客户端的消息后会返回一个确认ACK，表示已接收到该包。如果服务器接收到一个之前发送过的确认ACK会将其丢弃。因此，将历史确认ACK消息作为混淆数据包，在正常通信情况下服务器会直接丢弃该混淆数据包。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度学习的轻量级加密流量分析防御方法，其特征在于，包括以下步骤：

将不同目标网站流量数据抽象成为不同的网站流量指纹序列并作为分类模型训练数据集；

第二步：将测试数据集输入分类器，被分类器成功分类；

第三步：统计被分类器成功分类的流量模式的共同特征；

第五步：经填充后的流量从中间节点流出；

第六步：攻击者不能成功匹配用户和其访问的目标网站。

2.根据权利要求1所述的基于深度学习的轻量级加密流量分析防御方法，其特征在于：所述第二步中分类器是基于卷积神经网络算法和训练数据集生成。

3.根据权利要求2所述的基于深度学习的轻量级加密流量分析防御方法，其特征在于：所述分类器由两层卷积层、两个最大池化层和三层全连接神经网络组成。

4.根据权利要求1所述的基于深度学习的轻量级加密流量分析防御方法，其特征在于：所述第四步中进行数据填充具体包括如下步骤：

S1：将被成功分类的流的特征放进bin文件里，进行编号，被编号为b0,b1...bn；

S2：流入的实时流量从中间节点流入，当突发个数达到被选中流长度的α时对其进行填充，直到突发个数与被选中的流长度相等，再次随机选中一条被成功分类的流；

S3：设置填充缓冲区；

S4：从缓冲区中选择混淆数据包进行填充。

5.根据权利要求4所述的基于深度学习的轻量级加密流量分析防御方法，其特征在于：所述S1中进行编号包括以下内容：将被成功分类的流的特征放进bin文件里，每个bin包含一条流的特征，这些bin互斥且共同构成填充数据结构，覆盖从最小到最大的流长度区间值，每个bin都有对应的范围，b0对应的范围最小，bn最大。

6.根据权利要求4所述的基于深度学习的轻量级加密流量分析防御方法，其特征在于：所述S2中的中间节点在两个突发之间的时间间隔中进行填充。

7.根据权利要求4所述的基于深度学习的轻量级加密流量分析防御方法，其特征在于：所述填充所用的混淆数据包直接从缓冲区中取，选用历史ACK消息。