CN109951444B

CN109951444B - 一种加密匿名网络流量识别方法

Info

Publication number: CN109951444B
Application number: CN201910086039.2A
Authority: CN
Inventors: 蔡真真; 姜波; 凌玥; 卢志刚; 刘俊荣; 董聪
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-05-22
Anticipated expiration: 2039-01-29
Also published as: CN109951444A

Abstract

本发明公开了一种加密匿名网络流量识别方法。本方法为：1)从加密匿名网络流量数据集中提取每一流量文件的多粒度级别特征，包括流特征、包特征、主机行为特征、TCP头部相关特征、IP头部相关特征；2)对步骤1)得到的特征进行过滤，过滤掉冗余特征以及与流量识别不相关或者相关度低于设定阈值的特征；3)利用步骤2)选取的特征训练XGBoost模型，然后利用该XGBoost模型对待识别的匿名网络流量进行识别。本发明在整体准确率、精确率、召回率和F1值对模型的性能方面均优于现有的基线识别方法。

Description

一种加密匿名网络流量识别方法

技术领域

本发明提出了一种有效的加密匿名网络流量识别方法。该方法结合了一种新型的混合特征选择算法和极限梯度提升(XGBoost)分类算法，属于机器学习与信息安全结合的交叉技术领域。

背景技术

随着互联网渗透到社会，经济和政治等各个方面，互联网的安全和隐私保护形势变得越来越严峻。传统的信息加密技术可以保护传输内容，但不能隐藏通信方的信息、地理位置和通信方式。在这样的背景下，研究人员提出了大量的加密匿名网络技术。现阶段较为流行的低延迟匿名通信工具包括Tor，I2P，JonDonym。

虽然加密匿名网络设计的初衷是为了保护用户的隐私，但他们经常被违法者滥用来逃避网络追踪从而实现犯罪。因此，加密匿名网络的匿名性给网络空间的管理和监控带来了严峻的挑战，这促使人们积极研究识别加密匿名网络的对策。加密匿名网络流量的有效识别是防止滥用此类技术的先决条件，并且对于理论研究和实际应用都是至关重要的。

现阶段，深度包检测方法，主动探测和流分析是用于识别加密匿名网络的一些代表性方法，但这些方法存在局限性。首先，加密匿名网络使用多层加密为其用户提供匿名性，这使得数据包不透明，因此深度包检测方法将毫无用处。其次，尽管加密匿名网络不会隐藏用户与网络的连接，但他们使用某些方法(如混淆技术)来隐藏或改变流量。例如，Tor网络中常见的可插拔传输工具包括Obfs3，Meek，Flashproxy，Scramblesuit，FTE等。此外，JonDonym也提供了两种防止网络阻塞的对策：Skype隧道和TCP/IP转发。使用这些混淆技术或隧道将降低主动探测方法的有效性。

目前，加密匿名网络流量分类主要采用的是基于传统机器学习的流量分析方法，常用的特征是基于流的特征和基于分组的特征。流分析方法从流量的头部提取信息以进行统计，而不需要处理流量的内容，因此它们适合加密匿名网络流量分析。然而，流分析方法也存在局限性。首先，从原始流量文件中提取的流数据是一种含有大量空值的高维稀疏数据，这种数据格式大大降低了分类的准确性。例如，如果一个I2P数据集既包含UDP连接，那么该数据集所有与TCP相关的特征将会全设为零值。其次，流分析在高计算成本方面存在局限性，这意味着随着数据大小和特征数量的增加，模型会消耗更多的CPU资源和时间。因此，流分析只能在审查级别实施，而不能在实时网络流量分类中实施。这一结果意味着改进流分析的方法使其在更短的时间内获得更好的结果是一个很大的驱动力。

决策树算法由于计算量小、原理简单、分类效果好的特点，在流量识别领域发挥着重要作用。据统计，现阶段使用最为普遍的加密流量分类算法包括C4.5、AdaBoost、支持向量机、朴素贝叶斯、贝叶斯网络和随机森林算法。不少研究工作者在加密流量分类中比较这些算法，实验结果表明，C4.5算法表现最佳，更适用于加密流量分类。但是，C4.5算法在构造过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。同时，在选择分裂点时，C4.5算法倾向于选择相应属性的所有值的中间值作为分裂阈值，这也将影响最终的分类效果。

发明内容

针对现有技术中存在的技术问题，本发明提出了一种有效的加密匿名网络流量识别方法，并将这个模型命名为isAnon。本发明的目的是对匿名网络流量进行多层粒度的识别。首先是流量识别，即从正常背景流量中识别出匿名网络流量，现阶段用于实验的包括Tor、I2P、JonDonym三种匿名网络。然后是协议识别，即识别匿名网络流量所使用的混淆协议技术。第三步是服务识别，即识别匿名网络流量所属的应用类型，比如文件下载流、视频流、网页浏览流等。

本发明结合了一种新型的混合特征选择算法和极限梯度提升(XGBoost)分类算法。本发明选择XGBoost算法的原因在于它具有显著的优点：(1)它是用于处理稀疏数据一种新颖的树学习算法。(2)与随机森林算法相比，它可以利用正则化进一步减少过度拟合，提高预测精度，从而减少构建树所需的时间。(3)与C4.5算法相比，它使用并行和分布式计算来加快学习速度，从而大幅提升计算速度。(4)它在机器学习竞赛中表现优异，适用于许多领域。据我们了解，当前该领域的研究工作中，本发明是首次提出使用XGBoost模型对加密匿名网络流量进行识别，并提出了一种新的特征选择算法。

为达到目的，本发明采用具体技术方案是：

一种有效的加密匿名网络流量识别方法，包括以下步骤：

1)特征提取：使用Tranalyzer工具从原始流量文件(PCAP格式)中提取92个多粒度级别特征，包括流特征、包特征、主机行为特征、TCP头部相关特征、IP头部相关特征五类。删除一些无意义的特征，例如ICMP特征和VLAN特征等，这类特征对流量识别并无意义。同时，为了保护用户隐私，删除IP地址和MAC地址。由于统计维度存在重叠，所以删除重复的特征和直方图特征。经过处理，每一条流数据中包含77个可用的多粒度级别特征。

2)数据清洗：为了降低噪音，对提取的特征数据集进行清洗，删除持续时间为0的流量数据，即如果原始流量文件中某一条流数据的持续时间特征为0，则删除该条流数据的全部特征；因为这类流量表示在会话中只有一个请求包，并没有建立连接，从而这类流量也没有被识别的意义。

3)数据预处理：对于离散特征数据，使用独热编码，例如，使用‘0’和‘1’分别表示流量的两个方向。对于连续特征数据，使用公式

对其进行归一化，其中

表示第k个特征的第i个样例，

表示第k个特征的最大值，

表示第k个特征的最小值。

4)特征选择：为了过滤掉一些冗余和不相关的特征，本方法设计了一种新型的混合特征选择算法，该算法结合修改的互信息算法和随机森林算法进行特征选择。

5)模型训练：本发明使用XGBoost算法建立模型，能够在以下四种场景中识别不同粒度级别的加密匿名网络流量：(1)从正常背景流量中识别加密匿名网络流量；(2)从Tor流量中识别所使用的混淆协议；(3)从I2P流量中识别所使用的应用类型(网页浏览，文件下载，聊天)；(4)从Tor流量中识别所使用的应用类型(网页浏览，视频观看，文件下载)。

6)验证策略：为了避免模型过拟合，本发明设计了一种嵌套交叉验证方案，该方案结合内部5折交叉验证和外部蒙特卡罗交叉验证。如图3所示，将数据集分为80％的训练数据集和20％的验证数据集。在内部5折交叉验证中，将训练数据集分为五块，每次使用其中四块进行训练，剩下的一块用于测试，重复该过程五次。得到AUC值(AUC被定义为ROC曲线下与坐标轴围成的面积)和所有特征的重要性度量值(值越高，表示特征重要性越高)。根据特征的重要性度量值进行排序，删掉重要性最低的特征，然后重复这个内部5折交叉验证实验。在外部蒙特卡罗交叉验证中，使用拥有最佳AUC值的特征子集进行模型训练，使用20％的验证数据集对模型进行验证，为了确保模型的稳定性并实现出色的分类性能，通过随机改组数据集然后再分成训练和验证集，并重复此过程十次。

与现有技术相比，本发明的积极效果为：

本发明在若干个真实的加密匿名网络流量数据集上进行了实验，使用整体准确率，精确率，召回率和F1值对模型的性能进行评价。综合性的实验结果表明本发明提出的模型在性能方面优于现有的基线识别方法。

附图说明

图1是本发明的整体流程图。

图2是本发明所使用的嵌套验证方案的流程图。

图3是本发明与现有的基线识别方法在若干个真实的加密匿名网络流量数据集上进行了实验的性能对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明中，设计了一种有效的加密匿名网络流量识别方法。该方法的总体思路是使用流量提取工具从原始流量文件中提取流特征，通过一种新颖的混合特征选择算法对特征进行筛选，从而过滤掉冗余和不相关的特征。继而使用XGBoost算法建立模型从不同的粒度级别对加密匿名网络流量进行分类。同时，为了防止模型过拟合，本发明设计了一种嵌套交叉验证方案。

本发明的整体流程图如图1所示，所述方法的具体步骤细节描述为：

(1)特征提取、数据清洗、数据预处理。

本发明所使用的验证数据集来源加拿大达尔豪斯大学的网络信息管理与安全(NIMS)实验室，该数据集包含2014-2017年之间在真实网络环境中收集的Tor、I2P和JonDonym三种加密匿名网络流量。本发明使用Tranalyzer从PCAP文件中提取总共1,010,962个流数据，包括流量方向，流量持续时间等92个特征。

为了减少噪音，本发明清理流数据并删除无意义的流量，即流的持续时间等于0的流量，这些流量意味着会话中只有一个数据包，并且没有建立连接。同时，本发明消除了三个重复特征和两个直方图特征，并分别预处理剩余的75个特征。对于离散数据，使用one-hot编码，例如，使用‘0’和‘1’分别表示流量的两个方向。对于连续数据，使用公式

对其进行归一化，其中

表示第k个特征的第i个样例，

表示第k个特征的最大值，

表示第k个特征的最小值。

(2)特征选择

特征选择的目标是选择一个子集O(如表1中最终确定的18个特征)，它可以以最小的计算成本预测最佳性能的y。在我们提取的特征向量中，其中许多是冗余的。减少这些不必要的特征可以对分类产生最佳效果。

本发明使用一种新颖的混合特征选择算法，该算法结合修改的互信息算法和随机森林算法。该算法分为两个阶段。首先该算法使用互信息来评估类变量y和特征集合F(即上一步得到的特征集合，包括77个特征)之间的关系，从而快速过滤掉一些不必要的特征以减小样本空间的维数。其次，该算法应用随机森林算法进行精细特征选择，原理在于通过置换互信息算法选择出的特征集S来打破它与类变量y之间的关系，同时剩余的特征空间也会被打乱。对于一个信息特征而言，它的重要性度量值在经过置换后将会减小。对于一个非信息特征，如果它与信息特征相关，则其重要性度量值将在置换后增加。否则，它的重要性度量值将保持不变。因此，与其他算法相比，该算法在准确性和识别特征之间的关系方面具有更显着的优势。算法的详细步骤如下：

1)初始化特征集，设候选特征集F包含所有特征，已选特征集S为空集，输出特征集O为空集，设置互信息算法所选特征数量k，设置随机森林算法置换次数m。

2)分别计算候选特征集中每个特征f_i(i∈[1,77])与类变量y间的互信息，计算公式为

其中P(f_i,y)表示特征f_i与类变量y间的联合概率分布，P(f_i)表示特征f_i的边缘概率分布，P(y)表示类变量y的边缘概率分布。类变量y为流数据的已标注类别，比如流量类别标注信息或设定的类别信息。

3)选择当前与类变量y互信息最大的候选特征f_max作为第一个所选特征，更新候选特征集F←F∩{f_max}和已选特征集S←{f_max}。

4)贪婪搜索，首先计算候选特征集F与已选特征集S之间所有特征的互信息I(f_j,f_s),其中f_j∈F,f_s∈S。其次，选择准则函数

最大值对应的特征f_j加入到已选特征集S。这里我们考虑到已选特征集合特征数量的影响，对准则函数进行优化，使用β/|S|代替β，其中|S|表示已选特征集S中特征的数量。最后，更新候选特征集F←F∩{f_j}和已选特征集S←S∪{f_j}。

5)循环执行步骤4)，直到k个特征被选出，得到包括k个特征的已选特征集S。

6)利用已选特征集S和类变量y构造随机森林，计算已选特征集S中每个特征的原重要性度量值γ＝varImp(RandomForest(y,S))。

7)对已选特征集S的每个特征S_i(i∈[1,k]),分别执行如下操作。首先，构建特征矩阵M_feature＝(y,S)。其次，置换已选特征集S的第i个特征S_i m次Permute(M_feature[,i])，每次置换都重新构造随机森林并计算其重要性度量值，公式如下M_imp[j,i]＝varImp(RandomForest(y,M_feature))[i]，其中i表示第i个特征，j表示第j次置换。最后，k个特征经过m次置换得到一个m×k的重要性度量值的经验分布矩阵，矩阵的每一列对应着特征的经验分布向量。

8)对已选特征集S的每个特征S_i(i∈[1,k])，分别对每个经验分布向量中大于原重要性度量值的分量进行求和，再用所得的和除以m，得到该特征的P值，计算公式如下：Ρ_i＝Sum(M_Imp[,i]>＝γ_i)/m。其中，γ_i是第i个特征的原重要性度量值。

9)选择P值小于设定阈值θ的对应特征，并存储到输出特征集O。

通过上述混合特征选择算法，我们将粗过滤阶段的特征数量k设为32，准则函数中的参数β设置为0.6，细过滤阶段置换次数m设为10，阈值θ设为0.005。最终，本发明成功过滤掉一些冗余和不相关的特征，从77个特征中提取重要性度量值较高的18个特征，并使用XGBoost算法计算其特征重要性。特征详情如表1所示。

表1使用混合特征选择算法选择的特征值

(3)模型训练

本发明使用XGBoost算法建立模型，能够在以下四种场景中识别不同粒度级别的加密匿名网络流量：(1)从正常背景流量中识别加密匿名网络流量；(2)从Tor流量中识别所使用的混淆协议；(3)从I2P流量中识别所使用的应用类型(网页浏览，文件下载，聊天)；

(4)从Tor流量中识别所使用的应用类型(网页浏览，视频观看，文件下载)。

首先阐述一下XGBoost的算法原理。

对于一个给定的包含n个样本和k个特征的数据集D＝{(x_i,y_i)}(|D|＝n,x_i∈R^k,y_i∈R)，XGBoost算法的目标函数可以定义为：

其中，l表示一个可微的凸形损失函数，例如，均方损失函数

该损失函数用于度量预测变量

和目标变量y_i之间的差异。第二个式子Ω表示模型的复杂性。其中μ表示学习率，T表示树中叶子的数量，λ表示正则参数，ω代表叶子的权重。添加的正则项

能够平滑最终的学习权重从而避免模型过度拟合。

然而，由于公式(1)中的树融合模型不能用欧式空间的传统优化方法进行优化，所以采用加性方式训练。因此，在公式(2)中，我们需要贪婪地添加f_t来构造树结构，以便在每次迭代中最小化目标函数。f_t(x_i)表示第个i样例在第t次迭代中生成的树。

为了求解其他损失函数，公式(2)通过二阶泰勒展开变换成公式(3)，其中

和

是损失函数的一阶和二阶梯度统计量。

最后，如公式(4)所示，寻找最优分裂是树学习的关键问题之一。我们称之为精确贪婪算法，其核心思想是首先根据特征值对数据进行排序。然后遍历每个特征，选择每个特征值作为其分割点，并计算增益损失。在所有的特征遍历之后，增益损失的最大特征值将是分割点。

(4)验证策略

验证策略通常用于防止模型过拟合和对模型验证有一个较好的评估。如图2所示，我们使用一种嵌套交叉验证方案，该方案结合一个内部5折交叉验证和外部蒙特卡罗交叉验证。

首先，我们随机选择80％的数据集来构成训练集，剩下的20％的数据集用于创建测试集。然后在内部5折交叉验证中，将训练集分为五个数据块，一个用于内部测试，另外四个用于内部训练，通过置换数据块重复实验五次。接下来，我们利用训练集数据训练XGBoost模型进行分类，并输出AUC和特征重要性顺序。根据排名，我们删除不必要的特征，并为实验选择新的特征子集。然后用新的特征子集重复该实验。直到最后，我们选择具有最佳性能的特征子集，并使用外部验证集对其进行评估。为了确保模型的稳定性并实现出色的分类性能，我们通过随机改组数据集然后再分成训练和验证集，并重复此过程十次。

(5)结果对比

本发明在若干个真实的加密匿名网络流量数据集上进行了实验，使用整体准确率，精确率，召回率和F1值对模型的性能进行评价。为以下四种情景建立XGBoost模型：

1)从正常背景流量中识别加密匿名网络流量

本实验选择四种常规加密流量和四种协议封装流量作为背景流量，实验结果如表2所示，结果显示Tor、I2P和JonDonym三种加密匿名网络流量能从正常背景流量中识别，且平均精确率达到99.85％。

表2从正常背景流量中识别加密匿名网络流量的实验结果

2)从Tor流量中识别所使用的混淆协议

Tor网络中常见的可插拔传输工具包括Obfs3，Meek，Flashproxy，Scramblesuit，FTE。本实验的目的是识别Tor加密匿名网络流量中的这五种混淆协议，实验结果如表3所示，结果显示平均准确率高达99.91％。

表3从Tor流量中识别所使用的混淆协议的实验结果

3)从I2P流量中识别所使用的应用类型

本实验的目的是识别I2P加密匿名网络流量中网页浏览、文件下载、聊天这三种应用流量，实验结果如表4所示，结果显示平均准确率达到88.41％。

表4从I2P流量中识别所使用的应用类型的实验结果

4)从Tor流量中识别所使用的应用类型

本实验的目的是识别Tor加密匿名网络流量中网页浏览、视频观看、文件下载这三种应用流量，实验结果如表5所示，结果显示平均准确率高达99.73％。

表5从Tor流量中识别所使用的应用类型的实验结果且与其他模型的对比结果

接下来，本发明将提出的isAnon模型与现有的一些基线识别方法相比较。性能对比结果如图3所示。实验结果表明isAnon模型在以上四种情景中都达到了最高的整体准确率。而C4.5和随机森林算法表现次之，朴素贝叶斯算法性能表现最差。这个结果表明本发明提出的isAnon模型对于分类加密匿名网络流量具有更好的预测准确率，同时拥有实际应用的潜力。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明专利范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应当以所附权利要求为准。

Claims

1.一种加密匿名网络流量识别方法，其步骤包括：

1)从加密匿名网络流量数据集中提取每一流量文件的多粒度级别特征，包括流特征、包特征、主机行为特征、TCP头部相关特征、IP头部相关特征；

2)对步骤1)得到的特征进行过滤，过滤掉冗余特征以及与流量识别不相关或者相关度低于设定阈值的特征；

3)利用步骤2)选取的特征训练XGBoost模型，然后利用该XGBoost模型对待识别的网络流量进行识别；

其中，对步骤1)得到的特征进行过滤的方法为：

21)初始化特征集：设候选特征集F包含所有特征，已选特征集S为空集，输出特征集O为空集，设置互信息算法所选特征数量k，设置随机森林算法置换次数m；

22)计算候选特征集F中每个特征与类变量y间的互信息；其中，候选特征集F中第i个特征f_i与类变量y间的互信息为I(f_i,y)；

23)选择当前与类变量y互信息最大的候选特征f_max，更新候选特征集F←F∩{f_max}和已选特征集S←{f_max}；

24)计算候选特征集F与已选特征集S之间所有特征的互信息I(f_j,f_s),其中f_j∈F,f_s∈S；然后选择准则函数I(f_j,y)-(β/|S|)∑_fs∈SI(f_j,f_s)最大值对应的特征f_j加入到已选特征集S，其中|S|表示已选特征集S中特征的数量，β为准则函数中的一个系数，更新候选特征集F←F∩{f_j}和已选特征集S←S∪{f_j}；

25)循环执行步骤24)，直到选出k个特征加入到已选特征集S；

26)利用已选特征集S和类变量y构造随机森林，计算已选特征集S中每个特征的原重要性度量值γ；

27)对于已选特征集S的每个特征S_i，首先构建一特征矩阵M_feature＝(y,S)，然后置换已选特征集S中该特征S_i m次，且每次置换后重新构造随机森林并计算该特征S_i的重要性度量值；

28)根据该已选特征集S中的k个特征分别经步骤27)处理得到的m×k个重要性度量值，生成一个m×k的重要性度量值经验分布矩阵，矩阵的每一列对应着特征的经验分布向量；

29)对已选特征集S的每个特征S_i(i∈[1,k])，计算该特征的P值；其中，特征S_i的P值为Ρ_i＝Sum(M_Imp[,i]>＝γ_i)/m，γ_i是特征S_i的原重要性度量值，M_Imp[,i]是特征S_i置换m次后得到的m维的重要性度量值的经验分布向量；

30)选择P值小于设定阈值θ的对应特征，并存储到输出特征集O。

2.如权利要求1所述的方法，其特征在于，使用Tranalyzer工具从流量文件中提取多粒度级别特征；然后删除对流量识别无意义的特征，以及删除IP地址、MAC地址和直方图特征。

3.如权利要求1或2所述的方法，其特征在于，所述流量文件为PCAP格式的流量文件。

4.如权利要求1所述的方法，其特征在于，如果所述流量文件中某一条流数据的持续时间特征为0，则删除该条流数据的全部特征。

5.如权利要求1所述的方法，其特征在于，对步骤1)得到的特征进行预处理，然后进行步骤2)；其中预处理方法为：对于离散特征数据，使用独热编码；对于连续特征数据，使用公式

对其进行归一化，其中

表示第k个特征的第i个样例，

表示第k个特征的最大值，

表示第k个特征的最小值。

6.如权利要求1所述的方法，其特征在于，所述互信息

其中P(f_i,y)表示特征f_i与类变量y间的联合概率分布，P(f_i)表示特征f_i的边缘概率分布，P(y)表示类变量y的边缘概率分布。

7.如权利要求1所述的方法，其特征在于，步骤2)选取的特征包括：流的持续时间、到达时间上四分位数、包流不对称值、发送字节数量、字节流不对称值、最大包长度、接收字节数量、中间包长度、平均到达间隔时间、源IP连接数量、平均包长度、中间到达间隔时间、包长度上四分位数、流方向、接收包数量、目的IP连接数量、发送包数量和最大到达间隔时间。

8.如权利要求1所述的方法，其特征在于，采用嵌套交叉验证方法对训练后的XGBoost模型进行验证，其方法为：

31)将数据集分为训练数据集和验证数据集；

32)将训练数据集分为五块，每次使用其中四块进行训练，剩下的一块用于测试；重复多次后，得到AUC值和各特征的重要性度量值；然后根据特征的重要性度量值进行排序，删掉重要性最低的特征；

33)重复步骤32)若干次，然后使用拥有最佳AUC值对应的特征子集进行模型训练，使用验证数据集对模型进行验证；

34)通过随机改组数据集然后再分成训练数据集和验证数据集，然后重复步骤32)～33)；

35)重复步骤34)若干次，完成对训练后的XGBoost模型进行验证。

9.如权利要求1所述的方法，其特征在于，利用该XGBoost模型对待识别的网络流量进行识别的方法为：首先从该网络流量中识别出匿名网络流量，然后识别该匿名网络流量所使用的混淆协议以及该匿名网络流量所属的应用类型。