CN113642017A

CN113642017A - 一种基于自适应特征分类的加密流量识别方法、存储器和处理器

Info

Publication number: CN113642017A
Application number: CN202110911992.3A
Authority: CN
Inventors: 王艺霖; 杜佳佳; 王安平
Original assignee: Karamay And China Cloud Technology Development Co ltd
Current assignee: Karamay And China Cloud Technology Development Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-12

Abstract

本发明针提供了一种自适应特征分类的加密流量识别方法、存储器和处理器，包括以下步骤：数据集采集：抓取网络流量，生成会话，对流量过滤分流获取原始实验数据集；数据集预处理：读取数据流，截断数据，并进行归一化处理；平衡数据集：采用ADASYN算法对不平衡数据集进行处理；从特征中提取最优化特征集；识别流量：将最优化特征集输入机器学习算法，识别目的加密流量。本发明可以消除冗余和不相关特征，增强分类模型的识别能力，高效识别加密流量。

Description

一种基于自适应特征分类的加密流量识别方法、存储器和处理器

技术领域

本发明涉及网络安全领域，具体涉及一种基于自适应特征分类的加密流量识别方法、存储器和处理器。

背景技术

随着大数据时代的到来，大众对于数据保护的意识也愈加强烈，半数的在线流量均被加密。对于特定类型的流量，数据加密已经成为保护隐私的重要手段之一。

流量加密在无意间也给网络安全带来了新的隐患。加密能够像隐藏其他信息一样隐藏恶意流量，从而带来一系列蠕虫、木马和病毒。这意味着加密是一把双刃剑，保护隐私的同时也让不法分子有了可乘之机。因此加密流量识别的意义不言而喻。

加密流量的识别目前方法主要有6类：基于有效负载特征字段匹配的识别方法、基于机器学习的方法、基于主机行为的识别方法、基于数据分组分布的方法、基于负载随机性的方法以及多种策略结合的方法，其中最常用的是基于机器学习的分类方法，但是此方法仍没有解决加密流量识别中特征选择存在的度量指标单一和类别不平衡问题，而且加密网络流量随时间推移和网络环境变化而发生网络流特征和分布变化，导致基于机器学习的分类模型适用性和精度下降，使得泛化能力下降。

发明内容

本发明针对加密流量识别中特征选择存在的度量指标单一和类别不平衡等缺点，提供了一种自适应特征分类的加密流量识别方法，可以消除冗余和不相关特征，增强分类模型的识别能力，高效识别加密流量。

一方面，本发明的基于自适应特征分类的加密流量识别方法，包括以下步骤：

S100、数据集采集：抓取网络流量，生成会话，对流量过滤分流获取原始实验数据集；

S200、数据集预处理：读取数据流，截断数据，并进行归一化处理；

S300、平衡数据集：采用ADASYN算法对不平衡数据集进行处理；

S400、从特征中提取最优化特征集；

S500、识别流量：将最优化特征集输入机器学习算法，识别目的加密流量。

具体的，所述特征采用堆栈式自动编码器提取。

具体的，所述最优化特征集采用启发式搜索方法自动提取。

具体的，机器学习算法模型是基于遗传算法改进的随机森林模型。

具体的，所述算法模型建立包括以下步骤：用训练集构建决策树，组成原始的决策树集合；从原始的决策树集合中筛选出性能更优的决策树，构成新的决策树集合；利用遗传算法迭代多次，得到最优的随机森林模型。

另一方面，本发明还提供一种存储器，用于存储软件，其中，所述软件用于执行上述的方法。

另一方面，本发明还提供一种处理器，用于执行软件，其中，所述软件用于执行上述方法。

与现有技术相比，本发明具有如下有益效果：本发明解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题，识别率高，误报率低，适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。

附图说明

图1为本发明的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，提供了一种基于自适应特征分类的加密流量识别方法，针对样本数据集的类别不平衡性和特征提取困难和特征冗余的问题，通过平衡原始数据集，提取数据包负载，并使用堆栈式自动编码器模型自动提取特征，通过选择性集成得到最优化特征集，最后输入基于机器学习的分类器进行分类评估。具体包括以下步骤：

S300、平衡数据集：采用ADASYN算法对不平衡数据集进行处理；

S400、从特征中提取最优化特征集；

所述特征采用堆栈式自动编码器提取。

所述最优化特征集采用启发式搜索方法自动提取。

机器学习算法模型是基于遗传算法改进的随机森林模型。

所述算法模型建立包括以下步骤：用训练集构建决策树，组成原始的决策树集合；从原始的决策树集合中筛选出性能更优的决策树，构成新的决策树集合；利用遗传算法迭代多次，得到最优的随机森林模型。

加密流量识别方法过程至少包括：数据集采集、数据预处理、平衡数据集、最优化特征集、识别流量分析几个步骤。

(1)数据集采集是用Wireshark抓取网络流量，生成会话，通过五元组对流量过滤分流获取原始实验数据集。其中对于TCP流，本发明取从发起连接的三次握手的SYN包开始，到断开连接的FIN包或RST包为结束。对于UDP流，以第一个数据包的到达为开始，如果两个数据包到达的时间间隔超过60s，则认为数据流结束。数据预处理就是提取数据包负载，截断数据流前n个字节，不够n个字节数填充0。为了防止物理硬件对分类的影响，需要去除数据包的数据链路层字节。由于UDP头部比TCP头部少12字节，为了消除实验误差影响需要在UDP头部填充0。为了得到最佳算法分类效果，需要对提取的数据包字节进行归一化处理。

(2)平衡数据集就是实验采用ADASYN算法对不平衡数据集进行处理。平衡数据采ADASYN算法平衡数据集，ADASYN合成少数过采样技术,是一种基于随机过采样的改进算法，其避免了通过简单的复制过采样策略导致的模型过拟合、不具有泛化效果的缺陷。ADASYN算法基本思想是使用密度分布作为标准来自动确定每个少数类需要生成的合成样本的数量。密度分布是根据少数类样本的学习难度来确定的权重，所以ADASYN会强制模型学习那些难以学习的少数类样本，从而增加少数样本进而平衡数据集，避免了模型的过拟合，并具有良好的泛化作用。具体算法过程实现如下：

1.计算不平衡度假设少数类数目m_s，多数类数目m_l，则不平衡度为：

d＝m_s/m_l

2.当不平衡度大于一个阀值时，则计算需要少数类中合成的样本数量

G＝(m_l-m_s)×β

这里的β用来指定想要的数据平衡度。

3.对于每个少数类中的样本点，通过计算欧氏距离得到在全部数据中的k个近邻，定义以下比例，其中Δ_i 为x_i的k个近邻中多数类样本点的个数。

r_i＝Δ_i/k i＝1,...m_s

4.归一化

5.计算x_i需要产生的样本数

6.扩大样本对于每个少数类的样本点x_i，需要生成g_i个新样本。在其k个近邻中，随机选取一个少数类样本x_zi，

x_new＝x_i+rand(0,1)(x_zi-x_i)

以上过程循环g_i次，最后再对每个少数类的样本点都进行上述操作。

(3)自动提取特征是利用堆栈式自动编码器模型自动提取特征。堆栈式自动编码器是深度学习领域常用的一个深度学习模型，由多个自动编码器堆叠而成，其目的是为了逐层提取输入数据的高阶特征，常被称为逐层贪婪训练学习过程，在此过程中逐层降低输入数据的维度，将一个复杂的输入数据转化成了一个系列简单的高阶特征，然后再把这些高阶特征输入一个分类器进行分类。

最优化特征集就是利用启发式搜索方法提取特征。假设特征集中有n个特征，那么存在2ⁿ-1个非空特征子集，搜索策略就是从2ⁿ-1个候选特征子集中寻找最优特征子集。每次从未选入的特征中选择一个特征，使它与已选入的特征组合在一起时判据值J最大，直到判据值J降低为结束准则。设特征集F＝{f₁,f₂,f₃,...f_n}，初始时，特征子集

已选入了k个特征的特征子集记为F_k，把未选入的n-k个特征F_j(j＝1,2,3,...n-k)逐个与已选入的特征F_k组合计算判据值J，若J(F_K+x₁)≥J(F_K+x₂)≥J(F_K+x₃)≥...≥J(F_K+x_n-k)，则x₁选入，下一步的特征组合F_k+1＝F_k+f₁，该过程一直进行到最大判据J值降低为止，从而避免搜索整个特征空间，该算法时间复杂度≤n(n-1)/2。

(4)识别流量就是把最优化特征集输入基于遗传算法改进的随机森林CGA-RF分类器算法识别目的加密流量，通过交叉验证方式调试分类器参数，得到最优的分类器模型并决策评估。其中CGA-RF算法主要流程如下：

1.用训练集构建一定数量的决策树，组成原始的决策树集合；

2.根据选择性集成的思路，从原始的决策树集合中筛选出性能较优的决策树，构成新的决策树集合；

3.利用遗传算法迭代多次，直至损失函数最低，直到收敛，得到最优的随机森林模型。

基于遗传算法改进的随机森林CGA-RF分类器算法避免了由于个体学习器之间的差异性减少，从而使得集成模型的效果下降，更有利于加密流量的识别效果。指标结果分析就是对实验结果得到的指标结果进行分析，并选取合适的参数，优化算法，提高识别率。

根据本发明的第二个方面，提供一种存储器，用于存储软件，其中，所述软件用于执行上述的方法。

根据本发明的第三个方面，提供一种处理器，用于执行软件，其中，所述软件用于执行上述方法。

需要说明的是，上述软件执行的数据安全共享方法与前面介绍的数据安全共享方法相同，在此不再赘述。

在本实施例中，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行以上实施例中的方法。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

上述程序可以运行在处理器中，或者也可以存储在存储器中(或称为计算机可读介质)，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于自适应特征分类的加密流量识别方法，其特征在于，该方法包括：

S300、平衡数据集：采用ADASYN算法对不平衡数据集进行处理；

S400、从特征中提取最优化特征集；

2.根据权利要求1所述的方法，其特征在于，所述特征采用堆栈式自动编码器提取。

3.根据权利要求1所述的方法，其特征在于，所述最优化特征集采用启发式搜索方法自动提取。

4.根据权利要求1所述的方法，其特征在于，机器学习算法模型是基于遗传算法改进的随机森林模型。

5.根据权利要求4所述的方法，其特征在于，所述算法模型建立包括以下步骤：用训练集构建决策树，组成原始的决策树集合；从原始的决策树集合中筛选出性能更优的决策树，构成新的决策树集合；利用遗传算法迭代多次，得到最优的随机森林模型。

6.一种存储器，其特征在于，用于存储软件，其中，所述软件用于执行权利要求1至5中任一项所述的方法。

7.一种处理器，其特征在于，用于执行软件，其中，所述软件用于执行权利要求1至5中任一项所述的方法。