CN114124437B

CN114124437B - 基于原型卷积网络的加密流量识别方法

Info

Publication number: CN114124437B
Application number: CN202111140560.3A
Authority: CN
Inventors: 朱笑岩; 张琳杰; 冯鹏斌; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-09-23
Anticipated expiration: 2041-09-28
Also published as: CN114124437A

Abstract

本发明公开了一种基于原型卷积网络的加密流量识别方法，主要解决现有加密流量识别方法精度低、识别速度慢的问题。其方案是：获取流量原始数据，并对其进行数据预处理得到加密流量数据；构建原型生成模型，并将加密流量数据输入到该模型，得到流量原型数据及类别；对流量原型数据进行聚类获得特征生成向量，并对其按比例抽取组成训练样本集、测试样本集和验证样本集；搭建一个原型卷积网络，设置其参数，利用训练样本集和测试样本集对该网络进行训练；将验证样本集输入到训练好的原型卷积网络模型中，获得加密流量数据识别结果。本发明能够高效提取加密流量数据特征，提高了识别精度和识别速度，可用于改善网络管理，监控应用安全，流量异常检测。

Description

基于原型卷积网络的加密流量识别方法

技术领域

本发明属于网络安全技术领域，更进一步涉及一种加密流量识别方法，可用于改善网络管理、监控应用安全及对加密流量数据进行异常检测。

背景技术

移动设备和互联网的迅速普及极大地改变了各种网络服务的接入方式，导致了网络流量的爆炸式增长。针对网络流量的网络攻击严重影响到网络的正常安全运行，甚至危害到公民的信息安全。随着越来越多的移动服务采用加密技术，数据包中的许多信息将变得不可见，加密方法的规则也层出不穷，加密流量识别技术成为研究学者关注的重点。虽然经典方法可以解决基于端口和有效载荷方法不能解决的许多问题，但它仍然存在一些局限性，如复杂的特征需要手工提取十分耗时耗力、特征更新频繁等。流量数据的不平衡性会导致小样本识别率偏低的问题。在进行模型训练时，如何高效提取特征，减少标记数据的需求，提高识别率是一个非常关键的研究课题。加密流量识别由于可以分析用户操作习惯和使用的应用类别，所以有非常广泛的数据挖掘和商业应用价值。加密流量识别可以应用于改善网络管理，网络管理者可以根据不同流量在带宽中的比例动态控制接入，合理控制流量的变化趋势。加密流量识别可以应用于监控应用安全，安全监管机构需要实时识别恶意流量，以避免严重的损失。加密流量识别可以应用于异常检测，根据用户的操作习惯针对性的优化应用，以提供更好的用户体验。

北京工业大学在申请号为202110081372.1的专利申请文献公开了一种“基于卷积神经网络的加密流量实时分类方法及装置”。其实施步骤是：首先，将采样得到的数据包作为字节流，任意相连两个字节作为一个字节对；其次，确定所有字节对的频率特征；然后，将所有字节对的频率特征，输入预训练的卷积神经网络模型，输出每一条加密流量的数据流类型。该方法由于提取到的特征仅仅是可分离的，并不能体现出深层特征的内部关系，故导致识别精度不够高。

北京理工大学在申请号为201911164936.7的专利申请文献公开了一种“一种基于深度学习策略的异常加密流量检测与分类方法”。其实施步骤是：首先，利用相邻做差法对原始数据进行特征加强；其次，利用加强后的数据集中带有协议标签的数据训练一维卷积神经网络模型来对已知类型异常加密流量进行检测与分类；然后，利用k-均值算法对加强后的数据集中没有协议标签的未知类型异常加密流量进行分类。该方法由于一维卷积神经网络模型收敛速度很慢，缺乏鲁棒性，导致识别速度不快。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于原型卷积网络的加密流量识别方法，以提高识别精度，加快识别速度。

实现本发明目的的技术方案是：通过高效提取加密流量数据特征，实现对加密流量数据进行智能识别，其实现方案包括如下：

1.一种基于原型卷积网络的加密流量识别方法，其特征在于：

A)从加密流量网络中采集网络数据包获取流量原始数据，再对其依次进行数据清洗、数据变换、数据编码、数据增强的预处理，得到加密流量数据，并计算其对应的类别；

B)构建由采集模块、嵌入模块、筛查模块、距离模块依次级联组成的原型生成模型，并将加密流量数据输入到该模型中，得到流量原型数据及其对应的类别；

C)对流量原型数据进行聚类，并计算聚类的原型密度，得到流量原型数据中的特征生成向量；

D)对特征生成向量分别按照70％，20％，10％进行抽取，组成训练样本集，测试样本集，验证样本集；

E)构建依次由输入层，卷积层，池化层，全连接层和输出层级联组成的原型卷积网络；

F)设置最大迭代轮次数为100，将训练样本集和测试样本集输入到原型卷积网络中，利用原型学习方法进行原型卷积网络的训练，直到原型卷积网络达到最大迭代轮次数，得到训练好的原型卷积网络；

G)将验证样本集中的特征向量输入到已经训练好的原型卷积网络中，得到加密流量识别结果。

本发明与现有技术相比，具有以下优点：

第一，本发明由于将加密流量数据输入到原型生成模型中，得到流量原型数据及其对应的类别，能够提升对流量数据的嵌入粒度，且对其特征能进行更精确的表示，增大了识别不同类流量所需的聚类间的离散性，提升了识别精度；

第二，本发明由于对流量原型数据进行聚类，并计算聚类的原型密度，得到流量原型数据中的特征生成向量，因而能够提取结构化的深层特征，更加贴近流量数据的分布特点，增加识别不同类流量所需的聚类内之间的聚合，进一步提升了识别精度；

第三，本发明将原型学习和神经网络相结合，构建了原型卷积网络，并在基于期望最大化的框架中执行迭代，避免了有监督学习所带来无法对庞大的加密流量类别进行完全快速分类的问题，加快了识别速度。

附图说明

图1为本发明的实现流程图；

图2为用本发明和现有5种方法分别在2个数据集上的得到加密流量识别精度仿真图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细的描述。

参照图1，本实例的实现包括如下步骤：

步骤1，获取流量原始数据，并对其进行预处理。

1.1)从加密流量网络中采集网络数据包获取流量原始数据；

本实例采取但不限于通过Wireshark工具对经由OpenVPN传输的网络数据包进行依次采集源IP地址、目的IP地址、源端口、目的端口、网络协议、用户数据信息，组成流量原始数据；

1.2)将获取的流量原始数据中的无效值和缺失值设置为0，完成数据清洗；

本实例采取但不限于一致性检查来发现无效值，即根据每个变量的合理取值范围和相互关系检查数据是否合乎要求，并将不符合要求的数据标记为无效值；

1.3)将数据清洗后的流量数据利用变换函数将其变换为正态分布完成数据变换；

本实例采取但不限于平方根函数作为变换函数，即将变换前数据分布偏前的数据利用平方根公式变换为正态分布；

1.4)将数据变换后的流量数据表示为二进制向量完成数据编码；

本实例采取但不限于独热编码进行数据编码，即采用位状态寄存器来对数据进行编码；

1.5)将数据编码后的流量数据根据数据增强因子将其进行倍数变换，完成数据增强，得到加密流量数据；

1.6)计算加密流量数据对应的类别：

其中，q表示加密流量数据对应的类别编码值，即为选择加密流量数据对应的所有类别中第q个类别，q取值为[1,2,…,N]，N为加密流量数据类别总数，本实例采取但不限于12，f表示流量类别函数，δ表示流量类别参数，

表示流量类别原型参数, z是加密流量数据。

步骤2，构建原型生成模型。

2.1)建立采集模块：用以从步骤1中所述加密流量数据中依次选取W个加密流量数据样本作为支持集，选取U个加密流量数据样本作为查询集；

2.2)建立嵌入模块：用以从支持集中获得加密流量数据样本ζ，从查询集中获得加密流量数据样本ξ，并根据该查询集中加密流量数据样本ξ计算查询集特征向量： s_k＝α(ξ,θ)，其中，α表示嵌入函数，θ表示嵌入参数，k表示类别原型数，k取值为 [1,2,…,E]，E为类别原型总数；

2.3)建立筛查模块：用以根据查询集特征向量计算类别原型：

其中，|s_k|表示查询集的特征向量数量，β为原型函数；

2.4)建立距离模块：用以计算流量原型数据μ和流量原型数据μ对应的流量原型数据类别w，其实现如下：

根据支持集中加密流量数据样本ζ计算支持集特征向量：r_k＝α(ζ，θ)，其中，α 表示嵌入函数，θ表示嵌入参数；

根据支持集的特征向量r_k计算原型距离：

并计算原型标签值：

其中，|r_k|表示支持集的特征向量数量，c_k表示类别原型；

将支持集中加密流量数据样本ζ作为流量原型数据μ,再根据支持集中加密流量数据样本ζ计算流量原型数据μ对应的流量原型数据类别：

其中，w表示流量原型数据对应的类别编码值，即为选择流量原型数据对应的所有类别中是第w个类别，取值为[1,2,…,M]，M为流量原型数据类别总数；

2.5)将采集模块、嵌入模块、筛查模块、距离模块依次级联组成的原型生成模型。

步骤3，将加密流量数据输入原型生成模型中，得到流量原型数据及该流量原型数据对应的类别。

步骤4，将流量原型数据进行聚类，根据聚类结果计算特征生成向量。

4.1)对流量原型数据进行聚类得到聚类结果，根据聚类结果计算流量原型数据聚类簇：

其中μ表示流量原型数据；

现有的聚类的方法有均值漂移聚类、密度聚类、最大期望聚类、凝聚层次聚类，本实例采取但不限于均值漂移聚类方法进行聚类，即基于质心通过将中心点的候选点更新为滑动窗口内点的均值来完成聚类；

4.2)根据流量原型数据聚类簇

计算流量原型数据聚类原型密度：

其中，|s_k|表示查询集的特征向量数量，β为原型函数；

4.3)根据流量原型数据聚类原型密度b_k计算特征生成向量：

其中，c_k表示特征生成向量的类别原型，k表示类别原型数，k取值为[1,2,…,E]，E为类别原型总数，λ是平滑参数。

步骤5，生成训练样本集，测试样本集和验证样本集。

对特征生成向量分别按照70％，20％，10％进行抽取，组成训练样本集，测试样本集，验证样本集；

本实例采取但不限于回溯法抽取特征生成向量组成训练样本集，测试样本集，验证样本集，即以深度优先的方式来抽取特征生成向量。

步骤6，构建原型卷积网络。

6.1)建立输入层：其采用从上至下的3个输入子层级联组成，用以对步骤4中特征生成向量γ利用双线性插值法进行采样运算，得到采样向量φ；

6.2)建立卷积层：其采用从上至下的96个卷积子层级联组成，每个卷积子层包含一个64位滤波器与5×5卷积核，用以对采样向量φ进行卷积运算，得到卷积向量

每个卷积子层的卷积核大小为5，步长为1，修正参数为0.2；

本实例采取但不限于扩张卷积法进行卷积运算，即在卷积核内扩充空格进行卷积运算；

6.3)建立池化层：其采用从上至下的256个池化子层级联组成，用以对卷积向量

进行最大池化运算，得到池化向量ψ；

本实例采取但不限于序位池化法进行最大池化运算，即在池化域内按照激活值序位进行最大池化运算；

6.4)建立隐藏层：其采用从上至下的256个隐藏子层级联组成，用以对池化向量ψ，进行映射计算，得到隐藏向量χ，设置隐藏子层之间的激活函数为Softmax函数；

6.5)建立输出层：其采用从上至下的2个输出子层级联组成，这两个输出子层之间的激活函数为双曲正切激活函数，在每个输出子层先计算其期望编码为：v＝g(χ)，再根据该期望编码v计算期望标签值h：

其中，g为期望函数，σ表示输出函数，v′表示期望动态编码，c_k表示类别原型， c′_k表示类别原型动态编码，L表示聚类原型采集次数，w表示动态密流量数据类别， w′表示动态密流量数据类别，τ是期望系数；

6.6)将输入层，卷积层，池化层，隐藏层及输出层依次级联组成的原型卷积网络。

步骤7，训练原型卷积网络。

7.1)设置最大迭代轮次数为100；

7.2)将训练样本集和测试样本集输入到上述设计的原型卷积网络中，得到训练样本集和测试样本集的期望标签值h；

7.3)根据期望标签值h和原型标签值y计算训练误差：ε＝-∑hlogy；

7.4)根据当前批次的训练误差ε计算当前轮次梯度值：

其中，t 表示轮次序数，π_t-1表示上一轮次的梯度值，初始轮次的梯度值为0，η表示学习率；

7.5)根据当前轮次梯度值更新当前轮次梯度卷积核参数，完成当前轮次训练；

本实例采用但不限于梯度下降法更新卷积核参数，即指沿着梯度方向对卷积核参数进行更新，以求解原型卷积网络收敛的最优解；

7.6)判断当前训练轮次数是否达到设置的最大训练轮次数：

若是，则停止训练，得到训练好的原型卷积网络；

否则，将训练轮次数t增加1，返回7.1)。

步骤8，获得加密流量数据识别结果。

将验证样本集中的特征生成向量输入到已经训练好的原型卷积网络中，得到验证样本集的期望标签值h；

将验证样本集的期望标签值h与验证样本集中的真实标签值u进行比较，得到加密流量数据识别结果：

若h＝u，则认为加密流量被正确识别；

若h≠u，则认为加密流量未被正确识别。

下面结合仿真实验，对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验的运行环境是：处理器为Intel(R)Core(TM)i3-9100 CPU@3.60GHz，内存为8.00GB，硬盘为929G，操作系统为Windows 10，编程环境为Python 3.8，编程软件为PyCharm Community Edition 2020.2.3x64。

仿真所使用的数据集为JOY数据集和SSL数据集，其中：

JOY数据集是Cisco开源的加密流量分析系统的数据集，用于从实时网络流量中提取数据特征，使用Netflow的面向流的模型，然后用JSON表示这些数据特征，数据集包括数据包长度和时间序列，表示一个特定字节值出现在流中数据包的有效负载中的概率的字节分布，TLS特有的特征和初始数据包。

SSL数据集使用TLS证书的内容识别合法证书和恶意证书。SSL数据集的网络钓鱼证书来自Vaderetro，恶意软件证书来自mach.ch项目和censys.io，合法证书来自 Alexatop。

仿真使用的现有对比方法为以下5种：

1、根据合适的参数分布的概率密度和概率分布模型，计算后验分布以求取类别期望值的贝叶斯模型方法。

2、根据在高维数据中寻找正样本和负样本之间的最大化分隔平面来划分数据求取类别期望值的支持向量机模型方法。

3、根据用与待判别数据距离最近的数据的类别求取类别期望值的最近邻模型方法。

4、根据通过历史数据的表现对未来结果发生的概率求取期望值的逻辑回归模型方法。

5、根据已知各种情况发生概率，通过构成决策树来求取类别期望值的决策树模型方法。

仿真实验1：比较本发明与现有5种方法的加密流量识别精度。

仿真过程如下：

首先，分别从JOY数据集和SSL数据集中获取流量原始数据，并对其进行数据预处理得到加密流量数据，使用本发明和上述现有5种加密流量识别方法，得到加密流量数据识别结果；

其次，根据加密流量数据识别结果统计被正确识别出的目标加密流量数目TP，被正确识别出的其它加密流量数目TN，被错误识别出的目标加密流量数目FP，被遗漏识别的目标加密流量数目FN，再分别计算准确率

和召回率

根据准确率和召回率的计算结果，计算F1得分

F1得分的高低可表示加密流量识别精度的高低；

最后，比较各方法的F1得分，结果如图2所示，其中横轴表示不同方法，纵轴表示F1得分。

由图2可以看出，本发明标示的柱状图对应的F1得分位于现有5种方法标示的柱状图对应的F1得分的上方，即本发明的F1得分是6种方法中最高的，表明本发明的加密流量识别精度高于现有的5种方法。

仿真实验2：比较本发明与上述现有5种方法进行加密流量识别速度。

用本发明和上述5种现有方法对JOY数据集的加密流量进行识别，分别计算仿真实验1中本发明的方法与上述5种现有方法的收敛参数，并将这6种方法收敛参数进行比较，收敛参数的大小可以表示加密流量识别速度的快慢，结果如表1。

表1各方法的收敛参数

方法名称	收敛参数	收敛参数由小至大排序
			贝叶斯模型方法	0.86	6
支持向量机模型方法	0.58	4
			最近邻模型方法	0.82	5
逻辑回归模型方法	0.54	3
			决策树模型方法	0.41	2
本发明方法	0.30	1

由表1可以看出，现有5种方法进行识别的收敛参数均较大，本发明进行识别的收敛参数较小，表明本发明的收敛参数小于现有的5种方法的收敛参数，本发明的识别速度快于现有的5种方法的加密流量识别速度。

Claims

1.一种基于原型卷积网络的加密流量识别方法，其特征在于，包括：

B)构建由采集模块、嵌入模块、筛查模块、距离模块依次级联组成的原型生成模型，并将加密流量数据输入到该模型中，得到流量原型数据及其对应的类别；其中构成原型生成模型的各模块的功能与参数设置如下：

所述采集模块：用于从A)中所述加密流量数据中依次选取W个加密流量数据样本作为支持集，选取U个加密流量数据样本作为查询集；

所述嵌入模块：用于从支持集中获得加密流量数据样本ζ，从查询集中获得加密流量数据样本ξ，并根据该查询集中加密流量数据样本ξ计算查询集特征向量：s_k＝α(ξ,θ)，其中，α表示嵌入函数，θ表示嵌入参数，k表示类别原型数，k取值为[1,2,…,E]，E为类别原型总数；

所述筛查模块：用于根据查询集特征向量计算类别原型：

其中，|s_k|表示查询集的特征向量数量，β为原型函数；

所述距离模块：用于计算流量原型数据μ和流量原型数据μ对应的流量原型数据类别w，其实现如下：

首先，根据支持集中加密流量数据样本ζ计算支持集特征向量：r_k＝α(ζ，θ)，其中，α表示嵌入函数，θ表示嵌入参数；

其次，根据支持集的特征向量r_k计算原型距离：

并计算原型标签值：

其中，|r_k|表示支持集的特征向量数量，c_k表示类别原型；

然后，将支持集中加密流量数据样本ζ作为流量原型数据μ,再根据支持集中加密流量数据样本ζ计算流量原型数据μ对应的流量原型数据类别：

其中，w表示流量原型数据对应的类别编码值，即为选择流量原型数据对应的所有类别中是第w个类别，取值为[1,2,…,M]，M为流量原型数据类别总数，f表示流量类别函数，δ表示流量类别参数，

表示流量类别原型参数；

C)对流量原型数据进行聚类，并计算聚类的原型密度，得到流量原型数据中的特征生成向量；实现如下：

C1)计算流量原型数据聚类簇：

C2)根据流量原型数据聚类簇

计算流量原型数据聚类原型密度：

其中，|s_k|表示查询集的特征向量数量，β为原型函数；

C3)根据流量原型数据聚类原型密度b_k计算特征生成向量：

其中，c_k表示特征生成向量的类别原型，k表示类别原型数，k取值为[1,2,…,E]，E为类别原型总数，λ是平滑参数；

D)对特征生成向量分别按照70％，20％，10％进行抽取，组成训练样本集，测试样本集，验证样本集；构建的原型卷积网络，其各层结构、功能与参数设置如下：

输入层：采用从上至下的3个输入子层级联组成，用以对C)中特征生成向量γ利用双线性插值法进行采样运算，得到采样向量φ；

卷积层：采用从上至下的96个卷积子层级联组成，每个卷积子层包含一个64位滤波器与5×5卷积核，用以对采样向量φ进行卷积运算，得到卷积向量

每个卷积子层的卷积核大小为5，步长为1，修正参数为0.2；

池化层：采用从上至下的256个池化子层级联组成，用以对卷积向量

进行最大池化运算，得到池化向量ψ；

隐藏层：采用从上至下的256个隐藏子层级联组成，用以对池化向量ψ，进行映射计算，得到隐藏向量χ，设置隐藏子层之间的激活函数为Softmax函数；

输出层：采用从上至下的2个输出子层级联组成，这两个输出子层之间的激活函数为双曲正切激活函数，在每个输出子层先计算其期望编码为：v＝g(χ)，再根据该期望编码v计算期望标签值h：

其中，g为期望函数，σ表示输出函数，v′表示期望动态编码，c_k表示类别原型，c′_k表示类别原型动态编码，L表示聚类原型采集次数，w表示动态密流量数据类别，w′表示动态密流量数据类别，τ是期望系数；

2.根据权利要求1所述的方法，其特征在于，A)中对获取的流量原始数据依次进行数据清洗、数据变换、数据编码、数据增强的预处理，实现如下：

将获取的流量原始数据中的无效值和缺失值设置为0完成数据清洗；

将数据清洗后的流量数据利用变换函数将其变换为正态分布完成数据变换；

将数据变换后的流量数据表示为二进制向量完成数据编码；

将数据编码后的流量数据根据数据大小增加的因子将其进行倍数变换，得到加密流量数据。

3.根据权利要求1所述的方法，其特征在于，A)中加密流量数据对应的类别，通过下式进行：

其中，q表示加密流量数据对应的类别编码值，即为选择加密流量数据对应的所有类别中第q个类别，q取值为[1,2,…,N]，N为加密流量数据类别总数，f表示流量类别函数，δ表示流量类别参数，

表示流量类别原型参数，z是加密流量数据。

4.根据权利要求1所述的方法，其特征在于，F)中利用原型学习方法对原型卷积网络进行训练，实现如下：

F1)将训练样本集和测试样本集输入到D)中设计的原型卷积网络中，得到原型卷积网络的期望标签值h；

F2)根据期望标签值h和原型标签值y计算训练误差：ε＝-∑h log y；

F3)根据当前批次的训练误差ε计算当前轮次梯度值：

其中，t表示轮次序数，π_t-1表示上一轮次的梯度值，初始轮次的梯度值为0，η表示学习率；

F4)根据得到的当前轮次梯度值更新当前轮次梯度卷积核参数，完成当前轮次训练；

F5)判断当前训练轮次数是否达到设置的最大训练轮次数：

若是，则停止训练，得到训练好的原型卷积网络；

否则，将训练轮次数增加1，返回F1)。