CN112511555A

CN112511555A - 基于稀疏表示和卷积神经网络的私有加密协议报文分类法

Info

Publication number: CN112511555A
Application number: CN202011474852.6A
Authority: CN
Inventors: 吉庆兵; 张文政; 潘炜; 张李军; 于飞; 刘成; 谈程; 尹浩
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-16

Abstract

本发明涉及网络信息技术领域，具体涉及基于稀疏表示和卷积神经网络的私有加密协议报文分类法，包括获取网络流量数据并进行预处理，得到数据集文件以及标签文件；将数据集文件导入稀疏自编码器进行无监督的特征学习，得到维度更小的输入数据；使用稀疏表示后的训练集和训练集标签对二维卷积神经网络进行训练，进行卷积和池化并最小化误差，得到分类器。本发明公开的分类法自动从原始的网络流量中学习到私有加密协议报文的分类特征，实现分类识别；不依赖网络流量数据包头部的IP地址、端口号信息，分类模型泛化能力强；利用稀疏表示学习私有加密协议报文的局部特征，二维卷积神经网络学习私有加密协议报文的全局特征，提高分类器的识别精度。

Description

基于稀疏表示和卷积神经网络的私有加密协议报文分类法

技术领域

本发明涉及网络信息技术领域，具体涉及基于稀疏表示和卷积神经网络的私有加密协议报文分类法。

背景技术

随着网络环境越来越复杂，很多企业、公司都使用自己的私有加密协议来进行通信，私有加密协议是企业内部制定的协议标准，协议格式是不公开的，报文数据是加密的。从网络安全与监测管理的角度，需要对私有加密协议报文进行有效识别。

基于端口号匹配和DPI(Dots Per Inch，每英寸点数)等根据规则匹配的流量分类方法需要先解析报文内容，再进行规则匹配最后实现分类，这些并不适用于私有加密协议报文。使用机器学习的分类方法不需要对报文的内容进行解析便可以完成分类，因此近年来越来越多的研究机构和人员使用机器学习的方法对网络进行分类。

使用机器学习方法对私有加密协议报文进行分类时，按使用的机器学习算法不同可以分为传统机器学习算法(浅层学习)和深度学习。传统机器学习算法对私有加密协议报文分类主要存在两个问题：一个是需要对待分类的报文人工设计一个可以普遍反映流量特征的特征集，另一个就是传统机器学习方法有很大的局限性，例如对复杂函数难以表示、容易陷入局部最优解等。由于以上两个原因，导致传统机器学习方法对私有加密协议报文分类的准确率不是很高。

因此，需要提出更为合理的技术方案，解决现有技术中存在的技术问题。

发明内容

为了克服上述内容中提到的现有技术存在的缺陷，本发明提供了基于稀疏表示和卷积神经网络的私有加密协议报文分类法，旨在利用深度学习方法自动学习私有加密协议报文数据的局部特征和全局特征，以有效识别网络流量数据中承载的私有加密协议报文的应用类型。

为了实现上述目的，本发明具体采用的技术方案是：

基于稀疏表示和卷积神经网络的私有加密协议报文分类法，包括：

获取网络流量数据并进行预处理，得到训练数据集、测试数据集、训练标签文件以及测试标签文件；

将训练数据集和测试数据集导入稀疏自编码器进行无监督的特征学习，得到维度更小的输入数据；

使用稀疏表示后的训练集和训练集标签对二维卷积神经网络进行训练，进行卷积和池化并最小化误差，得到用于对测试集进行分类的分类器。

上述公开的报文分类法，通过稀疏自编码器和二维卷积神经网络对数据进行处理，可有效识别出网络流量数据中承载的私有加密协议报文应用类型。

进一步的，按照上述公开的方法，在完成分类器的训练后，使用二维卷积神经网络训练完成的私有加密协议报文分类器对测试数据集进行测试，将测试结果与测试集标签进行对比，验证私有加密协议报文分类的准确性。

在私有协议报文分类模型和分类器的设计过程中时，需要考虑分类器的有效输入问题，以提高分类识别的效率。不论是采用公开的数据集，还是研究人员自己采集的网络业务数据流量，原始流量格式均为pcap格式，并不能直接用于基于深度学习模型的私有加密协议报文分类器输入，需要将数据格式转换为idx格式。原始数据除了可能存在数据格式的问题，还可能存在数据信息不完整等问题。因此，必须对真实的网络流量数据进行预处理。采用报文划分、数据归一化、数据可视化以及数据转换的预处理流程。

进一步的，上述公开的技术方案中，所述的数据预处理包括报文划分，将连续的网络流量切分成离散单位，然后分离出传输层以上的报文载荷数据。

再进一步，将连续的网络流量切分成离散单位时，按照流和会话作为切分粒度，即具有相同五元组(源IP地址、源端口、目的IP地址、目的端口和传输层协议)的所有包按照时间顺序组合称之为流，双向流则组成会话，即源IP地址和目的IP地址可以互换。

进一步的，所述的数据预处理包括数据归一化处理，按照统一的长度对报文数据进行截取，即在大于指定长度的数据内截取指定长度的数据，在小于指定长度的数据的末尾补0至指定长度，最终将获得的指定长度的数据存入特定数组内。

进一步的，所述的数据预处理包括数据可视化处理，将存入特定数组内的数据，按照一个字节对应一个灰度值的方式，将各规定长度的数据转化为长宽相同的单通道灰度图。

再进一步，数据转换将灰度图转换为可以输入神经网络模型的idx格式数据，其中idx3格式数据作为训练和测试的数据集，idx1格式数据作为标签集。

进一步的，所述的将训练数据集和测试数据集导入稀疏自编码器进行无监督的特征学习，得到维度更小的输入数据，按照如下方式进行数据处理：

将训练数据集和测试数据集中预处理后的私有加密协议报文数据

输入稀疏自编码器，输入层到隐层的偏置为W，隐层的偏置为b，隐含层的输出值h为

h＝WX+b

隐层到输出层权值W′，偏置为b′，则稀疏自编码器的输出Y为

Y＝W′h+b′

通过X、Y和W计算代价函数J(W,b)

J(W,b)＝σ(Y-X)+λW

计算稀疏自编码器的代价函数J_sparse(W,b)，并根据J_sparse(W,b)使用梯度下降法调整权值W

其中λ是学习率，σ代表用于计算Y-X的L₂泛数，η代表学习率；权值调整完成后，最终得到私有加密协议报文数据X的特征表示h。该步骤的实施不仅可以减少卷积神经网络每轮的训练时间，也可以对特征进行更加准确地提取，最终增加私有加密协议报文分类器的分类准确率。

进一步的，使用稀疏表示后的训练集和训练集标签对二维卷积神经网络进行训练以得到分类器的步骤，按照如下方法进行：

私有加密协议报文X_1:n经过稀疏自编码特征学习得到特征的表示为X′_1:n，将它作为二维卷积神经网络的输入，按照如下方法对经过截取的网络流量经过一个卷积操作得到特征c_i

c_i＝f(ωⁱ·X′_i,i+h-1+b)

其中，ωⁱ∈R^h，b表示卷积神经网络偏置，h表示卷积核宽度，f是卷积神经网络中的激活函数，在卷积神经网络中使用ReLU函数；

卷积核运算后，每个输入数据会得到多个特征序列，以如下特征图的形式表示

C＝[c₁,c₂,…,c_i]

得到特征映射以后，进行时序性的最大池化操作，对私有加密协议报文特征图进行压缩，减少训练参数，得到最大值

c_max＝max_pooling(c₁,c₂,…,c_i)

二维卷积神经网络模型由多个卷积层和池化层构成，在经过多次卷积池化操作以后，最终特征映射进入一个全连接层和softmax层输出。

进一步的，上述技术方案中公开的采用稀疏自编码器进行特征学习和数据获取，可采用如下具体可行的方案：通过两层稀疏自编码器对预处理得到的数据进行特征提取，第一层稀疏自编码器和第二层稀疏自编码器连续将数据进行降维处理。

再进一步，上述技术方案中公开的训练二维卷积神经网络模型，在二维卷积神经网络模型内的卷积层和池化层进行训练时，依次经过两个卷积核的两层卷积层和池化层，数据介入两层全连接层，两层全连接层连续将数据进行转换并对报文种类、数目进行预测。

最终，使用二维卷积神经网络训练完成的私有加密协议报文分类器对IDX3测试集进行测试，将结果与测试集标签进行对比，验证私有加密协议报文分类的准确性。

与现有技术相比，本发明具有的有益效果是：

1、本发明公开的分类法不需要对私有加密协议报文进行特征设计，可以自动从原始的网络流量中学习到私有加密协议报文的分类特征，实现分类识别。

2、基于网络流量数据中传输层之上的载荷数据进行学习与分类，不依赖于网络流量数据包头部的IP地址、端口号信息，分类模型的泛化能力强。

3、能够利用稀疏表示学习私有加密协议报文的局部特征，利用二维卷积神经网络学习私有加密协议报文的全局特征，提高分类器的识别精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅表示出了本发明的部分实施例，因此不应看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为私有加密协议报文分类模型图。

图2为数据预处理的流程示意图。

图3为私有加密协议报文分类算法中的SAE-2dCNN结构图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

实施例

本实施例针对传统机器学习方法对私有加密协议报文分类的准确率不高的现状，提出了优化的技术方案，以具体解决现有技术中的问题。

具体的，本实施例采用的技术方案如下。

如图1所示，基于稀疏表示和卷积神经网络的私有加密协议报文分类法，包括：

获取网络流量数据并进行预处理，得到idx3格式的训练数据集、测试数据集，以及idx1格式的训练标签文件以及测试标签文件；

按照上述公开的方法，在完成分类器的训练后，使用二维卷积神经网络训练完成的私有加密协议报文分类器对测试数据集进行测试，将测试结果与测试集标签进行对比，验证私有加密协议报文分类的准确性。

如图2所示，上述公开的技术方案中，所述的数据预处理包括报文划分，可采用按照切分方式进行流量的划分或按照协议层次清洗流量两种方式，将连续的网络流量切分成离散单位，然后分离出传输层以上的报文载荷数据。

本实施例中，将连续的网络流量切分成离散单位时，按照流和会话作为切分粒度，即具有相同五元组(源IP地址、源端口、目的IP地址、目的端口和传输层协议)的所有包按照时间顺序组合称之为流，双向流则组成会话，即源IP地址和目的IP地址可以互换。

所述的数据预处理包括数据归一化处理，按照统一的长度对报文数据进行截取，即在大于指定长度的数据内截取指定长度的数据，在小于指定长度的数据的末尾补0至指定长度，最终将获得的指定长度的数据存入特定数组内。在本实施例中，截取的数据长度设定为n个字节，因此将每个报文截取n个字节，有些长度不足的报文在末尾补0至第n个字节。

所述的数据预处理包括数据可视化处理，将存入特定数组(array数组)内的数据，按照一个字节对应一个灰度值的方式，将各规定长度的数据转化为长宽相同的单通道灰度图。

数据转换将灰度图转换为可以输入神经网络模型的idx格式数据，其中idx3格式数据作为训练和测试的数据集，idx1格式数据作为标签集。

上述技术方案中，所述的将训练数据集和测试数据集导入稀疏自编码器进行无监督的特征学习，得到维度更小的输入数据，按照如下方式进行数据处理：

将idx3中预处理后的私有加密协议报文数据

h＝WX+b

Y＝W′h+b′

通过X、Y和W计算代价函数J(W,b)

J(W,b)＝σ(Y-X)+λW

上述技术方案中，使用稀疏表示后的训练集和训练集标签对二维卷积神经网络进行训练以得到分类器的步骤，按照如下方法进行：

c_i＝f(ωⁱ·X′_i,i+h-1+b)

C＝[c₁,c₂,…,c_i]

c_max＝max_pooling(c₁,c₂,…,c_i)

上述技术方案中公开的采用稀疏自编码器进行特征学习和数据获取，可采用如下具体可行的方案：通过两层稀疏自编码器对预处理得到的数据进行特征提取，第一层稀疏自编码器和第二层稀疏自编码器连续将数据进行降维处理。

优选的，如图3所示，自编码器的稀疏性参数待定，第一层自编码器将784字节图片降维成为400字节的图片，第二层自编码器将400字节的图片降维成为144字节的图片,在输入卷积神经网络前，将图片重设成为12*12的大小。

上述技术方案中公开的训练二维卷积神经网络模型，在二维卷积神经网络模型内的卷积层和池化层进行训练时，依次经过两个卷积核的两层卷积层和池化层，数据介入两层全连接层，两层全连接层连续将数据进行转换并对报文种类、数目进行预测。

优选的，本实施例中，经过卷积核大小为5*5的C1卷积层卷积后，生成输出大小为12*12*32，也就是32张12*12大小的特征图，经过池化层P1的2*2最大池化后将每张图片尺寸变为6*6，图片数量不变，因此输出是6*6*32。再经过卷积核大小同样是5*5的第二层卷积层C2,得到输出为6*6*64，生成的特征图数量变为64张，同样经过池化层P2的2*2最大池化后每张图片尺寸变为3*3，输出为3*3*64。

经过两层卷积层和池化层后加入两层全连接层，第一层全连接层将64张3*3的特征图转换为一个1024维的向量，第二层全连接层最终将1024维向量转换为一个12维的向量，表示预测的报文种类数目。

以上即为本发明列举的实施方式，但本发明不局限于上述可选的实施方式，本领域技术人员可根据上述方式相互任意组合得到其他多种实施方式，任何人在本发明的启示下都可得出其他各种形式的实施方式。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于，包括：

2.根据权利要求1所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于：在完成分类器的训练后，使用二维卷积神经网络训练完成的私有加密协议报文分类器对测试数据集进行测试，将测试结果与测试集标签进行对比，验证私有加密协议报文分类的准确性。

3.根据权利要求1所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于：所述的数据预处理包括报文划分，将连续的网络流量切分成离散单位，然后分离出传输层以上的报文载荷数据。

4.根据权利要求3所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于：将连续的网络流量切分成离散单位时，按照流和会话作为切分粒度。

5.根据权利要求1所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于：所述的数据预处理包括数据归一化处理，按照统一的长度对报文数据进行截取，即在大于指定长度的数据内截取指定长度的数据，在小于指定长度的数据的末尾补0至指定长度，最终将获得的指定长度的数据存入特定数组内。

6.根据权利要求5所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于：所述的数据预处理包括数据可视化处理，将存入特定数组内的数据，按照一个字节对应一个灰度值的方式，将各规定长度的数据转化为长宽相同的单通道灰度图。

7.根据权利要求1所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，所述的将训练数据集和测试数据集导入稀疏自编码器进行无监督的特征学习，得到维度更小的输入数据，其特征在于，按照如下方式进行数据处理：

h＝WX+b

Y＝W′h+b′

通过X、Y和W计算代价函数J(W,b)

J(W,b)＝σ(Y-X)+λW

其中λ是学习率，σ代表用于计算Y-X的L₂泛数，η代表学习率；权值调整完成后，最终得到私有加密协议报文数据X的特征表示h。

8.根据权利要求1所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，使用稀疏表示后的训练集和训练集标签对二维卷积神经网络进行训练以得到分类器的步骤，其特征在于，按照如下方法进行：

c_i＝f(ωⁱ·X′_i,i+h-1+b)

C＝[c₁,c₂,…,c_i]

c_max＝max_pooling(c₁,c₂,…,c_i)

9.根据权利要求1所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于：通过两层稀疏自编码器对预处理得到的数据进行特征提取，第一层稀疏自编码器和第二层稀疏自编码器连续将数据进行降维处理。

10.根据权利要求1所述的基于稀疏表示和卷积神经网络的私有加密协议报文分类法，其特征在于：在二维卷积神经网络模型内进行训练时，依次经过两个卷积核的两层卷积层和池化层，数据介入两层全连接层，两层全连接层连续将数据进行转换并对报文种类、数目进行预测。