CN111079858A

CN111079858A - 一种加密数据的处理方法及装置

Info

Publication number: CN111079858A
Application number: CN201911407586.2A
Authority: CN
Inventors: 胡飞; 谭天
Original assignee: Hangzhou DPTech Technologies Co Ltd
Current assignee: Hangzhou DPTech Technologies Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-04-28

Abstract

一种加密数据的处理方法及装置，所述方法包括：从训练集中读取若干样本图片；其中，所述训练集中的样本图片为将加密流量样本转换得到的数值矩阵中的数值作为像素值生成的图片；所述加密流量样本被标记了流量协议类型；基于所述若干样本图片中的各样本图片的图片尺寸计算标准图片尺寸；将所述若干样本图片中的各样本图片处理为所述标准图片尺寸的样本图片，并将处理后的样本图片输入至基于深度学习网络的分类模型进行训练；其中，所述分类模型用于识别加密流量的流量协议类型。

Description

一种加密数据的处理方法及装置

技术领域

本申请涉及互联网安全领域，尤其涉及一种加密数据的处理方法及装置。

背景技术

如今，越来越多的网络数据采用加密的方式进行传输，这种方式虽然显著提高了网络通信的安全性，却对网络管控以及基于流量的防护带来了挑战，以往根据流量直接表现出的特征来进行协议识别的方法，已经无法适用于加密流量的协议识别。

卷积神经网络是一种基于深度学习技术的机器学习工具，多用于图像识别领域，尤其擅长于发现数据中隐藏的一些高阶特征。

发明内容

有鉴于此，本申请公开了一种加密数据的处理方法及装置。

根据本申请实施例的第一方面，公开了一种加密数据的处理方法，所述方法包括：

从训练集中读取若干样本图片；其中，所述训练集中的样本图片为将加密流量样本转换得到的数值矩阵中的数值作为像素值生成的图片；所述加密流量样本被标记了流量协议类型；

基于所述若干样本图片中的各样本图片的图片尺寸计算标准图片尺寸；

将所述若干样本图片中的各样本图片处理为所述标准图片尺寸的样本图片，并将处理后的样本图片输入至基于不包含全连接层的卷积神经网络的分类模型进行训练；其中，所述分类模型用于识别加密流量的流量协议类型。

根据本申请实施例的第二方面，公开了一种加密数据的处理装置，所述装置包括：

样本图片读取模块，从训练集中读取若干样本图片；其中，所述训练集中的样本图片为将加密流量样本转换得到的数值矩阵中的数值作为像素值生成的图片；所述加密流量样本被标记了流量协议类型；

标准图片尺寸计算模块，基于所述若干样本图片中的各样本图片的图片尺寸计算标准图片尺寸；

分类模型训练模块，将所述若干样本图片中的各样本图片处理为所述标准图片尺寸的样本图片，并将处理后的样本图片输入至基于不包含全连接层的卷积神经网络的分类模型进行训练；其中，所述分类模型用于识别加密流量的流量协议类型。

以上技术方案中，一方面，由于加密流量样本被转换为了图片，隐藏于加密流量样本中的流量特征也被转换为了图片的特征；因此，利用卷积神经网络对图片特征的识别能力更好的特性，可以提升训练出的协议识别模型的识别准确度。

另一方面，由于训练阶段每次只读取了训练集中的一部分确定标准图片尺寸，可以相对缩小参与缩放的各样本图片的图片尺寸与标准图片尺寸之间的差距，进而能够相对减少样本图片在尺寸缩放过程中信息量的损失；因此，可以增加模型在训练中获得的信息量，进而提高所训练的模型的识别能力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书文本一同用于解释原理。

图1是本说明书所述加密数据处理方法的流程示意图；

图2是本说明书所述流量转换为图片的示例图；

图3是本说明书所述分批训练的示意图；

图4是本说明书所述加密数据处理装置的结构示例图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在计算机网络领域，越来越多的网络数据采用加密的方式进行传输，这种方式虽然显著提高了网络通信的安全性，却对网络管控以及基于流量的防护带来了挑战，由于加密过程可以隐藏网络数据原本直接表现出的特征，因此，以往根据流量直接表现出的特征来进行协议识别的方法，已经无法适用于加密流量的协议识别。

卷积神经网络是一种基于深度学习技术的机器学习工具，多用于图像识别领域，尤其擅于发现数据中隐藏的一些高阶特征；对于加密过的网络数据而言，虽然原有的数据特征被加密过程隐藏，但如果将加密过的网络数据转换为图片形式，那么被隐藏的特征也会随之被转换为图像特征，即可以被深度神经网络识别到，进而完成协议识别的任务。

在相关技术中，卷积神经网络中通常包括全连接层，由于全连接层的参数维度在训练过程中是固定的，因此要求在训练阶段输入卷积神经网络的图片的尺寸也保持不变；而由于加密网络数据的容量往往不同，其转换得到的图片尺寸也不尽相同；因此，通常会设定一个标准图片尺寸，并将由加密网络数据转换得到的样本图片缩放至该标准图片尺寸，进而将处理后的图片作为输入样本，进行后续的模型训练工作。

然而，在实际应用中，由于不同网络数据的容量的差距可能非常大，因此，不同网络数据转换得到的图片的尺寸很可能与上述标准图片尺寸相差较大，导致在上述缩放过程中，很可能会损失许多有效信息，或引入较多干扰，例如，图片进行大幅度放大需要进行插值，不可避免地引入大量干扰信息，而对图片进行大幅度缩小，则会造成大量携带信息的像素的损失，最终使得所训练得到的分类模型的分类准确度较低。

基于此，本说明书提出一种在将加密网络数据转换为图片之后，每次取一部分转换得到的图片，以该部分图片确定缩放处理的标准，并完成缩放处理后，将该部分经过缩放处理的图片输入基于不包含全连接层的深度学习网络的分类模型，进行模型训练的技术方案。

在实现时，不再将所有所得到的图片缩放至同一标准图片尺寸，而是针对每个读取的图片批次都计算各自对应的标准图片尺寸，并依据计算得到的标准图片尺寸对该图片批次中的图片进行缩放处理；从整个训练过程角度而言，所使用的卷积神经网络不包含全连接层，可以接受不同尺寸的图片进行模型训练，因此各次迭代中经过缩放的图片虽然尺寸不同，但仍能作为输入样本进行样本训练。

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图1，图1是本说明书所述加密数据处理方法的流程示意图，该方法包括：

S101，从训练集中读取若干样本图片；其中，所述训练集中的样本图片为将加密流量样本转换得到的数值矩阵中的数值作为像素值生成的图片；所述加密流量样本被标记了流量协议类型；

S102，基于所述若干样本图片中的各样本图片的图片尺寸计算标准图片尺寸；

S103，将所述若干样本图片中的各样本图片处理为所述标准图片尺寸的样本图片，并将处理后的样本图片输入至基于不包含全连接层的卷积神经网络的分类模型进行训练；其中，所述分类模型用于识别加密流量的流量协议类型。

上述训练集，指由样本图片组成的、用于训练分类模型的集合；

上述样本图片，指由网络报文转换得来的图片，每张样本图片均可以被标记对应加密流量样本的流量协议类型，以用于分类模型训练；

上述卷积神经网络，指不含全连接层的卷积神经网络；一般而言，在基于卷积神经网络构建分类模型时，通常在卷积层后增设全连接层，用于将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量，进而进行分类任务；由于全连接层的参数需要根据卷积层产生的特征图(feature map)确定，所以要求输入数据的大小(即输入图片的尺寸)固定不变。

从数学变换角度，由于全连接层和卷积层所使用的都是点积运算，即两者的函数形式相同，因此，全连接层可以转化为卷积层，对应的，原先的卷积神经网络即可转换为全卷积神经网络(Fully Convolutional Network，FCN)，又称纯卷积神经网络；在此种情况下，原本需要固定参数的全连接层计算转换为滑动窗口形式的卷积计算，在依然能够输出分类识别结果的前提下，无需固定输入图片的尺寸。

因此，在本说明书中，所使用的卷积神经网络网络可以不包含全连接层。对于不包含全连接层的深度学习网络而言，其输入层可以是弹性的，也即，该深度学习网络可以接受任何尺寸的图像作为输入；而在不同次迭代中被缩放到不同尺寸的图片，即可在此条件下输入深度学习网络。

在本说明书中，训练集中的图片可以由被标记了流量协议类型的加密流量样本转换而来；具体地，该转换过程可以分为待转换数据提取、转换为一维数组、填入二维矩阵、二维矩阵变换几个步骤。

在本说明书中，对于被标记了流量协议类型的加密流量样本而言，待转换为图片的数据，可以是其全部的信息，也可以是足以分析、确定其流量协议类型的部分信息；例如，可以根据用于在不进行解密的前提下，确定特定数据段在整段加密数据中位置的算法，截取对加密流量的流量协议类型识别有贡献的部分，以进行后续的处理。

本领域中一种可行的加密流量采用的加密解密流程为，将需加密的报文整体加密后，以特定的混淆协议携带在载体报文的应用层负载中，在载体报文送达后提取其应用层负载，进行解密后即可获得加密前的报文。

在示出的一种实施方式中，作为待转换数据、进行后续处理、最终转换为图片的信息，可以是被标记了流量协议类型的加密流量样本的应用层负载；对应上述加密解密流程，提取加密流量样本的应用层负载，作为待转换数据，进行分析后得到的结果即对应于加密前的报文所使用的加密协议。

在本说明书中，对于待转换数据而言，无论其是否加密，其内容都是01二进制数据流的形式，因此，将待转换数据转换为一维数组的过程，可以根据实际需求确定具体的方式；如果以数值的形式对该二进制数据流进行读取，并将得到的数值映射到图片的像素值对应的数值区间，即可以将读到的数值依次记为一个一维数组，用于后续处理；例如，以8bit整型数字形式读取上述二进制数据流，即可获得一个由0～255的整数组成的一维数组。

在本说明书中，对于上述一维数组，填入二维矩阵的方式可以根据具体情况确定，本说明书不作具体限定；例如，二维矩阵的尺寸选择，可以是预设列数后根据一位数组的长度决定行数，也可以根据一维数组的长度直接取平方根以获取近似正方形的图片；读取到数值之后，将一维数组转为二维矩阵的过程，也可以呈“之”字形、螺旋形或其他方式填入二维矩阵。

在本说明书中，对于获得的二维矩阵，还可以进一步进行各类变换，以使得二维矩阵中的数值作为像素值时更有利于图像特征识别；例如，通过更改伽马映射曲线等方式，增强某一区段内的纹理对比度；或者根据所需要的数值范围对上述二维矩阵中的数值进行归一化；又例如，通过与滤波矩阵相乘，以减少图像中的噪声，等等。

请参见图2，图2是一种将流量转换为图片的示例图。在该例中，以加密流量中的应用层负载数据为“0x48 0x65 0x6c 0x6c 0x6f 0x20 0x77 0x6f 0x72 0x6c0x64 0x200x31 0x32 0x33 0x21”(以16进制形式表示)为例，按照8bit无符号整数的规则进行读取、解释，则可以获得一维数组“72 101 108 108 111 32 119 111114 108 100 32 49 50 5133”，将该一维数组按原顺序从左到右、从上到下填入4*4的矩阵，即图2所示的二维矩阵，即可依据该4*4矩阵获取一个如图2中所示的尺寸为4*4的8bit灰度位图。

可以理解的是，在本说明书中，读取样本图片、处理并参与分类模型训练的过程可以是迭代过程；即，上述多个步骤可以重复执行，直至所训练的分类模型达到预期需求，或满足其他迭代终止条件。

在本说明书中，可以从上述训练集中读取数量小于样本图片总数的若干样本图片，以参与后续训练过程。可以理解的是，每一次读取到的样本图片的数量，可以基于实际的需求进行配置。

例如，上述训练集中包含20000张根据不同加密网络数据生成的图片，每次迭代过程中都可以从该训练集中读取大于1且小于20000的任意数量的图片，进行后续训练。采用此种的方法参与训练，相对于将整个训练集全部输入机器学习模型进行训练的方式，既保证了模型训练过程中输入的信息量，又减少了每次迭代所需进行的计算总量，因此可以在基本不降低模型训练精度的前提下，显著提高模型训练的速度。

在本说明书中，选取所要读取的样本图片的方式，可以是纯随机选取，也可以是对样本图片进行编号后按照顺序进行选取；具体而言，可以根据具体需求设定其他规则，本说明书无需进行具体限定；例如，考虑到迭代训练的过程，为了保证样本图片的信息被充分利用，每一次迭代中读取到的若干张样本图片，可以有重复的样本图片。

请参见图3，图3是本说明书中分批读取样本图片参与训练的示意图。

在图3所示的例子中，选取样本图片的过程内，训练集内共有n张样本图片，第一次迭代时读取的样本图片为样本图片1至4，第二次迭代时读取的样本图片为图片3至6，以此类推。依照此种方案选取样本图片，能够使得样本图片不止一次地参与模型训练，有助于提高模型的识别精度。

考虑到在不考虑各样本图片尺寸的条件下直接选取若干样本图片参与训练，可能会导致所确定的标准图片尺寸与所选取的若干样本图片的图片尺寸依旧相差过大的情况，因此，可以根据各样本图片尺寸，选择每次迭代中读取的若干样本图片。

在示出的一种实施方式中，可以预先根据训练集中各样本图片的图片尺寸，对上述样本集中的样本图片进行排序；在每次迭代过程中需要读取若干样本图片时，根据上述排序所得到的样本图片的顺序，读取相邻的若干样本图片。

采用该方案，可以使每次读取到的若干样本图片的尺寸更加接近，因此所确定的标准图片尺寸与各样本图片的图片尺寸的差距会相对缩小，即，可以相对减少其需要缩放的程度，进而引入更少的干扰信息或损失更少的信息，最终可以提高所训练的深度学习模型的准确度。

可以理解的，上述排序过程可以在训练集生成过程中以类似插入排序的方式同步进行，也可以在训练集生成后进行，本说明书无需进行具体限定。

在本说明书中，对于每次读取的若干样本图片，可以根据其中各样本图片的图片尺寸计算标准图片尺寸，具体计算标准图片尺寸的方式可以根据具体需求而定，本说明书不进行具体限定；例如，计算标准图片尺寸的方式可以是取各图片尺寸的中位数、众数、上下届的平均值等等。

请参见图3，在图3的例子中，样本图片1至4被缩放到了标准尺寸A，该标准尺寸A即为根据样本图片1至4的图片尺寸计算得来的标准图片尺寸。

在示出的一种实施方式中，可以计算上述若干样本图片中的各样本图片的图片尺寸的平均值，并确定该平均值为上述若干样本图片对应的标准图片尺寸。采用该种方式确定标准图片尺寸，可以使上述若干样本图片以尽可能小的缩放程度，完成缩放到标准图片尺寸的过程，进而引入更少的干扰信息或损失更少的信息，最终可以提高所训练的深度学习模型的准确度。

在本说明书中，在每次迭代过程后，都可以检查迭代终止条件，以确定是否需要终止迭代；上述迭代终止条件可以是必要条件，也可以是充分条件，也即，最终是否需要终止迭代，与可能存在的多条迭代终止条件之间的逻辑关系可以根据具体情况而定，本申请不作具体限定；

例如，上述迭代的终止条件可以包括下列条件中的任意一种或多种的组合：迭代的总次数大于预设的次数阈值，模型的收敛速度小于预设的收敛速度阈值，等等；而上述迭代既可以将上述终止条件作为必要条件，如，只有迭代的总次数大于预设的次数阈值的情况下，才可以终止迭代；也可以将上述终止条件作为必要条件，如，只要模型的收敛速度小于预设的收敛速度阈值，就终止迭代；等等。

在示出的一种实施方式中，上述迭代的终止条件包括：训练集中的任一样本图片参与所述分类模型训练的次数，均大于预设的次数阈值。该条件可以保证训练集中的任一样本图片都参与了足够次数的分类模型训练，其包含的有效信息已经被该分类模型相对充分地提取、学习。

在本说明书中，在完成对上述迭代训练后，可以利用训练得到的分类模型进行加密流量的流量协议类型识别。

在示出的一种实施方式中，可以将待识别的加密流量转换为数值矩阵，并进一步根据该数值矩阵作为像素值生成待识别的图片；将上述待识别的图片输入到上述训练所得到的分类模型中，即可获得识别结果。

在另一示出的实施方式中，可以将待识别的加密流量的应用层负载内容转换为数值矩阵，并进一步根据该数值矩阵作为像素值生成待识别的图片；将上述待识别的图片输入到上述训练所得到的分类模型中，即可获得识别结果。

本说明书还提供了对应的加密数据的处理装置的实施例。

请参见图4，图4为本说明书示出的加密数据的处理装置的一种结构示意图；该装置包括：

样本图片读取模块601，从训练集中读取若干样本图片；其中，所述训练集中的样本图片为将加密流量样本转换得到的数值矩阵中的数值作为像素值生成的图片；所述加密流量样本被标记了流量协议类型；

标准图片尺寸计算模块602，基于所述若干样本图片中的各样本图片的图片尺寸计算标准图片尺寸；

分类模型训练模块603，将所述若干样本图片中的各样本图片处理为所述标准图片尺寸的样本图片，并将处理后的样本图片输入至基于不包含全连接层的卷积神经网络的分类模型进行训练；其中，所述分类模型用于识别加密流量的流量协议类型。

在本说明书中，样本图片读取模块601所读取的样本图片可以来自于加密流量样本，具体而言，可以是加密流量样本整体转换得到的图片，也可以是加密流量样本的部分转换得到的图片；例如，上述样本图片可以是加密流量样本的应用层负载内容转换得到的图片。

在本说明书中，样本图片读取模块601从训练集中读取若干样本图片时可以应用其他适应具体情况的规则，本说明书不作具体限定。

在示出的一种实施方式中，样本图片读取模块601可以进一步读取样本图片序列中相邻的若干样本图片；其中，上述样本图片序列可以经预先根据训练集中各样本图片的图片尺寸，对所有样本图片进行排序而生成。

在本说明书中，标准图片尺寸计算模块602基于上述若干样本图片中的各样本图片的图片尺寸计算标准图片尺寸的方式，可以根据具体情况而定，本说明书无需进行具体限定；例如，针对上述若干样本图片中存在较多相同尺寸图片的情况，可以取上述若干样本图片中各图片的图片尺寸的众数作为标准图片尺寸，如此可以使得更多的图片无需进行缩放，避免缩放带来的负面效果。

在示出的一种实施方式中，上述标准图片尺寸计算模块602可以进一步计算上述若干样本图片中的各样本图片的图片尺寸的平均值，并确定该平均值为标准图片尺寸。

在本说明书中，上述装置可以通过迭代方式执行其功能，并可以根据多种迭代终止条件，决定是否终止迭代；而最终是否需要终止迭代，与可能存在的多条迭代终止条件之间的逻辑关系可以根据具体情况而定，本申请不作具体限定。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种加密数据的处理方法，包括：

2.根据权利要求1所述的方法，所述从训练集中读取若干样本图片之前，还包括：

根据图片尺寸对所述训练集中的样本图片进行排序；

所述从训练集中读取若干样本图片，包括：

按照排序后的所述训练集中的样本图片的顺序，读取相邻的若干样本图片。

3.根据权利要求1所述的方法，所述基于所述若干样本图片中的各样本图片的图片尺寸计算标准图片尺寸，包括：

计算所述若干样本图片中的各样本图片的图片尺寸的平均值；

确定所述平均值为标准图片尺寸。

4.根据权利要求1所述的方法，所述方法被迭代执行，所述迭代的终止条件包括：

训练集中的任一样本图片参与所述分类模型训练的次数，均大于预设的次数阈值。

5.根据权利要求1所述的方法，所述方法还包括：

将待识别加密流量转换为数值矩阵，进一步以所述数值矩阵中的数值作为像素值生成待识别图片；

将所述待识别图片输入训练所得的分类模型中，获得识别结果。

6.根据权利要求1所述的方法，所述训练集中的样本图片为：将加密流量样本的应用层负载内容转换得到的数值矩阵中的数值作为像素值生成的图片。

7.根据权利要求6所述的方法，所述方法还包括：

将待识别加密流量的应用层负载内容转换为数值矩阵，进一步以所述数值矩阵中的数值作为像素值生成待识别图片；

8.一种加密数据的处理装置，包括：

9.根据权利要求8所述的装置，所述装置还包括样本图片排序模块，根据图片尺寸对所述训练集中的样本图片进行排序；

所述样本图片读取模块进一步：

10.根据权利要求8所述的装置，所述标准图片尺寸计算模块进一步：

确定所述平均值为标准图片尺寸。

11.根据权利要求8所述的装置，所述装置迭代执行对应功能，所述迭代执行的终止条件包括：

12.根据权利要求8所述的装置，所述装置还包括：

协议识别模块，将待识别加密流量转换为数值矩阵，进一步以所述数值矩阵中的数值作为像素值生成待识别图片；将所述待识别图片输入训练所得的分类模型中，获得识别结果。

13.根据权利要求8所述的装置，所述训练集中的样本图片为：将加密流量样本的应用层负载内容转换得到的数值矩阵中的数值作为像素值生成的图片。

14.根据权利要求13所述的装置，所述装置还包括：

协议识别模块，将待识别加密流量的应用层负载内容转换为数值矩阵，进一步以所述数值矩阵中的数值作为像素值生成待识别图片；将所述待识别图片输入训练所得的分类模型中，获得识别结果。