CN115225583A

CN115225583A - 流量数据的内容类型识别方法、装置、设备及存储介质

Info

Publication number: CN115225583A
Application number: CN202210817360.5A
Authority: CN
Inventors: 安晓宁
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2022-10-21

Abstract

本公开涉及一种流量数据的内容类型识别方法、装置、设备及存储介质，其中，方法包括：采集网络流量数据，并提取所述网络流量数据中每个数据包的有效载荷；对所述有效载荷对应的样本序列进行特征提取，获取所述样本序列的信息熵、指定字符熵、卡方值和近似转移概率特征，以生成所述样本序列对应的特征向量；根据所述样本序列对应的特征向量输入预训练的分类模型进行处理，生成所述每个数据包的分类结果。根据本公开的技术方案，能够从多个维度表征有效载荷，能够准确地检测明文文本、图像、加密数据、压缩数据和编码数据，提高了网络流量数据内容识别的准确性和精准度。

Description

流量数据的内容类型识别方法、装置、设备及存储介质

技术领域

本公开涉及网络安全技术领域，尤其涉及一种流量数据的内容类型识别方法、装置、设备及存储介质。

背景技术

流量分类对于提高网络服务质量、优化网络带宽分配、加强网络安全监管等具有重要意义。目前的流量分类存在以下两种情况，基于应用层协议将互联网流量划分为不同的类型，以及识别网络数据包中传输内容的类型，其中，识别网络数据包中传输内容的类型对于识别异常流量十分重要。

目前，通常采用基于深度学习的方法，将数据包字节作为输入，使用卷积神经网络对数据包内容进行分类，该方案无法有效的区分加密数据和压缩数据，识别准确度有待提高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种流量数据的内容类型识别方法、装置、设备及存储介质。

第一方面，本公开实施例提供了一种流量数据的内容类型识别方法，包括：

采集网络流量数据，并提取所述网络流量数据中每个数据包的有效载荷；

对所述有效载荷对应的样本序列进行特征提取，获取所述样本序列的信息熵、指定字符熵、卡方值和近似转移概率特征，以根据所述信息熵、指定字符熵、卡方值和近似转移概率特征生成所述样本序列对应的特征向量；

根据所述样本序列对应的特征向量输入预训练的分类模型进行处理，生成所述每个数据包的分类结果，其中，所述分类结果包括明文文本、图像、加密数据、压缩数据和编码数据。

可选地，所述样本序列的信息熵通过以下步骤确定：

根据预设的多个滑动窗口在所述样本序列上滑动以生成多个列表，其中，所述多个滑动窗口具有不同的大小，每个列表包括多个子串；

对于每个列表，根据列表的长度、列表中的子串类别数、每个子串类别在所述列表中出现频数，确定列表对应的熵值。

可选地，所述样本序列的指定字符熵通过以下步骤确定：

将所述样本序列转换为十六进制序列，并统计所述十六进制序列中指定字符的出现概率，其中，所述指定字符为f、7、e、b和0；

根据所述指定字符的出现概率，确定所述指定字符的熵值。

可选地，所述样本序列的卡方值通过以下步骤确定：

将所述样本序列转换为十进制序列，统计所述十进制序列中每个字节值的实际出现频率；

根据预先确定的每个字节值的期望出现频率和所述实际出现频率，确定所述样本序列的卡方值。

可选地，所述样本序列的近似转移概率特征通过以下步骤确定：

将所述样本序列转换为十进制序列，统计所述十进制序列中字节值之间的转移频数以生成指定大小的矩阵；

对所述矩阵中的每行元素进行归一化处理，并分别按行和按列求和，生成第一序列和第二序列，拼接所述第一序列化和所述第二序列以生成所述样本序列的近似转移概率特征。

可选地，所述分类模型为梯度提升树模型，所述方法还包括：

获取样本数据包和所述样本数据包对应的样本特征向量，其中，所述样本数据包标注有内容类别信息；

基于样本特征向量和所述内容类别信息，采用前向分布算法训练所述梯度提升树模型。

可选地，在生成所述每个数据包的分类结果之后，还包括：

若所述分类结果为加密数据或者编码数据，则生成针对所述数据包的异常提示信息。

第二方面，本公开实施例提供了一种流量数据的内容类型识别装置，包括：

采集模块，用于采集网络流量数据，并提取所述网络流量数据中每个数据包的有效载荷；

提取模块，用于对所述有效载荷对应的样本序列进行特征提取，获取所述样本序列的信息熵、指定字符熵、卡方值和近似转移概率特征，以根据所述信息熵、指定字符熵、卡方值和近似转移概率特征生成所述样本序列对应的特征向量；

分类模块，用于根据所述样本序列对应的特征向量输入预训练的分类模型进行处理，生成所述每个数据包的分类结果，其中，所述分类结果包括明文文本、图像、加密数据、压缩数据和编码数据。

第三方面，本公开实施例提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的流量数据的内容类型识别方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的流量数据的内容类型识别方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：通过提取网络流量数据中每个数据包的有效载荷，对有效载荷对应的样本序列进行特征提取，获取样本序列的信息熵、指定字符熵、卡方值和近似转移概率特征，以根据信息熵、指定字符熵、卡方值和近似转移概率特征生成样本序列对应的特征向量，根据所述样本序列对应的特征向量输入预训练的分类模型进行处理，生成所述每个数据包的分类结果，由此，能够从多个维度表征有效载荷，能够准确地检测明文文本、图像、加密数据、压缩数据和编码数据，提高了网络流量数据内容识别的准确性和精准度，并且，提高了对加密数据和压缩数据的检测准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例所提供的一种流量数据的内容类型识别方法的流程示意图；

图2为本公开实施例所提供的一种流量数据的内容类型识别装置的结构示意图；

图3为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

图1为本公开实施例所提供的一种流量数据的内容类型识别方法的流程示意图，本公开实施例提供的方法可以由流量数据的内容类型识别装置来执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上，例如智能手机、平板电脑等用户终端。

如图1所示，本公开实施例提供的流量数据的内容类型识别方法可包括：

步骤101，采集网络流量数据，并提取所述网络流量数据中每个数据包的有效载荷。

本公开实施例的方法，可以用于网络入侵检测设备。

本实施例中，通过流量采集设备采集互联网流量，提取每条流量中所有数据包的有效载荷，将每个数据包的全部有效载荷作为一个样本序列，以输出至特定格式的原始数据文件。

步骤102，对有效载荷对应的样本序列进行特征提取，获取所述样本序列的信息熵、指定字符熵、卡方值和近似转移概率特征，以根据所述信息熵、指定字符熵、卡方值和近似转移概率特征生成所述样本序列对应的特征向量。

本实施例中，加载原始数据文件，计算原始数据文件中每个样本序列的信息熵、指定字符熵、卡方值、近似转移概率特征，将计算得出的517个值作为每个样本序列的特征向量，并输出到特定格式的特征文件。

在本公开的一个实施例中，样本序列的信息熵通过以下步骤确定：根据预设的多个滑动窗口在所述样本序列上滑动以生成多个列表，其中，所述多个滑动窗口具有不同的大小，每个列表包括多个子串；对于每个列表，根据列表的长度、列表中的子串类别数、每个子串类别在所述列表中出现频数，确定列表对应的熵值。

其中，熵值能够反映序列的随机性，序列熵值越高则随机性越高，因此，通过计算样本序列的熵值，以区分随机性较低的明文数据和随机性较高的加密、压缩数据。对于预设的N个滑动窗口，对应生成N个列表，每个列表中包含多个子串，子串长度是根据滑动窗口的大小确定的。可选地，计算样本序列的1-gram熵、2-gram熵、3-gram熵，首先需要分别设定8-bit、16-bit、24-bit大小的窗口，分别使用这些窗口在样本序列上滑动生成子串长度为8-bit、16-bit、24-bit的列表。对于其中一个列表，若列表长度为m，列表中子串类别数为n，第i个子串类别在列表中出现的频数为q_i，则熵值E的计算公式如下：

在本公开的一个实施例中，样本序列的指定字符熵通过以下步骤确定：将所述样本序列转换为十六进制序列，并统计所述十六进制序列中指定字符的出现概率，其中，所述指定字符为f、7、e、b和0；根据所述指定字符的出现概率，确定所述指定字符的熵值。

其中，样本序列为二进制形式，指定字符为f、7、e、b和0，通过计算这五类指定字符的熵，以用于区分压缩数据和加密数据，在十六进制的表示方式下，指定字符在加密数据中的所占比例，大于指定字符在压缩数据中的所占比例。具体地，将样本序列的二进制序列转换为十六进制序列，统计十六进制序列中字符'f','7','e','b','0'出现的概率，并根据预设的熵公式计算五类特定字符的熵，该熵公式可以采用信息熵的计算方式。

在本公开的一个实施例中，样本序列的卡方值通过以下步骤确定：将所述样本序列转换为十进制序列，统计所述十进制序列中每个字节值的实际出现频率；根据预先确定的每个字节值的期望出现频率和所述实际出现频率，确定所述样本序列的卡方值。

其中，每个字节值的期望出现频率可以是预先确定的，卡方值通常用于度量样本的实际观测值与期望值之间的偏离程度，卡方值越大，则样本观测值与期望值的偏差程度越大。本实施例中，样本序列为二进制形式，通过将二进制序列转换为十进制序列，统计十进制序列中每个字节值实际出现的频率O_i以及其期望出现的频率E_i，以计算样本序列的卡方值，卡方值计算公式如下：

在本公开的一个实施例中，样本序列的近似转移概率特征通过以下步骤确定：将所述样本序列转换为十进制序列，统计所述十进制序列中字节值之间的转移频数以生成指定大小的矩阵；对所述矩阵中的每行元素进行归一化处理，并分别按行和按列求和，生成第一序列和第二序列，拼接所述第一序列化和所述第二序列以生成所述样本序列的近似转移概率特征。

其中，近似转移概率特征用于计算样本序列的十进制序列中字节值之间的近似转移概率。由于加密和压缩数据的熵值通常较为接近，因此，通过转移概率计算具体字符之间的转移概率，以进一步区分压缩数据、加密数据、明文文本和编码数据。具体地，样本序列为二进制形式，将样本序列转换为十进制序列，遍历十进制序列以统计字节值之间的转移频数生成256*256大小的矩阵，进而，对矩阵中每一个元素都除以该行元素的和，以实现矩阵中每行元素的归一化，进一步，对该矩阵的每一行中的元素相加，生成长度为256的第一序列，以及对该矩阵的每一列中的元素相加，生成长度为256的第二序列，将第一序列和第二序列拼接以得到512维的近似转移概率特征。

步骤103，根据样本序列对应的特征向量输入预训练的分类模型进行处理，生成所述每个数据包的分类结果，其中，所述分类结果包括明文文本、图像、加密数据、压缩数据和编码数据。

本实施例中，分类模型可以基于深度神经网络实现，分类模型的输入为样本序列对应的特征向量，输出为分类结果。例如，分类结果包括明文文本、图像、加密数据、压缩数据和编码数据，输出为表征上述类别的五个概率值，取其中的最大值对应的类别，作为该样本序列对应的类别。

作为一种示例，分类模型为梯度提升树模型，模型训练步骤包括：获取样本数据包和所述样本数据包对应的样本特征向量，其中，所述样本数据包标注有内容类别信息；基于样本特征向量和所述内容类别信息，采用前向分布算法训练所述梯度提升树模型。

其中，梯度提升树模型(Gradient Boosting Decision Tree)是利用弱分类器，即CART树(Classification And Regression Tree，分类回归树)进行迭代训练以得到最终的模型，该模型不易过拟合。梯度提升树模型可以表示为如下形式，若h_t(x)表示第t棵CART树，模型定义如下：

本示例中，梯度提升树模型的训练采用前向分步算法，第t步的模型由第t-1步的模型确定，每棵CART树拟合损失函数在当前模型的负梯度，最终提升树模型为多个CART数的线性相加，第t步模型表示为：

f_t(x)＝f_t-1(x)+h_t(x)。

具体地，在训练过程中，根据样本数据进行特征提取以生成特征文件，对特征文件中每条数据所对应的内容类型进行标注，例如，明文文本标注为0，图像标注为1，加密数据标注为2，压缩数据标注为3，编码数据标注为4。进而，使用标注后的数据训练梯度提升树模型。最后将最优模型持久化，保存到设备磁盘。

在本公开的一个实施例中，在生成所述每个数据包的分类结果之后，还包括：若分类结果为加密数据或者编码数据，则生成针对数据包的异常提示信息。举例而言，对于待预测流量数据，首先经过流量采集模块、特征提取模块得到流量中数据包的特征向量，进而从设备磁盘加载分类模型，并将待预测数据的特征向量输入分类模型进行推理预测，输出该流量所有数据包的内容类型，若检测到数据包的内容类型包括加密数据或编码数据，入侵检测设备发出异常提醒。

根据本公开实施例的技术方案，通过提取网络流量数据中每个数据包的有效载荷，对有效载荷对应的样本序列进行特征提取，获取样本序列的信息熵、指定字符熵、卡方值和近似转移概率特征，以根据信息熵、指定字符熵、卡方值和近似转移概率特征生成样本序列对应的特征向量，根据所述样本序列对应的特征向量输入预训练的分类模型进行处理，生成所述每个数据包的分类结果，由此，能够从多个维度表征有效载荷，能够准确地检测明文文本、图像、加密数据、压缩数据和编码数据，提高了网络流量数据内容识别的准确性和精准度，并且，通过指定字符熵和近似转移概率特征进行流量数据内容识别场景，针对性的提高了对加密数据和压缩数据的检测准确度，此外，无需固定数据包有效载荷的长度即可检测数据包内容类型，同时本方案不对数据进行任何填充，因此不会为数据引入噪声，有效地解决了目前方案需要固定数据长度而导致模型扩展性低的问题，可以适用于任何长度的有效载荷。

图2为本公开实施例所提供的一种流量数据的内容类型识别装置的结构示意图，如图2所示，该流量数据的内容类型识别装置包括：采集模块21，提取模块22，分类模块23。

其中，采集模块21，用于采集网络流量数据，并提取所述网络流量数据中每个数据包的有效载荷；

提取模块22，用于对所述有效载荷对应的样本序列进行特征提取，获取所述样本序列的信息熵、指定字符熵、卡方值和近似转移概率特征，以根据所述信息熵、指定字符熵、卡方值和近似转移概率特征生成所述样本序列对应的特征向量；

分类模块23，用于根据所述样本序列对应的特征向量输入预训练的分类模型进行处理，生成所述每个数据包的分类结果，其中，所述分类结果包括明文文本、图像、加密数据、压缩数据和编码数据。

在本公开的一个实施例中，提取模块22具体用于：根据预设的多个滑动窗口在所述样本序列上滑动以生成多个列表，其中，所述多个滑动窗口具有不同的大小，每个列表包括多个子串；对于每个列表，根据列表的长度、列表中的子串类别数、每个子串类别在所述列表中出现频数，确定列表对应的熵值。

在本公开的一个实施例中，提取模块22具体用于：将所述样本序列转换为十六进制序列，并统计所述十六进制序列中指定字符的出现概率，其中，所述指定字符为f、7、e、b和0；根据所述指定字符的出现概率，确定所述指定字符的熵值。

在本公开的一个实施例中，提取模块22具体用于：将所述样本序列转换为十进制序列，统计所述十进制序列中每个字节值的实际出现频率；根据预先确定的每个字节值的期望出现频率和所述实际出现频率，确定所述样本序列的卡方值。

在本公开的一个实施例中，提取模块22具体用于：将所述样本序列转换为十进制序列，统计所述十进制序列中字节值之间的转移频数以生成指定大小的矩阵；对所述矩阵中的每行元素进行归一化处理，并分别按行和按列求和，生成第一序列和第二序列，拼接所述第一序列化和所述第二序列以生成所述样本序列的近似转移概率特征。

可选地，所述分类模型为梯度提升树模型，该装置还包括：训练模块，用于获取样本数据包和所述样本数据包对应的样本特征向量，其中，所述样本数据包标注有内容类别信息；基于样本特征向量和所述内容类别信息，采用前向分布算法训练所述梯度提升树模型。

可选地，该装置还包括：告警模块，用于若所述分类结果为加密数据或者编码数据，则生成针对所述数据包的异常提示信息。

本公开实施例所提供的流量数据的内容类型识别装置可执行本公开实施例所提供的任意流量数据的内容类型识别方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

图3为本公开实施例提供的一种电子设备的结构示意图。如图3所示，电子设备600包括一个或多个处理器601和存储器602。

处理器601可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备600中的其他组件以执行期望的功能。

存储器602可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器601可以运行程序指令，以实现上文的本公开的实施例的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备600还可以包括：输入装置603和输出装置604，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入装置603还可以包括例如键盘、鼠标等等。该输出装置604可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置604可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备600中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备600还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的任意方法。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的任意方法。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种流量数据的内容类型识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述样本序列的信息熵通过以下步骤确定：

3.如权利要求1所述的方法，其特征在于，所述样本序列的指定字符熵通过以下步骤确定：

根据所述指定字符的出现概率，确定所述指定字符的熵值。

4.如权利要求1所述的方法，其特征在于，所述样本序列的卡方值通过以下步骤确定：

5.如权利要求1所述的方法，其特征在于，所述样本序列的近似转移概率特征通过以下步骤确定：

6.如权利要求1所述的方法，其特征在于，所述分类模型为梯度提升树模型，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，在生成所述每个数据包的分类结果之后，还包括：

8.一种流量数据的内容类型识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7中任一所述的流量数据的内容类型识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-7中任一所述的流量数据的内容类型识别方法。