CN115296937A

CN115296937A - 一种用于实时加密恶意流量识别的方法及设备

Info

Publication number: CN115296937A
Application number: CN202211223891.8A
Authority: CN
Inventors: 唐上; 魏东晓; 路冰; 马衍硕; 卢延科
Original assignee: Zhongfu Information Co Ltd
Current assignee: Zhongfu Information Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-11-04
Anticipated expiration: 2042-10-09
Also published as: CN115296937B

Abstract

本申请公开了一种用于实时加密恶意流量识别的方法及设备，主要涉及恶意流量识别技术领域，用以解决现有的识别模型无法识别新出现的特征值以及训练集中良性样本与恶意样本极不均衡等问题。包括：基于预设提取字段和预设流量四元组，从PACP文件中获取流数据；批量处理若干PACP文件，获得CSV文件；将流数据中的object类型数据转换为数值型数据；得到组合特征；获取纯恶意标记的流数据；以通过预设样本扩充算法，获取第一恶意样本数据；进而通过恶意样本数据和预设为良性标记的流数据，完成预设恶意识别算法的训练。本申请通过上述方法实现了顾及新出现的特征值、实现了训练集中良性样本与恶意样本的均衡。

Description

一种用于实时加密恶意流量识别的方法及设备

技术领域

本申请涉及恶意流量识别技术领域，尤其涉及一种用于实时加密恶意流量识别的方法及设备。

背景技术

网络流量中加密技术的应用保障了企业和用户数据的安全，但一些不法组织或个人也会通过该技术对网络实施恶意攻击。随着对加密流量解密成本的增大，实现对网络中加密恶意流量准确、快速地识别成为亟待解决的问题。

目前对于加密恶意流量识别的相关研究比较少，其解决思路基本都是先基于特征集从原始流量包中提取特征，然后按照流量五元组/四元组聚合成流，并对部分对象型特征进行独热编码或词嵌入，最后将数值型流数据输入分类器进行监督或半监督训练并在测试集上预测。

但是，一些对象型特征无法枚举且更新较快，独热编码或词嵌入都无法识别新出现的特征值，从而造成模型无法预测。此外，多数恶意的PACP文件聚合后会得到多条流，而这些流并不代表都是恶意的，造成标签无法确定。只有一条数据流的恶意PACP文件很少，这样造成训练集中良性样本与恶意样本极不均衡。

发明内容

针对现有技术的上述不足，本发明提供一种用于实时加密恶意流量识别的方法及设备，以解决上述技术问题。

第一方面，本申请提供了一种用于实时加密恶意流量识别的方法，方法包括：基于预设提取字段和预设流量四元组，从PACP文件中获取一个或多个流数据；批量处理若干PACP文件，获得CSV文件；其中，CSV文件的每一行对应一条流数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据；进而与流数据中未转换的数据进行拼接，得到组合特征，并将组合特征作为模型的输入数据；基于仅有一个流数据且预设为恶意标记的PACP文件，获取纯恶意标记的流数据；以通过预设样本扩充算法，获取第一恶意样本数据；进而通过恶意样本数据和预设为良性标记的流数据，完成预设恶意识别算法的训练。

进一步地，在完成预设恶意识别算法的训练之后，方法还包括：基于有若干个流数据且预设为恶意标记的PACP文件，获取非纯恶意标记的流数据；以通过训练好的预设恶意识别算法，获取第二恶意样本数据；基于第一恶意样本数据、第二恶意样本数据和预设为良性标记的流数据，进行预设恶意识别算法的更新训练。

进一步地，object类型数据至少包括加密套件数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：基于预设加密套件的内容和数量m，生成1*m的第一特征向量和0/1编码结构的初始m维特征；其中，第一特征向量包含预设加密套件的内容，初始m维特征中的具体数值均为0；确定当前加密套件数据是否存在于第一特征向量中，且在第一特征向量的具体位置；将初始m维特征中对应具体位置处的0修改为1，获得加密套件数据的数值型数据。

进一步地，object类型数据至少还包括签发机构数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：基于预设恶意签发机构的名称和数量u，生成1*u的第二特征向量和0/1编码结构的初始u维特征；其中，第二特征向量包含预设恶意签发机构的名称，初始u维特征中的具体数值均为0；确定当前签发机构数据是否存在于第二特征向量中，且在第二特征向量的具体位置；将初始u维特征中对应具体位置处的0修改为1，获得签发机构数据的数值型数据。

进一步地，object类型数据至少包括加密套件数据和签发机构数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体还包括：基于预设object类型数据，获取参考基向量；基于当前object类型数据和预设字符-数值映射关系，生成计算向量；根据预设余弦相似度计算公式：

，获得余弦相似度；其中，

为计算向量，

为参考基向量；确定余弦相似度为当前object类型数据的数值型数据。

进一步地，object类型数据至少还包括通信对象数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：删除通信对象数据的‘WWW’前缀，获取域名数据；基于预设域名熵值公式：

，获得域名熵值，其中，

为第i个域名数据，

为第i个字符出现的频率，n为字符总数；基于预设总长度公式：

，获得总长度值；其中，

为第i个字符的数量；基于预设元音字符占比公式：

，获得元音字符占比值；其中，

为第i个元音字符的数量，k为元音总数；基于预设一级域名唯一字符占比公式：

，获取一级域名唯一字符占比值；其中，

为域名数据中预设一级域名字符类别数，

为第i个字符的数量；基于预设顶级域名类别公式：

，确定顶级域名类别值；其中，TLD为域名数据中的顶级域名，D为预设顶级域名集合；对域名熵值、总长度值、元音字符占比值、一级域名唯一字符占比值和顶级域名类别值进行拼接，获得通信对象数据对应的数值型数据。

第二方面，本申请提供了一种用于实时加密恶意流量识别的设备，设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述任一项的一种用于实时加密恶意流量识别的方法。

本领域技术人员能够理解的是，本发明至少具有如下有益效果：

与单一使用无监督（如GAN）或半监督（伪标签技术）方式训练模型不同，本申请首先利用预设样本扩充算法解决恶性样本严重不平衡问题，确保预训练模型有较高的分类能力，然后扩充分布在低密度区的恶意样本数量，最后添加扩充的样本至训练集中重新训练模型，该模型不仅提高了恶意加密流量识别的准确度，而且恶意样本的召回率也得到不错的提升。

附图说明

下面参照附图来描述本公开的部分实施例，附图中：

图1是本申请实施例提供的一种用于实时加密恶意流量识别的方法流程图。

图2是本申请实施例提供的一种用于实时加密恶意流量识别的设备内部结构示意图。

具体实施方式

下面通过附图对本申请实施例提出的技术方案进行详细的说明。

本申请实施例提供了一种用于实时加密恶意流量识别的方法，如图1所示，本申请实施例提供的方法，主要包括以下步骤：

步骤110、基于预设提取字段和预设流量四元组，从PACP文件中获取一个或多个流数据；批量处理若干PACP文件，获得CSV文件。

需要说明的是，PACP文件是一种常用的数据包存储格式，里面的数据按照特定的规格存储和解析。CSV文件是一种以纯文本形式存储表格数据（数字和文本）的文件格式。预设提取字段可由本领域技术人员根据实际需求确定任意可行的数据；预设流量四元组为（源IP，目的IP，源端口、目的端口）。若干PACP文件提取出的全部流数据汇入一个CSV文件。其中，每个流数据至少包含预设提取字段和预设流量四元组。

步骤120、读取CSV文件，将流数据中的object类型数据转换为数值型数据；进而与流数据中未转换的数据进行拼接，得到组合特征，并将组合特征作为模型的输入数据。

需要说明的是，流数据包含object类型数据和数值型数据（流数据中未转换的数据）；为了便于计算流数据，本申请将流数据中的object类型数据转换为数值型数据。

作为示例一地，object类型数据至少包括加密套件数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体地：基于预设加密套件的内容和数量m，生成1*m的第一特征向量和0/1编码结构的初始m维特征；其中，第一特征向量包含预设加密套件的内容，初始m维特征中的具体数值均为0；确定当前加密套件数据是否存在于第一特征向量中，且在第一特征向量的具体位置；将初始m维特征中对应具体位置处的0修改为1，获得加密套件数据的数值型数据。需要说明的是，预设加密套件为本领域技术人员根据实际情况设定的加密套件参考数据。

作为示例二地，object类型数据至少还包括签发机构数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：基于预设恶意签发机构的名称和数量u，生成1*u的第二特征向量和0/1编码结构的初始u维特征；其中，第二特征向量包含预设恶意签发机构的名称，初始u维特征中的具体数值均为0；确定当前签发机构数据是否存在于第二特征向量中，且在第二特征向量的具体位置；将初始u维特征中对应具体位置处的0修改为1，获得签发机构数据的数值型数据。需要说明的是，预设恶意签发机构为本领域技术人员根据实际情况设定的恶意签发机构参考数据。

作为示例三地，object类型数据至少包括加密套件数据和签发机构数据；读取CSV 文件，将流数据中的object类型数据转换为数值型数据，具体还包括：基于预设object类型数据，获取参考基向量（存在预设object类型-参考基向量数据库，执行主体能够通过该数据库实时获取对应的参考基向量）；需要说明的是，该数据库可以由本领域技术人员根据多次实验获得，且预设object类型与参考基向量之间的预设字符-数值映射关系可由本领域技术人员根据多次实验或现有技术制定，例如，将字符映射为二进制码，进而实现预设 object类型与参考基向量的映射；基于当前object类型数据与预设字符-数值映射关系，生成计算向量；根据预设余弦相似度计算公式：

，获得余弦相似度；其中，

为计算向量，

作为示例四地，object类型数据至少还包括通信对象数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：删除通信对象数据的‘WWW’前缀，获取域名数据；

基于预设域名熵值公式：

，获得域名熵值（每个域名数据中字符的混乱程度），其中，

为第i个域名数据，

为第i个字符出现的频率，n为字符总数；

基于预设总长度公式（每个域名数据中所有字符的总数）：

，获得总长度值；其中，

为第i个字符的数量；

基于预设元音字符占比公式（每个域名数据中元音字符与域名总长度的比值）：

，获得元音字符占比值；其中，

为第i个元音字符的数量，k为元音总数；

基于预设一级域名唯一字符占比公式（每个域名数据中预设一级域名字符类别数与预设一级域名字符总数的比值）：

，获取一级域名唯一字符占比值；其中，

为域名数据中预设一级域名字符类别数，

为预设一级域名中第i个字符的数量；

基于预设顶级域名类别公式（每个域名数据中顶级域名类别值）：

，确定顶级域名类别值；其中，TLD为域名数据中的顶级域名，D为预设顶级域名集合，且D的具体内容可以由本领域技术人员根据多次实验获得。对域名熵值、总长度值、元音字符占比值、一级域名唯一字符占比值和顶级域名类别值进行拼接，获得通信对象数据对应的数值型数据。需要说明的是，具体拼接方法为现有任意可行的方法，本申请对此不作限定。

步骤130、基于仅有一个流数据且预设为恶意标记的PACP文件，获取纯恶意标记的流数据；以通过预设样本扩充算法，获取第一恶意样本数据；进而通过恶意样本数据和预设为良性标记的流数据，完成预设恶意识别算法的训练。

需要说明的是，恶意标记是标记在整个PACP文件的全部流数据中的。存在标记为恶意的PACP文件拆分的多条流未必都是恶意的，也可能存在良性的流。因此，仅有一个流数据且预设为恶意标记的PACP文件，可以确定流数据绝对为恶意流（纯恶意标记的流数据）。

由于纯恶意标记的流数据数量较少，为了解决恶意流数据和良性流数据两类样本比例严重失衡的问题。本申请通过预设样本扩充算法（例如，生成对抗式网络算法），平衡恶意流数据和良性流数据之间的比例，获取第一恶意样本数据。

在完成预设恶意识别算法的训练之后，本申请还可以通过训练好的预设恶意识别算法获取恶意标注的流数据，扩充第一恶意样本数据中流数据的种类，即扩充训练集中低密度区恶意样本的数量。最后，将新标注的样本添加到原始训练集（第一恶意样本+良性标记的流数据）中重新训练模型，从而提升模型的泛化能力。

具体地，基于有若干个流数据且预设为恶意标记的PACP文件，获取非纯恶意标记的流数据；以通过训练好的预设恶意识别算法，获取第二恶意样本数据；基于第一恶意样本数据、第二恶意样本数据和预设为良性标记的流数据，进行预设恶意识别算法的更新训练。

方法还包括：在通过预设恶意识别算法，确定任一流数据为恶意数据后；将恶意数据发送至预设告警终端。实现发送给安全管理员进行进一步的研判分析。

除此之外，本申请实施例还提供了一种用于实时加密恶意流量识别的设备，如图2所示，其上存储有可执行指令，在该可执行指令被执行时，实现如上述的一种用于实时加密恶意流量识别的方法。具体地，服务器端通过总线向存储器发送执行指令，当存储器接收到执行指令时，通过总线向处理器发送执行信号，以激活处理器。

需要说明的是，处理器用于基于预设提取字段和预设流量四元组，从PACP文件中获取一个或多个流数据；批量处理若干PACP文件，获得CSV文件；其中，CSV文件的每一行对应一条流数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据；进而与流数据中未转换的数据进行拼接，得到组合特征，并将组合特征作为模型的输入数据；基于仅有一个流数据且预设为恶意标记的PACP文件，获取纯恶意标记的流数据；以通过预设样本扩充算法，获取第一恶意样本数据；进而通过恶意样本数据和预设为良性标记的流数据，完成预设恶意识别算法的训练。

至此，已经结合前文的多个实施例描述了本公开的技术方案，但是，本领域技术人员容易理解的是，本公开的保护范围并不仅限于这些具体实施例。在不偏离本公开技术原理的前提下，本领域技术人员可以对上述各个实施例中的技术方案进行拆分和组合，也可以对相关技术特征作出等同地更改或替换，凡在本公开的技术构思和/或技术原理之内所做的任何更改、等同替换、改进等都将落入本公开的保护范围之内。