CN114254704A

CN114254704A - 一种http隧道检测方法、装置、电子设备及存储介质

Info

Publication number: CN114254704A
Application number: CN202111566382.0A
Authority: CN
Inventors: 苏香艳
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-29

Abstract

本申请实施例提供一种HTTP隧道检测方法、装置、电子设备及存储介质，涉及流量安全检测技术领域。该方法包括对待检测样本进行预处理，以获得HTTP会话流；对所述HTTP会话流进行特征提取并生成灰度图；将所述灰度图输入预设的神经网络模型进行检测，以获得所述待检测样本为HTTP隧道的概率值，对HTTP会话流进行特征提取，提取的特征更能充分反映会话流量特征，从而提高检测率，解决了现有方法的检测率低的问题。

Description

一种HTTP隧道检测方法、装置、电子设备及存储介质

技术领域

本申请涉及流量安全检测技术领域，具体而言，涉及一种HTTP隧道检测方法、装置、电子设备及存储介质。

背景技术

传统木马基本都是通过高于1024端口进行通信，针对这类木马，很多杀软及防火墙只需要将端口限制进行严格检查，这部分木马可趁之机就会大大下降。隧道技术却是基于常见的端口进行构建，其中HTTP隧道具有易于实施和难于检测的特点，使HTTP隧道的检测成为网络安全检测中一个比较棘手的问题。

现有的对于HTTP隧道的检测方法中，基于行为进行检测是浅层的机器学习进行检测，对特征刻画不充分；基于深度学习进行检测，直接进行图像转换，存在很多干扰信息并且通常只能获取到前几个交互报文的载荷，检测效果不理想，尤其传输载荷加密的时候，检测效果更是大打折扣。

发明内容

本申请实施例的目的在于提供一种HTTP隧道检测方法、装置、电子设备及存储介质，对HTTP会话流进行特征提取，提取的特征更能充分反映会话流量特征，从而提高检测率，解决了现有方法的检测率低的问题。

本申请实施例提供了一种HTTP隧道检测方法，该方法包括：

对待检测样本进行预处理，以获得HTTP会话流；

对所述HTTP会话流进行特征提取并生成灰度图；

将所述灰度图输入预设的神经网络模型进行检测，以获得所述待检测样本为HTTP隧道的概率值。

在上述实现过程中，对预处理后的HTTP会话流进行特征提取，该特征包含了载荷信息和底层信息，从而能够充分体现待检测样本，从而能够提高检测结果的准确性，解决了现有方法的检测率低的问题。

进一步地，所述对待检测样本进行预处理，以获得HTTP会话流，包括：

根据五元组进行分流和重组，以获得HTTP会话流，所述五元组包括源IP地址、源端口、传输协议、目的端口和目的IP地址。

在上述实现过程中，基于五元组进行分流和重组，得到HTTP会话流，便于后续进行特征提取。

进一步地，所述对所述HTTP会话流进行特征提取，包括：

提取每个所述HTTP会话流的前64个交互报文；

去除所述交互报文中的干扰项，以获得过滤报文，所述干扰项包括IP和端口；

获取所述过滤报文的前64个字节数据，作为样本特征。

在上述实现过程中，对会话流提取前64个交互报文信息的时候去除IP、端口等干扰项；对会话流样本提取前64个交互报文的前64个字节，可以防止前面交互报文载荷较大时忽略后续交互的信息，并且无需解析会话流字段，提取方式简单；而且对于单个交互报文，提取了底层信息以及部分的载荷信息，从而更能够反映会话流类型特征，从而提高检测性能。

进一步步地，所述方法还包括对神经网络模型进行训练：

收集HTTP隧道样本和正常的HTTP协议样本，作为训练样本；

对所述训练样本进行预处理，以获得HTTP会话流样本；

对所述HTTP会话流样本进行特征提取，并绘制成灰度图；

构建神经网络模型，并利用所述灰度图对所述神经网络模型进行训练。

在上述实现过程中，提取特征的方式更能体现HTTP会话流样本的特征，从而降低干扰，在此基础上训练的神经网络模型更能够提高HTTP隧道识别的准确率。

进一步地，所述构建神经网络模型，包括：

将LeNet模型的卷积核与AlexNet模型的激活函数、dropout层相结合，构成神经网络模型。

在上述实现过程中，构建的神经网络模型结合了经典的LeNet模型的卷积核和具有历史意义的AlexNet模型的激活函数与dropout层，保持网络结构不复杂，提高了模型的训练速度，并且其中的dropout层又防止了模型的过拟合。

本申请实施例还提供一种HTTP隧道检测装置，所述装置包括：

预处理模块，用于对待检测样本进行预处理，以获得HTTP会话流；

特征提取模块，用于对所述HTTP会话流进行特征提取并生成灰度图；

检测模块，用于将所述灰度图输入预设的神经网络模型进行检测，以获得所述待检测样本为HTTP隧道的概率值。

进一步地，所述特征提取模块包括：

报文提取模块，用于提取每个所述HTTP会话流的前64个交互报文；

过滤模块，用于去除所述交互报文中的干扰项，以获得过滤报文，所述干扰项包括IP和端口；

字节获取模块，用于获取所述过滤报文的前64个字节数据，作为样本特征。

进一步地，所述装置还包括模型训练模块，用于：

收集HTTP隧道样本和正常的HTTP协议样本，作为训练样本；

对所述训练样本进行预处理，以获得HTTP会话流样本；

对所述HTTP会话流样本进行特征提取，并绘制成灰度图；

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述中任一项所述的HTTP隧道检测方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述中任一项所述的HTTP隧道检测方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种HTTP隧道检测方法的流程图；

图2为本申请实施例提供的特征提取流程图；

图3为本申请实施例提供的HTTP会话流的部分交互报文示意图；

图4为本申请实施例提供的模型训练流程图；

图5为本申请实施例提供的白样本的32*32载荷灰度图；

图6为本申请实施例提供的黑样本的32*32载荷灰度图；

图7为本申请实施例提供的白样本64*64灰度图；

图8为本申请实施例提供的黑样本64*64灰度图；

图9为本申请实施例提供的HTTP隧道检测神经网络模型的结构示意图；

图10为本申请实施例提供的HTTP隧道检测装置的结构框图；

图11为本申请实施例提供的另一种HTTP隧道检测装置的结构框图。

图标：

100-预处理模块；200-特征提取模块；201-报文提取模块；202-过滤模块；203-字节获取模块；300-检测模块；400-模型训练模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1，图1为本申请实施例提供的一种HTTP隧道检测方法的流程图。现有的检测方法是直接提取会话流的前多少字节，然后处理形成图片后进行CNN卷积神经网络识别，这种处理方式，对于会话样本中前面的交互报文存在较大载荷的时候，往往只获取前一两个交互报文就不能继续获取信息了，并且只对载荷进行提取特征，如果载荷是加密的情况下，对于分类有很大的干扰，从而准确率很低。而本申请实施例给出的方法提取的样本特征去除了干扰项且包含了HTTP会话流的载荷信息和底层信息，从而提高了识别率，解决了上述问题。

该方法具体包括以下步骤：

步骤S100：对待检测样本进行预处理，以获得HTTP会话流；

具体地，根据五元组进行分流和重组，以获得HTTP会话流，所述五元组包括源IP地址、源端口、传输协议、目的端口和目的IP地址。

步骤S200：对所述HTTP会话流进行特征提取并生成灰度图；

如图2所示，为特征提取流程图，具体包括以下步骤：

步骤S201：提取每个所述HTTP会话流的前64个交互报文；

步骤S202：去除所述交互报文中的干扰项，以获得过滤报文，所述干扰项包括IP和端口；

步骤S203：获取所述过滤报文的前64个字节数据，作为样本特征。

如图3所示，为HTTP会话流的部分交互报文示意图，图中的最后一列表示交互报文载荷的大小。现有的方法一般只能获取到前几个交互报文的载荷，而本申请所使用的方法考虑了前64个交互报文的信息，且不只包括载荷信息，还包括部分底层信息，该底层信息可以是建立连接的协商过程以及协议结构信息，因此HTTP会话流的前64个交互报文充分反映了每个HTTP会话流的特征，考虑了HTTP协议的规范以及传输的载荷等因素。

具体地，对每个会话流的前64个交互报文进行读取，取前64个交互报文的原因是经过对样本的交互报文数量统计并进行了实验，发现前64个交互报文已经可以充分反应整条会话流的特征，每个交互报文中的IP和端口信息对于区分样本是否为HTTP隧道没有明显的帮助，并且相同的IP可能会既有HTTP隧道流量也有HTTP协议的正常流量，如果将IP和端口号加入特征中，而模型训练对这部分数字信息会比较敏感，会干扰模型的训练与判断，所以对IP、端口等干扰信息进行过滤去除，对过滤后的每个交互报文获取前64个字节数据，这个字节个数的选取是通过实验确定，既可获取部分载荷信息，又能够获取底层信息，从而能够充分反映会话流特性。

提取会话流的前64个交互报文去干扰项后的前64个字节数据，避免了前面交互报文载荷过大时后面的交互信息被忽略的情况，也避免了载荷加密后只使用载荷进行区分准确率很低的情况，因此提取的前64个字节数据包含了载荷信息和底层信息，能够充分反映会话流特性，提高检测率。

对于灰度图的绘制，在模型训练中已经详细描述，在此不再赘述。

步骤S300：将所述灰度图输入预设的神经网络模型进行检测，以获得所述待检测样本为HTTP隧道的概率值。

将获得的前64个字节数据转换为矩阵并生成灰度图，将灰度图输入训练好的神经网络模型，输出为HTTP隧道检测的概率值。

从外，该方法还包括对神经网络模型进行训练，如图4所示，为模型训练流程图，具体包括以下步骤：

步骤S401：收集HTTP隧道样本和正常的HTTP协议样本，作为训练样本；

对于训练样本收集包括收集HTTP隧道样本(黑样本)和正常的HTTP协议样本(白样本)两部分。

对于黑样本的收集，示例地，可以使用reGeory、neo_regeorg、HTTP_Tunnel、abptts、EarthWorm、LCX、netsh、ssocks和tunna等常见的HTTP隧道工具构建HTTP隧道，在隧道中进行多种操作，然后收集HTTP隧道的传输数据，并保存为pcap包，实现黑样本的收集。

对于白样本的收集，白流量的收集是在不同的环境中进行的例如，访问Alexa排名前100万的域名，收集流量，然后对流量进行过滤，去除未知流量，只保留主动访问收集的流量，另外在局域网也收集了一部分白流量，还有一部分白流量来源于正常上网所产生的数据，都存储为pcap的形式，构成白样本。

步骤S402：对所述训练样本进行预处理，以获得HTTP会话流样本；

将收集到的不同种类的白样本与黑样本，根据五元组(源IP地址、源端口、传输协议、目的端口、目的IP)进行重组，重组为会话流，对单条会话流进行存储，存储格式为pcap，将每一条会话流作为一个会话流样本。

步骤S403：对所述HTTP会话流样本进行特征提取，并绘制成灰度图；

对于HTTP会话流样本的特征提取过程与检测过程中的HTTP会话流特征提取过程相同，在此不做赘述。

对会话流提取前64个交互报文信息的时候去除IP、端口等干扰项；对会话流样本提取前64个交互报文的前64个字节，可以防止前面交互报文载荷较大时忽略后续交互的信息，并且无需解析会话流字段，提取方式简单；而且对于单个交互报文，提取了底层信息以及部分的载荷信息，从而更能够反映会话流类型特征，从而提高检测性能。

对于黑白样本的灰度图的绘制，将特征提取得到的64*64数据根据16进制转换为矩阵，然后将矩阵数据绘制成为黑白样本的灰度图。

如图5所示，为现有方法获得的白样本的32*32载荷灰度图，如图6所示，为黑样本的32*32载荷灰度图，如图7所示，为本申请的白样本64*64灰度图，如图8所示，为本申请的黑样本64*64灰度图。

由图对比可知，本申请所得到的灰度图，对于信息的提取更加充分，既考虑了底层的协议信息，也包括了载荷信息，对于会话流样本中的前面的交互报文载荷大的情况，对后续交互报文的信息提取也不会遗漏。

步骤S404：构建神经网络模型，并利用所述灰度图对所述神经网络模型进行训练。

为避免过复杂的模型和过高的存储开销，本申请中使用的神经网络模型参考了经典的LeNet模型的卷积核和具有历史意义的AlexNet模型的激活函数Relu与dropout层，设置了两个5*5卷积层，两个全连接层，一个dropout层和一个softmax输出层，如图9所示，为HTTP隧道检测神经网络模型的结构示意图。

构建的神经网络模型结合了LeNet模型的卷积核和AlexNet模型的激活函数以及dropout层，因而网络结构不复杂，且提高了模型的训练速度，并且其中的dropout层又防止了模型的过拟合。

将训练样本分为训练集和验证集，利用训练集对神经网络模型进行模型训练，利用验证集对神经网络模型进行调优。

具体地，将上述的黑白样本灰度图输入神经网络模型，样本灰度图分成训练集与验证集，进行模型训练与调优，训练至模型的表现达到预期效果后，进行模型的固化存储，保存训练好的神经网络模型。

该方法可以应用于网络威胁检测产品如网络安全检测系统中，为产品添加检测HTTP隧道的功能，以提升安全检测能力。示例地，应用于网络安全检测系统中，具体如下：

步骤S11：网络安全检测系统启动，将其中的HTTP数据分流重组为HTTP会话流；

步骤S12：对HTTP会话流提取前64个交互报文去除干扰项后的前64个字节数据；

步骤S13：将前64个字节数据转化为矩阵，并绘制64*64的交互过程灰度图；

步骤S14：加载训练好的神经网络模型，并将64*64的灰度图输入该神经网络模型，进行检测；

步骤S15：输出检测结果(会话流为HTTP隧道的概率值)，网络安全检测系统根据输出的概率值可选择性进行告警。

作为另一种实施方式，该方法还可以单独作为检测模块，进行HTTP隧道的检测与告警，具体如下：

步骤S21：待检测样本存储为pcap文件，并对pcap文件根据五元组进行分流重组为会话流，过滤获取HTTP会话流；

步骤S22：提取HTTP会话流中前64个交互报文去除干扰项之后的前64个字节数据；

步骤S23：将前64个字节数据转换为矩阵，并绘制会话流交互过程的灰度图；

步骤S24：加载训练好的神经网络模型，将绘制的交互过程灰度图输入该神经网络模型；

步骤S25：输出检测结果(HTTP隧道的概率值)；

步骤S26：可设置告警阈值，从而比较概率值和告警阈值的大小，以判定是否生成告警。

本申请实施例还提供一种HTTP隧道检测装置，如图10所示，为HTTP隧道检测装置的结构框图，该装置包括但不限于：

预处理模块100，用于对待检测样本进行预处理，以获得HTTP会话流；

特征提取模块200，用于对所述HTTP会话流进行特征提取并生成灰度图；

检测模块300，用于将所述灰度图输入预设的神经网络模型进行检测，以获得所述待检测样本为HTTP隧道的概率值。

如图11所示，为另一种HTTP隧道检测装置的结构框图，所述特征提取模块200包括：

报文提取模块201，用于提取每个所述HTTP会话流的前64个交互报文；

过滤模块202，用于去除所述交互报文中的干扰项，以获得过滤报文，所述干扰项包括IP和端口；

字节获取模块203，用于获取所述过滤报文的前64个字节数据，作为样本特征。

所述装置还包括模型训练模块400，用于：

收集HTTP隧道样本和正常的HTTP协议样本，作为训练样本；

对所述训练样本进行预处理，以获得HTTP会话流样本；

对所述HTTP会话流样本进行特征提取，并绘制成灰度图；

对预处理后的HTTP会话流在去除干扰后进行特征提取，该特征包含了载荷信息和底层信息，从而能够充分体现待检测样本，进而能够提高检测结果的准确性，解决了现有方法的检测率低的问题。

本申请实施例还提供一种电子设备，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的HTTP隧道检测方法。

本申请实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行上述的HTTP隧道检测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种HTTP隧道检测方法，其特征在于，所述方法包括：

对待检测样本进行预处理，以获得HTTP会话流；

对所述HTTP会话流进行特征提取并生成灰度图；

2.根据权利要求1所述的HTTP隧道检测方法，其特征在于，所述对待检测样本进行预处理，以获得HTTP会话流，包括：

3.根据权利要求1所述的HTTP隧道检测方法，其特征在于，所述对所述HTTP会话流进行特征提取，包括：

提取每个所述HTTP会话流的前64个交互报文；

获取所述过滤报文的前64个字节数据，作为样本特征。

4.根据权利要求1所述的HTTP隧道检测方法，其特征在于，所述方法还包括对神经网络模型进行训练：

收集HTTP隧道样本和正常的HTTP协议样本，作为训练样本；

对所述训练样本进行预处理，以获得HTTP会话流样本；

对所述HTTP会话流样本进行特征提取，并绘制成灰度图；

5.根据权利要求4所述的HTTP隧道检测方法，其特征在于，所述构建神经网络模型，包括：

6.一种HTTP隧道检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的HTTP隧道检测装置，其特征在于，所述特征提取模块包括：

8.根据权利要求6所述的HTTP隧道检测装置，其特征在于，所述装置还包括模型训练模块，用于：

收集HTTP隧道样本和正常的HTTP协议样本，作为训练样本；

对所述训练样本进行预处理，以获得HTTP会话流样本；

对所述HTTP会话流样本进行特征提取，并绘制成灰度图；

9.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至5中任一项所述的HTTP隧道检测方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至5任一项所述的HTTP隧道检测方法。