CN115622814B - 基于深度自编码器的http隧道检测方法、装置及设备 - Google Patents

基于深度自编码器的http隧道检测方法、装置及设备 Download PDF

Info

Publication number
CN115622814B
CN115622814B CN202211630942.9A CN202211630942A CN115622814B CN 115622814 B CN115622814 B CN 115622814B CN 202211630942 A CN202211630942 A CN 202211630942A CN 115622814 B CN115622814 B CN 115622814B
Authority
CN
China
Prior art keywords
http
data
quintuple
model
dimensional vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211630942.9A
Other languages
English (en)
Other versions
CN115622814A (zh
Inventor
兰亭洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Original Assignee
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 6Cloud Technology Co Ltd, Beijing 6Cloud Information Technology Co Ltd filed Critical Beijing 6Cloud Technology Co Ltd
Priority to CN202211630942.9A priority Critical patent/CN115622814B/zh
Publication of CN115622814A publication Critical patent/CN115622814A/zh
Application granted granted Critical
Publication of CN115622814B publication Critical patent/CN115622814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/029Firewall traversal, e.g. tunnelling or, creating pinholes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/06Notations for structuring of protocol data, e.g. abstract syntax notation one [ASN.1]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及数据通信技术领域,实施例提供一种基于深度自编码器的HTTP隧道检测方法、装置及设备。其中方法包括:获取HTTP数据包;根据所述HTTP数据包的特征组成N维向量;将所述N维向量输入训练好的自编码器模型,得到与所述N维向量对应的M维向量,所述M小于N;将所述M维向量输入训练好的随机森林模型,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道。本发明提供的实施方式无需预设检测规则,具有更强的鲁棒性,提升了检测性能和准确率。

Description

基于深度自编码器的HTTP隧道检测方法、装置及设备
技术领域
本发明涉及数据通信技术领域,具体地涉及一种基于深度自编码器的HTTP隧道检测方法、一种基于深度自编码器的HTTP隧道检测装置以及一种电子设备。
背景技术
目前隐蔽通道利用了网络协议的特点来秘密进行数据的传输,严重威胁信息安全。HTTP隧道是利用HTTP协议用作网络隐蔽隧道,它的优势在于为了保证基本的网页浏览。一般网络都会允许HTTP通信,而且基于HTTP传输的业务种类较多,数据格式复杂,包括Html, XML-Json,图片,文本等。特别是有时会对传输的内容进行加密,压缩或混淆,因此无法从内容上对其审计,这也造成对HTTP隧道检测较为困难。
现今主要的隐蔽隧道以及相应的隐蔽隧道检测方法,一种为基于是否为标准http协议和报文内容检测,该方法对隐蔽隧道出现初期存在的数据包明文信息泄露有较准确的检测。但是这类方法将网页恶意代码语义分析归结为近似度算法,计算量大,且更大的缺点是该类方法对于加密数据无计可施,而且不能检测未知类型的http隧道。另一种检测方法是提取高维度的统计量特征利用机器学习和深度学进行检测http隧道,过高的数据维度会使模型出现过拟合的现象,出现离线训练集上表现良好,但模型对未知的http隧道数据的泛化学习能力下降,从而导致现网环境下检测率的降低,同时现网中深度学习算法性能较差,实时性低,容易漏报。而且由于HTTP隧道具有隐蔽性高,检测难度大等特点,现有技术中的检测方法存在误报较高和效率低下等问题,攻击者通过混淆大量的正常http协议数据绕过现有方法的检测,而且检测性能较差。
发明内容
本发明实施例的目的是提供一种基于深度自编码器的HTTP隧道检测方法、一种基于深度自编码器的HTTP隧道检测装置以及一种电子设备,采用深度自编码器与随机森林算法相结合的HTTP隧道检测方法,模型部署在大数据平台,取得了较好的检测效果。
为了实现上述目的,本发明第一方面提供一种基于深度自编码器的HTTP隧道检测方法,所述检测方法包括:
获取HTTP数据包;根据所述HTTP数据包的特征组成N维向量;将所述N维向量输入训练好的自编码器模型,得到与所述N维向量对应的M维向量,所述M小于N;将所述M维向量输入训练好的随机森林模型,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道。
优选地,根据HTTP数据包的特征组成N维向量,包括:根据HTTP数据包中的五元组信息对数据包进行重组,得到重组后的HTTP五元组协议数据;以所述HTTP五元组协议数据为检测单位进行特征提取。
优选地,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:五元组内请求头字段中的缺失字段数量占标准HTTP协议请求头字段总数的比值的均值、五元组内响应头字段中的缺失字段数量占标准HTTP协议响应头字段总数的比值的均值、五元组请求包的重复比例以及五元组内请求方法的数量。
优选地,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:五元组内所有数据包的进出数据包大小的统计量特征、五元组内请求包和响应包的大小的统计量特征、五元组内会话持续时间以及所有数据包间隔时间的统计量特征、五元组内请求头之间以及响应头之间的时间间隔的统计量特征、五元组内请求头和响应头的时间间隔的统计量特征、五元组进出数据包的个数以及数据包总个数以及请求包和响应包的个数、以及进出数据包相同大小的比例以及大小数据包的比例。
优选地,所述训练好的自编码器模型通过以下步骤得到:根据历史数据构建所述历史数据的N维向量为训练样本;将所述训练样本输入深度降噪自编码器模型进行无监督训练;通过多次迭代得到所述训练好的自编码器模型。
优选地,所述训练好的随机森林模型通过以下步骤得到:将HTTP隧道数据和正常网络HTTP数据组成模型数据集;将所述模型数据集中数据的N维向量输入训练好的自编码器模型,得到所述模型数据集中数据的M维向量;将模型数据集中数据的M维向量划分为训练集和测试集,进行交叉验证训练随机森林模型,选取最优模型作为所述训练好的随机森林模型。
优选地,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道,包括:若所述训练好的随机森林模型的输出结果大于预设阈值,则判断所述HTTP数据包属于HTTP隧道;否则,对所述HTTP数据包进行丢弃处理。
本发明的第二方面提供了一种基于深度自编码器的HTTP隧道检测装置,所述装置包括:数据获取模块,用于获取HTTP数据包;特征提取模块,用于根据所述HTTP数据包的特征组成N维向量;降维降噪模块,用于将所述N维向量输入训练好的自编码器模型,得到与所述N维向量对应的M维向量,所述M小于N;以及结果判断模块,用于将所述M维向量输入训练好的随机森林模型,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道。
本发明的第三方面提供了一种电子设备,包括:至少一个处理器;存储器,与所述至少一个处理器连接;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现前述的基于深度自编码器的HTTP隧道检测方法。
优选的,所述电子设备为防火墙或服务器。
本发明第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的基于深度自编码器的HTTP隧道检测方法。
本发明第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述的基于深度自编码器的HTTP隧道检测方法。
上述技术方案具有以下有益效果:
(1)不依赖预设检测规则,可以准确的识别出网路中的HTTP隧道行为,并使得攻击者很难根据特征躲避检测。
(2)经过深度降噪自编码器将海量高维度数据映射到低维度特征,进行了降噪处理,具有更强的鲁棒性。
(3)采用随机森林等分类算法提升了检测性能和准确率。
(4)适用范围广,特别适合大数据场景中。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1示意性示出了根据本发明实施方式的基于深度自编码器的HTTP隧道检测方法的步骤流程示意图;
图2示意性示出了根据本发明实施方式的自编码器原理示意图;
图3示意性示出了根据本发明实施方式的降噪自编码器的结构示意图;
图4示意性示出了根据本发明实施方式的线上部署流程的步骤示意图;
图5示意性示出了根据本发明实施方式的线下模型训练流程的步骤示意图;
图6示意性示出了根据本发明实施方式的基于深度自编码器的HTTP隧道检测装置的模块示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1示意性示出了根据本发明实施方式的基于深度自编码器的HTTP隧道检测方法的步骤流程示意图。如图1所示,一种基于深度自编码器的HTTP隧道检测方法,所述检测方法包括:
S01、获取HTTP数据包;
S02、根据所述HTTP数据包的特征组成N维向量;
S03、将所述N维向量输入训练好的自编码器模型,得到与所述N维向量对应的M维向量,所述M小于N;
S04、将所述M维向量输入训练好的随机森林模型,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道。
以上实施方式通过根据HTTP数据包的特征构建N维向量,引入深度去噪自编码器对数据流量特征进行降低维度,能够在不损失高维特征精度的基础上实现降维,使数据空间中的高维特征表达映射为低维特征表达。并通过随机森林模型对低维特征表达进行判定。本实施方式中的随机森林模型可采用决策树或GBDT等其它分类模型进行替代。
在本发明提供的一种实施方式中,根据HTTP数据包的特征组成N维向量,包括:根据HTTP数据包中的五元组信息对数据包进行重组,得到重组后的HTTP五元组协议数据;以所述HTTP五元组协议数据为检测单位进行特征提取。具体的,首先捕获网络间通信的基于HTTP协议的数据包,HTTP数据包主要分为请求(Request)和响应(Response),请求和响应都可能分为多个TCP包传输,根据HTTP数据包中的五元组信息(源IP地址,目的IP地址,源端口,目的端口和相同协议)进行HTTP协议会话重组,以重组的HTTP五元组协议数据为检测单位进行特征提取。
在本发明提供的一种实施方式中,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:五元组内请求头字段中的缺失字段数量占标准HTTP协议请求头字段总数的比值的均值、五元组内响应头字段中的缺失字段数量占标准HTTP协议响应头字段总数的比值的均值、五元组请求包的重复比例以及五元组内请求方法的数量。
在本发明提供的一种实施方式中,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:五元组内所有数据包的进出数据包大小的统计量特征、五元组内请求包和响应包的大小的统计量特征、五元组内会话持续时间以及所有数据包间隔时间的统计量特征、五元组内请求头之间以及响应头之间的时间间隔的统计量特征、五元组内请求头和响应头的时间间隔的统计量特征、五元组进出数据包的个数以及数据包总个数以及请求包和响应包的个数、以及进出数据包相同大小的比例以及大小数据包的比例。
在本发明提供的一种实施方式中,所述训练好的自编码器模型通过以下步骤得到:根据历史数据构建所述历史数据的N维向量为训练样本;将所述训练样本输入深度降噪自编码器模型进行无监督训练;通过多次迭代得到所述训练好的自编码器模型。具体的,深度降噪自编码器模型需要预选先线下进行训练,是基于历史的海量且经过特征提取后维度为N的HTTP高维度特征数据,这些高维度特征输入到深度降噪自编码器模型进行无监督训练,通过多次迭代得到训练好的深度降噪自编码器模型。
自编码器(AE,AutoEncoder)是一种简单的神经网络判别模型属于无监督网络。自编码器主要用于捕捉可以代表输入数据的最重要因素,y可以作为原始数据x的一种集成特征表达。自编码器在结构上根据隐层的数量可分为浅层自编码器和堆叠式自编码器。图2示意性示出了根据本发明实施方式的自编码器原理示意图。如图2所示,x为输入,经过编码器f(Encoder)后得到对应的y,再经解码器g(Decoder)后,得到重构后的输出,并得到两者的误差。
降噪自编码器在原始数据中加入数据噪声,对数据集进行破坏,可以实现破损数据集到正常数据集的还原,可以使用降噪编码器(DAE)进行噪声数据集的误差重构,从而得到鲁棒性更强的集成式特征表达。图3示意性示出了根据本发明实施方式的降噪自编码器的结构示意图。如图3所示,降噪自编码器(DAE)是在自动编码器的基础上,在原始输入(rawinput)中加入概率分布为q D 数据高斯噪声(Gaussian noise)x~q D (x’ | x)的随机映射,将x实例中部分特征置为零,可以得到“破坏后”的噪声数据输入x’ (Corrupted Input)。定义联合分布函数,并使用梯度下降算法最小化目标函数。
当处理大规模且高纬度的数据集时,浅层自编码器很难发挥出它的作用,深度自编码器处理海量高维数据时,使用深层模型可以提取出更加有效的集成式特征。利用深度自编码的逐层性,使数据空间中的高维特征表达映射为低维特征表达。在非监督预训练的学习过程中,实现海量高维度数据到低维度鲁棒性数据的特征重构。好处是可以降低随机森林算法的检测时间,提高入侵检测模型的检测性能,使用降噪编码器(DAE)进行噪声数据集的误差重构,从而得到鲁棒性更强的HTTP隧道特征集成式特征表达。深度降噪自编码器预训练模型是基于历史的海量的HTTP隧道数据迭代训练得到的。预先训练好的深度降噪自编码器模型经过降维降噪输出得到维度为M的特征(M<N)。
在本发明提供的一种实施方式中,所述训练好的随机森林模型通过以下步骤得到:将HTTP隧道数据和正常网络HTTP数据组成模型数据集;将所述模型数据集中数据的N维向量输入训练好的自编码器模型,得到所述模型数据集中数据的M维向量;将模型数据集中数据的M维向量划分为训练集和测试集,进行交叉验证训练随机森林模型,选取最优模型作为所述训练好的随机森林模型。在训练随机森林模型时,对于本地收集到恶意HTTP隧道数据和正常网络的HTTP数据组成模型数据集,对模型数据集进行前述的特征提取后,然后输入到预训练好的深度降噪自编码器模型对数据进行降维和降噪处理,对模型数据集进行训练集和测试集划分,最后进行交叉验证训练随机森林模型选取最优模型部署检测使用。在检测时将经过特征提取后的HTTP检测数据输入预先训练好的深度降噪自编码器模型后得到维度为M的特征(M<N)。原因是经过特征提取后N个特征组成N维的HTTP隧道检测特征向量维度较高,在现网中大数据环境内计算量较大,直接进行检测性能较差,因此需要采用预训练好的深度降噪自编码器对高维度特征进行特征降维和降噪处理。预先训练好的深度降噪自编码器模型经过降维降噪输出得到维度为M的特征(M<N)。
在本发明提供的一种实施方式中,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道,包括:若所述训练好的随机森林模型的输出结果大于预设阈值,则判断所述HTTP数据包属于HTTP隧道;否则,对所述HTTP数据包进行丢弃处理。将降维后维度为M的数据输入到训练好随机森林模型中进行检测。如果阈值大于0.5,存在HTTP隧道数据,否则对检测数据进行丢弃处理并继续检测下一条HTTP隧道数据。
在一种实施方式中,分为线下模型训练和线上模型检测两部分。图4示意性示出了根据本发明实施方式的线上部署流程的步骤示意图。如图4所示,步骤包括:捕获网络间通信的http协议数据包、HTTP请求包和响应包重组、HTTP协议请求和响应五元组会话重组、N维度特征提取、预训练好的深度降噪自编器进行特征降噪和降维、低维鲁棒的HTTP特征、输入训练好的随机森林模型、根据阈值判断输出告警或者丢弃预测下一条。
图5示意性示出了根据本发明实施方式的线下模型训练流程的步骤示意图。如图5所示,步骤包括:构建历史的海量的HTTP隧道数据训练集、数据预处理、特征提取、预训练深度降噪自编码器、训练随机森林模型以及保存最优模型。
基于同一发明构思,本发明的实施方式中还提供了一种基于深度自编码器的HTTP隧道检测装置。图6示意性示出了根据本发明实施方式的基于深度自编码器的HTTP隧道检测装置的模块示意图。如图6所示,所述装置包括:数据获取模块,用于获取HTTP数据包;特征提取模块,用于根据所述HTTP数据包的特征组成N维向量;降维降噪模块,用于将所述N维向量输入训练好的自编码器模型,得到与所述N维向量对应的M维向量,所述M小于N;以及结果判断模块,用于将所述M维向量输入训练好的随机森林模型,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道。
在一些可选实施方式中,根据HTTP数据包的特征组成N维向量,包括:根据HTTP数据包中的五元组信息对数据包进行重组,得到重组后的HTTP五元组协议数据;以所述HTTP五元组协议数据为检测单位进行特征提取。
在一些可选实施方式中,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:五元组内请求头字段中的缺失字段数量占标准HTTP协议请求头字段总数的比值的均值、五元组内响应头字段中的缺失字段数量占标准HTTP协议响应头字段总数的比值的均值、五元组请求包的重复比例以及五元组内请求方法的数量。
在一些可选实施方式中,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:五元组内所有数据包的进出数据包大小的统计量特征、五元组内请求包和响应包的大小的统计量特征、五元组内会话持续时间以及所有数据包间隔时间的统计量特征、五元组内请求头之间以及响应头之间的时间间隔的统计量特征、五元组内请求头和响应头的时间间隔的统计量特征、五元组进出数据包的个数、数据包总个数、请求包和响应包的个数、进出数据包相同大小的比例以及大小数据包的比例。
在一些可选实施方式中,所述训练好的自编码器模型通过以下步骤得到:根据历史数据构建所述历史数据的N维向量为训练样本;将所述训练样本输入深度降噪自编码器模型进行无监督训练;通过多次迭代得到所述训练好的自编码器模型。
在一些可选实施方式中,所述训练好的随机森林模型通过以下步骤得到:将HTTP隧道数据和正常网络HTTP数据组成模型数据集;将所述模型数据集中数据的N维向量输入训练好的自编码器模型,得到所述模型数据集中数据的M维向量;将模型数据集中数据的M维向量划分为训练集和测试集,进行交叉验证训练随机森林模型,选取最优模型作为所述训练好的随机森林模型。
在一些可选实施方式中,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道,包括:若所述训练好的随机森林模型的输出结果大于预设阈值,则判断所述HTTP数据包属于HTTP隧道;否则,对所述HTTP数据包进行丢弃处理。
上述的基于深度自编码器的HTTP隧道检测装置中的各个功能模块的具体限定可以参见上文中对于基于深度自编码器的HTTP隧道检测方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本发明提供的一种实施方式中,还提供了一种电子设备,包括:至少一个处理器;存储器,与所述至少一个处理器连接;其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现前述的基于深度自编码器的HTTP隧道检测方法。此处的控制模块或处理器具有数值计算和逻辑运算的功能,其至少具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O口和中断系统等。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现前述的方法。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
在本发明提供的一种实施方式中,所述电子设备为防火墙或服务器。前述的基于深度自编码器的HTTP隧道检测方法作为应用程序或系统的一部分运行于防火墙或服务器中。当防火墙或服务器中运行有前述的基于深度自编码器的HTTP隧道检测方法时,能够对输入或者经过该设备的HTTP数据包进行快速识别,得到HTTP数据包是否为HTTP隧道的判断结果。通过使用该防火墙或服务器,不仅降低了误报,提升了准确率,使数据检测更加高效。
在本发明提供的一种实施方式中,提供了一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的基于深度自编码器的HTTP隧道检测方法。
在本发明提供的一种实施方式中,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述的基于深度自编码器的HTTP隧道检测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于深度自编码器的HTTP隧道检测方法,其特征在于,所述检测方法包括:
获取HTTP数据包;
根据所述HTTP数据包的特征组成N维向量;
将所述N维向量输入训练好的自编码器模型,得到与所述N维向量对应的M维向量,M小于N;
将所述M维向量输入训练好的随机森林模型,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道。
2.根据权利要求1所述的检测方法,其特征在于,根据HTTP数据包的特征组成N维向量,包括:
根据HTTP数据包中的五元组信息对数据包进行重组,得到重组后的HTTP五元组协议数据;
以所述HTTP五元组协议数据为检测单位进行特征提取。
3.根据权利要求2所述的检测方法,其特征在于,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:
五元组内请求头字段中的缺失字段数量占标准HTTP协议请求头字段总数的比值的均值;五元组内响应头字段中的缺失字段数量占标准HTTP协议响应头字段总数的比值的均值;五元组请求包的重复比例;以及五元组内请求方法的数量。
4.根据权利要求2或3所述的检测方法,其特征在于,所述特征提取包括提取所述HTTP五元组协议数据的以下一项特征:
五元组内所有数据包的进出数据包大小的统计量特征;
五元组内请求包和响应包的大小的统计量特征;
五元组内会话持续时间以及所有数据包间隔时间的统计量特征;
五元组内请求头之间以及响应头之间的时间间隔的统计量特征;
五元组内请求头和响应头的时间间隔的统计量特征;
五元组内进出数据包的个数;
五元组内数据包总个数;
五元组内请求包和响应包的个数;以及
五元组内进出数据包相同大小的比例。
5.根据权利要求2所述的检测方法,其特征在于,所述训练好的自编码器模型通过以下步骤得到:
根据历史数据构建所述历史数据的N维向量为训练样本;
将所述训练样本输入深度降噪自编码器模型进行无监督训练;
通过多次迭代得到所述训练好的自编码器模型。
6.根据权利要求2所述的检测方法,其特征在于,所述训练好的随机森林模型通过以下步骤得到:
将HTTP隧道数据和正常网络HTTP数据组成模型数据集;
将所述模型数据集中数据的N维向量输入训练好的自编码器模型,得到所述模型数据集中数据的M维向量;
将模型数据集中数据的M维向量划分为训练集和测试集,进行交叉验证训练随机森林模型,选取最优模型作为所述训练好的随机森林模型。
7.根据权利要求1所述的检测方法,其特征在于,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道,包括:
若所述训练好的随机森林模型的输出结果大于预设阈值,则判断所述HTTP数据包属于HTTP隧道;
否则,对所述HTTP数据包进行丢弃处理。
8.一种基于深度自编码器的HTTP隧道检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取HTTP数据包;
特征提取模块,用于根据所述HTTP数据包的特征组成N维向量;
降维降噪模块,用于将所述N维向量输入训练好的自编码器模型,得到与所述N维向量对应的M维向量,M小于N;以及
结果判断模块,用于将所述M维向量输入训练好的随机森林模型,根据所述训练好的随机森林模型的输出结果判断所述HTTP数据包是否属于HTTP隧道。
9.一种电子设备,其特征在于,包括:至少一个处理器;
存储器,与所述至少一个处理器连接;
其中,所述存储器存储有能被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现权利要求1至7中任一项权利要求所述的基于深度自编码器的HTTP隧道检测方法。
10.根据权利要求9所述的电子设备,其特征在于,所述电子设备为防火墙或服务器。
CN202211630942.9A 2022-12-19 2022-12-19 基于深度自编码器的http隧道检测方法、装置及设备 Active CN115622814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211630942.9A CN115622814B (zh) 2022-12-19 2022-12-19 基于深度自编码器的http隧道检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211630942.9A CN115622814B (zh) 2022-12-19 2022-12-19 基于深度自编码器的http隧道检测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115622814A CN115622814A (zh) 2023-01-17
CN115622814B true CN115622814B (zh) 2023-03-10

Family

ID=84879911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211630942.9A Active CN115622814B (zh) 2022-12-19 2022-12-19 基于深度自编码器的http隧道检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115622814B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888571A (zh) * 2017-10-26 2018-04-06 江苏省互联网行业管理服务中心 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统
CN110611640A (zh) * 2018-06-15 2019-12-24 成都蓝盾网信科技有限公司 一种基于随机森林的dns协议隐蔽通道检测方法
CN111371776A (zh) * 2020-02-28 2020-07-03 北京邮电大学 Http请求数据的异常检测方法、装置、服务器及存储介质
CN113329023A (zh) * 2021-05-31 2021-08-31 西北大学 一种加密流量恶意性检测模型建立、检测方法及系统
CN114615007A (zh) * 2022-01-13 2022-06-10 中国科学院信息工程研究所 一种基于随机森林的隧道混合流量分类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020530159A (ja) * 2017-08-02 2020-10-15 ストロング フォース アイオーティ ポートフォリオ 2016,エルエルシー 大量のデータセットを使用する産業用のモノのインターネットのデータ収集環境における検出のための方法及びシステム
CN112703457A (zh) * 2018-05-07 2021-04-23 强力物联网投资组合2016有限公司 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统
US11563771B2 (en) * 2019-11-25 2023-01-24 Cisco Technology, Inc. Network telemetry collection with packet metadata filtering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888571A (zh) * 2017-10-26 2018-04-06 江苏省互联网行业管理服务中心 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统
CN110611640A (zh) * 2018-06-15 2019-12-24 成都蓝盾网信科技有限公司 一种基于随机森林的dns协议隐蔽通道检测方法
CN111371776A (zh) * 2020-02-28 2020-07-03 北京邮电大学 Http请求数据的异常检测方法、装置、服务器及存储介质
CN113329023A (zh) * 2021-05-31 2021-08-31 西北大学 一种加密流量恶意性检测模型建立、检测方法及系统
CN114615007A (zh) * 2022-01-13 2022-06-10 中国科学院信息工程研究所 一种基于随机森林的隧道混合流量分类方法及系统

Also Published As

Publication number Publication date
CN115622814A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN108768883B (zh) 一种网络流量识别方法及装置
CN112422531A (zh) 基于CNN和XGBoost的网络流量异常行为检测方法
CN111368289B (zh) 一种恶意软件检测方法和装置
Kozik et al. Pattern extraction algorithm for NetFlow‐based botnet activities detection
CN117220920A (zh) 基于人工智能的防火墙策略管理方法
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法
CN114629718A (zh) 一种基于多模型融合的隐匿恶意行为检测方法
Lin et al. Machine learning with variational autoencoder for imbalanced datasets in intrusion detection
CN114024761B (zh) 网络威胁数据的检测方法、装置、存储介质及电子设备
CN115174212A (zh) 一种利用熵技术甄别网络数据传输是否加密的方法
de Elias et al. A hybrid CNN-LSTM model for IIoT edge privacy-aware intrusion detection
CN112839055B (zh) 面向tls加密流量的网络应用识别方法、装置及电子设备
CN115622814B (zh) 基于深度自编码器的http隧道检测方法、装置及设备
CN114285587B (zh) 域名鉴别方法和装置、域名分类模型的获取方法和装置
CN111092873B (zh) 非对称卷积网络的流量检测模型的训练方法及检测方法
CN115314268B (zh) 基于流量指纹和行为的恶意加密流量检测方法和系统
CN116112287A (zh) 基于时空关联的网络攻击组织追踪方法与装置
Thomas et al. Comparative analysis of dimensionality reduction techniques on datasets for zero-day attack vulnerability
Dahanayaka et al. Robust open-set classification for encrypted traffic fingerprinting
CN116112209A (zh) 漏洞攻击流量检测方法及装置
CN113162904B (zh) 一种基于概率图模型的电力监控系统网络安全告警评估方法
CN115242496A (zh) 一种基于残差网络的Tor加密流量应用行为分类方法及装置
CN113642017A (zh) 一种基于自适应特征分类的加密流量识别方法、存储器和处理器
De Souza et al. Enhancing Automatic Attack Detection through Spectral Decomposition of Network Flows
Parra et al. A Method Based on Deep Learning for the Detection and Characterization of Cybersecurity Incidents in Internet of Things Devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant