CN115361242B - 一种基于多维特征网络的Web攻击检测方法 - Google Patents
一种基于多维特征网络的Web攻击检测方法 Download PDFInfo
- Publication number
- CN115361242B CN115361242B CN202211300460.7A CN202211300460A CN115361242B CN 115361242 B CN115361242 B CN 115361242B CN 202211300460 A CN202211300460 A CN 202211300460A CN 115361242 B CN115361242 B CN 115361242B
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- time
- dimension
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多维特征网络的Web攻击检测方法,对HTTP请求进行文本和时间上的分离与处理,得到HTTP文本内容数据和时间段内请求数据文档;并对HTTP文本内容数据和时间段内请求数据文档分别进行文本维度和时间维度的特征提取;在文本维度上根据局部特征和全局特征得到文本维度特征表示,弥补了卷积网络全局特征提取的弱势方面;在时间维度上对时间段内请求数据文档进行特征提取,进而得到时间维度特征表示,扩大了应用范围与尺度,提到了攻击检测的广度和深度;最后,根据文本维度特征表示和时间维度特征表示,得到攻击检测结果,进一步提高了检测的精度。
Description
技术领域
本发明涉及Web攻击检测技术领域,具体涉及一种基于多维特征网络的Web攻击检测方法。
背景技术
目前现有的Web攻击检测技术主要是基于卷积网络或者注意力机制的深度学习方法等等。它往往是根据HTTP文本做简单序列化对HTTP文本进行表示,并在此基础上采用传统的模型(如卷积网络)对其进行分类,由于传统方法未考虑HTTP请求的时间效应,这种方式不能检测如URL集中爆破,爬虫的访问,慢速请求,攻击探测等攻击,而在Web攻击检测任务中,这种攻击类型的检测也是影响模型精度的关键,因此,使用时间维度特征融合文本维度特征来设计模型检测这类对时间效应敏感的攻击更为准确。
目前将时间维度特征用于Web攻击检测任务上的实践不多,这主要是因为时间维度特征的提取需要根据经验人为定义,在实际的Web服务使用多维度网络融合还存在以下三个问题:
(1)传统的HTTP请求文本数据的特征提取一般基于卷积网络或者注意力机制的深度学习方法等,通过深度学习模型的训练自动提取依赖的局部特征。然而,仅使用这种方式虽然对局部特征的提取非常完整,但是对于文本全局特征的提取较少,例如异常字段出现的次数,User-Agent字段中的请求环境,以及Cookie中携带信息等内容特征等HTTP文本的全局特征等,影响HTTP请求文本数据特征的完整性,进而影响模型精度。
(2)以往web攻击检测方法很少有考虑在时间维度进行特征的提取,只专注于HTTP请求文本数据的特征提取,这种方法虽然也能识别到一些简单的攻击,例如SQL注入,XSS攻击等,但是这类方法没有时间概念,对于有些攻击在内容形式上与正常请求无异,但是在时间上的异常行为导致的攻击无法识别,例如URL集中爆破,爬虫的访问,慢速请求,攻击探测等攻击,因此,可以说模型在时间维度上的检测几乎为零,影响模型检测的广度和深度。
(3)以往多维度的融合方式主要有两种,特征级融合和决策级融合。然而,由于Web攻击检测的特殊性以及多个特征之间的耦合性,这两种方式都不符合我们的要求,采用特征级融合会影响文本维度特征和时间维度特征的权重,因为在检测时这两种特征的重要性肯定是不同的,而采用决策级融合的方式时,两个分类器对两种特征做分类是不准确的,文本维度特征和时间维度特征结合的数据是否为攻击是已经标记好的,单一特征进行分类无法保证数据的正确性。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的缺陷,从而提供一种基于多维特征网络的Web攻击检测方法。
本发明提供了一种基于多维特征网络的Web攻击检测方法,包括:
S1:获取HTTP请求的数据,将数据进行分离得到HTTP文本数据和HTTP时间维度数据;
S2:根据HTTP文本数据得到HTTP文本内容数据;根据HTTP时间维度数据得到时间段内请求数据文档;
S3:对HTTP文本内容数据进行局部特征提取,得到文本局部特征;对HTTP文本内容数据进行全局特征提取,得到文本全局特征;根据文本局部特征和文本全局特征,得到文本维度特征表示;
对时间段内请求数据文档进行特征提取,得到时间特征;将多种时间特征进行拼接,得到原始的时间维度特征表示;根据原始的时间维度特征表示,得到时间维度特征表示;
S4:根据文本维度特征表示和时间维度特征表示,得到攻击检测结果;攻击检测结果为与HTTP请求对应的攻击检测结果。
优选的,S1中,数据包括请求数据和请求文本;请求文本即为HTTP文本数据;请求数据包括请求触发的时间;以当前的请求触发的时间为基点,提取设定时间范围内的请求数据作为HTTP时间维度数据。
优选的,S2中,得到HTTP文本内容数据和时间段内请求数据文档的过程为:
对HTTP文本数据进行URL解码处理,对解码处理后的所述HTTP文本数据进行规则替换,得到HTTP文本内容数据;
对HTTP时间维度数据进行URL数据筛选,将HTTP时间维度数据与当前的HTTP请求进行匹配,得到当前的HTTP请求在设定时间范围内的所有HTTP时间维度数据的文档,该文档即为时间段请求数据文档。
优选的,S3中,得到文本局部特征的过程为:
步骤2:对词向量表示进行卷积运算,得到输出结果;计算公式为:
步骤3:将多个输出结果进行拼接,得到文本局部特征;计算公式为:
优选的,S3中,得到文本全局特征的过程为:
步骤1:从以往的攻击检测经验中获取全局特征名称,全局特征名称包括文本文件字段的特征、用户代理字段特征以及额外信息特征;
步骤2:将不同的全局特征名称进行拼接得到全局特征表示,全局特征表示记为:E;计算公式为:
步骤3:将全局特征表示输入至第一全连接层,输出文本全局特征;计算公式为:
优选的,S3中,采用特征融合方式将文本局部特征与文本全局特征进行融合,得到文本维度特征表示;计算公式为:
优选的,时间段内请求数据文档包括时间轴;时间特征包括访问次数特征、无效访问占比特征以及超时次数特征。
优选的,S3中,得到时间维度特征表示的过程为:
步骤1:设定间隔时间,并以当前时刻为基准;
在设定时间范围内,以间隔时间划定HTTP请求访问次数,得到访问次数特征;
在设定时间范围内,以间隔时间划定无效路由与可访问路由的占比,得到无效访问占比特征;
在设定时间范围内,统计HTTP请求超时的次数,得到超时次数特征;
步骤2:将访问次数特征、无效访问占比特征以及超时次数特征进行拼接,得到原始的时间维度特征表示;计算公式为:
步骤3:将原始的时间维度特征表示输入至第二全连接层,输出时间维度特征表示;计算公式为:
优选的,S4中,得到攻击检测结果的过程为:
步骤1:将文本维度特征表示与时间维度特征表示进行融合,得到融合特征;计算公式为:
步骤2:将融合特征输入至第三连接层分类器,输出攻击检测结果;计算公式为:
优选的,设定时间范围设定为以当前时刻为0时刻的-30s至30s;间隔时间为1s。
本发明技术方案,具有如下优点:对HTTP请求进行文本和时间上的分离与处理,得到HTTP文本内容数据和时间段内请求数据文档;并对HTTP文本内容数据和时间段内请求数据文档分别进行文本维度和时间维度的特征提取;在文本维度上根据局部特征和全局特征得到文本维度特征表示,弥补了卷积网络全局特征提取的弱势方面;在时间维度上对时间段内请求数据文档进行特征提取,进而得到时间维度特征表示,扩大了应用范围与尺度,提到了攻击检测的广度和深度;最后,根据文本维度特征表示和时间维度特征表示,得到攻击检测结果,进一步提高了检测的精度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中一种基于多维特征网络的Web攻击检测方法的流程图。
图2为本发明实施中得到HTTP文本内容数据和时间段内请求数据文档的流程图。
图3为本发明实施中得到文本维度特征表示的流程图。
图4为本发明实施中得到时间维度特征表示的流程图。
图5为本发明实施中得到攻击检测结果的流程图。
图6为本发明实施中方法运行时的示例图。
图7为本发明实施中运行结果示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
如图1所示,本实施例提供了一种基于多维特征网络的Web攻击检测方法,该方法包括以下步骤:
S1:获取HTTP请求的数据,将数据进行分离得到HTTP文本数据和HTTP时间维度数据;
具体的,传统的HTTP请求的数据处理一般只提取了URL中的内容特征,根据内容来判断是否进行了攻击,例如SQL注入攻击以及XSS攻击等,在内容特征上可以判断出是否该HTTP请求是否是正常请求,然而对于一些URL集中爆破,爬虫等从内容上无法判断的异常请求无法进行识别,因此,为了全面的对web攻击进行检测,需要进行时间维度的特征提取。
在本实施例中,数据包括请求数据和请求文本;请求文本即为HTTP文本数据;请求数据包括请求触发的时间;以当前的请求触发的时间为基点,提取设定时间范围内的请求数据作为HTTP时间维度数据。
在本实施例中,设定时间范围设定为以当前时刻为0时刻的-30s至30s。
S2:根据HTTP文本数据得到HTTP文本内容数据;根据HTTP时间维度数据得到时间段内请求数据文档;
具体的,如图2所示,得到HTTP文本内容数据和时间段内请求数据文档的过程为:
对HTTP文本数据进行URL解码处理,对解码处理后的所述HTTP文本数据进行规则替换,得到HTTP文本内容数据。由于原始HTTP请求数据可能被攻击者经过多次编码进行发送,以绕过编码识别,因此需要进行URL解码处理,在本实施例中采用两次应用层通用URL解码操作进行解码。由于不同网站的HTTP请求数据特征相差明显,在训练时模型会将这种差别较大的特征认为是判定为Web攻击的特征,造成噪声影响模型精度,因此需要规则替换。通过对URL解码之后的数据进行人工分析,对requests和body字段进行正常网址的规则替换操作,过滤掉不同网站间的特征影响,减小噪声对模型精度的影响。
在本实施例中,URL解码主要是采用python中的urllib库函数unquote对全部的HTTP文本数据进行解码操作。规则替换主要采用对已知的正常文本进行规则替换,如“WWW.”、“http”等字符可直接用空字符进行替换。
对HTTP时间维度数据进行URL数据筛选,将HTTP时间维度数据与当前的HTTP请求进行匹配,得到当前的HTTP请求在设定时间范围内的所有HTTP时间维度数据的文档,该文档即为时间段请求数据文档。
本实施例提供的这种方法相比于传统的数据处理方式,加入了对HTTP原始数据的两个维度数据的分离和对时间维度数据的处理,既能对时间维度的特征进行提取,又能保留对HTTP文本数据的处理,对方法在URL爆破和爬虫访问的检测方面有较大提升。
S3:对HTTP文本内容数据进行局部特征提取,得到文本局部特征;对HTTP文本内容数据进行全局特征提取,得到文本全局特征;根据文本局部特征和文本全局特征,得到文本维度特征表示;
目前现有的文本特征提取主要是基于卷积网络或者注意力机制的深度学习方法等,通过深度学习模型的训练自动提取依赖的特征。这种方式一般是采用自然语言处理的思想,首先根据HTTP文本做序列化对HTTP文本进行表示,然后在此基础上采用传统的模型(如卷积网络)对其进行编码,最后采用一个全连接层进行分类。但是由于卷积网络是在文本的局部上做特征提取,对于整个文本数据的全局特征提取较少,如异常字段出现的次数,User-Agent字段中的请求环境,以及Cookie中携带信息等内容特征,因此,使用卷积局部特征和全局特征融合的方法来表示这两种信息的融合更为准确。在本实施例中使用卷积文本编码器对HTTP文本内容数据进行卷积局部特征提取。本实施例采用文本卷积网络模型作为文本编码器;它将卷积神经网络CNN应用到文本中,利用多个不同大小的核函数来提取句子中的关键信息,从而能够更好的捕捉局部特征。为了使模型具备对未知攻击的检测能力,本实施例采用字符作为HTTP文本内容数据的表示方式,它能随时映射任何未知数据,对提高模型的泛化性有很大作用。
具体的,如图3所示,得到文本维度特征表示的整个过程如下:
得到文本局部特征的过程为:
步骤1:设定词汇表;从UTF-8字符集中取前1024个常用字符作为词汇表;该词汇表能够涵盖HTTP文本内容数据中90%以上的字符;然后,采用pytorch库中的嵌入层对词汇表中的字符进行词向量矩阵的随机初始化处理;将处理后的词汇表中的字符映射到HTTP文本内容数据中,得到词向量表示,词向量表示记为:;计算公式为:
步骤2:对词向量表示进行卷积运算,得到输出结果;计算公式为:
步骤3:将多个输出结果进行拼接,得到文本局部特征;计算公式为:
其中,C表示文本局部特征;表示/>函数;/>表示第1个卷积层的输出结果;/>表示第2个卷积层的输出结果;/>表示第n个卷积层的输出结果;n为文本局部特征的维度,在本实施例中n为3;/>表示拼接运算符。/>函数按照一定的概率将网络中的神经元暂时丢弃,防止网络过拟合。
本实施例提供的这种方法相比于传统的卷积网络,采用多个卷积核进行局部特征的提取,提高了模型局部特征提取的准确性,能够更好的捕捉局部特征,提高了模型检测的精度。
目前web攻击检测一般都是只依赖局部特征提取来做的,容易造成全局信息丢失,影响最终的检测结果,因此,本实施例使用全局特征提取的方法来弥补局部特征的缺陷。这种方法通过采用全局信息的特征提取,在经过一个全连接层,得到HTTP文本内容数据的全局特征表示。
具体的,得到文本全局特征的过程为:
步骤1:从以往的攻击检测经验中获取全局特征名称,全局特征名称包括文本文件字段的特征(Cookie字段的特征)、用户代理字段特征(User-Agent字段特征)以及额外信息特征;
Cookie字段的特征包括:Cookie字段长度、Cookie字段中是否含有攻击字段等;因为Cookie是全局特征的一个重要方面,而且Cookie中包含攻击字段的概率也很大,因此将其作为一个全局特征进行提取。
Header字段中User-Agent字段长度,其参数量长度等;User-Agent包含对HTTP请求环境的信息,作为全局特征进行提取有助于模型的准确率的提升。
HTTP文本内容数据中Header参数的数量、数字的数量、字符的数量以及特殊字符数量等都可作为全局特征进行提取。
步骤2:将不同的全局特征名称进行拼接得到全局特征表示,全局特征表示记为:E;计算公式为:
步骤3:将全局特征表示输入至第一全连接层,输出文本全局特征;计算公式为:
该过程相比于未使用全局信息的卷积网络,提取在卷积局部特征上无法表示的一些全局特征,能够增加文本信息量,对于模型的性能和精度都有提升。
而后,采用特征融合方式将文本局部特征与文本全局特征进行融合,得到文本维度特征表示;计算公式为:
本实施例提供的这种方法对HTTP文本内容数据在文本维度上进行语义的全局特征提取,并与卷积网络提取的局部特征进行融合,弥补了文本卷积网络全局特征提取较弱的特征,提高了模型的表达能力。
对时间段内请求数据文档进行特征提取,得到时间特征;将多种时间特征进行拼接,得到原始的时间维度特征表示;根据原始的时间维度特征表示,得到时间维度特征表示;
以往web攻击检测方法很少有考虑在时间维度进行特征的提取,只专注于HTTP请求文本内容数据的特征提取,但是由于有些攻击在内容形式上与正常请求无异,在时间上的异常行为导致人为可以确定为异常请求,例如URL集中爆破,爬虫的访问,慢速请求,攻击探测等攻击或者异常行为。因此,在本实施例汇总将时间维度的特征应用到web攻击检测方法的设计中,扩大了模型的应用范围和尺度,提高了模型的表达能力。
具体的,时间段内请求数据文档包括时间轴;时间特征包括访问次数特征、无效访问占比特征以及超时次数特征。
如图4所示,得到时间维度特征表示的过程为:
步骤1:设定间隔时间,并以当前时刻为基准(以当前时刻为0时刻);
在设定时间范围内(在-30s至30s之间),以间隔时间(1s)划定HTTP请求访问次数Y,得到访问次数特征;初始值Y(-30)=0,依次获取Y(-29)、Y(-28)、…、Y(30)作为一个特征,作为访问次数特征(RT(request time))。该访问次数特征主要通过一段时间内的访问数量来描述URL是否是集中访问还是分散访问。
在设定时间范围内(在-30s至30s之间),以间隔时间(1s)划定无效路由的URL与可访问路由的URL的占比,得到无效访问占比特征(IR(invalid request));该无效访问占比特征主要是通过无效路由的占比来描述HTTP请求是否在胡乱构造URL的请求,因为正常用户是通过点击链接来进行访问的,无效请求比较少。
在设定时间范围内(在-30s至30s之间),统计HTTP请求超时的次数,得到超时次数特征(OT(overload time));该超时次数特征主要是为了描述慢速请求的特征。在本实施例中,服务器信息文档中设置有超时字段,阈值在服务器中进行设置,故此处可直接统计HTTP请求超时的次数。
步骤2:将访问次数特征、无效访问占比特征以及超时次数特征进行拼接,得到原始的时间维度特征表示;计算公式为:
步骤3:将原始的时间维度特征表示输入至第二全连接层,输出时间维度特征表示;计算公式为:
在本实施例中,间隔时间设定为1s。
本实施例提供的这种方法中时间特征的提取有利于检测多种文本内容特征检测不到的攻击类型,提高检测的准确性和广泛性;其次,对比以往Web攻击检测的单一形式,本实施例提供了时间维度的特征检测,对时间段内请求数据文档在时间维度上进行提取,提取出例如访问次数、无效访问占比以及超时次数等特征,根据这些时间维度的特征可以进一步扩大模型对Web攻击检测的范围和尺度,提高了模型的精度;并且本实施例中时间维度的特征提取只用了浅层的网络架构,大大提高了模型的效率。
S4:根据文本维度特征表示和时间维度特征表示,得到攻击检测结果;攻击检测结果为与HTTP请求对应的攻击检测结果。
以往多维度的融合方式主要有两种,特征级融合和决策级融合,特征级融合主要是具有相同维度的特征表示之间直接拼接或者相加,决策级融合是两种特征表示分别发送到两个分类器,两个分类器独立进行训练,然后分配不同的概率或权重对分类结果进行决策融合。然而,由于Web攻击检测的特殊性以及多个特征之间的耦合性,在本实施例中既需要单一分类器进行分类,又需要动态概率进行决策融合。因此,本实施例提供了一种特殊的决策融合器,它采用单一分类器进行分类,并使用动态概率进行决策融合。
具体的,如图5所示,得到攻击检测结果的过程为:
步骤1:将文本维度特征表示与时间维度特征表示进行决策级融合,得到融合特征;计算公式为:
步骤2:将融合特征输入至第三连接层分类器,输出攻击检测结果;计算公式为:
本实施例提供的这种方法将文本维度特征表示与时间维度特征表示采用特殊的决策融合器(动态概率)进行融合,该决策融合器采用动态权重对两种维度上的特征进行重要性的分配,保留了决策融合的优越性;其次,对比传统的决策融合策略,本实施例只采用单一分类器进行分类,保留了特征级融合策略的优越性,在反向传播时更好的保留了融合特征表示的优势,提高了模型精度,并且适应多种数据的需求,提高了模型的适用性。
如图6所示,为本实施例根据基于多维特征网络的Web攻击检测方法进行Web攻击检测的运行示例图。如图7所示,提供了运行的结果;其中,报文1和报文3表示该HTTP请求为正常请求,报文2表示该HTTP请求为异常请求;由图7可知,异常的HTTP请求在通过模型输出后,将被拦截;而正常的HTTP请求在通过模型输出后,将予以通过。本实施例提供的这种方法经实验测试表明,能够在Web攻击检测任务的实际使用中取得较好的效果。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (7)
1.一种基于多维特征网络的Web攻击检测方法,其特征在于,包括:
S1:获取HTTP请求的数据,将所述数据进行分离得到HTTP文本数据和HTTP时间维度数据;
S2:根据所述HTTP文本数据得到HTTP文本内容数据;根据所述HTTP时间维度数据得到时间段内请求数据文档;
S3:对所述HTTP文本内容数据进行局部特征提取,得到文本局部特征;对所述HTTP文本内容数据进行全局特征提取,得到文本全局特征;根据所述文本局部特征和所述文本全局特征,得到文本维度特征表示;
采用特征融合方式将所述文本局部特征与所述文本全局特征进行融合,得到所述文本维度特征表示;计算公式为:
对所述时间段内请求数据文档进行特征提取,得到时间特征;将多种所述时间特征进行拼接,得到原始的时间维度特征表示;根据所述原始的时间维度特征表示,得到时间维度特征表示;
所述时间段内请求数据文档包括时间轴;所述时间特征包括访问次数特征、无效访问占比特征以及超时次数特征;
得到所述时间维度特征表示的过程为:
步骤1:设定间隔时间,并以当前时刻为基准;
在设定时间范围内,以所述间隔时间划定HTTP请求访问次数,得到访问次数特征;
在设定时间范围内,以所述间隔时间划定无效路由与可访问路由的占比,得到无效访问占比特征;
在设定时间范围内,统计HTTP请求超时的次数,得到超时次数特征;
步骤2:将所述访问次数特征、所述无效访问占比特征以及所述超时次数特征进行拼接,得到所述原始的时间维度特征表示;计算公式为:
步骤3:将所述原始的时间维度特征表示输入至第二全连接层,输出所述时间维度特征表示;计算公式为:
S4:根据所述文本维度特征表示和所述时间维度特征表示,得到攻击检测结果;所述攻击检测结果为与HTTP请求对应的攻击检测结果。
2.根据权利要求1所述的一种基于多维特征网络的Web攻击检测方法,其特征在于,S1中,所述数据包括请求数据和请求文本;所述请求文本即为HTTP文本数据;所述请求数据包括请求触发的时间;以当前的所述请求触发的时间为基点,提取设定时间范围内的所述请求数据作为HTTP时间维度数据。
3.根据权利要求2所述的一种基于多维特征网络的Web攻击检测方法,其特征在于,S2中,得到所述HTTP文本内容数据和所述时间段内请求数据文档的过程为:
对所述HTTP文本数据进行URL解码处理,对解码处理后的所述HTTP文本数据进行规则替换,得到所述HTTP文本内容数据;
对所述HTTP时间维度数据进行URL数据筛选,将所述HTTP时间维度数据与当前的HTTP请求进行匹配,得到当前的HTTP请求在设定时间范围内的所有HTTP时间维度数据的文档,该文档即为所述时间段请求数据文档。
4.根据权利要求3所述的一种基于多维特征网络的Web攻击检测方法,其特征在于,S3中,得到所述文本局部特征的过程为:
步骤1:设定词汇表;采用pytorch库中的嵌入层对词汇表中的字符进行词向量矩阵的随机初始化处理;将处理后的词汇表中的字符映射到所述HTTP文本内容数据中,得到词向量表示,所述词向量表示记为:;计算公式为:
步骤2:对所述词向量表示进行卷积运算,得到输出结果;计算公式为:
步骤3:将多个所述输出结果进行拼接,得到文本局部特征;计算公式为:
5.根据权利要求4所述的一种基于多维特征网络的Web攻击检测方法,其特征在于,S3中,得到所述文本全局特征的过程为:
步骤1:从以往的攻击检测经验中获取全局特征名称,所述全局特征名称包括文本文件字段的特征、用户代理字段特征以及额外信息特征;
步骤2:将不同的所述全局特征名称进行拼接得到全局特征表示,所述全局特征表示记为:E;计算公式为:
步骤3:将所述全局特征表示输入至第一全连接层,输出所述文本全局特征;计算公式为:
7.根据权利要求6所述的一种基于多维特征网络的Web攻击检测方法,其特征在于,所述设定时间范围设定为以当前时刻为0时刻的-30s至30s;所述间隔时间为1s。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211300460.7A CN115361242B (zh) | 2022-10-24 | 2022-10-24 | 一种基于多维特征网络的Web攻击检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211300460.7A CN115361242B (zh) | 2022-10-24 | 2022-10-24 | 一种基于多维特征网络的Web攻击检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115361242A CN115361242A (zh) | 2022-11-18 |
CN115361242B true CN115361242B (zh) | 2023-03-24 |
Family
ID=84008530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211300460.7A Active CN115361242B (zh) | 2022-10-24 | 2022-10-24 | 一种基于多维特征网络的Web攻击检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115361242B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107888571A (zh) * | 2017-10-26 | 2018-04-06 | 江苏省互联网行业管理服务中心 | 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统 |
CN107920062A (zh) * | 2017-11-03 | 2018-04-17 | 北京知道创宇信息技术有限公司 | 一种业务逻辑攻击检测模型的构建方法和计算设备 |
CN111371806A (zh) * | 2020-03-18 | 2020-07-03 | 北京邮电大学 | 一种Web攻击检测方法及装置 |
CN114448661A (zh) * | 2021-12-16 | 2022-05-06 | 北京邮电大学 | 慢速拒绝服务攻击检测方法及相关设备 |
CN114969351A (zh) * | 2022-08-01 | 2022-08-30 | 长沙市智为信息技术有限公司 | 一种基于超图聚合网络的Web攻击检测方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7752662B2 (en) * | 2004-02-20 | 2010-07-06 | Imperva, Inc. | Method and apparatus for high-speed detection and blocking of zero day worm attacks |
US10333958B2 (en) * | 2016-07-19 | 2019-06-25 | Cisco Technology, Inc. | Multi-dimensional system anomaly detection |
CN107483512B (zh) * | 2017-10-11 | 2019-12-10 | 安徽大学 | 基于时间特征的SDN控制器DDoS检测与防御方法 |
CN109960729B (zh) * | 2019-03-28 | 2022-01-18 | 国家计算机网络与信息安全管理中心 | Http恶意流量的检测方法及系统 |
KR102046789B1 (ko) * | 2019-04-05 | 2019-11-20 | 호서대학교 산학협력단 | 웹 어플리케이션에 대한 딥러닝 기반의 침입탐지 방법, 시스템 및 컴퓨터 프로그램 |
CN111131303A (zh) * | 2019-12-31 | 2020-05-08 | 苏宁云计算有限公司 | 一种请求数据的校验系统和方法 |
CN111562996B (zh) * | 2020-04-11 | 2021-11-23 | 北京交通大学 | 一种关键性能指标数据的时序异常检测方法及系统 |
CN111970309B (zh) * | 2020-10-20 | 2021-02-02 | 南京理工大学 | 基于Spark车联网组合深度学习入侵检测方法及系统 |
CN112199677A (zh) * | 2020-11-03 | 2021-01-08 | 安徽中安睿御科技有限公司 | 一种数据处理方法和装置 |
CN114760098A (zh) * | 2022-03-16 | 2022-07-15 | 南京邮电大学 | 一种基于cnn-gru的电网虚假数据注入检测方法及装置 |
CN114745168A (zh) * | 2022-04-03 | 2022-07-12 | 福建福清核电有限公司 | 云平台入口实时流量复制方法、系统和电子设备 |
CN114861082A (zh) * | 2022-05-24 | 2022-08-05 | 南京优慧信安科技有限公司 | 一种基于多维度语义表示的攻击性评论检测方法 |
-
2022
- 2022-10-24 CN CN202211300460.7A patent/CN115361242B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107888571A (zh) * | 2017-10-26 | 2018-04-06 | 江苏省互联网行业管理服务中心 | 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统 |
CN107920062A (zh) * | 2017-11-03 | 2018-04-17 | 北京知道创宇信息技术有限公司 | 一种业务逻辑攻击检测模型的构建方法和计算设备 |
CN111371806A (zh) * | 2020-03-18 | 2020-07-03 | 北京邮电大学 | 一种Web攻击检测方法及装置 |
CN114448661A (zh) * | 2021-12-16 | 2022-05-06 | 北京邮电大学 | 慢速拒绝服务攻击检测方法及相关设备 |
CN114969351A (zh) * | 2022-08-01 | 2022-08-30 | 长沙市智为信息技术有限公司 | 一种基于超图聚合网络的Web攻击检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115361242A (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
CN111371806B (zh) | 一种Web攻击检测方法及装置 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
US10873618B1 (en) | System and method to dynamically generate a set of API endpoints | |
WO2022143511A1 (zh) | 一种恶意流量识别方法及相关装置 | |
CN112241456B (zh) | 基于关系网络与注意力机制的假新闻预测方法 | |
US11888874B2 (en) | Label guided unsupervised learning based network-level application signature generation | |
CN107679075B (zh) | 网络监控方法和设备 | |
CN111783903A (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
US20150104065A1 (en) | Apparatus and method for recognizing object in image | |
CN113779429A (zh) | 交通拥堵态势预测方法、装置、设备及存储介质 | |
CN112492606A (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
CN116722992A (zh) | 一种基于多模态融合的诈骗网站识别方法及装置 | |
CN115442075A (zh) | 一种基于异质图传播网络的恶意域名检测方法和系统 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
Krokos et al. | A look into twitter hashtag discovery and generation | |
CN115361242B (zh) | 一种基于多维特征网络的Web攻击检测方法 | |
CN111314109A (zh) | 一种基于弱密钥的大规模物联网设备固件识别方法 | |
CN108280772B (zh) | 社交网络中基于事件关联的故事脉络生成方法 | |
CN115546496A (zh) | 一种主动探测场景下的物联网设备识别方法及装置 | |
CN114022889A (zh) | 恶意文档的检测方法及装置 | |
KR102405799B1 (ko) | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 | |
CN114579876A (zh) | 虚假信息检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |