CN111585955A

CN111585955A - 一种http请求异常检测方法及系统

Info

Publication number: CN111585955A
Application number: CN202010240561.4A
Authority: CN
Inventors: 王伟平; 顾见欢; 宋虹; 张士庚
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-08-25
Anticipated expiration: 2040-03-31
Also published as: CN111585955B

Abstract

本发明公开了一种HTTP请求异常检测方法及系统，首先对Web访问日志进行预处理，包括数据清洗和URL参数归类，接着利用DBSCAN算法对参数特征进行聚类和异常剔除，接下来对异常剔除后的参数值进行特征泛化和模板的自动抽取，最后依据模板匹配规则对HTTP请求的单个或多个参数值进行模板匹配，若所有参数值与模板均匹配成功则判定该请求为正常，否则为异常。本发明解决了现有Web应用防火墙对未知异常无法检测、更新维护成本高，或误报率高、需要获得标签数据的问题。

Description

一种HTTP请求异常检测方法及系统

技术领域

本发明涉及安全技术领域，具体而言，涉及一种HTTP请求异常检测方法及系统。

背景技术

随着互联网的发展，Web应用服务渗透到社会的各个领域，成为人们工作生活的重要组成部分。Web应用服务给予人们极大便利的同时，Web攻击也迅速增长，成为互联网的重要威胁。攻击手段不断推陈出新，引发网络安全事件层出不穷，不仅造成经济损失，也对社会产生不良影响。

为了抵御Web攻击，传统的解决方案是通过在WAF(Web Application Firewall，Web应用防火墙)上部署误用检测方法，即基于预先定义好的攻击规则集对HTTP(HyperTextTransfer Protocol，超文本传输协议)请求进行拦截或者放行。这种误用检测方法虽然可以低误报地检测大多数攻击，但是无法检测未知异常，而且弱规则容易被攻击者绕过，此外，规则的更新维护需要经验丰富的专家分析制定，对攻击检测有一定的延迟。

为了弥补误用检测的不足，目前研究者们主要关注异常检测方法，该方法构建检测对象的正常行为模型，偏离正常行为模型的行为表示异常行为。异常检测的方法可以检测新的攻击类型，但是误报率相对误用检测方法高，不能识别具体的攻击类型，现有的检测算法多数需要依赖大量攻击样本或者大量的正常样本，而实际采集数据中攻击样本数据远远少于正常数据样本，且很难覆盖全部攻击类型，尤其在不同网站环境下，获得标签数据十分困难。

因此，有必要设计一种新的异常检测方法及系统。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，本发明提供一种HTTP请求异常检测方法及系统，能够对未知异常进行检测，误报率低。

本发明所提供的技术方案为：

一方面，提供一种HTTP请求异常检测方法，包括以下步骤：

步骤1：对Web访问日志进行预处理，包括数据清洗和URL参数归类；其中URL参数归类是指对Web访问日志中的每一条HTTP请求的URL，将其中的访问路径(请求的文件路径)与各个参数分别组合，形成的每一种访问路径与参数名的组合分别作为一个URL参数类别；

步骤2：分别对每一个URL参数类别下的所有参数值进行聚类和异常点识别；

对于Web访问日志中的待测HTTP请求，若其URL中有一个参数值为异常点，则判定该待测HTTP请求异常。

进一步地，所述步骤1中，对Web访问日志进行数据清洗包括：过滤掉Web访问日志中的响应错误的记录、请求方法非GET或者POST的记录、自动化搜索或爬虫的记录、请求文件为静态资源的记录以及恶意IP发起请求的记录。

进一步地，所述步骤2中，对任一URL参数类别下的所有参数值进行聚类和异常点剔除的具体步骤如下：

步骤2.1：对该URL参数类别的所有参数值，分别提取其中每一个参数值的特征，包括类型特征、长度特征、token数特征、编码特征和字符组合特征；

根据参数值的组成，将所有参数值分为Int类型、String类型、Array类型和Sentences类型这4种类型，其中Int类型表示参数值只由数字组成；String类型表示参数值由字母、数字、中文和下划线中的一种或多种组成；Array类型表示参数值中只存在逗号这一种分隔符；Sentences类型表示参数值中存在一种或多种分隔符，且当只存在一种分隔符时该分隔符不是逗号；提取参数值的类型特征，即确定该参数值属于哪一种类型；

参数值的长度特征即该参数值包含的字符数量；

参数值的token数特征即按照token字符分割该参数值得到的子串数目；

参数值的编码特征即该参数值是否为Base64编码；

提取参数值的字符组合特征，即先对参数值进行字符预处理，将一类字符统一成一种表达形式，然后根据设定的窗口大小和步长，通过滑动窗口获取预处理后的参数值的包含的字符组合序列；

步骤2.2：统计该URL参数类别下所有参数值对应的每一种特征组合出现的频数，将对应同一种特征组合的所有参数值合并为一个样本点，相应特征组合出现的频数作为该样本点的统计特征；

步骤2.3：对每一样本点，对其对应的参数值特征进行向量化处理，得到相应的特征向量；

步骤2.4：对样本点集合C，利用改进的DBSCAN算法，对其中的样本点进行聚类，标记离群点，离群点对应的所有参数值均为异常点；

利用改进的DBSCAN算法进行聚类过程中，对于样本点集合C中任意两个样本点，计算其特征向量之间的欧式距离，作为这两个样本点之间的距离；基于计算出的样本点之间的距离，统计样本点p的邻域范围内的样本点数据，对于样本点集合C中的每个样本点p1，若其在样本点p的邻域范围内，则令样本点p的邻域范围内的样本点数量Num＝Num+样本点p1的统计特征。

进一步地，对于实时的(或执行步骤1、2之后Web访问日志中新增的)待测HTTP请求，判定其是否异常的具体步骤为：

首先，基于步骤2中的异常点识别结果，将每一个URL参数类别下的所有参数值中的异常点剔除；

然后，执行以下步骤：

步骤3：对每个URL参数类别，基于其剔除异常点后的参数值进行特征泛化和参数值模板的自动生成；

步骤4：对待测HTTP请求的URL中的参数值进行模板匹配，若其中所有参数值均与对应的参数值模板均匹配成功，则判定该待测HTTP请求为正常，否则为异常。

进一步地，所述步骤3中，对于任一个URL参数类别，进行特征泛化和参数值模板自动生成具体包括以下步骤：

步骤3.1：从该URL参数类别下剔除异常点后的全部参数值中选择一定比例的参数值，对这部分参数值中的每个参数值分别进行Base64编码特征判断，若这部分参数值中大部分参数值均为Base64编码，则确定该URL参数类别参数值模板的编码特征为Base64编码；

步骤3.2：根据该URL参数类别下剔除异常点后的所有参数值中存在的范围最大的参数值类型作为其参数值模板的类型，其中，参数值类型范围的比较是：Int的范围<String的范围<Array的范围<Sentences的范围；

步骤3.3：根据该URL参数类别下剔除异常点后的所有参数值的长度特征的范围确定其参数值模板的长度范围；

步骤3.4：根据该URL参数类别下剔除异常点后的所有参数值token数特征的范围确定其参数值模板的token数范围；

步骤3.5：从该URL参数类别下剔除异常点后的所有参数值的字符组合特征中提取token符号作为其参数值模板的常用token符。

进一步地，所述步骤4中，对待测HTTP请求的URL中任一参数值进行模板匹配包括以下步骤：

步骤4.1：编码类型匹配，若该参数值对应的URL参数类别的参数值模板的编码特征为Base64编码，则首先对该参数值进行Base64解码，若解码成功则转步骤4.2，利用解码后的字符串对参数值进行后续匹配，若不能解码则判定为异常；

步骤4.2：截断异常匹配，若该参数值中出现截断符，则直接判定为异常，否则转步骤4.3；

步骤4.3：token数及token符匹配，若该参数值的token数不超过3，并且其中token符是非攻击探测字符时则判定为正常，否则转步骤4.4；

步骤4.4：按参数值模板匹配，具体为：

若该参数值对应的URL参数类别的参数值模板属于Int或者String类型，那么当该参数值的token数为1则判定为正常，否则判定为异常；

若该参数值对应的URL参数类别的参数值模板属于Array类型，直接判断该参数值中的token字符是否为逗号，若是则判定为正常，否则判定为异常；

若该参数值对应的URL参数类别的参数值模板属于Sentences类型，那么判断该参数值的长度和token数是否在其对应的参数值模板长度范围和token数范围之内，并且其中的token符是否属于其对应的参数值模板常用token字符，如果三者都满足则判定为正常，反之判定为异常；且若该参数值属于Sentences类型，且其本身是URL形式的，则只需要满足其token数在对应的参数值模板token数范围之内则判定为正常，否则判定为异常；

若该参数值经上述步骤判定为异常，则判定其与对应的参数值模板匹配不成功。

另一方面，提供一种HTTP请求异常检测系统，其特征在于，包括以下模块：

预处理模块，用于对Web访问日志进行预处理，包括数据清洗和URL参数归类；其中URL参数归类是指对Web访问日志中的每一条HTTP请求的URL，将其中的访问路径(请求的文件路径)与各个参数分别组合，形成的每一种访问路径与参数名的组合分别作为一个URL参数类别；

异常点识别模块，用于对每一个URL参数类别下的所有参数值进行聚类和异常点识别；

异常检测模块，用于对待测HTTP请求进行异常检测；对于Web访问日志中的待测HTTP请求，若其URL中有一个参数值为异常点，则判定该待测HTTP请求异常。

进一步地，所述系统还包括以下模块：

异常点剔除模块，用于基于异常点识别模块的异常点识别结果，将每一个URL参数类别下的所有参数值中的异常点剔除；

参数值模板生成模块，用于对每个URL参数类别，基于其剔除异常点后的参数值进行特征泛化和参数值模板的自动生成；

模板匹配模块，用于对待测HTTP请求的URL中每个参数值进行模板匹配，若其中所有参数值均与对应的参数值模板均匹配成功，则异常检测模块判定该待测HTTP请求为正常，否则为异常。

另一方面，提供一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现上述的HTTP请求异常检测方法。

另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的HTTP请求异常检测方法。

有益效果：

本发明上述技术方案考虑到Web攻击往往利用异常的参数值来达到攻击目的，由请求参数将攻击载荷传递给Web应用服务器，如SQL注入、XSS攻击等；而绝大多数的正常Web请求参数具有相对固定的模式，发现不符合模式的异常参数，可以直接帮助发现一些隐藏的Web攻击，提供一种HTTP请求异常检测方法，根据Web访问日志，在无需标签数据的情况下利用DBSCAN算法进行高效聚类和异常剔除，利用剔除异常值后的参数值自动化抽取正常的参数值模板，利用模板匹配来发现请求中的异常，进而发现Web攻击，本发明可以应用于Web安全领域，可以方便地部署在Web应用防火墙等中间设备上，用于请求参数的异常检测和拦截，解决了现有Web应用防火墙对未知异常无法检测、更新维护成本高，或误报率高、需要获得标签数据的问题。

附图说明

图1是本发明实施例中的HTTP请求异常检测方法流程图。

图2是本发明实施例中的参数值模板格式定义图。

图3是本发明实施例中的模板匹配的流程图。

图4是本发明实施例中的不同特征处理建模方法消耗时间对比图。

具体实施方式

下面结合附图以及实施例，对本发明进行进一步详细说明。

实施例1：

本实施例公开了一种HTTP请求异常检测方法，包括以下步骤：

步骤1：对Web访问日志进行预处理，包括数据清洗和URL参数归类；

步骤1.1：对Web访问日志进行数据清洗。数据清洗的目的是删除日志中不相关的记录或明显异常的记录。由于本发明主要针对参数异常进行检测，因此对于Web访问日志中的无关数据记录进行清洗。数据清洗具体包含：

(1)过滤掉Web访问日志中的响应错误的记录。对于Web日志而言，可以通过响应状态码字段进行判断，响应状态码4XX表示客户端错误，5XX表示服务器错误，因此过滤掉日志中状态码超过400(包含400)的记录。

(2)过滤掉Web访问日志中请求方法非GET或者POST的记录。用户访问一般是通过GET或者POST请求资源或者提交参数，对于其他的请求方法如OPTIONS，PUT，DELETE，TRACE和CONNECT一般的网站并不提供使用，正常的用户通常也不用，所以根据日志中的请求方法字段过滤掉非GET或者POST的日志记录。

(3)过滤掉Web访问日志中的自动化搜索或爬虫的记录。对于Web日志而言，可以通过User-agent进行判断，将满足自动化搜索或爬虫特征的日志记录过滤掉。自动化搜索或爬虫的特征是User-agent字段包含爬虫关键字Spider(如BaiduSpider、360Spider等)、bot(如GoogleBot、Bingbot等)、yahoo！Slurp、crawler关键字或者有脚本语言关键字如python、Java等。

(4)过滤掉Web访问日志中的请求文件为静态资源的记录。对于Web日志而言，可以通过HTTP请求中URL的后缀名判断，进而过滤掉日志中的静态资源的访问记录。静态资源的后缀名，包括但不限于：bak，ini，css，js，jpg，jpeg，bmp，gif，txt，pdf，rar，doc，docx，ppt，pptx，mp4，avi，mkv，woff，woff2，ttf，png，swf，svg，eot，ico，xml，zip，log，conf，bak，sql，swf，flv，xls，xlsx。

(5)过滤掉Web访问日志中恶意IP发起请求的记录。具体可以将Web应用防火墙检测到的异常用户的IP与Web日志中的访问用户的IP进行匹配，过滤匹配到的日志记录。

步骤1.2：由于每个HTTP请求参数的正常模板往往不同，为了区分构建模板的对象，对清洗后的Web访问日志进行URL参数归类。URL参数归类是指将URL中的访问路径(请求的文件路径)与各个参数分别组合，形成的每一种访问路径与参数名的组合分别作为一个URL参数类别。即一个含有n个参数的URL便会形成n个URL参数类别。

下面举例对Web访问日志中的URL字段进行说明：

system/resource/code/news/click/dynclicks.jsp？clickid＝138763&owner＝1092239805&clicktype＝wbnews

上述URL，通过字符“？”进行分割，system/resource/code/news/click/dynclicks.jsp为访问路径，而clickid＝138763&owner＝1092239805&clicktype＝wbnews表示查询参数，将查询参数通过字符“&”进行分割，分割的每段格式为参数名＝参数值，在本实施例中，参数名为包括：clickid、owner和clicktype，参数值包括：138763、1092239805和wbnews。

其中，形成的URL参数类别有以下三种：

system/resource/code/news/click/dynclicks.jsp？clickid＝

system/resource/code/news/click/dynclicks.jsp？owner＝

system/resource/code/news/click/dynclicks.jsp？clicktype＝

步骤2：利用DBSCAN算法分别对每一个URL参数类别下的所有参数值进行聚类和异常剔除，利用DBSCAN算法对任一URL参数类别下的所有参数值进行聚类和异常剔除的具体步骤如下。

步骤2.1：对该URL参数类别的所有参数值，分别提取其中每一个参数值的特征，包括类型特征、长度特征、token数特征、编码特征和字符组合特征。

(1)提取参数值的类型特征，即确定该参数值属于哪一种类型。根据参数值的组成，将所有参数值分为4种类型，其中，Int型表示参数值只由数字组成，如123456；String类型表示参数值由字母(a-z，A-Z)、数字、中文和下划线中的一种或多种组成，如abc_123，学校通知；Array类型表示参数值中只存在逗号这一种分隔符，如1,2,3,4,5；Sentences类型表示参数值中存在一种或多种分隔符(英文特殊字符)，且当只存在一种分隔符时该分隔符不是逗号，如1/2+1/3；

(2)提取参数值的长度特征，长度特征是指参数值包含的字符数量；

(3)提取参数值的token数特征，token数特征是指按照token字符分割参数值得到的子串数目，其中token字符包括：空白符(如\t、\r、\n、空格)、()、<>、[]、+、逗号、冒号、分号、等号、{}、|、/、\、单引号、引号、#；对于Int型或String类型的参数值，其token数为1；

(4)提取参数值的编码特征，即根据Base64编码字符特征判断，确定该参数值是否为Base64编码，若该参数同时满足以下组成要求：1)字符串长度是4的倍数；2)存在“+”，“/”，“＝”其中至少之一的字符，且如果出现“＝”，“＝”出现在字符串的最后一个或者两个；3)字符串中只存在字母(A-Z，a-z)，数字(0-9)，“+”，“/”，“＝”字符；则该参数的编码特征为Base64编码，否则该参数的编码特征为未编码(Nocoding，未进行Base64编码)；

(5)提取参数值的字符组合特征。在提取字符组合特征之前，首先对参数值进行字符预处理。其中，字符预处理是为了提高建模效率，将一类字符统一成一种表达形式，如表1所示；

表1

其中，分隔符包括：空白符(如\t、\r、\n、空格)、(、)、<、>、[、]、+、逗号、冒号、分号、等号、{、}、|、/、\、单引号、引号、#、％、$、！、～、^、&、*、？；

在字符预处理后，采用N-gram模型来提取参数值的字符组合特征，N取2，即以2为窗口大小，以1为步长，滑动窗口获取参数值的字符组合序列。如参数值“1’空or空1048＝1048”经过字符预处理之后表示为“D’空A空D＝D”，其字符组合序列为：“D’”，“’空”，“空A”，“A空”，“空D”，“D＝”，“＝D”，这里为了表示清楚，使用“空”来表示空格。

步骤2.2：统计该URL参数类别下所有参数值对应的每一种特征组合(即每一种参数值类型特征、长度特征、token数特征、编码特征和字符组合特征构成的组合)出现的频数(次数)，将对应同一种特征组合的所有参数值合并为一个样本点，相应特征组合出现的频数作为该样本点的统计特征；

例如，“Int_4_1_Nocoding_['NE']:564”表示的含义是特征组合“Int_4_1_Nocoding_['DE']”出现的频数是564，其中特征组合表示的含义是参数值的类型是Int类型，即参数值的组成全部为数字，长度为4个字符，token数为1，未编码(Nocoding)，字符组合只有一种，以数字开始和结尾(E为结束符)。

步骤2.3：对每一样本点，对其对应的参数值特征进行向量化处理，得到相应的特征向量，作为模型输入；

将参数值的4种类型分别作为特征向量中的4个特征维度，对于每一个样本点，其对应的参数值属于哪一种类型，则其对应的特征向量中该种类型对应的特征维度的元素为1，另外3种类型对应的特征维度的元素为0；2种编码特征分别对应特征向量中的2个特征维度，对于每一个样本点，其对应的参数值的编码特征为哪一种，则其对应的特征向量中该种编码特征对应的特征维度的元素为1，另外1种编码特征对应的特征维度的元素为0；即对于每一个样本点，对其对应的参数值的类型特征和编码特征使用one-hot编码，即对n个状态进行编码，只有一位有效。

将参数值的长度特征和token数特征分别作为特征向量中的一个维度；对于每一个样本点，其对应的参数值的长度和token数本来是数值，它们为了获取更好的性能，对长度和token数进行标准差标准化；其中，标准差标准化的公式是：y＝(x-μ)/σ，μ是该URL参数类别的所有参数值样本的相应特征(长度/token数)的均值，σ是该URL参数类别的所有参数值样本的相应特征(长度/token数)的标准差；

将参数值中每一种字符组合分别作为特征向量中的一个维度，对于每一个样本点，若对应的参数值存在某种字符组合，则该种字符组合对应的特征维度的元素为1，反之为0；

步骤2.4：对样本点集合C，利用改进的DBSCAN算法，对其中的样本点进行聚类，标记离群点为异常点，离群点对应的所有参数值均为异常点，具体方法为：

改进DBSCAN算法，对于样本点集合C中任意两个样本点，计算其特征向量之间的欧式距离，作为这两个样本点之间的距离；基于计算出的样本点之间的距离，统计样本点p的邻域范围内的样本点数据，对于样本点集合C中的每个样本点p1，若其在样本点p的邻域范围内(与样本点p的距离小于半径r)，则令样本点p的邻域范围内的样本点数量Num＝Num+样本点p1的统计特征；由此实现对样本点进行聚类，标记离群点，离群点对应的所有参数值均为异常点；

在聚类过程中，由于只对非重复的样本点进行距离计算，再利用样本点的统计特征计算核心点邻域范围内的实际样本点数量，避免了重复计算，提高了聚类效率。

实施例2：

如图1所示，本实施例在实施例1的基础上，进一步提供一种能用于对实时的或Web访问日志中新增的待测HTTP请求进行异常检测的方法，具体步骤为：

然后，执行以下步骤：

步骤3：对每个URL参数类别，基于其剔除异常点后的参数值进行特征泛化和参数值模板(正常的参数值模板)的自动生成(抽取)，并存入参数值模板库。图2是根据本发明一个实施例的参数值模板格式图。

首先，从5个特征方面进行定义参数值模板，如图2所示。

参数值模板包含5个部分，由图2所示，在尖括号内以分号间隔，第一项表示参数值模板的类型，如Sentences类型；第二项表示参数值模板的长度范围，(4，16)表示参数值的字符个数在4至16之间；第三项表示参数值模板的token数范围，(1，5)表示使用常用token字符对参数值进行分割得到的子串个数至少为1，最多不超过5；第四项表示参数值模板的编码特征，即其是否进行了Base64编码，Nocoding则表示参数值模板是未编码的；第五项表示参数值模板的常用token字符为“+”。

对于任一个URL参数类别，进行特征泛化和参数值模板自动生成具体包含以下步骤：

步骤3.1：为了避免对其下一个参数值编码特征的误判，造成对其参数值模板的编码特征误判，从该URL参数类别下剔除异常点后的全部参数值中选择一定比例的参数值，对这部分参数值进行Base64编码特征判断，从而判断该URL参数类别的参数值模板是否为Base64编码。确定URL参数类别的参数值模板是否为Base64编码，可以基于该URL参数类别下剔除异常点后的全部参数值进行确定，但是基于选择出的一定比例或者一部分(如根据该URL参数类别下剔除异常点后的全部参数值的在Web日志中出现的顺序，选择前50个参数值)进行确定，可以提高性能，便于工程实现。

具体而言，对这部分参数值进行Base64编码特征判断，即对其中每个参数值分别判断其是否同时满足以下三个条件：1)字符串长度是4的倍数；2)存在“+”，“/”，“＝”其中至少之一的字符，且如果出现“＝”，“＝”出现在字符串的最后一个或者两个；3)字符串中只存在字母(A-Z，a-z)，数字(0-9)，“+”，“/”，“＝”字符。如果这部分参数值中80％的参数值均同时满足以上三个条件，则确定该URL参数类别参数值模板的编码特征为Base64编码，对该URL参数类别下的参数值在URL解码后需要再进行Base64解码。

步骤3.2：根据该URL参数类别下正常的参数值最大范围类型确定其参数值模板的类型；具体而言，将其剔除异常点后的所有参数值中存在的范围最大的参数值类型作为其参数值模板的类型。其中，参数值类型范围的比较是：Int的范围<String的范围<Array的范围<Sentences的范围；

步骤3.3：根据其下正常的参数值长度特征的范围确定其参数值模板的长度范围；具体而言，在其剔除异常点后的所有参数值中，把长度特征的最小值和最大值作为其参数值模板的长度范围。

步骤3.4：根据其下正常的参数值token数特征的范围确定其参数值模板的token数范围；具体而言，在其剔除异常点的所有参数值中，把token数特征的最小值和最大值作为其参数值模板的token数范围。

步骤3.5：从其下正常的参数值的字符组合特征中提取token符号作为其参数值模板的常用token符。具体而言，在其剔除异常点的所有参数值中，将字符组合特征中的token字符提取出来作为其参数值模板的常用token字符。

步骤4：依据模板匹配规则对待测HTTP请求URL的单个或多个参数值进行模板匹配，若其中所有参数值与对应的参数值模板均匹配成功，则判定该待测HTTP请求为正常，否则为异常。图3是根据本实施例的基于模板匹配的异常检测方法的流程图。

具体地，对任一参数值，根据以下6条匹配规则进行模板匹配：

规则1：若其对应的URL参数类别的参数值模板的编码特征为Base64编码，则首先对该参数值进行Base64解码，若解码成功则利用解码后的字符串对参数值进行以下规则的匹配，若不能解码则判定为异常；

规则2：因为参数值可能会通过截断符进行攻击，截断符包含：％00、\x00、0x00，故若参数值中出现截断符，则直接判定为异常；

规则3：若其token数不超过3，并且其中token符是斜杠、空格、加号这三种非攻击探测字符时则表示正常；由统计和观察可知，大多数参数值异常时token数一般大于3，小于或等于3的异常往往是一些常用攻击的探测字符，如SQL注入的探测字符有：引号、#、()，*，分号，单引号，等号，如XSS的探测字符有：<>，冒号，等号，大括号、\n；

规则4：若其对应的URL参数类别的参数值模板属于Int或者String类型，那么当其token数为1即可表示正常，否则为异常；由统计和观察可知，Int型和String型的参数值几乎不会是异常，除非是截断型异常，而针对截断型异常设定了规则2，剩下只要满足这两种类型都具有的token数为1的特征即可说明正常；

规则5：若其对应的URL参数类别的参数值模板属于Array类型，直接判断其中token字符是否是逗号，如果是则表示正常，否则表示异常；

规则6：若其对应的URL参数类别的参数值模板属于Sentences类型，那么判断其长度和token数是否在对应的参数值模板长度范围和token数范围之内，并且其中的token符是否属于对应的参数值模板常用token字符，如果三者都满足则表示正常，反之异常；且当参数值属于Sentences类型，且其本身是URL形式的，则只需要满足其token数在对应的参数值模板token数范围之内即表示正常，否则表示异常；

若参数值经上述规则判定为异常，则判定其与对应的参数值模板匹配不成功。

上述规则的优选匹配顺序为规则1→规则2→规则3→(规则4、规则5和规则6)；按照上述顺序进行匹配，效率最高。

实施例3：

本实施例提供一种HTTP请求异常检测系统，包括以下模块：

实施例4：

本实施例在实施例3的基础上，还包括以下模块：

模板匹配模块，用于对实时的或Web访问日志中新增的待测HTTP请求的URL中每个参数值进行模板匹配，若其中所有参数值均与对应的参数值模板均匹配成功，则异常检测模块判定该待测HTTP请求为正常，否则为异常。

所述系统中各个模块的工作原理参见上述实施例1～2中各个相应步骤的具体实现方式。

实施例5：

本实施例提供一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器实现如实施例1～2中任一项所述的方法。

实施例6：

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如实施例1～2中任一项所述的方法。

实验验证：

(1)验证本发明所述技术方案的有效性。

测试环境：CPU为Intel Core i7-7700处理器，内存128GB，Windows操作系统。

测试数据：通过关键字匹配和人工验证对来自某网络安全公司提供的四个网站访问日志进行标记，本部分所定义的异常是参数中包含一定的攻击关键字或者参数中不包含攻击关键字，但是存在一些字符的试探或者利用编码混淆方式隐藏参数，与正常参数值模板存在明显差异。四个网站日志的详细信息如表2所示。

表2

在表3所示的四个Web日志数据集上测试了本发明异常检测方法的有效性。本发明基于参数模板对HTTP请求进行异常检测(简称模板检测)，在自动化抽取模板的过程中主要经过两步：第一，基于DBSCAN算法确定样本点的簇标签和剔除异常样本点(简称DBSCAN-based)，第二，根据剔除异常样本点后的参数值自动化抽取正常模板。表4说明了本发明中DBSCAN-based和模板检测方法的测试结果。由于本发明无需标签数据，因此本发明实施中利用DBSCAN-based来自动确定样本点的标签。

表3

从表3中可以看出，本发明中DBSCAN-based和模板检测方法的测试效果都很好，误报率很低。

(2)验证特征统计处理(步骤2.2)对提高DBSCAN聚类效率的效果。

通过对比不同数量的参数值样本在特征经过统计处理和不经过统计处理建模耗费的时间结果，如图4所示，横坐标是样本数，纵坐标是时间。

由图4可以明显看出在相同样本数情况下，经过统计处理后建模所耗费的总时间远远小于不经统计处理建模耗费的时间，因为参数往往具有相对固定的模式，其特征组合存在重复，经过统计合并处理之后，使得输入矩阵大大减小，消耗的内存自然也会更少，计算相似度的时间也会随之减少。随着样本数的增加，统计处理后特征建模的时间不会线性增长，有助于大数据环境下的高效建模。

Claims

1.一种HTTP请求异常检测方法，其特征在于，包括以下步骤：

步骤1：对Web访问日志进行预处理，包括数据清洗和URL参数归类；其中URL参数归类是指对Web访问日志中的每一条HTTP请求的URL，将其中的访问路径与各个参数分别组合，形成的每一种访问路径与参数名的组合分别作为一个URL参数类别；

2.根据权利要求1所述的HTTP请求异常检测方法，其特征在于，所述步骤1中，对Web访问日志进行数据清洗包括：过滤掉Web访问日志中的响应错误的记录、请求方法非GET或者POST的记录、自动化搜索或爬虫的记录、请求文件为静态资源的记录以及恶意IP发起请求的记录。

3.根据权利要求1所述的HTTP请求异常检测方法，其特征在于，所述步骤2中，对任一URL参数类别下的所有参数值进行聚类和异常点剔除的具体步骤如下：

参数值的长度特征即该参数值包含的字符数量；

参数值的编码特征即该参数值是否为Base64编码；

4.根据权利要求1所述的HTTP请求异常检测方法，其特征在于，对于实时的待测HTTP请求，判定其是否异常的具体步骤为：

然后，执行以下步骤：

5.根据权利要求1所述的HTTP请求异常检测方法，其特征在于，所述步骤3中，对于任一个URL参数类别，进行特征泛化和参数值模板自动生成具体包括以下步骤：

6.根据权利要求4所述的HTTP请求异常检测方法，其特征在于，所述步骤4中，对待测HTTP请求的URL中任一参数值进行模板匹配包括以下步骤：

步骤4.4：按参数值模板匹配，具体为：

7.一种HTTP请求异常检测系统，其特征在于，包括以下模块：

预处理模块，用于对Web访问日志进行预处理，包括数据清洗和URL参数归类；其中URL参数归类是指对Web访问日志中的每一条HTTP请求的URL，将其中的访问路径与各个参数分别组合，形成的每一种访问路径与参数名的组合分别作为一个URL参数类别；

8.根据权利要求7所述的HTTP请求异常检测系统，其特征在于，还包括以下模块：

9.一种电子设备，包括存储器及处理器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器实现如权利要求1～6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～6中任一项所述的方法。