CN110061960A

CN110061960A - Waf规则自学习系统

Info

Publication number: CN110061960A
Application number: CN201910154752.6A
Authority: CN
Inventors: 范毅波; 何建锋; 刘亚轩
Original assignee: Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Current assignee: Jiepu Network Science & Technology Co Ltd Xi'an Jiaoda
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-07-26

Abstract

本发明公开了一种WAF规则自学习系统，包括规则检测模块、特征检测模块与自学习检测模块，规则检测模块设置预定义规则库，特征检测模块设置关键字特征库，各模块的关系为：首先，由规则检测模块将请求报文与预定义规则库进行匹配，若匹配成功则阻断访问，匹配不成功，则由特征检测模块处理；其次，特征检测模块对请求进行关键字特征的检测，若检测不通过，则由自学习检测模块处理；最后，自学习检测模块将请求页面与服务器的响应页面进行对比，若两者的差异超过配置值，则将前述请求判断为威胁，并结合请求报文从差异中筛选出新规则加入预定义规则库。该系统的预定义规则库能自动实现更新，避免了未被列入规则库的攻击以及0day攻击，且有利于在保证安全防护的前提下提高匹配效率。

Description

WAF规则自学习系统

技术领域

本发明属于网络安全技术领域，具体的涉及一种WAF规则自学习系统。

背景技术

Web应用防护系统（Web Application Firewall，简称：WAF），又称WEB防火墙等，通过执行针对HTTP/HTTPS请求的安全策略来为Web服务器提供保护，使Web应用系统免遭攻击、篡改等入侵行为。

针对各种入侵，目前市场上绝大多数WAF产品采用的防护方法是基于特征匹配或者规则匹配，对访问请求中的数据报文和已知的威胁特征库或规则库中的记录进行匹配，如果匹配一致，则判定为有威胁的请求，进行拦截；如果匹配不一致，则判定没有威胁，继续放行。

但是实际情况是，特征或者规则在产品初始化时就已确定，所有的Web流量过滤也都会根据已有的特征或规则进行匹配，对于特征库或规则库中没有记录的攻击或者0day攻击，因为还没有对应的特征或规则，无法作出有效的识别，从而导致漏防护，甚至造成损失；即使特征库或规则库是处于持续更新的状态，可以更新特征或规则，但在更新之前或者更新的间隙，系统就已可能被攻击，更新前未被识别的威胁也已经产生了实际的危害。

所以具备特征或规则自学习功能的WAF产品，对于防范已被发现但未录入特征库或规则库的攻击以及0day攻击很有必要。

例如公开号为CN105704120A的专利申请,就公开了 “一种基于自学习形式的安全访问网络的方法”，不断将新访问请求的相关链接、序列、表单等信息添加进预定访问规则内，摆脱了对规则库定期更新的依赖，实现了对已知威胁和未知威胁的实时防御。该技术方案是将合法请求对应的相关信息添加进预定义规则，而不符合预定规则的均判断为非法请求，也就是说该方案只进行合法请求的自学习，且合法请求只能是符合既有预定规则中、的请求，实际上是将某些新的安全请求也排除合法请求之外，直至预定义规则经过自学习的不断积累使得该新请求符合规则；而且该技术方案的预定义规则内容至少包括了合法请求所对应的链接序列、表单、和Cookie信息，以及网络服务器反馈的网页中包含的图片格式、和/或页面格式、和/或动态脚本、和/或表单的规范等，预定规则的内容会越来越多，势必会影响到请求合法性的判断效率。

发明内容

本发明旨在提供一种对威胁请求进行自学习WAF规则自学习系统，能及时阻止未录入规则库的攻击以及0day攻击等，且可以避免现有技术的效率较低的缺点。

为了实现上述目的，本发明提供WAF规则自学习系统，包括规则检测模块、特征检测模块与自学习检测模块，规则检测模块设置预定义规则库，特征检测模块设置关键字特征库，各模块的关系为：

首先，由规则检测模块将请求报文与预定义规则库进行匹配，若匹配成功则阻断访问，匹配不成功，则由特征检测模块处理。

其次，特征检测模块对请求进行关键字特征的检测，若检测不通过，则由自学习检测模块处理。

具体的是，关键字特征库的关键字特征，包括关键字及其威胁阈值，检测时使用ac算法计算请求报文中命中的关键字特征并计算这些关键字的阈值总和，若阈值总和超过预设值，则为检测不通过并交给自学习模块进行处理。

上述的关键字的威胁阈值与该关键字可能造成的威胁程度正相关。

最后，自学习检测模块将请求页面与服务器的响应页面进行对比，若两者的差异超过配置值，则将前述请求判断为威胁，并结合请求报文从差异中筛选出新规则加入预定义规则库。

具体的，自学习检测模块的自学习过程包括以下步骤：

步骤一、根据请求的url路径找到页面并缓存其内容；

步骤二、获取服务器返回的响应页面内容；

步骤三、将步骤一与步骤二的页面内容进行差异计算，若差异超过配置值，则判断发生了攻击；

步骤四、根据请求报文与页面差异生成新规则，加入规则检测模块的预定义规则库。

优选的，WAF规则自学习系统设置虚拟服务器，且虚拟服务器与真实服务器的内容保持一致；步骤二中的响应页面由虚拟服务器返回。

优选的，步骤三的差异计算使用海明距离计算。

优选的，步骤四中新规则加入预定义规则库前，对步骤一所述的请求进行回放，若请求与新规则匹配成功，则将该新规则加入到预定义规则库中；否则重新生成新规则，直至请求回放时能够与新规则匹配成功。

本发明的WAF规则自学习系统，先进行规则匹配，然后进行关键字特征检测，最后由自学习模块对威胁页面进行分析，重新确定规则并补充到预定义规则库，预定义规则库能自动实现更新，避免了未被列入规则库的攻击以及0day攻击；所述的自学习是针对威胁请求进行，数量相对有限，其规则数量比合法请求的自学习相对较少，有利于在保证安全防护的前提下提高匹配效率。

附图说明

图1为WAF的一般部署方式示意图；

图2为本发明的WAF规则自学习系统实施例的部署方式示意图；

图3为本发明的WAF规则自学习系统实施例的组成结构示意图；

图4为本发明的WAF规则自学习系统实施例中，规则检测模块检测流程示意图；

图5为本发明的WAF规则自学习系统实施例中，特征检测模块检测流程示意图；

图6为本发明的WAF规则自学习系统实施例中，自学习检测模块的自学习流程示意图。

具体实施方式

下面结合附图对本发明的WAF规则自学习系统技术方案进行详细说明。

如图1所示，常见的WAF部署方式，PC向（真实）Web服务器（Web server）请求，该请求需要先经过WAF检测，当请求报文来了之后，WAF使用预定义规则进行匹配检测，匹配成功则进行阻断或者其他动作处理，匹配失败则直接放行到Web Server端正常请求，该种方式的优点为，检测原理简单，防护效率高，但是对于特征库或规则库中没有记录的攻击或者0day攻击，无法有效防护。

本发明的部署方式如图2，是在真实服务器（Web server）前设置虚拟服务器（Webserver（copy）），虚拟服务器的内容与真实服务器保持一致，其中所有合法请求的url应当与其对应的页面路径、文件名映射起来，保证处理时尽可能的通过url直接获取到文件内容。

如图3所示，WAF规则自学习系统，包括规则检测模块100、特征检测模块200与自学习检测模块300，规则检测模块100设置预定义规则库，特征检测模块200设置关键字特征库。

如图4所示，新的请求先由规则检测模块100利用其预定义规则库进行匹配检测，即：

101.将请求报文与预定义规则库中的规则进行匹配；

102.若匹配成功则阻断访问；

103.若匹配不成功，则由特征检测模块200处理。

如图5所示，特征检测模块200的检测流程：

201.特征检测模块200预先设置关键字特征库，其中的每个关键字均配置响应的威胁阈值；其中，关键字特征库至少包含数据库、PHP、SHELL、HTML、JS等相关语言的关键字特征，例如select、update、union、delete、popen、shell_exec等，每个关键字均根据其受到攻击时可能造成的威胁程度配置威胁阈值，威胁程度越大、阈值越大；

202.根据关键字特征库，计算请求报文中命中的关键字特征，即分析报文中的关键字，与关键字特征库进行比对，得出报文中命中特征库的关键字；所述的关键字特征命中计算，优选的使用AC（自动机）算法；

203.计算202所有命中的关键字阈值总和；

204.若阈值总和超过预设值，则为检测不通过并交给自学习模块300进行处

理；另外，若阈值总和未超过预设值则为检测通过，可放行该请求或作出其他指令；优选的，204所述预设值可以为一个数值，也可以为一个数值范围，其大小或范围可以根据防护需要进行配置。

如图6所示，自学习检测模块300的自学习步骤，需要说明的是，自学习可以当请求与规则检测模块100匹配失败且特征检测模块200检测不通过时才启动，也可以根据防护需要自行启动。

301.根据请求的url路径找到预定义页面并进行缓存；

302.根据请求从虚拟服务器（Web server（copy））获取响应页面；

303.将301与302的页面内容进行差异计算，差异计算方法优选使用海明距离进行计算；

304.若差异超过配置值，则判断被篡改或攻击，优选的，所述配置值可以为一个数值，也可以为一个数值范围，其大小或范围可以根据防护需要进行调整；

305.根据请求报文与303计算的页面差异生成新规则，新规则的生成方式可以是101中可匹配一致的预定义规则部分内容+202中已命中的关键字特征+页面差异提取的特征；也可以是202中已命中的关键字特征+页面提取的差异特征；或者其它方式。

306.对请求进行回放，若请求与305所得的新规则匹配成功，则将该新规则添加到100的预定义规则库中；否则重新生成新规则，直至请求回放时能够与新规则匹配成功。

以上，说明了本发明的WAF规则自学习系统的技术方案，下面列举实施例进行解释。

实施例一

WAF规则自学习系统设置规则检测模块、特征检测模块与自学习检测模块，规则检测模块设置预定义规则库，特征检测模块设置关键字特征库；还设置虚拟服务器，虚拟服务器的内容与真实服务器保持一致；关键字特征库中含有select 、delete等关键字，配置select阈值为2、delete阈值为3，关键字特征库设置预设值4；自学习检测模块设置配置值B。

设定请求1：含有规则1，规则1未被列入预定义规则库，且规则1中含有关键字特征select与delete。

首先由规则检测模块进行匹配检测，因规则1未被列入预定义规则库，结果为匹配失败，交由特征检测模块检测。

特征检测模块利用AC算法计算请求1中包含的关键字特征，结果为请求1中包含select与delete关键字，且关键字的阈值总和为5，超过预设值4，则为检测不通过，交由自学习检测模块检测。

自学习检测模块根据请求1的url路径获取页面1，向虚拟服务器获取到页面2，计算页面1与页面2的海明距离为A，若A>B,则判断请求1为攻击，根据请求1报文及页面1与页面2的差异，生成新规则2为：关键字特征select与delete+页面1与页面2的差异提取特征，差异特征包括从文字、图像、链接、表单、cookie等中利用特征算法提取。

回放请求1，判断新规则2与请求1能否匹配成功，若匹配成功则将规则2加入预定义规则库；若匹配不成功则对新规则2重新修改生成新规则3，依次类推，直至新规则N能与请求1匹配成功，即规则检测模块可以将请求1识别出，则新规则N可以加入预定义规则库中，完成自学习。

完成自学习后，能识别出请求1的新规则已被加入到预定义规则库，即相当于预定义规则库完成了自动更新，当遇到与请求1接近的其他请求时，WAF的预定义规则就可以将其识别出并阻断。

如上所述，本发明的WAF规则自学习系统，可以有效防范已被发现但未录入特征库或规则库的攻击以及0day攻击；并且其特征库或规则库是针对威胁请求的，数据量相对较小，不会降低识别识别威胁的效率。

Claims

1.WAF规则自学习系统，包括规则检测模块，将请求报文与预定义规则库进行匹配，若匹配成功则阻断访问，其特征在于，还包括特征检测模块与自学习检测模块；

若请求报文与预定义规则库匹配不成功，则由特征检测模块处理；

特征检测模块设置关键字特征库对请求进行检测，若检测不通过，则由自学习检测模块处理；

自学习检测模块将请求页面与服务器的响应页面进行对比，若两者的差异超过配置值，则将前述请求判断为威胁，并结合请求报文从差异中筛选出新规则加入预定义规则库。

2.根据权利要求1所述的WAF规则自学习系统，其特征在于，

所述关键字特征库的关键字特征，包括关键字及其威胁阈值；

使用ac算法计算请求报文中包含的关键字特征并计算阈值总和，若阈值总和超过预设值，则检测不通过。

3.根据权利要求2所述的WAF规则自学习系统，其特征在于，所述威胁阈值与该关键字可能造成的威胁程度正相关。

4.根据权利要求1所述的WAF规则自学习系统，其特征在于，自学习检测模块的自学习步骤：

步骤一、根据请求的url路径找到页面并缓存其内容；

步骤二、获取服务器返回的响应页面内容；

5.根据权利要求1或4所述的WAF规则自学习系统，其特征在于，WAF规则自学习系统设置虚拟服务器，且虚拟服务器与真实服务器的内容保持一致；步骤二中的响应页面由虚拟服务器返回。

6.根据权利要求4所述的WAF规则自学习系统，其特征在于，步骤三所述的差异计算使用海明距离计算。

7.根据权利要求4所述的WAF规则自学习系统，其特征在于，步骤四中新规则加入预定义规则库前，对步骤一所述的请求进行回放，若请求与新规则匹配成功，则将该新规则加入到预定义规则库中；否则重新生成新规则，直至请求回放时能够与新规则匹配成功。