CN112039877A

CN112039877A - 基于kld的存储型xss注入的检测方法

Info

Publication number: CN112039877A
Application number: CN202010886265.1A
Authority: CN
Inventors: 李金祥
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-04
Anticipated expiration: 2040-08-28
Also published as: CN112039877B

Abstract

本发明涉及WAF防火墙领域，具体为一种基于KLD的存储型XSS注入的检测方法，能够减少服务器受到的干扰，提高服务器运行的稳定性。方案为，判断响应Web页面是否属于首次登陆，若是则捕获响应Web页面的所有内容，并且确保该页面内不含XSS代码，对Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类正常频率分布特征集合P(x)，将P(x)集合按照{url:[p(x)]}格式存放在内存中，url为Web页面地址；若不是首次登陆，捕获响应Web页面的所有内容，对响应Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类频率分布特征集合Q(x)，根据响应Web页面的地址从内存中获取对应的Javascript代码类正常频率特征集合P(x)，根据

计算散度值，根据散度值与阈值大小确定是否有XSS注入。适用于XSS检测。

Description

基于KLD的存储型XSS注入的检测方法

技术领域

本发明涉及WAF(Web应用防护系统)防火墙领域，具体涉及一种基于KLD的存储型XSS注入的检测方法。

背景技术

跨站脚本攻击(Cross-site-scripting，XSS)是一种危害严重的Web漏洞，其常年位居owasp Top10漏洞的前3名。其危害主要有盗取用户Cookie、会话劫持和网络钓鱼等。其中，存储型XSS攻击危害最以难检测。

当前针对存储型xss攻击检测技术主要基于爬虫技术和污点追踪技术，他们都是一种“主动性”探测技术，原理是首先用爬虫爬取web的url，然后向url发送带有xsspayload(污点数据)的请求，最后检测服务器响应的数据中是否含有先前发送的xsspayload，该技术虽然能检测出存储型xss注入，但是爬虫会干扰服务器的正常运行，同时探测数据也会污染服务端业务数据库。因此，有必要改进现有技术或者开发新的解决方案，不使用爬虫，也不向服务器发送污点数据，达到检测存储型xss的目的。

发明内容

本发明的目的是提供一种基于KLD的存储型XSS注入的检测方法，不再使用爬虫技术，不再通过向url发送带有xss payload(污点数据)的请求，减少了服务器受到的干扰，提高了服务器运行的稳定性，避免了服务端业务数据库受到污染。

本发明采取如下技术方案实现上述目的，基于KLD的存储型XSS注入的检测方法，包括以下步骤：

步骤(1)、判断响应Web页面是否属于首次登陆，若是则捕获响应Web页面的所有内容，并且确保该页面内不含XSS代码，进入步骤(2)；否则，进入步骤(4)；

步骤(2)、对Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类正常频率分布特征集合P(x)；

步骤(3)、将P(x)集合按照{url:[p(x)]}格式存放在内存中，url为Web页面地址，结束本次流程，下次登陆时进入步骤(1)；

步骤(4)、捕获响应Web页面的所有内容，对响应Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类当前频率分布特征集合Q(x)；

步骤(5)、根据响应Web页面的地址从内存中获取对应Web页面的Javascript代码类正常频率特征集合P(x)；

步骤(6)、计算P(x)与Q(x)的KL散度值D，

n≤P(x)集合中数据的数量；

步骤(7)、判断D与KL散度阈值T的大小，若D>T，则触发拦截。

进一步的是，在步骤(1)中，所述确保该页面内不含XSS代码的方式包括：人工与软件结合的方法确保该页面内不含XSS代码。

进一步的是，在步骤(2)中，得到所有Javascript代码类正常频率分布特征集合P(x)包括：统计每一类Javascript代码出现的次数，并计算出每一类Javascript代码出现频率，使用一个集合P(x)存放每一类Javascript代码出现的频率。

进一步的是，所述在统计每一类Javascript代码出现的次数时，若同一个页面发生多次请求，则对同一类Javascript代码统计的次数求平均值。

进一步的是，在步骤(2)中，所述对Web页面所有内容中的Javascript代码进行分类包括：将Javascript代码根据其位置属性分为内联代码、url属性代码、css属性代码、以及各种事件代码。

进一步的是，基于KLD的存储型XSS注入的检测方法还包括：改变阈值T的值，对触发拦截的条件进行优化调节。

本发明基于KLD的存储型XSS注入的检测方法，受限判断响应Web页面是否属于首次登陆，若是则捕获响应Web页面的所有内容，并且确保该页面内不含XSS代码；对Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类正常频率分布特征集合P(x)；将P(x)集合按照{url:[p(x)]}格式存放在内存中，url为Web页面地址，本次登陆结束；即将首次登陆排除XSS代码Web页面的所有Javascript代码类正常频率分布特征集合P(x)存储到内存中，下次登陆时，若不是首次登陆，则捕获响应Web页面的所有内容，对响应Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类频率分布特征集合Q(x)；根据响应Web页面的地址从内存中获取对应的Web页面Javascript代码类正常频率特征集合P(x)；计算P(x)与Q(x)的KLD散度值D，

n≤P(x)集合中数据的数量；若D>T，则触发拦截。不再使用爬虫技术，不再通过向url发送带有xss payload(污点数据)的请求，减少了服务器受到的干扰，提高了服务器运行的稳定性，避免了服务端业务数据库受到污染。

附图说明

图1是本发明基于KLD的存储型XSS注入的检测方法的方法流程图。

具体实施方式

本发明基于KLD的存储型XSS注入的检测方法，其方法流程图如图1，包括以下步骤：

步骤101：判断响应Web页面是否属于首次登陆，若是则进入步骤102，否则进入步骤105；

步骤102：捕获响应Web页面的所有内容，并且确保该页面内不含XSS代码；

步骤103：对Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类正常频率分布特征集合P(x)；

步骤104：将P(x)集合按照{url:[p(x)]}格式存放在内存中，url为Web页面地址，结束本次流程，下次登陆时进入步骤101；

步骤105：捕获响应Web页面的所有内容；

步骤106：对响应Web页面所有内容中的Javascript代码进行分类统计，得到所有Javascript代码类当前频率分布特征集合Q(x)；

步骤107：根据响应Web页面的地址从内存中获取对应的Javascript代码类正常频率特征集合P(x)；

步骤108：计算P(x)与Q(x)的KL散度值D，判断D与KL散度阈值T的大小，若D>T，则触发拦截。；

步骤102中，确保该页面内不含XSS代码的具体方式包括：人工与软件结合的方法确保该页面内不含XSS代码。

步骤103中，得到所有Javascript代码类正常频率分布特征集合P(x)的具体实施方式包括：统计每一类Javascript代码出现的次数，并计算出每一类Javascript代码出现频率，使用一个集合P(x)存放每一类Javascript代码出现的频率。

其中在统计每一类Javascript代码出现的次数时，若同一个页面发生多次请求，则对同一类Javascript代码统计的次数求平均值。

步骤103中，对Web页面所有内容中的Javascript代码进行分类包括：将Javascript代码根据其位置属性分为内联代码、url属性代码、css属性代码、以及各种事件代码，更多分类可以参考Javascript代码分类表。

步骤108中，计算P(x)与Q(x)的KL散度值D的具体公式包括：

n≤P(x)集合中数据的数量；其中原理为,KLD又称相对熵，互熵，鉴别信息，设P(x)和Q(x)是x取值的两个概率分布，则P对Q的相对熵为：

在一定程度上，KL散度可以度量两个概率分布P和Q的距离，当两个概率分布相同时，KL散度为0，当两个概率分布的差别增大时，他们的KL散度也会随之增大。

基于KLD的存储型XSS注入的检测方法还包括：改变阈值T的值，对触发拦截的条件进行优化调节，使得既能识别XSS攻击，又可以减少误拦截、误报。

本发明的一种实施例为，在waf(Web应用防护系统)上应用本方法，通过waf的机制捕获所有的web页面内容。将test.changhong.com加入到waf防护的站点里面，用户通过浏览器首次访问test.changhong.com，waf捕获test.changhong.com页面内容，并且确认该页面内不含XSS代码，对test.changhong.com页面所有内容中的Javascript代码按照Javascript代码分类表进行分类统计，得到所有Javascript代码类正常频率分布特征集合P(x)，将P(x)集合按照{url:[p(x)]}格式存放在内存中，比如“test.changhong.com”:[0.1,0.2,0.3,0.4,0.6,0,0,0,0,0.8]；当通过浏览器再次访问test.changhong.com页面时，waf捕获test.changhong.com页面内容，对test.changhong.com页面所有内容中的Javascript代码按照Javascript代码分类表进行分类统计，得到所有Javascript代码类频率分布特征集合Q(x)，根据test.changhong.com地址从内存中获取对应的Javascript代码类正常频率特征集合P(x)，利用公式

计算出P(x)与Q(x)的KL散度值D，若D>T，则触发拦截，T为KL散度阈值。

综上所述，本发明不再使用爬虫技术，不再通过向url发送带有xss payload(污点数据)的请求，减少了服务器受到的干扰，提高了服务器运行的稳定性，避免了服务端业务数据库受到污染。

Javascript代码分类表

Claims

1.基于KLD的存储型XSS注入的检测方法，其特征在于，包括：

步骤(6)、计算P(x)与Q(x)的KL散度值D，

集合中数据的数量；

步骤(7)、判断D与KL散度阈值T的大小，若D>T，则触发拦截。

2.根据权利要求1所述的基于KLD的存储型XSS注入的检测方法，其特征在于，在步骤(1)中，所述确保该页面内不含XSS代码的方式包括：人工与软件结合的方法确保该页面内不含XSS代码。

3.根据权利要求1所述的基于KLD的存储型XSS注入的检测方法，其特征在于，在步骤(2)中，得到所有Javascript代码类正常频率分布特征集合P(x)包括：统计每一类Javascript代码出现的次数，并计算出每一类Javascript代码出现频率，使用一个集合P(x)存放每一类Javascript代码出现的频率。

4.根据权利要求3所述的基于KLD的存储型XSS注入的检测方法，其特征在于，所述在统计每一类Javascript代码出现的次数时，若同一个页面发生多次请求，则对同一类Javascript代码统计的次数求平均值。

5.根据权利要求1所述的基于KLD的存储型XSS注入的检测方法，其特征在于，在步骤(2)中，所述对Web页面所有内容中的Javascript代码进行分类包括：将Javascript代码根据其位置属性分为内联代码、url属性代码、css属性代码、以及各种事件代码。

6.根据权利要求1所述的基于KLD的存储型XSS注入的检测方法，其特征在于，还包括：改变阈值T的值，对触发拦截的条件进行优化调节。