CN106022126B

CN106022126B - 一种面向web木马检测的网页特征提取方法

Info

Publication number: CN106022126B
Application number: CN201610297843.1A
Authority: CN
Inventors: 玄世昌; 杨武; 王巍; 苘大鹏; 位爱伶
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2018-07-24
Anticipated expiration: 2036-05-06
Also published as: CN106022126A

Abstract

本发明提供的是一种面向WEB木马检测的网页特征提取方法。包含数据获取、页面解析、脚本解析和特征提取四个阶段。数据获取阶段包括：数据包在网关处的获取以及记录存取该数据包方法。页面解析阶段：利用正则匹配方式获取网页标签以及链接。脚本解析阶段：对网页中的脚本利用脚本解析引擎以及对其的改进获取脚本中相应的链接及函数关系。特征提取阶段：统计页面标签特征，并计算重定向链中存在的特征。本发明的方法提取有效的标签元素信息，获取重定向链接特征以及相应的页面特征，省略不必要的元素审查。具有较高的建模效率。该模型在提取过程中采用正则匹配以及脚本引擎方式，具有较高的提取速度。可以在浏览器以及网关处都能发挥其重要作用。

Description

一种面向WEB木马检测的网页特征提取方法

技术领域

本发明涉及的是一种木马检测特征提取方法，具体地说是一种面向WEB木马检测的网页特征提取方法。

背景技术

近年来，互联网发展飞速，给人们获得有效实时信息和资源提供了极大的帮助，满足了大众足不出户就可以纵观世界的愿望，逐渐成为人们生活必备的部分。网络技术的先进性已经成为我们生活的主导因素，我们日常的各种活动都已经依赖于互联网，例如个人娱乐活动，医疗活动，银行金融活动，以及其他生活的方方面面。为保持这种先进性，大量的功能性措施已经加入到现代化浏览器中，然而这些先进性也带来了大量缺陷漏洞。这些漏洞缺陷会逐渐成为隐患，被更多图谋不轨的人所利用。恶意程序主要包括计算机病毒、蠕虫、木马、僵尸程序等，近年来，不同类别的恶意程序之间的界限逐渐模糊，木马和僵尸程序成为黑客最常利用的攻击手段。WEB网页木马是恶意破坏更改网页内容或网页中嵌入恶意代码链接，使网站无法正常工作或者致使用户计算机在访问该页面时被植入恶意代码的非正常网页内容。WEB木马攻击发生在访问网页的时候，用户可能被重定向到一个恶意网页，进而导致下载恶意软件到用户计算机中且不被发现。

当前的成型网页木马检测技术大致分为两类，第一类就是利用技术静态分析网页以及内嵌代码(例如JavaScript,flash)，它们的特征具有典型的恶意性。例如网页的URLS特征，内容特征以及其他特征，或者是开发能利用的恶意脚本片段。第二类是利用动态技术，这些方法大都依赖于感知化的浏览器，常提到的有客户端蜜罐，监控各种行为，其中监控主机注册行为特征是一种典型的方法。

WEB木马的传播主要依赖于网页中的恶意代码。WEB木马为了达到其隐蔽的目的，利用各种伪装技术逃避检测。但是它在页面代码中表现的特征也是与正常的网页是不同的，因此分析网页结构也是检测木马的一个重要的步骤。伴随着网络的发展，互联网在软件硬件方面的进步，用户获取信息的速率不断在提高，WEB木马检测关注的不仅仅是其准确性，准确无误的发现木马自然是首要的，但是检测效率也逐渐成为用户需求中的一部分，因此在进行木马检测过程中，我们要把检测速度作为考虑的重点。利用机器学习进行WEB木马检测，WEB木马特征的提取方式，是决定检测速度的一个关键点。

发明内容

本发明的目的在于提供一种建模效率高，提取速度快的面向WEB木马检测的网页特征提取方法。

本发明的目的是这样实现的：

步骤1：数据获取；

步骤11：当用一个客户端用户通过浏览器请求访问网页，系统捕获数据包后，首先判断该请求的客户端IP是否在请求链中；

步骤12：如果请求的客户端IP没有在请求链中，则将该请求的客户端IP加入到客户端请求链中；利用四元组hash记录下用户的该条访问的URL；然后将数据包转发给WEB服务器；

步骤13：如果该请求的客户端IP已经存在则提取数据包中的请求URL，判断该URL是否是从网友中提取的URL；如果是的话则利用该请求的四元组hash计算保持其URL，然后再转发数据包给WEB服务器；

步骤14：WEB服务器返回响应时数据包处理；

步骤2：页面解析；

步骤21：利用正则匹配的方式匹配网页中的<meta>标签下的自动跳转的URL；

步骤22：利用正则表达式提取网页中的script脚本，以及script脚本中src的URL链接；

步骤3：脚本解析；

步骤4：提取特征。

本发明还可以包括：

1、所述脚本解析具体包括：

步骤31：将存在混淆的代码利用脚本引擎解混淆，然后提取脚本中存在的重定向链接；

步骤32：同时统计脚本中存在的特征函数的数量。

2、所述提取特征具体包括：

步骤41：重定向链特征提取过程；

步骤42：页面统计特征提取。

3、所述WEB服务器返回响应时数据包处理具体包括：

步骤141：系统首先处理该数据包，读取数据包中的响应码如果是301 302的情况，则继续寻找响应首部的location部分，提取重定向URL，并根据响应的四元组找到其上一层URL，链接到重定向链中；

步骤142：如果响应码是正常的200，则首先判断是否是HTML页面，或者.js页面，然后分别利用页面解析模块和脚本解析模块处理这两种页面，直到所有的重定向以及页面统计提取完毕。

4、步骤31具体包括：

步骤311：利用SpiderMonkey提供的接口函数自定义DOM对象，定义JSProperty和JSFuncion的两个数组；

步骤312：调用SpiderMonkey里面的接口函数JS_NewObject来创建object对象，并将整个创建的对象添加到SpiderMonkey的全局对象中；

步骤313：然后将方法和属性添加到运行过程中的上下文环境中，当解析脚本的时候遇到DOM对象中某个对象时，从全局对象中查找相应的对象名，然后根据对象名在其相应的上下文结构体中查找对应的属性和方法。

5、所述步骤41具体包括：

步骤411：首先为用户请求页面建立url存储结构，用户首次请求的URL作为重定向链树形结构的根节点；

步骤412：解析HTML页面，提取页面中<meta><script>标签下的url链接，加入树形结构中，并作为根节点的孩子节点；

步骤413：监控请求数据包如果请求URL是树形结构中的URL，则记录该请求的四元组即sip、sport、dip、dport；

步骤414：监控响应数据包，根据四元组找到相应的请求的URL，分析数据包是.JS页面或者html页面中的重定向URL，将这些URL作为该页面请求URL孩子节点；

步骤415：判断页面加载是否结束，从重定向链树形结构中提取特征；

步骤416：改进树的深度优先遍历算法，遍历重定向链树形结构，记录每一条分支链的长度，找到最大长度和最小长度；

步骤417：遍历时候，判断每一条分支重定向链是否存在自循环，用布尔值作为区分；

步骤418：计算每一条分支重定向链中URL的相似度；

步骤419：利用字符串匹配，判断每一条链中的URL，是否包含相同的域名，如果有则标示为1，没有标示为0；

步骤4110：正则表达式判断每一条分支链的URL是否直接包含IP。

本发明是针对WEB木马检测过程中网页特征提取。WEB木马检测前期非常重要的一部分就是要对可能掩藏在网页中的木马特征进行提取。本发明提出一种面向WEB木马检测网页特征提取方法。其中包括木马在传播过程中存在的特征，包括重定向链接表现出来的特征，以及网页本身所表现出的统计特征，标签个数，以及页面混淆程度特征。而这些特征提取，关注的重点是提取时间效率，即要尽可能快速定位需要的特征，并有效获得。时间效率的提升对整个检测系统时间性能具有重要影响。

本发明的方法提取有效的标签元素信息，获取重定向链接特征以及相应的页面特征，省略不必要的元素审查。具有较高的建模效率。该模型在提取过程中采用正则匹配以及脚本引擎方式，具有较高的提取速度。可移植性，该方法可以在浏览器以及网关处都能发挥其重要作用。

附图说明

图1为面向WEB木马检测的网页特征提取方法系统图。

图2数据获取流程图。

图3重定向链特征提取算法流程图。

图4重定向链结构图。

具体实施方式

本发明的面向WEB木马检测的网页特征提取方法，由数据获取模块、页面解析模块、脚本解析模块和提取特征模块完成。

步骤1，数据获取，是在获取页面解析的数据包，其获取流程如图1所示，步骤主要包括以下几步：

步骤11：当用一个客户端用户通过浏览器请求访问网页，系统捕获数据包后，首先判断该请求的客户端IP是否在请求链中，

步骤12：如果没有的话，则将该请求IP加入到客户端请求链中，

步骤13：利用四元组hash记录下用户的该条访问的URL，

步骤14：然后将数据包转发给WEB服务器，

步骤15：如果该请求已经存在则提取数据包中的请求URL，判断该URL是否是从网友中提取的URL，

步骤16：如果是的话则利用该请求的四元组hash计算保持其URL，然后再转发数据包给WEB服务器，

步骤17：WEB服务器返回响应时数据包处理，该步骤又包含几个子步骤。

步骤171：系统首先处理该数据包，读取数据包中的响应码如果是301 302的情况，则继续寻找响应首部的location部分，提取重定向URL，并根据响应的四元组找到其上一层URL，链接到重定向链中。

步骤172：如果响应码是正常的200，则首先判断是否是HTML页面，或者.js页面，然后分别利用页面解析模块和脚本解析模块处理这两种页面，直到所有的重定向以及页面统计提取完毕。

步骤173：最后由特征提取模块完成后面的工作。

步骤2，页面解析，包括以下步骤：

步骤21：利用正则匹配的方式匹配网页中的<meta>标签下的自动跳转的URL。

步骤22：利用正则表达式提取网页中的script脚本，以及script脚本中src的URL链接。

步骤3，脚本解析，包括但是不限于以下方法：

步骤31：将存在混淆的代码利用脚本引擎解混淆，然后提取脚本中存在的重定向链接。该步骤包含但不限于以下方法：

步骤311：利用SpiderMonkey提供的接口函数自定义DOM对象。在自定义对象中，需要我们封装解析过程中需要的方法和属性，首先定义JSProperty和JSFuncion的两个数组。步骤312：然后调用SpiderMonkey里面的接口函数JS_NewObject来创建object对象，并将整个创建的对象添加到SpiderMonkey的全局对象中。

步骤313：然后将方法和属性添加到运行过程中的上下文环境中。当解析脚本的时候遇到DOM对象中某个对象时，可以从全局对象中查找相应的对象名，然后根据对象名在其相应的上下文结构体中查找对应的属性和方法。

步骤32：同时统计脚本中存在某些特征函数的数量。

步骤4，特征提取，包括但是不限于以下方法：

步骤41：重定向链特征提取过程，其提取算法流程如附图2所示，主要包含以下步骤

步骤411：首先算法为用户请求页面建立url存储结构(hash链表+树形结构)。用户首次请求的URL作为重定向链树形结构的根节点。

步骤412：解析HTML页面，提取页面中<meta><script>标签下的url链接，加入树形结构中，并作为根节点的孩子节点。

步骤413：监控请求数据包如果请求URL是树形结构中的URL，则记录该请求的四元组(sip，sport，dip，dport)。

步骤414：监控响应数据包，根据四元组(sip，sport，dip，dport)找到相应的请求的URL，分析数据包可能是.JS页面或者html页面中的重定向URL，将这些URL作为该页面请求URL孩子节点。

步骤415：判断页面加载是否结束，从重定向链树形结构中提取特征。

步骤416：改进树的深度优先遍历算法，遍历重定向链树形结构，记录每一条分支链的长度，找到最大长度和最小长度。

步骤417：遍历时候，判断每一条分支重定向链是否存在自循环，用布尔值作为区分。

步骤418：计算每一条分支重定向链中URL的相似度。

步骤419：利用字符串匹配，判断每一条链中的URL，是否包含相同的域名，如果有则标示为1，没有标示为0。

步骤4110：正则表达式判断每一条分支链的URL是否直接包含IP。利用的正则表达式string＝“http|https://(((25[0-5]|2[0-4]\d|[01]？\d\d？)($|(？！\.$)\.)){4}$/)/*”。

步骤42：页面统计特征提取。页面特征包括HTML页面中包含的标签特征，以及js页面中包含的特征。对页面特征的提取我们主要采用的是统计算法。在页面解析以及脚本解析的过程中，我们除了会提取其中包含的重定向链接，同时会利用全局变量记录一些相应的特征。在HTML页面中我们会统计产生重定向的标签个数即<meta><script>这两种标签分别的个数。在脚本解析处理中，由于页面混淆程度决定了木马存在的可能性，因此页面特征其他部分也会提取与混淆相关的页面特征，主要包含eval字符串的个数，document.write字符串的个数，escape字符串的个数以及与其对应的unescope字符串的个数还有encode和decode的。

1、所述步骤1的构建方法包括以下具体步骤：

当用一个客户端用户通过浏览器请求访问网页，系统捕获数据包后，首先判断该请求的客户端IP是否在请求链中，如果没有的话，则将该请求IP加入到客户端请求链中，模块首先利用四元组hash记录下用户的该条访问的URL，然后将数据包转发给WEB服务器，如果该请求已经存在则提取数据包中的请求URL，判断该URL是否是从网友中提取的URL，如果是的话则利用该请求的四元组hash计算保持其URL，然后再转发数据包给WEB服务器；WEB服务器返回响应时，系统首先处理该数据包，读取数据包中的响应码如果是301 302的情况，则继续寻找响应首部的location部分，提取重定向URL，并根据响应的四元组找到其上一层URL，链接到重定向链中。如果响应码是正常的200，则首先判断是否是HTML页面，或者.js页面，然后分别利用页面解析模块和脚本解析模块处理这两种页面，直到所有的重定向以及页面统计提取完毕；最后由特征提取模块完成后面的工作。

2、页面解析，主要解析的是<meta>以及<script>两种标签。首先当系统得到一个.HTML原始数据包后，先利用正则匹配的方式，提取页面中的<meta>以及<script>标签，并获取其中存在的URL，并将在一个HTML页面获得重定向URL存放在一个数据结构中；该并同时记录这两个标签的个数。

3、该模块主要解析JavaScript脚本，主要的工作是将存在混淆的代码利用脚本引擎解混淆，然后提取脚本中存在的重定向链接，并统计脚本中存在某些特征函数的数量。

4、特征提取，包括页面统计特征和重定向链特征。页面特征包括HTML页面中包含的标签特征，以及js页面中包含的特征。对页面特征的提取我们主要采用的是统计算法。在页面解析以及脚本解析的过程中，我们除了会提取其中包含的重定向链接，同时会利用全局变量记录一些相应的特征。在HTML页面中我们会统计产生重定向的标签个数即<meta><script>这两种标签分别的个数。在脚本解析处理中，由于页面混淆程度决定了木马存在的可能性，因此页面特征其他部分也会提取与混淆相关的页面特征，主要包含eval字符串的个数，document.write字符串的个数，escape字符串的个数以及与其对应的unescope字符串的个数还有encode和decode的个数。

在重定向链特征提取算法，大致上可以分为两步，第一步就是获取重定向链并将其利用树形数据结构与hash相结合得方式存放重定向链结构如图4所示。上一节中页面提取过程中当检测到一个HTML页面时，检测HTML页面中存在的重定向链接，然后对这些重定向链接进一步分析，提取其中在js文件，对其进行跟踪分析，提取更多的可能存在恶意的重定向链接。当所有的结点关系构建完毕后，我们就得到一个树形的重定向链。第二步，当提取到树形的重定向链后，需要利用改进的树形遍历算法，计算出每一条链的长度，给每一条链做标记，提取最长链以及最短链，并检查树形结构中的每一条链是否存在自循环；计算每条链中的URL与请求URL的相似度；判断每一条重定向分支链中是否有内部域名网址；访问每个叶子节点，利用正则匹配的方式检测每一个叶子节点的URL是否是直接采用IP。

Claims

1.一种面向WEB木马检测的网页特征提取方法，其特征是：

步骤1：数据获取；

步骤13：如果该请求的客户端IP已经存在则提取数据包中的请求URL，判断该URL是否是从网页中提取的URL；如果是则利用该请求的四元组hash计算保持其URL，然后再转发数据包给WEB服务器；

步骤14：WEB服务器返回响应时数据包处理；

步骤2：页面解析；

步骤3：脚本解析；

步骤32：同时统计脚本中存在的特征函数的数量；

步骤4：提取特征；

步骤41：重定向链特征提取过程；

步骤42：页面统计特征提取。

2.根据权利要求1所述的面向WEB木马检测的网页特征提取方法，其特征是所述WEB服务器返回响应时数据包处理具体包括：

3.根据权利要求2所述的面向WEB木马检测的网页特征提取方法，其特征是步骤31具体包括：

4.根据权利要求3所述的面向WEB木马检测的网页特征提取方法，其特征是所述步骤41具体包括：

步骤418：计算每一条分支重定向链中URL的相似度；