CN106022126B - 一种面向web木马检测的网页特征提取方法 - Google Patents

一种面向web木马检测的网页特征提取方法 Download PDF

Info

Publication number
CN106022126B
CN106022126B CN201610297843.1A CN201610297843A CN106022126B CN 106022126 B CN106022126 B CN 106022126B CN 201610297843 A CN201610297843 A CN 201610297843A CN 106022126 B CN106022126 B CN 106022126B
Authority
CN
China
Prior art keywords
url
page
script
chain
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610297843.1A
Other languages
English (en)
Other versions
CN106022126A (zh
Inventor
玄世昌
杨武
王巍
苘大鹏
位爱伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610297843.1A priority Critical patent/CN106022126B/zh
Publication of CN106022126A publication Critical patent/CN106022126A/zh
Application granted granted Critical
Publication of CN106022126B publication Critical patent/CN106022126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供的是一种面向WEB木马检测的网页特征提取方法。包含数据获取、页面解析、脚本解析和特征提取四个阶段。数据获取阶段包括:数据包在网关处的获取以及记录存取该数据包方法。页面解析阶段:利用正则匹配方式获取网页标签以及链接。脚本解析阶段:对网页中的脚本利用脚本解析引擎以及对其的改进获取脚本中相应的链接及函数关系。特征提取阶段:统计页面标签特征,并计算重定向链中存在的特征。本发明的方法提取有效的标签元素信息,获取重定向链接特征以及相应的页面特征,省略不必要的元素审查。具有较高的建模效率。该模型在提取过程中采用正则匹配以及脚本引擎方式,具有较高的提取速度。可以在浏览器以及网关处都能发挥其重要作用。

Description

一种面向WEB木马检测的网页特征提取方法
技术领域
本发明涉及的是一种木马检测特征提取方法,具体地说是一种面向WEB木马检测的网页特征提取方法。
背景技术
近年来,互联网发展飞速,给人们获得有效实时信息和资源提供了极大的帮助,满足了大众足不出户就可以纵观世界的愿望,逐渐成为人们生活必备的部分。网络技术的先进性已经成为我们生活的主导因素,我们日常的各种活动都已经依赖于互联网,例如个人娱乐活动,医疗活动,银行金融活动,以及其他生活的方方面面。为保持这种先进性,大量的功能性措施已经加入到现代化浏览器中,然而这些先进性也带来了大量缺陷漏洞。这些漏洞缺陷会逐渐成为隐患,被更多图谋不轨的人所利用。恶意程序主要包括计算机病毒、蠕虫、木马、僵尸程序等,近年来,不同类别的恶意程序之间的界限逐渐模糊,木马和僵尸程序成为黑客最常利用的攻击手段。WEB网页木马是恶意破坏更改网页内容或网页中嵌入恶意代码链接,使网站无法正常工作或者致使用户计算机在访问该页面时被植入恶意代码的非正常网页内容。WEB木马攻击发生在访问网页的时候,用户可能被重定向到一个恶意网页,进而导致下载恶意软件到用户计算机中且不被发现。
当前的成型网页木马检测技术大致分为两类,第一类就是利用技术静态分析网页以及内嵌代码(例如JavaScript,flash),它们的特征具有典型的恶意性。例如网页的URLS特征,内容特征以及其他特征,或者是开发能利用的恶意脚本片段。第二类是利用动态技术,这些方法大都依赖于感知化的浏览器,常提到的有客户端蜜罐,监控各种行为,其中监控主机注册行为特征是一种典型的方法。
WEB木马的传播主要依赖于网页中的恶意代码。WEB木马为了达到其隐蔽的目的,利用各种伪装技术逃避检测。但是它在页面代码中表现的特征也是与正常的网页是不同的,因此分析网页结构也是检测木马的一个重要的步骤。伴随着网络的发展,互联网在软件硬件方面的进步,用户获取信息的速率不断在提高,WEB木马检测关注的不仅仅是其准确性,准确无误的发现木马自然是首要的,但是检测效率也逐渐成为用户需求中的一部分,因此在进行木马检测过程中,我们要把检测速度作为考虑的重点。利用机器学习进行WEB木马检测,WEB木马特征的提取方式,是决定检测速度的一个关键点。
发明内容
本发明的目的在于提供一种建模效率高,提取速度快的面向WEB木马检测的网页特征提取方法。
本发明的目的是这样实现的:
步骤1:数据获取;
步骤11:当用一个客户端用户通过浏览器请求访问网页,系统捕获数据包后,首先判断该请求的客户端IP是否在请求链中;
步骤12:如果请求的客户端IP没有在请求链中,则将该请求的客户端IP加入到客户端请求链中;利用四元组hash记录下用户的该条访问的URL;然后将数据包转发给WEB服务器;
步骤13:如果该请求的客户端IP已经存在则提取数据包中的请求URL,判断该URL是否是从网友中提取的URL;如果是的话则利用该请求的四元组hash计算保持其URL,然后再转发数据包给WEB服务器;
步骤14:WEB服务器返回响应时数据包处理;
步骤2:页面解析;
步骤21:利用正则匹配的方式匹配网页中的<meta>标签下的自动跳转的URL;
步骤22:利用正则表达式提取网页中的script脚本,以及script脚本中src的URL链接;
步骤3:脚本解析;
步骤4:提取特征。
本发明还可以包括:
1、所述脚本解析具体包括:
步骤31:将存在混淆的代码利用脚本引擎解混淆,然后提取脚本中存在的重定向链接;
步骤32:同时统计脚本中存在的特征函数的数量。
2、所述提取特征具体包括:
步骤41:重定向链特征提取过程;
步骤42:页面统计特征提取。
3、所述WEB服务器返回响应时数据包处理具体包括:
步骤141:系统首先处理该数据包,读取数据包中的响应码如果是301 302的情况,则继续寻找响应首部的location部分,提取重定向URL,并根据响应的四元组找到其上一层URL,链接到重定向链中;
步骤142:如果响应码是正常的200,则首先判断是否是HTML页面,或者.js页面,然后分别利用页面解析模块和脚本解析模块处理这两种页面,直到所有的重定向以及页面统计提取完毕。
4、步骤31具体包括:
步骤311:利用SpiderMonkey提供的接口函数自定义DOM对象,定义JSProperty和JSFuncion的两个数组;
步骤312:调用SpiderMonkey里面的接口函数JS_NewObject来创建object对象,并将整个创建的对象添加到SpiderMonkey的全局对象中;
步骤313:然后将方法和属性添加到运行过程中的上下文环境中,当解析脚本的时候遇到DOM对象中某个对象时,从全局对象中查找相应的对象名,然后根据对象名在其相应的上下文结构体中查找对应的属性和方法。
5、所述步骤41具体包括:
步骤411:首先为用户请求页面建立url存储结构,用户首次请求的URL作为重定向链树形结构的根节点;
步骤412:解析HTML页面,提取页面中<meta><script>标签下的url链接,加入树形结构中,并作为根节点的孩子节点;
步骤413:监控请求数据包如果请求URL是树形结构中的URL,则记录该请求的四元组即sip、sport、dip、dport;
步骤414:监控响应数据包,根据四元组找到相应的请求的URL,分析数据包是.JS页面或者html页面中的重定向URL,将这些URL作为该页面请求URL孩子节点;
步骤415:判断页面加载是否结束,从重定向链树形结构中提取特征;
步骤416:改进树的深度优先遍历算法,遍历重定向链树形结构,记录每一条分支链的长度,找到最大长度和最小长度;
步骤417:遍历时候,判断每一条分支重定向链是否存在自循环,用布尔值作为区分;
步骤418:计算每一条分支重定向链中URL的相似度;
步骤419:利用字符串匹配,判断每一条链中的URL,是否包含相同的域名,如果有则标示为1,没有标示为0;
步骤4110:正则表达式判断每一条分支链的URL是否直接包含IP。
本发明是针对WEB木马检测过程中网页特征提取。WEB木马检测前期非常重要的一部分就是要对可能掩藏在网页中的木马特征进行提取。本发明提出一种面向WEB木马检测网页特征提取方法。其中包括木马在传播过程中存在的特征,包括重定向链接表现出来的特征,以及网页本身所表现出的统计特征,标签个数,以及页面混淆程度特征。而这些特征提取,关注的重点是提取时间效率,即要尽可能快速定位需要的特征,并有效获得。时间效率的提升对整个检测系统时间性能具有重要影响。
本发明的方法提取有效的标签元素信息,获取重定向链接特征以及相应的页面特征,省略不必要的元素审查。具有较高的建模效率。该模型在提取过程中采用正则匹配以及脚本引擎方式,具有较高的提取速度。可移植性,该方法可以在浏览器以及网关处都能发挥其重要作用。
附图说明
图1为面向WEB木马检测的网页特征提取方法系统图。
图2数据获取流程图。
图3重定向链特征提取算法流程图。
图4重定向链结构图。
具体实施方式
本发明的面向WEB木马检测的网页特征提取方法,由数据获取模块、页面解析模块、脚本解析模块和提取特征模块完成。
步骤1,数据获取,是在获取页面解析的数据包,其获取流程如图1所示,步骤主要包括以下几步:
步骤11:当用一个客户端用户通过浏览器请求访问网页,系统捕获数据包后,首先判断该请求的客户端IP是否在请求链中,
步骤12:如果没有的话,则将该请求IP加入到客户端请求链中,
步骤13:利用四元组hash记录下用户的该条访问的URL,
步骤14:然后将数据包转发给WEB服务器,
步骤15:如果该请求已经存在则提取数据包中的请求URL,判断该URL是否是从网友中提取的URL,
步骤16:如果是的话则利用该请求的四元组hash计算保持其URL,然后再转发数据包给WEB服务器,
步骤17:WEB服务器返回响应时数据包处理,该步骤又包含几个子步骤。
步骤171:系统首先处理该数据包,读取数据包中的响应码如果是301 302的情况,则继续寻找响应首部的location部分,提取重定向URL,并根据响应的四元组找到其上一层URL,链接到重定向链中。
步骤172:如果响应码是正常的200,则首先判断是否是HTML页面,或者.js页面,然后分别利用页面解析模块和脚本解析模块处理这两种页面,直到所有的重定向以及页面统计提取完毕。
步骤173:最后由特征提取模块完成后面的工作。
步骤2,页面解析,包括以下步骤:
步骤21:利用正则匹配的方式匹配网页中的<meta>标签下的自动跳转的URL。
步骤22:利用正则表达式提取网页中的script脚本,以及script脚本中src的URL链接。
步骤3,脚本解析,包括但是不限于以下方法:
步骤31:将存在混淆的代码利用脚本引擎解混淆,然后提取脚本中存在的重定向链接。该步骤包含但不限于以下方法:
步骤311:利用SpiderMonkey提供的接口函数自定义DOM对象。在自定义对象中,需要我们封装解析过程中需要的方法和属性,首先定义JSProperty和JSFuncion的两个数组。步骤312:然后调用SpiderMonkey里面的接口函数JS_NewObject来创建object对象,并将整个创建的对象添加到SpiderMonkey的全局对象中。
步骤313:然后将方法和属性添加到运行过程中的上下文环境中。当解析脚本的时候遇到DOM对象中某个对象时,可以从全局对象中查找相应的对象名,然后根据对象名在其相应的上下文结构体中查找对应的属性和方法。
步骤32:同时统计脚本中存在某些特征函数的数量。
步骤4,特征提取,包括但是不限于以下方法:
步骤41:重定向链特征提取过程,其提取算法流程如附图2所示,主要包含以下步骤
步骤411:首先算法为用户请求页面建立url存储结构(hash链表+树形结构)。用户首次请求的URL作为重定向链树形结构的根节点。
步骤412:解析HTML页面,提取页面中<meta><script>标签下的url链接,加入树形结构中,并作为根节点的孩子节点。
步骤413:监控请求数据包如果请求URL是树形结构中的URL,则记录该请求的四元组(sip,sport,dip,dport)。
步骤414:监控响应数据包,根据四元组(sip,sport,dip,dport)找到相应的请求的URL,分析数据包可能是.JS页面或者html页面中的重定向URL,将这些URL作为该页面请求URL孩子节点。
步骤415:判断页面加载是否结束,从重定向链树形结构中提取特征。
步骤416:改进树的深度优先遍历算法,遍历重定向链树形结构,记录每一条分支链的长度,找到最大长度和最小长度。
步骤417:遍历时候,判断每一条分支重定向链是否存在自循环,用布尔值作为区分。
步骤418:计算每一条分支重定向链中URL的相似度。
步骤419:利用字符串匹配,判断每一条链中的URL,是否包含相同的域名,如果有则标示为1,没有标示为0。
步骤4110:正则表达式判断每一条分支链的URL是否直接包含IP。利用的正则表达式string=“http|https://(((25[0-5]|2[0-4]\d|[01]?\d\d?)($|(?!\.$)\.)){4}$/)/*”。
步骤42:页面统计特征提取。页面特征包括HTML页面中包含的标签特征,以及js页面中包含的特征。对页面特征的提取我们主要采用的是统计算法。在页面解析以及脚本解析的过程中,我们除了会提取其中包含的重定向链接,同时会利用全局变量记录一些相应的特征。在HTML页面中我们会统计产生重定向的标签个数即<meta><script>这两种标签分别的个数。在脚本解析处理中,由于页面混淆程度决定了木马存在的可能性,因此页面特征其他部分也会提取与混淆相关的页面特征,主要包含eval字符串的个数,document.write字符串的个数,escape字符串的个数以及与其对应的unescope字符串的个数还有encode和decode的。
1、所述步骤1的构建方法包括以下具体步骤:
当用一个客户端用户通过浏览器请求访问网页,系统捕获数据包后,首先判断该请求的客户端IP是否在请求链中,如果没有的话,则将该请求IP加入到客户端请求链中,模块首先利用四元组hash记录下用户的该条访问的URL,然后将数据包转发给WEB服务器,如果该请求已经存在则提取数据包中的请求URL,判断该URL是否是从网友中提取的URL,如果是的话则利用该请求的四元组hash计算保持其URL,然后再转发数据包给WEB服务器;WEB服务器返回响应时,系统首先处理该数据包,读取数据包中的响应码如果是301 302的情况,则继续寻找响应首部的location部分,提取重定向URL,并根据响应的四元组找到其上一层URL,链接到重定向链中。如果响应码是正常的200,则首先判断是否是HTML页面,或者.js页面,然后分别利用页面解析模块和脚本解析模块处理这两种页面,直到所有的重定向以及页面统计提取完毕;最后由特征提取模块完成后面的工作。
2、页面解析,主要解析的是<meta>以及<script>两种标签。首先当系统得到一个.HTML原始数据包后,先利用正则匹配的方式,提取页面中的<meta>以及<script>标签,并获取其中存在的URL,并将在一个HTML页面获得重定向URL存放在一个数据结构中;该并同时记录这两个标签的个数。
3、该模块主要解析JavaScript脚本,主要的工作是将存在混淆的代码利用脚本引擎解混淆,然后提取脚本中存在的重定向链接,并统计脚本中存在某些特征函数的数量。
4、特征提取,包括页面统计特征和重定向链特征。页面特征包括HTML页面中包含的标签特征,以及js页面中包含的特征。对页面特征的提取我们主要采用的是统计算法。在页面解析以及脚本解析的过程中,我们除了会提取其中包含的重定向链接,同时会利用全局变量记录一些相应的特征。在HTML页面中我们会统计产生重定向的标签个数即<meta><script>这两种标签分别的个数。在脚本解析处理中,由于页面混淆程度决定了木马存在的可能性,因此页面特征其他部分也会提取与混淆相关的页面特征,主要包含eval字符串的个数,document.write字符串的个数,escape字符串的个数以及与其对应的unescope字符串的个数还有encode和decode的个数。
在重定向链特征提取算法,大致上可以分为两步,第一步就是获取重定向链并将其利用树形数据结构与hash相结合得方式存放重定向链结构如图4所示。上一节中页面提取过程中当检测到一个HTML页面时,检测HTML页面中存在的重定向链接,然后对这些重定向链接进一步分析,提取其中在js文件,对其进行跟踪分析,提取更多的可能存在恶意的重定向链接。当所有的结点关系构建完毕后,我们就得到一个树形的重定向链。第二步,当提取到树形的重定向链后,需要利用改进的树形遍历算法,计算出每一条链的长度,给每一条链做标记,提取最长链以及最短链,并检查树形结构中的每一条链是否存在自循环;计算每条链中的URL与请求URL的相似度;判断每一条重定向分支链中是否有内部域名网址;访问每个叶子节点,利用正则匹配的方式检测每一个叶子节点的URL是否是直接采用IP。

Claims (4)

1.一种面向WEB木马检测的网页特征提取方法,其特征是:
步骤1:数据获取;
步骤11:当用一个客户端用户通过浏览器请求访问网页,系统捕获数据包后,首先判断该请求的客户端IP是否在请求链中;
步骤12:如果请求的客户端IP没有在请求链中,则将该请求的客户端IP加入到客户端请求链中;利用四元组hash记录下用户的该条访问的URL;然后将数据包转发给WEB服务器;
步骤13:如果该请求的客户端IP已经存在则提取数据包中的请求URL,判断该URL是否是从网页中提取的URL;如果是则利用该请求的四元组hash计算保持其URL,然后再转发数据包给WEB服务器;
步骤14:WEB服务器返回响应时数据包处理;
步骤2:页面解析;
步骤21:利用正则匹配的方式匹配网页中的<meta>标签下的自动跳转的URL;
步骤22:利用正则表达式提取网页中的script脚本,以及script脚本中src的URL链接;
步骤3:脚本解析;
步骤31:将存在混淆的代码利用脚本引擎解混淆,然后提取脚本中存在的重定向链接;
步骤32:同时统计脚本中存在的特征函数的数量;
步骤4:提取特征;
步骤41:重定向链特征提取过程;
步骤42:页面统计特征提取。
2.根据权利要求1所述的面向WEB木马检测的网页特征提取方法,其特征是所述WEB服务器返回响应时数据包处理具体包括:
步骤141:系统首先处理该数据包,读取数据包中的响应码如果是301 302的情况,则继续寻找响应首部的location部分,提取重定向URL,并根据响应的四元组找到其上一层URL,链接到重定向链中;
步骤142:如果响应码是正常的200,则首先判断是否是HTML页面,或者.js页面,然后分别利用页面解析模块和脚本解析模块处理这两种页面,直到所有的重定向以及页面统计提取完毕。
3.根据权利要求2所述的面向WEB木马检测的网页特征提取方法,其特征是步骤31具体包括:
步骤311:利用SpiderMonkey提供的接口函数自定义DOM对象,定义JSProperty和JSFuncion的两个数组;
步骤312:调用SpiderMonkey里面的接口函数JS_NewObject来创建object对象,并将整个创建的对象添加到SpiderMonkey的全局对象中;
步骤313:然后将方法和属性添加到运行过程中的上下文环境中,当解析脚本的时候遇到DOM对象中某个对象时,从全局对象中查找相应的对象名,然后根据对象名在其相应的上下文结构体中查找对应的属性和方法。
4.根据权利要求3所述的面向WEB木马检测的网页特征提取方法,其特征是所述步骤41具体包括:
步骤411:首先为用户请求页面建立URL存储结构,用户首次请求的URL作为重定向链树形结构的根节点;
步骤412:解析HTML页面,提取页面中<meta><script>标签下的URL链接,加入树形结构中,并作为根节点的孩子节点;
步骤413:监控请求数据包如果请求URL是树形结构中的URL,则记录该请求的四元组即sip、sport、dip、dport;
步骤414:监控响应数据包,根据四元组找到相应的请求的URL,分析数据包是.JS页面或者html页面中的重定向URL,将这些URL作为该页面请求URL孩子节点;
步骤415:判断页面加载是否结束,从重定向链树形结构中提取特征;
步骤416:改进树的深度优先遍历算法,遍历重定向链树形结构,记录每一条分支链的长度,找到最大长度和最小长度;
步骤417:遍历时候,判断每一条分支重定向链是否存在自循环,用布尔值作为区分;
步骤418:计算每一条分支重定向链中URL的相似度;
步骤419:利用字符串匹配,判断每一条链中的URL,是否包含相同的域名,如果有则标示为1,没有标示为0;
步骤4110:正则表达式判断每一条分支链的URL是否直接包含IP。
CN201610297843.1A 2016-05-06 2016-05-06 一种面向web木马检测的网页特征提取方法 Active CN106022126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610297843.1A CN106022126B (zh) 2016-05-06 2016-05-06 一种面向web木马检测的网页特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610297843.1A CN106022126B (zh) 2016-05-06 2016-05-06 一种面向web木马检测的网页特征提取方法

Publications (2)

Publication Number Publication Date
CN106022126A CN106022126A (zh) 2016-10-12
CN106022126B true CN106022126B (zh) 2018-07-24

Family

ID=57081212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610297843.1A Active CN106022126B (zh) 2016-05-06 2016-05-06 一种面向web木马检测的网页特征提取方法

Country Status (1)

Country Link
CN (1) CN106022126B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951784B (zh) * 2017-02-23 2020-07-07 南京航空航天大学 一种面向XSS漏洞检测的Web应用逆向分析方法
CN108667768B (zh) * 2017-03-29 2022-04-29 腾讯科技(深圳)有限公司 一种网络应用指纹的识别方法及装置
CN108282478A (zh) * 2018-01-23 2018-07-13 湖南科技学院 一种web站点安全检测方法、装置及计算机可读介质
CN108763930A (zh) * 2018-04-11 2018-11-06 哈尔滨工程大学 基于最小缓存模型的web页面流式解析方法
CN108694042B (zh) * 2018-06-15 2021-08-31 福州大学 网页中的JavaScript代码解混淆方法
CN109446445B (zh) * 2018-10-23 2022-03-22 北京乐我无限科技有限责任公司 一种资源获取方法及装置
CN109740100B (zh) * 2019-01-03 2022-02-22 北京字节跳动网络技术有限公司 一种网页节点嗅探方法、装置、设备和储存介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850950B1 (en) * 1999-02-11 2005-02-01 Pitney Bowes Inc. Method facilitating data stream parsing for use with electronic commerce
CN101820419A (zh) * 2010-03-23 2010-09-01 北京大学 一种挂马网页中网页木马挂接点自动定位方法
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850950B1 (en) * 1999-02-11 2005-02-01 Pitney Bowes Inc. Method facilitating data stream parsing for use with electronic commerce
CN101820419A (zh) * 2010-03-23 2010-09-01 北京大学 一种挂马网页中网页木马挂接点自动定位方法
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104462547A (zh) * 2014-12-25 2015-03-25 深圳联友科技有限公司 一种可配置的网页数据采集的方法及系统

Also Published As

Publication number Publication date
CN106022126A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106022126B (zh) 一种面向web木马检测的网页特征提取方法
CN104766014B (zh) 用于检测恶意网址的方法和系统
CN104125209B (zh) 恶意网址提示方法和路由器
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN104881603B (zh) 网页重定向漏洞检测方法及装置
CN105760379B (zh) 一种基于域内页面关联关系检测webshell页面的方法及装置
CN107463844B (zh) Web木马检测方法及系统
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
WO2012089005A1 (zh) 钓鱼网页检测方法及设备
WO2015139507A1 (zh) 一种检测下载文件安全性的方法及装置
CN102436564A (zh) 一种识别被篡改网页的方法及装置
CN111835777B (zh) 一种异常流量检测方法、装置、设备及介质
CN108881138B (zh) 一种网页请求识别方法及装置
WO2014000537A1 (zh) 一种钓鱼网站查找系统及方法
CN108351941B (zh) 分析装置、分析方法、以及计算机可读存储介质
CN104023046B (zh) 移动终端识别方法和装置
CN103312692B (zh) 链接地址安全性检测方法及装置
CN107784107B (zh) 基于逃逸行为分析的暗链检测方法及装置
CN103440454B (zh) 一种基于搜索引擎关键词的主动式蜜罐检测方法
CN103475673B (zh) 钓鱼网站识别方法、装置及客户端
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN108763930A (zh) 基于最小缓存模型的web页面流式解析方法
CN111125704A (zh) 一种网页挂马识别方法及系统
CN103853764B (zh) 终端信息同步方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant