CN109510731A - 多维度收集url链接及参数的方法、系统及设备 - Google Patents

多维度收集url链接及参数的方法、系统及设备 Download PDF

Info

Publication number
CN109510731A
CN109510731A CN201710835323.6A CN201710835323A CN109510731A CN 109510731 A CN109510731 A CN 109510731A CN 201710835323 A CN201710835323 A CN 201710835323A CN 109510731 A CN109510731 A CN 109510731A
Authority
CN
China
Prior art keywords
parameter
url link
url
link
various dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710835323.6A
Other languages
English (en)
Inventor
王涛
汤立为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201710835323.6A priority Critical patent/CN109510731A/zh
Publication of CN109510731A publication Critical patent/CN109510731A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/20Support for services
    • H04L49/208Port mirroring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

多维度收集URL链接及参数的方法、系统及设备,所述方法包括步骤:S1、通过爬虫方式获取URL链接与参数;S2、通过网络设备获取URL链接与参数;S3、通过WAF获取URL链接与参数;S4、通过Access log获取URL链接与参数;S5、对步骤S1‑S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。所述系统包括爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块,所述设备用于加载所述方法的程序。它能够全面的获取URL链接与参数。保证了系统进行安全检测与评估的全面性。

Description

多维度收集URL链接及参数的方法、系统及设备
技术领域
本发明涉及URL收集、漏洞检测,尤其涉及多维度收集URL链接及参数的方法、系统及设备。
背景技术
当前进行WEB系统安全测试,首先需要获取到该WEB系统中的URL链接和参数。当前获取URL链接和参数,一般通过网络爬虫方式进行。由于爬虫的局限性,往往不能很全面的获取系统中的URL链接和参数,特别是针对AJAX请求,几乎无法识别。无法获取到全面的URL链接,也就无法全面的对该系统进行安全测试、安全评估。
发明内容
为了解决上述技术问题,本发明提出一种基于B/S架构系统的多维度收集URL链接及参数的方法、系统及设备,它能够全面的获取URL链接与参数。保证了系统进行安全检测与评估的全面性。
为了实现上述目的,本发明的技术方案为:
基于B/S架构系统的多维度收集URL链接及参数的方法,包括步骤:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
步骤S1包括步骤:
S11,获取页面;
S12,分析所述页面的GET或POST请求;
S13,重复步骤S11-S12,直至整个WEB系统中的链接与参数获取完毕。
步骤S2包括步骤:
S21,通过交换机以及路由器上的镜像端口分析镜像流量;
S22,将访问WEB服务器的请求通过拆解数据包进行分析;
S23,整理全部WEB服务器的请求URL地址和参数。
步骤S21包括步骤:
S211,对路由器的流量数据包进行解析,若传输层显示为TCP,端口为80/8080/443,则解析数据包;否则不进行拆包。
步骤S22包括步骤:
S221,按照标准网络数据包组成格式,通过解析各个协议层的包头,分别依次拆除网络层包头、传输层包头;
S222,确认传输层是否以HTTP协议方式进行数据发送、接收。
步骤S23包括步骤:
S231,依次从每个解析出的数据包中获取WEB服务器URL地址;
S232,将新的URL地址库与旧的URL地址库进行比对,并将新的URL地址库中存在且旧的URL地址库中不存在的数据添加至URL数据库。
步骤S3包括步骤:
S31,分析所述WAF通过的流量,识别WEB请求,并记录通过指定站点的WEB请求;
S32,将获取的URL地址分类、记录并存储。
步骤S4包括步骤:
S41,将WEB容器中用户发送的请求信息记录到Access log中。
步骤S41中所述的请求信息包括:用户的请求方式GET/POST,URL地址与参数。
基于B/S架构系统的多维度收集URL链接及参数的系统,包括:
爬虫监测模块,用于通过爬虫方式获取URL链接与参数;
网络设备监测模块,用于通过网络设备获取URL链接与参数;
WAF监测模块,用于通过WAF获取URL链接与参数;
Access log监测模块,用于通过Access log获取URL链接与参数;去重模块,用于对所述爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
基于B/S架构系统的多维度收集URL链接及参数的设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
本发明的有益效果是:从四个维度获取WEB系统的URL接口和参数:爬虫、网络设备、WAF、Access log。综合这4个维度获取到的信息,进行URL去重和静态资源去除,能有效、更全面的获取到WEB系统中的URL链接和参数,从而进行更加全面的进行安全测试、安全评估。
附图说明
图1示出了根据本申请的流程图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合附图1对本发明作进一步说明。
如图1所示,基于B/S架构系统的多维度收集URL链接及参数的方法,包括步骤:
S1、通过爬虫方式获取URL链接与参数。
包括步骤:
S11,获取页面;
S12,分析所述页面的GET或POST请求;
S13,重复步骤S11-S12,直至整个WEB系统中的链接与参数获取完毕。
每个所述页面都是<html>双标签包含的整个内容,<body>区域是页面显示部分,<body>中包含各种form表单、<a>链接标签、rc、href链接属性。
步骤S12中分析的过程为:<body>中的form、a、src、href链接的资源,页面在加载时,会分析资源的访问路径,例如<ahref=”index.jsp?username=admin”>,此时就可以分析到a标签资源地址是index.jsp?username=admin。分析完后获取到新的访问资源,类似于上面的index.jsp?username=admin,获取到这个页面后(这个页面又包含一个完整的html节点文档,body节点中也有各种form、a、src、href链接资源),又获取到新的URL。S2、通过网络设备获取URL链接与参数。
包括步骤:
S21,通过交换机以及路由器上的镜像端口分析镜像流量。此步骤中的分析是指:通过软件进行分析,或定制化的硬件行分析。由于在网络上的数据包遵循TCP/IP协议格式,从下而上包含MAC封装、IP封装、TCP/UDP封装。应用层若是HTTP协议,则可获取到URL。类似于GET/index.jsp?username=admin HTTP/1.1Host:www.baidu.com。
步骤S21包括步骤:
S211,对路由器的流量(tcp、udp、icmp、vpn、ftp、arp、http、https等流量)数据包进行解析,若传输层显示为TCP,应用层包头端为80/8080/443端口,则解析数据包;否则不进行拆包。此步骤两处的解析相同,解析方式均是先查看以太网首部,再查看IP首部,再查看TCP首部,最后获取到应用层数据。附件图片是数据包封装格式、数据包样本。路由器获取到数据包后,先解析。
S22,将访问WEB服务器的请求通过拆解数据包进行分析;按照标准网络数据包组成格式,通过解析各个协议层的包头,分别依次拆除网络层包头、传输层包头;确认传输层是否以HTTP协议方式进行数据发送、接收。
拆解数据包,指的是遵照目前都是TCP/IP协议族标准网络数据包组成格式,通过解析各个协议层(最底层是MAC层,MAC解析后再解析IP层包头,再解析TCP层,再解析HTTP层。)的包头,分别依次拆解网络层包头、传输层包头,再确认传输层是否以HTTP协议方式进行数据发送、接收。判断是否以HTTP协议方式进行数据发送、接收的标准为:传输层端口号若是80、443、8080、7001、9080、9090,则判断应用层是HTTP协议内容。HTTP协议存在两种数据包:request、reply,存在两个客体:浏览器、服务器。request报文是浏览器发送给服务器,reply报文是服务器返回给浏览器。
S23,整理全部WEB服务器的请求URL地址和参数。依次从每个解析出的数据包中获取WEB服务器URL地址;将新的URL地址库与旧的URL地址库进行比对,并将新的URL地址库中存在且旧的URL地址库中不存在的数据添加至URL数据库。此处的URL数据是指,本技术方案中收集URL地址分为4个维度,每个维度收集时,都会建立一个URL数据库。此处存入该维度已有的URL数据库。
在S211步骤中,若传输层满足为TCP,端口为80/8080/443/7001/9080/9090时,能从应用数据中获取到一个URL地址,此时可以将这个URL地址添加到数据库中,形成URL地址库。下次再解析到新的URL地址时,将此URL地址与已有URL地址库(文中的旧URL地址库)进行对比,若比对确认已有URL地址库中无此URL地址,则将此URL地址添加到已有URL地址库中;若已有URL地址库中已有该URL地址,则不进行添加。即当获取到1个HTTP数据包,解析到1个URL地址,然后地址库就存在1条记录。后续获取到新的HTTP,也进行解析,然后添加到之前存在的旧URL地址库(已经存在1条)。URL地址库不断更新。
S3、通过WAF获取URL链接与参数。
包括步骤:
S31,分析所述WAF通过的流量,识别WEB请求:WAF根据TCP/IP协议族进行解析,依次进行MAC、IP、TCP拆包,发现数据包是否是WEB请求。WAF来进行记录通过指定站点的WEB请求,将识别到的URL地址存入到数据库。
S32,将获取的URL地址分类、记录并存储。
S4、通过Access log获取URL链接与参数。
包括步骤:
S41,将WEB容器中用户发送的请求信息记录到Access log中。默认情况下WEB服务器(包括Nginx、Apache、Tomcat、Jetty、Jboss、Weblogic、IIS)等会在access log中记录完整GET类的URL请求,而不会记录完整POST类的URL请求。目前通过某些第三方组件,例如dumpio、requests嵌入到Apache可完成POST类参数的完整记录,其余的WEB服务器则需要自行研发组件嵌入到各服务器进行POST类完整URL获取。
步骤S41中所述的请求信息包括:用户的请求方式GET/POST,URL地址与参数。
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
基于B/S架构系统的多维度收集URL链接及参数的系统,包括:
爬虫监测模块,用于通过爬虫方式获取URL链接与参数;
网络设备监测模块,用于通过网络设备获取URL链接与参数;
WAF监测模块,用于通过WAF获取URL链接与参数;
Access log监测模块,用于通过Access log获取URL链接与参数;
去重模块,用于对所述爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
基于B/S架构系统的多维度收集URL链接及参数的设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,包括步骤:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
2.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S1包括步骤:
S11,获取页面;
S12,分析所述页面的GET或POST请求;
S13,重复步骤S11-S12,直至整个WEB系统中的链接与参数获取完毕。
3.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S2包括步骤:
S21,通过交换机以及路由器上的镜像端口分析镜像流量;
S22,将访问WEB服务器的请求通过拆解数据包进行分析;
S23,整理全部WEB服务器的请求URL地址和参数。
4.根据权利要求3所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S21包括步骤:
S211,对路由器的流量数据包进行解析,若传输层显示为TCP,端口为80/8080/443,则解析数据包;否则不进行拆包。
5.根据权利要求3所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S22包括步骤:
S221,按照标准网络数据包组成格式,通过解析各个协议层的包头,分别依次拆除网络层包头、传输层包头;
S222,确认传输层是否以HTTP协议方式进行数据发送、接收。
6.根据权利要求3所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S23包括步骤:
S231,依次从每个解析出的数据包中获取WEB服务器URL地址;
S232,将新的URL地址库与旧的URL地址库进行比对,并将新的URL地址库中存在且旧的URL地址库中不存在的数据添加至URL数据库。
7.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S3包括步骤:
S31,分析所述WAF通过的流量,识别WEB请求,并记录通过指定站点的WEB请求;
S32,将获取的URL地址分类、记录并存储。
8.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S4包括步骤:
S41,将WEB容器中用户发送的请求信息记录到Access log中。
9.根据权利要求8所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S41中所述的请求信息包括:用户的请求方式GET/POST,URL地址与参数。
10.基于B/S架构系统的多维度收集URL链接及参数的系统,其特征在于,包括:
爬虫监测模块,用于通过爬虫方式获取URL链接与参数;
网络设备监测模块,用于通过网络设备获取URL链接与参数;
WAF监测模块,用于通过WAF获取URL链接与参数;
Access log监测模块,用于通过Access log获取URL链接与参数;去重模块,用于对所述爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
11.基于B/S架构系统的多维度收集URL链接及参数的设备,其特征在于,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
CN201710835323.6A 2017-09-15 2017-09-15 多维度收集url链接及参数的方法、系统及设备 Pending CN109510731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710835323.6A CN109510731A (zh) 2017-09-15 2017-09-15 多维度收集url链接及参数的方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710835323.6A CN109510731A (zh) 2017-09-15 2017-09-15 多维度收集url链接及参数的方法、系统及设备

Publications (1)

Publication Number Publication Date
CN109510731A true CN109510731A (zh) 2019-03-22

Family

ID=65745142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710835323.6A Pending CN109510731A (zh) 2017-09-15 2017-09-15 多维度收集url链接及参数的方法、系统及设备

Country Status (1)

Country Link
CN (1) CN109510731A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107177A1 (en) * 2002-06-17 2004-06-03 Covill Bruce Elliott Automated content filter and URL translation for dynamically generated web documents
CN101355587A (zh) * 2008-09-17 2009-01-28 杭州华三通信技术有限公司 Url信息获取方法和装置及搜索引擎实现方法及系统
CN101808093A (zh) * 2010-03-15 2010-08-18 北京安天电子设备有限公司 一种对web安全进行自动化检测的系统和方法
CN103365865A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 数据存储方法、数据下载方法及其装置
CN103685294A (zh) * 2013-12-20 2014-03-26 北京奇虎科技有限公司 拒绝服务攻击的攻击源的识别方法和装置
CN105653563A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN105791273A (zh) * 2016-02-24 2016-07-20 上海携程商务有限公司 web漏洞扫描系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107177A1 (en) * 2002-06-17 2004-06-03 Covill Bruce Elliott Automated content filter and URL translation for dynamically generated web documents
CN101355587A (zh) * 2008-09-17 2009-01-28 杭州华三通信技术有限公司 Url信息获取方法和装置及搜索引擎实现方法及系统
CN101808093A (zh) * 2010-03-15 2010-08-18 北京安天电子设备有限公司 一种对web安全进行自动化检测的系统和方法
CN103365865A (zh) * 2012-03-29 2013-10-23 腾讯科技(深圳)有限公司 数据存储方法、数据下载方法及其装置
CN103685294A (zh) * 2013-12-20 2014-03-26 北京奇虎科技有限公司 拒绝服务攻击的攻击源的识别方法和装置
CN105653563A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN105791273A (zh) * 2016-02-24 2016-07-20 上海携程商务有限公司 web漏洞扫描系统

Similar Documents

Publication Publication Date Title
CN104348803B (zh) 链路劫持检测方法、装置、用户设备、分析服务器及系统
US20130191890A1 (en) Method and system for user identity recognition based on specific information
US9208309B2 (en) Dynamically scanning a web application through use of web traffic information
US9379952B2 (en) Monitoring NAT behaviors through URI dereferences in web browsers
CN106534146B (zh) 一种安全监测系统及方法
CN103001817B (zh) 一种实时检测网页跨域请求的方法和装置
US9853876B1 (en) Mobile application identification in network traffic via a search engine approach
CN107124430B (zh) 页面劫持监控方法、装置、系统和存储介质
EP1769379A2 (en) Interferring server state in a stateless communication protocol
US20210168049A1 (en) Quality of service monitoring method, device, and system
US10250465B2 (en) Network traffic monitoring and classification
US20080162690A1 (en) Application Management System
CN108667770A (zh) 一种网站的漏洞测试方法、服务器及系统
CN104301304A (zh) 基于大型isp互联口的漏洞检测系统及其方法
Diederichsen et al. A graph database-based approach to analyze network log files
CN108985053A (zh) 分布式数据处理方法及装置
CN102271331B (zh) 一种检测业务提供商sp站点可靠性的方法及系统
US10419351B1 (en) System and method for extracting signatures from controlled execution of applications and application codes retrieved from an application source
CN111131236A (zh) 一种web指纹检测装置、方法、设备及介质
CN105119764B (zh) 用于流量监控的方法和装置
CN108259416B (zh) 检测恶意网页的方法及相关设备
US20140337069A1 (en) Deriving business transactions from web logs
CN108712306A (zh) 一种信息系统自动化巡检平台和巡检方法
CN109510731A (zh) 多维度收集url链接及参数的方法、系统及设备
CN110572394A (zh) 访问控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190322