CN109510731A - 多维度收集url链接及参数的方法、系统及设备 - Google Patents
多维度收集url链接及参数的方法、系统及设备 Download PDFInfo
- Publication number
- CN109510731A CN109510731A CN201710835323.6A CN201710835323A CN109510731A CN 109510731 A CN109510731 A CN 109510731A CN 201710835323 A CN201710835323 A CN 201710835323A CN 109510731 A CN109510731 A CN 109510731A
- Authority
- CN
- China
- Prior art keywords
- parameter
- url link
- url
- link
- various dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/20—Support for services
- H04L49/208—Port mirroring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1433—Vulnerability analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
多维度收集URL链接及参数的方法、系统及设备,所述方法包括步骤:S1、通过爬虫方式获取URL链接与参数;S2、通过网络设备获取URL链接与参数;S3、通过WAF获取URL链接与参数;S4、通过Access log获取URL链接与参数;S5、对步骤S1‑S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。所述系统包括爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块,所述设备用于加载所述方法的程序。它能够全面的获取URL链接与参数。保证了系统进行安全检测与评估的全面性。
Description
技术领域
本发明涉及URL收集、漏洞检测,尤其涉及多维度收集URL链接及参数的方法、系统及设备。
背景技术
当前进行WEB系统安全测试,首先需要获取到该WEB系统中的URL链接和参数。当前获取URL链接和参数,一般通过网络爬虫方式进行。由于爬虫的局限性,往往不能很全面的获取系统中的URL链接和参数,特别是针对AJAX请求,几乎无法识别。无法获取到全面的URL链接,也就无法全面的对该系统进行安全测试、安全评估。
发明内容
为了解决上述技术问题,本发明提出一种基于B/S架构系统的多维度收集URL链接及参数的方法、系统及设备,它能够全面的获取URL链接与参数。保证了系统进行安全检测与评估的全面性。
为了实现上述目的,本发明的技术方案为:
基于B/S架构系统的多维度收集URL链接及参数的方法,包括步骤:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
步骤S1包括步骤:
S11,获取页面;
S12,分析所述页面的GET或POST请求;
S13,重复步骤S11-S12,直至整个WEB系统中的链接与参数获取完毕。
步骤S2包括步骤:
S21,通过交换机以及路由器上的镜像端口分析镜像流量;
S22,将访问WEB服务器的请求通过拆解数据包进行分析;
S23,整理全部WEB服务器的请求URL地址和参数。
步骤S21包括步骤:
S211,对路由器的流量数据包进行解析,若传输层显示为TCP,端口为80/8080/443,则解析数据包;否则不进行拆包。
步骤S22包括步骤:
S221,按照标准网络数据包组成格式,通过解析各个协议层的包头,分别依次拆除网络层包头、传输层包头;
S222,确认传输层是否以HTTP协议方式进行数据发送、接收。
步骤S23包括步骤:
S231,依次从每个解析出的数据包中获取WEB服务器URL地址;
S232,将新的URL地址库与旧的URL地址库进行比对,并将新的URL地址库中存在且旧的URL地址库中不存在的数据添加至URL数据库。
步骤S3包括步骤:
S31,分析所述WAF通过的流量,识别WEB请求,并记录通过指定站点的WEB请求;
S32,将获取的URL地址分类、记录并存储。
步骤S4包括步骤:
S41,将WEB容器中用户发送的请求信息记录到Access log中。
步骤S41中所述的请求信息包括:用户的请求方式GET/POST,URL地址与参数。
基于B/S架构系统的多维度收集URL链接及参数的系统,包括:
爬虫监测模块,用于通过爬虫方式获取URL链接与参数;
网络设备监测模块,用于通过网络设备获取URL链接与参数;
WAF监测模块,用于通过WAF获取URL链接与参数;
Access log监测模块,用于通过Access log获取URL链接与参数;去重模块,用于对所述爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
基于B/S架构系统的多维度收集URL链接及参数的设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
本发明的有益效果是:从四个维度获取WEB系统的URL接口和参数:爬虫、网络设备、WAF、Access log。综合这4个维度获取到的信息,进行URL去重和静态资源去除,能有效、更全面的获取到WEB系统中的URL链接和参数,从而进行更加全面的进行安全测试、安全评估。
附图说明
图1示出了根据本申请的流程图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合附图1对本发明作进一步说明。
如图1所示,基于B/S架构系统的多维度收集URL链接及参数的方法,包括步骤:
S1、通过爬虫方式获取URL链接与参数。
包括步骤:
S11,获取页面;
S12,分析所述页面的GET或POST请求;
S13,重复步骤S11-S12,直至整个WEB系统中的链接与参数获取完毕。
每个所述页面都是<html>双标签包含的整个内容,<body>区域是页面显示部分,<body>中包含各种form表单、<a>链接标签、rc、href链接属性。
步骤S12中分析的过程为:<body>中的form、a、src、href链接的资源,页面在加载时,会分析资源的访问路径,例如<ahref=”index.jsp?username=admin”>,此时就可以分析到a标签资源地址是index.jsp?username=admin。分析完后获取到新的访问资源,类似于上面的index.jsp?username=admin,获取到这个页面后(这个页面又包含一个完整的html节点文档,body节点中也有各种form、a、src、href链接资源),又获取到新的URL。S2、通过网络设备获取URL链接与参数。
包括步骤:
S21,通过交换机以及路由器上的镜像端口分析镜像流量。此步骤中的分析是指:通过软件进行分析,或定制化的硬件行分析。由于在网络上的数据包遵循TCP/IP协议格式,从下而上包含MAC封装、IP封装、TCP/UDP封装。应用层若是HTTP协议,则可获取到URL。类似于GET/index.jsp?username=admin HTTP/1.1Host:www.baidu.com。
步骤S21包括步骤:
S211,对路由器的流量(tcp、udp、icmp、vpn、ftp、arp、http、https等流量)数据包进行解析,若传输层显示为TCP,应用层包头端为80/8080/443端口,则解析数据包;否则不进行拆包。此步骤两处的解析相同,解析方式均是先查看以太网首部,再查看IP首部,再查看TCP首部,最后获取到应用层数据。附件图片是数据包封装格式、数据包样本。路由器获取到数据包后,先解析。
S22,将访问WEB服务器的请求通过拆解数据包进行分析;按照标准网络数据包组成格式,通过解析各个协议层的包头,分别依次拆除网络层包头、传输层包头;确认传输层是否以HTTP协议方式进行数据发送、接收。
拆解数据包,指的是遵照目前都是TCP/IP协议族标准网络数据包组成格式,通过解析各个协议层(最底层是MAC层,MAC解析后再解析IP层包头,再解析TCP层,再解析HTTP层。)的包头,分别依次拆解网络层包头、传输层包头,再确认传输层是否以HTTP协议方式进行数据发送、接收。判断是否以HTTP协议方式进行数据发送、接收的标准为:传输层端口号若是80、443、8080、7001、9080、9090,则判断应用层是HTTP协议内容。HTTP协议存在两种数据包:request、reply,存在两个客体:浏览器、服务器。request报文是浏览器发送给服务器,reply报文是服务器返回给浏览器。
S23,整理全部WEB服务器的请求URL地址和参数。依次从每个解析出的数据包中获取WEB服务器URL地址;将新的URL地址库与旧的URL地址库进行比对,并将新的URL地址库中存在且旧的URL地址库中不存在的数据添加至URL数据库。此处的URL数据是指,本技术方案中收集URL地址分为4个维度,每个维度收集时,都会建立一个URL数据库。此处存入该维度已有的URL数据库。
在S211步骤中,若传输层满足为TCP,端口为80/8080/443/7001/9080/9090时,能从应用数据中获取到一个URL地址,此时可以将这个URL地址添加到数据库中,形成URL地址库。下次再解析到新的URL地址时,将此URL地址与已有URL地址库(文中的旧URL地址库)进行对比,若比对确认已有URL地址库中无此URL地址,则将此URL地址添加到已有URL地址库中;若已有URL地址库中已有该URL地址,则不进行添加。即当获取到1个HTTP数据包,解析到1个URL地址,然后地址库就存在1条记录。后续获取到新的HTTP,也进行解析,然后添加到之前存在的旧URL地址库(已经存在1条)。URL地址库不断更新。
S3、通过WAF获取URL链接与参数。
包括步骤:
S31,分析所述WAF通过的流量,识别WEB请求:WAF根据TCP/IP协议族进行解析,依次进行MAC、IP、TCP拆包,发现数据包是否是WEB请求。WAF来进行记录通过指定站点的WEB请求,将识别到的URL地址存入到数据库。
S32,将获取的URL地址分类、记录并存储。
S4、通过Access log获取URL链接与参数。
包括步骤:
S41,将WEB容器中用户发送的请求信息记录到Access log中。默认情况下WEB服务器(包括Nginx、Apache、Tomcat、Jetty、Jboss、Weblogic、IIS)等会在access log中记录完整GET类的URL请求,而不会记录完整POST类的URL请求。目前通过某些第三方组件,例如dumpio、requests嵌入到Apache可完成POST类参数的完整记录,其余的WEB服务器则需要自行研发组件嵌入到各服务器进行POST类完整URL获取。
步骤S41中所述的请求信息包括:用户的请求方式GET/POST,URL地址与参数。
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
基于B/S架构系统的多维度收集URL链接及参数的系统,包括:
爬虫监测模块,用于通过爬虫方式获取URL链接与参数;
网络设备监测模块,用于通过网络设备获取URL链接与参数;
WAF监测模块,用于通过WAF获取URL链接与参数;
Access log监测模块,用于通过Access log获取URL链接与参数;
去重模块,用于对所述爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
基于B/S架构系统的多维度收集URL链接及参数的设备,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (11)
1.基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,包括步骤:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
2.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S1包括步骤:
S11,获取页面;
S12,分析所述页面的GET或POST请求;
S13,重复步骤S11-S12,直至整个WEB系统中的链接与参数获取完毕。
3.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S2包括步骤:
S21,通过交换机以及路由器上的镜像端口分析镜像流量;
S22,将访问WEB服务器的请求通过拆解数据包进行分析;
S23,整理全部WEB服务器的请求URL地址和参数。
4.根据权利要求3所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S21包括步骤:
S211,对路由器的流量数据包进行解析,若传输层显示为TCP,端口为80/8080/443,则解析数据包;否则不进行拆包。
5.根据权利要求3所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S22包括步骤:
S221,按照标准网络数据包组成格式,通过解析各个协议层的包头,分别依次拆除网络层包头、传输层包头;
S222,确认传输层是否以HTTP协议方式进行数据发送、接收。
6.根据权利要求3所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S23包括步骤:
S231,依次从每个解析出的数据包中获取WEB服务器URL地址;
S232,将新的URL地址库与旧的URL地址库进行比对,并将新的URL地址库中存在且旧的URL地址库中不存在的数据添加至URL数据库。
7.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S3包括步骤:
S31,分析所述WAF通过的流量,识别WEB请求,并记录通过指定站点的WEB请求;
S32,将获取的URL地址分类、记录并存储。
8.根据权利要求1所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S4包括步骤:
S41,将WEB容器中用户发送的请求信息记录到Access log中。
9.根据权利要求8所述的基于B/S架构系统的多维度收集URL链接及参数的方法,其特征在于,步骤S41中所述的请求信息包括:用户的请求方式GET/POST,URL地址与参数。
10.基于B/S架构系统的多维度收集URL链接及参数的系统,其特征在于,包括:
爬虫监测模块,用于通过爬虫方式获取URL链接与参数;
网络设备监测模块,用于通过网络设备获取URL链接与参数;
WAF监测模块,用于通过WAF获取URL链接与参数;
Access log监测模块,用于通过Access log获取URL链接与参数;去重模块,用于对所述爬虫监测模块、网络设备监测模块、WAF监测模块以及Access log监测模块获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
11.基于B/S架构系统的多维度收集URL链接及参数的设备,其特征在于,包括存储有计算机程序的计算机可读介质,所述程序被运行用于执行:
S1、通过爬虫方式获取URL链接与参数;
S2、通过网络设备获取URL链接与参数;
S3、通过WAF获取URL链接与参数;
S4、通过Access log获取URL链接与参数;
S5、对步骤S1-S4获取的URL链接与参数进行Hash去重,获取总的URL链接与参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710835323.6A CN109510731A (zh) | 2017-09-15 | 2017-09-15 | 多维度收集url链接及参数的方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710835323.6A CN109510731A (zh) | 2017-09-15 | 2017-09-15 | 多维度收集url链接及参数的方法、系统及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109510731A true CN109510731A (zh) | 2019-03-22 |
Family
ID=65745142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710835323.6A Pending CN109510731A (zh) | 2017-09-15 | 2017-09-15 | 多维度收集url链接及参数的方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109510731A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040107177A1 (en) * | 2002-06-17 | 2004-06-03 | Covill Bruce Elliott | Automated content filter and URL translation for dynamically generated web documents |
CN101355587A (zh) * | 2008-09-17 | 2009-01-28 | 杭州华三通信技术有限公司 | Url信息获取方法和装置及搜索引擎实现方法及系统 |
CN101808093A (zh) * | 2010-03-15 | 2010-08-18 | 北京安天电子设备有限公司 | 一种对web安全进行自动化检测的系统和方法 |
CN103365865A (zh) * | 2012-03-29 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 数据存储方法、数据下载方法及其装置 |
CN103685294A (zh) * | 2013-12-20 | 2014-03-26 | 北京奇虎科技有限公司 | 拒绝服务攻击的攻击源的识别方法和装置 |
CN105653563A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置 |
CN105791273A (zh) * | 2016-02-24 | 2016-07-20 | 上海携程商务有限公司 | web漏洞扫描系统 |
-
2017
- 2017-09-15 CN CN201710835323.6A patent/CN109510731A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040107177A1 (en) * | 2002-06-17 | 2004-06-03 | Covill Bruce Elliott | Automated content filter and URL translation for dynamically generated web documents |
CN101355587A (zh) * | 2008-09-17 | 2009-01-28 | 杭州华三通信技术有限公司 | Url信息获取方法和装置及搜索引擎实现方法及系统 |
CN101808093A (zh) * | 2010-03-15 | 2010-08-18 | 北京安天电子设备有限公司 | 一种对web安全进行自动化检测的系统和方法 |
CN103365865A (zh) * | 2012-03-29 | 2013-10-23 | 腾讯科技(深圳)有限公司 | 数据存储方法、数据下载方法及其装置 |
CN103685294A (zh) * | 2013-12-20 | 2014-03-26 | 北京奇虎科技有限公司 | 拒绝服务攻击的攻击源的识别方法和装置 |
CN105653563A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置 |
CN105791273A (zh) * | 2016-02-24 | 2016-07-20 | 上海携程商务有限公司 | web漏洞扫描系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104348803B (zh) | 链路劫持检测方法、装置、用户设备、分析服务器及系统 | |
US20130191890A1 (en) | Method and system for user identity recognition based on specific information | |
US9208309B2 (en) | Dynamically scanning a web application through use of web traffic information | |
US9379952B2 (en) | Monitoring NAT behaviors through URI dereferences in web browsers | |
CN106534146B (zh) | 一种安全监测系统及方法 | |
CN103001817B (zh) | 一种实时检测网页跨域请求的方法和装置 | |
US9853876B1 (en) | Mobile application identification in network traffic via a search engine approach | |
CN107124430B (zh) | 页面劫持监控方法、装置、系统和存储介质 | |
EP1769379A2 (en) | Interferring server state in a stateless communication protocol | |
US20210168049A1 (en) | Quality of service monitoring method, device, and system | |
US10250465B2 (en) | Network traffic monitoring and classification | |
US20080162690A1 (en) | Application Management System | |
CN108667770A (zh) | 一种网站的漏洞测试方法、服务器及系统 | |
CN104301304A (zh) | 基于大型isp互联口的漏洞检测系统及其方法 | |
Diederichsen et al. | A graph database-based approach to analyze network log files | |
CN108985053A (zh) | 分布式数据处理方法及装置 | |
CN102271331B (zh) | 一种检测业务提供商sp站点可靠性的方法及系统 | |
US10419351B1 (en) | System and method for extracting signatures from controlled execution of applications and application codes retrieved from an application source | |
CN111131236A (zh) | 一种web指纹检测装置、方法、设备及介质 | |
CN105119764B (zh) | 用于流量监控的方法和装置 | |
CN108259416B (zh) | 检测恶意网页的方法及相关设备 | |
US20140337069A1 (en) | Deriving business transactions from web logs | |
CN108712306A (zh) | 一种信息系统自动化巡检平台和巡检方法 | |
CN109510731A (zh) | 多维度收集url链接及参数的方法、系统及设备 | |
CN110572394A (zh) | 访问控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190322 |