CN108429747A - 一种大规模Web服务器信息采集方法 - Google Patents
一种大规模Web服务器信息采集方法 Download PDFInfo
- Publication number
- CN108429747A CN108429747A CN201810189206.1A CN201810189206A CN108429747A CN 108429747 A CN108429747 A CN 108429747A CN 201810189206 A CN201810189206 A CN 201810189206A CN 108429747 A CN108429747 A CN 108429747A
- Authority
- CN
- China
- Prior art keywords
- web server
- server
- web
- information
- collecting method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种大规模Web服务器信息采集方法基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,本发明一种大规模Web服务器信息采集方法,通过Web服务器分布情况及指纹库,可以通过探测网络空间中的I P地址,获取Web服务器的分布情况,获取Web容器、Web服务器语言、Web开发框架、Web应用、Web前段框架等指纹信息,能够形成指纹库,可以通过Web服务器分布情况及指纹库,快速对一个新站点进行建站框架判定以及脆弱性分析,能够根据漏洞威胁对象确定受影响Web服务器的数量及分布范围,从而可以对网络空间Web服务器整体安全性进行评估和预警。
Description
技术领域
本发明涉及于网络信息安全技术领域,具体涉及一种大规模Web服务器信息采集方法。
背景技术
近年来,随着互联网的高速发展,越来越多的Web站点应运而生,大量有价值的信息以及资源被放置于Web服务器中,目前难以通过探测网络空间中的IP地址,获取Web服务器的分布情况,获取Web容器、Web服务器语言、Web开发框架、Web应用、Web前段框架等指纹信息,无法形成指纹库,而且没有办法通过Web服务器分布情况及指纹库,快速对一个新站点进行建站框架判定以及脆弱性分析,无法根据漏洞威胁对象确定受影响Web服务器的数量及分布范围,从而不能够对网络空间Web服务器整体安全性进行评估和预警。
发明内容
本发明的主要目的在于提供一种大规模Web服务器信息采集方法,以解决目前难以获取Web服务器的分布情况,获取Web服务器内的指纹信息,无法形成指纹库,而且没有办法快速对一个新站点进行建站框架判定以及脆弱性分析,不能够对网络空间Web服务器整体安全性进行评估和预警的问题。
为解决上述技术问题,本发明所采用的技术方案是:其基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,其工作流分为两大步:1、核心数据库将初始探测目标的IP地址发送给Web服务器发现模块,模块按照地址对初始目标服务器集群进行扫描,识别其中的Web服务器,并将发现的Web服务器地址回传给核心数据库进行存储,2、核心数据库将发现的Web服务器地址发送给Web服务器指纹识别模块,接到相关命令后,识别模块对Web服务器进行应用层的指纹扫描和收集,按照相应规则提取核心目标指纹,最后将提取出来的指纹扫描结果回传给核心数据库。
进一步的,步骤1中大规模Web服务器发现过程,此过程可以成功的从海量IP地址中发现开放Web服务的服务器的IP、端口号、开放情况,包含端口扫描、高级IP信息获取与识别两个阶段。
进一步的,端口扫描,探测服务器的端口开放情况,采用模块化设计,端口扫描模块动态加载扫描规则插件执行扫描任务,扫描规则插件中规定了扫描方式,扫描速度限定、扫描结果格式等。
进一步的,高级IP信息获取与识别,在确定服务器目标端口开放的情况下,获取端口开放的服务相关信息,采用模块化设计,IP信息获取模块加载获取规则插件实现对IP地理位置信息、主机名、所在网段、网络名称、运营商、域名等信息的获取;IP信息识别模块加载识别规则插件,实现对IP属性的识别,即判断IP是否为代理服务器、是否为匿名网络、是否为CDN节点等。
进一步的,步骤2中Web服务器指纹识别模块过程,此过程利用Web服务器发现过程提取到的信息,通过网站爬虫技术抓取网站内容,并对内容进行分析,进一步提取关键指纹信息,建立指纹库,包含主控服务器以及用来抓取网站内容的爬虫程序两个部分。
进一步的,主控服务器包含主要控制逻辑,负责和数据库之间的数据交互,定期从数据库获取需要扫描的目标服务器IP地址,以及将爬虫抓取的结果写回数据库中;负责和爬虫节点间的数据交互,主要是任务的分发以及数据的回取。
进一步的,爬虫为分布式,负责网站信息的收集以及数据的提取,采用开源的爬虫框架进行开发,采用分布式构架满足高速扫描、能够快速能力拓展的需要;同时研究定制私有的指纹规则,用来对抓取到的冗余网站数据进行提取和匹配;最后将符合要求的服务器指纹信息回传给主控服务器。
由上述对本发明信息采集的描述可知,和现有技术相比,本发明具有如下优点:
本发明一种大规模Web服务器信息采集方法,通过Web服务器分布情况及指纹库,可以通过探测网络空间中的IP地址,获取Web服务器的分布情况,获取Web容器、Web服务器语言、Web开发框架、Web应用、Web前段框架等指纹信息,能够形成指纹库,可以通过Web服务器分布情况及指纹库,快速对一个新站点进行建站框架判定以及脆弱性分析,能够根据漏洞威胁对象确定受影响Web服务器的数量及分布范围,从而可以对网络空间Web服务器整体安全性进行评估和预警。
附图说明
图1为大规模Web服务器信息采集基本构成图;
图2为大规模Web服务器发现框架图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种大规模Web服务器信息采集方法,其基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,核心数据库将初始探测目标的IP地址发送给Web服务器发现模块,模块按照地址对初始目标服务器集群进行扫描,识别其中的Web服务器,并将发现的Web服务器地址回传给核心数据库进行存储,核心数据库将发现的Web服务器地址发送给Web服务器指纹识别模块,接到相关命令后,识别模块对Web服务器进行应用层的指纹扫描和收集,按照相应规则提取核心目标指纹,最后将提取出来的指纹扫描结果回传给核心数据库,Web服务器发现过程,此过程可以成功的从海量IP地址中发现开放Web服务的服务器的IP、端口号、开放情况,包含端口扫描、高级IP信息获取与识别两个阶段,端口扫描,探测服务器的端口开放情况,采用模块化设计,端口扫描模块动态加载扫描规则插件执行扫描任务,扫描规则插件中规定了扫描方式,扫描速度限定、扫描结果格式等,高级IP信息获取与识别,在确定服务器目标端口开放的情况下,获取端口开放的服务相关信息,采用模块化设计,IP信息获取模块加载获取规则插件实现对IP地理位置信息、主机名、所在网段、网络名称、运营商、域名等信息的获取;IP信息识别模块加载识别规则插件,实现对IP属性的识别,即判断IP是否为代理服务器、是否为匿名网络、是否为CDN节点等,Web服务器指纹识别模块过程,此过程利用Web服务器发现过程提取到的信息,通过网站爬虫技术抓取网站内容,并对内容进行分析,进一步提取关键指纹信息,建立指纹库,包含主控服务器以及用来抓取网站内容的爬虫程序两个部分,主控服务器包含主要控制逻辑,负责和数据库之间的数据交互,定期从数据库获取需要扫描的目标服务器IP地址,以及将爬虫抓取的结果写回数据库中;负责和爬虫节点间的数据交互,主要是任务的分发以及数据的回取,爬虫为分布式,负责网站信息的收集以及数据的提取,采用开源的爬虫框架进行开发,采用分布式构架满足高速扫描、能够快速能力拓展的需要;同时研究定制私有的指纹规则,用来对抓取到的冗余网站数据进行提取和匹配;最后将符合要求的服务器指纹信息回传给主控服务器。
实施例2
一种大规模Web服务器信息采集方法,Web服务器发现具体步骤为:任务获取:主控服务器从数据库获取任务文本文件,文件中包含需要扫描的目标服务器IP地址段;任务分发:将任务以文本形式保存于本地之后,主控服务器负责任务的分发,将任务指派给对应的Nmap扫描程序;任务监控:Nmap程序任务执行完成后,会自动结束自身进程,所以任务监控程序每间隔一定时间,对所有Nmap程序序列进行一次轮询,如果发现有Nmap进程消失,则给该Nmap程序重新分配任务。同时,添加计数器,对执行时间过长的Nmap进行判断,如果严重超时则判定为程序异常,主控服务器负责将该Nmap程序重启;结果回传:当Nmap完成相应扫描后将扫描结果回传给主控服务器,主控服务器从扫描结果中分析提取出IP、端口号、开放情况三个字段,再通过HTTP协议传回数据库,完成Web服务器发现流程;大规模Web服务器指纹识别具体步骤为:任务获取:主控服务器从数据库获取任务文本文件,文件中包含需要爬虫程序执行的相应Web服务器IP地址块,并赋予任务对应的TaskID作为文件名;任务分发:将任务以文件形式保存于本地之后,主控服务器启动爬虫程序并赋予爬虫程序相应的ID,按照任务获取时分配的TaskID将任务分发给对应的ID的爬虫程序,形成{TaskID:ID}的键值对,用于标识唯一的任务和任务执行对象;任务监控:爬虫程序任务执行完成后,会自动结束自身进程,所以任务监控程序按照{TaskID:ID}键值对,每间隔一定的时间,对所有爬虫序列进行一次轮询,如果发现有键值对所对应的爬虫进程消失,则给该爬虫重新分配任务。同时添加计数器,对执行时间过长的爬虫进行判断,如果严重超时,则判定为程序异常,主控服务器负责将该爬虫程序重启;结果回传:首先对爬虫回传的扫描结果进行处理,提取出域名、IP、IP对应国家、Web容器类型以及识别出来的Web应用类型等关键指纹信息,再通过HTTP协议传回数据库,完成Web服务器指纹识别流程。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种大规模Web服务器信息采集方法,其基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,其工作流分为两大步:
(1)核心数据库将初始探测目标的IP地址发送给Web服务器发现模块,模块按照地址对初始目标服务器集群进行扫描,识别其中的Web服务器,并将发现的Web服务器地址回传给核心数据库进行存储。
(2)核心数据库将发现的Web服务器地址发送给Web服务器指纹识别模块,接到相关命令后,识别模块对Web服务器进行应用层的指纹扫描和收集,按照相应规则提取核心目标指纹,最后将提取出来的指纹扫描结果回传给核心数据库。
2.根据权利要求1所述的一种大规模Web服务器信息采集方法,其特征在于:
步骤(1)中Web服务器发现过程,此过程可以成功的从海量IP地址中发现开放Web服务的服务器的IP、端口号、开放情况,包含端口扫描、高级IP信息获取与识别两个阶段。
3.根据权利要求2所述的一种大规模Web服务器信息采集方法,其特征在于:
端口扫描,探测服务器的端口开放情况,采用模块化设计,端口扫描模块动态加载扫描规则插件执行扫描任务,扫描规则插件中规定了扫描方式,扫描速度限定、扫描结果格式等。
4.根据权利要求2所述的一种大规模Web服务器信息采集方法,其特征在于:
高级IP信息获取与识别,在确定服务器目标端口开放的情况下,获取端口开放的服务相关信息,采用模块化设计,IP信息获取模块加载获取规则插件实现对IP地理位置信息、主机名、所在网段、网络名称、运营商、域名等信息的获取;IP信息识别模块加载识别规则插件,实现对IP属性的识别,即判断IP是否为代理服务器、是否为匿名网络、是否为CDN节点等。
5.根据权利要求1所述的一种大规模Web服务器信息采集方法,其特征在于:
步骤(2)中Web服务器指纹识别模块过程,此过程利用Web服务器发现过程提取到的信息,通过网站爬虫技术抓取网站内容,并对内容进行分析,进一步提取关键指纹信息,建立指纹库,包含主控服务器以及用来抓取网站内容的爬虫程序两个部分。
6.根据权利要求5所述的一种大规模Web服务器信息采集方法,其特征在于:
主控服务器包含主要控制逻辑,负责和数据库之间的数据交互,定期从数据库获取需要扫描的目标服务器IP地址,以及将爬虫抓取的结果写回数据库中;负责和爬虫节点间的数据交互,主要是任务的分发以及数据的回取。
7.根据权利要求5所述的一种大规模Web服务器信息采集方法,其特征在于:
爬虫为分布式,负责网站信息的收集以及数据的提取,采用开源的爬虫框架进行开发,采用分布式构架满足高速扫描、能够快速能力拓展的需要;同时研究定制私有的指纹规则,用来对抓取到的冗余网站数据进行提取和匹配;最后将符合要求的服务器指纹信息回传给主控服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810189206.1A CN108429747A (zh) | 2018-03-08 | 2018-03-08 | 一种大规模Web服务器信息采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810189206.1A CN108429747A (zh) | 2018-03-08 | 2018-03-08 | 一种大规模Web服务器信息采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108429747A true CN108429747A (zh) | 2018-08-21 |
Family
ID=63157555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810189206.1A Pending CN108429747A (zh) | 2018-03-08 | 2018-03-08 | 一种大规模Web服务器信息采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108429747A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111030887A (zh) * | 2019-12-19 | 2020-04-17 | 杭州安恒信息技术股份有限公司 | web服务器发现方法、装置和电子设备 |
CN111224815A (zh) * | 2019-11-22 | 2020-06-02 | 山东英信计算机技术有限公司 | 数据中心设备接入方法、装置及相关组件 |
CN113946566A (zh) * | 2021-12-20 | 2022-01-18 | 北京大学 | Web系统指纹库的构建方法、装置和电子设备 |
CN114866295A (zh) * | 2022-04-20 | 2022-08-05 | 哈尔滨工业大学(威海) | 一种不良站点服务ip池构建及ip主体属性数据采集和分析方法 |
-
2018
- 2018-03-08 CN CN201810189206.1A patent/CN108429747A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111224815A (zh) * | 2019-11-22 | 2020-06-02 | 山东英信计算机技术有限公司 | 数据中心设备接入方法、装置及相关组件 |
CN111224815B (zh) * | 2019-11-22 | 2023-04-18 | 山东英信计算机技术有限公司 | 数据中心设备接入方法、装置及相关组件 |
CN111030887A (zh) * | 2019-12-19 | 2020-04-17 | 杭州安恒信息技术股份有限公司 | web服务器发现方法、装置和电子设备 |
CN113946566A (zh) * | 2021-12-20 | 2022-01-18 | 北京大学 | Web系统指纹库的构建方法、装置和电子设备 |
CN113946566B (zh) * | 2021-12-20 | 2022-03-18 | 北京大学 | Web系统指纹库的构建方法、装置和电子设备 |
CN114866295A (zh) * | 2022-04-20 | 2022-08-05 | 哈尔滨工业大学(威海) | 一种不良站点服务ip池构建及ip主体属性数据采集和分析方法 |
CN114866295B (zh) * | 2022-04-20 | 2023-07-25 | 哈尔滨工业大学(威海) | 一种不良站点服务ip池构建及ip主体属性数据采集和分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108429747A (zh) | 一种大规模Web服务器信息采集方法 | |
CN108183895B (zh) | 一种网络资产信息采集系统 | |
Holm et al. | Automatic data collection for enterprise architecture models | |
US20110016528A1 (en) | Method and Device for Intrusion Detection | |
CN111291384B (zh) | 漏洞扫描方法、装置及电子设备 | |
CN105630682A (zh) | 移动终端自动收集及分析崩溃的系统和方法 | |
CN104333556B (zh) | 基于资源服务管理系统安全认证网关分布式配置管理方法 | |
CN111104579A (zh) | 一种公网资产的识别方法、装置及存储介质 | |
CN108632111A (zh) | 一种基于日志的服务链路监控方法 | |
CN109495520A (zh) | 一体化网络攻击取证溯源方法、系统、设备及存储介质 | |
CN103701783A (zh) | 一种预处理单元、由其构成的数据处理系统以及处理方法 | |
CN111447224A (zh) | web漏洞扫描方法及漏洞扫描器 | |
CN107168844B (zh) | 一种性能监控的方法及装置 | |
CN113065026A (zh) | 基于安全微服务架构的异常事件智能检测系统、方法及介质 | |
CN113918526A (zh) | 日志处理方法、装置、计算机设备和存储介质 | |
CN106156886A (zh) | 一种基于运营商系统数据补全规则应用流程的方法及系统 | |
CN114978614A (zh) | Ip资产快速扫描处理系统 | |
CN111625837A (zh) | 识别系统漏洞的方法、装置和服务器 | |
CN100407164C (zh) | 带有虚地址空间属性的软件行为描述、获取与控制方法 | |
CN110099282A (zh) | 一种对直播类型应用中的内容进行监控的方法及系统 | |
CN116248346A (zh) | 面向智慧城市的cps网络安全态势感知建立方法和系统 | |
CN115296892A (zh) | 数据信息服务系统 | |
CN111865724B (zh) | 视频监控设备信息采集控制实现方法 | |
Capdevila et al. | Recognizing warblers: a probabilistic model for event detection in Twitter | |
CN107423907A (zh) | 一种基于低功耗蓝牙技术的商业智能系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180821 |
|
WD01 | Invention patent application deemed withdrawn after publication |