CN108429747A - 一种大规模Web服务器信息采集方法 - Google Patents

一种大规模Web服务器信息采集方法 Download PDF

Info

Publication number
CN108429747A
CN108429747A CN201810189206.1A CN201810189206A CN108429747A CN 108429747 A CN108429747 A CN 108429747A CN 201810189206 A CN201810189206 A CN 201810189206A CN 108429747 A CN108429747 A CN 108429747A
Authority
CN
China
Prior art keywords
web server
server
web
information
collecting method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810189206.1A
Other languages
English (en)
Inventor
方喆君
何跃鹰
卓子寒
张晓明
张嘉玮
赵忠华
董建武
李明哲
刘中金
孙中豪
鲁骁
刘岗
阙为涛
肖成民
王虹
安潇羽
智红莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Venus Information Security Technology Co Ltd
National Computer Network and Information Security Management Center
Original Assignee
Beijing Venus Information Security Technology Co Ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Venus Information Security Technology Co Ltd, National Computer Network and Information Security Management Center filed Critical Beijing Venus Information Security Technology Co Ltd
Priority to CN201810189206.1A priority Critical patent/CN108429747A/zh
Publication of CN108429747A publication Critical patent/CN108429747A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种大规模Web服务器信息采集方法基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,本发明一种大规模Web服务器信息采集方法,通过Web服务器分布情况及指纹库,可以通过探测网络空间中的I P地址,获取Web服务器的分布情况,获取Web容器、Web服务器语言、Web开发框架、Web应用、Web前段框架等指纹信息,能够形成指纹库,可以通过Web服务器分布情况及指纹库,快速对一个新站点进行建站框架判定以及脆弱性分析,能够根据漏洞威胁对象确定受影响Web服务器的数量及分布范围,从而可以对网络空间Web服务器整体安全性进行评估和预警。

Description

一种大规模Web服务器信息采集方法
技术领域
本发明涉及于网络信息安全技术领域,具体涉及一种大规模Web服务器信息采集方法。
背景技术
近年来,随着互联网的高速发展,越来越多的Web站点应运而生,大量有价值的信息以及资源被放置于Web服务器中,目前难以通过探测网络空间中的IP地址,获取Web服务器的分布情况,获取Web容器、Web服务器语言、Web开发框架、Web应用、Web前段框架等指纹信息,无法形成指纹库,而且没有办法通过Web服务器分布情况及指纹库,快速对一个新站点进行建站框架判定以及脆弱性分析,无法根据漏洞威胁对象确定受影响Web服务器的数量及分布范围,从而不能够对网络空间Web服务器整体安全性进行评估和预警。
发明内容
本发明的主要目的在于提供一种大规模Web服务器信息采集方法,以解决目前难以获取Web服务器的分布情况,获取Web服务器内的指纹信息,无法形成指纹库,而且没有办法快速对一个新站点进行建站框架判定以及脆弱性分析,不能够对网络空间Web服务器整体安全性进行评估和预警的问题。
为解决上述技术问题,本发明所采用的技术方案是:其基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,其工作流分为两大步:1、核心数据库将初始探测目标的IP地址发送给Web服务器发现模块,模块按照地址对初始目标服务器集群进行扫描,识别其中的Web服务器,并将发现的Web服务器地址回传给核心数据库进行存储,2、核心数据库将发现的Web服务器地址发送给Web服务器指纹识别模块,接到相关命令后,识别模块对Web服务器进行应用层的指纹扫描和收集,按照相应规则提取核心目标指纹,最后将提取出来的指纹扫描结果回传给核心数据库。
进一步的,步骤1中大规模Web服务器发现过程,此过程可以成功的从海量IP地址中发现开放Web服务的服务器的IP、端口号、开放情况,包含端口扫描、高级IP信息获取与识别两个阶段。
进一步的,端口扫描,探测服务器的端口开放情况,采用模块化设计,端口扫描模块动态加载扫描规则插件执行扫描任务,扫描规则插件中规定了扫描方式,扫描速度限定、扫描结果格式等。
进一步的,高级IP信息获取与识别,在确定服务器目标端口开放的情况下,获取端口开放的服务相关信息,采用模块化设计,IP信息获取模块加载获取规则插件实现对IP地理位置信息、主机名、所在网段、网络名称、运营商、域名等信息的获取;IP信息识别模块加载识别规则插件,实现对IP属性的识别,即判断IP是否为代理服务器、是否为匿名网络、是否为CDN节点等。
进一步的,步骤2中Web服务器指纹识别模块过程,此过程利用Web服务器发现过程提取到的信息,通过网站爬虫技术抓取网站内容,并对内容进行分析,进一步提取关键指纹信息,建立指纹库,包含主控服务器以及用来抓取网站内容的爬虫程序两个部分。
进一步的,主控服务器包含主要控制逻辑,负责和数据库之间的数据交互,定期从数据库获取需要扫描的目标服务器IP地址,以及将爬虫抓取的结果写回数据库中;负责和爬虫节点间的数据交互,主要是任务的分发以及数据的回取。
进一步的,爬虫为分布式,负责网站信息的收集以及数据的提取,采用开源的爬虫框架进行开发,采用分布式构架满足高速扫描、能够快速能力拓展的需要;同时研究定制私有的指纹规则,用来对抓取到的冗余网站数据进行提取和匹配;最后将符合要求的服务器指纹信息回传给主控服务器。
由上述对本发明信息采集的描述可知,和现有技术相比,本发明具有如下优点:
本发明一种大规模Web服务器信息采集方法,通过Web服务器分布情况及指纹库,可以通过探测网络空间中的IP地址,获取Web服务器的分布情况,获取Web容器、Web服务器语言、Web开发框架、Web应用、Web前段框架等指纹信息,能够形成指纹库,可以通过Web服务器分布情况及指纹库,快速对一个新站点进行建站框架判定以及脆弱性分析,能够根据漏洞威胁对象确定受影响Web服务器的数量及分布范围,从而可以对网络空间Web服务器整体安全性进行评估和预警。
附图说明
图1为大规模Web服务器信息采集基本构成图;
图2为大规模Web服务器发现框架图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种大规模Web服务器信息采集方法,其基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,核心数据库将初始探测目标的IP地址发送给Web服务器发现模块,模块按照地址对初始目标服务器集群进行扫描,识别其中的Web服务器,并将发现的Web服务器地址回传给核心数据库进行存储,核心数据库将发现的Web服务器地址发送给Web服务器指纹识别模块,接到相关命令后,识别模块对Web服务器进行应用层的指纹扫描和收集,按照相应规则提取核心目标指纹,最后将提取出来的指纹扫描结果回传给核心数据库,Web服务器发现过程,此过程可以成功的从海量IP地址中发现开放Web服务的服务器的IP、端口号、开放情况,包含端口扫描、高级IP信息获取与识别两个阶段,端口扫描,探测服务器的端口开放情况,采用模块化设计,端口扫描模块动态加载扫描规则插件执行扫描任务,扫描规则插件中规定了扫描方式,扫描速度限定、扫描结果格式等,高级IP信息获取与识别,在确定服务器目标端口开放的情况下,获取端口开放的服务相关信息,采用模块化设计,IP信息获取模块加载获取规则插件实现对IP地理位置信息、主机名、所在网段、网络名称、运营商、域名等信息的获取;IP信息识别模块加载识别规则插件,实现对IP属性的识别,即判断IP是否为代理服务器、是否为匿名网络、是否为CDN节点等,Web服务器指纹识别模块过程,此过程利用Web服务器发现过程提取到的信息,通过网站爬虫技术抓取网站内容,并对内容进行分析,进一步提取关键指纹信息,建立指纹库,包含主控服务器以及用来抓取网站内容的爬虫程序两个部分,主控服务器包含主要控制逻辑,负责和数据库之间的数据交互,定期从数据库获取需要扫描的目标服务器IP地址,以及将爬虫抓取的结果写回数据库中;负责和爬虫节点间的数据交互,主要是任务的分发以及数据的回取,爬虫为分布式,负责网站信息的收集以及数据的提取,采用开源的爬虫框架进行开发,采用分布式构架满足高速扫描、能够快速能力拓展的需要;同时研究定制私有的指纹规则,用来对抓取到的冗余网站数据进行提取和匹配;最后将符合要求的服务器指纹信息回传给主控服务器。
实施例2
一种大规模Web服务器信息采集方法,Web服务器发现具体步骤为:任务获取:主控服务器从数据库获取任务文本文件,文件中包含需要扫描的目标服务器IP地址段;任务分发:将任务以文本形式保存于本地之后,主控服务器负责任务的分发,将任务指派给对应的Nmap扫描程序;任务监控:Nmap程序任务执行完成后,会自动结束自身进程,所以任务监控程序每间隔一定时间,对所有Nmap程序序列进行一次轮询,如果发现有Nmap进程消失,则给该Nmap程序重新分配任务。同时,添加计数器,对执行时间过长的Nmap进行判断,如果严重超时则判定为程序异常,主控服务器负责将该Nmap程序重启;结果回传:当Nmap完成相应扫描后将扫描结果回传给主控服务器,主控服务器从扫描结果中分析提取出IP、端口号、开放情况三个字段,再通过HTTP协议传回数据库,完成Web服务器发现流程;大规模Web服务器指纹识别具体步骤为:任务获取:主控服务器从数据库获取任务文本文件,文件中包含需要爬虫程序执行的相应Web服务器IP地址块,并赋予任务对应的TaskID作为文件名;任务分发:将任务以文件形式保存于本地之后,主控服务器启动爬虫程序并赋予爬虫程序相应的ID,按照任务获取时分配的TaskID将任务分发给对应的ID的爬虫程序,形成{TaskID:ID}的键值对,用于标识唯一的任务和任务执行对象;任务监控:爬虫程序任务执行完成后,会自动结束自身进程,所以任务监控程序按照{TaskID:ID}键值对,每间隔一定的时间,对所有爬虫序列进行一次轮询,如果发现有键值对所对应的爬虫进程消失,则给该爬虫重新分配任务。同时添加计数器,对执行时间过长的爬虫进行判断,如果严重超时,则判定为程序异常,主控服务器负责将该爬虫程序重启;结果回传:首先对爬虫回传的扫描结果进行处理,提取出域名、IP、IP对应国家、Web容器类型以及识别出来的Web应用类型等关键指纹信息,再通过HTTP协议传回数据库,完成Web服务器指纹识别流程。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种大规模Web服务器信息采集方法,其基本构成可以分为核心数据库、Web服务器发现模块、Web服务器指纹识别模块三部分,其工作流分为两大步:
(1)核心数据库将初始探测目标的IP地址发送给Web服务器发现模块,模块按照地址对初始目标服务器集群进行扫描,识别其中的Web服务器,并将发现的Web服务器地址回传给核心数据库进行存储。
(2)核心数据库将发现的Web服务器地址发送给Web服务器指纹识别模块,接到相关命令后,识别模块对Web服务器进行应用层的指纹扫描和收集,按照相应规则提取核心目标指纹,最后将提取出来的指纹扫描结果回传给核心数据库。
2.根据权利要求1所述的一种大规模Web服务器信息采集方法,其特征在于:
步骤(1)中Web服务器发现过程,此过程可以成功的从海量IP地址中发现开放Web服务的服务器的IP、端口号、开放情况,包含端口扫描、高级IP信息获取与识别两个阶段。
3.根据权利要求2所述的一种大规模Web服务器信息采集方法,其特征在于:
端口扫描,探测服务器的端口开放情况,采用模块化设计,端口扫描模块动态加载扫描规则插件执行扫描任务,扫描规则插件中规定了扫描方式,扫描速度限定、扫描结果格式等。
4.根据权利要求2所述的一种大规模Web服务器信息采集方法,其特征在于:
高级IP信息获取与识别,在确定服务器目标端口开放的情况下,获取端口开放的服务相关信息,采用模块化设计,IP信息获取模块加载获取规则插件实现对IP地理位置信息、主机名、所在网段、网络名称、运营商、域名等信息的获取;IP信息识别模块加载识别规则插件,实现对IP属性的识别,即判断IP是否为代理服务器、是否为匿名网络、是否为CDN节点等。
5.根据权利要求1所述的一种大规模Web服务器信息采集方法,其特征在于:
步骤(2)中Web服务器指纹识别模块过程,此过程利用Web服务器发现过程提取到的信息,通过网站爬虫技术抓取网站内容,并对内容进行分析,进一步提取关键指纹信息,建立指纹库,包含主控服务器以及用来抓取网站内容的爬虫程序两个部分。
6.根据权利要求5所述的一种大规模Web服务器信息采集方法,其特征在于:
主控服务器包含主要控制逻辑,负责和数据库之间的数据交互,定期从数据库获取需要扫描的目标服务器IP地址,以及将爬虫抓取的结果写回数据库中;负责和爬虫节点间的数据交互,主要是任务的分发以及数据的回取。
7.根据权利要求5所述的一种大规模Web服务器信息采集方法,其特征在于:
爬虫为分布式,负责网站信息的收集以及数据的提取,采用开源的爬虫框架进行开发,采用分布式构架满足高速扫描、能够快速能力拓展的需要;同时研究定制私有的指纹规则,用来对抓取到的冗余网站数据进行提取和匹配;最后将符合要求的服务器指纹信息回传给主控服务器。
CN201810189206.1A 2018-03-08 2018-03-08 一种大规模Web服务器信息采集方法 Pending CN108429747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810189206.1A CN108429747A (zh) 2018-03-08 2018-03-08 一种大规模Web服务器信息采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810189206.1A CN108429747A (zh) 2018-03-08 2018-03-08 一种大规模Web服务器信息采集方法

Publications (1)

Publication Number Publication Date
CN108429747A true CN108429747A (zh) 2018-08-21

Family

ID=63157555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810189206.1A Pending CN108429747A (zh) 2018-03-08 2018-03-08 一种大规模Web服务器信息采集方法

Country Status (1)

Country Link
CN (1) CN108429747A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111030887A (zh) * 2019-12-19 2020-04-17 杭州安恒信息技术股份有限公司 web服务器发现方法、装置和电子设备
CN111224815A (zh) * 2019-11-22 2020-06-02 山东英信计算机技术有限公司 数据中心设备接入方法、装置及相关组件
CN113946566A (zh) * 2021-12-20 2022-01-18 北京大学 Web系统指纹库的构建方法、装置和电子设备
CN114866295A (zh) * 2022-04-20 2022-08-05 哈尔滨工业大学(威海) 一种不良站点服务ip池构建及ip主体属性数据采集和分析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111224815A (zh) * 2019-11-22 2020-06-02 山东英信计算机技术有限公司 数据中心设备接入方法、装置及相关组件
CN111224815B (zh) * 2019-11-22 2023-04-18 山东英信计算机技术有限公司 数据中心设备接入方法、装置及相关组件
CN111030887A (zh) * 2019-12-19 2020-04-17 杭州安恒信息技术股份有限公司 web服务器发现方法、装置和电子设备
CN113946566A (zh) * 2021-12-20 2022-01-18 北京大学 Web系统指纹库的构建方法、装置和电子设备
CN113946566B (zh) * 2021-12-20 2022-03-18 北京大学 Web系统指纹库的构建方法、装置和电子设备
CN114866295A (zh) * 2022-04-20 2022-08-05 哈尔滨工业大学(威海) 一种不良站点服务ip池构建及ip主体属性数据采集和分析方法
CN114866295B (zh) * 2022-04-20 2023-07-25 哈尔滨工业大学(威海) 一种不良站点服务ip池构建及ip主体属性数据采集和分析方法

Similar Documents

Publication Publication Date Title
CN108429747A (zh) 一种大规模Web服务器信息采集方法
CN108183895B (zh) 一种网络资产信息采集系统
Holm et al. Automatic data collection for enterprise architecture models
US20110016528A1 (en) Method and Device for Intrusion Detection
CN111291384B (zh) 漏洞扫描方法、装置及电子设备
CN105630682A (zh) 移动终端自动收集及分析崩溃的系统和方法
CN104333556B (zh) 基于资源服务管理系统安全认证网关分布式配置管理方法
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
CN108632111A (zh) 一种基于日志的服务链路监控方法
CN109495520A (zh) 一体化网络攻击取证溯源方法、系统、设备及存储介质
CN103701783A (zh) 一种预处理单元、由其构成的数据处理系统以及处理方法
CN111447224A (zh) web漏洞扫描方法及漏洞扫描器
CN107168844B (zh) 一种性能监控的方法及装置
CN113065026A (zh) 基于安全微服务架构的异常事件智能检测系统、方法及介质
CN113918526A (zh) 日志处理方法、装置、计算机设备和存储介质
CN106156886A (zh) 一种基于运营商系统数据补全规则应用流程的方法及系统
CN114978614A (zh) Ip资产快速扫描处理系统
CN111625837A (zh) 识别系统漏洞的方法、装置和服务器
CN100407164C (zh) 带有虚地址空间属性的软件行为描述、获取与控制方法
CN110099282A (zh) 一种对直播类型应用中的内容进行监控的方法及系统
CN116248346A (zh) 面向智慧城市的cps网络安全态势感知建立方法和系统
CN115296892A (zh) 数据信息服务系统
CN111865724B (zh) 视频监控设备信息采集控制实现方法
Capdevila et al. Recognizing warblers: a probabilistic model for event detection in Twitter
CN107423907A (zh) 一种基于低功耗蓝牙技术的商业智能系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180821

WD01 Invention patent application deemed withdrawn after publication