CN109413050A - 一种访问速率自适应的互联网漏洞信息采集方法及系统 - Google Patents

一种访问速率自适应的互联网漏洞信息采集方法及系统 Download PDF

Info

Publication number
CN109413050A
CN109413050A CN201811164482.9A CN201811164482A CN109413050A CN 109413050 A CN109413050 A CN 109413050A CN 201811164482 A CN201811164482 A CN 201811164482A CN 109413050 A CN109413050 A CN 109413050A
Authority
CN
China
Prior art keywords
url
access
crawler
loophole
access link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811164482.9A
Other languages
English (en)
Other versions
CN109413050B (zh
Inventor
乔宏
田建伟
田峥
李树
朱宏宇
邹妍晖
黎曦
刘洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd
State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd
State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd, State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201811164482.9A priority Critical patent/CN109413050B/zh
Publication of CN109413050A publication Critical patent/CN109413050A/zh
Application granted granted Critical
Publication of CN109413050B publication Critical patent/CN109413050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种访问速率自适应的互联网漏洞关键信息采集方法及系统,该方法包括如下步骤:S1:获取每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息;S2:每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接,并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码,其中,根据访问的反馈消息自动调整爬虫时间间隔;S3:利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接。上述方法克服了反爬虫防护策略,同时还保证了一定采集速率。

Description

一种访问速率自适应的互联网漏洞信息采集方法及系统
技术领域
本发明属于网络安全技术领域,具体涉及一种访问速率自适应的互联网漏洞信息采集方法及系统。
背景技术
随着《中华人民共和国网络安全法》的实施,构建坚强关键信息基础设施安全防护体系是大型能源,金融和电信等企业的网络安全工作主要工作目标。由于黑客技术的不断发展,流行漏洞层出不穷,对于企业信息安全防护工作带来巨大挑战。跟踪和掌握最新的流行漏洞情况和反制措施成为信息安全人员必须具备的技能。当前,国内外权威漏洞发布网站会发布最新的流行漏洞情报信息,如果使用手动收集的方式,工作量大,时效性差,不能及时对信息系统存在的安全隐患进行响应。利用网络爬虫技术可以自动采集安全网站发布的漏洞信息,但很多安全网站采用了反爬虫防护策略,简单地使用网络爬虫技术会造成采集工具无法解析网页内容或者被相关网站限制访问。现有的反爬虫防护策略主要通过页面动态加载和访问频率限制。其中,页面动态加载通过Javascript计算或Ajax加载才能得到最终的页面数据,普通的爬虫无法直接获得需要的数据;访问频率限制主要通过限制外部IP地址短时多次地对网站的访问。
发明内容
本发明的目的是提供一种访问速率自适应的互联网漏洞信息采集方法及系统,利用爬虫和代理技术模拟用户访问网站的行为,以及根据网站的反馈信息自动调整访问页面的频率,既克服了针对页面动态反爬虫策略,同时还克服了访问频率限制的反爬虫防护策略,且本发明在绕过网站的反爬虫限制的基础上还保证一定采集速率。
本发明提供一种访问速率自适应的互联网漏洞信息采集方法,包括如下步骤:
S1:获取各个漏洞发布网站上每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息;
其中,同一漏洞发布网站发布的同一类漏洞的漏洞信息网页使用相同的html标签信息;
S2:每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接,并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码;
所述爬虫时间间隔表示相邻两次爬虫的时间间隔,其中,在每个代理完成每次爬虫后进行爬虫时间间隔更新,更新规律如下:
a:若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟小于当前的爬虫时间间隔t1时,将当前的爬虫时间间隔t1减去预设延迟修正时间t2作为更新的爬虫时间间隔t1
b:若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟大于当前的爬虫时间间隔t1时,将当前的爬虫时间间隔t1的2倍作为更新的爬虫时间间隔t1
c:若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟等于当前的爬虫时间间隔t1时,当前的爬虫时间间隔t1保持不变;
其中,代理爬虫的方式为:模拟浏览器对提取的url访问链接发起http请求,并在获得返回消息后自动执行页面脚本得到html代码;
每个漏洞发布网站对应一个访问链接共享存储结构,所述访问链接共享存储结构中每个存储元素指向一个链表,链表的每个结点对应一个url访问链接;所述html代码表示漏洞信息网页的信息;
S3:利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接;
其中,依据提取的其他url访问链接更新相匹配漏洞发布网站的访问链接共享存储结构。
本发明利用网络爬虫技术以及代理技术对漏洞发布网站进行自动访问,其中,爬虫过程一方面模拟浏览器对提取的url访问链接发起http请求,并在获得返回消息后通过自动执行页面脚本得到html代码,克服了页面动态的反爬虫措施。另一方面,本发明还根据爬虫访问的反馈信息自动调整访问的频率来克服访问频率限制的反爬虫措施。这是基于对于有些网站,当侦探到某些IP地址访问过于频繁时,首先会降低请求恢复的速率,再进而会将IP地址加入黑名单。基于此发现,本发明一旦感应到请求回复的速率下降过快,则降低访问频率,以防止被加入黑名单,故本发明如果得到延迟时间变长时,通过增大爬虫时间间隔来降低访问频率;与此同时,为了保证一定的采集速率,若延迟时间变短,则缩短爬虫时间间隔来提高访问频率。综上所述,本发明在保证一定采集速率的同时还绕过了网站常规的两种反爬虫限制。
S3中相匹配的html标签信息是表示与使用的url访问链接相匹配的漏洞发布网站发布的对应一类漏洞的漏洞信息网页的html标签信息。即任意一个url访问链接是可以获知是哪个漏洞公布网站公布的哪种漏洞,进而查找到相匹配的html标签信息。
进一步优选,所述访问链接共享存储结构为哈希表,每个链表的结点包括一个url访问链接和url访问链接是否已被访问的访问标志位以及指向下个结点的指针,其中,将url访问链接更新至相匹配的漏洞发布网站的访问链接共享存储结构的过程如下:
首先,使用哈希函数对url访问链接的字符串进行散列计算得到所述url访问链接在哈希表中的位置索引,再通过求余运算计算出url访问链接在哈希表中的索引位置;
url_index=url_hash%n
其中,url_index表示求余运算后url访问链接在哈希表中的索引位置,url_hash表示散列计算后url访问链接在哈希表中的位置索引,n为哈希表的长度;
其次,判断所述索引位置处的存储元素对应链表长度是否为0;
若是,则将url访问链接添加至所述索引位置处的链表中,并设置访问标志位以及链表长度;
若不是0,从链表头至链表尾依次进行匹配查找是否已存在所述url访问链接,若未查找到,则将所述url访问链接添加至链表尾部,并设置访问标志位以及链表长度;若存在,则不添加所述url访问链接。
本发明通过为每个漏洞发布网站创建一个访问链接共享存储结构,对url访问链接统一进行管理,以便各个代理可以有序提取到url访问链接进行爬虫,同时也防止相同url访问链接的重复存储。
进一步优选,S2中每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接的过程如下:
S21:随机生成一个随机整数,并进行取余操作得到访问链接共享存储结构中的索引位置;
p_index=rd%n
式中,p_index表示取余操作后得到的索引位置,rd为随机整数;
S22:判断在访问链接共享存储结构中索引位置处的链表中是否存在未被访问的url访问链接;
其中,若存在,将按序提取第一个未被访问的url访问链接;
若不存在,更新索引位置,并重复S22直至查找到未被访问的url访问链接或者直至查找完所述漏洞发布网站的访问链接共享存储结构中每个链表;
索引位置的更新公式如下:
p_index=p_index+1。
通过上述方法,各个代理可以有序地从访问链接共享存储结构中提取url访问链接。
进一步优选,当查找到未被访问的url访问链接时,在相应的链表结点添加互斥锁,并将访问标志位置为已被访问状态。
在当前代理进程访问期间,不允许其它代理进程访问该节点,并在将访问标志位置位为1后解锁,这样可以确保每个代理访问不同的链接。
进一步优选,所述访问链接共享存储结构初始化为:将各个漏洞发布网站发布的各类漏洞的初始url访问链接添加至相匹配漏洞发布网站的访问链接共享存储结构中。
另一方面,本发明还提供一种基于上述方法的采集系统,包括:相互通信连接的初始信息采集模块和爬虫代理以及访问链接共享存储结构更新模块;
其中,所述初始信息采集模块,用于获取每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息;
爬虫代理的网络爬虫模块采用Webmagic-selenium框架,用于从漏洞发布网站的访问链接共享存储结构中提取url访问链接,并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码;以及利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接;
访问链接共享存储结构更新模块,用于更新访问链接共享存储结构。
本发明网络爬行模块采用现有的Webmagic-selenium框架,可对不同类型的漏洞发布网站进行数据采集,具有良好的可扩展性。其中,Webmagic是一个开源的Java垂直爬虫框架,Selenium是一个用于Web应用程序测试的工具。例如,爬虫代理使用了两种数据采集方式,一种是针对普通的漏洞发布网站,另一种是针对使用了反爬虫策略的漏洞发布网站。对于第一种类型网站,爬虫模块可直接利用Webmagic发送访问请求,并根据提取标签信息字段对回复消息进行解析;第二种类型的网站,在Webmagic的基础上,利用selenium来模拟浏览器访问网站的方式发送请求,以绕过网站的页面动态反爬虫策略的限制。因此,本发明爬虫代理的网络爬虫模块具有良好的可扩展性。同时,采用基于分布式的爬虫代理方式,在不同的服务器上对网站进行数据采集,并将清洗和提炼后的结果保存到本地的数据库中。
进一步优选,所述爬虫代理的个数至少大于或等于2。
有益效果
一方面,本发明利用网络爬虫技术以及代理技术对漏洞发布网站进行自动访问,其中,爬虫过程一方面模拟浏览器对提取的url访问链接发起http请求,并在获得返回消息后自动执行页面脚本得到html代码,有效地克服了页面动态反爬虫策略;另一方面,还根据爬虫访问的反馈细腻些自动调整访问的频率,有效地克服了访问频率限制的反爬虫防护策略,进而在保证一定采集速率的同时还绕过了网站常规的两种反爬虫限制。
第二方面,本发明通过为每个漏洞发布网站创建一个访问链接共享存储结构,对url访问链接统一进行管理,以便各个代理可以有序提取到url访问链接进行爬虫,同时也防止相同url访问链接的重复存储以及重复被各个代理处理。
附图说明
图1是本发明提供的一种访问速率自适应的互联网漏洞关键信息采集方法的流程示意图;
图2是本发明提供的漏洞情报采集的基础信息的示意图;
图3是本发明提供的访问链接共享存储结构示意图;
图4是本发明提供的采集系统的架构示意图。
具体实施方式
下面将结合实施例对本发明做进一步的说明。
本发明利用网络爬虫技术以及代理技术对漏洞发布网站进行自动访问。如图1所示,为了实现一种访问速率自适应的互联网漏洞关键信息采集方法,本发明首先需要获取各个漏洞发布网站上每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息。
其中,同一漏洞发布网站发布的同一类漏洞的漏洞信息网页使用相同的html标签信息和html标签正则表达式。目标关键信息是根据用户需求而定,例如漏洞发布名称,漏洞发布者,漏洞发布时间,受影响的操作系统等。
如图2所示,本发明采用site,hole和hole_tag代表漏洞情报采集的基础信息,如下所示:
用site=<site_id,site_name,site_url>表示漏洞发布网站信息,其中,site_id表示网站编号,site_name表示网站的名称,site_url表示网站的url访问链接。
用hole=<site_id,hole_id,hole_type,hole_url>表示漏洞发布网站的漏洞类别相关信息,其中,hole_id表示该漏洞类别的标识号,hole_type表示漏洞的类别名称,hole_url表示该漏洞类别的初始访问链接。
用hole_tag=<hole_id,tag_id,tag_name,tag_reg>表示漏洞具体的html标签信息,其中,tag_name表示漏洞信息网页上的标签名称,tag_id表示标签的编号,tag_reg表示标签的html正则表达式。应当说明,根据html标签信息可以从html代码中提取出该标签对应的目标关键信息。如图2所示,本发明首先获取每个漏洞发布网站的访问链接,以及对应网站上的每种漏洞类别的初始访问链接,以及提取漏洞信息网页的html标签信息。
其次,本发明还为每个漏洞发布网站构建一个访问链接共享存储结构。如图3所示,访问链接共享存储结构为长度为n的哈希表,哈希表的元素为一个链表指针,指向为一个链表,链表的表头包括该链表的长度和首个结点的地址。链表的结点主要包括一个访问链接,访问链接是否已经被访问的标志以及指向下个结点的指针。
初始化时,链表表头包含的链表长度为0,首个结点的地址指针为空。当有新的url访问链接需要加入哈希表时,使用哈希函数对url字符串进行散列计算,确定在哈希表中的位置索引url_hash,即url_hash=hash_fun(url),hash_fun的输入为url访问链接的字符串,输出为32位整数值。然后通过求余运算计算处url在哈希表中的索引位置url_index,即url_index=url_hash%n,如果索引为url_index的元素对应链表长度为0,则将url访问链接加入到链表中,并将访问标志位设置为0,以及将链表长度改为1;如果对应的链表长度大于0,则从链表头到链表尾依次进行匹配,看url访问链接不存在,则将url访问链接添加到链表尾部,并将链表长度加1;如果已经存在,则转向下一个访问链接的添加过程。初始化时,将网站每种漏洞类别的初始访问地址加入到共享存储结构中,添加过程如上所述。
基于每个漏洞发布网站构建的访问链接共享存储结构以及采集的每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息,再采用爬虫和代理技术实现自动采集漏洞信息。具体为S2-S3:
S2:每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接,并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码;
(a)每个代理根据随机生成的索引值选择访问链接:
S21:每个代理随机生成一个随机整数,并进行取余操作得到访问链接共享存储结构中的索引位置;
p_index=rd%n
式中,p_index表示取余操作后得到的索引位置,rd为随机整数;
S22:判断在访问链接共享存储结构中索引位置p_index处的链表中是否存在未被访问的url访问链接;
其中,若存在,将提取第一个出现的未被访问的url访问链接,即p_index位置的元素对应的链表长度大于0且链表中有结点的访问标志未被置位为1时,将第一个出现的未被访问的url访问链接作为代理选择的url访问链接;
若不存在,更新索引位置,并重复S22直至查找到未被访问的url访问链接或者直至查找完所述漏洞发布网站的访问链接共享存储结构中每个链表;
索引位置的更新公式如下:p_index=p_index+1,即移向下一个位置的元素。
当查找到未被访问的url访问链接时,在相应的链表结点添加互斥锁,并将访问标志位置为已被访问状态。即在当前代理进程访问期间,不允许其它代理进程访问该节点,并在将访问标志位置位为1后解锁,这样可以确保每个代理访问不同的链接。
(b)根据自动访问过程中反馈信息调整访问的速率:
所述爬虫时间间隔表示相邻两次爬虫的时间间隔,为每个代理设置一个访问链接的时间间隔t1=visit_interval,设置延迟修正时间t2=delta_interval,其中,visit_interval与delta_interval均是经验值。在每个代理完成每次爬虫后对代理的爬虫时间间隔进行更新,更新规律如下:
a:若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟小于当前的爬虫时间间隔t1时,将当前的爬虫时间间隔t1减去预设延迟修正时间t2作为更新的爬虫时间间隔t1。如下:
visit_interval=visit_interval-delta_interval
b若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟大于当前的爬虫时间间隔t1时,将当前的爬虫时间间隔t1的2倍作为更新的爬虫时间间隔t1。如下:
visit_interval=visit_interval*2
需要说明的是,消息返回时间延迟是指从代理发起请求到代理接收到返回网页的延时。还需要说明的是,代理爬虫的方式为:模拟浏览器对提取的url访问链接发起http请求,并在获得返回消息后自动执行页面脚本得到html代码。
S3:再利用对应同一类漏洞信息网页的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接。
html代码表示漏洞信息网页的信息,html标签信息表示从html代码提取目标关键信息的提取方式。
其中,终止爬行过程的方式如下:
实时监测各个代理在各个漏洞发布网站的采集时长,以及统计各个已被访问过的链接连续被尝试重复访问的次数,其中,若某个代理在某个漏洞发布网站的采集时长达到设定的时长,则终止该代理在该漏洞发布网站上的采集;若某个被访问过的链接连续被尝试重复访问次数超过过设定的次数,则终止对该链接的访问。
如图4所示,本发明基于上述方法提供一种采集系统,包括:相互通信连接的初始信息采集模块,爬虫代理,访问链接共享存储结构更新模块以及数据库;
其中,所述初始信息采集模块,用于获取每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息和html标签正则表达式;
爬虫代理的网络爬虫模块采用Webmagic-selenium框架,用于从漏洞发布网站的访问链接共享存储结构中提取url访问链接,并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码;以及利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接;
访问链接共享存储结构更新模块,用于更新访问链接共享存储结构。
数据库用于保存网站爬行结果,将不同网站的最新漏洞信息按照统一格式进行存储和查询。同时,为了在离线网络详细展示漏洞信息页面,数据存储模块也保存了原始网页的html页面。
综上所述,本发明通过采用模拟浏览器和自动调整访问速率的方式,本发明提出的方法可以绕过网站设置的反爬虫策略,如页面执行脚本限制,访问频率和访问顺序限制,从而保证可以连续高效地进行漏洞情报采集。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

Claims (7)

1.一种访问速率自适应的互联网漏洞关键信息采集方法,其特征在于,包括如下步骤:
S1:获取各个漏洞发布网站上每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息;
其中,同一漏洞发布网站发布的同一类漏洞的漏洞信息网页使用相同的html标签信息;
S2:每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接,并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码;
所述爬虫时间间隔表示相邻两次爬虫的时间间隔,其中,在每个代理完成每次爬虫后进行爬虫时间间隔更新,更新规律如下:
a:若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟小于当前的爬虫时间间隔t1时,将当前的爬虫时间间隔t1减去预设延迟修正时间t2作为更新的爬虫时间间隔t1
b:若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟大于当前的爬虫时间间隔t1时,将当前的爬虫时间间隔t1的2倍作为更新的爬虫时间间隔t1
c:若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟等于当前的爬虫时间间隔t1时,当前的爬虫时间间隔t1保持不变;
其中,代理爬虫的方式为:模拟浏览器对提取的url访问链接发起http请求,并在获得返回消息后自动执行页面脚本得到html代码;
每个漏洞发布网站对应一个访问链接共享存储结构,所述访问链接共享存储结构中每个存储元素指向一个链表,链表的每个结点对应一个url访问链接;所述html代码表示漏洞信息网页的信息;
S3:利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接;
其中,依据提取的其他url访问链接更新相匹配漏洞发布网站的访问链接共享存储结构。
2.根据权利要求1所述的方法,其特征在于:所述访问链接共享存储结构为哈希表,每个链表的结点包括一个url访问链接和url访问链接是否已被访问的访问标志位以及指向下个结点的指针,其中,将url访问链接更新至相匹配的漏洞发布网站的访问链接共享存储结构的过程如下:
首先,使用哈希函数对url访问链接的字符串进行散列计算得到所述url访问链接在哈希表中的位置索引,再通过求余运算计算出url访问链接在哈希表中的索引位置;
url_index=url_hash%n
其中,url_index表示求余运算后url访问链接在哈希表中的索引位置,url_hash表示散列计算后url访问链接在哈希表中的位置索引,n为哈希表的长度;
其次,判断所述索引位置处的存储元素对应链表长度是否为0;
若是,则将url访问链接添加至所述索引位置处的链表中,并设置访问标志位以及链表长度;
若不是0,从链表头至链表尾依次进行匹配查找是否已存在所述url访问链接,若未查找到,则将所述url访问链接添加至链表尾部,并设置访问标志位以及链表长度;若存在,则不添加所述url访问链接。
3.根据权利要求2所述的方法,其特征在于:S2中每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接的过程如下:
S21:随机生成一个随机整数,并进行取余操作得到访问链接共享存储结构中的索引位置;
p_index=rd%n
式中,p_index表示取余操作后得到的索引位置,rd为随机整数;
S22:判断在访问链接共享存储结构中索引位置处的链表中是否存在未被访问的url访问链接;
其中,若存在,将按序提取第一个未被访问的url访问链接;
若不存在,更新索引位置,并重复S22直至查找到未被访问的url访问链接或者直至查找完所述漏洞发布网站的访问链接共享存储结构中每个链表;
索引位置的更新公式如下:
p_index=p_index+1。
4.根据权利要求3所述的方法,其特征在于:当查找到未被访问的url访问链接时,在相应的链表结点添加互斥锁,并将访问标志位置为已被访问状态。
5.根据权利要求2所述的方法,其特征在于:所述访问链接共享存储结构初始化为:将各个漏洞发布网站发布的各类漏洞的初始url访问链接添加至相匹配漏洞发布网站的访问链接共享存储结构中。
6.基于权利要求1-5任一项所述方法的采集系统,其特征在于:包括:相互通信连接的初始信息采集模块和爬虫代理以及访问链接共享存储结构更新模块;
其中,所述初始信息采集模块,用于获取每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息;
爬虫代理的网络爬虫模块采用Webmagic+selenium框架,爬虫模块用于从漏洞发布网站的访问链接共享存储结构中提取url访问链接,并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码;以及利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接;
访问链接共享存储结构更新模块,用于更新访问链接共享存储结构。
7.根据权利要求6所述的采集系统,其特征在于:所述爬虫代理的个数至少大于或等于2。
CN201811164482.9A 2018-10-05 2018-10-05 一种访问速率自适应的互联网漏洞信息采集方法及系统 Active CN109413050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811164482.9A CN109413050B (zh) 2018-10-05 2018-10-05 一种访问速率自适应的互联网漏洞信息采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811164482.9A CN109413050B (zh) 2018-10-05 2018-10-05 一种访问速率自适应的互联网漏洞信息采集方法及系统

Publications (2)

Publication Number Publication Date
CN109413050A true CN109413050A (zh) 2019-03-01
CN109413050B CN109413050B (zh) 2020-11-24

Family

ID=65466827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811164482.9A Active CN109413050B (zh) 2018-10-05 2018-10-05 一种访问速率自适应的互联网漏洞信息采集方法及系统

Country Status (1)

Country Link
CN (1) CN109413050B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110768977A (zh) * 2019-10-21 2020-02-07 中国民航信息网络股份有限公司 一种安全漏洞信息的抓取方法及系统
CN111125489A (zh) * 2019-12-25 2020-05-08 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质
CN113407946A (zh) * 2021-06-19 2021-09-17 西安电子科技大学 一种针对IoT设备的智能防护方法、系统
CN113821705A (zh) * 2021-08-30 2021-12-21 湖南大学 网页内容的获取方法、终端设备及可读存储介质
CN113992378A (zh) * 2021-10-22 2022-01-28 绿盟科技集团股份有限公司 一种安全监测方法、装置、电子设备及存储介质
TWI781839B (zh) * 2021-12-02 2022-10-21 中華電信股份有限公司 檢查網站的商品結帳漏洞的電子裝置及方法
CN116070052A (zh) * 2023-01-28 2023-05-05 爱集微咨询(厦门)有限公司 界面数据传输方法、装置、终端及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187925A (zh) * 2006-11-17 2008-05-28 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN106611005A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
CN106656924A (zh) * 2015-10-30 2017-05-10 北京神州泰岳软件股份有限公司 一种设备安全漏洞的处理方法和装置
KR20170095704A (ko) * 2016-02-15 2017-08-23 충남대학교산학협력단 네트워크 프린터의 취약점 점검 방법 및 시스템
CN107958156A (zh) * 2017-11-22 2018-04-24 国云科技股份有限公司 一种基于模板获取漏洞信息的方法
US20180219919A1 (en) * 2015-10-28 2018-08-02 Fractal Industries, Inc. Rating organization cybersecurity using active and passive external reconnaissance
CN108614841A (zh) * 2016-12-13 2018-10-02 北京国双科技有限公司 时间间隔的调整方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187925A (zh) * 2006-11-17 2008-05-28 北京酷讯科技有限公司 自动优化爬虫的抓取方法
CN106611005A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
US20180219919A1 (en) * 2015-10-28 2018-08-02 Fractal Industries, Inc. Rating organization cybersecurity using active and passive external reconnaissance
CN106656924A (zh) * 2015-10-30 2017-05-10 北京神州泰岳软件股份有限公司 一种设备安全漏洞的处理方法和装置
KR20170095704A (ko) * 2016-02-15 2017-08-23 충남대학교산학협력단 네트워크 프린터의 취약점 점검 방법 및 시스템
CN108614841A (zh) * 2016-12-13 2018-10-02 北京国双科技有限公司 时间间隔的调整方法和装置
CN107958156A (zh) * 2017-11-22 2018-04-24 国云科技股份有限公司 一种基于模板获取漏洞信息的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WHACKW: ""爬虫突破封禁的6种常见方法"", 《CSDN博客》 *
刘海燕 等: ""基于主题爬虫的漏洞库维护系统"", 《计算机与现代化》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110768977A (zh) * 2019-10-21 2020-02-07 中国民航信息网络股份有限公司 一种安全漏洞信息的抓取方法及系统
CN110768977B (zh) * 2019-10-21 2022-02-25 中国民航信息网络股份有限公司 一种安全漏洞信息的抓取方法及系统
CN111125489A (zh) * 2019-12-25 2020-05-08 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质
CN111125489B (zh) * 2019-12-25 2023-05-26 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质
CN113407946A (zh) * 2021-06-19 2021-09-17 西安电子科技大学 一种针对IoT设备的智能防护方法、系统
CN113821705A (zh) * 2021-08-30 2021-12-21 湖南大学 网页内容的获取方法、终端设备及可读存储介质
CN113821705B (zh) * 2021-08-30 2024-02-20 湖南大学 网页内容的获取方法、终端设备及可读存储介质
CN113992378A (zh) * 2021-10-22 2022-01-28 绿盟科技集团股份有限公司 一种安全监测方法、装置、电子设备及存储介质
CN113992378B (zh) * 2021-10-22 2023-11-07 绿盟科技集团股份有限公司 一种安全监测方法、装置、电子设备及存储介质
TWI781839B (zh) * 2021-12-02 2022-10-21 中華電信股份有限公司 檢查網站的商品結帳漏洞的電子裝置及方法
CN116070052A (zh) * 2023-01-28 2023-05-05 爱集微咨询(厦门)有限公司 界面数据传输方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN109413050B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN109413050A (zh) 一种访问速率自适应的互联网漏洞信息采集方法及系统
CN103389983B (zh) 一种用于网络爬虫系统的网页内容抓取方法及装置
CN103179132B (zh) 一种检测和防御cc攻击的方法及装置
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN103561012B (zh) 一种基于关联树的web后门检测方法及系统
CN109391602A (zh) 一种僵尸主机检测方法
CN104809404A (zh) 一种信息安全攻防平台的数据层系统
Wuu et al. Building intrusion pattern miner for Snort network intrusion detection system
CN108206802A (zh) 检测网页后门的方法和装置
CN109413109A (zh) 基于有限状态机的面向天地一体化网络安全状态分析方法
CN102801697A (zh) 基于多url的恶意代码检测方法和系统
CN102999723B (zh) 主动防御xss攻击的数据防御组件生成方法及其装置
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN105959371A (zh) 网页分享系统
CN109818949A (zh) 一种基于神经网络的反爬虫方法
CN104679798B (zh) 网页检测方法及装置
CN107426148A (zh) 一种基于运行环境特征识别的反爬虫方法及系统
CN106657144A (zh) 一种基于增强学习的动态保护路径规划方法
CN107580052A (zh) 自演进的网络自适应爬虫方法及系统
CN101211340A (zh) 基于客户端/服务端结构的动态网络爬行器
CN108900581A (zh) 一种大型网站的关键特征知识库的建立方法
Zhao et al. Stability-based analysis and defense against backdoor attacks on edge computing services
CN104954345A (zh) 基于对象分析的攻击识别方法及装置
CN110365810A (zh) 基于网络爬虫的域名缓存方法、装置、设备及存储介质
CN107102997A (zh) 数据爬取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant