CN109413050A

CN109413050A - 一种访问速率自适应的互联网漏洞信息采集方法及系统

Info

Publication number: CN109413050A
Application number: CN201811164482.9A
Authority: CN
Inventors: 乔宏; 田建伟; 田峥; 李树; 朱宏宇; 邹妍晖; 黎曦; 刘洁
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd; State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Hunan Electric Power Co Ltd; State Grid Hunan Electric Power Co Ltd
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2019-03-01
Anticipated expiration: 2038-10-05
Also published as: CN109413050B

Abstract

本发明公开了一种访问速率自适应的互联网漏洞关键信息采集方法及系统，该方法包括如下步骤：S1：获取每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息；S2：每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接，并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码，其中，根据访问的反馈消息自动调整爬虫时间间隔；S3：利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接。上述方法克服了反爬虫防护策略，同时还保证了一定采集速率。

Description

一种访问速率自适应的互联网漏洞信息采集方法及系统

技术领域

本发明属于网络安全技术领域，具体涉及一种访问速率自适应的互联网漏洞信息采集方法及系统。

背景技术

随着《中华人民共和国网络安全法》的实施，构建坚强关键信息基础设施安全防护体系是大型能源，金融和电信等企业的网络安全工作主要工作目标。由于黑客技术的不断发展，流行漏洞层出不穷，对于企业信息安全防护工作带来巨大挑战。跟踪和掌握最新的流行漏洞情况和反制措施成为信息安全人员必须具备的技能。当前，国内外权威漏洞发布网站会发布最新的流行漏洞情报信息，如果使用手动收集的方式，工作量大，时效性差，不能及时对信息系统存在的安全隐患进行响应。利用网络爬虫技术可以自动采集安全网站发布的漏洞信息，但很多安全网站采用了反爬虫防护策略，简单地使用网络爬虫技术会造成采集工具无法解析网页内容或者被相关网站限制访问。现有的反爬虫防护策略主要通过页面动态加载和访问频率限制。其中，页面动态加载通过Javascript计算或Ajax加载才能得到最终的页面数据，普通的爬虫无法直接获得需要的数据；访问频率限制主要通过限制外部IP地址短时多次地对网站的访问。

发明内容

本发明的目的是提供一种访问速率自适应的互联网漏洞信息采集方法及系统，利用爬虫和代理技术模拟用户访问网站的行为，以及根据网站的反馈信息自动调整访问页面的频率，既克服了针对页面动态反爬虫策略，同时还克服了访问频率限制的反爬虫防护策略，且本发明在绕过网站的反爬虫限制的基础上还保证一定采集速率。

本发明提供一种访问速率自适应的互联网漏洞信息采集方法，包括如下步骤：

S1：获取各个漏洞发布网站上每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息；

其中，同一漏洞发布网站发布的同一类漏洞的漏洞信息网页使用相同的html标签信息；

S2：每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接，并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码；

所述爬虫时间间隔表示相邻两次爬虫的时间间隔，其中，在每个代理完成每次爬虫后进行爬虫时间间隔更新，更新规律如下：

a：若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟小于当前的爬虫时间间隔t₁时，将当前的爬虫时间间隔t₁减去预设延迟修正时间t₂作为更新的爬虫时间间隔t₁；

b：若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟大于当前的爬虫时间间隔t₁时，将当前的爬虫时间间隔t₁的2倍作为更新的爬虫时间间隔t₁；

c：若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟等于当前的爬虫时间间隔t₁时，当前的爬虫时间间隔t₁保持不变；

其中，代理爬虫的方式为：模拟浏览器对提取的url访问链接发起http请求，并在获得返回消息后自动执行页面脚本得到html代码；

每个漏洞发布网站对应一个访问链接共享存储结构，所述访问链接共享存储结构中每个存储元素指向一个链表，链表的每个结点对应一个url访问链接；所述html代码表示漏洞信息网页的信息；

S3：利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接；

其中，依据提取的其他url访问链接更新相匹配漏洞发布网站的访问链接共享存储结构。

本发明利用网络爬虫技术以及代理技术对漏洞发布网站进行自动访问，其中，爬虫过程一方面模拟浏览器对提取的url访问链接发起http请求，并在获得返回消息后通过自动执行页面脚本得到html代码，克服了页面动态的反爬虫措施。另一方面，本发明还根据爬虫访问的反馈信息自动调整访问的频率来克服访问频率限制的反爬虫措施。这是基于对于有些网站，当侦探到某些IP地址访问过于频繁时，首先会降低请求恢复的速率，再进而会将IP地址加入黑名单。基于此发现，本发明一旦感应到请求回复的速率下降过快，则降低访问频率，以防止被加入黑名单，故本发明如果得到延迟时间变长时，通过增大爬虫时间间隔来降低访问频率；与此同时，为了保证一定的采集速率，若延迟时间变短，则缩短爬虫时间间隔来提高访问频率。综上所述，本发明在保证一定采集速率的同时还绕过了网站常规的两种反爬虫限制。

S3中相匹配的html标签信息是表示与使用的url访问链接相匹配的漏洞发布网站发布的对应一类漏洞的漏洞信息网页的html标签信息。即任意一个url访问链接是可以获知是哪个漏洞公布网站公布的哪种漏洞，进而查找到相匹配的html标签信息。

进一步优选，所述访问链接共享存储结构为哈希表，每个链表的结点包括一个url访问链接和url访问链接是否已被访问的访问标志位以及指向下个结点的指针，其中，将url访问链接更新至相匹配的漏洞发布网站的访问链接共享存储结构的过程如下：

首先，使用哈希函数对url访问链接的字符串进行散列计算得到所述url访问链接在哈希表中的位置索引，再通过求余运算计算出url访问链接在哈希表中的索引位置；

url_index＝url_hash％n

其中，url_index表示求余运算后url访问链接在哈希表中的索引位置，url_hash表示散列计算后url访问链接在哈希表中的位置索引，n为哈希表的长度；

其次，判断所述索引位置处的存储元素对应链表长度是否为0；

若是，则将url访问链接添加至所述索引位置处的链表中，并设置访问标志位以及链表长度；

若不是0，从链表头至链表尾依次进行匹配查找是否已存在所述url访问链接，若未查找到，则将所述url访问链接添加至链表尾部，并设置访问标志位以及链表长度；若存在，则不添加所述url访问链接。

本发明通过为每个漏洞发布网站创建一个访问链接共享存储结构，对url访问链接统一进行管理，以便各个代理可以有序提取到url访问链接进行爬虫，同时也防止相同url访问链接的重复存储。

进一步优选，S2中每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接的过程如下：

S21：随机生成一个随机整数，并进行取余操作得到访问链接共享存储结构中的索引位置；

p_index＝rd％n

式中，p_index表示取余操作后得到的索引位置，rd为随机整数；

S22：判断在访问链接共享存储结构中索引位置处的链表中是否存在未被访问的url访问链接；

其中，若存在，将按序提取第一个未被访问的url访问链接；

若不存在，更新索引位置，并重复S22直至查找到未被访问的url访问链接或者直至查找完所述漏洞发布网站的访问链接共享存储结构中每个链表；

索引位置的更新公式如下：

p_index＝p_index+1。

通过上述方法，各个代理可以有序地从访问链接共享存储结构中提取url访问链接。

进一步优选，当查找到未被访问的url访问链接时，在相应的链表结点添加互斥锁，并将访问标志位置为已被访问状态。

在当前代理进程访问期间，不允许其它代理进程访问该节点，并在将访问标志位置位为1后解锁，这样可以确保每个代理访问不同的链接。

进一步优选，所述访问链接共享存储结构初始化为：将各个漏洞发布网站发布的各类漏洞的初始url访问链接添加至相匹配漏洞发布网站的访问链接共享存储结构中。

另一方面，本发明还提供一种基于上述方法的采集系统，包括：相互通信连接的初始信息采集模块和爬虫代理以及访问链接共享存储结构更新模块；

其中，所述初始信息采集模块，用于获取每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息；

爬虫代理的网络爬虫模块采用Webmagic-selenium框架，用于从漏洞发布网站的访问链接共享存储结构中提取url访问链接，并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码；以及利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接；

访问链接共享存储结构更新模块，用于更新访问链接共享存储结构。

本发明网络爬行模块采用现有的Webmagic-selenium框架，可对不同类型的漏洞发布网站进行数据采集，具有良好的可扩展性。其中，Webmagic是一个开源的Java垂直爬虫框架，Selenium是一个用于Web应用程序测试的工具。例如，爬虫代理使用了两种数据采集方式，一种是针对普通的漏洞发布网站，另一种是针对使用了反爬虫策略的漏洞发布网站。对于第一种类型网站，爬虫模块可直接利用Webmagic发送访问请求，并根据提取标签信息字段对回复消息进行解析；第二种类型的网站，在Webmagic的基础上，利用selenium来模拟浏览器访问网站的方式发送请求，以绕过网站的页面动态反爬虫策略的限制。因此，本发明爬虫代理的网络爬虫模块具有良好的可扩展性。同时，采用基于分布式的爬虫代理方式，在不同的服务器上对网站进行数据采集，并将清洗和提炼后的结果保存到本地的数据库中。

进一步优选，所述爬虫代理的个数至少大于或等于2。

有益效果

一方面，本发明利用网络爬虫技术以及代理技术对漏洞发布网站进行自动访问，其中，爬虫过程一方面模拟浏览器对提取的url访问链接发起http请求，并在获得返回消息后自动执行页面脚本得到html代码，有效地克服了页面动态反爬虫策略；另一方面，还根据爬虫访问的反馈细腻些自动调整访问的频率，有效地克服了访问频率限制的反爬虫防护策略，进而在保证一定采集速率的同时还绕过了网站常规的两种反爬虫限制。

第二方面，本发明通过为每个漏洞发布网站创建一个访问链接共享存储结构，对url访问链接统一进行管理，以便各个代理可以有序提取到url访问链接进行爬虫，同时也防止相同url访问链接的重复存储以及重复被各个代理处理。

附图说明

图1是本发明提供的一种访问速率自适应的互联网漏洞关键信息采集方法的流程示意图；

图2是本发明提供的漏洞情报采集的基础信息的示意图；

图3是本发明提供的访问链接共享存储结构示意图；

图4是本发明提供的采集系统的架构示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

本发明利用网络爬虫技术以及代理技术对漏洞发布网站进行自动访问。如图1所示，为了实现一种访问速率自适应的互联网漏洞关键信息采集方法，本发明首先需要获取各个漏洞发布网站上每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息。

其中，同一漏洞发布网站发布的同一类漏洞的漏洞信息网页使用相同的html标签信息和html标签正则表达式。目标关键信息是根据用户需求而定，例如漏洞发布名称，漏洞发布者，漏洞发布时间，受影响的操作系统等。

如图2所示，本发明采用site，hole和hole_tag代表漏洞情报采集的基础信息，如下所示：

用site＝<site_id,site_name,site_url>表示漏洞发布网站信息，其中，site_id表示网站编号，site_name表示网站的名称，site_url表示网站的url访问链接。

用hole＝<site_id,hole_id,hole_type,hole_url>表示漏洞发布网站的漏洞类别相关信息，其中，hole_id表示该漏洞类别的标识号，hole_type表示漏洞的类别名称，hole_url表示该漏洞类别的初始访问链接。

用hole_tag＝<hole_id,tag_id,tag_name,tag_reg>表示漏洞具体的html标签信息，其中，tag_name表示漏洞信息网页上的标签名称，tag_id表示标签的编号，tag_reg表示标签的html正则表达式。应当说明，根据html标签信息可以从html代码中提取出该标签对应的目标关键信息。如图2所示，本发明首先获取每个漏洞发布网站的访问链接，以及对应网站上的每种漏洞类别的初始访问链接，以及提取漏洞信息网页的html标签信息。

其次，本发明还为每个漏洞发布网站构建一个访问链接共享存储结构。如图3所示，访问链接共享存储结构为长度为n的哈希表，哈希表的元素为一个链表指针，指向为一个链表，链表的表头包括该链表的长度和首个结点的地址。链表的结点主要包括一个访问链接，访问链接是否已经被访问的标志以及指向下个结点的指针。

初始化时，链表表头包含的链表长度为0，首个结点的地址指针为空。当有新的url访问链接需要加入哈希表时，使用哈希函数对url字符串进行散列计算，确定在哈希表中的位置索引url_hash，即url_hash＝hash_fun(url)，hash_fun的输入为url访问链接的字符串，输出为32位整数值。然后通过求余运算计算处url在哈希表中的索引位置url_index，即url_index＝url_hash％n，如果索引为url_index的元素对应链表长度为0，则将url访问链接加入到链表中，并将访问标志位设置为0，以及将链表长度改为1；如果对应的链表长度大于0，则从链表头到链表尾依次进行匹配，看url访问链接不存在，则将url访问链接添加到链表尾部，并将链表长度加1；如果已经存在，则转向下一个访问链接的添加过程。初始化时，将网站每种漏洞类别的初始访问地址加入到共享存储结构中，添加过程如上所述。

基于每个漏洞发布网站构建的访问链接共享存储结构以及采集的每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息，再采用爬虫和代理技术实现自动采集漏洞信息。具体为S2-S3：

(a)每个代理根据随机生成的索引值选择访问链接：

S21：每个代理随机生成一个随机整数，并进行取余操作得到访问链接共享存储结构中的索引位置；

p_index＝rd％n

S22：判断在访问链接共享存储结构中索引位置p_index处的链表中是否存在未被访问的url访问链接；

其中，若存在，将提取第一个出现的未被访问的url访问链接，即p_index位置的元素对应的链表长度大于0且链表中有结点的访问标志未被置位为1时，将第一个出现的未被访问的url访问链接作为代理选择的url访问链接；

索引位置的更新公式如下：p_index＝p_index+1，即移向下一个位置的元素。

当查找到未被访问的url访问链接时，在相应的链表结点添加互斥锁，并将访问标志位置为已被访问状态。即在当前代理进程访问期间，不允许其它代理进程访问该节点，并在将访问标志位置位为1后解锁，这样可以确保每个代理访问不同的链接。

(b)根据自动访问过程中反馈信息调整访问的速率：

所述爬虫时间间隔表示相邻两次爬虫的时间间隔，为每个代理设置一个访问链接的时间间隔t₁＝visit_interval，设置延迟修正时间t₂＝delta_interval，其中，visit_interval与delta_interval均是经验值。在每个代理完成每次爬虫后对代理的爬虫时间间隔进行更新，更新规律如下：

a：若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟小于当前的爬虫时间间隔t₁时，将当前的爬虫时间间隔t₁减去预设延迟修正时间t₂作为更新的爬虫时间间隔t₁。如下：

visit_interval＝visit_interval-delta_interval

b若当前爬虫网站返回的页面消息可以被解析且消息返回时间延迟大于当前的爬虫时间间隔t₁时，将当前的爬虫时间间隔t₁的2倍作为更新的爬虫时间间隔t₁。如下：

visit_interval＝visit_interval*2

需要说明的是，消息返回时间延迟是指从代理发起请求到代理接收到返回网页的延时。还需要说明的是，代理爬虫的方式为：模拟浏览器对提取的url访问链接发起http请求，并在获得返回消息后自动执行页面脚本得到html代码。

S3：再利用对应同一类漏洞信息网页的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接。

html代码表示漏洞信息网页的信息，html标签信息表示从html代码提取目标关键信息的提取方式。

其中，终止爬行过程的方式如下：

实时监测各个代理在各个漏洞发布网站的采集时长，以及统计各个已被访问过的链接连续被尝试重复访问的次数，其中，若某个代理在某个漏洞发布网站的采集时长达到设定的时长，则终止该代理在该漏洞发布网站上的采集；若某个被访问过的链接连续被尝试重复访问次数超过过设定的次数，则终止对该链接的访问。

如图4所示，本发明基于上述方法提供一种采集系统，包括：相互通信连接的初始信息采集模块，爬虫代理，访问链接共享存储结构更新模块以及数据库；

其中，所述初始信息采集模块，用于获取每类漏洞的漏洞信息网页上各个目标关键信息的html标签信息和html标签正则表达式；

数据库用于保存网站爬行结果，将不同网站的最新漏洞信息按照统一格式进行存储和查询。同时，为了在离线网络详细展示漏洞信息页面，数据存储模块也保存了原始网页的html页面。

综上所述，本发明通过采用模拟浏览器和自动调整访问速率的方式，本发明提出的方法可以绕过网站设置的反爬虫策略，如页面执行脚本限制，访问频率和访问顺序限制，从而保证可以连续高效地进行漏洞情报采集。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种访问速率自适应的互联网漏洞关键信息采集方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于：所述访问链接共享存储结构为哈希表，每个链表的结点包括一个url访问链接和url访问链接是否已被访问的访问标志位以及指向下个结点的指针，其中，将url访问链接更新至相匹配的漏洞发布网站的访问链接共享存储结构的过程如下：

url_index＝url_hash％n

3.根据权利要求2所述的方法，其特征在于：S2中每个代理从漏洞发布网站的访问链接共享存储结构中提取url访问链接的过程如下：

p_index＝rd％n

其中，若存在，将按序提取第一个未被访问的url访问链接；

索引位置的更新公式如下：

p_index＝p_index+1。

4.根据权利要求3所述的方法，其特征在于：当查找到未被访问的url访问链接时，在相应的链表结点添加互斥锁，并将访问标志位置为已被访问状态。

5.根据权利要求2所述的方法，其特征在于：所述访问链接共享存储结构初始化为：将各个漏洞发布网站发布的各类漏洞的初始url访问链接添加至相匹配漏洞发布网站的访问链接共享存储结构中。

6.基于权利要求1-5任一项所述方法的采集系统，其特征在于：包括：相互通信连接的初始信息采集模块和爬虫代理以及访问链接共享存储结构更新模块；

爬虫代理的网络爬虫模块采用Webmagic+selenium框架，爬虫模块用于从漏洞发布网站的访问链接共享存储结构中提取url访问链接，并基于提取的url访问链接按照当前爬虫时间间隔进行爬虫得到所述url访问链接对应漏洞信息网页的html代码；以及利用相匹配的html标签信息对html代码进行正则式匹配提取漏洞信息网页上的目标关键信息以及提取漏洞信息网页中其他url访问链接；

7.根据权利要求6所述的采集系统，其特征在于：所述爬虫代理的个数至少大于或等于2。