CN112507341A

CN112507341A - 基于网络爬虫的漏洞扫描方法、装置、设备和存储介质

Info

Publication number: CN112507341A
Application number: CN202011396260.7A
Authority: CN
Inventors: 刘伟雄; 李泳权
Original assignee: Guangzhou Wonfone Technology Co ltd
Current assignee: Guangzhou Wonfone Technology Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16

Abstract

本申请实施例公开了一种基于网络爬虫的漏洞扫描方法、装置、设备和存储介质。该方法包括：根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL；对所述有效URL进行排序过滤，并更新当前爬虫深度；将含有预设关键字的有效URL转换为标准URL；在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新；当所述待爬取列表为空或爬虫深度超过预设的深度极限值，终止爬虫扫描。通过宽度优先可以尽可能多地覆盖网页，同时通过深度极限值控制爬虫对一条路径的爬取过于深入，实现了爬取深度和爬取宽度的较好平衡，在提高爬取速度的同时保证合适的爬取宽度。

Description

基于网络爬虫的漏洞扫描方法、装置、设备和存储介质

技术领域

本申请实施例涉及计算机网络领域，尤其涉及一种基于网络爬虫的漏洞扫描方法、装置、设备和存储介质。

背景技术

随着互联网信息爆炸式增长，用户能够获得方方面面的信息，极大满足了用户的信息需求。但同时伴随的还有用户真正需要的目标信息受到大量无关信息的干扰，以及更严重的互联网信息安全风险的增加。网络技术高超的用户可能会出于各种私人目的通过互联网对计算机系统的漏洞进行攻击。

漏洞是计算机系统的硬件、软件等在系统设计、实现等方面存在的缺陷。这些缺陷一旦被发现并被恶意利用，攻击者就可以在未授权的情况下访问或破坏系统，从而影响计算机系统的正常运行甚至造成安全损害。在Web应用方面，漏洞为攻击者入侵Web应用提供了便利，攻击者通过利用这些漏洞入侵Web应用后，将可能会进行非法篡改系统中的数据，破坏Web应用的正常运行等非法操作，给用户和企业造成严重的损失。

为尽快发现计算机系统的漏洞，提前做好应对攻击的准备，通常需要对计算机系统进行漏洞扫描，发明人在使用现有的漏洞扫描方式时发现，现有的漏洞扫描方式通常需要较长的时间才能完成对系统的整体扫描。

发明内容

本申请实施例提供一种基于网络爬虫的漏洞扫描方法、装置、设备和存储介质，以解决现有的漏洞扫描方式扫描速度较慢的技术问题。

第一方面，本发明实施例提供了一种基于网络爬虫的漏洞扫描方法，包括：

根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL；

对所述有效URL进行排序过滤，并更新当前爬虫深度；

将含有预设关键字的有效URL转换为标准URL；

在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新；

当所述待爬取列表为空或爬虫深度超过预设的深度极限值，终止爬虫扫描。

进一步的，所述对所述有效URL进行排序过滤，并更新当前爬虫深度，具体为：

根据宽度优先对所述有效URL进行排序过滤，并更新当前爬虫深度。

进一步的，所述在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新，包括：

在预设的爬取集合基于布隆过滤器对所述标准URL进行查重；

若查重的结果为该标准URL已经存在于所述爬取集合，则丢弃该标准URL，否则将该标准URL添加到所述爬取集合。

进一步的，所述根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL，包括：

根据预设的待爬取列表依次访问对应的所述待爬取网页；

保留响应状态码为200的待爬取网页的URL作为有效URL。

第二方面，本发明实施例提供了一种基于网络爬虫的漏洞扫描装置，包括：

URL获取单元，用于根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL；

排序过滤单元，用于对所述有效URL进行排序过滤，并更新当前爬虫深度；

标准转换单元，用于将含有预设关键字的有效URL转换为标准URL；

查重更新单元，用于在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新；

扫描结束单元，用于当所述待爬取列表为空或爬虫深度超过预设的深度极限值，终止爬虫扫描。

进一步的，所述排序过滤单元，具体用于根据宽度优先对所述有效URL进行排序过滤，并更新当前爬虫深度。

进一步的，所述查重更新单元，包括：

查重过滤模块，用于在预设的爬取集合基于布隆过滤器对所述标准URL进行查重；

列表更新模块，用于若查重的结果为该标准URL已经存在于所述爬取集合，则丢弃该标准URL，否则将该标准URL添加到所述爬取集合。

进一步的，所述URL获取单元，包括：

网页访问模块，用于根据预设的待爬取列表依次访问对应的所述待爬取网页；

状态判断模块，用于保留响应状态码为200的待爬取网页的URL作为有效URL。

第三方面，本发明实施例还提供了一种终端设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的基于网络爬虫的漏洞扫描方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一所述的基于网络爬虫的漏洞扫描方法。

上述基于网络爬虫的漏洞扫描方法、装置、设备和存储介质，根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL；对所述有效URL进行排序过滤，并更新当前爬虫深度；将含有预设关键字的有效URL转换为标准URL；在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新；当所述待爬取列表为空或爬虫深度超过预设的深度极限值，终止爬虫扫描。通过宽度优先可以尽可能多地覆盖网页，同时通过深度极限值控制爬虫对一条路径的爬取过于深入，实现了爬取深度和爬取宽度的较好平衡，在提高爬取速度的同时保证合适的爬取宽度。

附图说明

图1是本申请实施例一提供的一种基于网络爬虫的漏洞扫描方法的方法流程图；

图2是本申请实施例二提供的一种基于网络爬虫的漏洞扫描装置的结构示意图；

图3是本申请实施例三提供的一种终端设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

需要注意的是，由于篇幅所限，本申请说明书没有穷举所有可选的实施方式，本领域技术人员在阅读本申请说明书后，应该能够想到，只要技术特征不互相矛盾，那么技术特征的任意组合均可以构成可选的实施方式。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种基于网络爬虫的漏洞扫描方法的流程图。实施例中提供的基于网络爬虫的漏洞扫描方法可以由基于网络爬虫的漏洞扫描方法对应的操作设备执行，该操作设备可以通过软件和/或硬件的方式实现，该操作设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。

具体的，参考图1，该基于网络爬虫的漏洞扫描方法，具体包括：

步骤S110：根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL。

在具体实施本方案前，需要对整个漏洞扫描过程进行整个运行参数的初始化，例如包括爬虫的深度极限值、爬虫抓取上限、扫描速度、扫描次数、扫描周期、进行扫描的目标漏洞类型等。在具体实施本方案时，爬虫抓取上限、扫描速度、扫描次数、扫描周期和目标漏洞类型与本方案的实施效果关系不大，在此不做具体阐述。需要说明的是深度极限值，本方案中预设的深度极限值仅仅为设定爬取深度的目标，而不是整个漏洞扫描过程的实际抓取极限。

本方案整体上是模仿攻击者的操作，以网络爬虫爬取的URL(Uniform ResourceLocator,统一资源定位器)为基础，构造用于检测系统漏洞的基础数据，并向Web服务器发送访问请求，通过对Web服务器对访问请求对应的HTTP响应信息进行分析，来判断检测的漏洞是否存在于计算机系统中，从而发现计算机系统存在的安全隐患。本方案的改进主要在于通过对爬取深度和爬取范围的平衡实现必要且有效的漏洞扫描范围。

在实现本方案的过程中，如果对Web服务器的访问能顺利实现，则表明对应的访问请求对漏洞扫描而言是有效，如果不能实现顺利访问，则应对应忽略该访问请求及相关URL，没有判断的意义。

具体实施过程中，步骤S110可以通过步骤S111和步骤S112实现。

步骤S111：根据预设的待爬取列表依次访问对应的所述待爬取网页。

步骤S112：保留响应状态码为200的待爬取网页的URL作为有效URL。

在网页访问过程中，不同的访问结果状态有不同的响应状态码进行对应表示，例如200表示服务器成功返回网页，404表示请求的网页不存在，503表示服务器超时。本方案中，仅需要对访问成功的操作进行处理，故仅保留响应状态码为200的方案即可，后续对网页进行解析。

步骤S120：对所述有效URL进行排序过滤，并更新当前爬虫深度。

在具体实现排序过滤时，基于宽度优先进行排序过滤，即根据宽度优先对所述有效URL进行排序过滤，并更新当前爬虫深度。爬虫深度即Web服务器中网站结构的层级参数，直观而言，首页为第一层，从首页打开的网页为第二层，从第二层网页打开的网页为第三层，以此类推，层级参数即为深度。其中当前爬虫深度一般从0开始累加，每完成一次爬取，当前爬虫深度累加1次完成更新。通过当前爬虫深度和对应预设的深度极限值，使得爬取过程控制在必要且有效的范围内。

步骤S130：将含有预设关键字的有效URL转换为标准URL。

各个网页对应的URL的实际使用格式只是在基础标准下的个性化使用，但是爬虫程序通常需要标准的URL，在本方案中，如果将URL添加到爬取集合，需要预先对有效URL进行标准化转换。

步骤S140：在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新。

爬取集合初始是一个空集，其用于记录爬取过程中获得的有效URL，当然，相同的有效URL只保存一次。

具体实施过程中，步骤S140可以通过步骤S141和步骤S142实现。

步骤S141：在预设的爬取集合基于布隆过滤器对所述标准URL进行查重。

布隆过滤器1970年由布隆提出，它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。本方案中不对查重过程本身进行优化，使用现有的布隆过滤器进行查重即可。即对于新获得的标准URL，与爬取集合中已经存在的标准URL进行匹配，如果有重复存在，则表明该标准URL已经存在，放弃即可，否则是新的标准URL，对应添加到爬取集合。

步骤S142：若查重的结果为该标准URL已经存在于所述爬取集合，则丢弃该标准URL，否则将该标准URL添加到所述爬取集合。

爬取集合的更新主要是将尚未存在于其中的有效URL对应的标准URL添加进去，属于基础的数据处理，在此不做过多说明。

步骤S150：当所述待爬取列表为空或爬虫深度超过预设的深度极限值，终止爬虫扫描。

需要说明的是，以上步骤序号并不是对步骤执行过程的严格限定，其仅为表明整个方案实施的整体框架，作为一个整体方案，各个参数及对应判断或执行符合整体方案框架即可。例如深度极限值和待爬取列表是否为空的判断并不一定是在同时进行，在整个方案的描述中，步骤S150中的爬虫深度之前对应出现步骤S120，在具体实现时，步骤S120之后即可对爬虫深度进行判断，如果爬虫深度超过预设的深度极限值，即可如步骤S150中所述终止爬虫扫描。

具体的漏洞类型判断，例如XSS(Cross Site Scripting,跨站脚本攻击)漏洞、敏感目录泄露漏洞等，基于现有技术根据漏洞特征进行设计即可，本方案不对具体设计进行过多阐述。

上述，根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL；对所述有效URL进行排序过滤，并更新当前爬虫深度；将含有预设关键字的有效URL转换为标准URL；在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新；当所述待爬取列表为空或爬虫深度超过预设的深度极限值，终止爬虫扫描。通过宽度优先可以尽可能多地覆盖网页，同时通过深度极限值控制爬虫对一条路径的爬取过于深入，实现了爬取深度和爬取宽度的较好平衡，在提高爬取速度的同时保证合适的爬取宽度。

实施例二

图2给出了本申请实施例二提供的一种基于网络爬虫的漏洞扫描装置的结构示意图，参考图2，该基于网络爬虫的漏洞扫描装置，包括URL获取单元210、排序过滤单元220、标准转换单元230、查重更新单元240和扫描结束单元250。

其中，URL获取单元210，用于根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL；排序过滤单元220，用于对所述有效URL进行排序过滤，并更新当前爬虫深度；标准转换单元230，用于将含有预设关键字的有效URL转换为标准URL；查重更新单元240，用于在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新；扫描结束单元250，用于当所述待爬取列表为空或爬虫深度超过预设的深度极限值，终止爬虫扫描。

在上述实施例的基础上，所述排序过滤单元220，具体用于根据宽度优先对所述有效URL进行排序过滤，并更新当前爬虫深度。

在上述实施例的基础上，所述查重更新单元240，包括：

在上述实施例的基础上，所述URL获取单元210，包括：

本发明实施例提供的基于对抗学习的模型训练装置包含在终端设备中，且可用于执行上述实施例一中提供的任一基于网络爬虫的漏洞扫描方法，具备相应的功能和有益效果。

值得注意的是，上述基于网络爬虫的漏洞扫描装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例三

图3为本发明实施例三提供的一种终端设备的结构示意图，该终端设备是前文所述基于网络爬虫的漏洞扫描方法的操作设备的一种具体的硬件呈现方案。如图3所示，该终端设备包括处理器310、存储器320、输入装置330、输出装置340以及通信装置350；终端设备中处理器310的数量可以是一个或多个，图3中以一个处理器310为例；终端设备中的处理器310、存储器320、输入装置330、输出装置340以及通信装置350可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于对抗学习的模型训练方法对应的程序指令/模块(例如，基于网络爬虫的漏洞扫描装置中的URL获取单元210、排序过滤单元220、标准转换单元230、查重更新单元240和扫描结束单元250)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述的基于对抗学习的模型训练方法。

存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器320可进一步包括相对于处理器310远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

上述终端设备包含基于对抗学习的模型训练装置，可以用于执行任意基于对抗学习的模型训练方法，具备相应的功能和有益效果。

实施例四

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本申请任意实施例中提供的基于网络爬虫的漏洞扫描方法中的相关操作，且具备相应的功能和有益效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。

因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

注意，上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

1.一种基于网络爬虫的漏洞扫描方法，其特征在于，包括：

对所述有效URL进行排序过滤，并更新当前爬虫深度；

将含有预设关键字的有效URL转换为标准URL；

2.根据权利要求1所述的方法，其特征在于，所述对所述有效URL进行排序过滤，并更新当前爬虫深度，具体为：

3.根据权利要求1所述的方法，其特征在于，所述在预设的爬取集合对所述标准URL进行查重，根据查重的结果对所述爬取集合进行更新，包括：

在预设的爬取集合基于布隆过滤器对所述标准URL进行查重；

4.根据权利要求1所述的方法，其特征在于，所述根据预设的待爬取列表获取对应的待爬取网页以及所述待爬取网页的有效URL，包括：

根据预设的待爬取列表依次访问对应的所述待爬取网页；

保留响应状态码为200的待爬取网页的URL作为有效URL。

5.一种基于网络爬虫的漏洞扫描装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述排序过滤单元，具体用于根据宽度优先对所述有效URL进行排序过滤，并更新当前爬虫深度。

7.根据权利要求5所述的装置，其特征在于，所述查重更新单元，包括：

8.根据权利要求5所述的装置，其特征在于，所述URL获取单元，包括：

9.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的基于网络爬虫的漏洞扫描方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的基于网络爬虫的漏洞扫描方法。