CN112347394A

CN112347394A - 网页信息的获取方法、装置、计算机设备和存储介质

Info

Publication number: CN112347394A
Application number: CN202011376054.XA
Authority: CN
Inventors: 曾文清; 陈立彬; 杨濠兴; 朱光岳; 虞孝伟
Original assignee: Guangzhou Zhizhen Information Technology Co ltd
Current assignee: Guangzhou Zhizhen Information Technology Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-09

Abstract

本申请涉及一种网页信息的获取方法、装置、计算机设备和存储介质，所述方法包括：获取具有不同集合优先级的多个种子集合；其中，至少一个种子集合包含具有不同爬取优先级的多个URL种子；从所述多个种子集合中，获取集合优先级最高的目标种子集合；当所述目标种子集合中包括具有不同爬取优先级的多个URL种子时，从所述多个URL种子中，提取爬取优先级最高的待爬取URL种子，并根据所述待爬取URL种子抓取网页信息，实现了根据集合间和集合内的两层优先级对URL种子进行爬取，可以根据不同爬取需求设置种子优先级并进行种子爬取，同时，采用该方法，在爬虫资源有限的情况下，可以优先爬取具有高优先级的URL种子。

Description

网页信息的获取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种网页信息的获取方法、装置、计算机设备和存储介质。

背景技术

随着网络的迅速发展，互联网成为大量信息的载体，为了有效地从海量信息中提取有效信息，可以通过网络爬虫实现。网络爬虫是一种网页信息提取程序，执行爬虫的URL(统一资源定位器，Uniform Resource Locator)输入称为URL种子。

在现有技术中，URL种子被创建后可以存储至消息中间件，在爬取时，可以按照URL种子的存储顺序或者随机选择的方式，从中选择URL种子。然而，上述爬取方式单一，难以根据用户不同的爬取要求进行网页信息的获取。

发明内容

基于此，有必要针对上述技术问题，提供一种网页信息的获取方法、装置、计算机设备和存储介质。

一种网页信息的获取方法，所述方法包括：

获取具有不同集合优先级的多个种子集合；其中，至少一个种子集合包含具有不同爬取优先级的多个URL种子；

从所述多个种子集合中，获取集合优先级最高的目标种子集合；

当所述目标种子集合中包括具有不同爬取优先级的多个URL种子时，从所述多个URL种子中，提取爬取优先级最高的待爬取URL种子，并根据所述待爬取URL种子抓取网页信息。

可选地，所述从所述多个种子集合中，获取集合优先级最高的目标种子集合，包括：

根据所述多个种子集合各自对应的集合优先级，确定集合优先级排序最前的预设数量的种子集合，得到目标种子集合；

所述从所述多个URL种子中，提取爬取优先级最高的待爬取URL种子，包括：

根据所述目标种子集合中所述多个URL种子对应的爬取优先级，将爬取优先级排序最前的预设数量的URL种子确定为待爬取URL种子；

从所述目标种子集合中提取所述待爬取URL种子。

可选地，在所述从所述多个种子集合中，获取集合优先级最高的目标种子集合的步骤之后，所述方法还包括：

判断所述目标种子集合包含的多个URL种子是否具有爬取优先级；

当所述目标种子集合中的多个URL种子不具有爬取优先级时，在所述目标种子集合中随机选择待爬取的URL种子。

可选地，在所述获取具有不同集合优先级的多个种子集合的步骤之前，所述方法还包括：

获取候选URL种子对应的种子识别标识，根据所述种子识别标识，判断所述候选URL种子在预设时间内是否已爬取；

当所述候选URL种子在预设时间内未爬取，获取所述候选URL种子对应的历史爬取失败次数；

根据所述历史爬取失败次数，确定所述候选URL种子对应的爬取优先级，并根据所述爬取优先级将所述候选URL种子分类至对应的种子集合。

可选地，在所述获取候选URL种子对应的种子识别标识的步骤之前，所述方法还包括：

获取候选URL种子对应的爬取任务执行时间、网站域名和网站地址信息；

对所述网站地址信息进行哈希处理，得到所述网站地址信息对应的哈希值；

根据所述爬取任务执行时间、所述哈希值和所网站域名，生成所述候选URL种子对应的种子识别标识。

可选地，所述根据所述种子识别标识，判断所述候选URL种子在预设时间内是否已爬取，包括：

获取已爬取URL种子集合和未爬取URL种子集合；

根据所述种子识别标识，分别与所述已爬取URL种子集合和所述未爬取URL种子集合中的种子识别标识匹配；

若所述种子识别标识与所述未爬取URL种子集合中的种子识别标识匹配成功，确定所述候选URL种子在预设时间内未爬取。

可选地，所述根据所述历史爬取失败次数，确定所述候选URL种子对应的爬取优先级，包括：

当所述历史爬取失败次数小于失败次数阈值时，根据所述历史爬取失败次数对应的扣减分值和历史爬取成功次数对应的增加分值，计算所述候选URL种子对应的总分值，作为爬取优先级。

一种网页信息的获取装置，所述装置包括：

种子集合获取模块，用于获取具有不同集合优先级的多个种子集合；其中，至少一个种子集合包含具有不同爬取优先级的多个URL种子；

目标种子集合获取模块，用于从所述多个种子集合中，获取集合优先级最高的目标种子集合；

URL种子提取模块，用于当所述目标种子集合中包括具有不同爬取优先级的多个URL种子时，从所述多个URL种子中，提取爬取优先级最高的待爬取URL种子，并根据所述待爬取URL种子抓取网页信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

上述一种网页信息的获取方法、装置、计算机设备和存储介质，通过获取具有不同集合优先级的多个种子集合，从多个种子集合中，获取集合优先级最高的目标种子集合，当目标种子集合中包括具有不同爬取优先级的多个URL种子时，从多个URL种子中，提取爬取优先级最高的待爬取URL种子，并根据目标URL种子抓取网页信息，实现了根据集合间和集合内的两层优先级对URL种子进行爬取，可以根据不同爬取需求设置种子优先级并进行种子爬取，同时，采用该方法，在爬虫资源有限的情况下，可以优先爬取具有高优先级的URL种子。

附图说明

图1为一个实施例中一种网页信息的获取方法的应用环境图；

图2为一个实施例中一种网页信息的获取方法的流程示意图；

图3为一个实施例中一种URL种子分类步骤的流程示意图；

图4为一个实施例中爬虫过程的数据流向图；

图5为一个实施例中另一种URL种子分类步骤的流程示意图；

图6为一个实施例中一种URL种子提取步骤的流程示意图；

图7为一个实施例中一种网页信息的获取装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了便于对本申请实施例的理解，先对现有技术爬取URL种子的方法进行介绍。在现有技术中，存在多种URL种子的创建策略，例如深度优先遍历策略、宽度优先遍历策略、反向链接数策略、Partial PageRank(非完全网页排名)策略、OPIC(在线页面重要性计算，Online Page Importance Computation)策略、大站优先策略等。然而，上述方式耦合度高，是按照URL种子的存储顺序或者随机选择的方式获取URL种子，难以根据用户不同的爬取要求进行网页信息的获取。

本申请提供的一种网页信息的获取方法，可以应用于如图1所示的应用环境中。其中，终端102可以通过网络与服务器104进行通信，终端102中可以存储有一个或多个URL种子，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，终端102可以根据URL种子对应的网站地址信息从服务器104中抓取网页信息。；或者，也可以在服务器104中存储一个或多个URL种子，服务器104可以获取URL种子并进行爬取，获得网页信息。

在一个实施例中，如图2所示，提供了一种网页信息的获取方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤201，获取具有不同集合优先级的多个种子集合；其中，至少一个种子集合包含具有不同爬取优先级的多个URL种子。

作为一示例，集合优先级可用于指示各个种子集合的爬取顺序，爬取优先级可用于指示在同一个种子集合中，各个URL种子的爬取顺序。

具体的，可以预先设置有多个种子集合，每个种子集合中存储有一个或多个URL种子，多个种子集合可以分别具有不同的集合优先级，在至少一个种子集合中，包含了具有不同爬取优先级的多个URL种子。

其中，URL种子的爬取优先级可以根据URL种子对应的种子特征确定，在根据种子特征确定爬取优先级时，可以根据单独的种子特征计算，也可以结合多个种子特征计算，其中种子特征可以包括但不限于以下的任一项或多项：URL种子的历史爬取情况、URL种子关联网站的网站类型、用户关注度、爬虫资源消耗程度、爬取速度。本领域技术人员可以根据实际需要设置不同的种子特征。

多个种子集合的优先级可以由用户预先指定，也可以根据每个集合内多个种子对应的种子特征确定，当用户根据种子特征确定集合优先级时，用于确定集合优先级的种子特征可以与确定URL种子爬取优先级的种子特征相同，也可以不相同，即种子集合间的集合优先级和种子集合内的爬取优先级，可以根据不同的种子特征确定。

在实际应用中，可以在接收到爬取指令时，获取具有不同集合优先级的多个种子集合；或者，也可以按照预设时间间隔自动获取多个种子集合，无需通过爬取指令触发。

步骤202，从所述多个种子集合中，获取集合优先级最高的目标种子集合。

步骤203，当所述目标种子集合中包括具有不同爬取优先级的多个URL种子时，从所述多个URL种子中，提取爬取优先级最高的待爬取URL种子，并根据所述待爬取URL种子抓取网页信息。

在得到多个种子集合后，可以从多个种子集合中获取当前集合优先级最高的目标种子集合，当目标种子集合中包括具有不同爬取优先级的多个URL种子时，可以从多个URL种子中确定出爬取优先级最高的待爬取URL种子，并进入与待爬取URL种子对应的网络页面，从该网络网页中抓取网页信息。

在本实施例中，通过获取具有不同集合优先级的多个种子集合，从多个种子集合中，获取集合优先级最高的目标种子集合，当目标种子集合中包括具有不同爬取优先级的多个URL种子时，从多个URL种子中，提取爬取优先级最高的待爬取URL种子，并根据目标URL种子抓取网页信息，实现了根据集合间和集合内的两层优先级对URL种子进行爬取，可以根据不同爬取需求设置种子优先级并进行种子爬取，同时，采用该方法，在爬虫资源有限的情况下，可以优先爬取具有高优先级的URL种子。

在一个实施例中，所述从所述多个种子集合中，获取集合优先级最高的目标种子集合，可以包括如下步骤：

在实际应用中，可以根据多个种子集合各自对应的集合优先级，按照集合优先级从高到低的顺序，对多个种子集合进行集合排序，进而可以将集合优先级排序最前的预设数量的种子集合，确定为目标种子集合。例如，可以将排在首位的种子集合确定为目标种子集合；或者，也可以将排序在最前的多个种子集合确定为目标种子集合。

根据所述目标种子集合中所述多个URL种子对应的爬取优先级，将爬取优先级排序最前的预设数量的URL种子确定为待爬取URL种子；从所述目标种子集合中提取所述待爬取URL种子。

具体的，可以根据目标种子集合中各个URL种子各自对应的爬取优先级，按照爬取优先级从高到低的顺序，对多个URL种子进行集合排序，进而可以将爬取优先级排序最前的预设数量的URL种子，确定为待爬取URL种子。例如，可以将排在首位的URL种子确定为待爬取URL终止；或者，也可以将排序在最前的多个URL种子确定为待爬取URL种子。

在具体实现中，为了根据各个URL种子对应的爬取优先级进行排序，针对存储具有不同爬取优先级的多个种子的种子集合，其数据类型可以是Redis有序集合(即Zset，也可以称为sorted set)，在有序集合中，每一个元素都可以有一个分数与之关联，Redis利用这个分数对成员进行由小到大或由大到小的排序，其中，分数可以是相同的，也可以是不相同的，即可以存在爬取优先级相同的两个或两个以上的URL种子。

在本实施例中，确定集合优先级排序最前的预设数量的种子集合，得到目标种子集合，以及，将爬取优先级排序最前的预设数量的URL种子确定为待爬取URL种子，实现了优先爬取优先级排序最前的种子集合和URL种子，能够优化爬虫资源的使用，优先爬取最重要的URL种子。

在一个实施例中，在所述从所述多个种子集合中，获取集合优先级最高的目标种子集合的步骤之后，所述方法还可以包括如下步骤：

判断所述目标种子集合包含的多个URL种子是否具有爬取优先级；当所述目标种子集合中的多个URL种子不具有爬取优先级时，在所述目标种子集合中随机选择待爬取URL种子。

具体的，在多个种子集合中，可以同时存在多种数据类型的种子集合，即存储了具有不同爬取优先级的URL种子的种子集合，以及，包含有多个URL种子但各个URL种子没有设置爬取优先级的种子集合。

基于此，在获取到集合优先级最高的目标种子集合后，可以判断目标种子集合包含的多个URL种子是否具有爬取优先级，当目标种子集合中的多个URL种子不具有爬取优先级时，可以在集合中随机选择待爬取URL种子。

在实际应用中，针对存储未设置爬取优先级的URL种子的种子集合，种子集合的数据类型可以是Redis无序集合(即set)，在Redis无序集合中，集合中的各个元素可以是唯一的，即不存在重复的多个元素。当判断目标种子集合包含的多个URL种子是否具有爬取优先级，可以通过判断目标种子集合的数据类型确定，当目标种子集合的数据类型为有序集合时，可以判定目标种子集合中的多个URL种子具有爬取优先级，当数据类型为无序集合时，可以判定目标种子集合中的多个URL种子不具有爬取优先级。

在本实施例中，当目标种子集合中的多个URL种子不具有爬取优先级时，在目标种子集合中随机选择待爬取的URL种子，实现了在设置种子集合优先级的基础上，根据不同爬取需求对集合内的URL种子设置优先级，能够提供多种URL种子的爬取方式。

在一个实施例中，所述确定集合优先级排序最前的预设数量的种子集，得到目标种子集合，包括：

确定集合优先级排序最前的预设数量的候选种子集合，并判断所述候选种子集合当前是否为空集；若否，将所述候选种子集合确定为目标种子集合；若是，将集合优先级排序于所述候选种子集合之后的种子集合，确定为新的候选种子集合，返回所述判断所述候选种子集合当前是否为空集的步骤，直到所有种子集合遍历完毕。

具体的，在得到多个种子集合后，可以根据集合优先级从高到低进行排序，并将排序最前的预设数量的种子集合确定为候选种子集合，例如可以将排在首位的种子集合确定为候选种子集合。

在实际应用中，从种子集合中提取待爬取URL种子后，会将该种子从原来的种子集合中删除，即随着时间推移，种子集合包含的URL种子数量可以不断减少，基于此，在确定候选种子集合后，可以判断候选种子集合当前是否为空集，若否，可以将候选种子集合确定为目标种子集合；若是，可以将集合优先级排序于候选种子集合之后的种子集合，也即集合优先级低于当前候选种子集合的种子集合，确定为新的候选种子集合，并再次判断当前的候选种子集合是否为空集。

在本实施例中，通过判断候选种子集合当前是否为空集并确定目标种子集合，能够优先爬取高优先级集合中的URL种子，满足特定的种子爬取需求。

在一个实施例中，在所述获取候选URL种子对应的种子识别标识的步骤之前，所述方法还可以包括如下：

获取候选URL种子对应的爬取任务执行时间、网站域名和网站地址信息；对所述网站地址信息进行哈希处理，得到所述网站地址信息对应的哈希值；根据所述爬取任务执行时间、所述哈希值和所网站域名，生成所述候选URL种子对应的种子识别标识。

在具体实现中，可以获取候选URL种子，候选URL种子可以是预先生成或存储的种子，也可以通过多种URL种子获取渠道获取，本申请对候选URL种子的获取方式不作限制。

候选URL种子可以具有对应的用于描述URL种子信息的种子参数，种子参数可以包括以下任一项或多项：爬取任务执行时间、URL种子对应的网站域名、网站地址信息(uniform resource locator，URL)、总分值、历史爬取失败次数、历史爬取成功次数、失败重试次数。其中，爬取任务执行时间可以指执行爬取任务对应的时间或时间段，例如，若以“天”为单位，每天爬取一次，则爬取任务执行时间可以包括年份、月份和日期；若以小时为单位，每小时爬取一次，则爬取任务执行时间可以包括年份、月份、日期和小时；总分值是通过URL种子对应的种子特征计算得到的与爬取优先级关联的分值；历史爬取失败次数和历史爬取成功次数是针对同一个URL，过往爬取失败的次数和爬取成功的次数，同一个URL，爬取失败的次数和爬取成功的次数在不同时间可以不同；失败重试次数是指在种子爬取失败时尝试重新爬取的次数。其中，爬取任务执行时间、URL种子对应的网站域名等信息可以组成redis key；网站地址信息、总分值、历史爬取失败次数、历史爬取成功次数、失败重试次数等信息可以是redis key(键)对应的key值(键值)。

在实际应用中，在获取到候选URL种子后，可以获取候选URL种子对应的爬取任务执行时间、网站域名和网站地址信息，并对网站地址信息进行哈希处理，得到对应的哈希值，并根据爬取任务执行时间、哈希值和网站域名，生成候选URL种子对应的种子识别标识，例如，可以按照“爬取任务执行时间:网站域名:哈希值”的结构，生成种子识别标识。

在本实施中，能够根据爬取任务执行时间、网站域名和网站地址信息生成候选URL种子对应的种子识别标识，提供了归属于不同爬取任务执行时间内的多个URL种子的识别依据。

在一个实施例中，如图3所示，在所述获取具有不同集合优先级的多个种子集合的步骤之前，所述方法还可以包括如下步骤：

步骤301，获取候选URL种子对应的种子识别标识，根据所述种子识别标识，判断所述候选URL种子在预设时间内是否已爬取。

在实际应用中，在得到候选URL种子后，可以获取候选URL种子对应的种子识别标识，由于种子识别标识可以与URL种子的爬取任务执行时间关联，可以根据种子识别标识，判断候选URL种子在预设时间内是否已爬取。

步骤302，当所述候选URL种子在预设时间内未爬取，获取所述候选URL种子对应的历史爬取失败次数。

步骤303，根据所述历史爬取失败次数，确定所述候选URL种子对应的爬取优先级，并根据所述爬取优先级将所述候选URL种子分类至对应的种子集合。

在具体实现中，当爬虫资源有限或者被反爬限制时，往往难以保证所有的URL种子被成功爬取，基于此，可以优先对多个候选URL种子中的一个或多个URL种子进行爬取。而为了保证数据爬取的连续性，避免影响业务分析，可以根据候选URL种子的历史爬取情况，确定种子对应的爬取优先级。

具体而言，当候选URL种子未在预设时间内被爬取时，可以获取候选URL种子对应的历史爬取失败次数，通过历史爬取失败次数可以判断候选URL种子是否多次发生爬取失败的情况，进而可以根据历史爬取失败次数，确定候选URL种子对应的爬取优先级，并根据爬取优先级，将候选URL种子分类到对应的种子集合中。

在本实施例中，通过根据历史爬取失败次数，确定候选URL种子对应的爬取优先级，并根据爬取优先级将所述候选URL种子分类至对应的种子集合，实现了根据URL种子的历史爬取情况确定爬取优先级，在爬虫资源有限的情况下，能够有效提高数据爬取的连续性。

在一个实施例中，所述根据所述种子识别标识，判断所述候选URL种子在预设时间内是否已爬取，可以包括如下步骤：

获取已爬取URL种子集合和未爬取URL种子集合；根据所述种子识别标识，分别与所述已爬取URL种子集合和所述未爬取URL种子集合中的种子识别标识匹配；若所述种子识别标识与所述未爬取URL种子集合中的种子识别标识匹配成功，确定所述候选URL种子在预设时间内未爬取。

在具体实现中，可以预先设置两个种子集合，即已爬取URL种子集合和未爬取URL种子集合，其中，已爬取URL种子集合包括已爬取的URL种子及其对应的种子识别标识。未爬取URL种子集合包括未爬取的URL种子及其对应的种子识别标识。在一个示例中，已爬取URL种子集合和未爬取URL种子集合可以分别存储在不同的redis存储模块中。

在获取到候选URL种子对应的种子识别标识后，可以根据该种子识别标识，分别与已爬取URL种子集合和未爬取URL种子集合进行匹配，具体而言，可以采用该种子识别标识，与已爬取URL种子集合中的种子识别标识进行匹配，以及，可以采用该种子识别标识，与未爬取URL种子集合中的种子识别标识进行匹配。

若该种子识别标识与未爬取URL种子集合中的种子识别标识匹配成功，则可以确定候选URL种子在预设时间内未爬取；若该种子识别标识与已爬取URL种子集合中的种子识别标识匹配成功，则可以确定候选URL种子在预设时间内已经爬取。

在本实施例中，可以采用候选URL种子对应的种子识别标识，分别与已爬取URL种子集合和未爬取URL种子集合进行匹配，确定出未爬取的URL种子，能够有效避免在同一时间段内对同一URL种子重复爬取和数据的重复采集，有效节省爬虫资源。

在一个实施例中，所述根据所述历史爬取失败次数，确定所述候选URL种子对应的爬取优先级，可以包括如下步骤：

在实际应用中，在获取到历史爬取失败次数后，可以判断历史爬取失败次数是否小于失败次数阈值，当历史爬取失败次数小于失败次数阈值时，可以确定候选URL种子不常发生爬取失败的情况，该候选URL种子可以继续进行爬取，为了进一步确定候选URL种子是否需要优先爬取，可以进一步获取历史爬取失败次数对应的扣减分子和历史爬取成功次数对应的增加分子，计算候选URL种子对应的总分值，并将其确定为爬取优先级，其中，总分值也可以成为权重因子(priority)。具体而言，在计算总分值时，爬取失败一次可以对应一单位扣减分值，爬取成功以此可以对应一单位增加分值，通过计算历史爬取失败次数与单位扣减分值的乘积，以及历史爬取成功次数与单位增加分值的乘积，可以得到扣减分值和增加分值，对两者求和后，可以得到总分值；或者，随着爬取失败次数的增加，每次扣减的分子可以相应增加，以体现多次爬取失败的影响。

当历史爬取失败次数大于或等于失败次数阈值时，可以确定候选URL种子多次发生爬取失败的情况，可以直接将候选URL种子放入失败集合，该失败集合的数据类型可以是无序集合。

在本实施例中，通过根据历史失败次数对应的扣减分值和历史成功次数对应的增加分值，计算候选URL种子对应的总分值作为爬取优先级，能够采用总分值综合反映URL种子的历史爬取情况，使得各个URL种子可以具有延续性的优先级，提高优先级评判的准确率。

在一个实施例中，所述根据所述爬取优先级将所述候选URL种子分类至对应的种子集合，包括：

当所述总分值大于或等于第一阈值时，将所述候选URL种子分类至第一种子集合；当所述总分值小于第一阈值且大于或等于第二阈值时，将所述候选URL种子分类至第二种子集合；当所述总分值小于第二阈值时，将所述候选URL种子分类至第三种子集合。

作为一示例，第一种子集合对应的集合优先级可以高于第二种子集合对应的集合优先级；第二种子集合对应的集合优先级可以高于第三种子集合对应的集合优先级，第一种子集合可以称为高优先级集合，第二种子集合可以称为正常优先级集合，第三种子集合可以称为低优先级集合。

在实际应用中，在确定总分值后，可以判断总分值所属的分值范围，分值范围越高，表示候选URL种子的爬取成功次数越多，可以赋予候选URL种子更高的优先级。具体的，可以设置第一阈值和第二阈值，第一阈值大于第二阈值，当总分值大于或等于第一阈值时，可以将候选URL种子分类至具有最高优先级的第一种子集合；当总分值小于第一阈值并且不超过第二阈值时，可以将候选URL种子分类至第二种子集合，当总分值小于第二阈值时，则将候选URL种子分类至第三种子集合。

在本实施例中，通过根据综合反映历史爬取情况的总分值，将候选URL种子分类至对应优先级的种子集合中，能够使历史爬取表现优秀的候选URL种子被优先爬取。

为了使本领域技术人员能够更好地理解上述步骤，以下通过一个例子对本申请实施例加以示例性说明，但应当理解的是，本申请实施例并不限于此。

以该方法应用于终端102为例进行说明，如图4所示，在终端102中可以设置有种子管理器(scheduler)和多个redis集合队列(即本申请中的种子集合)，终端102可以按照图5、图6所示的方法进行种子管理，将各个URL种子存储到对应的redis集合队列中。在具体实现中，可以根据各个redis集合队列的集合优先级，依次从多个集合中提取待爬取的URL种子，并通过下载管理器(downloader)从互联网中获取与该URL种子对应的网络页面，进而可以通过页面解析器(PageProcessor)对网络页面进行解析，抓取并解析网络页面中的相关信息，将解析结果采集到存储管理器(Pineline)中，进一步地，可以通过多种开源平台或数据库对存储管理器中的解析结果进行数据处理，例如通过Kafka、MySQL、ElasticSearch等软件进行数据消息订阅、数据搜索。上述URL爬取过程可以是基于开源的垂直爬虫框架实现，例如webmagic爬虫框架。

如图5所示，在实际应用中，终端102中存储的URL种子，可以具有对应的种子参数，在对多个URL种子进行管理时，首先可以根据种子参数生成URL种子对应的redis key(即种子识别标识)，进而可以采用redis可以，在已爬取URL种子集合对应的redis存储模块，以及，在未爬取URL种子集合对应的redis存储模块中进行匹配。若在已爬取URL种子集合对应的redis存储模块中匹配成功，可以判定该URL种子今天已被处理；若在未爬取URL种子集合对应的redis存储模块中匹配成功，则可以确定该URL种子未被爬取，后续可以对其进行爬取，并且，可以将该种子识别标识和/或对应的键值存储到已爬取URL种子集合对应的redis存储模块中，为后续判重提供依据。

具体的，同一个URL种子可以被多次爬取，在存储后，可以从URL种子对应的键值中获取该种子的历史爬取失败次数，并判断历史爬取失败次数是否等于或大于三次，或是，可以URL种子加入到失败集合中；若否，可以进一步计算URL种子对应的priority值(也可以称为权重因子，即本申请中的爬取优先级)，当priority值大于0的时候，可以将URL种子放入高优先级种子集合，当priority值属于(-10,0)的范围时，可以将URL种子放入到正常优先级种子集合，当priority值小于-10时，可以将URL种子放入到低优先级种子集合，其中，高优先级种子集合和低优先级种子集合的集合类型可以是redis中的有序集合(sortedset)，可以按照priority值从大到小对多个URL种子进行排序；正常优先级种子集合的集合类型可以是redis中的无序集合(set)。终端每天可以按照相同的算法计算URL种子对应的priority值，而priority值的大小决定了URL种子被爬取的先后顺序，从而实现了URL种子可以具有延续性的优先级。

如图6所示，在进行URL种子爬取时，可以进行死循环轮询，先判断高优先级种子集合是否存在元素，若是，可以将priority值排名最前的一个URL种子放入到运行中的种子集合中，以进行种子爬取，同时将该种子从高优先级种子集合中删除。

若高优先级种子集合中不存在元素，即高优先级种子集合为空集，可以判断正常优先级种子集合是否存在元素，若是，可以从当前集合中随机选取一种子放入到运行中的种子集合中，以进行种子爬取，同时将该种子从正常优先级种子集合中删除。

若正常优先级种子集合中不存在元素，即该集合为空集，可以判断低优先级种子集合是否存在元素，若是，可以将集合中priority值排名最前的一个URL种子放入到运行中的种子集合中，以进行种子爬取，同时将该种子从低优先级种子集合中删除；若低优先级种子集合中不存在元素，则可以向用户返回空结果。

在实际应用中，除了设置高优先级种子集合、正常优先级种子集合、低优先级种子集合和失败集合，还可以设置忽略集合，忽略集合的种子类型可以是无序集合类型，在集合中可以存储有不再进行爬取的URL种子。

虽然在上述多个实施例中，是以本申请应用于终端102进行说明，但应当理解的是，本申请并不限于此，本申请中多个实施例也可以应用于服务器，该服务器可以根据本申请提供的一种网页信息的获取方法，从其他服务器爬取网页信息。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种网页信息的获取装置，包括：

种子集合获取模块701，用于获取具有不同集合优先级的多个种子集合；其中，至少一个种子集合包含具有不同爬取优先级的多个URL种子；

目标种子集合获取模块702，用于从所述多个种子集合中，获取集合优先级最高的目标种子集合；

URL种子提取模块703，用于当所述目标种子集合中包括具有不同爬取优先级的多个URL种子时，从所述多个URL种子中，提取爬取优先级最高的待爬取URL种子，并根据所述待爬取URL种子抓取网页信息。

在一个实施例中，所述目标种子集合获取模块702，可以包括：

集合优先级排序子模块，用于根据所述多个种子集合各自对应的集合优先级，确定集合优先级排序最前的预设数量的种子集合，得到目标种子集合；

所述URL种子提取模块703，可以包括：

爬取优先级排序子模块，用于根据所述目标种子集合中所述多个URL种子对应的爬取优先级，将爬取优先级排序最前的预设数量的URL种子确定为待爬取URL种子；

待爬取URL种子提取子模块，用于从所述目标种子集合中提取所述待爬取URL种子。

在一个实施例中，所述装置还可以包括：

爬取优先级判断模块，用于判断所述目标种子集合包含的多个URL种子是否具有爬取优先级；

随机提取模块，用于当所述目标种子集合中的多个URL种子不具有爬取优先级时，在所述目标种子集合中随机选择待爬取的URL种子。

在一个实施例中，所述装置还包括：

种子识别标识获取模块，用于获取候选URL种子对应的种子识别标识，根据所述种子识别标识，判断所述候选URL种子在预设时间内是否已爬取；

历史爬取失败次数获取模块，用于当所述候选URL种子在预设时间内未爬取，获取所述候选URL种子对应的历史爬取失败次数；

分类模块，用于根据所述历史爬取失败次数，确定所述候选URL种子对应的爬取优先级，并根据所述爬取优先级将所述候选URL种子分类至对应的种子集合。

在一个实施例中，所述装置还包括：

网站域名获取模块，用于获取候选URL种子对应的爬取任务执行时间、网站域名和网站地址信息；

哈希处理模块，用于对所述网站地址信息进行哈希处理，得到所述网站地址信息对应的哈希值；

种子识别标识生成模块，用于根据所述爬取任务执行时间、所述哈希值和所网站域名，生成所述候选URL种子对应的种子识别标识。

在一个实施例中，所述种子识别标识获取模块，包括：

爬取集合获取子模块，用于获取已爬取URL种子集合和未爬取URL种子集合；

匹配子模块，用于根据所述种子识别标识，分别与所述已爬取URL种子集合和所述未爬取URL种子集合中的种子识别标识匹配；

未爬取种子确定子模块，用于若所述种子识别标识与所述未爬取URL种子集合中的种子识别标识匹配成功，确定所述候选URL种子在预设时间内未爬取。

在一个实施例中，所述分类模块，包括：

总分值计算子模块，用于当所述历史爬取失败次数小于失败次数阈值时，根据所述历史爬取失败次数对应的扣减分值和历史爬取成功次数对应的增加分值，计算所述候选URL种子对应的总分值，作为爬取优先级。

在一个实施例中，所述分类模块，还包括：

第一分类子模块，用于当所述总分值大于或等于第一阈值时，将所述候选URL种子分类至第一种子集合；

第二分类子模块，用于当所述总分值小于第一阈值且大于或等于第二阈值时，将所述候选URL种子分类至第二种子集合；

第三分类子模块，用于当所述总分值小于第二阈值时，将所述候选URL种子分类至第三种子集合；

其中，所述第一种子集合对应的集合优先级高于所述第二种子集合对应的集合优先级；所述第二种子集合对应的集合优先级高于所述第三种子集合对应的集合优先级。

关于一种网页信息的获取装置的具体限定可以参见上文中对于一种网页信息的获取方法的限定，在此不再赘述。上述一种网页信息的获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种网页信息的获取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现上述其他实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现上述其他实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种网页信息的获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述多个种子集合中，获取集合优先级最高的目标种子集合，包括：

从所述目标种子集合中提取所述待爬取URL种子。

3.根据权利要求2所述的方法，其特征在于，在所述从所述多个种子集合中，获取集合优先级最高的目标种子集合的步骤之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在所述获取具有不同集合优先级的多个种子集合的步骤之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，在所述获取候选URL种子对应的种子识别标识的步骤之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述种子识别标识，判断所述候选URL种子在预设时间内是否已爬取，包括：

获取已爬取URL种子集合和未爬取URL种子集合；

7.根据权利要求4所述的方法，其特征在于，所述根据所述历史爬取失败次数，确定所述候选URL种子对应的爬取优先级，包括：

8.一种网页信息的获取装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。