CN108170843A

CN108170843A - 用于获取数据的方法和装置

Info

Publication number: CN108170843A
Application number: CN201810044267.9A
Authority: CN
Inventors: 陈坤斌; 方军; 郑志彬; 莫洋; 王万梁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-06-15
Anticipated expiration: 2038-01-17
Also published as: CN108170843B

Abstract

本申请实施例公开了用于获取数据的方法和装置。该方法的一具体实施方式包括：从种子信息集合中依次选取目标种子信息；对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列；依次从该优先目标种子信息队列的目标种子信息、该常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。该实施方式提高了数据获取的灵活性。

Description

用于获取数据的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及用于获取数据的方法和装置。

背景技术

随着计算机技术的发展，为了更好的进行数据分析，通常需要通过网络爬虫从网页中抓取数据。网络爬虫又称全网爬虫(Scalable Web Crawler)、网络蜘蛛等。网络爬虫通常从一组要访问的URL(Uniform Resource Locator)链接开始获取网页数据，可以称这些URL为种子。

目前的数据获取方法通常根据预先设置的调度顺序依次获取各个种子对应的网页数据，无法进行优先级调度。

发明内容

本申请实施例提出了用于获取数据的方法和装置。

第一方面，本申请实施例提供了一种用于获取数据的方法，该方法包括：从种子信息集合中依次选取目标种子信息，其中，目标种子信息包含目标垂类网站中的网页的链接；对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列；依次从优先目标种子信息队列的目标种子信息、常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。

在一些实施例中，种子信息集合中的每一个种子信息带有状态标识，种子信息集合中的每一个种子信息包含抓取深度，其中，状态标识用于指示该种子信息所包含的链接对应的网页数据的获取状态。

在一些实施例中，从种子信息集合中依次选取目标种子信息，包括：基于预设的调度信息，确定目标垂类网站和待选取的种子信息的目标状态；响应于确定目标状态为第一状态，将种子信息集合中的、包含目标垂类网站中的网页的链接且带有用于指示获取状态为第一状态的状态标识的种子信息作为目标种子信息，按照抓取深度由低到高的顺序，依次选取目标种子信息，其中，第一状态用于指示种子信息所包含的链接对应的网页数据未被获取过。

在一些实施例中，从种子信息集合中依次选取目标种子信息，还包括：响应于确定目标状态为第二状态，将种子信息集合中的、同时满足以下三个条件的种子信息确定为目标种子信息：包含目标垂类网站中的网页的链接，带有用于指示获取状态为第二状态的状态标识，种子信息所包含的链接对应的网页数据在目标时间段内未被获取过；按照所包含的链接对应的网页数据未被抓取的时长由大到小的顺序，依次选取目标种子信息，其中，第二状态用于指示种子信息所包含的链接对应的网页数据已被获取过。

在一些实施例中，对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列，包括：对于所依次选取的每一个目标种子信息，响应于确定该目标种子信息带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列；响应于确定该目标种子信息未带有优先标识，将该目标种子信息归入常规目标种子信息队列；将种子信息集合中的该目标种子信息的状态标识进行更新，其中，更新后的状态标识用于指示该目标种子信息所包含的链接对应的网页数据处于获取过程中。

在一些实施例中，在获取所提取的链接对应的网页数据之后，方法还包括：对于所获取的每一个目标种子信息对应的网页数据，提取该目标种子信息对应的网页数据的头部信息，对头部信息进行校验，确定页面是否有效；响应于确定页面有效，将种子信息集合中的该目标种子信息的状态标识更新为用于指示获取状态为第二状态的状态标识；从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息；将扩展种子信息更新至种子信息集合。

在一些实施例中，在从种子信息集合中依次选取目标种子信息之前，方法还包括：响应于检测到用户输入的输入信息，对输入信息进行解析，生成种子信息，将种子信息归入种子信息集合中。

在一些实施例中，优先目标种子信息队列、常规目标种子信息队列为分布式发布订阅消息系统中的消息队列。

在一些实施例中，在获取所提取的链接对应的网页数据之后，方法还包括：将所存储的网页数据解析为目标格式的数据，将解析后的数据存储至搜索服务器。

第二方面，本申请实施例提供了一种用于获取数据的装置，该装置包括：选取单元，配置用于从种子信息集合中依次选取目标种子信息，其中，目标种子信息包含目标垂类网站中的网页的链接；归入单元，配置用于对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列；获取单元，配置用于依次从优先目标种子信息队列的目标种子信息、常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。

在一些实施例中，选取单元包括：第一确定模块，配置用于基于预设的调度信息，确定目标垂类网站和待选取的种子信息的目标状态；第一选取模块，配置用于响应于确定目标状态为第一状态，将种子信息集合中的、包含目标垂类网站中的网页的链接且带有用于指示获取状态为第一状态的状态标识的种子信息作为目标种子信息，按照抓取深度由低到高的顺序，依次选取目标种子信息，其中，第一状态用于指示种子信息所包含的链接对应的网页数据未被获取过。

在一些实施例中，选取单元还包括：第二确定模块，配置用于响应于确定目标状态为第二状态，将种子信息集合中的、同时满足以下三个条件的种子信息确定为目标种子信息：包含目标垂类网站中的网页的链接，带有用于指示获取状态为第二状态的状态标识，种子信息所包含的链接对应的网页数据在目标时间段内未被获取过；第二选取模块，配置用于按照所包含的链接对应的网页数据未被抓取的时长由大到小的顺序，依次选取目标种子信息，其中，第二状态用于指示种子信息所包含的链接对应的网页数据已被获取过。

在一些实施例中，归入单元进一步配置用于：对于所依次选取的每一个目标种子信息，响应于确定该目标种子信息带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列；响应于确定该目标种子信息未带有优先标识，将该目标种子信息归入常规目标种子信息队列；将种子信息集合中的该目标种子信息的状态标识进行更新，其中，更新后的状态标识用于指示该目标种子信息所包含的链接对应的网页数据处于获取过程中。

在一些实施例中，装置还包括：扩展单元，配置用于对于所获取的每一个目标种子信息对应的网页数据，提取该目标种子信息对应的网页数据的头部信息，对头部信息进行校验，确定页面是否有效；响应于确定页面有效，将种子信息集合中的该目标种子信息的状态标识更新为用于指示获取状态为第二状态的状态标识；从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息；将扩展种子信息更新至种子信息集合。

在一些实施例中，装置还包括：解析单元，配置用于响应于检测到用户输入的输入信息，对输入信息进行解析，生成种子信息，将种子信息归入种子信息集合中。

在一些实施例中，装置还包括：存储单元，配置用于将所存储的网页数据解析为目标格式的数据，将解析后的数据存储至搜索服务器。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如用于获取数据的方法中任一实施例的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如用于获取数据的方法中任一实施例的方法。

本申请实施例提供的用于获取数据的方法和装置，通过从种子信息集合中依次选取目标种子信息，而后对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列，最后依次从该优先目标种子信息队列的目标种子信息、该常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据，从而可以利用优先目标种子信息队列和常规目标种子信息队列实现优先级调度，提高了数据获取的灵活性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于获取数据的方法的一个实施例的流程图；

图3是根据本申请的用于获取数据的方法的一个应用场景的示意图；

图4是根据本申请的用于获取数据的方法的又一个实施例的流程图；

图5是根据本申请的用于获取数据的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于获取数据的方法或用于获取数据的装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103、104、105。网络102用以在终端设备101和服务器103、104、105之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101可以通过网络102与服务器103、104、105交互，以接收或发送消息等。终端设备101上可以部署有分布式发布订阅消息系统(例如高吞吐量的分布式发布订阅消息系统kafka)，也可以安装有各种通讯客户端应用，例如爬虫类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备，例如台式计算机等。

服务器103、104、105可以是提供各种服务的服务器，例如对终端设备101上显示的不同网站中的网页提供支持的后台网页服务器。后台网页服务器可以对接收到的网页浏览请求等数据进行分析等处理，并将处理结果(例如页面)反馈给终端设备101。

需要说明的是，本申请实施例所提供的用于获取数据的方法一般由终端设备101执行，相应地，用于获取数据的装置一般设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。例如，终端设备可以是一个包含多个电子设备的系统。

继续参考图2，示出了根据本申请的用于获取数据的方法的一个实施例的流程200。所述的用于获取数据的方法，包括以下步骤：

步骤201，从种子信息集合中依次选取目标种子信息。

在本实施例中，用于获取数据的方法运行于其上的电子设备中可以存储有种子信息集合，上述种子信息集合中的种子信息可以包含与种子相关的各种信息，例如链接、垂类标识、种子标识、主域名信息、抓取次数等。实践中，在网络爬虫技术中，从一组要访问的URL链接开始获取网页数据，可以称这些URL为种子。

上述电子设备可以从上述种子信息集合中依次选取目标种子信息，其中，上述目标种子信息可以包含目标垂类网站中的网页的链接。此处，上述电子设备可以首先确定目标垂类网站，而后将种子信息可以包含目标垂类网站中的网页的链接的种子信息作为目标种子信息，从上述种子信息集合中依次选取目标种子信息。需要说明的是，垂类网站也称垂直网站(Vertical website)，垂类网站为注意力集中在某些特定的领域或某种特定的需求，提供有关这个领域或需求的全部深度信息和相关服务的网站。不同的垂类网站可以提供不同领域或需求的深度信息和相关服务。上述目标垂类网站可以是属于技术人员预先设置的一个或多个垂类的垂类网站(例如商品垂类网站、电影垂类网站等)。

在本实施例的一些可选的实现方式中，目标垂类网站可以是上述电子设备基于预设的垂类配额信息而确定的。此处，上述垂类配额信息可以包括各个垂类网站的权重。例如，商品垂类网站的权重为80，电影垂类网站的权重为20，美食垂类网站的权重为0。上述电子设备在每一次选取目标种子信息时，可以以各个垂类网站的归一化后的权重作为确定目标垂类网站的概率，确定目标垂类网站。以上述例子为例，上述电子设备可以以80％的概率将商品垂类网站作为目标垂类网站、以20％的概率将电影垂类网站作为目标垂类网站，确定目标垂类网站。

在本实施例的一些可选的实现方式中，上述种子信息集合可以以数据表的形式存储于数据库中。该数据表中的每一条种子信息可以包含但不限于以下信息：垂类标识(可以用于指示和区分种子所属的垂类)、域名标识(可以是用户自定义的用于指示和区分域名的标识，例如“6001：ctrip.com”)、链接(所要抓取数据的网页对应的链接)、种子标识(可以对URL进行MD5(Message Digest Algorithm MD5，中文名为消息摘要算法第五版)签名生成)、种子的状态标识(用于指示该种子信息所包含的链接对应的网页数据的获取状态，例如，指示种子信息所包含的链接对应的网页数据未被获取过(第一状态)的标识可以是“1”，指示种子信息所包含的链接对应的网页数据已被获取过(第二状态)的标识可以是“2”，指示种子信息所包含的链接对应的网页数据处于获取过程中(第三状态)的标识可以是“3”)、种子上次抓取状态(例如，可以分为以下几个状态：分为未抓取、已投递至爬虫、抓取成功、抓取失败、已抓取的优质页面、需要更新的种子、每日新增的种子、停止更新的种子等)、主域名信息、写入数据库的时间、种子状态更新时间、种子前链(即扩展出该种子的页面对应的URL)、实际URL信息(可以是重定向的URL)、随机因子(可以是技术人员预先设置的数值，例如“3”、“4”等)、抓取次数、抓取失败次数、抓取深度(可以用于表征种子的扩展链接的程度，例如，初始种子深度可以是1，每一轮扩展链接出来的新种子，深度加1)、抓取的页面长度(可以是抓取的网页的内容的长度)等。

在本实施例的一些可选的实现方式中，在从种子信息集合中依次选取目标种子信息之前，上述电子设备响应于检测到用户输入的输入信息，可以对上述输入信息进行解析，生成种子信息，将上述种子信息归入种子信息集合中。实践中，对上述输入信息进行解析生成种子信息的具体方式，可以是对输入信息进行垂类标识、域名标识、链接等内容的提取，汇总为种子信息，而后按照上述数据库中的数据表所规定的存储结构进行种子信息中的各内容的存储。

在本实施例的一些可选的实现方式中，上述电子设备在确定目标垂类网站后，还可以基于预先设定的其他选取规则(例如按照抓取深度从低到高的顺序、状态更新时间从先到后的顺序、随机因子从小到大的顺序等)依次选取与上述目标垂类网站对应的目标种子信息。

步骤202，对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列。

在本实施例中，上述电子设备对于所依次选取的每一个目标种子信息，可以基于该目标种子信息是否带有用于指示优先处理的优先标识(例如，可以是某个字符，也可以是由字母或数字等构成的字符串等)，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列。具体地，响应于确定该目标种子信息带有用于指示优先处理的优先标识，可以将该目标种子信息归入优先目标种子信息队列；响应于确定该目标种子信息未带有上述优先标识，可以将该目标种子信息归入常规目标种子信息队列。

在本实施例的一些可选的实现方式中，上述电子设备中可以部署分布式发布订阅消息系统(例如高吞吐量的分布式发布订阅消息系统kafka)，上述优先目标种子信息队列、上述常规目标种子信息队列为分布式发布订阅消息系统中的消息队列。实践中，可以将每一次选取的目标种子信息投递到分布式发布订阅消息系统kafka的指定话题(topic)中。

在本实施例的一些可选的实现方式中，上述电子设备可以实时监控各个目标垂类网站的投递速率，在每次投递前，可以判断相应的网站是否达到速率上限，若未达到，则可以直接投递。若已达到速率上限，可以将本次选取的目标种子信息写入缓存相应的目标垂类所对应的缓存(cache)中，在下一次选取时，首先确定缓存中是否存在目标种子信息，若存在，直接选取缓存中的目标种子信息。

步骤203，依次从优先目标种子信息队列的目标种子信息、常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。

在本实施例中，上述电子设备可以首先从优先目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据，在优先目标种子信息队列中的各个目标种子信息均处理完毕后，从常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据，以便保证高优先级的种子能得到更快的处理，为失效抓取和高优先级抓取提供了支持。需要说明的是，上述电子设备可以利用现有的爬虫工具(例如开源的python爬虫工具pyspider、网络爬虫开源软件opencrawler等)获取所提取的链接对应的网页数据。实践中，上述网页数据通常为HTML(HyperText Markup Language，超级文本标记语言)格式。

在本实施例的一些可选的实现方式中，在获取所提取的链接对应的网页数据之后，上述电子设备还可以将所存储的网页数据解析为目标格式(例如JSON(JavaScriptObject Notation，JS对象标记))的数据，将解析后的数据存储至搜索服务器(例如基于Lucene的搜索服务器ElasticSearch)。实践中，上述电子设备可以基于XPath(ExtensibleMarkup Language Path Language，可扩展标记语言路径语言)或预先设置的正则表达式对网页数据进行解析。实践中，XPath即为XML(Extensible Markup Language，可扩展标记语言)路径语言，它是一种用来确定XML文档中某部分位置的语言。XPath可以基于XML的树状结构，有不同类型的节点，包括元素节点，属性节点和文本节点，提供在数据结构树中找寻节点的能力。

在本实施例的一些可选的实现方式中，在获取所提取的链接对应的网页数据之后，对于所获取的每一个目标种子信息对应的网页数据，可以从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息。其中，每从网页数据中提取一个链接，可以生成一个包含该链接的扩展种子信息，上述扩展种子信息可以包含以所提取的该链接作为种子后，与该种子相关的信息。而后，可以将扩展种子信息更新至上述种子信息集合，进而可以实现种子的自动扩展和自动更新。

需要说明的是，在从网页数据中提取链接之前，上述电子设备还可以首先提取该目标种子信息对应的网页数据的头部信息，对上述头部信息进行校验，确定页面是否有效。其中，头部信息可以包括标题(title)、链接(link)、样式(style)以及关于信息(meta)等HTML元素。而后，响应于确定页面有效，再从网页中提取链接。

继续参见图3，图3是根据本实施例的用于获取数据的方法的应用场景的一个示意图。在图3的应用场景中，终端设备可以首先从存储有多个种子信息的数据库301中依次选取目标种子信息302。而后对于所依次选取的每一个目标种子信息，若该目标种子信息带有用于指示优先处理的优先标识，则将该目标种子信息归入优先目标种子信息队列303；若该目标种子信息不带有优先标识，则将该目标种子信息归入常规目标种子信息队列304。最后先从优先目标种子信息队列303的目标种子信息中提取链接，获取所提取的链接对应的网页数据305，再从常规目标种子信息队列304的目标种子信息中提取链接，获取所提取的链接对应的网页数据306。

本申请的上述实施例提供的方法，通过从种子信息集合中依次选取目标种子信息，而后对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列，最后依次从该优先目标种子信息队列的目标种子信息、该常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据，从而可以利用优先目标种子信息队列和常规目标种子信息队列实现优先级调度，提高了数据获取的灵活性。

进一步参考图4，其示出了用于获取数据的方法的又一个实施例的流程400。该用于获取数据的方法的流程400，包括以下步骤：

步骤401，基于预设的调度信息，确定目标垂类网站和待选取的种子信息的目标状态。

在本实施例中，用于获取数据的方法运行于其上的电子设备中可以存储有种子信息集合，上述种子信息集合可以以数据表的形式存储于数据库中。该数据表中的每一条种子信息可以包含但不限于以下信息：垂类标识、域名标识、链接、种子标识、种子的状态标识、种子上次抓取状态、主域名信息、写入数据库的时间、种子状态更新时间、种子前链、实际URL信息、随机因子、抓取次数、抓取失败次数、抓取深度、抓取的页面长度等。

在本实施例中，种子信息集合中的每一个种子信息可以带有状态标识，其中，上述状态标识可以用于指示该种子信息所包含的链接对应的网页数据的获取状态。上述获取状态可以包括第一状态、第二状态和第三状态，其中，上述第一状态可以用于指示种子信息所包含的链接对应的网页数据未被获取过，上述第二状态可以用于指示种子信息所包含的链接对应的网页数据已被获取过，上述第三状态可以用于指示种子信息所包含的链接对应的网页数据处于获取过程中。此外，上述种子信息集合中的每一个种子信息可以包含抓取深度。实践中，抓取深度可以用于表征种子的扩展链接的程度，例如，初始种子深度可以是1，每一轮扩展链接出来的新种子，深度加1。

在本实施例中，上述电子设备中可以存储有技术人员预设的调度信息，其中，上述调度信息可以包括垂类配额信息，上述垂类配额信息可以包括各个垂类网站的权重。例如，商品垂类网站的权重为80，电影垂类网站的权重为20，美食垂类网站的权重为0。上述电子设备在每一次选取目标种子信息时，可以以各个垂类网站的归一化后的权重作为确定目标垂类网站的概率，确定目标垂类网站。以上述例子为例，上述电子设备可以以80％的概率将商品垂类网站作为目标垂类网站、以20％的概率将电影垂类网站作为目标垂类网站，确定出目标垂类网站。

此外，上述调度信息还可以包括抓取各种状态的种子信息的权重。此处，种子信息的状态可以是种子信息所包含的链接对应的网页数据的获取状态。作为示例，抓取处于上述第一状态的种子信息的权重为80，抓取处于上述第二状态的种子信息的权重为20。上述电子设备在每一次选取目标种子信息时，可以以抓取每一种状态的种子信息的归一化后的权重作为确定待选取该种状态的种子信息的概率，确定待选取的种子信息的状态，并将所确定的待选取的种子信息的状态确定为目标状态。以上述例子为例，上述电子设备可以以80％的概率将第一状态作为目标状态、以20％的概率将第二状态确定为目标状态，确定待选取的种子信息的目标状态。

需要指出的是，响应于确定上述目标状态为上述第一状态，上述电子设备可以执行步骤402；响应于确定上述目标状态为上述第二状态，上述电子设备可以执行步骤403-步骤404。

步骤402，响应于确定目标状态为第一状态，将种子信息集合中的、包含目标垂类网站中的网页的链接且带有用于指示获取状态为第一状态的状态标识的种子信息作为目标种子信息，按照抓取深度由低到高的顺序，依次选取目标种子信息。

在本实施例中，响应于确定上述目标状态为上述第一状态，上述电子设备可以将上述种子信息集合中的、包含上述目标垂类网站中的网页的链接且带有用于指示获取状态为上述第一状态的状态标识的种子信息作为目标种子信息，按照抓取深度由低到高的顺序，依次选取目标种子信息。

在本实施例的一些可选的实现方式中，若存在抓取深度相同的目标种子信息，可以按照所包含的随机因子从小到大的顺序，从深度相同的目标种子信息中依次选取目标种子信息。

步骤403，响应于确定目标状态为第二状态，将种子信息集合中的、同时满足以下三个条件的种子信息确定为目标种子信息：包含目标垂类网站中的网页的链接，带有用于指示获取状态为第二状态的状态标识，种子信息所包含的链接对应的网页数据在目标时间段内未被获取过。

在本实施例中，响应于确定上述目标状态为第二状态，上述电子设备可以将上述种子信息集合中的、同时满足以下三个条件的种子信息确定为目标种子信息：包含目标垂类网站中的网页的链接，带有用于指示获取状态为上述第二状态的状态标识，种子信息所包含的链接对应的网页数据在目标时间段内未被获取过。其中，上述目标时间段可以是技术人员预先设定的时间段(例如近一周)。需要说明的是，每一个垂类网站可以对应一个不同的目标时间段，例如商品垂类网站对应的目标时间段可以是近一周，电影垂类网站对应的目标时间段可以是近三天等。此外，各个垂类网站也可以对应同一个目标时间段。

步骤404，按照所包含的链接对应的网页数据未被抓取的时长由大到小的顺序，依次选取目标种子信息。

在本实施例中，上述电子设备可以按照所包含的链接对应的网页数据未被抓取的时长由大到小的顺序，依次选取目标种子信息。

在本实施例的一些可选的实现方式中，若存在未被抓取的时长相同的目标种子信息，可以按照所包含的抓取深度从小到大的顺序，从未被抓取的时长相同的目标种子信息中依次选取目标种子信息。

步骤405，对于所依次选取的每一个目标种子信息，响应于确定该目标种子信息带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列；响应于确定该目标种子信息未带有优先标识，将该目标种子信息归入常规目标种子信息队列；将种子信息集合中的该目标种子信息的状态标识进行更新。

在本实施例中，上述电子设备中可以部署分布式发布订阅消息系统(例如高吞吐量的分布式发布订阅消息系统kafka)。上述分布式发布订阅消息系统可以提供两个消息队列，分别作为优先目标种子信息队列和常规目标种子信息队列。实践中，可以将每一次选取的目标种子信息投递到分布式发布订阅消息系统kafka的指定话题(topic)中。优先目标种子信息队列和常规目标种子信息队列分别具有一个对应的话题。

在本实施例中，对于所依次选取的每一个目标种子信息，响应于确定该目标种子信息带有用于指示优先处理的优先标识，可以将该目标种子信息归入优先目标种子信息队列；响应于确定该目标种子信息未带有优先标识，将该目标种子信息归入常规目标种子信息队列。而后，上述电子设备可以将上述种子信息集合中的该目标种子信息的状态标识进行更新，其中，更新后的状态标识用于指示该目标种子信息所包含的链接对应的网页数据处于获取过程中，即可以更新为用于指示第三状态的状态标识，即，用于指示该目标种子信息所包含的链接对应的网页数据处于获取过程中。

需要说明的是，上述电子设备获取链接对应的网页数据的方式可以采用分布式获取的方式。

步骤406，对于所获取的每一个目标种子信息对应的网页数据，提取该目标种子信息对应的网页数据的头部信息，对头部信息进行校验，确定页面是否有效；响应于确定页面有效，将种子信息集合中的该目标种子信息的状态标识更新为用于指示获取状态为第二状态的状态标识；从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息；将扩展种子信息更新至种子信息集合。

在本实施例中，对于所获取的每一个目标种子信息对应的网页数据，上述电子设备可以首先提取该目标种子信息对应的网页数据的头部信息，对上述头部信息进行校验，确定页面是否有效。其中，头部信息可以包括标题(title)、链接(link)、样式(style)以及关于信息(meta)等HTML元素。而后，响应于确定页面有效，可以将上述种子信息集合中的该目标种子信息的状态标识更新为用于指示获取状态为第二状态的状态标识。之后，可以从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息。其中，每从网页数据中提取一个链接，可以生成一个包含该链接的扩展种子信息，上述扩展种子信息可以是以所提取的该链接作为种子的种子信息，扩展种子信息所包含的内容可以与种子信息集合中的种子信息所包含的内容相同，在此不再赘述。最后，可以将扩展种子信息更新至种子信息集合。

在本实施例的一些可选的实现方式中，上述电子设备可以将所获取的各个的网页数据存储至上述分布式发布订阅消息系统中。在需要对网页数据解析时，从上述分布式发布订阅消息系统中提取网页数据。

在本实施例的一些可选的实现方式中，上述电子设备还可以部署有分布式文件系统，例如Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)。上述电子设备还可以将所获取的各个的网页数据存储至上述分布式文件系统中。在需要对网页数据解析时，从上述分布式文件系统中提取网页数据。实践中，分布式文件系统中可以以垂类、网站、时间三个维度进行存储。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于获取数据的方法的流程400突出了对不同状态下的种子信息的选取步骤以及扩展新的种子信息的步骤。由此，本实施例描述的方案不仅可以实现优先调度，还可以实现网页数据的流式获取，提高了数据获取的时效性和灵活性。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于获取数据的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的用于获取数据的装置500包括：选取单元501，配置用于从种子信息集合中依次选取目标种子信息，其中，上述目标种子信息包含目标垂类网站中的网页的链接；归入单元502，配置用于对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列；获取单元503，配置用于依次从上述优先目标种子信息队列的目标种子信息、上述常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。

在本实施例的一些可选的实现方式中，上述种子信息集合中的每一个种子信息可以带有状态标识，上述种子信息集合中的每一个种子信息包含抓取深度，其中，上述状态标识可以用于指示该种子信息所包含的链接对应的网页数据的获取状态。

在本实施例的一些可选的实现方式中，上述选取单元501可以包括第一确定模块和第一选取模块(图中未示出)。其中，上述第一确定模块可以配置用于基于预设的调度信息，确定目标垂类网站和待选取的种子信息的目标状态。上述第一选取模块可以配置用于响应于确定上述目标状态为第一状态，将上述种子信息集合中的、包含上述目标垂类网站中的网页的链接且带有用于指示获取状态为上述第一状态的状态标识的种子信息作为目标种子信息，按照抓取深度由低到高的顺序，依次选取目标种子信息，其中，上述第一状态用于指示种子信息所包含的链接对应的网页数据未被获取过。

在本实施例的一些可选的实现方式中，上述选取单元501还可以包括第二确定模块和第二选取模块(图中未示出)。其中，上述第二确定模块可以配置用于响应于确定上述目标状态为第二状态，将上述种子信息集合中的、同时满足以下三个条件的种子信息确定为目标种子信息：包含上述目标垂类网站中的网页的链接，带有用于指示获取状态为上述第二状态的状态标识，种子信息所包含的链接对应的网页数据在目标时间段内未被获取过。上述第二选取模块可以配置用于按照所包含的链接对应的网页数据未被抓取的时长由大到小的顺序，依次选取目标种子信息，其中，上述第二状态用于指示种子信息所包含的链接对应的网页数据已被获取过。

在本实施例的一些可选的实现方式中，上述归入单元502可以进一步配置用于对于所依次选取的每一个目标种子信息，响应于确定该目标种子信息带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列；响应于确定该目标种子信息未带有上述优先标识，将该目标种子信息归入常规目标种子信息队列；将种子信息集合中的该目标种子信息的状态标识进行更新，其中，更新后的状态标识用于指示该目标种子信息所包含的链接对应的网页数据处于获取过程中。

在本实施例的一些可选的实现方式中，上述装置还可以包括扩展单元(图中未示出)。其中，上述扩展单元可以配置用于对于所获取的每一个目标种子信息对应的网页数据，提取该目标种子信息对应的网页数据的头部信息，对上述头部信息进行校验，确定页面是否有效；响应于确定上述页面有效，将上述种子信息集合中的该目标种子信息的状态标识更新为用于指示获取状态为上述第二状态的状态标识；从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息；将上述扩展种子信息更新至上述种子信息集合。

在本实施例的一些可选的实现方式中，上述装置还可以包括解析单元(图中未示出)。其中，上述解析单元可以配置用于响应于检测到用户输入的输入信息，对上述输入信息进行解析，生成种子信息，将上述种子信息归入种子信息集合中。

在本实施例的一些可选的实现方式中，上述优先目标种子信息队列、上述常规目标种子信息队列为分布式发布订阅消息系统中的消息队列。

在本实施例的一些可选的实现方式中，上述装置还可以包括存储单元(图中未示出)。其中，上述存储单元可以配置用于将所存储的网页数据解析为目标格式的数据，将解析后的数据存储至搜索服务器。

本申请的上述实施例提供的装置，通过选取单元501从种子信息集合中依次选取目标种子信息，而后归入单元502对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列，最后获取单元503依次从该优先目标种子信息队列的目标种子信息、该常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据，从而可以利用优先目标种子信息队列和常规目标种子信息队列实现优先级调度，提高了数据获取的灵活性。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括选取单元、归入单元和获取单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，选取单元还可以被描述为“从种子信息集合中依次选取目标种子信息的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：从种子信息集合中依次选取目标种子信息；对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列；依次从该优先目标种子信息队列的目标种子信息、该常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于获取数据的方法，包括：

从种子信息集合中依次选取目标种子信息，其中，所述目标种子信息包含目标垂类网站中的网页的链接；

对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列；

依次从所述优先目标种子信息队列的目标种子信息、所述常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。

2.根据权利要求1所述的用于获取数据的方法，其中，所述种子信息集合中的每一个种子信息带有状态标识，所述种子信息集合中的每一个种子信息包含抓取深度，其中，所述状态标识用于指示该种子信息所包含的链接对应的网页数据的获取状态。

3.根据权利要求2所述的用于获取数据的方法，其中，所述从种子信息集合中依次选取目标种子信息，包括：

基于预设的调度信息，确定目标垂类网站和待选取的种子信息的目标状态；

响应于确定所述目标状态为第一状态，将所述种子信息集合中的、包含所述目标垂类网站中的网页的链接且带有用于指示获取状态为所述第一状态的状态标识的种子信息作为目标种子信息，按照抓取深度由低到高的顺序，依次选取目标种子信息，其中，所述第一状态用于指示种子信息所包含的链接对应的网页数据未被获取过。

4.根据权利要求3所述的用于获取数据的方法，其中，所述从种子信息集合中依次选取目标种子信息，还包括：

响应于确定所述目标状态为第二状态，将所述种子信息集合中的、同时满足以下三个条件的种子信息确定为目标种子信息：包含所述目标垂类网站中的网页的链接，带有用于指示获取状态为所述第二状态的状态标识，种子信息所包含的链接对应的网页数据在目标时间段内未被获取过；

按照所包含的链接对应的网页数据未被抓取的时长由大到小的顺序，依次选取目标种子信息，其中，所述第二状态用于指示种子信息所包含的链接对应的网页数据已被获取过。

5.根据权利要求4所述的用于获取数据的方法，其中，所述对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列，包括：

对于所依次选取的每一个目标种子信息，响应于确定该目标种子信息带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列；响应于确定该目标种子信息未带有所述优先标识，将该目标种子信息归入常规目标种子信息队列；将种子信息集合中的该目标种子信息的状态标识进行更新，其中，更新后的状态标识用于指示该目标种子信息所包含的链接对应的网页数据处于获取过程中。

6.根据权利要求5所述的用于获取数据的方法，其中，在所述获取所提取的链接对应的网页数据之后，所述方法还包括：

对于所获取的每一个目标种子信息对应的网页数据，提取该目标种子信息对应的网页数据的头部信息，对所述头部信息进行校验，确定页面是否有效；响应于确定所述页面有效，将所述种子信息集合中的该目标种子信息的状态标识更新为用于指示获取状态为所述第二状态的状态标识；从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息；将所述扩展种子信息更新至所述种子信息集合。

7.根据权利要求1所述的用于获取数据的方法，其中，在所述从种子信息集合中依次选取目标种子信息之前，所述方法还包括：

响应于检测到用户输入的输入信息，对所述输入信息进行解析，生成种子信息，将所述种子信息归入种子信息集合中。

8.根据权利要求1所述的用于获取数据的方法，其中，所述优先目标种子信息队列、所述常规目标种子信息队列为分布式发布订阅消息系统中的消息队列。

9.根据权利要求8所述的用于获取数据的方法，其中，在所述获取所提取的链接对应的网页数据之后，所述方法还包括：

将所存储的网页数据解析为目标格式的数据，将解析后的数据存储至搜索服务器。

10.一种用于获取数据的装置，包括：

选取单元，配置用于从种子信息集合中依次选取目标种子信息，其中，所述目标种子信息包含目标垂类网站中的网页的链接；

归入单元，配置用于对于所依次选取的每一个目标种子信息，基于该目标种子信息是否带有用于指示优先处理的优先标识，将该目标种子信息归入优先目标种子信息队列或常规目标种子信息队列；

获取单元，配置用于依次从所述优先目标种子信息队列的目标种子信息、所述常规目标种子信息队列的目标种子信息中提取链接，获取所提取的链接对应的网页数据。

11.根据权利要求10所述的用于获取数据的装置，其中，所述种子信息集合中的每一个种子信息带有状态标识，所述种子信息集合中的每一个种子信息包含抓取深度，其中，所述状态标识用于指示该种子信息所包含的链接对应的网页数据的获取状态。

12.根据权利要求11所述的用于获取数据的装置，其中，所述选取单元包括：

第一确定模块，配置用于基于预设的调度信息，确定目标垂类网站和待选取的种子信息的目标状态；

第一选取模块，配置用于响应于确定所述目标状态为第一状态，将所述种子信息集合中的、包含所述目标垂类网站中的网页的链接且带有用于指示获取状态为所述第一状态的状态标识的种子信息作为目标种子信息，按照抓取深度由低到高的顺序，依次选取目标种子信息，其中，所述第一状态用于指示种子信息所包含的链接对应的网页数据未被获取过。

13.根据权利要求12所述的用于获取数据的装置，其中，所述选取单元还包括：

第二确定模块，配置用于响应于确定所述目标状态为第二状态，将所述种子信息集合中的、同时满足以下三个条件的种子信息确定为目标种子信息：包含所述目标垂类网站中的网页的链接，带有用于指示获取状态为所述第二状态的状态标识，种子信息所包含的链接对应的网页数据在目标时间段内未被获取过；

第二选取模块，配置用于按照所包含的链接对应的网页数据未被抓取的时长由大到小的顺序，依次选取目标种子信息，其中，所述第二状态用于指示种子信息所包含的链接对应的网页数据已被获取过。

14.根据权利要求13所述的用于获取数据的装置，其中，所述归入单元进一步配置用于：

15.根据权利要求14所述的用于获取数据的装置，其中，所述装置还包括：

扩展单元，配置用于对于所获取的每一个目标种子信息对应的网页数据，提取该目标种子信息对应的网页数据的头部信息，对所述头部信息进行校验，确定页面是否有效；响应于确定所述页面有效，将所述种子信息集合中的该目标种子信息的状态标识更新为用于指示获取状态为所述第二状态的状态标识；从该目标种子信息对应的网页数据中提取链接，生成扩展种子信息；将所述扩展种子信息更新至所述种子信息集合。

16.根据权利要求10所述的用于获取数据的装置，其中，所述装置还包括：

解析单元，配置用于响应于检测到用户输入的输入信息，对所述输入信息进行解析，生成种子信息，将所述种子信息归入种子信息集合中。

17.根据权利要求10所述的用于获取数据的装置，其中，所述优先目标种子信息队列、所述常规目标种子信息队列为分布式发布订阅消息系统中的消息队列。

18.根据权利要求17所述的用于获取数据的装置，其中，所述装置还包括：

存储单元，配置用于将所存储的网页数据解析为目标格式的数据，将解析后的数据存储至搜索服务器。

19.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。