CN107729344A

CN107729344A - 网站数据爬取方法、装置、计算机设备及可读存储介质

Info

Publication number: CN107729344A
Application number: CN201710620026.XA
Authority: CN
Inventors: 李江华; 李武奇
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2018-02-23
Anticipated expiration: 2037-07-26
Also published as: CN107729344B; WO2019019673A1

Abstract

本发明涉及一种网站数据爬取方法、装置、计算机设备及可读存储介质，该方法包括获取待爬取网站数据的数据标识和产生日期；获取本地存储的与数据标识对应的网站数据的产生日期；当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时，则爬取并输出产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。上述的网站数据爬取方法、装置、计算机设备及可读存储介质，可以直接输出本地存储的网站数据，减少爬取的数据量，从而可以提高爬取数据的输出显示速度。

Description

网站数据爬取方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种网站数据爬取方法、装置、计算机设备及可读存储介质。

背景技术

爬取技术是通过URL链接地址获取并分析网页信息，按照提取所有的URL链接地址，然后再通过提取的URL链接地址获取网页信息，循环执行。

传统的爬取技术是一次性将所有的数据全部爬取，且需要即时返回结果，爬取数据量大，爬取时间较长，从而导致爬取数据的输出显示速度较慢。

发明内容

基于此，有必要针对传统技术中爬取数据的输出显示速度较慢的问题，提供一种网站数据爬取方法、装置、计算机设备及可读存储介质。

一种网站数据爬取方法，所述方法包括：

获取待爬取网站数据的数据标识和产生日期；

获取本地存储的与所述数据标识对应的网站数据的产生日期；

当所述待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时，则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；

输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；

将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较；

当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。

在其中一个实施例中，所述方法还包括：

当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时，则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据；

输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，所述方法还包括：

当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据；

输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。

在其中一个实施例中，所述继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据的步骤，包括：

当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时，则依次分段爬取与本地存储的网站数据的产生日期相同的所述待爬取网站数据；

分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，所述将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较的步骤，包括：

将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配；

当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同；

当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。

一种网站数据爬取装置，所述装置包括：

获取模块，用于获取待爬取网站数据的数据标识和产生日期；获取本地存储的与所述数据标识对应的网站数据的产生日期；

爬取模块，用于当所述待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时，则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；

第一输出模块，用于输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；

比较模块，用于将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较；

第二输出模块，用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。

在其中一个实施例中，所述爬取模块还用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时，则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据；

所述第一输出模块还用于输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，所述爬取模块还用于当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据；

所述第二输出模块还用于输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。

一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的步骤。

上述的网站数据爬取方法、装置、计算机设备及可读存储介质，在爬取待爬取数据之前，首先根据数据标识获取与本地存储的网站数据，当本地存储的网站数据与待爬取的网站数据的产生日期不同时，则先爬取产生日期在前的一部分数据并输出显示，且当爬取的待爬取数据的格式与本地存储的网站数据的格式相同时，则不再需要爬取与本地存储的网站数据格式相同的待爬取网站数据，而是直接输出本地存储的网站数据，减少爬取的数据量，从而可以提高爬取数据的输出显示速度。

附图说明

图1为一实施例中网站数据爬取方法的应用环境图；

图2为一实施例中网站数据爬取方法的流程图；

图3为一实施例中网站数据爬取方法的时序图；

图4为一实施例中分段爬取步骤的流程图；

图5为图2所示实施例中的步骤S210的流程图；

图6为一实施例中的网站数据爬取装置的结构示意图；

图7为一实施例中的爬虫终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

在详细说明根据本发明的实施例前，应该注意到的是，所述的实施例主要在于与网站数据爬取方法、装置、计算机设备及可读存储介质相关的步骤和系统组件的组合。因此，所属系统组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了，并且只示出了与理解本发明的实施例有关的细节，以免因对于得益于本发明的本领域普通技术人员而言显而易见的那些细节模糊了本发明的公开内容。

在本文中，诸如左和右，上和下，前和后，第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作，而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

参阅图1，图1为一实施例中网站数据爬取方法的应用环境图，其中可以包括处于互联网中的目标网站的服务器以及爬虫终端，其中爬虫终端可以包括URL爬取端、INFO爬取端、Format爬取端以及数据库，其中数据库可以包括应用数据以及搜索引擎的索引(目标网站的标识)等。其中，在首次爬取时，首先，运营人员会选定待爬取的目标网站，将目标网站录入站源表sitelist，然后URL爬取端会读取该站源表sitelist，并存入map(映射)，并制定站源表中站点的正则解析规则。其次，根据制定的正则解析规则，URL爬取端爬取对应的URL列表。第三，INFO爬取端从数据库的URL列表读出URL及其相应的XPath规则(XPath，即为XML路径语言(XMLPathLanguage)它是一种用来确定XML文档中某部分位置的语言)，然后爬取URL对应的每个网页，并根据XPath规则提取有价值的资源，并将提取的资源存入原始数据表originalresource。最后，Format爬取端从数据库原始数据表originalresource提取数据，进行进一步的规整、聚合，最终存入规整内容表中。

请参阅图2，在其中一个实施例中，提供一种网站数据爬取方法，本实施例以该方法应用到上述图1中的网站数据爬取方法的应用环境图中的爬虫终端来举例说明。该爬虫终端上运行有网站数据爬取程序，通过该网站数据爬取程序来实施网站数据爬取方法。该方法具体包括如下步骤：

S202：获取待爬取网站数据的数据标识和产生日期。

具体地，待爬取网站数据是显示在网页中的数据，其可以是账单数据、购物记录数据、测试数据等，在此不做限制。

待爬取网站数据的数据标识是指可以唯一确定待爬取网站数据的标识，该数据标识可以是通过网站数据所属的网站URL地址、用户名等来确定。例如当待爬取网站数据为账单数据时，该数据标识可以根据网站URL地址、用户名以及账单标识生成，当待爬取网站数据为购物记录时，该数据标识可以根据网站URL地址、卖家名称以及买家账户生成。

待爬取网站数据的产生日期是指待爬取网站数据所涉及的日期，其可以具体只某一日、某一月或某一年，也可以指一个日期范围，例如从6月1号到9月1号。例如当待爬取网站数据为账单数据时，则待爬取网站数据的产生日期为账单日期。当待爬取网站数据为购物记录数据时，则产生日期为下单时的日期，例如当涉及多个购物记录时，则可能存在多个产生日期。

S204：获取本地存储的与数据标识对应的网站数据的产生日期。

具体地，由于在上一次爬取过程中，爬取终端将爬取的网站数据存储在本地，例如上一次爬取了7月1号到8月1号的账单数据，本次需要爬取6月1号到9月1号的账单数据，则由于本地存储有7月1号到8月1号的账单数据，爬虫终端不需要再次爬取该些账单数据。

S206：当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时，则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。

具体地，待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同是指两者所涉及的日期范围不同，例如上例中，待爬取网站数据的产生日期为6月1号至9月1号，而本地存储的网站数据的产生日期是7月1号至8月1号，由于8月2号至9月1号的账单数据在本地没有存储，可以先爬取8月2号至9月1号的账单数据，即产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。

S208：输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。

具体地，一方面，爬虫终端可以通过第一线程去爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据，并实时将所爬取到的数据向用户展现，以保证数据显示速度，提高用户体验。另一方面，爬虫终端可以通过第二线程来将新爬取到的待爬取网站数据的格式与本地存储的网站数据的格式进行比较。例如，由于产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据的量较大，爬虫终端可以分期去爬取该网站数据，例如可以先爬取8月25号至9月1号的待爬取网站数据，当爬取到8月25号至9月1号的待爬取网站数据时，则触发第二线程来比较8月25号至9月1号的待爬取网站数据与本地存储的7月1号至8月1号的网站数据的格式是否相同，同时第一线程继续爬取8月2号至8月25号的待爬取网站数据。

S210：将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较。

具体地，待爬取网站数据的格式是指待爬取网站数据的显示格式，例如其可以是通过表格进行显示，且表格中包括5个字段，通过比较待爬取网站数据的格式与本地存储的网站数据的格式来判断本地存储的网站数据是否为脏数据，即只有目标网站中待爬取网站数据的格式与本地存储的网站数据的格式一致时，才认定本地存储的网站数据为有效数据，可以直接输出显示，给用户查看。

S212：当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。

具体地，当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，即待爬取网站数据所属的网站未改变，其数据格式未改变，从而可以直接输出本地存储的网站数据，减少爬取终端的爬取数据量，从而可以提高爬取数据的输出显示速度。

上述的网站数据爬取方法、装置、计算机设备及可读存储介质，在爬取待爬取数据之前，首先根据数据标识获取与本地存储的网站数据，当本地存储的网站数据与待爬取的网站数据的产生日期存在不同时，则先爬取产生日期在前的一部分数据并输出显示，且当爬取的待爬取数据的格式与本地存储的网站数据的格式相同时，则不再需要爬取与本地存储的网站数据格式相同的待爬取网站数据，而是直接输出本地存储的网站数据，减少爬取的数据量，从而可以提高爬取数据的输出显示速度。

在其中一个实施例中，该网站数据爬取方法还可以包括：当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时，则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据；输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。

本实施例中，首先将已经爬取到的待爬取网站数据的格式与本地存储的网站数据的格式进行比较，当两者格式不相同时，才会继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据，这样即保证用户可以实时观看到显示的待爬取网站数据，又可以根据需要分段进行爬取，提高爬取的效率。

在其中一个实施例中，该网站数据爬取方法还可以包括：当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据；输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。

本实施例中，当待爬取的网站数据既包括产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据，还包括产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据，则先爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据，再爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据，将待爬取网站数据进行了分段爬取，即保证用户可以实时观看到显示的待爬取网站数据，又可以提高爬取的效率。

参阅图3，图3为一实施例中网站数据爬取方法的时序图，其中该网站数据爬取方法包括：

首先用户终端向爬虫终端发送爬取请求，例如爬取6月1号至9月1号的账单数据，爬虫终端首先查询本地数据库中已存储的账单数据，如果本地数据库中已存储的账单数据为7月1号至8月1号，则爬虫终端首先从账单网页爬取8月2号至9月1号的账单数据，通过第一线程将所爬取到的账单数据返回至用户终端。

然后爬虫终端通过第二线程将所爬取到的账单数据的格式与本地存储的账单数据的格式进行比较，如果本地存储的账单数据的格式与所爬取的账单数据的格式不同，则标记本地数据库中存储的账单数据为脏数据，且继续爬取7月1号至8月1号的账单数据，并将所爬取的账单数据发送到用户终端。如果本地存储的账单数据的格式与所爬取的账单数据的格式相同时，则直接将本地数据库中存储的账单数据发送到用户终端，即不再需要再次爬取7月1号至8月1号的账单数据。

最后，爬虫终端需要判断待爬取的账单数据是否爬取完成，即是否存在未爬取的账单数据，例如本实施例中6月1号至6月30号的账单数据，如果存在，则继续爬取6月1号至6月30号的账单数据，并将所爬取到的账单数据返回至用户终端。

上述实施例中，将待爬取的网站数据划分为产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据，产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据以及产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据，爬虫终端首先爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据，即8月2号至9月1号的账单数据，然后通过比较所爬取的待爬取网站数据与本地存储的网站数据的格式是否改变来确定本场地存储的网站数据是否可以直接使用，即通过比较待爬取网站数据的格式与本地存储的网站数据的格式来判断本地存储的网站数据是否为脏数据，即当目标网站中待爬取网站数据的格式改变时，则会导致本地存储的网站数据与待爬取网站数据的格式不同，且尤其是待爬取网站数据增加一个字段等，则会导致本地存储的网站数据缺少一定信息，因此在直接使用本地存储的网站数据之前需要首先判断本地存储的网站数据的格式。当两者格式相同时，则直接将本地存储的网站数据发送到用户终端进行显示，当存在产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据，并将爬取到的网站数据发送到用户终端，减少爬取的数据量，从而可以提高爬取数据的输出显示速度。

在其中一个实施例中，请参阅图4，图4为一实施例中分段爬取步骤的流程图，网络数据爬取方法还包括一分段爬取步骤，该分段爬取步骤可以用于爬取继续爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据，产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据以及产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据中，本实施例以产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据为例进行说明，该分段爬取的步骤可以包括：

S402：当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时，则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据。

具体地，预设长度是指待爬取网站数据的长度，其中一条数据为一个长度，例如账单数据，账单中存储有10条数据，则数据长度为10。预设长度是根据爬虫终端一次所能读取的数据量或者用户终端的网页界面一次所能显示的数据量来设定的，例如可以设置预设长度为10条、15条、12条等，在此不做限制。

此处仍以上文的例子进行说明，例如与本地存储的网站数据的产生日期相同的账单数据为7月1号至8月1号中，其中存储有35条数据，则爬虫终端依据产生日期的前后，先爬取产生日期在前的数据，例如先爬取7月25号至8月1号的10条账单数据，然后再爬取7月15号到7月24号的10条账单数据，再爬取7月5号至7月14号的10条账单数据，最后再爬取7月1号至7月4号的5条账单数据。

S404：分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。

具体地，当爬虫终端爬取到账单数据时，则输出该账单数据，例如当爬虫终端爬取到7月25号至8月1号的10条账单数据时，则将7月25号至8月1号的10条账单数据发送到用户终端进行显示，然后再爬取7月15号到7月24号的10条账单数据，再将所爬取到的7月15号到7月24号的10条账单数据发送至用户终端进行显示，依次类推，直至爬取完成。此外，爬虫终端还可以通过一个线程爬取到7月25号至8月1号的10条账单数据，再通过另一个线程将7月25号至8月1号的10条账单数据发送到用户终端进行显示，而原线程仍继续爬取7月15号到7月24号的10条账单数据，当原线程爬取到了爬取7月15号到7月24号的10条账单数据时，另一个线程则将所爬取到的7月15号到7月24号的10条账单数据发送至用户终端进行显示，依次类推，直至爬取完成。

上述实施例中，为了采用分段爬取的方式，一方面爬取待爬取网络数据，一方面将已爬取的网络数据发送到用户终端进行显示，兼顾用户体验和爬取效率。

在其中一个实施例中，请参阅图5，图5为图2所示实施例中的步骤S210的流程图，该步骤S210，即将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较的步骤可以包括：

S502：将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配。

具体地，待爬取网站数据的字段即待爬取网站数据所涉及的内容，例如一条账单数据可能涉及姓名、收款方、付款时间、付款金额等字段，将待爬取网站数据的字段与本地存储的网站数据的字段进行匹配，例如当待爬取网站数据的字段为姓名、收款方、付款时间、付款金额以及原由，而本地存储的网站数据的字段为姓名、收款方、付款时间、付款金额，则认为所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配，即除非两者字段的内容完全相同，否则都认为所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配。

S504：当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同。

S506：当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。

具体地，当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时，即所爬取的网站数据的字段与本地存储的网站数据的字段完全相同，则说明本地存储的网站数据是可用数据，因此直接将本地存储的网站数据发送到用户终端进行显示即可，不再需要再次爬取该些网站数据。当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不相匹配时，即所爬取的网站数据的字段与本地存储的网站数据的字段不完全相同，则说明本地存储的网站数据是脏数据，因此爬虫终端需要爬取该些待爬取网络数据，并将所爬取的待爬取网络数据发送到用户终端进行显示。

上述实施例中，通过判断所爬取的待爬取网站数据的字段与本地存储的网站数据的字段是否相匹配，来确定所爬取的待爬取网站数据与本地存储的网站数据的格式是否相同，判断逻辑简单。

参阅图6，图6为一实施例中的网站数据爬取装置的结构示意图，该网站数据爬取装置包括：

获取模块100，用于获取待爬取网站数据的数据标识和产生日期；获取本地存储的与数据标识对应的网站数据的产生日期。

爬取模块200，用于当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时，则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。

第一输出模块300，用于输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。

比较模块400，用于将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较。

第二输出模块500，用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。

在其中一个实施例中，爬取模块200还可以用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时，则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。

第一输出模块300还用于输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，爬取模块200还可以用于当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据。

第二输出模块500还用于输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。

在其中一个实施例中，爬取模块200还可以用于当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时，则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据；分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，比较模块400还可以用于将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配；当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同；当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。

关于网站数据爬取装置的具体限定可以参见上文中对于网站数据爬取方法的限定，在此不再赘述。

请参阅图7，图7为一实施例中的爬虫终端的结构示意图，该爬虫终端可以是常规服务器或其他任何合适的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其中该存储器可以包括非易失性存储介质以及内存储器，该计算机程序可以存储在该非易失性存储介质中，处理器执行程序时实现以下步骤：获取待爬取网站数据的数据标识和产生日期；获取本地存储的与数据标识对应的网站数据的产生日期；当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时，则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较；当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时，则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据；输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据；输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时，则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据；分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，处理器执行程序时还可以实现以下步骤：将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配；当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同；当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。

上述对于计算机设备的限定可以参见上文中对于网站数据爬取方法的具体限定，在此不再赘述。

请继续参阅图7，还提供一种计算机可读存储介质，其上存储有计算机程序，如图7中所示的非易失性存储介质，其中，该程序被处理器执行时实现以下步骤：获取待爬取网站数据的数据标识和产生日期；获取本地存储的与数据标识对应的网站数据的产生日期；当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时，则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据；将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较；当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时，则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时，则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据；输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据；输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时，则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据；分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。

在其中一个实施例中，该程序被处理器执行时还可以实现以下步骤：将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配；当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同；当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时，则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。

上述对于计算机可读存储介质的限定可以参见上文中对于网站数据爬取方法的具体限定，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种网站数据爬取方法，其特征在于，所述方法包括：

获取待爬取网站数据的数据标识和产生日期；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较的步骤，包括：

6.一种网站数据爬取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述爬取模块还用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时，则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据；

8.根据权利要求7所述的装置，其特征在于，所述爬取模块还用于当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时，则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据；

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至5任一项所述方法中的步骤。