CN107729344A - 网站数据爬取方法、装置、计算机设备及可读存储介质 - Google Patents

网站数据爬取方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN107729344A
CN107729344A CN201710620026.XA CN201710620026A CN107729344A CN 107729344 A CN107729344 A CN 107729344A CN 201710620026 A CN201710620026 A CN 201710620026A CN 107729344 A CN107729344 A CN 107729344A
Authority
CN
China
Prior art keywords
crawled
website data
data
locally stored
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710620026.XA
Other languages
English (en)
Other versions
CN107729344B (zh
Inventor
李江华
李武奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201710620026.XA priority Critical patent/CN107729344B/zh
Publication of CN107729344A publication Critical patent/CN107729344A/zh
Priority to PCT/CN2018/080126 priority patent/WO2019019673A1/zh
Application granted granted Critical
Publication of CN107729344B publication Critical patent/CN107729344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明涉及一种网站数据爬取方法、装置、计算机设备及可读存储介质,该方法包括获取待爬取网站数据的数据标识和产生日期;获取本地存储的与数据标识对应的网站数据的产生日期;当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取并输出产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。上述的网站数据爬取方法、装置、计算机设备及可读存储介质,可以直接输出本地存储的网站数据,减少爬取的数据量,从而可以提高爬取数据的输出显示速度。

Description

网站数据爬取方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种网站数据爬取方法、装置、计算机设备及可读存储介质。
背景技术
爬取技术是通过URL链接地址获取并分析网页信息,按照提取所有的URL链接地址,然后再通过提取的URL链接地址获取网页信息,循环执行。
传统的爬取技术是一次性将所有的数据全部爬取,且需要即时返回结果,爬取数据量大,爬取时间较长,从而导致爬取数据的输出显示速度较慢。
发明内容
基于此,有必要针对传统技术中爬取数据的输出显示速度较慢的问题,提供一种网站数据爬取方法、装置、计算机设备及可读存储介质。
一种网站数据爬取方法,所述方法包括:
获取待爬取网站数据的数据标识和产生日期;
获取本地存储的与所述数据标识对应的网站数据的产生日期;
当所述待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较;
当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。
在其中一个实施例中,所述方法还包括:
当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据;
输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,所述方法还包括:
当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据;
输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
在其中一个实施例中,所述继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据的步骤,包括:
当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时,则依次分段爬取与本地存储的网站数据的产生日期相同的所述待爬取网站数据;
分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,所述将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较的步骤,包括:
将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配;
当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同;
当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。
一种网站数据爬取装置,所述装置包括:
获取模块,用于获取待爬取网站数据的数据标识和产生日期;获取本地存储的与所述数据标识对应的网站数据的产生日期;
爬取模块,用于当所述待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
第一输出模块,用于输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
比较模块,用于将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较;
第二输出模块,用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。
在其中一个实施例中,所述爬取模块还用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据;
所述第一输出模块还用于输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,所述爬取模块还用于当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据;
所述第二输出模块还用于输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
上述的网站数据爬取方法、装置、计算机设备及可读存储介质,在爬取待爬取数据之前,首先根据数据标识获取与本地存储的网站数据,当本地存储的网站数据与待爬取的网站数据的产生日期不同时,则先爬取产生日期在前的一部分数据并输出显示,且当爬取的待爬取数据的格式与本地存储的网站数据的格式相同时,则不再需要爬取与本地存储的网站数据格式相同的待爬取网站数据,而是直接输出本地存储的网站数据,减少爬取的数据量,从而可以提高爬取数据的输出显示速度。
附图说明
图1为一实施例中网站数据爬取方法的应用环境图;
图2为一实施例中网站数据爬取方法的流程图;
图3为一实施例中网站数据爬取方法的时序图;
图4为一实施例中分段爬取步骤的流程图;
图5为图2所示实施例中的步骤S210的流程图;
图6为一实施例中的网站数据爬取装置的结构示意图;
图7为一实施例中的爬虫终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
在详细说明根据本发明的实施例前,应该注意到的是,所述的实施例主要在于与网站数据爬取方法、装置、计算机设备及可读存储介质相关的步骤和系统组件的组合。因此,所属系统组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了,并且只示出了与理解本发明的实施例有关的细节,以免因对于得益于本发明的本领域普通技术人员而言显而易见的那些细节模糊了本发明的公开内容。
在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
参阅图1,图1为一实施例中网站数据爬取方法的应用环境图,其中可以包括处于互联网中的目标网站的服务器以及爬虫终端,其中爬虫终端可以包括URL爬取端、INFO爬取端、Format爬取端以及数据库,其中数据库可以包括应用数据以及搜索引擎的索引(目标网站的标识)等。其中,在首次爬取时,首先,运营人员会选定待爬取的目标网站,将目标网站录入站源表sitelist,然后URL爬取端会读取该站源表sitelist,并存入map(映射),并制定站源表中站点的正则解析规则。其次,根据制定的正则解析规则,URL爬取端爬取对应的URL列表。第三,INFO爬取端从数据库的URL列表读出URL及其相应的XPath规则(XPath,即为XML路径语言(XMLPathLanguage)它是一种用来确定XML文档中某部分位置的语言),然后爬取URL对应的每个网页,并根据XPath规则提取有价值的资源,并将提取的资源存入原始数据表originalresource。最后,Format爬取端从数据库原始数据表originalresource提取数据,进行进一步的规整、聚合,最终存入规整内容表中。
请参阅图2,在其中一个实施例中,提供一种网站数据爬取方法,本实施例以该方法应用到上述图1中的网站数据爬取方法的应用环境图中的爬虫终端来举例说明。该爬虫终端上运行有网站数据爬取程序,通过该网站数据爬取程序来实施网站数据爬取方法。该方法具体包括如下步骤:
S202:获取待爬取网站数据的数据标识和产生日期。
具体地,待爬取网站数据是显示在网页中的数据,其可以是账单数据、购物记录数据、测试数据等,在此不做限制。
待爬取网站数据的数据标识是指可以唯一确定待爬取网站数据的标识,该数据标识可以是通过网站数据所属的网站URL地址、用户名等来确定。例如当待爬取网站数据为账单数据时,该数据标识可以根据网站URL地址、用户名以及账单标识生成,当待爬取网站数据为购物记录时,该数据标识可以根据网站URL地址、卖家名称以及买家账户生成。
待爬取网站数据的产生日期是指待爬取网站数据所涉及的日期,其可以具体只某一日、某一月或某一年,也可以指一个日期范围,例如从6月1号到9月1号。例如当待爬取网站数据为账单数据时,则待爬取网站数据的产生日期为账单日期。当待爬取网站数据为购物记录数据时,则产生日期为下单时的日期,例如当涉及多个购物记录时,则可能存在多个产生日期。
S204:获取本地存储的与数据标识对应的网站数据的产生日期。
具体地,由于在上一次爬取过程中,爬取终端将爬取的网站数据存储在本地,例如上一次爬取了7月1号到8月1号的账单数据,本次需要爬取6月1号到9月1号的账单数据,则由于本地存储有7月1号到8月1号的账单数据,爬虫终端不需要再次爬取该些账单数据。
S206:当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。
具体地,待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同是指两者所涉及的日期范围不同,例如上例中,待爬取网站数据的产生日期为6月1号至9月1号,而本地存储的网站数据的产生日期是7月1号至8月1号,由于8月2号至9月1号的账单数据在本地没有存储,可以先爬取8月2号至9月1号的账单数据,即产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。
S208:输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。
具体地,一方面,爬虫终端可以通过第一线程去爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据,并实时将所爬取到的数据向用户展现,以保证数据显示速度,提高用户体验。另一方面,爬虫终端可以通过第二线程来将新爬取到的待爬取网站数据的格式与本地存储的网站数据的格式进行比较。例如,由于产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据的量较大,爬虫终端可以分期去爬取该网站数据,例如可以先爬取8月25号至9月1号的待爬取网站数据,当爬取到8月25号至9月1号的待爬取网站数据时,则触发第二线程来比较8月25号至9月1号的待爬取网站数据与本地存储的7月1号至8月1号的网站数据的格式是否相同,同时第一线程继续爬取8月2号至8月25号的待爬取网站数据。
S210:将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较。
具体地,待爬取网站数据的格式是指待爬取网站数据的显示格式,例如其可以是通过表格进行显示,且表格中包括5个字段,通过比较待爬取网站数据的格式与本地存储的网站数据的格式来判断本地存储的网站数据是否为脏数据,即只有目标网站中待爬取网站数据的格式与本地存储的网站数据的格式一致时,才认定本地存储的网站数据为有效数据,可以直接输出显示,给用户查看。
S212:当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。
具体地,当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,即待爬取网站数据所属的网站未改变,其数据格式未改变,从而可以直接输出本地存储的网站数据,减少爬取终端的爬取数据量,从而可以提高爬取数据的输出显示速度。
上述的网站数据爬取方法、装置、计算机设备及可读存储介质,在爬取待爬取数据之前,首先根据数据标识获取与本地存储的网站数据,当本地存储的网站数据与待爬取的网站数据的产生日期存在不同时,则先爬取产生日期在前的一部分数据并输出显示,且当爬取的待爬取数据的格式与本地存储的网站数据的格式相同时,则不再需要爬取与本地存储的网站数据格式相同的待爬取网站数据,而是直接输出本地存储的网站数据,减少爬取的数据量,从而可以提高爬取数据的输出显示速度。
在其中一个实施例中,该网站数据爬取方法还可以包括:当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据;输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
本实施例中,首先将已经爬取到的待爬取网站数据的格式与本地存储的网站数据的格式进行比较,当两者格式不相同时,才会继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据,这样即保证用户可以实时观看到显示的待爬取网站数据,又可以根据需要分段进行爬取,提高爬取的效率。
在其中一个实施例中,该网站数据爬取方法还可以包括:当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据;输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
本实施例中,当待爬取的网站数据既包括产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据,还包括产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据,则先爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据,再爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据,将待爬取网站数据进行了分段爬取,即保证用户可以实时观看到显示的待爬取网站数据,又可以提高爬取的效率。
参阅图3,图3为一实施例中网站数据爬取方法的时序图,其中该网站数据爬取方法包括:
首先用户终端向爬虫终端发送爬取请求,例如爬取6月1号至9月1号的账单数据,爬虫终端首先查询本地数据库中已存储的账单数据,如果本地数据库中已存储的账单数据为7月1号至8月1号,则爬虫终端首先从账单网页爬取8月2号至9月1号的账单数据,通过第一线程将所爬取到的账单数据返回至用户终端。
然后爬虫终端通过第二线程将所爬取到的账单数据的格式与本地存储的账单数据的格式进行比较,如果本地存储的账单数据的格式与所爬取的账单数据的格式不同,则标记本地数据库中存储的账单数据为脏数据,且继续爬取7月1号至8月1号的账单数据,并将所爬取的账单数据发送到用户终端。如果本地存储的账单数据的格式与所爬取的账单数据的格式相同时,则直接将本地数据库中存储的账单数据发送到用户终端,即不再需要再次爬取7月1号至8月1号的账单数据。
最后,爬虫终端需要判断待爬取的账单数据是否爬取完成,即是否存在未爬取的账单数据,例如本实施例中6月1号至6月30号的账单数据,如果存在,则继续爬取6月1号至6月30号的账单数据,并将所爬取到的账单数据返回至用户终端。
上述实施例中,将待爬取的网站数据划分为产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据,产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据以及产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据,爬虫终端首先爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据,即8月2号至9月1号的账单数据,然后通过比较所爬取的待爬取网站数据与本地存储的网站数据的格式是否改变来确定本场地存储的网站数据是否可以直接使用,即通过比较待爬取网站数据的格式与本地存储的网站数据的格式来判断本地存储的网站数据是否为脏数据,即当目标网站中待爬取网站数据的格式改变时,则会导致本地存储的网站数据与待爬取网站数据的格式不同,且尤其是待爬取网站数据增加一个字段等,则会导致本地存储的网站数据缺少一定信息,因此在直接使用本地存储的网站数据之前需要首先判断本地存储的网站数据的格式。当两者格式相同时,则直接将本地存储的网站数据发送到用户终端进行显示,当存在产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据,并将爬取到的网站数据发送到用户终端,减少爬取的数据量,从而可以提高爬取数据的输出显示速度。
在其中一个实施例中,请参阅图4,图4为一实施例中分段爬取步骤的流程图,网络数据爬取方法还包括一分段爬取步骤,该分段爬取步骤可以用于爬取继续爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据,产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据以及产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据中,本实施例以产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据为例进行说明,该分段爬取的步骤可以包括:
S402:当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时,则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据。
具体地,预设长度是指待爬取网站数据的长度,其中一条数据为一个长度,例如账单数据,账单中存储有10条数据,则数据长度为10。预设长度是根据爬虫终端一次所能读取的数据量或者用户终端的网页界面一次所能显示的数据量来设定的,例如可以设置预设长度为10条、15条、12条等,在此不做限制。
此处仍以上文的例子进行说明,例如与本地存储的网站数据的产生日期相同的账单数据为7月1号至8月1号中,其中存储有35条数据,则爬虫终端依据产生日期的前后,先爬取产生日期在前的数据,例如先爬取7月25号至8月1号的10条账单数据,然后再爬取7月15号到7月24号的10条账单数据,再爬取7月5号至7月14号的10条账单数据,最后再爬取7月1号至7月4号的5条账单数据。
S404:分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。
具体地,当爬虫终端爬取到账单数据时,则输出该账单数据,例如当爬虫终端爬取到7月25号至8月1号的10条账单数据时,则将7月25号至8月1号的10条账单数据发送到用户终端进行显示,然后再爬取7月15号到7月24号的10条账单数据,再将所爬取到的7月15号到7月24号的10条账单数据发送至用户终端进行显示,依次类推,直至爬取完成。此外,爬虫终端还可以通过一个线程爬取到7月25号至8月1号的10条账单数据,再通过另一个线程将7月25号至8月1号的10条账单数据发送到用户终端进行显示,而原线程仍继续爬取7月15号到7月24号的10条账单数据,当原线程爬取到了爬取7月15号到7月24号的10条账单数据时,另一个线程则将所爬取到的7月15号到7月24号的10条账单数据发送至用户终端进行显示,依次类推,直至爬取完成。
上述实施例中,为了采用分段爬取的方式,一方面爬取待爬取网络数据,一方面将已爬取的网络数据发送到用户终端进行显示,兼顾用户体验和爬取效率。
在其中一个实施例中,请参阅图5,图5为图2所示实施例中的步骤S210的流程图,该步骤S210,即将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较的步骤可以包括:
S502:将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配。
具体地,待爬取网站数据的字段即待爬取网站数据所涉及的内容,例如一条账单数据可能涉及姓名、收款方、付款时间、付款金额等字段,将待爬取网站数据的字段与本地存储的网站数据的字段进行匹配,例如当待爬取网站数据的字段为姓名、收款方、付款时间、付款金额以及原由,而本地存储的网站数据的字段为姓名、收款方、付款时间、付款金额,则认为所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配,即除非两者字段的内容完全相同,否则都认为所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配。
S504:当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同。
S506:当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。
具体地,当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时,即所爬取的网站数据的字段与本地存储的网站数据的字段完全相同,则说明本地存储的网站数据是可用数据,因此直接将本地存储的网站数据发送到用户终端进行显示即可,不再需要再次爬取该些网站数据。当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不相匹配时,即所爬取的网站数据的字段与本地存储的网站数据的字段不完全相同,则说明本地存储的网站数据是脏数据,因此爬虫终端需要爬取该些待爬取网络数据,并将所爬取的待爬取网络数据发送到用户终端进行显示。
上述实施例中,通过判断所爬取的待爬取网站数据的字段与本地存储的网站数据的字段是否相匹配,来确定所爬取的待爬取网站数据与本地存储的网站数据的格式是否相同,判断逻辑简单。
参阅图6,图6为一实施例中的网站数据爬取装置的结构示意图,该网站数据爬取装置包括:
获取模块100,用于获取待爬取网站数据的数据标识和产生日期;获取本地存储的与数据标识对应的网站数据的产生日期。
爬取模块200,用于当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。
第一输出模块300,用于输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据。
比较模块400,用于将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较。
第二输出模块500,用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。
在其中一个实施例中,爬取模块200还可以用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
第一输出模块300还用于输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,爬取模块200还可以用于当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据。
第二输出模块500还用于输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
在其中一个实施例中,爬取模块200还可以用于当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时,则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据;分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,比较模块400还可以用于将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配;当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同;当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。
关于网站数据爬取装置的具体限定可以参见上文中对于网站数据爬取方法的限定,在此不再赘述。
请参阅图7,图7为一实施例中的爬虫终端的结构示意图,该爬虫终端可以是常规服务器或其他任何合适的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其中该存储器可以包括非易失性存储介质以及内存储器,该计算机程序可以存储在该非易失性存储介质中,处理器执行程序时实现以下步骤:获取待爬取网站数据的数据标识和产生日期;获取本地存储的与数据标识对应的网站数据的产生日期;当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较;当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。
在其中一个实施例中,处理器执行程序时还可以实现以下步骤:当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据;输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,处理器执行程序时还可以实现以下步骤:当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据;输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
在其中一个实施例中,处理器执行程序时还可以实现以下步骤:当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时,则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据;分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,处理器执行程序时还可以实现以下步骤:将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配;当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同;当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。
上述对于计算机设备的限定可以参见上文中对于网站数据爬取方法的具体限定,在此不再赘述。
请继续参阅图7,还提供一种计算机可读存储介质,其上存储有计算机程序,如图7中所示的非易失性存储介质,其中,该程序被处理器执行时实现以下步骤:获取待爬取网站数据的数据标识和产生日期;获取本地存储的与数据标识对应的网站数据的产生日期;当待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较;当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与待爬取网站数据的产生日期相同的网站数据。
在其中一个实施例中,该程序被处理器执行时还可以实现以下步骤:当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据;输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,该程序被处理器执行时还可以实现以下步骤:当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据;输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
在其中一个实施例中,该程序被处理器执行时还可以实现以下步骤:当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时,则依次分段爬取与本地存储的网站数据的产生日期相同的待爬取网站数据;分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。
在其中一个实施例中,该程序被处理器执行时还可以实现以下步骤:将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配;当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同;当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。
上述对于计算机可读存储介质的限定可以参见上文中对于网站数据爬取方法的具体限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种网站数据爬取方法,其特征在于,所述方法包括:
获取待爬取网站数据的数据标识和产生日期;
获取本地存储的与所述数据标识对应的网站数据的产生日期;
当所述待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较;
当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据;
输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据;
输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
4.根据权利要求2所述的方法,其特征在于,所述继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据的步骤,包括:
当与本地存储的网站数据的产生日期相同的待爬取网站数据的产生日期大于预设长度时,则依次分段爬取与本地存储的网站数据的产生日期相同的所述待爬取网站数据;
分段输出所爬取的与本地存储的网站数据的产生日期相同的待爬取网站数据。
5.根据权利要求1所述的方法,其特征在于,所述将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较的步骤,包括:
将所爬取的待爬取网站数据的字段与本地存储的网站数据的字段进行匹配;
当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段相匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同;
当所爬取的待爬取网站数据的字段与本地存储的网站数据的字段不匹配时,则所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同。
6.一种网站数据爬取装置,其特征在于,所述装置包括:
获取模块,用于获取待爬取网站数据的数据标识和产生日期;获取本地存储的与所述数据标识对应的网站数据的产生日期;
爬取模块,用于当所述待爬取网站数据的产生日期与本地存储的网站数据的产生日期不同时,则爬取产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
第一输出模块,用于输出所爬取的产生日期在本地存储的网站数据的产生日期之前的待爬取网站数据;
比较模块,用于将所爬取的待爬取网站数据的格式与本地存储的网站数据的格式进行比较;
第二输出模块,用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与所述待爬取网站数据的产生日期相同的网站数据。
7.根据权利要求6所述的装置,其特征在于,所述爬取模块还用于当所爬取的待爬取网站数据的格式与本地存储的网站数据的格式不相同时,则继续爬取产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据;
所述第一输出模块还用于输出所爬取的产生日期与本地存储的网站数据的产生日期相同的待爬取网站数据。
8.根据权利要求7所述的装置,其特征在于,所述爬取模块还用于当存在产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据时,则继续爬取产生日期在本地存储的网站数据的产生日期之后的待爬取网站数据;
所述第二输出模块还用于输出所爬取的产生日期在本地存储的网站数据的产生日期之后待爬取网站数据。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述方法中的步骤。
CN201710620026.XA 2017-07-26 2017-07-26 网站数据爬取方法、装置、计算机设备及可读存储介质 Active CN107729344B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710620026.XA CN107729344B (zh) 2017-07-26 2017-07-26 网站数据爬取方法、装置、计算机设备及可读存储介质
PCT/CN2018/080126 WO2019019673A1 (zh) 2017-07-26 2018-03-23 网站数据爬取方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710620026.XA CN107729344B (zh) 2017-07-26 2017-07-26 网站数据爬取方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN107729344A true CN107729344A (zh) 2018-02-23
CN107729344B CN107729344B (zh) 2020-08-28

Family

ID=61201694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710620026.XA Active CN107729344B (zh) 2017-07-26 2017-07-26 网站数据爬取方法、装置、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN107729344B (zh)
WO (1) WO2019019673A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019019673A1 (zh) * 2017-07-26 2019-01-31 深圳壹账通智能科技有限公司 网站数据爬取方法、装置、计算机设备及可读存储介质
CN109670100A (zh) * 2018-12-21 2019-04-23 第四范式(北京)技术有限公司 一种页面数据抓取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102195802A (zh) * 2010-03-18 2011-09-21 中兴通讯股份有限公司 一种终端软件下发方法、服务器和终端
CN104516956A (zh) * 2014-12-16 2015-04-15 中国科学院声学研究所 一种网站信息增量爬取方法
CN105592118A (zh) * 2014-10-23 2016-05-18 阿里巴巴集团控股有限公司 同步用户应用数据的方法、系统及服务端
CN106126716A (zh) * 2016-06-30 2016-11-16 北京奇艺世纪科技有限公司 一种数据爬取方法及装置
CN106649357A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 用于爬虫程序的数据处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799261B2 (en) * 2008-06-05 2014-08-05 International Business Machines Corporation Incremental crawling of multiple content providers using aggregation
CN106980687B (zh) * 2017-03-31 2020-05-22 北京奇艺世纪科技有限公司 一种资源下载系统、方法及爬虫下载系统
CN107729344B (zh) * 2017-07-26 2020-08-28 深圳壹账通智能科技有限公司 网站数据爬取方法、装置、计算机设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102195802A (zh) * 2010-03-18 2011-09-21 中兴通讯股份有限公司 一种终端软件下发方法、服务器和终端
CN105592118A (zh) * 2014-10-23 2016-05-18 阿里巴巴集团控股有限公司 同步用户应用数据的方法、系统及服务端
CN104516956A (zh) * 2014-12-16 2015-04-15 中国科学院声学研究所 一种网站信息增量爬取方法
CN106649357A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 用于爬虫程序的数据处理方法及装置
CN106126716A (zh) * 2016-06-30 2016-11-16 北京奇艺世纪科技有限公司 一种数据爬取方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019019673A1 (zh) * 2017-07-26 2019-01-31 深圳壹账通智能科技有限公司 网站数据爬取方法、装置、计算机设备及可读存储介质
CN109670100A (zh) * 2018-12-21 2019-04-23 第四范式(北京)技术有限公司 一种页面数据抓取方法及装置

Also Published As

Publication number Publication date
CN107729344B (zh) 2020-08-28
WO2019019673A1 (zh) 2019-01-31

Similar Documents

Publication Publication Date Title
US10789626B2 (en) Deep-linking system, method and computer program product for online advertisement and e-commerce
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US8190556B2 (en) Intellegent data search engine
TWI522942B (zh) 用戶收藏夾資料的處理方法與裝置、用戶收藏夾資料的搜尋方法與裝置、及用戶收藏夾系統
US7669119B1 (en) Correlation-based information extraction from markup language documents
CN105447186B (zh) 一种基于大数据平台的用户行为分析系统
KR101017016B1 (ko) 이미지 매칭에 기초한 상품 정보 제공 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN105488697A (zh) 一种基于客户行为特征的潜在客户挖掘方法
US20170109430A1 (en) Systems and methods for self-pairing databases
CN106600302A (zh) 基于Hadoop的商品推荐系统
US20120203760A1 (en) Automatically obtaining real-time, geographically-relevant product information from heterogeneus sources
JP7387432B2 (ja) ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法
US20100318422A1 (en) Method for recommending information of goods and system for executing the method
CN102968495A (zh) 搜索对比关联购物信息的垂直搜索引擎及方法
CN104077286A (zh) 商品信息的搜索方法及系统
US10839431B1 (en) Systems, methods and computer program products for cross-marketing related products and services based on machine learning algorithms involving field identifier level adjacencies
US20240070209A1 (en) Method and system for providing alternative result for an online search previously with no result
US20160140173A1 (en) Systems and methods for representing search query rewrites
US20150242529A1 (en) Method for Interlacing Multiple Internet domain names with a Database Driven Website to Obtain Better Webpage Ranking on Major Search Engines by Executing Computer-Executable Instructions Stored On a Non-Transitory Computer-Readable Medium
CN103778122A (zh) 搜索方法和系统
US20190129981A1 (en) Asynchronous distributed data cleansing
US20190130050A1 (en) Dynamically generating normalized master data
CN109727088A (zh) 一种基于浏览器的商品推荐方法及装置
US20180130119A1 (en) Product tagging and purchasing method and system
CN107729344A (zh) 网站数据爬取方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180529

Address after: 518000 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Applicant after: Shenzhen one ledger Intelligent Technology Co., Ltd.

Address before: 200000 Xuhui District, Shanghai Kai Bin Road 166, 9, 10 level.

Applicant before: Shanghai Financial Technologies Ltd

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1251061

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant