CN108038218A - 一种分布式爬虫方法、电子设备及服务器 - Google Patents

一种分布式爬虫方法、电子设备及服务器 Download PDF

Info

Publication number
CN108038218A
CN108038218A CN201711405566.2A CN201711405566A CN108038218A CN 108038218 A CN108038218 A CN 108038218A CN 201711405566 A CN201711405566 A CN 201711405566A CN 108038218 A CN108038218 A CN 108038218A
Authority
CN
China
Prior art keywords
page
target data
browsing pages
crawl
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711405566.2A
Other languages
English (en)
Other versions
CN108038218B (zh
Inventor
李栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201711405566.2A priority Critical patent/CN108038218B/zh
Publication of CN108038218A publication Critical patent/CN108038218A/zh
Application granted granted Critical
Publication of CN108038218B publication Critical patent/CN108038218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式爬虫方法、电子设备及服务器,该方法包括:在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;获取所述爬取页面的目标数据;将所述目标数据上传至服务端。本发明的分布式爬取数据的方法,能够通过让大量普通用户在正常访问某一普通网站页面的方式来实现对另一个网站页面数据的抓取,利用每一个普通用户均使用独立且不同的IP的特点,有效避免了反爬虫策略对爬取数据行为的拦截,且爬取更加高效,便捷。

Description

一种分布式爬虫方法、电子设备及服务器
技术领域
本发明涉及一种爬虫方法,尤其涉及一种分布式爬虫方法、电子设备及服务器。
背景技术
目前,随着网络的发展,大数据时代的来临,互联网中大量信息的搜索运用及数据收集成为了一项重要的技术及挑战。因此,网络爬虫应运而生,网络爬虫是一个自动提取网页的程序或方法,它为从互联网上下载数据而生的重要组成部分。
传统的爬虫是通过编写和利用爬虫程序在指定网站中不断遍历、搜索相关页面并将数据记录或存储进自己的数据库中,但是通常这样的爬虫程序很容易被网站的运维及管理员通过分析网站请求量及相关用户(useragent)的方式发现,并直接封杀和拦截。而如果在传统爬虫的基础上,通过IP代理进行不断更换IP并伪装useragent的方式进行爬取,只能一定程度上缓解被封杀和拦截的概率,但是依然很容易被网站的运维及管理员以设置一定时间某一IP的请求频率限制及通过hostname具体检查IP地址是否存在伪装的方法来发现并封杀,所以设置IP代理依然无法有效避免被封杀及拦截的风险,且效率较低,成本更大。
针对现有技术中所存在的问题,提供一种分布式爬虫方法具有重要意义。
发明内容
本发明实施例的目的在于提供一种分布式爬虫方法、电子设备及服务器,该方法能够通过让大量普通用户在正常访问某一普通网站页面的方式来实现使分布式爬虫对另一个网站页面数据的抓取,避免被阻拦程序所限制。
为了解决上述技术问题,本发明的实施例采用了如下技术方案:一种分布式爬虫方法,包括:
在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
获取所述爬取页面的目标数据;
将所述目标数据上传至服务端。
作为优选,所述爬取页面地址和/或所述爬取页面为访问者不可见。
本发明实施例的另一种分布式爬虫方法,包括:
在浏览页面中配置爬取页面地址,其中,所述浏览页面在被终端访问时,所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据;
获取所述终端发送的所述爬取页面的目标数据。
作为优选,所述方法还包括:判断所述目标数据是否已经获取完成,若已经获取完成,则在浏览页面中配置新的爬取页面地址。
作为优选,所述获取完成的具体为,已经获取所述爬取页面的全部或达到预定数量的目标数据。
本发明实施例的一种分布式爬虫装置,包括触发模块、第一获取模块和通信模块;
所述触发模块配置为在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
所述第一获取模块配置为获取所述爬取页面的目标数据;
所述通信模块配置为将所述目标数据上传至服务端。
本发明实施例的一种电子设备,包括第一处理器和第一存储器,所述第一存储器上存储有可执行指令,所述第一处理器执行所述可执行指令以实现:
在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
获取所述爬取页面的目标数据;
将所述目标数据上传至服务端。
本发明实施例的一种分布式爬虫装置,包括配置模块和第二获取模块;
所述配置模块配置为在浏览页面中配置爬取页面地址,其中,所述浏览页面在被终端访问时,所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据;
所述第二获取模块配置为获取所述终端发送的所述爬取页面的目标数据。
本发明实施例的一种服务器,包括第二处理器和第二存储器,所述第二存储器上存储有可执行指令,所述第二处理器执行所述可执行指令以实现:
在浏览页面中配置爬取页面地址,其中,所述浏览页面在被终端访问时,所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据;
获取所述终端发送的所述爬取页面的目标数据。
作为优选,所述第二处理器执行所述可执行指令以进一步实现:
判断所述目标数据是否已经获取完成,若已经获取完成,则在浏览页面中配置新的爬取页面地址。
本发明的分布式爬取数据的方法,能够通过让大量普通用户在正常访问某一普通网站页面的方式来实现对另一个网站页面数据的抓取,利用每一个普通用户均使用独立且不同的IP的特点,有效避免了反爬虫策略对爬取数据行为的拦截,且爬取更加高效,便捷。
附图说明
图1为本发明实施例的一种分布式爬虫方法的流程图;
图2为本发明实施例的另一种分布式爬虫方法的流程图;
图3为本发明实施例的一个具体实施例的分布式爬虫的连接关系示意图。
附图标记说明
1-浏览页面 2-隐藏层 3-服务器
4-服务后台 5-爬取数据库
具体实施方式
此处参考附图描述本发明的各种方案以及特征。
应理解的是,可以对此处发明的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本发明的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且与上面给出的对本发明的大致描述以及下面给出的对实施例的详细描述一起用于解释本发明的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本发明的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本发明的具体实施例;然而,应当理解,所发明的实施例仅仅是本发明的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本发明模糊不清。因此,本文所发明的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本发明。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本发明的相同或不同实施例中的一个或多个。
下面,结合附图,对本发明的结构以及工作原理等作进一步的说明。
实施例一
本发明实施例的一种分布式爬虫方法,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫本身可以为具有爬取程序的终端,也可以为爬取程序本身等,在此不做限定。本实施例中的爬虫能够避免恶意阻拦程序对爬虫的爬取页面的操作进行阻拦,如图1所示并结合图3,该方法包括以下步骤:
S1,在访问浏览页面1时,触发访问浏览页面1中配置的爬取页面地址所对应的爬取页面。用户可以使用计算机等终端访问需要查看的浏览页面1,例如使用计算机访问第一个站点并查看站点中具有的浏览页面1,如查看该站点中具有的新闻页面、娱乐页面等,在一个实施例中,用户访问该浏览页面1时能够自动触发该浏览页面1中预设程序,预设程序中预设有需要爬取的页面地址,在用户访问浏览页面1时自动触发预设程序,进而爬取页面地址对应的爬取页面。在本实施例中,由于不同的用户使用的终端具有的网络信息并不相同,例如,第一用户使用的第一终端与第二客户使用的第二终端的IP地址并不相同,因此对于恶意阻拦程序并不能发现分布式爬虫在利用浏览页面1来爬取所需要获取的页面,反而会认为是用户想要访问的页面,如浏览页面1的一个链接。
S2,获取爬取页面的目标数据。爬取页面地址所对应的爬取页面后,由于爬取页面包含了很多信息,但是有部分信息并不是用户需要的,例如与爬取页面无关的广告、大量用户不关心的其他网页或者其他页面程序等,有效的目标数据隐藏在爬取页面中,在一个实施例中,在爬取到爬取页面后需要对爬取页面进一步进行分析,以提取出有效的目标数据,获取的目标数据可以按照预设方式分类,如按数据类型分类等。
S3,将目标数据上传至服务端(可以为服务器3)。在一个实施例中,当获取到目标数据后直接上传至服务端,不需要进行存储,该过程简单明了只需借助网络便能够将目标数据上传至服务端,并且可以在获取目标数据的同时进行上传;在另一个实施例中,可以将获取到的目标数据先做预存储,如预存储在终端上,存储后再根据实际使用情况上传至服务端,例如根据服务端的忙碌状态进行上传,也可以在预定时间段进行上传等。在一个实施例中服务端包括爬取数据库5和服务后台4,将目标数据上传至服务端时具体可以为上传至爬取数据库5中,由爬取数据库5进行存储,然后再由服务后台4调用。
在本发明的一个实施例中,爬取页面地址和/或爬取页面均为访问者不可见。爬取页面地址和/或爬取页面不会对访问者造成任何使用上的影响,例如访问者(用户)在访问一个页面时,其并不想在该页面看到除页面信息中以外的其他信息,也放置了访问者对爬取过程中的人为干预,如由于不慎操作而修改为错误的爬取地址,导致分布式爬虫不能寻找到正确的页面地址,从而不能获取到目标数据。此外,爬取页面地址和/或爬取页面均为访问者不可见,使得普通访问者(非专业技术人员)不能够通过普通操作方式对预设程序进行操控(无论是主动还是无意),确保了预设程序不被破坏。
在一个实施例中,结合图3,浏览页面1中设置有隐藏层2,隐藏层2对访问者(用户)不可见,用于爬取页面的预设程序可以设置在隐藏层2中,隐藏层2与服务端(可以为服务器3)连接,具体可以为分别连接服务端的爬取数据库5和服务后台4,以使隐藏层2将获取到的目标数据发送至爬取数据库5。在一个实施例中,隐藏层2可以以多种形式存在,例如以标签的形式设置在浏览页面1中。
在本发明的一个实施例中,隐藏层2可以被服务端的服务后台4所操控,从而使用于爬取页面的预设程序可以被服务后台4修改,例如修改爬取页面地址,从而使分布式爬虫可以在新的爬取页面地址中爬取页面。使得分布式爬虫具有更大的灵活性。
实施例二
本发明实施例提供了一种分布式爬虫方法,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫本身可以为具有爬取程序的终端,也可以为爬取程序本身等,在此不做限定。如图2所示并结合图3,该方法包括以下步骤:
S4,在浏览页面1中配置爬取页面地址,其中,浏览页面1在被终端访问时,终端访问爬取页面地址所对应的爬取页面并获取爬取页面的目标数据。在一个实施例中,可以使用服务端(可以为服务器3)并通过网络来对浏览页面1中的爬取页面地址进行配置,以控制分布式爬虫需要爬取的爬取页面,例如修改用于爬取页面中设置的预设程序,从而修改爬取页面地址本身,从而使分布式爬虫可以在新的爬取页面地址中爬取页面,使得分布式爬虫具有更大的灵活性。用户可以使用计算机等终端访问需要查看的浏览页面1,例如使用计算机访问第一个站点并查看站点中具有的浏览页面1,如查看该站点中具有的新闻页面、娱乐页面等,在一个实施例中,服务端(可以为服务器3)在浏览页面1中配置好爬取页面地址后,用户使用终端访问该浏览页面1时能够自动触发该浏览页面1中预设程序,预设程序中预设有需要爬取的页面地址,在用户访问浏览页面1时自动触发预设程序,进而爬取页面地址对应的爬取页面。在本实施例中,由于不同的用户使用的终端具有的网络信息并不相同,例如,第一用户使用的第一终端与第二客户使用的第二终端的IP地址并不相同,因此对于恶意阻拦程序并不能发现分布式爬虫在利用浏览页面1来爬取所需要获取的页面,反而会认为是用户想要访问的页面,如浏览页面1的一个链接。
爬取页面地址所对应的爬取页面后,由于爬取页面包含了很多信息,但是有部分信息并不是用户需要的,例如与爬取页面无关的广告、大量用户不关心的其他网页或者其他页面程序等,有效的目标数据隐藏在爬取页面中,在一个实施例中,在爬取到爬取页面后,驱动终端对爬取页面进一步进行分析,以提取出有效的目标数据,获取的目标数据可以按照预设方式分类,如按数据类型分类等。
S5,获取终端发送的爬取页面的目标数据。在一个实施例中,当终端获取到目标数据后不需要其进行存储,而是直接从终端获取目标数据,该过程简单明了只需借助网络便能够获取终端发送的目标数据,例如可以在终端获取目标数据的同时,要求终端上传终端数据,进而从终端获取目标数据;在另一个实施例中,终端获取到的目标数据后先做预存储,可以利用发送的控制命令驱动终端将目标数据上传至服务端(可以为服务器3),例如根据服务端的忙碌状态进行上传,也可以在预定时间段发送控制命令使终端进行上传等。在一个实施例中服务端包括爬取数据库5和服务后台4,获取目标数据后将其存储在爬取数据库5中,然后再由服务后台4调用。
在本发明的一个实施例中,该方法还包括以下步骤:判断目标数据是否已经获取完成,若已经获取完成,则在浏览页面1中配置新的爬取页面地址。举例说明,目标数据可以对应一个站点中的有效数据,也可以一个页面中的有效数据等等,相应的如果完成对一个站点或一个页面中的有效数据的采集则说明目标数据已经被获取完成,具体可以根据获取数据(如一个站点的页面)的预定数量、完整性或其中的标识来判断目标数据是否已经获取完成。如果已经获取完成则可以根据新的需求在浏览页面1中配置新的爬取页面地址,以使分布式爬虫可以爬取新的爬取页面。
作为优选,获取完成具体为,已经获取爬取页面的全部或达到预定数量的目标数据。例如已经完成一个站点的全部爬取页面的抓取工作,或者如果一个站点页面过多,如全部抓取完成会造成一些恶意阻拦程序的关注从而使分布式爬虫被封杀,因此可以设置预定数量,如果已经获取的爬取页面达到预定数量则可以认为目标数据已经获取完成。
实施例三
本发明提供一种分布式爬虫装置,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫本身可以为具有爬取程序的终端,也可以为爬取程序本身等,在此不做限定。该装置包括触发模块、第一获取模块和通信模块;
触发模块配置为在访问浏览页面1时,触发访问浏览页面1中配置的爬取页面地址应的爬取页面。用户可以使用计算机等终端访问需要查看的浏览页面1,例如使用计算机访问第一个站点并查看站点中具有的浏览页面1,如查看该站点中具有的新闻页面、娱乐页面等,在一个实施例中,用户访问该浏览页面1时触发模块能够自动触发该浏览页面1中预设程序,预设程序中预设有需要爬取的页面地址,在用户访问浏览页面1时触发模块自动触发预设程序,进而爬取页面地址对应的爬取页面。在本实施例中,由于不同的用户使用的终端具有的网络信息并不相同,例如,第一用户使用的第一终端与第二客户使用的第二终端的IP地址并不相同,因此对于恶意阻拦程序并不能发现分布式爬虫在利用浏览页面1来爬取所需要获取的页面,反而会认为是用户想要访问的页面,如浏览页面1的一个链接。
第一获取模块配置为获取爬取页面的目标数据。爬取页面地址所对应的爬取页面后,由于爬取页面包含了很多信息,但是有部分信息并不是用户需要的,例如与爬取页面无关的广告、大量用户不关心的其他网页或者其他页面程序等,有效的目标数据隐藏在爬取页面中,在一个实施例中,第一获取模块在爬取到爬取页面后需要对爬取页面进一步进行分析,以提取出有效的目标数据,获取的目标数据可以按照预设方式分类,如按数据类型分类等。
通信模块配置为将目标数据上传至服务端(可以为服务器3)。在一个实施例中,当获取到目标数据后通信模块直接上传至服务端,不需要进行存储,该过程简单明了只需借助网络便能够将目标数据上传至服务端,并且可以在获取目标数据的同时进行上传;在另一个实施例中,可以将获取到的目标数据先做预存储,如预存储在终端上,存储后通信模块再根据实际使用情况上传至服务端,例如根据服务端的忙碌状态进行上传,也可以在预定时间段进行上传等。在一个实施例中服务端包括爬取数据库5和服务后台4,通信模块将目标数据上传至服务端时具体可以为上传至爬取数据库5中,由爬取数据库5进行存储,然后再由服务后台4调用。
实施例四
本发明提供了一种电子设备,包括第一处理器和第一存储器,第一存储器上存储有可执行指令,第一处理器执行可执行指令以实现如下步骤:
在访问浏览页面1时,触发访问浏览页面1中配置的爬取页面地址所对应的爬取页面。结合图3,用户可以使用电子设备(如计算机等终端)访问需要查看的浏览页面1,例如使用计算机访问第一个站点并查看站点中具有的浏览页面1,如查看该站点中具有的新闻页面、娱乐页面等,在一个实施例中,用户访问该浏览页面1时能够自动触发该浏览页面1中预设程序,预设程序中预设有需要爬取的页面地址,在用户访问浏览页面1时自动触发预设程序,进而爬取页面地址对应的爬取页面。在本实施例中,由于不同的用户使用的电子设备(如计算机等终端)具有的网络信息并不相同,例如,第一用户使用的第一终端与第二客户使用的第二终端的IP地址并不相同,因此对于恶意阻拦程序并不能发现分布式爬虫在利用浏览页面1来爬取所需要获取的页面,反而会认为是用户想要访问的页面,如浏览页面1的一个链接。
获取爬取页面的目标数据。爬取页面地址所对应的爬取页面后,由于爬取页面包含了很多信息,但是有部分信息并不是用户需要的,例如与爬取页面无关的广告、大量用户不关心的其他网页或者其他页面程序等,有效的目标数据隐藏在爬取页面中,在一个实施例中,在爬取到爬取页面后需要对爬取页面进一步进行分析,以提取出有效的目标数据,获取的目标数据可以按照预设方式分类,如按数据类型分类等。
将目标数据上传至服务端(可以为服务器3)。在一个实施例中,当获取到目标数据后直接上传至服务端,不需要进行存储,该过程简单明了只需借助网络便能够将目标数据上传至服务端,并且可以在获取目标数据的同时进行上传;在另一个实施例中,可以将获取到的目标数据先做预存储,如预存储在终端上,存储后再根据实际使用情况上传至服务端,例如根据服务端的忙碌状态进行上传,也可以在预定时间段进行上传等。在一个实施例中服务端包括爬取数据库5和服务后台4,将目标数据上传至服务端时具体可以为上传至爬取数据库5中,由爬取数据库5进行存储,然后再由服务后台4调用。
实施例五
本发明实施例提供了一种分布式爬虫装置,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,爬虫本身可以为具有爬取程序的终端,也可以为爬取程序本身等,在此不做限定。该装置包括配置模块和第二获取模块。
配置模块配置为在浏览页面1中配置爬取页面地址,其中,浏览页面1在被终端访问时,终端访问爬取页面地址所对应的爬取页面并获取爬取页面的目标数据。结合图3,在一个实施例中,配置模块可以利用服务端并通过网络来对浏览页面1中的爬取页面地址进行配置,以控制分布式爬虫需要爬取的爬取页面,例如修改用于爬取页面中设置的预设程序,从而修改爬取页面地址本身,从而使分布式爬虫可以在新的爬取页面地址中爬取页面,使得分布式爬虫具有更大的灵活性。用户可以使用计算机等终端访问需要查看的浏览页面1,例如使用计算机访问第一个站点并查看站点中具有的浏览页面1,如查看该站点中具有的新闻页面、娱乐页面等,在一个实施例中,配置模块在浏览页面1中配置好爬取页面地址后,用户使用终端访问该浏览页面1时能够自动触发该浏览页面1中预设程序,预设程序中预设有需要爬取的页面地址,在用户访问浏览页面1时自动触发预设程序,进而爬取页面地址对应的爬取页面。在本实施例中,由于不同的用户使用的终端具有的网络信息并不相同,例如,第一用户使用的第一终端与第二客户使用的第二终端的IP地址并不相同,因此对于恶意阻拦程序并不能发现分布式爬虫在利用浏览页面1来爬取所需要获取的页面,反而会认为是用户想要访问的页面,如浏览页面1的一个链接。
爬取页面地址所对应的爬取页面后,由于爬取页面包含了很多信息,但是有部分信息并不是用户需要的,例如与爬取页面无关的广告、大量用户不关心的其他网页或者其他页面程序等,有效的目标数据隐藏在爬取页面中,在一个实施例中,在爬取到爬取页面后,可以驱动终端对爬取页面进一步进行分析,以提取出有效的目标数据,获取的目标数据可以按照预设方式分类,如按数据类型分类等。
第二获取模块配置为获取终端发送的爬取页面的目标数据。在一个实施例中,当终端获取到目标数据后第二获取模块不需要其进行存储,而是直接从终端获取目标数据,该过程简单明了只需借助网络便能够获取终端发送的目标数据,例如可以在终端获取目标数据的同时,第二获取模块要求终端上传终端数据,进而从终端获取目标数据;在另一个实施例中,终端获取到的目标数据后先做预存储,第二获取模块可以发送的控制命令驱动终端将目标数据上传至服务端,例如根据服务端的忙碌状态进行上传,也可以在预定时间段发送控制命令使终端进行上传等。在一个实施例中服务端包括爬取数据库5和服务后台4,第二获取模块获取目标数据后将其存储在爬取数据库5中,然后再由服务后台4调用。
在本发明的一个实施例中,该装置还包括以下判断模块,判断模块配置为判断目标数据是否已经获取完成,若已经获取完成,则在浏览页面1中配置新的爬取页面地址。举例说明,目标数据可以对应一个站点中的有效数据,也可以一个页面中的有效数据等等,相应的如果完成对一个站点或一个页面中的有效数据的采集则说明目标数据已经被获取完成,具体判断模块可以根据第二获取模块获取数据(如一个站点的页面)的预定数量、完整性或其中的标识来判断目标数据是否已经获取完成。如果已经获取完成则可以根据新的需求在浏览页面1中配置新的爬取页面地址,以使分布式爬虫可以爬取新的爬取页面。
作为优选,获取完成具体为,已经获取爬取页面的全部或达到预定数量的目标数据。例如第二获取模块已经完成一个站点的全部爬取页面的抓取工作,或者如果一个站点页面过多,如全部抓取完成会造成一些恶意阻拦程序的关注从而使分布式爬虫被封杀,因此可以设置预定数量,如果第二获取模块已经获取的爬取页面达到预定数量则可以认为目标数据已经获取完成。
实施例六
本发明实施例提供了一种服务器3,包括第二处理器和第二存储器,第二存储器上存储有可执行指令,第二处理器执行可执行指令以实现以下步骤:
在浏览页面1中配置爬取页面地址,其中,浏览页面1在被终端访问时,终端访问爬取页面地址所对应的爬取页面并获取爬取页面的目标数据。结合图3,在一个实施例中,可以使用服务端(可以为服务器3)并通过网络来对浏览页面1中的爬取页面地址进行配置,以控制分布式爬虫需要爬取的爬取页面,例如修改用于爬取页面中设置的预设程序,从而修改爬取页面地址本身,从而使分布式爬虫可以在新的爬取页面地址中爬取页面,使得分布式爬虫具有更大的灵活性。用户可以使用计算机等终端访问需要查看的浏览页面1,例如使用计算机访问第一个站点并查看站点中具有的浏览页面1,如查看该站点中具有的新闻页面、娱乐页面等,在一个实施例中,服务端在浏览页面1中配置好爬取页面地址后,用户使用终端访问该浏览页面1时能够自动触发该浏览页面1中预设程序,预设程序中预设有需要爬取的页面地址,在用户访问浏览页面1时自动触发预设程序,进而爬取页面地址对应的爬取页面。在本实施例中,由于不同的用户使用的终端具有的网络信息并不相同,例如,第一用户使用的第一终端与第二客户使用的第二终端的IP地址并不相同,因此对于恶意阻拦程序并不能发现分布式爬虫在利用浏览页面1来爬取所需要获取的页面,反而会认为是用户想要访问的页面,如浏览页面1的一个链接。
爬取页面地址所对应的爬取页面后,由于爬取页面包含了很多信息,但是有部分信息并不是用户需要的,例如与爬取页面无关的广告、大量用户不关心的其他网页或者其他页面程序等,有效的目标数据隐藏在爬取页面中,在一个实施例中,在爬取到爬取页面后,驱动终端对爬取页面进一步进行分析,以提取出有效的目标数据,获取的目标数据可以按照预设方式分类,如按数据类型分类等。
获取终端发送的爬取页面的目标数据。在一个实施例中,当终端获取到目标数据后不需要其进行存储,而是直接从终端获取目标数据,该过程简单明了只需借助网络便能够获取终端发送的目标数据,例如可以在终端获取目标数据的同时,要求终端上传终端数据,进而从终端获取目标数据;在另一个实施例中,终端获取到的目标数据后先做预存储,可以利用发送的控制命令驱动终端将目标数据上传至服务端,例如根据服务端的忙碌状态进行上传,也可以在预定时间段发送控制命令使终端进行上传等。在一个实施例中服务端包括爬取数据库5和服务后台4,获取目标数据后将其存储在爬取数据库5中,然后再由服务后台4调用。
在本发明的一个实施例中,第二处理器执行可执行指令以进一步实现以下步骤:判断目标数据是否已经获取完成,若已经获取完成,则在浏览页面1中配置新的爬取页面地址。举例说明,目标数据可以对应一个站点中的有效数据,也可以一个页面中的有效数据等等,相应的如果完成对一个站点或一个页面中的有效数据的采集则说明目标数据已经被获取完成,具体可以根据获取数据(如一个站点的页面)的预定数量、完整性或其中的标识来判断目标数据是否已经获取完成。如果已经获取完成则可以根据新的需求在浏览页面1中配置新的爬取页面地址,以使分布式爬虫可以爬取新的爬取页面。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (10)

1.一种分布式爬虫方法,其特征在于,包括:
在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
获取所述爬取页面的目标数据;
将所述目标数据上传至服务端。
2.如权利要求1所述的分布式爬虫方法,其特征在于,所述爬取页面地址和/或所述爬取页面为访问者不可见。
3.一种分布式爬虫方法,其特征在于,包括:
在浏览页面中配置爬取页面地址,其中,所述浏览页面在被终端访问时,所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据;
获取所述终端发送的所述爬取页面的目标数据。
4.如权利要求3所述的分布式爬虫方法,其特征在于,还包括:判断所述目标数据是否已经获取完成,若已经获取完成,则在浏览页面中配置新的爬取页面地址。
5.如权利要求4所述的分布式爬虫方法,其特征在于,所述获取完成的具体为,已经获取所述爬取页面的全部或达到预定数量的目标数据。
6.一种分布式爬虫装置,其特征在于,包括触发模块、第一获取模块和通信模块;
所述触发模块配置为在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
所述第一获取模块配置为获取所述爬取页面的目标数据;
所述通信模块配置为将所述目标数据上传至服务端。
7.一种电子设备,其特征在于,包括第一处理器和第一存储器,所述第一存储器上存储有可执行指令,所述第一处理器执行所述可执行指令以实现:
在访问浏览页面时,触发访问所述浏览页面中配置的爬取页面地址所对应的爬取页面;
获取所述爬取页面的目标数据;
将所述目标数据上传至服务端。
8.一种分布式爬虫装置,其特征在于,包括配置模块和第二获取模块;
所述配置模块配置为在浏览页面中配置爬取页面地址,其中,所述浏览页面在被终端访问时,所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据;
所述第二获取模块配置为获取所述终端发送的所述爬取页面的目标数据。
9.一种服务器,其特征在于,包括第二处理器和第二存储器,所述第二存储器上存储有可执行指令,所述第二处理器执行所述可执行指令以实现:
在浏览页面中配置爬取页面地址,其中,所述浏览页面在被终端访问时,所述终端访问所述爬取页面地址所对应的爬取页面并获取所述爬取页面的目标数据;
获取所述终端发送的所述爬取页面的目标数据。
10.根据权利要求9所述的服务器,其特征在于,所述第二处理器执行所述可执行指令以进一步实现:
判断所述目标数据是否已经获取完成,若已经获取完成,则在浏览页面中配置新的爬取页面地址。
CN201711405566.2A 2017-12-22 2017-12-22 一种分布式爬虫方法、电子设备及服务器 Active CN108038218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711405566.2A CN108038218B (zh) 2017-12-22 2017-12-22 一种分布式爬虫方法、电子设备及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711405566.2A CN108038218B (zh) 2017-12-22 2017-12-22 一种分布式爬虫方法、电子设备及服务器

Publications (2)

Publication Number Publication Date
CN108038218A true CN108038218A (zh) 2018-05-15
CN108038218B CN108038218B (zh) 2022-04-22

Family

ID=62100689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711405566.2A Active CN108038218B (zh) 2017-12-22 2017-12-22 一种分布式爬虫方法、电子设备及服务器

Country Status (1)

Country Link
CN (1) CN108038218B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109889527A (zh) * 2019-02-28 2019-06-14 吉铁磊 一种基于大数据的网络安全防护系统及其防护方法
WO2019237547A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备及存储介质
CN110708309A (zh) * 2019-09-29 2020-01-17 武汉极意网络科技有限公司 反爬虫系统及方法
WO2021022689A1 (zh) * 2019-08-05 2021-02-11 苏州闻道网络科技股份有限公司 一种信息采集方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982162A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 网页信息的获取系统
US20140222621A1 (en) * 2011-07-06 2014-08-07 Hirenkumar Nathalal Kanani Method of a web based product crawler for products offering
CN105159992A (zh) * 2015-09-01 2015-12-16 北京瑞汛世纪科技有限公司 一种应用程序的页面内容及网络行为的检测方法及装置
CN105207852A (zh) * 2015-10-09 2015-12-30 西安未来国际信息股份有限公司 一种基于分布式网络数据定向采集的方法
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN106649371A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 用于爬虫的数据处理方法及装置
CN106790169A (zh) * 2016-12-29 2017-05-31 杭州迪普科技股份有限公司 扫描设备扫描的防护方法及装置
CN107147645A (zh) * 2017-05-11 2017-09-08 北京安赛创想科技有限公司 网络安全数据的获取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140222621A1 (en) * 2011-07-06 2014-08-07 Hirenkumar Nathalal Kanani Method of a web based product crawler for products offering
CN102982162A (zh) * 2012-12-05 2013-03-20 北京奇虎科技有限公司 网页信息的获取系统
CN105159992A (zh) * 2015-09-01 2015-12-16 北京瑞汛世纪科技有限公司 一种应用程序的页面内容及网络行为的检测方法及装置
CN105207852A (zh) * 2015-10-09 2015-12-30 西安未来国际信息股份有限公司 一种基于分布式网络数据定向采集的方法
CN106649371A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 用于爬虫的数据处理方法及装置
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN106790169A (zh) * 2016-12-29 2017-05-31 杭州迪普科技股份有限公司 扫描设备扫描的防护方法及装置
CN107147645A (zh) * 2017-05-11 2017-09-08 北京安赛创想科技有限公司 网络安全数据的获取方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237547A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 数据爬取方法、装置、计算机设备及存储介质
CN109889527A (zh) * 2019-02-28 2019-06-14 吉铁磊 一种基于大数据的网络安全防护系统及其防护方法
WO2021022689A1 (zh) * 2019-08-05 2021-02-11 苏州闻道网络科技股份有限公司 一种信息采集方法和装置
CN110708309A (zh) * 2019-09-29 2020-01-17 武汉极意网络科技有限公司 反爬虫系统及方法

Also Published As

Publication number Publication date
CN108038218B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN108038218A (zh) 一种分布式爬虫方法、电子设备及服务器
ES2371918T3 (es) Cumplimentación automática e inteligente de formularios.
CN106844522B (zh) 一种网络数据爬取方法和装置
CN107895009A (zh) 一种基于分布式的互联网数据采集方法及系统
CN103297469B (zh) 一种网站数据的采集方法及装置
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN101222349A (zh) 收集web用户行为及性能数据的方法及系统
JP2012518225A (ja) ドメインにわたりクッキーを処理する方法およびシステム
CN110266661A (zh) 一种授权方法、装置及设备
CN106992981A (zh) 一种网站后门检测方法、装置和计算设备
CN109446819A (zh) 越权漏洞检测方法及装置
CN106126747A (zh) 基于爬虫的数据获取方法及装置
CN108090091A (zh) 网页爬取方法和装置
CN104468790A (zh) cookie数据的处理方法与客户端
CN109587258A (zh) 一种服务探活方法及装置
CN107948052A (zh) 信息爬取方法、装置、电子设备和系统
CN109729044A (zh) 一种通用的互联网数据采集反反爬系统及方法
CN108197312A (zh) 获取房源数据方法、装置、设备及可读存储介质
CN105337776B (zh) 一种生成网站指纹的方法、装置及电子设备
CN105991634A (zh) 访问控制的方法和装置
CN110555146A (zh) 一种网络爬虫伪装数据的生成方法及系统
CN103312692B (zh) 链接地址安全性检测方法及装置
CN101645021B (zh) Java应用服务器下多系统的单点登录整合方法
TW201225577A (en) Method for assisting user to manage peripheral network devices by providing network map through gateway device
CN104468459A (zh) 一种漏洞检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant