CN103761279B - 一种基于关键词检索的网络爬虫调度方法及系统 - Google Patents

一种基于关键词检索的网络爬虫调度方法及系统 Download PDF

Info

Publication number
CN103761279B
CN103761279B CN201410011079.8A CN201410011079A CN103761279B CN 103761279 B CN103761279 B CN 103761279B CN 201410011079 A CN201410011079 A CN 201410011079A CN 103761279 B CN103761279 B CN 103761279B
Authority
CN
China
Prior art keywords
page number
bucket
task
number quantity
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410011079.8A
Other languages
English (en)
Other versions
CN103761279A (zh
Inventor
廖耀华
黎小为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410011079.8A priority Critical patent/CN103761279B/zh
Publication of CN103761279A publication Critical patent/CN103761279A/zh
Priority to US15/110,564 priority patent/US10185771B2/en
Priority to PCT/CN2015/070475 priority patent/WO2015103997A1/zh
Priority to RU2016132573A priority patent/RU2645266C1/ru
Application granted granted Critical
Publication of CN103761279B publication Critical patent/CN103761279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于关键词检索的网络爬虫调度方法及系统,方法包括:调度端接收到抓取节点发送的任务请求命令;调度端从优先桶获取二次下载链接地址生成任务并加入任务列表,从动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,从基本桶获取关键词链接地址生成任务并加入任务列表,调度端向抓取节点返回任务列表。本发明通过调整各虚拟桶的允许加入任务数量,从而灵活地调整不同类型的链接地址的调用数量。同时更频繁地抓取热门关键词,避免数据遗漏,减少对冷门关键词的重复抓取。

Description

一种基于关键词检索的网络爬虫调度方法及系统
技术领域
本发明涉及网络爬虫相关技术领域,特别是一种基于关键词检索的网络爬虫调度方法及系统。
背景技术
基于关键词检索的网络爬虫是获取关键词信息的基础,但是由于信息的更新会导致网络爬虫的重复抓取或抓不全等情况的发生。特别是目标网站信息变更非常频繁的情况,比如新浪微博等微博类网站,百度等搜索类网站。对于热门关键词,由于信息更新很快,导致网络爬虫很难抓全这些数据;而对于冷门的关键词,由于信息更新比较慢,会导致信息的重复抓取。
现有的做法是给关键词设置不同的热度,然后根据关键词热度对关键词进行抓取,热度大的关键词抓取的更加频繁。
然而,现有的做法存在如下缺陷:
(1)需要知道每个关键词的热度,然后根据热度来设置抓取频率。
(2)在首次请求的过程中会涉及很多二次下载链接地址的请求,现有方案并没有对此进行区分。
发明内容
基于此,有必要针对现有技术通过设置关键词热度来设置抓取频率,需要预先确定关键词热度,从而导致抓取频率不准确的技术问题,提供一种基于关键词检索的网络爬虫调度方法及系统。
一种基于关键词检索的网络爬虫调度方法,包括:
步骤11,抓取节点向调度端发送任务请求命令;
步骤12,调度端接收到抓取节点发送的任务请求命令;
步骤13,调度端从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行步骤16,否则执行步骤14,所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;
步骤14,调度端从保存关键词多页码链接地址的动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,如果已达到任务列表的允许加入动态桶数量,则执行步骤16,否则执行步骤15,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且动态桶中的关键词链接地址对应的搜索结果页面包括大于或等于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
步骤15,调度端从保存关键词链接地址的基本桶获取关键词链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入基本桶数量,则执行步骤16,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且基本桶中的关键词链接地址对应的搜索结果页面包括小于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
步骤16,调度端向抓取节点返回任务列表,所述抓取节点根据所接收到的任务列表执行任务列表中的任务。
一种基于关键词检索的网络爬虫调度系统,包括:调度端以及与调度端通讯的至少一个抓取节点;
所述调度端包括:
任务请求命令接收模块,用于接收到抓取节点发送的任务请求命令;
优先桶任务生成模块,用于从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行任务列表返回模块,否则执行动态桶任务生成模块,所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;
动态桶任务生成模块,用于保存关键词多页码链接地址的动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,如果已达到任务列表的允许加入动态桶数量,则执行任务列表返回模块,否则执行动态桶任务生成模块,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且动态桶中的关键词链接地址对应的搜索结果页面包括大于或等于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
基本桶任务生成模块,用于从保存关键词链接地址的基本桶获取关键词链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入基本桶数量,则执行任务列表返回模块,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且基本桶中的关键词链接地址对应的搜索结果页面包括小于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
任务列表返回模块,用于向抓取节点返回任务列表;
所述抓取节点包括:
任务请求命令发送模块,用于向调度端发送任务请求命令;
任务执行模块,用于根据所接收到的任务列表执行任务列表中的任务。
本发明中优先桶、动态桶和基本桶均为虚拟桶,通过设置具有不同优先级的虚拟桶,在虚拟桶中分别保存不同类型的链接地址,对于较高热度的链接地址放置于较高优先级的虚拟桶中。通过调整各虚拟桶的允许加入任务数量,从而灵活地调整不同类型的链接地址的调用数量。同时,链接地址的热度并不是由人工设置,而是根据链接地址所抓取到的页码的实际情况设置,因此使得更频繁地抓取热门关键词,避免数据遗漏,同时减少对冷门关键词的重复抓取。
附图说明
图1为本发明一种基于关键词检索的网络爬虫调度方法的工作流程图;
图2为本发明一种基于关键词检索的网络爬虫调度系统的模块示意图;
图3为本发明一个例子的系统结构示意图;
图4为本发明一个例子桶调度管理模块的工作流程图;
图5为本发明一个例子桶更新器的工作流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
如图1所示为本发明一种基于关键词检索的网络爬虫调度方法的工作流程图,包括:
步骤11,抓取节点向调度端发送任务请求命令;
步骤12,调度端接收到抓取节点发送的任务请求命令;
步骤13,调度端从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行步骤16,否则执行步骤14,所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;
步骤14,调度端从保存关键词多页码链接地址的动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,如果已达到任务列表的允许加入动态桶数量,则执行步骤16,否则执行步骤15,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且动态桶中的关键词链接地址对应的搜索结果页面包括大于或等于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
步骤15,调度端从保存关键词链接地址的基本桶获取关键词链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入基本桶数量,则执行步骤16,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且基本桶中的关键词链接地址对应的搜索结果页面包括小于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
步骤16,调度端向抓取节点返回任务列表,所述抓取节点根据所接收到的任务列表执行任务列表中的任务。
其中,步骤13中,专门针对二次下载链接地址进行处理,二次下载链接地址,是指抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址,例如,在百度中检索“京东”,会出现一个包括多条检索结果的搜索结果页面,每条检索结果都对应一个链接地址,检索结果所对应的链接地址即为二次下载链接地址。从抓取页面中分析得到需要进行二次下载的链接地址,现有已经有较为成熟的技术进行分析,在此不予赘述。
其中,步骤14和15中的关键词链接地址,指的是在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,例如,在百度中检索“京东”,会出现一个根据关键词“京东”生成的搜索结果页面,如果关键词为热门关键词,则一个搜索结果页面并不能包括所有的搜索结果,则在搜索页面上会有一个页码数量。该页码数量用于表示有页码数量的搜索结果页面包括所述关键词。因此,页码数量越多,则表示该关键词越为热门,因此,将页码数量超过预设页码数量阈值的关键词链接地址放置在动态桶中,在步骤14中优先处理。由于是根据实际的页码数量进行判断,因此,能够更真实地反映关键词的热门程度。
其中,允许加入优先桶数量用于表示优先桶中的二次下载链接地址允许加入任务列表中的数量,允许加入动态桶数量用于表示动态桶中的关键词链接地址允许加入任务列表中的数量,允许加入基本桶数量用于表示基本桶中的关键词链接地址允许加入任务列表中的数量。
在其中一个实施例中,所述步骤13具体包括:从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,并从优先桶中删除已生成任务的二次下载链接地址,如果已达到任务列表的允许加入优先桶数量,则执行步骤16,否则如果优先桶中还保存有二次下载链接地址,则执行步骤13,如果优先桶中所有的二次下载链接地址均已删除,则执行步骤14。
本实施例优先执行二次下载链接地址,且该二次下载链接地址仅执行一次后删除,避免重复抓取。
在其中一个实施例中,所述步骤14具体包括:从保存关键词链接地址的动态桶获取未调度的关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,并设置已生成任务的关键词链接地址的状态为已调度,如果已达到任务列表的允许加入动态桶数量,则执行步骤16,并设置动态桶中所有的关键词链接地址的状态为未调度,否则如果动态桶中还保存有未调度的关键词链接地址,则执行步骤14,如果动态桶中未保存有未调度的关键词链接地址,则执行步骤15。
本实施例中,由于动态桶中的关键词链接地址为热门关键词对应的链接地址,因此会被多次调用。从而避免热门关键词抓取的遗漏。
在其中一个实施例中,所述基本桶包括活动桶和挂起桶,所述步骤15具体包括,从保存关键词链接地址的活动桶获取调度时间最前的关键词链接地址生成任务并加入任务列表,并将已生成任务的关键词链接地址的调度时间增加预设的调度时间增加量后移动到挂起桶,如果已达到任务列表的允许加入基本桶数量,则执行步骤16,否则如果活动桶中还保存有关键词链接地址,则执行步骤15,如果活动桶中未保存关键词链接地址,则执行步骤16。
本实施例中,由于基本桶中的关键词链接地址为冷门关键词对应的链接地址,因此对基本桶进一步设定为活动桶和挂起桶,活动桶中的链接地址执行一次后会移动到挂起桶中,间隔一段调度时间增加量之后再执行,从而避免对冷门关键词的重复抓取。
在其中一个实施例中,还包括:
抓取节点根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址。
将不同的分析数据放置于不同的虚拟桶中,实现对虚拟桶的链接地址的更新。
在其中一个实施例中,调度端在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址具体包括:
设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量;
如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到基本桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶。
本实施例,进一步限定根据旧页码数量和新页码数量的比较在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址。
在其中一个实施例中:
抓取节点根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量,且如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到活动桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则对挂起桶进行检索,将挂起桶中调度时间到达当前时间的关键词链接地址移动到活动桶。
本实施例,进一步限定根据旧页码数量和新页码数量的比较在动态桶和活动桶中调整与所述页码数量对应的关键词链接地址,以及在适当的时候对挂起桶进行检索,避免挂起桶中的链接地址长时间被搁置。
在其中一个实施例中,所述允许加入动态桶数量大于所述允许加入基本桶数量。通过设置允许加入动态桶数量大于允许加入基本桶数量,从而使得更多的资源用于抓取热门关键词。
如图2所示为本发明一种基于关键词检索的网络爬虫调度系统的模块示意图,其特征在于,包括:调度端21以及与调度端21通讯的至少一个抓取节点22;
所述调度端21包括:
任务请求命令接收模块211,用于接收到抓取节点发送的任务请求命令;
优先桶任务生成模块212,用于从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行任务列表返回模块,否则执行动态桶任务生成模块,所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;
动态桶任务生成模块213,用于保存关键词多页码链接地址的动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,如果已达到任务列表的允许加入动态桶数量,则执行任务列表返回模块,否则执行动态桶任务生成模块,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且动态桶中的关键词链接地址对应的搜索结果页面包括大于或等于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
基本桶任务生成模块214,用于从保存关键词链接地址的基本桶获取关键词链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入基本桶数量,则执行任务列表返回模块,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且基本桶中的关键词链接地址对应的搜索结果页面包括小于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
任务列表返回模块215,用于向抓取节点返回任务列表;
所述抓取节点22包括:
任务请求命令发送模块221,用于向调度端发送任务请求命令;
任务执行模块222,用于根据所接收到的任务列表执行任务列表中的任务。
在其中一个实施例中,所述优先桶任务生成模块212具体用于:从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,并从优先桶中删除已生成任务的二次下载链接地址,如果已达到任务列表的允许加入优先桶数量,则执行任务列表返回模块215,否则如果优先桶中还保存有二次下载链接地址,则执行优先桶任务生成模块212,如果优先桶中所有的二次下载链接地址均已删除,则执行动态桶任务生成模块213。
在其中一个实施例中,所述动态桶任务生成模块213具体用于:从保存关键词链接地址的动态桶获取未调度的关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,并设置已生成任务的关键词链接地址的状态为已调度,如果已达到任务列表的允许加入动态桶数量,则执行任务列表返回模块215,并设置动态桶中所有的关键词链接地址的状态为未调度,否则如果动态桶中还保存有未调度的关键词链接地址,则执行动态桶任务生成模块213,如果动态桶中未保存有未调度的关键词链接地址,则执行基本桶任务生成模块214。
在其中一个实施例中,所述基本桶包括活动桶和挂起桶,所述基本桶任务生成模块214具体用于,从保存关键词链接地址的活动桶获取调度时间最前的关键词链接地址生成任务并加入任务列表,并将已生成任务的关键词链接地址的调度时间增加预设的调度时间增加量后移动到挂起桶,如果已达到任务列表的允许加入基本桶数量,则执行任务列表返回模块215,否则如果活动桶中还保存有关键词链接地址,则执行基本桶任务生成模块214,如果活动桶中未保存关键词链接地址,则执行任务列表返回模块215。
在其中一个实施例中:
所述任务执行模块具体用于:根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端还包括分析数据接收模块,用于接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址。
在其中一个实施例中,分析数据接收模块在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址具体包括:
设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量;
如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到基本桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶。
在其中一个实施例中:
所述任务执行模块具体用于:根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端还包括分析数据接收模块,用于接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量,且如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到活动桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则对挂起桶进行检索,将挂起桶中调度时间到达当前时间的关键词链接地址移动到活动桶。
在其中一个实施例中,所述允许加入动态桶数量大于所述允许加入基本桶数量。
如图3所示为本发明一个例子的系统结构示意图,包括:
位于抓取节点31的线程请求模块311、任务获取模块312、网页下载器313、文档解析器314、统计模块315、数据存储模块316;
位于调度端32的优先桶321、动态桶322、基本桶323、活动桶3231、挂起桶3232、桶更新器324、数据桶325、数据库326。
其中,桶调度管理模块(BucketScheduler)包含优先桶321、动态桶322、基本桶323,优先桶321中保存抓取节点返回的二次下载链接地址,这些URL在调度完后会从桶中删除。动态桶322中保存各网站的关键词组成的URL,这些URL会根据统计模块返回的结果衍生出新的URL,这些衍生出的URL不会保存,但是会和动态桶中的URL一起被调度。常规桶中也保存各网站的关键词组成的URL,但是这些URL不会衍生新的URL,常规桶323分为两部分:活动桶3231和挂起桶3232,活动桶3231中的URL会按调度时间进行排序,调度时间越早的会越早调度,而挂起桶3232中的URL则不会被调度,这两个桶中的URL会相互交换。一旦调度端接收到抓取节点的任务请求,桶调度管理模块则从桶中提取相应的URL构建成任务发给抓取节点。构建任务的规则如下:假如任务大小size=1000。优先桶(PriorityBucket)中的URL数为priorityBucket=300。动态桶(DynamicBucket)中的URL数为dynamicBucket=100且每个URL的平均页码数量page=5。常规桶(CommonBucket)中的URL数为commonBucket=500。则首先从优先桶中获取URL,剩余的任务大小为remainSize=700。接着从动态桶获取URL,此时剩余的任务大小为remainSize=700-100*5=200。最后从常规桶获取URL,如果常规桶中活动桶的URL数小于等于200,则把这些URL全部构建任务,同时把这些URL全部加入挂起桶;如果活动桶中的URL数大于200,则取调度时间靠前的前200个URL构建任务,并把这些URL加入挂起桶。如果挂起桶中的URL到了可以调度的时间,则把它们移入活动桶。图4是桶调度管理模块的流程图。其中,priorityBucket为允许加入优先桶数量,dynamicBucket×每个URL的平均页码数量为允许加入动态桶数量,任务大小size减去priorityBucket再减去dynamicBucket×每个URL的平均页码数量,则为允许加入基本桶数量。如图4所示,包括:
步骤S401,从优先桶中获取URL,同时从桶中删除,如果任务已满,返回,否则执行步骤S402;
步骤S402,从动态桶中获取URL,并通过页码衍生出新的URL,如果任务已满,返回,否则执行步骤S403;
步骤S403,从活动桶(常规桶)获取URL,修改这些URL的下次调度时间,插入挂起桶。
统计模块位于抓取端,抓取节点请求到数据后,提取页面的信息数以及该页第一条信息和最后一条信息的时间间隔,传给统计模块,统计模块根据这些数据计算该关键词在30分钟内可以产生的页码数量,并把这些数据传给调度端。
桶更新器324(BucketUpdater)位于调度端32,它的主要功能是更新优先桶321、动态桶322、基本桶323中的URL。抓取节点31抽取到的数据,包括二次下载链接地址、信息详情和页码数量都会传给调度端32的桶更新器324,桶更新器324接收到这些数据后,会根据数据类型更新不同的桶,具体的过程,如图5所示,包括:
步骤S510,对数据类型进行检查,如果分析出的数据是二次下载链接地址,则执行步骤S520,如果分析出的数据是信息详情,则执行步骤S530,如果分析出的数据是页码数量,则执行步骤S540;
步骤S520,把这些数据插入优先桶(PriorityBucket),供调度机调度;
步骤S530,把这些数据插入数据桶(DataBucket),供业务方取数据。
步骤S540,与上次获取到的页码数量进行比较,如果页码数量相等,则不进行任何操作,返回。如果页码数量不等,则:
如果老的页码数量(oldPages)大于等于阈值(阈值threshold可以自己设定,在本方案中设置为3)即oldPages>=threshold,且新的页码数量(newPages)也大于等于阈值即newPages>=threshold。则执行步骤S541,如果oldPages>=threshold,但newPages<threshold,则执行步骤S542,如果oldPages<threshold,但newPages>=threshold,则执行步骤S543,如果oldPages<threshold,但newPages<threshold,则执行步骤S544;
步骤S541,该URL目前位于动态桶,无需进行桶的交换,只需修改它的页码数量即可。
步骤S542,该URL目前位于动态桶,需要把它移到活动桶。
步骤S543,该URL目前位于常规桶,需要把它移到动态桶。
步骤S544,该URL目前位于常规桶并且很有可能是挂起桶,需要扫描挂起桶,把挂起桶中到达调度时间的URL加入活动桶。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种基于关键词检索的网络爬虫调度方法,其特征在于,包括:
步骤(11),抓取节点向调度端发送任务请求命令;
步骤(12),调度端接收到抓取节点发送的任务请求命令;
步骤(13),调度端从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行步骤(16),否则执行步骤(14),所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;
步骤(14),调度端从保存关键词多页码链接地址的动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,如果已达到任务列表的允许加入动态桶数量,则执行步骤(16),否则执行步骤(15),所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且动态桶中的关键词链接地址对应的搜索结果页面包括大于或等于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
步骤(15),调度端从保存关键词链接地址的基本桶获取关键词链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入基本桶数量,则执行步骤(16),所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且基本桶中的关键词链接地址对应的搜索结果页面包括小于预设页码数量阈值的页码数量;
步骤(16),调度端向抓取节点返回任务列表,所述抓取节点根据所接收到的任务列表执行任务列表中的任务。
2.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述步骤(13)具体包括:从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,并从优先桶中删除已生成任务的二次下载链接地址,如果已达到任务列表的允许加入优先桶数量,则执行步骤(16),否则如果优先桶中还保存有二次下载链接地址,则执行步骤(13),如果优先桶中所有的二次下载链接地址均已删除,则执行步骤(14)。
3.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述步骤(14)具体包括:从保存关键词链接地址的动态桶获取未调度的关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,并设置已生成任务的关键词链接地址的状态为已调度,如果已达到任务列表的允许加入动态桶数量,则执行步骤(16),并设置动态桶中所有的关键词链接地址的状态为未调度,否则如果动态桶中还保存有未调度的关键词链接地址,则执行步骤(14),如果动态桶中未保存有未调度的关键词链接地址,则执行步骤(15)。
4.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述基本桶包括活动桶和挂起桶,所述步骤(15)具体包括,从保存关键词链接地址的活动桶获取调度时间最前的关键词链接地址生成任务并加入任务列表,并将已生成任务的关键词链接地址的调度时间增加预设的调度时间增加量后移动到挂起桶,如果已达到任务列表的允许加入基本桶数量,则执行步骤(16),否则如果活动桶中还保存有关键词链接地址,则执行步骤(15),如果活动桶中未保存关键词链接地址,则执行步骤(16)。
5.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,还包括:
抓取节点根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址。
6.根据权利要求5所述的基于关键词检索的网络爬虫调度方法,其特征在于,调度端在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址具体包括:
设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量;
如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到基本桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶。
7.根据权利要求4所述的基于关键词检索的网络爬虫调度方法,其特征在于:
抓取节点根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量,且如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到活动桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则对挂起桶进行检索,将挂起桶中调度时间到达当前时间的关键词链接地址移动到活动桶。
8.根据权利要求1所述的基于关键词检索的网络爬虫调度方法,其特征在于,所述允许加入动态桶数量大于允许加入基本桶数量。
9.一种基于关键词检索的网络爬虫调度系统,其特征在于,包括:调度端以及与调度端通讯的至少一个抓取节点;
所述调度端包括:
任务请求命令接收模块,用于接收到抓取节点发送的任务请求命令;
优先桶任务生成模块,用于从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入优先桶数量,则执行任务列表返回模块,否则执行动态桶任务生成模块,所述二次下载链接地址为所述抓取节点根据任务列表中的任务进行抓取得到抓取页面,从抓取页面中分析得到需要进行二次下载的链接地址;
动态桶任务生成模块,用于保存关键词多页码链接地址的动态桶获取关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,如果已达到任务列表的允许加入动态桶数量,则执行任务列表返回模块,否则执行动态桶任务生成模块,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且动态桶中的关键词链接地址对应的搜索结果页面包括大于或等于预设页码数量阈值的页码数量,所述页码数量阈值大于或等于2;
基本桶任务生成模块,用于从保存关键词链接地址的基本桶获取关键词链接地址生成任务并加入任务列表,如果已达到任务列表的允许加入基本桶数量,则执行任务列表返回模块,所述关键词链接地址为在目标网站中根据所述关键词所生成的搜索结果页面的链接地址,且基本桶中的关键词链接地址对应的搜索结果页面包括小于预设页码数量阈值的页码数量;
任务列表返回模块,用于向抓取节点返回任务列表;
所述抓取节点包括:
任务请求命令发送模块,用于向调度端发送任务请求命令;
任务执行模块,用于根据所接收到的任务列表执行任务列表中的任务。
10.根据权利要求9所述的基于关键词检索的网络爬虫调度系统,其特征在于,所述优先桶任务生成模块具体用于:从保存二次下载链接地址的优先桶获取二次下载链接地址生成任务并加入任务列表,并从优先桶中删除已生成任务的二次下载链接地址,如果已达到任务列表的允许加入优先桶数量,则执行任务列表返回模块,否则如果优先桶中还保存有二次下载链接地址,则执行优先桶任务生成模块,如果优先桶中所有的二次下载链接地址均已删除,则执行动态桶任务生成模块。
11.根据权利要求9所述的基于关键词检索的网络爬虫调度系统,其特征在于,所述动态桶任务生成模块具体用于:从保存关键词链接地址的动态桶获取未调度的关键词链接地址,并根据与关键词链接地址对应的页码数量衍生出所述页码数量的衍生链接地址,根据所述页码数量的衍生链接地址生成所述页码数量的任务并加入任务列表,并设置已生成任务的关键词链接地址的状态为已调度,如果已达到任务列表的允许加入动态桶数量,则执行任务列表返回模块,并设置动态桶中所有的关键词链接地址的状态为未调度,否则如果动态桶中还保存有未调度的关键词链接地址,则执行动态桶任务生成模块,如果动态桶中未保存有未调度的关键词链接地址,则执行基本桶任务生成模块。
12.根据权利要求9所述的基于关键词检索的网络爬虫调度系统,其特征在于,所述基本桶包括活动桶和挂起桶,所述基本桶任务生成模块具体用于,从保存关键词链接地址的活动桶获取调度时间最前的关键词链接地址生成任务并加入任务列表,并将已生成任务的关键词链接地址的调度时间增加预设的调度时间增加量后移动到挂起桶,如果已达到任务列表的允许加入基本桶数量,则执行任务列表返回模块,否则如果活动桶中还保存有关键词链接地址,则执行基本桶任务生成模块,如果活动桶中未保存关键词链接地址,则执行任务列表返回模块。
13.根据权利要求9所述的基于关键词检索的网络爬虫调度系统,其特征在于:
所述任务执行模块具体用于:根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端还包括分析数据接收模块,用于接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址。
14.根据权利要求13所述的基于关键词检索的网络爬虫调度系统,其特征在于,分析数据接收模块在动态桶和基本桶中调整与所述页码数量对应的关键词链接地址具体包括:
设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量;
如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到基本桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶。
15.根据权利要求12所述的基于关键词检索的网络爬虫调度系统,其特征在于:
所述任务执行模块具体用于:根据任务列表中的任务进行抓取得到抓取页面,对所述抓取页面进行分析得到包括二次下载链接地址、信息详情或页码数量的分析数据,将分析数据发送到调度端;
调度端还包括分析数据接收模块,用于接收到分析数据:
如果分析数据为二次下载链接地址,则将二次下载链接地址放入优先桶;
如果分析数据为信息详情,则将信息详情放入数据桶;
如果分析数据为页码数量,则设置当前接收到的页码数量为新页码数量,设置上一次同一关键词链接地址接收到的页码数量为旧页码数量,且如果旧页码数量与新页码数量不一致,则:
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则修改对应的关键词链接地址对应的页码数量为新页码数量;
如果旧页码数量大于或等于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则将对应的关键词链接地址移动到活动桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量大于或等于所述页码数量阈值,则将对应的关键词链接地址移动到动态桶;
如果旧页码数量小于所述页码数量阈值,且新页码数量小于所述页码数量阈值,则对挂起桶进行检索,将挂起桶中调度时间到达当前时间的关键词链接地址移动到活动桶。
16.根据权利要求9所述的基于关键词检索的网络爬虫调度系统,其特征在于,所述允许加入动态桶数量大于允许加入基本桶数量。
CN201410011079.8A 2014-01-09 2014-01-09 一种基于关键词检索的网络爬虫调度方法及系统 Active CN103761279B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410011079.8A CN103761279B (zh) 2014-01-09 2014-01-09 一种基于关键词检索的网络爬虫调度方法及系统
US15/110,564 US10185771B2 (en) 2014-01-09 2015-01-09 Method and system for scheduling web crawlers according to keyword search
PCT/CN2015/070475 WO2015103997A1 (zh) 2014-01-09 2015-01-09 一种基于关键词检索的网络爬虫调度方法及系统
RU2016132573A RU2645266C1 (ru) 2014-01-09 2015-01-09 Способ и устройство для планирования web-обходчиков в соответствии с поиском по ключевым словам

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410011079.8A CN103761279B (zh) 2014-01-09 2014-01-09 一种基于关键词检索的网络爬虫调度方法及系统

Publications (2)

Publication Number Publication Date
CN103761279A CN103761279A (zh) 2014-04-30
CN103761279B true CN103761279B (zh) 2017-02-08

Family

ID=50528516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410011079.8A Active CN103761279B (zh) 2014-01-09 2014-01-09 一种基于关键词检索的网络爬虫调度方法及系统

Country Status (4)

Country Link
US (1) US10185771B2 (zh)
CN (1) CN103761279B (zh)
RU (1) RU2645266C1 (zh)
WO (1) WO2015103997A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647342A (zh) * 2018-05-14 2018-10-12 佛山市真觉网络科技有限公司 一种优化百度蜘蛛抓取的方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761279B (zh) 2014-01-09 2017-02-08 北京京东尚科信息技术有限公司 一种基于关键词检索的网络爬虫调度方法及系统
CN105989151B (zh) * 2015-03-02 2019-09-06 阿里巴巴集团控股有限公司 网页抓取方法及装置
CN107784036A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 网络爬虫系统和基于网络爬虫系统的数据处理方法
US20180189409A1 (en) 2016-12-30 2018-07-05 Caavo Inc Targeted crawler to develop and/or maintain a searchable database of media content across multiple content providers
CN107480297A (zh) * 2017-08-30 2017-12-15 福建中金在线信息科技有限公司 一种文章收录方法及装置
CN110309403B (zh) * 2018-03-05 2022-11-04 百度在线网络技术(北京)有限公司 用于抓取数据的方法和装置
GB2572544A (en) * 2018-03-27 2019-10-09 Innoplexus Ag System and method of crawling a wide area computer network for retrieving contextual information
CN111371705B (zh) * 2020-02-24 2023-09-12 维沃移动通信有限公司 一种下载任务执行方法及电子设备
CN111460254B (zh) * 2020-03-24 2023-05-05 南阳柯丽尔科技有限公司 一种基于多线程的网页爬取方法、装置、存储介质及设备
CN113965555B (zh) * 2021-10-21 2024-04-12 北京值得买科技股份有限公司 一种参数化爬虫下载方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305610B1 (en) * 2000-04-06 2007-12-04 Google, Inc. Distributed crawling of hyperlinked documents
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
US7454430B1 (en) * 2004-06-18 2008-11-18 Glenbrook Networks System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US7512878B2 (en) * 2004-04-30 2009-03-31 Microsoft Corporation Modular document format
US20150066895A1 (en) * 2004-06-18 2015-03-05 Glenbrook Networks System and method for automatic fact extraction from images of domain-specific documents with further web verification
US7769742B1 (en) * 2005-05-31 2010-08-03 Google Inc. Web crawler scheduler that utilizes sitemaps from websites
US8875249B2 (en) * 2006-03-01 2014-10-28 Oracle International Corporation Minimum lifespan credentials for crawling data repositories
US20090254512A1 (en) * 2008-04-03 2009-10-08 Yahoo! Inc. Ad matching by augmenting a search query with knowledge obtained through search engine results
KR101229034B1 (ko) * 2008-09-10 2013-02-01 성준형 디바이스 인터페이싱을 위한 다중모드 조음 통합
TW201013433A (en) * 2008-09-19 2010-04-01 Esobi Inc Filtering method for the same or similar documents
US20120072232A1 (en) * 2010-04-28 2012-03-22 Patrick Frankham Systems and Methods for Using Online Resources to Design a Clinical Study and Recruit Participants
US9246932B2 (en) * 2010-07-19 2016-01-26 Sitelock, Llc Selective website vulnerability and infection testing
US8868541B2 (en) * 2011-01-21 2014-10-21 Google Inc. Scheduling resource crawls
WO2013119934A1 (en) * 2012-02-09 2013-08-15 Aol Inc. Systems and methods for testing online systems and content
CN103279492B (zh) 2013-04-28 2016-12-28 乐视网信息技术(北京)股份有限公司 一种抓取网页的方法和装置
CN103761279B (zh) 2014-01-09 2017-02-08 北京京东尚科信息技术有限公司 一种基于关键词检索的网络爬虫调度方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305610B1 (en) * 2000-04-06 2007-12-04 Google, Inc. Distributed crawling of hyperlinked documents
US7454430B1 (en) * 2004-06-18 2008-11-18 Glenbrook Networks System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents
CN101114285A (zh) * 2006-07-25 2008-01-30 腾讯科技(深圳)有限公司 一种互联网主题文件搜索方法、爬虫系统和搜索引擎
CN102646129A (zh) * 2012-03-09 2012-08-22 武汉大学 一种主题相关的分布式网络爬虫系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Web Crawling Methodology;Ayoub Mohamed H. Elyasir 等;《2012 International Conference on Computer Technology and Science》;20121231;第193-197页 *
多线程网络爬虫的设计与实现;张超 等;《电脑开发与应用》;20121231;第25卷(第6期);第65-67页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647342A (zh) * 2018-05-14 2018-10-12 佛山市真觉网络科技有限公司 一种优化百度蜘蛛抓取的方法

Also Published As

Publication number Publication date
US20160328475A1 (en) 2016-11-10
CN103761279A (zh) 2014-04-30
US10185771B2 (en) 2019-01-22
WO2015103997A1 (zh) 2015-07-16
RU2645266C1 (ru) 2018-02-19

Similar Documents

Publication Publication Date Title
CN103761279B (zh) 一种基于关键词检索的网络爬虫调度方法及系统
WO2020078385A1 (zh) 数据采集方法、装置、存储介质及系统
CN100438435C (zh) 一种限制浏览器访问网络地址的方法
CN105550248B (zh) 用户信息挖掘方法及装置
CN106941493B (zh) 一种网络安全态势感知结果输出方法及装置
CN104462547B (zh) 一种可配置的网页数据采集的方法及系统
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103942268B (zh) 搜索与应用相结合的方法、设备以及应用接口
CN103294732B (zh) 网页抓取方法及爬虫
CN109729044B (zh) 一种通用的互联网数据采集反反爬系统及方法
US20190266206A1 (en) Data processing method, server, and computer storage medium
CN107580052B (zh) 自演进的网络自适应爬虫方法及系统
CN108304410A (zh) 一种异常访问页面的检测方法、装置及数据分析方法
CN108959539B (zh) 一种基于规则可配置的网页数据解析方法
CN105302815B (zh) 网页的统一资源定位符url的过滤方法和装置
CN105718307B (zh) 进程管理方法及进程管理装置
CN106210150A (zh) 一种基于行为分析的内容推送系统及方法
CN107180050A (zh) 一种数据抓取系统及方法
CN107508809A (zh) 识别网址类型的方法及装置
Gonzalez et al. Net2vec: Deep learning for the network
CN110020046A (zh) 一种数据抓取方法及装置
CN113987002A (zh) 基于海量数据分析平台的数据交换方法
CN103544288B (zh) 浏览器网页加载控制方法及装置
CN105468981A (zh) 基于漏洞识别技术的插件安全扫描装置及扫描方法
CN104156359B (zh) 内链信息推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Liao Yaohua

Inventor after: Li Xiaowei

Inventor before: Deng Zi

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: DENG ZI TO: LIAO YAOHUA LI XIAOWEI

C14 Grant of patent or utility model
GR01 Patent grant