CN114625947A - 确定url爬虫优先级的方法、爬虫方法、介质及爬虫系统 - Google Patents

确定url爬虫优先级的方法、爬虫方法、介质及爬虫系统 Download PDF

Info

Publication number
CN114625947A
CN114625947A CN202011463085.9A CN202011463085A CN114625947A CN 114625947 A CN114625947 A CN 114625947A CN 202011463085 A CN202011463085 A CN 202011463085A CN 114625947 A CN114625947 A CN 114625947A
Authority
CN
China
Prior art keywords
crawler
url
priority
seed
seed url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011463085.9A
Other languages
English (en)
Inventor
王伟
王亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navinfo Co Ltd
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN202011463085.9A priority Critical patent/CN114625947A/zh
Publication of CN114625947A publication Critical patent/CN114625947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种确定URL爬虫优先级的方法、爬虫方法、介质及爬虫系统,属于通信计算机技术领域。该确定URL爬虫优先级方法包括:根据URL队列中的种子URL对应网页的重要程度,确定种子URL的爬虫优先级;根据种子URL的爬虫优先级,确定相应种子URL对应网页的爬虫优先顺序和、或爬虫频率;以及依据爬虫优先顺序和、或爬虫频率,对相应的网页进行爬虫。本申请的应用确定种子URL的爬虫优先级,提高网络爬虫的效率。

Description

确定URL爬虫优先级的方法、爬虫方法、介质及爬虫系统
技术领域
本申请涉及通信计算机技术领域,特别是一种确定URL爬虫优先级的方法、爬虫方法、介质及爬虫系统。
背景技术
网络爬虫在收集网络信息时,从互联网种子URL(统一资源标识符)队列中获取网页链接,将其放入待抓取URL队列,读取URL,解析DNS(域名系统),下载对应网页的内容并存储。通过分析已抓取的URL,并从中分析出其他链接的URL,不断进行循环。最后在数据库中存放解析好的网页内容。
网络爬虫是搜索引擎的核心部分,它面向整个互联网并从大量的网页中爬取资源,是搜索引擎的数据来源。随着互联网信息量的骤增,传统的搜索引擎及传统网络爬虫已经无法满足在不同环境、不同背景下用户对不同主题或者不同技术领域相关信息的查询需求。
通用爬虫是为了尽可能的多获取互联网中的网页资源,但是随着互联网信息量的骤增,传统的爬虫效率已经已无法满足不同环境、不同背景下用户对主题或领域相关信息的查询需求。目前整个互联网上的网页数目巨大,并且一直都在持续高速增长,还有大量页面会不断更新,并且网页还包含很多垃圾信息,极大的降低了整个搜索引擎系统的数据的质量。
发明内容
针对现有技术中网络信息量增加,网络爬虫搜集数据效率低下的技术问题,本申请提供一种确定URL爬虫优先级的方法、爬虫方法、介质及爬虫系统。
在本申请的一个技术方案中,提供一种确定URL爬虫优先级的方法,包括:根据URL队列中的种子URL对应网页的重要程度,确定种子URL的爬虫优先级;根据种子URL的爬虫优先级,确定相应种子URL对应网页的爬虫优先顺序和、或爬虫频率;以及依据爬虫优先顺序和、或爬虫频率,对相应的网页进行爬虫。
在本申请的另一个技术方案中,提供一种网络爬虫方法,包括:根据URL队列中种子URL的爬虫优先级,确定种子URL的爬虫顺序和、或爬虫频率;根据种子URL的爬虫顺序和、或爬虫频率,对相应的网页进行爬虫,包括,根据种子URL对相应的网页进行下载,获取网页的网页内容及格式文件,其中格式文件包括HTML文件;根据格式文件提取相应的网页链接,并分析网页链接对应的网页地址;以及对网页地址进行去重处理,并添加进URL队列中。
在本申请的另一个技术方案中,提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一中的确定URL爬虫优先级的方法。
在本申请的另一个技术方案中,提供一种爬虫系统,包括主服务器和附属服务器,通过主服务器,确定URL队列中种子URL的爬虫优先级,并根据种子URL的爬虫优先级确定种子URL的爬虫顺序和、或爬虫频率;根据哈希算法,主服务器按照种子URL爬虫顺序和、或爬虫频率,将种子URL分配到附属服务器,对种子URL进行网页爬虫;通过附属服务器,下载种子URL相应的网页内容及网页格式文件,根据格式文件提取相应的网页链接,并分析网页链接对应的网页地址,对网页地址进行去重处理,并添加进URL队列中。
本申请的有益效果是:通过对网络爬虫中的种子URL进行优先级评估,使得优先级更高的种子URL优先进行爬虫操作,提高网络爬虫的效率。
附图说明
图1是本申请确定URL爬虫优先级的方法的一个具体实施方式的流程示意图;
图2是本申请网络爬虫方法的一个具体实施方式的流程示意图;
图3是本申请爬虫系统的一个具体实施方式的组成示意图;
图4是本申请确定URL爬虫优先级的一个具体实施例的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1示出了本申请确定URL爬虫优先级的方法的一个具体实施方式。
在图1所示的具体实施方式中,本申请的确定URL爬虫优先级的方法包括过程S101,根据URL队列中的种子URL对应网页的重要程度,确定种子URL的爬虫优先级;过程S102,根据种子URL的爬虫优先级,确定相应种子URL对应网页的爬虫优先顺序和、或爬虫频率;以及过程S103,依据爬虫优先顺序和、或爬虫频率对相应的网页进行爬虫。
在图1所示的具体实施方式中,本申请的确定URL爬虫优先级的方法包括过程S101,根据URL队列中的种子URL对应网页的重要程度,确定种子URL的爬虫优先级。
在该具体实施方式中,对种子URL对应网页的重要程度进行评定,确定该种子URL的优先级。其中,对应网页的重要程度更高的种子URL的优先级更高。通过确定种子URL的优先级,从而在面对日益增长的网络数据量以及不同环境、不同主题领域的搜索需求时,能够对需求量更大或者与兴趣点更接近的数据优先进行网络爬虫,获取对应的网页数据,提高网络爬虫的效率。
在本申请的一个具体实施例中,根据URL队列中的种子URL对应网页的重要程度,确定种子URL的爬虫优先级的过程包括:对种子URL对应网页内容与爬虫主题的相关度进行评估,对相关度越高的种子URL确定越高的爬虫优先级。
在该具体实施例中,利用机器学习模型或概率模型对包括种子URL对应网页的内容主题在内的数据进行分析,判断种子URL对应网页的内容主题与用户搜索兴趣点的相似度。根据种子URL对应网页的内容主题与兴趣点的接近程度对种子URL的优先级进行确定,其中,与兴趣点更接近的网页的主题相关度更高,对应的种子URL的优先级也更高。
在本申请的一个实例中,用户搜索兴趣点的多样性对应爬虫主题的多样性。其中,在利用网络爬虫进行数据的收集时,可统计用户进行搜索时出现次数较多的兴趣点词汇进行种子URL优先级的判断。例如,统计的爬虫主题词汇包括地图、美食、汽车等。通过机器学习模型或概率模型计算种子URL对应网页的网页主题与爬虫主题接近程度。例如,当爬虫主题为“汽车”时,涉及到汽车买卖或者汽车品类介绍的网页对应的种子URL的优先级程度高于涉及自行车介绍的种子URL。通过对种子URL对应网页的主题相关度进行评估,对种子URL的优先级进行确定,使得优先级高的种子URL先被执行爬虫操作。从而进行网络爬虫时,提高网络爬虫的效率,同时为搜索引擎提供用户搜索时更需要的数据。
在本申请的一个具体实施例中,根据URL队列中的种子URL对应网页的重要程度,确定种子URL的爬虫优先级的过程包括:对种子URL对应网页的网页更新频率进行评估,对网页更新频率越高的种子URL确定越高的爬虫优先级。
在该具体实施例中,根据网页的更新次数对网页更新频率进行评估,其中在预设时间内更新次数更多的种子URL的优先级更高。在实际的网络爬虫过程中,对于爬虫爬行过的一些网站,需要定期更新网站的内容;或者对于一些更新速度较快的网站,需要及时获取该网站的数据。该网站对应的种子URL也需要按照一定的周期对该网站进行重复爬虫操作。所以根据网页在预设时间内的的更新次数对网页更新频率进行评估,在预设时间内更新次数更多的种子URL的优先级更高,对优先级更高的种子URL优先进行爬虫操作,提高网络爬虫的效率。例如,可通过评估公式:
score(P)=log(update(P)+1)
进行对应的种子URL的优先级确定。其中,P表示预设时间内网页的更新次数,通过上述公式,可计算得出该网页对应的网页更新频率得分,其中得分更高的网页对应的种子URL的优先级更高。
在本申请的一个具体实施例中,根据URL队列中的种子URL对应网页的重要程度,确定种子URL的爬虫优先级的过程包括:获取种子URL对应网页内容中的至少一个链接,将至少一个链接对应的网页地址加入URL队列;以及根据至少一个链接对应网页的重要程度,确定至少一个链接的爬虫优先级。
在该具体实施例中,在确定种子URL的爬虫优先级的过程中,根据种子URL对应网页中的链接的重要程度,对该种子URL的爬虫优先级的优先级进行确定。其中,种子URL对应网页中的链接的重要程度更高的,则该种子URL的爬虫优先级也更高。
在本申请的一个具体实施例中,根据至少一个链接对应网页的重要程度,确定至少一个链接的爬虫优先级的过程包括:对至少一个链接进行分析,判断至少一个链接的有效性,对有效的链接确定比无效链接更高的爬虫优先级。
在该具体实施例中,在对种子URL的优先级进行评估时,还对种子URL对应的链接进行分析,其中有效链接对应的种子URL的优先级更高。随着互联网信息的不断增长,存在种子URL对应的网页中存在垃圾信息,或者该种子URL为无效链接。通过对种子URL对应的链接进行分析,对存在垃圾信息或者失效的种子URL进行排除或者最后进行爬虫操作,提高网络爬虫的效率。
通过确定种子URL对应网页的重要程度,对种子URL队列中的种子URL进行优先级确定,根据各个种子URL的优先级调整种子URL的爬虫顺序,能够有效快速的为搜索引擎提供正常的数据,提高网络爬虫的效率。
在图1所示具体实施方式中,本申请的确定URL爬虫优先级的方法包括过程S102,根据种子URL的爬虫优先级,确定相应种子URL对应网页的爬虫优先顺序和、或爬虫频率。
在该具体实施方式中,在确定了种子URL的爬虫优先级后,根据种子爬虫优先级的高低确定相应种子URL对应网页的爬虫优先顺序和、或爬虫的频率。其中爬虫优先级越高的种子URL越先被执行爬虫操作,优先获得对应网页的数据。对于部分网页,因为网页的不断更新,需要对网页进行多次爬虫操作。通过确定种子URL的爬虫优先级,进而对网页的爬虫频率进行确定,使得更新频率更快或者用户更关注的网页的爬虫频率更高,从而合理的分配爬虫资源,提高爬虫的效率。在日益增长的网络数据,网络搜索主题的环境下,优先获取与用户相关或者用户关注的网页数据,进而在用户利用搜索引擎进行数据搜索时,获得更准确的数据,提高网页爬虫的效率,同时提升用户搜索体验。
在图1所示具体实施方式中,本申请的确定URL爬虫优先级的方法包括过程S103,依据爬虫优先顺序和、或爬虫频率,对相应的网页进行爬虫。
在该具体实施方式中,依据确定的种子URL的爬虫优先顺序和、或爬虫的频率对相应的网页进行爬虫。其中,通过爬虫获取对应网页的内容,另外获取网页中的其他链接作为新的URL并添加进URL队列中。新添加的URL将作为新的种子URL进行优先级的确定,以及后续的爬虫的循环过程。
在本申请的一个具体实施例中,依据爬虫优先顺序和、或爬虫频率,对相应的网页进行爬虫的过程包括:将种子URL对应的网页内容进行下载;以及对经下载的网页内容进行本地解析。
在该具体实施例中,本申请的确定URL爬虫优先级的方法,在线端主要进行网络数据的采集,在数据采集过程中,尽可能多的搜集更多的网页,并及时对部分网页进行重复爬虫,保持网页信息的同步;在离线端主要进行种子URL的优先级确定以及对网页内容的本地解析。
在本申请的一个实例中,根据种子URL对内容页进行下载,将内容页对应的HTML文件保存到本地磁盘,通过对该HTML文件进行解析,获得该内容页中的所有链接。将该内容页中的链接以新的URL添加到URL队列中。在后续的网络爬虫过程中,将新添加的URL作为新的种子URL进行优先级确定以及网络爬虫的循环过程。
在本申请的一个具体实施例中,依据爬虫优先顺序和、或爬虫频率,对相应的网页进行爬虫的过程之前还包括:计算种子URL的哈希值,根据哈希值指定服务器进行种子URL的爬虫。
在该具体实施例中,在进行确定URL爬虫优先级的过程中,通过主控服务器计算种子URL对应的哈希值,并根据二次哈希算法对该种子URL的爬虫任务进行调度,将种子URL分配给对应的附属服务器,再进行相应的网络爬虫。对种子URL的爬虫任务进行合理分配,提高网络爬虫效率。
在本申请的一个实例中,本申请的确定URL爬虫优先级的方法可结合去重处理进行网络爬虫。其中,种子URL进行爬虫操作前需要判断种子URL是否为起始爬行节点,包括:若是,将种子URL存储到数据库中,并进行该种子URL的爬虫操作;若否,则根据改进广义表去重算法对种子URL进行去重处理,包括:判断数据库中是否存在与该种子URL相同的URL,若存在,将该种子URL进行去除,若不存在,进行该种子URL的爬虫操作,并将该种子URL存储于数据库中。
在该实例中,为了提高爬虫效率,避免对重复的种子URL进行爬虫操作,对种子URL进行去重处理。其中,首先判断当前进行爬虫操作的种子URL是否为起始爬行节点,即第一个执行爬虫操作的种子URL。若当前种子URL是起始爬行节点,则将该种子URL存储到数据库中,并对该种子URL进行爬虫操作;若当前种子URL不是起始爬行节点,则根据改进广义表去重算法对种子URL进行去重处理,断数据库中是否存在与种子URL相同的URL。若存在,说明已经对该种子URL对应的网页进行过数据的采集过程,为了避免重复,影响网络爬虫的效率,将该种子URL进行去除。若不存在,则进行该种子URL的爬虫操作,并将该种子URL存储于数据库中。通过对该种子URL与数据库中存储的已经进行过爬虫操作的种子URL进行比较,若在数据库中存在一个种子URL与该当前种子URL相同,则说明该当前的种子URL为重复URL,则对重复URL进行去重处理。通过对种子URL进行去重处理,去除种子URL中的重复URL,避免对重复URL进行重复的爬虫操作,从而提高种子URL的网络爬虫效率。
图2示出了本申请网络爬虫方法的一个具体实施方式。
在图2所示的具体实施方式中,本申请的网络爬虫方法包括:过程S201,通过主服务器,确定URL队列中种子URL的爬虫优先级,并根据种子URL的爬虫优先级确定种子URL的爬虫顺序和、或爬虫频率;过程S202,通过主服务器,根据哈希算法按照种子URL爬虫顺序和、或爬虫频率,将种子URL分配到附属服务器;以及过程S203,通过附属服务器,对种子URL进行网页爬虫,包括,下载种子URL相应的网页内容及网页格式文件,根据格式文件提取相应的网页链接,并分析网页链接对应的网页地址,对网页地址进行去重处理,并添加进URL队列中。
本申请的网络爬虫方法在对种子URL进行网络爬虫时,根据种子URL对应网页内容与爬虫主题的相关度、网页更新频率以及对网页链接对种子URL的优先级进行确定,根据种子URL的优先级的高低,确定种子URL的爬虫优先顺序和爬虫频率,从而有效的进行网络爬虫,提高爬虫的效率。另外,本申请的网络爬虫方法对种子URL爬虫时,除了获取相应的网页内容外,获取网页的对应的格式文件,例如,HTML文件;根据格式文件提取相应的网页链接,并分析网页链接对应的网页地址,并对网页地址进行去重处理,并添加进URL队列中,对URL队列进行更新,进而进行更加详细的爬虫。另外,通过去重处理,避免不必要的爬虫过程,提高爬虫的效率。
图3示出了本申请爬虫系统的一个具体实施方式。
在图3所示的具体实施方式中,本申请的爬虫系统包括主服务器和附属服务器,其中,主服务器用于确定URL队列中种子URL的爬虫优先级,并根据种子URL的爬虫优先级确定种子URL的爬虫顺序和、或爬虫频率;根据哈希算法,按照种子URL爬虫顺序和、或爬虫频率,将种子URL分配到附属服务器;附属服务器用于对种子URL进行网页爬虫,包括,下载种子URL相应的网页内容及网页格式文件,根据格式文件提取相应的网页链接,并分析网页链接对应的网页地址,对网页地址进行去重处理,并添加进URL队列中。
本申请的爬虫系统包括离线端部分和在线端部分。其中,在在线端进行网络爬虫操作,在离线端进行对种子URL的优先级确定以及对网络爬虫获取的网页内容进行解析,获得新的网络爬虫URL。在对种子URL进行网络爬虫时,根据种子URL对应网页内容与爬虫主题的相关度、网页更新频率以及对网页链接对种子URL的优先级进行确定,根据种子URL的优先级的高低,确定种子URL的爬虫优先顺序和爬虫频率,从而有效的进行网络爬虫,提高爬虫的效率。另外,本申请的爬虫系统可通过对种子URL哈希值的计算,通过二次哈希算法进行对种子URL爬虫操任务的分配,利用相关的附属服务器进行网络爬虫,使得对种子URL的网络爬虫任务形成分布式调度,提高网络爬虫的效率。再者,本申请的爬虫系统可结合去重算法,对重复的种子URL进行去重处理,避免不必要的爬虫过程,提高爬虫的效率。
图4示出了本申请确定URL爬虫优先级的方法应用的一个具体实施例。
在该具体实施例中,结合图4对本申请的确定URL爬虫优先级的方法进行进一步说明。首先在主控服务器存储有种子URL,对种子URL的优先级进行评估。以种子URL对应网页的网页级别为根据,从种子URL对应网页的主题相关度、对应网页的更新频率以及种子URL对应链接的有效性多个方面入手,利用机器学习模型或概率模型对种子URL的优先级进行评估。其中,对应网页的主题相关度更高、更新频率更快以及链接有效性更高的种子URL的优先级更高。根据优先级的顺序,对种子URL列表的排列顺序进行更新,其中,优先级更高的种子URL排序更靠前,也优先被执行爬虫操作,获取对应的网页数据。通过对种子URL的优先级评估,对优先级更高的种子URL优先进行爬虫操作,从而在面对日益增长的网络数据量以及不同环境、不同主题领域的搜索需求时,能够对需求量更大的数据及时作出反馈,从而提高用户进行数据搜索时的搜索速度,提升用户搜索体验。
在对种子URL进行爬虫操作时,判断当前执行爬虫操作的种子URL的是否为爬行起始页,也就是该种子URL是否为第一个执行爬虫操作的种子URL。若是,则根据二次哈希算法,将该种子URL分配给对应的附属服务器进行相应的爬虫操作,并将该种子URL存储到数据库中;若否,则需要对该种子URL利用改进广义表去重算法进行去重处理。在具体的去重处理过程中,通过对该种子URL与数据库中存储的URL数据进行比较,若相同则说明该种子URL为重复URL,则去除该种子URL;若不同,则将该种子URL根据二次哈希算法,分配给对应的附属服务器,再进行后续的爬虫操作。通过去重处理,将重复的URL进行去除,避免对重复的URL进行重复的爬虫操作,提升爬虫效率。在附属服务器上,对种子URL进行爬虫操作,获得该种子URL对应网页的内容以及通过该网页HTML文件的解析,获得该网页的所有链接,并将该链接对应的首页地址作为新URL。获得种子URL对应网页中的所有新URL后,需要对新URL进行去重处理。根据改进广义表去重算法和数据库存储的URL数据,对新URL中的重复URL进行去除,避免对重复的URL进行重复的爬虫操作,提升爬虫效率。最后将去重处理后的新URL添加到URL列表中,持续进行后续的爬虫操作。
本申请的确定URL爬虫优先级的方法在对种子URL进行网络爬虫时,根据种子URL对应网页内容与爬虫主题的相关度、网页更新频率以及对网页链接对种子URL的优先级进行确定,根据种子URL的优先级的高低,确定种子URL的爬虫优先顺序和、或爬虫频率,从而有效的进行网络爬虫,提高爬虫的效率。另外,本申请的确定URL爬虫优先级的方法可通过对种子URL哈希值的计算,通过二次哈希算法进行对种子URL爬虫操任务的分配,利用相关的附属服务器进行网络爬虫,使得对种子URL的网络爬虫任务形成分布式调度,提高网络爬虫的效率。再者,本申请的确定URL爬虫优先级的方法可结合去重算法,对重复的种子URL进行去重处理,避免不必要的爬虫过程,提高爬虫的效率。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的确定URL爬虫优先级的方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的确定URL爬虫优先级的方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种确定URL爬虫优先级的方法,其特征在于,包括:
根据URL队列中的种子URL对应网页的重要程度,确定所述种子URL的爬虫优先级;
根据所述种子URL的爬虫优先级,确定相应所述种子URL对应网页的爬虫优先顺序和/或爬虫频率;以及
依据所述爬虫优先顺序和/或爬虫频率,对相应的网页进行爬虫。
2.如权利要求1所述的确定URL爬虫优先级的方法,其特征在于,所述根据URL队列中的种子URL对应网页的重要程度,确定所述种子URL的爬虫优先级的过程包括:
对所述种子URL对应网页内容与爬虫主题的相关度进行评估,对所述相关度越高的种子URL确定越高的爬虫优先级。
3.如权利要求1所述的确定URL爬虫优先级的方法,其特征在于,所述根据URL队列中的种子URL对应网页的重要程度,确定所述种子URL的爬虫优先级的过程包括:
对所述种子URL对应网页的网页更新频率进行评估,对所述网页更新频率越高的种子URL确定越高的爬虫优先级。
4.如权利要求1所述的确定URL爬虫优先级的方法,其特征在于,所述根据URL队列中的种子URL对应网页的重要程度,确定所述种子URL的爬虫优先级的过程包括:
获取所述种子URL对应网页内容中的至少一个链接,将所述至少一个链接对应的网页地址加入所述URL队列;以及
根据所述至少一个链接对应网页的重要程度,确定所述至少一个链接的爬虫优先级。
5.如权利要求4所述的确定URL爬虫优先级的方法,其特征在于,所述根据所述至少一个链接对应网页的重要程度,确定所述至少一个链接的爬虫优先级的过程包括:
对所述至少一个链接进行分析,判断所述至少一个链接的有效性,对有效的链接确定比无效链接更高的爬虫优先级。
6.如权利要求1所述的确定URL爬虫优先级的方法,其特征在于,所述依据所述爬虫优先顺序和/或爬虫频率,对相应的网页进行爬虫的过程包括:
将所述种子URL对应的网页内容进行下载;以及
对经下载的所述网页内容进行本地解析。
7.如权利要求1所述的确定URL爬虫优先级的方法,其特征在于,所述依据所述爬虫优先顺序和/或爬虫频率,对相应的网页进行爬虫的过程之前还包括:
计算所述种子URL的哈希值,根据所述哈希值指定服务器进行所述种子URL的爬虫。
8.一种网络爬虫方法,其特征在于,包括:
通过所述主服务器,确定URL队列中种子URL的爬虫优先级,并根据所述种子URL的爬虫优先级确定所述种子URL的爬虫顺序和/或爬虫频率;
通过所述主服务器,根据哈希算法并按照所述种子URL爬虫顺序和/或爬虫频率,将所述种子URL分配到附属服务器;
通过所述附属服务器,对所述种子URL进行网络爬虫,包括,下载所述种子URL相应的网页内容及网页格式文件,根据所述格式文件提取相应的网页链接,并分析所述网页链接对应的网页地址,对所述网页地址进行去重处理,并添加进所述URL队列中。
9.一种计算机可读存储介质,其存储有计算机指令,其中所述计算机指令被操作以执行权利要求1-7任一项所述的确定URL爬虫优先级的方法。
10.一种爬虫系统,包括主服务器和附属服务器,其特征在于,
所述主服务器用于确定URL队列中种子URL的爬虫优先级,并根据所述种子URL的爬虫优先级确定所述种子URL的爬虫顺序和/或爬虫频率,并根据哈希算法,按照所述种子URL爬虫顺序和/或爬虫频率,将所述种子URL分配到所述附属服务器;
所述附属服务器用于对所述种子URL进行网络爬虫,包括,下载所述种子URL相应的网页内容及网页格式文件,根据所述格式文件提取相应的网页链接,并分析所述网页链接对应的网页地址,对所述网页地址进行去重处理,并添加进所述URL队列中。
CN202011463085.9A 2020-12-11 2020-12-11 确定url爬虫优先级的方法、爬虫方法、介质及爬虫系统 Pending CN114625947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011463085.9A CN114625947A (zh) 2020-12-11 2020-12-11 确定url爬虫优先级的方法、爬虫方法、介质及爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011463085.9A CN114625947A (zh) 2020-12-11 2020-12-11 确定url爬虫优先级的方法、爬虫方法、介质及爬虫系统

Publications (1)

Publication Number Publication Date
CN114625947A true CN114625947A (zh) 2022-06-14

Family

ID=81895961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011463085.9A Pending CN114625947A (zh) 2020-12-11 2020-12-11 确定url爬虫优先级的方法、爬虫方法、介质及爬虫系统

Country Status (1)

Country Link
CN (1) CN114625947A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982442A (zh) * 2023-02-27 2023-04-18 毛茸茸(西安)智能科技有限公司 大数据分析的网络信息数据采集方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982442A (zh) * 2023-02-27 2023-04-18 毛茸茸(西安)智能科技有限公司 大数据分析的网络信息数据采集方法

Similar Documents

Publication Publication Date Title
US8019708B2 (en) Methods and apparatus for computing graph similarity via signature similarity
CN102663062B (zh) 一种处理搜索结果中无效链接的方法及装置
US8065292B2 (en) Generating an index for a network search engine
US9092510B1 (en) Modifying search result ranking based on a temporal element of user feedback
JP4832061B2 (ja) コンテンツ収集装置およびコンテンツ収集システム
US8041893B1 (en) System and method for managing large filesystem-based caches
Saini et al. Information retrieval in web crawling: A survey
US20130185429A1 (en) Processing Store Visiting Data
RU2733482C2 (ru) Способ и система для обновления базы данных поискового индекса
CN102710795A (zh) 热点聚合方法及装置
Dixit et al. A novel approach to priority based focused crawler
CN107580052B (zh) 自演进的网络自适应爬虫方法及系统
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
CN110889023A (zh) 一种elasticsearch的分布式多功能搜索引擎
CN114625947A (zh) 确定url爬虫优先级的方法、爬虫方法、介质及爬虫系统
Chowdhary et al. Study of web page ranking algorithms: a review
CN110990701B (zh) 书籍搜索方法、计算设备及计算机存储介质
Hurst et al. Social streams blog crawler
CN107784054B (zh) 一种页面发布方法和装置
Leng et al. PyBot: an algorithm for web crawling
CN104636384B (zh) 一种处理文档的方法及装置
US9756064B2 (en) Apparatus and method for collecting harmful website information
Baker et al. Priority queue based estimation of importance of web pages for web crawlers
CN110969469A (zh) 数据的获取方法及装置
JP2019144823A (ja) 情報取得プログラム、情報取得方法及び情報取得装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination