CN115858902A - 一种页面爬虫规则更新方法、系统、介质及设备 - Google Patents

一种页面爬虫规则更新方法、系统、介质及设备 Download PDF

Info

Publication number
CN115858902A
CN115858902A CN202310157865.8A CN202310157865A CN115858902A CN 115858902 A CN115858902 A CN 115858902A CN 202310157865 A CN202310157865 A CN 202310157865A CN 115858902 A CN115858902 A CN 115858902A
Authority
CN
China
Prior art keywords
webpage
updating
time
update
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310157865.8A
Other languages
English (en)
Other versions
CN115858902B (zh
Inventor
曹骞
吴其林
程军
刘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaohu University
Original Assignee
Chaohu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaohu University filed Critical Chaohu University
Priority to CN202310157865.8A priority Critical patent/CN115858902B/zh
Publication of CN115858902A publication Critical patent/CN115858902A/zh
Application granted granted Critical
Publication of CN115858902B publication Critical patent/CN115858902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种页面爬虫规则更新方法、系统、介质及设备,方法包括:通过对爬取网页(URL)的状态分析,及爬取对应网页获取的网页内容进行分类,和前后两次的网页内容变化程度,结合网页在权威网站的排名信息及域名注册信息多维度计算网页更新时间;使活跃类网站,信息迭代快的网站进行快速更新,对于网页变化不大的网站,缺少有效信息的网站延长更新时间。本发明解决了资源分配不合理、爬虫爬取效率低、异常网页处理困难以及爬虫操作准确性及稳定性较低的技术问题。

Description

一种页面爬虫规则更新方法、系统、介质及设备
技术领域
本发明涉及爬虫技术领域,具体涉及一种页面爬虫规则更新方法、系统、介质及设备。
背景技术
随着互联网的快速发展以及个人计算机的普及,如何快速、准确的从海量的信息库中检索到自己需要的信息,是广大网民面临的重要问题,搜索引擎随之成为人们广泛使用的信息检索工具。随着搜索引擎对网页收录数量的增加,保证网页的实时内容有效性至关重要。这对于搜索引擎使用采集网页的网络爬虫提出了更高的要求。现有技术中的爬取规则需要人工频繁地维护,投入的人力成本较大但效率却低。同时,人工维护操作无法保证爬虫效果的准确性和稳定性。针对前述问题,现有技术中存在针对页面爬虫规则的自动更新技术的方案。公布号为CN109783728A的现有发明专利文献《页面爬虫规则更新方法及系统》方法主要包括:利用初始爬虫规则爬取页面的内容实体;根据实体样本与所述内容实体之间的一致关系,判定是否需要进行规则更新;若是,则根据所述实体样本以及所述内容实体发生变化的页面信息,更新所述初始爬虫规则。前述现有方案的具体实现原理包括:利用初始爬虫规则爬取页面的内容实体;实时监测内容实体与实体样本是否一致;判断爬取到的内容实体与实体样本二者是否一致,可以从不同维度,例如内容实体所在位置或者内容实体的字符本身等维度进行一一匹配。例如可以是将首次之后的每一次根据初始爬虫规则爬取到的内容实体,与首次前述实体样本进行一个维度或多个维度的匹配,以此确定二者是否一致;当监测到出现二者不一致的页面的数量超过预设阈值时,则判定需要进行规则更新;若确定需要进行规则更新,则根据实体样本以及内容实体发生变化的页面信息,更新初始爬虫规则。由该现有技术方案的具体实现内容可知,该方案仅根据内容实体进行判断,其方式过于单一,且至少要获取两次网页内容才能设置不同的规则更新,不够及时,对于更新频率不同的网页缺乏针对性。
公布号为CN104376063A的现有发明专利文献《基于分类管理的多线程网络爬虫方法和信息实时更新系统》该系统包括页面获取模块,页面处理模块,模块化机制模块,多线程循环模块,标记队列管理模块,存储模块。系统采用多线程网络爬虫并加以改进,引入标记思想,对已经爬取结束的线程使用队列方式进行标记,解决一般多线程方法中循环爬虫时产生的相互干扰的问题。该现有技术采用多线程网络,根据标记队列中的信息进行网页信息的实时更新,但该现有技术虽然采用多线程信息采集,但该现有方案应用该特征偏重于解决对象采集程序调用过程之间的干扰,但无法保证不同特征网页的页面有效性,爬虫资源爬取效率较低。同时,前述现有技术方案的具体实施方案无法在出现异常网页时,对异常页面进行处理,易造成系统资源的浪费,爬虫爬取广度受制约,且无法排除外部干扰。
综上,现有技术存在资源分配不合理、爬虫爬取效率低、异常网页处理困难以及爬虫操作准确性及稳定性较低的技术问题。
发明内容
本发明所要解决的技术问题在于如何解决现有技术中资源分配不合理、爬虫爬取效率低、异常网页处理困难以及爬虫操作准确性及稳定性较低的技术问题。
本发明是采用以下技术方案解决上述技术问题的:一种页面爬虫规则更新方法包括:
S1、利用初始爬虫规则获取爬取网页,根据爬取网页的URL,分析爬取网页的状态;
S2、爬取更新操作对应网页的网页内容,据以分类更新操作对应网页,以得到活跃类网站和非活跃类网站,并处理得到不少于两次爬取操作的网页内容变化程度;
S3、获取更新操作对应网页的权威网站排名信息及域名注册信息,并结合爬取网页的状态以及网页内容变化程度,利用预置更新时间处理逻辑,多维度计算得到更新操作对应网页的更新时间;
S4、根据更新时间设置网页更新速度,以对活跃类网站进行更新,并延长非活跃类网站的更新时间。
本发明使用网页类别及网页变化度作为参考,结合网页在权威网页排名的收录情况,以及域名注册信息等来计算网页更新时间,即针对不同特征类别的网页,采取不同的网页更新时间,以有效利用爬虫资源。
本发明使活跃类网站、信息迭代快的网站进行快速更新,对于网页变化不大的网站,缺少有效信息的网站延长更新时间。以提高爬虫爬取效率,合理利用爬虫资源,并保证网页的实时有效性。本发明对于通用网络爬虫根据收录的网页的不同特征信息,设置合理的网页更新时间,以合理分配资源,保证不同特征网页的页面有效性,提升爬虫的爬取效率。
在更具体的技术方案中,步骤S2中,利用下述逻辑分类处理更新操作对应网页:
Figure SMS_1
式中,is_sensitive_catgory表示网站的更新频次类别,is_sameMD5表示网页内容变化数据。
通过部署分布式网络爬虫对网页爬取,本发明提供的网页更新时间策略可对网页进行有效区分,对不同特征的网页进行不同频率的爬取。随着收录网页数量的不断增加,本方法的优势愈加明显,可有效利用集群资源,提高网页的更新效率。
在更具体的技术方案中,步骤S3中,采用预置更新时间处理逻辑,多维度计算更新操作对应网页的更新时间:
Figure SMS_2
Figure SMS_3
Figure SMS_4
式中,update_time(url)为对应url的更新时间,last_update_time表示该网页上次设置的网页更新时间,last_result(url)表示爬取状态计算结果,isValid(url)为有效信息赋值数据,top_rank(url)表示权威机构排名数据。
在更具体的技术方案中,利用下述逻辑计算爬取状态计算结果:
Figure SMS_5
式中,success(url)表示爬取成功数据,exception(url)表示爬取异常数据。
在更具体的技术方案中,利用下述逻辑,处理得到爬取成功数据:
Figure SMS_6
式中,α为爬虫更新调整参数。
在更具体的技术方案中,利用下述逻辑,处理得到爬取异常数据:
Figure SMS_7
式中,exception表示访问异常状态,gone表示失效状态。
本发明提出对爬取过程中异常网页的处理方式,增加爬虫收录url数量的同时,可避免浪费系统资源,有效应对外部环境干扰(如网络问题),增强爬虫爬取广度。因为失效的url可能在一段时间后,被其他人所使用,或重新建设展示新的内容。本发明通过设置gone状态参数,即等待爬取一般网站更长的时间,去更新gone网页。以达到节约资源的目的。
在更具体的技术方案中,利用下述逻辑处理得到权威机构排名数据:
Figure SMS_8
式中,参数i表示常量,A表示排名中所有url的集合,x表示单条url在该排名中的排序值。
在更具体的技术方案中,利用下述逻辑处理得到有效信息赋值数据:
Figure SMS_9
式中,trueurl在有效期内的设置,falseurl访问不成功的对应设置。
在更具体的技术方案中,步骤S4包括:
S41、根据预置网页更新标准,设置通用更新时间general_time
S42、在每次新收录到爬虫列表的url时,设置更新操作对应网页的更新时间为0,以进行即刻更新;
S43、根据url的数量及通用更新时间general_time,设置单条url最小更新时间min_time及最大更新时间max_time
S44、获取分配业务设置信息,据以设置最小更新时间min_time,据以控制活跃类网站的网页爬取资源。
本发明中,当网页为高频更新类别且前后两次网页内容变更时,更新时间会相对缩短。相邻两次爬取同一网页,页面无变化。且所属类别为低频更新类型,延长其网页更新时间。
本发明利用最小更新时间限制一条活跃类网页经常被爬取,而过多的占用资源。单条url最小/最大更新时间根据业务进行设置,以达到合理分配资源的效果。
在更具体的技术方案中,一种页面爬虫规则更新系统包括:
网页爬取状态分析模块,用以利用初始爬虫规则获取爬取网页,根据爬取网页的URL,分析爬取网页的状态;
网页分类模块,用以爬取更新操作对应网页的网页内容,据以分类更新操作对应网页,以得到活跃类网站和非活跃类网站,并处理得到不少于两次爬取操作的网页内容变化程度;
网页更新时间模块,用以获取更新操作对应网页的权威网站排名信息及域名注册信息,并结合爬取网页的状态以及网页内容变化程度,利用预置更新时间处理逻辑,多维度计算得到更新操作对应网页的更新时间,网页更新时间模块与网页爬取状态分析模块及网页分类模块连接;
更新资源分配模块,用以根据更新时间设置网页更新速度,以对活跃类网站进行更新,并延长非活跃类网站的更新时间,更新资源分配模块与网页更新时间模块连接。
本发明相比现有技术具有以下优点:本发明使用网页类别及网页变化度作为参考,结合网页在权威网页排名的收录情况,以及域名注册信息等来计算网页更新时间,即针对不同特征类别的网页,采取不同的网页更新时间,以有效利用爬虫资源。
本发明使活跃类网站、信息迭代快的网站进行快速更新,对于网页变化不大的网站,缺少有效信息的网站延长更新时间。以提高爬虫爬取效率,合理利用爬虫资源,并保证网页的实时有效性。本发明对于通用网络爬虫根据收录的网页的不同特征,设置合理的网页更新时间,以合理分配资源,保证不同特征网页的页面有效性,提升爬虫的爬取效率。
通过部署分布式网络爬虫对网页爬取,本发明提供的网页更新时间策略可对网页进行有效区分,对不同特征的网页进行不同频率的爬取。随着收录网页数量的不断增加,本方法的优势愈加明显,可有效利用集群资源,提高网页的更新效率。
本发明提出对爬取过程中异常网页的处理方式,增加爬虫收录url数量的同时,可避免浪费系统资源,有效应对外部环境干扰(如网络问题),增强爬虫爬取广度。因为失效的url可能在一段时间后,被其他人所使用,或重新建设展示新的内容。本发明通过设置gone状态参数,即等待爬取一般网站更长的时间,去更新gone网页,以达到节约资源的目的。
本发明中,当网页为高频更新类别且前后两次网页内容变更时,更新时间会相对缩短。相邻两次爬取同一网页,页面无变化。且所属类别为低频更新类型,延长其网页更新时间。
本发明利用最小更新时间限制一条活跃类网页经常被爬取,而过多的占用资源。单条url最小/最大更新时间根据业务进行设置,以达到合理分配资源的效果。
本发明解决了现有技术中存在的资源分配不合理、爬虫爬取效率低、异常网页处理困难以及爬虫操作准确性及稳定性较低的技术问题。
附图说明
图1为本发明实施例1的一种页面爬虫规则更新方法基本流程示意图;
图2为本发明实施例2的一种页面爬虫规则更新方法的具体实施流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供的一种页面爬虫规则更新方法,包括以下基本步骤:
S1、分析爬取网页(URL)的状态;
S2、爬取对应网页获取的网页内容进行分类;
S3、获取前后两次的网页内容变化程度,结合网页在权威网站的排名信息及域名注册信息多维度计算网页更新时间;
S4、使活跃类网站,信息迭代快的网站进行快速更新,对于网页变化不大的网站,缺少有效信息的网站延长更新时间。
具体实施的爬虫网页更新时间计算如公式所示。
在本实施例中,利用下述公式(1)计算对应url的更新时间:
Figure SMS_10
Figure SMS_11
(1)
Figure SMS_12
其中,update_time(url)为对应url的更新时间。last_update_time表示该网页上次设置的网页更新时间,若第一次使用last_update_time,则设置为通用更新时间general_timelast_result(url)根据url的爬取状态进行计算;top_rank(url)为参考该网页在权威机构的排名计算该部分分值,在本实施例中,top_rank(url)的取值范围包括但不限于:[0.5,1]。isValid(url)根据域名注册信息能否查询到该url的有效信息进行赋值,在本实施例中,isValid(url)取值包括:1或2。其中last_result(url)的计算如公式(2)。
在本实施例中,利用下述公式(2)计算url最新处理结果last_result(url)
Figure SMS_13
(2)
在本实施例中:
last_result(url)根据url的爬取状态分两种情况进行计算网页更新时间。即爬取成功success(url)、爬取异常exception(url)两大类。特殊说明:当爬取网页为永久重定向状态的,因其网页内容的特殊性,适用于爬取异常的状态计算。其中爬取成功的计算公式如公式(3)所示。
在本实施例中,利用下述公式(3)计算爬取成功信息success(url)
Figure SMS_14
(3)
在本实施例中,爬取成功的网页计算网页更新时间如上述公式所示,其中,根据网页的状态,按照α设置的时间去调整,逐渐减小或增大网页更新时间。α取值范围为0.1-0.5,根据爬虫更新的网页数量,及周期进行调整。isActive(url)为判断该网页是否属于活跃类型网页,即是否要经常更新该网页内容。计算方式如公式(4)所示。
在本实施例中,利用下述公式(4)判断当前网页是否属于活跃类型网页:
Figure SMS_15
(4)
在本实施例中,在爬虫爬取网页后,使用分类算法对网页进行分类。根据对网页更新时间的计算,进一步归纳为两类:高频更新类:即网页内容具有较高时效性的分类集合。在本实施例中,高频更新类包括但不限于:新闻类别、门户网站及博客论坛;低频更新类:即在一定周期内更新较少的网站,低频更新类包括但不限于:传统行业官网、web邮箱及网络存储类别网站。其中,is_sensitive_catgory获取网站的更新频次类别;网站属于高频更新类,则赋值为-1,若网站属于低频更新类,则赋值为0。
在本实施例中,is_sameMD5通过对比本次与上一次获取网页的MD5值,来判断网页内容是否变化。通用的爬虫程序多根据对比MD5来区分网页的一致性。方式较为单一,且需要两次更新网页内容,才能生效。本发明采用的公式(4)根据更新频次类别以及网页内容变化数据来计算最终的网页更新时间。当MD5值变化时,取值为0,未变化则取值为1。当第一次计算时,is_sameMD5=0。此处为对现有技术点的优化,当网页第一次被爬取时,减少高频更新类别的网页更新时间。
在本实施例中,即当网页为高频更新类类别且前后两次网页内容变更时,返回-1,为活跃类别网页,更新时间会相对缩短。相邻两次爬取同一网页,页面无变化,且所属类别为低频更新类类型,则返回1,延长其网页更新时间。
在本实施例中,利用下述公式(5)计算爬取异常信息exception(url)
Figure SMS_16
(5)
在本实施例中,对于本次爬取异常的网页,根据异常的不同原因设置网页更新时间。具体分两种情况:访问异常状态exception与失效状态gone。对应设置常量调节参数取值范围如公式(5)所示,说明如下:
在本实施例中,因本次访问存在网络错误,客户端或服务器异常等原因导致的失败。类别设置为异常状态exception。对应取值设置为常量β,在本实施例中,常量β取值范围包括但不限于:[0,1]。exception状态的网站存在临时原因造成爬取异常,而不能判断网站是否有效,应在短时间内进行重新访问,以排除因网络,站点维护等原因照成的失败问题,而错失对网站的收录。exception状态的重试时间应小于正常网页的更新时间,在本实施例中,重试时间设置为例如:0.5。
在本实施例中,在访问异常状态多次后,网页仍不能成功获取的。应设置为失效状态gone。对应常量取值为大于1的整数。此类型网站在短时间内不需要被爬虫爬取,但不排除在一段时间后,网站内容进行更新。对于想要收录更多网站的爬虫来说,这些失效状态的网站,应该设置在等待较长时间后,在进行更新爬取。因为失效的url可能在一段时间后,被其他人所使用,或重新建设展示新的内容。在本实施例中,设置gone状态参数为2。即等待爬取一般网站2倍的时间,去更新gone网页。以达到节约资源的目的。
在本实施例中,当服务器返回网页状态为失效时,也设置为失效状态gone
在本实施例中,在使用分类算法后,分类类别为“失效网页”的网站,适用于gone状态。该类网站特征为:网页无实质性内容,网站正在建设中或域名到期/出售。网页并不能提供有效信息。
在本实施例中,关于重定向网页的处理。当一个网站处于永久重定向状态,意味着网页内容不会改变。此时多次爬取该网站是没有意义的,此时将网站设置为gone状态。
在本实施例中,利用下述公式(6)计算top_rank(url)
Figure SMS_17
(6)
在本实施例中,top_rank(url)为参考该网页在权威机构的排名计算该部分分值,可采用例如ALEXA排名或者Cisco umbrella排名或者Majestic排名。top_rank(url)的取值范围包括但不限于:0.5-1。参数i为常量,根据所取排名中的网页数量的开方值,向上取整计算得出,例如使用的排名收录120条url,则i=11A为排名中所有url的集合。x为单条url在该排名中的排序值。若该条url未收录到使用的排名中,则top_rank(url)=1
根据公式计算,可将排名值进行归一化处理。按照排名适度减少对应url的更新时间,以增加其更新频率。
在本实施例中,利用下述公式(7),根据查询url的有效注册信息来判断url是否有效:
Figure SMS_18
(7)
isValid(url)是根据查询url的有效注册信息来判断url是否有效,来修改网页的更新时间。在本实施例中,采用查询whois信息计算url状态进行赋值。根据whois查询的结果,获取url对应的到期时间。通过比对当前时间与到期时间的大小,判断该条url是否过期。如url过期,则url可能访问不成功。对应设置为false,返回2。若url在有效期内,则设置为true。返回1。此公式根据对url有效信息的计算来延长过期网页的更新时间。
时间设置说明:
在本实施例中,设置通用更新时间general_time。通用更新时间general_time是不区分网页特征时设置的网页更新时间。按照一般网页更新标准,每隔固定一段时间进行网页更新,该时间即为通用更新时间general_time。在本实施例中,的其他特征网站的网页计算均基于general_time
在本实施例中,每次新收录到爬虫列表的url,网页更新时间均设置为0,即即刻更新
Figure SMS_19
的变化范围,设置general_time的同时,还需设置单条url最小/最大更新时间(min_time/max_time)。最大更新时间应根据爬虫收录的url数量,按照general_time的间隔,完成一次全量更新的时间进行赋值。即在一个更新周期中,保证设置了最大更新时间的url,被更新一次。其他特征网页可被更新一到多次。最小更新时间,是为了限制一条活跃类网页经常被爬取,而过多的占用资源。单条url最小/最大更新时间根据业务进行设置。以达到合理分配资源的效果。
实施例2
在本实施例中,基于网络爬虫的使用,阐述针对不同爬取状态及网页内容,知名程度,备案信息等特征进行设置网页更新时间。可有效提高变化快网页的实时性,提高大规模爬虫的性能。
如图2所示,在本实施例中,一种页面爬虫规则更新方法的具体实施流程包括:
S1’、启动分布式通用网络爬虫,爬取网页;
S2’、应用网络更新频率方案,并配置相关参数的值;
在本实施例中:
base_time=60day
α=0.2,min_time=30day,max_time=180day
其中,根据爬取失败网页的状态β=0.52
S3’、程序运行过程中,根据爬取成功状态,对网页内容计算MD5并比对,对爬取成功的网页内容进行分类,并查询对应urlAlexa表中排名名次及whois信息来计算该网页的最新更新时间。对爬取异常网页,分析其异常原因,并计算该网页的最新更新时间;
S4’、获取网页更新处理结果:经过较多轮次的网页爬取后。分布式通用网络爬虫库中的url逐渐形成对不同特征的网页的不同更新时间。在每一个最大更新周期180天内,按照网页变化的特征,爬取失败的具体原因,实现1-6次的不同爬取频率。
实现了多更新重点网页和经常更新内容的网页,减少内容基本不变的网页的更新。能有效的区分不同更新频率网页的爬取次数。达到了网页爬取与资源利用的合理调配,完成了本发明的目的。
综上,本发明使用网页类别及网页变化度作为参考,结合网页在权威网页排名的收录情况,以及域名注册信息等来计算网页更新时间,即针对不同特征类别的网页,采取不同的网页更新时间,以有效利用爬虫资源。
本发明使活跃类网站、信息迭代快的网站进行快速更新,对于网页变化不大的网站,缺少有效信息的网站延长更新时间。以提高爬虫爬取效率,合理利用爬虫资源,并保证网页的实时有效性。本发明对于通用网络爬虫根据收录的网页的不同特征,设置合理的网页更新时间,以合理分配资源,保证不同特征网页的页面有效性,提升爬虫的爬取效率。
通过部署分布式网络爬虫对网页爬取,本发明提供的网页更新时间策略可对网页进行有效区分,对不同特征的网页进行不同频率的爬取。随着收录网页数量的不断增加,本方法的优势愈加明显,可有效利用集群资源,提高网页的更新效率。
本发明提出对爬取过程中异常网页的处理方式,增加爬虫收录url数量的同时,可避免浪费系统资源,有效应对外部环境干扰(如网络问题),增强爬虫爬取广度。因为失效的url可能在一段时间后,被其他人所使用,或重新建设展示新的内容。本发明通过设置gone状态参数,即等待爬取一般网站更长的时间,去更新gone网页,以达到节约资源的目的。
本发明中,当网页为高频更新类别且前后两次网页内容变更时,更新时间会相对缩短。相邻两次爬取同一网页,页面无变化。且所属类别为低频更新类型,延长其网页更新时间。
本发明利用最小更新时间限制一条活跃类网页经常被爬取,而过多的占用资源。单条url最小/最大更新时间根据业务进行设置,以达到合理分配资源的效果。
本发明解决了现有技术中存在的资源分配不合理、爬虫爬取效率低、异常网页处理困难以及爬虫操作准确性及稳定性较低的技术问题。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种页面爬虫规则更新方法,其特征在于,所述方法包括:
S1、利用初始爬虫规则获取爬取网页,根据爬取网页的URL,分析所述爬取网页的状态;
S2、爬取更新操作对应网页的网页内容,据以分类所述更新操作对应网页,以得到活跃类网站和非活跃类网站,并处理得到不少于两次爬取操作的网页内容变化程度;
S3、获取所述更新操作对应网页的权威网站排名信息及域名注册信息,并结合所述爬取网页的状态以及所述网页内容变化程度,利用预置更新时间处理逻辑,多维度计算得到所述更新操作对应网页的更新时间;
S4、根据所述更新时间设置网页更新速度,以对所述活跃类网站进行更新,并延长所述非活跃类网站的所述更新时间。
2.根据权利要求1所述的一种页面爬虫规则更新方法,其特征在于,所述S2、爬取更新操作对应网页的网页内容,据以分类所述更新操作对应网页,以得到活跃类网站和非活跃类网站,并处理得到不少于两次爬取操作的网页内容变化程度,利用下述逻辑分类处理所述更新操作对应网页:
Figure QLYQS_1
式中,is_sensitive_catgory表示网站的更新频次类别,is_sameMD5表示网页内容变化数据,isActive(url)为判断该网页是否属于活跃类型网页。
3.根据权利要求1所述的一种页面爬虫规则更新方法,其特征在于,所述S3、获取所述更新操作对应网页的权威网站排名信息及域名注册信息,并结合所述爬取网页的状态以及所述网页内容变化程度,利用预置更新时间处理逻辑,多维度计算得到所述更新操作对应网页的更新时间,采用所述预置更新时间处理逻辑,多维度计算所述更新操作对应网页的更新时间:
Figure QLYQS_2
Figure QLYQS_3
Figure QLYQS_4
式中,last_result(url)为表示爬取状态计算结果,update_time(url)为对应url的更新时间,last_update_time表示该网页上次设置的网页更新时间,isValid(url)为有效信息赋值数据,top_rank(url)表示权威机构排名数据。
4.根据权利要求3所述的一种页面爬虫规则更新方法,其特征在于,利用下述逻辑计算所述爬取状态计算结果:
Figure QLYQS_5
式中,success(url)表示爬取成功数据,exception(url)表示爬取异常数据。
5.根据权利要求4所述的一种页面爬虫规则更新方法,其特征在于,利用下述逻辑,处理得到所述爬取成功数据:
Figure QLYQS_6
式中,
Figure QLYQS_7
为爬虫更新调整参数。
6.根据权利要求4所述的一种页面爬虫规则更新方法,其特征在于,利用下述逻辑,处理得到所述爬取异常数据:
Figure QLYQS_8
式中,β为状态对应取值常量,exception表示访问异常状态,gone表示失效状态。
7.根据权利要求3所述的一种页面爬虫规则更新方法,其特征在于,利用下述逻辑处理得到所述权威机构排名数据:
Figure QLYQS_9
式中,参数i表示常量,A表示排名中所有url的集合,x表示单条url在该排名中的排序值。
8.根据权利要求3所述的一种页面爬虫规则更新方法,其特征在于,利用下述逻辑处理得到所述有效信息赋值数据:
Figure QLYQS_10
式中,trueurl在有效期内的设置,falseurl访问不成功的对应设置。
9.根据权利要求1所述的一种页面爬虫规则更新方法,其特征在于,所述S4、根据所述更新时间设置网页更新速度,以对所述活跃类网站进行更新,并延长所述非活跃类网站的所述更新时间,包括:
S41、根据预置网页更新标准,设置通用更新时间general_time;
S42、在每次新收录到爬虫列表的url时,设置所述更新操作对应网页的更新时间为0,以进行即刻更新;
S43、根据所述url的数量及所述通用更新时间general_time,设置单条url最小更新时间min_time及最大更新时间max_time;
S44、获取分配业务设置信息,据以设置所述最小更新时间min_time,据以控制所述活跃类网站的网页爬取资源。
10.一种页面爬虫规则更新系统,其特征在于,所述系统包括:
网页爬取状态分析模块,用以利用初始爬虫规则获取爬取网页,根据爬取网页的URL,分析所述爬取网页的状态;
网页分类模块,用以爬取更新操作对应网页的网页内容,据以分类所述更新操作对应网页,以得到活跃类网站和非活跃类网站,并处理得到不少于两次爬取操作的网页内容变化程度;
网页更新时间模块,用以获取所述更新操作对应网页的权威网站排名信息及域名注册信息,并结合所述爬取网页的状态以及所述网页内容变化程度,利用预置更新时间处理逻辑,多维度计算得到所述更新操作对应网页的更新时间,所述网页更新时间模块与所述网页爬取状态分析模块及所述网页分类模块连接;
更新资源分配模块,用以根据所述更新时间设置网页更新速度,以对所述活跃类网站进行更新,并延长所述非活跃类网站的所述更新时间,所述更新资源分配模块与所述网页更新时间模块连接。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有不少于2条指令,所述指令适于由处理器加载并执行如权利要求1~9任意一项所述的一种页面爬虫规则更新方法。
12.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~9任意一项所述的一种页面爬虫规则更新方法。
CN202310157865.8A 2023-02-23 2023-02-23 一种页面爬虫规则更新方法、系统、介质及设备 Active CN115858902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310157865.8A CN115858902B (zh) 2023-02-23 2023-02-23 一种页面爬虫规则更新方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310157865.8A CN115858902B (zh) 2023-02-23 2023-02-23 一种页面爬虫规则更新方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN115858902A true CN115858902A (zh) 2023-03-28
CN115858902B CN115858902B (zh) 2023-05-09

Family

ID=85658783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310157865.8A Active CN115858902B (zh) 2023-02-23 2023-02-23 一种页面爬虫规则更新方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN115858902B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119268A1 (en) * 2007-11-05 2009-05-07 Nagaraju Bandaru Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN105608134A (zh) * 2015-12-18 2016-05-25 盐城工学院 一种基于多线程的网络爬虫系统及其网页爬取方法
CN107071063A (zh) * 2017-06-05 2017-08-18 巢湖学院 一种基于微信的物联网家居设备控制方法
WO2017152550A1 (zh) * 2016-03-09 2017-09-14 乐视控股(北京)有限公司 一种网页抓取方法及装置
CN113868502A (zh) * 2021-09-29 2021-12-31 深信服科技股份有限公司 一种页面爬虫方法、装置、电子设备及可读存储介质
CN114297462A (zh) * 2021-12-13 2022-04-08 中国电子科技集团公司第二十八研究所 一种基于动态自适应的网站异步序列数据智能采集方法
CN115329170A (zh) * 2022-07-04 2022-11-11 北京百度网讯科技有限公司 网页抓取方法、装置、设备以及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119268A1 (en) * 2007-11-05 2009-05-07 Nagaraju Bandaru Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN103310026A (zh) * 2013-07-08 2013-09-18 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN105608134A (zh) * 2015-12-18 2016-05-25 盐城工学院 一种基于多线程的网络爬虫系统及其网页爬取方法
WO2017152550A1 (zh) * 2016-03-09 2017-09-14 乐视控股(北京)有限公司 一种网页抓取方法及装置
CN107071063A (zh) * 2017-06-05 2017-08-18 巢湖学院 一种基于微信的物联网家居设备控制方法
CN113868502A (zh) * 2021-09-29 2021-12-31 深信服科技股份有限公司 一种页面爬虫方法、装置、电子设备及可读存储介质
CN114297462A (zh) * 2021-12-13 2022-04-08 中国电子科技集团公司第二十八研究所 一种基于动态自适应的网站异步序列数据智能采集方法
CN115329170A (zh) * 2022-07-04 2022-11-11 北京百度网讯科技有限公司 网页抓取方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩瑞昕: "基于时效性的爬虫调度" *

Also Published As

Publication number Publication date
CN115858902B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
US7398271B1 (en) Using network traffic logs for search enhancement
CN1279475C (zh) 用于在数据网络中搜索和分析信息的方法
US8001118B2 (en) Methods and apparatus for employing usage statistics in document retrieval
US9146956B2 (en) Statistical applications in OLTP environment
US7331038B1 (en) Predictive prefetching to improve parallelization of document generation subtasks
US6718365B1 (en) Method, system, and program for ordering search results using an importance weighting
Ramaswamy et al. Automatic fragment detection in dynamic web pages and its impact on caching
US20090049171A1 (en) System and computer-readable medium for controlling access in a distributed data processing system
US20060242133A1 (en) Systems and methods for collaborative searching
CN1906612A (zh) 用于记录通信网络中跨一个或多个搜索引擎的搜索轨迹的方法和系统
US8676782B2 (en) Information collection apparatus, search engine, information collection method, and program
JP5705114B2 (ja) 情報処理装置、情報処理方法、プログラムおよびウェブ・システム
Wills et al. Studying the impact of more complete server information on web caching
Sathiyamoorthi et al. Data Pre-Processing Techniques for Pre-Fetching and Caching of Web Data through Proxy Server
US9317432B2 (en) Methods and systems for consistently replicating data
US9973950B2 (en) Technique for data traffic analysis
CN115858902A (zh) 一种页面爬虫规则更新方法、系统、介质及设备
CN110677270B (zh) 一种域名的可缓存性分析方法及系统
Ansari et al. A comparative study of mining web usage patterns using variants of k-means clustering algorithm
Du et al. A web cache replacement strategy for safety-critical systems
CN111460307B (zh) 一种移动终端精确搜索方法和装置
Jianhai et al. A Web Cache Replacement Strategy for Safety-Critical Systems.
Godoy et al. Exploiting user interests to characterize navigational patterns in web browsing assistance
Mali et al. Freshness tuning in focused crawler
Amudhan et al. Traffic Adaptive Optimum Updating Scheme for Search Engines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant