CN113343141A - 一种网页获取方法及装置 - Google Patents

一种网页获取方法及装置 Download PDF

Info

Publication number
CN113343141A
CN113343141A CN202110517593.9A CN202110517593A CN113343141A CN 113343141 A CN113343141 A CN 113343141A CN 202110517593 A CN202110517593 A CN 202110517593A CN 113343141 A CN113343141 A CN 113343141A
Authority
CN
China
Prior art keywords
webpage
page
determining
target webpage
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110517593.9A
Other languages
English (en)
Inventor
朱茵茵
詹亮
崔晓燕
张俊浩
王炜
丁力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110517593.9A priority Critical patent/CN113343141A/zh
Publication of CN113343141A publication Critical patent/CN113343141A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本说明书公开了一种网页获取方法及装置,可先确定最近一次获取的各目标网页以及未获取的各其它网页。针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定该目标网页的更新参数,并根据该目标网页的至少一个更新参数,确定该目标网页在单位时间内的更新概率。之后,根据各网页最近一次确定出的更新概率以及页面评价指标,确定获取顺序,并按照该获取顺序,重新确定各目标网页,获取并存储各目标网页的页面信息。通过各网页页面信息的变化情况,确定各网页的更新概率,并基于各网页的更新概率确定各网页的获取顺序,提高了获取信息发生变更的网页的命中率,减少了资源浪费。

Description

一种网页获取方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种网页获取方法及装置。
背景技术
通常用户在业务平台中进行信息搜索时,业务平台可根据预先构建的信息索引文件,向用户返回信息搜索的相关内容。其中,信息索引文件是业务平台预先基于若干网页的页面信息构建的。
由于网页的页面信息随时可能发生变化,而业务平台无法获知页面的变化信息,导致信息索引更新不及时,用户体验较差。
因此在现有技术中,为了及时更新信息索引,各业务平台可周期性的重新获取网页的页面信息。具体的,在每个更新周期内,各业务平台可按照各网页的页面浏览量,对待获取的各网页进行排序,并根据排序结果,依次重新获取各网页的页面信息并更新信息索引。其中,更新周期可根据各业务平台的需要进行设置,如,设置为一个月。
但是,并非所有网页在更新周期内页面信息均会发生变化,重复获取未变化的网页会导致资源浪费。且由于一次完整的获取周期较长,导致部分发生信息变化的网页无法得到及时更新。
发明内容
本说明书实施例提供一种网页获取方法及装置,用于部分解决现有技术中的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种网页获取方法,包括:
从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页;
针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,所述更新参数用于表征网页内容是否发生变化;
根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率;
根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序;
根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。
可选地,根据最近两次获取到的该目标网页的页面信息,确定该目标网页的更新参数,具体包括:
根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征;
根据最近两次获取到的各页面信息对应的页面特征,确定该目标网页的更新参数。
可选地,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序,具体包括:
根据各目标网页的更新概率以及当前距离最近一次获取各目标网页的时间间隔,确定各目标网页的当前更新概率;
根据各其它网页最近一次确定出的更新概率以及当前距离最近一次获取各其它网页的时间间隔,确定各其它网页的当前更新概率;
根据各目标网页的当前更新概率以及页面评价指标、各其它网页的当前更新概率以及页面评价指标,确定待获取的各网页的获取顺序。
可选地,根据该目标网页历史上存储的至少一个更新参数,确定该目标网页的更新概率,具体包括:
针对该目标网页历史上存储的每个更新参数,根据该更新参数以及该更新参数对应的时间间隔,确定该目标网页在所述时间间隔内的更新概率表达式,其中,所述更新参数对应的时间间隔为用于确定更新参数的两次获取操作的时间差;
根据该目标网页的至少一个更新概率表达式,确定该目标网页更新的似然函数,并以最大化所述似然函数为目标,确定该目标网页的更新概率。
可选地,所述页面信息包含页面标题以及页面内容中的至少一种;
根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征,具体包括:
根据最近两次获取到的该目标网页的页面标题,确定各页面标题的哈希值;和/或
根据最近两次获取到的该目标网页的页面内容,确定各页面内容的内容特征;
根据最近两次获取到的各页面信息对应的页面特征,确定该目标网页的更新参数,具体包括:
根据各页面标题的哈希值以及各页面内容的内容特征中的至少一种,确定该目标网页的更新参数。
可选地,所述方法还包括:
根据该目标网页的更新参数,判断该目标网页是否发生变化;
若是,更新搜索引擎中的索引文件;
若否,不更新搜索引擎中的索引文件。
可选地,当获取并存储各目标网页的页面信息后,所述方法还包括:
继续确定最近一次获取的各目标网页以及未获取的各其它网页,以及确定并存储各目标网页的更新参数,根据各目标网页历史上存储的至少一个更新参数,确定各目标网页在单位时间内的更新概率,以根据各目标网页的更新概率以及页面评价指标、各其它网页的更新概率以及页面评价指标,重新确定待获取的各目标网页。
本说明书提供一种网页获取装置,包括:
第一确定模块,从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页;
第二确定模块,针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,所述更新参数用于表征网页内容是否发生变化;
第三确定模块,根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率;
第四确定模块,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序;
获取模块,根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。
本说明书提供的一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述网页获取方法。
本说明书提供的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述网页获取方法。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书中进行网页获取时,可先从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页。之后,针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,并根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率。然后,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序。最后,根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。通过各网页页面信息的变化情况,确定各网页的更新概率,并基于各网页的更新概率确定各网页的获取顺序,提高了获取信息发生变更的网页的命中率,减少了资源浪费。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种网页获取方法的流程示意图;
图2为本说明书实施例提供的一种历史获取该目标网页的时间轴示意图;
图3为本说明书实施例提供的一种迭代网页获取方法的流程示意图;
图4为本说明书实施例提供的一种网页获取装置的结构示意图;
图5为本说明书实施例提供的实现网页获取方法的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
目前,用户通过业务平台进行信息搜索时,业务平台可实时获取各网页的页面信息,并将与用户搜索相关的网页展示给用户。但随着互联网信息的发展,互联网中所包含的网页总量较大,使得实时获取网页的时间较长。其中,业务平台为具有信息搜索功能的平台,如,外卖平台,用户可通过外卖平台搜索商家以及菜品等信息,还可以是购物平台,用户可通过购物平台搜索店铺以及商品等信息。本说明书对业务平台所执行的具体功能不做限制。
为了缩短用户的搜索等待时长,各业务平台通常预先获取各网页的页面信息,并对获取到的各页面信息进行分析、过滤,建立信息索引,以当用户搜索信息时,业务平台可根据预先建立的信息索引,确定用户搜索的相关网页,并按照页面浏览量等指标对各相关网页进行排序后,向用户显示。
但由于网页的页面信息随时可能发生变化,如,内容删除或者发生内容更换,若业务平台中建立的信息索引未及时更新,仍按照之前内容向用户展示,则用户可能在该网页中未能获得搜索的相关内容,导致用户体验较差。
因此现有技术为了及时对信息索引进行更新,通常按照预设的更新周期,重新获取各网页的页面信息,以根据重新获取的各网页的页面信息,对信息索引进行更新。其中,由于网页数量较多,对各网页进行一次获取的周期较长,因此在进行网页获取时,通常按照各网页的页面浏览量等页面评价指标,对待获取的各页面进行排序,以按照排序结果依次进行获取。
但由于并非所有的网页均进行了信息更新,按照更新周期重复获取未变化的网页则会导致资源浪费。且由于一次完整的获取周期的时间较长,重复对未变化的网页进行获取,也会使得真正发生变化的网页没能及时获取,导致信息索引更新延迟。
基于上述存在的问题,本说明书提供一种网页获取方法,一方面可以减少资源浪费,另一方面还可及时对发生变化的网页的页面信息进行更新。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本说明书实施例提供的一种网页获取方法的流程示意图,具体可包括以下步骤:
S100:从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页。
本说明书提供的网页获取方法,在获取各网页的页面信息之前,可先确定待获取的各网页的更新概率,以便于优先获取较可能更新的网页。其中,各网页的更新概率可基于各网页历史获取的页面信息是否发生变化实时确定,也就是说,每获取一次网页,都需要根据本次获取的页面信息是否发生变化,重新确定该网页的更新概率。
于是,在本说明书中进行网页获取时,可先从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页,以根据最近一次获取的页面信息是否发生变化,确定各目标网页的更新概率。后续可基于各目标网页以及各其它网页的更新概率,确定各网页的获取顺序。
其中,该网页获取方法的执行主体可以是处理网页获取任务的服务器,该服务器可以是一个单独的服务器,也可以是多个服务器组成的服务器集群,如,分布式服务器系统等,可以为物理服务器设备,也可以是云服务器,本说明书对此不做限制,具体可根据需要设置。
S102:针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数。
在本说明书中,当通过上述步骤S100确定出最近一次获取的各目标网页后,便可基于各目标网页历史获取到的页面信息,确定各目标网页是否发生变化,以根据各目标网页的历史变化情况,通过后续步骤确定各目标网页的更新概率。
具体的,针对确定出的每个目标网页,该服务器可确定最近两次获取到的该目标网页的页面信息,根据最近两次获取到页面信息是否一致,确定该目标网页的更新参数并进行存储,以基于确定出的更新参数确定该目标网页的更新概率。
其中,更新参数用于表征网页内容是否发生变化。例如,当最近两次获取到的页面信息一致时,则该目标网页的内容未发生变化,可确定更新参数为0。当最近两次获取到的页面信息不一致时,则该目标网页的内容发生了变化,可确定更新参数为1。
进一步的,该服务器也可根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征。之后,根据最近两次获取到的各页面信息对应的页面特征,判断该目标网页是否发生变化,以确定该目标网页的更新参数。
更进一步的,在本说明书中,网页的页面信息包含网页的页面标题以及网页的页面内容中的至少一种。则在确定各页面信息对应的页面特征时,该服务器可根据最近两次获取到的该目标网页的页面标题,通过哈希算法确定各页面标题的哈希值。根据最近两次获取到的该目标网页的页面内容,通过自然语言处理算法(Natural LanguageProcessing,NLP),确定两次获取的各页面内容的内容特征。之后,根据各页面标题的哈希值以及各页面内容的内容特征中的至少一种,判断该目标网页的内容是否发生变化,以确定该目标网页的更新参数。
S104:根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率。
当通过步骤S102确定出该目标网页最新的更新参数后,便可基于该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率,进而确定待获取的各网页的获取顺序。
具体的,在本说明书中,假设该目标网页在单位时间内发生变化的概率为p,即,该目标网页在单位时间内的更新概率为p,该目标网页在单位时间内未发生变化的概率为q,其中p+q=1。以i表示每次获取该目标网页的次序,ti表示获取该目标网页的获取时间。在步骤S102中,当根据第i次获取的该目标网页的页面信息,以及第i-1次获取的该目标网页的页面信息,确定该目标网页的更新参数为0时,表示在(ti-1,ti)这一时间段内该目标网页未发生变化,则该目标网页在该时间段内的更新概率表达式为
Figure BDA0003062299840000081
其中,Δti=ti-ti-1,表示第i次与第i-1次获取该目标网页之间的时间差。
当根据第i次获取的该目标网页的页面信息,以及第i-1次获取的该目标网页的页面信息,确定该目标网页的更新参数为1时,表示在(ti-1,ti)这一时间段内该目标网页发生了变化,又由于该目标网页在该时间段内未发生变化的概率为
Figure BDA0003062299840000091
则该目标网页在该时间段内发生变化的概率为
Figure BDA0003062299840000092
也就是说,在该时间段内的更新概率表达式为
Figure BDA0003062299840000093
则针对该目标网页历史上存储的每个更新参数,该服务器可根据该更新参数以及该更新参数对应的时间间隔,确定该目标网页在该时间间隔内的更新概率表达式。其中,当该更新参数为0时,则该目标网页在该时间间隔内的更新概率表达式为qΔt。当该更新参数为1时,则该目标网页在该时间间隔内的更新概率表达式为1-qΔt。Δt表示在该更新参数对应的时间间隔,更新参数对应的时间间隔指的是用于确定该更新参数的两次获取操作的时间差。
之后,该服务器可根据该目标网页的至少一个更新概率表达式,确定该目标网页更新的似然函数。该似然函数表示在已知网页历史变化情况的前提下,该网页在当前时刻发生变化的概率。
以采用最近两次确定出的更新参数对应的更新概率表达式确定似然函数为例进行说明,图2为历史获取该目标网页的时间轴示意图,假设当前处于t4时刻,历史上分别在t1、t2、t3时刻对该目标网页进行获取,且目标网页在t1~t2时间段发生了变化,在t3~t4时间段内未发生变化,则可确定该目标网页在t1~t2时间段所对应的更新概率表达式为
Figure BDA0003062299840000094
其中Δt12表示t1~t2之间的时间间隔。可确定该目标网页在t3~t4时间段所对应的更新概率表达式为
Figure BDA0003062299840000095
其中Δt34表示t3~t4之间的时间间隔。则根据最近两次的更新概率表达式,可确定出似然函数为
Figure BDA0003062299840000096
当然,若采用历史上存储的n个更新参数对应的更新概率表达式,确定似然函数时,则可将n个时间段内分别对应的更新概率表达式相乘,得到似然函数。其中,n可根据需要设置。而且,为了保证网页更新概率的实时性,通常采用最近几次确定出的更新参数。
最后,当得到似然函数后,该服务器可以最大化该目标网页更新的似然函数为目标,求解得到该目标网页在单位时间内的更新概率,并进行存储。
S106:根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序。
在本说明书中,当根据最近一次获取结果,更新各目标网页的更新概率后,便可结合待获取的各网页在当前的更新概率以及页面评价指标,共同确定各网页的获取顺序。
具体的,针对每个目标网页,该服务器可根据该目标网页最近一次(在步骤S104中)确定出的单位时间内的更新概率,以及当前距离最近一次获取该目标网页的时间间隔,确定该目标网页的当前更新概率。其中,该当前更新概率用于表征该目标网页在当前时刻发生变化的概率,当前更新概率越大,表示该目标网页在当前时刻越可能发生变化。例如,假设最近一次确定出该目标网页在单位时间内的更新概率为1/2,且最近一次获取距离当前的时间间隔为3个单位时间长度,则该目标网页的当前更新概率为
Figure BDA0003062299840000101
针对最近一次未获取的每个其它网页,该服务器可根据该其它网页历史上最近一次确定出的单位时间内的更新概率,以及当前距离最近一次获取该其它网页的时间间隔,确定该其它网页的当前更新概率。其中,该当前更新概率用于表征该其它网页在当前时刻发生变化的概率,当前更新概率越大,表示该其它网页在当前时刻越可能发生变化。例如,假设最近一次确定出的该其它网页在单位时间内的更新概率为1/3,且最近一次获取该其它网页距离当前的时间间隔为5个单位时间长度,则该其它网页的当前更新概率为
Figure BDA0003062299840000102
需要说明的是,在本说明书中单位时间可以设置为1天、1个月等任意时间长度,本说明书对此不做限制,具体可根据需要设置。
然后,该服务器可根据各目标网页的当前更新概率以及页面评价指标,确定各目标网页的当前获取指数,并根据各其它网页的当前更新概率以及页面评价指标,确定各其它网页的当前获取指数。其中,页面评价指标包含页面浏览量以及页面访问人次中的至少一种,用于评判网页的重要程度。
示例性的,网页的当前获取指数可通过网页的当前更新概率以及页面评价指标相乘得到,以页面评价指标为页面浏览量为例,假设网页截止当前的页面浏览量为10000,确定出网页的当前更新概率为0.25,则可确定网页的当前获取指数为2500。
最后,根据各目标网页以及各其它网页的当前获取指数,确定各网页的获取顺序。
S108:根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。
在本说明书中,当综合各网页在当前时刻的当前更新概率以及页面评价指标,确定出各网页的获取顺序后,便可按照该获取顺序获取各网页的页面信息。
具体的,由于业务平台的线程资源有限,一次只能获取指定数量的网页,于是在本说明书中,该服务器可根据确定出的各网页的获取顺序,重新确定指定数量的网页作为待获取的目标网页。例如,将排序最前的指定数量的各网页作为目标网页。
之后,该服务器可根据各目标网页的统一资源定位符(uniform resourcelocations,URL),获取各目标网页的页面信息,并对获取到的页面信息进行存储。
当获取并存储各目标网页的页面信息后,该服务器便可继续重复执行上述步骤S100~步骤S108,确定最近一次获取的各目标网页以及未获取的各其它网页,以及确定并存储各目标网页的更新参数,根据各目标网页历史上存储的至少一个更新参数,确定各目标网页在单位时间内的更新概率,以根据各目标网页的更新概率以及页面评价指标、各其它网页的更新概率以及页面评价指标,重新确定待获取的各目标网页。
基于图1所示的网页获取方法,在进行网页获取时,可先从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页。之后,针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,并根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率。然后,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序。最后,根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。通过各网页页面信息的变化情况,确定各网页的更新概率,并基于各网页的更新概率确定各网页的获取顺序,提高了获取信息发生变更的网页的命中率,减少了资源浪费。
并且,综合各网页的更新概率以及页面评价指标确定的获取顺序,使得发生变化的网页可优先获取,进而可及时获取发生变化的网页的页面信息,以更新搜索引擎的索引文件。
由于本说明书提供的网页获取方法,用于重复获取各网页的页面信息,以更新各业务平台的搜索引擎中的索引文件。因此在本说明书步骤S102中,每次确定出该目标网页的更新参数后,该服务器可根据该目标网页的更新参数,判断该目标网页是否发生变化。并当确定该目标网页发生变化时,根据最近一次获取该目标网页的页面信息,更新搜索引擎中的索引文件。当确定该目标网页未发生变化时,则不对搜索引擎中的索引文件进行更新。
在本说明书另一种实施例中,该服务器也可不根据更新参数进行更新,而当每次获取该目标网页的页面信息后,不再判断页面信息是否发生变化,直接根据最新获取的该目标网页的页面信息,对搜索引擎的索引文件进行更新。
另外,在本说明书步骤S102中,由于需要根据最近两次获取到的各网页的页面信息,确定各网页的更新参数,因此至少存储各网页最近两次获取到的页面信息。并且在本说明书步骤S106中,需要根据各网页历史上存储的至少一个更新参数确定更新概率,因此还需存储各网页历史上的至少一个更新参数。
在本说明书步骤S104中,基于最大似然函数解算得到的目标网页的更新概率可能为0,为了避免永远不对该网页重新获取,可为该网页设置一个初始值,作为该网页的更新概率,后续该网页的更新概率可随着时间的增长而不断收敛。
本说明书提供的网页获取方法,可用于无限迭代的网页获取过程中,并基于重新获取到的页面信息,对各业务平台的搜索引擎的索引文件进行更新,以当用户进行信息搜索时,可根据最新的索引文件,向用户返回相关内容。于是,在本说明书中,当执行完步骤S108后,便进入下一个迭代周期,可再重复执行步骤S100~步骤S108,进行无限的迭代循环,如图3所示。
以一个详细的实施例对本说明书提供的网页获取方法进行说明:假设待获取的网页有60个,一次获取过程只能同步获取其中的10个网页,在最近一次网页获取的过程中,对确定出的10个目标网页进行了获取。则在当前的网页获取过程中,可先确定最近一次获取的10个目标网页,以及最近一次未获取的50个其它网页。之后,根据最近两次获取的各目标网页的页面信息,确定各目标网页的更新参数,并根据各目标网页历史上至少一个更新参数,确定各目标网页在单位时间内的更新概率。然后,根据待获取的60个网页最近一次确定出的更新概率以及页面评价指标,确定获取顺序。最后,按照该获取顺序,重新确定10个目标网页,并进行网页获取。
基于图1所示的网页获取方法,本说明书实施例还对应提供一种网页获取装置的结构示意图,如图4所示。
图4为本说明书实施例提供的一种网页获取装置的结构示意图,包括:
第一确定模块200,从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页;
第二确定模块202,针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,所述更新参数用于表征网页内容是否发生变化;
第三确定模块204,根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率;
第四确定模块206,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序;
获取模块208,根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。
可选地,所述第二确定模块202具体用于,根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征,根据最近两次获取到的各页面信息对应的页面特征,确定该目标网页的更新参数。
可选地,所述第四确定模块206具体用于,根据各目标网页的更新概率以及当前距离最近一次获取各目标网页的时间间隔,确定各目标网页的当前更新概率,根据各其它网页最近一次确定出的更新概率以及当前距离最近一次获取各其它网页的时间间隔,确定各其它网页的当前更新概率,根据各目标网页的当前更新概率以及页面评价指标、各其它网页的当前更新概率以及页面评价指标,确定待获取的各网页的获取顺序。
可选地,所述第三确定模块204具体用于,针对该目标网页历史上存储的每个更新参数,根据该更新参数以及该更新参数对应的时间间隔,确定该目标网页在所述时间间隔内的更新概率表达式,其中,所述更新参数对应的时间间隔为用于确定更新参数的两次获取操作的时间差,根据该目标网页的至少一个更新概率表达式,确定该目标网页更新的似然函数,并以最大化所述似然函数为目标,确定该目标网页的更新概率。
可选地,所述页面信息包含页面标题以及页面内容中的至少一种,所述第二确定模块202具体用于,根据最近两次获取到的该目标网页的页面标题,确定各页面标题的哈希值,和/或根据最近两次获取到的该目标网页的页面内容,确定各页面内容的内容特征,所述第二确定模块202具体用于,根据各页面标题的哈希值以及各页面内容的内容特征中的至少一种,确定该目标网页的更新参数。
可选地,所述第二确定模块202还用于,根据该目标网页的更新参数,判断该目标网页是否发生变化,若是,更新搜索引擎中的索引文件,若否,不更新搜索引擎中的索引文件。
可选地,所述获取模块208还用于,继续确定最近一次获取的各目标网页以及未获取的各其它网页,以及确定并存储各目标网页的更新参数,根据各目标网页历史上存储的至少一个更新参数,确定各目标网页在单位时间内的更新概率,以根据各目标网页的更新概率以及页面评价指标、各其它网页的更新概率以及页面评价指标,重新确定待获取的各目标网页。
本说明书实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的网页获取方法。
基于图1所示的网页获取方法,本说明书实施例还提出了图5所示的电子设备的示意结构图。如图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其它业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所示的网页获取方法。
当然,除了软件实现方式之外,本说明书并不排除其它实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带,磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种网页获取方法,其特征在于,包括:
从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页;
针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,所述更新参数用于表征网页内容是否发生变化;
根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率;
根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序;
根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。
2.如权利要求1所述的方法,其特征在于,根据最近两次获取到的该目标网页的页面信息,确定该目标网页的更新参数,具体包括:
根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征;
根据最近两次获取到的各页面信息对应的页面特征,确定该目标网页的更新参数。
3.如权利要求1所述的方法,其特征在于,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序,具体包括:
根据各目标网页的更新概率以及当前距离最近一次获取各目标网页的时间间隔,确定各目标网页的当前更新概率;
根据各其它网页最近一次确定出的更新概率以及当前距离最近一次获取各其它网页的时间间隔,确定各其它网页的当前更新概率;
根据各目标网页的当前更新概率以及页面评价指标、各其它网页的当前更新概率以及页面评价指标,确定待获取的各网页的获取顺序。
4.如权利要求1所述的方法,其特征在于,根据该目标网页历史上存储的至少一个更新参数,确定该目标网页的更新概率,具体包括:
针对该目标网页历史上存储的每个更新参数,根据该更新参数以及该更新参数对应的时间间隔,确定该目标网页在所述时间间隔内的更新概率表达式,其中,所述更新参数对应的时间间隔为用于确定更新参数的两次获取操作的时间差;
根据该目标网页的至少一个更新概率表达式,确定该目标网页更新的似然函数,并以最大化所述似然函数为目标,确定该目标网页的更新概率。
5.如权利要求2所述的方法,其特征在于,所述页面信息包含页面标题以及页面内容中的至少一种;
根据最近两次获取到的该目标网页的页面信息,分别确定各页面信息对应的页面特征,具体包括:
根据最近两次获取到的该目标网页的页面标题,确定各页面标题的哈希值;和/或
根据最近两次获取到的该目标网页的页面内容,确定各页面内容的内容特征;
根据最近两次获取到的各页面信息对应的页面特征,确定该目标网页的更新参数,具体包括:
根据各页面标题的哈希值以及各页面内容的内容特征中的至少一种,确定该目标网页的更新参数。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据该目标网页的更新参数,判断该目标网页是否发生变化;
若是,更新搜索引擎中的索引文件;
若否,不更新搜索引擎中的索引文件。
7.如权利要求1所述的方法,其特征在于,当获取并存储各目标网页的页面信息后,所述方法还包括:
继续确定最近一次获取的各目标网页以及未获取的各其它网页,以及确定并存储各目标网页的更新参数,根据各目标网页历史上存储的至少一个更新参数,确定各目标网页在单位时间内的更新概率,以根据各目标网页的更新概率以及页面评价指标、各其它网页的更新概率以及页面评价指标,重新确定待获取的各目标网页。
8.一种网页获取装置,其特征在于,包括:
第一确定模块,从待获取的各网页中,确定最近一次获取的各目标网页,以及未获取的各其它网页;
第二确定模块,针对每个目标网页,根据最近两次获取到的该目标网页的页面信息,确定并存储该目标网页的更新参数,所述更新参数用于表征网页内容是否发生变化;
第三确定模块,根据该目标网页历史上存储的至少一个更新参数,确定该目标网页在单位时间内的更新概率;
第四确定模块,根据各目标网页的更新概率以及页面评价指标、各其它网页最近一次确定出的更新概率以及页面评价指标,确定待获取的各网页的获取顺序;
获取模块,根据确定出的各网页的获取顺序,重新确定待获取的各目标网页,获取并存储各目标网页的页面信息。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法。
CN202110517593.9A 2021-05-12 2021-05-12 一种网页获取方法及装置 Pending CN113343141A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110517593.9A CN113343141A (zh) 2021-05-12 2021-05-12 一种网页获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110517593.9A CN113343141A (zh) 2021-05-12 2021-05-12 一种网页获取方法及装置

Publications (1)

Publication Number Publication Date
CN113343141A true CN113343141A (zh) 2021-09-03

Family

ID=77469235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110517593.9A Pending CN113343141A (zh) 2021-05-12 2021-05-12 一种网页获取方法及装置

Country Status (1)

Country Link
CN (1) CN113343141A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090935A (zh) * 2021-11-25 2022-02-25 马上消费金融股份有限公司 数据采集方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236674A (zh) * 2010-04-29 2011-11-09 腾讯科技(深圳)有限公司 一种索引页更新方法及装置
US20140379841A1 (en) * 2011-12-30 2014-12-25 Beijing Qihoo Technology Company Limited Web page content loading control method and device
CN108255896A (zh) * 2017-02-06 2018-07-06 广州市动景计算机科技有限公司 网页预读方法、网页访问方法、设备及电子设备
CN110020305A (zh) * 2017-11-29 2019-07-16 腾讯科技(武汉)有限公司 网页加载方法、装置、计算机设备和存储介质
CN110598149A (zh) * 2019-08-15 2019-12-20 平安普惠企业管理有限公司 网页访问方法、装置和存储介质
CN112307381A (zh) * 2020-10-14 2021-02-02 北京三快在线科技有限公司 一种页面加载的方法、装置、存储介质以及电子设备
CN112685666A (zh) * 2020-12-28 2021-04-20 北京三快在线科技有限公司 一种页面加载方法及装置、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236674A (zh) * 2010-04-29 2011-11-09 腾讯科技(深圳)有限公司 一种索引页更新方法及装置
US20140379841A1 (en) * 2011-12-30 2014-12-25 Beijing Qihoo Technology Company Limited Web page content loading control method and device
CN108255896A (zh) * 2017-02-06 2018-07-06 广州市动景计算机科技有限公司 网页预读方法、网页访问方法、设备及电子设备
CN110020305A (zh) * 2017-11-29 2019-07-16 腾讯科技(武汉)有限公司 网页加载方法、装置、计算机设备和存储介质
CN110598149A (zh) * 2019-08-15 2019-12-20 平安普惠企业管理有限公司 网页访问方法、装置和存储介质
CN112307381A (zh) * 2020-10-14 2021-02-02 北京三快在线科技有限公司 一种页面加载的方法、装置、存储介质以及电子设备
CN112685666A (zh) * 2020-12-28 2021-04-20 北京三快在线科技有限公司 一种页面加载方法及装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090935A (zh) * 2021-11-25 2022-02-25 马上消费金融股份有限公司 数据采集方法及装置

Similar Documents

Publication Publication Date Title
CN108848244B (zh) 一种分页显示的方法及装置
CN108171267B (zh) 用户群划分方法及装置、消息推送方法及装置
CN105824830B (zh) 一种显示页面的方法、客户端及设备
CN108415941A (zh) 一种网页爬虫方法、装置以及电子设备
CN113641896A (zh) 一种模型训练以及推荐概率预测方法及装置
CN110399359B (zh) 一种数据回溯方法、装置及设备
CN110263050B (zh) 数据处理方法、装置、设备及存储介质
CN117312394B (zh) 一种数据访问方法、装置、存储介质及电子设备
CN113344098A (zh) 一种模型训练方法及装置
CN116822657B (zh) 一种模型训练加速的方法、装置、存储介质及电子设备
CN111797312A (zh) 模型训练的方法及装置
CN107451204B (zh) 一种数据查询方法、装置及设备
CN110647685B (zh) 一种信息推荐方法、装置及设备
CN111191132A (zh) 一种信息推荐方法、装置及电子设备
CN113343141A (zh) 一种网页获取方法及装置
CN113343095A (zh) 一种模型训练以及信息推荐方法及装置
CN113641894A (zh) 一种信息推荐的方法及装置
CN116662657A (zh) 一种模型训练和信息推荐的方法、装置、存储介质及设备
CN111209277A (zh) 一种数据处理方法、装置、设备及介质
CN107562533B (zh) 一种数据加载处理方法及装置
CN114331602A (zh) 一种基于迁移学习的模型训练方法、信息推荐方法及装置
CN114676132A (zh) 一种数据表关联方法、装置、存储介质及电子设备
CN112685553A (zh) 一种在线文档查找替换的方法、装置、设备及介质
CN113343130B (zh) 一种模型训练的方法、信息展示的方法及装置
CN116644090B (zh) 一种数据查询方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210903

WD01 Invention patent application deemed withdrawn after publication