CN111767442A - 数据更新方法、装置、搜索服务器、终端及存储介质 - Google Patents

数据更新方法、装置、搜索服务器、终端及存储介质 Download PDF

Info

Publication number
CN111767442A
CN111767442A CN202010357679.5A CN202010357679A CN111767442A CN 111767442 A CN111767442 A CN 111767442A CN 202010357679 A CN202010357679 A CN 202010357679A CN 111767442 A CN111767442 A CN 111767442A
Authority
CN
China
Prior art keywords
webpage
abstract
stored
target
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010357679.5A
Other languages
English (en)
Other versions
CN111767442B (zh
Inventor
刘俊启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010357679.5A priority Critical patent/CN111767442B/zh
Publication of CN111767442A publication Critical patent/CN111767442A/zh
Priority to EP21748484.9A priority patent/EP3933619A4/en
Priority to PCT/CN2021/081142 priority patent/WO2021218468A1/zh
Priority to KR1020217023258A priority patent/KR102615979B1/ko
Priority to JP2021575391A priority patent/JP7322194B2/ja
Priority to US17/378,225 priority patent/US11803597B2/en
Application granted granted Critical
Publication of CN111767442B publication Critical patent/CN111767442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例提供的数据更新方法、装置、搜索服务器、终端及存储介质,搜索服务器向终端提供包括与搜索关键词关联的一个或多个网页的搜索结果网页,其中,所述搜索结果网页还包括搜索服务器预先每个网页的网页内容进行爬虫获得的预存网页摘要,然后终端对用户触发的目标网页进行爬虫以得到当前网页摘要,终端将对当前网页摘要和预存网页摘要进行一致性比对的比对信息发送至搜索服务器,最后由搜索服务器根据目标网页的比对信息对目标网页的预存网页摘要进行更新。与现有的定期对网页进行爬虫的方式相比,本申请的搜索服务器通过终端提供的比对信息对目标网页的重新爬虫以对目标网页的预存网页摘要进行更新,提高了爬虫效率。

Description

数据更新方法、装置、搜索服务器、终端及存储介质
技术领域
本申请涉及到数据处理技术领域,尤其涉及智能搜索技术。
背景技术
随着智能终端的普及,信息数据量呈现爆炸式增长,这对搜索服务器 的处理能力提出了更高的要求。
为了给用户提供更为全面的搜索结果,搜索服务器需要利用爬虫技术 对于各网页进行爬虫,在展示网页搜索结果时,搜索服务器同步展示网页 以及对网页内容爬虫得到的摘要信息。为了保证搜索结果的时效性,搜索 服务器一般采用定期爬虫的方式,即按照预设时间周期对全部网页进行爬 虫。
但是,由于网页数据量巨大,定期对全部网页进行爬虫的方式会使得 每次爬虫所需时间较长,爬虫效率不高。
发明内容
针对上述技术问题,本申请实施例提供一种数据更新方法、装置、搜 索服务器、终端及存储介质。
第一方面,本申请提供了一种数据更新方法,包括:
向终端提供搜索结果网页,其中,所述搜索结果网页包括与搜索关键 词关联的一个或多个网页,以及每个网页对应的预存网页摘要,所述预存 网页摘要是指预先对网页的网页内容进行爬虫获得的摘要信息;
接收终端发送的目标网页的比对信息,所述比对信息是所述终端对当 前网页摘要和所述预存网页摘要进行一致性比对获得的,所述当前网页摘 要是所述终端在浏览目标网页时对目标网页内容进行爬虫获得的;
根据目标网页的比对信息对目标网页的预存网页摘要进行更新。
第二方面,本申请提供了一种数据更新方法,包括:
接收并展示搜索服务器提供的搜索结果网页,其中,所述搜索结果网 页包括与用户触发的搜索关键词关联的一个或多个网页,以及每个网页对 应的预存网页摘要,所述预存网页摘要是搜索服务器预先对网页的网页内 容进行爬虫获得的摘要信息;
在所述搜索结果网页中确定目标网页,并对所述目标网页的网页内容 进行爬虫,获得当前网页摘要;
对所述当前网页摘要和所述预存网页摘要进行一致性比对,获得比对 信息,将所述比对信息发送至搜索服务器,以供所述搜索服务器根据所述 比对信息对所述预存网页摘要进行更新。
第三方面,本申请提供了一种数据更新装置,包括:
通信模块、爬虫模块以及更新模块;
其中,所述通信模块,用于向终端提供搜索结果网页,其中,所述搜 索结果网页包括与搜索关键词关联的一个或多个网页,以及每个网页对应 的预存网页摘要,所述预存网页摘要是预先利用爬虫模块预先对网页的网 页内容进行爬虫获得的摘要信息;
通信模块,还用于接收终端发送的目标网页的比对信息,所述比对信 息是所述终端对当前网页摘要和所述预存网页摘要进行一致性比对获得 的,所述当前网页摘要是所述终端在浏览目标网页时对目标网页内容进行 爬虫获得的;
更新模块,用于根据目标网页的比对信息对目标网页的预存网页摘要 进行更新。
第四方面,本申请提供了一种数据更新装置,包括:
收发模块以及比对模块;
其中,所述收发模块,用于接收并展示搜索服务器提供的搜索结果网 页,其中,所述搜索结果网页包括与用户触发的搜索关键词关联的一个或 多个网页,以及每个网页对应的预存网页摘要,所述预存网页摘要是搜索 服务器预先对网页的网页内容进行爬虫获得的摘要信息;
所述比对模块,用于在所述搜索结果网页中确定目标网页,并对所述 目标网页的网页内容进行爬虫,获得当前网页摘要;还用于对所述当前网 页摘要和所述预存网页摘要进行一致性比对,获得比对信息;
所述收发模块还用于将所述比对信息发送至搜索服务器,以供所述搜 索服务器根据所述比对信息对所述预存网页摘要进行更新。
第五方面,本申请提供了一种搜索服务器,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被 所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面任 一项所述的方法。
第六方面,本申请提供了一种终端,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被 所述至少一个处理器执行,以使所述至少一个处理器能够执行第二方面任 一项所述的方法。
第七方面,本申请提供了一种计算机可读存储介质,所述计算机可读 存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时, 实现第一方面任一项所述的方法。
第八方面,本申请提供了一种计算机可读存储介质,所述计算机可读 存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时, 实现第二方面中任一项所述的方法。
第九方面,本申请提供了一种计算机程序,包括程序代码,当计算机 运行所述计算机程序时,所述程序代码执行如第一方面或第二方面所述的 方法。
本申请实施例提供的数据更新方法、装置、搜索服务器、终端及存储 介质,搜索服务器向终端提供包括与搜索关键词关联的一个或多个网页的 搜索结果网页,其中,所述搜索结果网页还包括搜索服务器预先每个网页 的网页内容进行爬虫获得的预存网页摘要,然后终端对用户触发的目标网 页进行爬虫以得到当前网页摘要,终端将对当前网页摘要和预存网页摘要 进行一致性比对的比对信息发送至搜索服务器,最后由搜索服务器根据目 标网页的比对信息对目标网页的预存网页摘要进行更新。与现有的定期对 网页进行爬虫的方式相比,本申请能够使得搜索服务器通过终端提供的比 对信息快速确定需要重新爬虫的网页,以对需要重新爬虫的网页进行爬虫, 在有效降低了爬虫工作量以及每次爬虫所需要的时间的基础上,也避免对 大量没有更新的网页进行多次爬虫而造成的爬虫运算资源的浪费。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键 或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下 的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是可以实现本申请实施例的数据更新方法的场景图;
图2是本申请提供的一种数据更新方法的流程示意图;
图3是本申请提供的另一种数据更新方法的流程示意图;
图4是本申请提供的一种数据更新方法的界面示意图;
图5为本申请提供的一种数据更新装置的结构示意图;
图6为本申请提供的另一种数据更新装置的结构示意图;
图7是用来实现本申请实施例的数据更新方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实 施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本 领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和 修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的 描述中省略了对公知功能和结构的描述。
为了清楚理解本申请的技术方案,首先对现有技术的方案进行详细介 绍。
随着智能终端的普及,信息数据量呈现爆炸式增长,这对搜索服务器 的处理能力提出了更高的要求。
现有技术中,为了给用户提供更为全面的搜索结果,搜索服务器需要 利用爬虫技术对于各网页进行爬虫,以得到各网页的网页内容以及网页内 容相应的摘要信息。而当用户输入搜索关键词对信息进行搜索时,搜索服 务器将从爬虫得到的网页内容中,找到与该关键词关联的若干网页,并在 搜索结果页面中展示该若干网页对应的摘要信息,以供用户触发选取查看。 但是,由于网页更新,这样的方式容易出现用户在搜索结果页面看到的网页摘要信息与该网页实际的网页内容不一致的问题,基于该问题,现有技 术采用了按照预设时间周期对网页进行爬虫的方式,以保证搜索结果的时 效性。
但是,这样的爬虫方式效率不高,一方面,网页的数据量巨大,按照 预设时间周期对全局网页进行爬虫所需要的爬虫时间较长;另一方面,不 同网页的更新速度也会出现差异,采用这样的爬虫方式容易出现大量未更 新的网页进行重复爬虫的情况,其爬虫的运算资源无法得到充分利用。
针对这样的问题,发明人在研究中发现,搜索服务器可利用终端的资 源帮助其完成对于需要进行重新爬虫的网页的确定,进而对需要进行重新 爬虫的网页进行爬虫,以提高爬虫的效率。具体的,搜索服务器向终端提 供包括与搜索关键词关联的一个或多个网页的搜索结果网页,其中,所述 搜索结果网页还包括搜索服务器预先每个网页的网页内容进行爬虫获得 的预存网页摘要,然后终端对用户触发的目标网页进行爬虫以得到当前网 页摘要,终端将对当前网页摘要和预存网页摘要进行一致性比对的比对信 息发送至搜索服务器,最后由搜索服务器根据目标网页的比对信息对目标 网页的预存网页摘要进行更新。与现有的定期对网页进行爬虫的方式相比, 本申请能够使得搜索服务器通过终端提供的比对信息快速确定需要重新 爬虫的网页,以对需要重新爬虫的网页进行爬虫,在有效降低了爬虫工作 量以及每次爬虫所需要的时间的基础上,也避免对大量没有更新的网页进 行多次爬虫而造成的爬虫运算资源的浪费。
下面对本申请实施例提供的数据更新方法、装置、搜索服务器、终端 及存储介质的应用场景进行介绍。
图1是可以实现本申请实施例的数据更新方法的场景图,如图1所示, 本申请实施例提供的数据更新方法对应的应用场景中包括:终端1以及搜 索服务器2。
其中,各终端1具体可为可用于与用户进行交互的硬件设备,其包括 但不限于智能手机、平板电脑、台式电脑等。在用户的操作下,终端1可 浏览搜索服务器2提供的各种网页,如搜索网页以及搜索结果网页等。在 在用户的触发下,终端1可基于当前网页向搜索服务器2发送各种请求, 如包括搜索关键词的搜索请求,由如对搜索结果网页中提供的目标网页进 行访问的访问请求等。
搜索服务器2具体可为硬件服务器,或承载云端服务器的硬件载体。 搜索服务器2可向各终端1的用户提供关键词搜索、网页浏览等服务。通 过与各终端1的交互,搜索服务器2将采用本申请下述实施例所述的数据 更新方法,确定需要重新爬虫的目标网页,并对其进行重新爬虫等处理。
以下将参照附图来具体描述本申请的实施例。
实施例一
图2是本申请提供的一种数据更新方法的流程示意图,如图2所示的, 本申请实施例的执行主体为数据更新方法装置,该数据更新方法装置将承 载于前述的搜索服务器中。
本实施例提供的数据更新方法包括以下几个步骤。
步骤101、向终端提供搜索结果网页,其中,所述搜索结果网页包括 与搜索关键词关联的一个或多个网页,以及每个网页对应的预存网页摘要, 所述预存网页摘要是指预先对网页的网页内容进行爬虫获得的摘要信息。
本实施例中,搜索结果网页是搜索服务器提供给终端的用于表示其搜 索结果的网页。
具体来说,终端可在搜索服务器提供的搜索网页中输入搜索关键词, 而搜索服务器将基于该搜索关键词调用搜索引擎进行全网的搜索,并生成 搜索结果网页,以呈现给终端。在搜索结果网页中将包括有一个或等多个 网页,以及每个网页对应的预存网页摘要。其中,这些网页是与搜索关键 词关联的网页,而如何获得与搜索关键词关联的网页则可采用现有搜索引 擎所基于的搜索策略,本申请对此不进行任何限制。而预存网页摘要则搜索服务器预先对全网的网页内容进行爬虫而获得的摘要信息,该爬虫的方 式也可参见现有的爬虫策略,本申请对此不进行任何限制。
步骤102、接收终端发送的目标网页的比对信息,所述比对信息是所 述终端对当前网页摘要和所述预存网页摘要进行一致性比对获得的,所述 当前网页摘要是所述终端在浏览目标网页时对目标网页内容进行爬虫获 得的。
在本申请实施例中,与现有的基于网页的搜索方式类似的是,当用户 通过终端查看搜索结果网页时,可选中任一网页作为目标网页,以使终端 向搜索服务器发起对目标网页的访问请求,并接收来自搜索服务器提供的 目标网页的链接以进行目标网页的访问。此时,与现有方式不同的是,在 本申请实施例中,终端进行目标网页的访问时,还将对该目标网页的网页 内容进行爬虫,以获得该目标网页的当前网页摘要。
然后,终端会对目标网页的当前网页摘要以及通过搜索结果网页获取 的预存网页摘要进行比对,以确定其二者的一致性。在完成一致性比对之 后,终端会将生成的比对信息发送至搜索服务器,以供其处理。
步骤103、根据目标网页的比对信息对目标网页的预存网页摘要进行 更新。
最后,搜索服务器将根据接收到的比对信息确定是否需要对目标网页 进行重新爬虫,即对目标网页的预存网页摘要进行更新。其中,当比对信 息指示预存网页摘要与当前网页摘要一致时,该目标网页在搜索服务器上 一次对其进行爬虫之后,并没有对其网页内容进行更新,此时,搜索服务 器可不对其进行爬虫和预存网页摘要的更新;反之,当比对信息指示预存 网页摘要与当前网页摘要不一致时,该目标网页在搜索服务器上一次对其进行爬虫之后,可能对其网页内容进行了一定更新,此时,搜索服务器可 对其进行重新爬虫或其他处理,以实现对于预存网页摘要的更新。
本申请上述实施例提供的方式,与现有的定期对网页进行爬虫的方式 相比,本申请能够使得搜索服务器通过终端提供的比对信息快速确定需要 重新爬虫的网页,以对需要重新爬虫的网页进行爬虫,在有效降低了爬虫 工作量以及每次爬虫所需要的时间的基础上,也避免对大量没有更新的网 页进行多次爬虫而造成的爬虫运算资源的浪费。
在上述实施例的基础上,本实施例还提供了根据目标网页的比对信息 对目标网页的预存网页摘要进行更新具体实现方式:
可选的,为了实现对于预存网页摘要的快速更新,在其中一种可选实 施方式中,搜索服务器还会接收到目标网页的当前摘要信息,该步骤103 可包括将所述当前摘要信息作为更新后的目标网页的预存网页摘要信息。 也就是说,在该实施例中,搜索服务器在根据比对信息确定预存网页摘要 需要更新时,可直接基于接收到的由终端爬虫获取的当前网页摘要,对该 预存网页摘要进行更迭,以实现对于预存网页摘要的更新,便于各终端在下一次搜索到该目标网页时,其预存网页摘要为更新后的网页摘要。
可选的,为了使得更新后的预存网页摘要的更为准确和全面,在其中 一种可选实施方式中,当搜索服务器根据所述目标网页的比对信息确定所 述当前网页摘要和所述预存网页摘要不一致时,步骤103具体可包括:
步骤1031、当对所述目标网页进行爬虫,获得更新网页摘要;
步骤1032、利用获得的更新网页摘要对预存网页摘要进行更新。
具体来说,如前所述的,当搜索服务器根据所述目标网页的比对信息 确定所述当前网页摘要和所述预存网页摘要不一致时,搜索服务器需要对 预存网页摘要进行更新。在本实施例中,该搜索服务器首先将会对目标网 页重新进行爬虫处理,以获得重新爬虫后的目标网页的更新网页摘要;然 后,基于该更新网页摘要,搜索服务器可对预存网页摘要进行更新,实现 搜索页面的数据更新。通过这样的方式,可对于预存网页摘要进行更新, 使得各终端在下一次搜索到该目标网页时,其预存网页摘要为更新后的网 页摘要。
在上述实施例的基础上,随着网页技术的发展,网页在呈现其网页内 容时会根据浏览侧的配置来进行个性化呈现,这就使得在本申请实施例中, 搜索服务器的配置和终端的配置的不一致可能会导致比对信息的不一致 的情况。例如,当搜索服务器所架设的地理位置与终端所在的地理位置不 一样时,其二者对于相同的目标网页的网页内容进行爬虫,所获得的网页 摘要是有可能不同的;又如,当搜索服务器所架设的网络运营商与终端所在的网络运营商不一样时,其二者对于相同的目标网页的网页内容进行爬 虫,所获得的网页摘要是有可能不同的。
为了避免这种情况对本申请实施例中提供的数据更新方法所带来的 影响,可选实施例中,搜索服务器在获得更新网页摘要之后,还可对于预 存网页摘要与更新网页摘要是否相同进行判定,即对于前一次爬虫获得的 网页摘要与本次爬虫获得的网页摘要进行一致性比对,以确定终端上报的 导致当前网页摘要与预存网页摘要的不一致的原因。
换句话说,当更新网页摘要与预存网页摘要相同时,可确定终端上报 的比对信息不一致的现象可能是搜索服务器和终端的配置不同导致的。此 时,搜索服务器可采集终端的终端配置信息,并采用与终端配置信息对应 的爬虫方式对目标网页进行爬虫,并将获得的网页摘要,配置为目标网页 在该终端配置信息下进行搜索获得的预存网页摘要,从而使得与该终端具 有相同终端配置信息的其他终端在进行对目标网页的搜索时所看到的预存网页摘要为采用该方式配置而成的,而与该终端具有不同终端配置信息 的其他终端在进行对目标网页的搜索时所看到的预存网页摘要,采用其他 方式配置而成的。
通过这样的方式,能够实现对于预存网页摘要的个性化更新,便于不 同配置下的终端在搜索时可看到与终端配置信息相一致的预存网页摘要, 提高了其搜索时的信息获取的灵活性。
当然,在其他可选实施例中,若搜索服务器发现更新网页摘要与预存 网页摘要不相同时,则可确定目标网页的网页内容确实发生了更新。此时, 搜索服务器可直接将所述更新网页摘要作为更新后的预存网页摘要,即将 更新网页摘要作为新的预存网页摘要进行存储。
本申请实施例提供的数据更新方法,搜索服务器向终端提供包括与搜 索关键词关联的一个或多个网页的搜索结果网页,其中,所述搜索结果网 页还包括搜索服务器预先每个网页的网页内容进行爬虫获得的预存网页 摘要,然后终端对用户触发的目标网页进行爬虫以得到当前网页摘要,终 端将对当前网页摘要和预存网页摘要进行一致性比对的比对信息发送至 搜索服务器,最后由搜索服务器根据目标网页的比对信息对目标网页的预 存网页摘要进行更新。与现有的定期对网页进行爬虫的方式相比,本申请 能够使得搜索服务器通过终端提供的比对信息快速确定需要重新爬虫的 网页,以对需要重新爬虫的网页进行爬虫,在有效降低了爬虫工作量以及 每次爬虫所需要的时间的基础上,也避免对大量没有更新的网页进行多次 爬虫而造成的爬虫运算资源的浪费。
此外,针对于一些热门网页来说,每一次被搜索和触发都将经历一次 是否需要被重新爬虫的判定,这样的方式能够有效保证被高频率浏览的网 页的预存网页摘要是实时有效的,利于搜索服务器的爬虫资源的最大化利 用。
图3是本申请提供的另一种数据更新方法的流程示意图,如图3所示 的,本申请实施例的执行主体为数据更新装置,该装置可设置在前述的终 端中。
本实施例提供的数据更新方法包括以下几个步骤。
步骤201、接收并展示搜索服务器提供的搜索结果网页,其中,所述 搜索结果网页包括与用户触发的搜索关键词关联的一个或多个网页,以及 每个网页对应的预存网页摘要,所述预存网页摘要是搜索服务器预先对网 页的网页内容进行爬虫获得的摘要信息。
步骤202、在所述搜索结果网页中确定目标网页,并对所述目标网页 的网页内容进行爬虫,获得当前网页摘要;
步骤203、对所述当前网页摘要和所述预存网页摘要进行一致性比对, 获得比对信息,将所述比对信息发送至搜索服务器,以供所述搜索服务器 根据所述比对信息对所述预存网页摘要进行更新。
具体来说,终端可接收搜索服务器提供的搜索服务,其中,在初始页 面,搜索服务器会提供一搜索网页,在该搜索网页上,终端可输入搜索关 键词,而搜索服务器将基于该搜索关键词调用搜索引擎进行全网的搜索, 并生成搜索结果网页,以呈现给终端。
在搜索服务器提供的搜索结果网页中将包括有一个或等多个网页,以 及每个网页对应的预存网页摘要。其中,这些网页是与搜索关键词关联的 网页,而如何获得与搜索关键词关联的网页则可采用现有搜索引擎所基于 的搜索策略,本申请对此不进行任何限制。而预存网页摘要则搜索服务器 预先对全网的网页内容进行爬虫而获得的摘要信息,该爬虫的方式也可参 见现有的爬虫策略,本申请对此不进行任何限制。
随后,用户通过终端查看搜索结果网页时,可选中任一网页作为目标 网页,以使终端向搜索服务器发起对目标网页的访问请求,并接收来自搜 索服务器提供的目标网页的链接以进行目标网页的访问。也就是说,终端 将用户触发的搜索关键词发送至搜索服务器,以供所述搜索服务器根据所 述搜索关键词生成所述搜索结果网页。
此时,与现有方式不同的是,在本申请实施例中,终端进行目标网页 的访问时,还将对该目标网页的网页内容进行爬虫,以获得该目标网页的 当前网页摘要。
终端会对目标网页的当前网页摘要以及通过搜索结果网页获取的预存 网页摘要进行比对,以确定其二者的一致性。在完成一致性比对之后,终 端会将生成的比对信息发送至搜索服务器,以供其处理。
而一般来说,搜索服务器将根据接收到的比对信息确定是否需要对目 标网页进行重新爬虫,即对目标网页的预存网页摘要进行更新。其中,当 比对信息指示预存网页摘要与当前网页摘要一致时,该目标网页在搜索服 务器上一次对其进行爬虫之后,并没有对其网页内容进行更新,此时,搜 索服务器可不对其进行爬虫和预存网页摘要的更新;反之,当比对信息指 示预存网页摘要与当前网页摘要不一致时,该目标网页在搜索服务器上一次对其进行爬虫之后,可能对其网页内容进行了一定更新,此时,搜索服 务器可对其进行重新爬虫或其他处理,以实现对于预存网页摘要的更新。
本实施例提供了一种基于终端的数据更新方法,其可向搜索服务器提 供目标网页的比对信息,以供所述搜索服务器基于该比对信息对目标网页 在搜索结果页面中的预存网页摘要进行更新。此外,该搜索服务器基于比 对信息对预存网页摘要进行更新的具体实现方式可参见前述各实施例,在 本实施例中不进行赘述。
在可选实施例中,为了保证向搜索服务器提供的比对信息的准确性, 终端还可接收搜索服务器发送的爬虫策略。在获取爬虫策略之后,步骤202 具体可为采用所述爬虫策略对所述目标网页的网页内容进行爬虫,获得当 前网页摘要。
其中的爬虫策略可用于表示搜索服务器在对网页内容进行爬虫时所 采用的爬虫处理方式,其爬取的词语条件、语义内容、语法格式等等。
终端接收爬虫策略的时机可为与搜索服务器取得通信时,如终端加载 搜索服务器提供的搜索页面时可直接获取搜索服务器提供的爬虫策略;终 端获取爬虫策略的时机还可为接收由搜索服务器提供的搜索结果页面时, 即搜索服务器会将搜索结果页面与爬虫策略一并发送至终端,以供终端接 收和使用。通过这样的方式能够使得终端采用的爬虫方式与搜索服务器所 采用的爬虫方式保持一致,进而保证比对信息的准确性。
图4为本申请实施例提供的一种数据更新方法的界面示意图,如图4 所示的,在终端中可接收搜索服务器提供的搜索结果页面,该搜索结果页 面上呈现有搜索服务器对搜索关键词进行搜索得到的搜索结果,即多个网 页以及其每一网页相应的预设网页中摘要。用户通过触发选中任一网页作 为目标网页,如图所示的网页1,此时终端界面会触发对于网页1的显示, 但其终端后台将开始对于网页1的网页内容的爬虫,以获得前述的比对信息。需要说明的是,获得比对信息的操作在终端前台不被显示和感知,即 终端界面将不会呈现对于爬虫以及比对信息的操作步骤或操作结果。最后, 终端会将比对信息发送至搜索服务器,如图4所示的,当终端再次搜索该 搜索关键词时,搜索服务器呈现的搜索结果页面中,针对网页1的预存网 页摘要已经为更新后的网页摘要。
本申请实施例提供的数据更新方法,搜索服务器向终端提供包括与搜 索关键词关联的一个或多个网页的搜索结果网页,其中,所述搜索结果网 页还包括搜索服务器预先每个网页的网页内容进行爬虫获得的预存网页 摘要,然后终端对用户触发的目标网页进行爬虫以得到当前网页摘要,终 端将对当前网页摘要和预存网页摘要进行一致性比对的比对信息发送至 搜索服务器,最后由搜索服务器根据目标网页的比对信息对目标网页的预 存网页摘要进行更新。与现有的定期对网页进行爬虫的方式相比,本申请 能够使得搜索服务器通过终端提供的比对信息快速确定需要重新爬虫的 网页,以对需要重新爬虫的网页进行爬虫,在有效降低了爬虫工作量以及 每次爬虫所需要的时间的基础上,也避免对大量没有更新的网页进行多次 爬虫而造成的爬虫运算资源的浪费
图5为本申请提供的一种数据更新装置的结构示意图。如图5所示的, 该数据更新装置包括:通信模块10、爬虫模块20以及更新模块30;
其中,所述通信模块10,用于向终端提供搜索结果网页,其中,所述 搜索结果网页包括与搜索关键词关联的一个或多个网页,以及每个网页对 应的预存网页摘要,所述预存网页摘要是预先利用爬虫模块20预先对网 页的网页内容进行爬虫获得的摘要信息;
通信模块10,还用于接收终端发送的目标网页的比对信息,所述比对 信息是所述终端对当前网页摘要和所述预存网页摘要进行一致性比对获 得的,所述当前网页摘要是所述终端在浏览目标网页时对目标网页内容进 行爬虫获得的;
更新模块30,用于根据目标网页的比对信息对目标网页的预存网页摘 要进行更新。
可选实施例中,所述爬虫模块20,具体用于:当根据所述目标网页的 比对信息确定所述当前网页摘要和所述预存网页摘要不一致时,对所述目 标网页进行爬虫,获得更新网页摘要;
所述更新模块30具体用于利用获得的更新网页摘要对预存网页摘要 进行更新。
可选实施例中,当所述更新网页摘要与所述预存网页摘要相同时,利 用通信模块10采集终端的终端配置信息;
爬虫模块20还用于采用与所述终端配置信息对应的爬虫方式对所述 目标网页进行爬虫;
所述更新模块30,用于将所述爬虫模块20获得的网页摘要作为所述 目标网页在该终端配置信息下进行搜索时所展现的预存网页摘要。
可选实施例中,当所述更新网页摘要与所述预存网页摘要不相同时, 所述更新模块30还用于直接将所述更新网页摘要作为更新后的预存网页 摘要。
可选实施例中,通信模块10还用于接收目标网页的当前摘要信息;
所述更新模块30具体用于所述更新模块具体用于将所述当前摘要信 息作为所述目标网页的预存网页摘要信息。
本申请提供的终端可以执前述所示方法实施例的技术方案,其实现原 理和技术效果前述方法实施例类似,在此不再一一赘述。
在本实施例中,搜索服务器向终端提供包括与搜索关键词关联的一个 或多个网页的搜索结果网页,其中,所述搜索结果网页还包括搜索服务器 预先每个网页的网页内容进行爬虫获得的预存网页摘要,然后终端对用户 触发的目标网页进行爬虫以得到当前网页摘要,终端将对当前网页摘要和 预存网页摘要进行一致性比对的比对信息发送至搜索服务器,最后由搜索 服务器根据目标网页的比对信息对目标网页的预存网页摘要进行更新。与 现有的定期对网页进行爬虫的方式相比,本申请能够使得搜索服务器通过 终端提供的比对信息快速确定需要重新爬虫的网页,以对需要重新爬虫的 网页进行爬虫,在有效降低了爬虫工作量以及每次爬虫所需要的时间的基 础上,也避免对大量没有更新的网页进行多次爬虫而造成的爬虫运算资源 的浪费。
图6为本申请提供的另一种数据更新装置的结构示意图。如图6所示 的,该数据更新装置包括:收发模块40以及比对模块50;
其中,所述收发模块40,用于接收并展示搜索服务器提供的搜索结果 网页,其中,所述搜索结果网页包括与用户触发的搜索关键词关联的一个 或多个网页,以及每个网页对应的预存网页摘要,所述预存网页摘要是搜 索服务器预先对网页的网页内容进行爬虫获得的摘要信息;
所述比对模块50,用于在所述搜索结果网页中确定目标网页,并对所 述目标网页的网页内容进行爬虫,获得当前网页摘要;还用于对所述当前 网页摘要和所述预存网页摘要进行一致性比对,获得比对信息;
所述收发模块40还用于将所述比对信息发送至搜索服务器,以供所 述搜索服务器根据所述比对信息对所述预存网页摘要进行更新。
可选实施例中,所述收发模块40,还用于接收搜索服务器发送的爬虫 策略;
爬虫模块还用于采用所述爬虫策略对所述目标网页的网页内容进行 爬虫,获得当前网页摘要。
可选实施例中,所述收发模块40,还用于将用户触发的搜索关键词发 送至搜索服务器,以供所述搜索服务器根据所述搜索关键词生成所述搜索 结果网页。
本申请提供的数据更新装置可以执前述所示方法实施例的技术方案, 其实现原理和技术效果前述方法实施例类似,在此不再一一赘述。
在本实施例中,搜索服务器向终端提供包括与搜索关键词关联的一个 或多个网页的搜索结果网页,其中,所述搜索结果网页还包括搜索服务器 预先每个网页的网页内容进行爬虫获得的预存网页摘要,然后终端对用户 触发的目标网页进行爬虫以得到当前网页摘要,终端将对当前网页摘要和 预存网页摘要进行一致性比对的比对信息发送至搜索服务器,最后由搜索 服务器根据目标网页的比对信息对目标网页的预存网页摘要进行更新。与 现有的定期对网页进行爬虫的方式相比,本申请能够使得搜索服务器通过 终端提供的比对信息快速确定需要重新爬虫的网页,以对需要重新爬虫的 网页进行爬虫,在有效降低了爬虫工作量以及每次爬虫所需要的时间的基 础上,也避免对大量没有更新的网页进行多次爬虫而造成的爬虫运算资源 的浪费。
根据本申请的实施例,本申请还提供了一种终端和一种搜索服务器以 及一种可读存储介质。其中的终端和搜索服务器均可架设在电子设备上。
如图7所示,是根据本申请实施例的数据更新方法的电子设备的框图。 电子设备旨在各种形式的数字计算机,诸如,膝上型计算机、台式计算机、 工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适 合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字 处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所 示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意 在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器1001、存储器1002, 以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不 同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方 式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存 储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示 设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以 将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样, 可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务 器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中, 存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行 本申请所提供的数据更新方法。本申请的非瞬时计算机可读存储介质存储 计算机指令,该计算机指令用于使计算机执行本申请所提供的数据更新方 法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬 时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数 据更新方法对应的程序指令/模块(例如,附图7所示的环境数据获取模 块801,特征数据提取模块802,初始危险值预测模块803,最终危险值计 算模块804及区域计算模块805)。处理器1001通过运行存储在存储器 1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应 用以及数据处理,即实现上述方法实施例中的数据更新方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区 可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根 据图7的电子设备的使用所创建的数据等。此外,存储器1002可以包括 高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储 器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器 1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可 以通过网络连接至图7的电子设备。上述网络的实例包括但不限于互联网、 企业内部网、局域网、移动通信网及其组合。
图7的电子设备还可以包括:输入装置1003和输出装置1004。处理 器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或 者其他方式连接,图7中以通过总线连接为例。
输入装置1003可接收输入的语音、数字或字符信息,以及产生与图7 的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小 键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、 操纵杆等输入装置。输出装置1004可以包括语音播放设备、显示设备、 辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显 示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集 成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和 /或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多 个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处 理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通 用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出 装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个 输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编 程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、 和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可 读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给 可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、 光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信 号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器 指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术, 该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线 管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠 标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算 机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的 反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉 反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如, 作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、 或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器 的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处 描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部 件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络 的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此 并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具 有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或 删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地 执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望 的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术 人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、 子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和 改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种数据更新方法,其特征在于,包括:
向终端提供搜索结果网页,其中,所述搜索结果网页包括与搜索关键词关联的一个或多个网页,以及每个网页对应的预存网页摘要,所述预存网页摘要是指预先对网页的网页内容进行爬虫获得的摘要信息;
接收终端发送的目标网页的比对信息,所述比对信息是所述终端对当前网页摘要和所述预存网页摘要进行一致性比对获得的,所述当前网页摘要是所述终端在浏览目标网页时对目标网页内容进行爬虫获得的;
根据目标网页的比对信息对目标网页的预存网页摘要进行更新。
2.根据权利要求1所述的数据更新方法,其特征在于,所述根据目标网页的比对信息对目标网页的预存网页摘要进行更新,包括:
当根据所述目标网页的比对信息确定所述当前网页摘要和所述预存网页摘要不一致时,对所述目标网页进行爬虫,获得更新网页摘要;
利用获得的更新网页摘要对预存网页摘要进行更新。
3.根据权利要求2所述的数据更新方法,其特征在于,所述利用获得的更新网页摘要对预存网页摘要进行更新,包括:
当所述更新网页摘要与所述预存网页摘要相同时,采集终端的终端配置信息,并采用与所述终端配置信息对应的爬虫方式对所述目标网页进行爬虫,将获得的网页摘要作为所述目标网页在该终端配置信息下进行搜索时所展现的预存网页摘要。
4.根据权利要求3所述的数据更新方法,其特征在于,所述利用获得的更新网页摘要对预存网页摘要进行更新,还包括:
当所述更新网页摘要与所述预存网页摘要不相同时,直接将所述更新网页摘要作为更新后的预存网页摘要。
5.根据权利要求1所述的数据更新方法,其特征在于,所述方法,还包括:
接收目标网页的当前摘要信息;
所述根据目标网页的比对信息对目标网页的预存网页摘要进行更新,包括:
将所述当前摘要信息作为更新后的所述目标网页的预存网页摘要信息。
6.一种数据更新方法,其特征在于,包括:
接收并展示搜索服务器提供的搜索结果网页,其中,所述搜索结果网页包括与用户触发的搜索关键词关联的一个或多个网页,以及每个网页对应的预存网页摘要,所述预存网页摘要是搜索服务器预先对网页的网页内容进行爬虫获得的摘要信息;
在所述搜索结果网页中确定目标网页,并对所述目标网页的网页内容进行爬虫,获得当前网页摘要;
对所述当前网页摘要和所述预存网页摘要进行一致性比对,获得比对信息,将所述比对信息发送至搜索服务器,以供所述搜索服务器根据所述比对信息对所述预存网页摘要进行更新。
7.根据权利要求6所述的数据更新方法,其特征在于,还包括:
接收搜索服务器发送的爬虫策略;
所述对所述目标网页的网页内容进行爬虫,获得当前网页摘要,包括:
采用所述爬虫策略对所述目标网页的网页内容进行爬虫,获得当前网页摘要。
8.根据权利要求6所述的数据更新方法,其特征在于,接收并展示搜索服务器提供的搜索结果网页之前,还包括:
将用户触发的搜索关键词发送至搜索服务器,以供所述搜索服务器根据所述搜索关键词生成所述搜索结果网页。
9.一种数据更新装置,其特征在于,包括:通信模块、爬虫模块以及更新模块;
其中,所述通信模块,用于向终端提供搜索结果网页,其中,所述搜索结果网页包括与搜索关键词关联的一个或多个网页,以及每个网页对应的预存网页摘要,所述预存网页摘要是预先利用爬虫模块预先对网页的网页内容进行爬虫获得的摘要信息;
通信模块,还用于接收终端发送的目标网页的比对信息,所述比对信息是所述终端对当前网页摘要和所述预存网页摘要进行一致性比对获得的,所述当前网页摘要是所述终端在浏览对目标网页时对的目标网页内容进行爬虫获得的;
更新模块,用于根据目标网页的比对信息对目标网页的预存网页摘要进行更新。
10.根据权利要求9所述的数据更新装置,其特征在于,所述爬虫模块,具体用于:当根据所述目标网页的比对信息确定所述当前网页摘要和所述预存网页摘要不一致时,对所述目标网页进行爬虫,获得更新网页摘要;
所述更新模块具体用于利用获得的更新网页摘要对预存网页摘要进行更新。
11.根据权利要求10所述的数据更新装置,其特征在于,当所述更新网页摘要与所述预存网页摘要相同时,利用通信模块采集终端的终端配置信息;
爬虫模块还用于采用与所述终端配置信息对应的爬虫方式对所述目标网页进行爬虫;
所述更新模块,用于将所述爬虫模块获得的网页摘要作为所述目标网页在该终端配置信息下进行搜索时所展现的预存网页摘要。
12.根据权利要求11所述的数据更新装置,其特征在于,当所述更新网页摘要与所述预存网页摘要不相同时,所述更新模块还用于直接将所述更新网页摘要作为更新后的预存网页摘要。
13.根据权利要求9所述的数据更新装置,其特征在于,通信模块,还用于接收目标网页的当前摘要信息;
更新模块,具体用于所述更新模块具体用于将所述当前摘要信息作为所述目标网页的预存网页摘要信息。
14.一种数据更新装置,其特征在于,包括:收发模块以及比对模块;
其中,所述收发模块,用于接收并展示搜索服务器提供的搜索结果网页,其中,所述搜索结果网页包括与用户触发的搜索关键词关联的一个或多个网页,以及每个网页对应的预存网页摘要,所述预存网页摘要是搜索服务器预先对网页的网页内容进行爬虫获得的摘要信息;
所述比对模块,用于在所述搜索结果网页中确定目标网页,并对所述目标网页的网页内容进行爬虫,获得当前网页摘要;还用于对所述当前网页摘要和所述预存网页摘要进行一致性比对,获得比对信息;
所述收发模块还用于将所述比对信息发送至搜索服务器,以供所述搜索服务器根据所述比对信息对所述预存网页摘要进行更新。
15.根据权利要求14所述的数据更新装置,其特征在于,所述收发模块,还用于接收搜索服务器发送的爬虫策略;
爬虫模块还用于采用所述爬虫策略对所述目标网页的网页内容进行爬虫,获得当前网页摘要。
16.根据权利要求14所述的数据更新装置,其特征在于,所述收发模块,还用于将用户触发的搜索关键词发送至搜索服务器,以供所述搜索服务器根据所述搜索关键词生成所述搜索结果网页。
17.一种搜索服务器,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
18.一种终端,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求6-8任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-5中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求6-8任一项所述的方法。
CN202010357679.5A 2020-04-29 2020-04-29 数据更新方法、装置、搜索服务器、终端及存储介质 Active CN111767442B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN202010357679.5A CN111767442B (zh) 2020-04-29 2020-04-29 数据更新方法、装置、搜索服务器、终端及存储介质
EP21748484.9A EP3933619A4 (en) 2020-04-29 2021-03-16 DATA UPDATE METHOD AND DEVICE, SEARCH SERVER, TERMINAL AND STORAGE MEDIA
PCT/CN2021/081142 WO2021218468A1 (zh) 2020-04-29 2021-03-16 数据更新方法、装置、搜索服务器、终端及存储介质
KR1020217023258A KR102615979B1 (ko) 2020-04-29 2021-03-16 데이터 업데이트 방법, 장치, 검색 서버, 단말 및 저장매체
JP2021575391A JP7322194B2 (ja) 2020-04-29 2021-03-16 データ更新方法、装置、検索サーバ、端末及び記憶媒体
US17/378,225 US11803597B2 (en) 2020-04-29 2021-07-16 Data updating method, apparatus, search server, terminal and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010357679.5A CN111767442B (zh) 2020-04-29 2020-04-29 数据更新方法、装置、搜索服务器、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111767442A true CN111767442A (zh) 2020-10-13
CN111767442B CN111767442B (zh) 2023-12-26

Family

ID=72719281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010357679.5A Active CN111767442B (zh) 2020-04-29 2020-04-29 数据更新方法、装置、搜索服务器、终端及存储介质

Country Status (3)

Country Link
EP (1) EP3933619A4 (zh)
CN (1) CN111767442B (zh)
WO (1) WO2021218468A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218468A1 (zh) * 2020-04-29 2021-11-04 百度在线网络技术(北京)有限公司 数据更新方法、装置、搜索服务器、终端及存储介质
US11803597B2 (en) 2020-04-29 2023-10-31 Baidu Online Network Technology (Beijing) Co., Ltd. Data updating method, apparatus, search server, terminal and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232237A1 (en) * 2013-09-26 2016-08-11 Beijing Qihoo Technology Company Limited Method and device for an engine to crawl, validate, and provide open-type abstract information of a webpage
CN108415941A (zh) * 2018-01-29 2018-08-17 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备
CN110795615A (zh) * 2019-10-28 2020-02-14 百度在线网络技术(北京)有限公司 搜索方法、装置、设备和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7685296B2 (en) * 2003-09-25 2010-03-23 Microsoft Corporation Systems and methods for client-based web crawling
US7840893B2 (en) * 2005-04-25 2010-11-23 Kulas Charles J Display and manipulation of web page-based search results
US8707451B2 (en) * 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
CN102135967B (zh) * 2010-01-27 2013-06-05 华为技术有限公司 网页关键词提取方法、装置及系统
CN102446191A (zh) * 2010-10-13 2012-05-09 北京创新方舟科技有限公司 一种用于生成网页内容摘要的方法、设备及系统
CN101984429B (zh) * 2010-11-04 2012-03-14 北京百度网讯科技有限公司 获取目标页面的方法、装置、搜索引擎和浏览器
CN105766004B (zh) * 2013-10-21 2019-12-03 康维达无线有限责任公司 M2m设备的爬取
CN111767442B (zh) * 2020-04-29 2023-12-26 百度在线网络技术(北京)有限公司 数据更新方法、装置、搜索服务器、终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232237A1 (en) * 2013-09-26 2016-08-11 Beijing Qihoo Technology Company Limited Method and device for an engine to crawl, validate, and provide open-type abstract information of a webpage
CN108415941A (zh) * 2018-01-29 2018-08-17 湖北省楚天云有限公司 一种网页爬虫方法、装置以及电子设备
CN110795615A (zh) * 2019-10-28 2020-02-14 百度在线网络技术(北京)有限公司 搜索方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218468A1 (zh) * 2020-04-29 2021-11-04 百度在线网络技术(北京)有限公司 数据更新方法、装置、搜索服务器、终端及存储介质
US11803597B2 (en) 2020-04-29 2023-10-31 Baidu Online Network Technology (Beijing) Co., Ltd. Data updating method, apparatus, search server, terminal and storage medium

Also Published As

Publication number Publication date
EP3933619A4 (en) 2022-11-16
CN111767442B (zh) 2023-12-26
WO2021218468A1 (zh) 2021-11-04
EP3933619A1 (en) 2022-01-05

Similar Documents

Publication Publication Date Title
CN106970790B (zh) 一种应用程序创建的方法、相关设备及系统
EP3828701B1 (en) Mini app processing method, server, device and storage medium
US20210108931A1 (en) Method and apparatus for determining hybrid travel route, device and storage medium
JP7087121B2 (ja) ランディングページの処理方法、装置、機器及び媒体
CN105404458B (zh) 网页内容更新方法及装置
US11157576B2 (en) Method, system and terminal for performing search in a browser
CN111159592A (zh) 搜索结果页生成方法、装置、电子设备及存储介质
EP3933619A1 (en) Data update method and device, search server, terminal, and storage medium
CN111177539A (zh) 搜索结果页生成方法、装置、电子设备及存储介质
CN110765075A (zh) 自动驾驶数据的存储方法和设备
CN112163143B (zh) 页面切换的方法、装置、设备以及存储介质
CN108959294B (zh) 一种访问搜索引擎的方法和装置
CN110517079B (zh) 数据处理方法、装置、电子设备和存储介质
CN113158098A (zh) 页面生成方法、装置、设备和介质
CN111506787B (zh) 网页更新的方法、装置、电子设备和计算机可读存储介质
JP7316305B2 (ja) グラフ計算の処理方法、装置、電子機器及び記憶媒体
CN113094139B (zh) Ui样式更新方法和装置
CN111026438B (zh) 小程序包和页面关键信息的提取方法、装置、设备及介质
US11803597B2 (en) Data updating method, apparatus, search server, terminal and storage medium
CN112446728B (zh) 广告召回方法、装置、设备及存储介质
CN111966877B (zh) 前端服务方法、装置、设备及存储介质
CN112800319A (zh) 信息搜索方法、装置、设备和介质
CN111506786B (zh) 网页更新的方法、装置、电子设备和计算机可读存储介质
CN111552878B (zh) 数据处理的方法及装置
CN111506268B (zh) 代码文件存储方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant