CN113486229A - 抓取压力的控制方法、装置、电子设备及可读存储介质 - Google Patents

抓取压力的控制方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113486229A
CN113486229A CN202110760039.3A CN202110760039A CN113486229A CN 113486229 A CN113486229 A CN 113486229A CN 202110760039 A CN202110760039 A CN 202110760039A CN 113486229 A CN113486229 A CN 113486229A
Authority
CN
China
Prior art keywords
pressure
grabbing
limit value
historical
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110760039.3A
Other languages
English (en)
Other versions
CN113486229B (zh
Inventor
丁宇
洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110760039.3A priority Critical patent/CN113486229B/zh
Publication of CN113486229A publication Critical patent/CN113486229A/zh
Priority to EP22836504.5A priority patent/EP4202729A1/en
Priority to US18/027,039 priority patent/US20230376545A1/en
Priority to PCT/CN2022/079548 priority patent/WO2023279744A1/zh
Priority to JP2023511953A priority patent/JP2023539570A/ja
Application granted granted Critical
Publication of CN113486229B publication Critical patent/CN113486229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Confectionery (AREA)
  • Control Of Fluid Pressure (AREA)

Abstract

本公开提供了抓取压力的控制方法、装置、电子设备及可读存储介质,涉及计算机技术领域,尤其涉及内容推荐技术领域。具体实现方案为:基于待抓取网站的网址将待抓取网站匹配至预配置的压力单元;基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值;基于第一抓取压力限值以及第二抓取压力限值,对压力单元在当前抓取周期内的抓取压力进行控制。通过将待抓取网站匹配至对应的压力单元,并针对压力单元配置第一抓取压力限值以及第二抓取压力限值,实现对压力单元的压力控制,既能够满足实际的抓取需求,又能够避免抓取压力过高,有效的避免了抓取失败问题的产生。

Description

抓取压力的控制方法、装置、电子设备及可读存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及内容推荐技术领域,具体而言,本公开涉及一种抓取压力的控制方法、装置、电子设备及可读存储介质。
背景技术
Spider抓取结果是搜索的重要内容来源,spider为搜索每天提供海量的网页资源,所以spider抓取是和搜索生态息息相关的。当站点的抓取压力过高时,可能会导致因站点对出口和用户代理(User-Agent,UA)封禁或者站点自身承载压力导致抓取失败的问题,一旦发生抓取失败,则会造成抓取配额的浪费。
因此,如何避免抓取失败问题的产生,成为了一个亟需解决的问题。
发明内容
本公开为了解决上述缺陷中的至少一项,提供了一种抓取压力的控制方法、装置、电子设备及可读存储介质。
根据本公开的第一方面,提供了一种抓取压力的控制方法,该方法包括:
基于待抓取网站的网址将待抓取网站匹配至预配置的压力单元;
基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值;
基于第一抓取压力限值以及第二抓取压力限值,对压力单元在当前抓取周期内的抓取压力进行控制,其中,抓取压力小于第二抓取压力限值,抓取压力在满足预设的压力条件时可大于第一抓取压力限值。
根据本公开的第二方面,提供了一种抓取压力的控制装置,该装置包括:
压力单元匹配模块,用于基于待抓取网站的网址将待抓取网站匹配至预配置的压力单元;
压力限值确定模块,用于基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值;
抓取压力控制模块,用于基于第一抓取压力限值以及第二抓取压力限值,对压力单元在当前抓取周期内的抓取压力进行控制,其中,抓取压力小于第二抓取压力限值,抓取压力在满足预设的压力条件时可大于第一抓取压力限值。
根据本公开的第三方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与上述至少一个处理器通信连接的存储器;其中,
存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述抓取压力的控制方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述抓取压力的控制方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述抓取压力的控制方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种抓取压力的控制方法的流程示意图;
图2是本公开实施提供的一种用于评估抓取压力与抓取成功率相关性的象限的示意图;
图3是根据本公开提供的一种抓取压力的控制装置的结构示意图;
图4是用来实现本公开实施例的抓取压力的控制方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了避免抓取失败问题的产生,需要为站点分配合适的抓取配额,避免站点的抓取压力过高。
现有技术中一般通过分析历史抓取日志,并结合历史站点压力情况计算站点的压力上限,使站点的抓取压力不高于压力上限,避免站点的抓取压力过高,从而避免抓取失败。
但是现有方案仍存在一定缺陷,现有方案中仅简单的根据当前抓取成功数情况来调整站点的压力上限,这样不够收敛,会有计算产出的站点压力波动剧烈的问题,而且一旦没有流量高于压力上限的情况,压力上限就会一直不变,导致压力上限失真。
本申请实施例提供的抓取压力的控制方法、装置、电子设备及可读存储介质,旨在解决现有技术的如上技术问题中的至少一个。
图1示出了本公开实施例提供的一种抓取压力的控制方法的流程示意图,如图1中所示,该方法主要可以包括:
步骤S110:基于待抓取网站的网址将待抓取网站匹配至预配置的压力单元。
其中,压力单元可以作为压力控制的基本单位,针对压力单元进行抓取压力控制,具有较高控制精度。
待抓取网站的网址中包括域名(domain)、站点(site)以及访问路径(path)等多维度的信息,压力单元可以与域名(domain)、站点(site)以及访问路径(path)相对应,因此可以基于网址对将待抓取网站匹配至对应的压力单元,以便从不同维度体现实际的抓取压力情况,使得控压更为精确。
步骤S120:基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值。
步骤S130:基于第一抓取压力限值以及第二抓取压力限值,对压力单元在当前抓取周期内的抓取压力进行控制,其中,抓取压力小于第二抓取压力限值,抓取压力在满足预设的压力条件时可大于第一抓取压力限值。
其中,当前抓取周期为即将进行抓取任务的抓取周期,历史抓取数据可以为压力单元的内各待抓取网站的历史抓取记录,包括但是不限于历史抓取日志等,能够反映压力单元内待抓取网站的历史抓取情况。历史抓取数据可以从当前抓取周期之前的抓取周期中获得。对压力单元的历史抓取数据进行分析,确定出压力单元的第一抓取压力限值以及第二抓取压力限值,能够保证第一抓取压力限值以及第二抓取压力限值的准确性。
第一抓取压力限值可以作为一个常规的抓取压力上限,在进行常规的抓取任务时,抓取压力应不超过第一抓取压力限值。在存在一些需要增加抓取压力配额的情况(即预设的压力条件)时,抓取压力可以超过第一抓取压力限值,以满足实际的抓取需求,但是应不超过第二抓取压力限值。第二抓取压力限值可以作为一个硬性的抓取压力上限,不能被突破,这样能够避免因抓取压力过大导致的站点封禁。
本公开实施例提供的方法,通过基于待抓取网站的网址将待抓取网站匹配至预配置的压力单元,基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值,从而基于第一抓取压力限值以及第二抓取压力限值对压力单元在当前抓取周期内的抓取压力进行控制,本方案中,通过将待抓取网站匹配至对应的压力单元,并针对压力单元配置第一抓取压力限值以及第二抓取压力限值,实现对压力单元的压力控制,既能够满足实际的抓取需求,又能够避免抓取压力过高,有效的避免了抓取失败问题的产生。
本公开的一种可选方式中,压力条件为:
抓取压力中包括额外抓取压力,额外抓取压力所对应的抓取任务需要在预设时限内完成。
其中,抓取压力中一般可以包括常规抓取压力以及额外抓取压力,额外抓取压力是在存在实时抓取需求时产生的,并且一般具有时效性,即需要在预设时限内完成。常规抓取压力为抓取周期内常规存在的抓取压力,不是由实时抓取需求时产生的,一般不具有时效性。
在抓取压力中包括额外抓取压力时,可以认为存在额外的抓取需求,需要增加抓取压力配额,这时抓取压力可以超过第一抓取压力限值,以满足实际的抓取需求。
本公开的一种可选方式中,压力单元包括至少两个,各压力单元预配置有匹配优先级,基于待抓取网站的网址将待抓取网站匹配至对应的压力单元,包括:
依照匹配优先级由高到低的顺序,遍历各匹配优先级的压力单元,并依次确定基于待抓取网站的网址能否将待抓取网站匹配至各匹配优先级的压力单元,直至将待抓取网站匹配至压力单元,或者遍历结束。
其中,压力单元可以包括至少两个,匹配优先级可以用于在将待抓取网站与各压力单元进行匹配时,确定各压力单元的匹配先后顺序。
具体而言,可以依照匹配优先级的由高到低顺序,依次确定待抓取网站能否匹配至各匹配优先级最高的压力单元,直至待抓取网站能够匹配至某一压力单元,或者完成对所有压力单元的匹配后,确定待抓取网站无法被匹配至任一压力单元。
本公开的一种可选方式中,压力单元包括:
与待抓取网站的网址中的访问路径相对应的第一压力单元;
与待抓取网站的网址中的站点相对应的第二压力单元;以及,
与待抓取网站的网址中的域名相对应的第三压力单元,各压力单元的匹配优先级由高到低依次为第一压力单元、第二压力单元以及第三压力单元。
其中,第一压力单元内的待抓取网站可以具有相同的访问路径,第二压力单元内的待抓取网站可以具有相同站点,第三压力单元内的待抓取网站可以具有相同域名。
本公开实施例中,可以从域名、站点以及访问路径三个维度将待抓取网站匹配至对应的压力单元。通过设置多维度的压力单元,能够使控压更为精确。
本公开实施例中,可以为压力单元设置压力词典,压力词典中包括各压力单元所对应的域名、站点以及访问路径等。可以将待抓取网站的网址与压力词典进行匹配,从而匹配至对应压力单元。
在实际的匹配过程中,由于三个维度的压力单元在进行对网址的划分时,其粒度不同,因此可以对三个维度的压力单元分别设置不同的匹配优先级。具体的,由于访问路径对应的压力单元在三个维度的压力单元中粒度最小,站点的压力单元次之,域名压力单元三个维度的压力单元中粒度最大,因此可以设置匹配优先级为第一压力单元高于第二压力单元,第二压力单元高于第三压力单元。
具体而言,可以优先确定待抓取网站能否匹配至第一压力单元,在待抓取网站无法匹配至第一压力单元时,则确定待抓取网站能否匹配至第二压力单元,在待抓取网站无法匹配至第一压力单元时,则确定待抓取网站能否匹配至第二压力单元,在待抓取网站无法匹配至第二压力单元时,则确定待抓取网站能否匹配至第三压力单元。
若待抓取网址无法被匹配至任一个压力单元,则可以将待抓取网址归入泛域维度。在实际使用中,如果泛域中存在能够并被归入同一压力单元的多个抓取网址,且这多个抓取网址在持续存在于连续的多个抓取周期,则可以将该压力单元增加至压力词典中。
本公开的一种可选方式中,基于待抓取网站的网址将待抓取网站匹配至对应的压力单元之前,方法还包括:
基于历史抓取数据对压力单元的进行拆分和/或合并。
本公开实施例中,在对当前抓取周期的待抓取网站匹配至对应的压力单元之前,可以根据历史抓取数据对压力词典中的压力单元进行拆分和/或合并。
历史抓取数据可以为当前抓取周期的之前的一个抓取周期,或者当前抓取周期的之前的多个抓取周期。历史抓取数据中能够反映实际的抓取情况,根据实际的抓取情况对压力单元进行调整,能够保证压力单元划分的合理性。
本公开的一种可选方式中,历史抓取数据包括历史抓取压力,基于历史抓取数据对压力单元的进行合并,包括:
若存在对应的历史抓取压力中的额外抓取压力不大于第一预设值的第一目标压力单元,则将第一目标压力单元合并至相应的第二目标压力单元,其中第一目标压力单元的匹配优先级并非最低,第二目标压力单元的匹配优先级低于第一目标压力单元一级。
其中,第一目标压力单元可以为第一压力单元或者第二压力单元。第二目标压力单元的匹配优先级低于第一目标压力单元一级,即当第一目标压力单元为第一压力单元时,第二目标压力单元为第二压力单元,当第一目标压力单元为第二压力单元时,第二目标压力单元为第三压力单元。
在实际使用中,当第一目标压力单元的额外抓取压力较少时,意味着该压力单元的实时抓取需求较少,可以不再进行细粒度的控压,如其并非最高粒度的压力单元,则可以将其合并至更高粒度的压力单元,即将将第一目标压力单元合并至相应的第二目标压力单元。
具体而言,可以认为第一压力单元对应的历史抓取数据中额外抓取压力不大于第一预设值时,该第一压力单元的额外抓取压力较少,可以将该第一压力单元合并至对应站点的第二压力单元。对应站点的第二压力单元,即第一压力单元中待抓取网站的所属站点对应的第二压力单元。
可以认为第二压力单元对应的历史抓取数据中额外抓取压力不大于第二预设值时,该第二压力单元的额外抓取压力较少,可以将该第二压力单元合并至对应域名的第三压力单元。对应域名的第三压力单元,即第二压力单元中待抓取网站的所属域名对应的第三压力单元。
本公开的一种可选方式中,历史抓取数据包括历史抓取成功率,基于历史抓取数据对压力单元的进行拆分,包括:
若存在对应的历史抓取成功率小于第二预设值的第三目标压力单元,则将第三目标压力单元拆分为至少一个第四目标压力单元,其中,第三目标压力单元的匹配优先级并非最高,第四目标压力单元的匹配优先级高于第三目标压力单元一级。
其中,第三目标压力单元可以为第三压力单元或者第二压力单元。第四目标压力单元的匹配优先级高于第三目标压力单元一级,即当第三目标压力单元为第散压力单元时,第四目标压力单元为第二压力单元,当第三目标压力单元为第二压力单元时,第四目标压力单元为第一压力单元。
本公开实施例中,对压力单元的进行拆分,即将较大粒度的压力单元拆分为较小粒度的压力单元,即将第三压力单元拆分为第二压力单元,将第二压力单元拆分为第一压力单元。
在实际使用中,当第三目标压力单元的历史抓取成功率较低时,意味需要进行细粒度的控压,这时可以对第三目标压力单元进行拆分。
具体而言,可以认为第三压力单元的历史抓取成功率小于第三预设值时,该第三压力单元的历史抓取成功率较低,需要更细粒度的控压,可以将该第三压力单元拆分为至少一个第二压力单元,即将第三压力单元内的待抓取网址根据站点划分至至少一个第二压力单元。
可以认为第二压力单元的历史抓取成功率小于第四预设值时,该第二压力单元的历史抓取成功率较低,需要更细粒度的控压,可以将该第二压力单元拆分为至少一个第二压力单元,即将第二压力单元内的待抓取网址根据访问路径划分至至少一个第一压力单元。
本公开的一种可选方式中,历史抓取数据包括当前抓取周期的前一个抓取周期内的历史第一抓取压力限值以及历史第二抓取压力限值,基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值,包括以下至少一项:
若压力单元的在前一个抓取周期内的抓取压力大于历史第一抓取压力限值,且压力单元在前一个抓取周期内抓取成功率大于预设的第一成功率阈值,则基于第一预设规则上调历史第一抓取压力限值,并将上调后的历史第一抓取压力限值作为第一抓取压力限值;若第一抓取压力限值小于历史第二抓取压力限值,则将历史第二抓取压力限值作为第二抓取压力限值;若第一抓取压力限值不小于历史第二抓取压力限值,则基于预设的第二规则对历史第二抓取压力限值进行上调,将上调后的历史第二抓取压力限值作为第二抓取压力限值;
若压力单元的在前一个抓取周期内的抓取压力不大于历史第一抓取压力限值,且压力单元在前一个抓取周期内抓取成功率小于预设的第二成功率阈值,则基于第三预设规则将历史第二抓取压力限值下调,将下调后的历史第二抓取压力限值作为第二抓取压力限值,若第二抓取压力限值大于历史第一抓取压力限值,则将历史第一抓取压力限值作为第一抓取压力限值;若第二抓取压力限值不大于历史第一抓取压力限值,则基于第四预设规则将历史第一抓取压力限值下调,将下调后的历史第一抓取压力限值作为第一抓取压力限值。本公开实施例中,可以通过分析当前抓取周期的前一个抓取周期内的历史抓取数据来确定第一抓取压力限值以及第二抓取压力限值,从而保证第一抓取压力限值以及第二抓取压力限值的合理性与准确性。
具体而言,可以先确定前一个抓取周期内的历史第一抓取压力限值以及历史第二抓取压力限值,而后基于前一个抓取周期内实际的抓取情况对历史第一抓取压力限值以及历史第二抓取压力限值进行调整。
当在前一个抓取周期内的抓取压力大于历史第一抓取压力限值,且压力单元的在前一个抓取周期内抓取成功率大于预设的第一成功率阈值时,即存在实时的抓取需求,且抓取成功率较高时,可以认为该压力单元能够承受更高的抓取压力,可以根据第一预设规则上调历史第一抓取压力限值,并将上调后的历史第一抓取压力限值作为当前抓取周期的第一抓取压力限值,第一预设规则可以将历史第一抓取压力限值上调一定比例,该比例小于百分之二十。
在对历史第一抓取压力限值上调得到的第一抓取压力限值之后,如果第一抓取压力限值不大于历史第二抓取压力限值,则可以将历史第二抓取压力限值作为当前抓取周期的第二抓取压力限值;如果第一抓取压力限值大于历史第二抓取压力限值,则可以根据第二预设规则对历史第二抓取压力限值进行上调,将上调后的历史第二抓取压力限值作为当前抓取周期的第二抓取压力限值。
作为一个示例,第二预设规则可以为将历史第二抓取压力限值上调一定比例,该比例不大于百分之二十。
当在前一个抓取周期内的抓取压力不大于历史第一抓取压力限值,且压力单元的在前一个抓取周期内抓取成功率小于预设的第二成功率阈值时,即实际的抓取量较少且抓取成功率较低时,可以认为该压力单元不能承受更高的抓取压力,可以根据第三预设规则下调历史第二抓取压力限值,并将下调后的历史第二抓取压力限值作为当前抓取周期的第二抓取压力限值,第三预设规则可以为将历史第二抓取压力限值上调一定比例,该比例小于百分之二十。
在对历史第二抓取压力限值下调得到的第二抓取压力限值之后,如果第二抓取压力限值大于历史第一抓取压力限值,则可以将历史第一抓取压力限值作为当前抓取周期的第一抓取压力限值;如果第一抓取压力限值不大于历史第一抓取压力限值,则可以根据第四预设规则对历史第一抓取压力限值进行下调,将下调后的历史第一抓取压力限值作为当前抓取周期的第一抓取压力限值。
作为一个示例,第四预设规则可以为将历史第一抓取压力限值下调一定比例,该比例不大于百分之二十。
为避免压力限值的震荡,可以对压力限值上调或下调的比例进行限制(如不大于百分之二十),保证对压力限值的平滑调整。
若当前抓取收起为首个抓取周期,即在不存在前一个抓取周期时,可以根据经验值来设定首个抓取周期的第一抓取压力限值以及第二抓取压力限值。
本公开的一种可选方式中,上述方法还包括:
若当前抓取周期的前一个抓取周期内的抓取压力不大于目标压力值且持续时间超过预设时长,则基于第五预设规则对第一抓取压力限值进行上调,其中所示目标压力值为第一抓取压力限值的预设占比。
其中,目标压力值可以为第一抓取压力限值的预设占比,例如百分之九十。预设时长可以为抓取周期时间长度的一定占比,如预设周期的时长可以为十分钟,预设时长可以为五分钟。
在抓取压力不大于目标压力值且持续时间超过预设时长时,可以认为压力单元的额外抓取压力较少,即实时性需求较少时,实际的抓取压力则极少突破第一抓取压力限值,并且持续时间较长,这时可能会导致第一抓取压力限值的失真。
本公开式实施例中,可以基于第五预设规则对第一抓取压力限值进行上调,随着时间的推移,第一抓取压力限值在多个抓取周期内进行持续上调后,一般会达到真实压力上限或者会达到第二抓取压力限值,这时可能会触发前文中将第一抓取压力限值与第二抓取压力限值进行下调的规则,从而能够避免第一抓取压力限值的失真。
作为一个示例,第二预设规则可以根据如下公式确定:
公式:A’=max(A+1,(A+B)/2)
其中,A’为调整后的第一抓取压力限值,A为调整前的第一抓取压力限值,B第二抓取压力限值,max为取最大值的函数,即在第一抓取压力限值与第二抓取压力限值的平均值,以及调整前的第一抓取压力限值加1所得值之间取最大值。
本公开的一种可选方式中,上述方法还包括:
确定在历史抓取周期内待评估网站的抓取压力与待评估网站对应第三抓取压力限值的差值是否与待评估网站在历史抓取周期内的抓取成功率相关;
若相关,则将待评估网站确定为待抓取网站。
在实际使用中,网站的抓取效果可能受多方面因素影响,从因此可能会存在抓取压力与抓取成功率不直接相关的情况,这类网站则不适于通过本公开实施例中提供的抓取压力的控制方法进行抓取压力的控制。
具体而言,第三抓取压力限值相当于上述的当前周期的第一抓取压力限值,可以计算待评估网站的抓取压力第三抓取压力限值的差值,并确定差值是否与抓取成功率相关,从而判断存在抓取压力与抓取成功率是否直接相关。
本公开实施例中,可以将抓取压力与抓取成功率是否直接相关的待评估网站确定为待抓取网站,通过上述抓取压力的控制方法进行抓取压力的控制。
作为一个示例,图2中示出了本公开实施提供的一种用于评估抓取压力与抓取成功率相关性的象限的示意图,其中,X轴表示待评估网站的抓取压力第三抓取压力限值的差值,Y轴表示抓取成功率。图2所示的象限中包括可靠象限、待收敛象限以及相悖区域。图2中的虚线表示相悖区域。
落入可靠象限的待评估网站,其抓取压力与抓取成功率相关,落入待收敛象限的待评估网站,其抓取压力与抓取成功率的相关性需要进一步分析。落入相悖区域的待评估网站,其抓取压力与抓取成功率的无关。
基于与图1中所示的方法相同的原理,图3示出了本公开实施例提供的一种抓取压力的控制装置的结构示意图,如图3所示,该抓取压力的控制装置30可以包括:
压力单元匹配模块310,用于基于待抓取网站的网址将待抓取网站匹配至预配置的压力单元;
压力限值确定模块320,用于基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值;
抓取压力控制模块330,用于基于第一抓取压力限值以及第二抓取压力限值,对压力单元在当前抓取周期内的抓取压力进行控制,其中,抓取压力小于第二抓取压力限值,抓取压力在满足预设的压力条件时可大于第一抓取压力限值。
本公开实施例提供的装置,通过基于待抓取网站的网址将待抓取网站匹配至对应的压力单元,基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值,从而基于第一抓取压力限值以及第二抓取压力限值对压力单元在当前抓取周期内的抓取压力进行控制,本方案中,通过将待抓取网站匹配至对应的压力单元,并针对压力单元配置第一抓取压力限值以及第二抓取压力限值,实现对压力单元的压力控制,既能够满足实际的抓取需求,又能够避免抓取压力过高,有效的避免了抓取失败问题的产生。
可选地,预设的压力条件包括:
抓取压力中包括额外抓取压力,额外抓取压力所对应的抓取任务需要在预设时限内完成。
可选地,压力单元包括至少两个,各压力单元预配置有匹配优先级,压力单元匹配模块具体用于:
依照匹配优先级由高到低的顺序,遍历各匹配优先级的压力单元,并依次确定基于待抓取网站的网址能否将待抓取网站匹配至各匹配优先级的压力单元,直至将待抓取网站匹配至压力单元,或者遍历结束。
可选地,压力单元包括:
与待抓取网站的网址中的访问路径相对应的第一压力单元;
与待抓取网站的网址中的站点相对应的第二压力单元;以及,
与待抓取网站的网址中的域名相对应的第三压力单元,其中,各压力单元的匹配优先级由高到低依次为第一压力单元、第二压力单元以及第三压力单元。
可选地,上述装置还包括压力单元调整模块,压力单元调整模块用于:
在基于待抓取网站的网址将待抓取网站匹配至对应的压力单元之前,基于历史抓取数据对压力单元的进行拆分和/或合并。
可选地,历史抓取数据包括历史抓取压力,压力单元调整模块在基于历史抓取数据对压力单元的进行合并时,具体用于:
若存在对应的历史抓取压力中的额外抓取压力不大于第一预设值的第一目标压力单元,则将第一目标压力单元合并至相应的第二目标压力单元,其中第一目标压力单元的匹配优先级并非最低,第二目标压力单元的匹配优先级低于第一目标压力单元一级。
可选地,历史抓取数据包括历史抓取成功率,压力单元调整模块在基于历史抓取数据对压力单元的进行拆分时,具体用于:
若存在对应的历史抓取成功率小于第二预设值的第三目标压力单元,则将第三目标压力单元拆分为至少一个第四目标压力单元,其中,第三目标压力单元的匹配优先级并非最高,第四目标压力单元的匹配优先级高于第三目标压力单元一级。
可选地,历史抓取数据包括当前抓取周期的前一个抓取周期内的历史第一抓取压力限值以及历史第二抓取压力限值,压力限值确定模块具体用于:
若压力单元的在前一个抓取周期内的抓取压力大于历史第一抓取压力限值,且压力单元在前一个抓取周期内抓取成功率大于预设的第一成功率阈值,则基于第一预设规则上调历史第一抓取压力限值,并将上调后的历史第一抓取压力限值作为第一抓取压力限值;若第一抓取压力限值小于历史第二抓取压力限值,则将历史第二抓取压力限值作为第二抓取压力限值;若第一抓取压力限值不小于历史第二抓取压力限值,则基于预设的第二规则对历史第二抓取压力限值进行上调,将上调后的历史第二抓取压力限值作为第二抓取压力限值。
若压力单元的在前一个抓取周期内的抓取压力不大于历史第一抓取压力限值,且压力单元在前一个抓取周期内抓取成功率小于预设的第二成功率阈值,则基于第三预设规则将历史第二抓取压力限值下调,将下调后的历史第二抓取压力限值作为第二抓取压力限值,若第二抓取压力限值大于历史第一抓取压力限值,则将历史第一抓取压力限值作为第一抓取压力限值;若第二抓取压力限值不大于历史第一抓取压力限值,则基于第四预设规则将历史第一抓取压力限值下调,将下调后的历史第一抓取压力限值作为第一抓取压力限值。
可选地,上述压力限值调整模块还用于:
若当前抓取周期的前一个抓取周期内的抓取压力不大于目标压力值且持续时间超过预设时长,则基于第五预设规则对第一抓取压力限值进行上调,其中所示目标压力值为第一抓取压力限值的预设占比。
可选地,上述装置还包括相关性评估模块,相关性评估模块用于:
确定在历史抓取周期内待评估网站的抓取压力与待评估网站对应第三抓取压力限值的差值是否与待评估网站在历史抓取周期内的抓取成功率相关;
若相关,则将待评估网站确定为待抓取网站。
可以理解的是,本公开实施例中的抓取压力的控制装置的上述各模块具有实现图1中所示的实施例中的抓取压力的控制方法相应步骤的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件,上述各模块可以单独实现,也可以多个模块集成实现。对于上述抓取压力的控制装置的各模块的功能描述具体可以参见图1中所示实施例中的抓取压力的控制方法的对应描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如本公开实施例提供的抓取压力的控制方法。
该电子设备与现有技术相比,通过基于待抓取网站的网址将待抓取网站匹配至对应的压力单元,基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值,从而基于第一抓取压力限值以及第二抓取压力限值对压力单元在当前抓取周期内的抓取压力进行控制,本方案中,通过将待抓取网站匹配至对应的压力单元,并针对压力单元配置第一抓取压力限值以及第二抓取压力限值,实现对压力单元的压力控制,既能够满足实际的抓取需求,又能够避免抓取压力过高,有效的避免了抓取失败问题的产生。
该可读存储介质为存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如本公开实施例提供的抓取压力的控制方法。
该可读存储介质与现有技术相比,通过基于待抓取网站的网址将待抓取网站匹配至对应的压力单元,基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值,从而基于第一抓取压力限值以及第二抓取压力限值对压力单元在当前抓取周期内的抓取压力进行控制,本方案中,通过将待抓取网站匹配至对应的压力单元,并针对压力单元配置第一抓取压力限值以及第二抓取压力限值,实现对压力单元的压力控制,既能够满足实际的抓取需求,又能够避免抓取压力过高,有效的避免了抓取失败问题的产生。
该计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本公开实施例提供的抓取压力的控制方法。
该计算机程序产品与现有技术相比,通过基于待抓取网站的网址将待抓取网站匹配至对应的压力单元,基于压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值,从而基于第一抓取压力限值以及第二抓取压力限值对压力单元在当前抓取周期内的抓取压力进行控制,本方案中,通过将待抓取网站匹配至对应的压力单元,并针对压力单元配置第一抓取压力限值以及第二抓取压力限值,实现对压力单元的压力控制,既能够满足实际的抓取需求,又能够避免抓取压力过高,有效的避免了抓取失败问题的产生。
图4示出了可以用来实施本公开的实施例的示例电子设备2000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备2000包括计算单元2010,其可以根据存储在只读存储器(ROM)2020中的计算机程序或者从存储单元2080加载到随机访问存储器(RAM)2030中的计算机程序,来执行各种适当的动作和处理。在RAM 2030中,还可存储设备2000操作所需的各种程序和数据。计算单元2010、ROM 2020以及RAM 2030通过总线2040彼此相连。输入/输出(I/O)接口2050也连接至总线2040。
设备2000中的多个部件连接至I/O接口2050,包括:输入单元2060,例如键盘、鼠标等;输出单元2070,例如各种类型的显示器、扬声器等;存储单元2080,例如磁盘、光盘等;以及通信单元2090,例如网卡、调制解调器、无线通信收发机等。通信单元2090允许设备2000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元2010可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元2010的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元2010执行本公开实施例中所提供的抓取压力的控制方法。例如,在一些实施例中,行本公开实施例中所提供的抓取压力的控制方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元2080。在一些实施例中,计算机程序的部分或者全部可以经由ROM 2020和/或通信单元2090而被载入和/或安装到设备2000上。当计算机程序加载到RAM 2030并由计算单元2010执行时,可以执行本公开实施例中所提供的抓取压力的控制方法的一个或多个步骤。备选地,在其他实施例中,计算单元2010可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例中所提供的抓取压力的控制方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.抓取压力的控制方法,包括:
基于待抓取网站的网址将所述待抓取网站匹配至预配置的压力单元;
基于所述压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值;
基于所述第一抓取压力限值以及第二抓取压力限值,对所述压力单元在当前抓取周期内的抓取压力进行控制,其中,所述抓取压力小于所述第二抓取压力限值,所述抓取压力在满足预设的压力条件时可大于所述第一抓取压力限值。
2.根据权利要求1所述的方法,其中,所述压力条件包括:
所述抓取压力中包括额外抓取压力,所述额外抓取压力所对应的抓取任务需要在预设时限内完成。
3.根据权利要求1或2所述的方法,其中,所述压力单元包括至少两个,各所述压力单元预配置有匹配优先级,所述基于待抓取网站的网址将所述待抓取网站匹配至对应的压力单元,包括:
依照匹配优先级由高到低的顺序,遍历各匹配优先级的压力单元,并依次确定基于待抓取网站的网址能否将所述待抓取网站匹配至各匹配优先级的压力单元,直至将所述待抓取网站匹配至所述压力单元,或者遍历结束。
4.根据权利要求3所述的方法,其中,所述压力单元包括:
与所述待抓取网站的网址中的访问路径相对应的第一压力单元;
与所述待抓取网站的网址中的站点相对应的第二压力单元;以及,
与所述待抓取网站的网址中的域名相对应的第三压力单元,其中,所述各所述压力单元的匹配优先级由高到低依次为第一压力单元、第二压力单元以及第三压力单元。
5.根据权利要求3或4所述的方法,在基于待抓取网站的网址将所述待抓取网站匹配至对应的压力单元之前,所述方法还包括:
基于历史抓取数据对所述压力单元的进行拆分和/或合并。
6.根据权利要求5所述的方法,其中,所述历史抓取数据包括历史抓取压力,基于历史抓取数据对所述压力单元的进行合并,包括:
若存在对应的历史抓取压力中的额外抓取压力不大于第一预设值的第一目标压力单元,则将所述第一目标压力单元合并至相应的第二目标压力单元,其中所述第一目标压力单元的匹配优先级并非最低,所述第二目标压力单元的匹配优先级低于所述第一目标压力单元一级。
7.根据权利要求5所述的方法,其中,所述历史抓取数据包括历史抓取成功率,基于历史抓取数据对所述压力单元的进行拆分,包括:
若存在对应的历史抓取成功率小于第二预设值的第三目标压力单元,则将所述第三目标压力单元拆分为至少一个第四目标压力单元,其中,所述第三目标压力单元的匹配优先级并非最高,所述第四目标压力单元的匹配优先级高于所述第三目标压力单元一级。
8.根据权利要求1-7中任一项所述的方法,所述历史抓取数据包括所述当前抓取周期的前一个抓取周期内的历史第一抓取压力限值以及历史第二抓取压力限值,所述基于所述压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值,包括以下至少一项:
若所述压力单元的在所述前一个抓取周期内的抓取压力大于所述历史第一抓取压力限值,且所述压力单元在所述前一个抓取周期内抓取成功率大于预设的第一成功率阈值,则基于第一预设规则上调所述历史第一抓取压力限值,并将上调后的所述历史第一抓取压力限值作为所述第一抓取压力限值;若所述第一抓取压力限值小于所述历史第二抓取压力限值,则将所述历史第二抓取压力限值作为所述第二抓取压力限值;若所述第一抓取压力限值不小于所述历史第二抓取压力限值,则基于预设的第二规则对所述历史第二抓取压力限值进行上调,将上调后的所述历史第二抓取压力限值作为所述第二抓取压力限值;
若所述压力单元的在所述前一个抓取周期内的抓取压力不大于所述历史第一抓取压力限值,且所述压力单元在所述前一个抓取周期内抓取成功率小于预设的第二成功率阈值,则基于第三预设规则将所述历史第二抓取压力限值下调,将下调后的所述历史第二抓取压力限值作为所述第二抓取压力限值,若所述第二抓取压力限值大于所述历史第一抓取压力限值,则将所述历史第一抓取压力限值作为所述第一抓取压力限值;若所述第二抓取压力限值不大于所述历史第一抓取压力限值,则基于第四预设规则将所述历史第一抓取压力限值下调,将下调后的所述历史第一抓取压力限值作为所述第一抓取压力限值。
9.根据权利要求1-8中任一项所述的方法,还包括:
若所述当前抓取周期的前一个抓取周期内的抓取压力不大于目标压力值且持续时间超过预设时长,则基于第五预设规则对所述第一抓取压力限值进行上调,其中所示目标压力值为所述第一抓取压力限值的预设占比。
10.根据权利要求1-9中任一项所述的方法,还包括:
确定在历史抓取周期内待评估网站的抓取压力与所述待评估网站对应第三抓取压力限值的差值是否与所述待评估网站在所述历史抓取周期内的抓取成功率相关;
若相关,则将所述待评估网站确定为待抓取网站。
11.一种抓取压力的控制装置,包括:
压力单元匹配模块,用于基于待抓取网站的网址将所述待抓取网站匹配至预配置的压力单元;
压力限值确定模块,用于基于所述压力单元的历史抓取数据,确定第一抓取压力限值以及第二抓取压力限值;
抓取压力控制模块,用于基于所述第一抓取压力限值以及第二抓取压力限值,对所述压力单元在当前抓取周期内的抓取压力进行控制,其中,所述抓取压力小于所述第二抓取压力限值,所述抓取压力在满足预设的压力条件时可大于所述第一抓取压力限值。
12.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。
CN202110760039.3A 2021-07-05 2021-07-05 抓取压力的控制方法、装置、电子设备及可读存储介质 Active CN113486229B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202110760039.3A CN113486229B (zh) 2021-07-05 2021-07-05 抓取压力的控制方法、装置、电子设备及可读存储介质
EP22836504.5A EP4202729A1 (en) 2021-07-05 2022-03-07 Method and apparatus for grabbing pressure, electronic device and readable storage medium
US18/027,039 US20230376545A1 (en) 2021-07-05 2022-03-07 Method and apparatus for controlling scraping pressure
PCT/CN2022/079548 WO2023279744A1 (zh) 2021-07-05 2022-03-07 抓取压力的控制方法、装置、电子设备及可读存储介质
JP2023511953A JP2023539570A (ja) 2021-07-05 2022-03-07 キャプチャ圧力の制御方法、装置、電子機器及び読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110760039.3A CN113486229B (zh) 2021-07-05 2021-07-05 抓取压力的控制方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113486229A true CN113486229A (zh) 2021-10-08
CN113486229B CN113486229B (zh) 2023-11-07

Family

ID=77941044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110760039.3A Active CN113486229B (zh) 2021-07-05 2021-07-05 抓取压力的控制方法、装置、电子设备及可读存储介质

Country Status (5)

Country Link
US (1) US20230376545A1 (zh)
EP (1) EP4202729A1 (zh)
JP (1) JP2023539570A (zh)
CN (1) CN113486229B (zh)
WO (1) WO2023279744A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023279744A1 (zh) * 2021-07-05 2023-01-12 北京百度网讯科技有限公司 抓取压力的控制方法、装置、电子设备及可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
US20130041881A1 (en) * 2011-08-09 2013-02-14 Microsoft Corporation Optimizing web crawling with user history
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN103530392A (zh) * 2013-10-22 2014-01-22 北京奇虎科技有限公司 确定抓取流量的方法及设备
CN103544278A (zh) * 2013-10-22 2014-01-29 北京奇虎科技有限公司 确定网站抓取流量配额的方法及设备
CN103559083A (zh) * 2013-10-11 2014-02-05 北京奇虎科技有限公司 网页爬取任务调度方法与任务调度器
CN104392000A (zh) * 2014-12-15 2015-03-04 北京奇虎科技有限公司 确定移动站点抓取配额的方法和装置
CN108400963A (zh) * 2017-10-23 2018-08-14 平安科技(深圳)有限公司 电子装置、访问请求控制方法和计算机可读存储介质
CN112541106A (zh) * 2020-12-19 2021-03-23 广州市创乐信息技术有限公司 网络数据获取方法、装置、计算机设备和存储介质
WO2021114454A1 (zh) * 2019-12-13 2021-06-17 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN112995046A (zh) * 2019-12-12 2021-06-18 上海云盾信息技术有限公司 一种内容分发网络流量管理方法及设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210255B2 (en) * 2015-12-31 2019-02-19 Fractal Industries, Inc. Distributed system for large volume deep web data extraction
US10423675B2 (en) * 2016-01-29 2019-09-24 Intuit Inc. System and method for automated domain-extensible web scraping
US11144601B2 (en) * 2017-04-17 2021-10-12 Yodlee, Inc. Mobile web scraping
CN110555147A (zh) * 2018-03-30 2019-12-10 上海媒科锐奇网络科技有限公司 网站数据抓取方法、装置、设备及其介质
US11410115B2 (en) * 2018-09-11 2022-08-09 International Business Machines Corporation Scraping network sites to arrange expedited delivery services for items
CN112948731A (zh) * 2019-12-11 2021-06-11 中兴通讯股份有限公司 网站域名资源的缓存分析方法、系统及计算机存储介质
CN113486229B (zh) * 2021-07-05 2023-11-07 北京百度网讯科技有限公司 抓取压力的控制方法、装置、电子设备及可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
US20130041881A1 (en) * 2011-08-09 2013-02-14 Microsoft Corporation Optimizing web crawling with user history
CN103116638A (zh) * 2013-02-19 2013-05-22 人民搜索网络股份公司 网页筛选方法及装置
CN103559083A (zh) * 2013-10-11 2014-02-05 北京奇虎科技有限公司 网页爬取任务调度方法与任务调度器
CN103530392A (zh) * 2013-10-22 2014-01-22 北京奇虎科技有限公司 确定抓取流量的方法及设备
CN103544278A (zh) * 2013-10-22 2014-01-29 北京奇虎科技有限公司 确定网站抓取流量配额的方法及设备
CN104392000A (zh) * 2014-12-15 2015-03-04 北京奇虎科技有限公司 确定移动站点抓取配额的方法和装置
CN108400963A (zh) * 2017-10-23 2018-08-14 平安科技(深圳)有限公司 电子装置、访问请求控制方法和计算机可读存储介质
CN112995046A (zh) * 2019-12-12 2021-06-18 上海云盾信息技术有限公司 一种内容分发网络流量管理方法及设备
WO2021114454A1 (zh) * 2019-12-13 2021-06-17 网宿科技股份有限公司 一种检测爬虫请求的方法和装置
CN112541106A (zh) * 2020-12-19 2021-03-23 广州市创乐信息技术有限公司 网络数据获取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RONGFENGLIANG: "网络爬虫了解", pages 1 - 10, Retrieved from the Internet <URL:https://blog.51cto.com/rongfengliang/3119072> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023279744A1 (zh) * 2021-07-05 2023-01-12 北京百度网讯科技有限公司 抓取压力的控制方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
EP4202729A1 (en) 2023-06-28
CN113486229B (zh) 2023-11-07
JP2023539570A (ja) 2023-09-15
WO2023279744A1 (zh) 2023-01-12
US20230376545A1 (en) 2023-11-23

Similar Documents

Publication Publication Date Title
KR20210156243A (ko) 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체
CN113242358A (zh) 音频数据处理方法、装置、系统、电子设备及存储介质
CN113486229B (zh) 抓取压力的控制方法、装置、电子设备及可读存储介质
CN113360266B (zh) 任务处理方法和装置
CN114742237A (zh) 联邦学习模型聚合方法、装置、电子设备及可读存储介质
CN112615795A (zh) 流量控制方法、装置、电子设备、存储介质及产品
CN114327918B (zh) 调整资源量的方法、装置、电子设备和存储介质
CN113676531B (zh) 电商流量削峰方法、装置、电子设备及可读存储介质
CN115617549A (zh) 线程解耦方法、装置、电子设备及存储介质
CN114416357A (zh) 容器组的创建方法、装置、电子设备和介质
CN114139605A (zh) 分布式的模型训练方法、系统、设备以及存储介质
CN113961641A (zh) 数据库同步方法、装置、设备和存储介质
CN114051057A (zh) 云设备排队时长的确定方法、装置、电子设备和介质
CN115357346B (zh) 基于区块链的事务处理方法、装置、电子设备及介质
CN113762510B (zh) 针对目标模型的数据处理方法、装置、电子设备和介质
US20230267060A1 (en) Performance testing method and apparatus, and storage medium
CN115361449A (zh) Ip资源的调整方法、装置、设备及存储介质
CN117081939A (zh) 一种流量数据处理方法、装置、设备及存储介质
CN115545684A (zh) 基于区块链的事务处理方法、装置、电子设备及介质
CN117979210A (zh) 音频传输方法、装置、电子设备及存储介质
CN115718608A (zh) 一种参数更新方法、装置、电子设备和存储介质
CN116801001A (zh) 视频流的处理方法、装置、电子设备及存储介质
CN115730000A (zh) 一种基于数据湖的医疗数据集成方法、装置、设备及介质
CN116185818A (zh) 一种代码测试方法、装置、电子设备及存储介质
CN117873731A (zh) 计算任务的执行方法、装置、芯片、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant