CN113360736B - 互联网数据的抓取方法和装置 - Google Patents
互联网数据的抓取方法和装置 Download PDFInfo
- Publication number
- CN113360736B CN113360736B CN202110688823.8A CN202110688823A CN113360736B CN 113360736 B CN113360736 B CN 113360736B CN 202110688823 A CN202110688823 A CN 202110688823A CN 113360736 B CN113360736 B CN 113360736B
- Authority
- CN
- China
- Prior art keywords
- internet data
- new
- grabbing
- determining
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 13
- 230000007547 defect Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000009193 crawling Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开提供了互联网数据的抓取方法和装置,涉及数据处理技术领域中的大数据和智能搜索技术领域。包括:根据预设的第一抓取频率抓取预设时间段内的第一互联网数据,并确定第一互联网数据相对于预存的第二互联网数据的新增信息,第二互联网数据为在预设时间段之前抓取到的互联网数据,根据预设时间段和新增信息,确定第一互联网数据相对于第二互联网数据的第一增量密度,并根据第一增量密度和新增信息确定第二抓取频率,根据第二抓取频率对预设时间段后的互联网数据进行抓取,避免了基于固定抓取频率对互联网数据进行抓取造成的灵活性偏低的问题,提高了抓取互联网数据的灵活性,且提高了动态抓取互联网数据的准确性和可靠性的技术效果。
Description
技术领域
本公开涉及数据处理技术领域中的大数据和智能搜索技术领域,尤其涉及一种互联网数据的抓取方法和装置。
背景技术
随着互联网技术的发展,每天有海量的数据在互联网中产生,包括新增的数据,如首次发表于互联网的新闻数据等,也包括对历史的数据更新后的数据,如对历史的新闻数据的评论数据等。
在现有技术中,通常采用的互联网数据(即互联网中的数据)的抓取方法包括:设置用于抓取互联网数据的固定抓取频率,根据该固定抓取频率从互联网中抓取互联网数据。
然而,互联网数据在新增和更新的时间上具有不可确定性,通过固定抓取频率对互联网数据进行抓取,可能造成互联网的访问压力较大,且可能因固定抓取频率的设置不合理,而造成的抓取互联网数据的可靠性和准确性偏低的技术问题。
发明内容
本公开提供了一种用于提高抓取互联网数据的可靠性的互联网数据的抓取方法和装置。
根据本公开的第一方面,提供了一种互联网数据的抓取方法,包括:
根据预设的第一抓取频率抓取预设时间段内的第一互联网数据,并确定所述第一互联网数据相对于预存的第二互联网数据的新增信息,所述第二互联网数据为在所述预设时间段之前抓取到的互联网数据;
根据所述预设时间段和所述新增信息,确定所述第一互联网数据相对于所述第二互联网数据的第一增量密度,并根据所述第一增量密度和所述新增信息确定第二抓取频率;
根据所述第二抓取频率对所述预设时间段后的互联网数据进行抓取。
根据本公开的第二方面,提供了一种互联网数据的抓取装置,包括:
第一抓取单元,用于根据预设的第一抓取频率抓取预设时间段内的第一互联网数据;
第一确定单元,用于确定所述第一互联网数据相对于预存的第二互联网数据的新增信息,所述第二互联网数据为在所述预设时间段之前抓取到的互联网数据;
第二确定单元,用于根据所述预设时间段和所述新增信息,确定所述第一互联网数据相对于所述第二互联网数据的第一增量密度;
第三确定单元,用于根据所述第一增量密度和所述新增信息确定第二抓取频率;
第二抓取单元,用于根据所述第二抓取频率对所述预设时间段后的互联网数据进行抓取。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是可以实现本公开实施例的互联网数据的抓取方法的场景示意图;
图2是根据本公开第一实施例的示意图;
图3是根据本公开第二实施例的示意图;
图4是根据本公开第三实施例的示意图;
图5是根据本公开第四实施例的示意图;
图6是根据本公开第五实施例的示意图;
图7是根据本公开第六实施例的示意图;
图8是根据本公开第七实施例的示意图;
图9是用来实现本公开实施例的互联网数据的抓取方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
用户设备可以连接至互联网,且用户设备响应于用户对用户设备的操作,可以在互联网中产生互联网数据。其中,互联网数据可以为访问网页而产生的浏览数据等,也可以为针对某互联网数据进行评论的评论数据等,本实施例不做限定。
示例性地,如图1所示,用户设备A连接至互联网,用户设备A基于用户a的操作在互联网中生成互联网数据a’,以此类推,用户设备N连接至互联网,用户设备N基于用户n的操作在互联网中生成互联网数据n’。
随着用户设备被广泛地使用,以及互联网的较全面覆盖,互联网数据无论是在类型上,还是在数量上均有迅速的增长,相应地,如何提高互联网数据的抓取的可靠性成了亟待解决的问题。
在相关技术中,通常采用的方法为:基于人工设置的方式设置固定抓取频率,并基于该固定抓取频率从互联网中抓取互联网数据,且为了提高抓取到的互联网数据的有效性和可靠性,通常将固定抓取频率设置为间隔时间较短的抓取频率。
然而,一方面,基于人工设置的方式对固定抓取频率进行设置时,容易导致固定抓取频率受人为主观因素的影响,导致固定抓取频率的合理性和准确性偏低的技术问题;另一方面,由于互联网数据的受关注程度具有一定的变化趋势,且不同的互联网数据的变化趋势可能存在较大的区别等原因,若采用固定抓取频率对互联网数据进行抓取,容易存在固定抓取频率的设置合理性偏低,从而导致基于固定抓取频率抓取互联网数据的可靠性和准确性偏低的技术问题。
为了解决上述技术问题中的至少一种,本公开发明人经过创造性地劳动,得到了本公开的发明构思:根据互联网数据的新增信息,动态的调整抓取频率,以便基于调整后的抓取频率对互联网数据进行抓取。
基于上述发明构思,本公开提供一种互联网数据的抓取方法和装置,应用于数据处理技术领域中的大数据和智能搜索技术领域,以达到抓取互联网数据的准确性和可靠性。
图2是根据本公开第一实施例的示意图,如图2所示,本实施例的互联网数据的抓取方法,包括:
S201:根据预设的第一抓取频率抓取预设时间段内的第一互联网数据,并确定第一互联网数据相对于预存的第二互联网数据的新增信息,第二互联网数据为在预设时间段之前抓取到的互联网数据。
示例性地,本实施例的执行主体可以为互联网数据的抓取装置(下文简称为抓取装置),抓取装置可以为服务器(如本地服务器,或者,云端服务器),也可以为终端设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
其中,第一抓取频率和预设时间段可以由抓取装置基于需求、历史记录、以及试验等方式进行设置,本实施例不做限定。
第一抓取频率中的“第一”用于与后文中的第二抓取频率进行区分,用于表征对抓取频率进行自动调整之前的初始抓取频率,而不能理解为对抓取频率的限定。
第一互联网数据和第二互联网数据为相对概念,第一互联网数据是指基于第一抓取频率抓取到的预设时间段内的互联网数据,第二互联网数据是指在预设时间段之前抓取到的互联网数据。
在一些实施例中,第二互联网数据的抓取频率与第一互联网数据的抓取频率(即第一抓取频率)不同,如第一抓取频率是基于第二互联网数据的抓取频率进行自动调整得到的。
S202:根据预设时间段和新增信息,确定第一互联网数据相对于第二互联网数据的第一增量密度,并根据第一增量密度和新增信息确定第二抓取频率。
其中,第一增量密度可以用于表征相对于第二互联网数据而言,第一互联网数据的增长的频率。
在本实施例中,通过确定从第二互联网数据至第一互联网数据的第一增量密度,并根据第一增量密度和新增信息确定第二抓取频率,可以实现对第二抓取频率的动态调整,且由于第二抓取频率是基于第一增量密度确定的,因此,可以使得第二抓取频率与互联网数据增长之间具有较强的贴合性,从而可以提高第二抓取频率的准确性和可靠性的技术效果。
S203:根据第二抓取频率对预设时间段后的互联网数据进行抓取。
基于上述分析可知,本公开实施例提供了一种互联网数据的抓取方法,包括:根据预设的第一抓取频率抓取预设时间段内的第一互联网数据,并确定第一互联网数据相对于预存的第二互联网数据的新增信息,第二互联网数据为在预设时间段之前抓取到的互联网数据,根据预设时间段和新增信息,确定第一互联网数据相对于第二互联网数据的第一增量密度,并根据第一增量密度和新增信息确定第二抓取频率,根据第二抓取频率对预设时间段后的互联网数据进行抓取,在本实施例中,引入了:确定第一增量密度,并根据第一增量密度和新增信息确定第二抓取频率,以便基于第二抓取频率对互联网数据进行抓取的特征,可以实现对抓取互联网数据的抓取频率进行动态抓取,避免了相关技术中基于固定抓取频率对互联网数据进行抓取造成的灵活性偏低和准确性偏低的问题,提高了抓取互联网数据的灵活性,且使得抓取互联网数据的抓取频率与互联网数据变化之间高度关联,避免了相关技术中固定抓取频率较小时,因频繁抓取互联网数据造成的互联网承载访问压力较大的弊端,适当释放了互联网承载访问的压力,也避免了相关技术中固定抓取频率较大时,因延迟抓取互联网数据造成的互联网数据更新较慢的弊端,提高了及时抓取互联网数据的可行性,进而提了高动态抓取互联网数据的准确性和可靠性的技术效果。
图3是根据本公开第二实施例的示意图,如图3所示,本实施例的互联网数据的抓取方法,包括:
S301:根据预设的第一抓取频率抓取预设时间段内的第一互联网数据,并确定第一互联网数据相对于预存的第二互联网数据的新增增量值,第二互联网数据为在预设时间段之前抓取到的互联网数据。
示例性地,关于S301的实现原理,可以参见S201,此处不再赘述。
其中,新增增量值可以表征相对于第二互联网数据的数据量而言,第一互联网数据的新增的数据量。
例如,若第二互联网数据的数据量为L1,第一互联网数据的数据量为L2,则新增增量值△L=L2-L1。
在一些实施例中,预设时间段包括多个时间片段,如预设时间段为T,T可以包括四个时间片段,分别为时间片段t1、时间片段t2、时间片段t3、以及时间片段t4,即t1+t2+t3+t4=T。
相应地,若时间片段t1为预设时间段T中第一个时间片段,且时间片段t1内的互联网数据相对于第二互联网数据的新增增量值为Z1、t2时间片段内的互联网数据相对于时间片段t1内的新增增量值为Z2、时间片段t3内的互联网数据相对于时间片段t2内的新增增量值为Z3、时间片段t4内的互联网数据相对于时间片段t3内的新增增量值为Z4,则预设时间段T内的新增增量值=Z1+Z2+Z3+Z4。
S302:根据预设时间段和新增增量值,确定第一互联网数据相对于第二互联网数据的第一增量密度。
示例性地,关于S302的实现原理,可以参见S202,此处不再赘述。
结合上述示例,若预设时间段包括多个时间片段,则S302可以包括:若任意时间片段内没有新增增量值,且任意时间片段的下一个时间片段存在新增信息,则将任意时间片段和下一时间片段组合成一个新的时间片段,并根据新的时间片段、以及新的时间片段内的新增信息,确定为与新的时间片段对应的第一增量密度。
例如,若时间片段t2没有新增增量值,即Z2=0,且时间片段t3有新增增量值,即Z3>0,则可以将时间片段t2与时间片段t3组合成一个新的时间片段,从而得到该新的时间片段对应的第一增量密度。
值得说明地是,在本实施例中,通过以时间片段为单位对预设时间段进行划分,可以使得不同时间片段的抓取互联网数据的抓取频率具有较强的独立性和灵活性,且通过在某时间片段没有新增增量值的情况下,与其他相邻时间片段进行组合,可以实现从整体上考虑抓取频率,避免过长时间未对新增的互联网数据进行抓取的弊端,也避免了没有新增互联网数据时对互联网数据进行抓取造成的浪费资源的弊端,提高了抓取新增的互联网数据的准确性和可靠性的技术效果。
在另一些实施例中,若任意连续多个时间片段内没有新增信息,且任意连续多个时间片段的下一个时间片段存在新增信息,则将任意连续多个时间片段和下一个时间片段组合成一个新的时间片段,并根据新的时间片段、以及新的时间片段内的新增信息,确定为与新的时间片段对应的第一增量密度。
例如,若时间片段t2和时间片段t3均没有新增增量值,即Z2=0,Z3=0,且时间片段t4有新增增量值,即Z4>0,则可以将时间片段t2、时间片段t3、以及时间片段t4组合成一个新的时间片段,从而得到该新的时间片段对应的第一增量密度。
同理,在本实施例中,通过以时间片段为单位对预设时间段进行划分,可以使得不同时间片段的抓取互联网数据的抓取频率具有较强的独立性和灵活性,且通过在某时间片段没有新增增量值的情况下,与其他相邻时间片段进行组合,可以实现从整体上考虑抓取频率,避免过长时间未对新增的互联网数据进行抓取的弊端,也避免了没有新增互联网数据时对互联网数据进行抓取造成的浪费资源的弊端,提高了抓取新增的互联网数据的准确性和可靠性的技术效果。
S303:将新增增量值与第一增量密度之间的比值确定为待调抓取频率。
S304:调整待调抓取频率,直至满足新增增量值与调整后的待抓取频率得到的第二增量密度达到1时,将与第二增量密度对应的待调抓取频率确定为第二抓取频率。
该步骤可以理解为:在将新增增量值与第一增量密度之间的比值确定为待调抓取频率之后,逐渐调整待调抓取频率,每一次调整待调抓取频率,确定基于调整后的待抓取频率确定的第二增量密度是否达到1,如果已经达到,则将满足第二增量密度达到1的调整后的待抓取频率确定为第二抓取频率。
值得说明地是,在本实施例中,通过将满足第二增量密度达到1的调整后的待抓取频率确定为第二抓取频率,相当于根据互联网数据的增长情况动态的对抓取互联网数据的抓取频率进行动态地调整,使得调整得到的第二抓取频率可以与互联网数据的增长情况高度关联,从而避免了因抓取频率过快导致的浪费抓取资源的弊端,也避免了因抓取频率过慢导致的互联网数据抓取偏慢,无法较快的对互联网数据进行更新的弊端,实现了节约抓取资源,提高抓取互联网数据的准确性和可靠性的技术效果。
结合上述示例,若预设时间段包括多个时间片段,则第二抓取频率为包括多个抓取频率的抓取频率序列,例如,若四个时间片段中的每一时间片段均有新增增量值,则四个时间片段中的每一时间片段对应有用于在后续时间中对互联网数据进行抓取的抓取频率,则将四个用于在后续时间中对互联网数据进行抓取的抓取频率进行组合,可以得到抓取频率序列。
值得说明地是,在本实施例中,通过根据每一时间片段对应的第一增量密度和新增增量值,确定并生成抓取频率序列,例如,抓取频率序列为{3,2,2,1},若抓取频率的单位为周,则抓取装置先三周抓取一次互联网数据,两周之后抓取一次互联网数据,再两周之后抓取一次互联网数据,再一周之后抓取一次互联网数据,可以实现根据不同的抓取频率对互联网数据进行抓取,从而提高互联网数据的抓取的灵活性的技术效果。
S305:根据第二抓取频率对预设时间段后的互联网数据进行抓取。
图4是根据本公开第三实施例的示意图,如图4所示,本实施例的互联网数据的抓取方法,包括:
S401:根据预设的第一抓取频率抓取预设时间段内的第一互联网数据,并确定第一互联网数据相对于预存的第二互联网数据的新增信息,第二互联网数据为在预设时间段之前抓取到的互联网数据。
示例性地,关于S401的实现原理,可以参见第一实施例中地描述,也可以参见第二实施例中地描述,此处不再赘述。
S402:根据预设时间段和每一类型的第一互联网数据的新增信息,确定每一类型的第一互联网数据相对于第二互联网数据的第一增量密度,并根据每一类型的第一增量密度和新增信息确定每一类型的互联网数据的第二抓取频率。
例如,页是数据存储的基本单元,根据该基本单位,互联网数据的类型可以包括:索引页类型、内容页类型、问答页类型、以及论坛页类型等。
在一些实施例中,在页为基本单元的基础上,可以进一步对互联网数据进行细分。例如,针对论坛页类型划分后的第一互联网数据,基于论坛的内容再次对该第一互联网数据进行划分。
S403:确定每一类型的第一互联网数据的新增信息的新增强度,并根据每一新增强度确定各类型的互联网数据的第二抓取频率的优先级。
其中,新增信息与新增强度之间正相关关系,如新增信息的内容越多(即新增增量值越大),新增强度越大;反之,若新增信息的内容越少(即新增增量值越小),新增强度越小。
在本实施例中,每一类型的第一互联网数据具有相应的新增强度,第二抓取频率包括每一类型互联网数据的第二抓取频率,如索引页类型的第一互联网数据具有新增强度,内容页类型的第一互联网数据具有新增强度,若引页类型的第一互联网数据具有新增强度>内容页类型的第一互联网数据具有新增强度,则确定引页类型的互联网数据的第二抓取频率的优先级大于内容页类型的互联网数据第二抓取频率的优先级。
S404:根据具有优先级的第二抓取频率对预设时间段后的互联网数据进行抓取。
也就是说,在本实施例中,在获取到第一互联网数据之后,根据互联网数据的类型,对第一互联网数据进行分类,得到不同类型下的第一互联网数据,而在后续处理(如确定第一增量密度等)时,根据不同类型下的第一互联网数据进行处理,以便得到每一类型的互联网数据的第二抓取频率,从而可以实现针对不同类型的互联网数据,采用不同的抓取频率进行抓取,提高互联网数据进行抓取的灵活性,且实现对互联网数据进行抓取的较强针对性的技术效果。
图5是根据本公开第四实施例的示意图,如图5所示,本实施例的互联网数据的抓取方法,包括:
S501:根据预设的第一抓取频率抓取预设时间段内的第一互联网数据。
示例性地,关于S501的实现原理,可以参见第一实施例中地描述,也可以参见第二实施例中地描述,此处不再赘述。
S502:从第一互联网数据和预存的第二互联网数据中,分别获取与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据。
其中,第二互联网数据为在预设时间段之前抓取到的互联网数据。
互联网数据可以包括两个维度的内容,一个维度的内容为互联网网页本体相关的互联网数据,另一个维度的内容为互联网网页内容相关的互联网数据。
具体地,互联网网页本体相关的互联网数据是指与互联网网页的更新相关的互联网数据,如索引页的链接更新的互联网数据;互联网网页内容相关的互联网数据是指与用户反馈相关的互联网数据,如基于用户的新增评论(也可以为阅读、点赞、点灭、点踩、收藏、分享、转发、回答、赞赏等)而形成的互联网数据等。
S503:根据与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据,确定新增信息。
值得说明地是,在本实施例中,通过从不同的维度对互联网数据进行统计,从而得到新增信息,可以使得新增信息具有较高的丰富程度和全面性的技术效果。
在一些实施例中,S503可以包括如下步骤:
第一步骤:根据与互联网网页本体相关的互联网数据,确定相对于第二互联网数据,第一互联网数据的互联网网页本体相关的第一新增互联网数据。
第二步骤:根据互联网网页内容相关的互联网数据,确定相对于第二互联网数据,第一互联网数据的互联网网页内容相关的第二新增互联网数据。
第三步骤:根据第一新增互联网数据和第二新增互联网数据,确定新增信息。
例如,可以将第一新增互联网数据和第二新增互联网数据之和,确定为新增信息,即新增信息包括从两个维度分别增加的互联网数据。
在一些实施例中,新增信息包括新增增量值,第三步骤可以包括如下子步骤:
第一子步骤:确定与第一新增互联网数据对应的第一增量值,并确定与第二新增互联网数据的第二增量值。
第二子步骤:根据预先为互联网网页本体相关的互联网数据分配的第一权重、预先为互联网网页内容相关的互联网数据分配的第二权重、第一增量值、以及第二增量值,确定新增增量值。
同理,第一权重和第二权重可以由抓取装置基于需求、历史记录、以及试验等方式进行设置,本实施例不做限定。
若第一增量值为change_num,第二增量值为feedback_num,第一权重为w_change,第二权重为w_feedback,则新增增量值=w_change*change_num+w_feedback*feedback_num。
S504:根据预设时间段和新增信息,确定第一互联网数据相对于第二互联网数据的第一增量密度,并根据第一增量密度和新增信息确定第二抓取频率。
S505:根据第二抓取频率对预设时间段后的互联网数据进行抓取。
示例性地,关于S504和S505的实现原理,可以参阅第一实施例至第三实施例中任意实施例。
图6是根据本公开第五实施例的示意图,如图6所示,本实施例的互联网数据的抓取装置600,包括:
第一抓取单元601,用于根据预设的第一抓取频率抓取预设时间段内的第一互联网数据。
第一确定单元602,用于确定第一互联网数据相对于预存的第二互联网数据的新增信息,第二互联网数据为在预设时间段之前抓取到的互联网数据。
第二确定单元603,用于根据预设时间段和新增信息,确定第一互联网数据相对于第二互联网数据的第一增量密度。
第三确定单元604,用于根据第一增量密度和新增信息确定第二抓取频率。
第二抓取单元605,用于根据第二抓取频率对预设时间段后的互联网数据进行抓取。
图7是根据本公开第六实施例的示意图,如图7所示,本实施例的互联网数据的抓取装置700,包括:
第一抓取单元701,用于根据预设的第一抓取频率抓取预设时间段内的第一互联网数据。
第一确定单元702,用于确定第一互联网数据相对于预存的第二互联网数据的新增信息,第二互联网数据为在预设时间段之前抓取到的互联网数据。
第二确定单元703,用于根据预设时间段和新增信息,确定第一互联网数据相对于第二互联网数据的第一增量密度。
结合图7可知,在一些实施例中,预设时间段包括多个时间片段;第二确定单元703,包括:
组合子单元7031,用于若任意时间片段内没有新增信息,且任意时间片段的下一个时间片段存在新增信息,则将任意时间片段和下一时间片段组合成一个新的时间片段。
第三确定子单元7032,用于根据新的时间片段、以及新的时间片段内的新增信息,确定为与新的时间片段对应的第一增量密度。
在另一些实施例中,组合子单元7031,用于若任意连续多个时间片段内没有新增信息,且任意连续多个时间片段的下一个时间片段存在新增信息,则将任意连续多个时间片段和下一个时间片段组合成一个新的时间片段。
第三确定子单元7032,用于根据新的时间片段、以及新的时间片段内的新增信息,确定为与新的时间片段对应的第一增量密度。
第三确定单元704,用于根据第一增量密度和新增信息确定第二抓取频率。
结合图7可知,在一些实施例中,第二抓取频率为包括多个抓取频率的抓取频率序列;第三确定单元704,包括:
第四确定子单元7041,用于根据每一时间片段对应的第一增量密度和新增信息,确定与每一时间片段对应的抓取频率。
生成子单元7042,用于基于各抓取时间频率对应的各时间片段在时间上的先后关系,生成包括多个抓取频率的抓取频率序列。
第二抓取单元705,用于根据第二抓取频率对预设时间段后的互联网数据进行抓取。
图8是根据本公开第七实施例的示意图,如图8所示,本实施例的互联网数据的抓取装置800,包括:
第一抓取单元801,用于根据预设的第一抓取频率抓取预设时间段内的第一互联网数据。
第一确定单元802,用于确定第一互联网数据相对于预存的第二互联网数据的新增信息,第二互联网数据为在预设时间段之前抓取到的互联网数据。
结合图8可知,在一些实施例中,第一确定单元802,包括:
获取子单元8021,用于从第二互联网数据和第一互联网数据中,分别获取与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据。
第六确定子单元8022,用于根据与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据,确定新增信息。
在一些实施例中,第六确定子单元8022,包括:
第一确定模块,用于根据与互联网网页本体相关的互联网数据,确定相对于第二互联网数据,第一互联网数据的互联网网页本体相关的第一新增互联网数据。
第二确定模块,用于根据互联网网页内容相关的互联网数据,确定相对于第二互联网数据,第一互联网数据的互联网网页内容相关的第二新增互联网数据。
第三确定模块,用于根据第一新增互联网数据和第二新增互联网数据,确定新增信息。
第二确定单元803,用于根据预设时间段和新增信息,确定第一互联网数据相对于第二互联网数据的第一增量密度。
第三确定单元804,用于根据第一增量密度和新增信息确定第二抓取频率。
结合图8可知,在一些实施例中,新增信息中包括新增增量值;第三确定单元804,包括:
第一确定子单元8041,用于将新增增量值与第一增量密度之间的比值确定为待调抓取频率。
调整子单元8042,用于调整待调抓取频率。
第二确定子单元8043,用于直至满足新增增量值与调整后的待抓取频率得到的第二增量密度达到1时,将与第二增量密度对应的待调抓取频率确定为第二抓取频率。
第二抓取单元805,用于根据第二抓取频率对预设时间段后的互联网数据进行抓取。
结合图8可知,在一些实施例中,新增信息中包括与每一类型的第一互联网数据的新增信息;第二抓取频率包括每一类型的互联网数据的第二抓取频率;第二抓取单元805,包括:
第五确定子单元8051,用于确定每一类型的第一互联网数据的新增信息的新增强度,并根据每一新增强度确定各类型的互联网数据的第二抓取频率的优先级。
抓取子单元8052,用于根据具有优先级的第二抓取频率对预设时间段后的互联网数据进行抓取。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,电子设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如互联网数据的抓取方法。例如,在一些实施例中,互联网数据的抓取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的互联网数据的抓取方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行互联网数据的抓取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (16)
1.一种互联网数据的抓取方法,包括:
根据预设的第一抓取频率抓取预设时间段内的第一互联网数据,并确定所述第一互联网数据相对于预存的第二互联网数据的新增信息,所述第二互联网数据为在所述预设时间段之前抓取到的互联网数据;
根据所述预设时间段和所述新增信息,确定所述第一互联网数据相对于所述第二互联网数据的第一增量密度,并根据所述第一增量密度和所述新增信息确定第二抓取频率;
根据所述第二抓取频率对所述预设时间段后的互联网数据进行抓取;
其中,所述新增信息中包括新增增量值;根据所述第一增量密度和所述新增信息确定第二抓取频率,包括:
将所述新增增量值与所述第一增量密度之间的比值确定为待调抓取频率,调整所述待调抓取频率,直至满足所述新增增量值与调整后的待抓取频率得到的第二增量密度达到1时,将与所述第二增量密度对应的待调抓取频率确定为所述第二抓取频率。
2.根据权利要求1所述的方法,其中,所述预设时间段包括多个时间片段;根据所述预设时间段和所述新增信息,确定所述第一互联网数据相对于所述第二互联网数据的第一增量密度,包括:
若任意时间片段内没有新增信息,且所述任意时间片段的下一个时间片段存在新增信息,则将所述任意时间片段和所述下一时间片段组合成一个新的时间片段,并根据所述新的时间片段、以及所述新的时间片段内的新增信息,确定为与所述新的时间片段对应的第一增量密度。
3.根据权利要求2所述的方法,其中,所述第二抓取频率为包括多个抓取频率的抓取频率序列;根据所述第一增量密度和所述新增信息确定第二抓取频率,包括:
根据每一时间片段对应的第一增量密度和新增信息,确定与每一时间片段对应的抓取频率,并基于各抓取时间频率对应的各时间片段在时间上的先后关系,生成包括多个抓取频率的抓取频率序列。
4.根据权利要求1所述的方法,其中,所述预设时间段包括多个时间片段;根据所述预设时间段和所述新增信息,确定所述第一互联网数据相对于所述第二互联网数据的第一增量密度,包括:
若任意连续多个时间片段内没有新增信息,且所述任意连续多个时间片段的下一个时间片段存在新增信息,则将所述任意连续多个时间片段和所述下一个时间片段组合成一个新的时间片段,并根据所述新的时间片段、以及所述新的时间片段内的新增信息,确定为与所述新的时间片段对应的第一增量密度。
5.根据权利要求1至3中任一项所述的方法,其中,所述新增信息中包括与每一类型的第一互联网数据的新增信息;所述第二抓取频率包括每一类型的互联网数据的第二抓取频率;根据所述第二抓取频率对所述预设时间段后的互联网数据进行抓取,包括:
确定每一类型的第一互联网数据的新增信息的新增强度,并根据每一新增强度确定各类型的互联网数据的第二抓取频率的优先级;
根据具有优先级的第二抓取频率对所述预设时间段后的互联网数据进行抓取。
6.根据权利要求1至4中任一项所述的方法,其中,确定所述第一互联网数据相对于预存的第二互联网数据的新增信息,包括:
从所述第二互联网数据和所述第一互联网数据中,分别获取与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据;
根据与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据,确定所述新增信息。
7.根据权利要求6所述的方法,其中,根据与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据,确定所述新增信息,包括:
根据与互联网网页本体相关的互联网数据,确定相对于所述第二互联网数据,所述第一互联网数据的互联网网页本体相关的第一新增互联网数据;
根据互联网网页内容相关的互联网数据,确定相对于所述第二互联网数据,所述第一互联网数据的互联网网页内容相关的第二新增互联网数据;
根据所述第一新增互联网数据和所述第二新增互联网数据,确定所述新增信息。
8.一种互联网数据的抓取装置,包括:
第一抓取单元,用于根据预设的第一抓取频率抓取预设时间段内的第一互联网数据;
第一确定单元,用于确定所述第一互联网数据相对于预存的第二互联网数据的新增信息,所述第二互联网数据为在所述预设时间段之前抓取到的互联网数据;
第二确定单元,用于根据所述预设时间段和所述新增信息,确定所述第一互联网数据相对于所述第二互联网数据的第一增量密度;
第三确定单元,用于根据所述第一增量密度和所述新增信息确定第二抓取频率;
第二抓取单元,用于根据所述第二抓取频率对所述预设时间段后的互联网数据进行抓取;
其中,所述新增信息中包括新增增量值;所述第三确定单元,包括:
第一确定子单元,用于将所述新增增量值与所述第一增量密度之间的比值确定为待调抓取频率;
调整子单元,用于调整所述待调抓取频率;
第二确定子单元,用于直至满足所述新增增量值与调整后的待抓取频率得到的第二增量密度达到1时,将与所述第二增量密度对应的待调抓取频率确定为所述第二抓取频率。
9.根据权利要求8所述的装置,其中,所述预设时间段包括多个时间片段;所述第二确定单元,包括:
组合子单元,用于若任意时间片段内没有新增信息,且所述任意时间片段的下一个时间片段存在新增信息,则将所述任意时间片段和所述下一时间片段组合成一个新的时间片段;
第三确定子单元,用于根据所述新的时间片段、以及所述新的时间片段内的新增信息,确定为与所述新的时间片段对应的第一增量密度。
10.根据权利要求9所述的装置,其中,所述第二抓取频率为包括多个抓取频率的抓取频率序列;所述第三确定单元,包括:
第四确定子单元,用于根据每一时间片段对应的第一增量密度和新增信息,确定与每一时间片段对应的抓取频率;
生成子单元,用于基于各抓取时间频率对应的各时间片段在时间上的先后关系,生成包括多个抓取频率的抓取频率序列。
11.根据权利要求8所述的装置,其中,所述预设时间段包括多个时间片段;所述第二确定单元,包括:
组合子单元,用于若任意连续多个时间片段内没有新增信息,且所述任意连续多个时间片段的下一个时间片段存在新增信息,则将所述任意连续多个时间片段和所述下一个时间片段组合成一个新的时间片段;
第三确定子单元,用于根据所述新的时间片段、以及所述新的时间片段内的新增信息,确定为与所述新的时间片段对应的第一增量密度。
12.根据权利要求8至10中任一项所述的装置,其中,所述新增信息中包括与每一类型的第一互联网数据的新增信息;所述第二抓取频率包括每一类型的互联网数据的第二抓取频率;所述第二抓取单元,包括:
第五确定子单元,用于确定每一类型的第一互联网数据的新增信息的新增强度,并根据每一新增强度确定各类型的互联网数据的第二抓取频率的优先级;
抓取子单元,用于根据具有优先级的第二抓取频率对所述预设时间段后的互联网数据进行抓取。
13.根据权利要求8至11中任一项所述的装置,其中,所述第一确定单元,包括:
获取子单元,用于从所述第二互联网数据和所述第一互联网数据中,分别获取与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据;
第六确定子单元,用于根据与互联网网页本体相关的互联网数据、以及与互联网网页内容相关的互联网数据,确定所述新增信息。
14.根据权利要求13所述的装置,其中,所述第六确定子单元,包括:
第一确定模块,用于根据与互联网网页本体相关的互联网数据,确定相对于所述第二互联网数据,所述第一互联网数据的互联网网页本体相关的第一新增互联网数据;
第二确定模块,用于根据互联网网页内容相关的互联网数据,确定相对于所述第二互联网数据,所述第一互联网数据的互联网网页内容相关的第二新增互联网数据;
第三确定模块,用于根据所述第一新增互联网数据和所述第二新增互联网数据,确定所述新增信息。
15. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688823.8A CN113360736B (zh) | 2021-06-21 | 2021-06-21 | 互联网数据的抓取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688823.8A CN113360736B (zh) | 2021-06-21 | 2021-06-21 | 互联网数据的抓取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360736A CN113360736A (zh) | 2021-09-07 |
CN113360736B true CN113360736B (zh) | 2023-08-01 |
Family
ID=77535500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110688823.8A Active CN113360736B (zh) | 2021-06-21 | 2021-06-21 | 互联网数据的抓取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360736B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102184253A (zh) * | 2011-05-30 | 2011-09-14 | 北京搜狗科技发展有限公司 | 对网络资源进行抓取及更新消息推送的方法及系统 |
CN102402627A (zh) * | 2011-12-31 | 2012-04-04 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取系统和方法 |
US8255385B1 (en) * | 2011-03-22 | 2012-08-28 | Microsoft Corporation | Adaptive crawl rates based on publication frequency |
CN103605670A (zh) * | 2013-10-29 | 2014-02-26 | 北京奇虎科技有限公司 | 一种用于确定网络资源点的抓取频率的方法和装置 |
CN103617264A (zh) * | 2013-12-02 | 2014-03-05 | 北京奇虎科技有限公司 | 时效性种子页的抓取方法及装置 |
CN103631919A (zh) * | 2013-12-02 | 2014-03-12 | 北京奇虎科技有限公司 | 时效性种子页的抓取方法及装置 |
CN103945278A (zh) * | 2013-01-21 | 2014-07-23 | 中国科学院声学研究所 | 一种视频内容及内容源爬取方法 |
CN105868327A (zh) * | 2016-03-28 | 2016-08-17 | 浪潮软件集团有限公司 | 一种基于不同更新策略的分布式网络爬虫抓取方法 |
CN110489626A (zh) * | 2019-08-05 | 2019-11-22 | 苏州闻道网络科技股份有限公司 | 一种信息采集方法和装置 |
-
2021
- 2021-06-21 CN CN202110688823.8A patent/CN113360736B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8255385B1 (en) * | 2011-03-22 | 2012-08-28 | Microsoft Corporation | Adaptive crawl rates based on publication frequency |
CN102184253A (zh) * | 2011-05-30 | 2011-09-14 | 北京搜狗科技发展有限公司 | 对网络资源进行抓取及更新消息推送的方法及系统 |
CN102402627A (zh) * | 2011-12-31 | 2012-04-04 | 凤凰在线(北京)信息技术有限公司 | 一种文章实时智能抓取系统和方法 |
CN103945278A (zh) * | 2013-01-21 | 2014-07-23 | 中国科学院声学研究所 | 一种视频内容及内容源爬取方法 |
CN103605670A (zh) * | 2013-10-29 | 2014-02-26 | 北京奇虎科技有限公司 | 一种用于确定网络资源点的抓取频率的方法和装置 |
CN103617264A (zh) * | 2013-12-02 | 2014-03-05 | 北京奇虎科技有限公司 | 时效性种子页的抓取方法及装置 |
CN103631919A (zh) * | 2013-12-02 | 2014-03-12 | 北京奇虎科技有限公司 | 时效性种子页的抓取方法及装置 |
CN105868327A (zh) * | 2016-03-28 | 2016-08-17 | 浪潮软件集团有限公司 | 一种基于不同更新策略的分布式网络爬虫抓取方法 |
CN110489626A (zh) * | 2019-08-05 | 2019-11-22 | 苏州闻道网络科技股份有限公司 | 一种信息采集方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113360736A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508768B (zh) | 单算子多模型流水线推理方法、系统、电子设备及介质 | |
KR20210156243A (ko) | 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체 | |
CN113242358A (zh) | 音频数据处理方法、装置、系统、电子设备及存储介质 | |
CN113778644B (zh) | 任务的处理方法、装置、设备及存储介质 | |
CN114065864B (zh) | 联邦学习方法、联邦学习装置、电子设备以及存储介质 | |
CN113904943B (zh) | 账号检测方法、装置、电子设备和存储介质 | |
CN112948081B (zh) | 延时处理任务的方法、装置、设备以及存储介质 | |
CN113360736B (zh) | 互联网数据的抓取方法和装置 | |
CN116594563A (zh) | 分布式存储扩容方法、装置、电子设备和存储介质 | |
CN116661960A (zh) | 一种批量任务处理方法、装置、设备以及存储介质 | |
CN112667368A (zh) | 一种任务数据处理方法和装置 | |
CN115438007A (zh) | 一种文件合并方法、装置、电子设备及介质 | |
CN113014674B (zh) | 服务依赖关系图的绘制方法及装置 | |
CN113010285B (zh) | 用于处理数据的方法、装置、设备、介质和产品 | |
CN115269145A (zh) | 一种面向海上无人设备的高能效异构多核调度方法及装置 | |
CN114139605A (zh) | 分布式的模型训练方法、系统、设备以及存储介质 | |
CN114500105A (zh) | 一种网络包的拦截方法、装置、设备及存储介质 | |
CN114564149A (zh) | 一种数据存储方法、装置、设备及存储介质 | |
CN115442432B (zh) | 一种控制方法、装置、设备及存储介质 | |
CN113961263B (zh) | 小程序分发方法、装置、设备和存储介质 | |
CN116048791B (zh) | 一种测试节点的调控方法、装置、电子设备以及存储介质 | |
CN117632431A (zh) | 云计算任务的调度方法、装置、设备及存储介质 | |
CN115309568A (zh) | 一种实现多进程文件共享的方法、装置、设备及介质 | |
CN116628306A (zh) | 网页资源获取方法、装置、电子设备和存储介质 | |
CN117634825A (zh) | 资源动态配置方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |