CN113010812B - 信息采集方法、装置、电子设备和存储介质 - Google Patents
信息采集方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113010812B CN113010812B CN202110262292.6A CN202110262292A CN113010812B CN 113010812 B CN113010812 B CN 113010812B CN 202110262292 A CN202110262292 A CN 202110262292A CN 113010812 B CN113010812 B CN 113010812B
- Authority
- CN
- China
- Prior art keywords
- category
- acquired
- network address
- collected
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012545 processing Methods 0.000 abstract description 23
- 238000004590 computer program Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000001545 Page's trend test Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种信息采集方法、装置、电子设备、存储介质以及计算机程序产品,涉及人工智能技术领域,具体为大数据处理技术领域。具体实现方案为:在待采集第K级类目的网络地址信息不包含在已采集第K级类目文件中的情况下,基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本;基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息;在所述待采集第M级类目所对应的网络地址信息不包含在已采集第M级类目文件中的情况下,基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及大数据处理技术领域。
背景技术
随着互联网技术、人工智能以及大数据等技术的普及和发展,线上教育的需求越来越大,线上教育离不开优质的信息资源。然而在相关技术中,信息的采集处理效率较低,进而基于信息构建对应的目标文件或信息数据库的效率也较低。因此,如何提升信息采集的效率就成为需要解决的问题。
发明内容
本公开提供了一种信息采集方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种信息采集方法,包括:
在待采集第K级类目的网络地址信息不包含在已采集第K级类目文件中的情况下,基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本;K为大于等于1的整数;
基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息;M为大于K的整数;
在所述待采集第M级类目所对应的网络地址信息不包含在已采集第M级类目文件中的情况下,基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件。
根据本公开的另一方面,提供了一种信息采集装置,包括:
第一获取模块,用于在待采集第K级类目的网络地址信息不包含在已采集第K级类目文件中的情况下,基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本;K为大于等于1的整数;
第二获取模块,用于基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息;M为大于K的整数;
信息采集模块,用于在所述待采集第M级类目所对应的网络地址信息不包含在已采集第M级类目文件中的情况下,基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,计算机指令用于使计算机执行本公开任一实施例提供的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开任一实施例提供的方法。
根据本公开的技术方案,可以避免重复采集信息的问题,提升了信息采集的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开一个实施例提供的信息采集方法的流程示意图一;
图2是本公开一个实施例提供的信息采集方法的流程示意图二;
图3是本公开另一个实施例提供的信息采集方法的流程示意图三;
图4是本公开一个实施例提供的一种信息采集装置的结构示意图一;
图5是本公开一个实施例提供的另一种信息采集装置的结构示意图二;
图6是用来实现本公开实施例的信息采集方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开一个实施例提供的信息采集方法的示意图。如图1所示,该方法包括:
S101:在待采集第K级类目的网络地址信息不包含在已采集第K级类目文件中的情况下,基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本;K为大于等于1的整数;
S102:基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息;M为大于K的整数;
S103:在所述待采集第M级类目所对应的网络地址信息不包含在已采集第M级类目文件中的情况下,基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件。
本实施例可以应用于电子设备,比如,可以是终端设备或服务器。
所述待采集第K级类目可以是待采集学科;所述待采集第K个类目的网络地址信息可以为所述待采集学科的网络地址信息;其中,所述待采集学科的网络地址信息可以为所述待采集学科的URL(Uniform Resource Locator,统一资源定位符)。
其中,所述URL为互联网上资源的地址,是对可以从互联网上得到的资源的位置和访问方法的一种表示。
所述已采集第K级类目文件可以为本地保存的文件,其中可以包括有R个已采集第K级类目的网络地址信息;R可以为大于等于0的整数。
举例来说,所述已采集第K级类目文件可以为已采集学科文件,比如,可以为电子设备中保存的已采集学科文件,其中可以包含有R个已采集学科分别对应的网络地址信息;R可以为大于等于0的整数。示例性的,所述已采集学科文件中可以包括有R个已采集学科分别对应的URL。
所述已采集第K级类目文件中可以不包含任何网络地址信息,比如在第一次进行信息采集的情况下,可能并没有任何已采集第K级类目对应的网络地址,此时所述已采集第K级类目文件中包含的已采集第K级类目的网络地址信息的数量可以为0;随着信息采集的处理,可以在所述已采集第K级类目文件中将已采集第K级类目的网络地址信息添加至所述已采集第K级类目文件中。
本实施例提供的方法还可以包括:判断所述待采集第K级类目的网络地址信息是否包含在已采集第K级类目文件中,若包含在所述已采集第K级类目文件中,则不基于所述待采集第K级类目的网络地址信息进行处理;若不包含在所述已采集第K级类目文件中,则基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本。
示例性的可以为:判断所述待采集学科的网络地址信息是否包含在已采集学科文件中,若包含在所述已采集学科文件中,则不基于所述待采集学科的网络地址信息进行处理;若不包含在所述已采集学科文件中,则基于所述待采集学科的网络地址信息,获取所述待采集学科的相关内容文本。
所述基于待采集第K级类目的网络地址信息,获取所述待采集学科的相关内容文本,可以包括:基于所述待采集第K级类目的URL生成针对所述待采集第K级类目的URL请求;基于所述待采集第K级类目的所述URL请求获取所述待采集第K级类目所对应的文件;从所述文件中获取所述待采集第K级类目的相关内容文本。
比如,可以为基于所述待采集学科的URL生成针对所述待采集学科的URL请求;基于所述待采集学科的所述URL请求获取所述待采集学科所对应的文件;从所述文件中获取所述待采集学科的相关内容文本。也就是说,在互联网的服务器侧保存的每一个文件或资源都可以对应一个唯一的URL,在电子设备侧可以根据所述待采集学科的URL从互联网中访问到所述待采集学科对应的文件。其中,所述待采集学科的URL所对应的文件具体可以为超文本标记语言文档格式的网页。
其中,从所述文件中获取所述待采集第K级类目的相关内容文本,可以为:将所述文件中包含的全部内容作为所述待采集第K级类目的相关内容文本;又或者,可以为:将所述文件中包含的全部内容中的无效内容删除,将删除所述无效内容之后的剩余内容作为所述待采集第K级类目的相关内容文本。
所述待采集第M级类目所对应的网络地址信息具体可以为:所述待采集第M级类目的URL;比如,可以是待采集章节的URL。这里,关于所述URL的说明与前述实施例相同,不做重复说明。
所述已采集第M级类目文件具体可以为本地保存的文件,比如,可以为电子设备中保存的已采集第M级类目文件,用于记录已采集第M级类目所对应的网络地址信息。这里,所述M为大于K的整数,一种情况下,M等于K+1,也就是说,第M级类目可以为第K级类目的下一级类目,即K+1级类目。
举例来说,所述已采集第M级类目文件具体为已采集章节文件,其中可以包括L个已采集章节分别对应的L个URL;L为大于等于0的整数。
本实施例提供的方案还可以包括:判断所述待采集第M级类目的网络地址是否保存在所述已采集第M级类目文件中,若保存在所述已采集第M级类目文件中,则重新选择新的待采集第M级类目所对应的网络地址信息进行后续处理。
所述基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件,可以是:基于所述待采集第M级类目所对应的网络地址信息,获取所述待采集第M级类目所包含的内容,从所述待采集第M级类目所包含的内容中提取待采集第M级类目的目标信息,将所述目标信息添加至所述目标文件中。举例来说,待采集第M级类目为待采集章节,其中,待采集章节为待采集学科中的多个待采集章节中之一的情况下,基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件,可以为:基于所述待采集章节所对应的网络地址信息,获取所述待采集章节所包含的内容,从所述待采集章节所包含的内容中提取待采集章节的试题数据,将所述试题数据添加至所述试题数据文件中。
可见,通过采用上述方案,可以通过待采集第K级类目的网络地址信息就可以获取该第K级类目所包含的待采集第M级类目中的目标信息,并且由于增加了已采集第K级类目文件以及已采集第M级类目文件来确保当前的待采集第M级类目为之前未采集过的,这样可以避免重复采集目标信息的问题,提升了目标信息的采集的效率;尤其是可以避免在信息采集过程中发生重启的情况下重复采集目标信息的问题,保证了这种情况下的目标信息采集的效率。
另外,通过采用上述方案,可以采用两层判断的方式,不需要完成该学科的全部第M级类目的判断才可以确定该第K级类目已经完成采集,从而进一步保证了信息采集的效率。
在一种实施方式中,所述基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息,包括:
从所述待采集第K级类目的相关内容文本中,获取第M级类目的网络地址列表;从所述第M级类目的网络地址列表中,选取所述待采集第M级类目所对应的网络地址信息。
举例来说,若所述第K级类目为待采集学科,所述待采集第M级类目为所述待采集学科下包含的待采集章节,则基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息,包括:从所述待采集学科的相关内容文本中,获取所述待采集学科所对应的章节网络地址列表;从所述待采集学科所对应的章节网络地址列表中,选取所述待采集章节所对应的网络地址信息。
前述从所述待采集第K级类目的相关内容文本中,获取第M级类目的网络地址列表,具体可以为:从所述待采集第K级类目的相关内容文本中,获取N个候选第M级类目的网络地址信息;基于所述N个候选第M级类目的网络地址信息生成所述待采集第K级类目所对应的所述第M级类目的网络地址列表。
这里,N可以为1或者可以为大于1的整数。即可以从所述待采集第K级类目的相关内容文本中获取一个或多个候选第M级类目的网络地址信息,将所述一个或多个候选第M级类目的网络地址信息全部添加至所述待采集第K级类目所对应的所述第M级类目的网络地址列表。其中,所述N个候选第M级类目的网络地址信息具体可以为所述N个候选第M级类目分别对应的URL,再具体可以为N个候选章节分别对应的URL。
所述从所述第M级类目的网络地址列表中,选取所述待采集第M级类目所对应的网络地址信息,可以为:
从所述第M级类目的网络地址列表包含的所述N个候选第M级类目的网络地址信息中,选取一个未采集第M级类目的网络地址信息作为所述待采集第M级类目所对应的网络地址信息。
需要理解的是,所述未采集第M级类目的网络地址信息的数量可以是小于或等于所述N个候选第M级类目的网络地址信息的数量的。
比如,在初次确定所述第M级类目网络地址列表中的所述N个候选第M级类目的网络地址信息的时候,未对其中任何一个候选第M级类目进行信息采集处理,此时全部N个候选第M级类目的网络地址信息均为所述未采集第M级类目的网络地址信息;在完成一次针对所述待采集第M级类目的处理之后,可以从所述N个候选第M级类目的网络地址信息中删除所述待采集第M级类目所对应的网络地址信息,又或者,可以将所述N个候选第M级类目的网络地址信息中的待采集第M级类目的网络地址标注为已采集第M级类目的网络地址信息,此时,剩余的未采集第M级类目的网络地址信息的数量小于所述N个候选第M级类目的网络地址信息的数量。
其中,所述从所述第M级类目的网络地址列表包含的所述N个候选第M级类目的网络地址信息中,选取一个未采集第M级类目的网络地址信息作为所述待采集第M级类目所对应的网络地址信息,可以为:
从所述第M级类目网络地址列表包含的所述N个候选第M级类目的网络地址信息中的未采集第M级类目的网络地址信息中,选取任意一个候选第M级类目的网络地址信息作为所述待采集第M级类目所对应的网络地址信息;
或者,根据所述第M级类目网络地址列表中的所述N个候选第M级类目的网络地址信息中的未采集第M级类目的网络地址信息的顺序,选取候选第M级类目的网络地址信息作为所述待采集第M级类目所对应的网络地址信息。其中,所述顺序可以为从上到下的顺序,又或者,可以是从下到上的顺序。
进一步地,在选取所述待采集第M级类目所对应的网络地址信息之后,还可以包括:
判断所述待采集第M级类目所对应的网络地址信息是否包含在所述已采集第M级类目文件中;
若不包含在所述已采集第M级类目文件中,则基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目的目标信息,将所述目标信息添加至目标文件;
若包含在所述已采集第M级类目文件中,则从所述第M级类目的网络地址列表包含的所述N个候选第M级类目的网络地址信息中,重新选取一个未采集第M级类目的网络地址信息作为新的所述待采集第M级类目所对应的网络地址信息。
可见,通过采用上述方案,可以根据待采集第K级类目的相关内容文本,确定所述待采集第K级类目所对应的第M级类目网络地址列表,进而从所述待采集第K级类目所对应的第M级类目网络地址列表中的未采集第M级类目的网络地址信息中,选取待采集第M级类目所对应的网络地址信息。如此,可以保证进行网络地址信息的确定的准确性,以及保证后续进行试题数据采集的处理效率。
本公开提供的再一实施方式中,所述基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件,如图2所示,包括:
S201:基于所述待采集第M级类目所对应的网络地址信息,获取所述待采集第M级类目对应的相关信息;
S202:基于所述待采集第M级类目对应的相关信息,确定所述待采集第M级类目包含的候选内容;
S203:从所述待采集第M级类目包含的所述候选内容中确定待读取内容;
S204:从所述待读取内容中获取目标信息,将所述待读取内容中的所述目标信息添加至所述目标文件。
其中,所述基于所述待采集第M级类目所对应的网络地址信息,获取所述待采集第M级类目对应的相关信息,可以为:
基于所述待采集第M级类目所对应的网络地址信息生成所述待采集第M级类目所对应的请求信息,基于所述待采集第M级类目所对应的请求信息获取所述待采集第M级类目的第一页的相关信息。
比如,基于所述待采集第M级类目所对应的URL生成所述待采集第M级类目所对应的URL请求信息,基于所述待采集第M级类目所对应的URL请求信息获取所述待采集第M级类目的第一页的相关信息。
示例性的,若所述第K级类目为待采集学科,所述待采集第M级类目为所述待采集学科下包含的待采集章节,则基于所述待采集章节所对应的网络地址信息生成所述待采集章节所对应的请求信息,基于所述待采集章节所对应的请求信息获取所述待采集章节的第一页的相关信息。比如,基于所述待采集章节所对应的URL生成所述待采集章节所对应的URL请求信息,基于所述待采集章节所对应的URL请求信息获取所述待采集章节的第一页的相关信息。其中,所述第一页的相关信息可以为所述第一页中包含的具体内容,比如可以包括有所述待采集章节的试题总数量、待采集章节的名称等等。
所述基于所述待采集第M级类目对应的相关信息,确定所述待采集第M级类目包含的候选内容,可以包括:基于所述待采集第M级类目的相关信息,确定所述待采集第M级类目的目标信息总数量;基于所述待采集第M级类目的目标信息总数量以及预设每页目标信息数量,确定所述待采集第M级类目包含的候选内容。
这里,所述基于所述待采集第M级类目的相关信息,确定所述待采集第M级类目的目标信息总数量,可以为:从所述待采集第M级类目的第一页的相关信息中,提取所述待采集第M级类目的目标信息总数量。
所述待采集第M级类目包含的候选内容具体可以为所述待采集第M级类目包含的多个候选内容;关于待采集第M级类目包含的候选内容数量可以根据实际情况不同而不同,这里不对其进行限定。
比如,待采集第M级类目为待采集章节,目标信息为试题,候选内容为候选页面,则基于所述待采集第M级类目对应的相关信息,确定所述待采集第M级类目包含的候选内容,具体可以是基于所述待采集章节的相关信息,确定所述待采集章节的试题总数量;基于所述待采集章节的试题总数量以及预设每页试题数量,确定所述待采集章节包含的多个候选页面。
进一步地,可以是,从所述待采集章节的第一页的相关信息中,提取所述待采集章节的试题总数量,比如通常在每一个章节的第一页中会包含有该章节所包含的全部试题的总数量;本实施例可以通过从所述待采集章节的第一页的相关信息中提取该字段,来确定所述待采集章节的试题总数量。所述基于所述待采集章节的试题总数量以及预设每页试题数量,确定所述待采集章节包含的候选页面,具体可以包括:将所述待采集章节的试题总数量除以所述预设每页试题数量,得到所述待采集章节包含的候选页面的数量。
举例来说,待采集章节的试题总数量比如为800条,所述预设每页试题数量可以根据实际情况设置,比如,可以设置预设每页试题数量为20条;所述将所述待采集章节的试题总数量除以所述预设每页试题数量,也就是800除以20等于40,则所述待采集章节包含的候选页面的数量一共为40页。
需要指出的是,在所述电子设备中还可以保存所述待采集第M级类目对应的已采集内容文件;比如,可以是所述待采集章节所对应的已采集页面文件。
其中,所述待采集第M级类目所对应的已采集内容文件中可以包括有待采集第M级类目所对应的已采集内容的网络地址信息,或者是待采集第M级类目所对应的已采集内容的编号。示例性的,可以是待采集章节所对应的已读取页面的网络地址信息,或者是待采集章节所对应的已读取页面的编号。
这里,所述从所述待读取内容中获取目标信息,可以包括有:生成针对所述待读取内容对应的翻页请求,基于所述翻页请求从所述待读取内容中获取所述目标信息。其中,待读取内容对应的翻页请求的生成方式,可以为:基于所述待读取内容所对应的相关信息、以及所述待采集第M级类目所对应的网络地址信息,生成所述当前待读取内容对应的翻页请求。
示例性的,所述待读取内容所对应的相关信息为待读取页面对应的编号,则待读取内容对应的翻页请求的生成方式可以为:基于所述待读取页面所对应的编号、以及所述待采集章节所对应的网络地址信息,生成所述待读取页面对应的翻页请求。其中,所述待采集章节所对应的网络地址信息为所述待采集章节的URL;可以将所述待读取页面所对应的编号作为参数添加至所述待采集章节的URL中,生成所述待读取页面所对应的翻页URL请求。
所述从所述待读取内容中获取目标信息,将所述待读取内容中的所述目标信息添加至所述目标文件,具体可以为:基于所述待读取内容的目标文本,获取所述待采集第M级类目的待读取内容包含的全部目标信息,将所述全部目标信息添加至所述目标文件。比如,基于所述待读取页面的目标文本,获取所述待采集章节的待读取页面包含的全部试题数据,将所述全部试题数据添加至所述试题数据文件。
可见,通过采用上述方案,可以针对待采集第M级类目进行逐个页面的试题数据的提取。如此,可以避免全部读取完待采集第M级类目的全部内容之后再进行目标信息提取所带来的内存占用过高的问题,提升了试题获取的效率。并且,在进行待读取内容包含的目标信息的采集处理中,结合了本地保存的所述待采集第M级类目的已采集内容文件来判断待读取内容是否已经采集过,在未采集过的情况下,才会获取待读取内容的目标信息,如此,也可以进一步避免重复采集,保证了采集目标信息的效率。
所述从所述待读取内容中获取目标信息,将所述目标信息添加至所述目标文件,包括:在所述待读取内容的相关信息不包含在所述待采集第M级类目对应的已采集内容文件中的情况下,从所述待读取内容中获取目标信息,将所述目标信息添加至所述目标文件。
也就是说,可以从所述待采集第M级类目包含的多个所述候选内容中,选取一个候选内容作为待读取内容;
判断所述待读取内容的相关信息是否包含在所述待采集第M级类目所对应的已采集内容文件中;
在所述待读取内容的相关信息不包含在所述待采集第M级类目对应的已采集内容文件中的情况下,从所述待读取内容中获取目标信息,将所述目标信息添加至所述目标文件;
在所述待读取内容的相关信息包含在所述待采集第M级类目对应的已采集内容文件中的情况下,重新从所述待采集第M级类目包含的多个所述候选内容中,选取一个新的候选内容作为新的所述待读取内容。
这里,选取一个候选内容作为待读取内容的处理方式,可以是:随机从所述多个候选内容中选取一个候选内容作为所述待读取内容;或者,基于多个候选内容的先后顺序,从所述多个候选内容中选取一个候选内容作为所述待读取内容;又或者,基于所述多个候选内容的先后顺序,从所述多个候选内容中的未读取内容中选取一个作为所述待读取内容。
所述未读取内容具体可以为未读取的候选内容。关于所述多个候选内容中每一个候选内容是否已读取内容或未读取内容的确定方式,可以是在每完成一个待读取内容的目标信息的采集之后,在所述多个候选内容中进行标记,比如将所述多个候选内容中的该待读取内容所对应的候选内容标记为已读取,则不包含该标记的为未读取的候选内容。
其中,所述待采集第M级类目可以为待采集章节;所述待读取内容可以为待读取页面,所述待读取内容的相关信息可以为所述待读取页面的编号,所述待采集第M级类目对应的已采集内容文件为所述待采集章节对应的已采集页面文件。相应的,所述判断所述待读取内容的相关信息是否包含在所述待采集第M级类目所对应的已采集内容文件中,可以为:判断所述待读取页面的编号是否包含在所述待采集章节所对应的已采集页面文件中包含的已读取页面的编号中。
另外,所述将所述待读取内容中的所述目标信息添加至所述目标文件之后,还可以包括:将所述待读取内容的相关信息添加至所述待采集第M级类目对应的所述已采集内容文件。示例性的,在完成待读取页面中的试题数据添加至试题数据文件的处理之后,可以确定待读取页面完成处理,进而将所述待读取页面的编号添加至所述待采集章节所对应的已采集页面文件中。
如此,可以在读取每一个待采集第M级类目包含的候选内容的处理中,结合所述待采集第M级类目对应的已采集内容文件来确定待读取内容是否为已经读取过的内容,在不是已读取过的内容的情况下,才会进一步获取所述待读取内容中的目标信息,从而减少重复采集目标信息的情况,提升目标信息采集的效率。
另一种实施方式中,还可以包括:在所述待采集第M级类目包含的候选内容中不包含未读取内容的情况下,将所述待采集第M级类目所对应的网络地址信息添加至所述已采集第M级类目文件中。
具体为:判断所述待采集第M级类目是否包含未读取内容;
若包含未读取内容,则再次重新选取所述待采集第M级类目的待读取内容;
若不包含未读取内容,则可以确定所述待采集第M级类目已经完成目标信息的采集,将所述待采集第M级类目所对应的网络地址信息添加至所述已采集第M级类目文件。
需要理解的是,前述处理中还可以在完成一个待读取内容的目标信息的读取的时候,将所述待采集第M级类目的候选内容中的待读取内容删除或标记为已读取,进而可以判断所述待采集第M级类目的候选内容中是否还存在未读取内容。
可见,在所述待采集第M级类目中不包含未读取内容的情况下,可以确定所述待采集第M级类目已经完成全部的目标信息的采集,将所述待采集第M级类目所对应的URL添加至所述已采集第M级类目文件中。通过采用上述方案,在进行待采集第K级类目的其他未采集第M级类目的处理的时候,可以避免重复进行目标信息的采集,从而保证了采集的效率。
本实施例提供的方案中,还可以包括:在所述待采集第K级类目所对应的所述第M级类目的网络地址列表中不包含未采集第M级类目所对应的网络地址信息的情况下,将所述待采集第K级类目的网络地址信息添加至所述已采集第K级类目文件中。
也就是说,判断所述第M级类目网络地址列表包含的所述N个候选第M级类目的网络地址信息中是否包含未采集第M级类目的网络地址信息,若不包含,则将所述待采集第K级类目的网络地址信息添加至已采集第K级类目文件中;
否则,基于所述待采集第K级类目所对应的第M级类目网络地址列表中包含的未采集第M级类目的网络地址信息,确定所述待采集第M级类目所对应的网络地址信息。
其中,所述基于所述待采集第K级类目所对应的第M级类目网络地址列表中包含的未采集第M级类目的网络地址信息,确定所述待采集第M级类目所对应的网络地址信息,可以是:
从所述待采集第K级类目所对应的第M级类目网络地址列表中包含的未采集第M级类目的网络地址信息中,随机选取一个未采集第M级类目的网络地址信息,作为所述待采集第M级类目所对应的网络地址信息;
又或者,从所述待采集第K级类目所对应的第M级类目网络地址列表中包含的未采集第M级类目的网络地址信息中,基于预设顺序选取一个未采集第M级类目的网络地址信息,作为所述待采集第M级类目所对应的网络地址信息。这里,所述预设顺序可以为按照未采集第M级类目的编号从小到大的顺序,或从大到小的顺序。
进一步地,确定所述待采集第M级类目所对应的网络地址信息之后,可以执行前述S103的处理,具体的不再进行赘述。
示例性的,判断所述第M级类目网络地址列表包含的所述N个候选第M级类目的URL中是否包含未采集第M级类目的URL;若不包含,则将所述待采集第K级类目的URL添加至已采集第K级类目文件中;否则,基于所述待采集第K级类目所对应的第M级类目网络地址列表中包含的未采集第M级类目的URL,确定所述待采集第M级类目所对应的URL。
如此,在所述待采集第K级类目中不包含未采集第M级类目的情况下,可以确定所述待采集第K级类目已经完成全部的目标信息的采集,将所述待采集第K级类目所对应的URL即网络地址信息添加至所述已采集第K级类目文件中。通过采用上述方案,在进行待采集第K级类目的采集处理的时候,可以通过查看已采集第K级类目文件就可以高效的判断是否完成待采集第K级类目的处理,从而避免重复进行目标信息的采集,保证了目标信息的采集的效率。
最后,以前述网络地址信息为URL,前述待采集第K级类目为待采集学科,前述已采集第K级类目文件为已采集学科文件,前述待采集第M级类目为待采集章节,前述已采集第M级类目文件为已采集章节文件,前述目标信息为试题数据,前述目标文件为试题数据文件,前述待读取内容为待读取页面为示例,结合图3对本实施例提供的方案进行说明:
S301:获取待采集学科的URL;
S302:读取已采集学科文件;
S303:判断所述待采集学科的URL是否包含在已采集学科文件中,若是,则结束处理;否则,执行S304。
也就是说,判断所述待采集学科的URL是否保存在所述已采集学科文件中包含的已采集学科的URL中,若是,则所述待采集学科的URL为已采集的URL,不进行后续处理,否则,执行S304。
S304:基于所述待采集学科的URL,获取所述待采集学科所对应的相关内容文本。
这里,还可以包括,判断所述待采集学科的URL是否请求成功,若成功,则获取所述待采集学科所对应的相关内容文本,否则,结束处理。
S305:从所述待采集学科的相关内容文本中,获取所述待采集学科所对应的章节网络地址列表;其中,所述章节网络地址列表中包含N个候选章节的URL,N为大于等于1的整数。
S306:基于所述待采集学科所对应的章节网络地址列表中包含的未采集章节的URL,确定所述待采集章节所对应的URL。
也就是从所述章节网络地址列表包含的所述N个候选章节中的未采集章节中,选取一个未采集章节的URL作为所述待采集章节的URL。
S307:读取已采集章节文件。
S308:判断所述待采集章节的URL是否包含在已采集章节文件中,若是,则返回执行S306;否则,执行S309。
S309:基于所述待采集章节所对应的URL,获取所述待采集章节的相关信息,基于所述待采集章节的相关信息确定所述待采集章节包含的候选页面。
S310:从所述候选页面中确定所述待采集章节的待读取页面。
S311:获取所述待读取页面的目标文本。
比如,可以包括:基于所述待读取页面对应的翻页请求获取所述待读取页面的目标文本。
S312:基于所述待读取页面的目标文本,获取所述待采集章节的待读取页面包含的试题数据,将所述待读取页面包含的所述试题数据添加至所述试题数据文件。
S313:判断所述待采集章节中的候选页面中是否包含未读取页面,若包含,则执行S310;否则,执行S314。
S314:将待采集章节的URL添加至所述已完成章节文件。
S315:判断所述待采集学科所对应的章节网络地址列表中是否包含未采集章节所对应的URL,若包含,则执行S306;否则,执行S316。
S316:将所述待采集学科的URL添加至所述已采集学科文件中。
本公开实施例还提供一种信息采集装置,如图4所示,包括:
第一获取模块401,用于在待采集第K级类目的网络地址信息不包含在已采集第K级类目文件中的情况下,基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本;K为大于等于1的整数;
第二获取模块402,用于基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息;M为大于K的整数;
信息采集模块403,用于在所述待采集第M级类目所对应的网络地址信息不包含在已采集第M级类目文件中的情况下,基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件。
所述第二获取模块402,用于从所述待采集第K级类目的相关内容文本中,获取第M级类目的网络地址列表;从所述第M级类目的网络地址列表中,选取所述待采集第M级类目所对应的网络地址信息。
所述信息采集模块403,用于基于所述待采集第M级类目所对应的网络地址信息,获取所述待采集第M级类目对应的相关信息;基于所述待采集第M级类目对应的相关信息,确定所述待采集第M级类目包含的候选内容;从所述待采集第M级类目包含的所述候选内容中确定待读取内容;从所述待读取内容中获取目标信息,将所述待读取内容中的所述目标信息添加至所述目标文件。
所述信息采集模块403,用于在所述待读取内容的相关信息不包含在所述待采集第M级类目对应的已采集内容文件中的情况下,从所述待读取内容中获取目标信息,将所述目标信息添加至所述目标文件;
以及将所述待读取内容的相关信息添加至所述待采集第M级类目对应的所述已采集内容文件。
如图5所示,在图4提供的信息采集装置的基础上,所述装置还包括:
本地文件管理模块501,用于在所述待采集第M级类目包含的候选内容中不包含未读取内容的情况下,将所述待采集第M级类目所对应的网络地址信息添加至所述已采集第M级类目文件中。
所述本地文件管理模块501,用于在所述待采集第K级类目所对应的所述第M级类目的网络地址列表中不包含未采集第M级类目所对应的网络地址信息的情况下,将所述待采集第K级类目的网络地址信息添加至所述已采集第K级类目文件中。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序来执行各种适当的动作和处理。在RAM 603中,还可存储电子设备600操作所需的各种程序和数据。计算单元001、ROM 602以及RAM 603通过总线604彼此相连。输入输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如内容推荐方法。例如,在一些实施例中,内容推荐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的内容推荐方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行内容推荐方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种信息采集方法,包括:
在待采集第K级类目的网络地址信息不包含在已采集第K级类目文件中的情况下,基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本;K为大于等于1的整数;
基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息;M为大于K的整数;
在所述待采集第M级类目所对应的网络地址信息不包含在已采集第M级类目文件中的情况下,基于所述待采集第M级类目所对应的网络地址信息,获取所述待采集第M级类目对应的相关信息;
基于所述待采集第M级类目对应的相关信息,确定所述待采集第M级类目包含的候选内容;
从所述待采集第M级类目包含的所述候选内容中确定待读取内容;
从所述待读取内容中获取目标信息,将所述待读取内容中的所述目标信息添加至所述目标文件,包括:
在所述待读取内容的相关信息不包含在所述待采集第M级类目对应的已采集内容文件中的情况下,从所述待读取内容中获取目标信息,将所述目标信息添加至目标文件。
2.根据权利要求1所述的方法,其中,所述基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息,包括:
从所述待采集第K级类目的相关内容文本中,获取第M级类目的网络地址列表;
从所述第M级类目的网络地址列表中,选取所述待采集第M级类目所对应的网络地址信息。
3.根据权利要求1所述的方法,其中,所述将所述待读取内容中的所述目标信息添加至所述目标文件,还包括:将所述待读取内容的相关信息添加至所述待采集第M级类目对应的所述已采集内容文件。
4.根据权利要求1所述的方法,还包括:
在所述待采集第M级类目包含的候选内容中不包含未读取内容的情况下,将所述待采集第M级类目所对应的网络地址信息添加至所述已采集第M级类目文件中。
5.根据权利要求2所述的方法,还包括:
在所述待采集第K级类目所对应的所述第M级类目的网络地址列表中不包含未采集第M级类目所对应的网络地址信息的情况下,将所述待采集第K级类目的网络地址信息添加至所述已采集第K级类目文件中。
6.一种信息采集装置,包括:
第一获取模块,用于在待采集第K级类目的网络地址信息不包含在已采集第K级类目文件中的情况下,基于所述待采集第K级类目的网络地址信息,获取所述待采集第K级类目的相关内容文本;K为大于等于1的整数;
第二获取模块,用于基于所述待采集第K级类目的相关内容文本,确定待采集第M级类目所对应的网络地址信息;M为大于K的整数;
信息采集模块,用于在所述待采集第M级类目所对应的网络地址信息不包含在已采集第M级类目文件中的情况下,基于所述待采集第M级类目所对应的网络地址信息获取所述待采集第M级类目包含的目标信息,将所述目标信息添加至目标文件;
所述信息采集模块,用于:
基于所述待采集第M级类目所对应的网络地址信息,获取所述待采集第M级类目对应的相关信息;基于所述待采集第M级类目对应的相关信息,确定所述待采集第M级类目包含的候选内容;从所述待采集第M级类目包含的所述候选内容中确定待读取内容;在所述待读取内容的相关信息不包含在所述待采集第M级类目对应的已采集内容文件中的情况下,从所述待读取内容中获取目标信息,将所述目标信息添加至所述目标文件。
7.根据权利要求6所述的装置,其中,所述第二获取模块,用于从所述待采集第K级类目的相关内容文本中,获取第M级类目的网络地址列表;从所述第M级类目的网络地址列表中,选取所述待采集第M级类目所对应的网络地址信息。
8.根据权利要求6所述的装置,其中,所述信息采集模块,还用于:将所述待读取内容的相关信息添加至所述待采集第M级类目对应的所述已采集内容文件。
9.根据权利要求6所述的装置,还包括:
本地文件管理模块,用于在所述待采集第M级类目包含的候选内容中不包含未读取内容的情况下,将所述待采集第M级类目所对应的网络地址信息添加至所述已采集第M级类目文件中。
10.根据权利要求7所述的装置,还包括:
本地文件管理模块,用于在所述待采集第K级类目所对应的所述第M级类目的网络地址列表中不包含未采集第M级类目所对应的网络地址信息的情况下,将所述待采集第K级类目的网络地址信息添加至所述已采集第K级类目文件中。
11. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262292.6A CN113010812B (zh) | 2021-03-10 | 2021-03-10 | 信息采集方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262292.6A CN113010812B (zh) | 2021-03-10 | 2021-03-10 | 信息采集方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010812A CN113010812A (zh) | 2021-06-22 |
CN113010812B true CN113010812B (zh) | 2023-07-25 |
Family
ID=76404601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110262292.6A Active CN113010812B (zh) | 2021-03-10 | 2021-03-10 | 信息采集方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010812B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103353892A (zh) * | 2013-07-05 | 2013-10-16 | 北京东方网信科技股份有限公司 | 一种适应海量存储的数据清理方法及系统 |
CN104202428A (zh) * | 2014-09-25 | 2014-12-10 | 北京网秦天下科技有限公司 | 分布式文件存储系统及文件存储方法 |
WO2017088701A1 (zh) * | 2015-11-27 | 2017-06-01 | 阿里巴巴集团控股有限公司 | 一种海量图片管理方法和装置 |
CN109947703A (zh) * | 2017-11-09 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文件系统、文件存储方法、存储装置和计算机可读介质 |
CN111353838A (zh) * | 2018-12-21 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 自动化校验商品类目的方法和装置 |
CN112181302A (zh) * | 2020-09-28 | 2021-01-05 | 上海简苏网络科技有限公司 | 一种数据多级存储和访问方法及系统 |
-
2021
- 2021-03-10 CN CN202110262292.6A patent/CN113010812B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103353892A (zh) * | 2013-07-05 | 2013-10-16 | 北京东方网信科技股份有限公司 | 一种适应海量存储的数据清理方法及系统 |
CN104202428A (zh) * | 2014-09-25 | 2014-12-10 | 北京网秦天下科技有限公司 | 分布式文件存储系统及文件存储方法 |
WO2017088701A1 (zh) * | 2015-11-27 | 2017-06-01 | 阿里巴巴集团控股有限公司 | 一种海量图片管理方法和装置 |
CN109947703A (zh) * | 2017-11-09 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文件系统、文件存储方法、存储装置和计算机可读介质 |
CN111353838A (zh) * | 2018-12-21 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 自动化校验商品类目的方法和装置 |
CN112181302A (zh) * | 2020-09-28 | 2021-01-05 | 上海简苏网络科技有限公司 | 一种数据多级存储和访问方法及系统 |
Non-Patent Citations (2)
Title |
---|
SpongeDirectory: Flexible sparse directories utilizing multi-level memristors;Lunkai Z.等;2014 23rd International Conference on Parallel Architecture and Compilation Techniques (PACT);第61-73页 * |
分布式多数据源电商数据融合分析系统;张骏;中国优秀硕士学位论文全文数据库;第I138-1987页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113010812A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190049B (zh) | 关键词推荐方法、系统、电子设备和计算机可读介质 | |
CN106943747B (zh) | 虚拟角色名称推荐方法、装置、电子设备和存储介质 | |
CN107908662B (zh) | 搜索系统的实现方法和实现装置 | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
CN115982376A (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN109492149B (zh) | 爬虫任务处理方法及装置 | |
CN118170378A (zh) | 页面生成方法、装置、电子设备、存储介质以及程序产品 | |
CN113626441A (zh) | 基于扫描设备的文本管理方法、装置、设备以及存储介质 | |
CN113904943A (zh) | 账号检测方法、装置、电子设备和存储介质 | |
CN113342954A (zh) | 一种应用于问答系统的图像信息处理方法、装置及电子设备 | |
CN117195886A (zh) | 基于人工智能的文本数据处理方法、装置、设备及介质 | |
CN113010812B (zh) | 信息采集方法、装置、电子设备和存储介质 | |
CN113792232B (zh) | 页面特征计算方法、装置、电子设备、介质及程序产品 | |
CN113495841B (zh) | 一种兼容性检测方法、装置、设备、存储介质及程序产品 | |
CN113626301B (zh) | 生成测试脚本的方法和装置 | |
CN114282020A (zh) | 信息展示方法、装置、系统、电子设备及存储介质 | |
CN109857838B (zh) | 用于生成信息的方法和装置 | |
CN112597377A (zh) | 信息提取模块生成方法、信息提取方法及装置 | |
CN113515280A (zh) | 页面代码生成方法、装置 | |
CN113434790B (zh) | 重复链接的识别方法、装置及电子设备 | |
CN113190779B (zh) | 网页评估方法和装置 | |
CN110780983A (zh) | 任务异常处理方法、装置、计算机设备以及存储介质 | |
CN114281981B (zh) | 新闻简报的生成方法、装置和电子设备 | |
CN113239296B (zh) | 小程序的展示方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |