CN108090071A - 资源库中的资源采集方法和装置 - Google Patents

资源库中的资源采集方法和装置 Download PDF

Info

Publication number
CN108090071A
CN108090071A CN201611032326.8A CN201611032326A CN108090071A CN 108090071 A CN108090071 A CN 108090071A CN 201611032326 A CN201611032326 A CN 201611032326A CN 108090071 A CN108090071 A CN 108090071A
Authority
CN
China
Prior art keywords
acquisition
engine
information
resources
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611032326.8A
Other languages
English (en)
Inventor
侯胜涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201611032326.8A priority Critical patent/CN108090071A/zh
Publication of CN108090071A publication Critical patent/CN108090071A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种资源库中的资源采集方法和装置,该方法包括:配置至少一种采集引擎和对应的采集信息;创建采集引擎,并控制采集引擎根据对应的采集信息对资源进行采集;其中,采集引擎包括:网页采集引擎,相应的,网页采集引擎对应的采集信息为网页资源采集信息;控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。由于采集的资源包括了网页资源,极大的丰富了资源库中的资源,使资源库中的资源多样化,能够使资源库在实际应用中满足需求。

Description

资源库中的资源采集方法和装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种资源库中的资源采集方法和装置。
背景技术
资源库将一定范畴的数据甚至数据连接等通过归纳、整理,以一定格式存放,便于进行查阅和使用。资源库在计算机、互联网等领域都有广泛的应用。
现有技术中的资源库中的资源只来源于XML、text等文件中的资源以及数据库中的资源。对文件文件的资源进行采集时,通过对格式文件进行解析,获取到需要获取的文件文件,并存储到资源库中。对数据库中的资源进行采集时,通过查询数据库中的字段,获取到需要的数据库资源,并存储到资源库中。
由于互联网技术的不断发展,使大量的资源不再局限于文件和数据库,所以现有的资源库中资源的采集途径过于单一,无法使资源库在实际应用中满足需求。
发明内容
本发明实施例提供一种资源库中的资源采集方法,该方法解决了现有技术中的资源库中的资源采集方法途径过于单一,无法使资源库在实际应用中满足需求的技术问题。
本发明实施例提供一种资源库中的资源采集方法,包括:
配置至少一种采集引擎和对应的采集信息;
创建所述采集引擎,并控制所述采集引擎根据对应的采集信息对对应的资源进行采集;
其中,所述采集引擎包括:网页采集引擎,相应的,所述网页采集引擎对应的采集信息为网页资源采集信息;
控制所述采集引擎按照预设策略将所述采集的对应的资源存入到资源库中。
本发明实施例提供一种资源库中的资源采集装置,包括:
配置模块,用于配置至少一种采集引擎和对应的采集信息;
创建模块,用于创建所述采集引擎,并控制所述采集引擎根据对应的采集信息对对应的资源进行采集;
其中,所述采集引擎包括:网页采集引擎,相应的,所述网页采集引擎对应的采集信息为网页资源采集信息;
控制模块,用于控制所述采集引擎按照预设策略将所述采集的对应的资源存入到资源库中。
本发明实施例提供一种资源库中的资源采集方法和装置,通过配置至少一种采集引擎和对应的采集信息;创建采集引擎,并控制采集引擎根据对应的采集信息对资源进行采集;其中,采集引擎包括:网页采集引擎,相应的,网页采集引擎对应的采集信息为网页资源采集信息;控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。由于采集的资源包括了网页资源,极大的丰富了资源库中的资源,使资源库中的资源多样化,能够使资源库在实际应用中满足需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明资源库中的资源采集方法实施例一的流程图;
图2为本发明资源库中的资源采集方法实施例二的流程图;
图3为本发明资源库中的资源采集装置实施例一的结构示意图;
图4为本发明资源库中的资源采集装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明资源库中的资源采集方法实施例一的流程图,如图1所示,则本实施例提供的资源库中的资源采集方法的执行主体为资源库中的资源采集装置,该资源库中的资源采集装置可集成或安装在计算机、笔记本电脑或服务器中。则本实施例提供的资源库中的资源采集方法包括以下几个步骤。
步骤101,配置至少一种采集引擎和对应的采集信息。
具体地,本实施例中,通过配置文件配置至少一种采集引擎和对应的采集信息。
其中,采集引擎相当于计算机的一个进程,每个采集引擎间相互独立执行。采集引擎包括:网页采集引擎,相应的,网页采集引擎对应的采集信息为网页资源采集信息。其他的采集引擎还可以包括:文件采集引擎和数据库采集引擎。相应的,文件采集引擎对应的采集信息为文件资源采集信息;数据库采集引擎对应的采集信息为数据库资源采集信息。
其中,采集信息包括:采集资源的特征信息以及采集资源的个数等。
步骤102,创建采集引擎,并控制采集引擎根据对应的采集信息对资源进行采集。
具体地,本实施例中,创建至少一个采集引擎,即创建至少一个进程。
本实施例中,若采集引擎为网页采集引擎,则网页采集引擎可根据对应的采集信息对内网或外网的对应的资源进行采集。若采集引擎为文件采集引擎,则根据对应的采集信息对固定存储区域的文件资源进行采集。若采集引擎为数据库采集引擎,则根据对应的采集信息对数据路中的资源进行采集。
步骤103,控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。
具体地,本实施例中,控制至少一个采集引擎按照预设策略将采集的对应的资源存入到资源库中。其中,每个采集引擎对资源的存储互相不受影响。对每种采集的资源存储的预设策略可以相同也可以不同,本实施例中对此不做限定。
本实施例提供的资源库中的资源采集方法,通过配置至少一种采集引擎和对应的采集信息;创建采集引擎,并控制采集引擎根据对应的采集信息对资源进行采集;其中,采集引擎包括:网页采集引擎,相应的,网页采集引擎对应的采集信息为网页资源采集信息;控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。由于采集的资源包括了网页资源,极大的丰富了资源库中的资源,使资源库中的资源多样化,能够使资源库在实际应用中满足需求。
图2为本发明资源库中的资源采集方法实施例二的流程图,如图2所示,本实施例提供的资源库中的资源采集方法,是在本发明资源库中的资源采集方法实施例一的基础上,对步骤102的进一步细化,并且还包括了是否终止采集引擎采集资源的步骤,则本实施例提供的资源库中的资源采集方法包括以下步骤。
步骤201,配置至少一种采集引擎和对应的采集信息。
其中,采集引擎包括:网页采集引擎,相应的,网页采集引擎对应的采集信息为网页资源采集信息。
进一步地,本实施例中,采集引擎还包括:文件采集引擎和数据库采集引擎;相应的,文件采集引擎对应的采集信息为文件资源采集信息;数据库采集引擎对应的采集信息为数据库资源采集信息。
步骤202,创建采集引擎,并控制采集引擎根据对应的采集信息对资源进行采集。
进一步地,本实施例中,若采集引擎为网页采集引擎,则控制采集引擎根据对应的采集信息对资源进行采集,具体包括:
首先,控制采集引擎抓取内网或外网的网页资源;
然后,对内网或外网的网页资源进行解析,获取与采集信息相匹配的网页资源。
具体地,本实施例中,首先控制采集引擎可通过抓包工具包抓取内网或外网的网页资源,若该抓包工具包为httpclient工具包。然后,对内网或外网的网页资源通过解析方法进行解析,获取与采集信息相匹配的网页资源。该解析方法可以为解析工具或正则化表达式技术,该解析工具可以为Jsoup解析工具。本实施例中对该解析方法此不做限定。
步骤203,控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。
本实施例中,步骤203的实现方式与本发明资源库中的资源采集方法实施例一中的步骤103的实现方式相同,在此不再一一赘述。
步骤204,接收采集引擎发送的采集状态信息。
需要说明的是,步骤203和步骤204没有具体的时间限制,可同时执行,也可先执行步骤203后执行步骤204,也可先执行步骤204后执行步骤203。
步骤205,根据采集状态信息判断是否终止采集,若是,则执行步骤206,否则,执行步骤204。
步骤206,控制采集引擎终止采集。
结合步骤204-步骤206进行说明。进一步地,本实施例中,采集引擎等间隔时间发送采集状态信息。其中,采集状态信息包括:采集的资源的个数和/或采集的进度。资源库中的资源采集装置根据采集状态信息判断是否达到所需的采集的资源的个数或采集的进度是否达到100%,若采集状态信息达到所需的采集的资源的个数或采集的进度是否达到100%,则说明采集引擎对对应的资源已经采集完成,则控制采集引擎终止采集,否则,继续控制采集引擎对对应的资源进行采集。
本实施例中,在所有的采集引擎完成对对应的资源进行采集后,资源库中的资源采集装置可消除采集引擎,释放空间。
本实施例提供的资源库中的资源采集方法,通过配置至少一种采集引擎和对应的采集信息,创建采集引擎,并控制采集引擎根据对应的采集信息对资源进行采集,若集引擎为网页采集引擎,则控制采集引擎根据对应的采集信息对资源进行采集,具体包括:控制采集引擎抓取内网或外网的网页资源;然后,对内网或外网的网页资源进行解析,获取与采集信息相匹配的网页资源。控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。由于网页资源可通过内网或外网进行采集,所以进一步提高了资源库中网页资源的多样性。
本实施例提供的资源库中的资源采集方法,通过接收采集引擎发送的采集状态信息,根据采集状态信息判断是否终止采集,若是,则控制采集引擎终止采集,能够实时监测采集引擎的采集状态,在监测到采集引擎完成采集后,及时的消除采集引擎,释放空间,减少装置的负载。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图3为本发明资源库中的资源采集装置实施例一的结构示意图,如图3所示,本实施例提供的资源库中的资源采集装置包括:配置模块31,采集模块32和控制模块33。
其中,配置模块31,用于配置至少一种采集引擎和对应的采集信息。创建模块32,用于创建采集引擎。控制模块33,用于控制采集引擎根据对应的采集信息对资源进行采集。其中,采集引擎包括:网页采集引擎,相应的,网页采集引擎对应的采集信息为网页资源采集信息。控制模块33,还用于控制采集引擎按照预设策略将采集的对应的资源存入到资源库中。
本实施例提供的资源库中的资源采集装置可以执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4为本发明资源库中的资源采集装置实施例二的结构示意图,如图4所示,本实施例在本发明资源库中的资源采集装置实施例一的基础上,进一步地,还包括:接收模块41和判断模块42。
其中,本发明提供的资源库中的资源采集装置中,采集引擎还包括:文件采集引擎和数据库采集引擎;
相应的,文件采集引擎对应的采集信息为文件资源采集信息;数据库采集引擎对应的采集信息为数据库资源采集信息。
进一步地,接收模块41,用于接收采集引擎发送的采集状态信息。判断模块42,用于根据采集状态信息判断是否终止采集。若根据采集状态信息确定终止采集,则控制模块33,还用于控制采集引擎终止采集。
进一步地,若采集引擎为网页采集引擎,则控制模块33,具体用于:控制采集引擎抓取内网或外网的网页资源;对内网或外网的网页资源进行解析,获取与采集信息相匹配的网页资源。
本实施例提供的资源库中的资源采集装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种资源库中的资源采集方法,其特征在于,包括:
配置至少一种采集引擎和对应的采集信息;
创建所述采集引擎,并控制所述采集引擎根据对应的采集信息对资源进行采集;
其中,所述采集引擎包括:网页采集引擎,相应的,所述网页采集引擎对应的采集信息为网页资源采集信息;
控制所述采集引擎按照预设策略将所述采集的对应的资源存入到资源库中。
2.根据权利要求1所述的方法,其特征在于,所述控制所述采集引擎根据对应的采集信息对资源进行采集之后,还包括:
接收所述采集引擎发送的采集状态信息;
根据所述采集状态信息判断是否终止采集;
若根据所述采集状态信息确定终止采集,则控制所述采集引擎终止采集。
3.根据权利要求2所述的方法,其特征在于,若所述采集引擎为网页采集引擎,则所述控制所述采集引擎根据对应的采集信息对资源进行采集,具体包括:
控制所述采集引擎抓取内网或外网的网页资源;
对所述内网或外网的网页资源进行解析,获取与采集信息相匹配的网页资源。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述采集引擎还包括:文件采集引擎和数据库采集引擎;
相应的,所述文件采集引擎对应的采集信息为文件资源采集信息;所述数据库采集引擎对应的采集信息为数据库资源采集信息。
5.一种资源库中的资源采集装置,其特征在于,包括:
配置模块,用于配置至少一种采集引擎和对应的采集信息;
创建模块,用于创建所述采集引擎;
控制模块,用于控制所述采集引擎根据对应的采集信息对资源进行采集;
其中,所述采集引擎包括:网页采集引擎,相应的,所述网页采集引擎对应的采集信息为网页资源采集信息;
所述控制模块,还用于控制所述采集引擎按照预设策略将所述采集的对应的资源存入到资源库中。
6.根据权利要求5所述的装置,其特征在于,还包括:
接收模块,用于接收所述采集引擎发送的采集状态信息;
判断模块,用于根据所述采集状态信息判断是否终止采集;
若根据所述采集状态信息确定终止采集,则所述控制模块,还用于控制所述采集引擎终止采集。
7.根据权利要求6所述的装置,其特征在于,若所述采集引擎为网页采集引擎,则控制模块,具体用于:
控制所述采集引擎抓取内网或外网的网页资源;对所述内网或外网的网页资源进行解析,获取与采集信息相匹配的网页资源。
8.根据权利要求5-7中任一项所述的装置,其特征在于,所述采集引擎还包括:文件采集引擎和数据库采集引擎;
相应的,所述文件采集引擎对应的采集信息为文件资源采集信息;所述数据库采集引擎对应的采集信息为数据库资源采集信息。
CN201611032326.8A 2016-11-22 2016-11-22 资源库中的资源采集方法和装置 Pending CN108090071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611032326.8A CN108090071A (zh) 2016-11-22 2016-11-22 资源库中的资源采集方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611032326.8A CN108090071A (zh) 2016-11-22 2016-11-22 资源库中的资源采集方法和装置

Publications (1)

Publication Number Publication Date
CN108090071A true CN108090071A (zh) 2018-05-29

Family

ID=62169735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611032326.8A Pending CN108090071A (zh) 2016-11-22 2016-11-22 资源库中的资源采集方法和装置

Country Status (1)

Country Link
CN (1) CN108090071A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2386440A (en) * 2002-03-12 2003-09-17 Univ Hertfordshire Searching and navigating an information source
CN101221564A (zh) * 2007-08-03 2008-07-16 哈尔滨工程大学 一种通用的自主数据采集方法
CN101777080A (zh) * 2010-03-19 2010-07-14 北京国双科技有限公司 基于用户点击数据的网页分析方法
CN104462140A (zh) * 2013-09-24 2015-03-25 北大方正集团有限公司 网页数据采集方法及装置
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2386440A (en) * 2002-03-12 2003-09-17 Univ Hertfordshire Searching and navigating an information source
CN101221564A (zh) * 2007-08-03 2008-07-16 哈尔滨工程大学 一种通用的自主数据采集方法
CN101777080A (zh) * 2010-03-19 2010-07-14 北京国双科技有限公司 基于用户点击数据的网页分析方法
CN104462140A (zh) * 2013-09-24 2015-03-25 北大方正集团有限公司 网页数据采集方法及装置
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法

Similar Documents

Publication Publication Date Title
CN108121795B (zh) 用户行为预测方法及装置
CN106383852B (zh) 基于Docker容器的日志获取方法和装置
CN104219316B (zh) 一种分布式系统中的调用请求处理方法及装置
CN107608874A (zh) 测试方法和装置
CN103530365B (zh) 获取资源的下载链接的方法及系统
JP5134684B2 (ja) ウェブページ構造分析を通したウェブサイトの情報把握方法
CN110020339B (zh) 基于无埋点的网页数据采集方法及装置
US8732199B2 (en) System, method, and computer readable media for identifying a user-initiated log file record in a log file
US20100115496A1 (en) Filter generation for load testing managed environments
US8972374B2 (en) Content acquisition system and method of implementation
CN104423961B (zh) 一种生成测试脚本的方法及系统
US20060288149A1 (en) Generating static performance modeling factors in a deployed system
CN105373478B (zh) 自动化测试方法和系统
CN103116638B (zh) 网页筛选方法及装置
CN106874207A (zh) 一种web页面的自动化测试方法及装置
CN103853654B (zh) 网页测试路径的选择方法和装置
CN103729446A (zh) 一种用户操作数据的处理方法、处理装置及服务器
CN109799985A (zh) 前端代码生成方法及装置、存储介质及电子设备
CN111859076B (zh) 数据爬取方法、装置、计算机设备及计算机可读存储介质
CN105808417A (zh) 自动化测试方法及代理服务器
CN106649342A (zh) 数据采集平台中数据处理的方法及装置
CN103870504B (zh) 一种网页的发布方法和系统
CN108287786A (zh) 一种基于地图的自动化测试方法和装置、及混合导航系统
CN103049456B (zh) 一种筛选网页的方法及装置
CN110427971A (zh) 用户及ip的识别方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529

RJ01 Rejection of invention patent application after publication