CN102291469A - 个性化定向采集云服务系统 - Google Patents

个性化定向采集云服务系统 Download PDF

Info

Publication number
CN102291469A
CN102291469A CN2011102850670A CN201110285067A CN102291469A CN 102291469 A CN102291469 A CN 102291469A CN 2011102850670 A CN2011102850670 A CN 2011102850670A CN 201110285067 A CN201110285067 A CN 201110285067A CN 102291469 A CN102291469 A CN 102291469A
Authority
CN
China
Prior art keywords
webpage
directed
url
cloud service
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102850670A
Other languages
English (en)
Other versions
CN102291469B (zh
Inventor
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu United Industrial Limited by Share Ltd
Original Assignee
王楠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 王楠 filed Critical 王楠
Priority to CN2011102850670A priority Critical patent/CN102291469B/zh
Publication of CN102291469A publication Critical patent/CN102291469A/zh
Application granted granted Critical
Publication of CN102291469B publication Critical patent/CN102291469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种个性化定向采集云服务系统,其包括定向采集执行端和若干客户端,所述客户端根据用户设定输出采集主题和初始URL,所述定向采集执行端包括若干个网页定向采集器,其特征在于:其还包括:基于云服务的云端管理平台,负责接收所述采集主题和初始URL并将其传输给所述定向采集端;负责根据所述定向采集端采集的网页,提取其中与所述采集主题相关的URL,并将其输出回所述定向采集端;负责将所述定向采集端采集的网页传输回所述客户端。本发明的个性化定向采集云服务系统通过云服务强大、高效的运算能力实现个性化定向采集。本发明具有高速、高效、可以满足个性化多样性的采集需求等特点。

Description

个性化定向采集云服务系统
技术领域
本发明属于计算机技术领域,尤其涉及一种个性化定向采集系统。
背景技术
定向采集系统是网络蜘蛛的一种,它是网络数据获取系统的核心部分。它通过对互联网上已知信息源(即网络链接,URL: Universal Resource Locator)的不断抓取海量网页内容,获取其中所有主题相关内容。定向采集系统的优劣集中体现在其抓取网页内容的速度、质量以及抓取内容和采集主题的匹配程度。目前,绝大多数的网络蜘蛛都是单机版的,对于信息源和采集主题的管理相对比较简单,通常是由管理员在服务器端进行简单配置,配置好后所有用户均在此配置的制约下使用网络蜘蛛。这样,当用户需要有针对自己的需求进行个性化配置时,就得不到满足了。尤其当这些个性化的需求日益增长时,目前的网络蜘蛛就显得捉襟见肘了。
 
发明内容
本发明为解决上述问题,提供一种能够提供个性化定制服务的个性化定向采集云服务系统。
本发明的技术方案是提供一种个性化定向采集云服务系统,其包括定向采集执行端和若干客户端,所述客户端根据用户设定输出采集主题和初始URL,所述定向采集执行端包括若干个网页定向采集器,其特征在于:其还包括:
基于云服务的云端管理平台,负责接收所述采集主题和初始URL并将其传输给所述定向采集端;负责将所述定向采集端采集的网页传输回所述客户端。
优选的,所述客户端包括:
采集配置客户端,负责提供人机交互界面供用户设定所述采集主题和初始URL;
内容提取客户端,负责将所述云端管理平台传输过来的网页显示给用户,并将该网页处理后保存到采集结果数据库。
优选的,所述采集配置客户端的工作流程为:
1)提供编辑界面供用户输入URL;
2)根据用户输入的URL,提取相应的网页;
3)根据步骤2提取的网页,生成可供用户选择内容的选择网页;
4)根据用户选择的内容,将其对应的URL作为初始URL传输给所述云端管理平台。
优选的,所述内容提取客户端的工作流程为:
1)将所述云端管理平台传输过来的网页显示给用户;
2)对该网页进行加注释、打标签作业;
3)对该网页的多媒体文件进行转换格式、重新压缩处理;
4)将步骤3)处理后的网页保存到所述采集结果数据库;
5)提供搜索引擎供用户检索所述采集结果数据库。
优选的,所述云端管理平台包括以下模块:
任务调度管理:负责根据所述初始URL生成采集任务传输给所述定向采集执行端;
客户管理:负责维护用户资料、用户权限、用户注册和登陆;
网页资料管理:负责接收所述定向采集执行端采集的网页,将其保存到原始网页数据库的同时传输给所述客户端。
优选的,所述任务调度管理的工作流程为:
1)接收到所有所述客户端发来的所述初始URL,生成待采集的URL列表; 
2)根据各个所述网页定向采集器的工作状态,将所述URL列表中的URL分配给所述网页定向采集器。
优选的,所述定向采集执行端还包括网页分析模块和链接队列池,其工作流程为:
1)接收所述云端管理平台传输过来的所述采集主题和初始URL;
2)所述网页定向采集器发出网页请求,采集所述初始URL对应的网页;
3)接收网页,并将完整的网页送入所述网页分析模块;
4)所述网页分析模块按所述采集主题提取该网页的必要的深度URL链接,送入所述链接队列池,同时输出网页到所述云端管理平台;
5)所述网页定向采集器不断重复提取所述链接队列池中的URL链接,重复步骤2)~5)直到所述链接队列池中无URL链接为止。
本发明的个性化定向采集云服务系统通过将各个客户端每个用户自己设定的采集主题和采集对象网站汇聚到云服务平台上,通过云服务强大、高效的运算能力实现定向采集。因此,本发明具有高速、高效、可以满足个性化多样性的采集需求等特点。
附图说明
图1是本发明的个性化定向采集云服务系统的总体框架图;
图2是本发明的个性化定向采集云服务系统的逻辑结构示意图。
具体实施方式
下面对本发明的具体实施方式作进一步详细的描述。
如图1和图2所示,本发明的个性化定向采集云服务系统包括客户端、云端管理平台、定向采集执行端和采集结果数据库。其中,客户端包括多个采集配置客户端和内容提取客户端;云端管理平台包括任务调度管理、客户管理和网页资料管理等模块;定向采集执行端包括多个网页采集器,每个网页采集器均包括网页定向采集器、链接队列池和网页分析模块。任务调度管理模块包括任务测试和分配子模块和URL种子数据库;客户管理模块包括客户管理子模块和客户数据库;网页资料管理模块包括网页推送、站内搜索和内容安全子模块和原始网页数据库。
其中,采集配置主流程:
1)提供编辑界面供用户输入URL;
2)根据用户输入的URL,提取相应的网页;
3)根据步骤2提取的网页,生成可供用户选择内容的选择网页;
4)根据用户选择的内容,将其对应的URL作为初始URL作为采集任务传输给云端管理平台。
任务调度管理器主流程:
1)接收到所有所述客户端发来的所述初始URL,测试采集任务,生成待采集的URL列表; 
2)根据各个所述网页定向采集器的工作状态,将URL列表中的URL分配给所述网页定向采集器;
3) 任务调度管理模块还提供人机交互界面供技术人员调整采集配置。
定向采集执行端主流程:
1)获取采集任务;
2)发出网页请求;
3)接收网页,并将接收完整的原始网页送入定向采集执行端的网页分析模块;
4)网页分析模块按采集任务策略提取必要的深度URL链接,送入链接队列池,同时输出网页到网页资料管理模块;
5)不断探测收到完整网页的数量和状态; 
6)根据探测情况,结合采集任务,从链接队列池中选取一组新的URL,网页请求; 
7)重复4~6步骤,直到完成采集任务(URL队列池为空)。
网页资料管理器主流程:
1)原始网页数据库接收并保存所有采集器输出的网页; 
2)内容安全子模块对所有网页进行扫描,发现问题预警;
3)站内搜索子模块提供查询机制;
4)网页推送子模块将分类好的网页推送给内容提取客户端;
客户管理模块主流程:
1)标准用户注册、登录流程;
2)标准用户个人资料维护过程;
3)标准用户权限配置过程;
内容提取客户端主流程:
1)客户对网页资料管理器推送过来的网页进行查看;
2)客户通过站内搜索引擎查询网页内容;
3)对网页加注释、打标签(但不能编辑);
4)对网页的多媒体文件转格式、重压缩;
5)导出步骤4加工过的网页到采集结果数据库。 
以上实施例仅为本发明其中的一种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。 

Claims (7)

1.个性化定向采集云服务系统,其包括定向采集执行端和若干客户端,所述客户端根据用户设定输出采集主题和初始URL,所述定向采集执行端包括若干个网页定向采集器,其特征在于:其还包括:
基于云服务的云端管理平台,负责接收所述采集主题和初始URL并将其传输给所述定向采集端;负责将所述定向采集端采集的网页传输回所述客户端。
2.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述客户端包括:
采集配置客户端,负责提供人机交互界面供用户设定所述采集主题和初始URL;
内容提取客户端,负责将所述云端管理平台传输过来的网页显示给用户,并将该网页处理后保存到采集结果数据库。
3.根据权利要求2所述的个性化定向采集云服务系统,其特征在于:所述采集配置客户端的工作流程为:
1)提供编辑界面供用户输入URL;
2)根据用户输入的URL,提取相应的网页;
3)根据步骤2提取的网页,生成可供用户选择内容的选择网页;
4)根据用户选择的内容,将其对应的URL作为初始URL传输给所述云端管理平台。
4.根据权利要求2所述的个性化定向采集云服务系统,其特征在于:所述内容提取客户端的工作流程为:
1)将所述云端管理平台传输过来的网页显示给用户;
2)对该网页进行加注释、打标签作业;
3)对该网页的多媒体文件进行转换格式、重新压缩处理;
4)将步骤3)处理后的网页保存到所述采集结果数据库;
5)提供搜索引擎供用户检索所述采集结果数据库。
5.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述云端管理平台包括以下模块:
任务调度管理:负责根据所述初始URL生成采集任务传输给所述定向采集执行端;
客户管理:负责维护用户资料、用户权限、用户注册和登陆;
网页资料管理:负责接收所述定向采集执行端采集的网页,将其保存到原始网页数据库的同时传输给所述客户端。
6.根据权利要求5所述的个性化定向采集云服务系统,其特征在于:所述任务调度管理的工作流程为:
1)接收到所有所述客户端发来的所述初始URL,生成待采集的URL列表; 
2)根据各个所述网页定向采集器的工作状态,将所述URL列表中的URL分配给所述网页定向采集器。
7.根据权利要求1所述的个性化定向采集云服务系统,其特征在于:所述定向采集执行端还包括网页分析模块和链接队列池,其工作流程为:
1)接收所述云端管理平台传输过来的所述采集主题和初始URL;
2)所述网页定向采集器发出网页请求,采集所述初始URL对应的网页;
3)接收网页,并将完整的网页送入所述网页分析模块;
4)所述网页分析模块按所述采集主题提取该网页的必要的深度URL链接,送入所述链接队列池,同时输出网页到所述云端管理平台;
5)所述网页定向采集器不断重复提取所述链接队列池中的URL链接,重复步骤2)~5)直到所述链接队列池中无URL链接为止。
CN2011102850670A 2011-09-23 2011-09-23 个性化定向采集云服务系统 Active CN102291469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102850670A CN102291469B (zh) 2011-09-23 2011-09-23 个性化定向采集云服务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102850670A CN102291469B (zh) 2011-09-23 2011-09-23 个性化定向采集云服务系统

Publications (2)

Publication Number Publication Date
CN102291469A true CN102291469A (zh) 2011-12-21
CN102291469B CN102291469B (zh) 2013-11-20

Family

ID=45337569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102850670A Active CN102291469B (zh) 2011-09-23 2011-09-23 个性化定向采集云服务系统

Country Status (1)

Country Link
CN (1) CN102291469B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932608A (zh) * 2012-11-16 2013-02-13 成都索贝数码科技股份有限公司 基于云编辑技术的数字视频加工、编目系统及方法
CN104216889A (zh) * 2013-05-30 2014-12-17 北大方正集团有限公司 基于云服务的数据传播性分析预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033770A1 (en) * 2000-03-22 2008-02-07 Barth Brian E Method and apparatus for dynamic information connection search engine
CN102073683A (zh) * 2010-12-22 2011-05-25 四川大学 一种分布式的实时新闻信息采集系统
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033770A1 (en) * 2000-03-22 2008-02-07 Barth Brian E Method and apparatus for dynamic information connection search engine
CN102073683A (zh) * 2010-12-22 2011-05-25 四川大学 一种分布式的实时新闻信息采集系统
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932608A (zh) * 2012-11-16 2013-02-13 成都索贝数码科技股份有限公司 基于云编辑技术的数字视频加工、编目系统及方法
CN104216889A (zh) * 2013-05-30 2014-12-17 北大方正集团有限公司 基于云服务的数据传播性分析预测方法及系统
CN104216889B (zh) * 2013-05-30 2017-11-17 北大方正集团有限公司 基于云服务的数据传播性分析预测方法及系统

Also Published As

Publication number Publication date
CN102291469B (zh) 2013-11-20

Similar Documents

Publication Publication Date Title
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN104424229B (zh) 一种多维度拆分的计算方法及系统
CN102404126B (zh) 一种云计算在应用过程中的收费方法
CN101408877B (zh) 树节点加载系统及其方法
CN109684530B (zh) 基于web管理与手机小程序应用的信息推送服务系统
CN102831253B (zh) 一种分布式全文检索系统
CN101719933B (zh) 一种支持语义的面向全生命周期的制造网格资源服务组合方法
CN102929892A (zh) 基于社交网络的信息精准推广系统及方法
CN102200979A (zh) 一种分布式并行信息检索系统及其方法
CN101572629A (zh) 一种ip数据的处理方法及装置
CN202816041U (zh) 纸币冠字号码采集查询系统
CN104216889B (zh) 基于云服务的数据传播性分析预测方法及系统
CN102521232A (zh) 一种互联网元数据的分布式采集处理系统及方法
CN108829704A (zh) 一种大数据分布式挖掘分析服务技术
CN102118400B (zh) 数据采集方法和数据采集系统
CN113988794A (zh) 一种多数据集成的农村农业信息系统及方法
CN102291469B (zh) 个性化定向采集云服务系统
CN107679091A (zh) 一种基于大数据的搜索系统及方法
CN104217003A (zh) 一种数据建模系统
CN202075735U (zh) 一种查询文件进度的系统
CN104765763B (zh) 一种基于概念格的异构空间信息服务分类的语义匹配方法
CN109344333A (zh) 一种互联网大数据分析提取方法及系统
CN103778164A (zh) 一种网页链接特征模式识别算法
CN107341249A (zh) 服务器信息的存储和提取方法及系统、提取装置
Shao et al. Federated catalogue for discovering earth observation data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: JIANGSU LIANZHU INDUSTRIAL CO.,LTD.

Free format text: FORMER OWNER: WANG NAN

Effective date: 20150417

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 210006 NANJING, JIANGSU PROVINCE TO: 210009 NANJING, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20150417

Address after: 210009, Tong Cheng Building, No. 501 Zhongshan South Road, Jiangsu, Nanjing, 1202

Patentee after: Jiangsu Lianzhu Industrial Co.,Ltd.

Address before: 210006 Room 501, Tong Cheng Building, 1202 South Zhongshan Road, Nanjing, Jiangsu

Patentee before: Wang Nan

C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: 210006, 12 floor, Tong Tong Building, 501 South Zhongshan Road, Nanjing, Jiangsu

Patentee after: Jiangsu United Industrial Limited by Share Ltd

Address before: 210009, Tong Cheng Building, No. 501 Zhongshan South Road, Jiangsu, Nanjing, 1202

Patentee before: Jiangsu Lianzhu Industrial Co.,Ltd.