CN102158346A - 基于云计算的信息采集系统及方法 - Google Patents

基于云计算的信息采集系统及方法 Download PDF

Info

Publication number
CN102158346A
CN102158346A CN2010105624696A CN201010562469A CN102158346A CN 102158346 A CN102158346 A CN 102158346A CN 2010105624696 A CN2010105624696 A CN 2010105624696A CN 201010562469 A CN201010562469 A CN 201010562469A CN 102158346 A CN102158346 A CN 102158346A
Authority
CN
China
Prior art keywords
harvester
acquisition
acquisition tasks
service end
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105624696A
Other languages
English (en)
Inventor
方胜
阴玉刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenzhou Taiyue Software Co Ltd
Original Assignee
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Taiyue Software Co Ltd filed Critical Beijing Shenzhou Taiyue Software Co Ltd
Priority to CN2010105624696A priority Critical patent/CN102158346A/zh
Publication of CN102158346A publication Critical patent/CN102158346A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于云计算的信息采集系统,包括:若干个通过网络相互连接的服务端,所述服务端各自连接至少一个的客户端和至少一个采集机,所述客户端用于调度采集任务,将采集任务发送到与其连接的服务端,服务端将所述采集任务分配到与其连接的采集机进行任务采集,还公开了一种信息采集方法,包括:客户端调度采集任务,并将调度的采集任务发送给位于云中的服务端A;所述服务端A将所述采集任务分配到采集机B;采集机B执行采集任务。本发明减小了数据采集的延迟,并节省资源消耗、降低维护难度;提高了数据采集的效率。

Description

基于云计算的信息采集系统及方法
技术领域
本发明涉及信息系统中信息采集技术领域,特别涉及一种基于云计算的信息采集系统及方法。
背景技术
现有的数据采集平台中,根据服务器承载情况将不同的采集任务部署在不同的采集机上,各采集机的采集任务是相互独立的,任务绑定在采集机上,任务迁移和扩展极不方便。为了采集任务能够正常运行,都会考虑在网络容量增加后的负荷,会相对地给每个采集机多分配一些预留空间,也要经常由人工根据采集情况对各采集机上的任务进行调整,保证资源的充足性,防止采集机资源不足导致采集任务终止,但这种情况导致成本的增加、资源的消耗,并且也增加了维护难度。若其中一台采集机发生故障时,无法及时进行恢复,即使找到替换机器,还需要将原来任务迁移到新服务器,还要对数据进行补采处理,这样会导致数据出现很大的延迟。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:在信息采集过程中如何缩小数据采集的延迟,并节省资源消耗、降低维护难度。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于云计算的信息采集系统,包括:若干个通过网络相互连接的服务端,所述服务端各自连接至少一个的客户端和至少一个采集机,所述客户端用于调度采集任务,将采集任务发送到与其连接的服务端,服务端将所述采集任务分配到与其连接的采集机进行任务采集。
其中,所述采集机为PC或PCserver。
本发明还提供了一种利用上述基于云计算的信息采集系统的采集方法,其特征在于,包括如下步骤:
S1:客户端调度采集任务,并将调度的采集任务发送给位于云中的服务端A;
S2:所述服务端A将所述采集任务分配到采集机B;
S3:采集机B执行采集任务,并向所述服务端A返回执行结果。
其中,所述步骤S1和步骤S2之间还包括:
所述服务端A检查与其连接的采集机的性能和采集机中采集任务队列的使用情况,选择接收采集任务的采集机B,选择标准包括以下几种标准:
X1:轮询算法,顺序循环将请求一次顺序循环地连接每个服务器。
X2:最少任务方式,选择当前采集机中最执行任务最少比率的采集机
X3:最快模式,选择采集机中响应最快的采集机;
X4:动态性能分配,实时收集采集机各项性能参数,按性能参数实时选择采集机。
其中,步骤S1和步骤S2之间还包括:
服务端在分配任务之间,通过服务器集群的方式相互通信,当一个服务端的采集任务达到性能临界点时,动态将采集任务发送到云中的另一个服务端。
其中,所述步骤性能临界点为:CPU使用率上限80%、内存使用率上限70%或内存使用量上限为1024MB。
其中,所述步骤S3具体包括:
将接收到的采集任务放入任务采集队列;
从所述采集任务队列中取出所述采集任务,若需要监控采集的结果并依赖于另一个任务的执行,则采取阻塞方式执行所述采集任务;否则,以非阻塞方式执行所述采集任务。
其中,所述步骤S3之后还包括:
S4:如果执行成功,所述服务端A根据任务定制查找是否有依赖任务,存在新依赖则继续向采集机B发送采集任务;
S5:如果不成功,按任务定义是否尝试补采,并根据补采集定义次数进行补采,超过预定次数会发出采集任务错误消息,不会再发起补采任务。
其中,所述步骤S1之前还包括:
所述采集机启动时通过网络广播的形式查找到云中的服务端,并通过socket方式进行心跳连接。
(三)有益效果
本发明将任务调度、分配及采集进行分别部署,以普通PC为采集机,当出现故障时可以快速选择其他采集机,减小了数据采集的延迟,并节省资源消耗、降低维护难度;在分配采集任务时选择最适合的采集机进行采集,提高了数据采集的效率。
附图说明
图1是本发明实施例的一种基于云计算的信息采集系统结构示意图;
图2是利用图1中采集系统的采集方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,为本发明实施例的一种基于云计算的信息采集系统结构示意图,该系统包括位于云中的若干服务端,客户端及采集机。服务端之间通过互联网相互连接,形成服务端集群。其中,服务端各自连接至少一个的客户端和至少一个采集机,客户端用于调度采集任务,将采集任务发送到与其连接的服务端,服务端将采集任务分配到与其连接的采集机进行任务采集。为了方便维护人员维护,优选采用普通PC或作为普通服务器的PCserver作为云终端的采集机,当有终端损坏时方便替换;另外,对于网元扩容,增加采集任务,采集平台只要增加相应个数的终端就可以了,无须花大量时间进行维护和测试,降低维护成本。
如图2所示,为利用上述系统进行任务采集的方法的流程图,包括:
步骤S101,客户端调度采集任务,并将调度的采集任务发送给位于云中的服务端A。具体通过客户端中的调度程序将调起的采集任务发送到云中的服务端A,客户端是基于数据源探测来判断是否发起调度采集任务,云采集端,即采集机的接口是一个基于xml格式采集任务配置文件,定义了采集任务的全部过程,采集任务文件定义的重要节点有:
1、DataSource--采集数据源,描述采集接口的连接信息,如DB/File/Telnet等接口的连接地址、用户名和密码;
2、Adapter--采集适配,描述采集过程以及各过程的外部输入和输出参数,如一个采集有下载文件、解析文件和数据加载入库三个过程,每个过程都有特定的输出和输出参数,前一个过程的输出可以做为后一个过程的输入。
在一个网络,服务端可以存在多个,通过广播的方式,可以找到在网络中存在的多个服务端,记录并保存下来,形成一个星型服务端网络,若接收到客户端发来的采集任务的服务端的采集任务达到其性能临界点时,动态将采集任务发送到云中其它服务端,如服务端A。性能临界点可以根据采集任务的实际情况来设定,如通常设定为:CPU使用率上限80%、内存使用率70%或内存使用量已达到1024MB。
步骤S102,所述服务端A将所述采集任务分配到采集机B。
步骤S103,采集机B执行采集任务,并向所述服务端A返回执行结果。具体包括:
将接收到的采集任务放入任务采集队列;
从所述采集任务队列中取出所述采集任务,若需要监控采集的结果并依赖于另一个任务的执行,则采取阻塞方式执行所述采集任务;否则,以非阻塞方式执行所述采集任务。
执行结果若为成功,所述服务端A根据任务定制查找是否有依赖任务,存在新依赖则继续向采集机B发送采集任务。
执行结果若为不成功,按任务定义是否尝试补采,并根据补采集定义次数进行补采,超过预定次数(一般不会超过10次)将会发出采集任务错误消息,不会再发起补采任务。
为了提高采集效率,在步骤S101和步骤S102之间还包括:服务端A检查与其连接的采集机的性能和采集机中采集任务队列的使用情况,通过指定动态均衡算法,如:轮询、最少任务或是动态性能算法,选择最适合执行任务的采集机B,具体标准如下:
X1:轮询算法,顺序循环将请求一次顺序循环地连接每个服务器。
X2:最少任务方式,选择当前采集机中最执行任务最少比率的采集机。
X3:最快模式,选择采集机中响应最快的采集机。
X4:动态性能分配,实时收集采集机各项性能参数,按性能参数排名实时选择采集机,如在所有采集机中对CPU和内存占用率都低于50%的采集机中选择系统占用最低的采集机,如CPU和内存利用率都低于10%。
当有新的采集机连接到云中,在该采集机启动时通过网络广播的形式查找到云中的服务端,并通过socket方式进行心跳连接。
若作为采集机的PC性能达到一定好的程度,如:四核CPU,且4以上GB内存,还可以自己调度采集任务,为无法提供多台机器或是受到机房的限制用户提供简单的解决方案,同时也可以减少网络问题原因而产生不能通信的问题,但可能会损失采集的性能。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (9)

1.一种基于云计算的信息采集系统,其特征在于,包括:若干个通过网络相互连接的服务端,所述服务端各自连接至少一个的客户端和至少一个采集机,所述客户端用于调度采集任务,将采集任务发送到与其连接的服务端,服务端将所述采集任务分配到与其连接的采集机进行任务采集。
2.如权利要求1所述的基于云计算的信息采集系统,其特征在于,所述采集机为PC或PCserver。
3.一种利用权利要求1或2的基于云计算的信息采集系统的采集方法,其特征在于,包括如下步骤:
S1:客户端调度采集任务,并将调度的采集任务发送给位于云中的服务端A;
S2:所述服务端A将所述采集任务分配到采集机B;
S3:采集机B执行采集任务,并向所述服务端A返回执行结果。
4.如权利要求3所述的采集方法,其特征在于,所述步骤S1和步骤S2之间还包括:
所述服务端A检查与其连接的采集机的性能和采集机中采集任务队列的使用情况,选择接收采集任务的采集机B,选择标准包括以下几种标准:
X1:轮询算法,顺序循环将请求一次顺序循环地连接每个服务器。
X2:最少任务方式,选择当前采集机中最执行任务最少比率的采集机
X3:最快模式,选择采集机中响应最快的采集机;
X4:动态性能分配,实时收集采集机各项性能参数,按性能参数实时选择采集机。
5.如权利要求3所述的采集方法,其特征在于,步骤S1和步骤S2之间还包括:
服务端在分配任务之间,通过服务器集群的方式相互通信,当一个服务端的采集任务达到性能临界点时,动态将采集任务发送到云中的另一个服务端。
6.如权利要求5所述的采集方法,其特征在于,所述步骤性能临界点为:CPU使用率上限80%、内存使用率上限70%或内存使用量上限为1024MB。
7.如权利要求3所述的采集方法,其特征在于,所述步骤S3具体包括:
将接收到的采集任务放入任务采集队列;
从所述采集任务队列中取出所述采集任务,若需要监控采集的结果并依赖于另一个任务的执行,则采取阻塞方式执行所述采集任务;否则,以非阻塞方式执行所述采集任务。
8.如权利要求7所述的采集方法,其特征在于,所述步骤S3之后还包括:
S4:如果执行成功,所述服务端A根据任务定制查找是否有依赖任务,存在新依赖则继续向采集机B发送采集任务;
S5:如果不成功,按任务定义是否尝试补采,并根据补采集定义次数进行补采,超过预定次数会发出采集任务错误消息,不会再发起补采任务。
9.如权利要求3~7中任一项所述的采集方法,其特征在于,所述步骤S1之前还包括:
所述采集机启动时通过网络广播的形式查找到云中的服务端,并通过socket方式进行心跳连接。
CN2010105624696A 2010-11-23 2010-11-23 基于云计算的信息采集系统及方法 Pending CN102158346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105624696A CN102158346A (zh) 2010-11-23 2010-11-23 基于云计算的信息采集系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105624696A CN102158346A (zh) 2010-11-23 2010-11-23 基于云计算的信息采集系统及方法

Publications (1)

Publication Number Publication Date
CN102158346A true CN102158346A (zh) 2011-08-17

Family

ID=44439547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105624696A Pending CN102158346A (zh) 2010-11-23 2010-11-23 基于云计算的信息采集系统及方法

Country Status (1)

Country Link
CN (1) CN102158346A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508709A (zh) * 2011-11-30 2012-06-20 国电南瑞科技股份有限公司 购供售一体化电能量采集与监控系统中基于分布式缓存的采集任务调度方法
CN102591712A (zh) * 2011-12-30 2012-07-18 大连理工大学 一种云计算中依赖任务的解耦并行调度方法
CN102739775A (zh) * 2012-05-29 2012-10-17 宁波东冠科技有限公司 物联网数据采集服务器集群的监控和管理方法
CN103188088A (zh) * 2011-12-27 2013-07-03 北京新媒传信科技有限公司 设备信息采集系统及方法
CN103246571A (zh) * 2012-02-10 2013-08-14 联想(北京)有限公司 控制方法和电子设备
CN104158878A (zh) * 2014-08-18 2014-11-19 浪潮(北京)电子信息产业有限公司 一种自适应调度的分布式监控数据采集方法和系统
CN104735137A (zh) * 2015-03-09 2015-06-24 广州杰赛科技股份有限公司 一种实现客户端与服务器端异步交互的方法和系统
CN105404553A (zh) * 2015-12-01 2016-03-16 安徽瑞信软件有限公司 采集装置的任务分配方法
CN105527948A (zh) * 2015-12-11 2016-04-27 东北大学 一种基于工业过程的大规模分布式数据采集系统及方法
CN105553774A (zh) * 2015-12-23 2016-05-04 厦门市美亚柏科信息股份有限公司 一种互联网数据采集方法及系统
CN106603582A (zh) * 2017-02-23 2017-04-26 北京工业大学 一种网络微服务发现方法
CN106790325A (zh) * 2015-11-20 2017-05-31 北京神州泰岳软件股份有限公司 一种访问网络设备的方法和系统
CN109150854A (zh) * 2018-08-01 2019-01-04 浙江艾罗网络能源技术有限公司 基于xml文件的动态可配置通信规约转换系统
CN110704504A (zh) * 2019-09-20 2020-01-17 天翼征信有限公司 数据源采集接口分发方法、系统、存储介质及终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101370024A (zh) * 2007-08-15 2009-02-18 北京灵图软件技术有限公司 信息的分布式采集方法及系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102508709A (zh) * 2011-11-30 2012-06-20 国电南瑞科技股份有限公司 购供售一体化电能量采集与监控系统中基于分布式缓存的采集任务调度方法
CN103188088A (zh) * 2011-12-27 2013-07-03 北京新媒传信科技有限公司 设备信息采集系统及方法
CN103188088B (zh) * 2011-12-27 2015-11-18 北京新媒传信科技有限公司 设备信息采集系统及方法
CN102591712B (zh) * 2011-12-30 2013-11-20 大连理工大学 一种云计算中依赖任务的解耦并行调度方法
CN102591712A (zh) * 2011-12-30 2012-07-18 大连理工大学 一种云计算中依赖任务的解耦并行调度方法
CN103246571B (zh) * 2012-02-10 2018-02-27 联想(北京)有限公司 控制方法和电子设备
CN103246571A (zh) * 2012-02-10 2013-08-14 联想(北京)有限公司 控制方法和电子设备
CN102739775B (zh) * 2012-05-29 2017-11-07 宁波东冠科技有限公司 物联网数据采集服务器集群的监控和管理方法
CN102739775A (zh) * 2012-05-29 2012-10-17 宁波东冠科技有限公司 物联网数据采集服务器集群的监控和管理方法
CN104158878B (zh) * 2014-08-18 2019-02-15 浪潮(北京)电子信息产业有限公司 一种自适应调度的分布式监控数据采集方法和系统
CN104158878A (zh) * 2014-08-18 2014-11-19 浪潮(北京)电子信息产业有限公司 一种自适应调度的分布式监控数据采集方法和系统
CN104735137A (zh) * 2015-03-09 2015-06-24 广州杰赛科技股份有限公司 一种实现客户端与服务器端异步交互的方法和系统
CN106790325A (zh) * 2015-11-20 2017-05-31 北京神州泰岳软件股份有限公司 一种访问网络设备的方法和系统
CN106790325B (zh) * 2015-11-20 2020-07-10 北京神州泰岳软件股份有限公司 一种访问网络设备的方法和系统
CN105404553A (zh) * 2015-12-01 2016-03-16 安徽瑞信软件有限公司 采集装置的任务分配方法
CN105527948A (zh) * 2015-12-11 2016-04-27 东北大学 一种基于工业过程的大规模分布式数据采集系统及方法
CN105527948B (zh) * 2015-12-11 2018-04-24 东北大学 一种基于工业过程的大规模分布式数据采集系统及方法
CN105553774A (zh) * 2015-12-23 2016-05-04 厦门市美亚柏科信息股份有限公司 一种互联网数据采集方法及系统
CN106603582A (zh) * 2017-02-23 2017-04-26 北京工业大学 一种网络微服务发现方法
CN109150854A (zh) * 2018-08-01 2019-01-04 浙江艾罗网络能源技术有限公司 基于xml文件的动态可配置通信规约转换系统
CN109150854B (zh) * 2018-08-01 2021-03-19 浙江艾罗网络能源技术股份有限公司 基于xml文件的动态可配置通信规约转换系统
CN110704504A (zh) * 2019-09-20 2020-01-17 天翼征信有限公司 数据源采集接口分发方法、系统、存储介质及终端

Similar Documents

Publication Publication Date Title
CN102158346A (zh) 基于云计算的信息采集系统及方法
CN102377686B (zh) 一种消息订阅系统、消息订阅方法及装置
CN103179217B (zh) 一种用于web应用服务器群组的负载均衡方法和装置
CN101345652B (zh) 数据采集方法及数据采集设备
CN101951411A (zh) 云调度系统及方法以及多级云调度系统
WO2008046962A1 (en) Dynamic polling control for content distribution
CN101674320B (zh) 一种集群环境下的服务寻址方法及装置
CN103036961A (zh) 一种日志分布式收集及存储方法
CN104243609B (zh) 一种信息业务推送方法和装置
CN103516744A (zh) 一种数据处理的方法和应用服务器及集群
CN112202918B (zh) 长连接通信的负载调度方法、装置、设备及存储介质
CN104604189A (zh) 大型企业的高效状态发布机制
CN103442030A (zh) 发送和处理业务请求信息的方法和系统以及客户端装置
US20160344582A1 (en) Call home cluster
CN103581276A (zh) 集群管理装置、系统、业务客户端及相应方法
CN109218369A (zh) 远程过程调用请求控制方法及装置
CN104618466A (zh) 基于消息传递的负载均衡和过负荷控制系统及其控制方法
CN103763206A (zh) 一种网络调度方法及网关
CN106790354B (zh) 一种防数据拥堵的通信方法及其装置
CN112910740A (zh) 一种状态上报方法、装置、设备和计算机可读存储介质
CN103023937A (zh) 一种网络文件的分发方法及系统
CN108429703A (zh) Dhcp客户端上线方法及装置
CN107438098A (zh) 一种动态内容分发方法及其系统
CN101938383A (zh) 多种业务的用户账号在线监控方法、系统与监控服务系统
CN101695049A (zh) 一种监控系统中的业务处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20110817

RJ01 Rejection of invention patent application after publication