CN104504010A - 一种多对多的数据采集系统及其采集方法 - Google Patents
一种多对多的数据采集系统及其采集方法 Download PDFInfo
- Publication number
- CN104504010A CN104504010A CN201410758012.0A CN201410758012A CN104504010A CN 104504010 A CN104504010 A CN 104504010A CN 201410758012 A CN201410758012 A CN 201410758012A CN 104504010 A CN104504010 A CN 104504010A
- Authority
- CN
- China
- Prior art keywords
- data
- acquisition
- task
- node
- processing server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及计算机应用技术领域,特别涉及一种多对多的数据采集系统及其采集方法。本发明的系统由采集管理平台、采集引擎和数据处理服务器三部分构成。采集管理平台,用于管理节点、通信协议、ETL规则和采集任务;采集引擎,支持多种通信方式,通过通信协议与数据提供方节点进行握手,识别提供方的合法性并进行数据采集,完成后通知数据处理服务器;数据处理服务器包括了数据清洗和拔插式的数据处理组件。本发明将数据采集流程规范化,组件接口标准化,具有扩展性好,适用范围广等特点,可应用于多种关系型数据库的系统中。
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种多对多的数据采集系统及其采集方法。
背景技术
随着计算机应用技术的发展,应用系统间的数据关联越趋紧密,无时无刻都有大量数据信息进行交互。同时,伴随着发展的多样性,各系统数据交互方式不一,当交互方式增加时,数据提供方与接收方均需要额外添加渠道,或者各自建立自己的一套方案来解决这一兼容性问题。当原有交互方式改变时,往往伴随着大量变更工作。
发明内容
本发明解决的技术问题之一在于针对交互方式多样,各系统增加渠道开销大的问题,提供了一种多对多的数据采集系统。实现数据提供方与接收方统一管理,大大减少了多个系统间新增渠道造成的额外开销,保证了采集任务流程化、节点间交互多样性及可扩展性。
本发明解决的技术问题之二在于针对交互方式多样,各系统增加渠道开销大的问题,提供了一种多对多的数据采集系统的采集方法。实现数据提供方与接收方统一管理,减少多个系统间新增渠道造成的额外开销,保证采集任务流程化、节点间交互多样性及可扩展性。
本发明解决上述技术问题之一的技术方案是:
所述的系统由采集管理平台、采集引擎和数据处理服务器构成,并提供相应的开发和集成接口;
所述的采集管理平台,用于管理数据提供方节点、接收方节点、通信协议、ETL规则和采集任务;每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则负责对采集文件进行栏位、条件清洗;采集任务是一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合;
所述的采集引擎,支持多种通信方式,通过通信协议与数据提供方进行握手,识别提供方的合法性并进行数据采集,通知数据处理服务器;
所述的数据处理服务器,包括了数据清洗和拔插式的数据处理组件;数据清洗模块利用ETL规则以及任务指定的数据处理组件对采集数据进行萃取、转换并加载至目标节点;数据处理组件采用系统提供的标准接口,每一个组件处理一种数据文件,可根据实际情况进行拔插。
所述的采集管理平台提供CRUD访问接口,用于查询及维护节点信息、通信协议、ETL规则和采集任务。
本发明解决上述技术问题之二的技术方案是:
所述的方法中,建立新任务的详细流程是:
第一步,分配提供方和接收方节点编号,维护节点信息;
第二步,维护通信协议,添加通信方式及其规则;
第三步,与数据提供方和接收方进行通信绿灯测试;
第四步,维护ETL规则;
第五步,维护任务信息,添加任务使用的节点信息、通信协议、ETL规则及其他任务补充信息;
第六步,日志记录,完成;
采集引擎的详细工作流程是:
第一步,采集引擎调度服务处于监听状态;
第二步,根据任务循环周期开始执行任务;
第三步,根据任务节点参数验证节点活动状态;
第四步,根据任务通信协议与提供方节点握手,连接成功后检查文件完整性并进行文件采集;
第五步,添加数据清洗任务至数据处理服务器队列;
第六步,日志记录,完成;
数据处理服务器的详细工作流程是:
第一步,数据处理服务器队列处于运行状态;
第二步,分析任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;
第三步,根据文件类型调用对应的数据处理组件;
第四步,根据ETL规则对数据文件进行萃取、转换及入库;
第五步,日志记录,完成。
本发明针对交互方式多样,各系统增加渠道开销大的问题,通过管理平台、引擎和服务器的三大部件,将多个系统以节点的模式通过采集、清洗、入库任务链紧密结合在一起。管理平台统一管理节点、通信协议、ETL规则和任务,实现任务流程化管理;采集引擎支持协议多样性,提供标准接口,保证了协议可扩展;数据处理服务器支持可拔插的数据处理模块,同时将任务以队列的方式进行自动化处理。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的总体结构图;
图2是本发明的总体流程框图;
图3是本发明任务流程的序列图;
图4是本发明数据处理服务器的处理活动图。
具体实施方式
本发明针对交互方式多样,各系统增加渠道开销大的问题,提供了一种多对多的数据采集系统及其方法。实现了数据提供方与接收方统一管理,大大减少了多个系统间新增渠道造成的额外开销,保证了采集任务流程化、节点间交互多样性及可扩展性。
见图1、2所示,本发明由采集管理平台、采集引擎和数据处理服务器构成;
采集管理平台:用于管理数据提供方和接收方节点、通信协议、ETL规则以及采集任务;
节点:每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;
通信协议:包括了可配置的通信方式及其规则,是数据采集的方式;
ETL规则:负责对采集文件进行栏位、条件清洗;
采集任务:指一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合。
图2表示了任务的序列流程,任务执行的详细流程是:
第一步,采集引擎调度服务拆分任务信息;
第二步,根据任务节点参数验证提供方节点活动状态;
第三步,接收状态反馈;
第四步,根据任务通信协议与提供方节点握手;
第五步,接收状态反馈;
第六步,连接成功后检查文件完整性并进行文件采集;
第七步,添加数据清洗任务至数据处理服务器队列;
第八步,队列处理清洗任务;
第九步,加载清洗后数据至接收方节点;
第十步,接收状态反馈;
第十一步,任务状态更新;
第十二步,日志记录,完成。
图3表示了数据处理服务器的处理活动状态,数据处理服务器详细的业务流程为:
第一步,数据处理服务器解析清洗任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;
第二步,根据文件类型调用对应的数据处理组件;
第三步,加载文件入缓存库;
第四步,根据ETL规则对缓存数据进行萃取、转换;
第五步,根据目标节点数据库类型及存储位置进行载入;
第六步,任务状态更新;
第七步,日志记录,完成。
Claims (3)
1.一种多对多的数据采集系统,其特征在于:所述的系统由采集管理平台、采集引擎和数据处理服务器构成,并提供相应的开发和集成接口;
所述的采集管理平台,用于管理数据提供方节点、接收方节点、通信协议、ETL规则和采集任务;每一个提供方或接收方作为一个子节点,描述了与平台的交互及状态,通过平台统一管理;通信协议包括了可配置的通信方式及其规则,是数据采集的方式;ETL规则负责对采集文件进行栏位、条件清洗;采集任务是一条包含了节点信息、通信协议、ETL规则以及其他任务补充信息的数据集合;
所述的采集引擎,支持多种通信方式,通过通信协议与数据提供方进行握手,识别提供方的合法性并进行数据采集,通知数据处理服务器;
所述的数据处理服务器,包括了数据清洗和拔插式的数据处理组件;数据清洗模块利用ETL规则以及任务指定的数据处理组件对采集数据进行萃取、转换并加载至目标节点;数据处理组件采用系统提供的标准接口,每一个组件处理一种数据文件,可根据实际情况进行拔插。
2.根据权利要求1所述的一种多对多的数据采集系统,其特征在于:所述的采集管理平台提供CRUD访问接口,用于查询及维护节点信息、通信协议、ETL规则和采集任务。
3.权利要求1或2任一项所述的多对多的数据采集系统的采集方法,其特征在于:所述的方法中,建立新任务的详细流程是:
第一步,分配提供方和接收方节点编号,维护节点信息;
第二步,维护通信协议,添加通信方式及其规则;
第三步,与数据提供方和接收方进行通信绿灯测试;
第四步,维护ETL规则;
第五步,维护任务信息,添加任务使用的节点信息、通信协议、ETL规则及其他任务补充信息;
第六步,日志记录,完成;
采集引擎的详细工作流程是:
第一步,采集引擎调度服务处于监听状态;
第二步,根据任务循环周期开始执行任务;
第三步,根据任务节点参数验证节点活动状态;
第四步,根据任务通信协议与提供方节点握手,连接成功后检查文件完整性并进行文件采集;
第五步,添加数据清洗任务至数据处理服务器队列;
第六步,日志记录,完成;
数据处理服务器的详细工作流程是:
第一步,数据处理服务器队列处于运行状态;
第二步,分析任务,获取ETL规则、文件类型、目标节点数据库类型及存储位置;
第三步,根据文件类型调用对应的数据处理组件;
第四步,根据ETL规则对数据文件进行萃取、转换及入库;
第五步,日志记录,完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410758012.0A CN104504010B (zh) | 2014-12-11 | 2014-12-11 | 一种多对多的数据采集系统及其采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410758012.0A CN104504010B (zh) | 2014-12-11 | 2014-12-11 | 一种多对多的数据采集系统及其采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104504010A true CN104504010A (zh) | 2015-04-08 |
CN104504010B CN104504010B (zh) | 2017-08-01 |
Family
ID=52945408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410758012.0A Active CN104504010B (zh) | 2014-12-11 | 2014-12-11 | 一种多对多的数据采集系统及其采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104504010B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630964A (zh) * | 2015-12-25 | 2016-06-01 | 甘肃万维信息技术有限责任公司 | 一种数据交互分析系统 |
CN106295220A (zh) * | 2016-08-19 | 2017-01-04 | 京东方科技集团股份有限公司 | 一种医疗数据管理方法、装置及医疗数据系统 |
CN106850596A (zh) * | 2017-01-16 | 2017-06-13 | 北京市天元网络技术股份有限公司 | 一种数据采集系统和方法 |
CN107135198A (zh) * | 2017-03-28 | 2017-09-05 | 深圳市卓讯信息技术有限公司 | 一种基于etl技术协同多通讯协议的数据交换方法及装置 |
CN109951428A (zh) * | 2017-12-21 | 2019-06-28 | 上海远动科技有限公司 | 一种数据整合系统 |
CN113535835A (zh) * | 2021-07-12 | 2021-10-22 | 上海浦东发展银行股份有限公司 | 内核数据处理软件的数据采集方法、装置、介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739454A (zh) * | 2009-12-29 | 2010-06-16 | 用友软件股份有限公司 | 数据处理系统 |
CN102508908A (zh) * | 2011-11-11 | 2012-06-20 | 北京用友政务软件有限公司 | 一种下级财政业务数据的采集方法和系统 |
CN102819589A (zh) * | 2012-08-06 | 2012-12-12 | 北京久其软件股份有限公司 | 一种基于etl的数据优化方法及设备 |
CN103955509A (zh) * | 2014-04-30 | 2014-07-30 | 广西电网公司电力科学研究院 | 一种海量电力计量数据的快速检索方法 |
US20140280366A1 (en) * | 2013-03-13 | 2014-09-18 | International Business Machines Corporation | Output driven generation of a combined schema from a plurality of input data schemas |
US20140310231A1 (en) * | 2013-04-16 | 2014-10-16 | Cognizant Technology Solutions India Pvt. Ltd. | System and method for automating data warehousing processes |
US20140317046A1 (en) * | 2013-04-23 | 2014-10-23 | International Business Machines Corporation | Method and system for scoring data in a database |
-
2014
- 2014-12-11 CN CN201410758012.0A patent/CN104504010B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739454A (zh) * | 2009-12-29 | 2010-06-16 | 用友软件股份有限公司 | 数据处理系统 |
CN102508908A (zh) * | 2011-11-11 | 2012-06-20 | 北京用友政务软件有限公司 | 一种下级财政业务数据的采集方法和系统 |
CN102819589A (zh) * | 2012-08-06 | 2012-12-12 | 北京久其软件股份有限公司 | 一种基于etl的数据优化方法及设备 |
US20140280366A1 (en) * | 2013-03-13 | 2014-09-18 | International Business Machines Corporation | Output driven generation of a combined schema from a plurality of input data schemas |
US20140310231A1 (en) * | 2013-04-16 | 2014-10-16 | Cognizant Technology Solutions India Pvt. Ltd. | System and method for automating data warehousing processes |
US20140317046A1 (en) * | 2013-04-23 | 2014-10-23 | International Business Machines Corporation | Method and system for scoring data in a database |
CN103955509A (zh) * | 2014-04-30 | 2014-07-30 | 广西电网公司电力科学研究院 | 一种海量电力计量数据的快速检索方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630964A (zh) * | 2015-12-25 | 2016-06-01 | 甘肃万维信息技术有限责任公司 | 一种数据交互分析系统 |
CN106295220A (zh) * | 2016-08-19 | 2017-01-04 | 京东方科技集团股份有限公司 | 一种医疗数据管理方法、装置及医疗数据系统 |
CN106850596A (zh) * | 2017-01-16 | 2017-06-13 | 北京市天元网络技术股份有限公司 | 一种数据采集系统和方法 |
CN106850596B (zh) * | 2017-01-16 | 2020-08-04 | 北京市天元网络技术股份有限公司 | 一种数据采集系统和方法 |
CN107135198A (zh) * | 2017-03-28 | 2017-09-05 | 深圳市卓讯信息技术有限公司 | 一种基于etl技术协同多通讯协议的数据交换方法及装置 |
CN107135198B (zh) * | 2017-03-28 | 2021-04-16 | 深圳市卓讯信息技术有限公司 | 一种基于etl技术协同多通讯协议的数据交换方法及装置 |
CN109951428A (zh) * | 2017-12-21 | 2019-06-28 | 上海远动科技有限公司 | 一种数据整合系统 |
CN113535835A (zh) * | 2021-07-12 | 2021-10-22 | 上海浦东发展银行股份有限公司 | 内核数据处理软件的数据采集方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104504010B (zh) | 2017-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104504010A (zh) | 一种多对多的数据采集系统及其采集方法 | |
US11979433B2 (en) | Highly scalable four-dimensional web-rendering geospatial data system for simulated worlds | |
US11057313B2 (en) | Event processing with enhanced throughput | |
CN102790771B (zh) | 一种文件传输方法及系统 | |
CN107807815B (zh) | 分布式处理任务的方法和装置 | |
CN102508919B (zh) | 数据处理方法及系统 | |
CN102902669B (zh) | 基于互联网系统的分布式信息抓取方法 | |
CN107612984B (zh) | 一种基于互联网的大数据平台 | |
CN104539672A (zh) | 一种基于云计算的移动应用程序消息推送代理系统 | |
CN104699723A (zh) | 数据交换适配器、异构系统之间数据同步系统和方法 | |
CN109032803A (zh) | 数据处理方法和装置、客户端 | |
CN105930502B (zh) | 一种收集数据的系统、客户端和方法 | |
CN109743137A (zh) | 一种支持更新的分布式延迟消息队列处理系统 | |
CN103139157A (zh) | 一种基于socket的网络通信方法、装置及系统 | |
CN111259066A (zh) | 服务器集群数据同步方法及装置 | |
CN110476154A (zh) | 用于数据收集的代理服务器设备和方法 | |
CN104933202A (zh) | 一种数据抽取、转换、加载etl的方法和设备 | |
CN109145053A (zh) | 数据处理方法和装置、客户端、服务器 | |
CN107122291A (zh) | 移动终端软件稳定性测试方法和设备 | |
CN102984739A (zh) | 故障信息处理方法及装置 | |
CN109981697B (zh) | 一种文件转存方法、系统、服务器及存储介质 | |
CN106506647A (zh) | 一种客户端具有数据备份装置的智慧社区云存储系统 | |
CN116980475B (zh) | 一种基于binlog与双环形缓冲区的数据推送系统 | |
CN104123135A (zh) | 一种统一后台接口的方法及装置 | |
CN103514044A (zh) | 一种动态行为分析系统的资源优化方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 523808 19th Floor, Cloud Computing Center, Chinese Academy of Sciences, No. 1 Kehui Road, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province Patentee after: G-Cloud Technology Co., Ltd. Address before: 523808 No. 14 Building, Songke Garden, Songshan Lake Science and Technology Industrial Park, Dongguan City, Guangdong Province Patentee before: G-Cloud Technology Co., Ltd. |