CN107463664A - 一种基于政务数据采集的etl处理方法及装置 - Google Patents

一种基于政务数据采集的etl处理方法及装置 Download PDF

Info

Publication number
CN107463664A
CN107463664A CN201710646467.7A CN201710646467A CN107463664A CN 107463664 A CN107463664 A CN 107463664A CN 201710646467 A CN201710646467 A CN 201710646467A CN 107463664 A CN107463664 A CN 107463664A
Authority
CN
China
Prior art keywords
data
etl
file
task
government
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710646467.7A
Other languages
English (en)
Inventor
李会
郝文祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Cloud Service Information Technology Co Ltd
Original Assignee
Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Service Information Technology Co Ltd filed Critical Shandong Inspur Cloud Service Information Technology Co Ltd
Priority to CN201710646467.7A priority Critical patent/CN107463664A/zh
Publication of CN107463664A publication Critical patent/CN107463664A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于政务数据采集的ETL处理方法,属于数据采集技术领域,该处理方法通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,最后,对采集到的数据实现按数据量大小和采集天数进行统计分析,解决政务高效的管理和使用数据。本发明还提供一种ETL处理装置,包括:通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成数据采集的ETL数据采集模块;通过ETL工具提供的接口来实现数据调度、通过创建task任务进行实时监控的调度与监控模块;用于查询文件导入或者数据抽取的数据总量、成功量、失败量,并把采集成功的数据总量分大小和天数出具统计分析图的统计分析模块。

Description

一种基于政务数据采集的ETL处理方法及装置
技术领域
本发明涉及数据采集技术领域,具体地说是一种基于政务数据采集的ETL处理方法及装置。
背景技术
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别暴增。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。
随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前,如何能够做到所见即所得的无阻拦式采集、如何快速把不规则数据结构化并存储、如何满足越来越多的数据在有限时间内采集迫在眉睫。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于政务数据采集的ETL处理方法及装置,实现政务的高效管理和数据的有效利用。
本发明解决其技术问题所采用的技术方案是:
一种基于政务数据采集的ETL处理方法,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。
所涉及ETL处理方法具体通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。
所涉及ETL工具为kettle,ETL处理方法具体通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。
所涉及外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。
所涉及外部文件数据导入的实现流程为:
1)开始;
2)填写任务名称、任务描述;
3)选择文件获取方式:
a)采用文件上传方式,首先下载导入模板,然后上传文件;
b)采用远程获取方式,首先填写主机地址、端口、用户及密码,然后填写文件路径、命名格式;
c)采用服务器读取的方式,直接填写文件路径、命名格式;
4)配置数据更新方式;
5)数据格式:
a)为非结构化数据时,依次完成文件获取、提交至hdfs存储、存储位置保存至关系型数据库工作后;
b)为结构化数据时,依次完成适配器解析、通过增量或全量的同步方式完成文件解析和数据保存工作;
6)结束。
所涉及外部数据库抽取的实现流程为:
1)开始;
2)抽取任务创建流程;
3)启用任务:
4)生成任务文件,并上传;
5)生成kettle执行任务;
6)调度执行;
7)停用任务;
8)更新为停用状态;
9)停止并删除调度任务;
10)结束。
所涉及数据采集过程中,通过创建task任务进行实时监控。
对采集数据进行汇总及统计分析的过程具体包括:
查询文件导入或者数据抽取的数据总量、成功量、失败量;
把采集成功的数据总量分大小和天数出具统计分析图。
本发明还提供了一种基于政务数据采集的ETL处理装置,该ETL处理装置包括:
ETL数据采集模块,该模块通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集;
调度与监控模块,该模块通过ETL工具提供的接口来实现数据调度、通过创建task任务进行实时监控;
统计分析模块,该模块用于查询文件导入或者数据抽取的数据总量、成功量、失败量,并把采集成功的数据总量分大小和天数出具统计分析图。
所涉及ETL数据采集模块完成外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。
本发明的一种基于政务数据采集的ETL处理方法及装置与现有技术相比所产生的有益效果是:
1)本发明的ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分,能够通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,对采集到的数据实现按数据量大小和采集天数进行统计分析,实现政务的高效管理和数据的有效利用;
2)另外,本发明还提供一种ETL处理装置,其与上述ETL处理方法的相同,通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,对采集到的数据实现按数据量大小和采集天数进行统计分析,实现政务的高效管理和数据的有效利用。
附图说明
附图1是本发明中实施例一的方法流程图;
附图2是实施例一中外部文件数据导入的实现流程图;
附图3是实施例一中外部数据库抽取的实现流程图;
附图4是本发明中实施例二的连接框图。
具体实施方式
下面结合附图1-4,对本发明的一种基于政务数据采集的ETL处理方法及装置作以下详细说明。
实施例一:
如附图1所示,本发明提供一种基于政务数据采集的ETL处理方法,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。
所涉及ETL处理方法具体通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。
所涉及ETL工具为kettle,ETL处理方法具体通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。
所涉及外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。
如附图2所示,所涉及外部文件数据导入的实现流程为:
1)开始;
2)填写任务名称、任务描述;
3)选择文件获取方式:
a)采用文件上传方式,首先下载导入模板,然后上传文件;
b)采用远程获取方式,首先填写主机地址、端口、用户及密码,然后填写文件路径、命名格式;
c)采用服务器读取的方式,直接填写文件路径、命名格式;
4)配置数据更新方式;
5)数据格式:
a)为非结构化数据时,依次完成文件获取、提交至hdfs存储、存储位置保存至关系型数据库工作后;
b)为结构化数据时,依次完成适配器解析、通过增量或全量的同步方式完成文件解析和数据保存工作;
6)结束。
如附图3所示,所涉及外部数据库抽取的实现流程为:
1)开始;
2)抽取任务创建流程;
3)启用任务:
4)生成任务文件,并上传;
5)生成kettle执行任务;
6)调度执行;
7)停用任务;
8)更新为停用状态;
9)停止并删除调度任务;
10)结束。
所涉及数据采集过程中,通过创建task任务进行实时监控。
对采集数据进行汇总及统计分析的过程具体包括:
查询文件导入或者数据抽取的数据总量、成功量、失败量;
把采集成功的数据总量分大小和天数出具统计分析图。
本发明的ETL处理方法能够通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,对采集到的数据实现按数据量大小和采集天数进行统计分析,实现政务的高效管理和数据的有效利用。
实施例二:
参考附图4,本发明还提供了一种基于政务数据采集的ETL处理装置,该ETL处理装置包括:
ETL数据采集模块,该模块通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集;
调度与监控模块,该模块通过ETL工具提供的接口来实现数据调度、通过创建task任务进行实时监控;
统计分析模块,该模块用于查询文件导入或者数据抽取的数据总量、成功量、失败量,并把采集成功的数据总量分大小和天数出具统计分析图。
所涉及ETL数据采集模块完成外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。
本发明的ETL处理装置与上述ETL处理方法的相同,也能通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,对采集到的数据实现按数据量大小和采集天数进行统计分析,实现政务的高效管理和数据的有效利用。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于政务数据采集的ETL处理方法及装置的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (10)

1.一种基于政务数据采集的ETL处理方法,其特征在于,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。
2.根据权利要求1所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述ETL处理方法通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。
3.根据权利要求2所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述ETL工具为kettle,ETL处理方法通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。
4.根据权利要求3所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。
5.根据权利要求3所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述外部文件数据导入的实现流程为:
1)开始;
2)填写任务名称、任务描述;
3)选择文件获取方式:
a)采用文件上传方式,首先下载导入模板,然后上传文件;
b)采用远程获取方式,首先填写主机地址、端口、用户及密码,然后填写文件路径、命名格式;
c)采用服务器读取的方式,直接填写文件路径、命名格式;
4)配置数据更新方式;
5)数据格式:
a)为非结构化数据时,依次完成文件获取、提交至hdfs存储、存储位置保存至关系型数据库工作后;
b)为结构化数据时,依次完成适配器解析、通过增量或全量的同步方式完成文件解析和数据保存工作;
6)结束。
6.根据权利要求3所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述外部数据库抽取的实现流程为:
1)开始;
2)抽取任务创建流程;
3)启用任务:
4)生成任务文件,并上传;
5)生成kettle执行任务;
6)调度执行;
7)停用任务;
8)更新为停用状态;
9)停止并删除调度任务;
10)结束。
7.根据权利要求1所述的一种基于政务数据采集的ETL处理方法,其特征在于,数据采集过程中,通过创建task任务进行实时监控。
8.根据权利要求1所述的一种基于政务数据采集的ETL处理方法,其特征在于,对采集数据进行汇总及统计分析的过程具体包括:
查询文件导入或者数据抽取的数据总量、成功量、失败量;
把采集成功的数据总量分大小和天数出具统计分析图。
9.一种基于政务数据采集的ETL处理装置,其特征在于,该ETL处理装置包括:
ETL数据采集模块,该模块通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集;
调度与监控模块,该模块通过ETL工具提供的接口来实现数据调度、通过创建task任务进行实时监控;
统计分析模块,该模块用于查询文件导入或者数据抽取的数据总量、成功量、失败量,并把采集成功的数据总量分大小和天数出具统计分析图。
10.根据权利要求9所述的一种基于政务数据采集的ETL处理装置,其特征在于,所述ETL数据采集模块完成外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。
CN201710646467.7A 2017-08-01 2017-08-01 一种基于政务数据采集的etl处理方法及装置 Pending CN107463664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710646467.7A CN107463664A (zh) 2017-08-01 2017-08-01 一种基于政务数据采集的etl处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710646467.7A CN107463664A (zh) 2017-08-01 2017-08-01 一种基于政务数据采集的etl处理方法及装置

Publications (1)

Publication Number Publication Date
CN107463664A true CN107463664A (zh) 2017-12-12

Family

ID=60547970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710646467.7A Pending CN107463664A (zh) 2017-08-01 2017-08-01 一种基于政务数据采集的etl处理方法及装置

Country Status (1)

Country Link
CN (1) CN107463664A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033291A (zh) * 2018-07-13 2018-12-18 深圳市小牛在线互联网信息咨询有限公司 一种作业调度方法、装置、计算机设备及存储介质
CN110019423A (zh) * 2019-04-11 2019-07-16 山东浪潮云信息技术有限公司 一种适用于政务应用的统计方法
CN112860775A (zh) * 2021-01-18 2021-05-28 平安科技(深圳)有限公司 员工效能评估方法、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195430A1 (en) * 2007-02-12 2008-08-14 Yahoo! Inc. Data quality measurement for etl processes
CN104391989A (zh) * 2014-12-16 2015-03-04 浪潮电子信息产业股份有限公司 一种分布式etl一体机系统
CN104732436A (zh) * 2015-03-26 2015-06-24 浪潮软件集团有限公司 一种第三方涉税信息采集与分析利用工具
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN105761141A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 智能监控分析平台
CN106203828A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种基于数据全生命周期管理的数据管理平台
CN106227862A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 基于分布式的电商数据整合方法
CN106447483A (zh) * 2016-09-26 2017-02-22 山东浪潮云服务信息科技有限公司 一种基于数据分析的信息控税实现结构

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080195430A1 (en) * 2007-02-12 2008-08-14 Yahoo! Inc. Data quality measurement for etl processes
CN104391989A (zh) * 2014-12-16 2015-03-04 浪潮电子信息产业股份有限公司 一种分布式etl一体机系统
CN104820670A (zh) * 2015-03-13 2015-08-05 国家电网公司 一种电力信息大数据的采集和存储方法
CN104732436A (zh) * 2015-03-26 2015-06-24 浪潮软件集团有限公司 一种第三方涉税信息采集与分析利用工具
CN105761141A (zh) * 2016-02-23 2016-07-13 浪潮软件集团有限公司 智能监控分析平台
CN106203828A (zh) * 2016-07-11 2016-12-07 浪潮软件集团有限公司 一种基于数据全生命周期管理的数据管理平台
CN106227862A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 基于分布式的电商数据整合方法
CN106447483A (zh) * 2016-09-26 2017-02-22 山东浪潮云服务信息科技有限公司 一种基于数据分析的信息控税实现结构

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033291A (zh) * 2018-07-13 2018-12-18 深圳市小牛在线互联网信息咨询有限公司 一种作业调度方法、装置、计算机设备及存储介质
CN110019423A (zh) * 2019-04-11 2019-07-16 山东浪潮云信息技术有限公司 一种适用于政务应用的统计方法
CN112860775A (zh) * 2021-01-18 2021-05-28 平安科技(深圳)有限公司 员工效能评估方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN102955977B (zh) 一种基于云技术的能效服务方法及其能效服务平台
CN104216895B (zh) 一种生成poi数据的方法及装置
CN107463664A (zh) 一种基于政务数据采集的etl处理方法及装置
CN106709012A (zh) 一种大数据分析方法及装置
CN104462222A (zh) 一种卡口车辆通行数据的分布式存储方法及系统
CN104181583B (zh) 无缆存储式地震仪数据分布式回收方法
CN104077402A (zh) 数据处理方法和数据处理系统
CN107241305A (zh) 一种基于多核处理器的网络协议分析系统及其分析方法
CN112651126A (zh) 一种基于bim的建筑工程施工优化系统、方法、终端及存储介质
CN107194007A (zh) 一种航天器异构测试数据集成管理系统
CN110968624A (zh) 一种动物疫病监测数据统计分析地理信息系统及实现方法
CN102611626A (zh) 网络流量解析系统及方法
CN104462456A (zh) 基于生活数据处理的大数据系统
CN103853838A (zh) 一种数据处理方法和装置
CN106682206A (zh) 一种大数据处理方法及系统
CN105956932A (zh) 配用电数据融合方法和系统
CN104202328B (zh) 一种订阅goose/smv报文的方法、配置模块及订阅端
CN110633301A (zh) 一种基于引擎设置抽取数据的方法及系统
CN108710347A (zh) 一种监控云平台
CN207833556U (zh) 基于bim的智能地磅管理系统
CN104639634A (zh) 一种基于云计算的实验室设备预定系统
CN105426407A (zh) 一种基于内容分析的web数据采集方法
CN104933042A (zh) 基于大数据量的数据库表采集优化技术
CN109284330A (zh) 一种用于园区的物联网大数据管理系统
CN103957119A (zh) 一种采用mib文件对网络设备进行管理的方法及浏览器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212