CN102508912A - 数据提取、转化和加载的方法及系统 - Google Patents

数据提取、转化和加载的方法及系统 Download PDF

Info

Publication number
CN102508912A
CN102508912A CN2011103597824A CN201110359782A CN102508912A CN 102508912 A CN102508912 A CN 102508912A CN 2011103597824 A CN2011103597824 A CN 2011103597824A CN 201110359782 A CN201110359782 A CN 201110359782A CN 102508912 A CN102508912 A CN 102508912A
Authority
CN
China
Prior art keywords
data
type
extracted data
unit
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103597824A
Other languages
English (en)
Inventor
朱海全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longguan Media Co., Ltd.
Original Assignee
Shenzhen Coship Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coship Electronics Co Ltd filed Critical Shenzhen Coship Electronics Co Ltd
Priority to CN2011103597824A priority Critical patent/CN102508912A/zh
Publication of CN102508912A publication Critical patent/CN102508912A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了数据提取、转化和加载的方法及系统,其中,该方法包括:为不同类型的数据源配置不同的抽取规则,获取待抽取数据源的类型,由获取的类型调用并解析对应的抽取规则;采用解析的抽取规则从待抽取数据源中抽取数据;对抽取的数据进行转换,将转换后的数据加载到目标数据仓库中。本发明方案能够节省成本。

Description

数据提取、转化和加载的方法及系统
技术领域
本发明涉及数据处理技术,尤其涉及数据提取、转换和加载(ETL,Extraction-Transformation-Loading)的方法及系统。
背景技术
现代企业在信息化建设过程中,逐渐面临如何有效地利用企业中大量数据的问题,通过研究,目标数据仓库可以提供一个集成的数据平台,为数据分析和决策提供有效的支持。但数据源进入目标数据仓库之前须对其进行异构集成,因数据源常常是异构的,所谓异构也就是各条数据的构架、数据规范等存在差异,就需要对数据进行异构集成处理,使数据达到一致性。数据ETL方案就是为目标数据仓库提供一致性数据的方案。
目前,常用的数据ETL方案包括:
ETL系统接收来自业务处理系统的数据源后,调用预先设置好的抽取规则,对调用的抽取规则进行解析;采用解析的抽取规则从待抽取数据源中抽取数据;对抽取的数据进行转换,将转换后的数据加载到目标数据仓库中。加载到目标数据库的数据为具有一致性的统一目标数据,可作为联机分析处理、数据挖掘的基础。
图1为现有ETL系统的结构示意图,该系统包括抽取单元、转换单元和加载单元;抽取单元调用并解析预先配置的抽取规则,从待抽取数据源中抽取数据,将抽取的数据发送给所述转换单元;转换单元对抽取的数据进行转换,将转换后的数据发送给所述加载单元;加载单元将转换后的数据加载到所述目标数据仓库中。
来自各业务处理系统的数据源类型不一,现有方案中,针对不同类型的数据源,采用对应的不同ETL系统进行处理。具体地,由于数据源类型不同,需要采用不同的抽取规则从待抽取数据源中抽取数据;然后,再对抽取的进行转换和加载。
对每种不同类型的数据源,都需要采用相应的ETL系统进行处理,其成本较高。
发明内容
本发明提供了一种数据ETL的方法,该方法能够节省成本。
本发明提供了一种数据ETL的系统,该系统能够节省成本。
一种数据ETL的方法,该方法包括:
为不同类型的数据源配置不同的抽取规则;
获取待抽取数据源的类型,由获取的类型调用并解析对应的抽取规则;
采用解析的抽取规则从待抽取数据源中抽取数据;
对抽取的数据进行转换,将转换后的数据加载到目标数据仓库中。
一种数据ETL的系统,该系统包括规则配置单元、抽取单元、转换单元和加载单元;
所述规则配置单元,用于为不同类型的数据源配置不同的抽取规则;
所述抽取单元,用于获取待抽取数据源的类型,由获取的类型从所述规则配置单元中调用并解析对应的抽取规则,采用解析的抽取规则从待抽取数据源中抽取数据,将抽取的数据发送给所述转换单元;
所述转换单元,用于对抽取的数据进行转换,将转换后的数据发送给所述加载单元;
所述加载单元,用于将转换后的数据加载到所述目标数据仓库中。
从上述方案可以看出,本发明预先为不同类型的数据源配置不同的抽取规则,进行数据的ETL时,根据数据源类型的不同调用预先配置的相应抽取规则,解析调用的抽取规则,再由解析的抽取规则对数据源进行抽取,而后进行转换和加载。采用本发明方案,通过一套方案便可完成对不同类型的数据源进行ETL处理,无需像现有技术针对不同类型的数据源采用不同的ETL方案进行处理,从而,节省了成本。
附图说明
图1为现有技术数据ETL的系统结构示意图。
图2为本发明数据ETL的方法示意性流程图;
图3为本发明数据ETL的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
本发明中,预先为不同类型的数据源配置不同的抽取规则,进行数据的ETL时,根据数据源类型的不同调用预先配置的相应抽取规则,解析调用的抽取规则,再由解析的抽取规则对数据源进行抽取,而后进行转换和加载。参见图2,为本发明数据ETL的方法示意性流程图,该方法预先为不同类型的数据源配置不同的抽取规则,图2的流程包括以下步骤:
步骤201,获取待抽取数据源的类型,由获取的类型调用并解析对应的抽取规则。
本步骤可采用多种方式触发,例如,可随机触发,可周期性地触发,也可在需要时触发。以周期性触发进行说明,该方式需设置定时器,在本步骤之前,启动定时器,判断定时时刻是否到来,如果是,则执行所述获取待抽取数据源的类型的步骤,并重新启动定时器;否则,继续等待定时时刻的到来。
所述类型包括关系型、文件型等,所述关系型包括Mysql、ORACLE、DB2、SQL SERVER、mdb等,其中,mdb为消息驱动bean,是Microsoft Access软件使用的一种数据存储格式;所述文件型包括可扩展标记语言(XML,extensiblemarkup language)、txt、cvs等,其中txt和cvs为文本文件。
步骤202,采用解析的抽取规则从待抽取数据源中抽取数据。
步骤203,对抽取的数据进行转换,将转换后的数据加载到目标数据仓库中。
进行数据转换的过程中,将滤掉不符合要求的数据,并将过滤后的数据转换为目标数据结构,以实现数据汇总。
执行本步骤时,可采用批量处理的方式,将转换后的数据加载到目标数据仓库中,以加快加载的速度。
加载到目标数据库的数据为具有一致性的统一目标数据,可作为联机分析处理、数据挖掘的基础。
在图2的执行过程中,还可对执行过程进行监测,并在出现执行错误时,生成并上报监测结果,所述上报监测结果具体可通过向指定邮箱发送包含监测结果邮件的方式实现。例如,可以对步骤202中从待抽取数据源中抽取数据进行监测,在抽取数据时判断获知待抽取数据源是否为空,如果是,则生成并上传监测结果,否则,不生成监测结果。
采用本发明方案,通过一套方案便可完成对不同类型的数据源进行ETL处理,无需像现有技术针对不同类型的数据源采用不同的ETL方案进行处理,从而,节省了成本。
现有技术中,常采用JAVA实现数据的ETL处理。由于SHELL编程具有更接近操作系统语言,因而还可采用SHELL实现数据ETL功能,以提高ETL处理的效率;例如,对于抽取过程,可在SHELL编程中调用数据库工具中的select语句,实现按照抽取规则从待抽取数据源中抽取数据。并且,由于SHELL编程成本较低,可进一步节省成本。
参见图3,为本发明数据ETL的系统结构示意图,该系统包括规则配置单元、抽取单元、转换单元和加载单元;
所述规则配置单元,用于为不同类型的数据源配置不同的抽取规则;
所述抽取单元,用于获取待抽取数据源的类型,由获取的类型从所述规则配置单元中调用并解析对应的抽取规则,采用解析的抽取规则从待抽取数据源中抽取数据,将抽取的数据发送给所述转换单元;
所述转换单元,用于对抽取的数据进行转换,将转换后的数据发送给所述加载单元;
所述加载单元,用于将转换后的数据加载到所述目标数据仓库中。
可选地,该系统还包括定时判断单元,用于启动定时器,判断定时时刻是否到来,如果是,则向所述抽取单元发送执行命令,并重新启动定时器;否则,继续等待定时时刻的到来;所述抽取单元,还用于接收所述执行命令,然后执行所述获取待抽取数据源的类型的步骤。
可选地,该系统还包括监测单元,用于在所述抽取单元从待抽取数据源中抽取数据时判断待抽取数据源是否为空,如果是,则生成并上传监测结果,否则,不生成监测结果。所述监测单元还可对转换单元和加载单元进行监测,当监测到转换单元在进行数据转换时出现错误,也生成并上传监测结果;当监测到加载单元在进行数据加载时出现错误,也生成并上传监测结果。之后,管理人员根据接收的监测结果,可以对具体的错误进行相应的维护管理。
可选地,所述加载单元采用批量处理的方式,将转换后的数据加载到所述目标数据仓库中。
所述类型包括关系型、文件型等,所述关系型包括Mysql、ORACLE、DB2、SQL SERVER、mdb等,所述文件型包括XML、txt、cvs等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种数据提取、转换和加载的方法,其特征在于,为不同类型的数据源配置不同的抽取规则,该方法包括:
获取待抽取数据源的类型,由获取的类型调用并解析对应的抽取规则;
采用解析的抽取规则从待抽取数据源中抽取数据;
对抽取的数据进行转换,将转换后的数据加载到目标数据仓库中。
2.如权利要求1所述的方法,其特征在于,所述获取待抽取数据源的类型之前,该方法还包括:
启动定时器,判断定时时刻是否到来,如果是,则执行所述获取待抽取数据源的类型的步骤,并重新启动定时器;否则,继续等待定时时刻的到来。
3.如权利要求1所述的方法,其特征在于,所述从待抽取数据源中抽取数据时,该方法还包括:
判断待抽取数据源是否为空,如果是,则生成并上传监测结果;否则,不生成监测结果。
4.如权利要求1所述的方法,其特征在于,所述将转换后的数据加载到目标数据仓库中包括:
采用批量处理方式,将转换后的数据加载到目标数据仓库中。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述类型包括关系型和文件型。
6.一种数据提取、转换和加载的系统,其特征在于,该系统包括规则配置单元、抽取单元、转换单元和加载单元;
所述规则配置单元,用于为不同类型的数据源配置不同的抽取规则;
所述抽取单元,用于获取待抽取数据源的类型,由获取的类型从所述规则配置单元中调用并解析对应的抽取规则,采用解析的抽取规则从待抽取数据源中抽取数据,将抽取的数据发送给所述转换单元;
所述转换单元,用于对抽取的数据进行转换,将转换后的数据发送给所述加载单元;
所述加载单元,用于将转换后的数据加载到所述目标数据仓库中。
7.如权利要求6所述的系统,其特征在于,该系统还包括定时判断单元,用于启动定时器,判断定时时刻是否到来,如果是,则向所述抽取单元发送执行命令,并重新启动定时器;否则,继续等待定时时刻的到来;所述抽取单元,还用于接收所述执行命令,然后执行所述获取待抽取数据源的类型的步骤。
8.如权利要求6所述的系统,其特征在于,该系统还包括监测单元,用于在所述抽取单元从待抽取数据源中抽取数据时判断待抽取数据源是否为空,如果是,则生成并上传监测结果,否则,不生成监测结果。
9.如权利要求6所述的系统,其特征在于,所述加载单元采用批量处理的方式,将转换后的数据加载到所述目标数据仓库中。
10.如权利要求6至9中任一项所述的系统,其特征在于,所述类型包括关系型和文件型。
CN2011103597824A 2011-11-09 2011-11-09 数据提取、转化和加载的方法及系统 Pending CN102508912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103597824A CN102508912A (zh) 2011-11-09 2011-11-09 数据提取、转化和加载的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103597824A CN102508912A (zh) 2011-11-09 2011-11-09 数据提取、转化和加载的方法及系统

Publications (1)

Publication Number Publication Date
CN102508912A true CN102508912A (zh) 2012-06-20

Family

ID=46220998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103597824A Pending CN102508912A (zh) 2011-11-09 2011-11-09 数据提取、转化和加载的方法及系统

Country Status (1)

Country Link
CN (1) CN102508912A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412956A (zh) * 2013-08-30 2013-11-27 北京中科江南软件有限公司 异构数据源的数据加工处理方法及系统
CN104765806A (zh) * 2015-04-01 2015-07-08 国家电网公司 营销客户基础信息不规范的自动处理技术
CN104836756A (zh) * 2015-04-09 2015-08-12 成都卡莱博尔信息技术有限公司 一种被动式主数据交换方法
CN105787122A (zh) * 2016-03-28 2016-07-20 北京科东电力控制系统有限责任公司 一种数据抽取、转换及装载的方法
CN106462540A (zh) * 2014-05-27 2017-02-22 三星电子株式会社 不可知数据代理
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN107092474A (zh) * 2016-12-13 2017-08-25 北京小度信息科技有限公司 程序开发方法、etl处理方法及装置
WO2018223678A1 (zh) * 2017-06-07 2018-12-13 武汉斗鱼网络科技有限公司 一种数据处理方法及处理装置
CN110019446A (zh) * 2017-09-12 2019-07-16 上海酷服信息科技有限公司 Etl数据处理系统及方法
CN110413669A (zh) * 2019-06-21 2019-11-05 深圳中琛源科技股份有限公司 一种基于etl的数据处理方法、装置、终端设备及存储介质
CN110442634A (zh) * 2019-08-15 2019-11-12 中国银行股份有限公司 数据存储的方法及装置
CN113688183A (zh) * 2021-10-27 2021-11-23 深圳市信润富联数字科技有限公司 多类型数据源抽取方法、系统、终端设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364240A (zh) * 2008-10-14 2009-02-11 杭州华三通信技术有限公司 元数据管理方法及装置
US7552145B1 (en) * 2006-02-28 2009-06-23 Sprint Communications Company L.P. Method and system of restating telecommunications data by a batch-driven integrated rules module
CN101697126A (zh) * 2009-10-28 2010-04-21 山东中创软件商用中间件股份有限公司 一种针对Excel文件的增量数据的ETL实现方法
CN101763261A (zh) * 2009-12-28 2010-06-30 山东中创软件商用中间件股份有限公司 数据抽取、转换和加载方法、系统及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7552145B1 (en) * 2006-02-28 2009-06-23 Sprint Communications Company L.P. Method and system of restating telecommunications data by a batch-driven integrated rules module
CN101364240A (zh) * 2008-10-14 2009-02-11 杭州华三通信技术有限公司 元数据管理方法及装置
CN101697126A (zh) * 2009-10-28 2010-04-21 山东中创软件商用中间件股份有限公司 一种针对Excel文件的增量数据的ETL实现方法
CN101763261A (zh) * 2009-12-28 2010-06-30 山东中创软件商用中间件股份有限公司 数据抽取、转换和加载方法、系统及装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103412956A (zh) * 2013-08-30 2013-11-27 北京中科江南软件有限公司 异构数据源的数据加工处理方法及系统
CN106462540B (zh) * 2014-05-27 2020-06-30 三星电子株式会社 不可知数据代理
CN106462540A (zh) * 2014-05-27 2017-02-22 三星电子株式会社 不可知数据代理
CN104765806A (zh) * 2015-04-01 2015-07-08 国家电网公司 营销客户基础信息不规范的自动处理技术
CN104765806B (zh) * 2015-04-01 2018-09-18 国家电网公司 营销客户基础信息不规范的自动处理技术
CN104836756A (zh) * 2015-04-09 2015-08-12 成都卡莱博尔信息技术有限公司 一种被动式主数据交换方法
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN105787122A (zh) * 2016-03-28 2016-07-20 北京科东电力控制系统有限责任公司 一种数据抽取、转换及装载的方法
CN107092474A (zh) * 2016-12-13 2017-08-25 北京小度信息科技有限公司 程序开发方法、etl处理方法及装置
CN107092474B (zh) * 2016-12-13 2021-04-30 北京星选科技有限公司 程序开发方法、etl处理方法及装置
WO2018223678A1 (zh) * 2017-06-07 2018-12-13 武汉斗鱼网络科技有限公司 一种数据处理方法及处理装置
CN110019446A (zh) * 2017-09-12 2019-07-16 上海酷服信息科技有限公司 Etl数据处理系统及方法
CN110413669A (zh) * 2019-06-21 2019-11-05 深圳中琛源科技股份有限公司 一种基于etl的数据处理方法、装置、终端设备及存储介质
CN110442634A (zh) * 2019-08-15 2019-11-12 中国银行股份有限公司 数据存储的方法及装置
CN110442634B (zh) * 2019-08-15 2022-05-27 中国银行股份有限公司 数据存储的方法及装置
CN113688183A (zh) * 2021-10-27 2021-11-23 深圳市信润富联数字科技有限公司 多类型数据源抽取方法、系统、终端设备以及存储介质

Similar Documents

Publication Publication Date Title
CN102508912A (zh) 数据提取、转化和加载的方法及系统
CN112612675B (zh) 微服务架构下的分布式大数据日志链路跟踪方法及系统
CN106681930B (zh) 分布式自动检测应用运行异常方法及系统
CN108076098B (zh) 一种业务处理方法及系统
CN103955491B (zh) 一种定时数据增量同步的方法
CN101533417B (zh) 一种实现etl调度的方法及系统
US20090182794A1 (en) Error management apparatus
EP2933726B1 (en) Apparatus, system and method for application log data processing
CN112559285B (zh) 基于分布式服务架构的微服务监控方法及相关装置
CN104391705A (zh) 一种应用于高可用集群软件的分布式自动化测试框架
CN104598587A (zh) 发票真伪查询方法和系统
CN103186603A (zh) 确定sql语句对关键业务的性能的影响的方法、系统和设备
AU2023200227A1 (en) A model management system
CN105117441A (zh) 一种数据工单处理方法及系统
CN104683171A (zh) 应用软件的实时监控方法及装置
US20100077382A1 (en) Computer-readable recording medium string a bug detection support program, similar structure identification information list output program, bug detection support apparatus, and bug detection support method
CN109033452B (zh) 一种数据仓库智能构建装载方法及系统
CN110196868A (zh) 基于分布式的工单流程监控方法
CN110912754A (zh) 一种用于批量运维远程主机的方法和管理系统
CN101694661B (zh) 一种统计报表生成方法、装置和统计服务器
CN113761079A (zh) 数据访问方法、系统和存储介质
CN109918363B (zh) 基于视图跨数据库类型进行数据模型一致性管理的方法
CN105630997A (zh) 一种数据并行处理方法、装置及设备
CN104361437A (zh) 一种多样化数据接口质量检查管理的方法及系统
CN110795225B (zh) 一种调度任务的执行方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN DRAGON MEDIA CO., LTD.

Free format text: FORMER OWNER: SHENZHEN TONGZHOU ELECTRONIC CO., LTD.

Effective date: 20120618

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20120618

Address after: 518057 District, Guangdong, Nanshan District hi tech Zone, the North Zone of the Fifth Industrial Zone, rainbow science and technology building, A2-3 District,

Applicant after: Shenzhen Longguan Media Co., Ltd.

Address before: 518057 Nanshan District hi tech park, Guangdong, North District Rainbow science and Technology Building

Applicant before: Shenzhen Tongzhou Electronic Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120620