CN104408150A - 一种适应多种数据库数据格式的数据导入导出方法及装置 - Google Patents
一种适应多种数据库数据格式的数据导入导出方法及装置 Download PDFInfo
- Publication number
- CN104408150A CN104408150A CN201410727556.0A CN201410727556A CN104408150A CN 104408150 A CN104408150 A CN 104408150A CN 201410727556 A CN201410727556 A CN 201410727556A CN 104408150 A CN104408150 A CN 104408150A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- separator
- field
- various
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Abstract
传统的ETL方式是指数据抽取(Extract)、转换(Transform)、装载(Load)的过程。用户需要从数据源抽取出所需的数据,再手动进行经过数据清洗及转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。本发明旨在提供一种在新型的数据抽取加载方式,该方式将数据抽取,数据清洗,数据转换组合在一起,使数据在抽取时就能同时进行清洗和转换,同时它又支持多种市面上常见的数据格式,从而不但使用户的操作更为简便,也提高了数据抽取及转换的速度及效率。
Description
技术领域
本发明属于计算机技术应用领域,特别是涉及到一种适应多种数据库数据格式的数据导入导出方法。
背景技术
随着社会和计算机技术的不断发展,越来越多的数据被记录于各种系统中,以便于企业进行经营分析,并作为企业管理,决策的重要基础。ETL技术则是目前实现数据迁移的主要技术。它完成了在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其它重要的内部系统之间无缝地共享和交换数据的需要。传统的ETL程序主要由三步组成:Extract-Transform-Load,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。其中:
(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;
(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工;
(3)数据加载:将转换后的数据装载到目的数据源。
但是随着被记录的数据量的不断增大,使得数据在各个系统间进行迁移的时间成本越来越高;而且,在实施数据迁移的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各系统中的流动与共享。因此,如何对数据进行有效的数据迁移已成为增强企业商业竞争力的必然选择。
发明内容
本发明主要解决的是如何有效地完成数据抽取转换以便于后续加载的问题,尤其是在数据很大的情况下,即能支持多种文件格式的导出,又能提高数据迁移的速度及效率。
为了达到上述目的,本发明采取的技术方案为:一种适应多种数据库数据格式的数据导入导出方法,其特征在于,包括如下步骤:
(1)空值处理:捕获字段空值进行非空处理;
(2)数据替换:实现无效数据、缺失数据的替换;
(3)规范化数据格式:实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式;
(4)拆分数据:依据业务需求对字段可进行分解;
(5)分隔符设置:设置各种分隔符。
优选的,所述步骤(1)中非空处理包括进行加载或替换为其他含义数据。
优选的,所述步骤(3)中格式多样的数据包括时间、数值、字符。
优选的,所述步骤(5)中分隔符包括行分隔符,列分隔符,字段包围符,转义符。
本发明的另一方面,一种适应多种数据库数据格式的数据导入导出方装置,其特征在于,包括:
空值处理模块,用于捕获字段空值进行非空处理;
数据替换模块,用于实现无效数据、缺失数据的替换;
规范化数据格式模块,用于实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式;
拆分数据模块,用于依据业务需求对字段可进行分解;
分隔符设置模块,用于设置各种分隔符。
优选的,所述空值处理模块包括加载模块和替换模块,用于加载或替换空值为其他含义数据。
本发明的有益效果为:本发明摒弃了常见ETL工具所采用抽取,转换,加载顺序执行的方式,而是将抽取(E)与转换(T)相融合,使数据在被抽取的过程中就转换成了目的端需要的格式,从而提高了数据迁移的效率;而且,在执行导出命令之前,支持用户对多种分隔符进行设置,以使得导出结果符合多种目的系统的格式要求,从而使得数据在多种系统中的迁移变得更加快捷。
附图说明
图1是本发明的步骤示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
随着被记录的数据量的不断增大,数据在各个系统间进行迁移的时间成本越来越高;而且,在实施数据迁移的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题。
使用本发明,如图1所示,具体实现的方法为:
(1)空值处理:可捕获字段空值,进行加载或替换为其他含义数据;
(2)数据替换:可实现无效数据、缺失数据的替换;
(3)规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义导出格式;
(4)拆分数据:依据业务需求对字段可进行分解。例如某数据为主叫号862283945678-830,可进行区域码和电话号码分解;分解成区域码86、22和电话号码83945678-830;
(5)分隔符设置:支持设置各种分隔符,包括行分隔符,列分隔符,字段包围符,转义符等。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。
Claims (6)
1.一种适应多种数据库数据格式的数据导入导出方法,其特征在于,包括如下步骤:
(1)空值处理:捕获字段空值进行非空处理;
(2)数据替换:实现无效数据、缺失数据的替换;
(3)规范化数据格式:实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式;
(4)拆分数据:依据业务需求对字段可进行分解;
(5)分隔符设置:设置各种分隔符。
2.根据权利要求1所述的适应多种数据库数据格式的数据导入导出方法,其特征在于,所述步骤(1)中非空处理包括进行加载或替换为其他含义数据。
3.根据权利要求1所述的适应多种数据库数据格式的数据导入导出方法,其特征在于,所述步骤(3)中格式多样的数据包括时间、数值、字符。
4.根据权利要求1所述的适应多种数据库数据格式的数据导入导出方法,其特征在于,所述步骤(5)中分隔符包括行分隔符,列分隔符,字段包围符,转义符。
5.一种适应多种数据库数据格式的数据导入导出方装置,其特征在于,包括:
空值处理模块,用于捕获字段空值进行非空处理;
数据替换模块,用于实现无效数据、缺失数据的替换;
规范化数据格式模块,用于实现字段格式约束定义,对于数据源中格式多样的数据,自定义导出格式;
拆分数据模块,用于依据业务需求对字段可进行分解;
分隔符设置模块,用于设置各种分隔符。
6.根据权利要求5所述的一种适应多种数据库数据格式的数据导入导出方装置,其特征在于,所述空值处理模块包括加载模块和替换模块,用于加载或替换空值为其他含义数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410727556.0A CN104408150A (zh) | 2014-12-03 | 2014-12-03 | 一种适应多种数据库数据格式的数据导入导出方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410727556.0A CN104408150A (zh) | 2014-12-03 | 2014-12-03 | 一种适应多种数据库数据格式的数据导入导出方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104408150A true CN104408150A (zh) | 2015-03-11 |
Family
ID=52645781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410727556.0A Pending CN104408150A (zh) | 2014-12-03 | 2014-12-03 | 一种适应多种数据库数据格式的数据导入导出方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104408150A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447126A (zh) * | 2015-11-17 | 2016-03-30 | 苏州蜗牛数字科技股份有限公司 | 一种游戏道具个性化推荐方法 |
CN106407266A (zh) * | 2016-08-25 | 2017-02-15 | 中广核工程有限公司 | 一种三维计算结果格式化提取方法和装置 |
CN106604073A (zh) * | 2015-10-14 | 2017-04-26 | 北京国双科技有限公司 | 一种数据处理方法及装置 |
CN106951442A (zh) * | 2017-02-15 | 2017-07-14 | 中国保险信息技术管理有限责任公司 | 一种异构数据库间的数据交互方法及装置 |
WO2018023497A1 (zh) * | 2016-08-03 | 2018-02-08 | 深圳中兴力维技术有限公司 | 一种迁移数据的方法及装置 |
CN108182197A (zh) * | 2017-11-29 | 2018-06-19 | 商派软件有限公司 | 一种通过ftp进行大数据批量导入导出的方法 |
CN108959205A (zh) * | 2018-06-27 | 2018-12-07 | 成都泰盟软件有限公司 | 一种erp系统导出数据快速迁移的方法 |
CN109376152A (zh) * | 2018-09-13 | 2019-02-22 | 广州帷策智能科技有限公司 | 大数据系统文件数据准备方法和系统 |
CN113094415A (zh) * | 2019-12-23 | 2021-07-09 | 北京懿医云科技有限公司 | 数据抽取方法、装置、计算机可读介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398831A (zh) * | 2007-09-27 | 2009-04-01 | 日电(中国)有限公司 | 本体数据导入/导出方法及装置 |
CN101452450A (zh) * | 2007-11-30 | 2009-06-10 | 上海市电力公司 | 一种多源数据转换服务方法及其装置 |
CN101571861A (zh) * | 2008-04-29 | 2009-11-04 | 阿里巴巴集团控股有限公司 | 一种对数据表进行转换的方法及装置 |
CN101645073A (zh) * | 2009-08-25 | 2010-02-10 | 浪潮电子信息产业股份有限公司 | 一种将已有数据库文件导入嵌入式数据库的方法 |
CN103455526A (zh) * | 2012-06-05 | 2013-12-18 | 杭州勒卡斯广告策划有限公司 | 一种etl数据处理方法、装置及系统 |
CN103703467A (zh) * | 2013-08-29 | 2014-04-02 | 华为技术有限公司 | 存储数据的方法和装置 |
-
2014
- 2014-12-03 CN CN201410727556.0A patent/CN104408150A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398831A (zh) * | 2007-09-27 | 2009-04-01 | 日电(中国)有限公司 | 本体数据导入/导出方法及装置 |
CN101452450A (zh) * | 2007-11-30 | 2009-06-10 | 上海市电力公司 | 一种多源数据转换服务方法及其装置 |
CN101571861A (zh) * | 2008-04-29 | 2009-11-04 | 阿里巴巴集团控股有限公司 | 一种对数据表进行转换的方法及装置 |
CN101645073A (zh) * | 2009-08-25 | 2010-02-10 | 浪潮电子信息产业股份有限公司 | 一种将已有数据库文件导入嵌入式数据库的方法 |
CN103455526A (zh) * | 2012-06-05 | 2013-12-18 | 杭州勒卡斯广告策划有限公司 | 一种etl数据处理方法、装置及系统 |
CN103703467A (zh) * | 2013-08-29 | 2014-04-02 | 华为技术有限公司 | 存储数据的方法和装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106604073A (zh) * | 2015-10-14 | 2017-04-26 | 北京国双科技有限公司 | 一种数据处理方法及装置 |
CN106604073B (zh) * | 2015-10-14 | 2019-12-24 | 北京国双科技有限公司 | 一种数据处理方法及装置 |
CN105447126A (zh) * | 2015-11-17 | 2016-03-30 | 苏州蜗牛数字科技股份有限公司 | 一种游戏道具个性化推荐方法 |
WO2018023497A1 (zh) * | 2016-08-03 | 2018-02-08 | 深圳中兴力维技术有限公司 | 一种迁移数据的方法及装置 |
CN106407266A (zh) * | 2016-08-25 | 2017-02-15 | 中广核工程有限公司 | 一种三维计算结果格式化提取方法和装置 |
CN106407266B (zh) * | 2016-08-25 | 2019-12-31 | 中广核工程有限公司 | 一种三维计算结果格式化提取方法和装置 |
CN106951442A (zh) * | 2017-02-15 | 2017-07-14 | 中国保险信息技术管理有限责任公司 | 一种异构数据库间的数据交互方法及装置 |
CN108182197A (zh) * | 2017-11-29 | 2018-06-19 | 商派软件有限公司 | 一种通过ftp进行大数据批量导入导出的方法 |
CN108959205A (zh) * | 2018-06-27 | 2018-12-07 | 成都泰盟软件有限公司 | 一种erp系统导出数据快速迁移的方法 |
CN109376152A (zh) * | 2018-09-13 | 2019-02-22 | 广州帷策智能科技有限公司 | 大数据系统文件数据准备方法和系统 |
CN113094415A (zh) * | 2019-12-23 | 2021-07-09 | 北京懿医云科技有限公司 | 数据抽取方法、装置、计算机可读介质及电子设备 |
CN113094415B (zh) * | 2019-12-23 | 2024-03-29 | 北京懿医云科技有限公司 | 数据抽取方法、装置、计算机可读介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104408150A (zh) | 一种适应多种数据库数据格式的数据导入导出方法及装置 | |
CN105205105B (zh) | 一种基于storm的数据ETL系统及处理方法 | |
CN104317970B (zh) | 一种基于数据加工中心的数据流式处理方法 | |
CN102737108B (zh) | 处理流程图的方法及装置 | |
CN102508919B (zh) | 数据处理方法及系统 | |
CN103336805A (zh) | 一种基于图形化映射关系的定制报表自动生成方法及装置 | |
CN105701218B (zh) | 实现不同终端在数据库上进行数据同步的方法 | |
CN106126522A (zh) | 一种会计报表的处理系统 | |
CN107463706A (zh) | 一种基于Hadoop的海量录波数据存储和解析方法及系统 | |
CN104216987A (zh) | 一种基于时间戳且支持删除操作的增量数据捕获方法 | |
CN103345533B (zh) | 一种数据存储方法及装置 | |
CN101770461B (zh) | 数据处理方法及处理系统 | |
CN101706705A (zh) | 业务信息处理系统及处理方法 | |
CN104618471B (zh) | 面向不同终端的应用程序状态转移方法 | |
CN103902275A (zh) | 一种实现应用的语言版本切换的方法和系统 | |
CN108287889A (zh) | 一种基于弹性表模型的多源异构数据存储方法和系统 | |
CN103810564A (zh) | 质检Addon管理系统 | |
CN105159946A (zh) | 一种基于jQuery的表格排序方法及系统 | |
CN201667083U (zh) | 配电巡检系统 | |
CN103279506A (zh) | 一种基于电力技术杂志论文非结构化数据提取的方法 | |
CN202364244U (zh) | 分布式日志分析系统处理装置 | |
CN113535758B (zh) | 一种把传统数据库脚本批量转换上云的大数据系统和方法 | |
CN102012821A (zh) | 一种二次开发适配方法 | |
CN101516086A (zh) | 移动通讯的业务匹配方法 | |
CN101826178A (zh) | 配电巡检系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150311 |
|
RJ01 | Rejection of invention patent application after publication |