CN105389402A - 一种面向大数据的etl方法和装置 - Google Patents
一种面向大数据的etl方法和装置 Download PDFInfo
- Publication number
- CN105389402A CN105389402A CN201511008901.6A CN201511008901A CN105389402A CN 105389402 A CN105389402 A CN 105389402A CN 201511008901 A CN201511008901 A CN 201511008901A CN 105389402 A CN105389402 A CN 105389402A
- Authority
- CN
- China
- Prior art keywords
- data
- parameter configuration
- etl
- carry out
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000001360 synchronised effect Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 14
- 238000004140 cleaning Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 8
- 230000008878 coupling Effects 0.000 claims description 5
- 238000010168 coupling process Methods 0.000 claims description 5
- 238000005859 coupling reaction Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 abstract description 4
- 238000013501 data transformation Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000008676 import Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000282813 Aepyceros melampus Species 0.000 description 1
- 241000931705 Cicada Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511008901.6A CN105389402B (zh) | 2015-12-29 | 2015-12-29 | 一种面向大数据的etl方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511008901.6A CN105389402B (zh) | 2015-12-29 | 2015-12-29 | 一种面向大数据的etl方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105389402A true CN105389402A (zh) | 2016-03-09 |
CN105389402B CN105389402B (zh) | 2019-04-12 |
Family
ID=55421692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511008901.6A Active CN105389402B (zh) | 2015-12-29 | 2015-12-29 | 一种面向大数据的etl方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105389402B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912677A (zh) * | 2016-04-13 | 2016-08-31 | 北京思特奇信息技术股份有限公司 | 一种基于oozie实现ftp与hdfs互传文件的方法和系统 |
CN105930417A (zh) * | 2016-04-18 | 2016-09-07 | 四川创意信息技术股份有限公司 | 一种基于云计算的大数据etl交互式处理平台 |
CN106294732A (zh) * | 2016-08-10 | 2017-01-04 | 北京海誉动想科技股份有限公司 | 基于etl工具的日志收集方法 |
CN106446144A (zh) * | 2016-09-21 | 2017-02-22 | 郑州云海信息技术有限公司 | 一种基于kettle的大数据平台数据抽取和统计方法 |
CN107145576A (zh) * | 2017-05-08 | 2017-09-08 | 科技谷(厦门)信息技术有限公司 | 一种支持可视化和流程化的大数据etl调度系统 |
CN107203564A (zh) * | 2016-03-18 | 2017-09-26 | 北京京东尚科信息技术有限公司 | 数据传输的方法、装置及系统 |
CN107220274A (zh) * | 2017-04-13 | 2017-09-29 | 江苏曙光信息技术有限公司 | 一种可视化数据接口集市实现方法 |
CN107247758A (zh) * | 2017-05-31 | 2017-10-13 | 深圳市长亮科技股份有限公司 | 基于银行核心系统的数据处理方法 |
CN107247721A (zh) * | 2017-04-24 | 2017-10-13 | 江苏曙光信息技术有限公司 | 可视化数据采集方法 |
CN107329989A (zh) * | 2017-06-05 | 2017-11-07 | 无锡雅座在线科技股份有限公司 | 导出数据的方法、装置及系统 |
CN107463709A (zh) * | 2017-08-21 | 2017-12-12 | 北京奇艺世纪科技有限公司 | 一种基于多数据源的etl处理方法及装置 |
CN108062320A (zh) * | 2016-11-08 | 2018-05-22 | 长沙博为软件技术股份有限公司 | 一种针对桌面应用程序的数据采集、转换及装载的方法 |
CN108196912A (zh) * | 2018-01-03 | 2018-06-22 | 新疆熙菱信息技术股份有限公司 | 一种基于热插拔组件式数据集成方法 |
CN108228708A (zh) * | 2017-11-29 | 2018-06-29 | 链家网(北京)科技有限公司 | 大数据etl系统及其调度方法 |
CN108363782A (zh) * | 2018-02-11 | 2018-08-03 | 中国联合网络通信集团有限公司 | 一种数据清洗方法和数据清洗系统 |
CN109408502A (zh) * | 2018-11-14 | 2019-03-01 | 成都四方伟业软件股份有限公司 | 一种数据标准处理方法、装置及其存储介质 |
CN109408601A (zh) * | 2018-09-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 基于图数据的数据模型转换方法及图数据结构转换器 |
CN109710667A (zh) * | 2018-11-27 | 2019-05-03 | 中科曙光国际信息产业有限公司 | 一种基于大数据平台的多源数据融合共享实现方法及系统 |
CN109766388A (zh) * | 2018-12-28 | 2019-05-17 | 广州市申迪计算机系统有限公司 | 一种将数据存入HBase的方法和系统 |
CN110113257A (zh) * | 2019-05-14 | 2019-08-09 | 北京京投亿雅捷交通科技有限公司 | 一种基于大数据的统一数据接入网关及实现方法 |
CN110457302A (zh) * | 2019-07-31 | 2019-11-15 | 河南开合软件技术有限公司 | 一种结构化数据智能清洗方法 |
CN111241175A (zh) * | 2019-12-30 | 2020-06-05 | 航天信息(山东)科技有限公司 | 一种成品油消费税数据监控方法及系统 |
CN112494933A (zh) * | 2020-12-07 | 2021-03-16 | 上海哔哩哔哩科技有限公司 | 游戏数据仓库构建方法及装置 |
CN113076365A (zh) * | 2021-04-07 | 2021-07-06 | 杭州数梦工场科技有限公司 | 数据同步方法、装置、电子设备及存储介质 |
CN113778764A (zh) * | 2021-08-24 | 2021-12-10 | 百融至信(北京)征信有限公司 | 一种hbase数据双活系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064670A (zh) * | 2012-12-18 | 2013-04-24 | 清华大学 | 基于位置网的创新平台数据管理方法及系统 |
CN103593422A (zh) * | 2013-11-01 | 2014-02-19 | 国云科技股份有限公司 | 一种异构数据库的虚拟访问管理方法 |
US20140082424A1 (en) * | 2012-09-17 | 2014-03-20 | International Business Machines Corporation | Etl debugger |
US20140344778A1 (en) * | 2013-05-17 | 2014-11-20 | Oracle International Corporation | System and method for code generation from a directed acyclic graph using knowledge modules |
CN104573063A (zh) * | 2015-01-23 | 2015-04-29 | 四川中科腾信科技有限公司 | 一种基于大数据的数据分析方法 |
CN104915793A (zh) * | 2015-06-30 | 2015-09-16 | 北京西塔网络科技股份有限公司 | 基于大数据分析挖掘的公共信息智能分析平台 |
-
2015
- 2015-12-29 CN CN201511008901.6A patent/CN105389402B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140082424A1 (en) * | 2012-09-17 | 2014-03-20 | International Business Machines Corporation | Etl debugger |
CN103064670A (zh) * | 2012-12-18 | 2013-04-24 | 清华大学 | 基于位置网的创新平台数据管理方法及系统 |
US20140344778A1 (en) * | 2013-05-17 | 2014-11-20 | Oracle International Corporation | System and method for code generation from a directed acyclic graph using knowledge modules |
CN103593422A (zh) * | 2013-11-01 | 2014-02-19 | 国云科技股份有限公司 | 一种异构数据库的虚拟访问管理方法 |
CN104573063A (zh) * | 2015-01-23 | 2015-04-29 | 四川中科腾信科技有限公司 | 一种基于大数据的数据分析方法 |
CN104915793A (zh) * | 2015-06-30 | 2015-09-16 | 北京西塔网络科技股份有限公司 | 基于大数据分析挖掘的公共信息智能分析平台 |
Non-Patent Citations (1)
Title |
---|
黄斌等: "基于MapReduce的数据挖掘平台设计与实现", 《计算机工程与设计》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203564A (zh) * | 2016-03-18 | 2017-09-26 | 北京京东尚科信息技术有限公司 | 数据传输的方法、装置及系统 |
CN105912677A (zh) * | 2016-04-13 | 2016-08-31 | 北京思特奇信息技术股份有限公司 | 一种基于oozie实现ftp与hdfs互传文件的方法和系统 |
CN105930417A (zh) * | 2016-04-18 | 2016-09-07 | 四川创意信息技术股份有限公司 | 一种基于云计算的大数据etl交互式处理平台 |
CN105930417B (zh) * | 2016-04-18 | 2019-11-26 | 创意信息技术股份有限公司 | 一种基于云计算的大数据etl交互式处理平台 |
CN106294732A (zh) * | 2016-08-10 | 2017-01-04 | 北京海誉动想科技股份有限公司 | 基于etl工具的日志收集方法 |
CN106446144A (zh) * | 2016-09-21 | 2017-02-22 | 郑州云海信息技术有限公司 | 一种基于kettle的大数据平台数据抽取和统计方法 |
CN108062320A (zh) * | 2016-11-08 | 2018-05-22 | 长沙博为软件技术股份有限公司 | 一种针对桌面应用程序的数据采集、转换及装载的方法 |
CN107220274B (zh) * | 2017-04-13 | 2020-10-09 | 中科曙光南京研究院有限公司 | 一种可视化数据接口集市实现方法 |
CN107220274A (zh) * | 2017-04-13 | 2017-09-29 | 江苏曙光信息技术有限公司 | 一种可视化数据接口集市实现方法 |
CN107247721A (zh) * | 2017-04-24 | 2017-10-13 | 江苏曙光信息技术有限公司 | 可视化数据采集方法 |
CN107145576A (zh) * | 2017-05-08 | 2017-09-08 | 科技谷(厦门)信息技术有限公司 | 一种支持可视化和流程化的大数据etl调度系统 |
CN107247758A (zh) * | 2017-05-31 | 2017-10-13 | 深圳市长亮科技股份有限公司 | 基于银行核心系统的数据处理方法 |
CN107329989A (zh) * | 2017-06-05 | 2017-11-07 | 无锡雅座在线科技股份有限公司 | 导出数据的方法、装置及系统 |
CN107463709A (zh) * | 2017-08-21 | 2017-12-12 | 北京奇艺世纪科技有限公司 | 一种基于多数据源的etl处理方法及装置 |
CN108228708A (zh) * | 2017-11-29 | 2018-06-29 | 链家网(北京)科技有限公司 | 大数据etl系统及其调度方法 |
CN108228708B (zh) * | 2017-11-29 | 2020-08-11 | 贝壳找房(北京)科技有限公司 | 大数据etl系统及其调度方法 |
CN108196912B (zh) * | 2018-01-03 | 2021-04-23 | 新疆熙菱信息技术股份有限公司 | 一种基于热插拔组件式数据集成方法 |
CN108196912A (zh) * | 2018-01-03 | 2018-06-22 | 新疆熙菱信息技术股份有限公司 | 一种基于热插拔组件式数据集成方法 |
CN108363782A (zh) * | 2018-02-11 | 2018-08-03 | 中国联合网络通信集团有限公司 | 一种数据清洗方法和数据清洗系统 |
CN109408601A (zh) * | 2018-09-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 基于图数据的数据模型转换方法及图数据结构转换器 |
CN109408502A (zh) * | 2018-11-14 | 2019-03-01 | 成都四方伟业软件股份有限公司 | 一种数据标准处理方法、装置及其存储介质 |
CN109710667A (zh) * | 2018-11-27 | 2019-05-03 | 中科曙光国际信息产业有限公司 | 一种基于大数据平台的多源数据融合共享实现方法及系统 |
CN109766388A (zh) * | 2018-12-28 | 2019-05-17 | 广州市申迪计算机系统有限公司 | 一种将数据存入HBase的方法和系统 |
CN109766388B (zh) * | 2018-12-28 | 2021-02-09 | 广州市申迪计算机系统有限公司 | 一种将数据存入HBase的方法和系统 |
CN110113257B (zh) * | 2019-05-14 | 2021-06-08 | 北京京投亿雅捷交通科技有限公司 | 一种基于大数据的统一数据接入网关及实现方法 |
CN110113257A (zh) * | 2019-05-14 | 2019-08-09 | 北京京投亿雅捷交通科技有限公司 | 一种基于大数据的统一数据接入网关及实现方法 |
CN110457302A (zh) * | 2019-07-31 | 2019-11-15 | 河南开合软件技术有限公司 | 一种结构化数据智能清洗方法 |
CN111241175A (zh) * | 2019-12-30 | 2020-06-05 | 航天信息(山东)科技有限公司 | 一种成品油消费税数据监控方法及系统 |
CN112494933A (zh) * | 2020-12-07 | 2021-03-16 | 上海哔哩哔哩科技有限公司 | 游戏数据仓库构建方法及装置 |
CN112494933B (zh) * | 2020-12-07 | 2022-12-09 | 上海哔哩哔哩科技有限公司 | 游戏数据仓库构建方法及装置 |
CN113076365A (zh) * | 2021-04-07 | 2021-07-06 | 杭州数梦工场科技有限公司 | 数据同步方法、装置、电子设备及存储介质 |
CN113076365B (zh) * | 2021-04-07 | 2024-05-10 | 杭州数梦工场科技有限公司 | 数据同步方法、装置、电子设备及存储介质 |
CN113778764A (zh) * | 2021-08-24 | 2021-12-10 | 百融至信(北京)征信有限公司 | 一种hbase数据双活系统及方法 |
CN113778764B (zh) * | 2021-08-24 | 2023-10-27 | 百融至信(北京)科技有限公司 | 一种hbase数据双活系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105389402B (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105389402A (zh) | 一种面向大数据的etl方法和装置 | |
CN105094818B (zh) | 基于soa的自然资源综合应用构建方法及系统 | |
US10102039B2 (en) | Converting a hybrid flow | |
CN107943463A (zh) | 交互式自动化大数据分析应用开发系统 | |
US11314808B2 (en) | Hybrid flows containing a continous flow | |
CN110750650A (zh) | 企业知识图谱的构建方法及装置 | |
CN111475564A (zh) | 一种流式数据处理方法、系统、计算机设备及存储介质 | |
CN109857803B (zh) | 数据同步方法、装置、设备、系统及计算机可读存储介质 | |
CN103309904A (zh) | 一种生成数据仓库etl 代码的方法及装置 | |
CN105893593A (zh) | 一种数据融合的方法 | |
CN103177329A (zh) | 业务对象处理中基于规则的确定和验证 | |
CN104461743A (zh) | 资源和配置的自动生成装置和方法 | |
US9659072B2 (en) | Creation of change-based data integration jobs | |
CN110471754A (zh) | 作业调度中的数据展示方法、装置、设备及存储介质 | |
CN103903086A (zh) | 一种基于业务模型驱动的管理信息系统开发方法及系统 | |
CN103914307A (zh) | 一种基于可复用库的交互界面快速实现方法 | |
CN102932416B (zh) | 一种信息流任务的中间数据存储方法、处理方法及装置 | |
KR20130068633A (ko) | 데이터 시각화 장치 및 방법 | |
CN108959309B (zh) | 数据分析的方法和装置 | |
CN116703141A (zh) | 审计数据处理方法、装置、计算机设备和存储介质 | |
CN111723063A (zh) | 一种离线日志数据处理的方法和装置 | |
CN104951294B (zh) | SAP结合Microsoft Office实现复杂数学模型运算的方法及系统 | |
CN113850467A (zh) | 一种基于工业互联网的产线管控方法 | |
KR20120047662A (ko) | 프로세스 기반 원산지 관리 방법 및 시스템, 프로세스 기반 원산지 관리를 위한 원산지 판정 장치 | |
Adhikari et al. | Industry 4.0 preparedness in Indian pharmaceutical companies-A review and agenda for future research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220729 Address after: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing Patentee after: Dawning Information Industry (Beijing) Co.,Ltd. Patentee after: DAWNING INFORMATION INDUSTRY Co.,Ltd. Address before: 100193 building 36, Zhongguancun Software Park, 8 North East West Road, Haidian District, Beijing. Patentee before: Dawning Information Industry (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231031 Address after: Room 411, No. 1988 Yongxing West Road, High tech Zone, Hengshui City, Hebei Province, 053000 Patentee after: Zhongke Shuguang (Hebei) Computing Technology Co.,Ltd. Address before: 100089 building 36, courtyard 8, Dongbeiwang West Road, Haidian District, Beijing Patentee before: Dawning Information Industry (Beijing) Co.,Ltd. Patentee before: DAWNING INFORMATION INDUSTRY Co.,Ltd. |
|
TR01 | Transfer of patent right |