CN111813806A - 一种基于策略服务实现etl系统及其方法 - Google Patents

一种基于策略服务实现etl系统及其方法 Download PDF

Info

Publication number
CN111813806A
CN111813806A CN202010485467.5A CN202010485467A CN111813806A CN 111813806 A CN111813806 A CN 111813806A CN 202010485467 A CN202010485467 A CN 202010485467A CN 111813806 A CN111813806 A CN 111813806A
Authority
CN
China
Prior art keywords
data
module
etl
rule
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010485467.5A
Other languages
English (en)
Other versions
CN111813806B (zh
Inventor
史凯迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baizhuo Network Technology Co ltd
Original Assignee
Beijing Baizhuo Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baizhuo Network Technology Co ltd filed Critical Beijing Baizhuo Network Technology Co ltd
Priority to CN202010485467.5A priority Critical patent/CN111813806B/zh
Publication of CN111813806A publication Critical patent/CN111813806A/zh
Application granted granted Critical
Publication of CN111813806B publication Critical patent/CN111813806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于策略服务实现ETL系统及其方法,ETL装置包括数据格式化模块、数据转化模块、数据归一化模块、数据存储模块,其中:数据格式化模块;数据转化模块;数据归一化模块,用于完成有共同基类的Map对象转化为java定义对象,并根据策略服务模块、数据类型获取数据归一化模块规则且利用该数据归一化模块规则将内部数据格式转化为布标统一的对象格式;数据存储模块,包括Hbase数据源和ES数据源,用于根据策略服务模块定义好存储的规则并依据java对象对应Hbase表和ES表,使对象属性对应Hbase、ES的对应列值和索引字段,该数据存储模块先插入Hbase数据然后再批量插入ES数据。本发明与现有技术相比,实现统一配置化,操作化繁为简,使用方便。

Description

一种基于策略服务实现ETL系统及其方法
技术领域
本发明属于信息处理技术领域,涉及一种基于策略服务实现ETL系统及其方法。
背景技术
目前,面对众多厂商所提供的数据信息,厂商往往会提供不同规格的数据源,对于用户在上网审计时所用的上报字段也不一样。为了支持这些厂商,其存在的问题是:现有的结构是对为每一个厂商开发一套ETL代码,每一个厂商如果标准变化,ETL都需要变更,现有结构对于不同规格的数据源无法实现统一配置化,致使操作繁琐,使用不方便。
为此,本发明提供一种基于策略服务实现ETL系统及其方法。
发明内容
鉴于现有的技术存在的上述问题,本发明的目的在于提供一种基于策略服务实现ETL系统,能够实现统一配置化,操作化繁为简,使用方便。
本发明的目的可通过下列技术方案来实现:
一种基于策略服务实现ETL系统,包括数据源模块、外部存储源模块,还包括zookeeper模块、策略服务模块、ETL装置,所述ETL装置包括数据格式化模块、数据转化模块、数据归一化模块、数据存储模块,其中:
所述数据格式化模块,用于读取从数据源模块传输的主题数据,实现相应的数据文件转化一行行数据;
所述数据转化模块,用于根据数据转化策略服务模块,依据key的数据类型获取数据转化的规则并根据具体规则转化内部Map数据格式;
所述数据归一化模块,用于完成有共同基类的Map对象转化为java定义对象,并根据策略服务模块、数据类型获取数据归一化模块规则且利用该数据归一化模块规则将内部数据格式转化为布标统一的对象格式;
所述数据存储模块,包括Hbase数据源和ES数据源,用于根据策略服务模块定义好存储的规则并依据java对象对应Hbase表和ES表,使对象属性对应Hbase、ES的对应列值和索引字段,该数据存储模块先插入Hbase数据然后再批量插入ES数据。
所述的基于策略服务实现ETL系统,其特殊之处在于:所述数据格式化模块所支持的数据包括zip格式数据,其中zip格式数据在数据格式化模块中对应有zip文件流,经过数据格式化模块解析zip格式数据的文件并转化成一行行数据。
所述的基于策略服务实现ETL系统,其特殊之处在于:所述数据格式化模块所支持的数据包括txt格式数据,其中txt格式数在据格式化模块中对应有普通文件数据,经过数据格式化模块解析txt格式数据的普通文件并转化成一行行数据。
本发明还提供一种利用如上的基于策略服务实现ETL系统的实现方法,包括数据格式化模块的实现步骤和策略服务模块的实现步骤,其中所述数据格式化模块的实现步骤具体为:
A1、依据所述策略服务模块解析获取数据格式化的转化规则;
B1、所述数据格式化模块根据格式化转化规则解析数据转化的一行行数据;
C1、完成;
所述策略服务模块的实现步骤具体为:
A2、将规则文件上传到zookeeper模块上去,然后通过执行脚本upload-zkcj-rules.sh;
B2、利用ETL装置获取zookeeper模块中的文件流,用数据格式化模块解析规则文件且放到Map对象中的指定规则,然后将Map对象进行封装集合;
C2、ETL装置中Map数据集合广播,根据响应规则获取指定规则对象,并利用进行业务规则进行业务处理;
D2、完成。
如上所述,本发明涉及的一种基于策略服务实现ETL系统及其方法,具有以下有益效果:
本发明利用上述的基于策略服务实现ETL系统及其方法后,与现有技术相比,由于采用了此种结构,通过设置ETL装置,能够对各种厂商提供的含义不同的数据源进行配置映射部标同一字段,统一化处理,无需修改代码实现ETL功能,从而实现统一配置化,操作化繁为简,使用方便。
下面结合具体实施方式对本发明作进一步的说明。
附图说明
图1为一种基于策略服务实现ETL系统的结构示意图;
图2为一种基于策略服务实现ETL系统的图;
图3为一种基于策略服务实现ETL系统的图;
图4为一种利用基于策略服务实现ETL系统的实现方法中的数据格式化模块的实现步骤控制流程图;
图5为一种利用基于策略服务实现ETL系统的实现方法中的策略服务模块的实现步骤控制流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。具体结构可参照专利申请的附图进行说明。
本发明提供一种基于策略服务实现ETL系统,请参考图1、图2以及图3所示,包括数据源模块1、外部存储源模块2,还包括zookeeper模块3、策略服务模块4、ETL装置5,所述ETL装置5包括数据格式化模块50、数据转化模块51、数据归一化模块52、数据存储模块53,其中:
所述数据格式化模块50,用于读取从数据源模块1传输的主题数据,实现相应的数据文件转化一行行数据;
所述数据转化模块51,用于根据数据转化策略服务模块4,依据key的数据类型获取数据转化的规则并根据具体规则转化内部Map数据格式;
所述数据归一化模块52,用于完成有共同基类的Map对象转化为java定义对象,并根据策略服务模块4、数据类型获取数据归一化模块52规则且利用该数据归一化模块52规则将内部数据格式转化为布标统一的对象格式;
所述数据存储模块53,包括Hbase数据源530和ES数据源531,用于根据策略服务模块4定义好存储的规则并依据java对象对应Hbase表和ES表,使对象属性对应Hbase、ES的对应列值和索引字段,该数据存储模块53先插入Hbase数据然后再批量插入ES数据。本发明与现有技术相比,由于采用了此种结构,通过设置ETL装置5,能够对各种厂商提供的含义不同的数据源进行配置映射部标同一字段,统一化处理,无需修改代码实现ETL功能,从而实现统一配置化,操作化繁为简,使用方便。
结合图1和图2所示,在本实施例中,所述数据格式化模块50所支持的数据包括zip格式数据500,其中zip格式数据500在数据格式化模块中对应有zip文件流,经过数据格式化模块50解析zip格式数据500的文件并转化成一行行数据。
结合图1和图2所示,在本实施例中,所述数据格式化模块50所支持的数据包括txt格式数据501,其中txt格式数在据格式化模块50中对应有普通文件数据,经过数据格式化模块50解析txt格式数据501的普通文件并转化成一行行数据。
本发明还提供一种利用如上的基于策略服务实现ETL系统的实现方法,结合图1、图4以及图5所示,包括数据格式化模块50的实现步骤和策略服务模块4的实现步骤,其中所述数据格式化模块50的实现步骤具体为:
A1、依据所述策略服务模块4解析获取数据格式化的转化规则;
B1、所述数据格式化模块50根据格式化转化规则解析数据转化的一行行数据;
C1、完成;
所述策略服务模块4的实现步骤具体为:
A2、将规则文件上传到zookeeper模块3上去,然后通过执行脚本upload-zkcj-rules.sh;
B2、利用ETL装置5获取zookeeper模块3中的文件流,用数据格式化模块50解析规则文件且放到Map对象中的指定规则,然后将Map对象进行封装集合;
C2、ETL装置5中Map数据集合广播,根据响应规则获取指定规则对象,并利用进行业务规则进行业务处理;
D2、完成。
如上所述,本发明涉及的一种基于策略服务实现ETL系统及其方法,具有以下有益效果:
本发明利用上述的基于策略服务实现ETL系统及其方法后,与现有技术相比,由于采用了此种结构,通过设置ETL装置,能够对各种厂商提供的含义不同的数据源进行配置映射部标同一字段,统一化处理,无需修改代码实现ETL功能,从而实现统一配置化,操作化繁为简,使用方便。
综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (4)

1.一种基于策略服务实现ETL系统,包括数据源模块、外部存储源模块,其特征在于,还包括zookeeper模块、策略服务模块、ETL装置,所述ETL装置包括数据格式化模块、数据转化模块、数据归一化模块、数据存储模块,其中:
所述数据格式化模块,用于读取从数据源模块传输的主题数据,实现相应的数据文件转化一行行数据;
所述数据转化模块,用于根据数据转化策略服务模块,依据key的数据类型获取数据转化的规则并根据具体规则转化内部Map数据格式;
所述数据归一化模块,用于完成有共同基类的Map对象转化为java定义对象,并根据策略服务模块、数据类型获取数据归一化模块规则且利用该数据归一化模块规则将内部数据格式转化为布标统一的对象格式;
所述数据存储模块,包括Hbase数据源和ES数据源,用于根据策略服务模块定义好存储的规则并依据java对象对应Hbase表和ES表,使对象属性对应Hbase、ES的对应列值和索引字段,该数据存储模块先插入Hbase数据然后再批量插入ES数据。
2.如权利要求1所述的基于策略服务实现ETL系统,其特征在于:所述数据格式化模块所支持的数据包括zip格式数据,其中zip格式数据在数据格式化模块中对应有zip文件流,经过数据格式化模块解析zip格式数据的文件并转化成一行行数据。
3.如权利要求1所述的基于策略服务实现ETL系统,其特征在于:所述数据格式化模块所支持的数据包括txt格式数据,其中txt格式数在据格式化模块中对应有普通文件数据,经过数据格式化模块解析txt格式数据的普通文件并转化成一行行数据。
4.一种利用权利要求1-3任一项的基于策略服务实现ETL系统的实现方法,其特征在于,包括数据格式化模块的实现步骤和策略服务模块的实现步骤,其中所述数据格式化模块的实现步骤具体为:
A1、依据所述策略服务模块解析获取数据格式化的转化规则;
B1、所述数据格式化模块根据格式化转化规则解析数据转化的一行行数据;
C1、完成;
所述策略服务模块的实现步骤具体为:
A2、将规则文件上传到zookeeper模块上去,然后通过执行脚本upload-zkcj-rules.sh;
B2、利用ETL装置获取zookeeper模块中的文件流,用数据格式化模块解析规则文件且放到Map对象中的指定规则,然后将Map对象进行封装集合;
C2、ETL装置中Map数据集合广播,根据响应规则获取指定规则对象,并利用进行业务规则进行业务处理;
D2、完成。
CN202010485467.5A 2020-06-01 2020-06-01 一种基于策略服务实现etl系统及其方法 Active CN111813806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010485467.5A CN111813806B (zh) 2020-06-01 2020-06-01 一种基于策略服务实现etl系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010485467.5A CN111813806B (zh) 2020-06-01 2020-06-01 一种基于策略服务实现etl系统及其方法

Publications (2)

Publication Number Publication Date
CN111813806A true CN111813806A (zh) 2020-10-23
CN111813806B CN111813806B (zh) 2024-04-19

Family

ID=72848209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010485467.5A Active CN111813806B (zh) 2020-06-01 2020-06-01 一种基于策略服务实现etl系统及其方法

Country Status (1)

Country Link
CN (1) CN111813806B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775737A (zh) * 2023-06-21 2023-09-19 上海腾道信息技术有限公司 一种自动生成etl配置的方法以及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763261A (zh) * 2009-12-28 2010-06-30 山东中创软件商用中间件股份有限公司 数据抽取、转换和加载方法、系统及装置
CN102508919A (zh) * 2011-11-18 2012-06-20 广州从兴电子开发有限公司 数据处理方法及系统
WO2013172958A1 (en) * 2012-05-16 2013-11-21 Spydrsafe Mobile Security, Inc. Systems and methods for providing and managing distributed enclaves
CN105912636A (zh) * 2016-04-08 2016-08-31 金蝶软件(中国)有限公司 一种基于Map/Reduce的ETL数据处理方法和装置
CN111061715A (zh) * 2019-12-16 2020-04-24 北京邮电大学 基于Web和Kafka的分布式数据集成系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763261A (zh) * 2009-12-28 2010-06-30 山东中创软件商用中间件股份有限公司 数据抽取、转换和加载方法、系统及装置
CN102508919A (zh) * 2011-11-18 2012-06-20 广州从兴电子开发有限公司 数据处理方法及系统
WO2013172958A1 (en) * 2012-05-16 2013-11-21 Spydrsafe Mobile Security, Inc. Systems and methods for providing and managing distributed enclaves
CN105912636A (zh) * 2016-04-08 2016-08-31 金蝶软件(中国)有限公司 一种基于Map/Reduce的ETL数据处理方法和装置
CN111061715A (zh) * 2019-12-16 2020-04-24 北京邮电大学 基于Web和Kafka的分布式数据集成系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775737A (zh) * 2023-06-21 2023-09-19 上海腾道信息技术有限公司 一种自动生成etl配置的方法以及系统
CN116775737B (zh) * 2023-06-21 2024-04-30 上海腾道信息技术有限公司 一种自动生成etl配置的方法以及系统

Also Published As

Publication number Publication date
CN111813806B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN105760534B (zh) 自定义的可序列化的数据结构、hadoop集群、服务器及其应用方法
CN109460219B (zh) 快速序列化接口控制文件的方法
CN110866383A (zh) 一种交互式电子数据清单生成方法及系统
CN111259067B (zh) 一种基于Spring实现DAO接口的方法、装置及设备
CN106777387B (zh) 一种基于HBase的物联网大数据存取方法
CN105468793B (zh) 一种仿真模型数据的自动化管理方法
US7237194B2 (en) System and method for generating optimized binary representation of an object tree
CN109408043A (zh) 一种程序生成方法及装置
CN103294652A (zh) 一种数据转换方法及系统
CN111813806A (zh) 一种基于策略服务实现etl系统及其方法
WO2019241378A9 (en) Integration of disparate systems through the use of multi-uid rfid encoding device system and method
CN112650777A (zh) 数据仓库的制作方法、装置、终端设备及计算机存储介质
CN110457262A (zh) 一种基于大数据的档案管理系统
CN116483859A (zh) 数据查询方法及装置
CN111625273A (zh) 半导体设备的配置文件修改方法及装置
CN111782882A (zh) 一种tcp报文转换方法、装置、系统及计算机存储介质
US20020069224A1 (en) Markup language document conversion apparatus and method
CN113988003B (zh) Excel文件多个sheet内容按照指定配置自定义定向解析的方法
CN115695589A (zh) 一种自动生成can报文解析代码的方法、系统、装置及介质
CN111177234A (zh) 一种文档型数据文件快速处理装置及方法
CN101655873A (zh) 单点登录系统及其数据导入导出方法和装置
CN114816387A (zh) 实体类生成方法及装置
CN115114321A (zh) 一种动态查询方法及系统
KR20220010294A (ko) 규칙 기반의 opc ua 노드 생성 시스템 및 방법
CN112130817A (zh) 一种多版本接口实现方法、系统、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant