CN109669983A - 可视化多数据源etl工具 - Google Patents

可视化多数据源etl工具 Download PDF

Info

Publication number
CN109669983A
CN109669983A CN201811618413.0A CN201811618413A CN109669983A CN 109669983 A CN109669983 A CN 109669983A CN 201811618413 A CN201811618413 A CN 201811618413A CN 109669983 A CN109669983 A CN 109669983A
Authority
CN
China
Prior art keywords
data
source
task
database
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811618413.0A
Other languages
English (en)
Other versions
CN109669983B (zh
Inventor
黄泽明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huoshu Technology Co Ltd
Original Assignee
Hangzhou Huoshu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huoshu Technology Co Ltd filed Critical Hangzhou Huoshu Technology Co Ltd
Priority to CN201811618413.0A priority Critical patent/CN109669983B/zh
Publication of CN109669983A publication Critical patent/CN109669983A/zh
Application granted granted Critical
Publication of CN109669983B publication Critical patent/CN109669983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了可视化多数据源ETL工具。属于ETL工具的可视化技术领域,该ETL工具易于把业务数据同步到目标数据库便于用户对业务数据进行在线业务分析、可视化、无需编程。S1、连接多种数据源;S2、通过源数据库的表结构或字段与ETL工具配置,得到数据源库的源表SQL;S3、对源表SQL进行优化,源表SQL优化后得到多个数据源数据,并将数据源数据注入到ODS目标库的目标表中;S4、从ODS目标库的目标表中分别调度数据源、调度任务管理、调度任务执行情况和调度OSD列表管理,从而便于用户对业务数据进行在线业务分析。简单易学。

Description

可视化多数据源ETL工具
技术领域
本发明涉及ETL工具的可视化技术领域,具体涉及可视化多数据源ETL工具。
背景技术
现在,要想把业务数据同步到目标数据库进行在线业务分析时,需要对数据库同步访问较为懂的技术人员才能实现,对数据库同步访问不精通的人是很难把业务数据同步到目标数据库进行在线业务分析的,这大大增加了要把业务数据同步到目标数据库进行在线业务分析的相关人员的入门难度。因此,设计一种简单易懂,能方便的把业务数据同步到目标数据库,便于用户进行在线业务分析的ETL工具就显得非常必要。
本专利中用到的两个名词解释如下:
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
ODS,是Operational Data Store的缩写,意为操作数据存储,是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。
发明内容
本发明是为了解决现有要把业务数据同步到目标数据库时入门难度大的不足,提供一种易于把业务数据同步到目标数据库便于用户对业务数据进行在线业务分析、可视化、无需编程、简单易学的可视化多数据源ETL工具。
以上技术问题是通过下列技术方案解决的:
可视化多数据源ETL工具,包括现场可视化单元,现场可视化单元包括数据库和ETL工具,在数据库中存储有多种数据源;所述ETL工具的可视化操作方法如下:
S1、ETL工具与数据库中的多种数据源连接;
S2、通过源数据库的表结构或字段与ETL工具配置,得到数据源库的源表SQL;
S3、对源表SQL进行优化,源表SQL优化后得到多个数据源数据,并将数据源数据注入到ODS目标库的目标表中;
S4、从ODS目标库的目标表中分别调度数据源、调度任务管理、调度任务执行情况和调度OSD列表管理,从而便于用户对业务数据进行在线业务分析。
本方案能帮助用户通过简单的配置操作把业务数据同步到目标数据库进行在线业务分析;简洁的可视化界面,使用拖拉拽的操作方式来实现数据的自动同步,即使是不会编程的普通业务人员也能进行完整的操作,而对于有编程基础的业内人员来说,则可以大大的节省时间和精力,省去了非常多不必要的麻烦,摆脱平日束缚,更多专注于核心业务。易于把业务数据同步到目标数据库便于用户对业务数据进行在线业务分析,可视化,无需编程,简单易学,配置简单,自动建表,稳定可靠,支持多种数据库。
作为优选,在步骤S2中,要得到数据源库的源表SQL的操作方法如下:配置数据源和ODS目标库及表名和字段,并选择数据源和ODS目标库的数据库类型;根据数据源和ODS目标库的数据库类型确定不同的ETL工具配置,再根据数据源库的源表通过ETL规则配置得到源表SQL的语句。
作为优选,在步骤S3中,要将数据源数据注入到ODS目标库的目标表中的操作方法如下:根据ETL规则库的匹配对源表SQL进行优化;调用源表SQL的数据中心提供的接口,执行优化后的源表SQL得到数据源数据并注入到ODS目标库的对应目标表中。
作为优选,ETL工具包括数据库管理层和传输层;数据库管理层用于连接源数据库和目标数据库,通过源数据库和目标数据库的结构匹配,得到源数据库的源表SQL语句;传输层用于对SQL语句进行优化并执行后得到多个源数据库的源数据并注入到ODS目标库的对应目标表中。
作为优选,数据库管理层包括图形化配置和ETL任务配置;图形化配置用于配置源数据库和目标数据库及表名、字段,并判断源数据库和目标数据库的数据库类型;ETL任务配置用于根据源数据库的数据库类型和目标数据库的数据库类型来确定不同的ETL任务规则与频率,再根据源数据库的源表通过ETL规则类得到源表SQL语句。
作为优选,传输层包括查询器和任务引擎;查询器用于处理源表SQL语句并根据ETL规则库的配置对源表SQL语句进行优化;任务引擎用于调用ETL提供的API,执行优化后的源表SQL语句得到数据源数据并注入到ODS目标库的对应目标表中。
作为优选,(一)、调度数据源包括以下内容:
(1.1)依次点击“调度”和“数据源”,即可查看数据源;
(1.2)点击“添加”,并填写信息,即可添加新的数据源;
数据源添加分为“单例模式”和“集群模式”;单例模式即为普通连接模式配置IP、端口、实例名称;集群模式添加的是JDBC连接地址;
(1.3)勾选若干个数据源,点击批量删除,确认后即可同时删除多个数据源;
(1.4)在搜索框内输入关键字进行搜索,即可快速查找数据源;
(1.5)点击“删除”,确认后即可删除该行数据源;
(1.6)点击“编辑”,修改信息,确认后即可修改该数据源;
(1.7)点击“测试”,即可对该数据源进行测试;
(二)、调度任务管理包括以下内容:
(2.1)依次点击“调度”和“任务管理”按钮后即可查看任务管理的内容;
(2.2)点击“添加”,并按提示填写信息,确认后即可添加新的任务;
在新增任务时,若存在Owner字段选择,则通过授权账号查询特定表的方式去查询那些权限账号不能直接查询的当前表,并将Owner字段的维护存放在etl.user_owner表中;
(2.3)点击“自依赖选项”,则在任务执行前会判断当前任务的前置任务有没有执行成功,若成功能则执行当前任务,若没有成功标识则当前任务挂起;前置任务是根据当前执行频率计算出当前理论执行时间下的最近一次执行时间获得;
(2.4)若用户选择了若干个任务,并选择批量更新频率,并填写信息,确认后即可实现多个任务的频率更新;
(2.5)若用户选择更新日期,选择开始日期和结束日期,点击搜索即可显示符合所选时间段内的任务;
(2.6)若用户选择重置即可重新显示全部任务;
(2.7)若用户选择任务名称前的添加符号即可展开该任务;
(2.8)若用户选择手动执行,并选择同步方式,即可对该任务进行同步;
(2.9)新生成的任务会自动创建表结构和主键,生成的表存放在ODS库下,命名方式为当前源表名_数据源ID;
(2.10)若用户选择手动执行则包括全量、增量和自定义这三种同步方式;
(2.11)全量:会删除全部当前任务ODS表所对应的数据,然后抽取全部源表数据到当前ODS表;
(2.12)增量:能生成根据所选时间区间按照当前任务的执行表达式生成相应的任务,执行效果等同于编辑同步下的当前时间当前任务的自动执行效果;
(2.13)自定义:会执行当前查询语句并将结果插入到当前ODS表,并不会删除任何数据;
(2.14)若用户选择编辑同步,并选择同步方式和填写信息,即可编辑该任务同步;
(2.15)编辑同步包括编辑同步全量、编辑同步Table模式增量和编辑同步Sql模式增量这三种同步方式;
(2.16)编辑同步全量:此种方式默认会抽取全部源表数据插入到当前任务的对应表中,全量模式也可自定义表达式;该同步方式会先清空数据,再抽取数据;表达式中若出现${OCCUR_DATE},${OCCUR_DATE,-1}这类字符串时,将在执行时间内被替换成当前理论执行时间和理论执行时间的前一天,类型为字符串类型;
(2.17)编辑同步Table模式增量:增量字段能选择当前表中类型为Date的字段,以理论开始时间前一天为增量区间进行抽取;
(2.18)编辑同步Sql模式增量:查询表达式表示要同步的数据,删除表达式表示要删除的数据,删除表达式默认添加的前缀delete from当前ODS表名where;
(2.19)表达式中若出现的${OCCUR_DATE},${OCCUR_DATE,-1}这类字符串时,将在执行时间内被替换成当前理论执行时间和理论执行时间的前一天,类型为字符串类型;
(2.20)点击“编辑频率”,并填写信息,即可对该任务更新频率进行修改;
(2.21)点击“状态列”,即可更改该任务的状态;
(2.22)点击“编辑”,并按提示填写信息,确认后即可修改该任务;
(2.23)点击“删除”,确认后即可删除该任务;
(2.24)点击“页码数或箭头”即可进行翻页,也能通过填写页码数进行快速跳转;
(2.25)点击“每页显示条数”,即可更改每页显示的任务数量;
(三)、调度任务执行情况包括以下内容:
(3.1)依次点击“调度”和“任务执行情况”按钮后即可查看任务执行情况的信息;
(3.2)依次点击“任务”和“重试任务”即可重启该任务;
(3.3)依次点击“开始时间”后的箭头即可按照升序或降序的方式对所有任务排序;
(3.4)点击“状态后的筛选”和勾选不同状态即可显示符合选择条件的任务;
(3.5)点击“日志”即可查看该任务日志信息;
(四)、调度OSD列表管理包括以下内容:
(4.1)依次点击“ODS管理”和“ODS列表”按钮即可查看ODS列表;
(4.2)点击“数据查询”,或通过输入SQL语句进行查询,或点击任务周期,即可查看该表的任务周期;
(4.3)依次点击“数据校验”、“配置策略”和“行数监控”按钮即可查看数据校验配置策略的行数监控;
(4.4)依次点击“数据校验”、“配置策略”和“内容监控”按钮即可查看数据校验配置策略的内容监控;
(4.5)依次点击“数据校验”、“配置策略”和“异常监控”按钮即可查看数据校验配置策略的异常监控;
(4.6)依次点击“数据校验”、“校验结果”和“校验执行情况”按钮即可查看数据校验配置策略的校验执行情况;
(4.7)点击配置策略后的筛选,勾选监控行为,即可显示符合所选条件的校验;
(4.8)点击校验结果后的筛选,勾选若干结果,即可显示符合条件的校验。
作为优选,还包括安装有可视化同步软件APP的智能手机,智能手机与现场可视化单元的ETL工具网络连接;现场可视化单元的每步操作状态会在智能手机上的可视化同步软件APP上同步显示;当现场可视化单元使用的用户出现不能将数据源数据注入到ODS目标库的目标表中时,现场可视化单元使用的用户可请求智能手机端的人在智能手机上帮忙实现将数据源数据注入到ODS目标库的目标表中。
本发明能够达到如下效果:
本发明能帮助用户通过简单的配置操作把业务数据同步到目标数据库进行在线业务分析;简洁的可视化界面,使用拖拉拽的操作方式来实现数据的自动同步,即使是不会编程的普通业务人员也能进行完整的操作,而对于有编程基础的业内人员来说,则可以大大的节省时间和精力,省去了非常多不必要的麻烦,摆脱平日束缚,更多专注于核心业务。易于把业务数据同步到目标数据库便于用户对业务数据进行在线业务分析,可视化,无需编程,简单易学,配置简单,自动建表,稳定可靠,支持多种数据库。
附图说明
图1为本发明的一种流程示意图。
图2为本发明ETL工具与数据库中的多种数据源连接的一种示意图。
图3为本发明的一种连接结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步的说明。
实施例,可视化多数据源ETL工具,参见图1-图3所示,包括现场可视化单元,现场可视化单元包括数据库和ETL工具,在数据库中存储有多种数据源;所述ETL工具的可视化操作方法如下:
S1、ETL工具与数据库中的多种数据源连接;
S2、通过源数据库的表结构或字段与ETL工具配置,得到数据源库的源表SQL;
S3、对源表SQL进行优化,源表SQL优化后得到多个数据源数据,并将数据源数据注入到ODS目标库的目标表中;
S4、从ODS目标库的目标表中分别调度数据源、调度任务管理、调度任务执行情况和调度OSD列表管理,从而便于用户对业务数据进行在线业务分析。
在步骤S2中,要得到数据源库的源表SQL的操作方法如下:配置数据源和ODS目标库及表名和字段,并选择数据源和ODS目标库的数据库类型;根据数据源和ODS目标库的数据库类型确定不同的ETL工具配置,再根据数据源库的源表通过ETL规则配置得到源表SQL的语句。
在步骤S3中,要将数据源数据注入到ODS目标库的目标表中的操作方法如下:根据ETL规则库的匹配对源表SQL进行优化;调用源表SQL的数据中心提供的接口,执行优化后的源表SQL得到数据源数据并注入到ODS目标库的对应目标表中。
ETL工具包括数据库管理层和传输层;数据库管理层用于连接源数据库和目标数据库,通过源数据库和目标数据库的结构匹配,得到源数据库的源表SQL语句;传输层用于对SQL语句进行优化并执行后得到多个源数据库的源数据并注入到ODS目标库的对应目标表中。
数据库管理层包括图形化配置和ETL任务配置;图形化配置用于配置源数据库和目标数据库及表名、字段,并判断源数据库和目标数据库的数据库类型;ETL任务配置用于根据源数据库的数据库类型和目标数据库的数据库类型来确定不同的ETL任务规则与频率,再根据源数据库的源表通过ETL规则类得到源表SQL语句。
传输层包括查询器和任务引擎;查询器用于处理源表SQL语句并根据ETL规则库的配置对源表SQL语句进行优化;任务引擎用于调用ETL提供的API,执行优化后的源表SQL语句得到数据源数据并注入到ODS目标库的对应目标表中。
(一)、调度数据源包括以下内容:
(1.1)依次点击“调度”和“数据源”,即可查看数据源;
(1.2)点击“添加”,并填写信息,即可添加新的数据源;
数据源添加分为“单例模式”和“集群模式”;单例模式即为普通连接模式配置IP、端口、实例名称;集群模式添加的是JDBC连接地址;如:jdbc:oracle:thin:@xxx.xx.x.xxx:1521:orcl。
(1.3)勾选若干个数据源,点击批量删除,确认后即可同时删除多个数据源;
(1.4)在搜索框内输入关键字进行搜索,即可快速查找数据源;
(1.5)点击“删除”,确认后即可删除该行数据源;
(1.6)点击“编辑”,修改信息,确认后即可修改该数据源;
(1.7)点击“测试”,即可对该数据源进行测试;
(二)、调度任务管理包括以下内容:
(2.1)依次点击“调度”和“任务管理”按钮后即可查看任务管理的内容;
(2.2)点击“添加”,并按提示填写信息,确认后即可添加新的任务;
在新增任务时,若存在Owner字段选择,则通过授权账号查询特定表的方式去查询那些权限账号不能直接查询的当前表,并将Owner字段的维护存放在etl.user_owner表中;
(2.3)点击“自依赖选项”,则在任务执行前会判断当前任务的前置任务有没有执行成功,若成功能则执行当前任务,若没有成功标识则当前任务挂起;前置任务是根据当前执行频率计算出当前理论执行时间下的最近一次执行时间获得;
(2.4)若用户选择了若干个任务,并选择批量更新频率,并填写信息,确认后即可实现多个任务的频率更新;
(2.5)若用户选择更新日期,选择开始日期和结束日期,点击搜索即可显示符合所选时间段内的任务;
(2.6)若用户选择重置即可重新显示全部任务;
(2.7)若用户选择任务名称前的添加符号即可展开该任务;
(2.8)若用户选择手动执行,并选择同步方式,即可对该任务进行同步;
(2.9)新生成的任务会自动创建表结构和主键,生成的表存放在ODS库下,命名方式为当前源表名_数据源ID;
例:ODS.TEST_121;
(2.10)若用户选择手动执行则包括全量、增量和自定义这三种同步方式;
(2.11)全量:会删除全部当前任务ODS表所对应的数据,然后抽取全部源表数据到当前ODS表;
(2.12)增量:能生成根据所选时间区间按照当前任务的执行表达式生成相应的任务,执行效果等同于编辑同步下的当前时间当前任务的自动执行效果;
(2.13)自定义:会执行当前查询语句并将结果插入到当前ODS表,并不会删除任何数据;
(2.14)若用户选择编辑同步,并选择同步方式和填写信息,即可编辑该任务同步;
(2.15)编辑同步包括编辑同步全量、编辑同步Table模式增量和编辑同步Sql模式增量这三种同步方式;
(2.16)编辑同步全量:此种方式默认会抽取全部源表数据插入到当前任务的对应表中,全量模式也可自定义表达式。该同步方式会先清空数据,再抽取数据;表达式中若出现${OCCUR_DATE},${OCCUR_DATE,-1}这类字符串时,将在执行时间内被替换成当前理论执行时间和理论执行时间的前一天,类型为字符串类型;
(2.17)编辑同步Table模式增量:增量字段能选择当前表中类型为Date的字段,以理论开始时间前一天为增量区间进行抽取;
(2.18)编辑同步Sql模式增量:查询表达式表示要同步的数据,删除表达式表示要删除的数据,删除表达式默认添加的前缀delete from当前ODS表名where;
(2.19)表达式中若出现的${OCCUR_DATE},${OCCUR_DATE,-1}这类字符串时,将在执行时间内被替换成当前理论执行时间和理论执行时间的前一天,类型为字符串类型;
(2.20)点击“编辑频率”,并填写信息,即可对该任务更新频率进行修改;
(2.21)点击“状态列”,即可更改该任务的状态;
(2.22)点击“编辑”,并按提示填写信息,确认后即可修改该任务;
(2.23)点击“删除”,确认后即可删除该任务;
(2.24)点击“页码数或箭头”即可进行翻页,也能通过填写页码数进行快速跳转;
(2.25)点击“每页显示条数”,即可更改每页显示的任务数量;
(三)、调度任务执行情况包括以下内容:
(3.1)依次点击“调度”和“任务执行情况”按钮后即可查看任务执行情况的信息;
(3.2)依次点击“任务”和“重试任务”即可重启该任务;
(3.3)依次点击“开始时间”后的箭头即可按照升序或降序的方式对所有任务排序;
(3.4)点击“状态后的筛选”和勾选不同状态即可显示符合选择条件的任务;
(3.5)点击“日志”即可查看该任务日志信息;
(四)、调度OSD列表管理包括以下内容:
(4.1)依次点击“ODS管理”和“ODS列表”按钮即可查看ODS列表;
(4.2)点击“数据查询”,或通过输入SQL语句进行查询,或点击任务周期,即可查看该表的任务周期;
(4.3)依次点击“数据校验”、“配置策略”和“行数监控”按钮即可查看数据校验配置策略的行数监控;
(4.4)依次点击“数据校验”、“配置策略”和“内容监控”按钮即可查看数据校验配置策略的内容监控;
(4.5)依次点击“数据校验”、“配置策略”和“异常监控”按钮即可查看数据校验配置策略的异常监控;
(4.6)依次点击“数据校验”、“校验结果”和“校验执行情况”按钮即可查看数据校验配置策略的校验执行情况;
(4.7)点击配置策略后的筛选,勾选监控行为,即可显示符合所选条件的校验;
(4.8)点击校验结果后的筛选,勾选若干结果,即可显示符合条件的校验;
还包括安装有可视化同步软件APP的智能手机,智能手机与现场可视化单元的ETL工具网络连接;现场可视化单元的每步操作状态会在智能手机上的可视化同步软件APP上同步显示;当现场可视化单元使用的用户出现不能将数据源数据注入到ODS目标库的目标表中时,现场可视化单元使用的用户可请求智能手机端的人在智能手机上帮忙实现将数据源数据注入到ODS目标库的目标表中。
本实例如果现场人员不能将数据源数据注入到ODS目标库的目标表中时可请求远端人帮忙,大大提高了可靠性和实用性。也易于让现场人员学会使用,方便简单。
本实施例能帮助用户通过简单的配置操作把业务数据同步到目标数据库进行在线业务分析;简洁的可视化界面,使用拖拉拽的操作方式来实现数据的自动同步,即使是不会编程的普通业务人员也能进行完整的操作,而对于有编程基础的业内人员来说,则可以大大的节省时间和精力,省去了非常多不必要的麻烦,摆脱平日束缚,更多专注于核心业务。易于把业务数据同步到目标数据库便于用户对业务数据进行在线业务分析,可视化,无需编程,简单易学。
本实施例配置简单,简化用户操作,简单的拖拉拽即可实现数据的自动同步。
本实施例自动建表,用户无需关心复杂的表结构,系统实现自动在目标数据库创建所需同步的目标表。
本实施例稳定可靠,所有操作均在基于浏览器的平台上完成,目标数据双节点同步冗余,自动化定期备份,保护重要数据。
本实施例支持SQLServer、MySQL、PostgreSQL和Oracle等多种数据库到目标数据库的数据导入。
上面结合附图描述了本发明的实施方式,但实现时不受上述实施例限制,本领域普通技术人员可以在所附权利要求的范围内做出各种变化或修改。

Claims (8)

1.可视化多数据源ETL工具,包括现场可视化单元,现场可视化单元包括数据库和ETL工具,在数据库中存储有多种数据源;其特征在于,所述ETL工具的可视化操作方法如下:
S1、ETL工具与数据库中的多种数据源连接;
S2、通过源数据库的表结构或字段与ETL工具配置,得到数据源库的源表SQL;
S3、对源表SQL进行优化,源表SQL优化后得到多个数据源数据,并将数据源数据注入到ODS目标库的目标表中;
S4、从ODS目标库的目标表中分别调度数据源、调度任务管理、调度任务执行情况和调度OSD列表管理,从而便于用户对业务数据进行在线业务分析。
2.根据权利要求1所述的可视化多数据源ETL工具,其特征在于,在步骤S2中,要得到数据源库的源表SQL的操作方法如下:
配置数据源和ODS目标库及表名和字段,并选择数据源和ODS目标库的数据库类型;根据数据源和ODS目标库的数据库类型确定不同的ETL工具配置,再根据数据源库的源表通过ETL规则配置得到源表SQL的语句。
3.根据权利要求1所述的可视化多数据源ETL工具,其特征在于,在步骤S3中,要将数据源数据注入到ODS目标库的目标表中的操作方法如下:
根据ETL规则库的匹配对源表SQL进行优化;调用源表SQL的数据中心提供的接口,执行优化后的源表SQL得到数据源数据并注入到ODS目标库的对应目标表中。
4.根据权利要求1所述的可视化多数据源ETL工具,其特征在于,ETL工具包括数据库管理层和传输层;
数据库管理层用于连接源数据库和目标数据库,通过源数据库和目标数据库的结构匹配,得到源数据库的源表SQL语句;
传输层用于对SQL语句进行优化并执行后得到多个源数据库的源数据并注入到ODS目标库的对应目标表中。
5.根据权利要求4所述的可视化多数据源ETL工具,其特征在于,数据库管理层包括图形化配置和ETL任务配置;
图形化配置用于配置源数据库和目标数据库及表名、字段,并判断源数据库和目标数据库的数据库类型;
ETL任务配置用于根据源数据库的数据库类型和目标数据库的数据库类型来确定不同的ETL任务规则与频率,再根据源数据库的源表通过ETL规则类得到源表SQL语句。
6.根据权利要求5所述的所述的可视化多数据源ETL工具,其特征在于,传输层包括查询器和任务引擎;
查询器用于处理源表SQL语句并根据ETL规则库的配置对源表SQL语句进行优化;
任务引擎用于调用ETL提供的API,执行优化后的源表SQL语句得到数据源数据并注入到ODS目标库的对应目标表中。
7.根据权利要求1或2或3或4或5或6所述的所述的可视化多数据源ETL工具,其特征在于,
(一)、调度数据源包括以下内容:
(1.1)依次点击“调度”和“数据源”,即可查看数据源;
(1.2)点击“添加”,并填写信息,即可添加新的数据源;
数据源添加分为“单例模式”和“集群模式”;单例模式即为普通连接模式配置IP、端口、实例名称;集群模式添加的是JDBC连接地址;
(1.3)勾选若干个数据源,点击批量删除,确认后即可同时删除多个数据源;
(1.4)在搜索框内输入关键字进行搜索,即可快速查找数据源;
(1.5)点击“删除”,确认后即可删除该行数据源;
(1.6)点击“编辑”,修改信息,确认后即可修改该数据源;
(1.7)点击“测试”,即可对该数据源进行测试;
(二)、调度任务管理包括以下内容:
(2.1)依次点击“调度”和“任务管理”按钮后即可查看任务管理的内容;
(2.2)点击“添加”,并按提示填写信息,确认后即可添加新的任务;
在新增任务时,若存在Owner字段选择,则通过授权账号查询特定表的方式去查询那些权限账号不能直接查询的当前表,并将Owner字段的维护存放在etl.user_owner表中;
(2.3)点击“自依赖选项”,则在任务执行前会判断当前任务的前置任务有没有执行成功,若成功能则执行当前任务,若没有成功标识则当前任务挂起;前置任务是根据当前执行频率计算出当前理论执行时间下的最近一次执行时间获得;
(2.4)若用户选择了若干个任务,并选择批量更新频率,并填写信息,确认后即可实现多个任务的频率更新;
(2.5)若用户选择更新日期,选择开始日期和结束日期,点击搜索即可显示符合所选时间段内的任务;
(2.6)若用户选择重置即可重新显示全部任务;
(2.7)若用户选择任务名称前的添加符号即可展开该任务;
(2.8)若用户选择手动执行,并选择同步方式,即可对该任务进行同步;
(2.9)新生成的任务会自动创建表结构和主键,生成的表存放在ODS库下,命名方式为当前源表名数据源ID;
(2.10)若用户选择手动执行则包括全量、增量和自定义这三种同步方式;
(2.11)全量:会删除全部当前任务ODS表所对应的数据,然后抽取全部源表数据到当前ODS表;
(2.12)增量:能生成根据所选时间区间按照当前任务的执行表达式生成相应的任务,执行效果等同于编辑同步下的当前时间当前任务的自动执行效果;
(2.13)自定义:会执行当前查询语句并将结果插入到当前ODS表,并不会删除任何数据;
(2.14)若用户选择编辑同步,并选择同步方式和填写信息,即可编辑该任务同步;
(2.15)编辑同步包括编辑同步全量、编辑同步Table模式增量和编辑同步Sql模式增量这三种同步方式;
(2.16)编辑同步全量:此种方式默认会抽取全部源表数据插入到当前任务的对应表中,全量模式也可自定义表达式;该同步方式会先清空数据,再抽取数据;表达式中若出现${OCCUR_DATE},${OCCUR_DATE,-1}这类字符串时,将在执行时间内被替换成当前理论执行时间和理论执行时间的前一天,类型为字符串类型;
(2.17)编辑同步Table模式增量:增量字段能选择当前表中类型为Date的字段,以理论开始时间前一天为增量区间进行抽取;
(2.18)编辑同步Sql模式增量:查询表达式表示要同步的数据,删除表达式表示要删除的数据,删除表达式默认添加的前缀delete from当前ODS表名where;
(2.19)表达式中若出现的${OCCUR_DATE},${OCCUR_DATE,-1}这类字符串时,将在执行时间内被替换成当前理论执行时间和理论执行时间的前一天,类型为字符串类型;
(2.20)点击“编辑频率”,并填写信息,即可对该任务更新频率进行修改;
(2.21)点击“状态列”,即可更改该任务的状态;
(2.22)点击“编辑”,并按提示填写信息,确认后即可修改该任务;
(2.23)点击“删除”,确认后即可删除该任务;
(2.24)点击“页码数或箭头”即可进行翻页,也能通过填写页码数进行快速跳转;
(2.25)点击“每页显示条数”,即可更改每页显示的任务数量;
(三)、调度任务执行情况包括以下内容:
(3.1)依次点击“调度”和“任务执行情况”按钮后即可查看任务执行情况的信息;
(3.2)依次点击“任务”和“重试任务”即可重启该任务;
(3.3)依次点击“开始时间”后的箭头即可按照升序或降序的方式对所有任务排序;
(3.4)点击“状态后的筛选”和勾选不同状态即可显示符合选择条件的任务;
(3.5)点击“日志”即可查看该任务日志信息;
(四)、调度OSD列表管理包括以下内容:
(4.1)依次点击“ODS管理”和“ODS列表”按钮即可查看ODS列表;
(4.2)点击“数据查询”,或通过输入SQL语句进行查询,或点击任务周期,即可查看该表的任务周期;
(4.3)依次点击“数据校验”、“配置策略”和“行数监控”按钮即可查看数据校验配置策略的行数监控;
(4.4)依次点击“数据校验”、“配置策略”和“内容监控”按钮即可查看数据校验配置策略的内容监控;
(4.5)依次点击“数据校验”、“配置策略”和“异常监控”按钮即可查看数据校验配置策略的异常监控;
(4.6)依次点击“数据校验”、“校验结果”和“校验执行情况”按钮即可查看数据校验配置策略的校验执行情况;
(4.7)点击配置策略后的筛选,勾选监控行为,即可显示符合所选条件的校验;
(4.8)点击校验结果后的筛选,勾选若干结果,即可显示符合条件的校验。
8.根据权利要求1所述的可视化多数据源ETL工具,其特征在于,还包括安装有可视化同步软件APP的智能手机,智能手机与现场可视化单元的ETL工具网络连接;现场可视化单元的每步操作状态会在智能手机上的可视化同步软件APP上同步显示;当现场可视化单元使用的用户出现不能将数据源数据注入到ODS目标库的目标表中时,现场可视化单元使用的用户可请求智能手机端的人在智能手机上帮忙实现将数据源数据注入到ODS目标库的目标表中。
CN201811618413.0A 2018-12-27 2018-12-27 可视化多数据源etl工具 Active CN109669983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811618413.0A CN109669983B (zh) 2018-12-27 2018-12-27 可视化多数据源etl工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811618413.0A CN109669983B (zh) 2018-12-27 2018-12-27 可视化多数据源etl工具

Publications (2)

Publication Number Publication Date
CN109669983A true CN109669983A (zh) 2019-04-23
CN109669983B CN109669983B (zh) 2020-11-10

Family

ID=66146437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811618413.0A Active CN109669983B (zh) 2018-12-27 2018-12-27 可视化多数据源etl工具

Country Status (1)

Country Link
CN (1) CN109669983B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941657A (zh) * 2019-11-08 2020-03-31 支付宝(杭州)信息技术有限公司 业务数据处理方法及装置
CN111082976A (zh) * 2019-12-02 2020-04-28 东莞数汇大数据有限公司 一种支持etl任务调度可视化的方法
CN111506556A (zh) * 2020-04-09 2020-08-07 北京市测绘设计研究院 一种多源异构的结构化数据同步方法
CN111666326A (zh) * 2020-05-29 2020-09-15 中国工商银行股份有限公司 Etl调度方法及装置
CN111666324A (zh) * 2020-05-18 2020-09-15 新浪网技术(中国)有限公司 一种关系型数据库之间的etl调度方法及装置
CN112035468A (zh) * 2020-08-24 2020-12-04 杭州览众数据科技有限公司 基于内存计算、web可视化配置的多数据源ETL工具
CN112181944A (zh) * 2020-09-24 2021-01-05 陕西天行健车联网信息技术有限公司 一种异构数据源的离线数据同步工具在车联网行业的应用
CN112487090A (zh) * 2020-11-30 2021-03-12 乐刷科技有限公司 数据同步方法、数据展示平台及计算机可读存储介质
CN112597221A (zh) * 2020-12-17 2021-04-02 四川新网银行股份有限公司 一种基于截面数据的测试环境数据抽取优化执行方法
CN112612797A (zh) * 2020-12-30 2021-04-06 杭州拼便宜网络科技有限公司 多源同表数据加载方法、装置、设备及介质
CN112667728A (zh) * 2021-01-06 2021-04-16 上海振华重工(集团)股份有限公司 一种码头效率分析中的可视化单机数据采集方法
CN113157657A (zh) * 2021-05-18 2021-07-23 山东健康医疗大数据有限公司 一种多数据源数据库定时同步的方法及系统
CN113282599A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 数据同步方法及系统
CN113312387A (zh) * 2021-05-17 2021-08-27 远光软件股份有限公司 业务数据的校验方法、装置、计算机设备和存储介质
CN113449031A (zh) * 2021-04-14 2021-09-28 上海漫微信息技术有限公司 数据同步的管理方法、装置及服务器
CN113641652A (zh) * 2021-08-09 2021-11-12 挂号网(杭州)科技有限公司 一种数据同步方法、装置、系统和服务器
CN113934786A (zh) * 2021-09-29 2022-01-14 浪潮卓数大数据产业发展有限公司 一种构建统一etl的实施方法
CN116860227A (zh) * 2023-07-12 2023-10-10 北京东方金信科技股份有限公司 一种基于大数据etl脚本编排的数据开发系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析系统及方法
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和系统
CN106600240A (zh) * 2017-01-12 2017-04-26 国网江苏省电力公司南通供电公司 供电企业基于大数据精益辅助的电网调控运营管理系统
CN107832279A (zh) * 2017-09-12 2018-03-23 北京中燕信息技术有限公司 一种生成报表的方法、设备及计算机可读存储介质
CN108829731A (zh) * 2018-05-15 2018-11-16 吉贝克信息技术(北京)有限公司 数据分析方法、系统、计算机可读存储介质、及电子终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731814A (zh) * 2013-12-23 2015-06-24 北京宸瑞科技有限公司 数据灵活比对分析系统及方法
CN104915341A (zh) * 2014-03-10 2015-09-16 中国科学院沈阳自动化研究所 可视化多数据库etl集成方法和系统
CN106600240A (zh) * 2017-01-12 2017-04-26 国网江苏省电力公司南通供电公司 供电企业基于大数据精益辅助的电网调控运营管理系统
CN107832279A (zh) * 2017-09-12 2018-03-23 北京中燕信息技术有限公司 一种生成报表的方法、设备及计算机可读存储介质
CN108829731A (zh) * 2018-05-15 2018-11-16 吉贝克信息技术(北京)有限公司 数据分析方法、系统、计算机可读存储介质、及电子终端

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941657A (zh) * 2019-11-08 2020-03-31 支付宝(杭州)信息技术有限公司 业务数据处理方法及装置
CN110941657B (zh) * 2019-11-08 2023-03-31 支付宝(杭州)信息技术有限公司 业务数据处理方法及装置
CN111082976B (zh) * 2019-12-02 2022-07-29 东莞数汇大数据有限公司 一种支持etl任务调度可视化的方法
CN111082976A (zh) * 2019-12-02 2020-04-28 东莞数汇大数据有限公司 一种支持etl任务调度可视化的方法
CN111506556A (zh) * 2020-04-09 2020-08-07 北京市测绘设计研究院 一种多源异构的结构化数据同步方法
CN111666324A (zh) * 2020-05-18 2020-09-15 新浪网技术(中国)有限公司 一种关系型数据库之间的etl调度方法及装置
CN111666324B (zh) * 2020-05-18 2023-06-27 新浪技术(中国)有限公司 一种关系型数据库之间的etl调度方法及装置
CN111666326A (zh) * 2020-05-29 2020-09-15 中国工商银行股份有限公司 Etl调度方法及装置
CN112035468A (zh) * 2020-08-24 2020-12-04 杭州览众数据科技有限公司 基于内存计算、web可视化配置的多数据源ETL工具
CN112181944A (zh) * 2020-09-24 2021-01-05 陕西天行健车联网信息技术有限公司 一种异构数据源的离线数据同步工具在车联网行业的应用
CN112487090A (zh) * 2020-11-30 2021-03-12 乐刷科技有限公司 数据同步方法、数据展示平台及计算机可读存储介质
CN112597221B (zh) * 2020-12-17 2023-04-11 四川新网银行股份有限公司 一种基于截面数据的测试环境数据抽取优化执行方法
CN112597221A (zh) * 2020-12-17 2021-04-02 四川新网银行股份有限公司 一种基于截面数据的测试环境数据抽取优化执行方法
CN112612797A (zh) * 2020-12-30 2021-04-06 杭州拼便宜网络科技有限公司 多源同表数据加载方法、装置、设备及介质
CN112667728B (zh) * 2021-01-06 2023-11-21 上海振华重工(集团)股份有限公司 一种码头效率分析中的可视化单机数据采集方法
CN112667728A (zh) * 2021-01-06 2021-04-16 上海振华重工(集团)股份有限公司 一种码头效率分析中的可视化单机数据采集方法
CN113449031A (zh) * 2021-04-14 2021-09-28 上海漫微信息技术有限公司 数据同步的管理方法、装置及服务器
CN113312387A (zh) * 2021-05-17 2021-08-27 远光软件股份有限公司 业务数据的校验方法、装置、计算机设备和存储介质
CN113157657A (zh) * 2021-05-18 2021-07-23 山东健康医疗大数据有限公司 一种多数据源数据库定时同步的方法及系统
CN113282599A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 数据同步方法及系统
CN113641652A (zh) * 2021-08-09 2021-11-12 挂号网(杭州)科技有限公司 一种数据同步方法、装置、系统和服务器
CN113934786A (zh) * 2021-09-29 2022-01-14 浪潮卓数大数据产业发展有限公司 一种构建统一etl的实施方法
CN113934786B (zh) * 2021-09-29 2023-09-08 浪潮卓数大数据产业发展有限公司 一种构建统一etl的实施方法
CN116860227A (zh) * 2023-07-12 2023-10-10 北京东方金信科技股份有限公司 一种基于大数据etl脚本编排的数据开发系统及方法
CN116860227B (zh) * 2023-07-12 2024-02-09 北京东方金信科技股份有限公司 一种基于大数据etl脚本编排的数据开发系统及方法

Also Published As

Publication number Publication date
CN109669983B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN109669983A (zh) 可视化多数据源etl工具
CN105378721B (zh) 知识捕获和发现系统
EP1585036A2 (en) Management of parameterized database queries
US8671084B2 (en) Updating a data warehouse schema based on changes in an observation model
CN109997125A (zh) 用于将数据导入数据储存库的系统
CN110168515A (zh) 用于分析数据关系以支持查询执行的系统
CN110300963A (zh) 大规模数据储存库中的数据管理系统
CN110291517A (zh) 图数据库中的查询语言互操作性
US20040030716A1 (en) Hierarchical environments supporting relational schemas
CN106104533A (zh) 处理大型数据储存库中的数据集
CN105956087B (zh) 数据版本管理系统及方法
US7668888B2 (en) Converting object structures for search engines
US20150317331A1 (en) Unified platform for application development
CN105224527B (zh) 适用于多种目的表更新方式的通用etl方法
CN110442620B (zh) 一种大数据探索和认知方法、装置、设备以及计算机存储介质
AU2012327168B2 (en) Amethod and structure for managing multiple electronic forms and their records using a static database
CN109213826A (zh) 数据处理方法和设备
CN113282599A (zh) 数据同步方法及系统
CN109150964A (zh) 一种可迁移的数据管理方法及服务迁移方法
Postina et al. An ea-approach to develop soa viewpoints
CN109446262A (zh) 一种数据汇聚方法及装置
Gonzalez-Barahona et al. Repositories with public data about software development
CN101968747A (zh) 一种机群应用管理系统及其应用管理方法
KR20060012572A (ko) 분산 설계 체인관리를 위한 장치 및 방법
EP1484694A1 (en) Converting object structures for search engines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant