CN116860227A - 一种基于大数据etl脚本编排的数据开发系统及方法 - Google Patents
一种基于大数据etl脚本编排的数据开发系统及方法 Download PDFInfo
- Publication number
- CN116860227A CN116860227A CN202310854970.7A CN202310854970A CN116860227A CN 116860227 A CN116860227 A CN 116860227A CN 202310854970 A CN202310854970 A CN 202310854970A CN 116860227 A CN116860227 A CN 116860227A
- Authority
- CN
- China
- Prior art keywords
- development
- script
- task
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011161 development Methods 0.000 title claims abstract description 380
- 238000013515 script Methods 0.000 title claims abstract description 248
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 3
- 238000007726 management method Methods 0.000 claims description 54
- 238000013507 mapping Methods 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000013499 data model Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 238000012800 visualization Methods 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000018109 developmental process Effects 0.000 description 280
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- DDCPKNYKNWXULB-RXMQYKEDSA-N (2r)-2-azaniumyl-3-[(2-methylpropan-2-yl)oxy]propanoate Chemical compound CC(C)(C)OC[C@@H]([NH3+])C([O-])=O DDCPKNYKNWXULB-RXMQYKEDSA-N 0.000 description 1
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/34—Graphical or visual programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/0486—Drag-and-drop
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Stored Programmes (AREA)
Abstract
本发明涉及一种基于大数据ETL脚本编排的数据开发系统及方法,包括任务管理工具和数据开发工具,其中:任务管理工具包括:任务分类管理模块,用于进行批量开发任务、实时开发任务和手工修数任务,并进行分类;任务列表管理模块,用于创建数据开发任务,选择开发方式,并对数据开发任务中的数据进行筛选;数据开发工具包括:可视化开发模块,用于通过在画布上拖拽物理表,建立物理表之间的关联关系和过滤条件,自动生成脚本;脚本开发模块,用于采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本,并对编写的脚本语句进行处理后得到最终的脚本;模板开发模块,用于采用在线EXCEL模板解析的方式,自动生成脚本,本发明可广泛用于数据开发领域中。
Description
技术领域
本发明涉及数据开发领域,特别是关于一种基于大数据ETL(Extract-Transform-Load,抽取-转换-加载)脚本编排的数据开发系统及方法。
背景技术
在当前这个数字化时代,数据正以超凡的速度渗透在各行各业,成为重要的生产要素,而数据仓库建设也伴随着企业信息化发展起来。在企业信息化过程中,随着信息化工具升级和应用,数据量成倍增长、数据格式也越来越多,对决策者的要求也越来越苛刻,导致数仓也在不停的发展。数仓的建设过程主要包括数据抽取、数据清洗转换和数据加载,数据抽取是从各个不同的数据源抽取到ODS(Operational Data Store,操作型数据存储)中,在这个过程中可以进行数据清洗和数据转换,在数据抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率。ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,一般情况下这部分工作量是整个ETL的2/3。数据加载一般在数据清洗之后直接写入DW(Data Warehousing,数据仓库)中去。
目前,市场上的ETL开发产品也屡见不鲜,例如腾讯的DataStudio、阿里的DataWorks等。在ETL实现的方法大概有三种,第一种是借助ETL工具,例如Oracle的OWB、SQLServer 2000的DTS、SQL Server2005的SSIS服务、Informatic等,第二种是通过写SQL脚本的方式实现,针对脚本方式又存在直接写SQL脚本和以可视化生成脚本的方式开展工作,第三种是通过工具和SQL相结合的方式。
但是,大多数以可视化的方式进行SQL脚本的编排,也可以通过脚本编辑器进行SQL、Shell等脚本的在线编写。首先,这种方式偏向具有一定脚本书写能力的技术人员,要了解数据表之间处理的加工处理的逻辑关系。其次,这种方式对人员要求来说要具备清晰的ETL处理逻辑,脚本的开发能力也比较极端化,脚本书写的方式对脚本开发能力要求比较高,对初期开发人员比较有门槛。再次,这种方式比较直观,缺少灵活性;可视化的方式面向初级人员,对于具备脚本能力的人群来说不太适用,这种方式可提升ETL脚本的运行效率,但是编码比较复杂,门槛较高,对数据管理人员都不太友好。
发明内容
针对上述问题,本发明的目的是提供一种能够提升数据开发质量且减少数据开发周期的基于大数据ETL脚本编排的数据开发系统及方法。
为实现上述目的,本发明采取以下技术方案:第一方面,提供一种基于大数据ETL脚本编排的数据开发系统,包括任务管理工具和数据开发工具,其中:
所述任务管理工具包括:
任务分类管理模块,用于进行批量开发任务、实时开发任务和手工修数任务,并进行分类;
任务列表管理模块,用于创建数据开发任务,选择开发方式,并对数据开发任务中的数据进行筛选;
所述数据开发工具包括:
数据库引擎模块,用于提供数据库引擎;
可视化开发模块,用于基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,通过在画布上拖拽物理表,建立物理表之间的关联关系和过滤条件,自动生成脚本;
脚本开发模块,用于基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本,并对编写的脚本语句进行处理后得到最终的脚本;
模板开发模块,用于基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,采用在线EXCEL模板解析的方式,自动生成脚本;
脚本处理模块,用于进行脚本运行、格式化、变量替换和语法分析;
存储模块,用于存储脚本运行结果;
通用模块,用于进行开发模式的转换以及设置任务属性。
进一步地,所述数据开发工具还包括:
同步接口,用于连接外部项目架构系统和数据模型,项目架构系统为数据开发输出ETL算法、系统通用变量的支持,数据模型为数据开发进行逻辑模型和物理模型的支持;
异步接口,用于连接外部权限中心,提供用户登录与权限等基础数据的支持。
进一步地,所述任务列表管理模块包括:
创建开发任务单元,用于创建数据开发任务,设置开发类型、开发方式、选择需求和创建脚本名称并确定算法;
筛选单元,用于根据选择任务分类及过滤条件,对数据开发任务中的数据进行筛选;
第一签入/签出单元,用于进行签入或签出,以通过签入或签出结果对脚本进行编辑操作;
删除单元,用于选择一指定数据开发任务并删除;
编辑单元,选择一指定数据开发任务并进行编辑操作。
进一步地,所述通用模块包括:
展示单元,用于展示在创建数据开发任务时所对应的数据模型主题域中的实体以及展示选择的数据源中的数据库引擎;
开发模式转换单元,用于进行可视化开发、脚本开发和模板开发之间的转换;
任务属性设置单元,用于设置查看任务基础信息的属性,展示数据开发任务的基础信息,并进行编辑操作;
相关任务单元,用于设置或关联已有的调度执行任务;
第二签入/签出单元,用于进行签入或签出;
历史查询单元,用于查询历史开发日志;
格式化校验单元用于对生成的脚本进行格式的排版和规范处理;
语法校验单元用于检查生成的脚本的语法中是否存在问题,对于存在语法问题的脚本语句进行差异标记;
脚本替换单元,用于在脚本开发模式下自动解析脚本中的变量;
脚本预览单元,用于展示生成的脚本替换变量值后的脚本;
脚本测试单元,用于对生成的脚本进行测试;
脚本执行单元,用于对数据开发的内容进行执行,并生成对应的执行日志和执行结果;
ETL任务单元,用于设置和查看ETL执行调度执行任务。
进一步地,所述模板开发模块包括:
表级规则单元,用于在模板开发中设置表级规则信息;
字段映射单元,用于在模板开发中设置字段映射信息;
预处理单元,用于在模板开发中设置执行当前模板开发任务前要执行的脚本的内容;
后置处理单元,用于在模板开发中设置执行完当前模板开发任务后需要执行的脚本内容;
拖拽填充单元,用于在模板开发中填充表和字段映射信息;
变量选择单元,用于在模板开发下的所述字段映射单元内书写运算符、函数和变量;
第一脚本解析单元,用于在模板开发下,基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,将表格化的内容配置的表或字段映射信息、选择的算法生成出对应的脚本。
进一步地,所述可视化开发模块包括:
表字段拖拽单元,用于在可视化开发下基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,从数据库表中以拖拽的方式将表或字段拖拽到画布上;
关联关系单元,用于基于表字段拖拽单元的拖拽结果,在可视化开发下建立物理表之间的关联关系和过滤条件,得到图形化的内容配置;
第二脚本解析单元,用于基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,将图形化的内容配置的表或字段映射信息、选择的算法生成出对应SQL脚本;
第一执行日志单元,用于显示可视化开发模式下的执行日志;
第一执行结果单元,用于显示可视化开发模式下的执行结果。
进一步地,所述脚本开发模块包括:
脚本编辑单元,用于采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本;
变量替换单元,用于在脚本开发下对脚本书写过程中输入的变量进行内容替换,替换后即可执行对应的开发内容;
第二执行日志单元,用于显示脚本开发模式下的执行日志;
第二执行结果单元,用于显示脚本开发模式下的执行结果。
第二方面,提供一种基于大数据ETL脚本编排的数据开发方法,包括:
任务分类管理模块创建批量开发任务并进行分类;
任务列表管理模块在列表区域创建数据开发任务,并选择开发方式,进入对应的开发画布;
当选择的开发方式为模板开发时,模板开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线EXCEL模板解析的方式,自动生成脚本,完成数据开发任务;
当选择的开发方式为脚本开发时,脚本开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本,并对编写的脚本语句进行处理后得到最终的脚本,完成数据开发任务;
当选择的开发方式为可视化开发时,可视化开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,通过在画布上拖拽物理表,建立物理表之间的关联关系和过滤条件,自动生成脚本,完成数据开发任务。
第三方面,提供一种处理设备,包括计算机程序指令,其中,所述计算机程序指令被处理设备执行时用于实现上述基于大数据ETL脚本编排的数据开发方法对应的步骤。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现上述基于大数据ETL脚本编排的数据开发方法对应的步骤。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明面向不同数据开发人群、不同开发水平,可通过模板开发、可视化开发、脚本开发实现数据开发,并且可实现三个不同版本之间的转换。
2、本发明采用可视化开发时可按操作步骤以拖动表及建例实体关系的时候进行可视化数据开发操作。
3、本发明在模板开发、可视化开发、脚本开发开发方式下可对脚本进行运行,对生成脚本进行结果检查,便于确认不通开发方式下检查内容的准确性。
4、本发明能够降低开发难度,提升代码质量和执行效率。
综上所述,本发明可以广泛应用于数据开发领域中。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在整个附图中,用相同的附图标记表示相同的部件。在附图中:
图1是本发明一实施例提供的系统结构示意图;
图2是本发明一实施例提供的系统内各模块的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本发明,并且能够将本发明的范围完整地传达给本领域的技术人员。
应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。
尽管可以在文中使用术语第一、第二、第三等来描述多个元件、部件、区域、层和/或部段,但是,这些元件、部件、区域、层和/或部段不应被这些术语所限制。这些术语可以仅用来将一个元件、部件、区域、层或部段与另一区域、层或部段区分开。除非上下文明确地指出,否则诸如“第一”、“第二”之类的术语以及其它数字术语在文中使用时并不暗示顺序或者次序。因此,以下讨论的第一元件、部件、区域、层或部段在不脱离示例实施方式的教导的情况下可以被称作第二元件、部件、区域、层或部段。
术语解释:
1、DataStudio(一站式数据开发平台)是腾讯TBDS团队遵循“DataOps”的原则,贯穿数据集成、数据开发和数据分析探索多个能力模块,为用户提供完善的一体化一站式工具,有效降低大数据开发的门槛,减少代码和系统维护工作量。在ETL开发模块支持在先在线可视化图形化的代码开发和纯写脚本的代码开发,主要面向零基础和高端技术人员使用。
2、DataWorks的DataStudio(数据开发)是阿里的一款产品,在DataWorks的DataStudio里提供界面化和脚本化的ETL开发,主要面向具备一定开发基础和高端技术人员使用。
数据开发系统主要面向项目中实施人员或技术部门的开发人员,他们均会具备一些数据开发能力,但数据开发的技术水平和业务理解能力层次不齐,很难要求脚本的标准化、准确性等,所以市场近年来推出了一些数据开发的工具,通过可视化拖拽的方式或直接写脚本的方式快速高质量的完成数据开放任务进行复杂的数据分析任务。但是在实际使用过程中,此类工具是遭到部分人员的排斥的,因为此类工具对开发人员的水平限于高级开发或初级开发之间,但是对于模型工程师非常不够友好。
导致此类原因分析如下:
领导层:非技术出身的领导一般是不具备开发能力,喜好可视化开发方式,通过可视化拖拽的方式进行清洗的逻辑关系、脚本、任务执行的编排和执行情况,可以从整体了解开发进度。
初级开发人员:技术能力不是很好,但又具备基础的开放能力,开发脚本质量难以保证,比较喜欢拖拉拽的方式开发,可以通过开发工具提升开发脚本的质量和开发效率。
中高级开发人员:中高级开发处于喜欢通过脚本开发的时期,可以提升自己的开发技能,使开发水平得到提升。厌烦拖拉拽的方式开发,认为会影响开发技能和逻辑能力。
模型工程师:在实施团队中还有一部分模型师,他们一般不具备高质量的代码开发能力,会简单的SQL开发能力,但是喜欢用模板的方式进行开发。
本发明实施例提供的基于大数据ETL脚本编排的数据开发系统及方法,能够面向各类人员的开发习惯和要求,通过可视化拖拽的方式、脚本编辑的方式和通过模板的方式实现在线开发,并且能够进行多个开发模式之间的互转,从此提升数据开发质量的管理、提升数据开发质量、减少开发周期。
实施例1
如图1、图2所示,本实施例提供一种基于大数据ETL脚本编排的数据开发系统,采用微服务架构,包括任务管理工具和数据开发工具,其中,任务管理工具包括任务分类管理模块和任务列表管理模块,数据开发工具包括数据库引擎模块、可视化开发模块、脚本开发模块、模板开发模块、脚本处理模块、存储模块、通用模块、同步接口和异步接口。
任务分类管理模块用于进行批量开发任务、实时开发任务和手工修数(手工修改数据库中数据)任务,并进行分类(用于快速搜索对应分类下的任务,以便提高查找任务的效率和准确性),以树形结构的方式进行展示,在分类树上对分类进行新增分类、修改分类和删除分类等相关操作,其中,批量开发任务、实时开发任务和手工修数任务这三个分类是平级的固定分类,可通过创建任务分类的方式在这个三个分类下创建下级分类。
任务列表管理模块用于创建数据开发任务(或ETL开发任务),选择开发方式(包括模板开发、脚本开发和可视化开发);根据选择任务分类及通过高级搜索下的过滤条件,对数据开发任务列表中的数据开发任务进行筛选;支持开放任务使用的脚本,以便于生成对应脚本运行,并产生对应的执行结果验证开发内容是否正确;以及预先内置若干常用算法(或通用模板)以辅助数据开发生成脚本,算法例如全量加载、增量合并全量和增量追加等,其中,全量加载为每次执行任务均将源数据表中的数据全部加载到目标表,增量合并全量为源表加载过后又产生了新的数据,将新增的数据加载到之前的目标表中,增量追加为迭代增加新的数据到目标表中。
数据库引擎模块用于提供数据库引擎。
可视化开发模块用于基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,通过在画布上拖拽物理表,建立物理表之间的关联关系和过滤条件,自动生成脚本,完成数据开发任务,面向代码编写能力较差的开发人员。
脚本开发模块用于基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本,并对编写的脚本语句进行语法校验、格式化校验和规范处理后得到最终的脚本,完成数据开发任务,面向较高开发能力的开发人员。
模板开发模块用于基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线EXCEL模板解析的方式,自动生成脚本,完成数据开发任务,并将开发的脚本转换为SQL脚本进行查看,面向数据模型人员。
脚本处理模块用于进行脚本运行、格式化、变量替换和语法分析等脚本处理。
存储模块用于存储脚本运行结果。
通用模块用于展示模型表和数据元表,进行开发模式的转换以及设置任务属性。
同步接口用于连接外部项目架构系统和数据模型,项目架构系统为数据开发输出ETL算法、系统通用变量的支持,数据模型为数据开发进行逻辑模型和物理模型的支持。
异步接口用于连接外部权限中心,提供用户登录与权限等基础数据的支持。
在一个优选的实施例中,调度系统与数据开发系统之间通过打包脚本和触发脚本的方式执行。
在一个优选的实施例中,数据库引擎模块支持多种常用数据引擎类型,例如:MYSQL、HIVE、POSTGRESQL、HBASE、MPP、DB2、HAHA、ORACLE、SQLSERVER等数据库引擎。
在一个优选的实施例中,数据开发的操作包括CREATE、CREATE_LIKE、CREATE_AS、INSERT、INSERT_SELECT、UPDATE、UPDATE_SELECT、DELETE、DELETE_USING、DROP。
在一个优选的实施例中,任务列表管理模块包括创建开发任务单元、筛选单元、第一签入/签出单元、删除单元和编辑单元。
创建开发任务单元用于在列表区域创建数据开发任务,设置开发类型、开发方式、选择需求和创建脚本名称并确定算法,其中,开发类型为开发后最终生成的脚本类型(例如shell、sql、python等多种脚本),开发方式包括可视化、模板和脚本三种开发方式。
筛选单元用于根据选择任务分类及通过高级搜索下的过滤条件,对数据开发任务列表中的数据进行筛选。
第一签入/签出单元用于进行签入或签出,以通过签入或签出结果对脚本进行编辑操作,支持多人同时在线开发,防止文件篡改等,当本人签出后只有本人才可以对脚本进行编辑操作,其他人只能查看。当签出人签入后,其他人才可以进行签出编辑操作。
删除单元用于选择一指定数据开发任务并删除,其中,一旦脚本删除后,所关联的调度执行任务将无法执行。
编辑单元用于选择一指定数据开发任务并进行编辑操作。
在一个优选的实施例中,通用模块包括展示单元、开发模式转换单元、任务属性设置单元、相关任务单元、第二签入/签出单元、脚本执行单元、历史查询单元、格式化校验单元、语法校验单元、脚本替换单元、脚本预览单元、脚本测试单元和ETL任务单元。
展示单元用于展示在创建数据开发任务时所对应的数据模型主题域(即模型表)中的实体以及展示选择的数据源表中的数据库引擎。
开发模式转换单元用于进行可视化开发、脚本开发和模板开发之间的转换。
任务属性设置单元用于设置查看任务基础信息的属性,展示数据开发任务的基础信息,并进行编辑操作,例如:脚本名称、开发的脚本类型、开发方式、算法、负责人和任务描述信息等。
相关任务单元用于设置或关联已有的调度执行任务,调度执行任务为用于定时执行开发脚本的调度执行流程。
第二签入/签出单元用于进行签入或签出,支持多人同时在线开发,防止文件篡改等,当本人签出后只有本人才可以对脚本进行编辑操作,其他人只能查看。当签出人签入后,其他人才可以进行签出编辑操作。
历史查询单元用于查询历史开发日志,所有开发方式均会形成执行记录。
格式化校验单元用于对生成的脚本进行格式的排版和规范处理。
语法校验单元用于检查生成的脚本的语法中是否存在问题,对于存在语法问题的脚本语句进行样式和颜色上的差异标记。
脚本替换单元用于在脚本开发模式下自动解析脚本中的变量。
脚本预览单元用于展示生成的脚本替换变量值后的脚本。
脚本测试单元用于对生成的脚本进行准确性测试。
脚本执行单元用于对数据开发的内容进行执行,并生成对应的执行日志和执行结果,便于检查配置或书写的检查内容的准确性。
ETL任务单元用于设置和查看ETL执行调度执行任务。
在一个优选的实施例中,模板开发模块包括表级规则单元、字段映射单元、预处理单元、后置处理单元、拖拽填充单元、变量选择单元、代码提示单元、第一脚本解析单元和解析Excel单元。
表级规则单元用于在模板开发中设置表级规则信息,例如:源数据库名称、源系统、源表名、源表别名、连接次序和连接类型(就是数据库中的LEFT JOIN、Full JOIN、JOIN)等。
字段映射单元用于在模板开发中设置字段映射信息,与表规则单元配合使用,主要用于配置字段英文名称、中文名称、数据类型、大小、是否主键和是否分区键等信息。
预处理单元用于在模板开发中设置执行当前模板开发任务前要执行的SQL脚本的内容。
后置处理单元用于在模板开发中设置执行完当前模板开发任务后需要执行的SQL脚本内容。
拖拽填充单元用于在模板开发中快速填充表和字段映射信息,模板开发中以列表的方式展示出数据源表或字段、数据模型表或字段内容,可以通过将表或字段拖拽至模板单元格中即可将对应的信息填充至对应的单元格内。
变量选择单元用于在模板开发下的字段映射单元内书写运算符、函数和变量,输入的变量只是用于占位,具体实现需要在脚本开发模块内的变量替换单元中执行,输入变量的格式为${变量名称},其中,模板内已内置常用运算符、函数的书写格式和描述信息等。
代码提示单元用于在模板开发下的字段映射单元内输入的运算符和函数等将会显示其关键词对应的语法格式和描述信息等,以便于提示用户正确填写。
第一脚本解析单元用于在模板开发下,基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,将表格化的内容配置的表或字段映射信息、选择的算法等生成出对应SQL脚本,以便后续能够对开发任务进行执行并输出对应的执行结果,以便于验证开发内容是否正确。
解析Excel单元用于在模板开发下通过模板的方式将配置任务信息导入至模板画布中,或将模板画布中的信息导入至Excel中下载到CSV文件中。
具体地,表级规则包括源数据库名、源系统、源表表名、源表别名、连接次序、连接类型、连接条件、筛选条件和备注。源数据库可以通过拖拽模型表和数据源表中的表名到模型中的“源数据库名”上即可将对应的源数据库名、源表表名、源表别名自动填写,连接次序为执行顺序、连接类型支持join、left join、full join三种,连接条件可输入过滤条件、也可以通过输入$显示系统内置的通用变量。
具体地,字段映射包括序号、字段名、字段中文名、主键、分区键、组别、源库、源表名、表别名、计算表达式、源表中文名、源表字段名、源表字段类型、源表字段中文名、源表字段类型和表达式备注等。
在一个优选的实施例中,可视化开发模块包括表字段拖拽单元、关联关系单元、第二脚本解析单元、第一执行日志单元和第一执行结果单元。
表字段拖拽单元用于在可视化开发下基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,从数据库表中以拖拽的方式将表或字段拖拽到画布上。
关联关系单元用于基于表字段拖拽单元的拖拽结果,在可视化开发下建立物理表之间的关联关系和过滤条件,得到图形化的内容配置。
第二脚本解析单元基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,将图形化的内容配置的表或字段映射信息、选择的算法等生成出对应SQL脚本。
第一执行日志单元用于显示可视化开发模式下的执行日志。
第一执行结果单元用于显示可视化开发模式下的执行结果。
在一个优选的实施例中,脚本开发模块包括脚本编辑单元、变量替换单元、第二执行日志单元和第二执行结果单元。
脚本编辑单元用于在脚本开发下采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本。
变量替换单元用于在脚本开发下对脚本书写过程中输入的变量进行内容替换,替换后即可执行对应的开发内容。
第二执行日志单元用于显示脚本开发模式下的执行日志。
第二执行结果单元用于显示脚本开发模式下的执行结果。
实施例2
本实施例提供一种基于大数据ETL脚本编排的数据开发方法,包括以下步骤:
1)任务分类管理模块创建批量开发任务并进行分类。
2)任务列表管理模块在列表区域创建数据开发任务,并选择开发方式,包括模板开发、脚本开发和可视化开发,进入对应的开发画布。
3)当选择的开发方式为模板开发时,模板开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线EXCEL模板解析的方式,自动生成脚本,完成数据开发任务,具体为:
3.1)在模板开发画布中,表级规则单元设置表级规则信息,通过拖拽填充单元拖拽到模板开发画布中并填写对应表的连接次序等信息。
3.2)在模板开发画布中,字段映射单元设置配置字段映射信息,填写各个字段的“计算表达式”。
3.3)在模板开发画布中,预处理单元设置执行当前模板开发任务前要执行的SQL脚本的内容,后置处理单元设置执行完当前模板开发任务后需要执行的SQL脚本内容,其中,当前步骤为非必填项,若开发任务无须预处理或后置处理此步骤可以不配置。
3.4)第一脚本解析单元基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,将表格化的内容配置的表或字段映射信息、选择的算法等生成出对应SQL脚本。
3.5)如果需要检查脚本语法,则通过格式化校验单元和语法校验单元对输出的SQL脚本进行格式的排版和规范处理以及语法检查,并采用不同的颜色对检查出的异常语法进行提示。
4)当选择的开发方式为脚本开发时,脚本开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本,并对编写的脚本语句进行语法校验、格式化校验和规范处理后得到最终的脚本,完成数据开发任务,具体为:
4.1)在脚本开发画布中,表级规则单元设置表级规则信息。
4.2)在脚本开发画布中,脚本编辑单元采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本。
4.3)如果需要检查脚本语法,则通过格式化校验单元和语法校验单元对输出的SQL脚本进行格式的排版和规范处理以及语法检查,并采用不同的颜色对检查出的异常语法进行提示。
5)当选择的开发方式为可视化开发时,可视化开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,通过在画布上拖拽物理表,建立物理表之间的关联关系和过滤条件,自动生成脚本,完成数据开发任务,具体为:
5.1)在可视化开发画布中,表字段拖拽单元基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,从数据库表中以拖拽的方式将表或字段拖拽到画布上。
5.2)关联关系单元基于表字段拖拽单元的拖拽结果,在可视化开发下建立物理表之间的关联关系和过滤条件,得到图形化的内容配置。
5.3)第二脚本解析单元基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,将图形化的内容配置的表或字段映射信息、选择的算法等生成出对应SQL脚本。
5.4)如果需要检查脚本语法,则通过格式化校验单元和语法校验单元对输出的SQL脚本进行格式的排版和规范处理以及语法检查,并采用不同的颜色对检查出的异常语法进行提示。
6)脚本测试单元对脚本内容进行准确性测试,并输出测试结果和测试执行时间、执行耗时等。
7)脚本执行单元对数据开发的内容进行执行,并生成对应的执行日志和执行结果。
8)如果需定时执行数据开发任务,则通过ETL任务单元设置和查看ETL执行调度执行任务。
9)如果需查看数据开发任务的基础信息,则通过任务属性设置单元进行开发任务信息的查看。
10)如果确定所有数据开发任务配置完成后,则通过对应签入/签出单元的签入功能将数据开发任务提交。(若需要在此编辑的化,需要通过签出功能获取开发任务的操作权限)
实施例3
本实施例提供一种与本实施例2所提供的基于大数据ETL脚本编排的数据开发方法对应的处理设备,处理设备可以适用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行实施例2的方法。
所述处理设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,以完成相互间的通信。存储器中存储有可在处理设备上运行的计算机程序,处理设备运行计算机程序时执行本实施例2所提供的基于大数据ETL脚本编排的数据开发方法。
在一些实现中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在另一些实现中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以理解,上述计算设备的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的计算设备的限定,具体的计算设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
实施例4
本实施例提供一种与本实施例2所提供的基于大数据ETL脚本编排的数据开发方法对应的计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实施例2所述的基于大数据ETL脚本编排的数据开发方法的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (10)
1.一种基于大数据ETL脚本编排的数据开发系统,其特征在于,包括任务管理工具和数据开发工具,其中:
所述任务管理工具包括:
任务分类管理模块,用于进行批量开发任务、实时开发任务和手工修数任务,并进行分类;
任务列表管理模块,用于创建数据开发任务,选择开发方式,并对数据开发任务中的数据进行筛选;
所述数据开发工具包括:
数据库引擎模块,用于提供数据库引擎;
可视化开发模块,用于基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,通过在画布上拖拽物理表,建立物理表之间的关联关系和过滤条件,自动生成脚本;
脚本开发模块,用于基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本,并对编写的脚本语句进行处理后得到最终的脚本;
模板开发模块,用于基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,采用在线EXCEL模板解析的方式,自动生成脚本;
脚本处理模块,用于进行脚本运行、格式化、变量替换和语法分析;
存储模块,用于存储脚本运行结果;
通用模块,用于进行开发模式的转换以及设置任务属性。
2.如权利要求1所述的一种基于大数据ETL脚本编排的数据开发系统,其特征在于,所述数据开发工具还包括:
同步接口,用于连接外部项目架构系统和数据模型,项目架构系统为数据开发输出ETL算法、系统通用变量的支持,数据模型为数据开发进行逻辑模型和物理模型的支持;
异步接口,用于连接外部权限中心,提供用户登录与权限等基础数据的支持。
3.如权利要求1所述的一种基于大数据ETL脚本编排的数据开发系统,其特征在于,所述任务列表管理模块包括:
创建开发任务单元,用于创建数据开发任务,设置开发类型、开发方式、选择需求和创建脚本名称并确定算法;
筛选单元,用于根据选择任务分类及过滤条件,对数据开发任务中的数据进行筛选;
第一签入/签出单元,用于进行签入或签出,以通过签入或签出结果对脚本进行编辑操作;
删除单元,用于选择一指定数据开发任务并删除;
编辑单元,选择一指定数据开发任务并进行编辑操作。
4.如权利要求1所述的一种基于大数据ETL脚本编排的数据开发系统,其特征在于,所述通用模块包括:
展示单元,用于展示在创建数据开发任务时所对应的数据模型主题域中的实体以及展示选择的数据源中的数据库引擎;
开发模式转换单元,用于进行可视化开发、脚本开发和模板开发之间的转换;
任务属性设置单元,用于设置查看任务基础信息的属性,展示数据开发任务的基础信息,并进行编辑操作;
相关任务单元,用于设置或关联已有的调度执行任务;
第二签入/签出单元,用于进行签入或签出;
历史查询单元,用于查询历史开发日志;
格式化校验单元用于对生成的脚本进行格式的排版和规范处理;
语法校验单元用于检查生成的脚本的语法中是否存在问题,对于存在语法问题的脚本语句进行差异标记;
脚本替换单元,用于在脚本开发模式下自动解析脚本中的变量;
脚本预览单元,用于展示生成的脚本替换变量值后的脚本;
脚本测试单元,用于对生成的脚本进行测试;
脚本执行单元,用于对数据开发的内容进行执行,并生成对应的执行日志和执行结果;
ETL任务单元,用于设置和查看ETL执行调度执行任务。
5.如权利要求1所述的一种基于大数据ETL脚本编排的数据开发系统,其特征在于,所述模板开发模块包括:
表级规则单元,用于在模板开发中设置表级规则信息;
字段映射单元,用于在模板开发中设置字段映射信息;
预处理单元,用于在模板开发中设置执行当前模板开发任务前要执行的脚本的内容;
后置处理单元,用于在模板开发中设置执行完当前模板开发任务后需要执行的脚本内容;
拖拽填充单元,用于在模板开发中填充表和字段映射信息;
变量选择单元,用于在模板开发下的所述字段映射单元内书写运算符、函数和变量;
第一脚本解析单元,用于在模板开发下,基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,将表格化的内容配置的表或字段映射信息、选择的算法生成出对应的脚本。
6.如权利要求1所述的一种基于大数据ETL脚本编排的数据开发系统,其特征在于,所述可视化开发模块包括:
表字段拖拽单元,用于在可视化开发下基于外部调度系统提供的调度周期、并或串行任务以及所述任务列表管理模块创建的数据开发任务,从数据库表中以拖拽的方式将表或字段拖拽到画布上;
关联关系单元,用于基于表字段拖拽单元的拖拽结果,在可视化开发下建立物理表之间的关联关系和过滤条件,得到图形化的内容配置;
第二脚本解析单元,用于基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,将图形化的内容配置的表或字段映射信息、选择的算法生成出对应SQL脚本;
第一执行日志单元,用于显示可视化开发模式下的执行日志;
第一执行结果单元,用于显示可视化开发模式下的执行结果。
7.如权利要求1所述的一种基于大数据ETL脚本编排的数据开发系统,其特征在于,所述脚本开发模块包括:
脚本编辑单元,用于采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本;
变量替换单元,用于在脚本开发下对脚本书写过程中输入的变量进行内容替换,替换后即可执行对应的开发内容;
第二执行日志单元,用于显示脚本开发模式下的执行日志;
第二执行结果单元,用于显示脚本开发模式下的执行结果。
8.一种基于大数据ETL脚本编排的数据开发方法,其特征在于,包括:
任务分类管理模块创建批量开发任务并进行分类;
任务列表管理模块在列表区域创建数据开发任务,并选择开发方式,进入对应的开发画布;
当选择的开发方式为模板开发时,模板开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线EXCEL模板解析的方式,自动生成脚本,完成数据开发任务;
当选择的开发方式为脚本开发时,脚本开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,采用在线编写脚本的方式,根据选择的数据库引擎,生成脚本,并对编写的脚本语句进行处理后得到最终的脚本,完成数据开发任务;
当选择的开发方式为可视化开发时,可视化开发模块基于外部调度系统提供的调度周期、并或串行任务以及任务列表管理模块创建的数据开发任务,通过在画布上拖拽物理表,建立物理表之间的关联关系和过滤条件,自动生成脚本,完成数据开发任务。
9.一种处理设备,其特征在于,包括计算机程序指令,其中,所述计算机程序指令被处理设备执行时用于实现权利要求8中所述的基于大数据ETL脚本编排的数据开发方法对应的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时用于实现权利要求8中所述的基于大数据ETL脚本编排的数据开发方法对应的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854970.7A CN116860227B (zh) | 2023-07-12 | 2023-07-12 | 一种基于大数据etl脚本编排的数据开发系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854970.7A CN116860227B (zh) | 2023-07-12 | 2023-07-12 | 一种基于大数据etl脚本编排的数据开发系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116860227A true CN116860227A (zh) | 2023-10-10 |
CN116860227B CN116860227B (zh) | 2024-02-09 |
Family
ID=88235527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310854970.7A Active CN116860227B (zh) | 2023-07-12 | 2023-07-12 | 一种基于大数据etl脚本编排的数据开发系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860227B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040225999A1 (en) * | 2003-05-06 | 2004-11-11 | Andrew Nuss | Grammer for regular expressions |
CN109669983A (zh) * | 2018-12-27 | 2019-04-23 | 杭州火树科技有限公司 | 可视化多数据源etl工具 |
WO2019223181A1 (zh) * | 2018-05-21 | 2019-11-28 | 平安科技(深圳)有限公司 | Etl任务数据源切换方法、系统、计算机设备和存储介质 |
CN111966394A (zh) * | 2020-08-28 | 2020-11-20 | 珠海格力电器股份有限公司 | 基于etl的数据分析方法、装置、设备和存储介质 |
CN112000656A (zh) * | 2020-09-01 | 2020-11-27 | 北京天源迪科信息技术有限公司 | 基于元数据的智能化数据清洗方法及装置 |
CN112269569A (zh) * | 2020-11-03 | 2021-01-26 | 北京直真科技股份有限公司 | 一种可视化脚本在线编辑验证与自动化执行装置 |
CN112328220A (zh) * | 2020-11-06 | 2021-02-05 | 江苏云坤信息科技有限公司 | 基于拖拽编排方式的流式数据处理系统及其处理方法 |
CN112667735A (zh) * | 2020-12-23 | 2021-04-16 | 武汉烽火众智数字技术有限责任公司 | 一种基于大数据的可视化模型建立分析系统和方法 |
US20210124757A1 (en) * | 2017-06-25 | 2021-04-29 | Ping An Technology (Shenzhen) Co., Ltd. | Multi-task scheduling method and system, application server and computer-readable storage medium |
CN114138256A (zh) * | 2021-12-03 | 2022-03-04 | 广东亿迅科技有限公司 | 一种Web端可视化开发方法、系统及存储介质 |
CN114706579A (zh) * | 2022-03-28 | 2022-07-05 | 北京沃东天骏信息技术有限公司 | 页面开发方法、装置、服务器及存储介质 |
CN114721630A (zh) * | 2022-04-06 | 2022-07-08 | 朗新数据科技有限公司 | 一种低代码开发系统及方法 |
CN115222363A (zh) * | 2022-07-19 | 2022-10-21 | 平安银行股份有限公司 | 可视化流程编排方法、可读存储介质及计算机设备 |
CN115687486A (zh) * | 2022-11-14 | 2023-02-03 | 浪潮智慧科技有限公司 | 一种基于kettle的轻量级数据采集方法及设备 |
WO2023070819A1 (zh) * | 2021-10-26 | 2023-05-04 | 山东同圆数字科技有限公司 | 基于图形化策略编程引擎的智慧工单系统及其工作方法 |
-
2023
- 2023-07-12 CN CN202310854970.7A patent/CN116860227B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040225999A1 (en) * | 2003-05-06 | 2004-11-11 | Andrew Nuss | Grammer for regular expressions |
US20210124757A1 (en) * | 2017-06-25 | 2021-04-29 | Ping An Technology (Shenzhen) Co., Ltd. | Multi-task scheduling method and system, application server and computer-readable storage medium |
WO2019223181A1 (zh) * | 2018-05-21 | 2019-11-28 | 平安科技(深圳)有限公司 | Etl任务数据源切换方法、系统、计算机设备和存储介质 |
CN109669983A (zh) * | 2018-12-27 | 2019-04-23 | 杭州火树科技有限公司 | 可视化多数据源etl工具 |
CN111966394A (zh) * | 2020-08-28 | 2020-11-20 | 珠海格力电器股份有限公司 | 基于etl的数据分析方法、装置、设备和存储介质 |
CN112000656A (zh) * | 2020-09-01 | 2020-11-27 | 北京天源迪科信息技术有限公司 | 基于元数据的智能化数据清洗方法及装置 |
CN112269569A (zh) * | 2020-11-03 | 2021-01-26 | 北京直真科技股份有限公司 | 一种可视化脚本在线编辑验证与自动化执行装置 |
CN112328220A (zh) * | 2020-11-06 | 2021-02-05 | 江苏云坤信息科技有限公司 | 基于拖拽编排方式的流式数据处理系统及其处理方法 |
CN112667735A (zh) * | 2020-12-23 | 2021-04-16 | 武汉烽火众智数字技术有限责任公司 | 一种基于大数据的可视化模型建立分析系统和方法 |
WO2023070819A1 (zh) * | 2021-10-26 | 2023-05-04 | 山东同圆数字科技有限公司 | 基于图形化策略编程引擎的智慧工单系统及其工作方法 |
CN114138256A (zh) * | 2021-12-03 | 2022-03-04 | 广东亿迅科技有限公司 | 一种Web端可视化开发方法、系统及存储介质 |
CN114706579A (zh) * | 2022-03-28 | 2022-07-05 | 北京沃东天骏信息技术有限公司 | 页面开发方法、装置、服务器及存储介质 |
CN114721630A (zh) * | 2022-04-06 | 2022-07-08 | 朗新数据科技有限公司 | 一种低代码开发系统及方法 |
CN115222363A (zh) * | 2022-07-19 | 2022-10-21 | 平安银行股份有限公司 | 可视化流程编排方法、可读存储介质及计算机设备 |
CN115687486A (zh) * | 2022-11-14 | 2023-02-03 | 浪潮智慧科技有限公司 | 一种基于kettle的轻量级数据采集方法及设备 |
Non-Patent Citations (4)
Title |
---|
MIRAN RADONIĆ: "ETLator - a scripting ETL framework", 《2017 40TH INTERNATIONAL CONVENTION ON INFORMATION AND COMMUNICATION TECHNOLOGY, ELECTRONICS AND MICROELECTRONICS (MIPRO)》, pages 1 - 13 * |
李海波: "商业银行数据仓库系统设计与实现", 《万方》, pages 1 - 56 * |
王钲翔: "智能化时代管理会计人员能力框架研究", 《会计之友》, pages 1 - 3 * |
航博: "BI商业大数据分析平台二:可视化ETL平台Kettle", pages 1 - 10, Retrieved from the Internet <URL:《 https://zhuanlan.zhihu.com/p/421920431》> * |
Also Published As
Publication number | Publication date |
---|---|
CN116860227B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104866426B (zh) | 软件测试综合控制方法及系统 | |
EP3915067B1 (en) | Finite state machines for implementing workflows for data objects managed by a data processing system | |
US9552562B2 (en) | Visual information builder for business rules | |
US11443144B2 (en) | Storage and automated metadata extraction using machine teaching | |
US20180300125A1 (en) | Analyzing components related to a software application in a software development environment | |
EP2727009A2 (en) | Automatic classification of electronic content into projects | |
CN113934868A (zh) | 政务大数据治理方法及系统 | |
US8706773B2 (en) | Computer-implemented system and methods for distributing content pursuant to audit-based processes | |
WO2021188209A1 (en) | Interface for machine teaching modeling | |
CN112286999A (zh) | 基于mysql和mongodb的动态表单实现方法 | |
US8244644B2 (en) | Supply chain multi-dimensional serial containment process | |
CN116595191A (zh) | 一种交互式低代码知识图谱的构建方法及装置 | |
Vlasov et al. | Analysis of visual modeling tools development for complex production systems | |
CN116860227B (zh) | 一种基于大数据etl脚本编排的数据开发系统及方法 | |
CN113918576B (zh) | 一种元数据管理平台及管理方法 | |
US20140372386A1 (en) | Detecting wasteful data collection | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
US20080103730A1 (en) | System and Methods for Integrating Authoring with Complexity Analysis for Computing System Operation Procedures | |
US20170103359A1 (en) | Identifying and assigning microtasks | |
Putro et al. | Collaboration of Progressive Web App (PWA) And Firebase Cloud Messaging (FCM) for Optimal Performance Mailing Software | |
Weber et al. | Detecting inconsistencies in multi-view uml models | |
CN113762702A (zh) | 工作流部署方法、装置、计算机系统和可读存储介质 | |
Zhang et al. | Composite‐Level Conflict Detection in UML Model Versioning | |
US11829953B1 (en) | Digital processing systems and methods for managing sprints using linked electronic boards | |
KR100656559B1 (ko) | Bibd 방법론을 이용하는 프로그램 자동 개발 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |