CN113297312A - 一种基于bs和cs架构的数据etl构建方法和系统 - Google Patents

一种基于bs和cs架构的数据etl构建方法和系统 Download PDF

Info

Publication number
CN113297312A
CN113297312A CN202110692196.5A CN202110692196A CN113297312A CN 113297312 A CN113297312 A CN 113297312A CN 202110692196 A CN202110692196 A CN 202110692196A CN 113297312 A CN113297312 A CN 113297312A
Authority
CN
China
Prior art keywords
database
web application
monitoring
resource library
button
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110692196.5A
Other languages
English (en)
Inventor
苏鹏
徐大鹏
王婷婷
张艳艳
王崟乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguancun Smart City Co Ltd
Original Assignee
Zhongguancun Smart City Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongguancun Smart City Co Ltd filed Critical Zhongguancun Smart City Co Ltd
Priority to CN202110692196.5A priority Critical patent/CN113297312A/zh
Publication of CN113297312A publication Critical patent/CN113297312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供基于BS和CS架构的数据ETL构建方法和系统,创建城市大脑的数据库;新建WEB应用,在WEB应用中调用集成于WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;将数据库资源库配置到预先创建的所述数据库;当根据预先设置的任务调度方法调度数据库资源库中的任务时,获取与数据库资源库对应配置的数据库中存储的数据,进行清洗、转换和加载操作。本发明减少系统环境对使用Kettle便利性的影响,支持对Kettle调用日志的监控,使开发人员能够更精准的监控Kettle任务,随时掌握Kettle工具中各任务的工作状态,保证Kettle工具稳定运行。

Description

一种基于BS和CS架构的数据ETL构建方法和系统
技术领域
本发明涉及城市大脑的数据ETL系统技术领域,具体涉及一种基于BS和CS架构的数据ETL构建方法和系统。
背景技术
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每2-3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占总数据量的2%-4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL(Extraction-Transformation-Loading,数据抽取、转换和加载)工具则是主要的一个技术手段。
数据ETL是构建数据仓库比较重要的一个部分,其按照预先设计好的规则,提供不同数据源的数据进行抽取、转换和清洗,集成和净化来自于多个不同系统的数据,最后将转换完的数据增量或者全部数据载入目标数据库中。数据ETL的处理过程,从不同的异构数据源流得到相同的目标数据,作为联系分析处理、数据挖掘的基础。
目前常用的数据ETL工具分为C/S架构和B/S架构二种。C/S架构:是一种典型的两层架构即客户端/服务器架构,其全称是Client/Server。C/S架构主要特点是交互性强、具有安全的存取模式、网络通信量低、响应速度快、支持功能复杂的UI界面,提供良好的用户体验。C/S架构一般基于TCP实现客户端与服务器的消息交互,需要开发者编码完成Socket的创建、消息收发、销毁管理。C/S架构的软件需要针对不同的操作系统开发不同版本的软件,软件需要独立部署安装,需要较高的开发维护及分发安装升级成本。
B/S架构:全称为Browser/Server:即浏览器/服务器架构。B/S模式使用成熟的WEB服务器(如Tomcat)与浏览器实现Socket消息交互,浏览器通过解释执行WEB服务器生成的网页脚本控制UI界面显示,软件运算功能主要集中于服务器端,浏览器主要用于结果展示以及接收用户输入。B/S架构无需在客户端独立布署程序,减轻了系统开发维护、分发布署升级的支出成本。但数据安全性问题、对服务器要求过高、消息传输开销大、软件缺乏个性化,难以实现传统模式下的特殊功能要求。对于实现复杂的应用功能有较大的困难。
常用的数据ETL工具虽然各有其优点,但是缺点也很突出,基于基于C/S架构工具的缺点:1、适用面窄,通常用于局域网中;2、用户群固定。由于程序需要安装才可使用,因此不适合面向一些不可知的用户;3、维护成本高,发生一次升级,则所有客户端的程序都需要改变;4、客户端需要独立安装,分发安装升级代价较高;5、兼容性差,对于不同的操作系统,通常需要改写程序;6、开发、维护成本较高,需要具有一定专业水准的技术人员才能完成。基于B/S架构工具的缺点:1、功能薄弱,无法实现复杂的界面功能;2、在跨浏览器上,B/S架构不尽如人意;3、大部分操作需要与WEB服务器通过HTTP进行消息交互,用户操作响应慢;4、表现要达到C/S程序的程度需要花费不少精力;5、在速度和安全性上需要花费巨大的设计成本,这是B/S架构的最大问题;6、客户端服务器端的交互是请求-响应模式,通常需要刷新页面,这并不是客户乐意看到的。
发明内容
因此,为了能够解决上述单独采用C/S或B/S架构存在的技术问题,本发明实施例提供一种基于BS和CS架构的数据ETL构建方法和系统,该方法将Kettle源码集成到包含前端架构的WEB应用中,通过适配器模式开发出能够正常调用KettleAPI类的方法来执行数据抽取任务,并根据业务需要,使用time-quartz框架设置了适用于城市大脑场景的任务调度工作。其具体技术方案如下:
为实现上述目的,本发明实施例提供一种基于BS和CS架构的数据ETL构建方法,包括步骤:
创建城市大脑的数据库;
新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;
将所述数据库资源库配置到预先创建的所述数据库;
当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作。
进一步的,所述任务调度方法采用time-quartz框架开发完成。
进一步的,所述WEB应用的前端采用bootstrap,后端采用spring boot+springmvc+spring+mysql,数据库使用MySQL数据库。
进一步的,所述WEB应用中设置有WEB应用UI,所述UI的界面包括首页和查看详情页面;其中,所述首页用于显示监控信息,所述查看详情页面用于查看每次执行任务的日志及执行时间,日志可以下载;所述监控信息包括总监控任务数,监控作业数,监控转换数,转换监控记录,作业监控记录以及一个月内作业和转换的监控状况;所述首页显示前10条转换监控记录和前10条作业监控记录。
进一步的,所述WEB应用对所述Kettle抽取工具进行管理,包括数据库资源库管理,作业定时任务管理,执行策略管理和对处于运行的作业监控管理。
进一步的,所述数据库资源库管理包括新增,修改和删除数据库资源库;
所述作业定时任务管理包括新增,修改和删除作业定时任务,启动作业定时任务后作业即开始运行;
所述执行策略管理包括新增,修改和删除执行策略或定时执行策略;
所述作业监控管理包括监控总作业任务数,总执行成功次数,总执行失败次数以及每个作业的成功次数和失败次数。
进一步的,所述WEB应用部署在Tomcat服务器中。
本发明实施例的第二方面提供一种基于BS和CS架构的数据ETL构建系统,包括:创建模块,用于创建城市大脑的数据库;
生成保存模块,用于新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;
配置模块,用于将所述数据库资源库配置到预先创建的所述数据库;
任务调度模块,用于当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作。
本发明实施例的第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述所述的基于BS和CS架构的数据ETL构建方法的步骤。
本发明的第四方面提供一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述所述基于BS和CS架构的数据ETL构建的方法。
本发明实施例提供的一种基于BS和CS架构的数据ETL构建方法,包括:创建城市大脑的数据库;新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;将所述数据库资源库配置到预先创建的所述数据库;当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作。本发明基于WEB管理和调度Kettle抽取工具,使用WEB页面就能够管理和调度Kettle任务,减少了Kettle对自身GUI的依赖,还减少了系统环境对使用Kettle便利性的影响,同时支持对Kettle调用日志的监控,使开发人员能够更精准的监控Kettle任务,能够随时掌握Kettle工具中各个任务的工作状态,能够保证Kettle工具的稳定运行。
附图说明
图1为本发明实施例1提供的一种基于BS和CS架构的数据ETL构建方法的流程图;
图2为本发明实施例2提供的基于BS和CS架构的数据ETL构建系统的结构示意框图;
图3为本发明实施例3的电子设备的结构示意图;
图4为本发明实施例4的计算机可读存储介质的结构示意图;
图中:31-处理器;32-存储器;33-存储空间;34-程序代码;41-程序代码。
具体实施方式
为了使得本发明技术方案能够清楚、详尽的展现出来,以下结合附图对本发明进行说明,但不用来限制本发明的范围。
参见图1为本发明实施例1提供的一种基于BS和CS架构的数据ETL构建方法的流程图,包括步骤:
创建城市大脑的数据库;
新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;
将所述数据库资源库配置到预先创建的所述数据库;
当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作。
目前常用的数据ETL工具分为C/S架构和B/S架构二种。C/S架构:是一种典型的两层架构即客户端/服务器架构,其全称是Client/Server。C/S架构一般基于TCP实现客户端与服务器的消息交互,需要开发者编码完成Socket的创建、消息收发、销毁管理。C/S架构的软件需要针对不同的操作系统开发不同版本的软件,软件需要独立部署安装,需要较高的开发维护及分发安装升级成本。
B/S架构:全称为Browser/Server:即浏览器/服务器架构。B/S模式使用成熟的WEB服务器(如Tomcat)与浏览器实现Socket消息交互,浏览器通过解释执行WEB服务器生成的网页脚本控制UI界面显示,软件运算功能主要集中于服务器端,浏览器主要用于结果展示以及接收用户输入。
本发明上述WEB应用是基于浏览器的B/S架构,而Kettle与所数据之间又构成了C/S架构,因此,本发明是基于BS和CS架构的结合架构。本发明在Kettle代码的基础上进行二次开发,创建Kettle客户端与WEB服务的联系,从而实现B/S和C/S架构相结合。
由于Kettle抽数工具本身为开源项目,源代码共享,因而可以将Kettle源码集成到包含前端架构的WEB应用中,通过适配器模式开发出能够正常调用KettleAPI((ApplicationProgramming Interface,应用程序编程接口)类的方法来执行转换和作业,并且使用time-quartz框架完成调度工作。根据业务需要,使用time-quartz框架设置了适用于城市大脑场景的定时任务调度策略:立即执行一次、每日02:00执行一次、每小时执行一次等,使得城市大脑的任务调度更加合理。
WEB应用前端采用bootstrap,后端采用JAVA的微服务架构+Tomcat,数据库使用MySQL数据库。Bootstrap是Twitter推出的一个开源的用于WEB前端开发的工具包,是基于jQuery框架开发的。它在jQuery框架的基础上进行了更为个性化和人性化的完善,形成一套自己独有的网站风格,并兼容大部分jQuery插件。
所述WEB应用打包部署到Tomcat服务器后,可以通过浏览器WEB页面直接调度Kettle任务,管理作业转换,监控作业状态,并实时监控Kettle调度任务,邮件通知工作人员数据转换结果,将Kettle任务状态及时反馈给工作人员,使工作人员能够第一时间掌握数据转换结果。
Tomcat服务器是一个免费的开放源代码的WEB应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP程序的首选。
当一个任务,包括作业和转换启动后,这个任务就处于系统的监控状态下,在网络页面中能够查看到。
在本发明实施例中,网络页面中包括:资源库管理、任务管理、监控管理以及用户管理。
资源库管理是B/S和C/S架构相结合的桥梁,网络页面通过资源库,读取Kettle创建的各种任务。库资源库管理包括新增,修改和删除库资源库。
WEB应用UI(User Interface用户界面)界面中,首页用于显示监控信息;查看详情页面可以查看每次执行任务的日志及执行时间,且日志可以下载。监控信息包括总监控任务数,监控作业数,监控转换数,转换监控记录,作业监控记录以及一个月内作业和转换的监控状况。
WEB应用UI(User Interface用户界面)界面中,首页仅显示前10条转换监控记录和前10条作业监控记录。所述WEB应用对Kettle抽数工具的管理,包括数据库资源库管理,作业定时任务管理,执行策略管理和对处于运行的作业监控管理。
数据库资源库管理是B/S和C/S架构相结合的桥梁,网络页面通过资源库,读取Kettle创建的各种任务。包括新增,修改和删除数据库资源库;
任务管理:
监控管理:负责对已经启动的作业或者转换进行监控,用户可以通过监控管理查看任务的执行次数(包含成功次数、失败次数)、执行日志等信息,日志信息支持下载功能。
用户管理:网络页面访问时需要用户登录,保证信息的保密性。在用户管理界面创建新的用户,用于访问登录。
作业定时任务管理包括作业管理、转换管理、执行策略、任务分类。作业管理和转换管理是对Kettle创建的2种任务类型(转换、作业)进行分开管理,从资源库中调任务,分别执行。执行策略,用户可以根据实际需求自定义执行策略,也可以选用系统自带的执行策略(立即执行一次、每日零点执行一次等)。任务分类,用户可以创建不同的任务类别,在创建任务是选定任务类别,方便用户查找。
作业监控管理包括监控总作业任务数,总执行成功次数,总执行失败次数以及每个作业的成功次数和失败次数。
本发明实施例提供的一种基于BS和CS架构的数据ETL构建方法,包括:创建城市大脑的数据库;新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;将所述数据库资源库配置到预先创建的所述数据库;当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作。本发明基于WEB管理和调度Kettle抽取工具,使用WEB页面就能够管理和调度Kettle任务,减少了Kettle对自身GUI的依赖,还减少了系统环境对使用Kettle便利性的影响,同时支持对Kettle调用日志的监控,使开发人员能够更精准的监控Kettle任务,能够随时掌握Kettle工具中各个任务的工作状态,能够保证Kettle工具的稳定运行。
图2为本发明实施例2提供的基于BS和CS架构的数据ETL构建系统的结构示意框图,包括:
创建模块,用于创建城市大脑的数据库;
生成保存模块,用于新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;
配置模块,用于将所述数据库资源库配置到预先创建的所述数据库;
任务调度模块,用于当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作。
本发明实施例的第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理上述所述的基于BS和CS架构的数据ETL构建方法的步骤。
本发明的第四方面提供一种电子设备,该电子设备包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述所述基于BS和CS架构的数据ETL构建的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的检测电子设备的佩戴状态的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图3示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备传统上包括处理器31和被安排成存储计算机可执行指令(程序代码)的存储器32。存储器32可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器32具有存储用于执行图1所示的以及各实施例中的任何方法步骤的程序代码34的存储空间33。例如,用于存储程序代码的存储空间33可以包括分别用于实现上面的方法中的各种步骤的各个程序代码34。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质。该计算机可读存储介质可以具有与图3的电子设备中的存储器32类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储空间存储有用于执行根据本发明的方法步骤的程序代码41,即可以有诸如处理器31读取的程序代码,当这些程序代码由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (9)

1.一种基于BS和CS架构的数据ETL构建方法,其特征在于,包括步骤:
创建城市大脑的数据库;
新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;
将所述数据库资源库配置到预先创建的所述数据库;
当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作;
所述WEB应用的前端采用bootstrap,后端采用spring boot+spring mvc+spring+mysql,数据库使用MySQL数据库;
所述WEB应用前端采用bootstrap,后端采用spring boot+spring mvc+spring+mysql,数据库使用MySQL数据库;所述WEB前端开发的工具包,是基于jQuery框架。
2.根据权利要求1所述的基于BS和CS架构的数据ETL构建方法,其特征在于,所述任务调度方法采用time-quartz框架开发完成。
3.根据权利要求1所述的基于BS和CS架构的数据ETL构建方法,其特征在于,所述WEB应用中设置有WEB应用UI,所述UI的界面包括首页和查看详情页面;其中,所述首页用于显示监控信息,所述查看详情页面用于查看每次执行任务的日志及执行时间,日志可以下载;所述监控信息包括总监控任务数,监控作业数,监控转换数,转换监控记录,作业监控记录以及一个月内作业和转换的监控状况;所述首页显示前10条转换监控记录和前10条作业监控记录。
4.根据权利要求1所述的基于BS和CS架构的数据ETL构建方法,其特征在于,所述WEB应用对所述Kettle抽取工具进行管理,包括数据库资源库管理,作业定时任务管理,执行策略管理和对处于运行的作业监控管理。
5.根据权利要求4所述的基于BS和CS架构的数据ETL构建方法,其特征在于,所述数据库资源库管理包括新增,修改和删除数据库资源库;
所述作业定时任务管理包括新增,修改和删除作业定时任务,启动作业定时任务后作业即开始运行;
所述执行策略管理包括新增,修改和删除执行策略或定时执行策略;
所述作业监控管理包括监控总作业任务数,总执行成功次数,总执行失败次数以及每个作业的成功次数和失败次数。
6.根据权利要求1所述的基于BS和CS架构的数据ETL构建方法,其特征在于,所述WEB应用部署在Tomcat服务器中。
7.一种基于BS和CS架构的数据ETL构建系统,其特征在于,包括:创建模块,用于创建城市大脑的数据库;
生成保存模块,用于新建WEB应用,在所述WEB应用中调用集成于所述WEB应用中的Kettle源码,生成Kettle数据库资源库并保存;所述WEB应用用于对所述Kettle的抽取工具进行管理;
配置模块,用于将所述数据库资源库配置到预先创建的所述数据库;
任务调度模块,用于当根据预先设置的任务调度方法调度所述数据库资源库中的任务时,获取与所述数据库资源库对应配置的所述数据库中存储的数据,进行清洗、转换和加载操作。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器处理权利要求1-6任一所述的基于BS和CS架构的数据ETL构建方法的步骤。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1-6任一所述基于BS和CS架构的数据ETL构建的方法。
CN202110692196.5A 2021-06-22 2021-06-22 一种基于bs和cs架构的数据etl构建方法和系统 Pending CN113297312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692196.5A CN113297312A (zh) 2021-06-22 2021-06-22 一种基于bs和cs架构的数据etl构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692196.5A CN113297312A (zh) 2021-06-22 2021-06-22 一种基于bs和cs架构的数据etl构建方法和系统

Publications (1)

Publication Number Publication Date
CN113297312A true CN113297312A (zh) 2021-08-24

Family

ID=77329152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692196.5A Pending CN113297312A (zh) 2021-06-22 2021-06-22 一种基于bs和cs架构的数据etl构建方法和系统

Country Status (1)

Country Link
CN (1) CN113297312A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100280990A1 (en) * 2009-04-30 2010-11-04 Castellanos Maria G Etl for process data warehouse
CN108629052A (zh) * 2018-05-21 2018-10-09 平安科技(深圳)有限公司 Kettle任务调度方法、系统、计算机设备和存储介质
CN110196876A (zh) * 2019-06-05 2019-09-03 浪潮软件股份有限公司 一种基于Web管理和调度Kettle抽数工具的方法
CN110888636A (zh) * 2019-12-03 2020-03-17 中电工业互联网有限公司 一种基于Kettle的ETL Web应用系统架构方法
CN112182075A (zh) * 2019-07-04 2021-01-05 北京航天长峰科技工业集团有限公司 基于SpringBoot框架调度Kettle进行数据抽取转换的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100280990A1 (en) * 2009-04-30 2010-11-04 Castellanos Maria G Etl for process data warehouse
CN108629052A (zh) * 2018-05-21 2018-10-09 平安科技(深圳)有限公司 Kettle任务调度方法、系统、计算机设备和存储介质
CN110196876A (zh) * 2019-06-05 2019-09-03 浪潮软件股份有限公司 一种基于Web管理和调度Kettle抽数工具的方法
CN112182075A (zh) * 2019-07-04 2021-01-05 北京航天长峰科技工业集团有限公司 基于SpringBoot框架调度Kettle进行数据抽取转换的方法
CN110888636A (zh) * 2019-12-03 2020-03-17 中电工业互联网有限公司 一种基于Kettle的ETL Web应用系统架构方法

Similar Documents

Publication Publication Date Title
CN103380423B (zh) 用于私人云计算的系统和方法
US20210311858A1 (en) System and method for providing a test manager for use with a mainframe rehosting platform
US7647370B1 (en) Screen scraping interface
US10025839B2 (en) Database virtualization
US11144437B2 (en) Pre-populating continuous delivery test cases
US9898258B2 (en) Versioning of build environment information
US11010138B2 (en) System and method for programmatically converting interface specification to generic plug-in code
US20160179570A1 (en) Parallel Computing Without Requiring Antecedent Code Deployment
KR20200003322A (ko) 클라우드 기반 전력계통 소프트웨어 에코시스템
CN112348302A (zh) 具有无状态协调器的可扩展工作流引擎
Patterson Learn AWS Serverless Computing: A Beginner's Guide to Using AWS Lambda, Amazon API Gateway, and Services from Amazon Web Services
CN114661375A (zh) 应用集成方法及装置
CN112579049A (zh) 基于云平台的定制软件产品化管理方法及装置
CN114546583A (zh) 容器化的计算环境
US20160378544A1 (en) Intellective switching between tasks
Annett Working with Legacy Systems: A practical guide to looking after and maintaining the systems we inherit
CN113297312A (zh) 一种基于bs和cs架构的数据etl构建方法和系统
CN115422202A (zh) 业务模型的生成方法、业务数据查询方法、装置及设备
CN118056183A (zh) 优化即时编译过程
CN114170006A (zh) 基于状态机的资讯数据获取方法、装置、设备及介质
WO2022009011A1 (en) Managing asynchronous operations in cloud computing environments
US10453019B1 (en) Business activity resource modeling system and method
CN115552369A (zh) 编译方法、编译装置、编译系统、存储介质与电子设备
CN111061789A (zh) 一种智能电网基建信息管理系统
CN110633077A (zh) 一种基于模块化的快速开发系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210824