CN115687486B - 一种基于kettle的轻量级数据采集方法及设备 - Google Patents

一种基于kettle的轻量级数据采集方法及设备 Download PDF

Info

Publication number
CN115687486B
CN115687486B CN202211418234.9A CN202211418234A CN115687486B CN 115687486 B CN115687486 B CN 115687486B CN 202211418234 A CN202211418234 A CN 202211418234A CN 115687486 B CN115687486 B CN 115687486B
Authority
CN
China
Prior art keywords
task
keyle
resource library
data conversion
scheduling system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211418234.9A
Other languages
English (en)
Other versions
CN115687486A (zh
Inventor
冯凯
蔡军凯
房爱印
尹曦萌
曲建龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Intelligent Technology Co Ltd
Original Assignee
Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Intelligent Technology Co Ltd filed Critical Inspur Intelligent Technology Co Ltd
Priority to CN202211418234.9A priority Critical patent/CN115687486B/zh
Publication of CN115687486A publication Critical patent/CN115687486A/zh
Application granted granted Critical
Publication of CN115687486B publication Critical patent/CN115687486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于kettle的轻量级数据采集方法及设备,属于数据ETL技术领域,用于解决现有的数据采集方法需要在kettle客户端与系统之间频繁切换,工作复杂性高的技术问题。方法包括:根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接;基于数据转换指令,调用已连接的kettle资源库,并在分布式可视化任务调度系统中创建对应的数据转换任务;根据用户设置,对需要调度的数据转换任务进行定时设置,并根据定时设置,执行需要调度的数据转换任务,以在分布式可视化任务调度系统中完成轻量级数据采集。支持在线编辑kettle脚本功能,同步资源库中已有的脚本,用户在创建完脚本之后,可通过系统任务管理,创建数据同步任务。

Description

一种基于kettle的轻量级数据采集方法及设备
技术领域
本申请涉及数据ETL技术领域,尤其涉及一种基于kettle的轻量级数据采集方法及设备。
背景技术
kettle是采用客户端服务器端(client/server,c/s)架构的客户端工具,需要ETL从业人员单独维护一套kettle。特别是对于企业中多个部门的数据如何进行抽取、转换和加载到统一的数据仓库中,如何协调管理和监控kettle集群中的任务,如何对不同部门的使用者进行管理等,都是使用传统的kettle客户端工具所需要解决的问题。
目前的主要解决方式是基于kettle客户端工具,对业务提出的一些数据分发、同步等任务进行处理,本质上对于ETL工作还是使用的kettle客户端工具,需要使用kettle客户端生成转换和作业,然后在此基础上,通过开发的另外一个系统来完成任务调度或管理、监控kettle中转换、作业等工作,这会导致用户需要在kettle客户端和其他一个或多个系统之间频繁切换,容易出错,同时也增加了工作的复杂性及人力成本。
发明内容
本申请实施例提供了一种基于kettle的轻量级数据采集方法及设备,用于解决如下技术问题:现有的数据采集方法需要在kettle客户端与系统之间频繁切换,工作复杂性高。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种基于kettle的轻量级数据采集方法,方法包括:根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接;基于数据转换指令,调用已连接的kettle资源库,并在所述分布式可视化任务调度系统中创建对应的数据转换任务;根据用户设置,对需要调度的数据转换任务进行定时设置,并根据所述定时设置,执行所述需要调度的数据转换任务,以在所述分布式可视化任务调度系统中完成轻量级数据采集。
在一种可行的实施方式中,根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接,具体包括:接收用户在分布式可视化任务调度系统的web端填写的kettle资源库连接信息;其中,所述kettle资源库连接信息至少包括以下一项或多项:资源库的数据库类型、ip、端口号、账号、密码;根据所述kettle资源库连接信息,调用对应的kettle API,将所述分布式可视化任务调度系统与对应的kettle资源库建立连接;若无法连接到对应的kettle资源库,则给出提示信息,以使用户修改所述kettle资源库连接信息并再次尝试连接。
在一种可行的实施方式中,在根据所述kettle资源库连接信息,调用对应的kettle API,将所述分布式可视化任务调度系统与对应的kettle资源库建立连接之后,所述方法还包括:所述kettle资源库连接成功后,通过所述kettle API,将所述kettle资源库中的业务数据固化到数据表中,并将所述数据表保存到所述分布式可视化任务调度系统的数据库中;将连接成功的kettle资源库名称存入所述数据库中的资源库列表。
在一种可行的实施方式中,在根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接之后,所述方法还包括:基于预设时间间隔,查询所述分布式可视化任务调度系统的数据库中的资源库列表;循环调用所述资源库列表中每个kettle资源库的kettle API,获取每个kettle资源库的连接状态信息;将kettle资源库名称及对应的连接状态信息封装到远程字典服务器redis中;若kettle资源库新增或修改,则将新增信息或修改信息保存到远程字典服务器redis中。
在一种可行的实施方式中,基于数据转换指令,调用已连接的kettle资源库,并在所述分布式可视化任务调度系统中创建对应的数据转换任务,具体包括:响应于用户在所述分布式可视化任务调度系统的web端新建数据转换任务的操作,生成所述数据转换指令;根据所述数据转换指令,调用对应的kettle API,并打开所述分布式可视化任务调度系统的kettle任务转换页面,提示所述用户在所述kettle任务转换页面中编辑任务内容;响应于用户结束编辑的操作,根据所述任务内容创建数据转换任务,并将所述数据转换任务保存到对应的kettle资源库。
在一种可行的实施方式中,根据用户设置,对需要调度的数据转换任务进行定时设置,并根据所述定时设置,执行所述需要调度的数据转换任务,具体包括:基于用户在所述分布式可视化任务调度系统的web端输入的任务定时信息,对所述用户选择的需要调度的数据转换任务进行定时设置;其中,所述任务定时信息至少包括:定时时间、执行频率;将所述定时任务信息保存到所述分布式可视化任务调度系统的数据库;通过Quartz定时调度框架,加载所述数据库中保存的定时任务信息,并根据所述定时任务信息中的定时时间以及执行频率,执行所述数据转换任务。
在一种可行的实施方式中,执行所述数据转换任务,具体包括:在所述数据转换任务执行时,判断所述数据转换任务的处理对象;其中,所述处理对象包括kettle资源库以及任务脚本文件;若处理对象为任务脚本文件,则根据所述数据转换任务中指定的文件存储路径,获取所述任务脚本文件进行执行;若处理对象为kettle资源库,则连接所述kettle资源库,并根据任务id,在所述kettle资源库中查询任务配置信息以及任务脚本文件;调用所述kettle资源库的kettle API,执行所述任务脚本文件,并将执行结果记录到所述分布式可视化任务调度系统的任务执行历史表中。
在一种可行的实施方式中,在执行所述需要调度的数据转换任务,以在所述分布式可视化任务调度系统中完成轻量级数据采集之后,所述方法还包括:基于用户查询任务执行结果的操作,将所述任务执行历史表中的任务执行日志按照预设模板进行分组统计,并将统计结果显示在所述分布式可视化任务调度系统的web界面中,供用户查看;其中,所述统计结果至少包括任务执行次数及任务执行结果。
在一种可行的实施方式中,所述方法还包括:监控所述数据转换任务的执行次数、成功次数以及失败次数,并显示在所述分布式可视化任务调度系统的web界面中;若所述数据转换任务执行失败,则发送告警信息给创建所述数据任务的用户。
另一方面,本申请实施例还提供了一种基于kettle的轻量级数据采集设备,所述设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行根据上述任一实施方式所述的一种基于kettle的轻量级数据采集方法。
与现有技术相比,本申请实施例提供的一种基于kettle的轻量级数据采集方法及设备,具有如下有益效果:
1、本申请在web端进行ETL任务编辑,并在系统的web端直接调用kettle资源库,不需要再下载kettle客户端,在一个系统中即可实现数据转换,不需要在系统和kettle客户端之间切换,提供了简单易用的操作界面,降低了用户学习成本,缩短任务配置时间,避免配置过程中出错。
2、本申请将ETL任务保存在资源库中,并将ETL任务调度功能在web页面实现,方便版本管理和维护,更加易于使用。
3、本申请增加了任务监控功能和ETL日志查看功能,可以直观展示任务运行情况以及任务运行历史。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种基于kettle的轻量级数据采集方法流程图;
图2为本申请实施例提供的一种基于kettle的轻量级数据采集设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
具体地,kettle(kettlee.t.t.lenvironment的缩写)是一款国外开源的ETL(Extract-Transform-Load的缩写),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程工具,采用纯java语言编写,可以运行在windows、linux、unix等平台上,数据抽取高效稳定。
本申请实施例提供了一种基于kettle的轻量级数据采集方法,应用于在kettle工具的基础上开发的分布式可视化任务调度系统中,系统对接webSpoon,支持在线编辑kettle脚本,通过数据整合功能,可同步资源库中已有的脚本,用户在创建完脚本之后,可通过系统任务管理,创建数据同步任务,监控任务运行情况,如图1所示,基于kettle的轻量级数据采集方法具体包括步骤S101-S103:
S101、根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接。
首先,用户在分布式可视化任务调度系统的web端页面中填写已配置好的kettle资源库的连接信息;kettle资源库连接信息包括资源库的数据库类型、ip、端口号、账号、密码等。然后根据连接信息,调用对应的kettle API,将分布式可视化任务调度系统与对应的kettle资源库建立连接。
在一个实施例中,用户可以提前使用kettle工具配置需要的kettle资源库,并通过上述方法在分布式可视化任务调度系统中连接自己配置的一个或多个kettle资源库。
作为一种可行的实施方式,若无法连接到对应的kettle资源库,则给出提示信息,以使用户修改连接信息再次尝试连接。无法连接的原因包括连接信息填写错误、网络连接错误等。
在一个实施例中,用户在web页面中填写资源库类型、ip、端口号、账号、密码等信息调用kettle API,尝试链接资源库,如果可以连接到资源库,分布式可视化任务调度系统会将资源库中的业务数据固化到自己系统的数据表中,便于查看。如果无法连接到资源库,则给出提示信息,提醒用户通过修改连接信息再次尝试连接。
进一步地,kettle资源库连接成功后,通过kettle API,将kettle资源库中的业务数据固化到数据表中,并将数据表保存到分布式可视化任务调度系统的数据库。将连接成功的kettle资源库名称存入数据库中的资源库列表。
作为一种可行的实施方式,在分布式可视化任务调度系统与已配置的kettle资源库建立连接之后,方法还包括:基于预设时间间隔,查询数据库中的资源库列表;循环调用资源库列表中每个kettle资源库的kettle API,获取每个kettle资源库的连接状态信息;然后将kettle资源库名称及对应的连接状态信息封装到远程字典服务器(RemoteDictionary Server,redis)中;若kettle资源库新增或修改,也将新增信息或修改信息保存到redis中。
在一个实施例中,每个小时定时查询数据库中已经配置的资源库列表,循环调用kettle API获取资源库连接状态信息,同时将资源库和连接状态封装到redis中,用户查询时,优先从redis中获取连接状态信息。
S102、基于数据转换指令,调用已连接的kettle资源库,并在分布式可视化任务调度系统中创建对应的数据转换任务。
具体地,分布式可视化任务调度系统响应于用户在web端页面中新建数据转换任务的操作,生成数据转换指令,然后根据数据转换指令,调用对应的kettle API,并打开kettle任务转换页面,提示用户在kettle任务转换页面中编辑任务内容。
进一步地,响应于用户结束编辑的操作,根据任务内容创建数据转换任务,并将数据转换任务保存到对应的kettle资源库。
在一个实施例中,本申请提供的分布式可视化任务调度系统支持在线编辑kettle脚本功能:用户可以直接在web端页面中点击编辑直接打开kettle任务转换页面,进行kettle任务编辑操作,实现kettle脚本的创建、修改、删除等操作,同时会调用kettle API,将创建或修改的脚本保存到kettle资源库中。
S103、根据用户设置,对需要调度的数据转换任务进行定时设置,并根据定时设置,执行需要调度的数据转换任务,以在分布式可视化任务调度系统中完成轻量级数据采集。
具体地,基于用户在web端输入的任务定时信息,对用户选择的需要调度的数据转换任务进行定时设置;其中,任务定时信息至少包括:定时时间、执行频率。
进一步地,将定时任务信息保存到数据库;然后,通过Quartz定时调度框架,加载数据库中保存的定时任务信息,并根据定时任务信息中的定时时间以及执行频率,执行数据转换任务,完成轻量级数据采集。
作为一种可行的实施方式,在数据转换任务执行时,首先需要判断数据转换任务的处理对象;其中,处理对象包括kettle资源库以及任务脚本文件。若处理对象为任务脚本文件,则根据数据转换任务中指定的文件存储路径,获取任务脚本文件进行执行;若处理对象为kettle资源库,则连接kettle资源库,并根据任务id,在kettle资源库中查询任务配置信息以及任务脚本文件。
作为一种可行的实施方式,本申请提供的分布式可视化任务调度系统还可以查看脚本执行结果日志:调用kettle资源库的kettle API,执行任务脚本文件,并将执行结果记录到任务执行历史表中。基于用户查询任务执行结果的操作,将任务执行历史表中的任务执行日志按照预设模板进行分组统计,并将统计结果显示在web端的web界面中,供用户查看;其中,统计结果至少包括任务执行次数及任务执行结果。
作为一种可行的实施方式,本申请提供的分布式可视化任务调度系统还可以进行任务监控及告警:监控数据转换任务的执行次数、成功次数以及失败次数,并显示在web端的web界面中;若数据转换任务执行失败,则发送告警信息给创建数据任务的用户。
另外,本申请实施例还提供了一种基于kettle的轻量级数据采集设备,如图2所示,基于kettle的轻量级数据采集设备具体包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,
存储器存储有能够被至少一个处理器执行的指令,以使至少一个处理器能够执行:
根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接;
基于数据转换指令,调用已连接的kettle资源库,并在所述分布式可视化任务调度系统中创建对应的数据转换任务;
根据用户设置,对需要调度的数据转换任务进行定时设置,并根据所述定时设置,执行所述需要调度的数据转换任务,以在所述分布式可视化任务调度系统中完成轻量级数据采集。
本申请实施例提供的一种基于kettle的轻量级数据采集方法及设备,在可视化界面中实现了etl任务创建、任务监控、任务调度。提供了简单易用的操作界面,降低用户学习成本,缩短任务配置时间,避免配置过程中出错。系统对接webSpoon,支持在线编辑kettle脚本,通过数据整合功能,可同步资源库中已有的脚本,用户在创建完脚本之后,可通过系统任务管理,创建数据同步任务,监控任务运行情况,操作简单,且容易推广。分布式部署,可以扩展性更好。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种基于kettle的轻量级数据采集方法,其特征在于,所述方法包括:
根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接;
基于预设时间间隔,查询所述分布式可视化任务调度系统的数据库中的资源库列表;
循环调用所述资源库列表中每个kettle资源库的kettle API,获取每个kettle资源库的连接状态信息;
将kettle资源库名称及对应的连接状态信息封装到远程字典服务器redis中;
若kettle资源库新增或修改,则将新增信息或修改信息保存到远程字典服务器redis中;
基于数据转换指令,调用已连接的kettle资源库,并在所述分布式可视化任务调度系统中创建对应的数据转换任务;
根据用户设置,对需要调度的数据转换任务进行定时设置,并根据所述定时设置,执行所述需要调度的数据转换任务,以在所述分布式可视化任务调度系统中完成轻量级数据采集,具体包括:
基于用户在所述分布式可视化任务调度系统的web端输入的任务定时信息,对所述用户选择的需要调度的数据转换任务进行定时设置;其中,所述任务定时信息至少包括:定时时间、执行频率;
将所述任务定时信息保存到所述分布式可视化任务调度系统的数据库;
通过Quartz定时调度框架,加载所述数据库中保存的定时任务信息,并根据所述定时任务信息中的定时时间以及执行频率,执行所述数据转换任务;
执行所述数据转换任务,具体包括:
在所述数据转换任务执行时,判断所述数据转换任务的处理对象;其中,所述处理对象包括kettle资源库以及任务脚本文件;
若处理对象为任务脚本文件,则根据所述数据转换任务中指定的文件存储路径,获取所述任务脚本文件进行执行;
若处理对象为kettle资源库,则连接所述kettle资源库,并根据任务id,在所述kettle资源库中查询任务配置信息以及任务脚本文件;
调用所述kettle资源库的kettle API,执行所述任务脚本文件,并将执行结果记录到所述分布式可视化任务调度系统的任务执行历史表中。
2.根据权利要求1所述的一种基于kettle的轻量级数据采集方法,其特征在于,根据kettle资源库连接信息,将分布式可视化任务调度系统与已配置的kettle资源库建立连接,具体包括:
接收用户在分布式可视化任务调度系统的web端填写的kettle资源库连接信息;其中,所述kettle资源库连接信息至少包括以下一项或多项:资源库的数据库类型、ip、端口号、账号、密码;
根据所述kettle资源库连接信息,调用对应的kettle API,将所述分布式可视化任务调度系统与对应的kettle资源库建立连接;
若无法连接到对应的kettle资源库,则给出提示信息,以使用户修改所述kettle资源库连接信息并再次尝试连接。
3.根据权利要求2所述的一种基于kettle的轻量级数据采集方法,其特征在于,在根据所述kettle资源库连接信息,调用对应的kettle API,将所述分布式可视化任务调度系统与对应的kettle资源库建立连接之后,所述方法还包括:
所述kettle资源库连接成功后,通过所述kettle API,将所述kettle资源库中的业务数据固化到数据表中,并将所述数据表保存到所述分布式可视化任务调度系统的数据库中;
将连接成功的kettle资源库名称存入所述数据库中的资源库列表。
4.根据权利要求1所述的一种基于kettle的轻量级数据采集方法,其特征在于,基于数据转换指令,调用已连接的kettle资源库,并在所述分布式可视化任务调度系统中创建对应的数据转换任务,具体包括:
响应于用户在所述分布式可视化任务调度系统的web端新建数据转换任务的操作,生成所述数据转换指令;
根据所述数据转换指令,调用对应的kettle API,并打开所述分布式可视化任务调度系统的kettle任务转换页面,提示所述用户在所述kettle任务转换页面中编辑任务内容;
响应于用户结束编辑的操作,根据所述任务内容创建数据转换任务,并将所述数据转换任务保存到对应的kettle资源库。
5.根据权利要求1所述的一种基于kettle的轻量级数据采集方法,其特征在于,在执行所述需要调度的数据转换任务,以在所述分布式可视化任务调度系统中完成轻量级数据采集之后,所述方法还包括:
基于用户查询任务执行结果的操作,将所述任务执行历史表中的任务执行日志按照预设模板进行分组统计,并将统计结果显示在所述分布式可视化任务调度系统的web界面中,供用户查看;其中,所述统计结果至少包括任务执行次数及任务执行结果。
6.根据权利要求1所述的一种基于kettle的轻量级数据采集方法,其特征在于,所述方法还包括:
监控所述数据转换任务的执行次数、成功次数以及失败次数,并显示在所述分布式可视化任务调度系统的web界面中;
若所述数据转换任务执行失败,则发送告警信息给创建所述数据任务的用户。
7.一种基于kettle的轻量级数据采集设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行根据权利要求1-6任一项所述的一种基于kettle的轻量级数据采集方法。
CN202211418234.9A 2022-11-14 2022-11-14 一种基于kettle的轻量级数据采集方法及设备 Active CN115687486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211418234.9A CN115687486B (zh) 2022-11-14 2022-11-14 一种基于kettle的轻量级数据采集方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211418234.9A CN115687486B (zh) 2022-11-14 2022-11-14 一种基于kettle的轻量级数据采集方法及设备

Publications (2)

Publication Number Publication Date
CN115687486A CN115687486A (zh) 2023-02-03
CN115687486B true CN115687486B (zh) 2023-06-13

Family

ID=85052710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211418234.9A Active CN115687486B (zh) 2022-11-14 2022-11-14 一种基于kettle的轻量级数据采集方法及设备

Country Status (1)

Country Link
CN (1) CN115687486B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116629805B (zh) * 2023-06-07 2023-12-01 浪潮智慧科技有限公司 一种分布式流批一体化的水利指标服务方法、设备及介质
CN116860227B (zh) * 2023-07-12 2024-02-09 北京东方金信科技股份有限公司 一种基于大数据etl脚本编排的数据开发系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570074A (zh) * 2016-10-14 2017-04-19 深圳前海微众银行股份有限公司 分布式数据库系统及其实现方法
CN109344148A (zh) * 2018-10-16 2019-02-15 万达信息股份有限公司 一种数据采集管理系统及方法
CN110187936A (zh) * 2019-05-31 2019-08-30 口碑(上海)信息技术有限公司 数据回流平台、系统及方法
CN110837533A (zh) * 2019-11-11 2020-02-25 北京航天长峰股份有限公司 使用SpringBoot框架调度Kettle实现司法资源信息数据抽取转换的方法
CN112182075A (zh) * 2019-07-04 2021-01-05 北京航天长峰科技工业集团有限公司 基于SpringBoot框架调度Kettle进行数据抽取转换的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045538B (zh) * 2017-02-07 2019-11-12 浪潮云信息技术有限公司 一种基于kettle的web端交换管理方法
CN107133327B (zh) * 2017-05-05 2021-01-29 合肥智圣新创信息技术有限公司 一种支持多数据类型的数据交换方法及系统
CN110888636A (zh) * 2019-12-03 2020-03-17 中电工业互联网有限公司 一种基于Kettle的ETL Web应用系统架构方法
CN115048205B (zh) * 2022-08-15 2023-02-07 广州粤芯半导体技术有限公司 Etl调度平台及其部署方法、计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570074A (zh) * 2016-10-14 2017-04-19 深圳前海微众银行股份有限公司 分布式数据库系统及其实现方法
CN109344148A (zh) * 2018-10-16 2019-02-15 万达信息股份有限公司 一种数据采集管理系统及方法
CN110187936A (zh) * 2019-05-31 2019-08-30 口碑(上海)信息技术有限公司 数据回流平台、系统及方法
CN112182075A (zh) * 2019-07-04 2021-01-05 北京航天长峰科技工业集团有限公司 基于SpringBoot框架调度Kettle进行数据抽取转换的方法
CN110837533A (zh) * 2019-11-11 2020-02-25 北京航天长峰股份有限公司 使用SpringBoot框架调度Kettle实现司法资源信息数据抽取转换的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Journey of database migration from RDBMS to NOSQL data stores;Neha Bansal等;《International conference on big data analytics》;159-177 *
基于KETTLE的高校多源异构数据整合实践;刘乐群等;《合肥师范学院学报 》;第37卷(第6期);59-61 *

Also Published As

Publication number Publication date
CN115687486A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN115687486B (zh) 一种基于kettle的轻量级数据采集方法及设备
CN111506412B (zh) 基于Airflow的分布式异步任务构建、调度系统及方法
CN101707399B (zh) 电能信息采集方法及系统
US8301935B2 (en) Distributed batch runner
CN113569987A (zh) 模型训练方法和装置
CN111176645A (zh) 面向电网大数据应用的数据集成管理系统及其实现方法
CN113220431B (zh) 跨云的分布式数据任务调度方法、设备及存储介质
CN109151056B (zh) 基于Canal的消息推送方法和系统
CN110569113A (zh) 分布式任务的调度方法及系统、计算机可读存储介质
CN109800081A (zh) 一种大数据任务的管理方法及相关设备
CN115146000A (zh) 一种数据库数据同步方法、装置、电子设备及存储介质
US20190384691A1 (en) Methods for providing an enterprise synthetic monitoring framework
CN113220480B (zh) 分布式的数据任务跨云调度系统及方法
CN109240757A (zh) 一种大数据组件集中配置管理系统和方法
CN115509714A (zh) 一种任务处理方法、装置、电子设备及存储介质
CN115543491A (zh) 微服务处理方法和装置
CN112650815A (zh) 环境数据的同步方法及装置、存储介质及电子装置
CN116431733A (zh) 一种数据对账方法、装置、设备及介质
CN115774573B (zh) 应用集成方法、装置、电子设备和存储介质
CN113031960B (zh) 代码编译方法、装置、服务器及存储介质
CN112291312B (zh) Etl数据同步方法及装置、电子设备、存储介质
CN113760836B (zh) 一种宽表计算方法和装置
US11775586B2 (en) System and method for implementing cloud operation with no prior knowledge of services
CN107566212A (zh) 一种资源监控管理方法和装置
CN116414597A (zh) 一种流程节点处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant