CN110442651A - 一种基于kettle实现excel数据自动上传并触发调度的方法 - Google Patents

一种基于kettle实现excel数据自动上传并触发调度的方法 Download PDF

Info

Publication number
CN110442651A
CN110442651A CN201910743045.0A CN201910743045A CN110442651A CN 110442651 A CN110442651 A CN 110442651A CN 201910743045 A CN201910743045 A CN 201910743045A CN 110442651 A CN110442651 A CN 110442651A
Authority
CN
China
Prior art keywords
excel
kettle
data
database
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910743045.0A
Other languages
English (en)
Inventor
唐宇波
万青
郭选陵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201910743045.0A priority Critical patent/CN110442651A/zh
Publication of CN110442651A publication Critical patent/CN110442651A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于kettle实现excel数据自动上传同步到数据库并触发调度的方法,包括以下步骤:基于kettle工具指定某个目录或者文件,从目录或者文件中选择一个excel文件;将excel数据以增量形式定时自动上传到数据库目标表,从而实现数据的自动更新;数据库目标表更新后,利用kettle实现存储过程的调度。在利用现有服务器资源的基础上,结合kettle、数据库等技术手段实现定时自动同步和上传基础数据并调度,保障数据更新的及时性,少去了数据入库前由业务人员将数据转发给数据库工程师的步骤,节省时间,加快效率。

Description

一种基于kettle实现excel数据自动上传并触发调度的方法
技术领域
本发明属于excel自动化上传同步到数据库领域,具体涉及一种基于kettle实现excel数据自动上传同步到数据库并触发调度的方法。
背景技术
公司的日常运营会产生很大的数据,为了分析这些数据,会有很多不同的项目。对于一些需要短暂分析,又没有时间入库的数据来说,在做分析之前,BI工程师首先要拿到业务人员整理好的运营数据,然后再根据需要导入数据库做分析。为了节省人力成本,提高工作效率,可以让业务人员整理好直接放在一个目录里,每天定时调度,实现业务部门的excel数据自动上传同步到数据库,并且完成相关调度。
Kettle是ETL工具集,允许管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述。
PL/SQL即PL/SQL Developer是一个集成开发环境,专门开发面向Oracle数据库的应用。PL/SQL也是一种程序语言,叫做过程化SQL语言(Procedural Language/SQL)。PL/SQL是Oracle数据库对SQL语句的扩展。
发明内容
本发明的目的是,提供一种基于kettle实现excel数据自动上传同步到数据库并触发调度的方法。
本发明采用以下技术方案:基于kettle实现excel数据自动上传同步到数据库并触发调度的方法,其特征在于:包括以下步骤:步骤Sl:基于kettle工具指定某个目录或者文件,从目录或者文件中选择一个excel文件(多个excel分多条线增加);步骤S2:将excel数据以增量形式定时自动上传到数据库目标表,从而实现数据的自动更新;步骤S3:数据库目标表更新后,利用kettle实现存储过程的调度。
在本发明一实施例中,步骤Sl包括以下具体步骤:步骤S11:在Kettle中配置获取数据的excel文件或者存放excel文件的目录;步骤S12:在Kettle配置excel输入步骤,选择从前面的步骤获取文件名,选择导入的excel工作表;步骤S13:在Kettle配置excel中数据输入的字段选择;步骤S14:在Kettle配置表输出,设定好导入到数据库的目标表。
在本发明一实施例中,步骤S2包括以下步骤:步骤S21:通过PLlSQL配置定时任务,每天凌晨调用执行存储过程,清除无需上传的数据;步骤S22:在kettle中配置job,设定需要上传的excel文件;步骤S23:按规则条件抽取对应excel数据;步骤S24:将excel导入程序上传至服务器端,在服务器端通过定时任务调用执行程序;编写excel导入脚本,执行excel导入命令;定时调用excel导入脚本,实现定时自动上传基础excel。
在本发明一实施例中,步骤S3包括以下步骤:步骤S31:在kettle配置job,实现相关表的数据删除、插入,写日志,调其他包等操作;步骤S32:配置定时任务,实现excel的定时自动上传同步到数据库并触发调度。
与现有技术相比,本发明具有以下优点:在利用现有服务器资源的基础上,结合kettle、数据库等技术手段实现定时自动同步和上传基础数据excel,保障数据更新的及时性,节省时间,加快效率。
附图说明
图1是本发明的分析流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合附图,进一步阐述本发明。
本发明提供基于kettle实现excel数据自动上传同步到数据库并触发调度的方法,其包括以下步骤:步骤Sl:基于kettle工具指定某个目录或者文件,从目录或者文件中选择一个excel文件(多个excel分多条线增加);步骤S2:将excel数据以增量形式定时自动上传到数据库目标表,从而实现数据的自动更新;步骤S3:数据库目标表更新后,利用kettle实现存储过程的调度。
在本发明一实施例中,步骤Sl包括以下具体步骤:步骤S11:在Kettle中配置获取数据的excel文件或者存放excel文件的目录;步骤S12:在Kettle配置excel输入步骤,选择从前面的步骤获取文件名,选择导入的excel工作表;步骤S13:在Kettle配置excel中数据输入的字段选择;步骤S14:在Kettle配置表输出,设定好导入到数据库的目标表。
在本发明一实施例中,步骤S2包括以下步骤:步骤S21:通过PLlSQL配置定时任务,每天凌晨调用执行存储过程,清除无需上传的数据;步骤S22:在kettle中配置job,设定需要上传的excel文件;步骤S23:按规则条件抽取对应excel数据;步骤S24:将excel导入程序上传至服务器端,在服务器端通过定时任务调用执行程序;编写excel导入脚本,执行excel导入命令;定时调用excel导入脚本,实现定时自动上传基础excel。
在本发明一实施例中,步骤S3包括以下步骤:步骤S31:在kettle配置job,实现相关表的数据删除、插入,写日志,调其他包等操作;步骤S32:配置定时任务,实现excel的定时自动上传同步到数据库并触发调度。
本发明是在总结人工上传处理基础数据的基础上,提出了利用kettle实现基础数据自动化上传同步,并实现调度的方法,整体流程如图l所示。
第一部分:基于kettle工具指定某个目录或者文件,从目录或者文件中选择一个excel文件(采用ExcelWriter程序,多个excel时刚分多条线增加),具体的实现步骤如下:
a.使用Kettle工具的“Excel输入模块”来实现读取Excel文件。使用“Excel输入模块”的界面向导配置获取数据的excel文件或者存放excel文件的目录。这里的目录可以是动态配置的目录使用配置的规则自动获取,或者是一个固定的目录。具体采用哪种方式取决于文件提供方的提供方式。
b.在Kettle配置excel输入步骤,选择从前面的步骤获取文件名,选择导入的excel工作表;
c.在Kettle配置excel中数据输入的字段选择;确定读取的列
d.在Kettle配置表输出,设定好导入到数据库的目标表;
第二部分:将excel数据以增量形式定时自动上传到数据库目标表,从而实现数据的自动更新,具体的实现步骤如下:
a.通过Kettle触发调用数据库存储过程。
b.首先调用执行存储过程,清除无需上传的数据;
c.调用在kettle中配置用job(CHEF模块中允许创建任务Job程序),设定需要上传的excel文件;
d.按规则条件抽取对应excel数据;
e.将excel导入程序上传至服务器端,在服务器端通过定时任务调用执行程序;
编写excel导入脚本,执行excel导入命令;定时调用excel导入脚本,实现定时自动上传基础excel。
第三部分:数据库目标表更新后,利用kettle实现存储过程的调度,具体的实现步骤如下:
a.在kettle配置job,实现相关表的数据删除、插入,写日志,调其他包等操作;
首先先将数据插入到一个临时表,与相关表的表结构一致。关联相关表,删除临时表中存在的数据,然后将数据插入进相关表中。完成后在数据库日志表中记录一条日志方便后续任务执行状态跟踪。之后可以再调用其他相关存储过程。
b.将上述任务用Kettle开发工作流进行串联,形成完整的调度任务。配置定时任务,实现excel的定时自动上传同步到数据库并触发调度。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (4)

1.一种基于kettle实现excel数据自动上传同步到数据库并触发调度的方法,其特征在于:包括以下步骤:
步骤Sl:基于kettle工具指定某个目录或者文件,从目录或者文件中选择一个excel文件(多个excel分多条线增加);
步骤S2:将excel数据以增量形式定时自动上传到数据库目标表,从而实现数据的自动更新;
步骤S3:数据库目标表更新后,利用kettle实现存储过程的调度。
2.根据权利要求1所述的基于kettle实现excel数据自动上传同步到数据库并触发调度的方法,其特征在于:
步骤Sl包括以下具体步骤:
步骤S11:在Kettle中配置获取数据的excel文件或者存放excel文件的目录;
步骤S12:在Kettle配置excel输入步骤,选择从前面的步骤获取文件名,选择导入的excel工作表;
步骤S13:在Kettle配置excel中数据输入的字段选择;
步骤S14:在Kettle配置表输出,设定好导入到数据库的目标表。
3.根据权利要求l所述的基于kettle实现excel数据自动上传同步到数据库并触发调度的方法,其特征在于:
步骤S2包括以下步骤:
步骤S21:通过PL/SQL配置定时任务,每天凌晨调用执行存储过程,清除无需上传的数
据;
步骤S22:在kettle中配置job,设定需要上传的excel文件;
步骤S23:按规则条件抽取对应excel数据;
步骤S24:将excel导入程序上传至服务器端,在服务器端通过定时任务调用执行程序;编写excel导入脚本,执行excel导入命令;定时调用excel导入脚本,实现定时自动上传基础excel。
4.根据权利要求l所述的基于kettle实现excel数据自动上传同步到数据库并触发调度的方法,其特征在于:步骤S3包括以下步骤:
步骤S31:在kettle配置job,实现相关表的数据删除、插入,写日志,调其他包等操作;
步骤S32:配置定时任务,实现excel的定时自动上传同步到数据库并触发调度。
CN201910743045.0A 2019-08-13 2019-08-13 一种基于kettle实现excel数据自动上传并触发调度的方法 Withdrawn CN110442651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910743045.0A CN110442651A (zh) 2019-08-13 2019-08-13 一种基于kettle实现excel数据自动上传并触发调度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910743045.0A CN110442651A (zh) 2019-08-13 2019-08-13 一种基于kettle实现excel数据自动上传并触发调度的方法

Publications (1)

Publication Number Publication Date
CN110442651A true CN110442651A (zh) 2019-11-12

Family

ID=68434929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910743045.0A Withdrawn CN110442651A (zh) 2019-08-13 2019-08-13 一种基于kettle实现excel数据自动上传并触发调度的方法

Country Status (1)

Country Link
CN (1) CN110442651A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125152A (zh) * 2019-12-26 2020-05-08 积成电子股份有限公司 一种基于数据处理过程模型的全链路数据管控方法
CN111522815A (zh) * 2020-04-15 2020-08-11 山东爱城市网信息技术有限公司 一种企业基本信息入库的方法
CN112612938A (zh) * 2020-12-17 2021-04-06 北京中电普华信息技术有限公司 一种数据处理方法、装置、存储介质和设备
CN113515362A (zh) * 2021-07-12 2021-10-19 广州云从洪荒智能科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113645315A (zh) * 2021-10-13 2021-11-12 杭州乒乓智能技术有限公司 一种代码编辑器自动上传静态资源方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125152A (zh) * 2019-12-26 2020-05-08 积成电子股份有限公司 一种基于数据处理过程模型的全链路数据管控方法
CN111125152B (zh) * 2019-12-26 2023-10-13 积成电子股份有限公司 一种基于数据处理过程模型的全链路数据管控方法
CN111522815A (zh) * 2020-04-15 2020-08-11 山东爱城市网信息技术有限公司 一种企业基本信息入库的方法
CN112612938A (zh) * 2020-12-17 2021-04-06 北京中电普华信息技术有限公司 一种数据处理方法、装置、存储介质和设备
CN113515362A (zh) * 2021-07-12 2021-10-19 广州云从洪荒智能科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113515362B (zh) * 2021-07-12 2023-10-20 广州云从洪荒智能科技有限公司 数据处理方法、装置、计算机设备和存储介质
CN113645315A (zh) * 2021-10-13 2021-11-12 杭州乒乓智能技术有限公司 一种代码编辑器自动上传静态资源方法及系统

Similar Documents

Publication Publication Date Title
CN110442651A (zh) 一种基于kettle实现excel数据自动上传并触发调度的方法
CN107958082B (zh) 数据库到数据仓库的离线增量同步方法及系统
CN104317843B (zh) 一种数据同步etl系统
US9336288B2 (en) Workflow controller compatibility
CN109918349B (zh) 日志处理方法、装置、存储介质和电子装置
US9953066B2 (en) Automatically generating and reporting merged performance and capacity statistics
JP2019523462A (ja) マルチタスクスケジューリング方法、システム、アプリケーションサーバ及びコンピュータの読み取り可能な記憶媒体
CN104778175A (zh) 一种实现异构数据库数据同步的方法及系统
CN109743137B (zh) 一种支持更新的分布式延迟消息队列处理系统
CN108009258B (zh) 一种可在线配置的数据采集与分析平台
CN104850583B (zh) 海量气候模式输出数据的分布式协同分析系统及方法
CN102779138B (zh) 实时数据的硬盘存取方法
CN107301214A (zh) 在hive中数据迁移方法、装置及终端设备
CN104699723A (zh) 数据交换适配器、异构系统之间数据同步系统和方法
CN109634970A (zh) 表数据同步方法、设备、存储介质及装置
CN110245134B (zh) 一种应用于搜索服务的增量同步方法
CN104572856A (zh) 一种服务起源数据的融合存储方法
CN113282611B (zh) 一种流数据同步的方法、装置、计算机设备及存储介质
CN109669975B (zh) 一种工业大数据处理系统及方法
CN110209730A (zh) 变更数据的同步方法、装置、计算机设备及计算机存储介质
CN112379884A (zh) 基于Spark和并行内存计算的流程引擎实现方法及系统
CN104317957A (zh) 一种报表处理的开放平台、系统及报表处理方法
CN103984769A (zh) 一种用例数据管理存储方法
CN114416868B (zh) 一种数据同步方法、装置、设备及存储介质
CN115757626A (zh) 一种数据质量检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20191112

WW01 Invention patent application withdrawn after publication