CN105069142A - 数据增量抽取转换与分发系统及方法 - Google Patents

数据增量抽取转换与分发系统及方法 Download PDF

Info

Publication number
CN105069142A
CN105069142A CN201510512018.4A CN201510512018A CN105069142A CN 105069142 A CN105069142 A CN 105069142A CN 201510512018 A CN201510512018 A CN 201510512018A CN 105069142 A CN105069142 A CN 105069142A
Authority
CN
China
Prior art keywords
data
incremental data
source
database
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510512018.4A
Other languages
English (en)
Other versions
CN105069142B (zh
Inventor
徐铭
孔兰菊
肖宗水
王振坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DAREWAY SOFTWARE Co Ltd
Original Assignee
DAREWAY SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DAREWAY SOFTWARE Co Ltd filed Critical DAREWAY SOFTWARE Co Ltd
Priority to CN201510512018.4A priority Critical patent/CN105069142B/zh
Publication of CN105069142A publication Critical patent/CN105069142A/zh
Application granted granted Critical
Publication of CN105069142B publication Critical patent/CN105069142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了数据增量抽取转换与分发系统及方法,包括:抽取转换设计器,对源数据库的数据源进行定义,设计转换规则然后定义数据目标,将设计完成的转换规则包装成KTR文件;抽取转换执行器,实时捕获源数据库的增量数据,并且分析增量数据的来源,将增量数据交给服务器,服务器分析得到的信息并选择调用对应的转换规则进行转换处理;批量的执行KTR文件;抽取转换监控单元,能够监测规则的运行情况和控制数据同步的开始和停止。采用日志分析技术和ETL相结合的技术,实现了实时捕获源数据库的增量数据,对增量数据进行转换处理,最后以准实时的方式装载到目标数据库中的功能。

Description

数据增量抽取转换与分发系统及方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据增量抽取转换与分发系统及方法。
背景技术
随着大数据在人力资源和社会保障业务的深入应用,业务系统无论是在数据流量、数据处理量或是数据存储量上都变得越来越大。业务系统的稳定与否,系统的保护和数据的保护是否健全,已成为影响人力资源和社会保障业务系统正常开展的关键问题。现有的系统数据的安全性不能保证,抽取速度低,不能满足大数据分析业务的需求。
在实际业务中,作为源数据库的生产库和作为目标数据库的同步库在数据库类型、数据库结构、数据表的字段结构等方面存在着较大的差异,单一的同步复制不能满足这类复杂的同步需求。
发明内容
本发明的目的就是为了解决上述问题,提供一种数据增量抽取转换与分发系统及方法,采用日志分析技术和ETL相结合的技术,实现了实时捕获源数据库的增量数据,对增量数据进行转换处理,最后以准实时的方式装载到目标同步库中。
为了实现上述目的,本发明采用如下技术方案:
数据增量抽取转换与分发系统,包括:
抽取转换设计器,首先对源数据库的数据源进行定义,设计转换规则然后定义数据目标,将设计完成的转换规则包装成KTR文件,通过节点连接形成的流,将数据信息或字段在模块之间进行传送;
抽取转换执行器,实时捕获源数据库的增量数据,并且分析增量数据的来源,将增量数据交给服务器,服务器分析得到的信息并选择调用对应的转换规则进行转换处理;批量的执行KTR文件;
抽取转换监控单元,能够监测规则的运行情况和控制数据同步的开始和停止,监测每一条转换规则当前是否正在进行数据同步,最近一次同步的数据量;另外,能够控制服务器的运行或停止,从而达到控制数据同步的运行或停止的效果。
所述抽取转换设计器提供了图形化的编辑界面,能够以图形化的方式定义源数据库和目标数据库,并设计转换规则;包括:
定义数据源模块,对数据源进行定义,定义源数据库或中间库的连接信息;
转换规则设计模块,能够重命名字段,将源数据表中需要的字段重新命名后映射到目标表中;筛选字段,包括选择字段和删除字段;改变数据类型;改变字段精度;拆分字段;新增字段,在源数据表的基础上增加新的字段;字符串替换;
定义数据目标模块,编辑数据目标的连接信息,定义需要转换的字段,选择数据库的类型。
所述抽取转换执行器,利用Oraclestream技术捕获增量数据并调用KettleAPI执行设计好的KTR文件来实现对源数据库增量数据的实时抽取和清洗转换,并实时地装载到目标数据库中。
所述抽取转换执行器包括:
捕获增量数据模块,实时捕获源数据库的增量数据,并且分析增量数据的来源;给应用进程配置一个处理函数;捕获进程会挖掘对源数据库产生变化的归档日志,捕获到增量数据,并且将增量数据暂存到消息队列中;
TCP消息发送模块,在捕获增量数据模块给应用进程配置的处理函数中识别增量数据的操作类型,所述操作类型包括插入、更新或删除,根据操作类型的不同调用不同的存储过程,并且在处理函数中使用TCP协议将增量数据以字符串的形式发送给服务器;
数据暂存模块,利用一个能释放的TXT文件作为临时存储空间,存储发送过来的TCP消息,并作为KTR的表输入段在抽取转换执行器中执行;当增量数据发送到服务器后会以二维表的结构暂时存储到TXT文件中;对处理过的TXT文件,系统会将其删除,节约存储空间;
执行转换模块,执行设计好的转换规则;在需要执行这些转换的时候,通过调用对应的API来执行这些转换,批量的执行KTR文件,并将转换后的数据装载到目标数据库中。
所述抽取转换设计器和所述抽取转换执行器都是基于ETL实现的。
所述抽取转换监控单元还监测服务器的内存或CPU的运行情况,根据这些信息来判断服务器所受压力是否能够支撑大数据的同步。
所述抽取转换监控单元包括:
日志解析模块,监控日志记录了抽取转换设计器设计转换规则的过程和抽取转换执行器的执行状态,日志解析模块解析监控日志,将具体的信息反馈给用户;
监控信息反馈模块,监测规则的运行情况和控制数据同步的开始和停止,将监控日志中的监控信息展现给用户。
所述监控日志用XML语言规范地记录了抽取转换设计器设计转换规则的过程和抽取转换执行器的执行状态;并且用XML解析器解析监控日志。
所述监控信息反馈模块能够将监控日志中的信息以Web的形式展现给用户。
所述监控信息反馈模块展现给用户的监控信息包括,源数据库和目标库的连接信息,具体包括源数据库和目标数据库的IP地址、源数据库和目标数据库的实例名、源数据库和目标数据库类型、连接用户和连接口令;
单个转换规则的运行情况,单个转换规则是否正在运行,对于这个规则的最近一个数据同步的开始时间、结束时间和同步的数据量;
目标数据库的同步情况,监测目标数据库有哪些规则开启了同步,最近一次同步的开始时间、结束时间、同步数据量和历史最大同步数据量;
服务器的负载情况,服务器的内存、CPU运行情况,根据这些信息来判断服务器所受的压力是否能够支撑大数据的同步。
一种数据增量抽取转换与分发系统的方法,包括:
步骤一,首先对源数据库的数据源进行定义,设计转换规则然后定义数据目标,将设计完成的转换规则包装成KTR文件,通过节点连接形成的流,将数据信息或字段在模块之间进行传送;
步骤二,实时捕获源数据库的增量数据,并且分析增量数据的来源,将增量数据交给服务器,服务器分析得到的信息并选择调用对应的转换规则进行转换处理;批量的执行KTR文件;
步骤三,能够监测规则的运行情况和控制数据同步的开始和停止,监测每一条转换规则当前是否正在进行数据同步,最近一次同步的数据量;另外,能够控制服务器的运行或停止,从而达到控制数据同步的运行或停止的效果;监控日志记录了所述步骤一设计转换规则的过程和步骤二的执行状态,解析监控日志,将具体的信息反馈给用户;监测规则的运行情况和控制数据同步的开始和停止,将监控日志中的监控信息展现给用户。
所述步骤二包括:
实时捕获源数据库的增量数据,并且分析增量数据的来源;给应用进程配置一个处理函数;捕获进程会挖掘对源数据库产生变化的归档日志,捕获到增量数据,并且将增量数据暂存到消息队列中;
在捕获增量数据模块给应用进程配置的处理函数中识别增量数据的操作类型,所述操作类型包括插入、更新或删除,根据操作类型的不同调用不同的存储过程,并且在处理函数中使用TCP协议将增量数据以字符串的形式发送给服务器;
利用一个能释放的TXT文件作为临时存储空间,存储发送过来的TCP消息,并作为KTR的表输入段在抽取转换执行器中执行;当增量数据发送到服务器后会以二维表的结构暂时存储到TXT文件中;对处理过的TXT文件,系统会将其删除,节约存储空间;
执行设计好的转换规则;在需要执行这些转换的时候,通过调用对应的API来执行这些转换,批量的执行KTR文件,并将转换后的数据装载到目标数据库中。
本发明的有益效果:
1.同步的实时性,日志分析技术为实时同步提供了强大的技术支撑;提供了直观的图形化编辑界面,用户可以使用图形化的方式设计出转换规则文件(KTR文件),并使用API的方式或者操作系统调度执行设计好的KTR文件,也可以通过集群的方式在多台机器上部署。
2.抽取转换设计器可以让用户灵活地设计转换规则。它除了支持特定转换规则的设计,还支持SQL语句、java脚本、正则表达式等自定义的转换规则。这种多样化的支持能力使设计转换过程显得更具有灵活性。同一种转换规则可以通过不同的设计方式和不同的设计流程实现。并且实现了对多种数据库的支持,可以将数据源和目标定义为所需的数据库。
3.抽取转换执行器为用户提供了大量的功能组件来支撑各种数据转换,这种强大的转换能力体现在可以对源数据中各种类型的数据进行清洗,并且可以针对关系型数据库,进行多数据库之间的表关联,同时具有自定义Java脚本、DB存储过程等功能。
4.抽取转换监控单元提供了监控日志的功能,可以对具体的转换过程进行监控,写入日志。抽取转换设计器提供了写入日志等管理组件,用户可以在转换设计过程中加入日志管理组件,以便在抽取转换执行时监测所需的信息。
附图说明
图1为本发明的架构图;
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
数据增量抽取转换与分发系统,如图1所示,包括抽取转换设计器、抽取转换执行器和抽取转换监控单元三部分。
所述抽取转换设计器是基于ETL实现的,采用了“定义数据源>>设计转换规则>>定义数据目标”的流程化设计模式,并且通过节点连接形成的流,将数据信息或字段从前一个模块传送到下一个模块中。在定义数据源中,定义数据源的连接信息;在转换规则设计中,使用kettle强大的转换设计功能设计多样化的转换规则;在定义数据目标中,定义数据目标的连接信息。
定义数据源模块能够编辑源数据库的连接信息,Oraclestream的配置信息,选择数据库的类型,以及数据库的连接方式(JDBC、ODBC、OCI、JNDI)。如果是文本文件,编辑文件的路径、字段和格式;如果是DB,编辑中间库的连接信息。
转换规则设计模块可以重命名字段,即源数据表中有些字段需要重新命名后映射到目标表中;筛选字段,包括选择字段和删除字段,源数据表中只需要一部分字段映射到目标表;改变数据类型;改变字段精度;拆分字段;新增字段,可以在源数据表的基础上增加新的字段;字符串替换,可以将string类型字段中的某个字符串全部替换成另一个字符串。
抽取转换执行器,利用Oraclestream技术捕获增量数据并调用KettleAPI执行设计好的KTR文件来实现对源数据库增量数据的实时抽取和清洗转换,并实时地装载到目标数据库中。
抽取转换执行器能够实时捕获源数据库的增量数据,并且分析增量数据来源于哪个数据库的哪张表的哪个操作(插入、更新、删除),将增量数据交给服务器,服务器分析得到的信息并选择调用对应的KTR文件(即对应的转换规则)进行转换处理。它包括捕获增量数据模块、TCP消息发送模块、数据暂存模块和执行转换模块。
捕获增量数据模块可以实时捕获源数据库的增量数据,并且分析增量数据来源于哪个数据库的哪张表的哪个操作(插入、更新、删除)。模块中的捕获进程会挖掘对源数据库产生变化的归档日志,捕获到增量数据,并且将增量数据暂存到消息队列中。
捕获增量数据模块会给应用进程配置一个处理函数,TCP消息发送模块在处理函数中识别增量数据的操作类型(“插入”、“更新”、“删除”),根据操作类型的不同调用不同的存储过程,并且在处理函数中使用TCP协议将增量数据以字符串的形式发送给服务器。
数据暂存模块,当增量数据发送到服务器后会以二维表的结构暂时存储到TXT文件中。这样可以对增量数据进行批量处理,提高效率。对处理过的TXT文件,系统会将其删除,节约存储空间。
执行转换模块会执行设计好的转换规则,基于ETL实现的抽取转换设计器能够将设计完成的转换规则包装成一个个KTR文件(一种XML文件)。在需要执行这些转换的时候,可以通过调用对应的API来执行这些转换,并将转换后的数据装载到目标数据库中。在数据增量抽取转换与分发系统中,抽取转换设计器和抽取转换执行器都是基于ETL实现的,将这两部分功能分开的好处在于,设计器有助于开发人员基于java的脚本编写功能,灵活地自定义ETL过程,执行器能够批量的执行KTR文件,这也为本系统能够多线程地执行多个转换规则提供了技术支撑。
抽取转换监控单元,包括日志解析模块和监控信息反馈模块。它能够监测规则的运行情况和控制数据同步的开始和停止,可以监测每一条转换规则当前是否正在进行数据同步,最近一次同步的数据量等信息。同时数据监控还可以监测服务器的内存、CPU运行情况,根据这些信息来判断服务器所受压力是否能够支撑大数据的同步。另外,数据监控能够控制服务器的运行和停止,从而达到控制数据同步的运行和停止的效果。
日志解析模块中的监控日志用XML语言规范地记录了抽取转换设计器设计转换规则的过程和抽取转换执行器的执行状态。并且用XML解析器解析监控日志,将具体的信息反馈给用户。
监控信息反馈模块能够将监控日志中的信息以Web的形式展现给用户。让用户可以直观地了解数据抽取转换的状态和服务器的负载。具体监控信息有监测数据源和目标库的连接信息包括监测源数据库和目标数据库的IP地址,数据库的实例名,数据库类型,连接用户和连接口令;单个转换规则的运行情况,单个转换规则是否正在运行,对于这个规则的最近一个数据同步的开始时间、结束时间和同步的数据量,以及这个转换规则的详细内容;目标数据库的同步情况,目标数据库有哪些规则开启了同步,最近一次同步的开始时间、结束时间、同步数据量和历史最大同步数据量;服务器的负载情况;服务器的内存、CPU运行情况,根据这些信息来判断服务器所受的压力是否能够支撑大数据的同步。
一种数据增量抽取转换与分发系统的方法,包括:
步骤一,首先对源数据库的数据源进行定义,设计转换规则然后定义数据目标,将设计完成的转换规则包装成KTR文件,通过节点连接形成的流,将数据信息或字段在模块之间进行传送;
步骤二,实时捕获源数据库的增量数据,并且分析增量数据的来源,将增量数据交给服务器,服务器分析得到的信息并选择调用对应的转换规则进行转换处理;批量的执行KTR文件;
步骤三,能够监测规则的运行情况和控制数据同步的开始和停止,监测每一条转换规则当前是否正在进行数据同步,最近一次同步的数据量;另外,能够控制服务器的运行或停止,从而达到控制数据同步的运行或停止的效果;监控日志记录了所述步骤一设计转换规则的过程和步骤二的执行状态,解析监控日志,将具体的信息反馈给用户;监测规则的运行情况和控制数据同步的开始和停止,将监控日志中的监控信息展现给用户。
所述步骤二包括:
实时捕获源数据库的增量数据,并且分析增量数据的来源;给应用进程配置一个处理函数;捕获进程会挖掘对源数据库产生变化的归档日志,捕获到增量数据,并且将增量数据暂存到消息队列中;
在捕获增量数据模块给应用进程配置的处理函数中识别增量数据的操作类型,所述操作类型包括插入、更新或删除,根据操作类型的不同调用不同的存储过程,并且在处理函数中使用TCP协议将增量数据以字符串的形式发送给服务器;
利用一个能释放的TXT文件作为临时存储空间,存储发送过来的TCP消息,并作为KTR的表输入段在抽取转换执行器中执行;当增量数据发送到服务器后会以二维表的结构暂时存储到TXT文件中;对处理过的TXT文件,系统会将其删除,节约存储空间;
执行设计好的转换规则;在需要执行这些转换的时候,通过调用对应的API来执行这些转换,批量的执行KTR文件,并将转换后的数据装载到目标数据库中。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.数据增量抽取转换与分发系统,其特征是,包括:
抽取转换设计器,首先对源数据库的数据源进行定义,设计转换规则然后定义数据目标,将设计完成的转换规则包装成KTR文件,通过节点连接形成的流,将数据信息或字段在模块之间进行传送;
抽取转换执行器,实时捕获源数据库的增量数据,并且分析增量数据的来源,将增量数据交给服务器,服务器分析得到的信息并选择调用对应的转换规则进行转换处理;批量的执行KTR文件;
抽取转换监控单元,能够监测规则的运行情况和控制数据同步的开始和停止,监测每一条转换规则当前是否正在进行数据同步,最近一次同步的数据量;另外,能够控制服务器的运行或停止,从而达到控制数据同步的运行或停止的效果。
2.如权利要求1所述数据增量抽取转换与分发系统,其特征是,所述抽取转换设计器提供了图形化的编辑界面,能够以图形化的方式定义源数据库和目标数据库,并设计转换规则;包括:
定义数据源模块,对数据源进行定义,定义源数据库或中间库的连接信息;
转换规则设计模块,能够重命名字段,将源数据表中需要的字段重新命名后映射到目标表中;筛选字段,包括选择字段和删除字段;改变数据类型;改变字段精度;拆分字段;新增字段,在源数据表的基础上增加新的字段;字符串替换;
定义数据目标模块,编辑数据目标的连接信息,定义需要转换的字段,选择数据库的类型。
3.如权利要求1所述数据增量抽取转换与分发系统,其特征是,所述抽取转换执行器,利用Oraclestream技术捕获增量数据并调用KettleAPI执行设计好的KTR文件来实现对源数据库增量数据的实时抽取和清洗转换,并实时地装载到目标数据库中。
4.如权利要求1所述数据增量抽取转换与分发系统,其特征是,所述抽取转换执行器包括:
捕获增量数据模块,实时捕获源数据库的增量数据,并且分析增量数据的来源;给应用进程配置一个处理函数;捕获进程会挖掘对源数据库产生变化的归档日志,捕获到增量数据,并且将增量数据暂存到消息队列中;
TCP消息发送模块,在捕获增量数据模块给应用进程配置的处理函数中识别增量数据的操作类型,所述操作类型包括插入、更新或删除,根据操作类型的不同调用不同的存储过程,并且在处理函数中使用TCP协议将增量数据以字符串的形式发送给服务器;
数据暂存模块,利用一个能释放的TXT文件作为临时存储空间,存储发送过来的TCP消息,并作为KTR的表输入段在抽取转换执行器中执行;当增量数据发送到服务器后会以二维表的结构暂时存储到TXT文件中;对处理过的TXT文件,系统会将其删除,节约存储空间;
执行转换模块,执行设计好的转换规则;在需要执行这些转换的时候,通过调用对应的API来执行这些转换,批量的执行KTR文件,并将转换后的数据装载到目标数据库中。
5.如权利要求1所述数据增量抽取转换与分发系统,其特征是,所述抽取转换监控单元包括:
日志解析模块,监控日志记录了抽取转换设计器设计转换规则的过程和抽取转换执行器的执行状态,日志解析模块解析监控日志,将具体的信息反馈给用户;
监控信息反馈模块,监测规则的运行情况和控制数据同步的开始和停止,将监控日志中的监控信息展现给用户。
6.如权利要求5所述数据增量抽取转换与分发系统,其特征是,所述监控日志用XML语言规范地记录了抽取转换设计器设计转换规则的过程和抽取转换执行器的执行状态;并且用XML解析器解析监控日志。
7.如权利要求5所述数据增量抽取转换与分发系统,其特征是,所述监控信息反馈模块能够将监控日志中的信息以Web的形式展现给用户。
8.如权利要求5所述数据增量抽取转换与分发系统,其特征是,
所述监控信息反馈模块展现给用户的监控信息包括,源数据库和目标库的连接信息,具体包括源数据库和目标数据库的IP地址、源数据库和目标数据库的实例名、源数据库和目标数据库类型、连接用户和连接口令;
单个转换规则的运行情况,单个转换规则是否正在运行,对于这个规则的最近一个数据同步的开始时间、结束时间和同步的数据量;
目标数据库的同步情况,监测目标数据库有哪些规则开启了同步,最近一次同步的开始时间、结束时间、同步数据量和历史最大同步数据量;
服务器的负载情况,服务器的内存、CPU运行情况,根据这些信息来判断服务器所受的压力是否能够支撑大数据的同步。
所述抽取转换监控单元还监测服务器的内存或CPU的运行情况,根据这些信息来判断服务器所受压力是否能够支撑大数据的同步。
9.一种数据增量抽取转换与分发系统的方法,其特征是,包括:
步骤一,首先对源数据库的数据源进行定义,设计转换规则然后定义数据目标,将设计完成的转换规则包装成KTR文件,通过节点连接形成的流,将数据信息或字段在模块之间进行传送;
步骤二,实时捕获源数据库的增量数据,并且分析增量数据的来源,将增量数据交给服务器,服务器分析得到的信息并选择调用对应的转换规则进行转换处理;批量的执行KTR文件;
步骤三,能够监测规则的运行情况和控制数据同步的开始和停止,监测每一条转换规则当前是否正在进行数据同步,最近一次同步的数据量;另外,能够控制服务器的运行或停止,从而达到控制数据同步的运行或停止的效果;监控日志记录了所述步骤一设计转换规则的过程和步骤二的执行状态,解析监控日志,将具体的信息反馈给用户;监测规则的运行情况和控制数据同步的开始和停止,将监控日志中的监控信息展现给用户。
10.如权利要求9所述一种数据增量抽取转换与分发系统的方法,其特征是,所述步骤二包括:
实时捕获源数据库的增量数据,并且分析增量数据的来源;给应用进程配置一个处理函数;捕获进程会挖掘对源数据库产生变化的归档日志,捕获到增量数据,并且将增量数据暂存到消息队列中;
在捕获增量数据模块给应用进程配置的处理函数中识别增量数据的操作类型,所述操作类型包括插入、更新或删除,根据操作类型的不同调用不同的存储过程,并且在处理函数中使用TCP协议将增量数据以字符串的形式发送给服务器;
利用一个能释放的TXT文件作为临时存储空间,存储发送过来的TCP消息,并作为KTR的表输入段在抽取转换执行器中执行;当增量数据发送到服务器后会以二维表的结构暂时存储到TXT文件中;对处理过的TXT文件,系统会将其删除,节约存储空间;
执行设计好的转换规则;在需要执行这些转换的时候,通过调用对应的API来执行这些转换,批量的执行KTR文件,并将转换后的数据装载到目标数据库中。
CN201510512018.4A 2015-08-18 2015-08-18 数据增量抽取转换与分发系统及方法 Active CN105069142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510512018.4A CN105069142B (zh) 2015-08-18 2015-08-18 数据增量抽取转换与分发系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510512018.4A CN105069142B (zh) 2015-08-18 2015-08-18 数据增量抽取转换与分发系统及方法

Publications (2)

Publication Number Publication Date
CN105069142A true CN105069142A (zh) 2015-11-18
CN105069142B CN105069142B (zh) 2019-04-05

Family

ID=54498511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510512018.4A Active CN105069142B (zh) 2015-08-18 2015-08-18 数据增量抽取转换与分发系统及方法

Country Status (1)

Country Link
CN (1) CN105069142B (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512176A (zh) * 2015-11-24 2016-04-20 北京中电普华信息技术有限公司 一种基于Informatica Powercenter的增量抽取方法与系统
CN105550163A (zh) * 2015-12-10 2016-05-04 国云科技股份有限公司 一种适用于云平台资源监控的数据转换器实现方法
CN106250429A (zh) * 2016-07-26 2016-12-21 浪潮软件股份有限公司 一种基于sqoop的数据抽取方法
CN106888264A (zh) * 2017-03-02 2017-06-23 杭州数梦工场科技有限公司 一种数据交换方法和装置
CN107133327A (zh) * 2017-05-05 2017-09-05 合肥智圣系统集成有限公司 一种支持多数据类型的数据交换方法及系统
CN107153912A (zh) * 2017-04-11 2017-09-12 广州市食蚁兽网络技术有限公司 一种成长数据智能分析系统
CN107491327A (zh) * 2017-07-31 2017-12-19 郑州众智科技股份有限公司 一种基于发电机组控制器自定义字符串的写入方法
CN107506451A (zh) * 2017-08-28 2017-12-22 泰康保险集团股份有限公司 用于数据交互的异常信息监控方法及装置
CN107622070A (zh) * 2016-07-15 2018-01-23 深圳联友科技有限公司 一种数据库管理方法及装置
CN107798069A (zh) * 2017-09-26 2018-03-13 恒生电子股份有限公司 用于数据加载的方法、装置及计算机可读介质
CN107958010A (zh) * 2016-10-18 2018-04-24 北京京东尚科信息技术有限公司 用于在线数据迁移的方法及系统
CN108090215A (zh) * 2017-12-29 2018-05-29 安徽方正医疗信息技术有限公司 一种画面可配置的数据抽取方法
CN108197268A (zh) * 2018-01-04 2018-06-22 国网福建省电力有限公司 数据中心分析域数据同步优化提升方法
CN108564990A (zh) * 2018-04-11 2018-09-21 泰山医学院 医养结合数据抽取同步系统及方法、信息数据处理终端
CN108681590A (zh) * 2018-05-15 2018-10-19 普信恒业科技发展(北京)有限公司 增量数据处理方法及装置、计算机设备、计算机存储介质
CN108804613A (zh) * 2018-05-30 2018-11-13 国网山东省电力公司经济技术研究院 一种多源数据库实时融合系统及其融合方法
CN109067885A (zh) * 2018-08-14 2018-12-21 北京大米科技有限公司 绘画线条同步系统及方法
CN109213817A (zh) * 2018-08-10 2019-01-15 杭州数梦工场科技有限公司 增量数据抽取方法、装置及服务器
CN109491992A (zh) * 2018-11-14 2019-03-19 上海工程技术大学 一种校园卡数据读取系统
CN109753502A (zh) * 2018-12-29 2019-05-14 山东浪潮商用系统有限公司 一种基于NiFi的数据采集方法
CN110019237A (zh) * 2017-12-29 2019-07-16 北京宸瑞科技股份有限公司 一种基于地图分析罪犯行踪的系统及方法
CN110188101A (zh) * 2019-05-22 2019-08-30 深圳市大数据资源管理中心 一种超多数据表处理方法、装置、设备及介质
CN110399612A (zh) * 2019-07-16 2019-11-01 工业互联网创新中心(上海)有限公司 工业互联网中边缘层的语义转换方法及中间件
CN110825759A (zh) * 2019-11-04 2020-02-21 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN110955722A (zh) * 2019-11-05 2020-04-03 北京天元创新科技有限公司 数据同步方法及装置
CN111563068A (zh) * 2020-05-18 2020-08-21 中建材信息技术股份有限公司 一种多源风控数据清洗处理方法
CN111798311A (zh) * 2020-07-22 2020-10-20 睿智合创(北京)科技有限公司 基于大数据的银行风险分析库平台、搭建方法及可读介质
CN111813845A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 基于etl任务的增量数据抽取方法、装置、设备及介质
CN112181992A (zh) * 2020-10-27 2021-01-05 浪潮云信息技术股份公司 一种oracle数据库增量数据采集实现方法
CN112307721A (zh) * 2020-10-30 2021-02-02 广州朗国电子科技有限公司 一种第三方接口数据快速转为定制表格方法及存储介质
CN112597225A (zh) * 2020-12-22 2021-04-02 南京三眼精灵信息技术有限公司 基于集散模型的数据采集方法及装置
CN112597242A (zh) * 2020-12-16 2021-04-02 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112749227A (zh) * 2019-10-30 2021-05-04 北京国双科技有限公司 数据同步方法及装置
CN113111105A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 基于大数据的数据定制接入方法及系统
CN113111107A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种数据综合接入系统及方法
CN113111111A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 多数据源数据库接入方法
CN113111108A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 文件数据源入库解析接入方法
CN113111109A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 数据源的接口入库解析接入方法
CN113486113A (zh) * 2021-06-25 2021-10-08 山东齐鲁数通科技有限公司 一种基于Kettle的增量同步数据的方法及终端
CN114064643A (zh) * 2021-11-11 2022-02-18 南京熊猫电子股份有限公司 一种基于Oracle的任务式的数据转换系统
CN116860861A (zh) * 2023-09-05 2023-10-10 杭州瞬安信息科技有限公司 一种etl数据管理系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489472B (zh) * 2019-07-29 2021-08-24 北京恒赢智航科技有限公司 一种数据交换方法及使用该交换方法的机组管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297678A (ja) * 1995-04-25 1996-11-12 Toshiba Corp データベース設計支援システム
US6016501A (en) * 1998-03-18 2000-01-18 Bmc Software Enterprise data movement system and method which performs data load and changed data propagation operations
CN104506496A (zh) * 2014-12-10 2015-04-08 山大地纬软件股份有限公司 基于Oracle Streams技术的准实时数据增量分发中间件及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297678A (ja) * 1995-04-25 1996-11-12 Toshiba Corp データベース設計支援システム
US6016501A (en) * 1998-03-18 2000-01-18 Bmc Software Enterprise data movement system and method which performs data load and changed data propagation operations
CN104506496A (zh) * 2014-12-10 2015-04-08 山大地纬软件股份有限公司 基于Oracle Streams技术的准实时数据增量分发中间件及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROTKANG: "kettle从零开始:第四弹之kettle转换数据抽取使用", 《HTTP://BLOG.CSDN.NET/ROTKANG/ARTICLE/DETAILS/》 *

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512176B (zh) * 2015-11-24 2019-07-09 北京中电普华信息技术有限公司 一种基于Informatica Powercenter的增量抽取方法与系统
CN105512176A (zh) * 2015-11-24 2016-04-20 北京中电普华信息技术有限公司 一种基于Informatica Powercenter的增量抽取方法与系统
CN105550163A (zh) * 2015-12-10 2016-05-04 国云科技股份有限公司 一种适用于云平台资源监控的数据转换器实现方法
CN107622070B (zh) * 2016-07-15 2021-05-14 深圳联友科技有限公司 一种数据库管理方法及装置
CN107622070A (zh) * 2016-07-15 2018-01-23 深圳联友科技有限公司 一种数据库管理方法及装置
CN106250429A (zh) * 2016-07-26 2016-12-21 浪潮软件股份有限公司 一种基于sqoop的数据抽取方法
CN107958010B (zh) * 2016-10-18 2020-09-01 北京京东尚科信息技术有限公司 用于在线数据迁移的方法及系统
CN107958010A (zh) * 2016-10-18 2018-04-24 北京京东尚科信息技术有限公司 用于在线数据迁移的方法及系统
CN106888264A (zh) * 2017-03-02 2017-06-23 杭州数梦工场科技有限公司 一种数据交换方法和装置
CN106888264B (zh) * 2017-03-02 2019-09-17 杭州数梦工场科技有限公司 一种数据交换方法和装置
CN107153912A (zh) * 2017-04-11 2017-09-12 广州市食蚁兽网络技术有限公司 一种成长数据智能分析系统
CN107133327A (zh) * 2017-05-05 2017-09-05 合肥智圣系统集成有限公司 一种支持多数据类型的数据交换方法及系统
CN107491327B (zh) * 2017-07-31 2021-03-23 郑州众智科技股份有限公司 一种基于发电机组控制器自定义字符串的写入方法
CN107491327A (zh) * 2017-07-31 2017-12-19 郑州众智科技股份有限公司 一种基于发电机组控制器自定义字符串的写入方法
CN107506451B (zh) * 2017-08-28 2020-11-03 泰康保险集团股份有限公司 用于数据交互的异常信息监控方法及装置
CN107506451A (zh) * 2017-08-28 2017-12-22 泰康保险集团股份有限公司 用于数据交互的异常信息监控方法及装置
CN107798069A (zh) * 2017-09-26 2018-03-13 恒生电子股份有限公司 用于数据加载的方法、装置及计算机可读介质
CN110019237A (zh) * 2017-12-29 2019-07-16 北京宸瑞科技股份有限公司 一种基于地图分析罪犯行踪的系统及方法
CN110019237B (zh) * 2017-12-29 2021-04-20 北京宸瑞科技股份有限公司 一种基于地图分析罪犯行踪的系统及方法
CN108090215A (zh) * 2017-12-29 2018-05-29 安徽方正医疗信息技术有限公司 一种画面可配置的数据抽取方法
CN108197268A (zh) * 2018-01-04 2018-06-22 国网福建省电力有限公司 数据中心分析域数据同步优化提升方法
CN108564990A (zh) * 2018-04-11 2018-09-21 泰山医学院 医养结合数据抽取同步系统及方法、信息数据处理终端
CN108681590A (zh) * 2018-05-15 2018-10-19 普信恒业科技发展(北京)有限公司 增量数据处理方法及装置、计算机设备、计算机存储介质
CN108804613A (zh) * 2018-05-30 2018-11-13 国网山东省电力公司经济技术研究院 一种多源数据库实时融合系统及其融合方法
CN109213817B (zh) * 2018-08-10 2019-09-06 杭州数梦工场科技有限公司 增量数据抽取方法、装置及服务器
CN109213817A (zh) * 2018-08-10 2019-01-15 杭州数梦工场科技有限公司 增量数据抽取方法、装置及服务器
CN109067885A (zh) * 2018-08-14 2018-12-21 北京大米科技有限公司 绘画线条同步系统及方法
CN109067885B (zh) * 2018-08-14 2021-09-17 北京大米科技有限公司 绘画线条同步系统及方法
CN109491992A (zh) * 2018-11-14 2019-03-19 上海工程技术大学 一种校园卡数据读取系统
CN109753502A (zh) * 2018-12-29 2019-05-14 山东浪潮商用系统有限公司 一种基于NiFi的数据采集方法
CN109753502B (zh) * 2018-12-29 2023-05-12 浪潮软件科技有限公司 一种基于NiFi的数据采集方法
CN110188101A (zh) * 2019-05-22 2019-08-30 深圳市大数据资源管理中心 一种超多数据表处理方法、装置、设备及介质
CN110399612A (zh) * 2019-07-16 2019-11-01 工业互联网创新中心(上海)有限公司 工业互联网中边缘层的语义转换方法及中间件
CN112749227A (zh) * 2019-10-30 2021-05-04 北京国双科技有限公司 数据同步方法及装置
CN110825759B (zh) * 2019-11-04 2023-09-12 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN110825759A (zh) * 2019-11-04 2020-02-21 北京首汽智行科技有限公司 一种基于kettle工具的数据更新方法
CN110955722A (zh) * 2019-11-05 2020-04-03 北京天元创新科技有限公司 数据同步方法及装置
CN110955722B (zh) * 2019-11-05 2023-02-07 北京天元创新科技有限公司 数据同步方法及装置
CN111563068A (zh) * 2020-05-18 2020-08-21 中建材信息技术股份有限公司 一种多源风控数据清洗处理方法
CN111813845A (zh) * 2020-06-29 2020-10-23 平安国际智慧城市科技股份有限公司 基于etl任务的增量数据抽取方法、装置、设备及介质
CN111798311A (zh) * 2020-07-22 2020-10-20 睿智合创(北京)科技有限公司 基于大数据的银行风险分析库平台、搭建方法及可读介质
CN112181992A (zh) * 2020-10-27 2021-01-05 浪潮云信息技术股份公司 一种oracle数据库增量数据采集实现方法
CN112307721A (zh) * 2020-10-30 2021-02-02 广州朗国电子科技有限公司 一种第三方接口数据快速转为定制表格方法及存储介质
CN112597242A (zh) * 2020-12-16 2021-04-02 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112597242B (zh) * 2020-12-16 2023-06-06 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112597225A (zh) * 2020-12-22 2021-04-02 南京三眼精灵信息技术有限公司 基于集散模型的数据采集方法及装置
CN112597225B (zh) * 2020-12-22 2024-05-24 南京三眼精灵信息技术有限公司 基于集散模型的数据采集方法及装置
CN113111107A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 一种数据综合接入系统及方法
CN113111109A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 数据源的接口入库解析接入方法
CN113111108A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 文件数据源入库解析接入方法
CN113111111A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 多数据源数据库接入方法
CN113111107B (zh) * 2021-04-06 2023-10-13 创意信息技术股份有限公司 一种数据综合接入系统及方法
CN113111105A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 基于大数据的数据定制接入方法及系统
CN113486113A (zh) * 2021-06-25 2021-10-08 山东齐鲁数通科技有限公司 一种基于Kettle的增量同步数据的方法及终端
CN113486113B (zh) * 2021-06-25 2023-06-06 山东齐鲁数通科技有限公司 一种基于Kettle的增量同步数据的方法及终端
CN114064643A (zh) * 2021-11-11 2022-02-18 南京熊猫电子股份有限公司 一种基于Oracle的任务式的数据转换系统
CN116860861A (zh) * 2023-09-05 2023-10-10 杭州瞬安信息科技有限公司 一种etl数据管理系统
CN116860861B (zh) * 2023-09-05 2023-12-15 杭州瞬安信息科技有限公司 一种etl数据管理系统

Also Published As

Publication number Publication date
CN105069142B (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN105069142A (zh) 数据增量抽取转换与分发系统及方法
CN104408132B (zh) 数据推送方法和系统
US10061858B2 (en) Method and apparatus for processing exploding data stream
CN106533804A (zh) 一种网络运营支撑系统
CN102508908B (zh) 一种下级财政业务数据的采集方法和系统
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及系统
CN106789755A (zh) 跨网数据交换平台
CN107169069B (zh) 分布式分级抽取多应用方法和数据抽取应用器
CN106462575A (zh) 群集内存数据库的设计及实现
CN104111983A (zh) 一种开放式的多源数据采集系统及方法
CN105653425A (zh) 基于复杂事件处理引擎的监控系统
CN102571420A (zh) 一种网元数据管理方法及系统
CN102983996A (zh) 一种高可用集群资源管理的动态配置方法与系统
CN103166984B (zh) 对网络视频监控设备控件进行控制及自动更新的系统、方法
CN110442651A (zh) 一种基于kettle实现excel数据自动上传并触发调度的方法
CN103092866A (zh) 数据监控方法及监控装置
CN102779044A (zh) 表达式的解析处理系统和解析处理方法
CN113220422A (zh) 基于K8s中CNI插件的运行时修改Pod网络接口的方法及系统
CN116010494A (zh) 一种支持异构数据源的数据交换系统
CN110011827A (zh) 面向医联体的多用户大数据分析服务系统和方法
CN113342826A (zh) 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统
CN105630898A (zh) 一种适用于应用程序数据库表数据版本切换的方法
CN103218682A (zh) 基于Web服务编排描述语言的多方协同业务流程监控系统
CN111177239B (zh) 一种基于hdp大数据集群的统一日志处理方法及系统
CN112579406B (zh) 一种日志调用链生成方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant