CN106407366A - 一种分布式系统数据提取方法 - Google Patents

一种分布式系统数据提取方法 Download PDF

Info

Publication number
CN106407366A
CN106407366A CN201610812125.3A CN201610812125A CN106407366A CN 106407366 A CN106407366 A CN 106407366A CN 201610812125 A CN201610812125 A CN 201610812125A CN 106407366 A CN106407366 A CN 106407366A
Authority
CN
China
Prior art keywords
data
distributed system
object library
consistent
extraction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610812125.3A
Other languages
English (en)
Inventor
刘天智
崔玉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201610812125.3A priority Critical patent/CN106407366A/zh
Publication of CN106407366A publication Critical patent/CN106407366A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式系统数据提取方法,其实现过程为:首先将分布式系统数据通过RocketMQ传输到目标库中的临时表中,当各个分布式系统的数据都传输完毕之后,通过数据开放功能将目标库中的临时表数据转储到正式表中;每天通过数据校验功能,定时校验目标库数据和分布式系统数据是否一致,不一致的情况通过Kettle工具进行数据补救,确保分布式系统数据和目标库数据一致。该一种分布式系统数据提取方法与现有技术相比,采用先将数据插入到目标库的临时表中,然后采用数据开放功能校验分布式系统中数据和目标库中数据是否一致,数据一致的情况下才转储到正式表,确保了抽取数据一致性,实用性强,适用范围广泛,易于推广。

Description

一种分布式系统数据提取方法
技术领域
本发明涉及数据处理技术领域,具体地说是一种实用性强、分布式系统数据提取方法。
背景技术
分布式数据库系统包含分布式数据库管理系统和分布式数据库,即分布式系统和目标库系统。在分布式数据库系统中,一个应用程序可以对数据库进行透明操作,数据库中的数据分别在不同的局部数据库中存储、由不同的 DBMS进行管理、在不同的机器上运行、由不同的操作系统支持、被不同的通信网络连接在一起。
一个分布式数据库在逻辑上是一个统一的整体,在物理上则是分别存储在不同的物理节点上。一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库。它的分布性表现在数据库中的数据不是存储在同一场地。更确切地讲,不存储在同一计算机的存储设备上。这就是与集中式数据库的区别。从用户的角度看,一个分布式数据库系统在逻辑上和集中式数据库系统一样,用户可以在任何一个场地执行全局应用。就好像那些数据是存储在同一台计算机上,有单个数据库管理系统(DBMS)管理一样,用户并没有什么感觉不一样。
分布式数据库系统是在集中式数据库系统的基础上发展起来的,是计算机技术和网络技术结合的产物。
在现有的分布式数据库系统中,经常要进行数据提取,但现有的数据提取方案不能很好的确保分布式系统中数据和目标库数据一致,可用性不强,而且数据提取都是单独进行,数据的提取率也不高,基于此,现提供一种分布式系统数据提取方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、分布式系统数据提取方法。
一种分布式系统数据提取方法,其实现过程为:
首先将分布式系统数据通过RocketMQ传输到目标库中的临时表中,当各个分布式系统的数据都传输完毕之后,通过数据开放功能将目标库中的临时表数据转储到正式表中;
每天通过数据校验功能,定时校验目标库数据和分布式系统数据是否一致,不一致的情况通过Kettle工具进行数据补救,确保分布式系统数据和目标库数据一致。
将分布式系统数据通过RocketMQ传输到目标库中的临时表中的具体过程为:
在分布式系统中设置数据上传定时器,数据上传定时器定时调用应用程序,应用生产者读取存放数据的数据库,将数据传输到目标库系统中的RocketMQ队列中;
目标库系统中RocketMQ队列将数据推送给应用消费者,应用消费者将接收到的数据插入到目标库的临时表中。
数据传输到目标库系统的过程中记录生产者日志,便于监控数据生产情况;数据插入到目标库过程中记录消费者日志,便于监控数据消费情况。
通过目标库系统中数据开放功能将临时表数据转储到正式表的具体过程为:
在目标库系统中设置数据开放定时器,该数据开放定时器调用数据开放功能,数据开放功能校验目标库中数据跟分布式系统中数据是否一致,如果数据一致,则将目标库中临时表数据转储到目标库正式表中,该过程记录数据开放日志,便于监控数据开放情况。
当数据开放定时器校验数据不一致时,根据数据开放日志排查出原因,进行数据补救,当目标库临时表数据和目标库正式表数据一致之后,数据手工开放功能将目标库中临时表数据转储到目标库正式表中,在该补救过程中更新数据开放日志,便于监控数据开放情况。
本发明的一种分布式系统数据提取方法,具有以下优点:
该发明的一种分布式系统数据提取方法,采用先将数据插入到目标库的临时表中,然后采用数据开放功能校验分布式系统中数据和目标库中数据是否一致,数据一致的情况下才转储到正式表,确保了抽取数据一致性;使用数据校验功能,定时每天校验分布式系统中历史数据跟目标库中历史数据是否一致,发现不一致的情况下,使用kettle工具进行历史数据补救,确保了历史数据的一致性;在分布式系统端,数据提取的过程是并行进行的,提高了数据提取效率;分布式系统中数据生产过程、目标系统中数据消费过程和数据开放过程中都进行日志记录,便于整个数据提取过程的错误原因排查和监控,实用性强,适用范围广泛,易于推广。
附图说明
附图1为将分布式系统数据传输到目标库系统示意图。
附图2为数据定时由临时表转存到正式表示意图。
附图3为数据手工由临时表转存到正式表示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如附图1、图2、图3所示,本发明提供一种分布式系统数据提取方法,将多个分布式系统中数据传输到目标库,确保截止到一个时间点内分布式系统中数据和目标库中数据一致,提高数据传输的可用性。
其实现过程为:
首先将分布式系统数据通过RocketMQ传输到目标库中的临时表中,当各个分布式系统的数据都传输完毕之后,通过数据开放功能将目标库中的临时表数据转储到正式表中;
每天通过数据校验功能,定时校验目标库数据和分布式系统数据是否一致,不一致的情况通过Kettle工具进行数据补救,确保分布式系统数据和目标库数据一致。
其中,RocketMQ 是一款分布式、队列模型的消息中间件,具有以下特点:能够保证严格的消息顺序;提供丰富的消息拉取模式;高效的订阅者水平扩展能力;实时的消息订阅机制;亿级消息堆积能力。
Kettle工具为Pentaho Data Integration,是Pentaho生态系统中默认的ETL工具。Kettle是一款开源的etl工具,纯java编写,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
更为具体的,本发明对上述步骤进行详细描述。
将分布式系统数据通过RocketMQ传输到目标库中的临时表中:
在分布式系统中,数据上传定时器定时调用应用程序,应用生产者读取数据库,将数据传输到目标库系统中的RocketMQ队列中。该过程中各个分布式系统定时器可以同时启用,提高数据提取效率。该过程会记录生产者日志,便于监控数据生产情况。
目标库系统中RocketMQ队列将数据推送给应用消费者,应用消费者将接收到的数据插入到目标库的临时表中。该过程会记录消费者日志,便于监控数据消费情况。
目标库系统中数据开放功能将临时表数据转储到正式表:
目标库系统中数据开放定时器调用数据开放功能,数据开放功能会校验目标库中数据跟分布式系统中数据是否一致,如果数据一致,则将目标库中临时表数据转储到目标库正式表中。该过程记录数据开放日志,便于监控数据开放情况。
数据开放定时器校验数据不一致的情况下,会导致目标库临时表数据没能转储到目标库正式表。根据数据开放日志排查出原因,进行数据补救,当目标库临时表数据和目标库正式表数据一致之后,数据手工开放功能将目标库中临时表数据转储到目标库正式表中。该过程更新数据开放日志,便于监控数据开放情况。
分布式系统中历史数据补救:
当分布式系统中历史数据发生变化的情况下,会造成分布式系统中历史数据跟目标库中历史数据不一致。使用数据校验功能,定时每天校验分布式系统中历史数据跟目标库中历史数据是否一致,发现不一致的情况下,使用kettle工具进行历史数据补救。
本发明的分布式系统数据提取方法具有高可用性,此外,本发明还具有数据一致性、提取高效性和便捷性,具体为:
数据一致性。采用先将数据插入到目标库的临时表中,然后采用数据开放功能校验分布式系统中数据和目标库中数据是否一致,数据一致的情况下才转储到正式表,确保了抽取数据一致性;使用数据校验功能,定时每天校验分布式系统中历史数据跟目标库中历史数据是否一致,发现不一致的情况下,使用kettle工具进行历史数据补救,确保了历史数据的一致性。
数据提取高效性。在分布式系统端,数据提取的过程是并行进行的,提高了数据提取效率。
监控和排错方便。分布式系统中数据生产过程、目标系统中数据消费过程和数据开放过程中都进行日志记录,便于整个数据提取过程的错误原因排查和监控。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种分布式系统数据提取方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (5)

1.一种分布式系统数据提取方法,其特征在于,其实现过程为:
首先将分布式系统数据通过RocketMQ传输到目标库中的临时表中,当各个分布式系统的数据都传输完毕之后,通过数据开放功能将目标库中的临时表数据转储到正式表中;
每天通过数据校验功能,定时校验目标库数据和分布式系统数据是否一致,不一致的情况通过Kettle工具进行数据补救,确保分布式系统数据和目标库数据一致。
2.根据权利要求1所述的一种分布式系统数据提取方法,其特征在于,将分布式系统数据通过RocketMQ传输到目标库中的临时表中的具体过程为:
在分布式系统中设置数据上传定时器,数据上传定时器定时调用应用程序,应用生产者读取存放数据的数据库,将数据传输到目标库系统中的RocketMQ队列中;
目标库系统中RocketMQ队列将数据推送给应用消费者,应用消费者将接收到的数据插入到目标库的临时表中。
3.根据权利要求2所述的一种分布式系统数据提取方法,其特征在于,数据传输到目标库系统的过程中记录生产者日志,便于监控数据生产情况;数据插入到目标库过程中记录消费者日志,便于监控数据消费情况。
4.根据权利要求1所述的一种分布式系统数据提取方法,其特征在于,通过目标库系统中数据开放功能将临时表数据转储到正式表的具体过程为:
在目标库系统中设置数据开放定时器,该数据开放定时器调用数据开放功能,数据开放功能校验目标库中数据跟分布式系统中数据是否一致,如果数据一致,则将目标库中临时表数据转储到目标库正式表中,该过程记录数据开放日志,便于监控数据开放情况。
5.根据权利要求4所述的一种分布式系统数据提取方法,其特征在于,当数据开放定时器校验数据不一致时,根据数据开放日志排查出原因,进行数据补救,当目标库临时表数据和目标库正式表数据一致之后,数据手工开放功能将目标库中临时表数据转储到目标库正式表中,在该补救过程中更新数据开放日志,便于监控数据开放情况。
CN201610812125.3A 2016-09-09 2016-09-09 一种分布式系统数据提取方法 Pending CN106407366A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610812125.3A CN106407366A (zh) 2016-09-09 2016-09-09 一种分布式系统数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610812125.3A CN106407366A (zh) 2016-09-09 2016-09-09 一种分布式系统数据提取方法

Publications (1)

Publication Number Publication Date
CN106407366A true CN106407366A (zh) 2017-02-15

Family

ID=57999132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610812125.3A Pending CN106407366A (zh) 2016-09-09 2016-09-09 一种分布式系统数据提取方法

Country Status (1)

Country Link
CN (1) CN106407366A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009223A (zh) * 2017-11-24 2018-05-08 中体彩科技发展有限公司 一种交易数据的一致性检测方法及装置
CN109634978A (zh) * 2018-12-18 2019-04-16 钛马信息网络技术有限公司 数据读取一致性系统及方法
CN110209740A (zh) * 2019-06-05 2019-09-06 浪潮软件股份有限公司 一种基于RocketMq消息中间件并行同步数据的方法
CN114971570A (zh) * 2022-06-09 2022-08-30 中国电信股份有限公司 活动资格校验方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495910A (zh) * 2011-12-28 2012-06-13 畅捷通信息技术股份有限公司 实现异构系统数据定时同步的装置和方法
US20150033070A1 (en) * 2013-07-26 2015-01-29 Huawei Technologies Co., Ltd. Data recovery method, data recovery device and distributed storage system
CN104850611A (zh) * 2015-05-12 2015-08-19 浪潮集团有限公司 一种使用kettle从关系型数据库向非关系型数据库定时增量更新数据的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495910A (zh) * 2011-12-28 2012-06-13 畅捷通信息技术股份有限公司 实现异构系统数据定时同步的装置和方法
US20150033070A1 (en) * 2013-07-26 2015-01-29 Huawei Technologies Co., Ltd. Data recovery method, data recovery device and distributed storage system
CN104850611A (zh) * 2015-05-12 2015-08-19 浪潮集团有限公司 一种使用kettle从关系型数据库向非关系型数据库定时增量更新数据的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邢晨等: "Kettle 3.1数据同步研究", 《软件导刊》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009223A (zh) * 2017-11-24 2018-05-08 中体彩科技发展有限公司 一种交易数据的一致性检测方法及装置
CN108009223B (zh) * 2017-11-24 2021-12-07 中体彩科技发展有限公司 一种交易数据的一致性检测方法及装置
CN109634978A (zh) * 2018-12-18 2019-04-16 钛马信息网络技术有限公司 数据读取一致性系统及方法
CN110209740A (zh) * 2019-06-05 2019-09-06 浪潮软件股份有限公司 一种基于RocketMq消息中间件并行同步数据的方法
CN114971570A (zh) * 2022-06-09 2022-08-30 中国电信股份有限公司 活动资格校验方法及装置

Similar Documents

Publication Publication Date Title
CN104317843B (zh) 一种数据同步etl系统
CN106407366A (zh) 一种分布式系统数据提取方法
CN104639374B (zh) 一种应用程序部署管理系统
CN101364891B (zh) 分布式电信网管中单点采集性能数据的系统及实现方法
CN110138837A (zh) 请求处理方法、装置、计算机设备和存储介质
CN104584524B (zh) 聚合中介系统中的数据
CN110390524B (zh) 区块链中作业数据处理方法、装置、电子设备及存储介质
CN106878473A (zh) 一种消息处理方法、服务器集群及系统
CN107220142A (zh) 执行数据恢复操作的方法及装置
CN107870829A (zh) 一种分布式数据恢复方法、服务器、相关设备及系统
CN106790112A (zh) 一种集成轻量级区块链的节点操作系统及数据更新的方法
CN107908503A (zh) 从备份系统流式恢复数据库
CN107733708A (zh) 设备参数配置方法、装置、计算机设备和存储介质
CN107688611B (zh) 一种基于saltstack的Redis键值管理系统及方法
KR102508817B1 (ko) 메시지 전송 버스를 이용한 고가용성 배전 지능화 시스템
EP3839762A1 (en) Remote data synchronization method and apparatus for database
CN106503158A (zh) 数据同步方法及装置
CN109391629A (zh) 轨道交通综合监控系统数据处理方法
CN110134528A (zh) 微服务框架的接口信息存储调用方法、装置和终端设备
CN108345617A (zh) 一种数据同步方法、装置以及电子设备
CN107016075A (zh) 集群数据同步方法及装置
CN105989140A (zh) 一种数据块处理方法和设备
CN104601374B (zh) 用于数控机床的网络故障处理方法和装置
CN109284294A (zh) 采集数据的方法及装置、存储介质、处理器
CN101692641B (zh) 一种高效的hlr/auc数据日常稽核方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215