CN111177173A - 大数据环境下实现数据同步优化处理的系统及其方法 - Google Patents
大数据环境下实现数据同步优化处理的系统及其方法 Download PDFInfo
- Publication number
- CN111177173A CN111177173A CN202010002067.4A CN202010002067A CN111177173A CN 111177173 A CN111177173 A CN 111177173A CN 202010002067 A CN202010002067 A CN 202010002067A CN 111177173 A CN111177173 A CN 111177173A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- database
- dynamic monitoring
- real
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Abstract
本发明涉及一种大数据环境下实现数据同步优化处理的系统,包括初始化模块用于进行数据库初始化以及数据平台配置安装;动态监控数据设计模块用于通过模拟成为数据库的从机的方式,监听数据库的日志来获取数据;实时任务配置模块用于根据所述的动态监控数据设计模块中的配置实时监听数据源;数据变更数据同步模块用于结合所述的动态监控数据设计模块实现目标数据库和数据源数据的实时更新同步。本发明还涉及一种实现大数据环境下的数据同步优化处理方法。采用了本发明的大数据环境下实现数据同步优化处理的系统及其方法,通过模拟成为主从设备的方式,监听源库的日志来获取数据,获取到执行的每一个增删改的脚本、修改前和修改后的数据来实现数据及时同步变更。
Description
技术领域
本发明涉及数据资产管理领域,尤其涉及数据同步优化领域,具体是指一种大数据环境下实现数据同步优化处理的系统及其方法。
背景技术
数据服务共享平台定位于企业数据资源“纵向贯通”、“横向互联”的共享通道,使其成为企业、组织、部门的数据工厂,主要从安全管控、服务治理、服务消费、服务开发效率等系列问题入手,提供统一平台对多源、多类型数据进行统一的服务化管控,帮助企业更加有效、可靠的使用数据。
数据共享平台是处理数据交换的一种重要方式,是将数据规划整理后提供出去的一种管理方式,包括整个数据的流程和走向,通过有效的管理实现数据价值。其中,数据源和目标库数据同步数据的及时程度是数据平台同步数据的一个重要方面,在系统的使用过程中,及时的同步数据直接影响数据共享平台的数据提取效率、可否满足业务场景、用户体验度等方面,一定程度影响着数据资产管理的效率。
目前,在数据平台的使用中,支持数据同步的使用,即数据源的数据库数据根据同步作业的配置信息,然后通过手动执行作业或者定时任务实现的,将其中的数据同步到目标数据库中,具体的实现步骤如下:
1、初始化环境,配置数据库,初始化数据库;
2、配置数据源、目标库信息资源;
3、配置数据同步任务;
4、根据同步要求配置日历、频度等定时信息;
5、执行数据同步任务。
根据如上步骤在数据平台中的数据同步任务,只满足常规的数据同步要求,但是在实际项目使用中,数据同步的管理更加精细,手动执行任务或者定时任务执行后数据源中的数据不一定有变更,此时存在浪费资源的问题,在没有手动执行任务或者定时任务的时候,数据源中的信息可能存在数据变更,此时没能够同步数据,不能满足数据的实时变更,使用当前的数据同步的方法显然不能完全满足当前的需求,使得数据平台的用户体验度下降。
现有的数据平台中可以选择当前的数据同步的办法,通过配置作业实现数据库的同步功能是通过配置数据源与目标库的的作业信息,然后通过手动执行作业或者定时任务实现的,但是实际项目使用中,数据同步的管理更加精细,手动执行任务或者定时任务执行后数据源中的数据不一定有变更,此时存在浪费资源的问题,在没有手动执行任务或者定时任务的时候,数据源中的信息可能存在数据变更,此时没能够同步数据,不能满足数据的实时变更,使用当前的数据同步的方法显然不能完全满足当前的需求,使得数据共享平台的用户体验度下降。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种满足效率高、操作简便、适用范围广泛的大数据环境下实现数据同步优化处理的系统及其方法。
为了实现上述目的,本发明的大数据环境下实现数据同步优化处理的系统及其方法如下:
该大数据环境下实现数据同步优化处理的系统,其主要特点是,所述的系统包括:
初始化模块,用于进行数据库初始化以及数据平台配置安装;
动态监控数据设计模块,与所述的初始化模块相连接,用于通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更;
实时任务配置模块,与所述的动态监控数据设计模块相连接,用于根据所述的动态监控数据设计模块中的配置实时监听数据源,配置任务参数;
数据变更数据同步模块,与所述的实时任务配置模块和动态监控数据设计模块相连接,用于根据实时任务配置模块的配置,并结合所述的动态监控数据设计模块实现目标数据库和数据源数据的实时更新与同步。
较佳地,所述的初始化模块包括:
表创建单元,与所述的动态监控数据设计模块相连接,用于数据库表信息初始完成后创建所需的表;
数据增加单元,与所述的动态监控数据设计模块相连接,用于根据创建的表增加数据。
较佳地,所述的动态监控数据设计模块通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更。
较佳地,所述的动态监控数据设计模块中的数据源为MySQL数据库,目标数据库为hbase,MySQL的日志为二进制日志binlog。
较佳地,所述的实时任务配置模块的实时任务配置的参数包含同步任务模板、数据库映射关系和表映射关系。
该利用上述系统实现大数据环境下的数据同步优化处理方法,其主要特点是,所述的方法包括以下步骤:
(1)所述的初始化模块进行数据库初始化以及数据平台配置安装;
(2)所述的动态监控数据设计模块监听日志获取数据;
(3)所述的实时任务配置模块根据所述的动态监控数据设计模块中的配置实时监听数据源,配置任务参数;
(4)所述的数据变更数据同步模块根据实时任务配置模块的配置,并结合所述的动态监控数据设计模块实现目标数据库和数据源数据的实时更新与同步。
较佳地,所述的步骤(2)具体为:
所述的动态监控数据设计模块通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更。
较佳地,所述的步骤(3)具体为:
根据数据源和目标库的信息配置在线任务。
较佳地,所述的步骤(4)具体为:
配置在线任务和动态监听参数后,开启在线任务,修改数据源中的数据。
采用了本发明的大数据环境下实现数据同步优化处理的系统及其方法,通过模拟成为主从设备的方式,监听源库的日志来获取数据,获取到执行的每一个增删改的脚本、修改前和修改后的数据来实现数据及时同步变更。
附图说明
图1为本发明的大数据环境下实现数据同步优化处理的系统的结构图。
图2为本发明的实现大数据环境下的数据同步优化处理方法的流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明的该大数据环境下实现数据同步优化处理的系统,其中包括:
初始化模块,用于进行数据库初始化以及数据平台配置安装;
动态监控数据设计模块,与所述的初始化模块相连接,用于通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更;
实时任务配置模块,与所述的动态监控数据设计模块相连接,用于根据所述的动态监控数据设计模块中的配置实时监听数据源,配置任务参数;
数据变更数据同步模块,与所述的实时任务配置模块和动态监控数据设计模块相连接,用于根据实时任务配置模块的配置,并结合所述的动态监控数据设计模块实现目标数据库和数据源数据的实时更新与同步。
作为本发明的优选实施方式,所述的初始化模块包括:
表创建单元,与所述的动态监控数据设计模块相连接,用于数据库表信息初始完成后创建所需的表;
数据增加单元,与所述的动态监控数据设计模块相连接,用于根据创建的表增加数据。
作为本发明的优选实施方式,所述的动态监控数据设计模块通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更。
作为本发明的优选实施方式,所述的动态监控数据设计模块中的数据源为MySQL数据库,目标数据库为hbase,MySQL的日志为二进制日志binlog。
作为本发明的优选实施方式,所述的实时任务配置模块的实时任务配置的参数包含同步任务模板、数据库映射关系和表映射关系。
本发明的该利用上述系统实现大数据环境下的数据同步优化处理方法,其中包括以下步骤:
(1)所述的初始化模块进行数据库初始化以及数据平台配置安装;
(2)所述的动态监控数据设计模块监听日志获取数据;
所述的动态监控数据设计模块通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更;
(3)所述的实时任务配置模块根据所述的动态监控数据设计模块中的配置实时监听数据源,配置任务参数;
根据数据源和目标库的信息配置在线任务;
(4)所述的数据变更数据同步模块根据实时任务配置模块的配置,并结合所述的动态监控数据设计模块实现目标数据库和数据源数据的实时更新与同步;
配置在线任务和动态监听参数后,开启在线任务,修改数据源中的数据。
本发明的具体实施方式中,本发明涉及一种动态同步数据的方法。目前在数据平台的使用中,支持数据同步的使用,即数据源的数据库数据根据同步任务的配置信息,将其中的数据同步到目标数据库中。当前数据平台中通过配置作业实现数据库的同步功能是通过配置数据源与目标库的的任务信息,然后通过手动执行作业或者定时任务实现的,但是在实际使用过程中,对数据的同步有了更高的要求,源库到目标库的数据同步需要实时更新同步,即源库有数据变更需要很及时的同步、更新目标库的数据,手动执行作业和定时任务同步数据不能很好的满足要求,针对该问题,本发明使用一种基于数据库日志解析动态同步数据的方法,通过模拟成为主从设备的方式,监听源库的日志来获取数据,获取到执行的每一个增删改的脚本、修改前和修改后的数据来实现数据及时同步变更。
如图1所示,本发明分为初始化模块、动态监控数据设计模块、实时任务配置模块、数据变更数据同步模块。
初始化模块是数据平台搭建需满足的基本条件,主要指数据库初始化、数据平台配置安装等准备,目的是可以实现数据平台的运行;动态监控数据设计模块是指在根据通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据,监控数据源数据变更;实时任务配置模块是指根据动态监控数据设计模块中的配置实时监听数据源,配置任务参数;数据变更数据同步模块是指根据实时任务配置模块的配置结合动态监控数据设计模块实现目标数据库和数据源数据的实时更新、同步。
下面将详细描述初始化模块、动态监控设计模块、实时任务配置模块、数据变更数据同步模块。
一、初始化模块:
初始化模块是数据平台搭建需满足的基本条件,主要指数据库初始化、数据平台配置安装等准备,目的是可以实现数据平台的运行,具体包括数据平台中的初始化数据脚本,指数据库中涉及到的表的创建和数据的插入以及产品的安装,该模块只包括最简单的表创建和数据的增加,在系统的使用过程中还会增加新的数据。
针对数据库初始化的操作涉及到的具体说明信息如下:
系统数据库表信息初始完成后数据库会有上百张表的数据;
数据源和目标库的表和数据取决于系统
表数量比较多,主要包括表的增加、修改、删除,数据的增加具体的脚本此处不做说明。
二、动态监控数据设计模块:
动态监控数据设计模块是指在根据通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据,监控数据源数据变更。
文中选择MySQL数据库作为同步数据的数据源,hbase作为目标数据库
二进制日志binlog是MySQL的日志,它记录了所有的DDL和DML语句(除了数据查询语句select),以事件形式记录,还包含语句所执行的消耗的时间,MySQL的二进制日志是事务安全型的。
binlog日志有一个最重要的使用场景,mysql主从复制,mysql replication在主机端开启binlog,主库把它的二进制日志传递给从库来保持主机和从机数据一致的目的,
基于以上特性,将通过模拟成mysql的从库方式,监听mysql的binlog日志来获取数据,binlog设置为row模式以后,不仅能获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据。
主库用来存储数据(数据源),从库用来更新目标库的数据,从而实现数据的及时变更。
三、实时任务配置模块:
实时任务配置模块是指根据动态监控数据设计模块中的配置实时监听数据源,配置任务参数。
实时任务配置根据数据源、目标库的信息配置在线任务,主要包括的参数有同步任务模板、数据库映射关系、表映射关系等信息,以及在动态监控数据设计模块中设置数据源的日志模式,在从机中配置数据源的参数,其中主要包括数据库连接方式的信息,文中采用canal组件代替从机,监听数据源,在数据源有数据变更的情况下,将数据同步到目标库中。
四、数据变更数据同步模块:
数据变更数据同步模块是指根据实时任务配置模块的配置结合动态监控数据设计模块实现目标数据库和数据源数据的实时更新、同步。
在配置好在线任务和动态监听参数后,开启在线任务,修改数据源中的数据,不用手动每次执行在线任务将数据同步到目标库中。
本发明以地产行业通过使用数据实时动态更新的方法作为具体实施例。
在某地产数据实施案例中,通过业务调研,识别出客户数据信息,部分数据如下表所示:
在得到客户数据表后,根据本发明的方法,主要实施步骤如图2所示。
一、初始化模块
初始化模块是数据平台搭建需满足的基本条件,主要指数据库初始化、数据平台配置安装等准备,目的是可以实现数据平台的运行,具体包括数据平台中的初始化数据脚本,指数据库中涉及到的表的创建和数据的插入以及产品的安装,该模块只包括最简单的表创建和数据的增加,在系统的使用过程中还会增加新的数据。
数据库表信息包括上百张表的数据。
这部分的初始化文件都是.sql脚本,包括删除旧表、增加新表、增加索引、插入数据等操作,直接按照顺序导入执行即可。具体脚本很多,此处不做具体说明,只引入需要同步的部分脚本说明,如下:
create table userinfo(CstGUID VARCHAR(64)PRIMARY KEY,CstName VARCHAR(256),CstType VARCHAR(16),CardType VARCHAR(16),CardID VARCHAR(256),MainMobileTel VARCHAR(32),OfficeTel VARCHAR(32),HomeTel VARCHAR(64),GenderVARCHAR(16),BirthDate date,NativePlace VARCHAR(32),CensusPlace VARCHAR(32),Address VARCHAR(256),Nationality VARCHAR(16),Email VARCHAR(32),MaritalStatusVARCHAR(16),EduLevel VARCHAR(16),CstNickName VARCHAR(256),ContactName VARCHAR(256),CREATEUSER VARCHAR(64),MODIFYUSER VARCHAR(64),CreateTime timestamp,ModifyTime timestamp,IsUsedCode VARCHAR(16));
插入数据:
INSERT INTO`tuomin`.`userinfo`VALUES(‘1’,‘张三’,'01',‘5’,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”);
INSERT INTO`tuomin`.`userinfo`VALUES(‘2’,’李四’,'01',‘3’,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”);
INSERT INTO`tuomin`.`userinfo`VALUES(‘3’,‘王五’,'03',‘1’,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”,”);
……
二、动态监控数据设计模块
动态监控数据设计模块是指在根据通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据,监控数据源数据变更。
选择MySQL数据库作为同步数据的数据源,hbase作为目标数据库
二进制日志binlog是MySQL的日志,它记录了所有的DDL和DML语句(除了数据查询语句select),以事件形式记录,还包含语句所执行的消耗的时间,MySQL的二进制日志是事务安全型的。
binlog日志有一个最重要的使用场景,mysql主从复制,mysql replication在主机端开启binlog,主库把它的二进制日志传递给从库来保持主机和从机数据一致的目的,
基于以上特性,将通过模拟成mysql的从库方式,监听mysql的binlog日志来获取数据,binlog设置为row模式以后,不仅能获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据。
主库用来存储数据(数据源),从库用来更新目标库的数据,从而实现数据的及时变更。
三、实时任务配置模块
实时任务配置模块是指根据动态监控数据设计模块中的配置实时监听数据源,配置任务参数。
实时任务配置根据数据源、目标库的信息配置在线任务,主要包括的参数有同步任务模板、数据库映射关系、表映射关系等信息,以及在动态监控数据设计模块中设置数据源的日志模式,在从机中配置数据源的参数,其中主要包括数据库连接方式的信息,文中采用canal组件代替从机,监听数据源,在数据源有数据变更的情况下,将数据同步到目标库中。
数据源、数据配置如下:
数据源名称:tuomin 数据库类型:MySQL
Host:127.0.0.1 端口:3306
数据库:tuomin Schmea:tuomin
账号:*** 密码:***
源表:userinfo
目标库、数据配置如下:
目标库以hbase为例进行说明
Ip:127.0.0.1 端口:2181
表名:tuomin.userinfo
在同步的过程中,涉及到rowkey和family,可以自定义,默认是数据源中对应表的主键字段和cf,此处rowkey设置为表userinfo中带有主键的CstGUID。
监控参数配置:
监听服务器的ip和端口:127.0.0.1:11111
监听实例名称:test
监听实例配置信息:
canal.port=11111
canal.instance.mysql.slaveId=1234
canal.instance.master.address=127.0.0.1:3306
canal.instance.dbUsername=用户名
canal.instance.dbPassword=密码
推送频率:5000ms
日志模式:ROW
四、数据变更数据同步模块
数据变更数据同步模块是指根据实时任务配置模块的配置结合动态监控数据设计模块实现目标数据库和数据源数据的实时更新、同步。
在配置好在线任务和动态监听参数后,开启在线任务,修改数据源中的数据,不用手动每次执行在线任务将数据同步到目标库中。
操作步骤如下:
1.启动监听服务器监听数据源;
2.启动配置好的在线实时任务调度:
3.修改数据源中监听服务器监听的数据库数据;
4.查看同步数据信息。
部分原始数据如下表:
数据源数据做如下修改:以表中字段CstNickName为例,修改对应的值为zs,ls,ww,jc,zl,rs,lw,ww,lq,zw
目标库更新后数据如下:
同步后的部分的数据如下:
row=1
column=cf:BirthDate,timestamp=1575948818934,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948818934,value=sys
column=cf:CreateTime,timestamp=1575948818934,value=2019-12-10 11:33:35
column=cf:CstGUID,timestamp=1575948818934,value=1
column=cf:CstNickName,timestamp=1575948818934,value=zs1
column=cf:Email,timestamp=1575948818934,value=257****739@qq.com
column=cf:HomeTel,timestamp=1575948818934,value=010-68****77
row=10
column=cf:BirthDate,timestamp=1575948818941,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948818941,value=sys
column=cf:CreateTime,timestamp=1575948818941,value=2019-12-10 11:33:37
column=cf:CstGUID,timestamp=1575948818941,value=10
column=cf:CstNickName,timestamp=1575948818941,value=ls1
column=cf:Email,timestamp=1575948818941,value=327****739@qq.com
column=cf:HomeTel,timestamp=1575948818941,value=010-68****77
row=3
column=cf:BirthDate,timestamp=1575948818946,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948818946,value=sys
column=cf:CreateTime,timestamp=1575948818946,value=2019-12-10 11:33:38
column=cf:CstGUID,timestamp=1575948818946,value=2
column=cf:CstNickName,timestamp=1575948818946,value=ww1
column=cf:Email,timestamp=1575948818946,value=647****739@qq.com
column=cf:HomeTel,timestamp=1575948818946,value=010-010-68****77
row=2
column=cf:BirthDate,timestamp=1575948819935,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948819935,value=sys
column=cf:CreateTime,timestamp=1575948819935,value=2019-12-10 11:33:38
column=cf:CstGUID,timestamp=1575948819935,value=3
column=cf:CstNickName,timestamp=1575948819935,value=jc1
column=cf:Email,timestamp=1575948819935,value=257****739@qq.com
column=cf:HomeTel,timestamp=1575948819935,value=010-68****77
row=4
column=cf:BirthDate,timestamp=1575948819939,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948819939,value=sys
column=cf:CreateTime,timestamp=1575948819939,value=2019-12-10 11:33:39
column=cf:CstGUID,timestamp=1575948819939,value=4
column=cf:CstNickName,timestamp=1575948819939,value=zl1
column=cf:Email,timestamp=1575948819939,value=147****739@qq.com
column=cf:HomeTel,timestamp=1575948819939,value=010-68****77
row=5
column=cf:BirthDate,timestamp=1575948820937,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948820937,value=sys
column=cf:CreateTime,timestamp=1575948820937,value=2019-12-10 11:33:40
column=cf:CstGUID,timestamp=1575948820937,value=5
column=cf:CstNickName,timestamp=1575948820937,value=rs1
column=cf:Email,timestamp=1575948820937,value=247****739@qq.com
column=cf:HomeTel,timestamp=1575948820937,value=010-68****77
row=6
column=cf:BirthDate,timestamp=1575948821943,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948821943,value=sys
column=cf:CreateTime,timestamp=1575948821943,value=2019-12-10 11:33:41
column=cf:CstGUID,timestamp=1575948821943,value=6
column=cf:CstNickName,timestamp=1575948821943,value=lw
column=cf:Email,timestamp=1575948821943,value=307****739@qq.com
column=cf:HomeTel,timestamp=1575948821943,value=010-68****77
row=7
column=cf:BirthDate,timestamp=1575948822945,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948822945,value=sys
column=cf:CreateTime,timestamp=1575948822945,value=2019-12-10 11:33:41
column=cf:CstGUID,timestamp=1575948822945,value=7
column=cf:CstNickName,timestamp=1575948822945,value=ww1
column=cf:Email,timestamp=1575948822945,value=787****739@qq.com
column=cf:HomeTel,timestamp=1575948822945,value=010-68****77
row=8
column=cf:BirthDate,timestamp=1575948822949,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948822949,value=sys
column=cf:CreateTime,timestamp=1575948822949,value=2019-12-10 11:33:42
column=cf:CstGUID,timestamp=1575948822949,value=8
column=cf:CstNickName,timestamp=1575948822949,value=lq
column=cf:Email,timestamp=1575948822949,value=667****739@qq.com
column=cf:HomeTel,timestamp=1575948822949,value=010-68****77
row=9
column=cf:BirthDate,timestamp=1575948829950,value=1990-06-13
column=cf:CREATEUSER,timestamp=1575948829950,value=sys
column=cf:CreateTime,timestamp=1575948829950,value=2019-12-10 11:33:44
column=cf:CstGUID,timestamp=1575948829950,value=9
column=cf:CstNickName,timestamp=1575948829950,value=zw
column=cf:Email,timestamp=1575948829950,value=767****739@qq.com
column=cf:HomeTel,timestamp=1575948829950,value=010-68****77
目标库中已同步源库的改动数据,达到实时同步数据的目的。
采用了本发明的大数据环境下实现数据同步优化处理的系统及其方法,通过模拟成为主从设备的方式,监听源库的日志来获取数据,获取到执行的每一个增删改的脚本、修改前和修改后的数据来实现数据及时同步变更。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (9)
1.一种大数据环境下实现数据同步优化处理的系统,其特征在于,所述的系统包括:
初始化模块,用于进行数据库初始化以及数据平台配置安装;
动态监控数据设计模块,与所述的初始化模块相连接,用于通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更;
实时任务配置模块,与所述的动态监控数据设计模块相连接,用于根据所述的动态监控数据设计模块中的配置实时监听数据源,配置任务参数;
数据变更数据同步模块,与所述的实时任务配置模块和动态监控数据设计模块相连接,用于根据实时任务配置模块的配置,并结合所述的动态监控数据设计模块实现目标数据库和数据源数据的实时更新与同步。
2.根据权利要求1所述的大数据环境下实现数据同步优化处理的系统,其特征在于,所述的初始化模块包括:
表创建单元,与所述的动态监控数据设计模块相连接,用于数据库表信息初始完成后创建所需的表;
数据增加单元,与所述的动态监控数据设计模块相连接,用于根据创建的表增加数据。
3.根据权利要求1所述的大数据环境下实现数据同步优化处理的系统,其特征在于,所述的动态监控数据设计模块通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更。
4.根据权利要求3所述的大数据环境下实现数据同步优化处理的系统,其特征在于,所述的动态监控数据设计模块中的数据源为MySQL数据库,目标数据库为hbase,MySQL的日志为二进制日志binlog。
5.根据权利要求1所述的大数据环境下实现数据同步优化处理的系统,其特征在于,所述的实时任务配置模块的实时任务配置的参数包含同步任务模板、数据库映射关系和表映射关系。
6.一种基于权利要求1所述的系统实现大数据环境下的数据同步优化处理方法,其特征在于,所述的方法包括以下步骤:
(1)所述的初始化模块进行数据库初始化以及数据平台配置安装;
(2)所述的动态监控数据设计模块监听日志获取数据;
(3)所述的实时任务配置模块根据所述的动态监控数据设计模块中的配置实时监听数据源,配置任务参数;
(4)所述的数据变更数据同步模块根据实时任务配置模块的配置,并结合所述的动态监控数据设计模块实现目标数据库和数据源数据的实时更新与同步。
7.根据权利要求6所述的实现大数据环境下的数据同步优化处理方法,其特征在于,所述的步骤(2)具体为:
所述的动态监控数据设计模块通过模拟成为数据库的从机的方式,设置日志模式,监听数据库的日志来获取数据,监控数据源数据变更。
8.根据权利要求6所述的实现大数据环境下的数据同步优化处理方法,其特征在于,所述的步骤(3)具体为:
根据数据源和目标库的信息配置在线任务。
9.根据权利要求6所述的实现大数据环境下的数据同步优化处理方法,其特征在于,所述的步骤(4)具体为:
配置在线任务和动态监听参数后,开启在线任务,修改数据源中的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002067.4A CN111177173A (zh) | 2020-01-02 | 2020-01-02 | 大数据环境下实现数据同步优化处理的系统及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010002067.4A CN111177173A (zh) | 2020-01-02 | 2020-01-02 | 大数据环境下实现数据同步优化处理的系统及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111177173A true CN111177173A (zh) | 2020-05-19 |
Family
ID=70654366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010002067.4A Pending CN111177173A (zh) | 2020-01-02 | 2020-01-02 | 大数据环境下实现数据同步优化处理的系统及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177173A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000681A (zh) * | 2020-08-25 | 2020-11-27 | 浪潮云信息技术股份公司 | 一种能够自适应模式变更的同步方法 |
CN112364047A (zh) * | 2020-11-03 | 2021-02-12 | 山东亿云信息技术有限公司 | 基于Presto的动态数据处理方法及跨库查询方法 |
CN112527903A (zh) * | 2020-12-11 | 2021-03-19 | 北京首汽智行科技有限公司 | 一种基于canal平台的数据同步方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423303A (zh) * | 2016-05-24 | 2017-12-01 | 北京京东尚科信息技术有限公司 | 数据同步的方法和系统 |
CN108769172A (zh) * | 2018-05-21 | 2018-11-06 | 杭州有赞科技有限公司 | 一种数据同步方法及系统 |
CN109815028A (zh) * | 2018-12-27 | 2019-05-28 | 北京摩拜科技有限公司 | 数据同步的系统、方法、装置和计算机存储介质 |
CN110580247A (zh) * | 2019-09-11 | 2019-12-17 | 普元信息技术股份有限公司 | 针对数据共享平台实现数据库操作效率优化功能的系统及其方法 |
-
2020
- 2020-01-02 CN CN202010002067.4A patent/CN111177173A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423303A (zh) * | 2016-05-24 | 2017-12-01 | 北京京东尚科信息技术有限公司 | 数据同步的方法和系统 |
CN108769172A (zh) * | 2018-05-21 | 2018-11-06 | 杭州有赞科技有限公司 | 一种数据同步方法及系统 |
CN109815028A (zh) * | 2018-12-27 | 2019-05-28 | 北京摩拜科技有限公司 | 数据同步的系统、方法、装置和计算机存储介质 |
CN110580247A (zh) * | 2019-09-11 | 2019-12-17 | 普元信息技术股份有限公司 | 针对数据共享平台实现数据库操作效率优化功能的系统及其方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000681A (zh) * | 2020-08-25 | 2020-11-27 | 浪潮云信息技术股份公司 | 一种能够自适应模式变更的同步方法 |
CN112364047A (zh) * | 2020-11-03 | 2021-02-12 | 山东亿云信息技术有限公司 | 基于Presto的动态数据处理方法及跨库查询方法 |
CN112364047B (zh) * | 2020-11-03 | 2024-04-09 | 山东华智人才科技有限公司 | 基于Presto的动态数据处理方法及跨库查询方法 |
CN112527903A (zh) * | 2020-12-11 | 2021-03-19 | 北京首汽智行科技有限公司 | 一种基于canal平台的数据同步方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932282B (zh) | 一种数据库迁移方法、装置和存储介质 | |
CN105224351B (zh) | 快速配置实现方法及快速配置服务器 | |
JP7125854B2 (ja) | 自動化された試験システムの方法及び設計 | |
CN111177173A (zh) | 大数据环境下实现数据同步优化处理的系统及其方法 | |
CN111027921B (zh) | 一种业务处理方法、装置及电子设备和存储介质 | |
WO2021203979A1 (zh) | 运维处理方法、装置及计算机设备 | |
WO2015062181A1 (zh) | 用于实现多源异构数据资源自动同步的方法 | |
US10467192B2 (en) | Method and apparatus for updating data table in keyvalue database | |
US20080162587A1 (en) | Server synchronization for maintenance activities | |
US20150006485A1 (en) | High Scalability Data Management Techniques for Representing, Editing, and Accessing Data | |
CN115374102A (zh) | 数据处理方法及系统 | |
US11120049B2 (en) | Concurrent data imports | |
CN111737227A (zh) | 数据修改方法及系统 | |
CN114722119A (zh) | 数据同步方法及系统 | |
CN102355499A (zh) | 云计算系统 | |
CN111400280A (zh) | 大数据环境下实现数据加密同步优化处理的系统及其方法 | |
CN112162992A (zh) | 一种高效的数据库更新系统及方法 | |
CN108228592B (zh) | 基于二进制日志的数据归档方法及数据归档装置 | |
US20210182284A1 (en) | System and method for data ingestion and workflow generation | |
CN112734404B (zh) | 研发过程迭代的工时统计方法、装置、计算机设备 | |
CN107515760B (zh) | 一种OpenStack多节点自动化安装方法及系统 | |
CN112286538B (zh) | 一种Greenplum数据库自动化安装方法及装置 | |
Rajbhoj et al. | Large Scale Model-Driven Engineering for a Multi-site Team--Experience Report | |
CN111679894A (zh) | 一种服务器集群模式下的定时任务调度方法及调度系统 | |
CN114626075A (zh) | 实时访问ecc工器具信息的方法、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |