CN108228755A

CN108228755A - 基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法

Info

Publication number: CN108228755A
Application number: CN201711397461.7A
Authority: CN
Inventors: 张珂珩; 龚长平; 吴志勇; 黄伟; 金发秀
Original assignee: CHINA REALTIME DATABASE Co Ltd; NARI Group Corp
Current assignee: CHINA REALTIME DATABASE Co Ltd; NARI Group Corp
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-06-29

Abstract

本发明属于电力系统数据库技术领域，公开了一种基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法。本发明开启MySQL的二进制日志记录功能，并修改为基于行的复制模式，采用日志解析模块对所需要处理的MySQL数据库的逻辑日志进行规则过滤，并按照事务完整性发送完整的数据；采用消息接收模块根据配置的接收信息，接收来自日志解析模块的数据，并按照本地规则写入到本地用于数据加载的缓存数据文件中；采用SQL适配模块读取缓存数据文件，并根据Hadoop平台的类型，转换成通用标准SQL数据语句格式，将数据加载进入Hadoop平台。本发明提高了数据库同步复制的效率。

Description

基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法

技术领域

本发明属于电力系统数据库技术领域，具体是涉及一种基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法。

背景技术

随着国际电网公司的“国网资源计划信息系统”（SG-ERP）工程的建设，国家电网公司在三集五大、两中心、信息平台、综合分析决策等方面都建设了相关的应用系统，信息系统架构更加复杂。为了保证不同业务系统之间的数据一致性，必须解决业务系统间的数据交换的问题，而通过业务系统数据库之间的实时同步便是解决该问题的可行途径之一。

但是数据库同步复制软件种类繁多，由于电网数据规模大、数据量庞杂、数据存储分散等特点，而且绝大多数产品主要是大数据库厂商针对自己公司的数据库产品开发出来的，不一定适用于其它数据库管理系统。

MySQL是一种常用的数据库，Hadoop平台是一个由Apache基金会所开发的分布式系统基础架构，目前两者在电网业务系统中也到了广泛运用。以MySQL数据库同步复制为例，MySQL的主从复制集群依靠主服务器将更新写入二进制日志文件，并维护文件的索引以跟踪日志循环，同时将这些日志发送到从服务器，以便从服务器更新。这就要求源端、目标端的数据库必须是MySQL数据库才能使用该主从配置方案，这给业务系统之间的数据交换带来了难题。特别是要把MySQL数据库的数据同步复制到Hadoop平台中，存在很大困难。

发明内容

本发明目的是：针对现有技术的不足，提供一种基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法。该方法通过日志解析技术，高效地进行从MySQL数据库到Hadoop平台的数据同步复制，达到异构数据库备份的目的，能够满足业务系统复杂的数据交换需求的问题。

具体地说，本发明是采用以下技术方案实现的，包括以下步骤：

1）开启MySQL的二进制日志记录功能，并修改为基于行的复制模式；

2）采用日志解析模块对所需要处理的MySQL数据库的逻辑日志进行规则过滤，并按照事务完整性发送完整的数据；

3）采用消息接收模块根据配置的接收信息，接收来自日志解析模块的数据，并按照本地规则写入到本地用于数据加载的缓存数据文件中；

4）采用SQL适配模块读取缓存数据文件，并根据Hadoop平台的类型，转换成通用标准SQL数据语句格式，将数据加载进入Hadoop平台。

进一步而言，所述步骤2）中，日志解析模块通过对MySQL数据库的逻辑日志的格式分析，按照固定的字节读取方式和解析规则，得到用户对数据库的操作指令和操作结果集，在解析过程中添加事务完整性的检查点设置，对断电及故障情况下数据库重启做到无脏数据和重复数据的读取，主动过滤重复事务以及事务不完整的数据。

本发明的有益效果如下：本发明针对电网数据规模大、存储分散的特点，解决了电力系统网络环境下，MySQL数据库到Hadoop平台的之间的数据同步、数据交换问题。采用日志解析技术，将数据解析成适配的SQL语句，能达到MySQL数据库与Hadoop平台数据库之间的数据备份功能。采用了以“事务”为单位的日志解析技术，减少了数据的传输量，在保证一致性和完整性的情况下，提高了数据库同步复制的效率。总而言之，本发明充分利用了数据库日志特性并通过本地缓存、异步复制的方法，最大限度上减少对数据库在运行过程中造成备份负担，大大加快了数据库对业务的响应时间，并且达到异库备份的目的。

附图说明

图1 是本发明实施例的总体架构图。

图2是本发明实施例的日志解析原理图。

图3是本发明实施例的消息接收原理图。

图4是本发明实施例的数据加载原理图。

图5是本发明在读写分离场景下应用的示意图。

图6是本发明在容灾场景下应用的示意图。

具体实施方式

下面结合实施例并参照附图对本发明作进一步详细描述。

实施例1：

本发明的一个实施例，公开了一种基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法，其主要架构如图1所示，主要包括日志解析、消息接收、SQL适配几个阶段。

开始正式数据同步复制之前，首先要开启MySQL的二进制日志记录功能，并修改为基于行（row）的复制模式。

参见图2，采用日志解析模块对所需要处理的MySQL数据库的逻辑日志进行规则过滤，并按照事务完整性发送完整的数据。具体而言，日志解析模块通过对MySQL数据库的逻辑日志的格式分析，按照固定的字节读取方式和解析规则，得到用户对数据库的操作指令和操作结果集，在解析过程中添加事务完整性的检查点设置，对断电及故障情况下数据库重启做到无脏数据和重复数据的读取，主动过滤重复事务以及事务不完整的数据。由于在发送时添加了过滤规则，可以有针对性的选择数据进行同步，对不需要发送的数据进行过滤处理，以减小对发送数据量对网络的压力。由于对日志的整合和传输以“事务”为单位，无需处理复杂的“回滚”机制，可以在保证一致性和完整性的情况下高效的进行数据库同步。

参见图3，采用消息接收模块根据配置的接收信息，接收来自日志解析模块的数据，并按照本地规则写入到本地用于数据加载的缓存数据文件中，并记录检查点位置。采用缓存的方式存储接收到的数据主要是为了减少网络压力，增加网络发送接收响应时间，减少目标端数据库阻塞对数据接收的影响，从根本是解决因为数据库数据同步入库造成的源端和目标端之间数据阻塞问题。

参见图4，采用SQL适配模块读取缓存数据文件，并根据Hadoop平台的类型，转换成通用标准SQL数据语句格式，最终以JDBC的方式进行统一加载，将数据加载进入Hadoop平台。

本实施可以应用于以下场景。

场景1：读写分离场景。

参见图5，业务应用的应用程序需要将数据写入到写入数据库中，再从读取数据库读取相关数据。当写入数据库为MySQL数据库，而读取数据库为Hadoop平台时，就可以采用本实施例的方法，实现读写分离。

具体而言，采用本实施例应用在读写分离场景的步骤如下：

步骤1：应用程序A将数据写入MySQL数据库，修改数据库表。

步骤2：采用本实施例的方法，通过复制节点将数据从MySQL数据库到Hadoop平台。

步骤3：应用程序B读取Hadoop平台的数据内容。

场景2：容灾场景。

参见图6，在生产中心发生故障的情况下，为了能够在灾备中心接管应用，需要同时设置业务数据库和灾备数据库，并保持两者数据一致，从而尽量减少系统停机时间，提高业务连续性。当业务数据库为MySQL数据库，而灾备数据库为Hadoop平台时，就可以采用本实施例的方法，实现容灾。

具体而言，采用本实施例应用在容灾场景的步骤如下：

步骤1：应用程序将数据写入MySQL数据库，修改数据库表。

步骤2：采用本实施例的方法，通过复制节点将数据从MySQL数据库到Hadoop平台，实现灾备数据库与业务数据库数据一致。

虽然本发明已以较佳实施例公开如上，但实施例并不是用来限定本发明的。在不脱离本发明之精神和范围内，所做的任何等效变化或润饰，同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的内容为标准。

Claims

1.基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法，其特征在于，包括以下步骤：

2.根据权利要求1中所述的基于日志解析技术的MySQL数据库到Hadoop平台的数据同步复制方法，其特征在于：所述步骤2）中，日志解析模块通过对MySQL数据库的逻辑日志的格式分析，按照固定的字节读取方式和解析规则，得到用户对数据库的操作指令和操作结果集，在解析过程中添加事务完整性的检查点设置，对断电及故障情况下数据库重启做到无脏数据和重复数据的读取，主动过滤重复事务以及事务不完整的数据。