CN107402981A

CN107402981A - 一种基于分布式离线数据库的数据增量处理方法及系统

Info

Publication number: CN107402981A
Application number: CN201710549726.4A
Authority: CN
Inventors: 江樱; 黄海潮; 刘鸿宁; 卢文达; 陈振; 杨春晨; 褚大可; 王仲锋; 何欣; 刘秀
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-11-28
Anticipated expiration: 2037-07-07
Also published as: CN107402981B

Abstract

本发明旨在提供种基于分布式离线数据库的数据增量处理方法及系统，以解决现有技术方案中因主键值变更，大数据平台在进行数据增量合并后数据出现重复的问题。包括如下步骤：获取增量数据的关键信息并写入增量变化表；获取增量数据记录表中操作状态为变更的增量数据记录作为待处理数据记录；获取待处理数据记录中更新前主键和更新后主键不相等的记录作为待拆分数据记录；将待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录；根据增量变化表进行数据增量合并。有益技术效果：防止数据因为主键变更而出现重复。

Description

一种基于分布式离线数据库的数据增量处理方法及系统

技术领域

本发明涉及一种数据增量处理，具体为一种基于分布式离线数据库的数据增量处理方法及装置。

背景技术

大数据(big data,mega data)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算、互联网和可扩展的存储系统。其中基于分布式文件系统，采用分布式并行计算框架，适合海量离线数据批量加工处理的技术平台，在业界大数据实践中得到广泛的应用，可实现了海量数据存储、数据处理、数据挖掘。数据接入是将业务源系统(简称源系统)中业务数据采用一定技术方式同步至大数据平台。按照数据接入策略，数据接入可分为全量、增量接入。由于源业务系统数据量很大时，全量数据接入严重影响系统性能，一般采用数据增量接入大数据平台，再和之前全量数据进行合并的方式加以替代。由于大数据平台相比传统关系数据库存在数据只能新增、不能覆盖、删除等操作，所以接入到大数据平台中的当天增量数据，需要与之前全量数据进行数据对比、去重，并最终形成当天完整全量数据。由于增量数据的来源较多，当一方数据存在问题时，经常会影响数据合并的结果，造成数据重复、丢失等情况。

现有技术中解决增量数据接入重复的方法是：通过增量数据复制组件，获取源头增量变化数据，并对每条变化的记录上打上操作标志位、变更时间，写入大数据平台增量变化表中；大数据平台调用增量合并程序，按照数据变更时间对增量变化表中数据进行排序，按照主键去重形成当天最终增量数据，之后和昨天全量数据进行对比找出未变化的数据，最后将未变化的数据与去重后最终增量数据进行合并，从而形成一份无重复记录的当天全量的数据。其不足在于：当业务源头对部分记录进行主键值变更，将原记录直接变更为新记录时，通过增量数据复制组件复制过来的数据仅记录了数据变更等信息，后续增量合并时无法判断出主键值变更的数据，无法通过原来程序逻辑消除掉到重复记录，增量合并数据存在重复情况，后续只能通过全量刷新数据暂时解决该问题。

发明内容

本发明旨在提供种基于分布式离线数据库的数据增量处理方法及系统，以解决现有技术方案中因主键值变更，大数据平台在进行数据增量合并后数据出现重复的问题。

为了实现所述目的，本发明一种基于分布式离线数据库的数据增量处理方法，包括如下步骤：

获取增量数据的关键信息并写入增量变化表，所述关键信息包括操作时间、操作状态、更新前数据和更新后数据，其中所述更新前数据包括更新前主键，所述更新后数据包括更新后主键；

获取增量数据记录表中操作状态为变更的增量数据记录作为待处理数据记录；

获取待处理数据记录中更新前主键和更新后主键不相等的记录作为待拆分数据记录；

将待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录，其中操作状态为删除的数据记录的更新后数据采用对应待拆分数据的更新前数据，操作状态为添加的数据记录的更新后数据采用对应待拆分数据的更新后数据，同时拆分为操作状态为添加的数据记录的操作时间在对应拆分为操作状态为删除的数据记录的操作时间之后；

根据增量变化表进行数据增量合并。

优选的，所述获取增量数据的关键信息并写入增量变化表包括：获取源头数据库在线日志或者归档日志，根据在线日志或归档日志获取源头数据库中的增量数据的关键信息，将关键信息写入增量变化表。

优选的，所述根据增量变化表进行数据增量合并包括：按照数据变更时间对增量变化表中数据进行排序，按照主键去重形成当天最终增量数据，之后和昨天全量数据进行对比找出未变化的数据，最后将未变化的数据与去重后最终增量数据进行合并。

优选的，所述操作状态包括添加、删除和变更。

优选的，在待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录时，操作状态为删除的数据记录对应的操作时间可以采用对应待拆分数据记录的操作时间，操作状态为添加的数据记录的操作时间在对应待拆分数据记录的操作时间的基础上增加设定时间。

为了实现所述目的，本发明一种基于分布式离线数据库的数据增量处理系统，包括：

增量数据关键信息获取模块，获取增量数据的关键信息并写入增量变化表，所述关键信息包括操作时间、操作状态、更新前数据和更新后数据，其中所述更新前数据包括更新前主键，所述更新后数据包括更新后主键；

待处理数据获取模块，获取增量数据记录表中操作状态为变更的增量数据记录作为待处理数据记录；

待拆分数据记录获取模块，获取待处理数据记录中更新前主键和更新后主键不相等的记录作为待拆分数据记录；

拆分模块，将待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录，其中操作状态为删除的数据记录的更新后数据采用对应待拆分数据的更新前数据，操作状态为添加的数据记录的更新后数据采用对应待拆分数据的更新后数据，同时拆分为操作状态为添加的数据记录的操作时间在对应拆分为操作状态为删除的数据记录的操作时间之后；

合并模块，根据增量变化表进行数据增量合并。

优选的，所述操作状态包括添加、删除和变更。

通过实施本发明可以取得以下有益技术效果：相对于现有技术，本发明将主键发生变更的数据拆分为删除数据和增加数据，拆分后再通过现有技术中的数据增量方法进行数据合并，其优点在于：1、防止数据因为主键变更而出现重复；2、可采用现有技术中的增量合并程序进行合并，无需修改原增量合并程序。

具体实施方式

为了便于本领域技术人员的理解，下面结合具体实施例对本发明作进一步的说明：

实施例1：

本发明提供了一种基于分布式离线数据库的数据增量处理方法，包括如下步骤：

获取待处理数据记录中更新前主键和更新后数据不相等的记录作为待拆分数据记录；

根据增量变化表进行数据增量合并。

相对于现有技术，本发明将主键发生变更的数据拆分为删除数据和增加数据，拆分后再通过现有技术中的数据增量方法进行数据合并，其优点在于：1、防止数据因为主键变更而出现重复；2、可采用现有技术中的增量合并程序进行合并，无需修改原增量合并程序。

本实施例中，操作状态分为添加、删除、变更三种；每条记录中分为变更前数据和变更后数据。在根据增量变化表进行数据增量合并中，采用的是变更后的数据。

获取待处理数据记录中更新前主键和更新后主键不相等的记录作为待拆分数据记录包括：分别对每条记录中变更前主键和变更后主键进行对比，从而找出主键值不相等的记录即主键值发生变更的记录作为待拆分数据记录。

在待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录时，操作状态为删除的数据记录对应的操作时间可以采用对应待拆分数据记录的操作时间，操作状态为添加的数据记录的操作时间可以在对应待拆分数据记录的操作时间的基础上增加设定时间T，该时间T可以为1秒、1分钟等，具体可以根据时间情况设置。

获取增量数据的关键信息并写入增量变化表包括：获取源头数据库在线日志或者归档日志，根据在线日志或归档日志获取源头数据库中的增量数据的关键信息，将关键信息写入增量变化表。该获取关键信息的方法可以采用现有技术中的获取方法，与现有技术的区别在于，获取的关键信息中至少还包含了变更前的主键信息。

所述根据增量变化表进行数据增量合并包括：按照数据变更时间对增量变化表中数据进行排序，按照主键去重形成当天最终增量数据，之后和昨天全量数据进行对比找出未变化的数据，最后将未变化的数据与去重后最终增量数据进行合并。该数据增量合并的方法采用的是现有技术中的合并方法，其中本发明中的变更后主键对应的是现有技术中的主键，本申请中不再进行详细描述。

实施例2：

本发明提供了一种基于分布式离线数据库的数据增量处理系统，包括：

合并模块，根据增量变化表进行数据增量合并。

所述获取增量数据的关键信息并写入增量变化表包括：获取源头数据库在线日志或者归档日志，根据在线日志或归档日志获取源头数据库中的增量数据的关键信息，将关键信息写入增量变化表。

所述根据增量变化表进行数据增量合并包括：按照数据变更时间对增量变化表中数据进行排序，按照主键去重形成当天最终增量数据，之后和昨天全量数据进行对比找出未变化的数据，最后将未变化的数据与去重后最终增量数据进行合并。

所述操作状态包括添加、删除和变更。

在待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录时，操作状态为删除的数据记录对应的操作时间可以采用对应待拆分数据记录的操作时间，操作状态为添加的数据记录的操作时间在对应待拆分数据记录的操作时间的基础上增加设定时间。

本实施例为实现实施例1中方法的装置，其实现方法采用的是实施例1中的方法，本实施例中不再进行详细描述。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种基于分布式离线数据库的数据增量处理方法，其特征在于，包括如下步骤：

根据增量变化表进行数据增量合并。

2.如权利要求1所述的一种基于分布式离线数据库的数据增量处理方法，其特征在于，所述获取增量数据的关键信息并写入增量变化表包括：获取源头数据库在线日志或者归档日志，根据在线日志或归档日志获取源头数据库中的增量数据的关键信息，将关键信息写入增量变化表。

3.如权利要求1所述的一种基于分布式离线数据库的数据增量处理方法，其特征在于，所述根据增量变化表进行数据增量合并包括：按照数据变更时间对增量变化表中数据进行排序，按照主键去重形成当天最终增量数据，之后和昨天全量数据进行对比找出未变化的数据，最后将未变化的数据与去重后最终增量数据进行合并。

4.如权利要求1所述的一种基于分布式离线数据库的数据增量处理方法，其特征在于，所述操作状态包括添加、删除和变更。

5.如权利要求1所述的一种基于分布式离线数据库的数据增量处理方法，其特征在于，在待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录时，操作状态为删除的数据记录对应的操作时间可以采用对应待拆分数据记录的操作时间，操作状态为添加的数据记录的操作时间在对应待拆分数据记录的操作时间的基础上增加设定时间。

6.一种基于分布式离线数据库的数据增量处理系统，其特征在于：包括：

合并模块，根据增量变化表进行数据增量合并。

7.如权利要求6所述的一种基于分布式离线数据库的数据增量处理系统，其特征在于，所述获取增量数据的关键信息并写入增量变化表包括：获取源头数据库在线日志或者归档日志，根据在线日志或归档日志获取源头数据库中的增量数据的关键信息，将关键信息写入增量变化表。

8.如权利要求6所述的一种基于分布式离线数据库的数据增量处理系统，其特征在于，所述根据增量变化表进行数据增量合并包括：按照数据变更时间对增量变化表中数据进行排序，按照主键去重形成当天最终增量数据，之后和昨天全量数据进行对比找出未变化的数据，最后将未变化的数据与去重后最终增量数据进行合并。

9.如权利要求6所述的一种基于分布式离线数据库的数据增量处理方法，其特征在于，所述操作状态包括添加、删除和变更。

10.如权利要求6所述的一种基于分布式离线数据库的数据增量处理方法，其特征在于，在待拆分数据记录拆分为操作状态为删除的数据记录和拆分为操作状态为添加的数据记录时，操作状态为删除的数据记录对应的操作时间可以采用对应待拆分数据记录的操作时间，操作状态为添加的数据记录的操作时间在对应待拆分数据记录的操作时间的基础上增加设定时间。