CN105933446A

CN105933446A - 一种大数据平台业务双活实现方法及系统

Info

Publication number: CN105933446A
Application number: CN201610491260.2A
Authority: CN
Inventors: 周頔; 谢友珉; 陈宏晓; 张鸿; 郑东去; 游黎
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2016-09-07

Abstract

本发明公开了一种大数据平台业务双活实现方法及系统，包括：Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；第一集群和第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。本发明基于列存储的MPP数据库架构，在同构的集群间节点对节点的实现二进制数据的增量同步，通过传输压缩态的增量文件块，使批量查询分离的同时又保证了联机查询的时效性，解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

Description

一种大数据平台业务双活实现方法及系统

技术领域

本发明涉及互联网及云计算技术领域，更具体的，涉及一种大数据平台业务双活实现方法及系统。

背景技术

随着互联网和云计算技术的不断发展，越来越多的服务需要使用集群服务来更好的满足用户的需求。一方面，服务集群化使用户可以得到更好的用户体验，例如访问速度快，同时，服务集群化可以在同一时间为更多的用户提供服务；另一方面，服务集群化可以提高系统的可用性，减少系统故障对业务造成的危害。

目前，大数据建设的不断推进，在较好的解决了数据集成、加工的基础上，随着运营过程中对数据的需求的增长，大数据平台服务能力需要进一步提升：一是支撑多样的、实效性更高的的数据访问和分析服务，以支持零售、征信、风险、反洗钱等不同领域，和数据集市、报表、准实时等不同应用；二是提供连续的数据访问服务和准确完整的数据，批量加工的同时不影响外部的数据访问服务，并可及时查看T+2的数据；三是提高升级、灾备、异常处理过程中的业务连续性。合理分配时间窗口、有效利用资源，标准化流程，从而打造高可用的大数据服务平台。

现有的数据处理技术主要采用双活机制，其是针对交易型系统，每次新的交易都需对两个集群进行更新，频度、并发较高，且数据同步方向较为灵活，数据更新的频率较高，但是不提供实时查询，且无法满足海量数据的应用场景。具体的，将批量加工和数据备份进行分离，定期(如一个月)将数据备份到另外的存储设备上，若由备份设备提供对外服务，则无法保证准实时的数据服务，若由批量处理设备提供对外查询服务，一则会影响批量加工进度，二则由于批量加工时数据不能同时被读写而导致批量加工与数据查询不可同时进行。

发明内容

本发明的目的在于提出一种大数据平台业务双活实现方法及系统，以解决现有技术中由于批量加工时数据不能同时被读写而导致批量加工与数据查询不可同时进行的问题。

为达到上述目的，本发明提供了以下技术方案：

一种大数据平台业务双活实现方法，应用于海量数据批量加工和实时联机查询，该方法基于列存储的MPP数据库架构，包括：

Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；

第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；

所述第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；

所述第一集群和所述第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。

优选的，该方法还包括：

对所述第一集群和所述第二集群的同步节点上进行数据校验。

优选的，该方法还包括：

向第三集群进行等节点做非定期数据同步；

或

向所述第三集群进行非对等节点做定期数据同步。

一种大数据平台业务双活实现系统，应用于海量数据批量加工和实时联机查询，该系统基于列存储的MPP数据库架构，包括：第一集群、第二集群和Hadoop集群海量文件处理集群，其中，

所述Hadoop集群海量文件处理集群获取源数据，并对所述源数据进行数据清洗和预处理；

所述第一集群对所述源数据进行批量加工处理，且向上游集市及应用层提供T+1的数据批量导出及非对等节点的数据传输服务；

所述第二集群利用批量加工过程中的空闲时间窗口接收所述第一集群传输当天加工的增量数据。

优选的，该系统还包括：批量调度模块、运行监控模块以及联机访问管理模块，其中

所述批量调度系统进行批量加工的调配管理、并发控制和同步控制，确保批量加工过程按照作业的依赖关系和并发控制进行；

所述运行监控系统对所述第一集群和所述第二集群计算资源的运行状态、使用情况、批量进度、数据一致性进行监控并预警；

所述联机访问管理系统负责访问方式、访问权限以及访问负载的控制，根据集群可访问状态、访问目标数据要求、集群负载情况。

其中，所述运行监控系统还用于定期对运行状况进行分析、发布运行分析报告。

其中，所述联机访问管理系统还用于确定查询方式、分配查询资源以及路由查询目标库。

其中，所述查询方式为同步查询方式或异步查询方式。

经由上述的技术方案可知，与现有技术相比，本发明公开了一种大数据平台业务双活实现方法及系统，包括：Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；第一集群和第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。本发明基于列存储的MPP数据库架构，在同构的集群间节点对节点的实现二进制数据的增量同步，通过传输压缩态的增量文件块，使批量查询分离的同时又保证了联机查询的时效性，解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种大数据平台业务双活实现方法的流程示意图；

图2为本发明实施例中数据流向加工分层次结构图；

图3为本发明实施例中同步原理图；

图4为本发明另一实施例公开的一种大数据平台业务双活实现方法的流程示意图；

图5为本发明实施例公开的一种大数据平台业务双活实现系统结构示意图；

图6为本发明实施例公开的一种大数据平台业务双活实现系统结构示意图；

图7为本发明实施例中表与作业的关系图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明是海量数据的高效批量加工和实时联机查询共存的处理系统，根本上需要解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

本发明基于列存储的MPP数据库架构，在同构(节点数相同)的集群间节点对节点的实现二进制数据的增量同步，通过传输压缩态的增量文件块，使批量查询分离的同时又保证了联机查询的时效性。

请参阅附图1，图1为本发明实施例公开的一种大数据平台业务双活实现方法的流程示意图。具体的，该方法应用于海量数据批量加工和实时联机查询，且基于列存储的MPP数据库架构，如图1所述，该方法具体包括如下步骤：

S101、Hadoop集群海量文件处理集群获取源文件进行保存，并对源文件中的源数据进行预处理。

Hadoop集群海量文件处理集群获取源文件进行保存，对源数据进行数据清洗和预处理。

S102、第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块。

具体，请参阅附图2，图2为本发明实施例中数据流向加工分层次结构图。第一集群中数据按照分层架构进行加工，包括ODS层、BDS层、GDS层。ODS层主要实现源系统数据的简单堆积和存储。BDS层在ODS层处理源数据基础上，按照统一数据规则(如组织架构、各类数据字典等)对数据进行整合，为GDS和各应用提供数据来源。GDS层集业务逻辑处理、机构汇总和币种转换为一体，以“数据元”的形式向应用层提供分析型应用数据。这种分层加工、分区存储的方式，降低了数据耦合，既保证了数据的统一管理，又满足了多种应用系统差异化的要求。

S103、第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群。

为支持集中、定时等不同频度的数据同步，设计“双活辅助运行系统”对数据同步的运行进行独立控制。主要功能包括异步消息队列和一致性校验采集，实现数据同步和数据采集两大重要功能。

异步消息队列采用关系数据库实现。在作业总控程序中向队列写入每日作业的开始、结束标记，由数据同步工具轮询消息队列，获取已执行完成的批量加工作业，进行同步。白天作业加工的同时入消息队列，晚上在第一集群压力较小的时候完成集中同步。同步的起停可由配置文件控制。异步消息队列每日定时向历史表中清理执行成功的记录。

一致性校验采集在数据同步完成后向第一集群、第二集群同时进行采集操作，分别记入数据库。采集时需带有每日记录的开始、结束条件，支持同步的时间间隔内每天采集。

同步原理：

表是同步系统中操作的基本对象，如下图所示，本系统中表是按列储存的，即每个节点存储一列数据的其中一个分片，每个分片中有随机分配的多个DC块。DC块是一张表存储的最小逻辑单元，包含65536行数据和SCN、删除标识、物理偏移等元数据。其中SCN(System Change Number)为集群全局变量，随SQL操作增加。具体的，以第一集群中批量加工得到的数据为基准，比较目标表在第一、第二集群中的对应节点中分片的DC块的SCN是否发生变化，若发生变化，则整个DC进行第一集群到第二集群的数据同步，即增量同步。如图3所示，分片1中DC3和DC4的SCN值不同，就将第一集群中的DC3和DC4整体同步到第二集群，替换第二集群中原来的DC3和DC4，以保证两个分片数据的一致性。这种同步方式允许任何时间间隔的同步。由于是进行增量同步，任何时间间隔的同步后，都能保证第二集群中的数据与第一集群是全量同步的，是最新的数据。

S104、第一集群和第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。

具体过程为：采用两个对等节点的第一集群和第二集群。两个集群采用逻辑上相同、物理上相似的软硬件，例如由两套完全独立的56节点及8加载机组成的MPP集群构成，这种配置方式一方面是异常切换的物理要求，一方面是数据同步的要求。

第一集群上配套数据批量加工调度系统和数据同步工具，主要司职批量加工，保证为上游提供T+1时效的批量数据。第一集群上配有计算节点和加载机，计算节点进行数据库内处理，例如数据加载、DML/DDL操作等，加载机上部署总控程序，进行作业处理的总体控制和数据的初步处理。在批量加工完成后(包括所有批量完成和部分批量完成两种情况)，由数据同步系统以二进制的方式进行增量数据同步至第二集群，为保证两个集群的数据加工一致性，同步完成后会对数据进行概要校验和全量校验。

第二集群上有拥有数量相同的计算节点，主要负责对外提供T+2的对外访问服务。加载机在切换的时候会启用，在常规情况下(即第二集群只提供联机查询时)，第二集群中的加载机可空置或作为其他使用。当数据同步和一致性校验完成后，第二集群上可对外服务的数据会计日期加一(即翻牌)，以满足实时的联机数据查询服务。

第一集群的源数据由下层的Hadoop提供。Hadoop统一实现数据的预处理(ODS过程)，处理完成后加载到第一集群。第一集群加工完成的数据将提供给上游数据应用层，第二集群的数据只供上游查询使用，这样同时满足了查询和备份的双重功效。

本发明公开了一种大数据平台业务双活实现方法，包括：Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；第一集群和第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。本发明基于列存储的MPP数据库架构，在同构的集群间节点对节点的实现二进制数据的增量同步，通过传输压缩态的增量文件块，使批量查询分离的同时又保证了联机查询的时效性，解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

请参阅附图4，图4为本发明另一实施例公开的一种大数据平台业务双活实现方法的流程示意图。具体的，如图4所示，该方法应用于海量数据批量加工和实时联机查询，且基于列存储的MPP数据库架构，如图1所述，该方法具体包括如下步骤：

S401、Hadoop集群海量文件处理集群获取源文件进行保存，并对源文件中的源数据进行预处理。

S402、第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块。

S403、第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群。

S404、第一集群和第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。

以上步骤与图1中的步骤内容一致，每个步骤的具体内容请参阅图1对应的相关内容即可，在此不再进行详细赘述。

S405、对第一集群和第二集群的同步节点上进行数据校验。

为保证两个集群的数据加工一致性，系统中数据一致性校验模块会对对第一、第二集群进行概要校验和全量校验。主要包括校验数据采集、数据比对和校验预警。系统中建立了专门的比对库分别收集集群第一、第二的比对参数和指标，有比对程序比对数据生成比对结果。比对结果由监控系统提供界面查看、查询比对结果，必要时主动向监控人员发送提醒。

S406、向第三集群进行等节点做非定期数据同步或向第三集群进行非对等节点做定期数据同步。

系统不仅可以向对节点第二集群进行数据同步，在业务需要时，可以进行对等集群的扩展。多个对等节点之间的同步，既可以采用第一集群向其他集群分别同步的方式，如第一-->第二，第一-->第三，也采取第二集群向其他集群同步的方式，如第一-->第二，第二-->第三。后者可以节省第一集群的同步时间，进而确保批量加工时间的充足。这两种方式都支持按照实际需要选择同步窗口，若扩展集群对时效性要求不高，可不进行定期高频率的同步，而选择非定期低频率的同步。除了使用同步工具进行对等节点集群之间的数据同步外，本发明也使用DBLink方式支持向非对等节点集群进行数据同步。DBLink通过Where条件查询进行增量判断，以二进制传输的方式将DC块数据传输到计算传输目标节点，而不要求节点对节点的对等传输。

具体过程为：本发明采用两个对等的第一集群和第二集群。两个集群采用逻辑上相同、物理上相似的软硬件，例如由两套完全独立的56节点及8加载机组成的MPP集群构成，这种配置方式一方面异常切换的物理要求，一方面是数据同步的要求。

请参阅附图5，图5为本发明实施例公开的一种大数据平台业务双活实现系统结构示意图。如图5所示，本发明公开了一种大数据平台业务双活实现系统，应用于海量数据批量加工和实时联机查询，该系统基于列存储的MPP数据库架构，包括：第一集群U1、第二集群U2和Hadoop集群海量文件处理集群U3，其中，Hadoop集群海量文件处理集群U3获取源数据，并对源数据进行数据清洗和预处理；第一集群U1对源数据进行批量加工处理，且向上游集市及应用层提供T+1的数据批量导出及非对等节点的数据传输服务；第二集群U2利用批量加工过程中的空闲时间窗口接收第一集群U1传输当天加工的增量数据。

架构约束：第一、第二集群节点间需支持较高的传输效率，一般支持万兆；第二集群一般不进行写操作；集群第一、第二计算节点数相同。

本发明公开了一种大数据平台业务双活实现系统，包括：第一集群、第二集群和Hadoop集群海量文件处理集群，本发明基于列存储的MPP数据库架构，在同构的集群间节点对节点的实现二进制数据的增量同步，通过传输压缩态的增量文件块，使批量查询分离的同时又保证了联机查询的时效性，解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

请参阅附图6，图6为本发明实施例公开的一种大数据平台业务双活实现系统结构示意图。如图6所示，本发明公开了一种大数据平台业务双活实现系统，应用于海量数据批量加工和实时联机查询，该系统基于列存储的MPP数据库架构，包括：第一集群U1、第二集群U2和Hadoop集群海量文件处理集群U3，其中，Hadoop集群海量文件处理集群U3获取源数据，并对源数据进行数据清洗和预处理；第一集群U1对源数据进行批量加工处理，且向上游集市及应用层提供T+1的数据批量导出及非对等节点的数据传输服务；第二集群U2利用批量加工过程中的空闲时间窗口接收第一集群U1传输当天加工的增量数据；该系统还包括：批量调度模块U4、运行监控模块U5以及联机访问管理模块U6，其中：

批量调度系统U4进行批量加工的调配管理、并发控制和同步控制，确保批量加工过程按照作业的依赖关系和并发控制进行；

运行监控系统U5对第一集群U1和第二集群U2计算资源的运行状态、使用情况、批量进度、数据一致性进行监控并预警；

联机访问管理系统U6负责访问方式、访问权限以及访问负载的控制，根据集群可访问状态、访问目标数据要求、集群负载情况。

具体的，运行监控系统U5还用于定期对运行状况进行分析、发布运行分析报告；联机访问管理系统U6还用于确定查询方式、分配查询资源以及路由查询目标库。

对于在实现过程中，在分层加工过程中，会生成多张表，满足数据的存储需求。这些表根据数据存储方式分为时间切片表和时间拉链表，根据加工流程划分为临时表、派生表和目标表。在同步系统中操作的对象是目标表，涉及时间切片表和时间拉链两种类型。时间切片表是指在存储过程中为每个会计日期的数据添加时间戳，按照时间戳进行增量存储。时间拉链表是对入库的主档表数据生成三个日期(开始日期startdate、结束日期enddate和有效日期validdate)，形成日期拉链，去除重复数据，反映数据变化历史，便于上层查询。具体的，表与作业的关系如下所述：

ODS/BDS/GDS各层的运行是通过调度系统来控制并完成的。调度系统是以作业为单位来运行。调度系统首先把系统中数据流程的每个具体处理阶段定义为一个作业，再以作业为基础、把系统的整个数据处理流程配置为一条以执行顺序为线索的作业链。调度系统通过调度管理这条包含了各个作业及作业间相互关系的作业链的方式，实现了统一调度管理功能。

按照依赖关系从底层向上层可以分为作业、作业链、应用、集群。即一个集群中可包含多个应用，一个应用中有多条作业链，每条作业链包含一个或多个作业。不同作业对应的处理过程不一样，系统中将这部分作业处理流程写到一个shell脚本中，然后使用统一的总控程序调用这个shell脚本。

总控程序分为三个重要部分，开头、调用作业程序和结尾。其中开头和结尾是公共部分，开头主要进行参数、脚本、数据的检查和记录开始加工时间等，结尾部分是返回作业加工完成状态和耗时、结束时间等信息。因此可以在开头和结尾部分添加标识，以供作业加工信息统计使用。本系统在总控程序的开头添加作业开始标记，在总控程序的结尾添加作业结束标记，并以此作为作业是否加工完成的判断依据。

作业在加工过程中会生成一张或多张表，包括目标表、临时表和派生表等类型。集群、作业链、作业和表之间的关系参见附图7，图7为本发明实施例中表与作业的关系图。

综上所述，本发明公开了一种大数据平台业务双活实现方法及系统，包括：Hadoop集群海量文件处理集群获取源文件进行保存，并对所述源文件中的源数据进行预处理；第一集群进行数据加工，得到数据加工结果，并对数据加工结果进行节点分块；第一集群上的数据加工结果通过同步工具将相关数据同步至第二集群；第一集群和第二集群具有相同的节点数，其之间通过二进制数据进行节点对节点的增量同步。本发明基于列存储的MPP数据库架构，在同构的集群间节点对节点的实现二进制数据的增量同步，通过传输压缩态的增量文件块，使批量查询分离的同时又保证了联机查询的时效性，解决批量加工和联机实时查询之间的时间、资源上存在冲突的问题。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种大数据平台业务双活实现方法，其特征在于，应用于海量数据批量加工和实时联机查询，该方法基于列存储的MPP数据库架构，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

向第三集群进行等节点做非定期数据同步；

或

向所述第三集群进行非对等节点做定期数据同步。

4.一种大数据平台业务双活实现系统，其特征在于，应用于海量数据批量加工和实时联机查询，该系统基于列存储的MPP数据库架构，包括：第一集群、第二集群和Hadoop集群海量文件处理集群，其中，

5.根据权利要求4所述的系统，其特征在于，还包括：批量调度模块、运行监控模块以及联机访问管理模块，其中

6.根据权利要求5所述的系统，其特征在于，所述运行监控系统还用于定期对运行状况进行分析、发布运行分析报告。

7.根据权利要求5所述的系统，其特征在于，所述联机访问管理系统还用于确定查询方式、分配查询资源以及路由查询目标库。

8.根据权利要求7所述的系统，其特征在于，所述查询方式为同步查询方式或异步查询方式。