CN113342826A

CN113342826A - 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统

Info

Publication number: CN113342826A
Application number: CN202110749357.XA
Authority: CN
Inventors: 冯歆尧; 彭泽武; 苏华权; 梁盈威; 高伟; 丘志新
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-09-03

Abstract

本发明提供一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统，该方法包括如下步骤：使用数据目标适配器对异构数据库中的多个类型不同的电网数据进行统一适配；使用采集方式不同的多个数据采集引擎从异构数据库中采集得到多个电网数据；使用数据操作控制器对采集得到的多个电网数据进行数据同步；使用数据流向控制器对同步后的多个电网数据进行统一流向控制。

Description

一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及系统。

背景技术

完整的大数据平台在运行期间，一般涉及以下几个数据操作过程：数据采集、数据存储、数据处理、数据展视。

电网数据通常存储在不同地区的电网数据库中，这些电网数据库集合形成异构数据库，以实现多个电网数据库之间的数据共享和透明访问，但由于各个电网数据库的字段类型和/或存储方式可能会不同，各个电网数据库中的电网数据之间类型也可能会不同。因此在对电网数据进行采集的过程中，一般使用采集方式不同的多个数据采集引擎从异构数据库中采集得到多个电网数据，然后令这些电网数据流向数据存储系统进行数据存储，或流向数据处理系统进行数据处理，或流向数据展视系统进行数据展视。在上述数据操作过程中，需针对不同类型的电网数据采用不同的数据流向工具进行多次流向控制，难以实现统一管理。

发明内容

本发明要解决的技术问题是在对电网数据进行数据操作过程中如何实现统一管理。

为解决上述技术问题，本发明提供一种对不同数据采集引擎的数据操作进行统一管理的方法，包括如下步骤：

A.使用数据目标适配器对异构数据库中的多个类型不同的电网数据进行统一适配；

B.使用采集方式不同的多个数据采集引擎从异构数据库中采集得到多个电网数据；

C.使用数据操作控制器对采集得到的多个电网数据进行数据同步；

D.使用数据流向控制器对同步后的多个电网数据进行统一流向控制。

优选地，所述步骤B中，使用采集过程监控器对采集方式不同的多个数据采集引擎的采集过程进行统一监控。

优选地，所述步骤B中，所述采集过程包括数据读取、数据传输、数据转换和数据加载。

优选地，所述步骤C中，所述数据操作控制器包括异构数据源离线同步工具DataX。

优选地，所述步骤D中，所述统一流向控制包括数据流向分发和数据流向截断。

优选地，所述数据流向控制器包括Apache Camel框架和调度控制器Azkaban。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的对不同数据采集引擎的数据操作进行统一管理的方法。

本发明还提供一种对不同数据采集引擎的数据操作进行统一管理的系统，包括相互连接的计算机可读存储介质和处理器，计算机可读存储介质如上所述。

本发明具有以下有益效果：在对电网数据进行采集之前，使用数据目标适配器对异构数据库中的多个类型不同的电网数据进行统一适配，使得异构数据库中的多个电网数据类型相同；在对电网数据进行采集之后，使用数据操作控制器对采集得到的多个电网数据进行数据同步，使得多个电网数据能同步实现数据流向；因此，使用数据流向控制器就能对同步后的多个电网数据进行统一流向控制，无需针对不同类型的电网数据采用不同的数据流向工具进行多次流向控制，实现了对不同数据采集引擎的数据操作进行统一管理。

附图说明

图1是对不同数据采集引擎的数据操作进行统一管理的方法流程图。

具体实施方式

以下结合具体实施方式对本发明创造作进一步详细说明。

本实施例提供一种对不同数据采集引擎的数据操作进行统一管理的系统，该系统包括相互连接的计算机可读存储介质和处理器，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如图1所示的对不同数据采集引擎的数据操作进行统一管理的方法，该方法具体包括如下步骤A、B、C、D。

A.使用数据目标适配器对异构数据库中的多个类型不同的电网数据进行统一适配。

本实施例中，数据目标适配器包括适配于MySQL数据库的Canal框架和适配于Oracle数据库的Golden Gate框架(简称OGG)。

Canal框架是阿里开源的框架，可以很方便地同步数据库的增量数据到其他的存储应用，其主要用途是基于MySQL数据库增量日志解析，提供增量数据订阅和消费。

Canal框架的工作原理就是把自己伪装成MySQL slave，模拟MySQL slave的交互协议向MySQL Mater发送dump协议，MySQL mater收到canal发送过来的dump请求，开始推送binary log给canal，然后canal解析binary log，再发送到存储目的地，比如MySQL，Kafka，Elastic Search等等。

OGG提供异构环境下交易数据的实时捕捉、变换、投递。OGG包括如下进程：Manger、Extract、Data Pump、Collector和Replicat。

Manager进程是Golden Gate框架的控制进程，运行在源端和目标端上。它主要作用有以下几个方面：启动、监控、重启Golden Gate框架的其他进程，报告错误及事件，分配数据存储空间，发布阀值报告等。在目标端和源端有且只有一个Manager进程。

Extract运行在数据库源端，负责从源端数据表或者日志中捕获数据。Extract的作用可以按照阶段来划分为：(1)初始时间装载阶段：在初始数据装载阶段，Extract进程直接从源端的数据表中抽取数据；(2)同步变化捕获阶段：初始数据同步完成以后，Extract进程负责捕获源端数据的变化(DML和DDL)。

Data Pump进程运行在数据库源端，其作用是将源端产生的本地trail文件，把trail以数据块的形式通过TCP/IP协议发送到目标端，这通常也是推荐的方式。pump进程本质是extract进程的一种特殊形式，如果不使用trail文件，那么extract进程在抽取完数据以后，直接投递到目标端，生成远程trail文件。

Collector进程与Data Pump进程对应的叫Server Collector进程，这个进程不需要引起我的关注，因为在实际操作过程中，无需我们对其进行任何配置，所以对我们来说它是透明的。它运行在目标端，其任务就是把Extract/Pump投递过来的数据重新组装成远程ttrail文件。

Replicat进程，通常我们也把它叫做应用进程。运行在目标端，是数据传递的最后一站，负责读取目标端trail文件中的内容，并将其解析为DML或DDL语句，然后应用到目标数据库中。

B.使用采集方式不同的多个数据采集引擎从异构数据库中采集得到多个电网数据。

本实施例中，使用采集方式不同的多个数据采集引擎从异构数据库中采集得到多个电网数据的过程包括数据读取、数据传输、数据转换和数据加载。在采集过程中使用采集过程监控器对采集方式不同的多个数据采集引擎的采集过程进行统一监控，以实现对不同数据采集引擎的采集过程的统一监控。

数据采集引擎包括流式采集引擎、批量采集引擎、CDC采集引擎和网络爬虫采集引擎。对每个电网租户空间，数据采集模块利用这四种数据采集引擎分别采集四种类型的电网数据，具体地，数据采集模块利用流式采集引擎采集得到实时数据，利用批量采集引擎采集得到离线数据，利用CDC采集引擎采集得到实时变更数据，利用网络爬虫采集引擎采集得到网络数据。

流式采集引擎包括用于实时计算的分布式实时大数据处理框架——Storm流式处理框架，其具有免费开源、分布式、高容错的特性，使得持续不断的流计算变得容易。与常规的Hadoop大数据处理框架相比，Storm流式处理框架弥补了Hadoop大数据处理框架所不能满足的实时要求。

Storm流式处理框架包括主控节点Nimbus和工作节点Supervisor，主控节点Nimbus只有一个，工作节点Supervisor可以有多个。主控节点Nimbus运行Nimbus守护进程，负责在集群中分发代码，对节点分配任务，并监视主机故障。每个工作节点Supervisor运行Supervisor守护进程，负责监听工作节点上已经分配的主机作业，启动和停止Nimbus已经分配的工作进程。Storm流式处理框架还包括Zookeeper组件和Worker组件，Supervisor定时从Zookeeper获取拓补信息topologies、任务分配信息assignments及各类心跳信息，以此为依据进行任务分配。各个Supervisor会进行数据同步，在同步时，会根据新的任务分配情况来启动新的Worker或者关闭旧的Worker并进行负载均衡。

CDC采集引擎(集中式数据采集引擎)是非侵入式的CDC采集引擎，具体是基于日志的CDC采集引擎，其把数据采集过程中的每个插入、更新、删除操作记录到日志里，从而采集得到实时变更数据。基于日志的CDC采集引擎在进行数据采集操作时，不会给源系统带来性能影响。

网络爬虫采集引擎和批量采集引擎都包括采用包括Python编写的应用框架——Scrapy框架。网络爬虫采集引擎中的Scrapy框架用于抓取网络站点页面并从网络站点页面中提取结构性数据，从而得到网络数据；批量采集引擎中的Scrapy框架用于抓取屏幕页面并从屏幕页面中提取结构性数据，从而得到离线数据。

C.使用数据操作控制器对采集得到的多个电网数据进行数据同步。

本实施例中，数据操作控制器包括异构数据源离线同步工具DataX，DataX是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。因此，本实施例使用包括异构数据源离线同步工具DataX的数据操作控制器对采集得到的多个电网数据进行数据同步。

DataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统，每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

DataX本身作为离线数据同步框架，采用Framework+plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。其中：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework；Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端；Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader→Channel→Writer的线程来完成任务同步工作。DataX作业运行起来之后，Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0。

DataX作为一个服务于大数据的ETL工具，除了提供数据快照搬迁功能之外，还提供了丰富数据转换的功能，让数据在传输过程中可以轻松完成数据脱敏、补全、过滤等数据转换功能，另外还提供了自动groovy函数，让用户自定义转换函数。

本实施例中，数据流向控制器包括Apache Camel框架和调度控制器Azkaban，基于Apache Camel框架和调度控制器Azkaban，数据流向控制器可对同步后的多个电网数据进行统一流向控制。使用数据流向控制器对同步后的多个电网数据进行统一流向控制，包括对同步后的多个电网数据进行数据流向分发和数据流向截断。

Apache Camel框架是轻量级esb框架，Apache Camel作为集成项目的利器，针对应用集成场景的抽象出了一套消息交互模型，通过组件的方式进行第三方系统的接入，目前Apache Camel已经提供了300多种组件能够接入HTTP，JMS，TCP，WS-*，WebSocket等多种传输协议。Apache Camel结合企业应用集成模式(EIP)的特点提供了消息路由，消息转换等领域特定语言(DSL)，极大降低了集成应用的开发难度。Apache Camel通过URI的方式来定义需要集成的应用节点信息，用户可以按照业务需求使用DSL快速编写消息路由规则，而无需关注集成协议的细节问题。与传统的企业集成服务总线(ESB)相比，Apache Camel的核心库非常小巧(是一个大小只有几兆的jar包)，可以方便地与其他系统进行集成。

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪工作流。

综上，本实施例在对电网数据进行采集之前，使用数据目标适配器对异构数据库中的多个类型不同的电网数据进行统一适配，使得异构数据库中的多个电网数据类型相同；在对电网数据进行采集之后，使用数据操作控制器对采集得到的多个电网数据进行数据同步，使得多个电网数据能同步实现数据流向；因此，使用数据流向控制器就能对同步后的多个电网数据进行统一流向控制，无需针对不同类型的电网数据采用不同的数据流向工具进行多次流向控制，实现了对不同数据采集引擎的数据操作进行统一管理。

如上所述仅为本发明创造的实施方式，不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换，仍落入专利保护范围。

Claims

1.一种对不同数据采集引擎的数据操作进行统一管理的方法，其特征是，包括如下步骤：

2.根据权利要求1所述的对不同数据采集引擎的数据操作进行统一管理的方法，其特征是，所述步骤B中，使用采集过程监控器对采集方式不同的多个数据采集引擎的采集过程进行统一监控。

3.根据权利要求2所述的对不同数据采集引擎的数据操作进行统一管理的方法，其特征是，所述步骤B中，所述采集过程包括数据读取、数据传输、数据转换和数据加载。

4.根据权利要求1所述的对不同数据采集引擎的数据操作进行统一管理的方法，其特征是，所述步骤C中，所述数据操作控制器包括异构数据源离线同步工具DataX。

5.根据权利要求1所述的对不同数据采集引擎的数据操作进行统一管理的方法，其特征是，所述步骤D中，所述统一流向控制包括数据流向分发和数据流向截断。

6.根据权利要求1所述的对不同数据采集引擎的数据操作进行统一管理的方法，其特征是，所述数据流向控制器包括Apache Camel框架和调度控制器Azkaban。

7.计算机可读存储介质，其上存储有计算机程序，其特征是，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的对不同数据采集引擎的数据操作进行统一管理的方法。

8.一种对不同数据采集引擎的数据操作进行统一管理的系统，包括相互连接的计算机可读存储介质和处理器，其特征是，计算机可读存储介质如权利要求7所述。