CN112507029A

CN112507029A - 数据处理系统及数据实时处理方法

Info

Publication number: CN112507029A
Application number: CN202011507251.0A
Authority: CN
Inventors: 郑志升
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-16
Anticipated expiration: 2040-12-18
Also published as: CN112507029B

Abstract

本申请实施例提供了一种从ODS层到DW层的数据实时处理方法，包括：接收所述ODS层的流式数据；根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎；及通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。本实施例所述的数据实时处理方法可以实现数据库中数据的实时更新和高效查询，以及可以消除离线和实时的差距，确保各类数据的时效性。

Description

数据处理系统及数据实时处理方法

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种数据处理系统以及一种从ODS层到DW层的数据实时处理方法、装置、计算机设备以及计算机可读存储介质。

背景技术

数据传输链路一般由数据源、网关、数据缓冲层、数据分发层和数据存储层构成。当数据源产生新数据时，该新数据会最终落地到数据存储层。数据存储层包括ODS(操作数据存储)层、DW(数据仓库)层和ADS(应用数据存储)层等。

在现有技术中，如图1所示，数据架构通常包括两条数据传输链路：实时数据传输链路和离线数据传输链路。其中，实时传输链路基于Flume进行实时数据上报，离线传输通过Datax按批进行离线数据上报。但是，上述现有技术包括以下缺陷：

(1)MySQL的离线数据需要以天为单位进行数据同步，时效性很差；

(2)离线传输和实时传输难于平衡，实时数据传输成本高，离线数据时效性差。

发明内容

本申请实施例的目的是提供一种数据处理系统以及一种从ODS层到DW层的数据实时处理方法、装置、计算机设备以及计算机可读存储介质，用于解决以下问题：(1)MySQL的离线数据需要以天为单位进行数据同步，时效性很差；(2)离线传输和实时传输难于平衡，实时数据传输成本高，离线数据时效性差。

本申请实施例的一个方面提供了一种数据处理系统，所述方法包括：，用于ODS层和DW层之间，所述数据处理系统包括：数据接口，用于接收所述ODS层的流式数据；数据处理引擎，用于根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎，并通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

可选的，所述多个计算引擎包括第一计算引擎和第二计算引擎，所述第一计算引擎用于在Append模式下将所述流式数据追加到所述DW层，所述第二计算引擎用于在Upsert模式下将所述流式数据变更到所述DW层。

可选的，根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎，包括：根据所述元数据信息确定所述流式数据的写入模式，所述写入模式包括所述Append模式和所述Upsert模式；当所述写入模式为Append模式时，则确定所述第一计算引擎为所述目标计算引擎；及当所述写入模式为Upsert模式时，则确定所述第二计算引擎为所述目标计算引擎。

可选的，所述元数据信息包括以下一个或多个：所述流式数据的数据来源、所述流式数据的数据类型及所述流式数据的使用场景。

可选的，根据所述元数据信息确定所述流式数据的写入模式，包括：当所述数据来源为数据库，则确定所述写入模式为Upsert模式；当所述数据来源为埋点，则判断所述使用场景是否数据记录场景或数据统计场景；当所述使用场景为所述数据记录场景时，则确定所述写入模式为所述Append模式；当所述使用场景为所述数据统计场景，则确定所述写入模式为所述Upsert模式。

可选的，所述流式数据包括：通过第一流式链路获取的实时数据；通过第二流式链路获取的离线数据的流式变更日志；其中，所述第一流式链路和第二流式链路分别包括基于Flink的数据分发节点用于数据处理。

可选的，第一计算引擎为Flink引擎。

可选的，第一计算引擎为HUDI引擎。

可选的，还包括：工作流定义模块，用于定义工作流，所述工作流包括多个计算节点，该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果；其中，通过所述数据处理引擎执行的数据处理为所述多个计算节点之一。

可选的，还包括：元数据模块，用于提供数据查询操作；所述数据查询操作包括查询数据存储位置和查询数据变化。

可选的，还包括：监控模块，用于监测数据源层和所述ODS层之间以及所述ODS层和所述DW层之间每条数据的数据状态；其中，所述数据状态包括数据丢失和数据清洗。

本申请实施例的再一个方面提供了一种从ODS层到DW层的数据实时处理方法，包括：接收所述ODS层的流式数据；根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎；及通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

可选的，所述多个计算引擎包括第一计算引擎和第二计算引擎，所述第一计算引擎用于在Append模式将所述流式数据追加到所述DW层，所述第二计算引擎用于在Upsert模式下将所述流式数据变更到所述DW层。

可选的，第一计算引擎为Flink引擎。

可选的，第一计算引擎为HUDI引擎。

可选的，还包括：定义工作流，所述工作流包括多个计算节点；该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果；其中，通过所述数据处理引擎执行的数据处理为所述多个计算节点之一。

可选的，还包括：根据输入进行数据查询操作；所述数据查询操作包括查询数据存储位置和查询数据变化。

可选的，还包括：监测数据源层和所述ODS层之间以及所述ODS层和所述DW层之间每条数据的数据状态；其中，所述数据状态包括数据丢失和数据清洗。

本申请实施例的再一个方面提供了一种从ODS层到DW层的数据实时处理装置，包括：接收模块，用于接收所述ODS层的流式数据；选择模块，用于根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎；及写入模块，用于通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

本申请实施例的再一个方面提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时用于实现上述从ODS层到DW层的数据实时处理方法的步骤。

本申请实施例的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时用于上述从ODS层到DW层的数据实时处理方法的步骤。

本申请实施例提供的数据处理系统以及从ODS层到DW层的数据实时处理方法、装置、计算机设备以及计算机可读存储介质，具有以下优势：

(1)时效性-实现数据库中数据的实时更新和高效查询：

由于配置有多种计算引擎，例如处理Json等格式的日志的计算引擎。因此，可以通过流式变更日志获取数据库中的增量数据，并调用相应的计算引擎根据流式变更日志将新增数据以Upsert模式实时更新到DW层中，保障数据源层中的数据库中数据的同步时效性。

(2)时效性-消除离线和实时的差距，确保各类数据的时效性：

由于配置有多种计算引擎，从而可以将对实时数据的传输和对数据库中数据的传输均配置为流式传输，保障ODS层可以分钟级别地同步数据源层中的各类数据，及保障数据源层的数据到DW层的时效性。

附图说明

图1示意性示出了现有技术中的数据架构；

图2示意性示出了根据本申请实施例的传输链路图；

图3示意性示出了根据本申请实施例的数据架构；

图4示意性示出了根据本申请实施例一的数据处理系统的框架图；

图5示意性示出了根据本申请实施例一的数据处理系统的具体示例图；

图6示意性示出了根据本申请实施例二的数据实时处理方法的流程图；

图7为图6中步骤S602的子流程图；

图8为图7中步骤S700的子流程图；

图9示意性示出了根据本申请实施例二的数据实时处理方法的新增流程图；

图10示意性示出了根据本申请实施例二的数据实时处理方法的另一新增流程图；

图11示意性示出了根据本申请实施例二的数据实时处理方法的另一新增流程图；

图12示意性示出了根据本申请实施例三的数据实时处理装置的框图；以及

图13示意性示出了根据本申请实施例四的适于实现数据处理装置的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

以下为现有技术以及技术缺陷：

在现有技术中，如图1所示，数据架构通常包括两条数据传输链路：实时数据传输链路和离线数据传输链路。其中，实时传输链路基于Flume进行实时数据上报，离线传输通过Datax进行离线数据上报。但是，上述现有技术包括以下缺陷：

一、时效性

(1)传输管道缺乏技术能力：

数据无法前置处理，导致ODS层到DW层的数据处理负担很大；

(2)Mysql无法实时更新和高效查询：

MySQL的离线数据需要通过Datax以天为单位进行数据同步，时效性很差；

MySQL的变更日志(Binlog日志)为Json格式，不适用于HIVE的操作。因此，需要到第二天拉起离线作业，将MySQL在上一天产生所有Binlog日志中的变化数据进行清洗操作，并将最终的变化数据更新到数据表中，这就导致：数据源层在当天产生的增量数据，需要到第二天才能够被更新到数据表中，时效性差。

(3)离线和实时的差距难满足：

大部分数据，对于纯实时则成本过高，而纯离线则时效太差；

Mysql的离线数据的入仓时效不够，超大规模的业务表同步时间过长且不稳定。

二、稳定性

(1)资源编排压力大；

大量离线作业资源集中爆发在凌晨后、难打散、SLA(Service-Level Agreement，服务等级协议)低；

(2)DW层和ADS层的优化难；

由于离线数据，按天计算任务，SQL经常会出现数据倾斜，资源OOM(Out OfMemory，内存耗完)等

(3)作业启动时间晚，报表产出慢；

DW层严重依赖ODS层数据的产出归档；

如果DW层计算产出慢(故障)，将导致ADS层的报表产出达不到SLA标准。

上面介绍了现有技术的缺陷，本申请旨在提供一个或多个实施例以解决上述缺陷。

为了方便理解，以下提供了一些术语解释：

全量数据，是数据源(数据表)中所有的数据。

增量数据，是上次导出之后的新数据。

数据湖(Data Lake)，是一个以原始格式存储数据的存储库或系统。

MySQL数据库，是一种基于关系型数据库管理系统的数据库。

Datax，是阿里巴巴集团提供的一种离线数据同步工具，用于实现包括MySQL、Postgre、HDFS、Hive、ADS、HBase等各种异构数据源之间高效的数据同步功能。

Flume，为实时日志收集工具。Flume可以接受各类型数据，对数据进行简单的处理之后传输到下游节点。

Kafka，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统，也可以作为消息队列系统。Kafka可以用于web/nginx日志、访问日志，消息服务等。Kafka是按秒进行任务的计算和应用，用于实时推荐、实时计算等场景中。

HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)，是一个分布式文件系统。HDFS的数据写入是按天进行任务的计算和应用。

HUDI(Apache Hudi)，采用并管理通过DFS(HDFS或云存储)存储大型分析数据集，支持在当前数据表中进行更新操作。

Binlog日志，是记录所有数据库表结构变更(如CREATE、ALTER TABLE)及表数据修改(INSERT、UPDATE、DELETE)的二进制日志。Binlog日志的格式为JSON。

ODS(Operation Data Store)层，为操作数据存储层，用于存放原始数据，如Binlog日志、数据。

DW(Data Warehouse)层，为数据仓库层，可以ODS层获取数据并按照主题建立各种数据模型，方便数据分析。其中，DW可以包括DWD层(Data Warehouse Detail，明显数据层)、DWS层(Data Warehouse Service，服务数据层)和DWT层(Data Warehouse Topic，数据主题层)。DWD层可以对ODS层的数据进行清洗(去除空值、脏数据)、维度化、脱敏等。DWS层可以以DWD层的数据为基础，按天进行轻度汇总。DWT层可以以DWS层的数据为基础，按主题进行汇总。

ADS(Application Data Store)层，为应用数据存储层。所述ADS层可以基于DW层的数据并结合业务场景，得到的面向实际应用(报表、业务系统)的数据。

图2示意性示出了根据本申请实施例的数据传输链路。

所述数据传输系统可以由下几部分组成：数据源层1、Collector 2、数据存储层3等。

数据源层，可以包括内部数据源，也可以是连接外部数据源的数据接口。所述数据源层中可以有多种格式的数据，例如，APP和Web的上报数据是HTTP(HyperText TransferProtocol，超文本传输协议)格式的数据，服务端的内部通信数据是RPC(Remote ProcedureCall，远程过程调用)格式的数据。如图1所示，所述数据源层的数据可以是通过一个或多个边缘节点接收的移动终端上报的日志数据等，也可以是数据库(如，Mysql)、日志代理(LogAgent)等各个系统或设备提供的数据。

经由网关和消息队列系统，数据源层可以将数据传输到Collector 2。其中：

网关，用于将数据源层提供的数据转发到消息队列系统中。所述网关可以适应各种不同的业务场景和数据协议，例如，被配置用于兼容解析HTTP(HyperText TransferProtocol，超文本传输协议)协议的APP和Web数据，和GRPC协议的内部通信数据。

消息队列系统，可以由一个或多个Kafka集群构成，用于将所述数据源层中的数据发布到相应的主题下。不同重要性、优先级、数据吞吐量的数据，可以被分流到不同的kafka集群中，以保障不同类型数据的价值，避免系统故障影响整体数据。

Collector 2，为基于Flink的流式分发节点。所述Collector 2可以通过消息队列系统的相应主题下消费数据并将数据进行转换和分发存储，即保障数据从消息队列系统获取并写入到数据存储层3中对应的存储终端，例如HDFS、Kafka、Hbase、ES(Elasticsearch)等。

数据存储层3，用于存储数据，可以由不同形式的数据库构成。数据存储层3包括ODS层、DW层和ADS层等。DW层依赖于ODS层，ADS层依赖于DW层。

即，所述数据传输链路的数据流向如下：数据源层1→网关→消息队列系统→Controller 2→数据存储层3。通过所述数据传输链路，数据源中的数据可以被传输到目标终端。具体如下：数据源层可以输出以LogId为流标识的数据流，通过HTTP、RPC等协议将这些数据上报给边缘节点，并依次经过网关、消息队列系统、Controller 2，并最终进入到数据存储层3。数据源层1也可以将数据库变更日志(如Mysql的Binlog日志)等通过Log Agent经由网关、消息队列系统、Controller 2进入数据存储层3中。

如图3所示，以下提供本申请的数据架构。

在本申请的数据架构中，将实时数据和离线数据分别通过一条流式链路(第一流式链路和第二流式链路)进行数据上报。本申请中的数据架构，引入Flink和Magneto架构。

第一：在每条流式链路中分别引入基于Flink的Controller。

(1)通过第一流式链路获取的实时数据；

通过第一流式链路中的Controller对实时数据进行处理得到对应实时数据的ODS数据。

(2)通过第二流式链路获取的离线数据的流式变更日志；

通过第二流式链路中的Controller对流式变更日志进行处理得到对应于离线数据的ODS数据。

第二：在ODS层和DW层之间引入Magneto架构。

通过Magneto架构对ODS层中不同链路的数据进行差异化处理，并处理之后的数据写入到DW层。

下文将提出一种数据处理系统，其位于ODS层和DW层之间，用于将ODS层的数据写入到DW层中。可以理解，下文中的数据处理系统即为所述Magneto架构。

实施例一

图4示意性示出了根据本申请实施例一的位于ODS层和DW层之间的数据处理系统的架构图。如图4所示，所述位于ODS层和DW层之间的数据处理系统可以包括：

(1)数据接口；

所述数据接口，用于接收所述ODS层的流式数据。所述流式数据包括以下至少两条链路得到的数据：

①通过第一流式链路获取的实时数据。

所述实时数据，可以通过埋点收集的移动终端实时产生的数据，或实时得到的其他数据。

②通过第二流式链路获取的离线数据的流式变更日志。

所述流式变更日志，可以是基于MySQL的Binlog日志，或描述数据库数据变更的其他日志。

其中，所述第一流式链路和第二流式链路分别包括基于Flink的数据分发节点用于数据处理。

相对于传统技术中的通过离线传输方式从数据库获取离线数据(如，离线的全量数据)，本申请实施例通过流式变更日志获取数据库的增量数据。由于流式变更日志是流式数据，可以实时产生和传输，因此确保了ODS层从数据库获取数据的时效性。

通过①和②可知，实时数据及数据库的数据均基于Flink进行流式传输和处理并被存储ODS层中。可知，ODS层可以分钟级别地同步数据源层1中的各类数据。

(2)工作流定义模块；

所述工作流定义模块，用于定义工作流，所述工作流包括多个计算节点，该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果；其中，通过下述数据处理引擎执行的数据处理为所述多个计算节点之一。

不同的流式数据可能对应不同的工作流。每个计算节点可以对应不同的计算逻辑。且不同的计算节点之间可以具有依赖关系。用户可以根据需要改变某个工作流的计算节点和不同计算节点之间的先后关系，根据修改后的工作流对流式数据进行处理。该工作流定义模块可以有效地增加数据处理的可定制性，并降低用户处理难度。

(3)数据处理引擎；

所述数据处理引擎，用于根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎，并通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

将所述流式数据写入到所述DW层，可以有多种写入模式，例如：

①Append模式，在于将新增数据追到DW层，而非将新增数据替换DW层中的已存储数据。

②Upsert模式，在于变更字段以实现增量更新。例如，将删除已存储数据，再插入新增数据。

为增加对不同数据的处理能力，所述多个计算引擎可以包括第一计算引擎和第二计算引擎。

其中，所述第一计算引擎用于在Append模式下将所述流式数据追加到所述DW层，所述第二计算引擎用于在Upsert模式下将所述流式数据变更到所述DW层。

其中，根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎，可以包括如下操作：操作一：根据所述元数据信息确定所述流式数据的写入模式，所述写入模式包括所述Append模式和所述Upsert模式；操作二：当所述写入模式为Append模式时，则确定所述第一计算引擎为所述目标计算引擎；及操作三：当所述写入模式为Upsert模式时，则确定所述第二计算引擎为所述目标计算引擎。通过此种方式，可以根据数据的写入模式调用不同的计算引擎。

其中，所述元数据信息包括以下一个或多个：所述流式数据的数据来源、所述流式数据的数据类型、所述流式数据的使用场景，以及用户自定义的其他特定需求等。

基于上述列举的元数据信息，根据所述元数据信息确定所述流式数据的写入模式，可以包括如下操作：操作一：当所述数据来源为数据库，则确定所述写入模式为Upsert模式；操作二：当所述数据来源为埋点，则判断所述使用场景是否数据记录场景或数据统计场景；当所述使用场景为所述数据记录场景时，则确定所述写入模式为所述Append模式；当所述使用场景为所述数据统计场景，则确定所述写入模式为所述Upsert模式。作为示例，当数据来源为MySQL且所述流式数据为Binlog日志时，则确定所述写入模式为Upsert模式。当数据来源为埋点，所述流式数据为用户点击记录，且所述流式数据所在数据流的需求在于获取每个用户点击记录时，则确定所述写入模式为所述Append模式，以将每个用户点击记录追到所述DW层中。当数据来源为埋点，所述流式数据为用户点击记录，且所述流式数据所在数据流的需求在于统计用户的点击总次数时，则确定所述写入模式为所述Upsert模式，以根据每个用户点击记录在所述DW层中更新所述用户的点击总次数。需要说明的是，以上仅是示例，并不用于限制本申请。在本数据处理系统中，所述流式数据无论来自数据库还是来自埋点，均可以选择相应的计算引擎将所述流式数据进行实时地写入到DW层，以保障流式数据的写入效率。

作为示例：第一计算引擎为Flink引擎。

Flink引擎用于执行Append模式下的操作，例如，将实时数据处理(如清洗)之后实时追到DW层中。

作为示例：第一计算引擎为HUDI引擎。

HUDI引擎用于执行Upsert模式下的操作，例如，将根据流式变更日志实时更新DW层中的数据。

现有技术中，由于所述流式变更日志不适用于HIVE的操作，因此，需要到第二天拉起离线作业，将在上一天产生所有流式变更日志中的变化数据进行清洗操作，并将最终的变化数据更新到DW层(如HDFS)的数据表中，这就导致：数据库在当天产生的增量数据，需要到第二天才能够被更新到DW层的数据表中，时效性差。

相较而言，本申请实施例引入HUDI引擎实现流式数据从ODS层到DW层的实时性。在本申请实施例中，DW层预先存储有基于某个时间节点的全量数据，并将全量数据转化为HUDI初始快照。当HUDI引擎可以根据流式变更日志更新HUDI初始快照，从而得到最新的HUDI数据，确保数据库中的增量数据能实时更新到DW层。

(4)元数据模块；

所述元数据模块用于提供数据查询操作。所述数据查询操作包括查询数据存储位置和查询数据变化。例如，通过所述元数据模块可以查询某个数据表所在的位置、数据的变化过程记录。

(5)监控模块；

所述监控模块用于：监测数据源层和所述ODS层之间以及所述ODS层和所述DW层之间每条数据的数据状态；其中，所述数据状态包括数据丢失和数据清洗。通过所述监控模块可以监控流式数据在传输和处理过程的状态，保障数据安全、可追溯。

本实施例所述的数据处理系统，在于流式传输和处理实时数据和离线数据，其包括以下优点：

(1)时效性-传输管道提供处理能力：

在本实施例中，所述流式数据是通过基于Flink的数据分发节点得到的。由于基于Flink的数据分发节点是具有数据实时处理(如数据清洗)能力的，因此可以做一定程度的前置处理，从而可以减轻ODS层到DW层的数据处理负担。

(2)时效性-实现数据库中数据的实时更新和高效查询：

本实施例的数据处理系统的底层配置有多种计算引擎，例如处理Json等格式的日志的计算引擎。因此，可以通过流式变更日志获取数据库中的增量数据，并调用相应的计算引擎根据流式变更日志(如，Binlog日志)将新增数据以Upsert模式实时更新到DW层中，保障数据源层中的数据库(如，MySQL)中数据的同步时效性。

(3)时效性-消除离线和实时的差距，确保各类数据的时效性：

由于本实施例的数据处理系统的底层配置有多种计算引擎，从而可以将对实时数据的传输和对数据库中数据的传输均配置为流式传输，保障ODS层可以分钟级别地同步数据源层1中的各类数据，及保障数据源层1的数据到DW层的时效性。

由于可以将对实时数据的传输和对数据库中数据的传输均配置为流式传输，保障成本大致相同的前提下，消除了实时数据和离线数据之间的传输差异，保障了离线数据的入仓到ODS层和DW层的时效性，确保超大规模的业务表同步时效性和稳定性。

(4)稳定性-减轻资源编排压力：

由于各类数据(实时数据、离线数据)均可以以流式传输方式实时传输到ODS层中，因此可以对这些数据进行实时处理或定时处理，从而避免了现有技术离线数据必须要到第二天凌晨集中处理的情况，从而有效地减轻了资源集中编排的压力。

(5)稳定性-优化ODS层和DW层的数据处理和传输：

由于本实施例中的数据处理系统的底层配置有多种计算引擎，从而可以将对实时数据的传输和对数据库中数据的传输均配置为流式传输，保障ODS层可以分钟级别地同步数据源层中的各类数据，通过本实施例的数据处理系统可以使得ODS层和DW层之间可以实时处理和传输。即ODS层和DW层之间不需要按天进行数据传输(当天的任务在于传输上一天的数据)，从从而避免数据倾斜、资源OOM等。

(6)稳定性-作业启动时间早，报表产出快：

DW层严重依赖ODS层数据的产出归档。在本实施例中，数据处理系统可以高效实时处理ODS层数据，从而确保ADS层的报表产出速度快，容易达到SLA标准。

如图5所示，以下提供一个具体示例。在该具体示例中，Magneto架构包括如下：

Magneto-Metadata：用于提供元数据查询等操作。

Magneto-API：用于接收所述ODS层的流式数据；

Magneto-Flow：用于定义工作流，所述工作流包括多个计算节点，该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果。

Magneto-Engine：用于描述所述流式数据需要调用哪一个计算引擎进行操作。

Flink引擎：作为供Magneto-Engine在Append模式下的调用的计算引擎。所述Append模式，在于将新增数据作为数据整理追加到DW层，而非将新增数据替换已存储数据。

HUDI引擎：作为供Magneto-Engine在Upsert模式下的调用的计算引擎。所述Upsert模式，在于变更字段以实现增量更新。例如，将删除已存储数据，再插入新增数据。

Magneto-Metric：监控每条流式数据的情况，如丢失、清洗等。

实施例三

图6示意性示出了根据本申请实施例二的从ODS层到DW层的数据实时处理方法的流程图。下面计算机设备为执行主体进行示例性描述。需要说明的是，该计算机设备可以服务器集群。

如图6所示，该从ODS层到DW层的数据实时处理方法可以包括步骤S600～步骤S604，其中：

步骤S600，接收所述ODS层的流式数据。

作为示例，所述流式数据包括：

通过第一流式链路获取的实时数据；

通过第二流式链路获取的离线数据的流式变更日志(如，Binlog日志)；

步骤S602，根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎。

在示例性的实施例中，所述多个计算引擎可以包括第一计算引擎和第二计算引擎。其中，所述第一计算引擎用于在Append模式将所述流式数据追加到所述DW层，所述第二计算引擎用于在Upsert模式下将所述流式数据变更到所述DW层。

在示例性的实施例中，如图7所示，所述步骤S602可以包括步骤S700～S704，其中：步骤S700，根据所述元数据信息确定所述流式数据的写入模式，所述写入模式包括所述Append模式和所述Upsert模式；步骤S702，当所述写入模式为Append模式时，则确定所述第一计算引擎为所述目标计算引擎；及步骤S704，当所述写入模式为Upsert模式时，则确定所述第二计算引擎为所述目标计算引擎。

在示例性的实施例中，所述元数据信息包括以下一个或多个：所述流式数据的数据来源、所述流式数据的数据类型及所述流式数据的使用场景。

在示例性的实施例中，如图8所示，所述步骤S700可以包括步骤S800～S802，其中：步骤S800，当所述数据来源为数据库，则确定所述写入模式为Upsert模式；步骤S802，当所述数据来源为埋点，则判断所述使用场景是否数据记录场景或数据统计场景；当所述使用场景为所述数据记录场景时，则确定所述写入模式为所述Append模式；当所述使用场景为所述数据统计场景，则确定所述写入模式为所述Upsert模式。

步骤S604，通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

在示例性的实施例中，如图9所示，所述方法还可以包括步骤S900，定义工作流，所述工作流包括多个计算节点；该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果；其中，通过所述数据处理引擎执行的数据处理为所述多个计算节点之一。

在示例性的实施例中，如图10所示，所述方法还可以包括步骤S1000，根据输入进行数据查询操作；所述数据查询操作包括查询数据存储位置和查询数据变化。

在示例性的实施例中，如图11所示，所述方法还可以包括步骤S1100，监测数据源层和所述ODS层之间以及所述ODS层和所述DW层之间每条数据的数据状态。其中，所述数据状态包括数据丢失和数据清洗。

例如底层基于Clickhouse存储，统计各个环节的数据输出量和数据输入量。通过该各个环节的数据输出量和数据输入量，即可以得到数据流向图，亦可以得到各个环节是否出现数据丢失。例如，监控以下一个或多个过程的数据输入量和数据输出量：

(1)数据源层1将流式数据写入ODS层的过程；

(2)通过所述流式数据经过第一计算引擎处理过程；

(3)将第一计算引擎处理后的流式数据写入DW层的过程；

(4)通过所述流式数据经过第二计算引擎处理过程；

(5)将第二计算引擎处理后的流式数据写入DW层的过程；

在示例性的实施例中，第一计算引擎为Flink引擎。

在示例性的实施例中，第一计算引擎为HUDI引擎。

实施例三

图12示出了根据本申请实施例三的从ODS层到DW层的数据实时处理装置的框图，该从ODS层到DW层的数据实时处理装置可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例中各程序模块的功能。如图12所示，从ODS层到DW层的数据实时处理装置1200可以包括以下组成部分：

接收模块1210，用于接收所述ODS层的流式数据；

选择模块1220，用于根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎；及

写入模块1230，用于通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

可选的，所述选择模块1220，还用于：根据所述元数据信息确定所述流式数据的写入模式，所述写入模式包括所述Append模式和所述Upsert模式；当所述写入模式为Append模式时，则确定所述第一计算引擎为所述目标计算引擎；及当所述写入模式为Upsert模式时，则确定所述第二计算引擎为所述目标计算引擎。

可选的，所述选择模块1220，还用于：当所述数据来源为数据库，则确定所述写入模式为Upsert模式；当所述数据来源为埋点，则判断所述使用场景是否数据记录场景或数据统计场景；当所述使用场景为所述数据记录场景时，则确定所述写入模式为所述Append模式；当所述使用场景为所述数据统计场景，则确定所述写入模式为所述Upsert模式。

可选的，第一计算引擎为Flink引擎。

可选的，第一计算引擎为HUDI引擎。

可选的，还包括工作流定义模块(未标识)，用于：定义工作流，所述工作流包括多个计算节点；该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果；其中，通过所述数据处理引擎执行的数据处理为所述多个计算节点之一。

可选的，还包括元数据模块(未标识)，用于：根据输入进行数据查询操作；所述数据查询操作包括查询数据存储位置和查询数据变化。

可选的，还包括监测模块(未标识)，用于：监测数据源层和所述ODS层之间以及所述ODS层和所述DW层之间每条数据的数据状态；其中，所述数据状态包括数据丢失和数据清洗。

实施例四

图13示意性示出了根据本申请实施例四的适于实现从ODS层到DW层的数据实时处理装置的计算机设备的硬件架构示意图。所述计算机设备13其是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是多个服务器所组成的服务器集群，所述多个服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等。如图13所示，计算机设备13至少包括但不限于：可通过系统总线相互通信链接存储器1310、处理器1320、网络接口1330。其中：

存储器1310至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器1310可以是计算机设备13的内部存储模块，例如该计算机设备13的硬盘或内存。在另一些实施例中，存储器1310也可以是计算机设备13的外部存储设备，例如该计算机设备13上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器1310还可以既包括计算机设备13的内部存储模块也包括其外部存储设备。本实施例中，存储器1310通常用于存储安装于计算机设备13的操作系统和各类应用软件，例如从ODS层到DW层的数据实时处理装置的程序代码等。此外，存储器1310还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器1320在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器1320通常用于控制计算机设备13的总体操作，例如执行与计算机设备13进行数据交互或者通信相关的控制和处理等。本实施例中，处理器1320用于运行存储器1310中存储的程序代码或者处理数据。

网络接口1330可包括无线网络接口或有线网络接口，该网络接口1330通常用于在计算机设备13与其他计算机设备之间建立通信连接。例如，网络接口1330用于通过网络将计算机设备13与外部终端相连，在计算机设备13与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图13仅示出了具有部件1310-1330的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器1310中的从ODS层到DW层的数据实时处理装置还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器1320)所执行，以完成本申请。

实施例五

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的从ODS层到DW层的数据实时处理装置的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的从ODS层到DW层的数据实时处理装置的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种数据处理系统，其特征在于，用于ODS层和DW层之间，所述数据处理系统包括：

数据接口，用于接收所述ODS层的流式数据；

数据处理引擎，用于根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎，并通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

2.根据权利要求1所述的数据处理系统，其特征在于，所述多个计算引擎包括第一计算引擎和第二计算引擎，所述第一计算引擎用于在Append模式下将所述流式数据追加到所述DW层，所述第二计算引擎用于在Upsert模式下将所述流式数据变更到所述DW层。

3.根据权利要求2所述的数据处理系统，其特征在于，根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎，包括：

根据所述元数据信息确定所述流式数据的写入模式，所述写入模式包括所述Append模式和所述Upsert模式；

当所述写入模式为Append模式时，则确定所述第一计算引擎为所述目标计算引擎；及

当所述写入模式为Upsert模式时，则确定所述第二计算引擎为所述目标计算引擎。

4.根据权利要求3所述的数据处理系统，其特征在于，所述元数据信息包括以下一个或多个：所述流式数据的数据来源、所述流式数据的数据类型及所述流式数据的使用场景。

5.根据权利要求4所述的数据处理系统，其特征在于，根据所述元数据信息确定所述流式数据的写入模式，包括：

当所述数据来源为数据库，则确定所述写入模式为Upsert模式；

当所述数据来源为埋点，则判断所述使用场景是否数据记录场景或数据统计场景；当所述使用场景为所述数据记录场景时，则确定所述写入模式为所述Append模式；当所述使用场景为所述数据统计场景，则确定所述写入模式为所述Upsert模式。

6.根据权利要求1至5任意一项所述的数据处理系统，其特征在于，所述流式数据包括：

通过第一流式链路获取的实时数据；

通过第二流式链路获取的离线数据的流式变更日志；

7.根据权利要求1至5任意一项所述的数据处理系统，其特征在于，第一计算引擎为Flink引擎。

8.根据权利要求1至5任意一项所述的数据处理系统，其特征在于，第一计算引擎为HUDI引擎。

9.根据权利要求1至5任意一项所述的数据处理系统，其特征在于，还包括：

工作流定义模块，用于定义工作流，所述工作流包括多个计算节点，该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果；其中，通过所述数据处理引擎执行的数据处理为所述多个计算节点之一。

10.根据权利要求1至5任意一项所述的数据处理系统，其特征在于，还包括：

元数据模块，用于提供数据查询操作；所述数据查询操作包括查询数据存储位置和查询数据变化。

11.根据权利要求1至5任意一项所述的数据处理系统，其特征在于，还包括：

监控模块，用于监测数据源层和所述ODS层之间以及所述ODS层和所述DW层之间每条数据的数据状态；其中，所述数据状态包括数据丢失和数据清洗。

12.一种从ODS层到DW层的数据实时处理方法，其特征在于，包括：

接收所述ODS层的流式数据；

根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎；及

通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

13.根据权利要求12所述的数据实时处理方法，其特征在于，所述多个计算引擎包括第一计算引擎和第二计算引擎，所述第一计算引擎用于在Append模式将所述流式数据追加到所述DW层，所述第二计算引擎用于在Upsert模式下将所述流式数据变更到所述DW层。

14.根据权利要求13所述的数据实时处理方法，其特征在于，根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎，包括：

15.根据权利要求14所述的数据实时处理方法，其特征在于，所述元数据信息包括以下一个或多个：所述流式数据的数据来源、所述流式数据的数据类型及所述流式数据的使用场景。

16.根据权利要求15所述的数据实时处理方法，其特征在于，根据所述元数据信息确定所述流式数据的写入模式，包括：

17.根据权利要求11至16任意一项所述的数据实时处理方法，其特征在于，所述流式数据包括：

通过第一流式链路获取的实时数据；

通过第二流式链路获取的离线数据的流式变更日志；

18.根据权利要求11至16任意一项所述的数据实时处理方法，其特征在于，第一计算引擎为Flink引擎。

19.根据权利要求11至16任意一项所述的数据实时处理方法，其特征在于，第一计算引擎为HUDI引擎。

20.根据权利要求11至16任意一项所述的数据实时处理方法，其特征在于，还包括：

定义工作流，所述工作流包括多个计算节点；

该多个计算节点基于所述工作流对相应的流式数据进行有序处理，从而得到相应的处理结果；其中，通过所述数据处理引擎执行的数据处理为所述多个计算节点之一。

21.根据权利要求11至16任意一项所述的数据实时处理方法，其特征在于，还包括：

根据输入进行数据查询操作；所述数据查询操作包括查询数据存储位置和查询数据变化。

22.根据权利要求11至16任意一项所述的数据实时处理方法，其特征在于，还包括：

监测数据源层和所述ODS层之间以及所述ODS层和所述DW层之间每条数据的数据状态；其中，所述数据状态包括数据丢失和数据清洗。

23.一种从ODS层到DW层的数据实时处理装置，其特征在于，包括：

接收模块，用于接收所述ODS层的流式数据；

选择模块，用于根据所述流式数据的元数据信息从多个计算引擎中选择目标计算引擎；及

写入模块，用于通过所述目标计算引擎将所述流式数据从所述ODS层写入到所述DW层。

24.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求12至22任一项所述从ODS层到DW层的数据实时处理方法的步骤。

25.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时用于实现权利要求12至22任一项所述从ODS层到DW层的数据实时处理方法的步骤。