CN113568966A - 用于ods层和dw层之间的数据处理方法与系统 - Google Patents
用于ods层和dw层之间的数据处理方法与系统 Download PDFInfo
- Publication number
- CN113568966A CN113568966A CN202110865928.6A CN202110865928A CN113568966A CN 113568966 A CN113568966 A CN 113568966A CN 202110865928 A CN202110865928 A CN 202110865928A CN 113568966 A CN113568966 A CN 113568966A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- partition
- ods
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 110
- 230000005540 biological transmission Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000013524 data verification Methods 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000005192 partition Methods 0.000 claims description 125
- 238000013500 data storage Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000011144 upstream manufacturing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 8
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010348 incorporation Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种用于ODS层和DW层之间的数据处理方法,所述方法包括:从所述ODS层中读取数据;将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。本申请实施例提供的技术方案,通过引入校验机制,可以保障DW层下游的数据质量。即,在数据全部湖化前,湖仓的过程中存在联动,通过所述数据校验操作对数据质量兜底。
Description
技术领域
本申请实施例涉及流式数据传输与处理技术领域,尤其涉及一种用于ODS层和DW层之间的数据处理方法、装置、计算机设备以及计算机可读存储介质,以及一种用于ODS层和DW层之间的数据处理系统。
背景技术
数据传输链路一般由数据源、网关、数据缓冲层、数据分发层和数据存储层构成。当数据源产生新数据时,该新数据会最终落地到数据存储层。数据存储层包括ODS(操作数据存储)层、DW(数据仓库)层和ADS(应用数据存储)层等。但是,在现有技术中,将ODS层的数据写入到DW层,无法评估DW层的数据质量。
发明内容
本申请实施例的目的是提供一种用于ODS层和DW层之间的数据处理系统以及一种用于ODS层和DW层之间的数据处理方法、装置、计算机设备以及计算机可读存储介质,用于解决以下问题:将ODS层的数据写入到DW层,无法评估DW层的数据质量。
本申请实施例的一个方面提供了一种用于ODS层和DW层之间的数据处理系统,所述系统包括:
第一连接组件,用于从所述ODS层中读取数据;
第二连接组件,用于将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
数据校验组件,用于:根据所述第一连接组件读取的至少部分数据和所述第二连接组件输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
可选地,所述数据包括所述ODS层新增的一个或多个文件;
所述第一连接组件被配置流式数据接口和多个读操作任务,其中:
所述流式数据接口,用于获取所述一个或多个文件;
各个读操作任务,用于根据所述流式数据接口的分配,从所述ODS层中读取相应的文件。
可选地,所述流式数据接口,还用于:获取上游节点提供的最新分区的分区增量索引;及根据所述分区增量索引,在所述ODS层中的最新分区下获取所述一个或多个文件。
可选地,所述各个读操作任务,还用于向所述流式数据接口发送文件读取状态;
所述流式数据接口,根据所述各个读操作任务返回的文件读取状态,调整所述分配。
可选地,所述第二连接组件被配置多个流写入操作任务和流写入协调组件,其中:
各个流写入操作任务,用于:对所述DW层进行数据写入操作,并向所述流写入协调组件汇报写入进度;
所述流写入协调组件,用于:根据各个流写入操作任务汇报的写入进度,确定当前分区的分区数据是否已经写入完毕;若写入完毕,则触发所述数据校验组件。
可选地,所述DW层提供有HUDI表;
所述第二连接组件,还用于:将所述数据或所述已处理数据写入到所述HUDI表中。
可选地,所述写入的方式为Append且不合并。
可选地,若将所述数据写入到所述DW层;
所述数据校验组件,用于:对比所述第一连接组件读取的至少部分数据和所述第二连接组件输出的至少部分数据是否一致;及根据比对结果确定所述数据传输质量。
可选地,若将所述已处理数据写入到所述DW层;
所述数据校验组件,用于:根据针对所述数据的预设处理逻辑,对所述第一连接组件读取的至少部分数据进行离线处理,得到离线数据;对比所述离线数据和所述第二连接组件输出的至少部分数据是否一致;及根据比对结果确定所述数据传输质量。
可选地,还包括:
数据处理组件,用于:根据预设处理逻辑处理所述数据,以得到所述已处理数据。
可选地,还包括:
分区提交组件,用于:提交已经写入到所述DW层的分区数据的分区信息;
其中,所述分区信息包括HUDI表的HUID分区信息和兼容Hive表的Hive分区信息。
本申请实施例的又一个方面提供了一种用于ODS层和DW层之间的数据处理方法,所述方法包括:
从所述ODS层中读取数据;
将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
可选地,所述数据包括所述ODS层新增的一个或多个文件;
所述从所述ODS层中读取数据,包括:
通过流式数据接口获取所述一个或多个文件;及
根据所述流式数据接口的分配,通过各个读操作任务从所述ODS层中读取相应的文件。
可选地,还包括:
获取上游节点提供的最新分区的分区增量索引;及
根据所述分区增量索引,在所述ODS层中的最新分区下获取所述一个或多个文件。
可选地,还包括:
根据所述各个读操作任务的文件读取状态,调整所述分配。
可选地,所述将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层,包括:
通过各个流写入操作任务对所述DW层进行数据写入操作;
根据各个流写入操作任务的数据写入进度,确定当前分区的分区数据是否已经写入完毕;及
若所述当前分区的分区数据已经写入完毕,则触发校验,以校验所述当前分区的数据质量。
可选地,所述DW层提供有HUDI表;
所述将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层,包括:
将所述数据或所述已处理数据写入到所述HUDI表中。
可选地,所述写入的方式为Append且不合并。
可选地,所述数据被写入到所述DW层,
所述根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量,包括:
对比读取的至少部分数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
可选地,所述已处理数据被写入到所述DW层;
所述根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量,包括:
根据针对所述数据的预设处理逻辑,对读取的至少部分数据进行离线处理,得到离线数据;及
对比所述离线数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
可选地,还包括:
根据预设处理逻辑处理所述数据,以得到所述已处理数据。
可选地,还包括:
提交已经写入到所述DW层的分区数据的分区信息;
其中,所述分区信息包括HUDI表的HUID分区信息和兼容Hive表的Hive分区信息。
本申请实施例的再一个方面提供了一种用于ODS层和DW层之间的数据处理装置,所述装置包括:
输入模块,用于从所述ODS层中读取数据;
输出模块,用于将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
校验模块,用于:根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
本申请实施例的再一个方面提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时用于实现上述用于ODS层和DW层之间的数据处理方法的步骤。
本申请实施例的又一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时用于上述用于ODS层和DW层之间的数据处理方法的步骤。
本申请实施例提供的用于ODS层和DW层之间的数据处理方法、装置、计算机设备以及计算机可读存储介质,以及用于ODS层和DW层之间的数据处理系统,具有以下优势:引入校验机制,可以保障DW层下游的数据质量。即,在数据全部湖化前,湖仓的过程中存在联动,通过所述数据校验操作对数据质量兜底。
附图说明
图1示意性示出了根据本申请实施例的传输链路图;
图2示意性示出了根据本申请实施例一的用于ODS层和DW层之间的数据处理系统的框架图;
图3示意性示出了根据本申请实施例二的用于ODS层和DW层之间的数据处理方法的流程图;
图4为图3中步骤S300的子流程图;
图5示意性示出了根据本申请实施例二的用于ODS层和DW层之间的数据处理方法的新增流程图;
图6示意性示出了根据本申请实施例二的用于ODS层和DW层之间的数据处理方法的新增流程图;
图7为图3中步骤S302的子流程图;
图8为图3中步骤S302的子流程图;
图9为图3中步骤S304的子流程图;
图10为图3中步骤S304的子流程图;
图11示意性示出了根据本申请实施例二的用于ODS层和DW层之间的数据处理方法的新增流程图;
图12示意性示出了根据本申请实施例二的用于ODS层和DW层之间的数据处理方法的新增流程图;
图13示意性示出了根据本申请实施例三的用于ODS层和DW层之间的数据处理装置的框图;
图14示意性示出了根据本申请实施例四的适于实现数据处理装置的计算机设备的硬件架构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限制本申请。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限制有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
在本申请的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本申请及区别每一步骤,因此不能理解为对本申请的限制。
为了方便理解,以下提供了一些术语解释:
Flink集群(Flink Cluster),是一个分布式系统,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。
Kafka,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统,也可以作为消息队列系统。Kafka可以用于Web/Nginx日志、访问日志,消息服务等。Kafka是按秒进行任务的计算和应用,用于实时推荐、实时计算等场景中。
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),是一个分布式文件系统。
HUDI(Hadoop Updates and Incrementals,Hadoop更新与增量),采用并管理通过DFS(HDFS或云存储)存储大型分析数据集,支持在当前数据表中进行更新操作。Hudi将表组织成HDFS上某个指定目录(basepath)下的目录结构,表被分成多个分区,分区是以目录的形式存在,每个目录下面会存在属于该分区的多个文件,类似Hive表,每个Hudi表分区通过一个分区路径(Partition Path)来唯一标识。
Binlog日志,是记录所有数据库表结构变更(如CREATE、ALTER TABLE)及表数据修改(INSERT、UPDATE、DELETE)的二进制日志。Binlog日志的格式为JSON。
ODS(Operation Data Store)层,为操作数据存储层(也可作为数据湖),用于存放原始数据,如Binlog日志、数据。
DW(Data Warehouse)层,为数据仓库层,可以ODS层获取数据并按照主题建立各种数据模型,方便数据分析。其中,DW可以包括DWD层(Data Warehouse Detail,明显数据层)、DWS层(Data Warehouse Service,服务数据层)和DWT层(Data Warehouse Topic,数据主题层)。DWD层可以对ODS层的数据进行清洗(去除空值、脏数据)、维度化、脱敏等。DWS层可以以DWD层的数据为基础,按天进行轻度汇总。DWT层可以以DWS层的数据为基础,按主题进行汇总。
ADS(Application Data Store)层,为应用数据存储层。所述ADS层可以基于DW层的数据并结合业务场景,得到的面向实际应用(报表、业务系统)的数据。
水印(watermark),为处理EventTime窗口计算提出的一种机制,本质上是一种时间戳。
流标识(LogId),可以通过三段式语义(如,部门+项目+业务)进行定义,以便可以快速锁定数据所属的范畴,同时,所述流标识还可以定义有其他附属信息,如,创建者信息等。数据流可以定义有schema(数据库的组织与结构),如字段、类型、必填与否等信息。schema可以用于所述数据流的分析和评估操作。根据定义的schema,所述数据流的元数据信息中可以被发送相应的字段值,如业务场景等,不同业务场景可以配置不同的SLA(Service-Level Agreement,服务等级协议)质量保障。需要说明的是,这些字段值可以被用户或管理发送和修改的。
Append模式,指将新增数据追到DW层,而非将新增数据替换DW层中的已存储数据。
图1示意性示出了根据本申请实施例的数据传输链路。其中,所述数据传输系统可以由下几部分组成:数据源层、网关、消息系统、数据分发层、数据存储层等。
数据源层,可以包括内部数据源,也可以是连接外部数据源的数据接口。所述数据源层中可以有多种格式的数据,例如,APP和Web的上报数据是HTTP(HyperText TransferProtocol,超文本传输协议)格式的数据,服务端的内部通信数据是RPC(Remote ProcedureCall,远程过程调用)格式的数据。如图1所示,所述数据源层的数据可以是通过一个或多个边缘节点接收的移动终端上报的日志数据等,也可以是数据库(如,Mysql)、日志代理(LogAgent)等各个系统或设备提供的数据。
经由网关和消息系统,数据源层可以将数据传输到数据分发层。其中:
网关,用于将数据源层提供的数据转发到消息系统中。所述网关可以适应各种不同的业务场景和数据协议,例如,被配置用于兼容解析HTTP(HyperText TransferProtocol,超文本传输协议)协议的APP和Web数据,和GRPC协议的内部通信数据。
消息系统,可以由一个或多个Kafka集群构成,用于将所述数据源层中的数据发布到相应的主题下。不同重要性、优先级、数据吞吐量的数据,可以被分流到不同的kafka集群中,以保障不同类型数据的价值,避免系统故障影响整体数据。
数据分发层可以消费相应主题下的数据并对数据进行实时处理,即保障数据从消息系统获取并写入到数据存储层(例如,ODS层),ODS层可以是HDFS、Kafka、Hbase、ES(Elasticsearch)等。在本实施例中,所述数据分发层可以包括Flink集群。
数据存储层,用于存储数据,可以由不同形式的数据库构成。其中,数据存储层包括ODS层、DW层和ADS层等。DW层依赖于ODS层,ADS层依赖于DW层。
即,所述数据传输链路的数据流向如下:数据源层→网关→消息系统→数据分发层→ODS层。通过所述数据传输链路,数据源中的数据可以被传输到ODS层。具体如下:数据源层可以输出以LogId为流标识的数据流,通过HTTP、RPC等协议将这些数据上报给边缘节点,并依次经过网关、消息系统、Flink集群,并最终进入到ODS层。数据源层也可以将数据库变更日志(如Mysql的Binlog日志)等通过Log Agent经由网关、消息系统、数据分发层进入ODS层中。ODS层的数据会直接或经处理后传输给DW层,本文旨在这种的数据处理方案。
实施例一
图2示意性示出了根据本申请实施例一的用于ODS层和DW层之间的数据处理系统的架构图。
如图2所示,所述用于ODS层和DW层之间的数据处理系统可以包括:
①第一连接组件20:
所述第一连接组件20,用于从所述ODS层中读取数据。
所述数据包括存量数据和增量数据,在本实施例中,所述数据为ODS层的新增数据。即,所述ODS层中每新增一个分区数据,第一连接组件20则会流式读取。
作为示例,所述数据包括所述ODS层新增的一个或多个文件。所述第一连接组件被配置流式数据接口(HDFSStreamingSource)和多个读操作任务(ReadOperator),其中:所述流式数据接口,用于获取所述一个或多个文件;各个读操作任务,用于根据所述流式数据接口的分配,从所述ODS层中读取相应的文件。在上述示例中,所述ODS层中每新增一个或多个文件(Parquet文件),所述流式数据接口则会获知所述一个或多个文件,并分配给某个读操作任务进行流式读取。即,可以按分钟级别从ODS层中获知和流式读取新增的文件,提高了数据时效性。
作为示例,所述各个读操作任务,还用于向所述流式数据接口发送文件读取状态(State)。所述流式数据接口,根据所述各个读操作任务返回的文件读取状态,调整所述分配。ODS层的文件大小不一,为扩容和确保负载均衡,可以执行如下操作:一个读操作任务一次读取一个文件,当这个读操作任务读取完这个文件时,则向所述流式数据接口反馈表示“文件读取完毕”的状态信息。若流式数据接口接收这个读操作任务的上述状态信息,则分配下一个文件给这个读操作任务。
作为示例,所述流式数据接口,还用于:获取上游节点提供的最新分区的分区增量索引;及根据所述分区增量索引,在所述ODS层中的最新分区下获取所述一个或多个文件。本发明人所了解到的是:在现有技术中,各个文件存储到ODS层后,DW层需要依赖分区(Partition)来查找相应的文件,从而可能出现如下问题:ODS层需要在数据落库一段时间(如一个小时或一天)之后,才会创建分区,因此,处于下游的DW层需要每隔一个小时或一天,才可以从ODS层拿到一批数据。如果要提高ODS层和DW层间的时效性,如实时地将ODS层的数据写入DW层,则需要不断地遍历整个分区目录下的文件,从而增加ODS层的服务压力。在上述示例中,每个分区的数据成功写入到ODS层后,会生成相应分区的分区索引,且可以将生成的分区索引存储到HMS(Hive MetaStore)中。举例来说,2021年7月20日16:10至2021年7月20日16:15期间的数据均成功写入到ODS层,则将这5分钟为作为当前最新分区并生成分区增量索引。其中,所述目标索引文件包括文件名、文件路径等信息。DW层可以通过扫描所述分区增量索引即可知道“2021年7月20日16:10至2021年7月20日16:15期间的数据已经成功存储到ODS层,且可读取”。在本示例中,是采用分区粒度扫描,实际上只是读取个别文件,从而避免扫描目录,进而降低服务压力。另外,针对ad-hoc(自组织网)、离线ETL、OLAP(On-Line Transaction Processing,联机事务处理)等业务分析场景,可以充分地充分发挥数据布局优势。
②数据处理组件22:
所述数据处理组件22,用于:根据预设处理逻辑处理所述数据,以得到已处理数据。
所述数据处理组件22为可选组件,具体如下:
(1)若ODS层的数据可以直接被写入到DW层,则不需要所述数据处理组件22。
(2)若ODS层的数据不可以直接被写入到DW层,在写入到DW层之前需要处理(如解析、格式转换、ETL清洗等),则需要通过所述数据处理组件22进行处理。
继续参考图2,数据处理组件(Transform)22可以包括解析操作(Parser)、ETL操作(ETL)和适配操作(Exporter)。其中,所述解析操作,用于对所述读取到的数据进行解析操作(如解压、反序列化等)。所述ETL操作,用于对所述解析后的数据进行相应的ETL(Extract-Transform-Load,数据抽取、转换和加载)处理,以得到ETL处理后的数据。所述适配操作,用于将所述ETL处理后的数据进行数据格式和类型转换。用户可以通过页面个性化配置所述数据处理组件22的处理逻辑。
因此,所述数据处理组件22可以对ODS层的数据进行优化转换、维表合并(Join)查询等,有效地增加了所述数据处理系统的扩展功能和用户定制化功能。示例性的,所述数据处理组件22可以通过终端页面返回的用户配置信息生成。
另外,在处理过程中,可以基于HUDI Schema Evolution(演进)进行字段扩展和前后兼容,满足业务发展及灵活性要求,不需要重新引入新类文件,而是动态变更即可。
③第二连接组件24:
所述第二连接组件24,用于将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层。
对所述第二连接组件24来说:(1)所述数据,指未经过所述数据处理组件22经过的数据;(2)所述已处理数据,指经过所述数据处理组件22处理后得到的数据。
作为示例,为提高输出效率和及时告知下游DW层的准确写入进度,所述第二连接组件24被配置多个流写入操作任务(StreamWriteFunction)和流写入协调组件(StreamWriteOperatorCoordinator),其中:各个流写入操作任务,用于:对所述DW层进行数据写入操作,并向所述流写入协调组件汇报写入进度;所述流写入协调组件,用于:根据各个流写入操作任务汇报的写入进度,确定当前分区的分区数据是否已经写入完毕;若写入完毕,则触发所述数据校验组件。在本示例中,各个流写入操作任务可以通过watermark汇报各自的数据写入到DW层的进度。流写入协调组件根据各个流写入操作提供的watermark,确定当前分区的数据是否写入完毕。若当前分区的数据已经写入完毕,则触发其他组件或下游节点。
作为示例,所述DW层提供有HUDI表。所述第二连接组件24,还用于:将所述数据或所述已处理数据写入到所述HUDI表中。在本示例中,将增量数据实时写入到HUDI表中,从而可以快速知道数据变化趋势,实现十分钟级别的数据可见性。
作为示例,所述写入的方式为Append且不合并。此为HUDI表的一种新写入模式。提出该新写入模式的理由如下:本发明人发现,在ODS层到DW层的写入场景下,ODS层的数据已经进行了合并操作,因此将ODS层的数据写入到DW层之后,再次合并属于无意义的性能消耗且会严重影响到DW层的数据落库速度。本示例提供Append且不合并模式,优化性能,从而实现分钟级别的数据可见性。
④数据校验组件(DQC Checker)26:
数据校验组件26,用于:根据所述第一连接组件读取的至少部分数据和所述第二连接组件输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
通过校验组件26进行阻断式DQC,可以保障DW层下游的数据质量。即,在数据全部湖化前,湖仓的过程中存在联动,通过所述数据校验组件26对数据质量兜底。
湖化,指数据进入ODS层。
湖仓,指数据从ODS层到DW层。
以下提供两种示例性的校验方案。
(1)若将所述数据写入到所述DW层。
所述数据校验组件26,用于:对比所述第一连接组件读取的至少部分数据和所述第二连接组件输出的至少部分数据是否一致;及根据比对结果确定所述数据传输质量。
若对比结果为一致,则说明数据写入质量高,可以交由DW层的下游使用。
若对比结果不一致,则说明数据写入质量低,不可以交由DW层的下游使用。
DW层的下游,可以是任何节点,如另一个DW层,或ADS层。
所述“至少部分数据”可以是以分区为单位。
例如,2021年7月23日10:40到2021年7月23日11:40期间,ODS层相DW层写入数据。以5分钟为一个分区,那么在此期间一共含有12个分区,校验如下:
方案一:从12个分区取样1个分区,将这个分区对应的读取数据和输出数据进行对比。
方案二:以分区为单位,对每个分区各自的读取数据和输出数据进行对比。
全部对比或取样对比,取决于数据量、当前服务压力、数据重要性等各种因素。
(2)若将所述已处理数据写入到所述DW层。
所述数据校验组件26,用于:根据针对所述数据的预设处理逻辑,对所述第一连接组件读取的至少部分数据进行离线处理,得到离线数据;对比所述离线数据和所述第二连接组件输出的至少部分数据是否一致;及根据比对结果确定所述数据传输质量。
第一连接组件20从ODS层读取数据之后,数据处理组件22对该数据按照预设处理逻辑进行处理,得到已处理数据;第二连接组件24将该已处理数据输出到DW层。
在上述情形下,数据已经发生转换,因此,数据校验组件26执行以下操作:
步骤一:拉起一个Flink离线任务;
步骤二:通过该Flink离线任务,对未处理的数据按照所述预设处理逻辑进行离线处理;
步骤三:将离线处理得到的离线数据和第二连接组件24输出的数据进行对比;
若对比结果为一致,则说明数据写入质量高,可以交由DW层的下游使用。
若对比结果不一致,则说明数据写入质量低,不可以交由DW层的下游使用。
⑤分区提交组件(Partition Commiter)28:
所述分区提交组件28,用于:提交已经写入到所述DW层的分区数据的分区信息;其中,所述分区信息包括HUDI表的HUID分区信息和兼容Hive表的Hive分区信息。
通过分区提交组件28提供Hive分区信息,可以将HUDI表作为Hive表使用。可以打通湖仓链路且使下游透明,例如:兼容Hive,小时/天分区,使得ETL调度透明。
实施例二
本实施例提供的用于ODS层和DW层之间的数据处理方法,具体细节可以参见上文。
图3示意性示出了根据本申请实施例二的用于ODS层和DW层之间的数据处理方法的流程图。下面计算机设备为执行主体进行示例性描述。该计算机设备可以服务器或服务器集群。
如图3所示,该用于ODS层和DW层之间的数据处理方法可以包括步骤S300~S304,其中:
步骤S300,从所述ODS层中读取数据;
步骤S302,将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
步骤S304,根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
作为示例,所述数据包括所述ODS层新增的一个或多个文件;
如图4所示,所述从所述ODS层中读取数据,包括:
步骤S400,通过流式数据接口获取所述一个或多个文件;及
步骤S402,根据所述流式数据接口的分配,通过各个读操作任务从所述ODS层中读取相应的文件。
作为示例,如图5所示,所述方法还包括:
步骤S500,获取上游节点提供的最新分区的分区增量索引;及
步骤S502,根据所述分区增量索引,在所述ODS层中的最新分区下获取所述一个或多个文件。
作为示例,如图6所示,所述方法还包括:
步骤S600,根据所述各个读操作任务的文件读取状态,调整所述分配。
作为示例,如图7所示,所述将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层,包括:
步骤S700,通过各个流写入操作任务对所述DW层进行数据写入操作;
步骤S702,根据各个流写入操作任务的数据写入进度,确定当前分区的分区数据是否已经写入完毕;及
步骤S704,若所述当前分区的分区数据已经写入完毕,则触发校验,以校验所述当前分区的数据质量。
作为示例,所述DW层提供有HUDI表;
如图8所示,所述将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层,包括:
步骤S800,将所述数据或所述已处理数据写入到所述HUDI表中。
作为示例,所述写入的方式为Append且不合并。
作为示例,所述数据被写入到所述DW层,
如图9所示,所述根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量,包括:
步骤S900,对比读取的至少部分数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
作为示例,所述已处理数据被写入到所述DW层;
如图10所示,所述根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量,包括:
步骤S1000,根据针对所述数据的预设处理逻辑,对读取的至少部分数据进行离线处理,得到离线数据;及
步骤S1002,对比所述离线数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
作为示例,如图11所示,所述方法还包括:
步骤S1100,根据预设处理逻辑处理所述数据,以得到所述已处理数据。
作为示例,如图12所示,所述方法还包括:
步骤S1200,提交已经写入到所述DW层的分区数据的分区信息;
其中,所述分区信息包括HUDI表的HUID分区信息和兼容Hive表的Hive分区信息。
实施例三
图13示出了根据本申请实施例三的用于ODS层和DW层之间的数据处理装置的框图,该用于ODS层和DW层之间的数据处理装置可以被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。如图13所示,用于ODS层和DW层之间的数据处理装置1300可以包括以下组成部分:
输入模块1310,用于从所述ODS层中读取数据;
输出模块1320,用于将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
校验模块1330,用于:根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
作为示例,所述数据包括所述ODS层新增的一个或多个文件;所述读取模块,还用于:
通过流式数据接口获取所述一个或多个文件;及
根据所述流式数据接口的分配,通过各个读操作任务从所述ODS层中读取相应的文件。
作为示例,还包括索引获取模块(未图示),用于:
获取上游节点提供的最新分区的分区增量索引;及
根据所述分区增量索引,在所述ODS层中的最新分区下获取所述一个或多个文件。
作为示例,还包括调整模块(未图示),用于:
根据所述各个读操作任务的文件读取状态,调整所述分配。
作为示例,所述输出模块,还用于:
通过各个流写入操作任务对所述DW层进行数据写入操作;
根据各个流写入操作任务的数据写入进度,确定当前分区的分区数据是否已经写入完毕;及
若所述当前分区的分区数据已经写入完毕,则触发校验,以校验所述当前分区的数据质量。
作为示例,所述DW层提供有HUDI表;所述输出模块,还用于:
将所述数据或所述已处理数据写入到所述HUDI表中。
作为示例,所述写入的方式为Append且不合并。
作为示例,所述数据被写入到所述DW层,所述校验模块,还用于:
对比读取的至少部分数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
作为示例,所述已处理数据被写入到所述DW层;所述校验模块,还用于:
根据针对所述数据的预设处理逻辑,对读取的至少部分数据进行离线处理,得到离线数据;及
对比所述离线数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
作为示例,还包括处理模块(未图示),用于:
根据预设处理逻辑处理所述数据,以得到所述已处理数据。
作为示例,还包括提交模块(未图示),用于:
提交已经写入到所述DW层的分区数据的分区信息;
其中,所述分区信息包括HUDI表的HUID分区信息和兼容Hive表的Hive分区信息。
实施例四
图14示意性示出了根据本申请实施例四的适于实现用于ODS层和DW层之间的数据处理装置的计算机设备的硬件架构示意图。所述计算机设备10000其是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是多个服务器所组成的服务器集群,所述多个服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等。如图14所示,计算机设备10000至少包括但不限于:可通过系统总线相互通信链接存储器10010、处理器10020、网络接口10030。其中:
存储器10010至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器10010可以是计算机设备10000的内部存储模块,例如该计算机设备10000的硬盘或内存。在另一些实施例中,存储器10010也可以是计算机设备10000的外部存储设备,例如该计算机设备10000上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器10010还可以既包括计算机设备10000的内部存储模块也包括其外部存储设备。本实施例中,存储器10010通常用于存储安装于计算机设备10000的操作系统和各类应用软件,例如用于ODS层和DW层之间的数据处理装置的程序代码等。此外,存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器10020在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10020通常用于控制计算机设备10000的总体操作,例如执行与计算机设备10000进行数据交互或者通信相关的控制和处理等。本实施例中,处理器10020用于运行存储器10010中存储的程序代码或者处理数据。
网络接口10030可包括无线网络接口或有线网络接口,该网络接口10030通常用于在计算机设备10000与其他计算机设备之间建立通信连接。例如,网络接口10030用于通过网络将计算机设备10000与外部终端相连,在计算机设备10000与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图14仅示出了具有部件10010-10030的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器10010中的用于ODS层和DW层之间的数据处理装置还可以被分割为一个或者多个程序模块,并由一个或多个处理器(本实施例为处理器10020)所执行,以完成本申请。
实施例五
本实施例还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的用于ODS层和DW层之间的数据处理装置的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中的用于ODS层和DW层之间的数据处理装置的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请实施例不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (25)
1.一种用于操作数据存储层(ODS层)和数据仓库层(DW层)之间的数据处理系统,其特征在于,所述系统包括:
第一连接组件,用于从所述ODS层中读取数据;
第二连接组件,用于将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
数据校验组件,用于:根据所述第一连接组件读取的至少部分数据和所述第二连接组件输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
2.根据权利要求1所述的数据处理系统,其特征在于,所述数据包括所述ODS层新增的一个或多个文件;
所述第一连接组件被配置流式数据接口和多个读操作任务,其中:
所述流式数据接口,用于获取所述一个或多个文件;
各个读操作任务,用于根据所述流式数据接口的分配,从所述ODS层中读取相应的文件。
3.根据权利要求2所述的数据处理系统,其特征在于,
所述流式数据接口,还用于:获取上游节点提供的最新分区的分区增量索引;及根据所述分区增量索引,在所述ODS层中的最新分区下获取所述一个或多个文件。
4.根据权利要求2所述的数据处理系统,其特征在于,
所述各个读操作任务,还用于向所述流式数据接口发送文件读取状态;
所述流式数据接口,根据所述各个读操作任务返回的文件读取状态,调整所述分配。
5.根据权利要求1所述的数据处理系统,其特征在于,
所述第二连接组件被配置多个流写入操作任务和流写入协调组件,其中:
各个流写入操作任务,用于:对所述DW层进行数据写入操作,并向所述流写入协调组件汇报写入进度;
所述流写入协调组件,用于:根据各个流写入操作任务汇报的写入进度,确定当前分区的分区数据是否已经写入完毕;若写入完毕,则触发所述数据校验组件。
6.根据权利要求1所述的数据处理系统,其特征在于,所述DW层提供有HUDI表;
所述第二连接组件,还用于:将所述数据或所述已处理数据写入到所述HUDI表中。
7.根据权利要求6所述的数据处理系统,其特征在于,所述写入的方式为Append且不合并。
8.根据权利要求1至7任意一项所述的数据处理系统,其特征在于,若将所述数据写入到所述DW层;
所述数据校验组件,用于:对比所述第一连接组件读取的至少部分数据和所述第二连接组件输出的至少部分数据是否一致;及根据比对结果确定所述数据传输质量。
9.根据权利要求1至7任意一项所述的数据处理系统,其特征在于,若将所述已处理数据写入到所述DW层;
所述数据校验组件,用于:根据针对所述数据的预设处理逻辑,对所述第一连接组件读取的至少部分数据进行离线处理,得到离线数据;对比所述离线数据和所述第二连接组件输出的至少部分数据是否一致;及根据比对结果确定所述数据传输质量。
10.根据权利要求1至7任意一项所述的数据处理系统,其特征在于,还包括:
数据处理组件,用于:根据预设处理逻辑处理所述数据,以得到所述已处理数据。
11.根据权利要求1至7任意一项所述的数据处理系统,其特征在于,还包括:
分区提交组件,用于:提交已经写入到所述DW层的分区数据的分区信息;
其中,所述分区信息包括HUDI表的HUID分区信息和兼容Hive表的Hive分区信息。
12.一种用于ODS层和DW层之间的数据处理方法,其特征在于,所述方法包括:
从所述ODS层中读取数据;
将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
13.根据权利要求12所述的数据处理方法,其特征在于,所述数据包括所述ODS层新增的一个或多个文件;
所述从所述ODS层中读取数据,包括:
通过流式数据接口获取所述一个或多个文件;及
根据所述流式数据接口的分配,通过各个读操作任务从所述ODS层中读取相应的文件。
14.根据权利要求13所述的数据处理方法,其特征在于,还包括:
获取上游节点提供的最新分区的分区增量索引;及
根据所述分区增量索引,在所述ODS层中的最新分区下获取所述一个或多个文件。
15.根据权利要求13所述的数据处理方法,其特征在于,还包括:
根据所述各个读操作任务的文件读取状态,调整所述分配。
16.根据权利要求12所述的数据处理方法,其特征在于,
所述将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层,包括:
通过各个流写入操作任务对所述DW层进行数据写入操作;
根据各个流写入操作任务的数据写入进度,确定当前分区的分区数据是否已经写入完毕;及
若所述当前分区的分区数据已经写入完毕,则触发校验,以校验所述当前分区的数据质量。
17.根据权利要求12所述的数据处理方法,其特征在于,所述DW层提供有HUDI表;
所述将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层,包括:
将所述数据或所述已处理数据写入到所述HUDI表中。
18.根据权利要求17所述的数据处理方法,其特征在于,所述写入的方式为Append且不合并。
19.根据权利要求12至18任意一项所述的数据处理方法,其特征在于,所述数据被写入到所述DW层,
所述根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量,包括:
对比读取的至少部分数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
20.根据权利要求12至18任意一项所述的数据处理方法,其特征在于,所述已处理数据被写入到所述DW层;
所述根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量,包括:
根据针对所述数据的预设处理逻辑,对读取的至少部分数据进行离线处理,得到离线数据;及
对比所述离线数据和输出的至少部分数据是否一致,根据比对结果确定所述数据传输质量。
21.根据权利要求12至18任意一项所述的数据处理方法,其特征在于,还包括:
根据预设处理逻辑处理所述数据,以得到所述已处理数据。
22.根据权利要求12至18任意一项所述的数据处理方法,其特征在于,还包括:
提交已经写入到所述DW层的分区数据的分区信息;
其中,所述分区信息包括HUDI表的HUID分区信息和兼容Hive表的Hive分区信息。
23.一种用于ODS层和DW层之间的数据处理装置,其特征在于,所述装置包括:
输入模块,用于从所述ODS层中读取数据;
输出模块,用于将所述数据或对该数据进行处理后得到的已处理数据输出到所述DW层;
校验模块,用于:根据读取的至少部分数据和输出的至少部分数据,检验从所述ODS层到所述DW层的数据传输质量。
24.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时用于实现权利要求12至22任一项所述用于ODS层和DW层之间的数据处理方法的步骤。
25.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时用于实现权利要求12至22任一项所述用于ODS层和DW层之间的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865928.6A CN113568966A (zh) | 2021-07-29 | 2021-07-29 | 用于ods层和dw层之间的数据处理方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110865928.6A CN113568966A (zh) | 2021-07-29 | 2021-07-29 | 用于ods层和dw层之间的数据处理方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113568966A true CN113568966A (zh) | 2021-10-29 |
Family
ID=78169028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110865928.6A Pending CN113568966A (zh) | 2021-07-29 | 2021-07-29 | 用于ods层和dw层之间的数据处理方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568966A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069775A (zh) * | 2023-04-06 | 2023-05-05 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030075548A (ko) * | 2002-03-19 | 2003-09-26 | 삼성전자주식회사 | 비대칭 디지털 가입자 라인 서비스 품질 관리 시스템 |
US20100287555A1 (en) * | 2009-05-08 | 2010-11-11 | Sap Ag | Using composite systems to improve functionality |
CN106293977A (zh) * | 2015-05-15 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种数据校验方法与设备 |
CN107818106A (zh) * | 2016-09-13 | 2018-03-20 | 腾讯科技(深圳)有限公司 | 一种大数据离线计算数据质量校验方法和装置 |
CN112507029A (zh) * | 2020-12-18 | 2021-03-16 | 上海哔哩哔哩科技有限公司 | 数据处理系统及数据实时处理方法 |
WO2021068351A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于云存储的数据传输方法、装置及计算机设备 |
-
2021
- 2021-07-29 CN CN202110865928.6A patent/CN113568966A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030075548A (ko) * | 2002-03-19 | 2003-09-26 | 삼성전자주식회사 | 비대칭 디지털 가입자 라인 서비스 품질 관리 시스템 |
US20100287555A1 (en) * | 2009-05-08 | 2010-11-11 | Sap Ag | Using composite systems to improve functionality |
CN106293977A (zh) * | 2015-05-15 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 一种数据校验方法与设备 |
CN107818106A (zh) * | 2016-09-13 | 2018-03-20 | 腾讯科技(深圳)有限公司 | 一种大数据离线计算数据质量校验方法和装置 |
WO2021068351A1 (zh) * | 2019-10-12 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于云存储的数据传输方法、装置及计算机设备 |
CN112507029A (zh) * | 2020-12-18 | 2021-03-16 | 上海哔哩哔哩科技有限公司 | 数据处理系统及数据实时处理方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069775A (zh) * | 2023-04-06 | 2023-05-05 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
CN116069775B (zh) * | 2023-04-06 | 2023-08-22 | 上海二三四五网络科技有限公司 | 一种数据仓库的数据质量校验系统及校验方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507029B (zh) | 数据处理系统及数据实时处理方法 | |
CN110427368B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
AU2019262823B2 (en) | Input and output schema mappings | |
US11860741B2 (en) | Continuous data protection | |
CN109034993A (zh) | 对账方法、设备、系统及计算机可读存储介质 | |
CN112559475B (zh) | 数据实时捕获和传输方法及系统 | |
CN113535856B (zh) | 数据同步方法及系统 | |
CN109918349A (zh) | 日志处理方法、装置、存储介质和电子装置 | |
CN111966943A (zh) | 流式数据分发方法和系统 | |
CN112434061A (zh) | 支持循环依赖的任务调度方法和系统 | |
CN113468199B (zh) | 索引更新方法及系统 | |
CN114722119A (zh) | 数据同步方法及系统 | |
CN112019605A (zh) | 数据流的数据分发方法和系统 | |
CN113779092B (zh) | 基于数据仓库的实时数据展示方法、装置、设备及介质 | |
US20220284042A1 (en) | Replication of parent record having linked child records that were previously replicated asynchronously across data storage regions | |
CN114385760A (zh) | 增量数据实时同步的方法、装置、计算机设备及存储介质 | |
CN113568966A (zh) | 用于ods层和dw层之间的数据处理方法与系统 | |
CN110019169B (zh) | 一种数据处理的方法及装置 | |
CN113612832A (zh) | 流式数据分发方法与系统 | |
US10749766B1 (en) | Archival datastore for aggregated metrics | |
CN112527839A (zh) | 多源数据处理方法、系统、设备及存储介质 | |
CN116701355A (zh) | 数据视图处理方法、装置、计算机设备及可读存储介质 | |
CN115599871A (zh) | 基于湖仓一体的数据处理系统和方法 | |
US20220283706A1 (en) | Media storage for online meetings in edge network storage | |
US11003690B1 (en) | Aggregator systems for storage of data segments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |