CN112527922A - 一种基于不变模型的数据仓库增量加工方法 - Google Patents

一种基于不变模型的数据仓库增量加工方法 Download PDF

Info

Publication number
CN112527922A
CN112527922A CN202011475971.3A CN202011475971A CN112527922A CN 112527922 A CN112527922 A CN 112527922A CN 202011475971 A CN202011475971 A CN 202011475971A CN 112527922 A CN112527922 A CN 112527922A
Authority
CN
China
Prior art keywords
data
increment
service
source
incremental
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011475971.3A
Other languages
English (en)
Other versions
CN112527922B (zh
Inventor
冯林新
安冬敏
江军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital China Information Systems Co ltd
Original Assignee
Digital China Information Systems Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital China Information Systems Co ltd filed Critical Digital China Information Systems Co ltd
Priority to CN202011475971.3A priority Critical patent/CN112527922B/zh
Publication of CN112527922A publication Critical patent/CN112527922A/zh
Application granted granted Critical
Publication of CN112527922B publication Critical patent/CN112527922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于不变模型的数据仓库增量加工方法,其步骤包括:1.获取源端技术增量数据,将业务系统当天新增、删除以及修改的数据采用不变模型的方式存储至数据库对应的数据库表中;2.根据不变模型,计算源端业务增量;3.计算业务增量的前像快照;4.计算业务增量的后像快照;5.计算目标删除增量与目标插入增量;6.计算目标增量合并。本发明通过不变模型保留来源表的历史数据,在不变模型的基础上设计出适合各种场景的增量加工方法,在增量数据加工准确的前提下,大大提升数据加工的效率。

Description

一种基于不变模型的数据仓库增量加工方法
技术领域
本发明属于数据仓库增量加工领域,具体涉及基于不变模型的增量加工方法。
背景技术
越来越多的公司和企业都在建设自己内部的数据仓库,数据仓库建设的大体思路是采集各个业务系统中的数据,然后在数据仓库内部加工各个业务域数据,产出相关的业务指标和派生指标,在此基础上再根据报表的展示需要,加工出应用展示层的数据。目前数据仓库的离线批量加工方式都是T+1,即业务系统今天产生的数据,明天才可以看到对应展示层的数据。在T+1加工方式下,如果每天的加工都使用全量数据,随着时间的推移,业务系统产生的数据越来越多,数据仓库中的加工速度会越来越慢,甚至会导致T+1不能及时完成数据加工。但如果可以只依据来源表当天产生的增量数据,就可以生成目标表的增量数据,加工的速度就会大大提升。
在某些简单的加工场景下,如将一个来源表的数据,经过映射和过滤,生成目标表数据的场景,来源表的增量再经过相同的映射和过滤,就可以快速得到目标表的增量数据。但是在某些复杂的场景下,如多表关联,单表汇总的情况下,仅通过来源表的增量是不可能直接计算出目标表的增量的,因为在这些复杂场景下,不仅需要来源表的增量,还需要来源表的历史数据,而修改和删除操作都会让来源表数据发生变更,无法准确找到来源表的历史数据。
因此数据仓库的全量和增量加工存在着上述的问题,本发明提出了一种基于不变模型的增量加工算法,通过不变模型保留来源表的历史数据,在不变模型的基础上设计出适合各种场景的增量加工算法,在增量数据加工准确的前提下,大大提升数据加工的效率。
发明内容
针对目前数据仓库全量加工慢,增量加工场景复杂且历史数据不全的问题,本发明提出了基于不变模型的增量加工方法,在面临各种简单和复杂加工的场景下,生成一套增量加工的脚本,在保证加工准确的前提下,提高加工的效率。
为达到以上目的,本发明采用的方案如下:
一种基于不变模型的数据仓库增量加工方法,包括以下步骤:
一种基于不变模型的数据仓库增量加工方法,其特征在于,所述增量加工方法包括以下步骤:
步骤1:获取业务系统源端技术增量数据,并加载到来源表中;
所述来源表是一个基于不变模型的用来存储新增、删除以及修改的源端技术增量数据的数据库表;
步骤2:基于步骤1得到的源端技术增量数据,计算源端业务增量;
步骤3:计算业务增量的前像快照;
步骤4:计算业务增量的后像快照;
步骤5:计算目标表删除增量与目标表插入增量;
所述目标表是指基于来源表对当天数据加工结果的记录而形成的数据库表;
步骤6:将目标表删除增量与目标表插入增量合并到目标表中;
本发明进一步包括以下优选方案:
所述步骤1中,获取源端技术增量数据是指将业务系统当天新增、删除以及修改的数据采用不变模型的方式存储至数据库对应的来源表中;
将当前存储的源端技术增量数据作为可用于增量加工的数据;
所述增量加工是以当天新增数据为依据的数据加工方式,而不是以全量数据为依据的数据加工方式。
所述不变模型是指:
当新增业务数据时,插入新增的业务数据,其类型标识为“I”;
当修改业务数据时,将修改前与修改后的两条业务数据都插入到对应的不变模型中,其中修改前的数据的类型标识为“D”,修改后的数据类型标识为“I”,修改前与修改后的两条数据代表一次业务数据的修改;
当删除业务数据时,插入该条被删除的业务数据,其类型标识为“D”。
所述步骤2中,源端业务增量指的是源端技术增量数据与数据加工所需要的关联信息之和;
计算源端业务增量是计算增量加工所需的最小的完备数据集。所谓的完备数据集指的是针对一次数据加工而言的,完备数据集不一定是全量数据集,但全量数据集是完备数据集的一种特殊方式;
源端业务增量的计算方法包括原始业务增量、关联业务增量、分组业务增量以及全量业务增量的四种方法以及在这四种方法的基础上的组合。
所述原始业务增量适用于过滤、合并数据计算场景,该场景下源端业务增量与源端技术增量一致;
所述关联业务增量适用于与来源表关联的数据计算场景,该场景下业务增量是在其技术增量的基础上再加上与该来源表变化记录相关联的数据;
所述分组业务增量适用于数据进行分组计算的场景,该场景下业务增量的计算方法是将业务数据发生变化的分组数据作为业务增量;
所述全量业务增量适用于排序等业务场景,在该场景下只有全量数据才能满足业务增量对数据加工完整性的要求。
所述关联业务增量涉及表关联,所述表关联涉及多个来源表;通过将来源表当作节点,不同来源表之间的关联条件当作节点之间的连线,以其中某个来源表的节点作为根节点,构造出一个树结构;该来源表节点的业务增量由两部分构成:第一部分是与本表技术增量业务主键相同的数据;第二部分是与关联表的技术增量具有相同关联条件的,且在来源表中业务主键相同的所有数据。
所述步骤3中的前像快照是指以上次加工截止时间作为过滤条件,过滤出部分数据,然后按照来源表的业务主键分组,根据不变模型中的递增数据值型字段倒序,得到数值最大且标志为“I”的数据,即参与上次加工的数据为前像快照;
所述步骤4中后像快照是指在业务增量的所有数据中,按照来源表的业务主键分组,根据不变模型的递增数据值型字段倒序,得到数值最大且标志为“I”的数据,即参与本次加工的数据为后像快照。
所述步骤5中的目标表删除增量是指按照全量的加工逻辑计算一遍前像快照,得到上次加工的数据;
目标表插入增量是指按照全量的加工逻辑计算一遍后像快照,得到本次应该加工的数据。
所述步骤5计算目标增量合并是指按照不变模型的方式,将删除增量和新增增量插入到目标表中;
其中所述删除增量包括目标表需要删除的数据和修改前的数据;
所述插入增量包括目标表需要新增的数据或修改后的数据。
相对于现有技术,本发明具有以下有益技术效果:
本发明的增量加工算法,前提是所有模型都必须是不变模型,而不变模型是之前从未被使用过的创新性模型。该模型不仅可以提供历史数据,还可以帮助使用者准确找到上次加工使用的数据。而增量加工必须利用计算历史数据之前得到的结果,才可以将之前的数据置为无效,实现对目标表数据的增删改。本发明的增量加工算法充分利用了不变模型的特性以及快照技术的特点,在来源表产生的技术增量基础上,根据来源表所参与加工的业务场景,计算不同业务相关的增量,从而在业务增量中找到上次已参与加工和本次将参与加工的快照数据。通过上次已参与加工的快照数据和对应的加工逻辑,可以计算出上次的加工结果,即目标表中需要修改或删除的数据;通过本次将参与加工的快照数据和对应的加工逻辑,可以计算出本次的加工结果,即目标表中修改后或新增的数据。
附图说明
图1是本发明的整体方法流程图。
具体实施方式
下面结合附图和具体实施对本发明作进一步的详细描述。本发明的基于不变模型的增量加工算法,其流程如图1所示,包含以下步骤:
步骤1:获取业务系统源端技术增量数据,并加载到来源表中;
按照时间戳获取源端技术增量信息,所谓源端技术增量数据是指将业务系统当天新增、删除以及修改的数据采用不变模型的方式存储至数据库对应的来源表中。所述来源表是一个基于不变模型的用来存储新增、删除以及修改的源端技术增量数据的数据库表;因为来源表数据记录中增加时间类型字段的值为数据插入到表中的时间,因每次加工时需要记录下该次加工的时间,则下次增量加工时,可以根据上次加工的时间和本次加工的时间,确定来源表中新增、修改与删除的变化数据,即技术增量。将当前存储的源端技术增量数据作为可用于增量加工的数据。所述增量加工是以当天新增数据为依据的数据加工方式,而不是以全量数据为依据的数据加工方式。
对于不变模型来说,删除数据用插入一条删除的数据记录表示,修改数据则用插入一条删除的数据记录以及插入一条新增的数据记录表示。不变模型是指数据变化记录,但是为了准确区分出哪条是当前有效的记录,需要在来源表上增加对应的技术字段来标志出来当前数据的状态,即对新增的数据,在来源表中插入该数据并标志为“I”;对修改的数据,在来源表中插入两条数据,一条是修改前的数据并标志为“D”,一条是修改后的数据并标志为“I”。对删除的数据,在来源表中插入该数据并增加为“D”来源表中所有的数据记录都增加一个时间类型的字段,代表数据插入到表中的时间。来源表中所有的数据记录都增加一个递增的数值型字段,代表数据插入的先后顺序,对修改数据的情况,修改前的数据需要比修改后的数据先一步插入到表中;
步骤2:基于步骤1得到的源端技术增量数据,计算源端业务增量;
仅根据源端技术增量不足以计算出目标增量,目标增量还包括源端业务增量的计算。源端业务增量指的是源端技术增量与数据加工所需要的关联信息之和,这些关联信息有可能未发生变化。计算源端业务增量的本质就是计算增量加工所需的最小的完备数据集。所谓的最小完备的数据集指的是本次增量加工所需要的最小的数据集。所述完备数据集指的是针对一次数据加工而言的,完备数据集不一定是全量数据集,但全量数据集是完备数据集的一种特殊方式;业务增量的基本计算方法包括原始业务增量、关联业务增量、分组业务增量以及全量业务增量的四种方法以及在这四种方法的基础上的组合,以下是对这四种方法的定义:
1、原始业务增量计算:所述原始业务增量适用于过滤、合并数据计算场景,该场景下源端业务增量与源端技术增量一致。在从一个数据集根据一定条件进行过滤场景中,技术增量就是业务增量,因为在这个场景中,增量的计算并不会涉及到来源表的历史数据,无需关联增量,仅通过来源表技术增量就可以算出目标表的增量;
2、关联业务增量计算:所述关联业务增量适用于与来源表关联的数据计算场景,该场景下业务增量是在其技术增量的基础上再加上与该来源表变化记录相关联的数据。增量的计算涉及到历史数据,表关联涉及多个来源表。因此可以将来源表当作节点,不同来源表之间的关联条件当作节点之间的连线,以其中某个表的节点作为根节点,构造出一个树结构。则该表节点的业务增量受两部分内容的影响:第一部分是与自己的技术增量业务主键相同的数据,由此可以找到上次和本次参与表关联的部分数据;第二部分是与关联表的技术增量具有相同关联条件的,且在来源表中业务主键相同的所有数据。如表A与表B进行关联,则表A的业务增量由两部分组成,一部分是A表中与A表技术增量具有相同业务主键的数据;另一部分是在A表中与B表技术增量符合关联条件的,且在A表中与这部分数据具有相同业务主键的数据;
3、分组业务增量计算:适用于数据进行分组计算的场景,该场景下业务增量的计算方法是将业务数据发生变化的分组数据作为业务增量。增量计算会涉及到历史数据,分组计算一般会统计某个数值,只要在来源表中取出与技术增量分组相同的全部数据,就可以重新计算上次已经加工出的数据和本次应该加工出的数据,则与技术增量分组相同的数据就是分区场景下的业务增量;
4、全量业务增量计算:适用于全量排序等业务场景,其需要全量数据来保证准确的全量业务增量计算。因此在该场景下只有全量数据才能满足业务增量对数据加工完整性的要求。
步骤3:计算业务增量的前像快照;
不变模型中包含一条数据在各时点的版本数据。上述的源端业务增量也包括参与本次数据加工的所有版本的数据。所述计算业务增量的前像快照就是在业务增量数据中提取本次加工起始时间戳的数据时点数。计算业务增量的前像快照,原理是利用快照的特点,找到参与上次加工的所有数据。具体实现业务增量前像快照的计算方法是,以上次加工截止时间作为过滤条件,过滤出部分数据,然后按照来源表的业务主键分组,根据不变模型中的递增数据值型字段倒序,得到数值最大且标志为“I”的数据,这部分数据就是参与上次加工的数据,称之为前像快照。
步骤4:计算业务增量的后像快照;
与业务增量的前像快照类似,业务增量的后像快照就是在业务增量数据中提取本次加工终止时间戳的数据时点数。计算业务增量的后像快照,原理也是利用快照的特点,找到需要参与本次加工的所有数据。具体实现业务增量后像快照的计算方法是,在业务增量的所有数据中,按照来源表的业务主键分组,根据不变模型的递增数据值型字段倒序,得到数值最大且标志为“I”的数据,这部分数据就是参与本次加工的数据,称之为后像快照。
步骤5:计算目标表删除增量与目标表插入增量;
用业务增量的前像快照数据计算本次增量加工的目标删除增量:前像快照中存在上次被加工的数据,因此按照全量的加工逻辑计算一遍前像快照,得到上次加工的数据,即目标删除增量。
用业务增量的后像快照数据计算本次增量加工的目标插入增量:插入增量包括目标表需要新增的数据或修改后的数据。后像快照中存在本次需要被加工的数据,因此按照全量的加工逻辑计算一遍后像快照,得到本次应该加工出的数据,即新增增量数据。
步骤6:将目标表删除增量与目标表插入增量合并到目标数据模型中
将目标删除增量与目标插入增量合并到目标数据模型中。删除增量中包含目标表需要删除的数据和修改前的数据,按照不变模型的思路,将删除增量的标志置为“D”,插入到目标表中。插入增量中包含目标表需要新增的数据或修改后的数据,按照不变模型的思路,将插入增量的标志置为“I”,插入到目标表中。这样可以得到目标表的增量数据,同时目标表是不变模型,将目标表作为后续加工的来源表时,也可以继续使用本发明的增量加工算法,增量加工后续的表。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于不变模型的数据仓库增量加工方法,其特征在于,所述增量加工方法包括以下步骤:
步骤1:获取业务系统源端技术增量数据,并加载到来源表中;
所述来源表是一个基于不变模型的用来存储新增、删除以及修改的源端技术增量数据的数据库表;
步骤2:基于步骤1得到的源端技术增量数据,计算源端业务增量;
步骤3:计算业务增量的前像快照;
步骤4:计算业务增量的后像快照;
步骤5:计算目标表删除增量与目标表插入增量;
所述目标表是指基于来源表对当天数据加工结果的记录而形成的数据库表;
步骤6:将目标表删除增量与目标表插入增量合并到目标表中。
2.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述步骤1中,获取源端技术增量数据是指将业务系统当天新增、删除以及修改的数据采用不变模型的方式存储至数据库对应的来源表中;
将当前存储的源端技术增量数据作为可用于增量加工的数据;
所述增量加工是以当天新增数据为依据的数据加工方式,而不是以全量数据为依据的数据加工方式。
3.根据权利要求2所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述不变模型是指:
当业务系统新增业务数据时,对应的来源表插入新增的业务数据,其类型标识为“I”;
当业务系统修改业务数据时,对应的来源表将修改前与修改后的两条业务数据都插入到对应的不变模型中,其中修改前的数据的类型标识为“D”,修改后的数据类型标识为“I”,修改前与修改后的两条数据代表一次业务数据的修改;
当业务系统删除业务数据时,对应的来源表插入该条被删除的业务数据,其类型标识为“D”。
4.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述步骤2中,源端业务增量指的是源端技术增量数据与数据加工所需要的关联信息之和;
计算源端业务增量是计算增量加工所需的最小的完备数据集,所述完备数据集指的是针对一次数据加工而言的,完备数据集不一定是全量数据集,但全量数据集是完备数据集的一种特殊方式。
5.根据权利要求4所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
源端业务增量的计算方法包括原始业务增量、关联业务增量、分组业务增量以及全量业务增量的四种方法以及在这四种方法的基础上的组合。
6.根据权利要求5所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述原始业务增量适用于过滤、合并数据计算场景,该场景下源端业务增量与源端技术增量一致;
所述关联业务增量适用于与来源表关联的数据计算场景,该场景下业务增量是在其技术增量的基础上再加上与该来源表变化记录相关联的数据;
所述分组业务增量适用于数据进行分组计算的场景,该场景下业务增量的计算方法是将业务数据发生变化的分组数据作为业务增量;
所述全量业务增量适用于排序等业务场景,在该场景下只有全量数据才能满足业务增量对数据加工完整性的要求。
7.根据权利要求6所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述关联业务增量涉及表关联,所述表关联涉及多个来源表;通过将来源表当作节点,不同来源表之间的关联条件当作节点之间的连线,以其中某个来源表的节点作为根节点,构造出一个树结构;该来源表节点的业务增量由两部分构成:第一部分是与本表技术增量业务主键相同的数据;第二部分是与关联表的技术增量具有相同关联条件的,且在来源表中业务主键相同的所有数据。
8.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述步骤3中的前像快照是指以上次加工截止时间作为过滤条件,过滤出部分数据,然后按照来源表的业务主键分组,根据不变模型中的递增数据值型字段倒序,得到数值最大且标志为“I”的数据,即参与上次加工的数据为前像快照。
9.根据权利要求1或8所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述步骤4中后像快照是指在业务增量的所有数据中,按照来源表的业务主键分组,根据不变模型的递增数据值型字段倒序,得到数值最大且标志为“I”的数据,即参与本次加工的数据为后像快照。
10.根据权利要求1所述的一种基于不变模型的数据仓库增量加工方法,其特征在于:
所述步骤5中的目标表删除增量是指按照全量的加工逻辑计算一遍前像快照,得到上次加工的数据;
目标表插入增量是指按照全量的加工逻辑计算一遍后像快照,得到本次应该加工的数据;
所述步骤5计算目标增量合并是指按照不变模型的方式,将删除增量和新增增量插入到目标表中;
其中所述删除增量包括目标表需要删除的数据和修改前的数据;
所述插入增量包括目标表需要新增的数据或修改后的数据。
CN202011475971.3A 2020-12-15 2020-12-15 一种基于不变模型的数据仓库增量加工方法 Active CN112527922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011475971.3A CN112527922B (zh) 2020-12-15 2020-12-15 一种基于不变模型的数据仓库增量加工方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011475971.3A CN112527922B (zh) 2020-12-15 2020-12-15 一种基于不变模型的数据仓库增量加工方法

Publications (2)

Publication Number Publication Date
CN112527922A true CN112527922A (zh) 2021-03-19
CN112527922B CN112527922B (zh) 2023-11-24

Family

ID=74999988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011475971.3A Active CN112527922B (zh) 2020-12-15 2020-12-15 一种基于不变模型的数据仓库增量加工方法

Country Status (1)

Country Link
CN (1) CN112527922B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091461A1 (en) * 2003-10-22 2005-04-28 Kisley Richard V. Incremental data storage method, apparatus, interface, and system
CN101183387A (zh) * 2007-12-14 2008-05-21 沈阳东软软件股份有限公司 一种增量数据捕获方法和系统
CN102521225A (zh) * 2011-09-29 2012-06-27 用友软件股份有限公司 增量数据抽取装置和增量数据抽取方法
CN105975502A (zh) * 2016-04-25 2016-09-28 南京优测信息科技有限公司 一种基于cdc方式实现增量抽取数据的方法
CN107967361A (zh) * 2017-12-22 2018-04-27 北京明朝万达科技股份有限公司 一种数据库的增量处理方法和系统
CN111125214A (zh) * 2019-12-02 2020-05-08 武汉虹信技术服务有限责任公司 一种轻量级增量数据同步方法、装置及计算机可读介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091461A1 (en) * 2003-10-22 2005-04-28 Kisley Richard V. Incremental data storage method, apparatus, interface, and system
CN101183387A (zh) * 2007-12-14 2008-05-21 沈阳东软软件股份有限公司 一种增量数据捕获方法和系统
CN102521225A (zh) * 2011-09-29 2012-06-27 用友软件股份有限公司 增量数据抽取装置和增量数据抽取方法
CN105975502A (zh) * 2016-04-25 2016-09-28 南京优测信息科技有限公司 一种基于cdc方式实现增量抽取数据的方法
CN107967361A (zh) * 2017-12-22 2018-04-27 北京明朝万达科技股份有限公司 一种数据库的增量处理方法和系统
CN111125214A (zh) * 2019-12-02 2020-05-08 武汉虹信技术服务有限责任公司 一种轻量级增量数据同步方法、装置及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
欧海文,曾淑娟: "基于数据标识的跨域增量数据交换模型", 北京电子科技学院学报 *

Also Published As

Publication number Publication date
CN112527922B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN110083639B (zh) 一种基于聚类分析的数据血缘智能溯源的方法及装置
US10452625B2 (en) Data lineage analysis
CN106339274A (zh) 一种数据快照获取的方法及系统
US20090150421A1 (en) Incremental cardinality estimation for a set of data values
CN109614413B (zh) 一种内存流式计算平台系统
US10002142B2 (en) Method and apparatus for generating schema of non-relational database
CN103853820A (zh) 一种数据处理方法及系统
CN107562931A (zh) 数据抽取系统和数据抽取方法
CN113051347B (zh) 异构数据库之间数据同步方法、系统、设备及存储介质
CN103514274A (zh) 非关系型数据库HBase的数据迁移方法
CN110134663B (zh) 组织结构数据处理方法、装置、电子设备
WO2021179488A1 (zh) 监控数据存储方法、设备、服务器及存储介质
CN114138907A (zh) 数据处理方法、计算机设备、存储介质和计算机程序产品
CN110866024A (zh) 一种矢量数据库增量更新方法及系统
CN107609090A (zh) 分布式存储系统中多副本弱一致性维护方法
CN114090631A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN110543472A (zh) 数据对账方法及相关装置
CN112527922A (zh) 一种基于不变模型的数据仓库增量加工方法
CN116226086A (zh) 一种数据迁移过程中分段数据的顺序维护与校验方法
CN110879812B (zh) 一种电商平台中基于spark的数据同步方法
CN109063201B (zh) 一种基于混合存储方案的impala在线交互式查询方法
CN111259082A (zh) 大数据环境下实现全量数据同步的方法
CN117251448B (zh) 一种宽表拉链表数据处理方法及装置
CN115631866B (zh) 一种针对医疗大数据采集的快速精准去重方法
CN117453856B (zh) 一种基于多源数据融合的历审案件串联的提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant