CN102521225A - 增量数据抽取装置和增量数据抽取方法 - Google Patents
增量数据抽取装置和增量数据抽取方法 Download PDFInfo
- Publication number
- CN102521225A CN102521225A CN2011103033179A CN201110303317A CN102521225A CN 102521225 A CN102521225 A CN 102521225A CN 2011103033179 A CN2011103033179 A CN 2011103033179A CN 201110303317 A CN201110303317 A CN 201110303317A CN 102521225 A CN102521225 A CN 102521225A
- Authority
- CN
- China
- Prior art keywords
- data
- key message
- incremental data
- extraction
- last time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种增量数据抽取装置和一种增量数据抽取方法,其中,增量数据抽取装置包括:关键信息抽取模块,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;增量数据查找模块,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;增量数据抽取模块,根据所述增量数据的关键信息的标识,从业务数据库中抽取所述增量数据。通过本发明,利用时间戳可以有效地获取增量数据段的信息,进行有针对性的抽取,可以大幅提高抽取效率。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种增量数据抽取装置和一种增量数据抽取方法。
背景技术
商业智能领域应用的核心就是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,达到资源的合理配置,节约成本提高效益。而数据抽取是实施商业智能系统中非常重要的环节,快速、准确、高效地找到业务系统中变化的数据并抽取到数据仓库中,是整个数据抽取中最能影响抽取效率的,进行抽取的各种场景包括:抽取修改的财务凭证数据;抽取修改的业务单据;抽取新增的业务数据;找到删除的业务数据。
ERP等业务系统中很多表的数据量在千万行以上,每天需要抽取到数据仓库,每张表抽取的数据量每天也有几万到十几万,而且存在修改之前已经审核甚至记账的数据,要实现增量抽取,关键是如何准确快速的捕获变化的数据。优秀的增量抽取机制要求ETL能够将业务系统中的变化数据按一定的频率准确地捕获到,同时不能对业务系统造成太大的压力,影响现有业务。
在传统的方法中,虽然存在多种机制处理增量抽取,但这些方式都存在明显缺点,如下表所示:
因此,需要一种新的增量数据抽取方案,能够快速、准确、及时地找到增量数据,尤其是在大量数据的情况,能够完成增量数据的抽取,且能够与抽取业务数据逻辑完全分离,同时保证实现难度小,节省用户的成本。
发明内容
本发明所要解决的技术问题在于,提供一种新的增量数据抽取方案,能够快速、准确、及时地找到增量数据,尤其是在大量数据的情况,能够完成增量数据的抽取,且能够与抽取业务数据逻辑完全分离,同时保证实现难度小,节省用户的成本。
有鉴于此,本发明提供一种增量数据抽取装置,包括:关键信息抽取模块,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;增量数据查找模块,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;增量数据抽取模块,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。通过该技术方案,利用时间戳可以有效地获取增量数据的信息,进行有针对性的抽取,可以大幅提高抽取效率。
在上述技术方案中,优选地,所述增量数据查找模块从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。通过该技术方案,能够有效地区分出增量数据中的新增、修改和删除的数据。
在上述技术方案中,优选地,所述关键信息还包括所述数据的业务时间,所述增量数据查找模块还从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。通过该技术方案,通过统计记录,可以有针对性地查询删除数据的信息,能大幅提高查找效率。
在上述技术方案中,优选地,所述增量数据抽取模块还为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。通过该技术方案,保证了用户对不同类型的增量数据一目了然。
在上述技术方案中,优选地,所述增量数据查找模块还将所述增量数据的关键信息记录预设的增量数据表中;所述增量数据抽取模块根据所述增量数据表,来抽取所述增量数据。通过该技术方案,可以实现一次生成增量数据表,多次进行增量数据抽取,能够提高数据抽取的效率,并可节省资源的消耗。
本发明还提供一种增量数据抽取方法,包括:步骤202,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;步骤204,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;步骤206,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。通过该技术方案,利用时间戳可以有效地获取增量数据的信息,进行有针对性的抽取,可以大幅提高抽取效率。
在上述技术方案中,优选地,所述步骤204具体包括:从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。通过该技术方案,能够有效地区分出增量数据中的新增、修改和删除的数据。
在上述技术方案中,优选地,所述关键信息还包括所述数据的业务时间,所述步骤204还包括:从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。通过该技术方案,通过统计记录,可以有针对性地查询删除数据的信息,能大幅提高查找效率。
在上述技术方案中,优选地,所述步骤206还包括:为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。通过该技术方案,保证了用户对不同类型的增量数据一目了然。
在上述技术方案中,优选地,所述步骤204还包括:将所述增量数据的关键信息记录预设的增量数据表中;所述步骤206具体包括:根据所述增量数据表,来抽取所述增量数据。通过该技术方案,可以实现一次生成增量数据表,多次进行增量数据抽取,能够提高数据抽取的效率,并可节省资源的消耗。
通过以上技术方案,可以实现一种增量数据抽取装置和一种增量数据抽取方法,能够快速、准确、及时地找到增量数据,尤其是在大量数据的情况,能够完成增量数据的抽取,且能够与抽取业务数据逻辑完全分离,同时保证实现难度小,节省用户的成本。
附图说明
图1是根据本发明的一个实施例的增量数据抽取装置的框图;
图2是根据本发明的一个实施例的增量数据抽取方法的流程图;
图3是根据本发明的一个实施例的增量数据抽取装置的结构示意图;
图4是根据本发明的一个实施例的增量数据抽取装置的工作流程图;
图5是根据本发明的一个实施例的增量数据抽取装置的数据结构图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1是根据本发明的一个实施例的增量数据抽取装置的框图。
如图1所示,本发明提供一种增量数据抽取装置100,包括:关键信息抽取模块102,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;增量数据查找模块104,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;增量数据抽取模块106,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。通过该技术方案,利用时间戳可以有效地获取增量数据的信息,进行有针对性的抽取,可以大幅提高抽取效率。
在上述技术方案中,所述增量数据查找模块104从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。通过该技术方案,能够有效地区分出增量数据中的新增、修改和删除的数据。
在上述技术方案中,所述关键信息还包括所述数据的业务时间,所述增量数据查找模块104还从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。通过该技术方案,通过统计记录,可以有针对性地查询删除数据的信息,能大幅提高查找效率。
在上述技术方案中,所述增量数据抽取模块106还为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。通过该技术方案,保证了用户对不同类型的增量数据一目了然。
在上述技术方案中,所述增量数据查找模块104还将所述增量数据的关键信息记录预设的增量数据表中;所述增量数据抽取模块106根据所述增量数据表,来抽取所述增量数据。通过该技术方案,可以实现一次生成增量数据表,多次进行增量数据抽取,能够提高数据抽取的效率,并可节省资源的消耗。
图2是根据本发明的一个实施例的增量数据抽取方法的流程图。
如图2所示,本发明还提供一种增量数据抽取方法,包括:步骤202,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;步骤204,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;步骤206,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。通过该技术方案,利用时间戳可以有效地获取增量数据的信息,进行有针对性的抽取,可以大幅提高抽取效率。
在上述技术方案中,所述步骤204具体包括:从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。通过该技术方案,能够有效地区分出增量数据中的新增、修改和删除的数据。
在上述技术方案中,所述关键信息还包括所述数据的业务时间,所述步骤204还包括:从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。通过该技术方案,通过统计记录,可以有针对性地查询删除数据的信息,能大幅提高查找效率。
在上述技术方案中,所述步骤206还包括:为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。通过该技术方案,保证了用户对不同类型的增量数据一目了然。
在上述技术方案中,所述步骤204还包括:将所述增量数据的关键信息记录预设的增量数据表中;所述步骤206具体包括:根据所述增量数据表,来抽取所述增量数据。通过该技术方案,可以实现一次生成增量数据表,多次进行增量数据抽取,能够提高数据抽取的效率,并可节省资源的消耗。
为更好解释本发明的技术方案,现对以下名词定义进行解释:
抽取关键信息域:业务表中主键列、业务时间列、时间戳三列组成。
根据发明背景中的描述,本发明的一个实施例中,对增量数据抽取抽象出了二种业务场景:
1:自上次抽取以来数据库中要抽取的表中的新增数据;
2:上次抽取时间以前数据库中要抽取的表中的修改、删除、新增的数据。
为实现上述二种业务逻辑模式,本实施例提供的增量数据抽取装置包括增量数据计算模块302(对应于前述的关键信息抽取模块和增量数据查找模块)和业务数据抽取引擎304(对应于前述的增量数据抽取模块),如图3所示:
首先需要把业务数据库中需要支持增量抽取的业务表信息(所在数据库、表名、主键列名、业务时间列名、时间戳列名)注册到增量数据计算模块302中,在业务数据抽取引擎304执行数据抽取的时候,增量数据计算模块302根据业务表注册信息从业务数据库中抽取业务表中主键、业务时间、时间戳3列的数据到增量数据临时数据库中形成本次抽取业务表的快照表,同时根据快照表按时间(年、月)生成快照表记录的按时间周期上的行数统计表,为增量数据计算做准备。增量数据计算模块302会自动为本次业务表的增量计算生成增量数据临时表用于存放增量数据关键信息,此临时表由业务主键列、业务时间、时间戳、行状态4列组成。其中行状态有新增、修改、删除3个状态值,通过本次快照表和上次快照表基于上次抽取最大时间戳上的一系列比对,把本次抽取的业务表中的新增、修改、删除的数据存放在增量数据库中的临时表中。业务抽取数据引擎304根据增量数据临时库中的增量数据临时表的业务主键值列表去业务数据库中抽取增量业务明细数据到数据仓库中。最后增量数据计算模块302删除上次抽取的业务表的快照表记录下本次抽取业务表中的最大时间戳,下次抽取得到的业务表的快照表再和本次抽取得到的业务表的快照表计算对比得到增量数据,依次循环比较,快速、高效、连续、准确的找到每次抽取业务表中的增量数据,也很好的把抽取的复杂业务逻辑和增量数据计算的逻辑分离。
本实施例中的增量数据抽取装置的工作流程可以图4所示:
步骤402,使用SqlBulkCopy把业务数据库中的业务表数据中主键,业务时间、时间戳3列数据批量复制到增量数据临时数据库中生产本次业务表的关键信息快照表。这样保证了数据复制的效率,同时对业务系统影响也较小。
步骤404,通过当前快照表中时间戳大于上次抽取最大时间戳找到新增和修改数据,把这部分的数据批量复制到增量数据表中。
步骤406,通过增量数据表和上次抽取的业务表的快照表在业务主键列上进行Sql左关联(Left join)找到哪些数据是新增数据,哪些是修改数据,同时在增量数据表中的行状态列上标识出新增数据和修改数据。
步骤408,通过对比本次快照记录统计表(时间戳小于等于上次抽取最大时间戳)的记录统计表和上次快照表记录统计表情况,得到哪些年月下数据有删除,通过本次业务表的快照表(时间在有数据删除年月下且时间戳小于等于上次抽取最大时间戳)和上次抽取业务表的快照(时间在有数据删除年月下)在业务主键列上进行右关联(Right join)找到已被删除数据的关键信息,并把这部分数据批量插入到增量数据表中,同时行状态列上标识出已删除。这样做的好处是能够缩小快照表比较的范围,就能更高效地在有删除月份下比较找到具体哪些数据较上次抽取已经删除。
步骤410,这样在增量数据表中就存放着本次抽取新增、删除、修改三类数据的主键值列表。业务抽取数据抽取引擎根据增量数据临时库中的增量数据临时表的业务主键值列表去业务数据库中抽取增量业务明细数据到数据仓库中。
下面使用本实施例中的增量数据抽取装置,阐述具体的技术方案。
案例背景:本案例使用C#作为编程语言;完整应用系统以ERP销售订单业务数据为例;设计数据存储在Sql server数据库中。
ERP帐套库中销售订单主表(SO_SOMain):
ERP帐套库中销售订单子表(SO_SODetails):
执行抽取后,增量抽取引擎记录下现在销售订单主表、子表状态。
增量数据计算引擎中注册支持增量计算的业务表(BusinessTables):
BusinessTableInfos:
主键 | BusinessTables外键 | 年月 | 行数 | 状态 |
Id | BTId | YearMonth | RowC ount | State |
1 | 1 | 201001 | 6 | 1 |
快照表(Test_Snapshot_SO_SOMain):
业务表主键值 | 业务时间 | 业务表时间戳 |
SourceId | BusinessDate | Timestamp |
1 | 2010-01-01 | 0x00000000019FD7C1 |
2 | 2010-01-01 | 0x00000000019FD7C2 |
3 | 2010-01-01 | 0x00000000019FD7C3 |
4 | 2010-01-02 | 0x00000000019FD7C4 |
5 | 2010-01-02 | 0x00000000019FD7C5 |
6 | 2010-01-03 | 0x00000000019FD7C6 |
随着时间的推移,业务的开展,数据发生更改:
1.销售订单号为Z0002这张订单被删除。
2.销售订单号为Z0003这张订单被修改,且在抽取过后被修改的。
3.销售订单号为Z0007这张订单是新增订单,单据日期是在最后一次抽取日期之前。
4.销售订单号为Z0008这张订单是新增订单,单据日期是在最后一次抽取日期之后。
本次抽取后的快照表(Test_Snapshot_SO_SOMain):
业务表主键值 | 业务时间 | 业务表时间戳 |
SourceId | BusinessDate | Timestamp |
1 | 2010-01-01 | 0x00000000019FD7C1 |
4 | 2010-01-02 | 0x00000000019FD7C4 |
5 | 2010-01-02 | 0x00000000019FD7C5 |
6 | 2010-01-03 | 0x00000000019FD7C6 |
7 | 2010-01-01 | 0x00000000019FD7D1 |
8 | 2010-01-01 | 0x00000000019FD7D2 |
3 | 2010-01-04 | 0x00000000019FD7D3 |
上次抽取后的快照表(Test_LastSnapshot_SO_SOMain):
业务表主键值 | 业务时间 | 业务表时间戳 |
SourceId | BusinessDate | Timestamp |
1 | 2010-01-01 | 0x00000000019FD7C1 |
2 | 2010-01-01 | 0x00000000019FD7C2 |
3 | 2010-01-01 | 0x00000000019FD7C3 |
4 | 2010-01-02 | 0x00000000019FD7C4 |
5 | 2010-01-02 | 0x00000000019FD7C5 |
6 | 2010-01-03 | 0x00000000019FD7C6 |
快照表数据按年月分布情况表:(此处以月为单位,也可以以年为单位,如果以年为比较单位的话,可以先比较每年数据行数有无变化,如年中数据有变化再比较年下的每个月,如年中数据行数没有变化,无须比较年下的月。)
主键 | BusinessTables外键 | 年月 | 行数 | 状态 |
Id | BTId | YearMonth | RowC ount | State |
1 | 1 | 201001 | 6 | 0 |
2 | 1 | 201001 | 7 | 1 |
3 | 1 | 201001 | 5 | 2 |
状态(State)说明:
State=0表示上次抽取时快照表按年月分布的数据行数;
State=1表示本次抽取时快照表按年月分布的数据行数;
State=2表示本次抽取时快照表中时间戳小于等于上次最大时间戳按年月分布的数据行数。
增量数据表(Test_Increment_SO_SOMain):
业务数据主键值 | 业务日期 | 时间戳 | 业务数据行状态 |
SourceId | BusinessDate | Timestamp | SourceState |
2 | 2010-01-01 | 0x00000000019FD7C2 | 0 |
3 | 2010-01-01 | 0x00000000019FD7D3 | 1 |
7 | 2010-01-01 | 0x00000000019FD7D1 | 2 |
8 | 2010-01-04 | 0x00000000019FD7D2 | 2 |
业务数据行状态(SourceState)说明:
SourceState=0表示删除数据;
SourceState=1表示修改数据;
SourceState=2表示新增数据。
根据以上说明,本实施例中的增量数据抽取装置的数据库结构设计图可以如图5所示。
综上所述,通过本发明的技术方案,找到了一种统一的方法解决不同的业务增量数据,大大提高了抽取的效率,并减小了抽取过程中对业务系统的影响。本发明的技术方案可以应用到不同的数据库平台,不依赖于数据库本身是否支持CDC,只要通过配置可以灵活的实现对数据库中所有表的增量抽取。
本实施例的技术方案的工作效率如下:
单表总记录:13172594;
CPU:Intel Core i3CPU 5503.20GHz 3.19GHz;
内存:3.67GB。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种增量数据抽取装置,其特征在于,包括:
关键信息抽取模块,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;
增量数据查找模块,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;
增量数据抽取模块,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。
2.根据权利要求1所述的增量数据抽取装置,其特征在于,所述增量数据查找模块从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。
3.根据权利要求2所述的增量数据抽取装置,其特征在于,所述关键信息还包括所述数据的业务时间,所述增量数据查找模块还从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。
4.根据权利要求1所述的增量数据抽取装置,其特征在于,所述增量数据抽取模块还为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。
5.根据权利要求1至4中任一项所述的增量数据抽取装置,其特征在于,所述增量数据查找模块还将所述增量数据的关键信息记录预设的增量数据表中;
所述增量数据抽取模块根据所述增量数据表,来抽取所述增量数据。
6.一种增量数据抽取方法,其特征在于,包括:
步骤202,从业务数据库中抽取数据表的关键信息,以形成快照表,所述关键信息包括数据表的标识和时间戳;
步骤204,比较本次和上次抽取的快照表中的时间戳,根据比较结果,获取增量数据的关键信息,其中,所述增量数据包括数据表中增加、修改或删除的数据;
步骤206,根据所述增量数据的关键信息的标识,从所述业务数据库中抽取所述增量数据。
7.根据权利要求6所述的增量数据抽取方法,其特征在于,所述步骤204具体包括:
从本次抽取的快照表中,获取时间戳大于上次抽取的最大时间戳的关键信息,并根据所获取的关键信息的标识与上次抽取的快照表中的标识进行左关联,从所获取的关键信息中分别取得增加的数据的关键信息和修改的数据的关键信息,以及
再次获取时间戳小于等于上次抽取的最大时间戳的关键信息,并根据再次获取的关键信息的标识与上次抽取的快照表中的标识进行右关联操作,以从所获取的关键信息中取得删除的数据的关键信息。
8.根据权利要求7所述的增量数据抽取方法,其特征在于,所述关键信息还包括所述数据的业务时间,所述步骤204还包括:
从本次抽取的快照表中,按业务时间统计本次抽取的关键信息的数量,以及时间戳小于等于上次抽取的最大时间戳的关键信息的数量,以形成统计记录,对比本次抽取的统计记录中的时间戳小于等于上次抽取的最大时间戳的关键信息的数量和上次抽取的统计记录中的上次抽取的关键信息的数量,得到删除的数据的对应业务时间,并从本次抽取的快照表中包括所述对应业务时间的关键信息中,获取时间戳小于等于上次抽取的最大时间戳的关键信息,以取得所述删除的数据的关键信息。
9.根据权利要求6所述的增量数据抽取方法,其特征在于,所述步骤206还包括:
为所述增量数据中的新增、修改和删除的数据分别添加不同的标记。
10.根据权利要求6至9中任一项所述的增量数据抽取方法,其特征在于,所述步骤204还包括:
将所述增量数据的关键信息记录预设的增量数据表中;
所述步骤206具体包括:
根据所述增量数据表,来抽取所述增量数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110303317 CN102521225B (zh) | 2011-09-29 | 2011-09-29 | 增量数据抽取装置和增量数据抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110303317 CN102521225B (zh) | 2011-09-29 | 2011-09-29 | 增量数据抽取装置和增量数据抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102521225A true CN102521225A (zh) | 2012-06-27 |
CN102521225B CN102521225B (zh) | 2013-09-11 |
Family
ID=46292153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110303317 Active CN102521225B (zh) | 2011-09-29 | 2011-09-29 | 增量数据抽取装置和增量数据抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521225B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103984712A (zh) * | 2014-05-05 | 2014-08-13 | 神华集团有限责任公司 | 基于sap数据仓库的凭证数据检索方法 |
CN104142930A (zh) * | 2013-05-06 | 2014-11-12 | Sap股份公司 | 通用δ数据装载 |
CN104216987A (zh) * | 2014-09-04 | 2014-12-17 | 浪潮通用软件有限公司 | 一种基于时间戳且支持删除操作的增量数据捕获方法 |
CN104462568A (zh) * | 2014-12-26 | 2015-03-25 | 山东中创软件商用中间件股份有限公司 | 一种数据对账方法、装置和系统 |
CN105138656A (zh) * | 2015-08-31 | 2015-12-09 | 浪潮软件股份有限公司 | 一种处理数据的方法及装置 |
CN105653560A (zh) * | 2014-11-28 | 2016-06-08 | 华为软件技术有限公司 | 数据归档方法和装置 |
CN105740259A (zh) * | 2014-12-09 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 一种增量数据的处理方法和装置 |
CN105760485A (zh) * | 2016-02-17 | 2016-07-13 | 上海携程商务有限公司 | 财务数据抽取方法及系统 |
CN105893529A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种数据采集方法以及etl组件 |
CN106570024A (zh) * | 2015-10-10 | 2017-04-19 | 北京国双科技有限公司 | 数据增量处理的方法和装置 |
CN106843891A (zh) * | 2017-02-06 | 2017-06-13 | 浪潮通用软件有限公司 | 一种基于增量的表单分层扩展方法 |
CN106874389A (zh) * | 2017-01-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 数据的迁移方法和装置 |
CN107967361A (zh) * | 2017-12-22 | 2018-04-27 | 北京明朝万达科技股份有限公司 | 一种数据库的增量处理方法和系统 |
CN108205560A (zh) * | 2016-12-19 | 2018-06-26 | 腾讯科技(深圳)有限公司 | 一种数据同步方法以及装置 |
CN108399580A (zh) * | 2018-02-09 | 2018-08-14 | 国网浙江省电力有限公司信息通信分公司 | 电力行业全业务统一数据服务器系统 |
CN108492209A (zh) * | 2018-02-09 | 2018-09-04 | 国网浙江省电力有限公司信息通信分公司 | 基于大数据的电力全业务数据系统 |
CN108563658A (zh) * | 2017-12-29 | 2018-09-21 | 邵阳学院 | 一种多平台间数据同步更新的方法和装置 |
CN109213817A (zh) * | 2018-08-10 | 2019-01-15 | 杭州数梦工场科技有限公司 | 增量数据抽取方法、装置及服务器 |
CN109271435A (zh) * | 2018-09-14 | 2019-01-25 | 南威软件股份有限公司 | 一种支持断点续传的数据抽取方法及系统 |
CN109388671A (zh) * | 2018-10-10 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN110309126A (zh) * | 2019-07-02 | 2019-10-08 | 拓尔思信息技术股份有限公司 | 关系数据库增量迁移处理方法、关系数据库中数据保存方法 |
CN110517009A (zh) * | 2019-07-29 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 实时公共层建设方法、装置及服务器 |
CN110727724A (zh) * | 2019-09-09 | 2020-01-24 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据抽取方法、装置、计算机设备和存储介质 |
CN111026760A (zh) * | 2019-12-11 | 2020-04-17 | 宏图智能物流股份有限公司 | 一种基于多维度业务时间的cdc数据采集方法 |
CN112527922A (zh) * | 2020-12-15 | 2021-03-19 | 神州数码信息系统有限公司 | 一种基于不变模型的数据仓库增量加工方法 |
CN112559536A (zh) * | 2021-02-20 | 2021-03-26 | 北京工业大数据创新中心有限公司 | 一种工业设备数据的处理方法及系统 |
CN112783848A (zh) * | 2021-01-20 | 2021-05-11 | 杭州数梦工场科技有限公司 | 一种数据同步方法、装置及电子设备 |
CN113326277A (zh) * | 2021-06-30 | 2021-08-31 | 中国工商银行股份有限公司 | MySQL数据批量新增方法及装置 |
CN116401220A (zh) * | 2023-06-01 | 2023-07-07 | 联想凌拓科技有限公司 | 文件系统的数据恢复方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215526A1 (en) * | 2007-03-02 | 2008-09-04 | Sony Corporation | Information processing apparatus, informaition processing method, and information processing program |
CN101923566A (zh) * | 2010-06-24 | 2010-12-22 | 浙江协同数据系统有限公司 | 一种基于触发器的数据增量抽取方法 |
CN101937474A (zh) * | 2010-10-14 | 2011-01-05 | 广州从兴电子开发有限公司 | 海量数据查询方法及设备 |
CN102253998A (zh) * | 2011-07-12 | 2011-11-23 | 武汉大学 | 基于Web时间不一致的过时网页自动发现与排序方法 |
-
2011
- 2011-09-29 CN CN 201110303317 patent/CN102521225B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215526A1 (en) * | 2007-03-02 | 2008-09-04 | Sony Corporation | Information processing apparatus, informaition processing method, and information processing program |
CN101923566A (zh) * | 2010-06-24 | 2010-12-22 | 浙江协同数据系统有限公司 | 一种基于触发器的数据增量抽取方法 |
CN101937474A (zh) * | 2010-10-14 | 2011-01-05 | 广州从兴电子开发有限公司 | 海量数据查询方法及设备 |
CN102253998A (zh) * | 2011-07-12 | 2011-11-23 | 武汉大学 | 基于Web时间不一致的过时网页自动发现与排序方法 |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142930A (zh) * | 2013-05-06 | 2014-11-12 | Sap股份公司 | 通用δ数据装载 |
CN104142930B (zh) * | 2013-05-06 | 2019-09-13 | Sap欧洲公司 | 通用δ数据装载 |
CN103984712B (zh) * | 2014-05-05 | 2017-03-22 | 神华集团有限责任公司 | 基于sap数据仓库的凭证数据检索方法 |
CN103984712A (zh) * | 2014-05-05 | 2014-08-13 | 神华集团有限责任公司 | 基于sap数据仓库的凭证数据检索方法 |
CN104216987A (zh) * | 2014-09-04 | 2014-12-17 | 浪潮通用软件有限公司 | 一种基于时间戳且支持删除操作的增量数据捕获方法 |
CN105653560B (zh) * | 2014-11-28 | 2019-05-14 | 华为软件技术有限公司 | 数据归档方法和装置 |
CN105653560A (zh) * | 2014-11-28 | 2016-06-08 | 华为软件技术有限公司 | 数据归档方法和装置 |
CN105740259A (zh) * | 2014-12-09 | 2016-07-06 | 阿里巴巴集团控股有限公司 | 一种增量数据的处理方法和装置 |
CN105740259B (zh) * | 2014-12-09 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种增量数据的处理方法和装置 |
CN104462568B (zh) * | 2014-12-26 | 2018-07-31 | 山东中创软件商用中间件股份有限公司 | 一种数据对账方法、装置和系统 |
CN104462568A (zh) * | 2014-12-26 | 2015-03-25 | 山东中创软件商用中间件股份有限公司 | 一种数据对账方法、装置和系统 |
CN105138656A (zh) * | 2015-08-31 | 2015-12-09 | 浪潮软件股份有限公司 | 一种处理数据的方法及装置 |
CN106570024A (zh) * | 2015-10-10 | 2017-04-19 | 北京国双科技有限公司 | 数据增量处理的方法和装置 |
CN106570024B (zh) * | 2015-10-10 | 2020-03-06 | 北京国双科技有限公司 | 数据增量处理的方法和装置 |
CN105760485A (zh) * | 2016-02-17 | 2016-07-13 | 上海携程商务有限公司 | 财务数据抽取方法及系统 |
CN105893529A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种数据采集方法以及etl组件 |
CN108205560A (zh) * | 2016-12-19 | 2018-06-26 | 腾讯科技(深圳)有限公司 | 一种数据同步方法以及装置 |
CN108205560B (zh) * | 2016-12-19 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 一种数据同步方法以及装置 |
CN106874389A (zh) * | 2017-01-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 数据的迁移方法和装置 |
CN106843891A (zh) * | 2017-02-06 | 2017-06-13 | 浪潮通用软件有限公司 | 一种基于增量的表单分层扩展方法 |
CN107967361A (zh) * | 2017-12-22 | 2018-04-27 | 北京明朝万达科技股份有限公司 | 一种数据库的增量处理方法和系统 |
CN108563658A (zh) * | 2017-12-29 | 2018-09-21 | 邵阳学院 | 一种多平台间数据同步更新的方法和装置 |
CN108492209A (zh) * | 2018-02-09 | 2018-09-04 | 国网浙江省电力有限公司信息通信分公司 | 基于大数据的电力全业务数据系统 |
CN108399580A (zh) * | 2018-02-09 | 2018-08-14 | 国网浙江省电力有限公司信息通信分公司 | 电力行业全业务统一数据服务器系统 |
CN109213817A (zh) * | 2018-08-10 | 2019-01-15 | 杭州数梦工场科技有限公司 | 增量数据抽取方法、装置及服务器 |
CN109213817B (zh) * | 2018-08-10 | 2019-09-06 | 杭州数梦工场科技有限公司 | 增量数据抽取方法、装置及服务器 |
CN109271435A (zh) * | 2018-09-14 | 2019-01-25 | 南威软件股份有限公司 | 一种支持断点续传的数据抽取方法及系统 |
CN109271435B (zh) * | 2018-09-14 | 2022-03-04 | 南威软件股份有限公司 | 一种支持断点续传的数据抽取方法及系统 |
CN109388671A (zh) * | 2018-10-10 | 2019-02-26 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN109388671B (zh) * | 2018-10-10 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备及存储介质 |
CN110309126A (zh) * | 2019-07-02 | 2019-10-08 | 拓尔思信息技术股份有限公司 | 关系数据库增量迁移处理方法、关系数据库中数据保存方法 |
CN110517009B (zh) * | 2019-07-29 | 2023-01-24 | 创新先进技术有限公司 | 实时公共层建设方法、装置及服务器 |
CN110517009A (zh) * | 2019-07-29 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 实时公共层建设方法、装置及服务器 |
CN110727724A (zh) * | 2019-09-09 | 2020-01-24 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据抽取方法、装置、计算机设备和存储介质 |
CN110727724B (zh) * | 2019-09-09 | 2023-03-24 | 未鲲(上海)科技服务有限公司 | 数据抽取方法、装置、计算机设备和存储介质 |
CN111026760A (zh) * | 2019-12-11 | 2020-04-17 | 宏图智能物流股份有限公司 | 一种基于多维度业务时间的cdc数据采集方法 |
CN112527922A (zh) * | 2020-12-15 | 2021-03-19 | 神州数码信息系统有限公司 | 一种基于不变模型的数据仓库增量加工方法 |
CN112527922B (zh) * | 2020-12-15 | 2023-11-24 | 神州数码信息系统有限公司 | 一种基于不变模型的数据仓库增量加工方法 |
CN112783848A (zh) * | 2021-01-20 | 2021-05-11 | 杭州数梦工场科技有限公司 | 一种数据同步方法、装置及电子设备 |
CN112783848B (zh) * | 2021-01-20 | 2023-12-26 | 杭州数梦工场科技有限公司 | 一种数据同步方法、装置及电子设备 |
CN112559536A (zh) * | 2021-02-20 | 2021-03-26 | 北京工业大数据创新中心有限公司 | 一种工业设备数据的处理方法及系统 |
CN113326277A (zh) * | 2021-06-30 | 2021-08-31 | 中国工商银行股份有限公司 | MySQL数据批量新增方法及装置 |
CN113326277B (zh) * | 2021-06-30 | 2024-03-12 | 中国工商银行股份有限公司 | MySQL数据批量新增方法及装置 |
CN116401220A (zh) * | 2023-06-01 | 2023-07-07 | 联想凌拓科技有限公司 | 文件系统的数据恢复方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102521225B (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102521225B (zh) | 增量数据抽取装置和增量数据抽取方法 | |
CN106649378B (zh) | 一种数据同步方法及装置 | |
CN105138635B (zh) | 一种利用哈希值比对进行数据增量复制的方法 | |
CN110879813B (zh) | 一种基于二进制日志解析的MySQL数据库增量同步实现方法 | |
CN111459985B (zh) | 标识信息处理方法及装置 | |
CN105488187A (zh) | 多源异构数据增量抽取的方法及装置 | |
CN101158958B (zh) | 基于MySQL存储引擎的融合查询方法 | |
CN104899295B (zh) | 一种异构数据源数据关联分析方法 | |
CN106611053B (zh) | 一种数据清理、索引方法 | |
CN101430714B (zh) | 一种基于样式的内容结构化加工方法及系统 | |
CN106933836B (zh) | 一种基于分表的数据存储方法和系统 | |
CN106599104A (zh) | 一种基于redis集群的海量数据关联方法 | |
CN101882135B (zh) | 一种兴趣点数据处理方法和装置 | |
CN102867066B (zh) | 数据汇总装置和数据汇总方法 | |
CN102646039A (zh) | 基于XML Schema的软件界面生成系统及方法 | |
CN103019728A (zh) | 一种高效复杂报表解析引擎及其解析方法 | |
CN104834700A (zh) | 一种基于轨迹变更的移动数据增量捕获方法 | |
CN104462421A (zh) | 基于键-值数据库的多租户扩展方法 | |
CN105787058A (zh) | 一种用户标签系统及基于用户标签系统的数据推送系统 | |
CN105808653A (zh) | 一种基于用户标签系统的数据处理方法及装置 | |
CN107783974B (zh) | 数据处理系统及方法 | |
CN103246753A (zh) | 一种根据数据库结构生成实体元数据模型的方法 | |
CN107330024A (zh) | 标签系统数据的存储方法和装置 | |
CN109857822A (zh) | 基于图数据库的元模型转换方法及管理系统 | |
CN104462462B (zh) | 基于业务变化频度的数据仓库建模方法和建模装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160128 Address after: 100094 Beijing City, North Road, Haidian District, No. 68, building 2, floor 2 Patentee after: You Pu Information Technology Co., Ltd of UFSOFT Address before: 100094 Beijing city Haidian District North Road No. 68, UFIDA Software Park Patentee before: UFIDA Software Co., Ltd. |