CN103838787A - 一种对分布式数据仓库进行更新的方法和设备 - Google Patents

一种对分布式数据仓库进行更新的方法和设备 Download PDF

Info

Publication number
CN103838787A
CN103838787A CN201210490998.9A CN201210490998A CN103838787A CN 103838787 A CN103838787 A CN 103838787A CN 201210490998 A CN201210490998 A CN 201210490998A CN 103838787 A CN103838787 A CN 103838787A
Authority
CN
China
Prior art keywords
data
business
updated
new
business datum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210490998.9A
Other languages
English (en)
Other versions
CN103838787B (zh
Inventor
李俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210490998.9A priority Critical patent/CN103838787B/zh
Publication of CN103838787A publication Critical patent/CN103838787A/zh
Application granted granted Critical
Publication of CN103838787B publication Critical patent/CN103838787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种对分布式数据仓库进行更新的方法和设备。该方法包括:根据预定规则将业务数据分为新数据、变更数据和旧数据;根据所述预定规则将所述分布式数据仓库的业务分区中的已存数据分为被更新数据和非更新数据;从所述业务分区中移出所述被更新数据;将所述新数据插入所述业务分区的预定位置;以及将所述变更数据插入到所述被更新数据的位置。

Description

一种对分布式数据仓库进行更新的方法和设备
技术领域
本申请涉及计算机领域,尤其涉及一种对分布式数据仓库进行更新的方法和设备。
背景技术
随着互联网的发展,产生的数据越来越多,数据呈现爆发式增长,数据结构也开始多元化,数据含有的信息量越来越多,人们对数据分析研究也越来越关注。数据仓库在这样的背景下发挥着巨大的作用,数据仓库研究和解决从数据库中获取信息的问题,用于对数据进行分析处理的工作。数据仓库由于大数据时代的来临,慢慢转成分布式架构,以满足日益增长的计算及存储的要求。由于分布式数据一般都使用列式存储,并且以文件的形式保存,从而虽然提高了大数据的存储及计算性,但是也牺牲了原来关系型数据库特有的事务处理方式,也将不再提供更新数据功能,只提供插入、删除、重写功能。因此,如果要实现原有的关系型数据库的更新功能,只能将全量数据选择删除及插入,而不能针对特定的记录进行更新操作。
当前现有的更新方法包括:1、不关心当天更新了哪些数据,选取当前所需要的全量数据,包含更新的、未更新的,但不包含已经被删除的(删除的数据系统当前已经取不到)。2、删除之前的全量数据。3、将当前的全量数据插入,用以更新之前的数据。4、当前全量数据插入后,将包含原来未更新的旧数据,已经更新的新数据(包含需要删除的数据不取得)。这些方法就会带来如下问题:1、数据量大(包含选取当前全量数据、删除之前全量数据、插入当前全量数据)。2、更新步骤串行(需要将更新的3个步骤串行,且如果出错,需要人为回滚)。3、计算、存储等资源消耗大(数据量大、全删全插)。4、时间耗时长(数据量大、串行)。
发明内容
针对上述缺陷,本申请的主要目的在于提供一种对分布式数据仓库进行更新的方法和设备,以解决现有技术存在的分布式数据仓库更新繁琐的问题,其中:
根据本申请的一个方面,提供一种对分布式数据仓库进行更新的方法。该方法包括:根据预定规则将业务数据分为新数据、变更数据和旧数据;根据所述预定规则将所述分布式数据仓库的业务分区中的已存数据分为被更新数据和非更新数据;从所述业务分区中移出所述被更新数据;将所述新数据插入所述业务分区的预定位置;以及将所述变更数据插入到所述被更新数据的位置。
根据本申请实施例的方法,还包括:将移出的所述被更新数据保存到所述分布式数据仓库的删除分区中或者保存到其他存储设备中。
根据本申请实施例的方法,其中,所述根据预定规则划分业务数据还包括:使用数据标签将所获取的业务数据标记为新数据、变更数据和旧数据;以及使用数据标签将所述已存数据标记为被更新数据和非更新数据。
根据本申请实施例的方法,还包括:所述非更新数据保持不变。
根据本申请实施例的方法,还包括:从与业务处理系统相关联的数据库中接收所述业务数据。
根据本申请实施例的方法,其中,所述接收所述业务数据包括:根据预定周期接收所述业务数据。
根据本申请实施例的方法,其中,根据预定规则将业务数据分为新数据、变更数据和旧数据的步骤包括:将所述业务数据与业务信息相关联,其中,与所述业务信息中的新增业务信息相关联的所述业务数据被划分为新数据、与所述业务信息中的变化了的业务信息相关联的所述业务数据被划分为变更数据、以及与所述业务信息中的无变化业务信息相关联的所述业务数据被划分为旧数据。
根据本申请实施例的方法,其中,根据所述预定规则将所述分布式数据仓库的业务分区中分为被更新部分和非更新部分的步骤包括:将所述已存数据与业务信息相关联,其中,与所述业务信息中的变化了的业务信息相关联的所述业务部分数据被划分为变更部分数据、以及与所述业务信息中的无变化业务信息相关联的所述业务部分数据被划分为旧数据。
根据本申请实施例的方法,还包括:所述预定规则为以表为单位对业务数据和已存数据进行划分,并且其中新数据、变更数据和旧数据为新表、更新表和旧表,以及被更新数据和非更新数据为被更新表和非更新表。
根据本申请实施例的方法,还包括:所述预定规则为以列为单位对业务数据和已存数据进行划分,并且其中新数据、变更数据和旧数据为新列、更新列和旧列,以及被更新数据和非更新数据为被更新列和非更新列。
根据本申请实施例的方法,还包括:所述预定规则为以字段为单位对业务数据和已存数据进行划分,并且其中新数据、变更数据和旧数据为新字段、更新字段和旧字段,以及被更新数据和非更新数据为被更新字段和非更新字段。
在本申请的另一方面中,提供一种对分布式数据仓库进行更新的设备,该设备包括:第一划分装置,被配置成根据预定规则将业务数据分为新数据、变更数据和旧数据;第二划分装置,被配置成根据所述预定规则将所述分布式数据仓库的业务分区中的已存数据分为被更新数据和非更新数据;移出模块,被配置成从所述业务分区中移出所述被更新数据;第一插入装置,被配置成将所述新数据插入所述业务分区的预定位置;以及第二插入装置,被配置成将所述变更数据插入到所述被更新数据的位置。
根据本申请的实施例,在所述系统中,还包括:存储装置,用于将移出的所述被更新数据保存到所述分布式数据仓库的删除分区中或者保存到其他存储设备中。
根据本申请的实施例,在所述系统中,还包括:所述第一划分装置还包括:第一标记装置,用于使用数据标签将所获取的业务数据标记为新数据、变更数据和旧数据;以及所述第二划分装置还包括:第二标记装置,用于使用数据标签将所述已存数据标记为被更新数据和非更新数据。
根据本申请的实施例,在所述系统中,还包括:接收装置,用于从与业务处理系统相关联的数据库中接收所述业务数据。
根据本申请的实施例,在所述系统中,还包括:所述接收装置用于根据预定周期接收所述业务数据。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请涉及一种对分布式数据仓库进行更新的方法的流程示意图;以及
图2是本申请涉及一种对分布式数据仓库进行更新的设备的结构示意图。
具体实施方式
本申请的主要思想在于,提供一种对分布式数据仓库进行更新的方法及设备以正确且有效率地进行分布式数据仓库更新的工作。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请涉及的对分布式数据仓库进行更新的方法的流程示意图。
在步骤110中,要更新的目标分布式数据仓库从与业务处理系统相关联的外部数据库中接收业务数据。
所述目标分布式数据仓库可以根据预定周期接收业务数据,其中预定周期根据业务的需求来制定,例如:如果业务只需要更新当天的数据,那么将预定周期设为一天;如果业务需要更新当月的数据,那么将预定周期就设为一个月。所述目标分布式数据仓库还可以根据预定日期接收业务数据,例如:如果业务需要更新某一天的数据,那么将预定日期设为某一预定日;如果业务需要更新某些天的数据,那么将预定日期设为某一时间段。业务数据的来源是业务处理系统相关联的外部数据库,从这些外部数据库中获取接收到所述需要的业务数据,并把他们存放在目标分布式数据仓库里的待处理分区中。在此,分布式数据仓库中包含用于接收业务数据的待处理分区、用于存储有已存数据的业务分区以及用于保存被移出数据的删除(delete)分区等。
在步骤120中,根据预定规则,将接收到的业务数据分为新数据、变更数据和旧数据。经过划分处理,业务数据被区分成三部分,针对每一部分数据,目标数据仓库会进行不同的处理。而对业务数据进行划分是为了更好地区分出在业务数据中哪些数据需要被处理,哪些数据不需要被处理,也就是说,新数据和变更数据需要被处理,而旧数据不需要被处理。通过划分业务数据的处理,减少了处理数据的数据量,节约了资源,节省了时间。
在划分业务数据的同时还可以将这些数据用数据标签进行标记,将新数据标记为new、旧数据标记为old、变更数据标记为update。用数据标签对业务数据进行标记能便于区分和寻找这些数据,提高更新的效率。
预定规则是根据业务的内容来制定的。例如,预定规则可以是按照业务信息的状态来划分业务数据。具体来说,例如,在划分业务数据时,将所述业务数据与业务信息相关联,其中,与所述业务信息中的新增业务信息相关联的所述业务数据被划分为新数据、与所述业务信息中的变化了的业务信息相关联的所述业务数据被划分为变更数据、以及与所述业务信息中的无变化业务信息相关联的所述业务数据被划分为旧数据。
例如,在人员信息更新系统中,分布式数据仓库接收到人员信息登记表,并将人员信息登记表与人员信息表相关联。人员信息登记表中包含的而人员信息表中没有包含的人员信息被划分为新数据,并将该新数据标记为new;人员信息登记中表包含的,同时人员信息表中也包含的但内容不同的人员信息被划分为变更数据,并将该变更数据标记为update;最后,人员信息登记表中包含的,同时人员信息表中也包含的且内容相同的人员信息被划分为旧数据,并将该旧数据标记为old。
在划分业务数据时,所述预定规则可以是以表为单位对业务数据进行划分,并且其中新数据、变更数据和旧数据为新表、更新表和旧表。
所述预定规则还可以是以列为单位对业务数据进行划分,并且其中新数据、变更数据和旧数据为新列、更新列和旧列。
所述预定规则还可以是以字段为单位对业务数据进行划分,并且其中新数据、变更数据和旧数据为新字段、更新字段和旧字段。
如此按照不同业务的内容制定不同的业务规则来划分业务数据。如果业务要更新整张表,就可以以表为单位来制定预定规则,不必去寻找每一个字段的数据内容,直接标记到表,可以更快速地更新目标分布式数据仓库。如果业务要更新个别字段的数据内容,就可以标记到字段,不用更新整张表,减少了更新的数据量,提高了更新的效率。也即是说,可以按照不同的业务数据的需要来确定本申请中的业务规则,从而实现最优化的数据存储效率。
接着,在步骤130中,根据所述预定规则将所述分布式数据仓库的业务分区中的已存数据分为被更新数据和非更新数据。经过划分处理,已存数据被分为两部分,同样地,针对不同的部分,目标分布式数据仓库会做不同的处理,这样可以区分出哪些数据要被处理,哪些数据不被处理,即,被更新数据需要被处理,而非更新数据不需要被处理。通过划分已存数据,减少了处理数据的数据量,节约了资源,节省了时间。
已存数据被划分后也可以用数据标签进行标记。将被更新数据标记为update,将非更新数据标记为old。用数据标签对已存数据进行标记能便于区分和寻找这些数据,提高更新的效率。
分布式数据仓库的业务分区包括update分区和old分区,其中,update分区用于存储被标记为update的被更新数据,old分区用于存储被标记为old的非更新数据。
划分已存数据的预定规则与划分业务数据的预定规则相同。例如,在划分业务数据时将所述已存数据与业务信息相关联,其中,与所述业务信息中的变化了的业务信息相关联的所述业务部分数据被划分为变更部分数据、以及与所述业务信息中的无变化业务信息相关联的所述业务部分数据被划分为旧数据。
同上述的例子:在人员信息更新系统中,分布式数据仓库接收到人员信息登记表,并将人员信息登记表与人员信息表相关联。人员信息表中没有包含的但人员信息登记表中包含的人员信息,或人员信息表中包含的同时人员信息登记表中也包含的但内容不同的人员信息都被划分为被更新数据,并将该被更新数据标记为update;其余部分被划分为非更新数据,并将该非更新数据标记为old。
在划分已存数据时,所述预定规则可以为以表为单位对已存数据进行划分,并且其中被更新数据和非更新数据为被更新表和非更新表。
所述预定规则还可以为以列为单位对已存数据进行划分,并且其中被更新数据和非更新数据为被更新列和非更新列。
所述预定规则还可以为以字段为单位对已存数据进行划分,并且其中被更新数据和非更新数据为被更新字段和非更新字段。
由于划分已存数据的预定规则与划分业务数据的预定规则相同,所以业务数据和已存数据的划分方式相对应。以表为单位划分的业务数据,对应着以表为单位划分的已存数据。也可以在一个业务中同时以表、列、字段为单位进行业务数据和已存数据的划分,但相同划分单位的业务数据与已存数据相对应。例如一个信息更新系统中要更新基于表的数据、基于列的数据和/或基于字段的数据,那么业务数据中同时存在被标记成更新表,更新列和/或更新字段的数据,已存数据中同时存在被标记成被变更表,被变更列和/或被变更字段的数据。
业务数据和已存数据被划分和标记结束后,进行步骤140。在步骤140中,从所述业务分区中移出所述被更新数据。换句话说,目标分布式数据仓库将业务分区中的已存数据中的被标记为update的被更新数据移出。这是为即将到来的标记为update的变更数据留出空间,便于接下来插入数据的工作。这部分移出的数据可以移动到delete分区中。delete分区可以是所述分布式数据仓库的删除分区,也可以保存到其他存储设备中。如果将delete分区保存到其他存储设备中,可以节约所述分布式数据仓库的空间。如果将delete分区保留在所述分布式数据仓库中,可以便于分布式数据仓库进行回滚操作。
接下来,在步骤150中,将所述新数据插入所述业务分区的预定位置。在分布式数据仓库的业务分区中还包含用于插入被标记为new的新数据的new分区。目标分布式数据仓库将业务数据中标记为new的新数据插入到所述new分区中对应的数据位置。
接下来,在步骤160中,将所述变更数据插入到所述被更新数据的位置。由于在分布式数据仓库的业务分区中包含用于存储被标记为update的被更新数据的update分区,而且已经移出了该update分区的被标记为update的被更新数据,所以目标分布式数据仓库将业务数据中的被标记为update的变更数据插入到所述update分区中对应的数据位置。
另外,由于new分区用于插入被标记为new的新数据,所以new分区在未更新前为空。另外,对于业务分区中的update分区来说,如果用空数据来更新已存数据中被标记成update的被更新数据、即在update分区中插入空数据,则相当于删除已存数据。
另外,由于业务数据中被标记为old的旧数据和已存数据中被标记为old的非更新数据未发生变化,所以不需要对这些数据进行处理。
当更新失败时,由于本申请的方法将已存数据中涉及到需要更新的数据移动到delete分区,并将新增数据和更新数据分别插入到new分区和update分区,而且这种插入操作并没有影响到原先分布式数据仓库中的old数据和移动到delete分区的数据,因此即使在更新失败时也不会对分布式数据仓库造成任何影响,而只需要根据步骤重新执行插入操作即可。通过重新执行插入操作,使用新数据和变更数据覆盖到new分区及update分区,这样原来的错误数据就不会保留,由此形成一定的程序自动修复功能,而不需要人工干预及修复。
至此更新数据的工作完成,只插入了新增的数据及更新了有更新的数据,并且只移动了已存数据中涉及更新的数据,其余的大量未更新的数据不需要做任何处理。在每次用户使用分布式数据仓库时,如果用户需要提取全部数据用于研究分析,只需要选择update和old分区的数据即为所需要的全部数据。如果保留delete分区,则用户查看此分区就可以看到数据变化的历程;如果删除delete分区,则用户直接选取分布式数据仓库的数据就为最新的数据。
图2是本申请涉及一种对分布式数据仓库进行更新的设备的结构示意图。如图2所示,更新设备可以包括接收装置200、第一划分装置201、第一标记装置2011、第二划分装置202、第二标记装置2021、移出模块203、存储装置204、第一插入装置205以及第二插入装置206。下面,具体说明各部分的功能及结构。
接收装置200被配置成从与业务处理系统相关联的数据库中接收所述业务数据。进一步地,接收装置200可以根据预定周期接收业务数据,并把这些业务数据传送到第一划分装置201。预定周期是根据业务的需求制定的,例如既可以将预定周期设为一日、一个月等,还可以设定为预定日或预定时间段等。
第一划分装置201被配置成根据预定规则将业务数据分为新数据、变更数据和旧数据。也就是说,第一划分装置201根据预定规则将从接收装置300传来的业务数据划分成新数据、变更数据和旧数据。预定规则根据业务的内容来制定。
为了便于区分和寻找业务数据被划分而成的数据、并提高更新的效率,在第一划分装置201中可以包括第一标记装置2011,该第一标记装置2011用于使用数据标签将所获取的业务数据标记为新数据、变更数据和旧数据。即,第一标记装置2011对从第一划分装置201传来的划分好的业务数据进行标记。例如:将新数据标记为new,将变更数据标记为update,将旧数据标记为old。然后,将标记为new的新数据传送到第一插入装置205,将标记为update的变更数据传送到第二插入装置206。
第二划分装置202被配置成根据所述预定规则将所述分布式数据仓库的业务分区中的已存数据分为被更新数据和非更新数据。与第一划分装置201同样地,在第二划分装置202中也可以包括第二标记装置2021,该第二标记装置2021用于使用数据标签将所述已存数据标记为被更新数据和非更新数据。即,第二标记装置2021对从第二划分装置202传来的划分好的已存数据进行标记。例如:将被更新数据标记为update,将非更新数据标记为old。然后,将标记为update的被变更数据传送到移出模块203。
移出模块203被配置成从所述业务分区中移出所述被更新数据。移出模块203将第二标记装置2021传来的标记为update的被变更数据从已存数据中移出。可以将这些移出数据传送到存储装置204。
存储装置204被配置成将移出的所述被更新数据保存到所述分布式数据仓库的删除分区中或者保存到其他存储设备中。
第一插入装置205被配置成将所述新数据插入所述业务分区的预定位置。即,将从第一标记装置2011传来的被标记为new的新数据插入到目标分布式数据仓库中的预定位置。
第二插入装置206被配置成将所述变更数据插入到所述被更新数据的位置。即,将从第二标记装置2012传来的被标记为update的变更数据插入到目标分布式数据仓库中所述被更新数据的位置。
如上所述,本申请描述了使用接收装置200接收业务数据的情况,但也可以不配置接收装置200。在这种情况下,目标分布式数据仓库从业务系统中取得业务数据直接传送到第一划分装置中,用以对业务数据进行划分。
另外,本申请描述了使用第一标记装置2011和第二标记装置2012的情况,但也可以不使用这两个装置。在这种情况下,将第一划分装置201划分好的业务数据直接传送到第一插入装置205,将将第二划分装置202划分好的业务数据直接传送到第二插入装置206。这样也能够实现同样的效果。
另外,本申请描述了使用存储装置204来存储从移出模块203移出的被更新数据的情况,但也可以不设置存储装置204。在这种情况下,移出的被更新数据就被直接存放在所述分布式数据仓库delete分区中。
由于本实施例的设备所实现的功能基本相应于前述图1所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块或单元。一般地,程序模块或单元可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。一般来说,程序模块或单元可以由软件、硬件或两者的结合来实现。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块或单元可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
应当注意,尽管在上文详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其主要思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本申请的权利要求范围之内。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种对分布式数据仓库进行更新的方法,所述方法包括:
根据预定规则将业务数据分为新数据、变更数据和旧数据;
根据所述预定规则将所述分布式数据仓库的业务分区中的已存数据分为被更新数据和非更新数据;
从所述业务分区中移出所述被更新数据;
将所述新数据插入所述业务分区的预定位置;以及
将所述变更数据插入到所述被更新数据的位置。
2.根据权利要求1所述的方法,其特征在于:将移出的所述被更新数据保存到所述分布式数据仓库的删除分区中或者保存到其他存储设备中。
3.根据权利要求1所述的方法,其特征在于,所述根据预定规则划分业务数据还包括:
使用数据标签将所获取的业务数据标记为新数据、变更数据和旧数据;以及
使用数据标签将所述已存数据标记为被更新数据和非更新数据。
4.根据权利要求1所述的方法,其特征在于,所述非更新数据保持不变。
5.根据权利要求1所述的方法,其特征在于,从与业务处理系统相关联的数据库中接收所述业务数据。
6.根据权利要求5所述的方法,其特征在于,所述接收所述业务数据包括:
根据预定周期接收所述业务数据。
7.根据权利要求1-6任一项所述的方法,其特征在于,根据预定规则将业务数据分为新数据、变更数据和旧数据的步骤包括:
将所述业务数据与业务信息相关联,其中,与所述业务信息中的新增业务信息相关联的所述业务数据被划分为新数据、与所述业务信息中的变化了的业务信息相关联的所述业务数据被划分为变更数据、以及与所述业务信息中的无变化业务信息相关联的所述业务数据被划分为旧数据。
8.根据权利要求1-6任一项所述的方法,其特征在于,根据所述预定规则将所述分布式数据仓库的业务分区中分为被更新部分和非更新部分的步骤包括:
将所述已存数据与业务信息相关联,其中,与所述业务信息中的变化了的业务信息相关联的所述业务部分数据被划分为变更部分数据、以及与所述业务信息中的无变化业务信息相关联的所述业务部分数据被划分为旧数据。
9.根据权利要求1-6任一项所述的方法,其特征在于,其中:所述预定规则为以表为单位对业务数据和已存数据进行划分,并且其中新数据、变更数据和旧数据为新表、更新表和旧表,以及被更新数据和非更新数据为被更新表和非更新表。
10.根据权利要求1-6任一项所述的方法,其特征在于,其中:所述预定规则为以列为单位对业务数据和已存数据进行划分,并且其中新数据、变更数据和旧数据为新列、更新列和旧列,以及被更新数据和非更新数据为被更新列和非更新列。
11.根据权利要求1-6任一项所述的方法,其特征在于,其中:所述预定规则为以字段为单位对业务数据和已存数据进行划分,并且其中新数据、变更数据和旧数据为新字段、更新字段和旧字段,以及被更新数据和非更新数据为被更新字段和非更新字段。
12.一种对分布式数据仓库进行更新的设备,所述设备包括:
第一划分装置,被配置成根据预定规则将业务数据分为新数据、变更数据和旧数据;
第二划分装置,被配置成根据所述预定规则将所述分布式数据仓库的业务分区中的已存数据分为被更新数据和非更新数据;
移出模块,被配置成从所述业务分区中移出所述被更新数据;
第一插入装置,被配置成将所述新数据插入所述业务分区的预定位置;以及
第二插入装置,被配置成将所述变更数据插入到所述被更新数据的位置。
13.根据权利要求12所述的设备,还包括:
存储装置,用于将移出的所述被更新数据保存到所述分布式数据仓库的删除分区中或者保存到其他存储设备中。
14.根据权利要求12所述的设备,其中,
所述第一划分装置还包括:第一标记装置,用于使用数据标签将所获取的业务数据标记为新数据、变更数据和旧数据;以及
所述第二划分装置还包括:第二标记装置,用于使用数据标签将所述已存数据标记为被更新数据和非更新数据。
15.根据权利要求12所述的设备,还包括:
接收装置,用于从与业务处理系统相关联的数据库中接收所述业务数据。
16.根据权利要求15所述的设备,其中,所述接收装置用于根据预定周期接收所述业务数据。
CN201210490998.9A 2012-11-27 2012-11-27 一种对分布式数据仓库进行更新的方法和设备 Active CN103838787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210490998.9A CN103838787B (zh) 2012-11-27 2012-11-27 一种对分布式数据仓库进行更新的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210490998.9A CN103838787B (zh) 2012-11-27 2012-11-27 一种对分布式数据仓库进行更新的方法和设备

Publications (2)

Publication Number Publication Date
CN103838787A true CN103838787A (zh) 2014-06-04
CN103838787B CN103838787B (zh) 2018-07-10

Family

ID=50802296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210490998.9A Active CN103838787B (zh) 2012-11-27 2012-11-27 一种对分布式数据仓库进行更新的方法和设备

Country Status (1)

Country Link
CN (1) CN103838787B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239567A (zh) * 2014-09-28 2014-12-24 北京国双科技有限公司 数据仓库中的维度处理方法和装置
CN104410757A (zh) * 2014-10-20 2015-03-11 中国联合网络通信集团有限公司 组合业务信息处理方法和装置
CN104462462A (zh) * 2014-12-16 2015-03-25 用友软件股份有限公司 基于业务变化频度的数据仓库建模方法和建模装置
CN105183391A (zh) * 2015-09-18 2015-12-23 北京京东尚科信息技术有限公司 一种分布式数据平台下数据存储的方法和装置
CN105740058A (zh) * 2014-12-11 2016-07-06 杭州华为数字技术有限公司 一种数据转换方法及装置
CN107967279A (zh) * 2016-10-19 2018-04-27 北京国双科技有限公司 分布式数据库的数据更新方法及装置
CN109271394A (zh) * 2018-08-27 2019-01-25 武汉达梦数据库有限公司 一种基于id缓存的数据批量插入更新实现方法
CN109299421A (zh) * 2018-09-19 2019-02-01 中译语通科技股份有限公司 一种数据更新方法、服务器、电子终端
CN111984659A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 数据更新方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254511A1 (en) * 2007-10-19 2009-10-08 Oracle International Corporation Privacy Management Policy Hub
CN101916261A (zh) * 2010-07-28 2010-12-15 北京播思软件技术有限公司 一种分布式并行数据库系统的数据分区方法
CN101923566A (zh) * 2010-06-24 2010-12-22 浙江协同数据系统有限公司 一种基于触发器的数据增量抽取方法
US20110167034A1 (en) * 2010-01-05 2011-07-07 Hewlett-Packard Development Company, L.P. System and method for metric based allocation of costs
CN102193991A (zh) * 2011-03-25 2011-09-21 北京世纪互联工程技术服务有限公司 基于oltp的数据修改方法、系统及图形数据库服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254511A1 (en) * 2007-10-19 2009-10-08 Oracle International Corporation Privacy Management Policy Hub
US20110167034A1 (en) * 2010-01-05 2011-07-07 Hewlett-Packard Development Company, L.P. System and method for metric based allocation of costs
CN101923566A (zh) * 2010-06-24 2010-12-22 浙江协同数据系统有限公司 一种基于触发器的数据增量抽取方法
CN101916261A (zh) * 2010-07-28 2010-12-15 北京播思软件技术有限公司 一种分布式并行数据库系统的数据分区方法
CN102193991A (zh) * 2011-03-25 2011-09-21 北京世纪互联工程技术服务有限公司 基于oltp的数据修改方法、系统及图形数据库服务器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
哥本哈士奇: "BI笔迹之---增量方式处理多维数据集", 《博客园》 *
李国锋 等: "数据仓库维度表更新技术分析", 《商业现代化》 *
蒋捷 等: "基础地理信息数据库更新的若干思考", 《测绘通报》 *
赵莹 等: "基于SAP的商务智能系统中ETL增量更新的实现", 《电脑知识与技术》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239567A (zh) * 2014-09-28 2014-12-24 北京国双科技有限公司 数据仓库中的维度处理方法和装置
CN104239567B (zh) * 2014-09-28 2018-04-06 北京国双科技有限公司 数据仓库中的维度处理方法和装置
CN104410757B (zh) * 2014-10-20 2017-05-17 中国联合网络通信集团有限公司 组合业务信息处理方法和装置
CN104410757A (zh) * 2014-10-20 2015-03-11 中国联合网络通信集团有限公司 组合业务信息处理方法和装置
CN105740058B (zh) * 2014-12-11 2019-03-26 杭州华为数字技术有限公司 一种数据转换方法及装置
CN105740058A (zh) * 2014-12-11 2016-07-06 杭州华为数字技术有限公司 一种数据转换方法及装置
CN104462462B (zh) * 2014-12-16 2017-11-07 用友软件股份有限公司 基于业务变化频度的数据仓库建模方法和建模装置
CN104462462A (zh) * 2014-12-16 2015-03-25 用友软件股份有限公司 基于业务变化频度的数据仓库建模方法和建模装置
CN105183391A (zh) * 2015-09-18 2015-12-23 北京京东尚科信息技术有限公司 一种分布式数据平台下数据存储的方法和装置
CN105183391B (zh) * 2015-09-18 2018-12-28 北京京东尚科信息技术有限公司 一种分布式数据平台下数据存储的方法和装置
CN107967279A (zh) * 2016-10-19 2018-04-27 北京国双科技有限公司 分布式数据库的数据更新方法及装置
CN109271394A (zh) * 2018-08-27 2019-01-25 武汉达梦数据库有限公司 一种基于id缓存的数据批量插入更新实现方法
CN109271394B (zh) * 2018-08-27 2021-05-07 武汉达梦数据库有限公司 一种基于id缓存的数据批量插入更新实现方法
CN109299421A (zh) * 2018-09-19 2019-02-01 中译语通科技股份有限公司 一种数据更新方法、服务器、电子终端
CN111984659A (zh) * 2020-07-28 2020-11-24 招联消费金融有限公司 数据更新方法、装置、计算机设备和存储介质
CN111984659B (zh) * 2020-07-28 2023-07-21 招联消费金融有限公司 数据更新方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN103838787B (zh) 2018-07-10

Similar Documents

Publication Publication Date Title
CN103838787A (zh) 一种对分布式数据仓库进行更新的方法和设备
EP1832990B1 (en) Computer readable medium storing a map data updating program
CN100492345C (zh) 地图数据处理装置及中心系统
CN103514199A (zh) Poi数据处理方法及其装置、poi检索方法及其装置
CN106991102B (zh) 倒排索引中键值对的处理方法及处理系统
CN104885071A (zh) 多设备智能语言模型同步
CN103020058B (zh) 一种多版本数据获取方法和装置
CN102902763B (zh) 关联、检索信息处理数据和处理信息任务的方法及装置
CN103186622B (zh) 一种全文检索系统中索引信息的更新方法以及装置
CN106469372B (zh) 一种地址映射方法及装置
CN101763415B (zh) 一种数据库的b树索引的生成方法及装置
CN103377210A (zh) 建立增量型导航数据库的方法和对数据库进行更新的方法
CN105808653A (zh) 一种基于用户标签系统的数据处理方法及装置
CN105468623A (zh) 数据处理方法及装置
CN104572805A (zh) 通过实时索引生成处理地图数据的装置和方法及其系统
US10365850B2 (en) Method of storing data, information processing apparatus and non-transitory computer-readable storage medium
CN102855288A (zh) 差异数据的处理方法和装置
CN105512313A (zh) 一种增量式数据处理的方法和装置
CN102567544A (zh) 数据库查询方法及装置
CN112632266B (zh) 数据写入方法、装置、计算机设备及可读存储介质
CN109033271B (zh) 基于列存储的数据插入方法、装置、服务器及存储介质
CN104166739A (zh) 分析数据库的指标文件处理方法及装置
CN112579605B (zh) 一种数据存储方法、装置、存储介质及服务器
CN112347095B (zh) 数据表的处理方法、装置和服务器
CN110602737B (zh) 区域性拆迁识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191211

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Co., Ltd.

TR01 Transfer of patent right