CN104598610A - 一种分步式数据库数据分发上传同步方法 - Google Patents

一种分步式数据库数据分发上传同步方法 Download PDF

Info

Publication number
CN104598610A
CN104598610A CN201510047492.4A CN201510047492A CN104598610A CN 104598610 A CN104598610 A CN 104598610A CN 201510047492 A CN201510047492 A CN 201510047492A CN 104598610 A CN104598610 A CN 104598610A
Authority
CN
China
Prior art keywords
business datum
database
data
independent increment
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510047492.4A
Other languages
English (en)
Other versions
CN104598610B (zh
Inventor
何曼
吴利
张超容
张慧
邵玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Jiangnan Computing Technology Institute
Original Assignee
Wuxi Jiangnan Computing Technology Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Jiangnan Computing Technology Institute filed Critical Wuxi Jiangnan Computing Technology Institute
Priority to CN201510047492.4A priority Critical patent/CN104598610B/zh
Publication of CN104598610A publication Critical patent/CN104598610A/zh
Application granted granted Critical
Publication of CN104598610B publication Critical patent/CN104598610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分步式数据库数据分发上传同步方法,其中分布式数据库系统由中心数据库和多个站点数据库组成;所述分步式数据库同步方法包括:数据分发处理和数据上传处理;其中,在数据分发处理中,从中心数据库导出业务数据,在站点数据库导入业务数据;而且,在数据上传处理中,从站点数据库导出业务数据,在中心数据库导入业务数据。

Description

一种分步式数据库数据分发上传同步方法
技术领域
本发明涉及一种分步式数据库数据分发上传同步方法。
背景技术
随着信息系统的日趋规模化、区域化,分布式数据库在信息系统中所承担的数据桥梁作用越来越重要,分布式数据库的设计在系统中的应用日渐广泛。然而,由于系统的自身特点以及对系统的不同要求,在设计分布式数据库系统的过程中,仍有许多需要研究和解决的问题。其中最重要的问题之一就是如何保证分布式数据库的数据同步,以确保整个系统数据的一致性和安全性。
在分布式数据库系统中,广泛使用了数据复制技术进行数据复制和传输,从而达到数据同步的目的。几乎所有的大型数据库系统都提供了自己的数据复制解决方案和数据复制组件,如基于发布/订阅模型的数据复制技术。按数据复制的内容方法分类,可以分为表复制、事务复制等等。进行复制的基本条件都需要有一定的网络资源,要求有可靠的网络传输。如果是表复制等需要复制较多数据时,还要求有较高的传输速度。
除通过数据复制进行数据同步外,还有基于Oracle行级安全策略的数据同步更新机制、基于Oracle只读实体化视图的数据异步更新机制、基于 Oracle可更新实体化视图的数据同步更新机制、基于代理的数据库远程数据同步解决方案。
上述方案中,分布式数据库的同步更新对网络和数据库的安全性要求较高,高度依赖于系统和网络的可用性。如果网络和系统出现故障,则任何更新都不能执行且不能进行异构数据库的数据同步。而基于Oracle只读实体化视图等异步更新方法又会存在一系列数据冲突问题。相比较于集中式数据库系统,很多常见的解决数据冲突的技术,难以在分布式数据库系统中应用。
自增量标识一致性问题:在集中式数据库系统中经常会利用自增量标识来构建表的主键,这样应用程序不用考虑标识的唯一性维护问题,数据库会根据规则自动维护各个表的标识号。但在分布式数据库系统中就无法利用该方法来构建唯一标识了,各站点数据库按各自的自增规则产生的标识肯定会重复。
表的唯一性约束问题:在集中式数据库系统中经常会基于一个或多个字段构建表的唯一性约束条件,这样可以简化应用程序的唯一性判别流程,数据库会根据规则在插入数据前自动判别数据是否满足唯一性约束条件。同样的,在分布式数据库系统中也无法利用该方法来进行唯一性判别,虽然数据在站点数据库中是可以保证唯一性的,但在中心数据库中合并时就有可能引发冲突。
多源数据更新问题:在集中式数据库系统中,数据信息实时更新,均为用户提交的最新信息。在分布式数据库离线同步过程中,如果遇到多个 站点对同一个数据源进行更新,采用哪个站点数据更新中心数据库,则需要制定相应的规则。
当然为解决自增量标识一致性问题,可以弃用数据库自增量标识,在中心数据库中定义一个专门用于维护所有表的自增量标识的表,由该表用来存放所有需要唯一标识的表名称和当前所使用的ID值。然后写一个存储过程,专门用来从该表中取ID值。但此方法也存在相应的缺陷:①效率低,每次取ID值都需要调用存储过程从数据库中检索一次。②并发访问存在风险,多条数据同时存储时无法保证标识唯一。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种带自增量标识的分步式数据库同步技术,解决在分步式数据库异步更新过程中遇到的自增量标识一致性问题、表的唯一性约束问题和多源数据更新问题。
根据本发明,提供了一种分步式数据库数据分发上传同步方法,其中分布式数据库系统由中心数据库和多个站点数据库组成,包括数据分发处理和数据上传处理;其中,在数据分发处理中,从中心数据库导出业务数据,在站点数据库导入业务数据;而且,在数据上传处理中,从站点数据库导出业务数据,在中心数据库导入业务数据。
优选地,所述分步式数据库数据分发上传同步方法包括:
第一步骤,用于对将要导出第一数据库的业务数据的业务数据表进行分析以获取表结构和关联关系;
第二步骤,用于根据第一步骤获取的表结构和关联关系,获取业务相关数据集合,将需要分发或上传的业务数据以预定数据存储格式分离或标 识出来;
第三步骤,用于对将要导入第二数据库的业务数据的业务数据表进行分析以获取表结构和关联关系;
第四步骤,用于分析第一步骤获取到的业务数据表结构和关联关系,以及分析第三步骤获取到的业务数据表结构和关联关系,并结合第二步骤获取到的业务相关数据集,确定业务数据的导入顺序,并根据业务数据的导入顺序控制业务数据的依次导入。
优选地,,第二步骤获取的业务相关数据集合包括与业务数据相关的总表与分表的自增量标识的对应关系。
优选地,所述的分步式数据库数据分发上传同步方法还包括:第五步骤,用于在第一数据库和第二数据库的业务数据表结构异构的情况下,根据将业务数据按预定格式要求进行转换。
优选地,第一数据库是中心数据库和站点数据库中的一个。
优选地,第二数据库是中心数据库和站点数据库中的另一个。
优选地,所述的分步式数据库数据分发上传同步方法还包括:
第六步骤,用于分析总表和分表的自增量标识的对应关系,判断业务数据入库操作是新增操作还是更新操作,并且在业务数据的自增量标识已建立且在第二数据库中已存在的情况下进行更新操作,否则进行新增操作,而且对于按新增操作入库的业务数据,获取其新的自增量标识。
第七步骤,用于针对第六步骤标记出的以新增操作方式入库的业务数据的新的自增量标识,建立总表和分表自增量标识的对应关系。
第八步骤,用于根据第七步骤建立的总表和分表自增量标识对应关系,分析和更新待入库业务数据的自增量标识的引用。
第九步骤,用于将第七步骤建立的总表与分表自增量标识对应关系,更新到站点数据库的标识变更表中。
优选地,在数据上传处理中,在第六步骤中,监测数据库的唯一性约束冲突,根据唯一性约束冲突解决策略,对业务数据进行变更和标识,并 给出业务数据的变更列表,然后根据变更列表针对唯一性约束值进行一次业务数据分发,保证中心数据库和站点数据库的数据一致性。
优选地,在数据分发处理和数据上传处理中,在第二步骤中,添加业务数据相关操作的时间戳信息;然后在数据上传处理中,在第六步骤中,比对业务数据的时间戳,根据多源更新冲突解决策略,对业务数据进行更新和标识,并给出业务数据的未更新列表;最后根据未更新列表的业务数据进行一次业务数据上传或分发,保证中心数据库和站点数据库的数据一致性。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1示意性地示出了根据本发明优选实施例采用的带自增量标识的分布式数据库的示意图。
图2示意性地示出了根据本发明优选实施例的分步式数据库数据分发上传同步方法的流程图。
图3示意性地示出了根据本发明优选实施例的业务数据分发流程图。
图4示意性地示出了根据本发明优选实施例的业务数据上传流程图。
图5示意性地示出了根据本发明优选实施例的业务数据分发单表数据导入流程图。
图6示意性地示出了根据本发明优选实施例的业务数据上传单表数据导入流程图。
图7示意性地示出了根据本发明优选实施例的业务数据从表自增量标识更新流程图。
图8示意性地示出了根据本发明优选实施例的总表业务数据自增量标识的分发流程图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
在基于分布式数据库系统构建的信息系统中,从中心数据库业务数据总表到各站点数据库业务数据分表,以及业务数据的分发和上传过程,如何标识和识别业务数据对象是核心环节。带自增量标识的分布式数据库系统是将自增量标识作为标识业务数据对象的基础,在业务数据分发和上传过程中识别总表与分表间业务数据对象的对应关系,以达到全系统内业务数据对象的一致性。
如图1所示,带自增量标识的分布式数据库系统由中心数据库和若干个站点数据库组成,仅在站点数据库系统中增加了标识变更表。用户可以通过中心客户端应用或站点客户端应用进行业务相关操作。中心客户端应用直接操作中心数据库的业务数据总表,完成业务相关数据的新增、修改和删除。站点客户端应用直接操作站点数据库的业务数据分表,完成业务 相关数据的本地新增、修改和删除。同时,站点客户端应用通过业务数据分发中间件从中心数据库系统中下载指定业务数据至站点数据库,以及通过业务数据上传中间件将站点数据库的本地业务数据增量更新至中心数据库。在业务数据分发和业务数据上传过程中,将业务数据对象在总表与分表中自增量标识的对应关系记录在标识变更表中。
图2示意性地示出了根据本发明优选实施例的分步式数据库数据分发上传同步方法的流程图。如图2所示,根据本发明优选实施例的分步式数据库数据分发上传同步方法可以分为数据导出处理和数据导入处理两个过程。其中,在数据分发处理中,从中心数据库导出业务数据,在站点数据库导入业务数据;而且,在数据上传处理中,从站点数据库导出业务数据,在中心数据库导入业务数据。数据导出处理和数据导入处理均可采用图2所示的流程进行。
如图2所述,根据本发明优选实施例的分步式数据库数据分发上传同步方法包括:
第一步骤S1:业务数据表结构和关联关系分析
在通常情况下,数据库中的业务数据都不是以单表的方式存在的,各表的实体对象间存在关联关系,作为某个表主键的自增量标识字段,可能以外键的形式被其他表所引用。当业务数据对象在中心数据库和站点数据库间迁移时,主表自增量标识字段的变更势必需要连带更新有关联关系的从表字段。并且,数据的导入导出也需要根据关联关系,依次导入导出主表数据和从表数据。
业务数据分发与上传流程的第一步骤S1,就是对将要导出第一数据库(中心数据库和站点数据库中的一个)的业务数据的业务数据表进行表结构和关联关系分析。
第二步骤S2:获取业务相关数据集
在业务数据分发和业务数据上传过程中,所操作的业务对象是一个相对较小的数据集合,可能涉及单个数据表,也可能涉及多个数据表,可能涉及表中的全部数据,也可能只涉及表中的部分数据。
业务数据分发与上传流程的第二步骤S2,就是在第一步骤S1的基础上,根据表结构和关联关系,获取业务相关数据集合,将需要分发或上传的业务数据以一定的数据存储格式分离或标识出来。如果业务数据上传过程,所获取的业务相关数据集合还应当包括与业务数据相关的总表与分表的自增量标识的对应关系。
第三步骤S3:业务数据表结构和关联关系分析
该步骤与第一步骤S1相同。区别在于,第一步骤S1是针对数据导出数据库进行业务数据表结构和关联关系分析,第三步骤S3是针对数据导入数据库(第二数据库)进行业务数据表结构和关联关系分析。即,第三步骤S3用于对将要导入第二数据库(中心数据库和站点数据库中的另一个)的业务数据的业务数据表进行分析以获取表结构和关联关系。
第四步骤S4:业务数据导入控制
业务数据的导入需要根据业务数据表的主从关系,按先后顺序依次进行导入的,这是一个循环往复的过程。
业务数据分发与上传流程的第四步骤S4,就是分析第一步骤S1获取到的业务数据表结构和关联关系,以及分析第三步骤S3获取到的业务数据表结构和关联关系,并结合第二步骤S2获取到的业务相关数据集,确定业务数据的导入顺序,以及根据业务数据的导入顺序控制业务数据的依次导入。
第五步骤S5:业务数据格式转换
该第五步骤S5为可选择步骤。如果中心数据库和站点数据库的业务数据表结构是同构的,则可以跳过该步骤。如果中心数据库和站点数据库的业务数据表结构是异构的,则需要根据额外配置的中心数据库和站点数据库业务数据转换表,先将业务数据按一定的格式要求进行转换,如进行表空间的转换、字段名称的转换、数据类型的转换等。
业务数据分发与上传流程的第五步骤S5,就是根据中心数据库和站点数据库业务数据转换表,将第四步骤S4确定的业务数据进行格式转换,使其符合导入数据库(第二数据库)的表结构和数据类型。
第六步骤S6:业务数据入库,并获取更新的自增量标识
该步骤是本项技术的核心之一,解决了带自增量标识的分布式数据库业务数据的自增量标识一致性问题。该步骤,首先分析总表和分表的自增量标识对应关系,判断业务数据入库操作是新增操作还是更新操作。根据总表和分表的自增量标识对应关系,如果业务数据的自增量标识已建立且在导入数据库(第二数据库)中已存在,则进行更新操作,否则进行新增操作。对于按新增操作入库的业务数据,获取其新的自增量标识。
业务数据分发与上传流程的第六步骤S6,就是将第五步骤S5的格式化后的业务数据进行入库,同时标记出以新增操作方式入库的业务数据的新的自增量标识,以及标识出已完成更新操作的所有业务数据。
第七步骤S7:建立总表与分表自增量标识对应关系
在业务数据入库操作后,需针对入库的业务数据自增量标识的更新情况,建立入库后的业务数据的总表自增量标识和分表自增量标识的对应关系。
业务数据分发与上传流程的第七步骤S7,就是针对第六步骤S6标记出的以新增操作方式入库的业务数据的新的自增量标识,建立总表和分表自增量标识的对应关系。
第八步骤S8:业务数据关联分析及更新
在第六步中,业务数据入库可能存在其自增量标识发生变化,即总表中的自增量标识和分表中的自增量标识不一致。因此,在数据导入时应当根据自增量标识的变更情况,对相关联业务数据所引用的自增量标识进行相应的更新。
业务数据分发与上传流程的第八步骤S8,就是根据第七步骤S7建立的总表和分表自增量标识对应关系,分析和更新待入库业务数据的自增量标识的引用。
第九步骤S9:更新站点数据库的标识变更表
完成一组业务数据的入库操作后,会产生新的自增量标识对应关系,需要将业务数据自增量标识的更新情况,保存到站点数据库的标识变更表 中,以便再次进行业务数据分发与上传时,判断业务数据入库操作是新增操作还是更新操作。
业务数据分发与上传流程的第九步骤S9,就是将第七步骤S7建立的总表与分表自增量标识对应关系,更新到站点数据库的标识变更表中。
【具体实例1】
以一个进行项目管理的分布式数据库为例,业务数据以项目数据表为中心,各业务数据表均与项目数据表存在直接或多表级联的关联关系,中心数据库和站点数据库的各业务数据表结构相同,其中心数据库向站点数据库进行某项目所有业务数据的分发流程如图3所示,具体步骤如下。
1)获取中心数据库的基本结构信息。数据库基本结构信息包括数据库类型、表结构、表的列信息、表的主键和外键等信息。
2)根据中心数据库的基本结构信息,建立业务数据表关联关系。数据表的关联关系中很重要的内容为确定业务数据表的主从关系和导出操作顺序。
3)根据业务数据表关联关系,从项目数据表开始根据导出操作顺序遍历数据库所有业务数据表中与某项目相关的所有业务数据,并以Xml文档的格式依次备份有关业务数据信息。
4)将备份好的Xml描述的业务数据信息文件以离线或在线的方式传输到站点。
5)获取站点数据库的基本结构信息和自定义结构信息。数据库基本结构信息包括数据库类型、表结构、表的列信息、表的主键和外键等 信息。数据库自定义结构信息一般是数据库系统无法显性标识的信息,如:表内部的自增量标识引用、引用了多个表的自增量标识、多表间循环引用自增量标识。
6)根据站点数据库的基本结构信息和自定义结构信息,建立业务数据表关联关系。数据表的关联关系中很重要的内容为确定业务数据表的主从关系和导入操作顺序,其中数据库自定义结构信息也将影响到业务数据表的主从关系和导入操作顺序。
7)根据业务数据表关联关系,从项目数据表开始根据导入操作顺序遍历待导入的Xml描述的业务数据信息中所有业务数据表,并依次完成相应业务数据表的单表数据导入和从表自增标识更新。
8)分布式同构数据库的分发过程中业务数据表的单表数据导入过程如图5所示。按自增列数据的从大到小顺序或约定的排序规则(可在配置文件中设置Xml的排序规则),获取待导入的Xml描述的业务数据信息中的所有数据记录队列,对数据记录队列进行遍历并依次进行业务数据的导入操作。业务数据导入时,首先查询标识变更表中是否存在与记录的自增量标识相同的中心数据库的自增量标识(CenterID)值。若CenterID值存在,则获取标识变更表中记录对应的站点数据库的自增量标识(PartID)值,并在数据库中更新PartID对应的业务数据记录。若CenterID值不存在,则在数据库中新增业务数据记录,并针对新增业务数据记录建立总表与分表自增标识对应关系。业务数据完成导入后,在Xml描述的业务数据信息中标识 业务数据已导入。在业务数据表的所有记录均完成导入后,在Xml描述的业务数据信息中标识业务数据表已导入。
9)业务数据表的从表自增量标识更新过程如图7所示。按业务数据表关联关系获取业务数据表的从表信息队列,对从表信息队列进行遍历并依次进行从表自增量标识的更新操作。从表自增量标识更新时,首先在Xml描述的业务数据信息中查询业务数据表是否已导入。若已导入(内部嵌套:主表名与从表名相同;外部嵌套:主表与从表存在隐性的循环引用),则根据新建立的总表与分表自增量标识对应关系,在数据库中更新从表的自增量标识引用。若未导入,则根据新建立的总表与分表自增量标识对应关系,更新Xml描述的业务数据信息中从表的自增量标识引用。
10)Xml描述的业务数据信息中所有业务数据表遍历完成后,将业务数据表单表数据导入过程中新建立的总表与分表自增量标识关系,更新至站点数据库的标识变更表。
11)针对中心数据库业务数据删除操作可能造成的站点数据库业务数据无效情况,通过如所示的总表自增量标识分发过程(分发方式为普通方式),将中心数据库所有的自增量标识分发至各站点数据库,并在站点数据库中删除不在总表自增量标识信息中的业务数据记录。
【具体实例2】
以一个进行项目管理的分布式数据库为例,业务数据以项目数据表为中心,各业务数据表均与项目数据表存在直接或多表级联的关联关系,中 心数据库和站点数据库的各业务数据表结构不同,其中心数据库向站点数据库进行某项目所有业务数据的上传流程如图4所示,具体步骤如下。
1)获取站点数据库的基本结构信息。数据库基本结构信息包括数据库类型、表结构、表的列信息、表的主键和外键等信息。
2)根据站点数据库的基本结构信息,建立业务数据表关联关系。数据表的关联关系中很重要的内容为确定业务数据表的主从关系和导出操作顺序。
3)根据业务数据表关联关系,从项目数据表开始根据导出操作顺序遍历数据库所有业务数据表中与某项目相关的所有业务数据,以及标识变更表中相关的业务数据的总表与分表自增量标识对应关系,并以Xml文档的格式依次备份有关业务数据信息。其中,总表与分表自增量标识对应关系作为Xml节点属性信息,添加至各业务数据记录对应的Xml节点描述中。其中,若标识变更表中的站点数据库的自增量标识(PartID)值在数据库已无对应的业务数据时(站点已删除的业务数据),则在相应的业务数据表中新建空数据的Xml节点,并添加总表与分表自增量标识对应关系作为Xml节点属性信息,以及添加值为True的Delete属性信息。
4)将备份好的Xml描述的业务数据信息文件以离线或在线的方式传输到中心。
5)获取中心数据库的基本结构信息和自定义结构信息。数据库基本结构信息包括数据库类型、表结构、表的列信息、表的主键和外键等信息。数据库自定义结构信息一般是数据库系统无法显性标识的信 息,如:表内部的自增量标识引用、引用了多个表的自增量标识、多表间循环引用自增量标识。
6)根据中心数据库的基本结构信息和自定义结构信息,建立业务数据表关联关系。数据表的关联关系中很重要的内容为确定业务数据表的主从关系和导入操作顺序,其中数据库自定义结构信息也将影响到业务数据表的主从关系和导入操作顺序。
7)根据业务数据表关联关系,从项目数据表开始根据导入操作顺序遍历待导入的Xml描述的业务数据信息中所有业务数据表,并依次完成相应业务数据表的单表数据导入和从表自增标识更新。
8)分布式异构数据库的上传过程中业务数据表的单表数据导入过程如图6所示。按约定的变换规则将待导入的Xml描述的业务数据信息进行格式转换(可在配置文件中设置Xslt变换规则,不设置则视为分布式同构数据库),按自增列数据的从大到小顺序或约定的排序规则(可在配置文件中设置Xml的排序规则),获取格式转换后的业务数据信息中的所有数据记录队列,对数据记录队列进行遍历并依次进行业务数据的导入操作。业务数据导入时,首先判断记录的CenterID属性值是否为空。若记录的CenterID属性值为空,则在数据库中新增业务数据记录(站点新建的业务数据),并针对新增业务数据记录建立总表与分表自增标识对应关系。若记录的CenterID属性值不为空,则再查询数据库中是否存在与记录的CenterID属性值相同的自增量标识记录。若不存在相同的自增量标识记录(中心已删除的业务数据),则建立已删除的总表自增量标识表。若存在相 同的自增量标识记录,则再判断记录的Delete属性是否存在且为真。若记录的Delete属性存在且为真(站点已删除的业务数据),则在数据库中删除CenterID对应的业务数据记录,并建立已删除的总表自增量标识表。若记录的Delete属性不存在或不为真,则在数据库中更新CenterID对应的业务数据记录。业务数据完成导入后,在Xml描述的业务数据信息中标识业务数据已导入。在业务数据表的所有记录均完成导入后,在Xml描述的业务数据信息中标识业务数据表已导入。
9)业务数据表的从表自增量标识更新过程如图7所示。按业务数据表关联关系获取业务数据表的从表信息队列,对从表信息队列进行遍历并依次进行从表自增量标识的更新操作。从表自增量标识更新时,首先在Xml描述的业务数据信息中查询业务数据表是否已导入。若已导入(内部嵌套:主表名与从表名相同;外部嵌套:主表与从表存在隐性的循环引用),则根据新建立的总表与分表自增量标识对应关系,在数据库中更新从表的自增量标识引用。若未导入,则根据新建立的总表与分表自增量标识对应关系,更新Xml描述的业务数据信息中从表的自增量标识引用。
10)Xml描述的业务数据信息中所有业务数据表遍历完成后,将业务数据表单表数据导入过程中新建立的总表与分表自增量标识关系,更新至站点数据库的标识变更表。
11)若业务数据导入过程中产生了已删除的总表自增量标识信息,则通过如图8所示的总表自增量标识分发过程(分发方式为删除方式), 将已删除的总表自增量标识分发至各站点数据库,并在站点数据库中删除相应记录。
可以看出,本发明是针对分布式数据库的异步更新过程,通过建立总表与分表自增量标识对应关系、业务数据格式转换等技术手段,解决更新过程中遇到的自增量标识不一致、表唯一性约束冲突、多源更新等问题。本发明具有如下特征:
1)总表与分表自增量标识对应关系管理
总表与分表自增量标识对应关系是本发明的核心部件,其关系到业务数据分发与上传的第六步业务数据入库时业务数据入库操作的判别。如果是业务数据上传过程,在业务数据集进行在线或离线传输前,需从站点数据库的标识变更表中获取业务数据相关的总表与分表自增量标识对应关系,并与业务数据集一并传输至中心数据库。如果是业务数据分发过程,则可以在数据导入过程中从站点数据库的标识变更表中直接获取业务数据相关的总表与分表自增量标识对应关系。总表与分表自增量标识对应关系建立于业务数据分发与上传的第七步,并于业务数据分发与上传的第九步保存至站点数据库的标识变更表中。
2)业务数据表结构和关联关系分析
将数据库中的业务数据表及其字段信息等提取出来,通过主外健关系对表进行关联关系分析。将每个表的从表信息标注出来,并按照先主表后从表的方式对所有表进行排序,该排序即业务数据表入库的顺序。如果多个表的从表为同一个表,则从表的排序在所有主表排序之后。此技术点作用有两个:一是通过表结构分析,为下一步的业务数据格式转换做准备, 以解决数据库结构不一致的问题。二是当数据入库引起自增量标识变化时,通过关联关系分析,更新相关联的从表数据信息。
3)业务数据格式转换
当中心数据库和站点数据库的业务数据表结构不一致时,需要对业务数据进行格式转换。格式转换是指将表空间、字段名称、数据类型等转换成与导入数据库一致的格式。该技术点可以解决异构数据库间的同步问题,使得该方法能更广泛地适用于各种分布式数据库同步场景。
4)业务数据的唯一性约束冲突处理
在进行数据同步时,总表数据与分表数据可能会出现表的唯一性约束冲突。本发明基于表唯一性约束进行触发式更新,首先在业务数据上传的第六步业务数据入库过程中,监测数据库的唯一性约束冲突,根据唯一性约束冲突解决策略,对业务数据进行变更和标识,并给出业务数据的变更列表。然后根据变更列表针对唯一性约束值进行一次业务数据分发,保证中心数据库和站点数据库的数据一致性。遵循唯一性约束范围最大化原则,仅需在业务数据上传时,即业务数据入中心数据库时检测业务数据的唯一性冲突。
5)业务数据的多源更新冲突处理
针对分布式数据库存在的多点、异步更新特定,业务数据的更新可能会出现多源更新数据冲突,数据的导入导出可能造成不被期望的数据更新操作。本发明基于时间戳进行触发式更新,首先在业务数据分发与上传的第二步添加业务数据相关操作的时间戳信息。然后在业务数据上传的第六步业务数据入库过程中,比对业务数据的时间戳,根据多源更新冲突解决 策略,对业务数据进行更新和标识,并给出业务数据的未更新列表。最后根据未更新列表的业务数据进行一次业务数据上传或分发,保证中心数据库和站点数据库的数据一致性。关于业务数据相关操作的时间戳信息,中心数据库可以单独建立一个业务数据操作时间戳表,站点数据库可以在标识变更表中添加时间戳字段。
总之,本发明的方法适用于同构或异构的的分步式数据库的数据更新,适用于非实时的、同步或异步的分步式数据库的数据更新。
本发明的方法通过业务数据表结构和关联关系分析,对不同结构数据库间的业务数据进行格式转换,通过基于总表与分表自增量标识对应关系、主表和从表的表结构关系,进行数据的导入导出和实现业务数据更新。由于,业务数据可根据数据库结构的不同进行相应的格式转换,因此本发明适用于异构分布式数据库的数据同步。同时,业务数据传输并不依赖于网络,因此本发明的方法也适用于非实时的离线数据同步。
本发明的方法很好地解决了分布式数据库数据更新过程中的数据冲突问题,广泛适用于各种大型的分步式数据库系统的数据更新。
此外,需要说明的是,除非特别指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术 方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种分步式数据库数据分发上传同步方法,其中分布式数据库系统由中心数据库和多个站点数据库组成,其特征在于包括数据分发处理和数据上传处理;其中,在数据分发处理中,从中心数据库导出业务数据,在站点数据库导入业务数据;而且,在数据上传处理中,从站点数据库导出业务数据,在中心数据库导入业务数据。
2.根据权利要求1所述的分步式数据库数据分发上传同步方法,其特征在于,数据分发处理和数据上传处理均包括:
第一步骤,用于对将要导出第一数据库的业务数据的业务数据表进行分析以获取表结构和关联关系;
第二步骤,用于根据第一步骤获取的表结构和关联关系,获取业务相关数据集合,将需要分发或上传的业务数据以预定数据存储格式分离或标识出来;
第三步骤,用于对将要导入第二数据库的业务数据的业务数据表进行分析以获取表结构和关联关系;
第四步骤,用于分析第一步骤获取到的业务数据表结构和关联关系,以及分析第三步骤获取到的业务数据表结构和关联关系,并结合第二步骤获取到的业务相关数据集,确定业务数据的导入顺序,并根据业务数据的导入顺序控制业务数据的依次导入。
3.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于,第二步骤获取的业务相关数据集合包括与业务数据相关的总表与分表的自增量标识的对应关系。
4.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于数据分发处理和数据上传处理还包括:
第五步骤,用于在第一数据库和第二数据库的业务数据表结构异构的情况下,根据将业务数据按预定格式要求进行转换。
5.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于,第一数据库是中心数据库和站点数据库中的一个。
6.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于,第二数据库是中心数据库和站点数据库中的另一个。
7.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于数据分发处理和数据上传处理还包括:
第六步骤,用于分析总表和分表的自增量标识的对应关系,判断业务数据入库操作是新增操作还是更新操作,并且在业务数据的自增量标识已建立且在第二数据库中已存在的情况下进行更新操作,否则进行新增操作,而且对于按新增操作入库的业务数据,获取其新的自增量标识。
8.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于还包括:
第七步骤,用于针对第六步骤标记出的以新增操作方式入库的业务数据的新的自增量标识,建立总表和分表自增量标识的对应关系;
第八步骤,用于根据第七步骤建立的总表和分表自增量标识对应关系,分析和更新待入库业务数据的自增量标识的引用;以及
第九步骤,用于将第七步骤建立的总表与分表自增量标识对应关系,更新到站点数据库的标识变更表中。
9.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于,在数据上传处理中,在第六步骤中,监测数据库的唯一性约束冲突,根据唯一性约束冲突解决策略,对业务数据进行变更和标识,并给出业务数据的变更列表,然后根据变更列表针对唯一性约束值进行一次业务数据分发,保证中心数据库和站点数据库的数据一致性。
10.根据权利要求1或2所述的分步式数据库数据分发上传同步方法,其特征在于,在数据分发处理和数据上传处理中,在第二步骤中,添加业务数据相关操作的时间戳信息;然后在数据上传处理中,在第六步骤中,比对业务数据的时间戳,根据多源更新冲突解决策略,对业务数据进行更新和标识,并给出业务数据的未更新列表;最后根据未更新列表的业务数据进行一次业务数据上传或分发,保证中心数据库和站点数据库的数据一致性。
CN201510047492.4A 2015-01-29 2015-01-29 一种分布式数据库数据分发上传同步方法 Active CN104598610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510047492.4A CN104598610B (zh) 2015-01-29 2015-01-29 一种分布式数据库数据分发上传同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510047492.4A CN104598610B (zh) 2015-01-29 2015-01-29 一种分布式数据库数据分发上传同步方法

Publications (2)

Publication Number Publication Date
CN104598610A true CN104598610A (zh) 2015-05-06
CN104598610B CN104598610B (zh) 2017-12-12

Family

ID=53124395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510047492.4A Active CN104598610B (zh) 2015-01-29 2015-01-29 一种分布式数据库数据分发上传同步方法

Country Status (1)

Country Link
CN (1) CN104598610B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550347A (zh) * 2015-12-25 2016-05-04 网易(杭州)网络有限公司 数据处理方法及装置
CN105787057A (zh) * 2016-02-29 2016-07-20 浪潮通用软件有限公司 一种异构系统间业务数据自动同步的实现方法
CN106446298A (zh) * 2016-11-29 2017-02-22 盐城工学院 基于pdm的数据管理方法及装置
WO2017050179A1 (zh) * 2015-09-25 2017-03-30 阿里巴巴集团控股有限公司 一种库存系统数据更新方法及装置
CN106777025A (zh) * 2016-12-08 2017-05-31 北京中电普华信息技术有限公司 一种数据库物理模型的分析方法及系统
CN107515874A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种分布式非关系型数据库中同步增量数据的方法与设备
CN107885761A (zh) * 2017-02-20 2018-04-06 平安科技(深圳)有限公司 数据批量加载方法及装置
CN107995302A (zh) * 2017-12-11 2018-05-04 北京恒华伟业科技股份有限公司 一种数据同步的系统
CN108197147A (zh) * 2017-11-29 2018-06-22 中国联合网络通信集团有限公司 号卡数据库运维方法及装置
CN108243208A (zh) * 2016-12-23 2018-07-03 深圳市优朋普乐传媒发展有限公司 一种数据同步方法及装置
CN108885622A (zh) * 2016-04-06 2018-11-23 华为技术有限公司 多主同步复制优化的系统和方法
CN109446179A (zh) * 2018-09-30 2019-03-08 天津天地伟业电子工业制造有限公司 一种基于Memory方式建立SQLITE数据库实现多业务并发的方法
CN110019262A (zh) * 2017-10-10 2019-07-16 北京国双科技有限公司 数据更新方法及装置
CN110795422A (zh) * 2019-09-12 2020-02-14 三盟科技股份有限公司 一种数据服务管理方法及系统
CN111177736A (zh) * 2019-07-30 2020-05-19 腾讯科技(深圳)有限公司 一种数据存储和访问的系统、方法和装置
CN112256702A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种增量标识修正方法及装置
CN112579613A (zh) * 2020-12-31 2021-03-30 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 数据库集群差异比对与数据同步的方法、系统及介质
TWI734730B (zh) * 2017-01-19 2021-08-01 香港商阿里巴巴集團服務有限公司 庫存系統資料更新方法及裝置
CN113656502A (zh) * 2021-08-19 2021-11-16 携程金融科技(上海)有限公司 数据同步方法、系统、电子设备和存储介质
CN114722109A (zh) * 2022-04-13 2022-07-08 中国电信股份有限公司 数据导入方法、系统、设备及存储介质
TWI778433B (zh) * 2020-10-19 2022-09-21 玉山商業銀行股份有限公司 資料管理系統以及資料同步方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1477562A (zh) * 2002-08-19 2004-02-25 万达信息股份有限公司 C/s结构的信息管理系统上分布式数据处理的方法
US7072911B1 (en) * 2001-07-27 2006-07-04 Novell, Inc. System and method for incremental replication of changes in a state based distributed database
US20120101987A1 (en) * 2010-10-25 2012-04-26 Paul Allen Bottorff Distributed database synchronization
CN102937964A (zh) * 2012-09-28 2013-02-20 无锡江南计算技术研究所 基于分布式系统的智能数据服务方法
CN103379159A (zh) * 2012-04-24 2013-10-30 阿里巴巴集团控股有限公司 一种分布式Web站点数据同步的方法
TW201443674A (zh) * 2013-01-28 2014-11-16 Gen Instrument Corp 對遠端分散式資料庫伺服器之選擇性資料同步及傳送

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072911B1 (en) * 2001-07-27 2006-07-04 Novell, Inc. System and method for incremental replication of changes in a state based distributed database
CN1477562A (zh) * 2002-08-19 2004-02-25 万达信息股份有限公司 C/s结构的信息管理系统上分布式数据处理的方法
US20120101987A1 (en) * 2010-10-25 2012-04-26 Paul Allen Bottorff Distributed database synchronization
CN103379159A (zh) * 2012-04-24 2013-10-30 阿里巴巴集团控股有限公司 一种分布式Web站点数据同步的方法
CN102937964A (zh) * 2012-09-28 2013-02-20 无锡江南计算技术研究所 基于分布式系统的智能数据服务方法
TW201443674A (zh) * 2013-01-28 2014-11-16 Gen Instrument Corp 對遠端分散式資料庫伺服器之選擇性資料同步及傳送

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017050179A1 (zh) * 2015-09-25 2017-03-30 阿里巴巴集团控股有限公司 一种库存系统数据更新方法及装置
CN105550347B (zh) * 2015-12-25 2020-07-14 网易(杭州)网络有限公司 数据处理方法及装置
CN105550347A (zh) * 2015-12-25 2016-05-04 网易(杭州)网络有限公司 数据处理方法及装置
CN105787057A (zh) * 2016-02-29 2016-07-20 浪潮通用软件有限公司 一种异构系统间业务数据自动同步的实现方法
CN105787057B (zh) * 2016-02-29 2019-02-15 浪潮通用软件有限公司 一种异构系统间业务数据自动同步的实现方法
CN108885622A (zh) * 2016-04-06 2018-11-23 华为技术有限公司 多主同步复制优化的系统和方法
CN107515874A (zh) * 2016-06-16 2017-12-26 阿里巴巴集团控股有限公司 一种分布式非关系型数据库中同步增量数据的方法与设备
CN106446298A (zh) * 2016-11-29 2017-02-22 盐城工学院 基于pdm的数据管理方法及装置
CN106777025A (zh) * 2016-12-08 2017-05-31 北京中电普华信息技术有限公司 一种数据库物理模型的分析方法及系统
CN108243208A (zh) * 2016-12-23 2018-07-03 深圳市优朋普乐传媒发展有限公司 一种数据同步方法及装置
TWI734730B (zh) * 2017-01-19 2021-08-01 香港商阿里巴巴集團服務有限公司 庫存系統資料更新方法及裝置
CN107885761A (zh) * 2017-02-20 2018-04-06 平安科技(深圳)有限公司 数据批量加载方法及装置
CN110019262B (zh) * 2017-10-10 2022-05-27 北京国双科技有限公司 数据更新方法及装置
CN110019262A (zh) * 2017-10-10 2019-07-16 北京国双科技有限公司 数据更新方法及装置
CN108197147A (zh) * 2017-11-29 2018-06-22 中国联合网络通信集团有限公司 号卡数据库运维方法及装置
CN107995302A (zh) * 2017-12-11 2018-05-04 北京恒华伟业科技股份有限公司 一种数据同步的系统
CN107995302B (zh) * 2017-12-11 2021-04-13 北京恒华伟业科技股份有限公司 一种数据同步的系统
CN109446179A (zh) * 2018-09-30 2019-03-08 天津天地伟业电子工业制造有限公司 一种基于Memory方式建立SQLITE数据库实现多业务并发的方法
CN111177736A (zh) * 2019-07-30 2020-05-19 腾讯科技(深圳)有限公司 一种数据存储和访问的系统、方法和装置
CN110795422B (zh) * 2019-09-12 2020-10-27 三盟科技股份有限公司 一种数据服务管理方法及系统
CN110795422A (zh) * 2019-09-12 2020-02-14 三盟科技股份有限公司 一种数据服务管理方法及系统
TWI778433B (zh) * 2020-10-19 2022-09-21 玉山商業銀行股份有限公司 資料管理系統以及資料同步方法
CN112256702A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种增量标识修正方法及装置
CN112256702B (zh) * 2020-10-23 2023-12-22 上海恒生聚源数据服务有限公司 一种增量标识修正方法及装置
CN112579613A (zh) * 2020-12-31 2021-03-30 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 数据库集群差异比对与数据同步的方法、系统及介质
CN113656502B (zh) * 2021-08-19 2023-11-07 携程金融科技(上海)有限公司 数据同步方法、系统、电子设备和存储介质
CN113656502A (zh) * 2021-08-19 2021-11-16 携程金融科技(上海)有限公司 数据同步方法、系统、电子设备和存储介质
CN114722109A (zh) * 2022-04-13 2022-07-08 中国电信股份有限公司 数据导入方法、系统、设备及存储介质
CN114722109B (zh) * 2022-04-13 2024-02-06 中国电信股份有限公司 数据导入方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN104598610B (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN104573100A (zh) 一种带自增量标识的分步式数据库同步方法
CN104598610A (zh) 一种分步式数据库数据分发上传同步方法
US11461294B2 (en) System for importing data into a data repository
US11360950B2 (en) System for analysing data relationships to support data query execution
US11409764B2 (en) System for data management in a large scale data repository
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
CN108052681B (zh) 一种关系型数据库间结构化数据的同步方法及系统
CN108573006B (zh) 跨机房数据同步系统、方法及装置、电子设备
US7290018B2 (en) Change-driven replication of data
NO20171080A1 (en) Apparatus and methods of data synchronization
CN114357088B (zh) 核电工业数据仓库系统
CN104318481A (zh) 一种面向电网运行的全息时标量测数据萃取转换方法
CN104657459A (zh) 一种基于文件粒度的海量数据存储方法
CN102375827A (zh) 一种对版本化的电网模型数据库进行快速加载的方法
CN103473332A (zh) 一种虚拟试验体系结构的数据档案库
CN107870949A (zh) 数据分析作业依赖关系生成方法和系统
CN115858513A (zh) 数据治理方法、装置、计算机设备和存储介质
CN109150964A (zh) 一种可迁移的数据管理方法及服务迁移方法
CN109657000B (zh) 一种轨道交通综合监控系统的实时数据同步方法及装置
US11789973B2 (en) Software-defined database replication links
TWI526968B (zh) Data Caching Method with High Transitivity and Correctness
CN112749983A (zh) 一种适用于电力现货交易数据的方法和系统
CN116089413A (zh) 数据管理方法及装置
CN106970971A (zh) 改进型中心锚链模型的描述方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant