CN113127436A - 一种数据同步方法、装置、服务器及存储介质 - Google Patents

一种数据同步方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN113127436A
CN113127436A CN202110469190.1A CN202110469190A CN113127436A CN 113127436 A CN113127436 A CN 113127436A CN 202110469190 A CN202110469190 A CN 202110469190A CN 113127436 A CN113127436 A CN 113127436A
Authority
CN
China
Prior art keywords
data
synchronized
storage
database
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110469190.1A
Other languages
English (en)
Other versions
CN113127436B (zh
Inventor
罗廷方
段效晨
康林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110469190.1A priority Critical patent/CN113127436B/zh
Publication of CN113127436A publication Critical patent/CN113127436A/zh
Application granted granted Critical
Publication of CN113127436B publication Critical patent/CN113127436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据同步方法、装置、服务器及存储介质,属于计算机技术领域。本申请通过在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;按照预设的存储规则将所述待同步数据存储到预设存储空间中;记录所述待同步数据在所述存储空间中的存储路径信息;基于所述待同步数据的存储路径信息创建物化视图;基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。通过本申请,可以将发生修改的数据存储到预设存储空间并记录存储路径,根据存储路径创建物化视图,进而进行同步,避免数据同步时未修改的数据导入导出,提升同步效率。

Description

一种数据同步方法、装置、服务器及存储介质
技术领域
本申请涉及数据同步技术领域,尤其涉及一种数据同步方法、装置、服务器及存储介质。
背景技术
关系型数据库(online transaction processing,OLTP)主要用于管理和存储数据,数据仓库(online analytical processing,OLAP)主要用于分析和计算数据。在一些应用场景中,需要将OLTP中的发生修改的修改数据实时同步到OLAP中进行处理。
目前,将OLTP中的修改数据同步到OLAP中通常采用的方案是:通过OLTP将包含修改数据的数据表发出来,由一个中间数据库接收该数据表,然后再将数据表从中间数据库导出到OLAP中。
然而,通过上述方法同步数据时,中间数据库只能将修改数据以及修改数据所在数据表中未修改的数据重新写一遍之后,才能将修改数据导入到OLAP中,导致未修改的数据也一起导出导入,资源浪费严重,同步效率低。
发明内容
为了解决上述技术问题,本申请提供了一种数据同步方法、装置、服务器及存储介质。
第一方面,提供了一种数据同步方法,所述方法包括:
在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;
按照预设的存储规则将所述待同步数据存储到预设存储空间中;
记录所述待同步数据在所述存储空间中的存储路径信息;
基于所述待同步数据的存储路径信息创建物化视图;
基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
可选地,所述按照预设的存储规则将所述待同步数据存储到预设存储空间中之前,还包括:
在所述存储空间内,按照所述第二数据库中分区的划分规则将所述存储空间进行分区,得到多个存储分区;
所述按照预设的存储规则将所述待同步数据存储到预设存储空间中,包括:
在所述存储空间内,按照所述划分规则,将所述待同步数据划分到对应的存储分区内。
可选地,所述按照预设的存储规则将所述待同步数据存储到预设存储空间中之前,还包括:
将提取的所述待同步数据存储到存储区块中,其中所述存储区块至少有一个;
针对每个存储区块,判断所述存储区块中存储所述待同步数据的数据量是否达到存储阈值;
若所述存储区块中存储所述待同步数据的数据量达到存储阈值,存储区块存储状态为存储完成;
若所述存储区块中存储所述待同步数据的数据量未达到存储阈值,存储区块存储状态为存储未完成,将所述存储状态为存储未完成的存储区块作为待合并存储区块;
当存在至少两个所述待合并存储区块且至少两个所述待合并存储区块对应的存储阈值与数据量的差值大于或等于预设阈值时,将至少两个所述待合并存储区块进行合并。
可选地,所述方法还包括:
合并后释放空的存储区块的存储空间。
可选地,所述在第一数据库中提取待同步数据之前,还包括:
统计所述待同步数据的数量;
根据所述待同步数据的数量,设置提取待同步数据的间隔时间,所述待同步数据的数量与所述间隔时间成反比。
可选地,所述在第一数据库中提取待同步数据,包括:
通过消息分发平台在第一数据库中提取所述待同步数据。
第二方面,提供了一种数据同步装置,所述装置包括:
提取模块,用于在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;
存储模块,用于按照预设的存储规则将所述待同步数据存储到预设存储空间中;
记录模块,用于记录所述待同步数据在所述存储空间中的存储路径信息;
创建模块,用于基于所述待同步数据的存储路径信息创建物化视图;
同步模块,用于基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
可选的,所述装置,还包括:
划分模块,用于在所述存储空间内,按照所述第二数据库中分区的划分规则将所述存储空间进行分区,得到多个存储分区;
所述存储模块,具体用于:
在所述存储空间内,按照所述划分规则,将所述待同步数据划分到对应的存储分区内。
可选地,所述装置,还包括:
存储区块存储模块,用于将提取的所述待同步数据存储到存储区块中,其中所述存储区块至少有一个;
判断模块,用于针对每个存储区块,判断所述存储区块中存储所述待同步数据的数据量是否达到存储阈值;
第一确定模块,用于若所述存储区块中存储所述待同步数据的数据量达到存储阈值,存储区块存储状态为存储完成;
第二确定模块,用于若所述存储区块中存储所述待同步数据的数据量未达到存储阈值,存储区块存储状态为存储未完成,将所述存储状态为存储未完成的存储区块作为待合并存储区块;
合并模块,用于当存在至少两个所述待合并存储区块且至少两个所述待合并存储区块对应的存储阈值与数据量的差值大于或等于预设阈值时,将至少两个所述待合并存储区块进行合并。
可选地,所述装置,还包括:
释放模块,用于合并后释放空的存储区块的存储空间。
可选地,所述装置,还包括:
统计模块,用于统计所述待同步数据的数量;
设置模块,用于根据所述待同步数据的数量,设置提取待同步数据的间隔时间,所述待同步数据的数量与所述间隔时间成反比。
可选地,所述提取模块,具体用于:
通过消息分发平台在第一数据库中提取所述待同步数据。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据同步方法。
本申请实施例有益效果:
本申请实施例提供了一种数据同步方法、装置、服务器及存储介质,本申请通过,首先在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;然后,按照预设的存储规则将所述待同步数据存储到预设存储空间中;并记录所述待同步数据在所述存储空间中的存储路径信息;然后,基于所述待同步数据的存储路径信息创建物化视图;最后,基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
在本申请实施例中,可以只提取发生修改的待同步数据,然后,将待同步数据存储到预先设置的存储空间内并记录存储路径信息,根据待同步数据的存储路径信息创建物化视图,进而进行同步,避免未修改的数据在同步过程中导入导出,节约处理成本,提升同步效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的数据同步方法的应用场景图;
图2为本申请实施例提供的数据同步方法的流程图;
图3为本申请另一种实施例提供的数据同步方法的流程图;
图4为本申请另一种实施例提供的数据同步方法的流程图;
图5为本申请实施例提供的一种数据同步装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于目前,通过OLTP将包含修改数据的数据表发出来,由一个中间数据库接收该数据表,然后再将数据表从中间数据库导出到OLAP中。通过该方法同步数据时,中间数据库只能将修改数据以及修改数据所在数据表中未修改的数据重新写一遍之后,才能将修改数据导入到OLAP中,导致未修改的数据也一起导出导入,资源浪费严重,同步效率低。为此,本申请实施例提供了一种数据同步方法,应用于服务器中。
为便于对本申请实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本申请实施例提供的一种数据同步方法的应用场景图,如图1所示,第一数据库100用于管理和存储数据,第二数据库200用于分析和计算数据。需要将第一数据库100中有修改的数据同步到第二数据库200中时,首先,在第一数据库100中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;然后,按照预设的存储规则将所述待同步数据存储到预设存储空间300中;并记录所述待同步数据在所述存储空间中的存储路径信息,得到每个待同步数据对应的存储路径信息;然后,基于所述待同步数据的存储路径信息创建物化视图,创建后的物化视图中包括待同步数据的存储路径信息;最后,基于所述物化视图同步待同步数据,第二数据库200可以按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
图2为本发明实施例提供的一种数据同步方法的流程示意图,如图2所示,该方法具体包括:
S101,在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据。
在本申请实施例中,待同步数据为第一数据库的任一数据表中发生修改的数据,第一数据库可以是OLTP。
在第一数据库中提取待同步数据时,可以是实时提取也可以是根据预设提取的间隔时间,分批次提取。
在本申请实施例的又一实施方式中,可以通过以下方式设置分批次提取的间隔时间:
统计所述待同步数据的数量;根据所述待同步数据的数量,设置提取待同步数据的间隔时间,所述待同步数据的数量与所述间隔时间成反比。
本申请实施例中,服务器可以统计一段时间内待同步数据的数量,根据待同步数据的数量,以及待同步数据的数量与间隔时间成反比的关系,设置提取待同步数据的间隔时间,每隔一个间隔时间提取一次待同步数据。
在本申请实施例的又一实施方式中,可以通过以下方式提取待同步数据:通过消息分发平台在第一数据库中提取待同步数据。
在本申请实施例中,可以通过消息分发平台在第一数据库中提取待同步数据,其中,消息分发平台可以是分布式发布订阅消息系统Kafka或者分布式的数据迁移工具Sqoop。提取时可以选择开源同步主键Canal作为同步工具,确定对待同步数据执行更新还是插入操作,提取一个待同步数据时,若消息分发平台中有相同的主键,则执行更新操作,若消息分发平台中没有相同的主键,则执行插入操作。最后,以Mini batch批次的方式不断地从Kafka或Sqoop中拉取待同步数据。
S102,按照预设的存储规则将所述待同步数据存储到预设存储空间中。
在本申请实施例中,预设存储空间可以是基于Hudi(Hadoop Updates andIncrementals,开源方案)架构下的存储空间。
在本申请实施例的一种实施方式中,在存储待同步数据之前,在预设的存储空间内,按照第二数据库中分区的划分规则将存储空间进行分区,可以得到多个存储分区,在设置了存储分区的存储空间内,按照存储分区的划分规则,将从消息分发平台中拉取的待同步数据划分到对应的存储分区内。
在本申请实施例的一种实施方式中,每个存储分区内以文件夹的形式存储待同步数据,每个存储分区中预先设置了文件夹的建立规则,将待同步数据划分到对应的存储分区内之后,根据文件夹的建立规则建立对应的文件夹,然后,将待同步数据存储到该文件夹中,存储分区中的文件夹可以是根据待同步数据动态建立的,用户可以自定义建立规则,例如设置建立规则为按待同步数据的更改时间建立,当同一天更改的一批待同步数据,有7:00更改的、8:00更改的,则建立两个文件夹,分别存储7:00更改的待同步数据和8:00更改的待同步数据。
S103,记录所述待同步数据在所述存储空间中的存储路径信息。
在本申请实施例中,将待同步数据存储到存储空间的过程中,记录待同步数据在存储空间中的存储路径信息。示例性的,待同步数据a存储到存储分区A中的文件夹A1中,则a对应的存储路径信息为A/A1。
S104,基于所述待同步数据的存储路径信息创建物化视图。
在本申请实施例中,基于Hudi架构存储数据,可以对外暴露成一个虚拟的数据表,也即物化视图,物化视图中包括存储数据的存储路径信息,因此可以基于待同步数据的存储路径信息创建物化视图,该物化视图中包括待同步数据的存储路径信息,同步数据时可以通过物化视图中的存储路径信息查找到待同步数据的存储位置,同步待同步数据。
在本申请实施例的另一种实施方式中,第二数据库只需其中一个存储分区的数据时,可以基于该存储分区存储的所有待同步数据创建物化视图,物化视图中包括该存储分区中所有待同步数据的存储路径信息。
S105,基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
在本申请实施例中,第二数据库可以通过Api接口来获取物化视图,获取到物化视图后,根据物化视图上的存储路径信息查找到待同步数据的存储位置,进而同步待同步数据。
在本申请实施例中,首先在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;然后,按照预设的存储规则将所述待同步数据存储到预设存储空间中;并记录所述待同步数据在所述存储空间中的存储路径信息;然后,基于所述待同步数据的存储路径信息创建物化视图;最后,基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。通过本方案,可以只提取发生修改的待同步数据,然后,将待同步数据存储到预先设置的存储空间内并记录存储路径信息,根据待同步数据的存储路径信息创建物化视图,进而进行同步,避免未修改的数据在同步过程中导入导出,节约处理成本,提升同步效率。
在本申请的又一实施例中,如图3所示,所述数据同步方法还可以包括以下步骤:
S201,将提取的所述待同步数据存储到存储区块中,其中所述存储区块至少有一个。
在本申请实施例中,可以根据提取的待同步数据的数据量动态建立存储区块,将提取的待同步数据存储到存储区块中。提取待同步数据时,同一批次的待同步数据会自动存储到一个存储区块中,然后遍历存储区块中的待同步数据,将这些待同步数据再存储到存储空间中对应的存储分区中。示例性的,预设存储区块最多存储20个待同步数据,当提取的待同步数据有18个时,只需建立一个存储区块,将18个待同步数据存储到该存储区块中,当提取的待同步数据为28个时,则建立两个存储区块,将28个待同步数据分别存储在两个存储区块中。
S202,针对每个存储区块,判断所述存储区块中存储所述待同步数据的数据量是否达到存储阈值。
在本申请实施例中,存储阈值为存储区块中最多可存储的数据量,示例性的,存储区块的存储阈值可以设置为20,代表该存储区块最多可存储20哥数据,针对每个存储区块,判断存储区块中存储待同步数据的数据量是否达到存储阈值。
S203,若所述存储区块中存储所述待同步数据的数据量达到存储阈值,存储区块存储状态为存储完成。
在本申请实施例中,若判断结果为,存储区块中存储待同步数据的数据量达到存储阈值,则确定该存储区块存储状态为存储完成。
S204,若所述存储区块中存储所述待同步数据的数据量未达到存储阈值,存储区块存储状态为存储未完成,将所述存储状态为存储未完成的存储区块作为待合并存储区块。
在本申请实施例中,若判断结果为,若存储区块中存储待同步数据的数据量未达到存储阈值,则确定该存储区块存储状态为存储未完成,并将存储状态为存储未完成的存储区块作为待合并存储区块。
S205,当存在至少两个所述待合并存储区块且至少两个所述待合并存储区块对应的存储阈值与数据量的差值大于或等于预设阈值时,将至少两个所述待合并存储区块进行合并。
在本申请实施例中,当存在至少两个所述待合并存储区块时,确定每个待合并存储区块对应的存储阈值,将其中最小的存储阈值作为预设阈值。确定每个待合并存储区块存储数据的数据量及每个待合并存储区块的存储阈值,将总的存储阈值与总的数据量的差值与预设阈值比较,当总的存储阈值与总的数据量的差值大于或等于预设阈值时,将至少两个待合并存储区块进行合并。在一个示例中,存储区块一的存储阈值为10,其中有5个待同步数据,存储区块二的存储阈值为20,其中有15个待同步数据,总的存储阈值为30,总的数据量为20,二者差值为10,等于最小的存储阈值,因此可以将存储区块一中的待同步数据合并到存储区块二中。
S206,合并后释放空的存储区块的存储空间。
在本申请实施例中,合并后有可能产生空的存储区块,所以合并后释放空的存储区块的存储空间,以减小存储压力。存储区块一的存储阈值为10,其中有5个待同步数据,存储区块二的存储阈值为20,其中有15个待同步数据,将存储区块一中的待同步数据合并到存储区块二中后,存储区块一为空的存储区块,故释放其存储空间。
本申请实施例中,通过将至少两个存储状态为存储未完成的存储区块进行合并,可以使数据存储更加紧凑,使后续读取数据时,更加高效,并且合并后释放空的存储区块的存储空间,可以减小存储压力。
在本申请实施例中,首先在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;然后,按照预设的存储规则将所述待同步数据存储到预设存储空间中;并记录所述待同步数据在所述存储空间中的存储路径信息;然后,基于所述待同步数据的存储路径信息创建物化视图;最后,基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。通过本方案,可以只提取发生修改的待同步数据,然后,将待同步数据存储到预先设置的存储空间内并记录存储路径信息,根据待同步数据的存储路径信息创建物化视图,进而进行同步,避免未修改的数据在同步过程中导入导出,节约处理成本,提升同步效率。
可选的,本申请实施例还提供了数据同步方法的处理流程,如图4所示,具体步骤如下:
第一数据库(Database)以日志(binlog)形式把发生修改的待同步数据发出来;消息分发平台Kafka或Sqoop从第一数据库(Database)中获取待同步数据,获取待同步数据的过程中,通过唯一主键(Canal)确定是新增数据或更改数据;常驻的服务(Delta Streamer)以批次(Mini batch)的方式不断地从上游Kafka或Sqoop中拉取待同步数据,分批次写入,同一批次写入的待同步数据存储到一个存储区块中;随着数据不断写入,会产生多个存储区块。对于这些存储区块,Delta Streamer可以自动触发合并存储区块的任务,合并后将删除空的存储区块。第二数据库(Clickhouse)通过刷新其某个分区(partition),在Hudi的Hdfs存储空间中同步对应的分区的待同步数据。
本申请实施例中,可以只提取发生修改的待同步数据,然后,将待同步数据存储到预先设置的存储空间内并记录存储路径信息,根据待同步数据的存储路径信息创建物化视图,进而进行同步,避免未修改的数据在同步过程中导入导出,节约处理成本,提升同步效率。
基于相同的技术构思,本申请实施例还提供了一种数据同步装置,如图5所示,该装置包括:
提取模块301,用于在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;
存储模块302,用于按照预设的存储规则将所述待同步数据存储到预设存储空间中;
记录模块303,用于记录所述待同步数据在所述存储空间中的存储路径信息;
创建模块304,用于基于所述待同步数据的存储路径信息创建物化视图;
同步模块305,用于基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
可选的,所述装置,还包括:
划分模块,用于在所述存储空间内,按照所述第二数据库中分区的划分规则将所述存储空间进行分区,得到多个存储分区;
所述存储模块,具体用于:
在所述存储空间内,按照所述划分规则,将所述待同步数据划分到对应的存储分区内。
可选地,所述装置,还包括:
存储区块存储模块,用于将提取的所述待同步数据存储到存储区块中,其中所述存储区块至少有一个;
判断模块,用于针对每个存储区块,判断所述存储区块中存储所述待同步数据的数据量是否达到存储阈值;
第一确定模块,用于若所述存储区块中存储所述待同步数据的数据量达到存储阈值,存储区块存储状态为存储完成;
第二确定模块,用于若所述存储区块中存储所述待同步数据的数据量未达到存储阈值,存储区块存储状态为存储未完成,将所述存储状态为存储未完成的存储区块作为待合并存储区块;
合并模块,用于当存在至少两个所述待合并存储区块且至少两个所述待合并存储区块对应的存储阈值与数据量的差值大于或等于预设阈值时,将至少两个所述待合并存储区块进行合并。
可选地,所述装置,还包括:
释放模块,用于合并后释放空的存储区块的存储空间。
可选地,所述装置,还包括:
统计模块,用于统计所述待同步数据的数量;
设置模块,用于根据所述待同步数据的数量,设置提取待同步数据的间隔时间,所述待同步数据的数量与所述间隔时间成反比。
可选地,所述提取模块,具体用于:
通过消息分发平台在第一数据库中提取所述待同步数据。
在本申请实施例中,首先在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;然后,按照预设的存储规则将所述待同步数据存储到预设存储空间中;并记录所述待同步数据在所述存储空间中的存储路径信息;然后,基于所述待同步数据的存储路径信息创建物化视图;最后,基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。通过本方案,可以只提取发生修改的待同步数据,然后,将待同步数据存储到预先设置的存储空间内并记录存储路径信息,根据待同步数据的存储路径信息创建物化视图,进而进行同步,避免未修改的数据在同步过程中导入导出,节约处理成本,提升同步效率。
基于相同的技术构思,本发明实施例还提供了一种电子设备,如图6所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;
按照预设的存储规则将所述待同步数据存储到预设存储空间中;
记录所述待同步数据在所述存储空间中的存储路径信息;
基于所述待同步数据的存储路径信息创建物化视图;
基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
可选地,所述按照预设的存储规则将所述待同步数据存储到预设存储空间中之前,还包括:
在所述存储空间内,按照所述第二数据库中分区的划分规则将所述存储空间进行分区,得到多个存储分区;
所述按照预设的存储规则将所述待同步数据存储到预设存储空间中,包括:
在所述存储空间内,按照所述划分规则,将所述待同步数据划分到对应的存储分区内。
可选地,所述按照预设的存储规则将所述待同步数据存储到预设存储空间中之前,还包括:
将提取的所述待同步数据存储到存储区块中,其中所述存储区块至少有一个;
针对每个存储区块,判断所述存储区块中存储所述待同步数据的数据量是否达到存储阈值;
若所述存储区块中存储所述待同步数据的数据量达到存储阈值,存储区块存储状态为存储完成;
若所述存储区块中存储所述待同步数据的数据量未达到存储阈值,存储区块存储状态为存储未完成,将所述存储状态为存储未完成的存储区块作为待合并存储区块;
当存在至少两个所述待合并存储区块且至少两个所述待合并存储区块对应的存储阈值与数据量的差值大于或等于预设阈值时,将至少两个所述待合并存储区块进行合并。
可选地,所述方法还包括:
合并后释放空的存储区块的存储空间。
可选地,所述在第一数据库中提取待同步数据之前,还包括:
统计所述待同步数据的数量;
根据所述待同步数据的数量,设置提取待同步数据的间隔时间,所述待同步数据的数量与所述间隔时间成反比。
可选地,所述在第一数据库中提取待同步数据,包括:
通过消息分发平台在第一数据库中提取所述待同步数据。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据同步方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据同步方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种数据同步方法,其特征在于,所述方法包括:
在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;
按照预设的存储规则将所述待同步数据存储到预设存储空间中;
记录所述待同步数据在所述存储空间中的存储路径信息;
基于所述待同步数据的存储路径信息创建物化视图;
基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
2.根据权利要求1所述的方法,其特征在于,所述按照预设的存储规则将所述待同步数据存储到预设存储空间中之前,还包括:
在所述存储空间内,按照所述第二数据库中分区的划分规则将所述存储空间进行分区,得到多个存储分区;
所述按照预设的存储规则将所述待同步数据存储到预设存储空间中,包括:
在所述存储空间内,按照所述划分规则,将所述待同步数据划分到对应的存储分区内。
3.根据权利要求1所述的方法,其特征在于,所述按照预设的存储规则将所述待同步数据存储到预设存储空间中之前,还包括:
将提取的所述待同步数据存储到存储区块中,其中所述存储区块至少有一个;
针对每个存储区块,判断所述存储区块中存储所述待同步数据的数据量是否达到存储阈值;
若所述存储区块中存储所述待同步数据的数据量达到存储阈值,存储区块存储状态为存储完成;
若所述存储区块中存储所述待同步数据的数据量未达到存储阈值,存储区块存储状态为存储未完成,将所述存储状态为存储未完成的存储区块作为待合并存储区块;
当存在至少两个所述待合并存储区块且至少两个所述待合并存储区块对应的存储阈值与数据量的差值大于或等于预设阈值时,将至少两个所述待合并存储区块进行合并。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
合并后释放空的存储区块的存储空间。
5.根据权利要求1所述的方法,其特征在于,所述在第一数据库中提取待同步数据之前,还包括:
统计所述待同步数据的数量;
根据所述待同步数据的数量,设置提取待同步数据的间隔时间,所述待同步数据的数量与所述间隔时间成反比。
6.根据权利要求1所述的方法,其特征在于,所述在第一数据库中提取待同步数据,包括:
通过消息分发平台在第一数据库中提取所述待同步数据。
7.一种数据同步装置,其特征在于,所述装置包括:
提取模块,用于在第一数据库中提取待同步数据,所述待同步数据为所述第一数据库的任一数据表中发生修改的数据;
存储模块,用于按照预设的存储规则将所述待同步数据存储到预设存储空间中;
记录模块,用于记录所述待同步数据在所述存储空间中的存储路径信息;
创建模块,用于基于所述待同步数据的存储路径信息创建物化视图;
同步模块,用于基于所述物化视图同步待同步数据,以使第二数据库按照所述物化视图中的存储路径信息查找所述待同步数据并同步。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202110469190.1A 2021-04-28 2021-04-28 一种数据同步方法、装置、服务器及存储介质 Active CN113127436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110469190.1A CN113127436B (zh) 2021-04-28 2021-04-28 一种数据同步方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110469190.1A CN113127436B (zh) 2021-04-28 2021-04-28 一种数据同步方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN113127436A true CN113127436A (zh) 2021-07-16
CN113127436B CN113127436B (zh) 2023-07-25

Family

ID=76780579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110469190.1A Active CN113127436B (zh) 2021-04-28 2021-04-28 一种数据同步方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN113127436B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140201137A1 (en) * 2013-01-11 2014-07-17 Commvault Systems, Inc. Location-based data synchronization management
CN105893447A (zh) * 2015-12-28 2016-08-24 乐视网信息技术(北京)股份有限公司 文件同步方法、装置及系统
KR101747270B1 (ko) * 2016-08-09 2017-06-14 주식회사 티맥스데이터 이기종 데이터베이스들 간의 쿼리 결과를 동기화하기 위한 방법, 서버 및 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램
US20180285382A1 (en) * 2017-03-29 2018-10-04 Commvault Systems, Inc. Synchronization operations for network-accessible folders
CN108932286A (zh) * 2018-05-23 2018-12-04 阿里巴巴集团控股有限公司 一种数据存储方法、数据查询方法及装置
CN110209726A (zh) * 2018-02-12 2019-09-06 中兴通讯股份有限公司 分布式数据库集群系统、数据同步方法及存储介质
CN110209728A (zh) * 2019-04-22 2019-09-06 凯通科技股份有限公司 一种分布式异构数据库同步方法、电子设备及存储介质
CN111352994A (zh) * 2020-02-04 2020-06-30 浙江大华技术股份有限公司 数据同步方法以及相关设备、装置
US20200334254A1 (en) * 2019-04-19 2020-10-22 Timescale, Inc. Querying of materialized views for time-series database analytics
CN112015696A (zh) * 2020-08-21 2020-12-01 北京奇艺世纪科技有限公司 数据访问、数据关系设置方法、装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140201137A1 (en) * 2013-01-11 2014-07-17 Commvault Systems, Inc. Location-based data synchronization management
CN105893447A (zh) * 2015-12-28 2016-08-24 乐视网信息技术(北京)股份有限公司 文件同步方法、装置及系统
KR101747270B1 (ko) * 2016-08-09 2017-06-14 주식회사 티맥스데이터 이기종 데이터베이스들 간의 쿼리 결과를 동기화하기 위한 방법, 서버 및 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램
US20180285382A1 (en) * 2017-03-29 2018-10-04 Commvault Systems, Inc. Synchronization operations for network-accessible folders
CN110209726A (zh) * 2018-02-12 2019-09-06 中兴通讯股份有限公司 分布式数据库集群系统、数据同步方法及存储介质
CN108932286A (zh) * 2018-05-23 2018-12-04 阿里巴巴集团控股有限公司 一种数据存储方法、数据查询方法及装置
US20200334254A1 (en) * 2019-04-19 2020-10-22 Timescale, Inc. Querying of materialized views for time-series database analytics
CN110209728A (zh) * 2019-04-22 2019-09-06 凯通科技股份有限公司 一种分布式异构数据库同步方法、电子设备及存储介质
CN111352994A (zh) * 2020-02-04 2020-06-30 浙江大华技术股份有限公司 数据同步方法以及相关设备、装置
CN112015696A (zh) * 2020-08-21 2020-12-01 北京奇艺世纪科技有限公司 数据访问、数据关系设置方法、装置及存储介质

Also Published As

Publication number Publication date
CN113127436B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN107368259B (zh) 一种向区块链系统中写入业务数据的方法和装置
CN112395293B (zh) 分库分表方法、分库分表装置、分库分表设备及存储介质
CN112084161B (zh) 基于数据库的数据处理方法、装置以及可读存储介质
CN112434043B (zh) 一种数据同步方法、装置、电子设备及介质
CN115129716A (zh) 一种针对工业大数据的数据管理方法、设备及存储介质
CN112434015B (zh) 数据存储的方法、装置、电子设备及介质
CN107609011B (zh) 一种数据库记录的维护方法和装置
CN113821573A (zh) 海量数据快速检索服务构建方法、系统、终端及存储介质
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
CN115114232A (zh) 一种历史版本对象列举方法、装置及其介质
CN115858487A (zh) 一种数据迁移方法及装置
CN113760902A (zh) 数据拆分方法、装置、设备、介质及程序产品
CN113177050A (zh) 一种数据均衡的方法、装置、查询系统及存储介质
CN111078418A (zh) 操作同步方法、装置、电子设备及计算机可读存储介质
CN113127436B (zh) 一种数据同步方法、装置、服务器及存储介质
US9652766B1 (en) Managing data stored in memory locations having size limitations
CN111782634B (zh) 数据分布式存储方法、装置、电子设备及存储介质
CN107315806B (zh) 一种基于文件系统的嵌入式存储方法和装置
CN114385657A (zh) 数据存储方法、装置及存储介质
CN109710698A (zh) 一种数据汇聚方法、装置、电子设备及介质
CN113901046A (zh) 虚拟维度表构建方法及装置
CN114564501A (zh) 一种数据库数据存储、查询方法、装置、设备及介质
CN112749189A (zh) 数据查询方法及装置
CN111427871A (zh) 数据处理方法、装置、设备
CN112860694B (zh) 业务数据的处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant