CN113535478B - 数据备份方法及装置、存储介质及电子设备 - Google Patents
数据备份方法及装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113535478B CN113535478B CN202110801387.0A CN202110801387A CN113535478B CN 113535478 B CN113535478 B CN 113535478B CN 202110801387 A CN202110801387 A CN 202110801387A CN 113535478 B CN113535478 B CN 113535478B
- Authority
- CN
- China
- Prior art keywords
- data
- backed
- library
- target
- backup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000001360 synchronised effect Effects 0.000 claims abstract description 52
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 230000009977 dual effect Effects 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims description 47
- 230000000903 blocking effect Effects 0.000 claims description 23
- 238000011084 recovery Methods 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 7
- 239000012634 fragment Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000013075 data extraction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Abstract
本公开提供了一种数据备份方法、装置、电子设备及存储介质,涉及计算机技术领域。该方法包括:获取数据备份请求,根据所述数据备份请求确定待备份数据、源库和目标库;使用双重并行技术将所述源库中的待备份数据同步至所述目标库中,在所述目标库中生成同步后数据;对所述同步后数据进行压缩处理,生成备份数据。该方法能够使用双重并行技术灵活高效地将海量数据从业务数据库传输至备份数据库并及时进行压缩处理,从而实现海量数据的高效备份。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据备份方法及装置、存储介质及电子设备。
背景技术
随着业务数据的快速增长,本地的业务数据库每天都会产生大量的结构化数据,由于本地存储空间有限,且需要应对机房停电、服务器宕机等特殊情况而导致的数据丢失问题,因此需要及时将这些数据传输给外部系统。现有的数据同步方法或数据备份方法无法适用于海量数据的灵活高效传输,进而也无法及时快速地对备份数据做压缩加密处理来保护数据的安全性。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据备份方法、装置、电子设备及存储介质,能够灵活高效地将海量数据从业务数据库传输至备份数据库并及时进行压缩处理,实现海量数据的高效备份。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种数据备份方法,包括:
获取数据备份请求,根据数据备份请求确定待备份数据、源库和目标库;使用双重并行技术将源库中的待备份数据同步至目标库中,在目标库中生成同步后数据;对同步后数据进行压缩处理,生成备份数据。
在本公开一个实施例中,源库的类型和目标库的类型为分布式数据库;源库包括:分布式MySQL、分布式数据库中间件和分布式Oracle数据库中的一种;目标库的类型包括:分布式关系型数据库、分布式文件系统和非结构化数据库中的一种。
在本公开一个实施例中,根据数据备份请求确定待备份数据,包括:根据数据备份请求中指示的数据标识范围确定待备份数据;和/或,根据数据备份请求中指示的时间范围确定待备份数据。
在本公开一个实施例中,使用双重并行技术将源库中的待备份数据同步至目标库中,包括:根据待备份数据、源库和目标库,确定用于同步的表映射关系;根据表映射关系,从源库中抽取待备份数据,以使用双重并行技术将待备份数据写入目标库。
在本公开一个实施例中,根据表映射关系,从源库中抽取待备份数据,以使用双重并行技术将待备份数据写入目标库,包括:根据表映射关系,将源库中的待备份数据拆分为多个数据表;将多个数据表批量抽取至多个阻塞队列,以利用多个阻塞队列实现多个数据表的并行写入;其中,对于每一阻塞队列中的数据表,利用通用对象池在目标库中批量创建与数据表对应的多个文件,以将每一阻塞队列中的数据表并行写入到多个文件中。
在本公开一个实施例中,生成同步后数据,包括:将目标库中所有数据表对应的所有写入完毕的文件,作为同步后数据;以及,在生成同步后数据之后,还包括:生成同步后数据的文件清单。
在本公开一个实施例中,在对同步后数据进行压缩处理之前,还包括:根据文件清单确认待备份数据完整同步至目标库中;以及,对同步后数据进行压缩处理,生成备份数据,包括:提取文件中的数据内容,基于合并策略进行数据合并以生成相应的目标文件;对目标文件进行加密,将加密后的目标文件作为备份数据存储至灾备系统。
根据本公开的另一个方面,提供一种数据备份装置,包括:
获取模块,用于获取数据备份请求,根据所述数据备份请求确定待备份数据、源库和目标库;同步模块,用于使用双重并行技术将所述源库中的待备份数据同步至所述目标库中,在所述目标库中生成同步后数据;压缩模块,用于对所述同步后数据进行压缩处理,生成备份数据。
在本公开一个实施例中,源库的类型和目标库的类型为分布式数据库;源库包括:分布式MySQL、分布式数据库中间件和分布式Oracle数据库中的一种;目标库的类型包括:分布式关系型数据库、分布式文件系统和非结构化数据库中的一种。
在本公开一个实施例中,获取模块根据数据备份请求确定待备份数据,包括:根据数据备份请求中指示的数据标识范围确定待备份数据;和/或,根据数据备份请求中指示的时间范围确定待备份数据。
在本公开一个实施例中,同步模块使用双重并行技术将源库中的待备份数据同步至目标库中,包括:根据待备份数据、源库和目标库,确定用于同步的表映射关系;根据表映射关系,从源库中抽取待备份数据,以使用双重并行技术将待备份数据写入目标库。
在本公开一个实施例中,同步模块根据表映射关系,从源库中抽取待备份数据,以使用双重并行技术将待备份数据写入目标库,包括:根据表映射关系,将源库中的待备份数据拆分为多个数据表;将多个数据表批量抽取至多个阻塞队列,以利用多个阻塞队列实现多个数据表的并行写入;其中,对于每一阻塞队列中的数据表,利用通用对象池在目标库中批量创建与数据表对应的多个文件,以将每一阻塞队列中的数据表并行写入到多个文件中。
在本公开一个实施例中,同步模块生成同步后数据,包括:将目标库中所有数据表对应的所有写入完毕的文件,作为同步后数据;以及,在生成同步后数据之后,还包括:生成同步后数据的文件清单。
在本公开一个实施例中,压缩模块在对同步后数据进行压缩处理之前,还包括:根据文件清单确认待备份数据完整同步至目标库中;以及,对同步后数据进行压缩处理,生成备份数据,包括:提取文件中的数据内容,基于合并策略进行数据合并以生成相应的目标文件;对目标文件进行加密,将加密后的目标文件作为备份数据存储至灾备系统。
根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据备份方法。
根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的数据备份方法。
本公开的实施例所提供的数据备份方法,能够使用双重并行技术灵活高效地将海量数据从业务数据库传输至备份数据库并及时进行压缩处理,从而实现海量数据的高效备份。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的数据备份方法的示例性系统架构的示意图;
图2示出了本公开一个实施例的数据备份方法的流程图;
图3示出了本公开一个实施例的数据备份方法中应用于数据同步的架构图;
图4示出了与本公开相关的现有技术中应用于数据同步的映射关系示意图;
图5示出了本公开一个实施例中应用于数据同步的映射关系示意图;
图6示出了本公开一个实施例中确定表映射关系的方法流程图;
图7示出了本公开一个实施例的数据备份方法中抽取数据的示意图;
图8示出了本公开一个实施例的数据备份方法中使用双重并行技术同步数据的方法流程图;
图9示出了本公开一个实施例的数据备份方法中压缩数据的方法流程图;
图10示出了本公开一个实施例的数据备份装置的框图;和
图11示出了本公开实施例中一种数据备份计算机设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
针对上述相关技术中存在的技术问题,本公开实施例提供了一种数据备份方法,以用于至少解决上述技术问题中的一个或者全部。
图1示出了可以应用本公开实施例的数据备份方法的示例性系统架构的示意图;如图1所示:
该系统架构可以包括服务器101、网络102和客户端103。网络102用以在客户端103和服务器101之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器101可以是提供各种服务的服务器,例如对用户利用客户端103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以接收用户发出的数据备份请求,基于该数据备份请求实现数据的同步和备份,并在备份完成后向客户端103返回备份完成结果。
客户端103可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、智能家居设备、AR(Augmented Reality,增强现实)设备、VR(Virtual Reality,虚拟现实)设备等移动终端,或者,客户端103也可以是个人计算机,比如膝上型便携计算机和台式计算机等等。
在一些可选的实施例中,服务器101可以接收用户发出的数据备份请求,然后解析该请求得到待备份数据、源库和目标库,进而配置可用于本次数据备份的表映射关系,并基于配置的表映射关系、使用双重并行技术将数据从源库同步至目标库,进而对已同步数据进行压缩、加密的备份处理,并将处理结果反馈至客户端103。
客户端103还可以为操作人员提供数据查询等功能,操作人员可以通过客户端103查看数据的备份情况,服务器101可以基于备份清单生成显示结果以用于在客户端103的界面中向操作人员展示,进而方便操作人员查看数据的备份进度、备份情况。
应该理解,图1中的客户端、网络和服务器的数目仅仅是示意性的,服务器101可以是一个实体的服务器,还可以为多个服务器组成的服务器集群,还可以是云端服务器,根据实际需要,可以具有任意数目的客户端、网络和服务器。
下面,将结合附图及实施例对本公开示例实施例中的数据备份方法的各个步骤进行更详细的说明。
图2示出了本公开一个实施例的数据备份方法的流程图。本公开实施例提供的方法可以由如图1所示的服务器或客户端中执行,但本公开并不限定于此。
在下面的举例说明中,以服务器集群101为执行主体进行示例说明。
如图2所示,本公开实施例提供的数据备份方法可以包括以下步骤:
步骤S201,获取数据备份请求,根据数据备份请求确定待备份数据、源库和目标库。其中,数据备份请求可以是用户通过客户端输入的,选择将哪一个源库中的数据备份至哪一个或哪几个目标库,也可以选择需要备份的数据范围。
步骤S203,使用双重并行技术将源库中的待备份数据同步至目标库中,在目标库中生成同步后数据。使用本公开中的双重并行技术,可以极大的加快分布式数据库同步的配置效率和灵活性,满足海量数据的快速同步需求。
步骤S205,对同步后数据进行压缩处理,生成备份数据。生成备份数据之后,可以将备份数据存储至容灾系统,在满足节省存储空间的需求下实现了异地灾备的目的。
图3示出了本公开一个实施例的数据备份方法中应用于数据同步的架构图,如图3所示,本公开中数据同步的整体架构包括如下几个部分:
源端数据库:当前支持分布式MySQL、分布式TeleDB(统一数据访问层(UniversalData Access Layer)和分布式Oracle数据库等。
目标端数据库:当前支持分布式关系型数据库、分布式文件系统和非结构化数据库等。
管理节点集群:用于数据同步配置,推送数据同步配置到同步节点。同时接收同步节点反馈回来的数据同步状态、进度等信息。
同步节点集群:执行具体数据同步过程的模块。
协调器集群:用于协调数据同步的模块。
在步骤S201中的一些实施例中,源库的类型和目标库的类型为分布式数据库;源库包括:分布式MySQL、分布式数据库中间件和分布式Oracle数据库中的一种;目标库的类型包括:分布式关系型数据库、分布式文件系统和非结构化数据库中的一种。
进一步地,在一些实施例中,根据数据备份请求确定待备份数据,包括:根据数据备份请求中指示的数据标识范围确定待备份数据;和/或,根据数据备份请求中指示的时间范围确定待备份数据。如:数据标识可以包括数据所在的物理库地址信息,进而可以对指定物理库中的数据进行同步。
在一些实施例中,使用双重并行技术将源库中的待备份数据同步至目标库中,包括:根据待备份数据、源库和目标库,确定用于同步的表映射关系;根据表映射关系,从源库中抽取待备份数据,以使用双重并行技术将待备份数据写入目标库。
以下通过图4和图5举例说明建立表映射关系的意义及效果:
图4示出了与本公开相关的现有技术中应用于数据同步的映射关系示意图;图5示出了本公开一个实施例中应用于数据同步的映射关系示意图。
如图4所示,由于数据同步组件中没有数据库代理组件,因此是直接将数据从源库的物理表同步至目标表。例如:若表prod_inst_attr,分布在8台机器上,每台机器分成8个库,每个库内又分成了5个表,则一共有物理表8*8*5=320。这种情况下,就需要针对每一个源物理表配置一条映射关系,因此要完成prod_inst_attr这个数据表的同步,就需要配置320个映射关系。现有技术中这种实现方案存在如下的缺点:(1)映射关系配置复杂,用户需要关注分布式数据库复杂的分片信息;(2)分布式数据库扩容后,用户需要重新配置映射关系,耗时耗力;(3)映射关系配置无法支持自动化。
在一些本公开的实际应用中,可以通过如下方式配置表映射关系:
使用跨IDC数据同步系统调用分布式数据库的REST API接口,获取分布式数据库的分库分表信息,解析成对应的逻辑库、物理库、逻辑表、物理表并形成之间的关联关系,存储到数据库中。
如图5所示,在本公开中可以基于自动匹配逻辑表和目标表名称实现映射关系的自动化配置;可以自动创建逻辑表并关联上复杂的分片信息,当用户配置映射关系时只需选择逻辑表即可,进而避免了用户去感知复杂的分片信息,同时很大程度上减少了所需配置映射关系的数量。并且,基于逻辑表配置映射关系,当分布式数据库扩缩容后,原有的映射关系配置可以继续复用,支持实时更新分布式数据库分片数据的变化,用户无需重新配置。
通过匹配逻辑表名和目标表名实现映射关系的自动化生成,可以进一步减轻配置映射关系的工作量,提高配置的灵活性。
图6示出了本公开一个实施例中确定表映射关系的方法流程图,如图6所示,包括:
拉取分库分表信息;解析分库分表信息为逻辑库、物理库、逻辑表、物理表;存储逻辑库、物理库、逻辑表、物理表到配置库;根据匹配逻辑表名和目标端表名实现映射关系的自动化生成。
通过上述生成表映射关系的方法,可以实现用户配置与数据库表结构解耦,特别是针对分布式数据库,可以极大的加快分布式数据库同步的配置效率和灵活性。
在一些实施例中,根据表映射关系,从源库中抽取待备份数据,以使用双重并行技术将待备份数据写入目标库,包括:根据表映射关系,将源库中的待备份数据拆分为多个数据表;将多个数据表批量抽取至多个阻塞队列,以利用多个阻塞队列实现多个数据表的并行写入。
图7示出了本公开一个实施例的数据备份方法中抽取数据的示意图,如图7所示,本公开中分布式数据库抽取数据流程如下:
根据映射关系找到源库的逻辑表;
通过逻辑表找对关联的分片表,数据抽取模块根据分片表的名称从各个分片库抽取出需要同步的数据;
按照分片表和逻辑表的关联关系将抽取的数据汇聚到相应的逻辑表队列中;
根据映射关系将数据写入到对应的目标表中。
进一步地,对于每一阻塞队列中的数据表,利用通用对象池在目标库中批量创建与数据表对应的多个文件,以将每一阻塞队列中的数据表并行写入到多个文件中。
在一些实际应用中,可以批量创建多个固定数量的文件,固定数量可以是预设的,从而达到较快的创建效率。因此当数据同步结束后,存在文件未写满的情况,可以检查是否存在空文件,若存在,则可以及时销毁,以避免不必要的存储空间的存在。
图8示出了本公开一个实施例的数据备份方法中使用双重并行技术同步数据的方法流程图;在图8中所使用的通用池对象可以按如下条件定制:
key为目标hdfs的url与表名、日期的组合;
value为计算生成的具体文件名称,以保证不重复;
激活对象时在hdfs上初始化对应的空文件,以获取文件输入流;
销毁对象时释放对应的文件资源;
池中对象失效的条件为文件大小大于配置的阈值;
同步系统获取、归还对象时进行有效性检验,将文件大小超过设定阈值和无法正常获取输入流的文件通知对象池进行驱逐。
在一些实施例中,生成同步后数据,包括:将目标库中所有数据表对应的所有写入完毕的文件,作为同步后数据;以及,在生成同步后数据之后,还包括:生成同步后数据的文件清单。
进一步地,在一些实施例中,在对同步后数据进行压缩处理之前,还包括:根据文件清单确认待备份数据完整同步至目标库中;以及,对同步后数据进行压缩处理,生成备份数据,包括:提取文件中的数据内容,基于合并策略进行数据合并以生成相应的目标文件;对目标文件进行加密,将加密后的目标文件作为备份数据存储至灾备系统。其中,若根据文件清单确定出未完整同步,则可以重新同步,以保证数据同步的完整性。
图9示出了本公开一个实施例的数据备份方法中压缩数据的方法流程图,如图9所示,包括:
本公开系统会读取HDFS文件清单,根据清单的表名、数据量和文件个数,查询同步记录并判断数据是否完整,如果完整则进行下一步;
将多个文件合并为1个文件(如:将10个文件合并压缩成1个文件),从而减少文件数量;
对压缩成功之后的文件进行加密处理;将加密之后的文件上传到异地灾备系统进行存储。
举例说明本公开中数据备份方法的实际应用:
使用本公开系统进行同步,只需要选择模式为异地灾备;填入相对应的源库信息和目标服务器信息,就可以一键自动化生成同步映射关系;本公开系统会快速将数据同步到目标库的HDFS集群;同时生成同步清单,并将同步数据进行压缩和加密上传到异地灾备系统。
使用本公开中的数据备份方法,能够实现数据库数据同步的自动化配置:实现用户配置与数据库表结构解耦,特别是针对分布式数据库,可以极大的加快分布式数据库同步的配置效率和灵活性;
能够实现结构化数据的高效抽取:采用多线程并发技术,划分多个批次并发从源数据表拉取记录数据,同步到阻塞队列进行缓存,数据抽取与入库通过阻塞队列进行解耦,可极大的提供数据同步的效率;
能够实现HDFS高效并行写入:使用通用对象池技术来实现并行写入HDFS集群,极大的加快了数据写入的效率,基本可以达到数据抽取的速度与写入的速度相一致,实测单机每秒写入性能可达30万条记录以上。
能够实现数据压缩和加密:使用GZIP对数据文件进行合并和压缩,使压缩后的文件大小仅有源文件大小的6%;使用AES加密技术对压缩后的文件进行加密,可防止数据被窃取或篡改,保护数据的安全。
数据库同步自动配置、多线程并行抽取、阻塞队列和通用对象池以及数据压缩加密相结合的技术能极大的提高结构化数据的同步效率,能够在非常短的时间类将海量的数据存储到异地,同时对异地存储的文件进行压缩和加密能极大的节省存储空间,还能保护文件数据的安全。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图10示出本公开第五实施例中一种数据备份装置1000的框图;如图10所示,包括:
获取模块1001,用于获取数据备份请求,根据所述数据备份请求确定待备份数据、源库和目标库;
同步模块1002,用于使用双重并行技术将所述源库中的待备份数据同步至所述目标库中,在所述目标库中生成同步后数据;
压缩模块1003,用于对所述同步后数据进行压缩处理,生成备份数据。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
图11示出本公开实施例中一种数据备份计算机设备的结构框图。需要说明的是,图示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
下面参照图11来描述根据本发明的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1110、上述至少一个存储单元1120、连接不同系统组件(包括存储单元1120和处理单元1110)的总线1130。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1110执行,使得所述处理单元1110执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元1110可以执行如图2中所示的步骤S201,获取数据备份请求,根据数据备份请求确定待备份数据、源库和目标库;步骤S203,使用双重并行技术将源库中的待备份数据同步至目标库中,在目标库中生成同步后数据;步骤S205,对同步后数据进行压缩处理,生成备份数据。
存储单元1120可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)11201和/或高速缓存存储单元11202,还可以进一步包括只读存储单元(ROM)11203。
存储单元1120还可以包括具有一组(至少一个)程序模块11205的程序/实用工具11204,这样的程序模块11205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1130可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1100也可以与一个或多个外部设备装置1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且,电子设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1160通过总线1130与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
根据本发明实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (8)
1.一种数据备份方法,其特征在于,包括:
获取数据备份请求,根据所述数据备份请求确定待备份数据、源库和目标库;
使用双重并行技术将所述源库中的待备份数据同步至所述目标库中,在所述目标库中生成同步后数据;
对所述同步后数据进行压缩处理,生成备份数据;
其中,使用双重并行技术将所述源库中的待备份数据同步至所述目标库中,包括:
根据所述待备份数据、源库和目标库,确定用于同步的表映射关系;
根据所述表映射关系,从所述源库中抽取所述待备份数据,以使用双重并行技术将所述待备份数据写入所述目标库;
其中,根据所述表映射关系,从所述源库中抽取所述待备份数据,以使用双重并行技术将所述待备份数据写入所述目标库,包括:
根据所述表映射关系,将所述源库中的待备份数据拆分为多个数据表;
将所述多个数据表批量抽取至多个阻塞队列,以利用多个阻塞队列实现所述多个数据表的并行写入;其中,对于每一阻塞队列中的数据表,利用通用对象池在所述目标库中批量创建与所述数据表对应的多个文件,以将每一阻塞队列中的数据表并行写入到所述多个文件中。
2.根据权利要求1所述的方法,其特征在于,所述源库的类型和所述目标库的类型为分布式数据库;所述源库包括:分布式MySQL、分布式数据库中间件和分布式Oracle数据库中的一种;所述目标库的类型包括:分布式关系型数据库、分布式文件系统和非结构化数据库中的一种。
3.根据权利要求1所述的方法,其特征在于,根据所述数据备份请求确定待备份数据,包括:
根据所述数据备份请求中指示的数据标识范围确定所述待备份数据;和/或,根据所述数据备份请求中指示的时间范围确定所述待备份数据。
4.根据权利要求1所述的方法,其特征在于,所述生成同步后数据,包括:将所述目标库中所有数据表对应的所有写入完毕的文件,作为所述同步后数据;以及,
在生成同步后数据之后,还包括:生成所述同步后数据的文件清单。
5.根据权利要求4所述的方法,其特征在于,在对所述同步后数据进行压缩处理之前,还包括:根据所述文件清单确认所述待备份数据完整同步至所述目标库中;以及,
对所述同步后数据进行压缩处理,生成备份数据,包括:
提取所述文件中的数据内容,基于合并策略进行数据合并以生成相应的目标文件;对所述目标文件进行加密,将加密后的目标文件作为所述备份数据存储至灾备系统。
6.一种数据备份装置,其特征在于,包括:
获取模块,用于获取数据备份请求,根据所述数据备份请求确定待备份数据、源库和目标库;
同步模块,用于使用双重并行技术将所述源库中的待备份数据同步至所述目标库中,在所述目标库中生成同步后数据;
压缩模块,用于对所述同步后数据进行压缩处理,生成备份数据;
其中,同步模块使用双重并行技术将所述源库中的待备份数据同步至所述目标库中,包括:
根据所述待备份数据、源库和目标库,确定用于同步的表映射关系;
根据所述表映射关系,从所述源库中抽取所述待备份数据,以使用双重并行技术将所述待备份数据写入所述目标库;
其中,同步模块根据所述表映射关系,从所述源库中抽取所述待备份数据,以使用双重并行技术将所述待备份数据写入所述目标库,包括:
根据所述表映射关系,将所述源库中的待备份数据拆分为多个数据表;
将所述多个数据表批量抽取至多个阻塞队列,以利用多个阻塞队列实现所述多个数据表的并行写入;其中,对于每一阻塞队列中的数据表,利用通用对象池在所述目标库中批量创建与所述数据表对应的多个文件,以将每一阻塞队列中的数据表并行写入到所述多个文件中。
7.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1至5任一项所述的数据备份方法。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5任一项所述的数据备份方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801387.0A CN113535478B (zh) | 2021-07-15 | 2021-07-15 | 数据备份方法及装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801387.0A CN113535478B (zh) | 2021-07-15 | 2021-07-15 | 数据备份方法及装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535478A CN113535478A (zh) | 2021-10-22 |
CN113535478B true CN113535478B (zh) | 2024-01-02 |
Family
ID=78099515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110801387.0A Active CN113535478B (zh) | 2021-07-15 | 2021-07-15 | 数据备份方法及装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535478B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053982A (zh) * | 2009-11-02 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种数据库信息管理方法和设备 |
CN103699580A (zh) * | 2013-12-03 | 2014-04-02 | 中铁程科技有限责任公司 | 数据库同步方法及装置 |
CN104376062A (zh) * | 2014-11-11 | 2015-02-25 | 中国有色金属长沙勘察设计研究院有限公司 | 一种异构数据库平台数据的同步方法 |
CN106484568A (zh) * | 2016-09-30 | 2017-03-08 | 郑州云海信息技术有限公司 | 一种数据灾难备份方法及其系统 |
CN107797887A (zh) * | 2017-10-26 | 2018-03-13 | 医渡云(北京)技术有限公司 | 数据备份及恢复方法、装置、存储介质和电子设备 |
CN108573034A (zh) * | 2018-03-30 | 2018-09-25 | 北京辰森世纪科技股份有限公司 | 数据备份方法、装置、计算机设备及可读存储介质 |
CN113051102A (zh) * | 2019-12-26 | 2021-06-29 | 中国移动通信集团云南有限公司 | 文件备份方法、装置、系统、存储介质和计算机设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2472620B (en) * | 2009-08-12 | 2016-05-18 | Cloudtran Inc | Distributed transaction processing |
US10025673B1 (en) * | 2013-09-20 | 2018-07-17 | Amazon Technologies, Inc. | Restoring partitioned database tables from backup |
-
2021
- 2021-07-15 CN CN202110801387.0A patent/CN113535478B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053982A (zh) * | 2009-11-02 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种数据库信息管理方法和设备 |
CN103699580A (zh) * | 2013-12-03 | 2014-04-02 | 中铁程科技有限责任公司 | 数据库同步方法及装置 |
CN104376062A (zh) * | 2014-11-11 | 2015-02-25 | 中国有色金属长沙勘察设计研究院有限公司 | 一种异构数据库平台数据的同步方法 |
CN106484568A (zh) * | 2016-09-30 | 2017-03-08 | 郑州云海信息技术有限公司 | 一种数据灾难备份方法及其系统 |
CN107797887A (zh) * | 2017-10-26 | 2018-03-13 | 医渡云(北京)技术有限公司 | 数据备份及恢复方法、装置、存储介质和电子设备 |
CN108573034A (zh) * | 2018-03-30 | 2018-09-25 | 北京辰森世纪科技股份有限公司 | 数据备份方法、装置、计算机设备及可读存储介质 |
CN113051102A (zh) * | 2019-12-26 | 2021-06-29 | 中国移动通信集团云南有限公司 | 文件备份方法、装置、系统、存储介质和计算机设备 |
Non-Patent Citations (2)
Title |
---|
A Low Disk-Bound Transaction Logging System for In-memory Distributed Data Stores;Dayal Dilli等;《2016 IEEE International Conference on Cluster Computing (CLUSTER)》;第11-20页 * |
非阻塞事务型实时数据注入技术研究与实现;余楷等;《华东师范大学学报(自然科学版)》;第131-143页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113535478A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109254733B (zh) | 用于存储数据的方法、装置和系统 | |
EP2656248B1 (en) | Bulk initial download of mobile databases | |
CN109189841B (zh) | 一种多数据源访问方法及系统 | |
CN109144785B (zh) | 用于备份数据的方法和装置 | |
US20160179919A1 (en) | Asynchronous data replication using an external buffer table | |
CN111010364B (zh) | 用于基于离线对象的存储和模拟rest响应的系统 | |
US9589153B2 (en) | Securing integrity and consistency of a cloud storage service with efficient client operations | |
CN109032796B (zh) | 一种数据处理方法和装置 | |
CN110321544B (zh) | 用于生成信息的方法和装置 | |
CN111966631A (zh) | 一种可快速分发的镜像文件生成方法、系统、设备和介质 | |
CN115858488A (zh) | 基于数据治理的平行迁移方法、装置及可读介质 | |
CN110781197A (zh) | 一种hive离线同步校验方法、装置及电子设备 | |
CN111338834B (zh) | 数据存储方法和装置 | |
US11157456B2 (en) | Replication of data in a distributed file system using an arbiter | |
CN112866406B (zh) | 一种数据存储方法、系统、装置、设备及存储介质 | |
CN112559913A (zh) | 一种数据处理方法、装置、计算设备及可读存储介质 | |
CN113535478B (zh) | 数据备份方法及装置、存储介质及电子设备 | |
CN112182108A (zh) | 基于区块链的分布式数据存储更新方法和电子设备 | |
CN116049142A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN114328464A (zh) | 分布式存储设备的数据维护方法、装置、设备和可读介质 | |
CN109445966A (zh) | 事件处理方法、装置、介质和计算设备 | |
CN113610527A (zh) | 联盟链的交易方法、装置、系统、终端设备及存储介质 | |
CN113760861A (zh) | 一种数据迁移的方法和装置 | |
CN112148705A (zh) | 数据迁移的方法和装置 | |
CN112711572A (zh) | 适用于分库分表的在线扩容方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220208 Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing Applicant after: Tianyiyun Technology Co.,Ltd. Address before: No.31, Financial Street, Xicheng District, Beijing, 100033 Applicant before: CHINA TELECOM Corp.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |