CN113448775A - 多源异构数据备份方法及装置 - Google Patents

多源异构数据备份方法及装置 Download PDF

Info

Publication number
CN113448775A
CN113448775A CN202110709884.8A CN202110709884A CN113448775A CN 113448775 A CN113448775 A CN 113448775A CN 202110709884 A CN202110709884 A CN 202110709884A CN 113448775 A CN113448775 A CN 113448775A
Authority
CN
China
Prior art keywords
data
task
module
data source
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110709884.8A
Other languages
English (en)
Inventor
阳兵
沈贇
林丹
阳万里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110709884.8A priority Critical patent/CN113448775A/zh
Publication of CN113448775A publication Critical patent/CN113448775A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data

Abstract

本说明书涉及大数据处理技术领域,具体地公开了一种多源异构数据备份方法及装置,其中,该装置包括接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块;接入层接收备份任务请求,将其路由至任务管理模块;任务管理模块生成任务信息,进行任务调度执行,调用数据归集模块进行数据归集,调用数据导出模块进行数据导出;数据归集模块调用登录管理模块登录对应的数据源,根据任务信息生成临时表,将数据源中的数据抽取到临时表中,生成数据归集文件清单;登录管理模块根据映射表登录各数据源标识对应的数据源;数据导出模块根据数据归集文件清单导出数据,将数据拷贝至目标服务器。上述装置实现对多源异构数据的高效准确的自动化备份。

Description

多源异构数据备份方法及装置
技术领域
本说明书涉及大数据处理技术领域,特别涉及一种多源异构数据备份方法及装置。
背景技术
近年来,大数据领域蓬勃发展,越来越多企业,特别是中大型企业,出于成本、数据管理和数据产出的考虑,往往会建设数据中心进行数据集中管理。又由于对时效性要求的不同,形成不同引擎类型的多源异构数据源体系,再者,数据归属不同的应用,不同应用可能具有不同的用户体系。企业各研发单位在产品研发阶段又有生产环境跨源跨应用关联数据本地备份的需求,需要解决用户体系和数据源隔离的问题。
目前,普遍方法是分别使用不同用户体系账户从不同数据源先下载数据到本地,并经过处理后导入相同数据源中进行关联得到最终结果。然而,这种方法没有实现完全自动化,效率低。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例提供了一种多源异构数据备份方法及装置,以解决现有技术中源跨应用关联数据本地备份效率低的问题。
本说明书实施例提供了一种多源异构数据备份装置,包括:接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块;接入层用于接收备份任务请求,并将备份任务请求路由至任务管理模块,其中,备份任务请求至少包括目标账户和至少一个数据源标识;任务管理模块用于响应于备份任务请求生成任务信息,并基于任务信息进行任务调度执行,调用数据归集模块进行数据归集,调用数据导出模块进行数据导出;数据归集模块用于调用登录管理模块登录至少一个数据源标识中各数据源标识对应的数据源,根据任务信息生成临时表,将各数据源标识对应的数据源中的数据抽取到临时表中,并生成数据归集文件清单;登录管理模块用于根据至少一个数据源标识和预设映射表登录各数据源标识对应的数据源,其中,预设映射表中记录有目标账户的登录账号与数据源标识之间的映射关系;数据导出模块用于调用登录管理模块登录各数据源标识对应的数据源,根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至目标账户对应的目标服务器进行备份。
在一个实施例中,任务管理模块具体用于:对备份任务请求中的参数进行校验,在校验通过的情况下,响应于备份任务请求生成任务信息。
在一个实施例中,任务管理模块还具体用于:对任务信息进行缓存,从缓存中读取任务信息,将读取到的任务信息提交至线程池开始执行。
在一个实施例中,数据导出模块还用于:在根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据之后,确定是否需要对导出的数据进行脱敏处理,在确定需要对导出的数据进行脱敏处理的情况下,对导出的数据进行脱敏处理。
在一个实施例中,该装置还包括数据管理模块,数据管理模块用于基于current_user函数创建视图以向用户提供统一的访问界面。
在一个实施例中,任务管理模块用于根据数据归集文件清单为数据导出模块动态分配系统资源。
在一个实施例中,数据归集模块具体用于根据任务信息生成临时表创建及数据抽取的SQL语句,在调用登录管理模块登录至少一个数据源标识中各数据源标识对应的数据源之后,执行SQL语句,以生成临时表并将数据抽取到临时表中。
本说明书实施例还提供了一种多源异构数据备份方法,应用于多源异构数据备份装置,该装置包括:接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块;该方法包括:接入层接收备份任务请求,并将备份任务请求路由至任务管理模块,其中,备份任务请求至少包括目标账户和至少一个数据源标识;任务管理模块响应于备份任务请求生成任务信息,基于任务信息进行任务调度执行,并向数据归集模块发送第一调用请求;响应于第一调用请求,数据归集模块向登录管理模块发送第二调用请求;响应于第二调用请求,登录管理模块根据至少一个数据源标识和预设映射表登录各数据源标识对应的数据源,其中,预设映射表中记录有目标账户的登录账号与数据源标识之间的映射关系;数据归集模块根据任务信息生成临时表,将各数据源标识对应的数据源中的数据抽取到临时表中,并生成数据归集文件清单;任务管理模块向数据导出模块发送第三调用请求;响应于第三调用请求,数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至目标账户对应的目标服务器进行备份。
在一个实施例中,数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,包括:数据导出模块从数据归集模块获取数据归集文件清单;数据导出模块向登录管理模块发送第四调用请求,以使得登录管理模块响应于第四调用请求,登录各数据源标识对应的数据源;数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据。
在一个实施例中,在数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据之后,还包括:数据导出模块确定是否需要对导出的数据进行脱敏处理;在确定需要对导出的数据进行脱敏处理的情况下,数据导出模块对导出的数据进行脱敏处理。
本说明书实施例还提供了一种多源异构数据备份方法,包括:接收接入层发送的备份任务请求,其中,备份任务请求至少包括目标账户和至少一个数据源标识;响应于备份任务请求生成任务信息,基于任务信息进行任务调度执行,并向数据归集模块发送第一调用请求,使得数据归集模块响应于第一调用请求调用登录管理模块根据至少一个数据源标识和预设映射表登录各数据源标识对应的数据源,根据任务信息生成临时表,将各数据源标识对应的数据源中的数据抽取到临时表中,并生成数据归集文件清单;其中,预设映射表中记录有目标账户的登录账号与数据源标识之间的映射关系;调用数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至目标账户对应的目标服务器进行备份。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述的源异构数据备份方法的步骤。
在本说明书实施例中,提供了一种多源异构数据备份装置,该装置包括接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块,接入层可以接收备份任务请求,并将备份任务请求路由至任务管理模块,任务管理模块可以响应于备份任务请求生成任务信息,并基于任务信息进行任务调度执行,调用数据归集模块进行数据归集,调用数据导出模块进行数据导出,数据归集模块可以调用登录管理模块登录至少一个数据源标识中各数据源标识对应的数据源,根据任务信息生成临时表,将各数据源标识对应的数据源中的数据抽取到临时表中,并生成数据归集文件清单,登录管理模块可以根据至少一个数据源标识和预设映射表登录各数据源标识对应的数据源,其中,预设映射表中记录有目标账户的登录账号与数据源标识之间的映射关系,数据导出模块可以调用登录管理模块登录各数据源标识对应的数据源,根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至目标账户对应的目标服务器进行备份。上述方案中,通过提供接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块,可以实现多源异构数据的自动化精确备份,备份效率高。此外,登录管理模块可以根据备份任务请求中的数据源标识和目标账户从预设映射表中获取数据源标识对应的登录账户,并通过登录账户登录对应的数据源,可以实现用户体系与数据源的隔离,通过为用户分配不同的登录账号并维护映射关系来实现不同用户登录不同数据源集群的目的。同时,通过数据归集模块生成临时表并将要备份的数据抽取至临时表中完成数据归集,能够实现数据的精确备份。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,并不构成对本说明书的限定。在附图中:
图1为本说明书一实施例中多源异构数据备份装置的结构示意图;
图2为本说明书一实施例中的多源异构数据备份方法的流程图;
图3为本说明书一实施例中的多源异构数据备份方法中生成任务信息的流程图;
图4为本说明书一实施例中的多源异构数据备份方法中任务执行的流程图;
图5为本说明书一实施例中的多源异构数据备份方法中数据归集的流程图;
图6为本说明书一实施例中的多源异构数据备份方法中数据导出的流程图;
图7为本说明书一实施例中的多源异构数据备份方法的流程图。
具体实施方式
下面将参考若干示例性实施方式来描述本说明书的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书,而并非以任何方式限制本说明书的范围。相反,提供这些实施方式是为了使本说明书公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本说明书的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本说明书实施例提供了一种多源异构数据备份装置。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。请参考图1,示出了本说明书一实施例中多源异构数据备份装置的结构示意图。如图1所示,多源异构数据备份装置可以包括:接入层101、任务管理模块102、数据归集模块103、登录管理模块104和数据导出模块105。
接入层101可以用于接收备份任务请求,并将备份任务请求路由至任务管理模块102。备份任务请求至少包括目标账户和至少一个数据源标识。例如,接入层101可以接收用户经由客户端发送的备份任务请求。备份任务请求中可以包括目标账户和至少一个数据源标识。目标账户可以是用户在数据中心的账户数据。数据源标识可以用于标识多源异构数据源。
任务管理模块102可以用于响应于备份任务请求生成任务信息。之后,任务管理模块102可以基于任务信息进行任务调度执行,调用数据归集模块103进行数据归集,调用数据导出模块105进行数据导出。
数据归集模块103可以用于调用登录管理模块104登录至少一个数据源标识中各数据源标识对应的数据源。在登录各数据源标识对应的数据源之后,数据归集模块103可以根据任务信息生成临时表,将各数据源标识对应的数据源中的数据抽取到临时表中,并生成数据归集文件清单。数据归集文件清单中可以记录有要备份的数据的信息,例如,可以包括数据大小、存储路径等信息。
登录管理模块104可以用于根据至少一个数据源标识和预设映射表登录各数据源标识对应的数据源。其中,预设映射表中记录有目标账户的登录账号与数据源标识之间的映射关系。每个目标账户可以在多个数据源上进行登录,登录时的登录账号不同,即不同的数据源对应不同的登录账号。或者说,每个数据源对应不同的用户体系。
数据导出模块105可以用于调用登录管理模块104登录各数据源标识对应的数据源。在登录数据源之后,数据导出模块105可以根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至目标账户对应的目标服务器进行备份。
上述实施例中的装置,通过提供接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块,可以实现多源异构数据的自动化精确备份,备份效率高。此外,登录管理模块可以根据备份任务请求中的数据源标识和目标账户从预设映射表中获取数据源标识对应的登录账户,并通过登录账户登录对应的数据源,可以实现用户体系与数据源的隔离,通过为用户分配不同的登录账号并维护映射关系来实现不同用户登录不同数据源集群的目的。同时,通过数据归集模块生成临时表并将要备份的数据抽取至临时表中完成数据归集,能够实现数据的精确备份。
在本说明一些实施例中,任务管理模块可以具体用于:对备份任务请求中的参数进行校验,在校验通过的情况下,响应于备份任务请求生成任务信息。具体的,备份任务请求中可以包括目标账户、涉及的数据源标识、库名称、表名称、表字段列表、查询条件等。任务管理模块可以对备份任务请求中的这些参数做非空校验等校验。在校验通过的情况下,任务管理模块可以响应于备份任务请求生成任务信息。任务信息中可以包括任务标识、涉及的数据源名称、库名称、表名称、数据源登录用户、表字段列表、查询条件、任务提交时间、任务状态、结束时间等。在校验不通过的情况下,可以向用户客户端返回通知信息,告知用户进行修改。通过上述方式,在生成任务信息之前先对备份任务请求中的参数进行校验,可以提高备份的准确性和效率。
在本说明一些实施例中,任务管理模块还可以具体用于:对任务信息进行缓存,从缓存中读取任务信息,将读取到的任务信息提交至线程池开始执行。考虑到同时存在多个用户对数据中心请求数据备份。因此,在任务管理模块生成任务信息之后,可以对任务信息进行缓存。之后,可以从缓存中读取信息,并将读取到的任务信息提交至线程池开始执行。通过上述方式,对任务信息进行缓存,可以对备份任务进行异步执行,可以提高备份效率。
在本说明一些实施例中,数据导出模块还可以用于:在根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据之后,确定是否需要对导出的数据进行脱敏处理,在确定需要对导出的数据进行脱敏处理的情况下,对导出的数据进行脱敏处理。
具体的,在将数据导出之后,可以对数据进行预设处理,将预设处理后的数据导出至目标服务器。其中,预设处理可以包括以下至少之一:数据脱敏、数据码制转换、数据倾斜处理等。对于数据脱敏,数据导出模块可以先确定是否需要对导出的数据进行脱敏处理。其中,是否需要脱敏可以是根据各企业的实际要求。例如,可以对IP地址或者账号信息等转换成假的值。在确定需要对导出的数据进行脱敏处理的情况下,可以对导出的数据进行脱敏处理,并将脱敏处理后的数据拷贝至服务器。通过上述方式,可以根据实际需求对数据进行脱敏后再导出,可以保护隐私,提高数据备份的安全性。
在本说明一些实施例中,如图1所示,该装置还包括数据管理模块106,数据管理模块106用于基于current_user(当前用户)函数创建视图以向用户提供统一的访问界面。具体的,数据管理模块106主要是视图的创建、修改及删除等管理,视图创建的时候使用各数据源自带current_user函数等数据隔离函数创建,当用户传入不同请求账号做数据归集时,current_user函数会替换为实际登录用户,从而达到不同用户看到不同数据的权限隔离。
在本说明一些实施例中,任务管理模块可以用于根据数据归集文件清单为数据导出模块动态分配系统资源。数据归集文件清单中可以记录由本次数据备份任务所涉及的数据大小等信息,因此根据数据归集文件清单可以获知该数据备份任务所需的计算资源。进而可以根据该任务所需的计算资源来为该任务分配系统资源。即,任务管理模块可以根据数据归集文件清单为数据导出模块动态分配系统资源,从而可以提供吞吐能力。
在本说明一些实施例中,数据归集模块可以具体用于根据任务信息生成临时表创建及数据抽取的SQL语句,在调用登录管理模块登录至少一个数据源标识中各数据源标识对应的数据源之后,执行SQL语句,以生成临时表并将数据抽取到临时表中。上述实施例中,数据归集模块可以通过执行SQL语句来进行数据归集,执行效率高。
基于同一发明构思,本说明书实施例中还提供了一种多源异构数据备份方法,如下面的实施例所述。由于多源异构数据备份方法解决问题的原理与多源异构数据备份装置相似,因此多源异构数据备份方法的实施可以参见多源异构数据备份装置的实施,重复之处不再赘述。图2示出了本说明书一实施例中多源异构数据备份方法的流程图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。
具体地,如图2所示,本说明书一种实施例提供的多源异构数据备份方法可以包括以下步骤:
步骤S201,接入层接收备份任务请求,并将备份任务请求路由至任务管理模块,其中,备份任务请求至少包括目标账户和至少一个数据源标识。
步骤S202,任务管理模块响应于备份任务请求生成任务信息,基于任务信息进行任务调度执行,并向数据归集模块发送第一调用请求。
步骤S203,响应于第一调用请求,数据归集模块向登录管理模块发送第二调用请求;响应于第二调用请求,登录管理模块根据至少一个数据源标识和预设映射表登录各数据源标识对应的数据源,其中,预设映射表中记录有目标账户的登录账号与数据源标识之间的映射关系。
步骤S204,数据归集模块根据任务信息生成临时表,将各数据源标识对应的数据源中的数据抽取到临时表中,并生成数据归集文件清单。
步骤S205,任务管理模块向数据导出模块发送第三调用请求;响应于第三调用请求,数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至目标账户对应的目标服务器进行备份。
上述实施例中的方法,通过接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块,可以实现多源异构数据的自动化精确备份,备份效率高。此外,登录管理模块可以根据备份任务请求中的数据源标识和目标账户从预设映射表中获取数据源标识对应的登录账户,并通过登录账户登录对应的数据源,可以实现用户体系与数据源的隔离,通过为用户分配不同的登录账号并维护映射关系来实现不同用户登录不同数据源集群的目的。同时,通过数据归集模块生成临时表并将要备份的数据抽取至临时表中完成数据归集,能够实现数据的精确备份。
在本说明书一些实施例中,数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,包括:数据导出模块从数据归集模块获取数据归集文件清单;数据导出模块向登录管理模块发送第四调用请求,以使得登录管理模块响应于第四调用请求,登录各数据源标识对应的数据源;数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据。
在本说明书一些实施例中,在数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据之后,还包括:数据导出模块确定是否需要对导出的数据进行脱敏处理;在确定需要对导出的数据进行脱敏处理的情况下,数据导出模块对导出的数据进行脱敏处理。
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本说明书,并不构成对本说明书的不当限定。
如图1所示,本发明提供的一种大数据环境跨源跨应用关联数据本地备份的装置包括:接入层101、任务管理模块102、数据归集模块103、登录管理模块104、数据导出模块105和数据管理模块106。
接入层101负责将用户的任务请求路由到任务管理节点等。
任务管理模块102负责用户任务提交请求接收、任务调度执行和任务状态查询,其中接收用户请求包括并不限于校验请求参数,生成任务;其中任务调度执行包括并不限于定时执行,流程控制以及追踪状态。
数据归集模块103负责根据用户请求参数拼接sql语句生成临时表并抽取数据到临时表,将数据归集到临时表对应的数据文件中。
登录管理模块104负责根据用户请求参数使用不同用户登录访问不同数据源集群。
可以为用户分配账号A,并配置账号A在不同数据源上登录账号的映射关系,用户请求时将A作为参数传入,当请求达到时根据传入的账号A可以查询到各数据源实际的登录账号,从而实现用A账号登录不同数据源集群。为不同使用者分配不同的账号并维护各自的映射关系实现不同用户登录不同数据源集群。
数据导出模块105负责将归集数据对应的数据文件导出到中转服务器,包括并不限于并发管理、数据脱敏、数据码制转换、数据倾斜处理和拷贝到目标服务器等操作。
数据管理模块106负责基于current_user函数数据权限管控的视图生命周期管理。
本模块主要是视图的创建、修改及删除等管理,视图创建的时候使用各数据源自带current_user等数据隔离函数创建,当用户传入不同请求账号做数据归集时,current_user函数会替换为实际登录用户,从而达到不同用户看到不同数据的权限隔离。
请参考图3,示出了任务管理模块的任务提交流程图,如图3所示,任务提交包括以下步骤:
步骤S301,请求参数校验。
请求参数中账号、涉及数据源名称、库名称、表名称、表字段列表、查询条件做非空校验等。
步骤S302,请求参数是否通过校验,否则报错结束。
步骤S303,若通过校验则生成任务信息并缓存,缓存包括并不限于关系数据库、中间件等。
任务信息包含任务id、涉及数据源名称、库名称、表名称、数据源登录用户、表字段列表、查询条件、任务提交时间、任务状态、结束时间等。
请参考图4,示出了是任务管理模块的任务调度执行流程图。如图4所示,任务调度执行包括以下步骤:
步骤S401,定时器启动,从缓存尝试获取若干任务。
步骤S402,是否获取到任务,否即等待下一轮启动。
步骤S403,若获取到任务即提交线程池开始执行。
步骤S404,调用数据归集。
步骤S405,数据归集是否成功,否即记录该任务失败状态并等待下一轮启动。
步骤S406,记录该任务失败状态。
步骤S407,调用数据导出。
步骤S408,数据导出是否成功,否即记录该任务失败状态并等待下一轮启动。
步骤S409,若数导出成功即记录该任务成功状态并等待下一轮启动。
请参考图5,示出了是数据归集模块的归集流程图。如图5所示,数据归集包括以下步骤:
步骤S501,根据任务信息生成临时表创建及数据抽取的SQL语句。
步骤S502,调用登录管理并在集群上执行SQL语句。
步骤S503,SQL语句执行是否成功,否即报错结束,成功即正常结束。
请参考图6,示出了是数据导出模块的导出流程图。如图6所示,数据导出包括以下步骤:
步骤S601,调用登录管理并获取数据归集文件清单。
数据归集后,表中数据实际存储在底层数据文件中,各数据源都是这样,如归集后生成了一张hive表,表中的数据实际上是该表对应HDFS(Hadoop Distributed FileSystem,Hadoop分布式文件系统)目录下的若干文件。
步骤S602,根据归集文件清单请求相应导出资源。
步骤S603,请求导出资源是否成功,否即进行重试。
步骤S604,若请求导出资源成功即开始导出,导出是否需要数据脱敏,否即进行下一步骤。
脱敏一般是各企业按实际情况要求,如IP地址、账号信息等替换成假的值。
步骤S605,若需脱敏,根据实际需求脱敏。
步骤S606,将导出文件拷贝到目标服务器。
在本申请实施例中,通过数据资产设置用户信息,并构建数据管理,通过视图对外统一资产访问,视图通过current_user函数与资产中用户信息对应,实现根据登录用户隔离数据的权限要求。在各应用用户体系上再设置一层用户层,通过映射关联屏蔽跨用户体系问题。此外根据用户数据关联需求按小表到大表集群迁移原则并将结果写入临时表完成数据归集,达到数据文件精确的要求,最后通过池化导出资源并根据文件清单动态分配资源提供吞吐能力。提供了一种大数据环境跨源跨应用关联数据本地备份的方法及装置,实现了当前本地备份中权限、数据精确备份和性能的需求。
本说明书实施例中还提供了一种多源异构数据备份方法,应用于任务管理模块,如下面的实施例所述。由于多源异构数据备份方法解决问题的原理与多源异构数据备份装置相似,因此多源异构数据备份方法的实施可以参见多源异构数据备份装置的实施,重复之处不再赘述。图7示出了本说明书一实施例中多源异构数据备份方法的流程图。
如图7所示,本说明书实施例提供的多源异构数据备份方法可以包括以下步骤。
步骤S701,接收接入层发送的备份任务请求,其中,备份任务请求至少包括目标账户和至少一个数据源标识。
步骤S702,响应于备份任务请求生成任务信息,基于任务信息进行任务调度执行,并向数据归集模块发送第一调用请求,使得数据归集模块响应于第一调用请求调用登录管理模块根据至少一个数据源标识和预设映射表登录各数据源标识对应的数据源,根据任务信息生成临时表,将各数据源标识对应的数据源中的数据抽取到临时表中,并生成数据归集文件清单;其中,预设映射表中记录有目标账户的登录账号与数据源标识之间的映射关系。
步骤S703,调用数据导出模块根据数据归集文件清单从各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至目标账户对应的目标服务器进行备份。
本说明书实施方式中还提供了一种基于多源异构数据备份方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现上述任意实施例中所述多源异构数据备份方法的步骤。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本说明书的优选实施例而已,并不用于限制本说明书,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。

Claims (12)

1.一种多源异构数据备份装置,其特征在于,包括:接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块;
所述接入层用于接收备份任务请求,并将所述备份任务请求路由至所述任务管理模块,其中,所述备份任务请求至少包括目标账户和至少一个数据源标识;
所述任务管理模块用于响应于所述备份任务请求生成任务信息,并基于所述任务信息进行任务调度执行,调用所述数据归集模块进行数据归集,调用所述数据导出模块进行数据导出;
所述数据归集模块用于调用所述登录管理模块登录所述至少一个数据源标识中各数据源标识对应的数据源,根据所述任务信息生成临时表,将所述各数据源标识对应的数据源中的数据抽取到所述临时表中,并生成数据归集文件清单;
所述登录管理模块用于根据所述至少一个数据源标识和预设映射表登录所述各数据源标识对应的数据源,其中,所述预设映射表中记录有所述目标账户的登录账号与数据源标识之间的映射关系;
所述数据导出模块用于调用所述登录管理模块登录所述各数据源标识对应的数据源,根据所述数据归集文件清单从所述各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至所述目标账户对应的目标服务器进行备份。
2.根据权利要求1所述的装置,其特征在于,所述任务管理模块具体用于:对所述备份任务请求中的参数进行校验,在校验通过的情况下,响应于所述备份任务请求生成任务信息。
3.根据权利要求2所述的装置,其特征在于,所述任务管理模块还具体用于:对所述任务信息进行缓存,从所述缓存中读取任务信息,将读取到的任务信息提交至线程池开始执行。
4.根据权利要求1所述的装置,其特征在于,所述数据导出模块还用于:在根据所述数据归集文件清单从所述各数据源标识对应的数据源导出对应的数据之后,确定是否需要对导出的数据进行脱敏处理,在确定需要对导出的数据进行脱敏处理的情况下,对所述导出的数据进行脱敏处理。
5.根据权利要求1所述的装置,其特征在于,所述装置还包括数据管理模块,所述数据管理模块用于基于current_user函数创建视图以向用户提供统一的访问界面。
6.根据权利要求1所述的装置,其特征在于,所述任务管理模块用于根据所述数据归集文件清单为所述数据导出模块动态分配系统资源。
7.根据权利要求1所述的装置,其特征在于,所述数据归集模块具体用于根据任务信息生成临时表创建及数据抽取的SQL语句,在调用所述登录管理模块登录所述至少一个数据源标识中各数据源标识对应的数据源之后,执行所述SQL语句,以生成临时表并将数据抽取到所述临时表中。
8.一种多源异构数据备份方法,其特征在于,应用于多源异构数据备份装置,所述装置包括:接入层、任务管理模块、数据归集模块、登录管理模块和数据导出模块;所述方法包括:
所述接入层接收备份任务请求,并将所述备份任务请求路由至所述任务管理模块,其中,所述备份任务请求至少包括目标账户和至少一个数据源标识;
所述任务管理模块响应于所述备份任务请求生成任务信息,基于所述任务信息进行任务调度执行,并向所述数据归集模块发送第一调用请求;
响应于所述第一调用请求,所述数据归集模块向所述登录管理模块发送第二调用请求;响应于所述第二调用请求,所述登录管理模块根据所述至少一个数据源标识和预设映射表登录所述各数据源标识对应的数据源,其中,所述预设映射表中记录有所述目标账户的登录账号与数据源标识之间的映射关系;
所述数据归集模块根据所述任务信息生成临时表,将所述各数据源标识对应的数据源中的数据抽取到所述临时表中,并生成数据归集文件清单;
所述任务管理模块向所述数据导出模块发送第三调用请求;响应于所述第三调用请求,所述数据导出模块根据所述数据归集文件清单从所述各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至所述目标账户对应的目标服务器进行备份。
9.根据权利要求8所述的方法,其特征在于,所述数据导出模块根据所述数据归集文件清单从所述各数据源标识对应的数据源导出对应的数据,包括:
所述数据导出模块从所述数据归集模块获取数据归集文件清单;
所述数据导出模块向所述登录管理模块发送第四调用请求,以使得所述登录管理模块响应于所述第四调用请求,登录所述各数据源标识对应的数据源;
所述数据导出模块根据所述数据归集文件清单从所述各数据源标识对应的数据源导出对应的数据。
10.根据权利要求9所述的方法,其特征在于,在所述数据导出模块根据所述数据归集文件清单从所述各数据源标识对应的数据源导出对应的数据之后,还包括:
所述数据导出模块确定是否需要对导出的数据进行脱敏处理;
在确定需要对导出的数据进行脱敏处理的情况下,所述数据导出模块对所述导出的数据进行脱敏处理。
11.一种多源异构数据备份方法,其特征在于,包括:
接收接入层发送的备份任务请求,其中,所述备份任务请求至少包括目标账户和至少一个数据源标识;
响应于所述备份任务请求生成任务信息,基于所述任务信息进行任务调度执行,并向所述数据归集模块发送第一调用请求,使得所述数据归集模块响应于所述第一调用请求调用登录管理模块根据所述至少一个数据源标识和预设映射表登录所述各数据源标识对应的数据源,根据所述任务信息生成临时表,将所述各数据源标识对应的数据源中的数据抽取到所述临时表中,并生成数据归集文件清单;其中,所述预设映射表中记录有所述目标账户的登录账号与数据源标识之间的映射关系;
调用所述数据导出模块根据所述数据归集文件清单从所述各数据源标识对应的数据源导出对应的数据,并将导出的数据拷贝至所述目标账户对应的目标服务器进行备份。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求11所述方法的步骤。
CN202110709884.8A 2021-06-25 2021-06-25 多源异构数据备份方法及装置 Pending CN113448775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110709884.8A CN113448775A (zh) 2021-06-25 2021-06-25 多源异构数据备份方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110709884.8A CN113448775A (zh) 2021-06-25 2021-06-25 多源异构数据备份方法及装置

Publications (1)

Publication Number Publication Date
CN113448775A true CN113448775A (zh) 2021-09-28

Family

ID=77812762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110709884.8A Pending CN113448775A (zh) 2021-06-25 2021-06-25 多源异构数据备份方法及装置

Country Status (1)

Country Link
CN (1) CN113448775A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918634A (zh) * 2021-10-15 2022-01-11 国家电网有限公司大数据中心 一种用于数据交互的数据适配方法、适配器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302140A1 (en) * 2010-06-04 2011-12-08 Commvault Systems, Inc. Failover systems and methods for performing backup operations
CN104899295A (zh) * 2015-06-09 2015-09-09 苏州国云数据科技有限公司 一种异构数据源数据关联分析方法
CN111367883A (zh) * 2020-02-25 2020-07-03 平安科技(深圳)有限公司 数据同步方法、装置、设备及计算机可读存储介质
CN111695108A (zh) * 2020-06-04 2020-09-22 中国科学院计算机网络信息中心 一种异构计算环境中多源账号的用户统一账号标识系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302140A1 (en) * 2010-06-04 2011-12-08 Commvault Systems, Inc. Failover systems and methods for performing backup operations
CN104899295A (zh) * 2015-06-09 2015-09-09 苏州国云数据科技有限公司 一种异构数据源数据关联分析方法
CN111367883A (zh) * 2020-02-25 2020-07-03 平安科技(深圳)有限公司 数据同步方法、装置、设备及计算机可读存储介质
CN111695108A (zh) * 2020-06-04 2020-09-22 中国科学院计算机网络信息中心 一种异构计算环境中多源账号的用户统一账号标识系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918634A (zh) * 2021-10-15 2022-01-11 国家电网有限公司大数据中心 一种用于数据交互的数据适配方法、适配器及存储介质

Similar Documents

Publication Publication Date Title
US11153380B2 (en) Continuous backup of data in a distributed data store
US11086725B2 (en) Orchestration of heterogeneous multi-role applications
US10929428B1 (en) Adaptive database replication for database copies
CA2929777C (en) Managed service for acquisition, storage and consumption of large-scale data streams
CA2929776C (en) Client-configurable security options for data streams
CA2930101C (en) Partition-based data stream processing framework
CA2930026C (en) Data stream ingestion and persistence techniques
US9002805B1 (en) Conditional storage object deletion
US11113158B2 (en) Rolling back kubernetes applications
US9417917B1 (en) Equitable resource allocation for storage object deletion
US9052942B1 (en) Storage object deletion job management
US7890626B1 (en) High availability cluster server for enterprise data management
US9063946B1 (en) Backoff-based scheduling of storage object deletions
US11347684B2 (en) Rolling back KUBERNETES applications including custom resources
US10860604B1 (en) Scalable tracking for database udpates according to a secondary index
US11409711B2 (en) Barriers for dependent operations among sharded data stores
US11082494B2 (en) Cross storage protocol access response for object data stores
US20210165768A1 (en) Replication Barriers for Dependent Data Transfers between Data Stores
CN113448775A (zh) 多源异构数据备份方法及装置
US11093465B2 (en) Object storage system with versioned meta objects
US11121981B1 (en) Optimistically granting permission to host computing resources
US11169728B2 (en) Replication configuration for multiple heterogeneous data stores
US11914571B1 (en) Optimistic concurrency for a multi-writer database
US20240111751A1 (en) Record-level locks with constant space complexity
JP2024511774A (ja) ハイブリッドクラウドイベント通知管理

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination