CN115729888A - 数据迁移方法及装置 - Google Patents

数据迁移方法及装置 Download PDF

Info

Publication number
CN115729888A
CN115729888A CN202211530103.XA CN202211530103A CN115729888A CN 115729888 A CN115729888 A CN 115729888A CN 202211530103 A CN202211530103 A CN 202211530103A CN 115729888 A CN115729888 A CN 115729888A
Authority
CN
China
Prior art keywords
data
migration
data table
instruction
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211530103.XA
Other languages
English (en)
Inventor
许吉来
姜帆
罗晓峰
张延堂
林发全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211530103.XA priority Critical patent/CN115729888A/zh
Publication of CN115729888A publication Critical patent/CN115729888A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据迁移方法及装置,该方法包括:响应于数据迁移请求,获取建表语句,所述建表语句具体为所述源集群中存储的第一数据表的生成语句;执行所述建表语句,按照所述第一数据表的数据表格式生成第二数据表;接收数据迁移指令,所述数据迁移指令按照迁移调度表中的配置参数生成;运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表。本公开的技术方案提高了数据迁移效率。

Description

数据迁移方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据迁移方法及装置。
背景技术
分布式数据存储系统可以利用多个节点所形成的集群存储数据,数据在集群中可以以数据表的文件格式存。较为常见的分布式存储系统是基于分布式系统基础架构建立的,通常在分布式系统框架的基础上可以通过封装数据处理系统会向数据的读写、存储等处理。例如Hadoop架构的基础上可以封装Hive系统或者Hbase(Hadoop database)系统。
目前,分布式的数据存储系统可能经常遇到冷热数据分类存储、集群数据整体搬迁、集群间数据准同步等场景,需要将数据在不同集群间进行迁移或备份。较为常见的数据迁移方式是文件拷贝,需要用户对数据文件,例如HDFS数据文件,手动执行数据文件的迁移,迁移效率较低。
发明内容
本公开提供了一种用于分布式数据存储系统间的数据迁移方法及装置。
根据本公开的第一方面,提供了一种数据迁移方法,应用于目标集群,包括:
响应于数据迁移请求,获取建表语句,所述建表语句具体为所述源集群中存储的第一数据表的生成语句;
执行所述建表语句,按照所述第一数据表的数据表格式生成第二数据表;
接收数据迁移指令,所述数据迁移指令按照迁移调度表中的配置参数生成,所述迁移调度表;
运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表。
根据本公开的第二方面,提供了一种数据迁移方法,包括:
显示迁移调度页面,获取用户针对所述迁移调度页面输入的配置参数,获得所述配置参数对应的迁移调度表,所述配置参数包括数据迁移过程中涉及的参数;
控制源集群将建表语句发送至目标集群,所述建表语句为所述源集群中存储的第一数据表的生成语句,所述建表语句用于指示所述目标集群按照所述第一数据表的数据表格式生成第二数据表;
根据所述迁移调度表中的配置参数,生成数据迁移指令;
发送所述数据迁移指令至所述目标集群,所述数据迁移指令指示所述目标集群将所述第一数据表中的数据迁移至所述第二数据表。
根据本公开的第三方面,提供了一种数据迁移装置,包括:
语句获取单元,用于响应于数据迁移请求,获取建表语句,所述建表语句具体为所述源集群中存储的第一数据表的生成语句;
表格生成单元,用于执行所述建表语句,按照所述第一数据表的数据表格式生成第二数据表;
指令接收单元,用于接收数据迁移指令,所述数据迁移指令按照迁移调度表的配置参数生成;
指令运行单元,用于运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表。
根据本公开的第四方面,提供了一种数据迁移装置,包括:
参数获取单元,用于显示迁移调度页面,获取用户针对所述迁移调度页面输入的配置参数,获得所述配置参数对应的迁移调度表,所述配置参数包括数据迁移过程中涉及的参数;
语句控制单元,用于控制源集群将建表语句发送至目标集群,所述建表语句为所述源集群中存储的第一数据表的生成语句,所述建表语句用于指示所述目标集群按照所述第一数据表的数据表格式生成第二数据表;
指令生成单元,用于根据所述迁移调度表中的配置参数,生成数据迁移指令;
指令发送单元,用于发送所述数据迁移指令至所述目标集群,所述数据迁移指令指示所述目标集群将所述第一数据表中的数据迁移至所述第二数据表。
根据本公开的技术,目标集群可以响应于数据迁移请求,获取建表语句,建表语句可以为源集群中存储第一数据表的生成语句。实现从源集群中读取生成语句。目标集群获取到建表语句之后,可以执行建表语句,并按照第一数据表的数据表格式生成第二数据表。第二数据表的生成是基于建表语句的自动执行。接收到数据迁移指令之后,可以运行该数据迁移指令将第一数据表中的数据迁移至第二数据表中,数据迁移指令是通过迁移调度表自动生成的,不需要用户介入。同时,通过数据表的建立和表内数据的迁移,实现以数据表为单位的数据迁移,数据表可以直接用于数据的查询等处理逻辑,实现功能更全面的数据迁移,提高数据迁移成功率和效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的数据迁移方法的一个应用场景示例图;
图2是本公开实施例提供的一种数据迁移方法的一个实施例的流程图;
图3是本公开实施例提供的一种数据迁移方法的又一个实施例的流程图;
图4是本公开实施例提供的一种数据迁移方法的又一个实施例的流程图;
图5是本公开实施例提供的一种数据迁移装置的一个实施例的结构示意图;
图6是本公开实施例提供的一种数据迁移装置的又一个实施例的结构示意图;
图7是用来实现本公开实施例的数据迁移方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
首先,为了对数据迁移的示例充分介绍,下面将对涉及到的专业术语进行详细介绍。
Hadoop(分布式计算)是一个的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的性能进行高速运算和存储。Hadoop可以包含不同的版本。
Hive(蜂群)是一个基于Hadoop的一个数据仓库工具,可以用于数据提取、转化、加载,是一种可以在Hadoop中进行数据的存储、查询和分析存储的数据处理机制。Hive是封装于Hadoop上层的数据处理系统。
Impala(黑斑羚)是一个用于处理存储在Hadoop集群中的大量数据的MPP(Massively Parallel Processor,大规模并行处理)SQL(Structured Query Language,构化查询语言)查询引擎。可以针对已有的Hadoop数据编写SQL查询的方法。
HBase(Hadoop Database,分布式计算数据库),是一种构建在HDFS(HadoopDistributed File System,分布式文件系统)之上的分布式的、面向列的数据存储系统,可以实现实时读写、随机访问超大规模数据集等功能。Hbase是可以封装于Hadoop系统上层的数据处理系统。
Phoenix(凤凰)是一个用于分布式文件系统的开源SQL引擎。它的目标是通过一个嵌入的JDBC(Java Database connect,爪哇数据库连接)驱动对存储在HBase中的数据提供低延迟查询。Phoenix提供了HBase数据的读、写操作。本公开的技术方案可以应用于分布式数据存储系统的数据迁移场景中,通过获取源集群中的建表语句,还通过迁移调度表的设置自动完成数据迁移指令的生成,实现数据表迁移的自动执行,提高数据迁移成功率和效率。
现有技术中,分布式数据存储系统可以用于存储数据,分布式存储系统可以利用多个节点存储数据,多个节点可以称为集群。不同集群之间存在数据迁移、备份等需求。目前采用的集群间的数据迁移,一般是通过将存储数据的文件直接迁移到另一集群。
经过对两个分布式数据存储系统间的数据迁移过程分析,实际上数据是以数据表的方式存储的,分布式数据存储原理一般是,将一个数据表中的数据分开存储至不同的节点,因此一个数据表可以包括多个数据文件,在迁移数据文件之后,需要在数据文件的基础上建立数据表的查询逻辑,这一过程通常需要人工完成,是导致数据迁移效率低的主要原因。
为了解决上述问题,本公开实施例中,目标集群可以响应于数据迁移请求,获取建表语句,建表语句可以是存储于源集群中的第一数据表的生成语句,建表语句可以从数据表中读取获得。建表语句的获取,使数据表在目标集群中自动建立。通过执行建表语句实现按照第一数据表的数据表格式建立第二数据表,第二数据表建立之后可以开始数据的迁移。数据的迁移需要数据迁移指令,数据迁移指令可以接收获得,数据迁移指令可以是按照迁移调度表生成的,进而在运行数据迁移指令之后,可以将第一数据表中的数据迁移至第二数据表,实现以数据表为单位的数据自动化迁移。迁移后的第二数据表可以直接用于数据的查询等处理逻辑,实现功能更全面的数据迁移,提高数据迁移成功率和效率。
下面将结合附图对本公开的技术方案进行详细介绍。
参考图1,为本公开实施例提供的数据迁移方法的一个应用场景示例图。该场景中可以包括电子设备1,以及与电子设备1存在有线或者无线通信连接的目标集群2和源集群3。电子设备例如为计算机1,目标集群和源集群例如为云服务。源集群3中可以存储第一数据表和第一数据表的建表语句。电子设备1可以从源集群3中读取第一数据表的建表语句,并基于建表语句向目标集群2发起数据迁移请求。目标集群2可以响应于电子设备1发起的数据迁移请求,从源集群1获取建表语句。此外,可以在电子设备1中配置迁移调度表,迁移调度表包括数据迁移过程中涉及的配置参数。因此,电子设备1可以按照迁移调度表生成数据迁移指令,并将数据迁移指令发送至目标集群2。目标集群2可以接收数据迁移指令,并运行,将第一数据表中的数据迁移至第二数据表中,完成以数据表为单位的高效数据迁移。
图2为本公开实施例提供的一种数据迁移方法的一个实施例的流程图,该方法可以应用于目标集群中,该方法可以包括以下几个步骤:
201:响应于数据迁移请求,获取建表语句,建表语句具体为源集群中存储的第一数据表的生成语句。
其中,数据迁移请求可以由源集群发送,由目标集群接收。目标集群中可以包括处理步骤的中心节点。中心节点可以配置本公开的技术方案以完成数据的迁移。
可选地,步骤201可以包括:接收源集群发送的建表语句。
可选地,本公开的技术方案可以适用于大数据迁移领域,特别是基于Hadoop框架的分布式数据存储系统的大数据迁移,可以有效提升Hadoop下的大数据迁移效率。
202:执行建表语句,按照第一数据表的数据表格式生成第二数据表。
第二数据表的表格属性与第一数据表的表格属性相同。表格属性可以包括:标题、表名布局等属性。可选地,数据表可以以表名—取值的结构存储数据。第一数据表可以包括表名和各表名对应的键值。步骤202具体可以包括按照第一数据表的表名和表名结构生成第二数据表。此外,还可以通过第一数据表的表格属性生成第二数据表。当然,还可以通过第一数据表的表格属性和关键子,生成第二数据表。
203:接收数据迁移指令,数据迁移指令按照迁移调度表中的配置参数生成。
数据迁移指令可以为电子设备通过迁移调度表中的配置参数生成。
204:运行数据迁移指令,将第一数据表中的数据迁移至第二数据表。
可选地,数据迁移指令可以包括目标集群的IP地址、源集群的IP地址、目标集群的系统架构版本、目标集群的系统架构版本、带宽占用参数、迁移模式参数等多个配置参数。步骤204具体可以包括:将源集群中的第一数据表的数据迁移至目标集群的第二数据表,使得第二数据表中的数据可以与第一数据表中的数据相同。第一数据表可以包括多个,第二数据表可以和第一数据表一一对应。
可选地,步骤204具体可以包括:在源集群和目标集群满足迁移条件时,可以运行数据迁移指令,将第一数据表中的数据迁移至第二数据表。
进一步地,源集群和目标集群满足迁移条件,可以包括:目标集群机器都连通源集群所有节点的ip(Internet Protocol,网络之间互连的协议);确保源集群目录具有读权限;确定目标集群具有复制保存目录读写权限;确定源集群50070等端口的防火墙已开启;确定源集群的主机与ip映射关系设置到目标集群的hosts文件中的至少一个。
本公开实施例中,目标集群可以响应于数据迁移请求,获取建表语句,建表语句可以是存储于源集群中的第一数据表的生成语句,建表语句可以从数据表中读取获得。建表语句的获取,使数据表在目标集群中自动建立。通过执行建表语句实现按照第一数据表的数据表格式建立第二数据表,第二数据表建立之后可以开始数据的迁移。数据的迁移需要数据迁移指令,数据迁移指令可以接收获得,数据迁移指令可以是按照迁移调度表生成的,进而在运行数据迁移指令之后,可以将第一数据表中的数据迁移至第二数据表,实现以数据表为单位的数据自动化迁移。迁移后的第二数据表可以直接用于数据的查询等处理逻辑,实现功能更全面的数据迁移,提高数据迁移成功率和效率。
作为一个实施例,建表语句包括:第一建表语句,数据表格式包括第一表格格式;
执行建表语句,按照第一数据表的数据表格式生成第二数据,包括:
执行第一建表语句,按照第一表格格式生成第二数据表。
可选地,第一建表语句可以为hive建表语句,通过执行第一建表语句可以在Hive模式下生成第二数据表。
执行第一建表语句,在第一数据表的数据迁移到第二数据表之后,可以执行impala系统对应的数据查询指令。
本公开实施例中,可以通过执行第一建表语句按照第一表格格式生成第二数据表,使得第二数据表可以与第一数据表的表格格式相同,确保数据按照第一数据表的格式准确迁移。
作为又一个实施例,建表语句包括:第二建表语句和第三建表语句,数据表格式包括与第二建表语句对应的第二表格格式,和与第三建表语句对应的第三表格格式;
执行建表语句,按照第一数据表的数据表格式生成第二数据,包括:
执行第二建表语句,按照第二表格格式生成第一子数据表;
执行第三建表语句,按照第三表格格式生成第二子数据表;
根据第一子数据表和第二子数据表之间的表名表名对应关系,确定映射表;
确定映射表、第二子数据表和第一子数据表为第二数据表,第二数据表基于映射表和第一子数据表对第二子数据表中的数据执行数据处理操作。
源集群的第一数据表包含两种表格格式时,可以从源集群中获取两种建表语句,分别为第二建表语句和第三建表语句。第二子数据表可以为在第一子数据表的上一层建立的数据表。通过第一子数据表可以查询第二子数据表。第一子数据表可以为phoenix数据表,第二子数据表可以为Hbase数据表。表名对应关系可以指两个数据表中的数据的表名相同的对应关系。表名可以为数据表的独立表名,不包含其他前缀字符串及后缀字符串等字符。表名可以是通过英文字母、字符、符号等组合形成的字符串。
而为了实现通过phoenix数据表查询Hbase数据表,可以建立phoenix数据表的表名和HBase数据表的表名之间的映射关系,以通过该映射关系实现查询。映射表即为第一子数据表的表名和第二子数据表的表名之间的映射关系。例如,假设第二子数据表的表名为A、B、C,而第一子数据表的表名为P-A、P-B和P-C,其中,表名A和P-A存在对应关系,表名B和P-B存在对应关系,表名C和P-C存在表名对应关系,也即表名A和P-A存在相同的表名A,表名B和P-B存在相同的表名B,表名C和P-C存在相同的表名C,因此可以建立包含表名A和P-A、表名B和P-B和表名C和P-C的映射表。当然,以上映射关系仅仅是示例性的,在实际应用中可以存在嵌套映射,也即表名可以映射多级连接的表名。
本公开实施例中,可以在存在第二建表语句和第三建表语句时,可以分别执行以实现第一子数据表和第二子数据表的建立,同时,通过建立第一子数据表和第二子数据表的关键词之间的对应关系,获得映射表,以利用映射表实现,基于第一子数据表到第二子数据表的数据处理操作,实现存在映射关联的第二数据表的建立,提高数据表的建立效率和准确性。
进一步地,在上述实施例的基础上,配置参数包括源集群的系统框架版本和目标集群的系统框架版本,接收数据迁移指令,包括:
若目标集群的系统框架版本和源集群的系统框架版本相同,则确定第一迁移标识对应的数据迁移指令,第一迁移标识用于指示相同版本之间的数据迁移;
若目标集群的系统框架版本和源集群的系统框架版本不同,则确定第二迁移标识对应的数据迁移指令,第二迁移标识用于指示不同版本之间的数据迁移。
可选地,系统框架版本可以指目标集群建立时所使用的分布式数据存储系统的框架版本。以Hadoop为例,相同Hadoop版本间的第一迁移标识可以为hdfs,不同Hadoop版本间的第二迁移标识可以为hftp。
为了便于理解,对于相同版本的数据迁移指令,数据迁移指令例如可以为:
Hadoop distcp hdfs://IP1:9000/……/A1/hdfs://IP2/……/B1/。其中,源集群的迁移标识为hdfs,IP1为源集群的namenode(名字节点)网络地址,IP2为目标集群的namenode网络地址。9000为源集群的rpc端口,通过9000端口读取源集群的数据。A1为第一数据表的目录。B1为第二数据表的目录。
对于不同版本的数据迁移指令,例如从hadoop 2.6.0拷贝数据到hadoop 2.7.1,数据迁移指令例如可以为:
hadoop distcp hftp://IP1:50070/……/A1/hdfs://IP2/……/B1/。其中,源集群的迁移标识为hftp,IP1为源集群的namenode网络地址,IP2为目标集群的namenode网络地址。50070为源集群的rpc端口,通过50070端口读取数据。A1为第一数据表的目录。B1为第二数据表的目录。
此外,在实际应用中,数据迁移指令中还可以包括其他参数,例如迁移模式参数、宽带占用指数等,具体可以参考相关技术的描述,在此不再赘述。
本公开实施例中,可以对目标集群的系统框架版本和源集群的系统框架版本进行比较,在版本相同时,可以通过第一迁移标识生成数据迁移指令。在版本不同时,可以通过第二迁移标识生成数据迁移指令。通过第一迁移标识和第二迁移标识两个不同的迁移标识对不同系统框架版本的迁移指令进行区分,使得目标集群能够区分不同版本比较结果的数据迁移,提高迁移的准确性。
作为又一个实施例,配置参数包括:带宽占用参数;运行数据迁移指令,将第一数据表中的数据迁移至第二数据表,包括:
运行数据迁移指令,按照带宽占用参数指示的数据传输速率,将第一数据表中的数据迁移至第二数据表。
可选地,带宽占用参数的取值可以指数据迁移过程中所占用的带宽,具体可以指数据传输速率。在第一数据表的数据迁移至第二数据表时,传输速率小于或等于数据传输带宽。
本实施例中,在运行数据迁移指令之后,可以基于数据迁移指令中的带宽占用参数所指示的数据传输速率对数据迁移过程进行限流,确保数据迁移过程中不占用过多带宽,确保数据传输安全性。
进一步,在上述实施例的基础上,配置参数包括:迁移模式参数,运行数据迁移指令,将第一数据表中的数据迁移至第二数据表,包括:
运行数据迁移指令,按照迁移模式参数指示的数据迁移模式,将第一数据表中的数据迁移至第二数据表。
可选地,数据迁移模式可以包括:全量迁移模式或者增量迁移模式。
全量迁移模式可以指将第一数据表中的数据一次性的全量迁移至第二数据表中。
本公开实施例中,可以通过迁移模式参数指示数据迁移模式,以在数据迁移过程中,按照数据迁移模式将第一数据表中的数据迁移至第二数据表,实现数据的模式迁移,提高数据迁移效率和准确性。
作为又一个实施例,运行数据迁移指令,将第一数据表中的数据迁移至第二数据表,包括:
运行数据迁移指令,生成数据迁移任务;
通过数据迁移任务,将第一数据表中的数据迁移至第二数据表;
方法还包括:
检测数据迁移任务的迁移状态,迁移状态包括迁移中或者已完成;
若确定迁移状态为已完成,则输出数据迁移成功的反馈信息。
本公开实施例中,在运行数据迁移指令时,可以生成数据迁移任务,通过数据迁移任务,将第一数据表中的数据迁移至第二数据表。在数据迁移过程中实时对迁移任务的迁移状态检测,在迁移状态为已完成,可以输出数据迁移成功的反馈信息。通过对数据迁移任务的迁移状态的检测,实现对数据迁移任务的时效性检测,提高用户体验。
作为又一个实施例,运行数据迁移指令,将第一数据表中的数据迁移至第二数据表之后,还包括:
确定针对第二数据表的数据查询指令;
利用数据查询指令,执行第二数据表的查询操作,获得查询结果;
若查询结果为数据查询成功,则输出第二数据表迁移成功的提示信息;
若查询结果为数据查询失败,则输出第二数据表迁移失败的提示信息。
本公开实施例中,可以确定针对第二数据表的数据查询指令,通过数据查询指令对第二数据表进行查询测试,以利用查询结果对第二数据表的可用性进行验证。通过第二数据表的查询验证可以对第二数据表的迁移效果进行提示,提高数据表的迁移有效性。
以Hadoop框架对应的分布式数据存储系统为例,对本公开的技术方案进行详细描述。如图3所示,为本公开实施例提供的数据迁移方法的系统应用示例图。该方法可以包括以下几个步骤:
S301:电子设备响应于集群调度请求,获取迁移调度表,迁移调度表包括数据迁移过程中涉及的配置参数。
S302:电子设备从Hive和Hbase中选择第一数据表的数据类型。
S303:电子设备确定若第一数据表为hive类型,则控制目标集群通过第一查看指令,获取第一数据表的第一建表语句。
S304:目标集群执行第一建表语句,按照第一表格格式生成第二数据表。第一表格格式为hive模式。
S305:电子设备确定若第一数据表为Hbase类型,则控制目标集群通过第一读取指令,获取第二建表语句,第二建表语句包括Hbase建表语句;控制目标集群通过第二读取指令,获取第三建表语句,第三建表语句包括phoenix建表语句。
S306:目标集群执行第二建表语句,按照第二表格格式生成第一子数据表;执行第三建表语句,按照第三表格格式生成第二子数据表。第一子数据表为Hbase数据表,第二子数据表为phoenix数据表。
S307:根据第一子数据表和第二子数据表之间的表名表名对应关系,确定映射表;确定映射表、第二子数据表和第一子数据表为第二数据表,第二数据表基于映射表和第一子数据表对第二子数据表中的数据执行数据处理操作。映射表可以为Hbase数据表的表名和phoenix数据表的表名之间的映射。
执行第一建表语句,在第一数据表的数据迁移到第二数据表之后,可以更新Hbase数据表的元数据信息和分区信息。
S308:电子设备根据迁移调度表中的配置参数,生成数据迁移指令。
S309:电子设备将数据迁移指令发送至目标集群,目标集群将第一数据表中的数据迁移至第二数据表。
本公开的技术方案,通过电子设备、源集群和目标集群的交互,可以实现从源集群中拷贝第一数据表的建表语句,通过建表语句完成与第一数据表相同数据表格式的第二数据表的建立。之后,通过迁移调度表中的迁移数据生成数据迁移指令,利用数据迁移指令的执行实现从第一数据表的数据到第二数据表的迁移,获得迁移完成的第二数据表。通过数据表的建立和表内数据的迁移,实现以数据表为单位的数据迁移,数据表可以直接用于数据的查询等处理逻辑,实现功能更全面的数据迁移,提高数据迁移成功率和效率。
如图4所示,为本公开实施例提供的一种数据迁移方法的一个实施例的流程图,应用于电子设备,方法包括:
401:显示迁移调度页面,获取用户针对迁移调度页面输入的配置参数,获得配置参数对应的迁移调度表,配置参数包括数据迁移过程中涉及的参数。
可选地,获取迁移调度表可以包括:检测用户针对迁移调度页面执行的输入操作,获得用户输入的配置参数,获得配置参数对应的迁移调度表。
可选地,迁移调度页面可以为针对数据迁移调度设置的页面。通过数据迁移调度页面可以展示多个参数输入控件,参数输入控件例如可以为文本控件、选择控件等。参数输入控件对应相应的调度参数。
调度参数例如可以包括:源集群的IP(Internet Protocol Address,互联网协议)地址、目标集群的IP地址、源集群系统框架版本、目标集群系统框架版本、源集群所在数据源、数据表名称、全量/增量迁移模式、带宽占用参数(带宽限流值)等参数中的至少一个。
402:控制源集群将建表语句发送至目标集群,建表语句为源集群中存储的第一数据表的生成语句,建表语句用于指示目标集群按照第一数据表的数据表格式生成第二数据表。
控制源集群将建表语句发送至目标集群可以包括:发送建表语句发送指令至源集群,发送建表语句接收指令至目标集群。源集群基于语句发送指令,发送建表语句至目标集群。目标集群基于语句接收指令接收建表语句。当然,还可以直接发送读取指令或查看指令至目标集群,使得目标集群通过读取指令或查看指令从源集群获取建表语句。
可选地,在数据处理系统为hive系统时,步骤402可以包括:控制目标集群通过第一查看指令,获取第一数据表的第一建表语句,第一表格格式包括:hive模式下的数据表格式。
可选地,在数据处理系统为Hbase系统时,系统402可以包括:控制目标集群通过第一读取指令,获取第二建表语句,第二建表语句包括Hbase建表语句;控制目标集群通过第二读取指令,获取第三建表语句,第三建表语句包括phoenix建表语句。
Hbase系统可以配置Hbase模式下的数据表和phoenix模式下的数据表。可以通过phoenix模式的数据表查询Hbase模式下的数据表,但是需要建立phoenix数据表和Hbase数据表的表名或者表名之间的映射。
电子设备可以生成数据迁移请求,并将数据迁移请求发送至目标集群。目标集群可以接收数据迁移请求,并响应于数据迁移请求,获取建表语句。
403:根据迁移调度表中的配置参数,生成数据迁移指令。
可选地,步骤404可以包括:根据迁移调度表中目标集群的IP地址、源集群的IP地址、目标集群的系统架构版本、目标集群的系统架构版本、带宽占用参数、迁移模式参数等多个配置参数,进行distcp命令封装,获得数据迁移指令。也即,数据迁移指令可以包括多个配置参数封装的distcp命令。
其中,迁移模式参数可以用于指示数据迁移模式,数据迁移模式可以包括:全量迁移模式或者增量迁移模式,不同数据迁移模式可以使用不同模式标识进行标记。迁移模式参数可以取值为任一个数据迁移模式对应的模式标识。迁移模式参数可以根据使用需求具体设置。
404:发送数据迁移指令至目标集群,数据迁移指令指示目标集群将第一数据表中的数据迁移至第二数据表。
本公开实施例中,可以响应于集群调度请求,获取迁移调度表,迁移调度表中可以包括数据迁移过程中涉及到的配置参数。控制源集群将建表语句发送至目标集群,并通过建表语句指示目标集群按照第一数据表的数据格式生成第二数据表,实现第二数据表的自动生成。第二数据表生成之后,可以按照迁移调度表生成数据迁移指令,将数据迁移指令发送至目标集群中,可以在目标集群中运行该数据迁移指令将第一数据表中的数据迁移至第二数据表中,数据迁移指令是通过迁移调度表自动生成的,不需要用户介入。同时,通过数据表的建立和表内数据的迁移,实现以数据表为单位的数据迁移,数据表可以直接用于数据的查询等处理逻辑,实现功能更全面的数据迁移,提高数据迁移成功率和效率。
如图5所示,为本公开实施例提供的一种数据迁移装置的一个实施例的结构示意图,该装置可以配置于目标集群中,该数据迁移装置500可以包括:
语句获取单元501:用于响应于数据迁移请求,获取建表语句,建表语句具体为源集群中存储的第一数据表的生成语句。
表格生成单元502:用于执行建表语句,按照第一数据表的数据表格式生成第二数据表。
指令接收单元503:用于接收数据迁移指令,数据迁移指令按照迁移调度表的配置参数生成。
指令运行单元504:用于运行数据迁移指令,将第一数据表中的数据迁移至第二数据表。
作为一个实施例,建表语句包括:第一建表语句,数据表格式包括第一表格格式。表格生成单元502,可以包括:
第一生成模块,用于执行第一建表语句,按照第一表格格式生成第二数据表。
作为一个实施例,建表语句包括:第二建表语句和第三建表语句,数据表格式包括与第二建表语句对应的第二表格格式,和与第三建表语句对应的第三表格格式。表格生成单元,包括:
第二生成模块,用于执行第二建表语句,按照第二表格格式生成第一子数据表;
第三生成模块,用于执行第三建表语句,按照第三表格格式生成第二子数据表;
映射建立模块,用于根据第一子数据表和第二子数据表之间的表名表名对应关系,确定映射表;
表格确定模块,用于确定映射表、第二子数据表和第一子数据表为第二数据表,第二数据表基于映射表和第一子数据表对第二子数据表中的数据执行数据处理操作。
作为又一个实施例,配置参数包括源集群的系统框架版本和目标集群的系统框架版本。指令接收单元503可以包括:
第一接收单元,用于若目标集群的系统框架版本和源集群的系统框架版本相同,则确定第一迁移标识对应的数据迁移指令,第一迁移标识用于指示相同版本之间的数据迁移;
第二接收单元,用于若目标集群的系统框架版本和源集群的系统框架版本不同,则确定第二迁移标识对应的数据迁移指令,第二迁移标识用于指示不同版本之间的数据迁移。
作为又一个实施例,配置参数包括:带宽占用参数;指令运行单元504可以包括:
第一运行模块,用于运行数据迁移指令,按照带宽占用参数指示的数据传输速率,将第一数据表中的数据迁移至第二数据表。
作为又一个实施例,指令运行单元504可以包括:
任务建立模块,用于运行数据迁移指令,生成数据迁移任务;
任务执行模块,用于通过数据迁移任务,将第一数据表中的数据迁移至第二数据表;
装置还包括:
状态检测单元,用于检测数据迁移任务的迁移状态,迁移状态包括迁移中或者已完成;
状态提示单元,用于若确定迁移状态为已完成,则输出数据迁移成功的反馈信息。
作为又一个实施例,还包括:
查询指令单元,用于确定针对第二数据表的数据查询指令;
数据查询单元,用于利用数据查询指令,执行第二数据表的查询操作,获得查询结果;
第一提示单元,用于若查询结果为数据查询成功,则输出第二数据表迁移成功的提示信息;
第二提示单元,用于若查询结果为数据查询失败,则输出第二数据表迁移失败的提示信息。
如图6所示,为本公开实施例提供的一种数据迁移装置的一个实施例的结构示意图,该装置600可以配置于电子设备中,该装置可以包括:
参数获取单元601:用于显示迁移调度页面,获取用户针对迁移调度页面输入的配置参数,获得配置参数对应的迁移调度表,配置参数包括数据迁移过程中涉及的参数;
语句控制单元602:用于控制源集群将建表语句发送至目标集群,建表语句为源集群中存储的第一数据表的生成语句,建表语句用于指示目标集群按照第一数据表的数据表格式生成第二数据表;
指令生成单元603:用于根据迁移调度表中的配置参数,生成数据迁移指令;
指令发送单元604:用于发送数据迁移指令至目标集群,数据迁移指令指示目标集群将第一数据表中的数据迁移至第二数据表。
本公开实施例中的步骤可以执行上述实施例中所示的数据迁移方法,关于各单元、模块所执行的具体内容可以参考方法的描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。本公开实施例涉及的控制设备或者测试设备均可以为电子设备,关于电子设备的具体类型在此并不作出过多限定,例如可以包括计算机、服务器、云服务器等。
根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
前述实施例中的控制设备或者测试设备的设备结构可以为图7所示的电子设备。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如数据迁移方法。例如,在一些实施例中,数据迁移方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的数据迁移方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据迁移方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种数据迁移方法,其特征在于,包括:
响应于数据迁移请求,获取建表语句,所述建表语句具体为源集群中存储的第一数据表的生成语句;
执行所述建表语句,按照所述第一数据表的数据表格式生成第二数据表;
接收数据迁移指令,所述数据迁移指令按照迁移调度表中的配置参数生成;
运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表。
2.根据权利要求1所述的方法,其特征在于,所述建表语句包括:第一建表语句,所述数据表格式包括第一表格格式;
所述执行所述建表语句,按照所述第一数据表的数据表格式生成第二数据,包括:
执行所述第一建表语句,按照所述第一表格格式生成所述第二数据表。
3.根据权利要求1所述的方法,其特征在于,所述建表语句包括:第二建表语句和第三建表语句,所述数据表格式包括与所述第二建表语句对应的第二表格格式,和与所述第三建表语句对应的第三表格格式;
所述执行所述建表语句,按照所述第一数据表的数据表格式生成第二数据,包括:
执行所述第二建表语句,按照所述第二表格格式生成第一子数据表;
执行所述第三建表语句,按照所述第三表格格式生成第二子数据表;
根据所述第一子数据表和所述第二子数据表之间的表名对应关系,确定映射表;
确定所述映射表、所述第二子数据表和所述第一子数据表为所述第二数据表,所述第二数据表基于所述映射表和所述第一子数据表对所述第二子数据表中的数据执行数据处理操作。
4.根据权利要求1所述的方法,其特征在于,所述配置参数包括所述源集群的系统框架版本和目标集群的系统框架版本,所述接收数据迁移指令,包括:
若所述目标集群的系统框架版本和所述源集群的系统框架版本相同,则确定第一迁移标识对应的数据迁移指令,所述第一迁移标识用于指示相同版本之间的数据迁移;
若所述目标集群的系统框架版本和所述源集群的系统框架版本不同,则确定第二迁移标识对应的数据迁移指令,所述第二迁移标识用于指示不同版本之间的数据迁移。
5.根据权利要求1所述的方法,其特征在于,所述配置参数包括:带宽占用参数;所述运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表,包括:
运行所述数据迁移指令,按照所述带宽占用参数指示的数据传输速率,将所述第一数据表中的数据迁移至所述第二数据表。
6.根据权利要求1所述的方法,其特征在于,所述运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表,包括:
运行所述数据迁移指令,生成数据迁移任务;
通过所述数据迁移任务,将所述第一数据表中的数据迁移至所述第二数据表;
所述方法还包括:
检测所述数据迁移任务的迁移状态,所述迁移状态包括迁移中或者已完成;
若确定所述迁移状态为已完成,则输出数据迁移成功的反馈信息。
7.根据权利要求1所述的方法,其特征在于,所述运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表之后,还包括:
确定针对所述第二数据表的数据查询指令;
利用所述数据查询指令,执行所述第二数据表的查询操作,获得查询结果;
若所述查询结果为数据查询成功,则输出所述第二数据表迁移成功的提示信息;
若所述查询结果为数据查询失败,则输出所述第二数据表迁移失败的提示信息。
8.一种数据迁移方法,其特征在于,包括:
显示迁移调度页面,获取用户针对所述迁移调度页面输入的配置参数,获得所述配置参数对应的迁移调度表,所述配置参数包括数据迁移过程中涉及的参数;
控制源集群将建表语句发送至目标集群,所述建表语句为所述源集群中存储的第一数据表的生成语句,所述建表语句用于指示所述目标集群按照所述第一数据表的数据表格式生成第二数据表;
根据所述迁移调度表中的配置参数,生成数据迁移指令;
发送所述数据迁移指令至所述目标集群,所述数据迁移指令指示所述目标集群将所述第一数据表中的数据迁移至所述第二数据表。
9.一种数据迁移装置,其特征在于,包括:
语句获取单元,用于响应于数据迁移请求,获取建表语句,所述建表语句具体为源集群中存储的第一数据表的生成语句;
表格生成单元,用于执行所述建表语句,按照所述第一数据表的数据表格式生成第二数据表;
指令接收单元,用于接收数据迁移指令,所述数据迁移指令按照迁移调度表的配置参数生成;
指令运行单元,用于运行所述数据迁移指令,将所述第一数据表中的数据迁移至所述第二数据表。
10.一种数据迁移装置,其特征在于,包括:
参数获取单元,用于显示迁移调度页面,获取用户针对所述迁移调度页面输入的配置参数,获得所述配置参数对应的迁移调度表,所述配置参数包括数据迁移过程中涉及的参数;
语句控制单元,用于控制源集群将建表语句发送至目标集群,所述建表语句为所述源集群中存储的第一数据表的生成语句,所述建表语句用于指示所述目标集群按照所述第一数据表的数据表格式生成第二数据表;
指令生成单元,用于根据所述迁移调度表中的配置参数,生成数据迁移指令;
指令发送单元,用于发送所述数据迁移指令至所述目标集群,所述数据迁移指令指示所述目标集群将所述第一数据表中的数据迁移至所述第二数据表。
CN202211530103.XA 2022-11-30 2022-11-30 数据迁移方法及装置 Pending CN115729888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211530103.XA CN115729888A (zh) 2022-11-30 2022-11-30 数据迁移方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211530103.XA CN115729888A (zh) 2022-11-30 2022-11-30 数据迁移方法及装置

Publications (1)

Publication Number Publication Date
CN115729888A true CN115729888A (zh) 2023-03-03

Family

ID=85299735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211530103.XA Pending CN115729888A (zh) 2022-11-30 2022-11-30 数据迁移方法及装置

Country Status (1)

Country Link
CN (1) CN115729888A (zh)

Similar Documents

Publication Publication Date Title
US9292479B2 (en) Providing an electronic document collection
CN106909597B (zh) 一种数据库迁移方法和装置
US20080104080A1 (en) Method and apparatus to access heterogeneous configuration management database repositories
CN110781505B (zh) 系统构建方法及装置、检索方法及装置、介质和设备
WO2020020202A1 (zh) 应用程序的账号管理方法、装置、设备和介质
US20230101774A1 (en) Techniques for performing clipboard-to-file paste operations
CN114116682A (zh) 卫星遥测数据的迁移方法、装置、系统、设备及介质
CN108959294B (zh) 一种访问搜索引擎的方法和装置
US20200104391A1 (en) Ensuring integrity of records in a not only structured query language database
WO2021232860A1 (zh) 通信方法、装置及系统
JP2021505989A (ja) エラー・ハンドリングのための方法、コンピュータ・プログラム、データ処理システム、およびエラー・ハンドリング・コンポーネント
CN115729888A (zh) 数据迁移方法及装置
US20230153300A1 (en) Building cross table index in relational database
JP2021513137A (ja) 階層型ストレージ管理システムにおけるデータ・マイグレーション
US11178216B2 (en) Generating client applications from service model descriptions
JP2022058737A (ja) データアクセス方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20170364293A1 (en) Method and apparatus for data processing
CN111581173B (zh) 日志系统分布式存储的方法、装置、服务器及存储介质
US11074244B1 (en) Transactional range delete in distributed databases
CN113064987A (zh) 数据处理方法、装置、电子设备、介质和程序产品
CN111782834A (zh) 图像检索的方法、装置、设备及计算机可读存储介质
US7849176B1 (en) Methods and apparatus for rendering messages
US20140074869A1 (en) Autoclassifying compound documents for enhanced metadata search
KR102676402B1 (ko) 이더리움 가상머신의 트랜잭션 처리 방법, 장치, 설비, 프로그램 및 매체
US10606939B2 (en) Applying matching data transformation information based on a user's editing of data within a document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination