CN112231375A - 一种Sqoop集成多版本HBase的方法及装置 - Google Patents

一种Sqoop集成多版本HBase的方法及装置 Download PDF

Info

Publication number
CN112231375A
CN112231375A CN202010990164.9A CN202010990164A CN112231375A CN 112231375 A CN112231375 A CN 112231375A CN 202010990164 A CN202010990164 A CN 202010990164A CN 112231375 A CN112231375 A CN 112231375A
Authority
CN
China
Prior art keywords
hbase
sqoop
mapreduce
version
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010990164.9A
Other languages
English (en)
Other versions
CN112231375B (zh
Inventor
陶钰昕
秦正
何金彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010990164.9A priority Critical patent/CN112231375B/zh
Publication of CN112231375A publication Critical patent/CN112231375A/zh
Application granted granted Critical
Publication of CN112231375B publication Critical patent/CN112231375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种Sqoop集成多版本HBase的方法及装置,所述方法步骤如下:Sqoop‑HBase参数解析模块获取Sqoop命令参数,解析出HBase参数信息;HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;Sqoop‑MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;MapReduce作业提交模块将Mapreduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理。

Description

一种Sqoop集成多版本HBase的方法及装置
技术领域
本发明属于Sqoop组件改进技术领域,具体涉及一种Sqoop集成多版本HBase的方法及装置。
背景技术
Sqoop,是一种在Hadoop与关系数据库之间传输数据的工具。
RDBMS,是关系数据库管理系统。
Hbase,ApacheHBase是一个开放源,分布式,版本化,非关系型数据库,其仿照Google的Bigtable-结构化数据的分布式存储系统。
使用Sqoop可以将数据从MySQL或Oracle等关系数据库管理系统(RDBMS)导入Hadoop分布式文件系统(HDFS),或者从Hadoop分布式文件系统(HDFS)导出数据到关系型数据库,例如MySQL。Sqoop使用HadoopMapReduce进行数据的抽取与加载。
HBase是Apache开源的建立在Hadoop文件系统之上的分布式面向列的数据库,是可横向扩展的。HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。HBase提供对数据的随机实时读/写访问,是Hadoop文件系统的一部分。用户可以直接或通过HBase存储HDFS数据。使用HBase在HDFS读取消费/随机访问数据。HBase在Hadoop的文件系统之上,并提供了读写访问。
现有HBase常用版本为HBase2.x版本,目前Sqoop组件适用于生产环境的最高版本,无法完全支持HBase2.x版本的全部功能。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种Sqoop集成多版本HBase的方法及装置,是非常有必要的。
发明内容
针对现有技术的上述目前Sqoop组件适用于生产环境的最高版本,无法完全支持HBase2.x版本的全部功能的缺陷,本发明提供一种Sqoop集成多版本HBase的方法及装置,以解决上述技术问题。
第一方面,本发明提供一种Sqoop集成多版本HBase的方法,包括如下步骤:
S1.创建Sqoop-HBase参数解析模块,Sqoop-HBase参数解析模块获取Sqoop命令参数,从Sqoop命令参数中解析出HBase参数信息;
S2.创建HBase版本选择模块,HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;
S3.更新Sqoop-MapReduce作业生成模块,Sqoop-MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;
S4.更新MapReduce作业提交模块,MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理。
进一步地,步骤S1具体步骤如下:
S11.创建Sqoop-HBase参数解析模块;
S12.获取用户使用Sqoop组件编写导入数据到HBase的Sqoop命令脚本;
S13.Sqoop-HBase参数解析模块将Sqoop命令脚本保存到shell文件中,生成shell脚本文件;
S14.Sqoop-HBase参数解析模块从shell脚本文件中读取Sqoop可识别的与HBase相关的HBase参数信息,并将HBase参数信息提取出来发送给HBase版本选择模块。
进一步地,步骤S2具体步骤如下:
S21.创建HBase版本选择模块;
S22.HBase版本选择模块从HBase参数信息选择Sqoop要连接的HBase版本;
S23.HBase版本选择模块根据Sqoop要连接的HBase版本确定对应HBase版本的MapReduce导入参数及策略,并将对应HBase版本的MapReduce导入参数及策略发送给Sqoop-MapReduce作业生成模块。
进一步地,步骤S3具体步骤如下:
S31.更新Sqoop-MapReduce作业生成模块;
S32.Sqoop-MapReduce作业生成模块从Sqoop命令参数中解析出Sqoop可识别的与HBase无关的MapReduce导入参数及策略;
S33.Sqoop-MapReduce作业生成模块将HBase版本的MapReduce导入参数及策略同与HBase无关的MapReduce导入参数及策略合并,生成MapReduce作业文件,发送给MapReduce作业提交模块。
进一步地,步骤S4具体步骤如下:
S41.更新MapReduce作业提交模块;
S42.MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别的jar包文件格式,提交给MapReduce集群运行处理。
第二方面,本发明提供一种Sqoop集成多版本HBase的装置,包括:
Sqoop-HBase参数解析模块创建单元,用于创建Sqoop-HBase参数解析模块,Sqoop-HBase参数解析模块获取Sqoop命令参数,从Sqoop命令参数中解析出HBase参数信息;
HBase版本选择模块创建单元,用于创建HBase版本选择模块,HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;
Sqoop-MapReduce作业生成模块更新单元,用于更新Sqoop-MapReduce作业生成模块,Sqoop-MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;
MapReduce作业提交模块更新单元,用于更新MapReduce作业提交模块,MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理。
进一步地,Sqoop-HBase参数解析模块创建单元包括:
Sqoop-HBase参数解析模块创建子单元,用于创建Sqoop-HBase参数解析模块;
Sqoop命令脚本获取子单元,用于获取用户使用Sqoop组件编写导入数据到HBase的Sqoop命令脚本;
shell脚本文件生成子单元,用于设置Sqoop-HBase参数解析模块将Sqoop命令脚本保存到shell文件中,生成shell脚本文件;
HBase参数信息提取子单元,用于设置Sqoop-HBase参数解析模块从shell脚本文件中读取Sqoop可识别的与HBase相关的HBase参数信息,并将HBase参数信息提取出来发送给HBase版本选择模块。
进一步地,HBase版本选择模块创建单元包括:
HBase版本选择模块创建子单元,用于创建HBase版本选择模块;
HBase版本选择子单元,用于设置HBase版本选择模块从HBase参数信息选择Sqoop要连接的HBase版本;
MapReduce导入参数及策略确定子单元,用于设置HBase版本选择模块根据Sqoop要连接的HBase版本确定对应HBase版本的MapReduce导入参数及策略,并将对应HBase版本的MapReduce导入参数及策略发送给Sqoop-MapReduce作业生成模块。
进一步地,Sqoop-MapReduce作业生成模块更新单元包括:
Sqoop-MapReduce作业生成模块更新子单元,用于更新Sqoop-MapReduce作业生成模块;
HBase无关的MapReduce导入参数及策略识别子单元,用于设置Sqoop-MapReduce作业生成模块从Sqoop命令参数中解析出Sqoop可识别的与HBase无关的MapReduce导入参数及策略;
MapReduce作业文件生成子单元,用于设置Sqoop-MapReduce作业生成模块将HBase版本的MapReduce导入参数及策略同与HBase无关的MapReduce导入参数及策略合并,生成MapReduc作业文件,发送给MapReduce作业提交模块。
进一步地,MapReduce作业提交模块更新单元包括:
MapReduc作业提交模块更新子单元,用于更新MapReduce作业提交模块;
MapReduce作业文件打包子单元,用于设置MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别的jar包文件格式,提交给MapReduce集群运行处理。
本发明的有益效果在于,
本发明提供的Sqoop集成多版本HBase的方法及装置,通过设置Sqoop-HBase参数解析模块和HBase版本选择模块,对Sqoop组件进行改造,实现Sqoop对HBase多版本功能的支持,保留Sqoop对HBase1.x版本的支持的同时,还支持HBase2.x版本的全部功能。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程示意图一;
图2是本发明的方法流程示意图二;
图3是本发明的系统示意图;
图中,1-Sqoop-HBase参数解析模块创建单元;1.1-Sqoop-HBase参数解析模块创建子单元;1.2-Sqoop命令脚本获取子单元;1.3-shell脚本文件生成子单元;1.4-HBase参数信息提取子单元;2-HBase版本选择模块创建单元;2.1-HBase版本选择模块创建子单元;2.2-HBase版本选择子单元;2.3-MapReduce导入参数及策略确定子单元;3-Sqoop-MapReduce作业生成模块更新单元;3.1-Sqoop-MapReduce作业生成模块更新子单元;3.2-HBase无关的MapReduce导入参数及策略识别子单元;3.3-MapReduce作业文件生成子单元;4-MapReduce作业提交模块更新单元;4.1-MapReduce作业提交模块更新子单元;4.2-MapReduce作业文件打包子单元。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:
如图1所示,本发明提供一种Sqoop集成多版本HBase的方法,包括如下步骤:
S1.创建Sqoop-HBase参数解析模块,Sqoop-HBase参数解析模块获取Sqoop命令参数,从Sqoop命令参数中解析出HBase参数信息;
S2.创建HBase版本选择模块,HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;
S3.更新Sqoop-MapReduce作业生成模块,Sqoop-MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;
S4.更新MapReduce作业提交模块,MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理。
实施例2:
如图2所示,本发明提供一种Sqoop集成多版本HBase的方法,包括如下步骤:
S1.创建Sqoop-HBase参数解析模块,Sqoop-HBase参数解析模块获取Sqoop命令参数,从Sqoop命令参数中解析出HBase参数信息;具体步骤如下:
S11.创建Sqoop-HBase参数解析模块;
S12.获取用户使用Sqoop组件编写导入数据到HBase的Sqoop命令脚本;
S13.Sqoop-HBase参数解析模块将Sqoop命令脚本保存到shell文件中,生成shell脚本文件;
S14.Sqoop-HBase参数解析模块从shell脚本文件中读取Sqoop可识别的与HBase相关的HBase参数信息,并将HBase参数信息提取出来发送给HBase版本选择模块;例如,Sqoop命令参数中的hbase-table,column-family,hbase-create-table参数均为HBase相关的HBase参数信息;
S2.创建HBase版本选择模块,HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;具体步骤如下:
S21.创建HBase版本选择模块;
S22.HBase版本选择模块从HBase参数信息选择Sqoop要连接的HBase版本;
S23.HBase版本选择模块根据Sqoop要连接的HBase版本确定对应HBase版本的MapReduce导入参数及策略,并将对应HBase版本的MapReduce导入参数及策略发送给Sqoop-MapReduce作业生成模块;例如,HBase1.x版本中新建HBase表的函数方法是HBaseAdmin.createTable()方法,而HBase2.x版本中新建HBase表的函数方法是Admin.createTable()方法;
S3.更新Sqoop-MapReduce作业生成模块,Sqoop-MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;具体步骤如下:
S31.更新Sqoop-MapReduce作业生成模块;
S32.Sqoop-MapReduce作业生成模块从Sqoop命令参数中解析出Sqoop可识别的与HBase无关的MapReduce导入参数及策略;
S33.Sqoop-MapReduce作业生成模块将HBase版本的MapReduce导入参数及策略同与HBase无关的MapReduce导入参数及策略合并,生成MapReduce作业文件,发送给MapReduce作业提交模块;
S4.更新MapReduce作业提交模块,MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理;具体步骤如下:
S41.更新MapReduce作业提交模块;
S42.MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别的jar包文件格式,提交给MapReduce集群运行处理。
实施例3:
如图3所示,本发明提供一种Sqoop集成多版本HBase的装置,包括:
Sqoop-HBase参数解析模块创建单元1,用于创建Sqoop-HBase参数解析模块,Sqoop-HBase参数解析模块获取Sqoop命令参数,从Sqoop命令参数中解析出HBase参数信息;Sqoop-HBase参数解析模块创建单元1包括:
Sqoop-HBase参数解析模块创建子单元1.1,用于创建Sqoop-HBase参数解析模块;
Sqoop命令脚本获取子单元1.2,用于获取用户使用Sqoop组件编写导入数据到HBase的Sqoop命令脚本;
shell脚本文件生成子单元1.3,用于设置Sqoop-HBase参数解析模块将Sqoop命令脚本保存到shell文件中,生成shell脚本文件;
HBase参数信息提取子单元1.4,用于设置Sqoop-HBase参数解析模块从shell脚本文件中读取Sqoop可识别的与HBase相关的HBase参数信息,并将HBase参数信息提取出来发送给HBase版本选择模块;
HBase版本选择模块创建单元2,用于创建HBase版本选择模块,HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;HBase版本选择模块创建单元2包括:
HBase版本选择模块创建子单元2.1,用于创建HBase版本选择模块;
HBase版本选择子单元2.2,用于设置HBase版本选择模块从HBase参数信息选择Sqoop要连接的HBase版本;
MapReduce导入参数及策略确定子单元2.3,用于设置HBase版本选择模块根据Sqoop要连接的HBase版本确定对应HBase版本的MapReduce导入参数及策略,并将对应HBase版本的MapReduce导入参数及策略发送给Sqoop-MapReduce作业生成模块;
Sqoop-MapReduce作业生成模块更新单元3,用于更新Sqoop-MapReduce作业生成模块,Sqoop-MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;Sqoop-MapReduce作业生成模块更新单元3包括:
Sqoop-MapReduce作业生成模块更新子单元3.1,用于更新Sqoop-MapReduce作业生成模块;
HBase无关的MapReduce导入参数及策略识别子单元3.2,用于设置Sqoop-MapReduce作业生成模块从Sqoop命令参数中解析出Sqoop可识别的与HBase无关的MapReduce导入参数及策略;
MapReduce作业文件生成子单元3.3,用于设置Sqoop-MapReduce作业生成模块将HBase版本的MapReduce导入参数及策略同与HBase无关的MapReduce导入参数及策略合并,生成MapReduce作业文件,发送给MapReduce作业提交模块;
MapReduce作业提交模块更新单元4,用于更新MapReduce作业提交模块,MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理;MapReduce作业提交模块更新单元4包括:
MapReduce作业提交模块更新子单元4.1,用于更新MapReduce作业提交模块;
Mapreduce作业文件打包子单元4.2,用于设置MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别的jar包文件格式,提交给MapReduce集群运行处理。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。
概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。
当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种Sqoop集成多版本HBase的方法,其特征在于,包括如下步骤:
S1.创建Sqoop-HBase参数解析模块,Sqoop-HBase参数解析模块获取Sqoop命令参数,从Sqoop命令参数中解析出HBase参数信息;
S2.创建HBase版本选择模块,HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;
S3.更新Sqoop-MapReduce作业生成模块,Sqoop-MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;
S4.更新MapReduce作业提交模块,MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理。
2.如权利要求1所述的Sqoop集成多版本HBase的方法,其特征在于,步骤S1具体步骤如下:
S11.创建Sqoop-HBase参数解析模块;
S12.获取用户使用Sqoop组件编写导入数据到HBase的Sqoop命令脚本;
S13.Sqoop-HBase参数解析模块将Sqoop命令脚本保存到shell文件中,生成shell脚本文件;
S14.Sqoop-HBase参数解析模块从shell脚本文件中读取Sqoop可识别的与HBase相关的HBase参数信息,并将HBase参数信息提取出来发送给HBase版本选择模块。
3.如权利要求2所述的Sqoop集成多版本HBase的方法,其特征在于,步骤S2具体步骤如下:
S21.创建HBase版本选择模块;
S22.HBase版本选择模块从HBase参数信息选择Sqoop要连接的HBase版本;
S23.HBase版本选择模块根据Sqoop要连接的HBase版本确定对应HBase版本的MapReduce导入参数及策略,并将对应HBase版本的MapReduce导入参数及策略发送给Sqoop-MapReduce作业生成模块。
4.如权利要求3所述的Sqoop集成多版本HBase的方法,其特征在于,步骤S3具体步骤如下:
S31.更新Sqoop-MapReduce作业生成模块;
S32.Sqoop-MapReduce作业生成模块从Sqoop命令参数中解析出Sqoop可识别的与HBase无关的MapReduce导入参数及策略;
S33.Sqoop-MapReduce作业生成模块将HBase版本的MapReduce导入参数及策略同与HBase无关的MapReduce导入参数及策略合并,生成MapReduce作业文件,发送给MapReduce作业提交模块。
5.如权利要求1所述的Sqoop集成多版本HBase的方法,其特征在于,步骤S4具体步骤如下:
S41.更新MapReduce作业提交模块;
S42.MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别的jar包文件格式,提交给MapReduce集群运行处理。
6.一种Sqoop集成多版本HBase的装置,其特征在于,包括:
Sqoop-HBase参数解析模块创建单元(1),用于创建Sqoop-HBase参数解析模块,Sqoop-HBase参数解析模块获取Sqoop命令参数,从Sqoop命令参数中解析出HBase参数信息;
HBase版本选择模块创建单元(2),用于创建HBase版本选择模块,HBase版本选择模块根据HBase参数信息选择对应HBase版本的MapReduce参数及策略;
Sqoop-MapReduce作业生成模块更新单元(3),用于更新Sqoop-MapReduce作业生成模块,Sqoop-MapReduce作业生成模块获取原有根据Sqoop命令参数生成的MapReduce作业文件,并将对应HBase版本的MapReduce参数及策略添加到MapReduce作业文件中;
MapReduce作业提交模块更新单元(4),用于更新MapReduce作业提交模块,MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别格式,提交给MapReduce集群运行处理。
7.如权利要求6所述的Sqoop集成多版本HBase的装置,其特征在于,Sqoop-HBase参数解析模块创建单元(1)包括:
Sqoop-HBase参数解析模块创建子单元(1.1),用于创建Sqoop-HBase参数解析模块;
Sqoop命令脚本获取子单元(1.2),用于获取用户使用Sqoop组件编写导入数据到HBase的Sqoop命令脚本;
shell脚本文件生成子单元(1.3),用于设置Sqoop-HBase参数解析模块将Sqoop命令脚本保存到shell文件中,生成shell脚本文件;
HBase参数信息提取子单元(1.4),用于设置Sqoop-HBase参数解析模块从shell脚本文件中读取Sqoop可识别的与HBase相关的HBase参数信息,并将HBase参数信息提取出来发送给HBase版本选择模块。
8.如权利要求6所述的Sqoop集成多版本HBase的装置,其特征在于,HBase版本选择模块创建单元(2)包括:
HBase版本选择模块创建子单元(2.1),用于创建HBase版本选择模块;
HBase版本选择子单元(2.2),用于设置HBase版本选择模块从HBase参数信息选择Sqoop要连接的HBase版本;
MapReduce导入参数及策略确定子单元(2.3),用于设置HBase版本选择模块根据Sqoop要连接的HBase版本确定对应HBase版本的MapReduce导入参数及策略,并将对应HBase版本的MapReduce导入参数及策略发送给Sqoop-MapReduce作业生成模块。
9.如权利要求6所述的Sqoop集成多版本HBase的装置,其特征在于,Sqoop-MapReduce作业生成模块更新单元(3)包括:
Sqoop-MapReduce作业生成模块更新子单元(3.1),用于更新Sqoop-MapReduce作业生成模块;
HBase无关的MapReduce导入参数及策略识别子单元(3.2),用于设置Sqoop-MapReduce作业生成模块从Sqoop命令参数中解析出Sqoop可识别的与HBase无关的MapReduce导入参数及策略;
MapReduce作业文件生成子单元(3.3),用于设置Sqoop-MapReduce作业生成模块将HBase版本的MapReduce导入参数及策略同与HBase无关的MapReduce导入参数及策略合并,生成MapReduce作业文件,发送给MapReduce作业提交模块。
10.如权利要求6所述的Sqoop集成多版本HBase的装置,其特征在于,MapReduce作业提交模块更新单元(4)包括:
MapReduce作业提交模块更新子单元(4.1),用于更新MapReduce作业提交模块;
Mapreduce作业文件打包子单元(4.2),用于设置MapReduce作业提交模块将MapReduce作业文件打包成MapReduce集群识别的jar包文件格式,提交给MapReduce集群运行处理。
CN202010990164.9A 2020-09-18 2020-09-18 一种Sqoop集成多版本HBase的方法及装置 Active CN112231375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010990164.9A CN112231375B (zh) 2020-09-18 2020-09-18 一种Sqoop集成多版本HBase的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010990164.9A CN112231375B (zh) 2020-09-18 2020-09-18 一种Sqoop集成多版本HBase的方法及装置

Publications (2)

Publication Number Publication Date
CN112231375A true CN112231375A (zh) 2021-01-15
CN112231375B CN112231375B (zh) 2022-12-27

Family

ID=74107362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010990164.9A Active CN112231375B (zh) 2020-09-18 2020-09-18 一种Sqoop集成多版本HBase的方法及装置

Country Status (1)

Country Link
CN (1) CN112231375B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置
CN108875017A (zh) * 2018-06-20 2018-11-23 山东浪潮商用系统有限公司 一种基于Sqoop技术的海量数据同步系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置
CN108875017A (zh) * 2018-06-20 2018-11-23 山东浪潮商用系统有限公司 一种基于Sqoop技术的海量数据同步系统及方法

Also Published As

Publication number Publication date
CN112231375B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
US11314754B2 (en) Data processing method, apparatus, and device
CN108536761B (zh) 报表数据查询方法及服务器
CN107861728B (zh) 用于传统程序语言向现代程序语言转换的方法及其系统
CN112905595A (zh) 一种数据查询方法、装置及计算机可读存储介质
CN106649788B (zh) 一种数据库数据传输方法与装置
CN103559217B (zh) 一种面向异构数据库的海量组播数据入库实现方法
US10102039B2 (en) Converting a hybrid flow
CN107391653A (zh) 一种分布式NewSQL数据库系统及图片数据储存方法
CN103019874B (zh) 基于数据同步实现异常处理的方法及装置
CN105373469A (zh) 一种基于接口的软件自动化测试方法
CN103425762A (zh) 基于Hadoop平台的电信运营商海量数据处理方法
CN101859303A (zh) 元数据管理方法及管理系统
CN111858730A (zh) 一种图数据库的数据导入导出装置、方法、设备及介质
CN112231407A (zh) PostgreSQL数据库的DDL同步方法、装置、设备和介质
CN116226159A (zh) 元数据血缘关系分析方法、系统、设备及存储介质
CN104346378B (zh) 一种实现复杂数据处理的方法、装置及系统
CN114116678A (zh) 数据迁移方法、装置、设备、介质及程序产品
CN103970844A (zh) 大数据的写入方法和装置、读取方法和装置及处理系统
CN112231375B (zh) 一种Sqoop集成多版本HBase的方法及装置
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN112486995A (zh) 海量业务数据实时更新与查询方法、装置和电子设备
Rong et al. Design of heterogeneous Data SQL access scheme based on postgreSQL
CN114356454A (zh) 对账数据处理方法、设备、存储介质及程序产品
CN114461712A (zh) 一种多源异构数据源与图数据库导入导出的方法及装置
CN110297842B (zh) 一种数据比对方法、装置、终端和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant