CN105988995B - 一种基于HFile批量加载数据的方法 - Google Patents

一种基于HFile批量加载数据的方法 Download PDF

Info

Publication number
CN105988995B
CN105988995B CN201510039306.2A CN201510039306A CN105988995B CN 105988995 B CN105988995 B CN 105988995B CN 201510039306 A CN201510039306 A CN 201510039306A CN 105988995 B CN105988995 B CN 105988995B
Authority
CN
China
Prior art keywords
source data
hfile
file
region
filename
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510039306.2A
Other languages
English (en)
Other versions
CN105988995A (zh
Inventor
谢忠贤
浦世亮
周明耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201510039306.2A priority Critical patent/CN105988995B/zh
Publication of CN105988995A publication Critical patent/CN105988995A/zh
Application granted granted Critical
Publication of CN105988995B publication Critical patent/CN105988995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于HFile批量加载数据的方法,通过预分分区Region,形成多个分区Region,避免了现有技术中Region分裂过程时间过长的问题;在此基础上,在Map阶段生成HFile文件,避免了Reduce过程,提高了效率;并且,由于在Map阶段就成功生成了HFile文件,因此每生成一个HFile文件后可以保存该文件,避免MapReduce任务失败后,所有的中间结果都被删除的问题,进一步提高了HFile文件记载效率。

Description

一种基于HFile批量加载数据的方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于HFile批量加载数据的方法。
背景技术
随着网络技术的飞速发展,数据量的急速增长,为了分析和利用这些庞大的数据资源,传统的技术已然遇到了巨大的障碍,无法胜任大数据分析的任务。而为了满足大数据分析的要求,Google提出了MapReduce(映射化简)技术,它是一种面向大规模数据分析处理和并行计算的编程模型。
HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,HBase可以作为MapReduce的数据来源和数据目的地,从而使得MapReduce能够处理HBase中保存的数据或者将输出数据保存在HBase中。
当HBase作为MapReduce的数据目的地时,可采用HBase中自带的数据导入工具,但是由于HBase中自带的数据导入工具有一定的局限性,它不能使用户完全控制数据加载过程,并且不能自定义数据加载的预期格式。因此,加载具有特定格式的HBase加载数据的导入方法是非常重要的。
目前批量加载数据到HBase数据库最高效的方式如CN20131058470.2公开的一种HBase加载数据的导入方法,其首先根据实际数据对HBase表的Region(分区)进行预分,然后编写MapReduce程序将源数据转换为HFile文件,每个Region对应一个HFile文件,最后利用completebulkload命令将HFile文件加载到HBase。上述方法可以将生成好的HFile文件直接加载进运行中的HBase集群,减少了在数据迁移过程中数据传输的网络流量,提高了数据导入效率,节省CPU和网络资源。
但上述方法存在以下三点不足之处:
首先,HBase表创建时默认只有一个Region,数据加载时首先进入此Region,当数据量达到一个阈值时会被分裂成两个Region,分裂的Region会分布到其他的RegionServer,以保证集群的负载均衡,但是Region的分裂是一个耗时的过程,会导致数据加载时的效率低下。
其次,通过MapReduce生成HFile文件,由于HFile文件必须是按字典序排列的,因此必须首先通过Map(映射)过程将所有数据写到临时文件,然后在Reduce(化简)过程从临时文件读取数据进行排序,生成HFile文件,此过程非常耗时。
再者,通过MapReduce生成HFile文件的过程中,如果Map阶段任务失败,生成的临时文件会被删除,数据加载需要重新开始;如果Reduce阶段任务失败,生成的HFile文件会被删除,数据加载仍需要重新开始。
发明内容
鉴于现有技术的上述缺陷,本发明提供了一种基于HFile批量加载数据的方法,以进一步提高数据加载的效率。
本发明采用的技术手段如下:
一种基于HFile批量加载数据的方法,包括:
预分分区Region,形成与HFile文件一一对应的多个分区Region;
读取源数据记录,分别确定每一条源数据记录需写入的HFile文件,并将源数据记录写入其对应的HFile文件;
对已完成源数据记录写入的HFile文件加载至其对应的分区Region。
进一步,读取源数据记录,分别确定每一条源数据记录需写入的HFile文件,并将源数据记录写入其对应的HFile文件包括:
读取源数据记录,分别确定每一条源数据记录对应的HFile文件的文件名;
根据所述文件名将源数据记录向各自对应的多个HFile文件写入。
进一步,将源数据记录写入其对应的HFile文件后,将所述HFile文件存储到自定义目录。
进一步,预分分区Region,形成与HFile文件一一对应的多个分区Region包括:
预分分区Region,形成行主键RowKey自增的多个分区Region。
进一步,所述预分分区Region,形成行主键RowKey自增的多个分区Region包括:
根据源数据的总数据量确定预分分区Region个数及大小;
采用源数据中自增的ID作为分区Region的行主键RowKey。
进一步,读取源数据记录,分别确定每一条源数据记录对应的HFile文件的文件名包括:
在map的setup方法中获取所有分区Region的起始键值StartKey和终止键值EndKey,生成起始键值StartKey和终止键值EndKey集合,并定义endKey变量;
读取一条源数据记录后,判断endKey变量的值是否为空;
若判断结果为endKey变量的值为空,则判断当前读取的源数据记录中的所述自增的ID是否在某个Region的起始键值StartKey和终止键值EndKey之间,如果当前读取的源数据记录中的所述自增的ID处于某个Region的起始键值StartKey和终止键值EndKey之间,则将当前读取的源数据记录中的endKey变量赋值为该Region的终止键值EndKey,并判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值;
若当前读取的源数据记录中的所述自增的ID等于endKey变量的值,则说明当前读取的源数据记录已不属于该Region而属于该Region的下一个Region,将endKey赋值更新为该Region的下一个Region的EndKey,由此获得与该Region的下一个Region对应的HFile文件的文件名。
进一步,若判断结果为endKey变量的值不为空,则判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值;
当前读取的源数据记录中的所述自增的ID不等于endKey变量的值,则说明当前读取的源数据记录属于该Region,由此获得与该Region对应的HFile文件的文件名。
进一步,在获得HFile的文件名后,对当前读取的源数据记录中的KeyValue进行排序。
进一步,所述对当前读取的源数据记录中的KeyValue进行排序包括:
定义一个KeyValue的排序集合;
将当前读取的源数据记录中的KeyValue存放到所述排序集合中完成排序。
进一步,将该条源数据记录写入其对应的HFile文件包括:
调用map方法中的write方法,添加所述HFile的文件名;
利用write方法解析HFile的文件名;
判断该HFile的文件名对应的文件对象是否存在,若该HFile的文件名对应的文件对象不存在则根据该HFile的文件名创建文件对象,并将当前读取的源数据记录写入文件对象;
若该HFile的文件名对应的文件对象存在,则直接当前读取的源数据记录写入文件对象。
进一步,调用map方法中的write方法,添加所述HFile的文件名包括:
在FileOutputFormat类中根据键值对的规则定义名称为recordWriters,类型为HashMap<String,RecordWriter<K,V>>的变量;其中,recordWriters的key的类型为字符串String,表示输出的文件名;recordWriters的value的类型为RecordWriter<K,V>,表示记录的输出对象;
所述调用write方法为调用context.write(key,value)方法,将该条源数据记录对应的文件名添加到key的末尾。
进一步,所述判断该HFile的文件名对应的源数据记录是否存在,若该HFile的文件名对应的源数据记录不存在则根据该HFile的文件名创建该条源数据记录的输出对象,并将该源数据记录写入所述输出对象,生成HFile文件包括:
根据recordWriters变量中的key获取recordWriter,若recordWriter不存在,则表示该HFile的文件名对应的源数据记录不存在,则根据key创建recordWriter,并将将该源数据记录写入recordWriter,生成HFile文件;
若recordWriter存在,则直接使用recordWriter生成HFile文件。
进一步,对已完成源数据记录写入的HFile文件加载至其对应的分区Region包括:
利用completebulkload命令将HFile文件加载到HBase。
采用本发明提供的基于HFile批量加载数据的方法,通过预分分区Region,形成多个分区Region,避免了现有技术中Region分裂过程时间过长的问题;在此基础上,在Map阶段生成HFile文件,避免了Reduce过程,提高了效率;并且,由于在Map阶段就成功生成了HFile文件,因此每生成一个HFile文件后可以保存该文件,避免MapReduce任务失败后,所有的中间结果都被删除的问题,进一步提高了HFile文件记载效率。
附图说明
图1为本发明基于HFile批量加载数据的方法流程示意图;
图2为本发明中根据源数据记录确定其需写入的HFile文件的文件名的流程示意图;
图3为将源数据记录写入其对应的HFile文件的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明提供了一种基于HFile批量加载数据的方法,如图1所示,包括如下步骤:
预分分区Region,形成与HFile文件一一对应的多个分区Region;
读取源数据记录,分别确定每一条源数据记录需写入的HFile文件,并将源数据记录写入其对应的HFile文件;
对已完成源数据记录写入的HFile文件加载至其对应的分区Region。
在本申请典型的实施例中,形成与HFile文件一一对应的多个分区Region可采用以下方式:
在进行预分分区Region时,首先,根据源数据的总数据量确定预分分区Region个数;然后,采用源数据中自增的ID如采用源数据中的自增的字段作为分区Region的行主键RowKey。
例如,数据量1千万,预分10个分区Region,Region预分后的Startkey和EndKey分布如下表所示:
StartKey EndKey
Region1 00000000 01000000
Region2 01000000 02000000
Region3 02000000 03000000
Region4 03000000 04000000
Region5 04000000 05000000
Region6 05000000 06000000
Region7 06000000 07000000
Region8 07000000 08000000
Region9 08000000 09000000
Region10 09000000 10000000
由于在数据导入前预分Region,避免了现有技术中采用的数据导入时,当数据量达到阈值时再进行分裂带来的耗时问题,由此提高数据加载的效率。
在形成了形成与HFile文件一一对应的多个分区Region的基础上,读取源数据记录,分别确定每一条源数据记录需写入的HFile文件,并将源数据记录写入其对应的HFile文件,包括:
读取源数据记录,分别确定每一条源数据记录对应的HFile文件的文件名;
根据所述文件名将源数据记录向各自对应的多个HFile文件写入。
具体步骤如图2所示:
在map的setup方法中获取所有分区Region的起始键值StartKey和终止键值EndKey,生成起始键值StartKey和终止键值EndKey集合,并定义endKey变量;
读取一条源数据记录后,判断endKey变量的值是否为空;
若判断结果为endKey变量的值为空,则判断当前读取的源数据记录中的所述自增的ID是否在某个Region的起始键值StartKey和终止键值EndKey之间,如果当前读取的源数据记录中的所述自增的ID处于某个Region的起始键值StartKey和终止键值EndKey之间,则将当前读取的源数据记录中的endKey变量赋值为该Region的终止键值EndKey,并判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值;
若当前读取的源数据记录中的所述自增的ID等于endKey变量的值,则说明当前读取的源数据记录已不属于该Region而属于该Region的下一个Region,将endKey赋值更新为该Region的下一个Region的EndKey,由此获得与该Region的下一个Region对应的HFile文件的文件名。
7、根据权利要求6所述的方法,其特征在于,若判断结果为endKey变量的值不为空,则判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值;
当前读取的源数据记录中的所述自增的ID不等于endKey变量的值,则说明当前读取的源数据记录属于该Region,由此获得与该Region对应的HFile文件的文件名。
在获得HFile的文件名后,对当前读取的源数据记录中的KeyValue进行排序;作为实现排序的一种方式,可首先定义一个KeyValue的排序集合,然后将当前读取的源数据记录中的KeyValue存放到所述排序集合中完成排序;例如采用以下方式:
定义TreeSet<KeyValue>treeMap=new TreeSet<KeyValue>(KeyValue.COMPARATOR),并将当前读取的源数据记录中的KeyValue存放到treeMap完成排序。
在上述过程中,可实现每个HFile文件中的RowKey只在一个Region中。由于记录ID为自增,因此生成的单个HFile文件已按照RowKey字典排序,只需要对单个记录中的KeyValue排序即可,从而避免了Reduce的排序过程。
进一步,针对现有技术中map失败删除Hfile文件,需要重新加载数据的问题,本申请的典型实施例中将源数据记录写入其对应的HFile文件后,将所述HFile文件存储到自定义目录,由此,即使map失败,仍可加载已生成的的HFile文件,数据加载可以从失败处开始。
在确定当前源数据记录需写入的HFile文件的文件名后,将该条源数据记录写入其对应的HFile文件包括如图3所示步骤:
调用map方法中的write方法,添加所述HFile的文件名;
利用write方法解析HFile的文件名;
判断该HFile的文件名对应的文件对象是否存在,若该HFile的文件名对应的文件对象不存在则根据该HFile的文件名创建文件对象,并将当前读取的源数据记录写入文件对象;
若该HFile的文件名对应的文件对象存在,则直接当前读取的源数据记录写入文件对象。
其中,调用map方法中的write方法,添加所述HFile的文件名包括:
在FileOutputFormat类中根据键值对的规则定义名称为recordWriters,类型为HashMap<String,RecordWriter<K,V>>的变量;其中,recordWriters的key的类型为字符串String,表示输出的文件名;recordWriters的value的类型为RecordWriter<K,V>,表示记录的输出对象;
所述调用write方法为调用context.write(key,value)方法,将该条源数据记录对应的文件名添加到key的末尾。
进一步,所述判断该HFile的文件名对应的源数据记录是否存在,若该HFile的文件名对应的源数据记录不存在则根据该HFile的文件名创建该条源数据记录的输出对象,并将该源数据记录写入所述输出对象,生成HFile文件包括:
根据recordWriters变量中的key获取recordWriter,若recordWriter不存在,则表示该HFile的文件名对应的源数据记录不存在,则根据key创建recordWriter,并将将该源数据记录写入recordWriter,生成HFile文件;
若recordWriter存在,则直接使用recordWriter生成HFile文件。
对已完成源数据记录写入的HFile文件加载至其对应的分区Region优选利用completebulkload命令将HFile文件加载到HBase。
综上所述,采用本发明提供的一种基于HFile批量加载数据的方法,通过预分分区Region,形成多个分区Region,避免了现有技术中Region分裂过程时间过长的问题;在此基础上,在Map阶段生成HFile文件,避免了Reduce过程,提高了效率;并且,由于在Map阶段就成功生成了HFile文件,因此每生成一个HFile文件后可以保存该文件,避免MapReduce任务失败后,所有的中间结果都被删除的问题,进一步提高了HFile文件记载效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种基于HFile批量加载数据的方法,其特征在于,包括:
预分分区Region,形成与HFile文件一一对应的多个分区Region,且采用源数据中自增的ID作为所述多个分区Region的行主键RowKey;
读取源数据记录,分别确定每一条源数据记录需写入的HFile文件,并将源数据记录写入其对应的HFile文件,所述HFile文件按照RowKey字典排序;
对已完成源数据记录写入的HFile文件加载至其对应的分区Region。
2.根据权利要求1所述的方法,其特征在于,读取源数据记录,分别确定每一条源数据记录需写入的HFile文件,并将源数据记录写入其对应的HFile文件包括:
读取源数据记录,分别确定每一条源数据记录对应的HFile文件的文件名;
根据所述文件名将源数据记录向各自对应的HFile文件写入。
3.根据权利要求2所述的方法,其特征在于,将源数据记录写入其对应的HFile文件后,将所述HFile文件存储到自定义目录。
4.根据权利要求1所述的方法,其特征在于,所述预分分区Region,形成与HFile文件一一对应的多个分区Region,且采用源数据中自增的ID作为多个分区Region的行主键RowKey包括:
根据源数据的总数据量确定预分分区Region个数及大小;
采用源数据中自增的ID作为分区Region的行主键RowKey。
5.根据权利要求4所述的方法,其特征在于,读取源数据记录,分别确定每一条源数据记录对应的HFile文件的文件名包括:
在map的setup方法中获取所有分区Region的起始键值StartKey和终止键值EndKey,生成起始键值StartKey和终止键值EndKey集合,并定义endKey变量;
读取一条源数据记录后,判断endKey变量的值是否为空;
若判断结果为endKey变量的值为空,则判断当前读取的源数据记录中的所述自增的ID是否在某个Region的起始键值StartKey和终止键值EndKey之间,如果当前读取的源数据记录中的所述自增的ID处于某个Region的起始键值StartKey和终止键值EndKey之间,则将当前读取的源数据记录中的endKey变量赋值为该Region的终止键值EndKey,并判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值;
若当前读取的源数据记录中的所述自增的ID等于endKey变量的值,则说明当前读取的源数据记录已不属于该Region而属于该Region的下一个Region,将endKey赋值更新为该Region的下一个Region的EndKey,由此获得与该Region的下一个Region对应的HFile文件的文件名。
6.根据权利要求5所述的方法,其特征在于,若判断结果为endKey变量的值不为空,则判断当前读取的源数据记录中的所述自增的ID是否等于endKey变量的值;
当前读取的源数据记录中的所述自增的ID不等于endKey变量的值,则说明当前读取的源数据记录属于该Region,由此获得与该Region对应的HFile文件的文件名。
7.根据权利要求5或6所述的方法,其特征在于,在获得HFile的文件名后,对当前读取的源数据记录中的KeyValue进行排序。
8.根据权利要求7所述的方法,其特征在于,所述对当前读取的源数据记录中的KeyValue进行排序包括:
定义一个KeyValue的排序集合;
将当前读取的源数据记录中的KeyValue存放到所述排序集合中完成排序。
9.根据权利要求1所述的方法,其特征在于,将该条源数据记录写入其对应的HFile文件包括:
调用map方法中的write方法,添加所述HFile的文件名;
利用write方法解析HFile的文件名;
判断该HFile的文件名对应的文件对象是否存在,若该HFile的文件名对应的文件对象不存在则根据该HFile的文件名创建文件对象,并将当前读取的源数据记录写入文件对象;
若该HFile的文件名对应的文件对象存在,则直接当前读取的源数据记录写入文件对象。
10.根据权利要求9所述的方法,其特征在于,调用map方法中的write方法,添加所述HFile的文件名包括:
在FileOutputFormat类中根据键值对的规则定义名称为recordWriters,类型为HashMap<String,RecordWriter<K,V>>的变量;其中,recordWriters的key的类型为字符串String,表示输出的文件名;recordWriters的value的类型为RecordWriter<K,V>,表示记录的输出对象;
所述调用write方法为调用context.write(key,value)方法,将该条源数据记录对应的文件名添加到key的末尾。
11.根据权利要求10所述的方法,其特征在于,所述判断该HFile的文件名对应的源数据记录是否存在,若该HFile的文件名对应的源数据记录不存在则根据该HFile的文件名创建该条源数据记录的输出对象,并将该源数据记录写入所述输出对象,生成HFile文件包括:
根据recordWriters变量中的key获取recordWriter,若recordWriter不存在,则表示该HFile的文件名对应的源数据记录不存在,则根据key创建recordWriter,并将将该源数据记录写入recordWriter,生成HFile文件;
若recordWriter存在,则直接使用recordWriter生成HFile文件。
12.根据权利要求11所述的方法,其特征在于,对已完成源数据记录写入的HFile文件加载至其对应的分区Region包括:
利用completebulkload命令将HFile文件加载到HBase。
CN201510039306.2A 2015-01-27 2015-01-27 一种基于HFile批量加载数据的方法 Active CN105988995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510039306.2A CN105988995B (zh) 2015-01-27 2015-01-27 一种基于HFile批量加载数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510039306.2A CN105988995B (zh) 2015-01-27 2015-01-27 一种基于HFile批量加载数据的方法

Publications (2)

Publication Number Publication Date
CN105988995A CN105988995A (zh) 2016-10-05
CN105988995B true CN105988995B (zh) 2019-05-24

Family

ID=57034234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510039306.2A Active CN105988995B (zh) 2015-01-27 2015-01-27 一种基于HFile批量加载数据的方法

Country Status (1)

Country Link
CN (1) CN105988995B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021389B (zh) * 2017-11-15 2021-01-01 武汉斗鱼网络科技有限公司 一种Android中引入ARouter的方法及装置
CN110519319B (zh) * 2018-05-22 2022-02-11 杭州海康威视数字技术股份有限公司 一种分裂分区的方法及装置
CN110457279B (zh) * 2019-07-11 2022-03-11 新华三大数据技术有限公司 数据离线扫描方法、装置、服务器及可读存储介质
CN111625577A (zh) * 2020-05-15 2020-09-04 贵州易鲸捷信息技术有限公司 基于hbase的批量装载快速生成数据统计信息的方法
CN112667593B (zh) * 2020-12-27 2022-09-30 武汉达梦数据库股份有限公司 一种ETL流程执行hbase快速装载的方法与装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN104123304A (zh) * 2013-04-28 2014-10-29 国际商业机器公司 数据驱动的并行排序系统和方法
CN104199963A (zh) * 2014-09-19 2014-12-10 浪潮(北京)电子信息产业有限公司 HBase数据备份恢复的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法
CN104123304A (zh) * 2013-04-28 2014-10-29 国际商业机器公司 数据驱动的并行排序系统和方法
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN104199963A (zh) * 2014-09-19 2014-12-10 浪潮(北京)电子信息产业有限公司 HBase数据备份恢复的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"MapReduce生成HFile文件,再使用BulkLoad导入HBase中(完全分布式运行)";desehawk;《http://www.aboutyun.com/thread-10665-1-1.html》;20141217;第1-10页

Also Published As

Publication number Publication date
CN105988995A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN105988995B (zh) 一种基于HFile批量加载数据的方法
CN110209652B (zh) 数据表迁移方法、装置、计算机设备和存储介质
CN110555012B (zh) 数据迁移方法及装置
CN105205154B (zh) 数据迁移方法以及装置
CN106919697B (zh) 一种将数据同时导入多个Hadoop组件的方法
WO2019161645A1 (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN105989015B (zh) 一种数据库扩容方法和装置以及访问数据库的方法和装置
CN106557307B (zh) 业务数据的处理方法及处理系统
CN113111038A (zh) 文件存储方法、装置、服务器及存储介质
EP3933743A1 (en) Method and device for blockchain transaction tracing
AU2019241002B2 (en) Transaction processing method and system, and server
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN112650529B (zh) 可配置生成移动端app代码的系统及方法
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN111506573B (zh) 数据库表分区方法、装置、计算机设备及存储介质
CN112527950A (zh) 一种基于MapReduce的图数据删除方法及系统
CN111666278B (zh) 数据存储、检索方法、电子设备及存储介质
EP3349416A1 (en) Relationship chain processing method and system, and storage medium
CN108121807B (zh) Hadoop环境下多维索引结构OBF-Index的实现方法
CN109388615A (zh) 基于Spark的任务处理方法及系统
CN108259583B (zh) 一种数据动态迁移方法及装置
CN116069725A (zh) 文件迁移方法、装置、设备、介质和程序产品
CN106897450A (zh) 一种基于HDFS海量数据快速导入HBase的方法
CN110895520B (zh) 一种文件迁移方法、相关装置及设备
CN112148705A (zh) 数据迁移的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant