CN106227803A - 一种基于Hbase的海量数据导入方法及装置 - Google Patents

一种基于Hbase的海量数据导入方法及装置 Download PDF

Info

Publication number
CN106227803A
CN106227803A CN201610580880.3A CN201610580880A CN106227803A CN 106227803 A CN106227803 A CN 106227803A CN 201610580880 A CN201610580880 A CN 201610580880A CN 106227803 A CN106227803 A CN 106227803A
Authority
CN
China
Prior art keywords
data
source data
hbase
imported
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610580880.3A
Other languages
English (en)
Inventor
乔晋伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610580880.3A priority Critical patent/CN106227803A/zh
Publication of CN106227803A publication Critical patent/CN106227803A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Abstract

本发明提供了一种基于Hbase的海量数据导入方法及装置,该方法包括:生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计;利用所述数据导入工具确定待导入的目标源数据;针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作;针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中。本发明通过生成的数据导入工具实现主键的自由组合设计,通过将主键的每一种组合设计作为数据处理的输入端,最终将数据导入到Hbase中。因此,即使查询的数据信息很大,但根据主键的组合设计在Hbase中可搜索到所有相关信息,从而能够实现增加数据查询的准确性功能。

Description

一种基于Hbase的海量数据导入方法及装置
技术领域
本发明涉及一种大数据技术领域,特别涉及一种基于Hbase的海量数据导入方法及装置。
背景技术
如今社会发展非常迅速,各行各业每天都会产生大量数据,像网站、社交媒体及其它商业环境均会创建大量的数据。因此,面对海量的数据,如何对其进行导入,成为一项新的挑战。
目前数据导入的方法为:通过利用Hbase中内置的导入工具,完成对主键的唯一标识,从而根据唯一标识实现数据的导入。
然而对于大部分业务场景下的数据存储,在做数据查询等工作时,由于数据量过大,容易造成查询到的数据不准确,现有的数据导入方法是建立在对字段的唯一标识上的,从而无法实现主键的自由组合设计,因此,无法保证数据查询的准确性问题。
发明内容
本发明实施例提供了一种基于Hbase的海量数据导入方法及装置,能够有效的实现数据查询的准确性功能。
第一方面,本发明实施例提供了一种基于Hbase的海量数据导入方法,包括:
生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由 组合设计;
利用所述数据导入工具确定待导入的目标源数据;
针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作;
针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中。
优选地,
在所述生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计之前,进一步包括:
确定至少一种待导入源数据;
根据确定的每一种待导入源数据,分别确定至少一个查询字段;
针对每一种待导入源数据的至少一个查询字段,分别设计出至少一种组合方式;
将所述至少一个查询字段对应的每一种组合方式,作为行键的一种自由组合设计。
优选地,
在针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中之后,进一步包括:
根据用户需求确定相应的查询条件;
确定满足所述查询条件的至少一个查询字段;
根据满足所述查询条件的所有查询字段,确定至少一种目标组合方式;
针对每一种目标组合方式,在Hbase中进行数据查询,以获取到与每一种目标组合方式相应的源数据。
优选地,
在所述针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作之前,进一步包括:根据确定的每一种待导入的源数据,确定相应的计算处理模型;
所述针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作,包括:
针对所述的每一种计算处理模型,编排相应的MapReduce Job任务,在各个MapReduce Job任务中分别定义Map函数和Reduce函数;
将所述每一种自由组合的行健作为相应的MapReduce Job任务的输入端;
通过MapReduce Job任务中定义的Map函数和Reduce函数对输入的数据进行处理,以生成Hbase可识别的格式文件。
优选地,
进一步包括:确定至少一种目标文件格式;
所述生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计之后,进一步包括:将确定的所述至少一种目标文件格式,存储在所述数据导入工具中;
所述利用所述数据导入工具确定待导入的目标源数据,包括:接收输入的源数据,确定该输入的源数据对应的文件格式;在所述至少一种目标文件格式包括该输入的源数据对应的文件格式时,将该输入的源数据确定为所述目标源数据。
第二方面,本发明实施例提供了一种基于Hbase的海量数据导入装置,包括:
生成单元,用于生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计;
第一确定单元,用于利用所述数据导入工具确定待导入的目标源数据;
处理单元,用于针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作;
导入单元,用于针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中。
优选地,
进一步包括:
第二确定单元,用于确定至少一种待导入源数据;
第三确定单元,用于根据确定的每一种待导入源数据,分别确定至少一个查询字段;
第四确定单元,用于针对每一种待导入源数据的至少一个查询字段,分别设计出至少一种组合方式;
第五确定单元,用于将所述至少一个查询字段对应的每一种组合方式,确定为行键的一种自由组合设计。
优选地,
进一步包括:
第六确定单元,用于根据用户需求确定相应的查询条件;
第七确定单元,用于确定满足所述查询条件的至少一个查询字段;
第八确定单元,用于根据满足所述查询条件的所有查询字段,确定至少一种目标组合方式;
获取单元,用于针对每一种目标组合方式,在Hbase中进行数据查询,以获取到与每一种目标组合方式相应的源数据。
优选地,
进一步包括:第九确定单元,用于根据确定的每一种待导入的源数据,确定相应的计算处理模型;
所述处理单元,包括:
编排子单元,用于针对所述的每一种计算处理模型,编排相应的MapReduce Job任务,在各个MapReduce Job任务中分别定义Map函数和Reduce函数;
输入子单元,用于将所述每一种自由组合的行健作为相应的MapReduce Job任务的输入端;
处理子单元,用于通过MapReduce Job任务中定义的Map函数和Reduce函数对输入的数据进行处理,以生成Hbase可识别的格式文件。
优选地,
进一步包括:第十确定单元,用于确定至少一种目标文件格式;
进一步包括:存储单元,用于将确定的所述至少一种目标文件格式,存储在所述数据导入工具中;
所述第一确定单元,包括:
第一确定子单元,用于接收输入的源数据,确定该输入的源数据对应的文件格式;
第二确定子单元,用于在所述至少一种目标文件格式包括该输入的源数据对应的文件格式时,将该输入的源数据确定为所述目标源数据。
本发明实施例提供了一种基于Hbase的海量数据导入方法及装置,通过生成的数据导入工具实现主键的自由组合设计,通过将主键的每一种组合设计作为数据处理的输入端,最终将数据导入到Hbase中。因此,即使查询的数据信息很大,但根据主键的组合设计在Hbase中可搜索到所有相关信息,从而能够实现增加数据查询的准确性功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种基于Hbase的海量数据导入方法流程图;
图2是本发明一个实施例提供的另一种基于Hbase的海量数据导入方法流程图;
图3是本发明一个实施例提供的装置所在设备的硬件架构图;
图4是本发明一个实施例提供的一种基于Hbase的海量数据导入装置结构图。
图5是本发明一个实施例提供的另一种基于Hbase的海量数据导入装置结构图。
图6是本发明一个实施例提供的又一种基于Hbase的海量数据导入装置结构图。
图7是本发明一个实施例提供的再一种基于Hbase的海量数据导入装置结构图。
图8是本发明一个实施例提供的再一种基于Hbase的海量数据导入装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于Hbase的海量数据导入方法,该方法可以包括以下步骤:
步骤101:生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计;
步骤102:利用所述数据导入工具确定待导入的目标源数据;
步骤103:针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作;
步骤104:针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中。
本发明实施例提供了一种基于Hbase的海量数据导入方法及装置,通过生成的数据导入工具实现主键的自由组合设计,通过将主键的每一种组合设计作为数据处理的输入端,最终将数据导入到Hbase中。因此,即使查询的 数据信息很大,但根据主键的组合设计在Hbase中可搜索到所有相关信息,从而能够实现增加数据查询的准确性功能。
在本发明一个实施例中,为了实现主键的自由组合设计,在上述步骤101之前,可以进一步包括:
确定至少一种待导入源数据;
根据确定的每一种待导入源数据,分别确定至少一个查询字段;
针对每一种待导入源数据的至少一个查询字段,分别设计出至少一种组合方式;
将所述至少一个查询字段对应的每一种组合方式,作为行键的一种自由组合设计。
例如,以名称为“期末考试成绩”的待导入源数据为例,那么,查询字段可以确定为“年级”、“姓名”、“性别”、“科目”和“成绩”等其它查询字段,在本实施例中,查询字段以“年级”、“姓名”和“成绩”为例,则组合方式可以有多种情况,如:“年级”和“姓名”组合、“姓名”和“成绩”组合或者“年级”、“姓名”和“成绩”三个组合。
通过确定至少一个查询字段,进而设计出相应的至少一种组合设计,从而可以实现主键的自由组合设计,因此,在进行数据查询时,可以在Hbase中通过搜索主键不同的组合设计,获取相应的准确数据信息。
在本发明一个实施例中,为了能够将数据导入到Hbase中,在上述步骤103之前,可以进一步包括:根据确定的每一种待导入源数据,确定相应的计算处理模型;
则所述步骤103中,所述针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作,包括:
针对所述的每一种计算处理模型,编排相应的MapReduce Job任务,在各个MapReduce Job任务中分别定义Map函数和Reduce函数;
将所述每一种自由组合的行健作为相应的MapReduce Job任务的输入端;
通过MapReduce Job任务中定义的Map函数和Reduce函数对输入的数据进行处理,以生成Hbase可识别的格式文件。
其中,计算处理模型是根据待导入源数据确定的,也可依照用户进行设计。例如,以名称为“期末考试成绩”的待导入源数据为例,首先通过待导入源数据确定相应的计算处理模型,为方便进行表示,该计算处理模型用A来表示,然后根据模型A自定义实现处理阶段的Map函数和Reduce函数,通过这两个函数将期末考试成绩所对应的文件转换为Hbase可识别的格式文件。
通过自定义生成Map函数和Reduce函数,实现对待导入源数据的处理,从而将待导入源数据文件转换为Hbase可识别的格式文件,为将待导入源数据导入到Hbase中奠定了基础。
在本发明一个实施例中,为了支持多种文件格式的数据导入,可以进一步包括:确定至少一种目标文件格式;
在上述步骤101之后,可以进一步包括:将确定的所述至少一种目标文件格式,存储在所述数据导入工具中;
则所述步骤102中,所述利用所述数据导入工具确定待导入的目标源数据,包括:接收输入的源数据,确定该输入的源数据对应的文件格式;在所述至少一种目标文件格式包括该输入的源数据对应的文件格式时,将该输入的源数据确定为所述目标源数据。
以存储在数据导入工具中的文件格式为“tst”和“tsv”、待导入源数据的文件格式为“tsv”为例,当数据导入工具接收到源数据之后,通过对源数据的文件格式进行确认,从而确定该源数据为待导入的目标源数据。
将至少一种文件格式存储在数据导入工具中,可以支持多种文件格式的数据进行导入,从而增加了数据导入的多样性,而且,在数据查询的过程中,由于Hbase中存储了多种文件类型的数据,因此也提高了查询数据的全面性。
下面以名称为“2015年中国好声音”的待导入源数据为例,对本发明实施例中的基于Hbase的海量数据导入方法进行详细说明,如图2所示,本发明实施例提供了一种基于Hbase的海量数据导入方法,该方法可以包括:
步骤201:确定名称为“2015年中国好声音”的待导入源数据,并将该源数据上传到HDFS上。
在本实施例中,首先应根据待导入源数据,确定待导入源数据所在的数据源,其中,数据源通常为文本文件或者其它数据库,然后在相应的文本文件或者相应的数据库中对待导入源数据进行提取,最后将提取到的数据上传到HDFS(分布式文件系统)上。本发明实施例中待导入的源数据为“2015年中国好声音”的相关数据信息。
步骤202:利用生成的数据导入工具,确定上传到HDFS上的文件中的数据是待导入的目标源数据。
在本实施例中,首先应生成数据导入工具,然后通过在数据导入工具中存储多种文件格式类型,从而数据导入工具可支持多种文件格式的数据进行导入。其中,在数据导入工具中存储的文件格式可以为任意的格式,也可根据用户需求进行选择,但文件格式类型的个数至少为一个。以存储在数据导入工具中的文件格式类型为“tsv”、“csv”和“tht”为例,如果名称为“2015年中国好声音”的文件所对应的文件格式为这三种格式中的任意一种,那么数据导入工具支持这种文件格式,该源数据可以进行导入。
步骤203:针对上传到HDFS上名称为“2015年中国好声音”的文件,通过确定至少一个相应的查询字段,实现主键的至少一种自由组合设计。
在本实施例中,将文件上传到HDFS之后,为了针对上传到HDFS上的文件实现相应主键的自由组合设计,应首先根据上传到HDFS上的数据文件确定至少一个查询字段;然后根据确定的至少一个查询字段,设计出至少一种组合形式;将设计的组合方式存储到数据导入工具中。
根据上传到HDFS上的数据文件确定至少一个查询字段,其中,该查询字段的选择可以为任意的字段,也可依照用户进行选择,但该查询字段至少为一个。在确定上传到HDFS上的名称为“2015年中国好声音”的文件后,那么,确定该数据的查询字段可以为“中国好声音”、“参赛人员”、“导师”和“冠军”中的任意一个或多个。
根据确定的至少一个查询字段,设计出至少一种组合形式,其中,主键的自由组合具体的实现形式为:将至少一个查询字段和设定的字符按照设定形式进行组合,之后将组合后的主键表示形式存储在数据导入工具中,从而得到至少一种主键的自由组合设计。
其中,该设定的字符可以为任意字符,且字符个数可以为至少一个。例如,该设定的字符为“,”;再如,该设定的字符为“,#”。
进一步地,该设定形式也可以根据用户需求来设定,例如,该设定形式可以按照每个字段的首字母在字典中的位置排序进行设定,以设定字符为“,#”、字段为“中国好声音”、“参赛人员”和“冠军”为例,那么,组合后的内容为“参赛人员,#冠军,#中国好声音”。
步骤204:将数据导入工具输出的结果作为MapReduce Job的输入端,实现数据的并行处理。
在本实施例中,利用MapReduce Job任务完成对数据的并行处理,其中,该MapReduce Job任务共分为Map阶段和Reduce阶段,因此,在进行数据处理之前,应针对上传到HDFS上的数据,设计至少一种计算处理模型,根据所述的至少一种计算处理模型对Map函数和Reduce函数进行自定义实现。
在所述Map阶段,首先应根据上传到HDFS上的文件大小进行分片处理,然后针对每个分片,均会有一个相应的Map进行映射,其中,分片过程可根据上传的文件大小系统自动进行分片,也可通过手动进行设置。以名称为“2015年中国好声音”的文件所对应的文件大小为“10TB”为例,系统可自动均分为10片,每一片的文件大小为1TB,于是会有10个Map分别对应一个大小为1TB的文件同时完成映射。
在所述Reduce阶段,根据Map阶段的输出结果,可手动设置多个Reduce对输入的数据进行处理,上传到HDFS上的文件“2015年中国好声音”经过Reduce阶段处理之后,会生成一个Hbase可以识别的文件,该识别的文件内容依然是2015年中国好声音的数据,但是文件的类型变成了Hbase可以识别的类型。为方便对经过MapReduce Job处理前后的文件进行区分,可将输出的Hbase 能够识别的文件名称记为“2015年中国好声音B”
步骤205:调用Hbase中的LoadIncrementalHFiles函数,并将文件“2015年中国好声音B”在HDFS上的位置传递给该函数。
在本实施例中,在上述生成Hbase能够识别的文件,即名称为“2015年中国好声音B”的文件之后,为完成对该文件中的的数据导入,首先应将该文件在HDFS上的位置信息传递给Hbase。在Hbase中会有特定的函数用于接收相应的位置信息,其中,该特定函数为LoadIncrementalHFiles函数,通过检查文件“2015年中国好声音B”的主目录-列族目录,实现该文件在HDFS上的位置传递。
步骤206:调用Hbase中的RegionServer,将文件“2015年中国好声音B”对应的数据导入到Hbase中。
在本实施例中,在上述接收到文件名称为“2015年中国好声音B”的文件的位置信息后,调用Hbase中的RegionServer,可根据接收到的位置信息,将HDFS上的文件中的数据导入到Hbase相应的区域中,其中,区域的划分可由系统自动完成。这样名称为“2015年中国好声音”的待导入源数据中的相关信息就导入了Hbase中,之后,用户可根据需求,在Hbase表中搜索到关于2015年中国好声音的相关准确数据信息。
如图3、图4所示,本发明实施例提供了一种基于Hbase的海量数据导入装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的基于Hbase的海量数据导入装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种基于Hbase的海量数据导入装置,包括:
生成单元401,用于生成数据导入工具,并在所述数据导入工具中实现 行健的至少一种自由组合设计;
第一确定单元402,用于利用所述数据导入工具确定待导入的目标源数据;
处理单元403,用于针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作;
导入单元404,用于针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中。
在本发明一个实施例中,参见图5,一种基于Hbase的海量数据导入装置进一步包括:
第二确定单元501,用于确定至少一种待导入源数据;
第三确定单元502,用于根据确定的每一种待导入源数据,分别确定至少一个查询字段;
第四确定单元503,用于针对每一种待导入源数据的至少一个查询字段,分别设计出至少一种组合方式;
第五确定单元504,用于将所述至少一个查询字段对应的每一种组合方式,确定为行键的一种自由组合设计。
在本发明一个实施例中,参见图6,一种基于Hbase的海量数据导入装置进一步包括:
第六确定单元601,用于根据用户需求确定相应的查询条件;
第七确定单元602,用于确定满足所述查询条件的至少一个查询字段;
第八确定单元603,用于根据满足所述查询条件的所有查询字段,确定至少一种目标组合方式;
获取单元604,用于针对每一种目标组合方式,在Hbase中进行数据查询,以获取到与每一种目标组合方式相应的源数据。
在本发明一个实施例中,参见图7,一种基于Hbase的海量数据导入装置进一步包括:
第九确定单元701,用于根据确定的每一种待导入的源数据,确定相应 的计算处理模型;
所述处理单元403,包括:
编排子单元702,用于针对所述的每一种计算处理模型,编排相应的MapReduceJob任务,在各个MapReduce Job任务中分别定义Map函数和Reduce函数;
输入子单元703,用于将所述每一种自由组合的行健作为相应的MapReduce Job任务的输入端;
处理子单元704,用于通过MapReduce Job任务中定义的Map函数和Reduce函数对输入的数据进行处理,以生成Hbase可识别的格式文件。
在本发明一个实施例中,参见图8,一种基于Hbase的海量数据导入装置进一步包括:
第十确定单元801,用于确定至少一种目标文件格式;
进一步包括:存储单元802,用于将确定的所述至少一种目标文件格式,存储在所述数据导入工具中;
所述第一确定单元402,包括:
第一确定子单元803,用于接收输入的源数据,确定该输入的源数据对应的文件格式;
第二确定子单元804,用于在所述至少一种目标文件格式包括该输入的源数据对应的文件格式时,将该输入的源数据确定为所述目标源数据。
综上,本发明各个实施例具有如下效果:
1、本发明实施例提供了一种基于Hbase的海量数据导入方法及装置,通过生成的数据导入工具实现主键的自由组合设计,通过将主键的每一种组合设计作为数据处理的输入端,最终将数据导入到Hbase中。因此,即使查询的数据信息很大,但根据主键的组合设计在Hbase中可搜索到所有相关信息,从而能够实现增加数据查询的准确性功能。
2、在本发明实施例中,通过确定至少一个查询字段,进而设计出相应的至少一种组合设计,从而可以实现主键的自由组合设计,因此,在进行数据 查询时,可以在Hbase中通过搜索主键不同的组合设计,获取相应的准确数据信息。
3、在本发明实施例中,通过自定义生成Map函数和Reduce函数,实现对待导入源数据的处理,从而将待导入源数据文件转换为Hbase可识别的格式文件,为将待导入源数据导入到Hbase中奠定了基础。
4、在本发明实施例中,将至少一种文件格式存储在数据导入工具中,可以支持多种文件格式的数据进行导入,从而增加了数据导入的多样性,而且,在数据查询的过程中,由于Hbase中存储了多种文件类型的数据,因此也提高了查询数据的全面性。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本 发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于Hbase的海量数据导入方法,其特征在于,该方法包括:
生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计;
利用所述数据导入工具确定待导入的目标源数据;
针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作;
针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中。
2.根据权利要求1所述的方法,其特征在于,在所述生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计之前,进一步包括:
确定至少一种待导入源数据;
根据确定的每一种待导入源数据,分别确定至少一个查询字段;
针对每一种待导入源数据的至少一个查询字段,分别设计出至少一种组合方式;
将所述至少一个查询字段对应的每一种组合方式,作为行键的一种自由组合设计。
3.根据权利要求2所述的方法,其特征在于,在针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中之后,进一步包括:
根据用户需求确定相应的查询条件;
确定满足所述查询条件的至少一个查询字段;
根据满足所述查询条件的所有查询字段,确定至少一种目标组合方式;
针对每一种目标组合方式,在Hbase中进行数据查询,以获取到与每一种目标组合方式相应的源数据。
4.根据权利要求1所述的方法,其特征在于,
在所述针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作之前,进一步包括:根据确定的每一种待导入的源数据,确定相应的计算处理模型;
所述针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作,包括:
针对所述的每一种计算处理模型,编排相应的MapReduce Job任务,在各个MapReduceJob任务中分别定义Map函数和Reduce函数;
将所述每一种自由组合的行健作为相应的MapReduce Job任务的输入端;
通过MapReduce Job任务中定义的Map函数和Reduce函数对输入的数据进行处理,以生成Hbase可识别的格式文件。
5.根据权利要求2或3所述的方法,其特征在于,
进一步包括:确定至少一种目标文件格式;
所述生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计之后,进一步包括:将确定的所述至少一种目标文件格式,存储在所述数据导入工具中;
所述利用所述数据导入工具确定待导入的目标源数据,包括:接收输入的源数据,确定该输入的源数据对应的文件格式;在所述至少一种目标文件格式包括该输入的源数据对应的文件格式时,将该输入的源数据确定为所述目标源数据。
6.一种基于Hbase的海量数据导入装置,其特征在于,包括:
生成单元,用于生成数据导入工具,并在所述数据导入工具中实现行健的至少一种自由组合设计;
第一确定单元,用于利用所述数据导入工具确定待导入的目标源数据;
处理单元,用于针对每一种行健的自由组合设计,通过编排相应的任务完成对所述目标源数据的处理工作;
导入单元,用于针对处理后的输出结果,通过调用Hbase中相应的导入函数,将所述目标源数据导入到Hbase中。
7.根据权利要求6所述的基于Hbase的海量数据导入装置,其特征在于,
进一步包括:
第二确定单元,用于确定至少一种待导入源数据;
第三确定单元,用于根据确定的每一种待导入源数据,分别确定至少一个查询字段;
第四确定单元,用于针对每一种待导入源数据的至少一个查询字段,分别设计出至少一种组合方式;
第五确定单元,用于将所述至少一个查询字段对应的每一种组合方式,确定为行键的一种自由组合设计。
8.根据权利要求7所述的基于Hbase的海量数据导入装置,其特征在于,
进一步包括:
第六确定单元,用于根据用户需求确定相应的查询条件;
第七确定单元,用于确定满足所述查询条件的至少一个查询字段;
第八确定单元,用于根据满足所述查询条件的所有查询字段,确定至少一种目标组合方式;
获取单元,用于针对每一种目标组合方式,在Hbase中进行数据查询,以获取到与每一种目标组合方式相应的源数据。
9.根据权利要求6所述的基于Hbase的海量数据导入装置,其特征在于,
进一步包括:第九确定单元,用于根据确定的每一种待导入的源数据,确定相应的计算处理模型;
所述处理单元,包括:
编排子单元,用于针对所述的每一种计算处理模型,编排相应的MapReduce Job任务,在各个MapReduce Job任务中分别定义Map函数和Reduce函数;
输入子单元,用于将所述每一种自由组合的行健作为相应的MapReduceJob任务的输入端;
处理子单元,用于通过MapReduce Job任务中定义的Map函数和Reduce函数对输入的数据进行处理,以生成Hbase可识别的格式文件。
10.根据权利要求7或8所述的基于Hbase的海量数据导入装置,其特征在于,
进一步包括:第十确定单元,用于确定至少一种目标文件格式;
进一步包括:存储单元,用于将确定的所述至少一种目标文件格式,存储在所述数据导入工具中;
所述第一确定单元,包括:
第一确定子单元,用于接收输入的源数据,确定该输入的源数据对应的文件格式;
第二确定子单元,用于在所述至少一种目标文件格式包括该输入的源数据对应的文件格式时,将该输入的源数据确定为所述目标源数据。
CN201610580880.3A 2016-07-21 2016-07-21 一种基于Hbase的海量数据导入方法及装置 Pending CN106227803A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610580880.3A CN106227803A (zh) 2016-07-21 2016-07-21 一种基于Hbase的海量数据导入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610580880.3A CN106227803A (zh) 2016-07-21 2016-07-21 一种基于Hbase的海量数据导入方法及装置

Publications (1)

Publication Number Publication Date
CN106227803A true CN106227803A (zh) 2016-12-14

Family

ID=57532421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610580880.3A Pending CN106227803A (zh) 2016-07-21 2016-07-21 一种基于Hbase的海量数据导入方法及装置

Country Status (1)

Country Link
CN (1) CN106227803A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950297A (zh) * 2010-09-10 2011-01-19 北京大学 一种海量语义数据的存储和查询方法及装置
CN103077183A (zh) * 2012-12-14 2013-05-01 北京普泽天玑数据技术有限公司 一种分布式顺序表的数据导入方法及其系统
CN103631907A (zh) * 2013-11-26 2014-03-12 中国科学院信息工程研究所 一种将关系型数据迁移至HBase的方法及系统
CN104516985A (zh) * 2015-01-15 2015-04-15 浪潮(北京)电子信息产业有限公司 一种基于HBase数据库的海量数据快速导入方法
CN104915450A (zh) * 2015-07-01 2015-09-16 武汉大学 一种基于HBase的大数据存储与检索方法及系统
CN105138592A (zh) * 2015-07-31 2015-12-09 武汉虹信技术服务有限责任公司 一种基于分布式架构的日志数据存储和检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950297A (zh) * 2010-09-10 2011-01-19 北京大学 一种海量语义数据的存储和查询方法及装置
CN103077183A (zh) * 2012-12-14 2013-05-01 北京普泽天玑数据技术有限公司 一种分布式顺序表的数据导入方法及其系统
CN103631907A (zh) * 2013-11-26 2014-03-12 中国科学院信息工程研究所 一种将关系型数据迁移至HBase的方法及系统
CN104516985A (zh) * 2015-01-15 2015-04-15 浪潮(北京)电子信息产业有限公司 一种基于HBase数据库的海量数据快速导入方法
CN104915450A (zh) * 2015-07-01 2015-09-16 武汉大学 一种基于HBase的大数据存储与检索方法及系统
CN105138592A (zh) * 2015-07-31 2015-12-09 武汉虹信技术服务有限责任公司 一种基于分布式架构的日志数据存储和检索方法

Similar Documents

Publication Publication Date Title
US8966357B2 (en) User interface for establishing mappings from internal metadata to external metadata
CN107798038B (zh) 数据响应方法及数据响应设备
CN103345469B (zh) 号码集合的存储、查询方法及其装置
CN107220274B (zh) 一种可视化数据接口集市实现方法
CN109101516B (zh) 一种数据查询方法和服务器
CN110032598B (zh) 字段更新方法及装置、电子设备
US9910870B2 (en) System and method for creating data models from complex raw log files
CN104361139A (zh) 数据导入装置和方法
CN106326309A (zh) 一种数据查询方法和装置
CN107247791B (zh) 停车场地图数据生成方法、装置和机器可读存储介质
CN107992492A (zh) 一种数据区块的存储方法、读取方法、其装置及区块链
CN111813804A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN110209714A (zh) 报表生成方法、装置、计算机设备及计算机可读存储介质
CN109299096A (zh) 一种流水数据的处理方法、装置及设备
CN110399368A (zh) 一种数据操作方法及装置
CN103324749A (zh) 一种基于标准文本地址的空间化解析及纠偏方法
CN107426610A (zh) 视频信息同步方法及装置
CN104408183B (zh) 数据系统的数据导入方法和装置
CN105930354A (zh) 存储模型转换方法和装置
CN111061733B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
WO2023078078A1 (en) Unified data security labeling framework
CN106845787A (zh) 一种数据自动交换方法及装置
CN106294700A (zh) 一种日志的存储与读取方法及装置
CN106227803A (zh) 一种基于Hbase的海量数据导入方法及装置
CN105930323A (zh) 一种文件生成方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214

RJ01 Rejection of invention patent application after publication