CN109086358A

CN109086358A - 一种Hadoop的数据快速加载方法与系统

Info

Publication number: CN109086358A
Application number: CN201810794013.9A
Authority: CN
Inventors: 魏本帅; 杜彦魁
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2018-12-25

Abstract

本发明公开了一种Hadoop的数据快速加载方法与系统包括使用DLS执行：从元数据节点实时采集元数据信息，并根据元数据信息获得当前可用的数据节点信息；将本数据节点的待加载数据根据数据节点信息分割为多个数据分段，并使当前可用的数据节点同时加载多个数据分段；接收所有当前可用的数据节点的加载完成信息以结束数据加载。本发明能够将不同待加载数据或不同类型的待加载数据快速加载到HDFS中，通过并行加载方式提高加载效率。

Description

一种Hadoop的数据快速加载方法与系统

技术领域

本发明涉及计算机领域，更具体地，特别是指一种Hadoop的数据快速加载方法与系统。

背景技术

在现有技术的Hadoop分布式大数据系统中，外部数据通常被存储在某一Datanode节点的普通文件系统中。如果把想这些外部数据加载或导入Hadoop，加载的数据会被优先存放到同一Datanode节点的HDFS文件系统中，只有当本地的HDFS文件系统已满时，才会存入其他Datanode节点的HDFS文件系统。因此数据只能先向一个datanode节点加载，不能无条件地向其他节点并行加载，导致数据加载效率很低。

针对现有技术中外部数据加载到HDFS文件系统的数据加载效率很低的问题，目前尚未有有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种Hadoop的数据快速加载方法与系统，能够将不同待加载数据或不同类型的待加载数据快速加载到HDFS中，通过并行加载方式提高加载效率。

基于上述目的，本发明的一方面提供了一种Hadoop的数据快速加载方法，包括使用DLS执行以下步骤：

从元数据节点实时采集元数据信息，并根据元数据信息获得当前可用的数据节点信息；

将本数据节点的待加载数据根据数据节点信息分割为多个数据分段，并使当前可用的数据节点同时加载多个数据分段；

接收所有当前可用的数据节点的加载完成信息以结束数据加载。

在一些实施方式中，元数据信息包括当前所有的数据节点的运行状态；根据元数据信息获得当前可用的数据节点信息为：根据元数据信息获得当前所有的数据节点的运行状态并提取出当前可用的数据节点信息。

在一些实施方式中，当前可用的数据节点信息包括当前可用的数据节点的数量；将本数据节点的待加载数据根据数据节点信息分割为多个数据分段为：将本数据节点的待加载数据分割为与当前可用的数据节点的数量相同的数据分段。

在一些实施方式中，每个数据分段的大小相等、或每个数据分段的大小分别根据每个当前可用的数据节点的数据加载能力确定。

在一些实施方式中，使当前可用的数据节点同时加载多个数据分段为：使当前可用的数据节点将多个数据分段同时地并行加载到各自的HDFS中。

在一些实施方式中，当前可用的数据节点包括或不包括本数据节点。

在一些实施方式中，在使当前可用的数据节点同时加载多个数据分段之后、并且接收所有当前可用的数据节点的加载完成信息之前，方法还包括以下步骤：

当因特定数据节点的数据加载出现超时或报错而无法接收到特定数据节点的加载完成信息、并且超时或报错次数未达预定阈值时，使特定数据节点重新加载未完成加载的数据分段；

当因特定数据节点的数据加载出现超时或报错而无法接收到特定数据节点的加载完成信息、并且超时或报错次数达到预定阈值时，寻找其他当前的空闲数据节点并使空闲数据节点来加载未完成加载的数据分段。

当因特定数据节点宕机而无法接收到特定数据节点的加载完成信息时，寻找其他当前的空闲数据节点并使空闲数据节点来加载未完成加载的数据分段。

在一些实施方式中，寻找其他当前的空闲数据节点为：从元数据节点实时采集元数据信息，根据元数据信息获得当前可用的数据节点信息，并根据当前可用的数据节点信息来选择一个当前的空闲数据节点。

本发明实施例的另一方面，还提供了一种Hadoop的数据快速加载系统，包括全部连接到网络总线的至少一个元数据节点和多个数据节点，其中每个数据节点包括：

处理器；

存储器，所述存储器存储有：

存储该待加载数据的FS；

存储已加载文件的HDFS；

DLS，DLS包括可在处理器上运行的DLS程序代码，其中处理器在运行DLS程序代码时执行上述的Hadoop的数据快速加载方法来将待加载数据加载到多个数据节点的HDFS中。

本发明具有以下有益技术效果：本发明实施例提供的Hadoop的数据快速加载方法与系统，通过从元数据节点实时采集元数据信息并获得当前可用的数据节点信息、将本数据节点的待加载数据根据数据节点信息分割为多个数据分段并使当前可用的数据节点同时加载多个数据分段、接收所有当前可用的数据节点的加载完成信息以结束数据加载的技术方案，能够将不同待加载数据或不同类型的待加载数据快速加载到HDFS中，通过并行加载方式提高加载效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的数据加载示意图；

图2为本发明提供的Hadoop的数据快速加载方法的流程示意图；

图3为本发明提供的Hadoop的数据快速加载方法的数据加载示意图；

图4为本发明提供的Hadoop的数据快速加载系统的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够将不同待加载数据或不同类型的待加载数据快速加载到HDFS中的方法的实施例。图2示出的是本发明提供的Hadoop的数据快速加载方法的实施例的流程示意图。

所述Hadoop的数据快速加载方法，如图2所示包括使用DLS执行以下步骤：

步骤S201，从元数据节点实时采集元数据信息，并根据元数据信息获得当前可用的数据节点信息；

步骤S203，将本数据节点的待加载数据根据数据节点信息分割为多个数据分段，并使当前可用的数据节点同时加载多个数据分段；

步骤S205，接收所有当前可用的数据节点的加载完成信息以结束数据加载。

本发明通过在每个节点配置并启动一个DLS(数据加载服务)程序来实现并行加载数据的功能。如图2所示，DLS服务——按照上述步骤——实时读取Namdenode节点(即元数据节点)的元数据信息来实时监控所有Datanode节点(即数据节点)的运行状态，以判断Datanode节点是否在在线；并且在数据加载时对要加载的数据分段，并且对每个在线Datanode节点分配加载任务来实现并行数据加载，由此提高数据加载效率，充分利用集群中的每个Datanode节点。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

现有技术的情况如图1所示：外部数据存储于Datanode1节点的普通文件系统FS。如果想把这些数据加载进大数据集群HDFS中，系统默认会先把数据放入Datanode的HDFS中，等到Datanode空间用满或邻近用满时，才去把剩余的加载数据传入其他的Datanode2到DatanodeN节点中。这导致了数据在特定情况下加载效率低。如果Datanode1节点存储空间和加载的数据量都很大时，加载的时间势必然很长。

而本发明实施例在所有Datanode节点部署DLS程序(Data Load Service)。DLS的功能为执行以下步骤，参考图3可见：

-实时读取Namenode节点的元数据信息，通过元数据信息判断目前可用的Datanode节点信息，并记录在DLS中。

-在进行本Datanode节点的数据加载时，将以本Datanode节点的DLS作为数据分段和并行加载的管理者。在本地进行数据分段，把大小均等的数据分段通过网络在所有在线的Datanode节点进行数据加载(包括本Datanode节点)，每个Datanode节点在完成数据加载任务后向DLS管理者反馈完成信息。等到所有的Datanode节点均完成数据加载任务后，DLS管理者则认为数据加载任务完成，并把成功的结果反馈给Hadoop系统。

-如果某一Datanode节点在数据加载时出现超时、报错等，无法完成数据加载时，DLS管理者将任务尝试重新分配任务给同一Datanode节点；如果仍然无法完成数据加载，DLS管理者将该任务重新分配给其他空闲节点。

-如果某一Datanode节点在数据加载时宕机，DLS管理者将该任务重新分配给其他空闲节点。

根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

元数据指的是数据的数据，元数据信息可以理解成为了在分布式系统中寻址特定数据而存储的指针信息。获取元数据信息可以根据其指针情况确定各数据节点的工作情况，以确定当前可用的数据节点。

本发明实施例旨在压缩数据加载时间，而使用并行传输方式压缩数据加载时间的极限情况就是调用所有可用的数据节点同时并行加载数据以最大程度的利用带宽、压缩时间。在这种情况下，数据分段的数量与所有可用的数据节点相匹配是最优选的。

在一些实施方式中，每个数据分段的大小相等、或每个数据分段的大小分别由每个当前可用的数据节点的数据加载能力确定。对于所有数据节点的数据加载能力相差不多的情况下，数据分段大小相等是最合适的；但是对于各数据节点差异性大的环境，显然按能力分配是更加优选的。

在一些实施方式中，使当前可用的数据节点同时加载多个数据分段为：使当前可用的数据节点将多个数据分段同时地并行加载到各自的HDFS中。每个HDFS分别保存相应的数据片段，并将各自保存的数据片段位置记载在元数据节点以便日后访问。

在一些实施方式中，当前可用的数据节点包括或不包括本数据节点。优选的情况下为了获得最大并发数量应当包括本数据节点，但是本领域技术人员在特定情况下也可以选择使本数据节点成为更纯粹的管理者，比如本数据节点容量已满；这种设计可以很好地与现有技术相兼容。

在一些实施方式中，寻找其他当前的空闲数据节点为：从元数据节点实时采集元数据信息，根据元数据信息获得当前可用的数据节点信息，并根据当前可用的数据节点信息来选择其他当前的空闲数据节点。

上述的技术方案描述的是传输失败的情况。总体来说传输失败由两种原因：永久性的和临时性的。永久性原因将导致数据节点的更换，而临时性原因将导致重试。

结合这里的公开所描述的方法步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。所述存储介质也可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。处理器和存储介质也可以作为分立组件驻留在用户终端中。

从上述实施例可以看出，本发明实施例提供的Hadoop的数据快速加载方法，通过从元数据节点实时采集元数据信息并获得当前可用的数据节点信息、将本数据节点的待加载数据根据数据节点信息分割为多个数据分段并使当前可用的数据节点同时加载多个数据分段、接收所有当前可用的数据节点的加载完成信息以成功结束数据加载的技术方案，能够将不同待加载数据或不同类型的待加载数据快速加载到HDFS中，通过并行加载方式提高加载效率。

需要特别指出的是，上述Hadoop的数据快速加载方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于Hadoop的数据快速加载方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种Hadoop的数据快速加载系统的一个实施例。

所述Hadoop的数据快速加载系统包括全部连接到网络总线的至少一个元数据节点和多个数据节点，其中每个数据节点包括处理器、和存储器，存储器存储有：存储待加载数据的FS、存储已加载文件的HDFS、和DLS。DLS包括可在处理器上运行的DLS程序代码，其中处理器在运行DLS程序代码时执行上述的Hadoop的数据快速加载方法来将待加载数据加载到多个数据节点的HDFS中。

这里描述的DLS程序代码可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就DLS程序代码的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

如图4所示，为本发明提供的Hadoop的数据快速加载系统的一个实施例的硬件结构示意图。以如图4所示的Hadoop的数据快速加载系统的计算机设备为例，在该计算机设备中包括处理器401以及存储器402，并还可以包括输入装置403和输出装置404。

本发明实施例公开所述的系统可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本发明实施例公开的保护范围不应限定为某种特定类型的系统。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。

处理器401、DLS存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述Hadoop的数据快速加载方法对应的程序指令/模块。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的Hadoop的数据快速加载方法。

此外，应该明白的是，本文所述的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据Hadoop的数据快速加载系统的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置403可接收输入的数字或字符信息，以及产生与Hadoop的数据快速加载系统的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。

所述一个或者多个Hadoop的数据快速加载方法对应的程序指令/模块存储在所述存储器402中，当被所述处理器401执行时，执行上述任意方法实施例中的Hadoop的数据快速加载方法。

所述Hadoop的数据快速加载系统的任何一个实施例可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种Hadoop的数据快速加载方法，其特征在于，包括使用DLS执行以下步骤：

从元数据节点实时采集元数据信息，并根据所述元数据信息获得当前可用的数据节点信息；

将本数据节点的待加载数据根据所述数据节点信息分割为多个数据分段，并使当前可用的所述数据节点同时加载所述多个数据分段；

接收所有当前可用的所述数据节点的加载完成信息以结束数据加载。

2.根据权利要求1所述的方法，其特征在于，所述元数据信息包括当前所有的所述数据节点的运行状态；根据所述元数据信息获得当前可用的所述数据节点信息为：根据所述元数据信息获得当前所有的所述数据节点的运行状态并提取出当前可用的所述数据节点信息。

3.根据权利要求1所述的方法，其特征在于，当前可用的所述数据节点信息包括当前可用的所述数据节点的数量；将本数据节点的待加载数据根据所述数据节点信息分割为多个数据分段为：将本数据节点的待加载数据分割为与当前可用的所述数据节点的数量相同的数据分段。

4.根据权利要求3所述的方法，其特征在于，每个所述数据分段的大小相等、或每个所述数据分段的大小分别根据每个当前可用的所述数据节点的数据加载能力确定。

5.根据权利要求1所述的方法，其特征在于，使当前可用的所述数据节点同时加载所述多个数据分段为：使当前可用的所述数据节点将所述多个数据分段同时地并行加载到各自的HDFS中。

6.根据权利要求1所述的方法，其特征在于，当前可用的所述数据节点包括或不包括本数据节点。

7.根据权利要求1所述的方法，其特征在于，在使当前可用的所述数据节点同时加载所述多个数据分段之后、并且接收所有当前可用的所述数据节点的加载完成信息之前，所述方法还包括以下步骤：

当因特定数据节点的数据加载出现超时或报错而无法接收到所述特定数据节点的加载完成信息、并且所述超时或报错次数未达预定阈值时，使所述特定数据节点重新加载未完成加载的数据分段；

当因特定数据节点的数据加载出现超时或报错而无法接收到所述特定数据节点的加载完成信息、并且所述超时或报错次数达到预定阈值时，寻找其他当前的空闲数据节点并使所述空闲数据节点来加载未完成加载的数据分段。

8.根据权利要求1所述的方法，其特征在于，在使当前可用的所述数据节点同时加载所述多个数据分段之后、并且接收所有当前可用的所述数据节点的加载完成信息之前，所述方法还包括以下步骤：

当因特定数据节点宕机而无法接收到所述特定数据节点的加载完成信息时，寻找其他当前的空闲数据节点并使所述空闲数据节点来加载未完成加载的数据分段。

9.根据权利要求7或8所述的方法，其特征在于，寻找其他当前的所述空闲数据节点为：从所述元数据节点实时采集元数据信息，根据所述元数据信息获得当前可用的所述数据节点信息，并根据当前可用的所述数据节点信息来选择一个当前的所述空闲数据节点。

10.一种Hadoop的数据快速加载系统，其特征在于，包括全部连接到网络总线的至少一个元数据节点和多个数据节点，其中每个所述数据节点包括：

处理器；

存储器，所述存储器存储有：

存储所述待加载数据的FS；

存储已加载文件的HDFS；

DLS，所述DLS包括可在所述处理器上运行的DLS程序代码，其中所述处理器在运行所述DLS程序代码时执行如权利要求1-9中任意一项所述的Hadoop的数据快速加载方法来将所述待加载数据加载到多个所述数据节点的HDFS中。