CN102281312A

CN102281312A - 一种数据加载方法、系统和数据处理方法、系统

Info

Publication number: CN102281312A
Application number: CN2010102054262A
Authority: CN
Inventors: 蔡斌; 宫振飞; 郭玮; 刘奕慧; 史晓峰; 张文郁
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2010-06-12
Filing date: 2010-06-12
Publication date: 2011-12-14
Anticipated expiration: 2030-06-12
Also published as: CN102281312B

Abstract

本发明实施例公开了一种数据加载方法、系统和数据处理方法、系统。该方法包括：在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点，在该数据节点上为该原始数据划分文件带区；该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上；所述元数据信息包括原始数据的名称和文件带区信息。应用本发明能够节省网络传输资源。

Description

一种数据加载方法、系统和数据处理方法、系统

技术领域

本发明涉及并行分布式容错文件系统技术领域，尤其涉及一种数据加载方法、系统和数据处理方法、系统。

背景技术

目前，网络文件系统得到了广泛应用，其工作原理是：将服务器上的逻辑卷开放给远程客户端，远程客户端可以像操作本地硬盘一样操作该服务器上的文件。分布式文件系统是一种典型的网络文件系统，分布式文件系统允许其他多个系统通过网络以透明的方式对分布在网络上的文件进行访问。

并行分布式容错文件系统是一种支持文件带区划分、数据复制、数据一致性检查和并行访问的分布式文件系统。并行分布式容错文件系统将文件划分出多个文件带区，通过数据复制和数据一致性检查，使得各个文件带区存储的数据一致，从而达到容错的效果。同时，由于多个文件带区中存储相同的数据，因此可以并行访问多个文件带区。目前互联网上应用的大规模文件系统，很多都采用并行分布式容错文件系统的架构，例如Hadoop分布式文件系统(HDFS)。

图1是现有技术中的并行分布式容错文件系统的结构示意图。

图1所示结构是以HDFS为例，但是其仍然适用于其他并行分布式容错文件系统。

图1中服务器侧包括名称节点(NameNode)模块和数据节点(DataNode)模块。其中一个HDFS系统仅有一个NameNode，用于HDFS系统中数据存储信息的元数据管理、数据完整性管理和访问安全性管理等，数据存储信息的元数据记载了文件带区名称以及文件带区的具体存储位置等。一个HDFS系统通常有多个DataNode，用于存储文件带区的多个副本。

图1中，客户端(Client)用于文件系统客户访问分布式文件系统，即通过与服务器侧的NameNode模块和DataNode模块进行通信，获取客户需要的数据信息。

具体地，客户端与NameNode模块进行通信，获取NameNode模块上存储的文件带区的存储位置信息，客户端根据该存储位置信息，到相应的DataNode模块上获取所述文件带区中的数据。例如，在图1中，客户端要读取的数据在文件带区1中，那么，客户端通过NameNode查找文件带区1的存储位置，查找结果是文件带区1存储在DataNode1中，则客户端通过访问DataNode1读取文件带区1。再例如，在图1中，客户端需要向HDFS系统中写数据，那么客户端首先通过访问NameNode得到数据的存储位置，然后向相应位置上的DataNode发起写请求，将相应的数据写到相应的DataNode上，其中，所写的数据可以同时写到多个DataNode上，以保证必要的文件带区副本数，这样，即便其中一个DataNode崩溃，还可以从其他正常的DataNode上获取数据，或者将该正常的DataNode上的数据复制到其他DataNode上，以保证所述文件带区副本数。

图2是目前并行分布式容错文件系统加载数据的方法流程图。

如图2所示，该方法包括：

步骤201，将需要加载的原始数据上传到预先布置的DataNode上。

本步骤中，对于并行分布式容错文件系统中所有要处理的原始数据，都需要通过客户端上传到DataNode上，其中的DataNode通常是在并行分布式容错文件系统中用于存储数据并进行相应格式转换等处理的设备。

步骤202，DataNode将上传的原始数据处理成预定格式。

本步骤中，DataNode将数据根据文件带区格式进行划分，创建与各个文件带区相对应的校验文件。

步骤203，更新NameNode上相应的元数据信息。

在步骤202对新上传到DataNode上的原始数据处理完毕后，步骤203将处理完毕的数据信息，例如文件带区数、校验文件存储位置等作为元数据信息上传到NameNode上，至此完成数据加载过程。

由图2可知，并行分布式容错文件系统中所有要处理的数据，都需要上传到预先布置的DataNode上，当客户端需要获取数据，或者当需要对数据进行分析处理时，都需要到相应的DataNode上获取数据。

无论是将数据加载到DataNode上，还是在需要对数据进行分析处理时从DataNode上获取数据，都需要占用大量的网络传输资源。例如，当计算资源本地有需要处理的数据时，也需要先通过图2将该数据加载到DataNode上，然后再从该DataNode上获取数据来进行相应的处理。

计算资源的调度是绿色计算(Green Computing)中的重要技术，其根据系统的状态信息和预测信息，将互相独立的应用需要的计算资源，映射到适当的物理资源上，并在适当的时刻运行。

在采用计算资源调度技术的系统中，常常会出现某些计算资源所在的物理设备上存储有需要利用该计算资源进行处理的原始数据，则按照现有技术，需要先根据图2加载原始数据的方法，将该计算资源所在物理设备上的原始数据加载到DataNode上，然后该计算资源所在物理设备再从DataNode上获取相应的数据，利用所述计算资源对获取的数据进行分析处理，浪费网络传输资源，特别是目前互联网系统每天产生的数据已经达到了T级别，在各个系统之间传输数据将占用大量的网络资源。

例如，在一个典型的互联网公司，通常业务处理系统的忙时集中在早上8点到晚上12点，而相应的业务分析系统的忙时出现在晚上12点到早上6点。通过计算资源的调度，可以在晚上12点到早上6点，将业务处理系统的一部分计算资源转移到业务分析系统；而在早上8点到晚上12点，可以将业务分析系统的一部分计算资源转移到业务处理系统，从而保证计算资源的利用率。

业务分析系统需要分析的数据，例如访问日志数据、系统日志数据等，都是由业务处理系统产生的，按照现有技术，需要将业务处理系统产生的数据加载到业务分析系统的DataNode上。然而，当采用计算资源调度技术，将业务系统的部分计算资源转移到业务分析系统中用于业务分析处理时，可能会出现该部分计算资源上的原始数据已经按照现有技术加载到了业务分析系统的DataNode上，因此利用该部分计算资源进行业务分析处理时，还需要从业务分析系统的DataNode上获取相应的数据，而这部分数据本来就是由业务系统产生并存储在该部分计算资源所在物理设备上的，可见，现有加载数据的方法将浪费大量的网络传输资源。

发明内容

有鉴于此，本发明提供了一种数据加载方法、系统和数据处理方法、系统，以节省网络传输资源。

本发明的技术方案具体是这样实现的：

一种数据加载方法，应用于并行分布式容错文件系统，该方法包括：

在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点，在该数据节点上为该原始数据划分文件带区；

该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上；

所述元数据信息包括原始数据的名称和文件带区信息。

一种数据加载系统，该系统包括原始数据所在的物理设备和并行分布式容错文件系统中的名称节点；

原始数据所在的物理设备，在该物理设备上创建并行分布式容错文件系统的数据节点，在该数据节点上为该原始数据划分文件带区，将该原始数据在该数据节点上的元数据信息加载到所述名称节点上，所述元数据信息包括原始数据的名称和文件带区信息；

所述名称节点，用于存储元数据信息。

一种数据处理方法，该方法包括：

在当前数据处理系统中的计算资源所在物理设备上有需要处理的原始数据时，在该物理设备上创建并行分布式容错文件系统的数据节点，在该数据节点上为该原始数据划分文件带区，该物理设备将该数据节点上的元数据信息上传到名称节点上，所述元数据信息包括原始数据的名称和文件带区信息；

所述计算资源从所述名称节点上获取所述原始数据的元数据信息，根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行处理。

一种数据处理系统，该系统包括计算资源所在的物理设备和并行分布式容错文件系统中的名称节点；

所述计算资源所在的物理设备，如果该物理设备上有当前数据处理系统需要处理的原始数据，则在该物理设备上创建并行分布式容错文件系统的数据节点，在该数据节点上为该原始数据划分文件带区，该物理设备将该原始数据在数据节点上的元数据信息上传到所述名称节点上，所述元数据信息包括原始数据的名称和文件带区信息；

所述计算资源从所述名称节点上获取所述原始数据的元数据信息，根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理；

所述名称节点，用于存储元数据信息。

由上述技术方案可见，本发明提供的技术方案，通过在原始数据所在的物理设备上对该原始数据进行文件带区划分等预处理，并将相应的元数据信息上传到NameNode，实现将数据加载到并行分布式容错文件系统中，也就是说，通过在本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件系统中加载数据，与现有技术中需要将所有的原始数据都传输到预先布置的DataNode相比，节省了网络传输资源。

特别地，当对计算资源进行调度时，如果被调度用于第一数据处理系统的计算资源所在的物理设备上存储有需要进行第一数据处理的原始数据，则通过在该物理设备本地对该原始数据进行处理、且仅上传相应的元数据信息实现向并行分布式容错文件系统中加载数据，这样就可以利用该计算资源在本地对相应的数据进行第一数据处理，既无需将原始数据上传到预先布置的DataNode上，也无需从预先布置的DataNode上下载数据来进行第一数据处理，能够大大地节省网络传输资源。

附图说明

图1是现有技术中的并行分布式容错文件系统的结构示意图。

图2是目前并行分布式容错文件系统加载数据的方法流程图。

图3是本发明提供的数据加载方法流程图。

图4是本发明提供的数据加载系统的组成示意图。

图5是本发明提供的数据处理方法流程图。

图6是本发明提供的数据处理系统的组成示意图。

图7是本发明提供的业务分析系统的系统组成及数据处理流程图。

具体实施方式

本发明提供的数据加载方法和系统，通过在本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件系统中加载数据，具体请参见图3和图4。

图3是本发明提供的数据加载方法流程图。

如图3所示，该流程包括：

步骤301，在原始数据所在的物理设备上创建DataNode。

本步骤中，需要在所述物理设备上为原始数据创建持久的存储信息，一般通过创建并行分布式容错文件系统的DataNode来实现。

步骤302，在该DataNode上为该原始数据划分文件带区。

本步骤中，需要对该原始数据进行预处理，使其符合DataNode要求的数据格式。具体地，该预处理包括划分文件带区，还可以包括：将原始数据复制到各个文件带区内，计算各个文件带区的校验值。其中，将原始数据复制到各个文件带区内以及计算各个文件带区的校验值可以在步骤303执行完之后再进行。

步骤303，该原始数据所在的物理设备将该原始数据在DataNode上的元数据信息加载到所述并行分布式容错文件系统的NameNode上。

所述元数据信息包括原始数据的名称和文件带区信息，还可以包括各个文件带区的校验值信息。

图4是本发明提供的数据加载系统的组成示意图。

如图4所示，该系统包括原始数据所在的物理设备401和并行分布式容错文件系统中的名称节点NameNode402。

原始数据所在的物理设备401，在该物理设备401上创建并行分布式容错文件系统的数据节点DataNode，在该DataNode上为该原始数据划分文件带区，将该原始数据在该DataNode上的元数据信息加载到所述NameNode402上，所述元数据信息包括原始数据的名称和文件带区信息。

所述NameNode402，用于存储元数据信息。

其中，原始数据所在的物理设备401，还可以计算各个文件带区的校验值。

相应地，所述元数据信息进一步包括：原始数据的各个文件带区的校验值信息。

本发明提供的数据处理方法和系统，通过在计算资源所在的物理设备本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件系统中加载数据，进而利用所述计算资源对该计算资源所在的物理设备本地的数据进行相应的处理，以节省网络传输资源，具体请参见图5和图6。

图5是本发明提供的数据处理方法流程图。

如图5所示，该方法包括：

步骤501，判断用于第一数据处理系统的计算资源所在的物理设备上是否有进行第一数据处理所需要的原始数据，如果是，执行步骤502，否则结束本流程。

步骤502，在该物理设备上创建并行分布式容错文件系统的DataNode。

步骤503，将该物理设备上的原始数据处理成符合DataNode要求的格式，并将处理后的数据存储在所述DataNode上。

本步骤中，需要为所述原始数据划分文件带区，将所述原始数据拷贝到各个文件带区，计算各个文件带区的校验值，其中，可以在步骤504更新完元数据信息以后再计算各个文件带区的校验值。

步骤504，所述物理设备将该DataNode上的元数据信息上传到NameNode上。

本步骤的元数据信息包括原始数据的名称、文件带区信息、校验值信息等。

通过在计算资源所在物理设备本地创建DataNode，并将原始数据处理成DataNode要求的格式，再将元数据信息上传到NameNode，不需要进行实际的网络传输，即可将所述物理设备上的原始数据导入并行分布式容错文件系统，因而节省了网络传输资源。

步骤505，所述计算资源从所述NameNode上获取所述原始数据的元数据信息。

步骤506，所述计算资源根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理。

计算资源通过从NameNode上获取的元数据信息可以判断出其需要进行处理的数据存储在该计算资源所在物理设备本地，因此对本地的数据进行第一数据处理即可，无需从其他物理设备上获取数据，与现有技术中从预先布置的DataNode上获取数据相比，能够大大地节省网络传输资源。

典型地，图5所示方法可以应用在采用计算资源调度技术进行数据处理的场景中。

例如，计算资源首先被调度用于第二数据处理系统，在该第二数据处理系统中产生进行第一数据处理所需的原始数据，换言之，在该计算资源所在的物理设备上存储有第一数据处理所需的原始数据。在对所述原始数据进行第一数据处理时，需要将所述计算资源调度到第一数据处理系统中，通过将该计算资源所在物理设备上产生的进行第一数据处理所需的原始数据转换成DataNode所要求的格式，再将相应的元数据信息上传到NameNode，使得该计算资源所在物理设备可以直接对本地数据进行第一数据处理，而无需通过网络传输从其他物理设备上获取需要处理的数据。其中，将原始数据转换成DataNode所要求的格式包括：为该原始数据划分文件带区，将原始数据拷贝到各个文件带区内，计算各个文件带区的校验值。

在所述计算资源再次被调度用于第二数据处理系统时，删除该计算资源所在物理设备上创建的DataNode以及为所述原始数据划分的文件带区，并将更新的元数据信息上传到所述NameNode节点上，即将所述原始数据从并行分布式容错文件系统中删除。

图6是本发明提供的数据处理系统的组成示意图。

如图6所示，该系统包括计算资源所在的物理设备601和并行分布式容错文件系统中的名称节点NameNode602。

所述计算资源所在的物理设备601，在该计算资源用于第一数据处理系统时，如果该物理设备601上有第一数据处理系统需要处理的原始数据，则在该物理设备601上创建并行分布式容错文件系统的DataNode，在该DataNode上为该原始数据划分文件带区，该物理设备601将该原始数据在DataNode上的元数据信息上传到所述NameNode602上，所述元数据信息包括原始数据的名称和文件带区信息。

所述计算资源从所述NameNode602上获取所述原始数据的元数据信息，根据该元数据信息对存储在该计算资源所在物理设备601本地的数据进行第一数据处理。

所述NameNode602，用于存储元数据信息。

其中，计算资源所在的物理设备601，在所述计算资源被调度用于第二数据处理系统时，删除在该物理设备601上创建的DataNode以及为所述原始数据划分的文件带区，将更新的元数据信息上传到所述NameNode节点602上。

示例性地，第一数据处理系统可以是业务分析系统，第二数据处理系统可以是业务处理系统。

下面以第一数据处理系统是业务分析系统，第二数据处理系统是业务系统为例，对本发明提供的技术方案进行示例性说明，具体请参见图7。

参见图7，图7所示系统包括：NameNode模块、DataNode模块、客户端模块和计算资源模块，其中的计算资源模块和DataNode模块位于相同物理设备上，所述计算资源模块是可以动态调度的计算机系统，其可以用于业务处理系统也可以用于业务分析系统，在图7中，该计算资源模块被调度用于业务分析系统，且该计算资源模块之前被调度用于业务处理系统，因此该计算资源模块所在物理设备上存储有业务处理系统产生的业务数据，该业务数据是业务分析系统需要处理的原始数据。

参见图7，图7所示业务分析系统处理数据的流程包括：

步骤1：进行计算资源模块的格式化。

本步骤中，需要按照并行分布式容错文件系统的数据存储格式，在被业务系统和业务分析系统共享的计算资源模块上建立并行分布式容错文件系统的DataNode需要的持久化存储信息，即在该计算资源模块所在的物理设备上创建并行分布式容错文件系统的DataNode。

步骤2，对文件数据进行预处理。

本步骤中，对业务分析系统需要处理的数据进行的预处理包括：在DataNode中为该文件数据划分文件带区，计算各个文件带区的校验值。

其中，计算各个文件带区的校验值也可以在步骤3或者步骤5执行的过程中或者执行完毕后再进行。

步骤3，将预处理后的文件数据上传到DataNode中。

本步骤中，将预处理后的文件数据传输到DataNode模块中的各个文件带区内，其中，可以通过流水线机制将文件数据传输到各个文件带区内，即通过步骤31将数据复制到多个DataNode模块中，步骤31执行完毕之后执行步骤5；也可以先通过步骤32将文件数据只上传到一个DataNode模块中，然后通过步骤4在将文件数据复制到其他DataNode模块中，步骤4执行完毕之后执行步骤5。

步骤5，更新NameNode中的元数据。

本步骤中，由客户端统一更改NameNode中的文件元数据，具体包括文件名、文件带区列表、文件带区的访问控制记录和文件带区的副本数信息等。

通过步骤2、步骤3和步骤5实现了将业务分析系统需要处理的文件数据上传到并行分布式容错文件系统，而在该上传过程中，仅在元数据更新的步骤中存在实际的数据传输，由于文件数据预处理和文件上传的过程都是在文件数据本地完成的，因此并不存在实际上的数据传输。

另外，在一个业务分析系统中，可以存在多个实例用于执行步骤2、3和5的数据上传过程，各个实例之间相互不影响，

步骤6，从业务处理系统中调度计算资源用于业务分析系统。

本步骤中，将计算资源从业务处理系统加载到业务分析系统中，该计算资源从NameNode中获知其需要处理的数据存储在该计算资源所在物理设备本地，因此该计算资源对本地的数据进行处理。例如，该计算资源可以利用映射规约(MapReduce)算法对本地数据进行处理。

步骤7，将步骤6中的计算资源回收到业务处理系统中。

本步骤中，需要将业务分析系统中的计算资源回收到业务处理系统中，具体包括：删除该业务分析系统中的DataNode及其上的文件带区，更新NameNode中的元数据信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种数据加载方法，应用于并行分布式容错文件系统，其特征在于，该方法包括：

所述元数据信息包括原始数据的名称和文件带区信息。

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：

原始数据所在物理设备计算各个文件带区的校验值；

所述元数据信息进一步包括：原始数据的各个文件带区的校验值信息。

3.一种数据加载系统，其特征在于，该系统包括原始数据所在的物理设备和并行分布式容错文件系统中的名称节点；

所述名称节点，用于存储元数据信息。

4.根据权利要求3所述的系统，其特征在于，

所述原始数据所在的物理设备，计算各个文件带区的校验值；

5.一种数据处理方法，其特征在于，该方法包括：

6.根据权利要求5所述的方法，其特征在于，该方法进一步包括：

当所述计算资源被调度用于另一种数据处理系统时，该计算资源所在的物理设备删除在该物理设备上创建的所述数据节点以及为所述原始数据划分的文件带区，将更新的元数据信息上传到所述名称节点上。

7.根据权利要求5或6所述的方法，其特征在于，

所述当前数据处理系统是业务分析系统，所述另一种数据处理系统是业务处理系统。

8.一种数据处理系统，其特征在于，该系统包括计算资源所在的物理设备和并行分布式容错文件系统中的名称节点；

所述名称节点，用于存储元数据信息。

9.根据权利要求8所述的系统，其特征在于，

该计算资源所在的物理设备，在所述计算资源被调度用于另一种数据处理系统时，删除在该物理设备上创建的所述数据节点以及为所述原始数据划分的文件带区，将更新的元数据信息上传到所述名称节点上。

10.根据权利要求8或9所述的系统，其特征在于，