CN102281312A - 一种数据加载方法、系统和数据处理方法、系统 - Google Patents

一种数据加载方法、系统和数据处理方法、系统 Download PDF

Info

Publication number
CN102281312A
CN102281312A CN2010102054262A CN201010205426A CN102281312A CN 102281312 A CN102281312 A CN 102281312A CN 2010102054262 A CN2010102054262 A CN 2010102054262A CN 201010205426 A CN201010205426 A CN 201010205426A CN 102281312 A CN102281312 A CN 102281312A
Authority
CN
China
Prior art keywords
data
initial data
physical equipment
file
metadata information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102054262A
Other languages
English (en)
Other versions
CN102281312B (zh
Inventor
蔡斌
宫振飞
郭玮
刘奕慧
史晓峰
张文郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201010205426.2A priority Critical patent/CN102281312B/zh
Publication of CN102281312A publication Critical patent/CN102281312A/zh
Application granted granted Critical
Publication of CN102281312B publication Critical patent/CN102281312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了一种数据加载方法、系统和数据处理方法、系统。该方法包括:在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点,在该数据节点上为该原始数据划分文件带区;该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上;所述元数据信息包括原始数据的名称和文件带区信息。应用本发明能够节省网络传输资源。

Description

一种数据加载方法、系统和数据处理方法、系统
技术领域
本发明涉及并行分布式容错文件系统技术领域,尤其涉及一种数据加载方法、系统和数据处理方法、系统。
背景技术
目前,网络文件系统得到了广泛应用,其工作原理是:将服务器上的逻辑卷开放给远程客户端,远程客户端可以像操作本地硬盘一样操作该服务器上的文件。分布式文件系统是一种典型的网络文件系统,分布式文件系统允许其他多个系统通过网络以透明的方式对分布在网络上的文件进行访问。
并行分布式容错文件系统是一种支持文件带区划分、数据复制、数据一致性检查和并行访问的分布式文件系统。并行分布式容错文件系统将文件划分出多个文件带区,通过数据复制和数据一致性检查,使得各个文件带区存储的数据一致,从而达到容错的效果。同时,由于多个文件带区中存储相同的数据,因此可以并行访问多个文件带区。目前互联网上应用的大规模文件系统,很多都采用并行分布式容错文件系统的架构,例如Hadoop分布式文件系统(HDFS)。
图1是现有技术中的并行分布式容错文件系统的结构示意图。
图1所示结构是以HDFS为例,但是其仍然适用于其他并行分布式容错文件系统。
图1中服务器侧包括名称节点(NameNode)模块和数据节点(DataNode)模块。其中一个HDFS系统仅有一个NameNode,用于HDFS系统中数据存储信息的元数据管理、数据完整性管理和访问安全性管理等,数据存储信息的元数据记载了文件带区名称以及文件带区的具体存储位置等。一个HDFS系统通常有多个DataNode,用于存储文件带区的多个副本。
图1中,客户端(Client)用于文件系统客户访问分布式文件系统,即通过与服务器侧的NameNode模块和DataNode模块进行通信,获取客户需要的数据信息。
具体地,客户端与NameNode模块进行通信,获取NameNode模块上存储的文件带区的存储位置信息,客户端根据该存储位置信息,到相应的DataNode模块上获取所述文件带区中的数据。例如,在图1中,客户端要读取的数据在文件带区1中,那么,客户端通过NameNode查找文件带区1的存储位置,查找结果是文件带区1存储在DataNode1中,则客户端通过访问DataNode1读取文件带区1。再例如,在图1中,客户端需要向HDFS系统中写数据,那么客户端首先通过访问NameNode得到数据的存储位置,然后向相应位置上的DataNode发起写请求,将相应的数据写到相应的DataNode上,其中,所写的数据可以同时写到多个DataNode上,以保证必要的文件带区副本数,这样,即便其中一个DataNode崩溃,还可以从其他正常的DataNode上获取数据,或者将该正常的DataNode上的数据复制到其他DataNode上,以保证所述文件带区副本数。
图2是目前并行分布式容错文件系统加载数据的方法流程图。
如图2所示,该方法包括:
步骤201,将需要加载的原始数据上传到预先布置的DataNode上。
本步骤中,对于并行分布式容错文件系统中所有要处理的原始数据,都需要通过客户端上传到DataNode上,其中的DataNode通常是在并行分布式容错文件系统中用于存储数据并进行相应格式转换等处理的设备。
步骤202,DataNode将上传的原始数据处理成预定格式。
本步骤中,DataNode将数据根据文件带区格式进行划分,创建与各个文件带区相对应的校验文件。
步骤203,更新NameNode上相应的元数据信息。
在步骤202对新上传到DataNode上的原始数据处理完毕后,步骤203将处理完毕的数据信息,例如文件带区数、校验文件存储位置等作为元数据信息上传到NameNode上,至此完成数据加载过程。
由图2可知,并行分布式容错文件系统中所有要处理的数据,都需要上传到预先布置的DataNode上,当客户端需要获取数据,或者当需要对数据进行分析处理时,都需要到相应的DataNode上获取数据。
无论是将数据加载到DataNode上,还是在需要对数据进行分析处理时从DataNode上获取数据,都需要占用大量的网络传输资源。例如,当计算资源本地有需要处理的数据时,也需要先通过图2将该数据加载到DataNode上,然后再从该DataNode上获取数据来进行相应的处理。
计算资源的调度是绿色计算(Green Computing)中的重要技术,其根据系统的状态信息和预测信息,将互相独立的应用需要的计算资源,映射到适当的物理资源上,并在适当的时刻运行。
在采用计算资源调度技术的系统中,常常会出现某些计算资源所在的物理设备上存储有需要利用该计算资源进行处理的原始数据,则按照现有技术,需要先根据图2加载原始数据的方法,将该计算资源所在物理设备上的原始数据加载到DataNode上,然后该计算资源所在物理设备再从DataNode上获取相应的数据,利用所述计算资源对获取的数据进行分析处理,浪费网络传输资源,特别是目前互联网系统每天产生的数据已经达到了T级别,在各个系统之间传输数据将占用大量的网络资源。
例如,在一个典型的互联网公司,通常业务处理系统的忙时集中在早上8点到晚上12点,而相应的业务分析系统的忙时出现在晚上12点到早上6点。通过计算资源的调度,可以在晚上12点到早上6点,将业务处理系统的一部分计算资源转移到业务分析系统;而在早上8点到晚上12点,可以将业务分析系统的一部分计算资源转移到业务处理系统,从而保证计算资源的利用率。
业务分析系统需要分析的数据,例如访问日志数据、系统日志数据等,都是由业务处理系统产生的,按照现有技术,需要将业务处理系统产生的数据加载到业务分析系统的DataNode上。然而,当采用计算资源调度技术,将业务系统的部分计算资源转移到业务分析系统中用于业务分析处理时,可能会出现该部分计算资源上的原始数据已经按照现有技术加载到了业务分析系统的DataNode上,因此利用该部分计算资源进行业务分析处理时,还需要从业务分析系统的DataNode上获取相应的数据,而这部分数据本来就是由业务系统产生并存储在该部分计算资源所在物理设备上的,可见,现有加载数据的方法将浪费大量的网络传输资源。
发明内容
有鉴于此,本发明提供了一种数据加载方法、系统和数据处理方法、系统,以节省网络传输资源。
本发明的技术方案具体是这样实现的:
一种数据加载方法,应用于并行分布式容错文件系统,该方法包括:
在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点,在该数据节点上为该原始数据划分文件带区;
该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上;
所述元数据信息包括原始数据的名称和文件带区信息。
一种数据加载系统,该系统包括原始数据所在的物理设备和并行分布式容错文件系统中的名称节点;
原始数据所在的物理设备,在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数据划分文件带区,将该原始数据在该数据节点上的元数据信息加载到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述名称节点,用于存储元数据信息。
一种数据处理方法,该方法包括:
在当前数据处理系统中的计算资源所在物理设备上有需要处理的原始数据时,在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该数据节点上的元数据信息上传到名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行处理。
一种数据处理系统,该系统包括计算资源所在的物理设备和并行分布式容错文件系统中的名称节点;
所述计算资源所在的物理设备,如果该物理设备上有当前数据处理系统需要处理的原始数据,则在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该原始数据在数据节点上的元数据信息上传到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理;
所述名称节点,用于存储元数据信息。
由上述技术方案可见,本发明提供的技术方案,通过在原始数据所在的物理设备上对该原始数据进行文件带区划分等预处理,并将相应的元数据信息上传到NameNode,实现将数据加载到并行分布式容错文件系统中,也就是说,通过在本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件系统中加载数据,与现有技术中需要将所有的原始数据都传输到预先布置的DataNode相比,节省了网络传输资源。
特别地,当对计算资源进行调度时,如果被调度用于第一数据处理系统的计算资源所在的物理设备上存储有需要进行第一数据处理的原始数据,则通过在该物理设备本地对该原始数据进行处理、且仅上传相应的元数据信息实现向并行分布式容错文件系统中加载数据,这样就可以利用该计算资源在本地对相应的数据进行第一数据处理,既无需将原始数据上传到预先布置的DataNode上,也无需从预先布置的DataNode上下载数据来进行第一数据处理,能够大大地节省网络传输资源。
附图说明
图1是现有技术中的并行分布式容错文件系统的结构示意图。
图2是目前并行分布式容错文件系统加载数据的方法流程图。
图3是本发明提供的数据加载方法流程图。
图4是本发明提供的数据加载系统的组成示意图。
图5是本发明提供的数据处理方法流程图。
图6是本发明提供的数据处理系统的组成示意图。
图7是本发明提供的业务分析系统的系统组成及数据处理流程图。
具体实施方式
本发明提供的数据加载方法和系统,通过在本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件系统中加载数据,具体请参见图3和图4。
图3是本发明提供的数据加载方法流程图。
如图3所示,该流程包括:
步骤301,在原始数据所在的物理设备上创建DataNode。
本步骤中,需要在所述物理设备上为原始数据创建持久的存储信息,一般通过创建并行分布式容错文件系统的DataNode来实现。
步骤302,在该DataNode上为该原始数据划分文件带区。
本步骤中,需要对该原始数据进行预处理,使其符合DataNode要求的数据格式。具体地,该预处理包括划分文件带区,还可以包括:将原始数据复制到各个文件带区内,计算各个文件带区的校验值。其中,将原始数据复制到各个文件带区内以及计算各个文件带区的校验值可以在步骤303执行完之后再进行。
步骤303,该原始数据所在的物理设备将该原始数据在DataNode上的元数据信息加载到所述并行分布式容错文件系统的NameNode上。
所述元数据信息包括原始数据的名称和文件带区信息,还可以包括各个文件带区的校验值信息。
图4是本发明提供的数据加载系统的组成示意图。
如图4所示,该系统包括原始数据所在的物理设备401和并行分布式容错文件系统中的名称节点NameNode402。
原始数据所在的物理设备401,在该物理设备401上创建并行分布式容错文件系统的数据节点DataNode,在该DataNode上为该原始数据划分文件带区,将该原始数据在该DataNode上的元数据信息加载到所述NameNode402上,所述元数据信息包括原始数据的名称和文件带区信息。
所述NameNode402,用于存储元数据信息。
其中,原始数据所在的物理设备401,还可以计算各个文件带区的校验值。
相应地,所述元数据信息进一步包括:原始数据的各个文件带区的校验值信息。
本发明提供的数据处理方法和系统,通过在计算资源所在的物理设备本地对原始数据进行处理、且仅上传元数据信息实现向并行分布式容错文件系统中加载数据,进而利用所述计算资源对该计算资源所在的物理设备本地的数据进行相应的处理,以节省网络传输资源,具体请参见图5和图6。
图5是本发明提供的数据处理方法流程图。
如图5所示,该方法包括:
步骤501,判断用于第一数据处理系统的计算资源所在的物理设备上是否有进行第一数据处理所需要的原始数据,如果是,执行步骤502,否则结束本流程。
步骤502,在该物理设备上创建并行分布式容错文件系统的DataNode。
步骤503,将该物理设备上的原始数据处理成符合DataNode要求的格式,并将处理后的数据存储在所述DataNode上。
本步骤中,需要为所述原始数据划分文件带区,将所述原始数据拷贝到各个文件带区,计算各个文件带区的校验值,其中,可以在步骤504更新完元数据信息以后再计算各个文件带区的校验值。
步骤504,所述物理设备将该DataNode上的元数据信息上传到NameNode上。
本步骤的元数据信息包括原始数据的名称、文件带区信息、校验值信息等。
通过在计算资源所在物理设备本地创建DataNode,并将原始数据处理成DataNode要求的格式,再将元数据信息上传到NameNode,不需要进行实际的网络传输,即可将所述物理设备上的原始数据导入并行分布式容错文件系统,因而节省了网络传输资源。
步骤505,所述计算资源从所述NameNode上获取所述原始数据的元数据信息。
步骤506,所述计算资源根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理。
计算资源通过从NameNode上获取的元数据信息可以判断出其需要进行处理的数据存储在该计算资源所在物理设备本地,因此对本地的数据进行第一数据处理即可,无需从其他物理设备上获取数据,与现有技术中从预先布置的DataNode上获取数据相比,能够大大地节省网络传输资源。
典型地,图5所示方法可以应用在采用计算资源调度技术进行数据处理的场景中。
例如,计算资源首先被调度用于第二数据处理系统,在该第二数据处理系统中产生进行第一数据处理所需的原始数据,换言之,在该计算资源所在的物理设备上存储有第一数据处理所需的原始数据。在对所述原始数据进行第一数据处理时,需要将所述计算资源调度到第一数据处理系统中,通过将该计算资源所在物理设备上产生的进行第一数据处理所需的原始数据转换成DataNode所要求的格式,再将相应的元数据信息上传到NameNode,使得该计算资源所在物理设备可以直接对本地数据进行第一数据处理,而无需通过网络传输从其他物理设备上获取需要处理的数据。其中,将原始数据转换成DataNode所要求的格式包括:为该原始数据划分文件带区,将原始数据拷贝到各个文件带区内,计算各个文件带区的校验值。
在所述计算资源再次被调度用于第二数据处理系统时,删除该计算资源所在物理设备上创建的DataNode以及为所述原始数据划分的文件带区,并将更新的元数据信息上传到所述NameNode节点上,即将所述原始数据从并行分布式容错文件系统中删除。
图6是本发明提供的数据处理系统的组成示意图。
如图6所示,该系统包括计算资源所在的物理设备601和并行分布式容错文件系统中的名称节点NameNode602。
所述计算资源所在的物理设备601,在该计算资源用于第一数据处理系统时,如果该物理设备601上有第一数据处理系统需要处理的原始数据,则在该物理设备601上创建并行分布式容错文件系统的DataNode,在该DataNode上为该原始数据划分文件带区,该物理设备601将该原始数据在DataNode上的元数据信息上传到所述NameNode602上,所述元数据信息包括原始数据的名称和文件带区信息。
所述计算资源从所述NameNode602上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备601本地的数据进行第一数据处理。
所述NameNode602,用于存储元数据信息。
其中,计算资源所在的物理设备601,在所述计算资源被调度用于第二数据处理系统时,删除在该物理设备601上创建的DataNode以及为所述原始数据划分的文件带区,将更新的元数据信息上传到所述NameNode节点602上。
示例性地,第一数据处理系统可以是业务分析系统,第二数据处理系统可以是业务处理系统。
下面以第一数据处理系统是业务分析系统,第二数据处理系统是业务系统为例,对本发明提供的技术方案进行示例性说明,具体请参见图7。
图7是本发明提供的业务分析系统的系统组成及数据处理流程图。
参见图7,图7所示系统包括:NameNode模块、DataNode模块、客户端模块和计算资源模块,其中的计算资源模块和DataNode模块位于相同物理设备上,所述计算资源模块是可以动态调度的计算机系统,其可以用于业务处理系统也可以用于业务分析系统,在图7中,该计算资源模块被调度用于业务分析系统,且该计算资源模块之前被调度用于业务处理系统,因此该计算资源模块所在物理设备上存储有业务处理系统产生的业务数据,该业务数据是业务分析系统需要处理的原始数据。
参见图7,图7所示业务分析系统处理数据的流程包括:
步骤1:进行计算资源模块的格式化。
本步骤中,需要按照并行分布式容错文件系统的数据存储格式,在被业务系统和业务分析系统共享的计算资源模块上建立并行分布式容错文件系统的DataNode需要的持久化存储信息,即在该计算资源模块所在的物理设备上创建并行分布式容错文件系统的DataNode。
步骤2,对文件数据进行预处理。
本步骤中,对业务分析系统需要处理的数据进行的预处理包括:在DataNode中为该文件数据划分文件带区,计算各个文件带区的校验值。
其中,计算各个文件带区的校验值也可以在步骤3或者步骤5执行的过程中或者执行完毕后再进行。
步骤3,将预处理后的文件数据上传到DataNode中。
本步骤中,将预处理后的文件数据传输到DataNode模块中的各个文件带区内,其中,可以通过流水线机制将文件数据传输到各个文件带区内,即通过步骤31将数据复制到多个DataNode模块中,步骤31执行完毕之后执行步骤5;也可以先通过步骤32将文件数据只上传到一个DataNode模块中,然后通过步骤4在将文件数据复制到其他DataNode模块中,步骤4执行完毕之后执行步骤5。
步骤5,更新NameNode中的元数据。
本步骤中,由客户端统一更改NameNode中的文件元数据,具体包括文件名、文件带区列表、文件带区的访问控制记录和文件带区的副本数信息等。
通过步骤2、步骤3和步骤5实现了将业务分析系统需要处理的文件数据上传到并行分布式容错文件系统,而在该上传过程中,仅在元数据更新的步骤中存在实际的数据传输,由于文件数据预处理和文件上传的过程都是在文件数据本地完成的,因此并不存在实际上的数据传输。
另外,在一个业务分析系统中,可以存在多个实例用于执行步骤2、3和5的数据上传过程,各个实例之间相互不影响,
步骤6,从业务处理系统中调度计算资源用于业务分析系统。
本步骤中,将计算资源从业务处理系统加载到业务分析系统中,该计算资源从NameNode中获知其需要处理的数据存储在该计算资源所在物理设备本地,因此该计算资源对本地的数据进行处理。例如,该计算资源可以利用映射规约(MapReduce)算法对本地数据进行处理。
步骤7,将步骤6中的计算资源回收到业务处理系统中。
本步骤中,需要将业务分析系统中的计算资源回收到业务处理系统中,具体包括:删除该业务分析系统中的DataNode及其上的文件带区,更新NameNode中的元数据信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种数据加载方法,应用于并行分布式容错文件系统,其特征在于,该方法包括:
在原始数据所在的物理设备上创建并行分布式容错文件系统数据节点,在该数据节点上为该原始数据划分文件带区;
该原始数据所在的物理设备将该原始数据在数据节点上的元数据信息加载到所述并行分布式容错文件系统的名称节点上;
所述元数据信息包括原始数据的名称和文件带区信息。
2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
原始数据所在物理设备计算各个文件带区的校验值;
所述元数据信息进一步包括:原始数据的各个文件带区的校验值信息。
3.一种数据加载系统,其特征在于,该系统包括原始数据所在的物理设备和并行分布式容错文件系统中的名称节点;
原始数据所在的物理设备,在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数据划分文件带区,将该原始数据在该数据节点上的元数据信息加载到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述名称节点,用于存储元数据信息。
4.根据权利要求3所述的系统,其特征在于,
所述原始数据所在的物理设备,计算各个文件带区的校验值;
所述元数据信息进一步包括:原始数据的各个文件带区的校验值信息。
5.一种数据处理方法,其特征在于,该方法包括:
在当前数据处理系统中的计算资源所在物理设备上有需要处理的原始数据时,在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该数据节点上的元数据信息上传到名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行处理。
6.根据权利要求5所述的方法,其特征在于,该方法进一步包括:
当所述计算资源被调度用于另一种数据处理系统时,该计算资源所在的物理设备删除在该物理设备上创建的所述数据节点以及为所述原始数据划分的文件带区,将更新的元数据信息上传到所述名称节点上。
7.根据权利要求5或6所述的方法,其特征在于,
所述当前数据处理系统是业务分析系统,所述另一种数据处理系统是业务处理系统。
8.一种数据处理系统,其特征在于,该系统包括计算资源所在的物理设备和并行分布式容错文件系统中的名称节点;
所述计算资源所在的物理设备,如果该物理设备上有当前数据处理系统需要处理的原始数据,则在该物理设备上创建并行分布式容错文件系统的数据节点,在该数据节点上为该原始数据划分文件带区,该物理设备将该原始数据在数据节点上的元数据信息上传到所述名称节点上,所述元数据信息包括原始数据的名称和文件带区信息;
所述计算资源从所述名称节点上获取所述原始数据的元数据信息,根据该元数据信息对存储在该计算资源所在物理设备本地的数据进行第一数据处理;
所述名称节点,用于存储元数据信息。
9.根据权利要求8所述的系统,其特征在于,
该计算资源所在的物理设备,在所述计算资源被调度用于另一种数据处理系统时,删除在该物理设备上创建的所述数据节点以及为所述原始数据划分的文件带区,将更新的元数据信息上传到所述名称节点上。
10.根据权利要求8或9所述的系统,其特征在于,
所述当前数据处理系统是业务分析系统,所述另一种数据处理系统是业务处理系统。
CN201010205426.2A 2010-06-12 2010-06-12 一种数据加载方法、系统和数据处理方法、系统 Active CN102281312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010205426.2A CN102281312B (zh) 2010-06-12 2010-06-12 一种数据加载方法、系统和数据处理方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010205426.2A CN102281312B (zh) 2010-06-12 2010-06-12 一种数据加载方法、系统和数据处理方法、系统

Publications (2)

Publication Number Publication Date
CN102281312A true CN102281312A (zh) 2011-12-14
CN102281312B CN102281312B (zh) 2015-05-20

Family

ID=45106483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010205426.2A Active CN102281312B (zh) 2010-06-12 2010-06-12 一种数据加载方法、系统和数据处理方法、系统

Country Status (1)

Country Link
CN (1) CN102281312B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102882927A (zh) * 2012-08-29 2013-01-16 华南理工大学 一种云存储数据同步框架及其实现方法
CN103207867A (zh) * 2012-01-16 2013-07-17 联想(北京)有限公司 处理数据块的方法、发起恢复操作的方法和节点
CN103544285A (zh) * 2013-10-28 2014-01-29 华为技术有限公司 一种数据加载方法及装置
CN103631815A (zh) * 2012-08-27 2014-03-12 深圳市腾讯计算机系统有限公司 块同步并行计算中实现检查点的方法、装置和系统
CN106682227A (zh) * 2017-01-06 2017-05-17 郑州云海信息技术有限公司 基于分布式文件系统的日志数据存储系统及读写方法
CN106897279A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 用于分布式文件处理的方法和设备
CN109086358A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种Hadoop的数据快速加载方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040133540A1 (en) * 2001-09-26 2004-07-08 Mark Saake Efficient management of large files
CN1547137A (zh) * 2003-12-02 2004-11-17 中国科学院计算技术研究所 基于数据库的海量文件管理系统与方法
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040133540A1 (en) * 2001-09-26 2004-07-08 Mark Saake Efficient management of large files
CN1547137A (zh) * 2003-12-02 2004-11-17 中国科学院计算技术研究所 基于数据库的海量文件管理系统与方法
CN101079902A (zh) * 2007-06-29 2007-11-28 清华大学 海量数据分级存储方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207867A (zh) * 2012-01-16 2013-07-17 联想(北京)有限公司 处理数据块的方法、发起恢复操作的方法和节点
CN103631815A (zh) * 2012-08-27 2014-03-12 深圳市腾讯计算机系统有限公司 块同步并行计算中实现检查点的方法、装置和系统
CN103631815B (zh) * 2012-08-27 2018-01-12 深圳市腾讯计算机系统有限公司 块同步并行计算中实现检查点的方法、装置和系统
CN102882927A (zh) * 2012-08-29 2013-01-16 华南理工大学 一种云存储数据同步框架及其实现方法
CN102882927B (zh) * 2012-08-29 2016-12-21 华南理工大学 一种云存储数据同步框架及其实现方法
CN103544285A (zh) * 2013-10-28 2014-01-29 华为技术有限公司 一种数据加载方法及装置
CN106897279A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 用于分布式文件处理的方法和设备
CN106682227A (zh) * 2017-01-06 2017-05-17 郑州云海信息技术有限公司 基于分布式文件系统的日志数据存储系统及读写方法
CN109086358A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种Hadoop的数据快速加载方法与系统

Also Published As

Publication number Publication date
CN102281312B (zh) 2015-05-20

Similar Documents

Publication Publication Date Title
US11422982B2 (en) Scaling stateful clusters while maintaining access
US11507594B2 (en) Bulk data distribution system
AU2016405587B2 (en) Splitting and moving ranges in a distributed system
US10853242B2 (en) Deduplication and garbage collection across logical databases
CN103179185B (zh) 一种分布式文件系统客户端缓存中文件创建方法及其系统
CN103116618B (zh) 基于客户端持久缓存的远程文件系统镜像方法及系统
US8271455B2 (en) Storing replication requests for objects in a distributed storage system
RU2507567C2 (ru) Многопользовательское сетевое сотрудничество
US8341118B2 (en) Method and system for dynamically replicating data within a distributed storage system
TWI220713B (en) System and method for synchronizing documents between multi-nodes
US10013440B1 (en) Incremental out-of-place updates for index structures
JP5387757B2 (ja) 並列データ処理システム、並列データ処理方法及びプログラム
CN102281312B (zh) 一种数据加载方法、系统和数据处理方法、系统
US9251235B1 (en) Log-based synchronization
US11042503B1 (en) Continuous data protection and restoration
US9426219B1 (en) Efficient multi-part upload for a data warehouse
US11860741B2 (en) Continuous data protection
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
KR20140100504A (ko) 데이터 송수신 시스템
CN102142024A (zh) 在分布式数据库中使用递增捕捉来进行逻辑数据备份和回退
CN111177159B (zh) 一种数据处理的系统、方法和数据更新设备
CN106446099A (zh) 一种分布式云存储方法、系统及其上传下载方法
CN104156381A (zh) Hadoop分布式文件系统的副本存取方法、装置和Hadoop分布式文件系统
CN105022779A (zh) 一种利用Filesystem API实现HDFS文件存取方法
US10956446B1 (en) Log-based synchronization with inferred context

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant