CN106682047A - 一种数据导入方法以及相关装置 - Google Patents

一种数据导入方法以及相关装置 Download PDF

Info

Publication number
CN106682047A
CN106682047A CN201510770550.6A CN201510770550A CN106682047A CN 106682047 A CN106682047 A CN 106682047A CN 201510770550 A CN201510770550 A CN 201510770550A CN 106682047 A CN106682047 A CN 106682047A
Authority
CN
China
Prior art keywords
data
buffer area
subregion
block
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510770550.6A
Other languages
English (en)
Other versions
CN106682047B (zh
Inventor
张春永
李雪斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Hangzhou Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huawei Digital Technologies Co Ltd filed Critical Hangzhou Huawei Digital Technologies Co Ltd
Priority to CN201510770550.6A priority Critical patent/CN106682047B/zh
Publication of CN106682047A publication Critical patent/CN106682047A/zh
Application granted granted Critical
Publication of CN106682047B publication Critical patent/CN106682047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据导入方法,用于数据导入装置将第一源数据导入分布式文件系统中的目标分区表,能够提升分布式文件系统的性能。本发明实施例方法包括:读取所述第一源数据,得到所述第一源数据的N个第一数据块,每个所述第一数据块包括待导入一个或多个所述表分区中的数据,所述N为不小于2的整数;数据导入装置包括P个数据缓存区,确定目标分区表的M个表分区中每个表分区对应的数据缓存区,其中一个所述表分区只对应一个数据缓存区;将所述N个第一数据块中的数据写入待导入的表分区对应的数据缓存区中;将每个所述数据缓存区中的数据分别导入对应的表分区中。本发明实施例还提供了相关的装置。

Description

一种数据导入方法以及相关装置
技术领域
本发明涉及数据存储领域,尤其设计一种数据导入方法以及相关装置。
背景技术
Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)是一种高容错性、高吞吐量的存储系统,适合部署在廉价的机器上,已经成为当今大数据时代处理和存储数据的重要手段。在很多场景中,用户数据并没有直接存储在HDFS中,而是存储在关系数据库、数据仓库或者文件系统等位置,此时需要将这些数据从现有位置导入到HDFS中。
数据库中的数据一般有分区表与文件等存储形式,其中,分区表的逻辑结构可以理解为一个二维的表格,一般会按列分为多个表分区。在分区表导入HDFS中时,可以配置分区表的表分区信息,使得分区表在导入HDFS中后能够按照表分区保存,不同表分区的数据保存在不同的位置,以方便用户的查询分析。
但是现有技术中,将分区表按照表分区保存在将用户数据导入HDFS时,会产生大量的小文件。过多的小文件会严重影响HDFS的扩展和性能,导致HDFS的用户体验不好。
发明内容
本发明提供了一种数据导入方法,用于提升分布式文件系统的性能。本发明实施例还提供了相关的装置。
本发明第一方面提供了一种数据导入方法,用于数据导入装置将第一源数据导入分布式文件系统中的目标分区表。具体的,数据导入装置读取该第一源数据,得到第一源数据的N个数据块。由于第一源数据待导入目标分区表,因此第一源数据的每个数据块中可以包括待导入目标分区表的一个或多个表分区的数据。数据导入装置根据该N个数据块,确定目标分区表的M个表分区,并确定该M个表分区与数据导入装置的P个数据缓存区的对应关系。然后将该N个数据块中的数据写入待导入的表分区对应的数据缓存区中,最后将每个数据缓存区中的数据写入对应的目标分区表的表分区中。本发明第一方面提供的方法共会产生M个文件,远远少于现阶段的技术中产生的N×M个文件,因此与现有技术相比,生成的文件的平均大小较大,更不易产生小文件。
可选的,目标分区表中包括至少一列的分区列,且按照分区列被划分为M个表分区,分别为表分区1、表分区2、……表分区M。对于[1,M]中的任意值m,数据导入装置对表分区m的分区列的值进行哈希运算,得到哈希值Hm,然后将Hm对P值取余,得到余数q,其中0≤q≤P-1。然后将q值对应的数据缓存区,确定为表分区m对应的数据缓存区。在对[1,M]中的所有值执行了本段所述的操作后,数据导入装置就确定了该M个表分区与数据导入装置的P个数据缓存区的对应关系。
可选的,数据导入装置还可以接收用于指示对第一源数据进行运算的运算指令,并直接读取第一源数据得到N个数据原始块,然后根据运算指令对该N个数据原始块进行运算,并将对该N个数据原始块进行运算的结果确定为第一源数据的N个第一数据块。
可选的,数据导入装置还可以向布式文件系统中的目标非分区表或目标文件中导入数据。具体的,数据导入装置可以读取第二源数据,得到第二源数据的Z个第二数据块,其中Z为不小于2的整数。然后将第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中,最后将每个数据缓存区中的数据分别导入目标非分区表或目标文件中。
可选的,数据导入装置可以采用轮询方法确定第二源数据的Z个第二数据块中,每个数据块对应的数据缓存区,然后将第二源数据的Z个第二数据块中每个数据块的数据分别写入该每个数据块对应的数据缓存区中。
可选的,数据导入装置可以采用轮询方法将第二源数据的Z个第二数据块的每条记录逐条写入对应的数据缓存区中。
本发明第二方面提供了一种数据导入装置,用于将第一源数据导入分布式文件系统中的目标分区表。该装置包括:数据读取模块,用于读取第一源数据,得到第一源数据的N个第一数据块,每个第一数据块包括待导入一个或多个所述表分区中的数据,其中N为不小于2的整数;缓存区确定模块,用于根据该N个第一数据块,确定M个表分区中每个表分区对应的数据缓存区,其中一个表分区只对应一个数据缓存区;数据缓存模块,用于将该N个第一数据块中的数据写入待导入的表分区对应的数据缓存区中;数据导入模块,用于将每个数据缓存区中的数据分别导入该每个数据缓存区对应的表分区中。
可选的,目标分区表包括分区列,并按照所述分区列被划分为M个表分区,分别为表分区1、表分区2、……表分区M;缓存区确定模块具体用于:对表分区m的分区列的值进行哈希运算,得到哈希值Hm,其中1≤m≤M;将Hm对P值取余,得到余数q,其中0≤q≤P-1;将q值对应的数据缓存区,确定为所述表分区m对应的数据缓存区。
可选的,数据读取模块具体用于:接收运算指令,所述运算指令用于指示对第一源数据进行运算;读取第一源数据,得到第一源数据的N个数据原始块;根据运算指令,对第一源数据的N个数据原始块进行运算,并将对该N个数据原始块的运算结果确定为第一源数据的N个第一数据块。
可选的,本发明第二方面的数据导入装置还用于将第二源数据导入分布式文件系统中的目标非分区表或目标文件;数据读取模块还用于:读取第二源数据,得到第二源数据的Z个第二数据块,其中Z为不小于2的整数;数据缓存模块还用于:将第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中;数据导入模块还用于:将每个数据缓存区中的数据导入目标非分区表或目标文件中。
可选的,数据缓存模块具体用于:采用轮询方法确定第二源数据的Z个第二数据块中,每个数据块对应的数据缓存区;将第二源数据的Z个第二数据块中每个数据块的数据分别写入对应的数据缓存区中。
可选的,数据缓存模块具体用于:采用轮询方法将第二源数据的Z个第二数据块的每条记录逐条写入对应的数据缓存区中;将P个数据缓存区中的数据导入目标非分区表或目标文件中。
本发明提供了一种数据导入方法,包括读取分区表得到N个数据块;确定目标分区表的M个表分区对应的数据缓存区;将N个数据块中的数据写入待导入的表分区对应的数据缓存区中;将P个数据缓存区中的数据分别写入分布式文件系统中。本发明提供的数据导入方法与现阶段的技术相比,能够减小分布式文件系统中小文件的个数,进而提升分布式文件系统的性能。
附图说明
图1为现阶段的技术中数据导入方法的原理示意图;
图2为本发明实施例中数据导入方法的原理示意图;
图3为本发明实施例中数据导入方法一个实施例流程图;
图4为本发明实施例中数据导入方法一个实施例结构图;
图5为本发明实施例中数据导入方法一个实施例结构图。
具体实施方式
本发明实施例提供了一种数据导入方法,用于提升分布式文件系统的性能。本发明实施例还提供了相关的装置,以下将分别进行描述。
Hadoop分布式文件系统是一种高容错性、高吞吐量的存储系统,适合部署在廉价的机器上,已经成为当今大数据时代处理和存储数据的重要手段。在很多场景中,用户数据并没有直接存储在HDFS中,而是存储在关系数据库、数据仓库或者文件系统等位置,此时需要将这些数据从现有位置导入到HDFS中。数据库中的数据一般有分区表、文件等存储形式,其中,分区表的逻辑结构可以理解为一个二维的表格,分区表一般包括至少一列分区列,并会按分区列的值分为M个表分区,其中M为正整数,可以为1,也可以为2或大于2的值。例如,若分区表中有一列表示年份且该列为分区列,则该分区表可以按照年份分为多个表分区,其中该分区表中相同年份的数据属于一个表分区。
现阶段的技术向HDFS导入源数据的原理图请参阅图1。首先,数据导入装置会启动N项彼此独立的数据读取任务,并行的读取该源数据,得到该源数据的N个数据块,然后并行向HDFS中导入该N个数据块。其中N为不小于2的整数。可以理解的,每个数据块都可以包括一个或多个表分区中的数据。特别的,若某个数据块包括多个表分区,则数据导入装置要将该数据块中不同表分区的数据分开存储,以便于用户根据表分区信息来查询分析数据。图1中,源数据被并行读取为N个数据块(图1中仅以N=3为例进行说明),其中每个数据块都包括M个表分区(图1中仅以M=3为例进行说明),因此每个数据块都需要按照分区再分为M个子数据块。经过了这个过程,源数据被分为了N×M个子数据块,该N×M个子数据块要被分别写入HDFS系统中,形成N×M个文件。
一般的,文件在HDFS中以块(block)的形式保存,在HDFS中block有固定的大小,一般为256M,也可以为其它大小,本发明实施例中仅以256M为例进行论述。本发明中将小于block的大小的文件称为小文件,过多的小文件会对HDFS的性能带来严重的影响,具体包括如下几个原因:
1、block在内存中以对象的形式存储,由管理节点(namenode)统一管理。每个block在管理节点中约占用150byte的空间。由于每个小文件都要占用一个block,因此如果有10000000个小文件,则大约需要2G空间。如果存储1亿个文件,则需要20G空间。因此若小文件过多,会占用管理节点大量的内存空间,制约HDFS集群的扩展。
2、文件在HDFS中分布式保存,在访问HDFS中多个文件时,需要不断的从一个数据节点(datanode)跳到另一个数据节点,这种在节点间跳跃访问文件会造成较大的时延,因此访问大量小文件的速度要远远慢于访问同等总量大小的少量大文件。
3、在对HDFS中的小文件进行处理的时候,每个小文件都会占用一个槽(slot),因此在处理多个小文件时,会花费大量的时间在启动slot和释放slot上。因此处理大量小文件的速度要远远慢于处理同等总量大小的少量大文件。
而在上文中已经论述过,现阶段的技术在将源数据写入HDFS系统时,会被保存为N×M个文件。由于形成的文件个数过多,因此形成的N×M个文件的平均大小较小,故该N×M个文件中很可能会存在许多小文件,导致HDFS的性能不好。
为此,本发明实施例提供一种数据导入方法,以减少源数据导入分布式文件系统时生成的小文件个数,提升分布式文件系统的性能。
本发明实施例提供的数据导入方法应用于数据导入装置,该数据导入装置用于将第一源数据导入分布式文件系统中的目标分区表。该数据导入装置可以部署于分布式文件系统中的任意节点,也可以为不位于任何节点上,而作为独立的实体设备与分布式文件系统中的节点进行数据交互,本申请中不做限定。该数据导入装置配置有P个数据缓存区,该目标分区表包括M个表分区,其中M、P均为正整数,可以为1,也可以为2或大于2的值。本发明实施例提供的数据导入方法的原理图请参阅图2:
本发明中,数据导入装置包括数据缓存区,且本发明在表分区与数据缓存区之间建立映射关系,具体可以为一个表分区对应一个数据缓存区,也可以是多个表分区对应一个数据缓存区,此处不做限定。数据导入装置读取待导入的第一源数据,读取的结果是得到该第一源数据的N个数据块(图2中仅以N=3为例进行说明)。可以理解的,每个数据块都可以包括待导入一个或多个表分区的数据。数据导入装置将该N个数据块中的数据分别写入这些数据待导入的表分区对应的数据缓存区中。可以理解的,来自于不同数据块但待导入相同表分区的数据会在同一个数据缓存区中合并。然后数据导入装置将每个数据缓存区的数据分别写入分布式文件系统(图2中仅以HDFS为例进行说明)中。其中,第一源数据写入分布式文件系统中后会形成M个文件,在N值较大时,会远远小于N×M。
通过图1与图2的比较可以看出,本发明实施例提供的数据导入方法,使得第一源数据在分布式文件系统中以M个文件的形式被保存。与现阶段的技术中以N×M个文件的形式被保存相比,由于本发明中第一源数据形成的文件的个数更少,因此第一源数据形成的文件更大,进而形成的小文件的个数更少,能够大幅度的减小分布式文件系统中小文件的个数,进而提升分布式文件系统的性能。
基于图2中论述的原理,本发明实施例提供的数据导入方法的基本流程请参阅图3,包括:
301、读取第一源数据,得到N个数据块;
数据导入装置读取该第一源数据,得到第一源数据的N个数据块。由于第一源数据待导入目标分区表,因此第一源数据的每个数据块中可以包括待导入目标分区表的一个或多个表分区的数据。其中N为不小于2的整数。
其中,数据导入装置可以并发的启动N项彼此独立的数据读取任务来读取第一源数据,得到第一源数据的N各数据块。数据导入装置也可以通过其他方式来读取第一源数据得到N个数据块,此处不做限定。
302、确定目标分区表的M个表分区中每个表分区对应的数据缓存区;
在步骤301之前,数据导入装置并不能确定目标分区表包括多少个表分区。只有在启动步骤301读入数据后,数据导入装置才能从读取的数据中获知该数据待导入的表分区。因此,本步骤中,数据导入装置根据步骤301中读取的N个数据块,确定目标分区表的M个表分区,并确定该M个表分区与数据导入装置的P个数据缓存区的对应关系,即确定每个表分区对应的数据缓存区。其中M、P为正整数,可以为1,也可以为2或大于2的值。
其中,若P不小于M,则该M个表分区可以分别对应不同的数据缓存区。可替换的,也可以有多个表分区对应一个数据缓存区,此处不做限定。但是,一个表分区只能对应一个数据缓存区,不能对应多个数据缓存区。
303、将该N个数据块中的数据写入待导入的表分区对应的数据缓存区中;
步骤302中提到,每个表分区对应有一个数据缓存区。步骤301中提到,每个数据块中都可以包括待导入1个或多个表分区的数据。本步骤中,数据导入装置将该N个数据块中的数据写入待导入的表分区对应的数据缓存区中。例如,若将分区表的M个表分区分别用表分区1、表分区2、……表分区m、……表分区M来表示,且第n个数据块中有部分数据待导入目标分区表的表分区m,则将该部分数据写入表分区m对应的数据缓存区中。其中1≤n≤N,1≤m≤M。
304、将每个数据缓存区中的数据分别写入对应的表分区中。
数据导入装置将每个数据缓存区中的数据分别写入该数据缓存区对应的表分区中。其中,本步骤中所述的将每个数据缓存区中的数据分别写入对应的表分区中,指的是将该P个数据缓存区中,保存有数据的数据缓存区中的数据写入该数据缓存区对应的表分区中。在某些场景中,如P大于M时,也可能会有某个或某几个数据缓存区中并没有被写入数据,数据导入装置不需要对没有保存数据的数据缓存区执行将数据缓存区中的数据写入对应的表分区中的步骤。即,对于每个保存有数据的数据缓存区,数据导入装置都启动一项独立的数据写入任务,将对应的数据缓存区中的数据写入分布式文件系统。
可以理解的,若每个数据缓存区中仅用于保存不多于一个表分区的数据,则每将一个数据缓存区中的数据写入分布式文件系统,都会在分布式文件系统中形成一个文件,第一源数据共形成M个文件。若某个数据缓存区保存有X个表分区的数据,则该数据缓存区在导入分布式文件系统的时候,会形成X个文件,但由于一个表分区中的数据只能由一个数据缓存区来保存,因此第一源数据在分布式文件系统中,一共还是会形成M个文件,远远少于现阶段的技术中产生的N×M个文件,因此与现有技术相比,生成的文件的平均大小较大,更不易产生小文件。
本实施例提供了一种数据导入方法,包括读取分区表得到N个数据块;确定目标分区表的M个表分区对应的数据缓存区;将N个数据块中的数据写入待导入的表分区对应的数据缓存区中;将P个数据缓存区中的数据分别写入分布式文件系统中。本实施例提供的数据导入方法与现阶段的技术相比,能够减小分布式文件系统中小文件的个数,进而提升分布式文件系统的性能。
步骤302中提到,数据导入装置需要确定每个表分区对应的数据缓存区。其确定方法有很多,可以为人为设定、也可以为数据导入装置默认设定或随机设定、也可以为数据导入装置根据预置的算法来确定。例如,目标分区表可以包括分区列,且目标分区表的M个表分区是按照分区列的不同取值被划分的。则数据导入装置可以对每个表分区的分区列的值进行哈希运算,然后将计算得到的哈希值对P取余,根据余数与数据缓存区的对应关系,确定每个表分区对应的数据缓存区。即:(1)对表分区m的分区列的值进行哈希运算,得到哈希值Hm。(2)将Hm对P值取余,得到余数q,其中0≤q≤P-1。(3)根据q值与数据缓存区的对应关系,确定表分区m对应的数据缓存区,其中q值与数据缓存区可以有多种对应关系,例如q值可以对应数据缓存区q+1,或当q不为0时对应数据缓存区q,当q为0时对应数据缓存区P。在对[1,M]中的所有m执行了步骤(1)~(3)之后,就能够确定目标分区表每个表分区对应的数据缓存区。
步骤302中,数据导入装置可以通过直接读取第一源数据,得到第一源数据的N个数据块,也可以对读取的第一源数据进行运算,得到第一源数据的N个数据块。具体的,数据导入装置可以读取第一源数据,得到第一源数据的N个数据原始块,并接收用户输入的运算指令。该运算指令用于指示数据导入装置对第一源数据的N个数据原始块进行运算,具体的运算操作有很多,例如若第一源数据是表的形式,则可以为行操作、列操作或其它的表运算操作。该运算指令也可以用与指示其它操作,此处不做限定。数据导入装置根据该运算指令对第一源数据的N个数据原始块进行运算,并将运算的结果确定为第一源数据的N个数据块。其中,本发明实施例不限定数据导入装置接收运算指令的步骤与读取第一源数据的步骤之间的先后顺序。
本发明提供的数据导入装置不仅可以将源数据导入分布式文件系统中的分区表,还可以将源数据导入分布式文件系统中的目标非分区表或目标文件中。具体的处理方法有很多,下面以第二源数据为例进行说明:
数据导入装置读取第二源数据,得到第二源数据的Z个第二数据块。其中Z为正整数,Z的个数可以与上文中N的个数相等或不等,此处不做限定。数据导入装置将该Z个第二数据块中的数据写入对应的数据缓存区中,再将该P个数据缓存区中的数据导入目标非分区表或者目标文件中。与步骤304类似的,本段中所述的将P个数据缓存区中的数据导入目标非分区表或者目标文件,指的是将该P个数据缓存区中,保存有数据的数据缓存区中的数据导入目标非分区表或者目标文件。
可选的,为了均衡数据导入装置发起的每项数据写入任务的负载,数据导入装置在将该Z个第二数据块中的数据写入对应的数据缓存区时,可以采用轮询的方法,确定每个第二数据块对应的数据缓存区,并将每个第二数据块中的数据写入对应的数据缓存区中。具体到轮询方法可以为:当数据导入装置将第z个第二数据块写在第p个数据缓存区中时,若p<P,则确定将第z+1个第二数据块写在第p+1个数据缓存区中。若p=P,则确定将第z+1个第二数据块写在第1个数据缓存区中。其中1≤p≤P,1≤z≤Z。或者,对于第z个第二数据块,将z对P取余得到余数a,其中0≤a≤P-1。并根据a值与数据缓存区的对应关系,确定第z个第二数据块对应的数据缓存区。其中a值与数据缓存区可以有多种对应关系,例如a值可以对应数据缓存区a+1,或当a不为0时对应数据缓存区a,当a为0时对应数据缓存区P。
其中,数据导入装置读取第二源数据得到的Z个第二数据块并不一定是大小相同的。因此将第二数据块直接写入对应的数据缓存区中,可能会导致不同的数据缓存区中的数据量有较大差别。这样数据导入装置在针对每个数据缓存区发起一项数据写入任务时,不同的数据写入任务的负载也不相同。可选的,为了使得数据导入装置发起的每项数据写入任务的负载更加均衡,数据导入装置在将该Z个第二数据块中的数据写入对应的数据缓存区时,可以采用轮询的方法,将第二源数据的Z个第二数据块的每条记录逐条写入对应的数据缓存区中。具体到轮询方法可以为:数据导入装置逐条读取该Z个第二数据块的记录。当数据导入装置将读取的第k条记录写入第p个数据缓存区中时,若p<P,则确定将读取的第k+1条记录写入第p+1个数据缓存区中。若p=P,则确定将读取的第k+1条记录写入第1个数据缓存区中。其中1≤p≤P。
为了便于理解上述实施例,下面将以上述实施例的一个具体应用场景为例进行描述。
某公司采用HDFS来存储本公司员工的数据。该HDFS中的一个节点上上设置有数据导入装置,该数据导入装置包括30个数据缓存区,分别为数据缓存区1、数据缓存区2、……、数据缓存区30。
该公司的行政人员需要将原本保存在关系数据库中的2G数据导入该HDFS的分区表A中,该2G数据为该公司所有员工1996年-2015年的工资数据。分区表A中表示年份的列为分区列,且分区表A按照年份分为20个表分区,分别为用于存储1996年员工的工资数据的表分区1、用于存储1997年员工的工资数据的表分区2、……、用于存储2005年员工的工资数据的表分区20。
该行政人员启动数据导入装置,并向数据导入装置发送第一指令,指示数据导入装置将该2G数据写入HDFS中的分区表A中。数据导入装置根据第一指令并发启动50项彼此独立的数据读取任务来读取该2G数据,得到50个数据块。。
该50个数据块中分区列(即表示年份的列)共有20种取值,分别为1996-2015。数据导入装置根据该50个数据块,确定分区表A的20个表分区,并该20个表分区与数据缓存区的映射关系,具体的,确定分区表A的表分区1对应数据导入装置的数据缓存区1,表分区2对应数据缓存区2,表分区3对应数据缓存区3,……表分区20对应数据缓存区20。
数据导入装置将该50个数据块中的数据写入对应的数据缓存区中。以第1个数据块为例:第1个数据块中包括1996、1997、和1998年员工的工资数据,由于1996年员工的工资数据由表分区1存储,因此对应数据缓存区1,数据导入装置将第1个数据块中1996年员工的工资数据写入数据缓存区1中。由于1997年员工的工资数据由表分区2存储,因此对应数据缓存区2,数据导入装置将第1个数据块中1997年员工的工资数据写入数据缓存区2中。由于1998年员工的工资数据由表分区3存储,因此对应数据缓存区3,数据导入装置将第1个数据块中1998年员工的工资数据写入数据缓存区3中。数据导入装置基于同样的方法,将该50个数据块中的数据写入对应的数据缓存区中。可以理解的,只有数据缓存区1~数据缓存区20中保存有数据。
在数据导入装置将该2G数据的50个数据块全部写入了数据缓存区后,数据缓存区1~数据缓存区20中保存有数据。数据导入装置并发启动20项数据写入任务,将数据缓存区1~数据缓存区20中的数据分别导入到HDFS里的分区表A中。
本发明实施例还提供了相关的数据导入装置,用于实现上述的数据导入方法,将第一源数据导入分布式文件系统中的目标分区表,其中目标分区表包括M个表分区,M为正整数。该数据导入装置的基本结构请参阅图4,包括:
P个数据缓存区401,其中P为正整数;
数据读取模块402,用于读取第一源数据,得到第一源数据的N个第一数据块。其中每个第一数据块包括待导入一个或多个表分区中的数据,N为不小于2的整数;
缓存区确定模块403,用于根据该N个第一数据块,确定该M个表分区中每个表分区对应的数据缓存区,即该M个表分区和该P个数据缓存区的映射关系,其中一个表分区只对应一个数据缓存区,但是一个数据缓存区可以对应0个、1个或不少于两个表分区;
数据缓存模块404,用于将该N个第一数据块中的数据写入待导入的表分区对应的数据缓存区中;
数据导入模块405,用于将每个数据缓存区中的数据分别导入目标分区表对应的表分区中。
本实施例中,数据导入装置的数据缓存模块404将读取第一源数据得到的N个第一数据块先按照分区在数据缓存区中进行缓存,数据导入模块405再将每个数据缓存区中的数据写入分布式文件系统,共生成M个文件,远远少于现阶段的技术中产生的N×M个文件。由于与现有技术相比,本实施例提供的数据导入装置生成的文件个数较少,因此生成的文件的平均大小较大,更不易产生小文件,进而能够提升分布式文件系统的性能。
可选的,目标表分区包括分区列,并按照该分区列被分为M个表分区,分别为表分区1、表分区2、……表分区M。缓存区确定模块403具体可以通过如下方法确定该M个表分区和该P个数据缓存区的映射关系:
对表分区m的分区列的值进行哈希运算,得到哈希值Hm,其中1≤m≤M;将Hm对P值取余,得到余数q,其中0≤q≤P-1;将q值对应的数据缓存区,确定为表分区m对应的数据缓存区。
可选的,数据读取模块403可以通过如下方法得到N个第一数据块:
接收运算指令,该运算指令用于指示对第一源数据进行运算;读取第一源数据,得到第一源数据的N个数据原始块;根据该运算指令,对该第一源数据的N个数据原始块进行运算,并将对该N个数据原始块的运算结果确定为第一源数据的N个第一数据块。
可选的,数据导入装置还用于将第二源数据导入分布式文件系统中的目标非分区表或目标文件。在这种场景下,数据读取模块403还用于:读取第二源数据,得到第二源数据的Z个第二数据块,其中Z为不小于2的整数;
数据缓存模块还用于:将第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中;
数据导入模块还用于:将每个数据缓存区中的数据导入该目标非分区表或目标文件中。
可选的,数据缓存模块404可以通过如下方法,将第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中:
采用轮询方法确定第二源数据的Z个第二数据块中,每个数据块对应的数据缓存区;
将第二源数据的Z个第二数据块中每个数据块的数据分别写入对应的数据缓存区中。
可选的,数据缓存模块404可以通过如下方法,将第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中:
采用轮询方法将第二源数据的Z个第二数据块的每条记录逐条写入对应的数据缓存区中;
将P个数据缓存区中的数据导入目标非分区表或目标文件中。
上面从单元化功能实体的角度对本发明实施例中的数据导入装置进行了描述,下面从硬件处理的角度对本发明实施例中的数据导入装置进行描述,请参阅图5,本发明实施例中的数据导入装置用于将第一源数据导入分布式文件系统中的目标分区表,其结构包括:
输入装置501、输出装置502、处理器503和存储器504(其中数据导入装置500中的处理器503的数量可以一个或多个,图5中以一个处理器503为例)。在本发明的一些实施例中,输入装置501、输出装置502、处理器503和存储器504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
其中,存储器504中包括P个数据缓存区,还存储有操作指令。通过调用存储器504存储的操作指令,处理器503用于执行如下步骤:
读取所述第一源数据,得到所述第一源数据的N个第一数据块,每个所述第一数据块包括待导入一个或多个所述表分区中的数据,所述N为不小于2的整数;
根据所述N个第一数据块,确定所述M个表分区中每个表分区对应的数据缓存区,其中一个所述表分区只对应一个数据缓存区;
将所述N个第一数据块中的数据写入待导入的表分区对应的数据缓存区中;
将每个所述数据缓存区中的数据分别导入对应的表分区中。
本发明的一些实施例中,所述目标分区表包括分区列,所述目标分区表按照所述分区列被划分为M个表分区,分别为表分区1、表分区2、……表分区M。处理器503还用于执行如下步骤:
对表分区m的分区列的值进行哈希运算,得到哈希值Hm,其中1≤m≤M;
将Hm对P值取余,得到余数q,其中0≤q≤P-1;
将q值对应的数据缓存区,确定为表分区m对应的数据缓存区。
本发明的一些实施例中,处理器503还用于执行如下步骤:
接收运算指令,所述运算指令用于指示对所述第一源数据进行运算;
读取所述第一源数据,得到所述第一源数据的N个数据原始块;
根据所述运算指令,对所述第一源数据的N个数据原始块进行运算,并将对所述N个数据原始块的运算结果确定为所述第一源数据的N个第一数据块。
本发明的一些实施例中,数据导入装置还用于将第二源数据导入所述分布式文件系统中的目标非分区表或目标文件,处理器503还用于执行如下步骤:
读取所述第二源数据,得到所述第二源数据的Z个第二数据块,所述Z为不小于2的整数;
将所述第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中;
将每个所述数据缓存区中的数据导入所述目标非分区表或目标文件中。
本发明的一些实施例中,处理器503还用于执行如下步骤:
采用轮询方法确定所述第二源数据的Z个第二数据块中,每个数据块对应的数据缓存区;
将所述第二源数据的Z个第二数据块中每个数据块的数据分别写入对应的数据缓存区中。
本发明的一些实施例中,处理器503还用于执行如下步骤:
采用轮询方法将所述第二源数据的Z个第二数据块的每条记录逐条写入对应的数据缓存区中。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种数据导入方法,用于数据导入装置将第一源数据导入分布式文件系统中的目标分区表,其特征在于,所述目标分区表包括M个表分区,所述数据导入装置包括P个数据缓存区,所述M、P均为正整数,所述方法包括:
读取所述第一源数据,得到所述第一源数据的N个第一数据块,每个所述第一数据块包括待导入一个或多个所述表分区中的数据,所述N为不小于2的整数;
根据所述N个第一数据块,确定所述M个表分区中每个表分区对应的数据缓存区,其中一个所述表分区只对应一个数据缓存区;
将所述N个第一数据块中的数据写入待导入的表分区对应的数据缓存区中;
将每个所述数据缓存区中的数据分别导入对应的表分区中。
2.根据权利要求1所述的数据导入方法,其特征在于,所述目标分区表包括分区列,所述目标分区表按照所述分区列被划分为M个表分区,所述M个表分区分别为表分区1、表分区2、……表分区M;
所述确定所述M个表分区中每个表分区对应的数据缓存区包括:
对表分区m的分区列的值进行哈希运算,得到哈希值Hm,其中1≤m≤M;
将Hm对P值取余,得到余数q,其中0≤q≤P-1;
将q值对应的数据缓存区,确定为所述表分区m对应的数据缓存区。
3.根据权利要求1或2所述的数据导入方法,其特征在于,所述读取所述第一源数据,得到所述第一源数据的N个第一数据块具体包括:
接收运算指令,所述运算指令用于指示对所述第一源数据进行运算;
读取所述第一源数据,得到所述第一源数据的N个数据原始块;
根据所述运算指令,对所述第一源数据的N个数据原始块进行运算,并将对所述N个数据原始块的运算结果确定为所述第一源数据的N个第一数据块。
4.根据权利要求1至3中任一项所述的数据导入方法,其特征在于,所述方法还用于数据导入装置将第二源数据导入所述分布式文件系统中的目标非分区表或目标文件,所述方法还包括:
读取所述第二源数据,得到所述第二源数据的Z个第二数据块,所述Z为不小于2的整数;
将所述第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中;
将每个所述数据缓存区中的数据导入所述目标非分区表或目标文件中。
5.根据权利要求4所述的数据导入方法,其特征在于,所述将所述第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中包括:
采用轮询方法确定所述第二源数据的Z个第二数据块中,每个数据块对应的数据缓存区;
将所述第二源数据的Z个第二数据块中每个数据块的数据分别写入对应的数据缓存区中。
6.根据权利要求4所述的数据导入方法,其特征在于,所述将所述第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中包括:
采用轮询方法将所述第二源数据的Z个第二数据块的每条记录逐条写入对应的数据缓存区中。
7.一种数据导入装置,用于将第一源数据导入分布式文件系统中的目标分区表,其特征在于,所述目标分区表包括M个表分区,所述数据导入装置包括P个数据缓存区,所述M、P均为正整数,所述装置包括:
数据读取模块,用于读取所述第一源数据,得到所述第一源数据的N个第一数据块,每个所述第一数据块包括待导入一个或多个所述表分区中的数据,所述N为不小于2的整数;
缓存区确定模块,用于根据所述N个第一数据块,确定所述M个表分区中每个表分区对应的数据缓存区,其中一个所述表分区只对应一个数据缓存区;
数据缓存模块,用于将所述N个第一数据块中的数据写入待导入的表分区对应的数据缓存区中;
数据导入模块,用于将每个所述数据缓存区中的数据分别导入对应的表分区中。
8.根据权利要求7所述的数据导入装置,其特征在于,所述目标分区表包括分区列,所述目标分区表按照所述分区列被划分为M个表分区,所述M个表分区分别为表分区1、表分区2、……表分区M;
所述缓存区确定模块具体用于:
对表分区m的分区列的值进行哈希运算,得到哈希值Hm,其中1≤m≤M;
将Hm对P值取余,得到余数q,其中0≤q≤P-1;
将q值对应的数据缓存区,确定为所述表分区m对应的数据缓存区。
9.根据权利要求7或8所述的数据导入装置,其特征在于,所述数据读取模块具体用于:
接收运算指令,所述运算指令用于指示对所述第一源数据进行运算;
读取所述第一源数据,得到所述第一源数据的N个数据原始块;
根据所述运算指令,对所述第一源数据的N个数据原始块进行运算,并将对所述N个数据原始块的运算结果确定为所述第一源数据的N个第一数据块。
10.根据权利要求7至9中任一项所述的数据导入装置,其特征在于,所述数据导入装置还用于将第二源数据导入所述分布式文件系统中的目标非分区表或目标文件;
所述数据读取模块还用于:读取所述第二源数据,得到所述第二源数据的Z个第二数据块,所述Z为不小于2的整数;
所述数据缓存模块还用于:将所述第二源数据的Z个第二数据块中的数据写入对应的数据缓存区中;
所述数据导入模块还用于:将每个所述数据缓存区中的数据导入所述目标非分区表或目标文件中。
11.根据权利要求10所述的数据导入装置,其特征在于,所述数据缓存模块具体用于:
采用轮询方法确定所述第二源数据的Z个第二数据块中,每个数据块对应的数据缓存区;
将所述第二源数据的Z个第二数据块中每个数据块的数据分别写入对应的数据缓存区中。
12.根据权利要求10所述的数据导入装置,其特征在于,所述数据缓存模块具体用于:
采用轮询方法将所述第二源数据的Z个第二数据块的每条记录逐条写入对应的数据缓存区中;
将所述P个数据缓存区中的数据导入所述目标非分区表或目标文件中。
CN201510770550.6A 2015-11-11 2015-11-11 一种数据导入方法以及相关装置 Active CN106682047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510770550.6A CN106682047B (zh) 2015-11-11 2015-11-11 一种数据导入方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510770550.6A CN106682047B (zh) 2015-11-11 2015-11-11 一种数据导入方法以及相关装置

Publications (2)

Publication Number Publication Date
CN106682047A true CN106682047A (zh) 2017-05-17
CN106682047B CN106682047B (zh) 2019-11-01

Family

ID=58865427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510770550.6A Active CN106682047B (zh) 2015-11-11 2015-11-11 一种数据导入方法以及相关装置

Country Status (1)

Country Link
CN (1) CN106682047B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019456A (zh) * 2017-11-01 2019-07-16 阿里巴巴集团控股有限公司 数据导入方法、装置和系统
CN113111038A (zh) * 2021-03-31 2021-07-13 北京达佳互联信息技术有限公司 文件存储方法、装置、服务器及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015546A1 (en) * 2003-07-15 2005-01-20 Ofir Zohar Data storage system
US20070143564A1 (en) * 2005-12-19 2007-06-21 Yahoo! Inc. System and method for updating data in a distributed column chunk data store
CN103699676A (zh) * 2013-12-30 2014-04-02 厦门市美亚柏科信息股份有限公司 基于mssql server表分区及自动维护方法及系统
CN103902593A (zh) * 2012-12-27 2014-07-02 中国移动通信集团河南有限公司 一种数据迁移的方法和装置
CN104408141A (zh) * 2014-12-01 2015-03-11 国家计算机网络与信息安全管理中心 一种消冗文件系统及其数据部署方法
CN104731864A (zh) * 2015-02-26 2015-06-24 国家计算机网络与信息安全管理中心 一种海量非结构化数据的数据存储方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015546A1 (en) * 2003-07-15 2005-01-20 Ofir Zohar Data storage system
US20070143564A1 (en) * 2005-12-19 2007-06-21 Yahoo! Inc. System and method for updating data in a distributed column chunk data store
CN103902593A (zh) * 2012-12-27 2014-07-02 中国移动通信集团河南有限公司 一种数据迁移的方法和装置
CN103699676A (zh) * 2013-12-30 2014-04-02 厦门市美亚柏科信息股份有限公司 基于mssql server表分区及自动维护方法及系统
CN104408141A (zh) * 2014-12-01 2015-03-11 国家计算机网络与信息安全管理中心 一种消冗文件系统及其数据部署方法
CN104731864A (zh) * 2015-02-26 2015-06-24 国家计算机网络与信息安全管理中心 一种海量非结构化数据的数据存储方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019456A (zh) * 2017-11-01 2019-07-16 阿里巴巴集团控股有限公司 数据导入方法、装置和系统
CN110019456B (zh) * 2017-11-01 2023-02-28 阿里巴巴集团控股有限公司 数据导入方法、装置和系统
CN113111038A (zh) * 2021-03-31 2021-07-13 北京达佳互联信息技术有限公司 文件存储方法、装置、服务器及存储介质
CN113111038B (zh) * 2021-03-31 2024-01-19 北京达佳互联信息技术有限公司 文件存储方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN106682047B (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
KR101806055B1 (ko) 선택도에 대해 데이터 비트를 인터리빙함으로써 관계형 데이터베이스에 대한 멀티-칼럼 인덱스의 발생
CN104272244B (zh) 用于对处理进行调度以实现空间节省的系统、方法
US9727308B2 (en) Sorting multiple records of data using ranges of key values
US9736270B2 (en) Automated client/server operation partitioning
CN107729423B (zh) 一种大数据处理方法及装置
CN104391954B (zh) 数据库日志的处理方法及装置
CN104881466B (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN102708183B (zh) 数据压缩的方法和装置
CN110209728A (zh) 一种分布式异构数据库同步方法、电子设备及存储介质
CN108897761A (zh) 一种聚簇存储方法及装置
CN104112008A (zh) 一种多表数据关联查询优化方法和装置
CN109795751B (zh) 板件智能分包的方法和装置
CN107526550A (zh) 一种基于日志结构合并树的两阶段合并方法
CN106778079A (zh) 一种基于MapReduce的DNA序列k‑mer频次统计方法
CN108021702A (zh) 基于LSM-tree的分级存储方法、装置、OLAP数据库系统及介质
CN105005624A (zh) 一种生成索引文档id的方法及装置
US20070239663A1 (en) Parallel processing of count distinct values
CN107153643A (zh) 数据表连接方法及装置
CN106682047A (zh) 一种数据导入方法以及相关装置
CN110457398A (zh) 区块数据存储方法及装置
CN106570060A (zh) 一种信息流中数据的随机抽取方法及装置
CN104598485B (zh) 处理数据库表的方法和设备
CN106991116B (zh) 数据库执行计划的优化方法和装置
CN107436913A (zh) 用于在分布式etl作业中控制倾斜的装置及方法
CN108182209A (zh) 一种数据索引方法、及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200417

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 301, A building, room 3, building 301, foreshore Road, No. 310052, Binjiang District, Zhejiang, Hangzhou

Patentee before: Huawei Technologies Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220218

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technology Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.