CN112241396B - 基于Spark的对Delta进行小文件合并的方法及系统 - Google Patents

基于Spark的对Delta进行小文件合并的方法及系统 Download PDF

Info

Publication number
CN112241396B
CN112241396B CN202011159512.4A CN202011159512A CN112241396B CN 112241396 B CN112241396 B CN 112241396B CN 202011159512 A CN202011159512 A CN 202011159512A CN 112241396 B CN112241396 B CN 112241396B
Authority
CN
China
Prior art keywords
files
spark
merging
file
delta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011159512.4A
Other languages
English (en)
Other versions
CN112241396A (zh
Inventor
周永进
刘传涛
张晖
高传集
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202011159512.4A priority Critical patent/CN112241396B/zh
Publication of CN112241396A publication Critical patent/CN112241396A/zh
Application granted granted Critical
Publication of CN112241396B publication Critical patent/CN112241396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1724Details of de-fragmentation performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Spark的对Delta进行小文件合并的方法及系统,属于大数据存储与计算应用领域,本发明要解决的技术问题为如何将Spark与Delta相结合,实现对小文件的快速定位并合并,采用的技术方案为:该方法具体如下:S1、使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息;S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数;S3、对文件做统计操作,根据统计信息生成描述合并的元数据信息CompactionMetadata;S4、Spark根据合并元数据信息以及文件合并策略,判断文件是否需要合并:①、若是,则确定其合并规则,并执行步骤S5;②、若否,则退出;S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量。

Description

基于Spark的对Delta进行小文件合并的方法及系统
技术领域
本发明涉及大数据存储与计算应用领域,具体地说是一种基于Spark的对Delta进行小文件合并的方法及系统。
背景技术
大数据战略是指把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。那么未来最贵的资源必定是数据,如何采集、存储和计算数据成为了当前热点话题,Delta和Spark分别作为当前大数据领域内存储和计算使用最多的技术,引起了工业界的广泛关注。
Spark是基于内存的分布式计算框架,并且对Hadoop生态系统有高度的支持,比如支持从HDFS、Hbase、Hive等分布式文件系统读取数据。而且Spark目前发展非常迅速,支持的持久层框架越来越多,并且随着SparkSQL的出现,通过SparkSQL直接访问Hive更加方便,数据开发人员直接用SQL语句便可以做数据分析,降低了Spark和大数据开发难度。但是Hive要面临一个问题,Spark无法访问Hive的事务表,那么Hive将无法对历史数据进行行级别的更新和删除。
Delta作为最新开源的一项存储中间层框架,可以提供ACID事务,可以确保多个并发读写时的数据完整性;提供数据版本管理功能,提供时间漫游历史版本数据读取;提供数据插入、更新、删除等功能,填补了传统HIVE表不支持更新删除的缺陷;而且Delta时基于Spark开发的,因此完全兼容Spark API。
所以,Spark+Delta的存储与计算服务组合,势必当前以及未来一段时间内的主流技术。不过,Delta目前还有一些不足,即,如果每次数据插入或者更新的数据比较少时,那么Delta会生成一个小文件,那么这种小文件比较多时,就会影响HDFS的文件管理效率,并降低Spark读取Delta数据的效率,因此Delta小文件是目前一个比较重要的问题。
Delta在不断插入、更新以及删除操作时,会在对应的HDFS上形成源源不断的小文件,这些小文件会增大HDFS的管理能力以及降低Spark的计算能力的。主要应用在系统从传统关系数据库向大数据平台切换,或者随着业务量的增大,传统数据库因为历史数据不断增加,无法满足对数据的处理性能,需要把数据转移至Delta中,使用Spark作为计算引擎的场景。相比于HIVE来讲,Delta提供了基于HDFS的大数据的更新与删除功能,但是由于Delta本身为实现更新的设计的限制,数据的不断插入会生成大量的小文件。
故如何将Spark与Delta相结合,实现对小文件的快速定位并合并,即将Delta表中存放在HDFS上的小文件合并为较大的文件,以减轻HDFS的文件管理压力,并提高分布式计算引擎读取数据效率是目前亟待解决的问题。
发明内容
本发明的技术任务是提供一种基于Spark的对Delta进行小文件合并的方法及系统,来解决如何将Spark与Delta相结合,实现对小文件的快速定位并合并,即将Delta表中存放在HDFS上的小文件合并为较大的文件,以减轻HDFS的文件管理压力,并提高分布式计算引擎读取数据效率的问题。
本发明的技术任务是按以下方式实现的,一种基于Spark的对Delta进行小文件合并的方法,该方法具体如下:
S1、使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息;
S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数;
S3、对文件做统计操作,根据统计信息生成描述合并的元数据信息CompactionMetadata;
S4、Spark根据合并元数据信息以及文件合并策略,判断文件是否需要合并:
①、若是,则确定其合并规则,并执行步骤S5;
②、若否,则退出;
S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量。
作为优选,所述元数据信息包括文件的绝对路径和文件的大小。
作为优选,当文件为分区表时,具体如下:
(1)、按照分区目录分组;
(2)、对同一组下的文件做统计操作;
(3)、根据统计信息生成描述合并的元数据信息CompactionMetadata;
(4)、Spark根据合并元数据信息及合并策略,判断当前目录下的文件是否需要合并:
①、若否,则退出;
②、若是,则执行步骤(5);
(5)、Spark根据合并规则,合并该目录的小文件。
作为优选,所述步骤S1中使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息具体如下:
S101、Spark从DeltaLog中读取表当前版本的Log日志的流程;
S102、从Log日志文件中获取到每个文件的绝对路径以及该文件的存储大小;
S103、根据每个文件的大小以及合并规则对目录下划分为“小文件”和“大文件”两种;
S104、统计出小文件的数量与以及全部文件的数量,形成合并元数据CompactionMetadata。
作为优选,所述步骤S4中判断文件是否需要合并的原则是默认小文件数量占比大于20%。
更优地,所述合并策略采用repartition或者coalesce的合并算法。
一种基于Spark的对Delta进行小文件合并的系统,该系统包括,
获取模块,用于通过DeltaLog获取当前表以及目录的文件绝对路径以及大小;具体为Deltalog获取到当前snapshot的所有文件,并记录每一个文件的绝对路径、文件大小以及记录时间;
分区模块,用于通过Spark按照绝对路径获取分区,实现了根据路径分隔符分区信息,并通过Spark根据分区获取当前分区CompactionMetadata,实现了把DeltaLog信息转为合并元数据信息;
选择模块,用于通过Spark根据CompactionMetadata选择合并算法并合并,Spark根据当前目录实际大小以及合并后的文件数据量提供不同的合并算法;
合并模块,用于基于表名和路径两种方式合并小文件。
作为优选,基于表名和路径两种方式合并小文件具体如下:
①、根据注册在HIVE中的Delta表名作为入口合并;
②、根据Delta表的存储的路径作为入口合并。
一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述的基于Spark的对Delta进行小文件合并的方法。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如上述的基于Spark的对Delta进行小文件合并的法。
本发明的基于Spark的对Delta进行小文件合并的方法及系统具有以下优点:
(一)本发明充分利用DeltaLog记录数据文件大小的特点,利用Spark可以对文件数据重新合并的能力,减少文件数量,增加文件大小,解决在大数据存储与计算中,由于小文件过多给分布式文件系统带来得管理压力以及Spark读取Delta表数据时,增加单任务读取数据量的问题,提高读取效率;
(二)本发明利用DeltaLog记录文件位置以及文件大小的能力,以及Spark快速合并文件的特点,快读定位到小文件并对其合并,解决了Delta小批量不断插入和更新的情况下,带来的小文件问题;保证了Delta数据的插入、更新和删除操作,并相对于HIVE,Spark对Delta的计算能力几乎没收到影响。
设计合理、结构简单、易于加工、体积小、使用方便、一物多用等特点,因而,具有很好的推广使用价值。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于Spark的对Delta进行小文件合并的方法的流程框图;
附图2为基于Spark的对Delta进行小文件合并的系统的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于Spark的对Delta进行小文件合并的方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的基于Spark的对Delta进行小文件合并的方法,该方法具体如下:
S1、使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息;
S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数;
S3、对文件做统计操作,根据统计信息生成描述合并的元数据信息CompactionMetadata;
S4、Spark根据合并元数据信息以及文件合并策略,判断文件是否需要合并:
①、若是,则确定其合并规则,并执行步骤S5;
②、若否,则退出;
S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量。
其中,元数据信息包括文件的绝对路径和文件的大小。
当文件为分区表时,具体如下:
(1)、按照分区目录分组;
(2)、对同一组下的文件做统计操作;
(3)、根据统计信息生成描述合并的元数据信息CompactionMetadata;
(4)、Spark根据合并元数据信息及合并策略,判断当前目录下的文件是否需要合并:
①、若否,则退出;
②、若是,则执行步骤(5);
(5)、Spark根据合并规则,合并该目录的小文件。
本实施例中步骤S1中使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息具体如下:
S101、Spark从DeltaLog中读取表当前版本的Log日志的流程;
S102、从Log日志文件中获取到每个文件的绝对路径以及该文件的存储大小;
S103、根据每个文件的大小以及合并规则对目录下划分为“小文件”和“大文件”两种;
S104、统计出小文件的数量与以及全部文件的数量,形成合并元数据CompactionMetadata。
关键代码如下:
Figure BDA0002743840990000051
Figure BDA0002743840990000061
本实施例中Spark通过该表或者分区的CompactionMetadata,来分析该表或分区是否需要进行小文件合并,默认如果为小文件数量占比大于20%,则认为需要合并;关键代码如下:
Figure BDA0002743840990000062
本实施例中Spark根据该表或者分区的CompactionMetadata,来确定合并后的文件个数以及选择最高效的合并算法repartition或者coalesce;关键代码如下:
Figure BDA0002743840990000063
本实施例中Spark把从新合并后的数据以替换的方式重新写回原表或原分区,关键代码如下:
Figure BDA0002743840990000064
Figure BDA0002743840990000071
实施例2:
如附图2所示,本发明的基于Spark的对Delta进行小文件合并的系统,该系统包括,
获取模块,用于通过DeltaLog获取当前表以及目录的文件绝对路径以及大小;具体为Deltalog获取到当前snapshot的所有文件,并记录每一个文件的绝对路径、文件大小以及记录时间;
分区模块,用于通过Spark按照绝对路径获取分区,实现了根据路径分隔符分区信息,并通过Spark根据分区获取当前分区CompactionMetadata,实现了把DeltaLog信息转为合并元数据信息;关键代码如下:
Figure BDA0002743840990000072
选择模块,用于通过Spark根据CompactionMetadata选择合并算法并合并,Spark根据当前目录实际大小以及合并后的文件数据量提供不同的合并算法;
关键代码如下:
Figure BDA0002743840990000073
Figure BDA0002743840990000081
合并模块,用于基于表名和路径两种方式合并小文件。
本实施例中基于表名和路径两种方式合并小文件具体如下:
①、根据注册在HIVE中的Delta表名作为入口合并;
②、根据Delta表的存储的路径作为入口合并。
关键代码如下:
public void optimizeTable(SparkSession spark,String database,Stringtable);
public void optimizeTable(SparkSession spark,String basePath)。
实施例3:
本发明实施例还提供了一种电子设备,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如任一实施例中的基于Spark的对Delta进行小文件合并方法。
实施例4:
本发明实施例还提供了一种计算机可读存储介质,其中存储有多条指令,指令由处理器加载,使处理器执行本发明任一实施例中的基于Spark的对Delta进行小文件合并方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R基于SPARK的对DELTA进行小文件合并的方法及系统M、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于Spark的对Delta进行小文件合并的方法,其特征在于,该方法具体如下:
S1、使用Spark读取DeltaLog文件,分析DeltaLog获取每一个数据文件的元数据信息;具体如下:
S101、Spark从DeltaLog中读取表当前版本的Log日志的流程;
S102、从Log日志文件中获取到每个文件的绝对路径以及该文件的存储大小;
S103、根据每个文件的大小以及合并规则对目录下划分为“小文件”和“大文件”两种;
S104、统计出小文件的数量与以及全部文件的数量,形成合并元数据CompactionMetadata;
S2、Spark根据合并策略对所有文件按照大小统计小文件的个数以及总文件个数;
S3、对文件做统计操作,根据统计信息生成描述合并的元数据信息CompactionMetadata;
S4、Spark根据合并元数据信息以及文件合并策略,判断文件是否需要合并:
①、若是,则确定其合并规则,并执行步骤S5;
②、若否,则退出;
S5、Spark根据合并策略以及元数据信息确定需要合并的小文件以及目标文件大小以及数量;
其中,当文件为分区表时,具体如下:
(1)、按照分区目录分组;
(2)、对同一组下的文件做统计操作;
(3)、根据统计信息生成描述合并的元数据信息CompactionMetadata;
(4)、Spark根据合并元数据信息及合并策略,判断当前目录下的文件是否需要合并:
①、若否,则退出;
②、若是,则执行步骤(5);
(5)、Spark根据合并规则,合并该目录的小文件。
2.根据权利要求1所述的基于Spark的对Delta进行小文件合并的方法,其特征在于,所述元数据信息包括文件的绝对路径和文件的大小。
3.根据权利要求1所述的基于Spark的对Delta进行小文件合并的方法,其特征在于,所述步骤S4中判断文件是否需要合并的原则是默认小文件数量占比大于20%。
4.根据权利要求1-3中任一所述的基于Spark的对Delta进行小文件合并的方法,其特征在于,所述合并策略采用repartition或者coalesce的合并算法。
5.一种基于Spark的对Delta进行小文件合并的系统,其特征在于,该系统包括,
获取模块,用于通过DeltaLog获取当前表以及目录的文件绝对路径以及大小;具体为Deltalog获取到当前snapshot的所有文件,并记录每一个文件的绝对路径、文件大小以及记录时间;
分区模块,用于通过Spark按照绝对路径获取分区,实现了根据路径分隔符分区信息,并通过Spark根据分区获取当前分区CompactionMetadata,实现了把DeltaLog信息转为合并元数据信息;
选择模块,用于通过Spark根据CompactionMetadata选择合并算法并合并,Spark根据当前目录实际大小以及合并后的文件数据量提供不同的合并算法;
合并模块,用于基于表名和路径两种方式合并小文件;
其中,基于表名和路径两种方式合并小文件具体如下:
①、根据注册在HIVE中的Delta表名作为入口合并;
②、根据Delta表的存储的路径作为入口合并。
6.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至4任一项所述的基于Spark的对Delta进行小文件合并的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1至4中所述的基于Spark的对Delta进行小文件合并的法。
CN202011159512.4A 2020-10-27 2020-10-27 基于Spark的对Delta进行小文件合并的方法及系统 Active CN112241396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011159512.4A CN112241396B (zh) 2020-10-27 2020-10-27 基于Spark的对Delta进行小文件合并的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011159512.4A CN112241396B (zh) 2020-10-27 2020-10-27 基于Spark的对Delta进行小文件合并的方法及系统

Publications (2)

Publication Number Publication Date
CN112241396A CN112241396A (zh) 2021-01-19
CN112241396B true CN112241396B (zh) 2023-05-23

Family

ID=74169871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011159512.4A Active CN112241396B (zh) 2020-10-27 2020-10-27 基于Spark的对Delta进行小文件合并的方法及系统

Country Status (1)

Country Link
CN (1) CN112241396B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948330A (zh) * 2021-02-26 2021-06-11 拉卡拉支付股份有限公司 数据合并方法、装置、电子设备、存储介质及程序产品
CN113836224A (zh) * 2021-09-07 2021-12-24 南方电网大数据服务有限公司 Ogg到hdfs的同步文件处理方法、装置和计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142937A (zh) * 2013-05-07 2014-11-12 深圳中兴网信科技有限公司 一种分布式数据存取方法、装置和系统
CN104978351A (zh) * 2014-04-09 2015-10-14 中国电信股份有限公司 海量小文件备份方法与云存储网关
CN105843841A (zh) * 2016-03-07 2016-08-10 青岛理工大学 一种小文件存储方法和系统
CN108256115A (zh) * 2017-09-05 2018-07-06 国家计算机网络与信息安全管理中心 一种面向SparkSql的HDFS小文件实时合并实现方法
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN111159130A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种小文件合并方法及电子设备
CN111488323A (zh) * 2020-04-14 2020-08-04 中国农业银行股份有限公司 一种数据处理方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142937A (zh) * 2013-05-07 2014-11-12 深圳中兴网信科技有限公司 一种分布式数据存取方法、装置和系统
CN104978351A (zh) * 2014-04-09 2015-10-14 中国电信股份有限公司 海量小文件备份方法与云存储网关
CN105843841A (zh) * 2016-03-07 2016-08-10 青岛理工大学 一种小文件存储方法和系统
CN108256115A (zh) * 2017-09-05 2018-07-06 国家计算机网络与信息安全管理中心 一种面向SparkSql的HDFS小文件实时合并实现方法
CN111159130A (zh) * 2018-11-07 2020-05-15 中移(苏州)软件技术有限公司 一种小文件合并方法及电子设备
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN111488323A (zh) * 2020-04-14 2020-08-04 中国农业银行股份有限公司 一种数据处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN112241396A (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN109254733B (zh) 用于存储数据的方法、装置和系统
CN108319654B (zh) 计算系统、冷热数据分离方法及装置、计算机可读存储介质
US7636736B1 (en) Method and apparatus for creating and using a policy-based access/change log
CN109271343B (zh) 一种应用于键值存储系统中的数据合并方法和装置
CN112241396B (zh) 基于Spark的对Delta进行小文件合并的方法及系统
US9128944B2 (en) File system enabling fast purges and file access
CN107807932B (zh) 一种基于路径枚举的层级数据管理方法和系统
US11625412B2 (en) Storing data items and identifying stored data items
CN110888837B (zh) 对象存储小文件归并方法及装置
CN106407355A (zh) 一种数据存储方法及装置
CN114416670B (zh) 适用于网盘文档的索引创建方法、装置、网盘及存储介质
CN114329096A (zh) 一种原生图数据库处理方法及系统
US20110145242A1 (en) Intelligent Redistribution of Data in a Database
CN115858488A (zh) 基于数据治理的平行迁移方法、装置及可读介质
US8612717B2 (en) Storage system
CN107408239B (zh) 通过多个邮箱在通信应用中进行海量数据管理的架构
CN109614411B (zh) 数据存储方法、设备和存储介质
CN111752941B (zh) 一种数据存储、访问方法、装置、服务器及存储介质
CN109800208A (zh) 网络溯源系统及其数据处理方法、计算机存储介质
CN114297236A (zh) 一种数据血缘分析方法、终端设备及存储介质
CN111563123A (zh) 一种hive仓库元数据实时同步方法
CN111782886A (zh) 元数据管理的方法和装置
CN114153842B (zh) 一种跨平台数据处理方法、系统、设备及介质
US11907531B2 (en) Optimizing storage-related costs with compression in a multi-tiered storage device
WO2021224960A1 (ja) 保存装置、保存方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant