CN109726177A - 一种基于HBase的海量文件分区索引方法 - Google Patents

一种基于HBase的海量文件分区索引方法 Download PDF

Info

Publication number
CN109726177A
CN109726177A CN201811635130.7A CN201811635130A CN109726177A CN 109726177 A CN109726177 A CN 109726177A CN 201811635130 A CN201811635130 A CN 201811635130A CN 109726177 A CN109726177 A CN 109726177A
Authority
CN
China
Prior art keywords
file
small documents
subregion
metadata
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811635130.7A
Other languages
English (en)
Inventor
李斌斌
孟宪文
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING SCISTOR TECHNOLOGY Co Ltd
Original Assignee
BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SCISTOR TECHNOLOGY Co Ltd filed Critical BEIJING SCISTOR TECHNOLOGY Co Ltd
Priority to CN201811635130.7A priority Critical patent/CN109726177A/zh
Publication of CN109726177A publication Critical patent/CN109726177A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于HBase的海量文件分区索引方法,属于计算机领域。加载配置文件,对存储系统HBase按照配置规则进行配置;对写入的某个小文件提取元数据;根据各个元数据,分别计算该文件需要写入的桶的分区;拼接出唯一Hash码作为该小文件的Rowkey,若该Rowkey存在于分区索引表,将元数据中记录的版本编号加1,并删除老版本元数据;若不存在则当该小文件的内容需要实时合并时,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并。将所有小文件进行存储,读取每个小文件的元数据表,并进行更新,利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,具有很广泛的应用前景。

Description

一种基于HBase的海量文件分区索引方法
技术领域
本发明属于计算机领域,具体是一种基于HBase的海量文件分区索引方法。
背景技术
当今互联网,数据呈现爆炸式增长,社交网络、移动通信、网络视频以及电子商务等各种应用往往能产生亿级甚至十亿、百亿级的海量小文件。对元数据管理、访问性能以及存储效率等方面都带来了巨大的挑战,海量小文件问题成为了业界公认的难题。因此提出一种高效的海量文件存储、读取和删除的技术成为亟待解决的问题。
HDFS作为文件存储系统,在性能和扩展性上都具有良好的表现,但有海量文件时文件元数据过多,NameNode内存成为瓶颈;而且文件过小,寻道时间大于数据读写时间,这不符合HDFS的设计。HBase是一种构建在HDFS之上的分布式、面向列的存储系统,在实时读写、随机访问超大规模数据集时具有良好的性能。
发明内容
本发明针对上述问题,提出了一种基于HBase的海量文件分区索引方法,通过海量文件分区索引,为海量文件的存储提供高效切实可行的存储管理与读取删除的效率。
具体步骤如下:
步骤一、加载用户指定的配置文件,同时对存储系统HBase按照配置规则进行配置;
具体配置规则包括:文件加载的分区规则,是指按照以月、天及小时为时间粒度进行分区;
小文件合并规则,包括离线合并或实时合并;离线合并包括合并执行周期及合并文件;实时合并是指合并窗口;
步骤二、针对用户写入的某个小文件,提取该文件的ID、文件标题、文件类型、文件大小、创建时间、分区索引、位置索引、删除标识以及版本编号作为元数据;
步骤三、根据小文件的创建时间,计算该文件需要写入的桶的分区;
步骤四、根据小文件的ID利用文件索引生成算法,拼接出唯一Hash码作为该小文件的Rowkey,并存入该文件要写入的桶的分区索引表中。
Rowkey展开的内容即为提取的元数据;
文件索引生成算法计算公式为:
hashcode(文件ID)%(region数)+“_”+文件ID
步骤五、判断该Rowkey在分区索引表中是否存在,如果是,将元数据中记录的版本编号加1,并删除老版本的文件元数据;否则,进入步骤六;
元数据中版本编号初始值为1;
步骤六、判断该小文件的内容是否需要实时合并,如果是,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并;否则,将文件内容直接存入步骤三计算的桶分区中,并以Rowkey作为文件名称;
步骤七、同时,将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中;待下一个小文件写入时跳转到步骤二进行循环。
步骤八、针对某时刻,将用户写入后的所有小文件进行存储,读取每个小文件的元数据表,根据各文件大小和文件版本编号对每个小文件进行管理,并更新文件的元数据表。
具体步骤为:
步骤801、对读取文件存储管理和读取合并文件进行相关配置;
配置具体包括:定期管理的相关配置,定期启动的cron表达式;小文件合并的相关配置,文件合并窗口大小及合并后文件大小的配置;
步骤802、确定文件的合并方式是小文件离线合并还是小文件实时合并,小文件离线时进入步骤803;否则,小文件实时合并时进入步骤804;
小文件合并是指:将同一分区的所有小文件合并,并记录每个小文件的位置索引,将文件位置索引更新到文件分区索引表中,并删除旧的索引对应的元数据。
步骤803、针对小文件离线合并,根据用户配置的小文件大小上限,检索每个小文件的元数据,并放到小文件合并处理池中进行处理,进入步骤805。
具体步骤为:
首先,针对同一分区,定时读取每个小文件的元数据信息,并根据每个小文件的大小,对不超过上限的所有小文件进行合并,超过上限的小文件为大文件,不予处理。
然后,记录并更新合并后的文件元数据信息,并对合并前的元数据置删除标识;
步骤804、针对小文件实时合并,采用滑动窗口合并方式,将记录文件的文件分区索引和位置索引存储到分区索引表中。
具体步骤为:
首先,判断滑动窗口内待合并的小文件数量是否达到设定的阈值A,如果是,则进一步判断时间,否则,继续等待小文件的到来;
进一步判断时间是指:此次的滑动窗口距离上次合并的时间是否达到设定的阈值B,如果是,则将达到设定的阈值A的所有小文件进行合并,并更新合并后的文件元数据信息,同时记录各个小文件的位置索引和分区索引存储到分区索引表中。
步骤805、根据各文件分区索引的元数据信息,查看各文件是否有删除标识,如果有,查看被合并的小文件的占用状态进一步决定删除方式,否则,直接进入下一个文件删除循环。
根据占用状态进一步决定删除方式,具体步骤为:
查看文件检索已被合并的小文件是否处于占用状态,如果是,等待释放后,启动文件删除服务进行删除;否则,将已合并的小文件直接启动文件删除服务进行删除。
针对小文件删除,检索出分区索引表的旧版本的文件元数据,将其及对应的分区的文件内容进行实时或离线删除。
步骤九、对更新了元数据表的各存储文件,利用文件分区索引进行读取和删除;
读取过程是:根据传入文件的ID计算分区索引表中的Rowkey,并根据Rowkey获取文件的分区索引或位置索引,然后确定文件所在的逻辑分区,读取文件内容;
删除过程是:根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey对文件分区索引元数据置删除标识。
本发明的优点在于:一种基于HBase的海量文件分区索引方法,通过建立文件分区索引能够减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,在大数据海量文件存储领域具有很强的实用性和应用范围,具有很广泛的应用前景。
附图说明
图1是本发明一种基于HBase的海量文件分区索引方法的原理图;
图2是本发明一种基于HBase的海量文件分区索引方法流程图;
图3是本发明文件分区索引的具体构成和文件存储的示意图;
图4是本发明文件存储管理流程图;
图5是本发明文件读取流程图;
图6是本发明文件删除流程图。
具体实施方案
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明一种基于HBase的海量文件分区索引方法,如图1所示,包括了分区索引生成技术、文件数据存储管理技术与按照索引进行文件读取/删除技术。通过用HBase作为文件分区索引元数据的存储引擎,使用HDFS作为文件内容的存储引擎。
文件分区索引的具体构成和文件存储的示意图如图3所示,采用HBase作为文件元数据及文件分区索引的存储,提高文件的读取和删除效率,并便于文件的分区管理;同时将文件数据存储到HDFS,利用文件存储管理服务对文件进行管理,合并过小文件,并生成小文件的索引存储到HBase索引表中,减小HDFS的文件元数据压力。
写入文件时用户根据指定的分区规则,结合写入的文件ID或写入时间计算出文件所属的分区,将文件存入相应的分区,并生成唯一的分区索引;读取文件时根据用户根据文件分区索引读取文件;在删除文件时,对文件分区索引进行标记,然后文件数据存储管理技术进行离线的文件删除。使用该技术写入海量文件时保证了文件的唯一性,对文件具有快速去重效果;读取文件时根据索引能够快速定位文件,提高了文件的读取效率;同时该技术便于离线删除文件,大大提高了文件删除速度。
第一部分文件分区索引生成技术,主要实现了写入文件的过程中分区索引的生成。将文件存储到指定的桶中,桶又可以按时间进行分区。写入的文件可以被存储到HDFS的不同的分区中,分区方式可以按文件写入时间进行分区,默认可以配置为以天为分区单位。文件写入时,需指定文件ID,文件ID作为文件在系统的中的唯一标识。通过文件写入时间,确定文件需要写入的分区,生成文件的分区索引。将文件的ID经过Hash处理生成Hash码与ID组合作为该桶元数据HBase表中的Rowkey。同时将文件的分区索引,文件标题、大小、类型等信息存储到文件分区索引元数据表中,文件内容直接存储到桶相应分区的HDFS中。如果文件的ID已经存在,则分区索引及文件元数据信息的记录的版本号会自动更新。如果文件内容和历史版本的文件内容在一个分区中,版本号也会自动更新,如果不在同一分区则直接进行插入。
第二部分文件存储管理技术,实现了对存储的文件内容进行管理。首先读取文件分区索引元数据表,根据文件大小和文件分区索引版本对文件进行管理,并更新文件分区索引元数据表。用户配置小文件大小上限,文件存储管理服务检索出小文件的分区索引元数据,将小文件的分区索引元数据放到小文件合并处理池中进行处理。检索已被合并的小文件占用状态,当文件处于未占用状态时,将已合并的小文件删除。文件存储服务中的小文件合并也支持实时合并,文件实时合并采用滑动窗口合并方式,并将记录文件的文件分区位置索引存储到分区索引表中。文件存储管理服务还会对文件的版本进行管理,检索出分区索引表的旧的版本的文件元数据,将其及对应的分区的文件内容进行删除,实现同一ID文件版本的唯一性。同时,文件存储管理服务会离线删除被标记删除的文件,释放存储空间。
第三部分文件的读取及删除部分,利用文件分区索引对文件进行读取和删除。用户传入文件ID对文件进行下载读取或删除,用户也可以批量传入文件ID进行批量操作。读取服务根据传入的文件ID生成分区索引表中的Rowkey,根据Rowkey获取文件的分区索引或分区位置索引,然后根据分区索引确定文件所在的逻辑分区,读取文件内容;如果为小文件则读取的为逻辑文件,再根据分区位置索引和文件大小获取文件内容。删除服务根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey对文件分区索引元数据置删除标识。
如图2所示,具体步骤如下:
步骤一、加载用户指定的配置文件,同时对存储系统HBase按照配置规则进行配置;
具体配置包括:文件加载的分区规则,可以指定按照以月、天及小时为时间粒度进行分区;小文件合并规则,可以指定为离线合并,离线合并的执行周期及合并后文件的大小,或指定为实时合并,实时合并的窗口大小;
步骤二、针对用户写入的某个小文件,提取该文件的ID、文件标题、文件类型、文件大小、创建时间、分区索引、位置索引、删除标识以及版本编号作为元数据;
文件版本编号默认为1;
步骤三、根据小文件的创建时间,计算该文件需要写入的桶的分区;
文件分区索引存储到HBase中,其中桶为文件分区索引和文件内容存储的逻辑容器,桶又可以按天进行逻辑分区。
步骤四、根据小文件的ID利用文件索引生成算法,计算出文件在索引表中的唯一Hash码,将该Hash码作为该文件在桶的分区索引表中的Rowkey;
Rowkey展开的内容即为提取的元数据;
文件索引生成算法计算公式为:
hashcode(文件ID)%(region数)+“_”+文件ID;
本实施例中,计算文件ID字符串的MD5码,并截断该码的前四位,将该前四位与原文件的ID拼接作为该文件在桶的分区索引表中的Rowkey;
如图3所示,桶1的分区索引元数据表存储到HBase中,一个文件的分区索引元数据对应HBase表中的一个Rowkey,文件元数据分别存储到Rowkey对应的列中,因为HBase的列具有良好的扩展性,所以方便后续对文件属性的添加。本实施例记录了文件ID、文件类型、文件标题、文件大小、创建时间、文件分区索引、文件位置索引、文件版本编号及文件删除标识。其中,文件分区索引指向了文件内容存储到HDFS中的逻辑分区位置,文件位置索引记录了该文件内容在文件索引所指文件的位置。
步骤五、判断该文件的Rowkey在分区索引表中是否存在,如果是,将元数据中记录的版本编号加1更新,并对老版本的文件元数据进行删除标识;否则,进入步骤六;
步骤六、判断该小文件的内容是否进行实时文件合并,如果是,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并;否则,文件内容直接存入步骤三计算的HDFS的桶分区中,并以Rowkey作为文件名称;
步骤七、同时,将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中;待下一个小文件写入时跳转到步骤二进行循环。
步骤八、针对某时刻,将用户写入后的所有小文件进行存储,读取每个小文件的元数据表,根据各文件大小和文件版本编号对每个小文件进行管理,并更新文件的元数据表。
如图4所示,具体的存储管理步骤为:
步骤801、对读取文件存储管理和读取合并文件进行相关配置;
配置具体包括:定期管理的相关配置,定期启动的cron表达式;小文件合并的相关配置,文件合并窗口大小及合并后文件大小配置;如文件滑动窗口的超时时间、文件离线合并的周期、文件删除管理的周期等;
步骤802、确定文件的合并方式是小文件离线合并还是小文件实时合并,小文件离线时进入步骤803;否则,小文件实时合并时进入步骤804;
小文件合并是指:将同一分区的所有小文件合并,并记录每个小文件的位置索引,将文件位置索引更新到文件分区索引表中,并删除旧的索引对应的元数据。
步骤803、针对小文件离线合并,根据用户配置的小文件大小上限,检索每个小文件的元数据,并放到小文件合并处理池中进行处理,进入步骤805。
具体步骤为:
首先,针对同一分区,定时读取每个小文件的元数据信息,并根据每个小文件的大小,对不超过上限的所有小文件进行合并,超过上限的小文件为大文件,不予处理。
然后,记录并更新合并后的文件元数据信息,并对合并前的元数据置删除标识;
步骤804、针对小文件实时合并,采用滑动窗口合并方式,将记录文件的文件分区索引和位置索引存储到分区索引表中。
具体步骤为:
首先,判断滑动窗口内待合并的小文件数量是否达到设定的阈值A,如果是,则进一步判断时间,否则,继续等待小文件的到来;
进一步判断时间是指:此次的滑动窗口距离上次合并的时间是否达到设定的阈值B,如果是,则将达到设定的阈值A的所有小文件进行合并,并更新合并后的文件元数据信息,同时记录各个小文件的位置索引和分区索引存储到分区索引表中。
步骤805、根据各文件分区索引的元数据信息,查看各文件是否有删除标识,如果有,查看被合并的小文件的占用状态进一步决定删除方式,否则,直接进入下一个文件删除循环。
根据占用状态进一步决定删除方式,具体步骤为:
查看文件检索已被合并的小文件是否处于占用状态,如果是,等待释放后,启动文件删除服务进行删除;否则,将已合并的小文件直接启动文件删除服务进行删除。
针对小文件删除,检索出分区索引表的旧版本的文件元数据,将其及对应的分区的文件内容进行实时或离线删除。
步骤九、对更新了元数据表的各存储文件,利用文件分区索引进行读取和删除;
如图5所示,读取过程是:根据传入文件的ID计算分区索引表中的Rowkey,并根据Rowkey获取文件的分区索引或位置索引,然后确定文件所在的逻辑分区,读取文件内容;
如图6所示,删除过程是:根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey获取文件分区索引元数据,更新文件分区索引,置元数据删除标识。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims (7)

1.一种基于HBase的海量文件分区索引方法,其特征在于,具体步骤如下:
步骤一、加载用户指定的配置文件,同时对存储系统HBase按照配置规则进行配置;
步骤二、针对用户写入的某个小文件,提取该文件的ID、文件标题、文件类型、文件大小、创建时间、分区索引、位置索引、删除标识以及版本编号作为元数据;
步骤三、根据小文件的创建时间,计算该文件需要写入的桶的分区;
步骤四、根据小文件的ID利用文件索引生成算法,拼接出唯一Hash码作为该小文件的Rowkey,并存入该文件要写入的桶的分区索引表中;
Rowkey展开的内容即为提取的元数据;
文件索引生成算法计算公式为:
hashcode(文件ID)%(region数)+“_”+文件ID
步骤五、判断该Rowkey在分区索引表中是否存在,如果是,将元数据中记录的版本编号加1,并删除老版本的文件元数据;否则,进入步骤六;
元数据中版本编号初始值为1;
步骤六、判断该小文件的内容是否需要实时合并,如果是,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并;否则,将文件内容直接存入步骤三计算的桶分区中,并以Rowkey作为文件名称;
步骤七、同时,将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中;待下一个小文件写入时跳转到步骤二进行循环;
步骤八、针对某时刻,将用户写入后的所有小文件进行存储,读取每个小文件的元数据表,根据各文件大小和文件版本编号对每个小文件进行管理,并更新文件的元数据表;
具体步骤为:
步骤801、对读取文件存储管理和读取合并文件进行相关配置;
步骤802、确定文件的合并方式是小文件离线合并还是小文件实时合并,小文件离线时进入步骤803;否则,小文件实时合并时进入步骤804;
小文件合并是指:将同一分区的所有小文件合并,并记录每个小文件的位置索引,将文件位置索引更新到文件分区索引表中,并删除旧的索引对应的元数据;
步骤803、针对小文件离线合并,根据用户配置的小文件大小上限,检索每个小文件的元数据,并放到小文件合并处理池中进行处理,进入步骤805;
步骤804、针对小文件实时合并,采用滑动窗口合并方式,将记录文件的文件分区索引和位置索引存储到分区索引表中;
步骤805、根据各文件分区索引的元数据信息,查看各文件是否有删除标识,如果有,查看被合并的小文件的占用状态进一步决定删除方式,否则,直接进入下一个文件删除循环;
步骤九、对更新了元数据表的各存储文件,利用文件分区索引进行读取和删除。
2.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤一所述的配置规则包括:文件加载的分区规则,是指按照以月、天及小时为时间粒度进行分区;小文件合并规则,包括离线合并或实时合并;离线合并包括合并执行周期及合并文件;实时合并是指合并窗口。
3.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤801中所述的配置具体包括:定期管理的相关配置,定期启动的cron表达式;小文件合并的相关配置,文件合并窗口大小及合并后文件大小的配置。
4.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,所述的步骤803具体为:
具体步骤为:
首先,针对同一分区,定时读取每个小文件的元数据信息,并根据每个小文件的大小,对不超过上限的所有小文件进行合并,超过上限的小文件为大文件,不予处理。
然后,记录并更新合并后的文件元数据信息,并对合并前的元数据置删除标识。
5.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,所述的步骤804具体为:
首先,判断滑动窗口内待合并的小文件数量是否达到设定的阈值A,如果是,则进一步判断时间,否则,继续等待小文件的到来;
进一步判断时间是指:此次的滑动窗口距离上次合并的时间是否达到设定的阈值B,如果是,则将达到设定的阈值A的所有小文件进行合并,并更新合并后的文件元数据信息,同时记录各个小文件的位置索引和分区索引存储到分区索引表中。
6.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤805中所述的根据占用状态进一步决定删除方式,具体步骤为:
查看文件检索已被合并的小文件是否处于占用状态,如果是,等带释放后,启动文件删除服务进行删除;否则,将已合并的小文件直接启动文件删除服务进行删除;
针对小文件删除,检索出分区索引表的旧版本的文件元数据,将其及对应的分区的文件内容进行实时或离线删除。
7.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤九中所述的读取过程是:根据传入文件的ID计算分区索引表中的Rowkey,并根据Rowkey获取文件的分区索引或位置索引,然后确定文件所在的逻辑分区,读取文件内容;
删除过程是:根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey对文件分区索引元数据置删除标识。
CN201811635130.7A 2018-12-29 2018-12-29 一种基于HBase的海量文件分区索引方法 Pending CN109726177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811635130.7A CN109726177A (zh) 2018-12-29 2018-12-29 一种基于HBase的海量文件分区索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811635130.7A CN109726177A (zh) 2018-12-29 2018-12-29 一种基于HBase的海量文件分区索引方法

Publications (1)

Publication Number Publication Date
CN109726177A true CN109726177A (zh) 2019-05-07

Family

ID=66297530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811635130.7A Pending CN109726177A (zh) 2018-12-29 2018-12-29 一种基于HBase的海量文件分区索引方法

Country Status (1)

Country Link
CN (1) CN109726177A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110618992A (zh) * 2019-08-28 2019-12-27 宁波市智慧城市规划标准发展研究院 基于政务数据的多数据库多表快速索引方法
CN110888837A (zh) * 2019-11-15 2020-03-17 星辰天合(北京)数据科技有限公司 对象存储小文件归并方法及装置
CN111008235A (zh) * 2019-12-03 2020-04-14 成都四方伟业软件股份有限公司 一种基于Spark的小文件合并方法及系统
CN112035057A (zh) * 2020-07-24 2020-12-04 武汉达梦数据库有限公司 一种hive文件合并的方法和装置
CN112241396A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Spark的对Delta进行小文件合并的方法及系统
CN112579533A (zh) * 2020-12-25 2021-03-30 华录光存储研究院(大连)有限公司 一种小文件存储方法、装置及计算机设备
CN112637616A (zh) * 2020-12-08 2021-04-09 网宿科技股份有限公司 一种对象存储方法、系统及服务器
CN113722518A (zh) * 2021-08-27 2021-11-30 中科星通(廊坊)信息技术有限公司 基于遥感影像元数据的存储方法、检索方法、设备及介质
CN115269524A (zh) * 2022-09-26 2022-11-01 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法
CN115292247A (zh) * 2022-09-28 2022-11-04 北京鼎轩科技有限责任公司 一种文件读取方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731864A (zh) * 2015-02-26 2015-06-24 国家计算机网络与信息安全管理中心 一种海量非结构化数据的数据存储方法
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
CN105787118A (zh) * 2016-03-25 2016-07-20 武汉工程大学 HBase二级索引的设计方法及查询方法
CN106446145A (zh) * 2016-09-21 2017-02-22 郑州云海信息技术有限公司 一种基于Hadoop的大数据索引快速创建方法
CN107943890A (zh) * 2017-11-16 2018-04-20 武汉虹旭信息技术有限责任公司 基于HBase的移动互联网海量数据处理系统及其方法
CN108710639A (zh) * 2018-04-17 2018-10-26 桂林电子科技大学 一种基于Ceph的海量小文件存取优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731864A (zh) * 2015-02-26 2015-06-24 国家计算机网络与信息安全管理中心 一种海量非结构化数据的数据存储方法
CN105404652A (zh) * 2015-10-29 2016-03-16 河海大学 一种基于hdfs的海量小文件处理方法
CN105787118A (zh) * 2016-03-25 2016-07-20 武汉工程大学 HBase二级索引的设计方法及查询方法
CN106446145A (zh) * 2016-09-21 2017-02-22 郑州云海信息技术有限公司 一种基于Hadoop的大数据索引快速创建方法
CN107943890A (zh) * 2017-11-16 2018-04-20 武汉虹旭信息技术有限责任公司 基于HBase的移动互联网海量数据处理系统及其方法
CN108710639A (zh) * 2018-04-17 2018-10-26 桂林电子科技大学 一种基于Ceph的海量小文件存取优化方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110618992A (zh) * 2019-08-28 2019-12-27 宁波市智慧城市规划标准发展研究院 基于政务数据的多数据库多表快速索引方法
CN110888837A (zh) * 2019-11-15 2020-03-17 星辰天合(北京)数据科技有限公司 对象存储小文件归并方法及装置
CN110888837B (zh) * 2019-11-15 2021-01-22 星辰天合(北京)数据科技有限公司 对象存储小文件归并方法及装置
CN111008235A (zh) * 2019-12-03 2020-04-14 成都四方伟业软件股份有限公司 一种基于Spark的小文件合并方法及系统
CN112035057A (zh) * 2020-07-24 2020-12-04 武汉达梦数据库有限公司 一种hive文件合并的方法和装置
CN112035057B (zh) * 2020-07-24 2022-06-21 武汉达梦数据库股份有限公司 一种hive文件合并的方法和装置
CN112241396B (zh) * 2020-10-27 2023-05-23 浪潮云信息技术股份公司 基于Spark的对Delta进行小文件合并的方法及系统
CN112241396A (zh) * 2020-10-27 2021-01-19 浪潮云信息技术股份公司 基于Spark的对Delta进行小文件合并的方法及系统
CN112637616A (zh) * 2020-12-08 2021-04-09 网宿科技股份有限公司 一种对象存储方法、系统及服务器
CN112637616B (zh) * 2020-12-08 2024-02-23 网宿科技股份有限公司 一种对象存储方法、系统及服务器
CN112579533A (zh) * 2020-12-25 2021-03-30 华录光存储研究院(大连)有限公司 一种小文件存储方法、装置及计算机设备
CN113722518A (zh) * 2021-08-27 2021-11-30 中科星通(廊坊)信息技术有限公司 基于遥感影像元数据的存储方法、检索方法、设备及介质
CN115269524B (zh) * 2022-09-26 2023-03-24 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法
CN115269524A (zh) * 2022-09-26 2022-11-01 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法
CN115292247B (zh) * 2022-09-28 2022-12-06 北京鼎轩科技有限责任公司 一种文件读取方法、装置、电子设备和存储介质
CN115292247A (zh) * 2022-09-28 2022-11-04 北京鼎轩科技有限责任公司 一种文件读取方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109726177A (zh) 一种基于HBase的海量文件分区索引方法
CN108319654B (zh) 计算系统、冷热数据分离方法及装置、计算机可读存储介质
US9836541B2 (en) System and method of managing capacity of search index partitions
US9047330B2 (en) Index compression in databases
JP5218060B2 (ja) 情報検索システムと情報検索方法ならびにプログラム
CN100495400C (zh) 一种全文检索系统的索引在线更新方法
US20140181030A1 (en) Identifying data items
US10776345B2 (en) Efficiently updating a secondary index associated with a log-structured merge-tree database
CN104239501A (zh) 一种基于Spark的海量视频语义标注方法
CN111198856B (zh) 文件管理方法、装置、计算机设备和存储介质
CN109726175A (zh) 一种基于HBase的海量文件离线分区管理方法
CN110109910A (zh) 数据处理方法及系统、电子设备和计算机可读存储介质
EP3788505B1 (en) Storing data items and identifying stored data items
CN110888837B (zh) 对象存储小文件归并方法及装置
CN103186617A (zh) 一种存储数据的方法和装置
CN105468785A (zh) 一种计算机文件管理方法
CN106161193B (zh) 一种邮件处理方法、装置和系统
CN114356878A (zh) 一种非结构化数据分布式存储方法及装置
CN107844483B (zh) 文件管理方法及装置
EP3343395B1 (en) Data storage method and apparatus for mobile terminal
CN110413724B (zh) 一种数据检索方法和装置
CN104699688A (zh) 一种搜索文件的方法和电子设备
CN103177026A (zh) 数据管理方法和数据管理系统
CN110659344B (zh) 一种基于区块法的全文搜索方法
CN112632266B (zh) 数据写入方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190507