CN109726177A - 一种基于HBase的海量文件分区索引方法 - Google Patents
一种基于HBase的海量文件分区索引方法 Download PDFInfo
- Publication number
- CN109726177A CN109726177A CN201811635130.7A CN201811635130A CN109726177A CN 109726177 A CN109726177 A CN 109726177A CN 201811635130 A CN201811635130 A CN 201811635130A CN 109726177 A CN109726177 A CN 109726177A
- Authority
- CN
- China
- Prior art keywords
- file
- small documents
- subregion
- metadata
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于HBase的海量文件分区索引方法,属于计算机领域。加载配置文件,对存储系统HBase按照配置规则进行配置;对写入的某个小文件提取元数据;根据各个元数据,分别计算该文件需要写入的桶的分区;拼接出唯一Hash码作为该小文件的Rowkey,若该Rowkey存在于分区索引表,将元数据中记录的版本编号加1,并删除老版本元数据;若不存在则当该小文件的内容需要实时合并时,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并。将所有小文件进行存储,读取每个小文件的元数据表,并进行更新,利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,具有很广泛的应用前景。
Description
技术领域
本发明属于计算机领域,具体是一种基于HBase的海量文件分区索引方法。
背景技术
当今互联网,数据呈现爆炸式增长,社交网络、移动通信、网络视频以及电子商务等各种应用往往能产生亿级甚至十亿、百亿级的海量小文件。对元数据管理、访问性能以及存储效率等方面都带来了巨大的挑战,海量小文件问题成为了业界公认的难题。因此提出一种高效的海量文件存储、读取和删除的技术成为亟待解决的问题。
HDFS作为文件存储系统,在性能和扩展性上都具有良好的表现,但有海量文件时文件元数据过多,NameNode内存成为瓶颈;而且文件过小,寻道时间大于数据读写时间,这不符合HDFS的设计。HBase是一种构建在HDFS之上的分布式、面向列的存储系统,在实时读写、随机访问超大规模数据集时具有良好的性能。
发明内容
本发明针对上述问题,提出了一种基于HBase的海量文件分区索引方法,通过海量文件分区索引,为海量文件的存储提供高效切实可行的存储管理与读取删除的效率。
具体步骤如下:
步骤一、加载用户指定的配置文件,同时对存储系统HBase按照配置规则进行配置;
具体配置规则包括:文件加载的分区规则,是指按照以月、天及小时为时间粒度进行分区;
小文件合并规则,包括离线合并或实时合并;离线合并包括合并执行周期及合并文件;实时合并是指合并窗口;
步骤二、针对用户写入的某个小文件,提取该文件的ID、文件标题、文件类型、文件大小、创建时间、分区索引、位置索引、删除标识以及版本编号作为元数据;
步骤三、根据小文件的创建时间,计算该文件需要写入的桶的分区;
步骤四、根据小文件的ID利用文件索引生成算法,拼接出唯一Hash码作为该小文件的Rowkey,并存入该文件要写入的桶的分区索引表中。
Rowkey展开的内容即为提取的元数据;
文件索引生成算法计算公式为:
hashcode(文件ID)%(region数)+“_”+文件ID
步骤五、判断该Rowkey在分区索引表中是否存在,如果是,将元数据中记录的版本编号加1,并删除老版本的文件元数据;否则,进入步骤六;
元数据中版本编号初始值为1;
步骤六、判断该小文件的内容是否需要实时合并,如果是,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并;否则,将文件内容直接存入步骤三计算的桶分区中,并以Rowkey作为文件名称;
步骤七、同时,将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中;待下一个小文件写入时跳转到步骤二进行循环。
步骤八、针对某时刻,将用户写入后的所有小文件进行存储,读取每个小文件的元数据表,根据各文件大小和文件版本编号对每个小文件进行管理,并更新文件的元数据表。
具体步骤为:
步骤801、对读取文件存储管理和读取合并文件进行相关配置;
配置具体包括:定期管理的相关配置,定期启动的cron表达式;小文件合并的相关配置,文件合并窗口大小及合并后文件大小的配置;
步骤802、确定文件的合并方式是小文件离线合并还是小文件实时合并,小文件离线时进入步骤803;否则,小文件实时合并时进入步骤804;
小文件合并是指:将同一分区的所有小文件合并,并记录每个小文件的位置索引,将文件位置索引更新到文件分区索引表中,并删除旧的索引对应的元数据。
步骤803、针对小文件离线合并,根据用户配置的小文件大小上限,检索每个小文件的元数据,并放到小文件合并处理池中进行处理,进入步骤805。
具体步骤为:
首先,针对同一分区,定时读取每个小文件的元数据信息,并根据每个小文件的大小,对不超过上限的所有小文件进行合并,超过上限的小文件为大文件,不予处理。
然后,记录并更新合并后的文件元数据信息,并对合并前的元数据置删除标识;
步骤804、针对小文件实时合并,采用滑动窗口合并方式,将记录文件的文件分区索引和位置索引存储到分区索引表中。
具体步骤为:
首先,判断滑动窗口内待合并的小文件数量是否达到设定的阈值A,如果是,则进一步判断时间,否则,继续等待小文件的到来;
进一步判断时间是指:此次的滑动窗口距离上次合并的时间是否达到设定的阈值B,如果是,则将达到设定的阈值A的所有小文件进行合并,并更新合并后的文件元数据信息,同时记录各个小文件的位置索引和分区索引存储到分区索引表中。
步骤805、根据各文件分区索引的元数据信息,查看各文件是否有删除标识,如果有,查看被合并的小文件的占用状态进一步决定删除方式,否则,直接进入下一个文件删除循环。
根据占用状态进一步决定删除方式,具体步骤为:
查看文件检索已被合并的小文件是否处于占用状态,如果是,等待释放后,启动文件删除服务进行删除;否则,将已合并的小文件直接启动文件删除服务进行删除。
针对小文件删除,检索出分区索引表的旧版本的文件元数据,将其及对应的分区的文件内容进行实时或离线删除。
步骤九、对更新了元数据表的各存储文件,利用文件分区索引进行读取和删除;
读取过程是:根据传入文件的ID计算分区索引表中的Rowkey,并根据Rowkey获取文件的分区索引或位置索引,然后确定文件所在的逻辑分区,读取文件内容;
删除过程是:根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey对文件分区索引元数据置删除标识。
本发明的优点在于:一种基于HBase的海量文件分区索引方法,通过建立文件分区索引能够减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,在大数据海量文件存储领域具有很强的实用性和应用范围,具有很广泛的应用前景。
附图说明
图1是本发明一种基于HBase的海量文件分区索引方法的原理图;
图2是本发明一种基于HBase的海量文件分区索引方法流程图;
图3是本发明文件分区索引的具体构成和文件存储的示意图;
图4是本发明文件存储管理流程图;
图5是本发明文件读取流程图;
图6是本发明文件删除流程图。
具体实施方案
下面将结合附图和实施例对本发明作进一步的详细说明。
本发明一种基于HBase的海量文件分区索引方法,如图1所示,包括了分区索引生成技术、文件数据存储管理技术与按照索引进行文件读取/删除技术。通过用HBase作为文件分区索引元数据的存储引擎,使用HDFS作为文件内容的存储引擎。
文件分区索引的具体构成和文件存储的示意图如图3所示,采用HBase作为文件元数据及文件分区索引的存储,提高文件的读取和删除效率,并便于文件的分区管理;同时将文件数据存储到HDFS,利用文件存储管理服务对文件进行管理,合并过小文件,并生成小文件的索引存储到HBase索引表中,减小HDFS的文件元数据压力。
写入文件时用户根据指定的分区规则,结合写入的文件ID或写入时间计算出文件所属的分区,将文件存入相应的分区,并生成唯一的分区索引;读取文件时根据用户根据文件分区索引读取文件;在删除文件时,对文件分区索引进行标记,然后文件数据存储管理技术进行离线的文件删除。使用该技术写入海量文件时保证了文件的唯一性,对文件具有快速去重效果;读取文件时根据索引能够快速定位文件,提高了文件的读取效率;同时该技术便于离线删除文件,大大提高了文件删除速度。
第一部分文件分区索引生成技术,主要实现了写入文件的过程中分区索引的生成。将文件存储到指定的桶中,桶又可以按时间进行分区。写入的文件可以被存储到HDFS的不同的分区中,分区方式可以按文件写入时间进行分区,默认可以配置为以天为分区单位。文件写入时,需指定文件ID,文件ID作为文件在系统的中的唯一标识。通过文件写入时间,确定文件需要写入的分区,生成文件的分区索引。将文件的ID经过Hash处理生成Hash码与ID组合作为该桶元数据HBase表中的Rowkey。同时将文件的分区索引,文件标题、大小、类型等信息存储到文件分区索引元数据表中,文件内容直接存储到桶相应分区的HDFS中。如果文件的ID已经存在,则分区索引及文件元数据信息的记录的版本号会自动更新。如果文件内容和历史版本的文件内容在一个分区中,版本号也会自动更新,如果不在同一分区则直接进行插入。
第二部分文件存储管理技术,实现了对存储的文件内容进行管理。首先读取文件分区索引元数据表,根据文件大小和文件分区索引版本对文件进行管理,并更新文件分区索引元数据表。用户配置小文件大小上限,文件存储管理服务检索出小文件的分区索引元数据,将小文件的分区索引元数据放到小文件合并处理池中进行处理。检索已被合并的小文件占用状态,当文件处于未占用状态时,将已合并的小文件删除。文件存储服务中的小文件合并也支持实时合并,文件实时合并采用滑动窗口合并方式,并将记录文件的文件分区位置索引存储到分区索引表中。文件存储管理服务还会对文件的版本进行管理,检索出分区索引表的旧的版本的文件元数据,将其及对应的分区的文件内容进行删除,实现同一ID文件版本的唯一性。同时,文件存储管理服务会离线删除被标记删除的文件,释放存储空间。
第三部分文件的读取及删除部分,利用文件分区索引对文件进行读取和删除。用户传入文件ID对文件进行下载读取或删除,用户也可以批量传入文件ID进行批量操作。读取服务根据传入的文件ID生成分区索引表中的Rowkey,根据Rowkey获取文件的分区索引或分区位置索引,然后根据分区索引确定文件所在的逻辑分区,读取文件内容;如果为小文件则读取的为逻辑文件,再根据分区位置索引和文件大小获取文件内容。删除服务根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey对文件分区索引元数据置删除标识。
如图2所示,具体步骤如下:
步骤一、加载用户指定的配置文件,同时对存储系统HBase按照配置规则进行配置;
具体配置包括:文件加载的分区规则,可以指定按照以月、天及小时为时间粒度进行分区;小文件合并规则,可以指定为离线合并,离线合并的执行周期及合并后文件的大小,或指定为实时合并,实时合并的窗口大小;
步骤二、针对用户写入的某个小文件,提取该文件的ID、文件标题、文件类型、文件大小、创建时间、分区索引、位置索引、删除标识以及版本编号作为元数据;
文件版本编号默认为1;
步骤三、根据小文件的创建时间,计算该文件需要写入的桶的分区;
文件分区索引存储到HBase中,其中桶为文件分区索引和文件内容存储的逻辑容器,桶又可以按天进行逻辑分区。
步骤四、根据小文件的ID利用文件索引生成算法,计算出文件在索引表中的唯一Hash码,将该Hash码作为该文件在桶的分区索引表中的Rowkey;
Rowkey展开的内容即为提取的元数据;
文件索引生成算法计算公式为:
hashcode(文件ID)%(region数)+“_”+文件ID;
本实施例中,计算文件ID字符串的MD5码,并截断该码的前四位,将该前四位与原文件的ID拼接作为该文件在桶的分区索引表中的Rowkey;
如图3所示,桶1的分区索引元数据表存储到HBase中,一个文件的分区索引元数据对应HBase表中的一个Rowkey,文件元数据分别存储到Rowkey对应的列中,因为HBase的列具有良好的扩展性,所以方便后续对文件属性的添加。本实施例记录了文件ID、文件类型、文件标题、文件大小、创建时间、文件分区索引、文件位置索引、文件版本编号及文件删除标识。其中,文件分区索引指向了文件内容存储到HDFS中的逻辑分区位置,文件位置索引记录了该文件内容在文件索引所指文件的位置。
步骤五、判断该文件的Rowkey在分区索引表中是否存在,如果是,将元数据中记录的版本编号加1更新,并对老版本的文件元数据进行删除标识;否则,进入步骤六;
步骤六、判断该小文件的内容是否进行实时文件合并,如果是,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并;否则,文件内容直接存入步骤三计算的HDFS的桶分区中,并以Rowkey作为文件名称;
步骤七、同时,将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中;待下一个小文件写入时跳转到步骤二进行循环。
步骤八、针对某时刻,将用户写入后的所有小文件进行存储,读取每个小文件的元数据表,根据各文件大小和文件版本编号对每个小文件进行管理,并更新文件的元数据表。
如图4所示,具体的存储管理步骤为:
步骤801、对读取文件存储管理和读取合并文件进行相关配置;
配置具体包括:定期管理的相关配置,定期启动的cron表达式;小文件合并的相关配置,文件合并窗口大小及合并后文件大小配置;如文件滑动窗口的超时时间、文件离线合并的周期、文件删除管理的周期等;
步骤802、确定文件的合并方式是小文件离线合并还是小文件实时合并,小文件离线时进入步骤803;否则,小文件实时合并时进入步骤804;
小文件合并是指:将同一分区的所有小文件合并,并记录每个小文件的位置索引,将文件位置索引更新到文件分区索引表中,并删除旧的索引对应的元数据。
步骤803、针对小文件离线合并,根据用户配置的小文件大小上限,检索每个小文件的元数据,并放到小文件合并处理池中进行处理,进入步骤805。
具体步骤为:
首先,针对同一分区,定时读取每个小文件的元数据信息,并根据每个小文件的大小,对不超过上限的所有小文件进行合并,超过上限的小文件为大文件,不予处理。
然后,记录并更新合并后的文件元数据信息,并对合并前的元数据置删除标识;
步骤804、针对小文件实时合并,采用滑动窗口合并方式,将记录文件的文件分区索引和位置索引存储到分区索引表中。
具体步骤为:
首先,判断滑动窗口内待合并的小文件数量是否达到设定的阈值A,如果是,则进一步判断时间,否则,继续等待小文件的到来;
进一步判断时间是指:此次的滑动窗口距离上次合并的时间是否达到设定的阈值B,如果是,则将达到设定的阈值A的所有小文件进行合并,并更新合并后的文件元数据信息,同时记录各个小文件的位置索引和分区索引存储到分区索引表中。
步骤805、根据各文件分区索引的元数据信息,查看各文件是否有删除标识,如果有,查看被合并的小文件的占用状态进一步决定删除方式,否则,直接进入下一个文件删除循环。
根据占用状态进一步决定删除方式,具体步骤为:
查看文件检索已被合并的小文件是否处于占用状态,如果是,等待释放后,启动文件删除服务进行删除;否则,将已合并的小文件直接启动文件删除服务进行删除。
针对小文件删除,检索出分区索引表的旧版本的文件元数据,将其及对应的分区的文件内容进行实时或离线删除。
步骤九、对更新了元数据表的各存储文件,利用文件分区索引进行读取和删除;
如图5所示,读取过程是:根据传入文件的ID计算分区索引表中的Rowkey,并根据Rowkey获取文件的分区索引或位置索引,然后确定文件所在的逻辑分区,读取文件内容;
如图6所示,删除过程是:根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey获取文件分区索引元数据,更新文件分区索引,置元数据删除标识。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (7)
1.一种基于HBase的海量文件分区索引方法,其特征在于,具体步骤如下:
步骤一、加载用户指定的配置文件,同时对存储系统HBase按照配置规则进行配置;
步骤二、针对用户写入的某个小文件,提取该文件的ID、文件标题、文件类型、文件大小、创建时间、分区索引、位置索引、删除标识以及版本编号作为元数据;
步骤三、根据小文件的创建时间,计算该文件需要写入的桶的分区;
步骤四、根据小文件的ID利用文件索引生成算法,拼接出唯一Hash码作为该小文件的Rowkey,并存入该文件要写入的桶的分区索引表中;
Rowkey展开的内容即为提取的元数据;
文件索引生成算法计算公式为:
hashcode(文件ID)%(region数)+“_”+文件ID
步骤五、判断该Rowkey在分区索引表中是否存在,如果是,将元数据中记录的版本编号加1,并删除老版本的文件元数据;否则,进入步骤六;
元数据中版本编号初始值为1;
步骤六、判断该小文件的内容是否需要实时合并,如果是,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并;否则,将文件内容直接存入步骤三计算的桶分区中,并以Rowkey作为文件名称;
步骤七、同时,将文件标题、文件类型、文件大小、分区索引、位置索引、删除标识以及版本编号一起存储到元数据表中;待下一个小文件写入时跳转到步骤二进行循环;
步骤八、针对某时刻,将用户写入后的所有小文件进行存储,读取每个小文件的元数据表,根据各文件大小和文件版本编号对每个小文件进行管理,并更新文件的元数据表;
具体步骤为:
步骤801、对读取文件存储管理和读取合并文件进行相关配置;
步骤802、确定文件的合并方式是小文件离线合并还是小文件实时合并,小文件离线时进入步骤803;否则,小文件实时合并时进入步骤804;
小文件合并是指:将同一分区的所有小文件合并,并记录每个小文件的位置索引,将文件位置索引更新到文件分区索引表中,并删除旧的索引对应的元数据;
步骤803、针对小文件离线合并,根据用户配置的小文件大小上限,检索每个小文件的元数据,并放到小文件合并处理池中进行处理,进入步骤805;
步骤804、针对小文件实时合并,采用滑动窗口合并方式,将记录文件的文件分区索引和位置索引存储到分区索引表中;
步骤805、根据各文件分区索引的元数据信息,查看各文件是否有删除标识,如果有,查看被合并的小文件的占用状态进一步决定删除方式,否则,直接进入下一个文件删除循环;
步骤九、对更新了元数据表的各存储文件,利用文件分区索引进行读取和删除。
2.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤一所述的配置规则包括:文件加载的分区规则,是指按照以月、天及小时为时间粒度进行分区;小文件合并规则,包括离线合并或实时合并;离线合并包括合并执行周期及合并文件;实时合并是指合并窗口。
3.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤801中所述的配置具体包括:定期管理的相关配置,定期启动的cron表达式;小文件合并的相关配置,文件合并窗口大小及合并后文件大小的配置。
4.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,所述的步骤803具体为:
具体步骤为:
首先,针对同一分区,定时读取每个小文件的元数据信息,并根据每个小文件的大小,对不超过上限的所有小文件进行合并,超过上限的小文件为大文件,不予处理。
然后,记录并更新合并后的文件元数据信息,并对合并前的元数据置删除标识。
5.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,所述的步骤804具体为:
首先,判断滑动窗口内待合并的小文件数量是否达到设定的阈值A,如果是,则进一步判断时间,否则,继续等待小文件的到来;
进一步判断时间是指:此次的滑动窗口距离上次合并的时间是否达到设定的阈值B,如果是,则将达到设定的阈值A的所有小文件进行合并,并更新合并后的文件元数据信息,同时记录各个小文件的位置索引和分区索引存储到分区索引表中。
6.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤805中所述的根据占用状态进一步决定删除方式,具体步骤为:
查看文件检索已被合并的小文件是否处于占用状态,如果是,等带释放后,启动文件删除服务进行删除;否则,将已合并的小文件直接启动文件删除服务进行删除;
针对小文件删除,检索出分区索引表的旧版本的文件元数据,将其及对应的分区的文件内容进行实时或离线删除。
7.如权利要求1所述的一种基于HBase的海量文件分区索引方法,其特征在于,步骤九中所述的读取过程是:根据传入文件的ID计算分区索引表中的Rowkey,并根据Rowkey获取文件的分区索引或位置索引,然后确定文件所在的逻辑分区,读取文件内容;
删除过程是:根据传入的需要删除的文件ID生成分区索引表中的Rowkey,根据Rowkey对文件分区索引元数据置删除标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811635130.7A CN109726177A (zh) | 2018-12-29 | 2018-12-29 | 一种基于HBase的海量文件分区索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811635130.7A CN109726177A (zh) | 2018-12-29 | 2018-12-29 | 一种基于HBase的海量文件分区索引方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109726177A true CN109726177A (zh) | 2019-05-07 |
Family
ID=66297530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811635130.7A Pending CN109726177A (zh) | 2018-12-29 | 2018-12-29 | 一种基于HBase的海量文件分区索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726177A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110618992A (zh) * | 2019-08-28 | 2019-12-27 | 宁波市智慧城市规划标准发展研究院 | 基于政务数据的多数据库多表快速索引方法 |
CN110888837A (zh) * | 2019-11-15 | 2020-03-17 | 星辰天合(北京)数据科技有限公司 | 对象存储小文件归并方法及装置 |
CN111008235A (zh) * | 2019-12-03 | 2020-04-14 | 成都四方伟业软件股份有限公司 | 一种基于Spark的小文件合并方法及系统 |
CN112035057A (zh) * | 2020-07-24 | 2020-12-04 | 武汉达梦数据库有限公司 | 一种hive文件合并的方法和装置 |
CN112241396A (zh) * | 2020-10-27 | 2021-01-19 | 浪潮云信息技术股份公司 | 基于Spark的对Delta进行小文件合并的方法及系统 |
CN112579533A (zh) * | 2020-12-25 | 2021-03-30 | 华录光存储研究院(大连)有限公司 | 一种小文件存储方法、装置及计算机设备 |
CN112637616A (zh) * | 2020-12-08 | 2021-04-09 | 网宿科技股份有限公司 | 一种对象存储方法、系统及服务器 |
CN113722518A (zh) * | 2021-08-27 | 2021-11-30 | 中科星通(廊坊)信息技术有限公司 | 基于遥感影像元数据的存储方法、检索方法、设备及介质 |
CN115269524A (zh) * | 2022-09-26 | 2022-11-01 | 创云融达信息技术(天津)股份有限公司 | 一种端到端小文件归集传输和存储的一体化系统及方法 |
CN115292247A (zh) * | 2022-09-28 | 2022-11-04 | 北京鼎轩科技有限责任公司 | 一种文件读取方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731864A (zh) * | 2015-02-26 | 2015-06-24 | 国家计算机网络与信息安全管理中心 | 一种海量非结构化数据的数据存储方法 |
CN105404652A (zh) * | 2015-10-29 | 2016-03-16 | 河海大学 | 一种基于hdfs的海量小文件处理方法 |
CN105787118A (zh) * | 2016-03-25 | 2016-07-20 | 武汉工程大学 | HBase二级索引的设计方法及查询方法 |
CN106446145A (zh) * | 2016-09-21 | 2017-02-22 | 郑州云海信息技术有限公司 | 一种基于Hadoop的大数据索引快速创建方法 |
CN107943890A (zh) * | 2017-11-16 | 2018-04-20 | 武汉虹旭信息技术有限责任公司 | 基于HBase的移动互联网海量数据处理系统及其方法 |
CN108710639A (zh) * | 2018-04-17 | 2018-10-26 | 桂林电子科技大学 | 一种基于Ceph的海量小文件存取优化方法 |
-
2018
- 2018-12-29 CN CN201811635130.7A patent/CN109726177A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104731864A (zh) * | 2015-02-26 | 2015-06-24 | 国家计算机网络与信息安全管理中心 | 一种海量非结构化数据的数据存储方法 |
CN105404652A (zh) * | 2015-10-29 | 2016-03-16 | 河海大学 | 一种基于hdfs的海量小文件处理方法 |
CN105787118A (zh) * | 2016-03-25 | 2016-07-20 | 武汉工程大学 | HBase二级索引的设计方法及查询方法 |
CN106446145A (zh) * | 2016-09-21 | 2017-02-22 | 郑州云海信息技术有限公司 | 一种基于Hadoop的大数据索引快速创建方法 |
CN107943890A (zh) * | 2017-11-16 | 2018-04-20 | 武汉虹旭信息技术有限责任公司 | 基于HBase的移动互联网海量数据处理系统及其方法 |
CN108710639A (zh) * | 2018-04-17 | 2018-10-26 | 桂林电子科技大学 | 一种基于Ceph的海量小文件存取优化方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110618992A (zh) * | 2019-08-28 | 2019-12-27 | 宁波市智慧城市规划标准发展研究院 | 基于政务数据的多数据库多表快速索引方法 |
CN110888837A (zh) * | 2019-11-15 | 2020-03-17 | 星辰天合(北京)数据科技有限公司 | 对象存储小文件归并方法及装置 |
CN110888837B (zh) * | 2019-11-15 | 2021-01-22 | 星辰天合(北京)数据科技有限公司 | 对象存储小文件归并方法及装置 |
CN111008235A (zh) * | 2019-12-03 | 2020-04-14 | 成都四方伟业软件股份有限公司 | 一种基于Spark的小文件合并方法及系统 |
CN112035057A (zh) * | 2020-07-24 | 2020-12-04 | 武汉达梦数据库有限公司 | 一种hive文件合并的方法和装置 |
CN112035057B (zh) * | 2020-07-24 | 2022-06-21 | 武汉达梦数据库股份有限公司 | 一种hive文件合并的方法和装置 |
CN112241396B (zh) * | 2020-10-27 | 2023-05-23 | 浪潮云信息技术股份公司 | 基于Spark的对Delta进行小文件合并的方法及系统 |
CN112241396A (zh) * | 2020-10-27 | 2021-01-19 | 浪潮云信息技术股份公司 | 基于Spark的对Delta进行小文件合并的方法及系统 |
CN112637616A (zh) * | 2020-12-08 | 2021-04-09 | 网宿科技股份有限公司 | 一种对象存储方法、系统及服务器 |
CN112637616B (zh) * | 2020-12-08 | 2024-02-23 | 网宿科技股份有限公司 | 一种对象存储方法、系统及服务器 |
CN112579533A (zh) * | 2020-12-25 | 2021-03-30 | 华录光存储研究院(大连)有限公司 | 一种小文件存储方法、装置及计算机设备 |
CN113722518A (zh) * | 2021-08-27 | 2021-11-30 | 中科星通(廊坊)信息技术有限公司 | 基于遥感影像元数据的存储方法、检索方法、设备及介质 |
CN115269524B (zh) * | 2022-09-26 | 2023-03-24 | 创云融达信息技术(天津)股份有限公司 | 一种端到端小文件归集传输和存储的一体化系统及方法 |
CN115269524A (zh) * | 2022-09-26 | 2022-11-01 | 创云融达信息技术(天津)股份有限公司 | 一种端到端小文件归集传输和存储的一体化系统及方法 |
CN115292247B (zh) * | 2022-09-28 | 2022-12-06 | 北京鼎轩科技有限责任公司 | 一种文件读取方法、装置、电子设备和存储介质 |
CN115292247A (zh) * | 2022-09-28 | 2022-11-04 | 北京鼎轩科技有限责任公司 | 一种文件读取方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726177A (zh) | 一种基于HBase的海量文件分区索引方法 | |
CN108319654B (zh) | 计算系统、冷热数据分离方法及装置、计算机可读存储介质 | |
US9836541B2 (en) | System and method of managing capacity of search index partitions | |
US9047330B2 (en) | Index compression in databases | |
JP5218060B2 (ja) | 情報検索システムと情報検索方法ならびにプログラム | |
CN100495400C (zh) | 一种全文检索系统的索引在线更新方法 | |
US20140181030A1 (en) | Identifying data items | |
US10776345B2 (en) | Efficiently updating a secondary index associated with a log-structured merge-tree database | |
CN104239501A (zh) | 一种基于Spark的海量视频语义标注方法 | |
CN111198856B (zh) | 文件管理方法、装置、计算机设备和存储介质 | |
CN109726175A (zh) | 一种基于HBase的海量文件离线分区管理方法 | |
CN110109910A (zh) | 数据处理方法及系统、电子设备和计算机可读存储介质 | |
EP3788505B1 (en) | Storing data items and identifying stored data items | |
CN110888837B (zh) | 对象存储小文件归并方法及装置 | |
CN103186617A (zh) | 一种存储数据的方法和装置 | |
CN105468785A (zh) | 一种计算机文件管理方法 | |
CN106161193B (zh) | 一种邮件处理方法、装置和系统 | |
CN114356878A (zh) | 一种非结构化数据分布式存储方法及装置 | |
CN107844483B (zh) | 文件管理方法及装置 | |
EP3343395B1 (en) | Data storage method and apparatus for mobile terminal | |
CN110413724B (zh) | 一种数据检索方法和装置 | |
CN104699688A (zh) | 一种搜索文件的方法和电子设备 | |
CN103177026A (zh) | 数据管理方法和数据管理系统 | |
CN110659344B (zh) | 一种基于区块法的全文搜索方法 | |
CN112632266B (zh) | 数据写入方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190507 |