CN105956183A

CN105956183A - 一种分布式数据库中海量小文件的多级优化存储方法及系统

Info

Publication number: CN105956183A
Application number: CN201610375410.3A
Authority: CN
Inventors: 张华琛; 高如超; 卢乐书; 陈振辉; 雷通; 黄琦
Original assignee: China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: China Energy Engineering Group Guangdong Electric Power Design Institute Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-09-21
Anticipated expiration: 2036-05-30
Also published as: CN105956183B

Abstract

本发明公开一种分布式数据库中海量小文件的多级优化存储方法及系统，方法包括：分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件，将所述小文件放入合并队列，将每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中，所述小文件的文件长度小于预设小文件长度阈值；分布式数据库的管理节点为每个所述合并文件所包括的每个小文件构建索引并保存在分布式数据库的管理节点中；客户端根据所述索引，从所述合并文件中获取所述小文件。本发明从HDFS的文件存取流程出发，使用合并队列算法将小文件合并为大文件，减少小文件数量，同时，构建索引提高文件检索性能。

Description

一种分布式数据库中海量小文件的多级优化存储方法及系统

技术领域

本发明涉及分布式数据库相关技术领域，特别是一种分布式数据库中海量小文件的多级优化存储方法及系统。

背景技术

在光缆网管系统中，系统数据库服务器负责光纤信息数据的分析、统计以及告警处理。所有的配置信息、状态信息、告警信息均经过应用服务器分析处理，将数据存储于数据库中或从数据库中查询。由于配置信息、告警信息和状态信息可通过海量小文件的方式进行存储，因此采用Hadoop分布式文件系统(Hadoop Distributed File System，HDFS)存储和管理海量数据。然而，Hadoop平台存储和处理海量小文件，即文件尺寸远小于HDFS块大小(通常为64MB)的文件时，却会引起“小文件问题”。直接存储这类海量小文件时，会产生相应数量的目录对象和元数据信息，迅速耗尽管理节点(NameNode)内存。其次，访问大量小文件需要不断在工作节点(DateNode)间跳转，造成HDFS吞吐量大幅降低，产生无法忍受的时延。此外，处理大量小文件中的数据需要大量MapReduce任务，任务间调度和执行耗费的资源会成倍增长，使Hadoop集群整体性能大幅下降。

然而，现有的分布式数据库，或称为分布式文件系统，其主要通过利用分布式数据库提供的原生工具如Hadoop的HAR存储小文件，或是通过改变NameNode中对元数据的管理方式来提高小文件存储效率。

现有对小文件的处理方式性能不高，通用性较差。

发明内容

基于此，有必要针对现有技术的分布式数据库对小文件的处理方式性能不高的技术问题，提供一种分布式数据库中海量小文件的多级优化存储方法及系统。

本发明提供一种分布式数据库中海量小文件的多级优化存储方法，包括：

文件合并步骤，分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件，将所述小文件放入合并队列，将每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中，所述小文件的文件长度小于预设小文件长度阈值；

文件索引步骤，分布式数据库的管理节点为每个所述合并文件所包括的每个小文件构建索引并保存在分布式数据库的管理节点中；

文件读取步骤，客户端根据所述索引，从所述合并文件中获取所述小文件。

本发明提供一种分布式数据库中海量小文件的多级优化存储系统，包括：

文件合并模块，用于：分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件，将所述小文件放入合并队列，将每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中，所述小文件的文件长度小于预设小文件长度阈值；

文件索引模块，用于：分布式数据库的管理节点为每个所述合并文件所包括的每个小文件构建索引并保存在分布式数据库的管理节点中；

文件读取模块，用于：客户端根据所述索引，从所述合并文件中获取所述小文件。

本发明从HDFS的文件存取流程出发，使用合并队列算法将小文件合并为大文件，减少小文件数量，同时，构建索引提高文件检索性能。

附图说明

图1为本发明一种分布式数据库中海量小文件的多级优化存储方法的工作流程图；

图2为本发明最佳实施例的工作流程图；

图3为本发明一种分布式数据库中海量小文件的多级优化存储系统的系统模块图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图1所示为本发明一种分布式数据库中海量小文件的多级优化存储方法的工作流程图，包括：

步骤S101，分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件，将所述小文件放入合并队列，将每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中，所述小文件的文件长度小于预设小文件长度阈值；

步骤S102，分布式数据库的管理节点为每个所述合并文件所包括的每个小文件构建索引并保存在分布式数据库的管理节点中；

步骤S103，客户端根据所述索引，从所述合并文件中获取所述小文件。

在其中一个实施例中，所述步骤S101，具体包括：

小文件输入响应子步骤，分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件；

小文件选择子步骤，选择所述小文件输入事件所包括的其中一个小文件作为当前小文件；

长度比较子步骤，获取预设的合并队列组中所有合并队列的剩余长度，如果所述当前小文件的文件长度小于或等于所有合并队列的剩余长度的最大值，则将剩余长度大于或等于所述当前小文件的文件长度的合并队列作为当前合并队列，执行小文件加入子步骤，如果所述当前小文件的文件长度大于所有合并队列的剩余长度的最大值，则执行合并队列选择子步骤；

合并缓冲选择子步骤，将剩余长度最小的合并队列作为待判断合并队列，如果所述待判断合并队列满足预设均衡合并条件，则将所述待判断合并队列所包括的小文件合并得到合并文件并保存在分布式数据库的工作节点后，清空所述待判断合并队列，将所述待判断合并队列作为当前合并队列，执行小文件加入子步骤，如果所述待判断合并队列不满足预设均衡合并条件，则从预设的缓冲队列组中选择一个缓冲队列作为当前合并队列，从缓冲队列组中移除并加入合并队列组，执行小文件加入子步骤；

小文件加入子步骤，将所述当前小文件加入所述当前合并队列，如果所述小文件输入事件还包括其小文件，则执行小文件选择子步骤，否则将所述合并队列组中每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中。

本实施例通过缓冲队列和合并队列对小文件进行合并，其中，均衡合并条件优选为：预设合并阈值减去合并队列的剩余长度大于或等于预设均衡值。优选地，C-4.35≤P≤C，其中C为合并阈值，一般为64MB，P为均衡值。

在其中一个实施例中，所述合并缓冲选择子步骤，具体包括：

将剩余长度最小的合并队列作为待判断合并队列；

如果预设的缓冲队列组所包括的缓冲队列的数量小于或等于1，则将所述待判断合并队列所包括的小文件合并得到合并文件并保存在分布式数据库的工作节点后，清空所述待判断合并队列，将所述待判断合并队列作为当前合并队列，执行小文件加入子步骤；

如果预设的缓冲队列组所包括的缓冲队列的数量大于1，则判断所述待判断合并队列是否满足预设均衡合并条件：

如果所述待判断合并队列满足预设均衡合并条件，则将所述待判断合并队列所包括的小文件合并得到合并文件并保存在分布式数据库的工作节点后，清空所述待判断合并队列，如果所述合并队列组所包括的合并队列的数量大于预设合并队列阈值，则将所述待判断合并队列从所述合并队列组中移除并作为缓冲队列加入缓冲队列组，执行长度比较子步骤，如果所述合并队列组所包括的合并队列的数量小于或等于预设合并队列阈值，则将所述待判断合并队列作为当前合并队列，执行小文件加入子步骤；

如果所述待判断合并队列不满足预设均衡合并条件，则选择一个预设的缓冲队列作为当前合并队列加入合并队列组，执行小文件加入子步骤。

本实施例中，通过对缓冲队列和合并队列的切换，避免缓冲队列不足。

在其中一个实施例中，所述步骤S102，具体包括：

小文件预设置子步骤，分布式数据库的管理节点将每个所述合并文件所包括的每个小文件的文件名映射为哈希值，将每个小文件所对应的合并文件的文件名和每个小文件在所对应的合并文件中的位置信息作为索引内容；

索引树构建子步骤，构建包括至少一层的文件名索引树，以所述文件名索引树的根节点为当前节点，所述文件名索引树的每一层与一个质数对应；

插入小文件选择子步骤，选择其中一个小文件作为当前插入小文件；

节点判断子步骤，若当前节点置为未使用，则将所述当前插入小文件的哈希值和索引内容插入当前节点，并将当前节点置为使用，若当前节点置为使用，则计算所述当前插入小文件的哈希值与当前层所对应质数的余数i；

子节点判断子步骤，如果当前节点的第i个子节点为空，则创建当前节点的第i个子节点，将当前节点的第i个子节点作为当前节点，执行节点判断子步骤，否则，将当前节点的第i个子节点作为当前节点，执行节点判断子步骤。

本实施例通过文件名索引树对全局的小文件进行索引。

在其中一个实施例中：

所述步骤S102，具体包括：分布式数据库的管理节点构建用于指示所有每个小文件所对应的合并文件的文件名和每个小文件在所对应的合并文件中的位置信息的文件名索引树，为每个合并文件构建一个平衡多路查找树，每个所述平衡多路查找树包括对应的合并文件所包括的每个小文件在所对应的合并文件中的位置信息；

所述步骤S103，具体包括：

客户端响应于包括小文件标识的小文件读取请求，从本地缓存中查找关于所述小文件标识所指定的小文件所在的合并文件的平衡多路查找树；

如果所述本地缓存中有关于所述小文件标识所指定的小文件所在的合并文件的平衡多路查找树，则根据所述平衡多路查找树，从分布式数据库的工作节点中获取所述小文件标识所指定的小文件；

如果所述本地缓存中没有关于所述小文件标识所指定的小文件所在的合并文件的平衡多路查找树，则所述客户端向所述分布式数据库的管理节点发送包括小文件标识的小文件读取请求，所述分布式数据库的管理节点根据所述文件名索引树查找所述小文件标识所指定的小文件，并获取所述小文件标识所指定的小文件所对应的合并文件的平衡多路查找树，将所述小文件和所述平衡多路查找树返回客户端，所述客户端保存小文件并在缓存中保存所述平衡多路查找树。

本实施例通过文件名索引树和平衡多路查找树进行两级预取缓存策略，提前缓存相关数据，最终实现海量小文件的高效存储。

如图2所示为本发明最佳实施例的工作流程图，包括：

步骤S201，对于用户输入的大文件直接存入HDFS，将小文件使用均衡合并队列算法进行合并；

步骤S202，对存入HDFS的合并文件构建全局文件名索引树(FNI-树)与合并文件的平衡多路查找树(B+树)；

步骤S203，客户端读取文件时采取索引预取、合并文件预取的策略，并使用LFU淘汰策略管理缓存信息；

其中，步骤S201具体包括：

S211、初始化数据结构。设合并队列集合M＝{Q₁,Q₂,…,Q_m}，记初始合并队列个数为M_num；设缓冲队列集合N＝{q₁,q₂,…,q_n}，且card(N)<card(M)。设以上队列长度均为合并阈值C，一般为64MB。均衡值为P，取值范围为C-4.35≤P≤C；

S212、对于当前输入文件F_j，长度为w_j，当前合并队列Q₁,Q₂,…,Q_m所余长度为若则转至步骤S213，否则，从的Q_k中选取一个Q_l(1≤l≤m)使得即Q_l为能容下F_j且最接近w_j的队列，将F_j放入Q_l中。重复步骤S212，直到无新文件输入后转至步骤S216；

S213、选取一个Q_s(1≤s≤m)使若当前card(N)≠1，转至步骤S214，否则将Q_s中文件合并，清空Q_s，F_j入队列Q_s，并重复步骤S212，其中card(N)表示缓冲队列集合N中缓冲队列的数量；

S214、若即Q_s未符合均衡合并条件，则F_j入队列q_i，N←N-{q_i}，M←M∪{q_i}(1≤i≤n)，并转至步骤S212，否则转至步骤S215；

S215、Q_s符合均衡合并条件，合并Q_s，合并后若card(M)＞M_num，则M←M-{Q_s}，N←N∪{Q_s}，对F_j重新执行步骤(S12)，否则F_j入队列Q_s，其中card(M)表示合并队列集合M中合并队列的数量；

S216、已无新的待合并文件输入后，将M中队列内文件依次合并输出，存入HDFS。

其中，步骤S202具体包括：

S221、使用哈希算法将小文件名映射为唯一的非负整数关键字，索引内容为该小文件对应合并文件名和在合并文件中的位置信息；

S222、初始化FNI-树；使用2、3、5、7、11、13、17、19、23、29作为构建FNI-树的质数数列；设当前要插入的小文件名哈希值为k，索引内容为v，l表示当前层数，Z_l为当前层对应的质数，N表示当前节点，N_i表示N第i个子节点地址；根节点使用标识符置为True；从根节点开始，按步骤S223至步骤S224插入节点，按步骤S225至步骤S227查找节点，按步骤S228删除节点；

S223、若当前节点N未被使用，则将k、v插入该节点，并将使用标识符置为True，结束插入；若N已被使用，则计算k与当前层对应质数的余数i，即i＝kmodZ_l；

S224、若N_i为空，则创建该子节点，令N←N_i，l←l+1，重复步骤S223；否则令N←N_i，l←l+1，重复步骤S223；

S225、若当前节点N已被使用，则比较该节点关键字是否与k相等，若相等，返回该节点索引内容，查找结束，若不等则转至步骤S227；

S226、若N未被使用，转至步骤S227；

S227、计算i＝kmodZ_l，令N←N_i，l←l+1。若1≤l≤L+1，重复步骤S225，否则结束查找，返回失败；

S228、对于删除操作，只需按步骤S225至步骤S227找到目标节点，将其使用标识符置为False即可；

S229、对于每个合并文件，使用一棵以小文件名为节点关键字、小文件位置为叶子节点内容的B+树，保存于磁盘中；

其中，步骤S203具体包括：

S231、若客户端需要读取某小文件且本地缓存中并不存在其对应的索引，触发索引预取机制，客户端向NameNode发出小文件访问请求的同时请求返回小文件对应的索引，即NameNode磁盘中合并文件的B+树索引。收到索引文件后，客户端缓存该索引和一并返回的元数据信息。若客户端再次读取属于该合并文件的小文件时，可直接由索引和元数据完成定位，直接从DataNode中读取该文件。

S232、在步骤S331索引预取机制的基础上，若客户端读取某小文件时，在缓存中命中其索引，触发合并文件预取机制，在读取目标文件时将所属的合并文件预取至缓存中。若并未命中该小文件的索引缓存，则只触发索引预取机制。

S233、客户端缓存的预取信息采用LFU(Least Frequent ly Used，最近最不常用)淘汰策略，客户端定时更新预取信息缓存，避免缓存内容过多。客户端在预取的索引和合并文件首部增加文件访问频率标识，每次访问该条信息将访问频率加1，每次到更新时间后将访问频率最少的信息移除。

本发明利用包含均衡合并队列算法、混合索引策略和预取缓存策略的多级优化方法，使得Hadoop在存储海量小文件时，NameNode名字节点负载得到有效降低，查找小文件的响应速度提高，频繁传输小文件时的集群网络压力得到缓解，达到高效存储海量小文件的效果。

本发明的实例中，取某用户整个输入过程中的2个小文件：小文件a，体积为1MB；小文件b，体积为2MB，作为步骤S1均衡合并算法部分的实例数据。分别以78、469、321为步骤S2部分中小文件a、小文件b、小文件c对应的小文件名关键字实例数据。以合并文件H和其包含的小文件a、小文件b作为步骤S203的实例数据。

S211、设共有3个合并队列Q₁,Q₂,Q₃、2个缓冲队列q₁,q₂，合并阈值C为64MB，均衡值P为63MB。

S212、假设当前合并队列剩余长度分别为对于输入文件小文件a，Q₁为最适队列，将小文件a放入Q₁，此时接着输入小文件b，转至步骤S213。

S213、Q₁剩余空间最少且当前缓冲队列个数不为1，转至步骤S214。

S214、因此转入步骤S215。

S215、合并Q₁中的文件并将其清空，将小文件b放入Q₁中，转至步骤S212。

S216、当已无新的文件输入后，将合并队列中的文件依次合并，存入HDFS2。

S221、S222、S223、对于关键字78，78对2取余，结果为0，将关键字78及其索引内容插入根节点的第一个子节点A中。对于关键字469，469对2取余，结果为1，将关键字469及其索引内容插入根节点的第二个子节点B中。对于关键字321，321对2取余，结果为1，但节点B已被469占用，计算321对3的余数为0，转至步骤S224.

S224、节点B的第一个子节点C未被占用，将关键字321及其索引内容插入节点C中。

S225、S226、S227、要查找关键字78，先对根节点构造质数2取余，得到余数为0，比较根节点第一个子节点A中关键字是否等于78。结果相等，查找成功，返回A中索引内容。

S228、欲删除关键字为78的节点，按上述步骤查找到其在节点A中，将A的使用标识符置为False，完成操作。

S231、客户端欲读取小文件a，且未在本地缓存中命中其索引，则客户端将请求NameNode返回小文件a的元数据和小文件a所在的合并文件H的B+树索引，并将返回结果保存在客户端。

S232、客户端欲读取小文件b，由于其所在的合并文件H的索引已由步骤S231取得，故命中小文件b索引，客户端读取DataNode中小文件b内容的同时，读取并保存合并文件H的内容。

S233、客户端每次访问预取信息时将该信息访问频率加1，定期将访问频率为0的信息移除。

如图3所示为本发明一种分布式数据库中海量小文件的多级优化存储系统的系统模块图，包括：

文件合并模块301，用于：分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件，将所述小文件放入合并队列，将每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中，所述小文件的文件长度小于预设小文件长度阈值；

文件索引模块302，用于：分布式数据库的管理节点为每个所述合并文件所包括的每个小文件构建索引并保存在分布式数据库的管理节点中；

文件读取模块303，用于：客户端根据所述索引，从所述合并文件中获取所述小文件。

在其中一个实施例中，所述文件合并模块，具体用于：

小文件输入响应子模块，用于：分布式数据库的管理节点响应于包括至少一个小文件的小文件输入事件；

小文件选择子模块，用于：选择所述小文件输入事件所包括的其中一个小文件作为当前小文件；

长度比较子模块，用于：获取预设的合并队列组中所有合并队列的剩余长度，如果所述当前小文件的文件长度小于或等于所有合并队列的剩余长度的最大值，则将剩余长度大于或等于所述当前小文件的文件长度的合并队列作为当前合并队列，执行小文件加入子模块，如果所述当前小文件的文件长度大于所有合并队列的剩余长度的最大值，则执行合并队列选择子模块；

合并缓冲选择子模块，用于：将剩余长度最小的合并队列作为待判断合并队列，如果所述待判断合并队列满足预设均衡合并条件，则将所述待判断合并队列所包括的小文件合并得到合并文件并保存在分布式数据库的工作节点后，清空所述待判断合并队列，将所述待判断合并队列作为当前合并队列，执行小文件加入子模块，如果所述待判断合并队列不满足预设均衡合并条件，则从预设的缓冲队列组中选择一个缓冲队列作为当前合并队列，从缓冲队列组中移除并加入合并队列组，执行小文件加入子模块；

小文件加入子模块，用于：将所述当前小文件加入所述当前合并队列，如果所述小文件输入事件还包括其小文件，则执行小文件选择子模块，否则将所述合并队列组中每个合并队列所包括的小文件分别合并后得到合并文件并保存在分布式数据库的工作节点中。

在其中一个实施例中，所述合并缓冲选择子模块，具体用于：

将剩余长度最小的合并队列作为待判断合并队列；

如果预设的缓冲队列组所包括的缓冲队列的数量小于或等于6，则将所述待判断合并队列所包括的小文件合并得到合并文件并保存在分布式数据库的工作节点后，清空所述待判断合并队列，将所述待判断合并队列作为当前合并队列，执行小文件加入子模块；

如果预设的缓冲队列组所包括的缓冲队列的数量大于6，则判断所述待判断合并队列是否满足预设均衡合并条件：

如果所述待判断合并队列满足预设均衡合并条件，则将所述待判断合并队列所包括的小文件合并得到合并文件并保存在分布式数据库的工作节点后，清空所述待判断合并队列，如果所述合并队列组所包括的合并队列的数量大于预设合并队列阈值，则将所述待判断合并队列从所述合并队列组中移除并作为缓冲队列加入缓冲队列组，执行长度比较子模块，如果所述合并队列组所包括的合并队列的数量小于或等于预设合并队列阈值，则将所述待判断合并队列作为当前合并队列，执行小文件加入子模块；

如果所述待判断合并队列不满足预设均衡合并条件，则选择一个预设的缓冲队列作为当前合并队列加入合并队列组，执行小文件加入子模块。

在其中一个实施例中，所述文件索引模块，具体用于：

小文件预设置子模块，用于：分布式数据库的管理节点将每个所述合并文件所包括的每个小文件的文件名映射为哈希值，将每个小文件所对应的合并文件的文件名和每个小文件在所对应的合并文件中的位置信息作为索引内容；

索引树构建子模块，用于：构建包括至少一层的文件名索引树，以所述文件名索引树的根节点为当前节点，所述文件名索引树的每一层与一个质数对应；

插入小文件选择子模块，用于：选择其中一个小文件作为当前插入小文件；

节点判断子模块，用于：若当前节点置为未使用，则将所述当前插入小文件的哈希值和索引内容插入当前节点，并将当前节点置为使用，若当前节点置为使用，则计算所述当前插入小文件的哈希值与当前层所对应质数的余数i；

子节点判断子模块，用于：如果当前节点的第i个子节点为空，则创建当前节点的第i个子节点，将当前节点的第i个子节点作为当前节点，执行节点判断子模块，否则，将当前节点的第i个子节点作为当前节点，执行节点判断子模块。

在其中一个实施例中：

所述文件索引模块，具体用于：分布式数据库的管理节点构建用于指示所有每个小文件所对应的合并文件的文件名和每个小文件在所对应的合并文件中的位置信息的文件名索引树，为每个合并文件构建一个平衡多路查找树，每个所述平衡多路查找树包括对应的合并文件所包括的每个小文件在所对应的合并文件中的位置信息；

所述文件读取模块，具体用于：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种分布式数据库中海量小文件的多级优化存储方法，其特征在于，包括：

2.根据权利要求1所述的分布式数据库中海量小文件的多级优化存储方法，其特征在于，所述文件合并步骤，具体包括：

3.根据权利要求2所述的分布式数据库中海量小文件的多级优化存储方法，其特征在于，所述合并缓冲选择子步骤，具体包括：

将剩余长度最小的合并队列作为待判断合并队列；

4.根据权利要求1所述的分布式数据库中海量小文件的多级优化存储方法，其特征在于，所述文件索引步骤，具体包括：

5.根据权利要求1所述的分布式数据库中海量小文件的多级优化存储方法，其特征在于：

所述文件索引步骤，具体包括：分布式数据库的管理节点构建用于指示所有每个小文件所对应的合并文件的文件名和每个小文件在所对应的合并文件中的位置信息的文件名索引树，为每个合并文件构建一个平衡多路查找树，每个所述平衡多路查找树包括对应的合并文件所包括的每个小文件在所对应的合并文件中的位置信息；

所述文件读取步骤，具体包括：

6.一种分布式数据库中海量小文件的多级优化存储系统，其特征在于，包括：

7.根据权利要求6所述的分布式数据库中海量小文件的多级优化存储系统，其特征在于，所述文件合并模块，具体用于：

8.根据权利要求7所述的分布式数据库中海量小文件的多级优化存储系统，其特征在于，所述合并缓冲选择子模块，具体用于：

将剩余长度最小的合并队列作为待判断合并队列；

9.根据权利要求6所述的分布式数据库中海量小文件的多级优化存储系统，其特征在于，所述文件索引模块，具体用于：

10.根据权利要求6所述的分布式数据库中海量小文件的多级优化存储系统，其特征在于：

所述文件读取模块，具体用于：