CN112148680A

CN112148680A - 一种基于分布式图数据库的文件系统元数据管理方法

Info

Publication number: CN112148680A
Application number: CN202011031170.8A
Authority: CN
Inventors: 张明富; 吴江
Original assignee: Xtao Co ltd
Current assignee: Xtao Co ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-12-29
Anticipated expiration: 2040-09-27
Also published as: CN112148680B

Abstract

本发明公开的基于分布式图数据库的文件系统元数据管理方法，涉及数据库技术领域，通过为文件系统创建目录集合、文件集合以及树集合，将文件系统的目录树结构作为图，将目录集合中的各个目录节点及为文件集合中的文件节点作为图中的点，将文件系统的目录节点与目录节点、目录节点与文件节点之间的父子关系作为图中的边，生成文件系统的目录节点与文件节点之间的映射关系，根据映射关系，将文件系统的目录与文件保存到分布式图数据库中，利用分布式图数据库，管理文件系统元数据，在保证文件系统快速更新元数据的前提下，提高了数据查询效率，增强了元数据管理地实时性，可扩展性较强。

Description

一种基于分布式图数据库的文件系统元数据管理方法

技术领域

本发明涉及数据库技术领域，具体涉及一种基于分布式图数据库的文件系统元数据管理方法。

背景技术

目前在存储领域，按照不同的应用场景，可选的存储方案包括块存储、对象存储和文件存储。块存储接口协议简单原始，对象存储在互联网应用中比较流行，文件存储最复杂，在传统的高性能计算等领域依然被广泛应用。

文件存储的主要对象是文件，用来保存用户的实际数据。文件存储中另一类信息是目录，它以树形结构方式进行组织，对文件进行命名空间划分和管理。文件和目录自身都携带有一些固定的属性信息，比如名称、大小、创建用户、创建时间、修改时间、访问权限、类型等，将它们统称为元数据信息。除此之外，在文件系统中，每个文件和每个目录都具有一个全局唯一的路径信息，它确定了这个文件或目录在整个文件系统中的访问标识。文件系统的复杂性表现在它支持更多的接口语义，比如创建、删除、更新以及对目录和文件的移动和重命名操作。

当前，文件系统的使用规模越来越大，尤其是出现了以共享数据为目的的分布式文件系统后，在一个统一的存储命名空间中，可以包含几亿甚至几十亿的文件和目录。面对如此海量的数据，使用传统的命令工具诸如find、du等，已经很难快速完成用户查找文件、统计目录空间等需求。解决这些问题比较常见的做法是把文件和目录以记录的形式存储到关系型数据库中，借助SQL语句进行查询。这种方法在一定程度解决了直接扫描文件系统进行查找带来的开销，实时性大大提高。

但这也引入一个新问题，要不要保存文件的全局路径？如果将全局路径保存为文件记录的一个属性字段，那么当对一个高层目录进行移动和重命名时，势必会导致整个目录下的所有文件路径发生变化，此时我们就必须更新数据库中所有相关的文件记录，这会带来巨大的开销。如果不直接保存路径，而是只保存直接父目录的标识，当需要求取文件路径时，根据父目录标识逐层向上一直到达根目录，将每一级目录名以斜杠分隔拼接在一起形成文件路径，这种方法能很好解决更新目录名带来的开销问题，只需要更新被移动重命名的目录对应的数据库记录的父目录标识和目录名即可。但缺点是，对查询效率会造成很大影响。如果查询文件的全局路径，需要从自身开始一直递归迭代到根目录为止，这个过程包含了大量的根据目录标识查找目录条目的运算。虽然我们可以为目录标识建立索引来加快查找过程，但是索引是有内存开销的，随着文件数量的增多，这种开销会大大降低查询效率。而且对于这种包含有递归查询子过程的复杂SQL程序，一般的数据库难以支持多路并行执行，严重削弱了此方案的可行性。

发明内容

为解决现有技术的不足，本发明实施例提供了一种基于分布式图数据库的文件系统元数据管理方法，该方法包括以下步骤：

为文件系统创建目录集合、文件集合以及树集合，其中，目录集合包含多个目录节点，文件集合包含多个文件节点，树集合包含目录节点与目录节点及目录节点与文件节点之间的父子关系；

将文件系统的目录树结构作为图，将所述目录集合中的各个目录节点及所述为文件集合中的文件节点作为图中的点，将所述文件系统的目录节点与目录节点、目录节点与文件节点之间的父子关系作为图中的边，生成所述文件系统的目录节点与文件节点之间的映射关系；

根据所述映射关系，将所述文件系统的目录与文件保存到分布式图数据库中；

利用所述分布式图数据库，管理文件系统元数据。

优选地，利用所述分布式图数据库，管理文件系统元数据包括：

S1文件节点根据其父目录节点的主键，将自身的文件名传递给其父目录节点；

S2父目录节点收到所述文件名后，在所述文件名上加上自身的目录名，得到所述文件节点当前的路径；

S3重复上述步骤S2，直至传递到根目录节点，得到所述文件节点的完整路径；

S4并行重复上述步骤S1-S3，得到各个文件节点的全局路径。

优选地，利用所述分布式图数据库，管理文件系统元数据还包括：

将具有相同文件名的文件节点聚合在同一分组中。

优选地，在文件节点根据其父目录节点的主键，将自身的文件名传递给其父目录节点之前，所述方法还包括：

根据文件节点的属性，分别判断文件节点是否满足预设的条件，若否，则释放所述文件节点，生成相应的多个结果数据集。

根据文件节点的属性值，在分布式状态下对各个结果数据集进行排序。

本发明实施例提供的基于分布式图数据库的文件系统元数据管理方法具有以下有益效果：

(1)每个文件和目录需要保存其父目录的标识信息，当在文件系统上发生文件或目录的移动重命名操作时，只需要更新对应的一条记录即可；

(2)每个目录应该与所有子目录项建立“边”关系，这样能够支持从某个目录开始广度遍历所有文件和目录；

(3)能够有效地分散数据，降低单个物理节点的存储和计算压力，可以通过动态扩容来应对数据的不断增长，可扩展性较强；

(4)支持多路并行，以提高数据查询效率，可以通过对一些高层目录进行预加载，降低对根目录节点的压力。

附图说明

图1为本发明实施例提供的基于分布式图数据库的文件系统元数据管理方法流程示意图；

图2为本发明实施例提供的反向遍历方案流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示，本发明实施例提供的基于分布式图数据库的文件系统元数据管理方法包括以下步骤：

S101，为文件系统创建目录集合、文件集合以及树集合，其中，目录集合包含多个目录节点，文件集合包含多个文件节点，树集合包含目录节点与目录节点及目录节点与文件节点之间的父子关系。

S102，将文件系统的目录树结构作为图，将目录集合中的各个目录节点及为文件集合中的文件节点作为图中的点，将文件系统的目录节点与目录节点、目录节点与文件节点之间的父子关系作为图中的边，生成文件系统的目录节点与文件节点之间的映射关系。

其中，分布式图数据库中的集合类似于关系型数据库中的表，它包含若干文档记录，每条文档记录由一个全局唯一标识和用户自定义的多个属性组成。当文档记录中额外包含两个固定的系统属性from和to时，则这条文档记录可以看作一条边，由边构成的集合称之为边集合，而相对的，普通文档记录形成的集合可以成为点集合。

分布式图数据库中的集合进一步分成若干shard分片，在向数据节点保存数据时，是以shard分片方式进行的。每个shard分片可以看作是整个集合的一个子集合，每条文档记录按照主键进行哈希运算，得出该记录会分布到哪个shard分片中。使用全局唯一标识作为文件节点和目录节点的主键，这种随机性确保了在有大量记录条目时，所有文件节点及所有目录节点能比较均匀地分布到所有shard分片上，对底层存储的使用做到了负载均衡，并降低了图计算过程中出现热点的概率。另外，对于边集合中的记录条目的分布，就不能使用主键进行哈希计算分布了，而是要按照from属性字段的值进行，这样能保证每条边记录始终与边的起始点记录位于同一个数据节点，这样做的目的是在进行图计算时，从某个目录节点开始，可以迅速在当前数据节点的树集合(实际属于当前数据节点若干shard分片中某一个shard分片)中找到所有以此目录节点为from的所有边记录，进而找到节点为to的所有目标节点，不需要去其他数据节点上找这些边记录，因为它们在保存时就是按照from属性字段进行分布的，所有边一定与起始点记录位于同一个数据节点上。

S103，根据映射关系，将文件系统的目录与文件保存到分布式图数据库中；

S104，利用分布式图数据库，管理文件系统元数据。

可选地，利用分布式图数据库，管理文件系统元数据包括：

S201文件节点根据其父目录节点的主键，将自身的文件名传递给其父目录节点；

S202父目录节点收到文件名后，在文件名上加上自身的目录名，得到文件节点当前的路径；

S203重复上述步骤S202，直至传递到根目录节点，得到文件节点的完整路径；

S204并行重复上述步骤S201-S203，得到各个文件节点的全局路径。

作为本发明一个具体的实施例，利用分布式图数据库的计算框架，从某个目录开始遍历整棵子树，这个过程在文件数据量较大时，性能会很差，因为整个过程中充满了大量随机加载边和点的行为，这对底层存储介质造成很大压力。改进方案是采用反向树遍历方法，如图2所示，先顺序加载所有shard分片，对于每一条文件记录，先判断过滤条件，满足的暂时保留下来。在第一轮消息传递时，根据文件中记录的直接父目录节点，向其发送消息，消息里需要携带有这个文件自身的标识。父目录节点收到消息后，会继续向更高层目录转发这个消息，同时拼凑出截至到这一层目录的相对路径，它也会加入到该消息进行传递。重复以上过程，直到遇到源目录或者根目录。消息到达源目录，说明此消息对应的文件是满足子目录过滤条件的，从消息中解析出文件标识，向这个文件发送各级消息传递过程中积累形成的全路径。消息到达根目录，说明子目录过滤不命中，向对应文件发送消息，通知其进行释放。

其中，分布式图数据库的计算框架是基于消息传递进行的。在查找某个子目录下所有满足条件的文件时，可以从这个子目录节点开始，先加载所有以这个子目录节点作为from的边，继而找到所有to节点，按照哈希运算，可以算出这些目标节点位于哪些shard分片上。如果它们不位于当前数据节点，则会以消息形式发送出去，消息里除了用户自定义信息外，还会包含shard分片信息和目标节点标识，以方便目标数据节点在收到消息后，知道应该加载哪些shard分片上的哪些记录条目。通过一轮消息交换，成功加载到所有直接子目录项。对于文件节点，可以进行过滤条件判断，满足的话则予以保留成为最终结果数据集。对于目录节点来说，需要继续进行下一轮消息交换，重复这个过程，直到整棵子树上的所有文件节点和目录节点都被加载并运算。

可选地，利用分布式图数据库，管理文件系统元数据还包括：

将具有相同文件名的文件节点聚合在同一分组中。

作为本发明一个具体的实施例，通过引入虚拟节点实现属性值聚合。比如要列出所有重名文件，可以将文件名进行哈希运算得到一个全局唯一标识作为虚拟节点的标识。所有具有相同名称的文件都会向同一个虚拟节点发送消息。虚拟节点依靠接收消息数量判断在这个文件名上是否有多个文件，然后给所有文件返回消息通知它们是保留还是释放。在反向遍历方案中，如果设置了子目录过滤条件，则需要使用两阶段虚拟节点聚合。第一阶段聚合发生在加载文件完成后，此时所有文件已经完成属性过滤条件的判定，保留下来的文件都通过计算文件名向虚拟节点发消息进行第一次文件名冗余聚合。这一阶段能淘汰掉那些不满足冗余度的文件。而剩下的满足条件的文件，会继续向目录传递消息求路径，这又会淘汰一部分不满足子目录条件的文件，这会导致有些文件的同名冗余度不再满足，所以需要再进行第二次虚拟节点聚合，淘汰不满足条件的文件，剩下的就是最终结果数据集。

可选地，在文件节点根据其父目录节点的主键，将自身的文件名传递给其父目录节点之前，该方法还包括：

根据文件节点的属性，判断文件节点是否满足预设的条件，若否，则释放该文件节点，生成相应的多个结果数据集。

其中，在反向遍历方案中，为文件集合在某些文件属性上建立索引，可以加速加载数据的过程。当查询请求中给出若干文件属性过滤条件时，可以根据每个过滤条件制定对应的索引策略，然后实际执行时选择最优索引加载数据。比如查找文件名是mydoc并且在创建时间ctime为2020年5月创建的文件，翻译成表达式为name＝"mydoc"AND ctime＝[1588262400,1590940799]，为此制定两条索引策略：一、在name属性字段上按照字符串全匹配查找；二、在ctime属性字段上按照数值上限和下限进行范围查找。利用索引，可以快速得知满足条件的记录数量。我们选择数量最少的那个索引策略为最优策略，因为它淘汰掉的文件数最多，需要实际加载的文件数量最少。而文件被加载上来后，再做其他过滤条件的判断。事实上，即便选择出最优索引，也不一定就会使用，这取决于实际要加载的文件数量。索引项包含属性值和文件标识，依靠索引加载文件记录，是一种随机加载，如果数量很多时，反而不如顺序加载整个shard分片的记录条目更快。这个阈值需要经过实际测试而取得的经验值。

在反向遍历方案中，所有文件都要通过源目录和根目录节点进行判定和收敛，为了降低这两个节点接受消息的压力，我们引入正节点和负节点的的概念。正节点是一组以源目录作为祖先目录的目录节点，包含源目录自己。负节点是一组从根目录开始但不通过源目录的其他目录节点，包括根目录自己。当文件借助目录向上发送消息时，一旦遇到正节点，则认为该文件满足子目录过滤条件。而遇到负节点，则认为该文件不符合子目录过滤条件。

其中，当完成一次图计算后，在每个数据节点上都保留有若干结果数据集，这些结果数据集一般为满足条件的文件及其属性信息。如果客户端获取结果时，要求按照文件的某些属性值进行排序，则需要先在每个数据节点上进行局部排序，完成后，再在控制节点上进行归并排序。这里不会把所有结果一次性发送到控制节点直接排序，因为结果数据集比较大时，会对控制节点内存造成压力。客户端分批获取结果，假设每一批的数量是N，每当获取下一批时，先判断控制节点上暂存的每个影子子链(来自数据节点)长度是否满足N，对于那些不满足的影子子链，需要从对应的数据节点读取前N个数据，然后读取偏移向后移动N，当读到链尾，即剩余所有数据都包含在这一次读取时，会携带一个结束标志。控制节点将从每个数据节点读取的有序结果数据集暂时追加到各自对应的影子子链尾，然后进行归并排序，每次拿所有影子子链的头部数据进行比较，最小那个追加到主链尾部，重复这个过程，直到主链长度为N，把前N个数据打包返回给客户端。当某个影子子链包含了结束标志时，预示着这一路数据节点上所有结果数据集已经读空了，无需再读取。如果查询请求中限定了结果集数量，比如，只取前M个结果，那么可以在图计算过程中进行排序，每个数据节点上都有一个排序主链，当向其添加一个结果集时，可以将新数据排序后插入到链上，然后释放掉链尾的那个数据，使整个链长度始终为M，这样做可以尽快释放内存。

本发明实施例提供的基于分布式图数据库的文件系统元数据管理方法，通过为文件系统创建目录集合、文件集合以及树集合，将文件系统的目录树结构作为图，将目录集合中的各个目录节点及为文件集合中的文件节点作为图中的点，将文件系统的目录节点与目录节点、目录节点与文件节点之间的父子关系作为图中的边，生成文件系统的目录节点与文件节点之间的映射关系，根据映射关系，将文件系统的目录与文件保存到分布式图数据库中，利用分布式图数据库，管理文件系统元数据，在保证文件系统快速更新元数据的前提下，提高了数据查询效率，增强了元数据管理地实时性，可扩展性较强。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于分布式图数据库的文件系统元数据管理方法，其特征在于，包括：

利用所述分布式图数据库，管理文件系统元数据。

2.根据权利要求1所述的基于分布式图数据库的文件系统元数据管理方法，其特征在于，利用所述分布式图数据库，管理文件系统元数据包括：

S4并行重复上述步骤S1-S3，得到各个文件节点的全局路径。

3.根据权利要求1所述的基于分布式图数据库的文件系统元数据管理方法，其特征在于，利用所述分布式图数据库，管理文件系统元数据还包括：

将具有相同文件名的各个文件节点聚合在同一分组中。

4.根据权利要求2所述的基于分布式图数据库的文件系统元数据管理方法，其特征在于，在文件节点根据其父目录节点的主键，将自身的文件名传递给其父目录节点之前，所述方法还包括：

5.根据权利要求4所述的基于分布式图数据库的文件系统元数据管理方法，其特征在于，利用所述分布式图数据库，管理文件系统元数据还包括：

6.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1所述的方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1所述的方法。