CN111400249A

CN111400249A - 一种易于统计文件数量的文件存储系统及存储方法

Info

Publication number: CN111400249A
Application number: CN202010155134.6A
Authority: CN
Inventors: 刘凯; 刘毅; 梁刚; 郭昊
Original assignee: Shenzhen Vclusters Information Technology Co ltd
Current assignee: Shenzhen Vclusters Information Technology Co ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-10

Abstract

本发明涉及一种易于统计文件数量的文件存储系统及存储方法，在该文件系统中使用目录本身的元数据来记录属性，并采用自下向上的方式实时更新。该文件存储方法，包括步骤：将根目录、次级目录及文件以目录自身元数据形式记录其属性，该元数据采用B‑tree的组织形式；更新时，采用自下向上的方式实时更新。采用本发明的技术方案，大型文件系统的管理员对文件的管理将越来越方便，可以随时了解系统中的文件改变情况，加快各类问题的解决和分析，不仅仅是在管理文件系统的设备和软件状态，而是真正的做到了管理其中的数据，即文件。

Description

一种易于统计文件数量的文件存储系统及存储方法

技术领域

本发明涉及计算机存储系统，尤其涉及一种易于统计文件数量的文件存储系统及存储方法。

背景技术

随着物联网、AI、5G及高清视频技术的到来，人们工作、生活中产生的数据越来越多，相比以前成倍、甚至十倍的增长，为数据的管理带来了难题。当前数据，大部分是以文件形式来进行保存，带来了如下需求：

(1)、海量数据的到来，产生了大容量的文件系统，其中的文件数目在10亿、100亿以上；

(2)、大容量的文件系统带来管理上的难度，管理员目前只能做到系统管理，而做不到真正的数据管理；如谁的什么文件占据的空间最大；不能立即知道目录中的文件数目，具体的大小，昨天写入了哪些文件等等。

在保存大量文件时，当前最主要使用的还是分布式存储系统，有商业软件，也有开源软件，由普通的x86服务器组成，最大的优势是可以进行容量和性能的横向扩展，随着需求的增加，可加入更多的服务器来进行性能的扩展。

虽然软件的基础硬件发生了变化，软件形式也变成了可扩展的分布式软件，但有一点没有发生变化，和传统的老式存储系统一样，在文件的管理上还存在如下的问题：

(1)、当前存储系统如果要知道某个子目录的文件个数或所占空间，需要遍历整个子文件目录，耗时过长，不可预估；

(2)、在对目录进行统计时，会使用外部的数据库进行存储，性能下降；

(3)、等待时间冗长，且不可控制，用户难以等待；

(4)、会占用文件系统大量的业务运行时间，对业务本身产生影响；

(5)、针对目录的限额功能也会存在误差和延迟。

这些问题都会随着文件系统中文件数量的增加，而变得越来越严重，难以解决。

因此，现有技术存在问题，需要进一步改进。

发明内容

本发明正是针对上述存在的问题，本发明提供一种易于统计文件数量的文件存储系统及存储方法。

为实现上述目的，本发明的具体技术方案如下：

一种易于统计文件数量的文件存储系统，在文件系统中使用目录本身的元数据来记录属性，并采用自下向上的方式实时更新。

优选地，该文件存储系统元数据采用B-tree的组成记录其本身属性。

进一步地，在该文件存储系统中，根目录中的元数据为整个文件系统的数据，次级目录中的属性值代表所有下级子目录的数据，文件中的属性值代表自身的数据。

进一步地，在新增、或修改文件时，就标记父目录为脏数据，并进行修改。

进一步地，该文件存储系统采用从底向上的更新策略，一直更新到根目录，并按预定时间更新。

进一步地，该预定时间设为30秒或60秒。

进一步地，该文件存储系统在查找数据时，从上向下，根据更新时间进行查找。

本发明还提供一种易于统计文件数量的文件存储方法，包括步骤：

将根目录、次级目录及文件以目录自身元数据形式记录其属性，该元数据采用B-tree的组织形式；

更新时，采用自下向上的方式实时更新。

优选地，采用自下向上的方式实时更新，具体方式为：

在新增、或修改文件时，就标记父目录为脏数据，并进行修改；

采用从底向上的更新策略，一直更新到根目录。

采用本发明的技术方案，大型文件系统的管理员对文件的管理将越来越方便，可以随时了解系统中的文件改变情况，加快各类问题的解决和分析，不仅仅是在管理文件系统的设备和软件状态，而是真正的做到了管理其中的数据，即文件。

附图说明

图1为本发明的框架结构图。

具体实施方式

为了便于本领域的普通技术人员能够理解并实施本发明，下面将结合附图对本发明实施例作进一步说明。

参考图1，本发明提供一种易于统计文件数量的文件存储系统，在文件系统中使用目录本身的元数据来记录属性，并采用自下向上的方式实时更新。

其中，该文件存储系统元数据采用B-tree的组成记录其本身属性。根目录中的元数据为整个文件系统的数据，次级目录中的属性值代表所有下级子目录的数据，文件中的属性值代表自身的数据。在新增、或修改文件时，就标记父目录为脏数据，并进行修改。该文件存储系统采用从底向上的更新策略，一直更新到根目录，例如，按30秒或60秒更新一次。

该文件存储系统在查找数据时，从上向下，根据更新时间进行查找。

更新时，采用自下向上的方式实时更新。具体地，在新增、或修改文件时，就标记父目录为脏数据，并进行修改；采用从底向上的更新策略，一直更新到根目录。

本发明的原理说明：

在文件系统中使用目录本身的元数据来记录属性，不再依赖外部的数据库或文件，并采用实时更新、自下向上的方式。

(1)、文件系统元数据采用B tree的组织形式，目录的相关元数据直接记录到Btree中；

(2)、在新增、或修改文件时，就标记父目录为脏数据，并进行修改；

(3)、采用从底向上的更新策略，一直更新到root目录(根目录)；

(4)、查找数据时，从上向下，根据更新时间进行查找。

具体实现如图1所示：

(1)、圆形代表目录，矩形代表文件；

(2)、除过文件外，在目录中也增加对应的属性：mtime、blocks、files和quota；

(3)、文件中的属性值代表自身的数据，目录中的属性值代表所有下级子目录的数据；

(4)、目录中mtime代表子目录中最新更新的文件时间；

(5)、/目录(根目录)中的数据代表的是整个文件系统的数据。

基于上面的图例说明，举例，当/temp/music目录下增加一个新文件“音乐3”：

(1)、首先，文件“音乐3”按照正常创建操作完之后，需要更新父目录music的属性值，因此将music目录进行标记，加入等待操作队列；

(2)、系统执行到更新music的操作时，发现是因为文件“音乐3”新增操作导致，因此，根据其属性值来刷新music目录的mtime、blocks和files属性；

(3)、目录music更新完成后，需要再次标记父目录temp，并进入等待操作队列；

(4)、目录一层层向上进行更新，直到更新到/根目录。

为防止同时新建大量文件导致大量的更新操作，规定更新操作具有一定的延后性，如30秒或60秒更新一次。

采用如上的解决方法，在进行数据管理时，便可以得到如下的有益效果：

(1)、快速查找子目录下的文件个数和所占空间

当用户使用du命令时，可快速列出对应子目录下面的文件数和所占空间，不需要等待，无论子目录下有多少个文件。可以以图形的方式将目录的信息显示在GUI图形上，方面管理员的查看和分析。

(2)、查找目录下哪些文件占用的空间最大

当空间不足时，可以快速找到那个目录或是文件占用了大量空间，从而找到对应的部门或责任人，以便进行空间释放或进一步的处理；特别是对公共的使用空间管理带来巨大方便。

可以从根目录开始，一层一层向下进行分析，忽略占用少量的目录，列出空间占用前三的目录，然后再向下一层进行分析，最后找出占用最多的子目录或文件。

(3)、查找昨天新增了哪些文件

可根据元数据mtime，从根目录开始查找mtime等于昨天的子目录和文件，最终列出所有这些文件，便是昨天新增的文件。这种情况下查找的目录和文件是有限的，而不需要对整个文件系统遍历一遍。

(4)、目录配额实时生效，没有误差

有个目录元数据的实施统计后，子目录的配额功能，无论是文件个数的配额，还是占用空间的配额都会实时的生效，没有误差。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种易于统计文件数量的文件存储系统，其特征在于，在文件系统中使用目录本身的元数据来记录属性，并采用自下向上的方式实时更新。

2.根据权利要求1所述的易于统计文件数量的文件存储系统，其特征在于，该文件存储系统元数据采用B-tree的组成记录其本身属性。

3.根据权利要求2所述的易于统计文件数量的文件存储系统，其特征在于，在该文件存储系统中，根目录中的元数据为整个文件系统的数据，次级目录中的属性值代表所有下级子目录的数据，文件中的属性值代表自身的数据。

4.根据权利要求3所述的易于统计文件数量的文件存储系统，其特征在于，在新增、或修改文件时，就标记父目录为脏数据，并进行修改。

5.根据权利要求4所述的易于统计文件数量的文件存储系统，其特征在于，该文件存储系统采用从底向上的更新策略，一直更新到根目录，并按预定时间更新。

6.根据权利要求5所述的易于统计文件数量的文件存储系统，其特征在于，该预定时间设为30秒或60秒。

7.根据权利要求5所述的易于统计文件数量的文件存储系统，其特征在于，该文件存储系统在查找数据时，从上向下，根据更新时间进行查找。

8.一种易于统计文件数量的文件存储方法，其特征在于，包括步骤：

更新时，采用自下向上的方式实时更新。

9.根据权利要求8所述的易于统计文件数量的文件存储方法，其特征在于，采用自下向上的方式实时更新，具体方式为：

采用从底向上的更新策略，一直更新到根目录。