CN112445768A

CN112445768A - 面向超大规模系统的多文件系统元数据统一缓存管理方法

Info

Publication number: CN112445768A
Application number: CN201910794731.0A
Authority: CN
Inventors: 余婷; 何晓斌; 高洁; 陈起; 魏巍; 肖伟; 王涛
Original assignee: Wuxi Jiangnan Computing Technology Institute
Current assignee: Wuxi Jiangnan Computing Technology Institute
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2021-03-05

Abstract

本发明公开一种面向超大规模系统的多文件系统元数据统一缓存管理方法，基于以下模块：若干个分布式文件系统，分别配置于分布式文件系统环境中IO节点上的驻留收集模块，用于监测文件系统元数据信息的变化，并将获取的元数据信息传输至后台数据库；后台数据库，用于接收和存储来自驻留收集模块的元数据信息；配置于管理节点上的总控处理模块，用于查询后台数据库，获取元数据的信息，并通过元数据信息的变更来检索和查找、定位的文件数据；本发明可以针对不同分布式文件系统来实现元数据的收集与管理，更方便的通过元数据的信息来有效地监控文件系统的运行状况。

Description

面向超大规模系统的多文件系统元数据统一缓存管理方法

技术领域

本发明涉及一种面向超大规模系统的多文件系统元数据统一缓存管理方法，属于计算机技术领域。

背景技术

进入21世纪，随着互联网的到来，尤其是移动互联网、社交网络、电子商务的飞速发展，人类在生产和生活中产生的数据呈现指数型地增长，数据量已经从TB数量级上升到PB数量级、EB数量级甚至ZB数量级，人类已经进入了大数据时代。数据的与日俱增，需要存储的容量越来越大，单节点和磁盘阵列这些传统的存储技术已经很难满足海量数据存储的需求，集群存储系统以其天然的可拓展性优势被得到广泛的运用。

分布式系统以其高性能、高可靠性和高拓展性地优势，逐渐成为存储海量数据地首选。分布式文件系统也被称为网络文件系统，它可以根据每台服务器和客户端的访问列表和容量严格地访问文件系统。分布式文件系统相对于本地文件系统而言，原理上比较相似，重点是增加了容量地可拓展性。在分布式文件系统中，数据同样可以分为文件数据和元数据两种，其中元数据是相对较小地，一般一个文件元数据地大小在100字节之内，而且系统中元数据总量占系统总容量地比例不到10%，但是元数据地访问量在文件系统中占到访问总量地50%~80%。所以，在文件系统中，元数据操作对整个文件系统地性能有重要影响，因此超大规模系统的分布式文件系统元数据的信息管理显得至关重要。通过元数据的缓存管理不仅可以有效地监控整个文件系统的运行状况，还可以根据元数据信息的变化检索和查找、定位指定的文件，对系统后期维护管理起到至关重要的作用。

分布式文件系统发展至今，常见的有GFS、HDFS、Lustre、Ceph、TFS等，这些文件系统提供的都是应用级的文件存储服务，同时它们各自适用于不同的领域，但现在的技术只是针对单个分布式文件系统的元数据信息缓存管理，例如Lustre（平行分布式文件系统）使用的元数据引擎策略RobinHood（RobinHood Policy Engine），使用mysql作为数据库存储后端，但缺乏针对多个分布式文件系统环境中元数据管理方法，而在HPC的科学计算过程中，课题可能在多个分布式文件系统中计算，所以如何实现面向超大规模系统的分布式文件系统元数据的缓存管理，成为本领域技术人员努力的方向。

发明内容

本发明的目的是提供一种面向超大规模系统的多文件系统元数据统一缓存管理方法，该面向超大规模系统的多文件系统元数据统一缓存管理方法可以针对不同分布式文件系统来实现元数据的收集与管理，更方便的通过元数据的信息来有效地监控文件系统的运行状况。

为达到上述目的，本发明采用的技术方案是：一种面向超大规模系统的多文件系统元数据统一缓存管理方法，基于以下模块：

若干个分布式文件系统，用于存储和管理数据资源；

若干个节点元数据缓存管理模块，被分别配置于分布式文件系统中的IO节点上，用于监控文件系统中元数据信息的变化，并将获取的元数据信息，包括新创建的文件的元数据信息、原来已有文件的元数据信息和变化或删除后的文件的元数据信息，传输至元数据信息库；

元数据信息库，用于接收和存储各个分布式文件系统上的节点元数据缓存管理模块所获取的元数据信息；

配置于管理节点上的元数据缓存总控模块，用于通过访问存储系统，查询元数据信息库，获取元数据的信息，并通过元数据信息识别数据的存放位置，实现对数据的查找和定位；

包括以下步骤：

S1、在任意一个分布式文件系统中执行创建文件、改写文件或删除文件的操作时，此分布式文件系统的IO节点上的节点元数据缓存管理模块对所述操作进行监控，并将操作的结果记录到元数据信息库中；

S2、元数据信息库存储发生在所述分布式文件系统上的元数据信息变化，将原来的元数据信息更新为操作完成后的新的元数据信息，形成与执行所述操作的分布式文件系统的元数据信息一致的元数据信息的数据库，即元数据信息库；

S3、当用户通过应用程序对整个系统中的数据进行操作时，访问元数据信息库，获取到数据的元数据信息，并根据元数据信息解析获得该数据的物理存储位置；

S4、根据数据的物理存储位置，确定对数据的访问路径，并根据操作指令，对数据进行相关操作。

上述技术方案中进一步改进的方案如下：

1. 上述方案中，所述若干个分布式文件系统包括GFS文件系统、HDFS文件系统、Lustre文件系统、Ceph文件系统和TFS文件系统。

2. 上述方案中，所述元数据信息包括数据的属主信息、数据的大小信息、数据的创建时间信息、数据的修改时间信息、数据的存放位置信息和数据的类型信息。

3. 上述方案中，所述文件系统包括分布式文件系统和节点上的本地文件系统。

由于上述技术方案的运用，本发明与现有技术相比具有下列优点：

本发明面向超大规模系统的多文件系统元数据统一缓存管理方法，其应用于超大规模的分布式文件系统环境，可以针对不同分布式文件系统来实现元数据的收集与管理，更方便的通过元数据的信息来有效地监控文件系统的运行状况。

附图说明

附图1为元数据缓存管理架构示意图；

附图2为元数据缓存管理整体框图；

附图3为本发明多文件系统元数据统一缓存管理方法流程图。

具体实施方式

实施例：一种面向超大规模系统的多文件系统元数据统一缓存管理方法，基于大规模异构系统，基于以下模块：

若干个分布式文件系统，用于存储和管理数据资源；

包括以下步骤：

上述若干个分布式文件系统包括GFS文件系统、HDFS文件系统、Lustre文件系统、Ceph文件系统和TFS文件系统。

上述元数据信息包括数据的属主信息、数据的大小信息、数据的创建时间信息、数据的修改时间信息、数据的存放位置信息和数据的类型信息。

上述文件系统包括分布式文件系统和节点上的本地文件系统。

实施例进一步解释如下：

为了解决多个分布式文件系统的元数据信息统一缓存管理的问题，设计了一种新的元数据缓存策略，面向超大规模系统的元数据缓存管理主要分为两大模块，管理节点上的总控处理程序和不同分布式文件系统环境中IO节点上的驻留收集程序，节点上的驻留收集程序用于监测文件系统元数据信息的变化，并将获取的所有的元数据信息及时录入后台数据库，总控管理程序用于查询数据库获取元数据的信息，并通过元数据信息的变更来检索和查找、定位的文件数据。可以收集多个不同类型的分布式文件系统的元数据信息，并将元数据信息采集入库，通过管理程序来分析元数据信息，检索、查找、定位指定的文件。

为了便于更好的理解本发明，下面将对本文中使用的术语进行简要的解释：

分布式系统：分布式系统这里指构成信息系统的大规模的IT系统，主要是指服务器等基本系统构成的多任务系统。

文件系统：指满足POSIX接口规范的用来进行数据组织的软件系统。

元数据：指文件的所有者、大小、权限、创建时间、修改时间、访问时间等信息，是文件检索的依据。

采用上述面向超大规模系统的多文件系统元数据统一缓存管理方法时，其应用于超大规模的分布式文件系统环境，可以针对不同分布式文件系统来实现元数据的收集与管理，更方便的通过元数据的信息来有效地监控文件系统的运行状况。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向超大规模系统的多文件系统元数据统一缓存管理方法，其特征在于：基于以下模块：

若干个分布式文件系统，用于存储和管理数据资源；

包括以下步骤：

2.根据权利要求1所述的面向超大规模系统的多文件系统元数据统一缓存管理方法，其特征在于：所述若干个分布式文件系统包括GFS文件系统、HDFS文件系统、Lustre文件系统、Ceph文件系统和TFS文件系统。

3.根据权利要求1所述的面向超大规模系统的多文件系统元数据统一缓存管理方法，其特征在于：所述元数据信息包括数据的属主信息、数据的大小信息、数据的创建时间信息、数据的修改时间信息、数据的存放位置信息和数据的类型信息。

4.根据权利要求1所述的面向超大规模系统的多文件系统元数据统一缓存管理方法，其特征在于：所述文件系统包括分布式文件系统和节点上的本地文件系统。