CN111881107B

CN111881107B - 支持多文件系统挂载的分布式存储方法

Info

Publication number: CN111881107B
Application number: CN202010778023.0A
Authority: CN
Inventors: 张旭鑫; 孙宇; 张岩
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2022-09-06
Anticipated expiration: 2040-08-05
Also published as: CN111881107A

Abstract

本发明涉及一种支持多文件系统挂载的分布式存储系统，其中，包括：文件空间管理模块，在文件编排层根文件空间下划分多个不同使用场景的文件子空间，文件空间管理模块记录文件目录级别的路径映射；元数据管理模块，用于维护文件编排层上挂载的文件；标签管理模块，用于进行记录和维护存放在本分布式文件存储系统中的文件涉及到的业务含义标签；数据生命周期管理模块，进行处理在文件存储系统中的文件的冷热温数据不同数据生命阶段的存储策略，冷数据进行打包压缩放入对象存储系统中，温数据放置于文件原本所在底层文件系统中，热数据加载入内存中随时备取；对象存储系统作为冷数据的存储系统，对象存储系统的每个对象都被分配一个唯一的标识符，允许一个服务器或者最终用户来检索对象。

Description

支持多文件系统挂载的分布式存储方法

技术领域

本发明涉及操作系统技术，特别涉及一种支持多文件系统挂载的分布式存储方法。

背景技术

从现代操作系统诞生以来，linux，windows等操作系统均支持多种文件系统(xfs，ntfs，ext4等)的挂载和读写，这些文件系统的设计和实现均是为单机操作系统所服务，提供对单机系统上文件的读取，写入，修改，删除等操作提供统一的访问接口。而如今，受限于摩尔定律增长速度的止步不前，单机的处理能力和竖向扩展能力的增长预期已大不如前，主流的大批量数据处理过程和重计算分析任务逐渐转移到分布式系统运行，与单机时代对应的单机操作系统中的任务调度，进程管理，文件管理等模块都有功能相似的分布式任务调度系统，分布式进程管理，分布式文件系统。市场上主力的分布式文件系统之间并不互相兼容，还未有如上文所述的对应的多种分布式文件挂载能力的分布式组件。

在传统的大数据生态环境中，通常使用的存储组件为大数据套件中的分布式块文件系统，在其之上建设数据仓库为业务人员提供需要的数据服务。这种方式建设的数据仓库系统往往需要依赖于各自的数据抽取，数据传输，数据转换工具，每一份最终到达业务用户的数据会在数据处理的流程上产生多份冗余数据，是对存储资源的浪费；并且当同一平台上存在有多个分布式块文件系统实例时，多分布式块文件系统之间文件空间并不互通，需要跨分布式块文件系统的文件读取或写入时，会有诸多的不便。同时，分布式块文件系统，底层存储的最小单元为128MB的文件块，当数据有大量的小文件(例如图片，短音视频)时的数据场景并不适合分布式块文件系统作为存储组件，因为大量的小文件会为中心元数据服务器上元数据的查找带来压力。部署方面，传统的基于分布式块文件系统的大数据平台，需要将Hive，HBase，Spark等数据引擎的执行节点部署到和分布式块文件系统的数据节点同一批服务器上，这种计算和存储耦合的方案限制了部署的灵活性。

发明内容

本发明的目的在于提供一种支持多文件系统挂载的分布式存储系统，用于解决上述现有技术的问题。

本发明一种支持多文件系统挂载的分布式存储系统，其中，包括：文件空间管理模块，在文件编排层根文件空间下划分多个不同使用场景的文件子空间，文件空间管理模块记录文件目录级别的路径映射；元数据管理模块，用于维护文件编排层上挂载的文件的名称、创建时间、拥有者、修改时间、缓存情况和文件权限；标签管理模块，用于进行记录和维护存放在本分布式文件存储系统中的文件涉及到的业务含义标签；数据生命周期管理模块，进行处理在文件存储系统中的文件的冷热温数据不同数据生命阶段的存储策略，冷数据进行打包压缩放入对象存储系统中，温数据放置于文件原本所在底层文件系统中，热数据加载入内存中随时备取，文件编排层挂载外部文件系统，将热数据加载入内存备用，将内存溢写的数据异步的放置于对象存储系统中；对象存储系统作为冷数据的存储系统，对象存储系统的每个对象都被分配一个唯一的标识符，允许一个服务器或者最终用户来检索对象。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，数据生命周期管理模块按数据的使用频次和最后使用时间将数据分层，分为热、温以及冷三层数据，热数据为当前和之前一段时间被反复读取过的数据，温数据为近期使用过的数据但是当前没有被频繁读取的数据，冷数据为较长时间内未被使用过的数据，对于热数据将其调入缓存之中，加快读取速度，对于温数据保留其原始状态，以应对随时读取和调入，冷数据明确其数据意义，将无用数据或任务中间状态生成的数据清理，或者将其压缩打包并入冷数据存储数据空间。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，当在文件编排层创建一个文件对象时，在底层的文件系统中创建相应的文件对象；当底层文件系统的目录第一次被访问时，文件编排层加载文件对象的元信息。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，默认设置下，对象存储系统会在占用文件编排层的工作节点的一部分系统内存，通过使用ramdisk软件将内存模拟为硬盘来使用，当计算框架读取挂载与文件编排层的数据时，文件编排层的工作节点会首先检查本地内存中是否存在该数据，若存在，对外提供该文件的对应的访问接口，若不存在先将该文件拷贝至ramdisk创建的虚拟硬盘中。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，文件编排层的存储机制为动态的，在内存中的数据量到达一个阈值时，动态的根据不同的回收算法将旧数据写出磁盘，然后将新的数据加载入内存空间中。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，文件空间管理模块在文件编排层创建、删除以及修改文件目录操作，通过将底层多个文件系统的文件树映射到一个唯一文件系统的文件树上，对外提供统一的文件目录空间。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，当文件编排层中的数据量达到一个阈值，文件编排层从缓存中溢写的数据写入对象存储中，保留所有被加载到过文件编排层的文件的最后状态。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，文件空间管理模块具有独立的挂载空间，所有的底层文件系统都置于挂载空间的子集被操作，底层的文件系统都会经过文件编排层对外保留通用的数据访问接口。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，文件编排层将存在于不同底层文件系统的文件目录以多对一的方式映射到虚拟文件集合，提供增加，合并，删除，更改子集合的能力，虚拟文件集合对上层文件系统暴露，并提供等同于真实文件目录访问的效果。

根据本发明的支持多文件系统挂载的分布式存储系统的一实施例，其中，文件编排层异步的把文件编排层溢写的文件传输到对象存储系统，在对象存储系统中根据数据指纹算法只保留所有被加载到过内存里的文件的最后状态；外部计算框架在通过文件编排层访问底层的文件数据不可达时，文件编排层将尝试从自有的对象存储中找寻是否有被溢写出的文件的最新状态，若有则返回对象存储中存储文件的物理地址。

本发明的系统

附图说明

图1为支持多文件系统挂载的分布式存储系统的原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

图1为支持多文件系统挂载的分布式存储系统的原理图，如图1所示，支持多文件系统挂载的分布式存储系统包括：文件空间管理模块：负责文件空间的创建，更改，删除和对应的权限管理，文件空间是用户使用某一类文件资源的逻辑隔离区域。元数据管理模块：负责维护文件编排层上挂载的文件的名称，创建时间，拥有者，修改时间，缓存情况和文件权限等信息。标签管理模块：负责记录和维护存放在本分布式文件存储系统中的文件涉及到的业务含义标签。数据生命周期管理模块：负责处理在文件存储系统中的文件的冷热温数据不同数据生命阶段的存储策略。冷数据进行打包压缩放入对象存储系统中，温数据放置于文件原本所在底层文件系统中，热数据加载入内存中随时备取。文件编排层：负责挂载外部文件系统，负责将热数据加载入内存备用，负责将内存溢写的数据异步的放置于对象存储系统中。对象存储系统：负责作为冷数据的存储系统，负责作为内存中无法承载的临时溢写文件的存储系统。底层文件系统：外部的文件存储方案的统称，常用的外部文件系统有：HDFS，S3，Ceph，GlusterFS等。文件访问接口：对外提供的访问本文件存储方案的访问接口，分为兼容大数据场景下常用的分布式文件系统访问接口和常用的单机系统访问文件系统的应用调用接口。用于让外部的计算框架无侵入的读取本文件存储方案中的文件。外部计算框架：目前业界常用的计算框架，分为三类，分布式计算框架如：Spark，MapReduce，深度学习框架如：TensorFlow，Pytorch，分布式数据库/数据仓库如：Hive，HBase，Presto等。

本发明的文件编排层是一个基于内存的分布式文件系统，提供了以下重要功能：

统一命名空间：文件编排层维护了一个类似于文件系统目录的元数据信息，当使用某一文件系统作为文件编排层的底层文件系统时，逻辑上的操作等同于将该底层文件系统作为统一命名空间下的一个子目录被创建，当有多个底层文件系统共同存在于文件编排系统之下时，因他们有不同的访问路径而被区分。

多文件存储系统访问能力：文件编排层实现了多个常用的文件系统的客户端的功能，通过配置可从HDFS，S3，本地文件系统，阿里云存储等存储系统读取数据和这些存储系统对应的文件系统/存储系统的元信息。

透明命名机制：分为两个方向的透明机制，第一个方向为从文件编排层向下透明，当在文件编排层创建一个文件对象时，同时会在底层的文件系统中创建相应的文件对象。第二个方向是从底层文件系统向文件编排层透明，当底层文件系统的目录第一次被访问时，文件编排层会自动加载这些对象的元信息。然后在这个过程中文件编排层不会加载具体的对象数据。

内存存储机制：默认设置下，对象存储系统会在占用工作节点的一部分系统内存，通过使用ramdisk软件将内存模拟为硬盘来使用。当计算框架读取挂载与文件编排层的数据时，工作节点会首先检查本地内存中是否存在该数据，若存在，对外提供该文件的对应的访问接口，若不存在先将该文件拷贝至ramdisk创建的虚拟硬盘中。这样就将内存作为了存储空间使用，当访问已被加载入内存的数据时可大大加快文件访问速度。

回收机制：服务器上可使用的内存空间终究是有限的，所以文件编排层的存储机制被设置为动态的，在内存中的数据量到达一个阈值时，动态的根据不同的回收算法(先进先出，大块文件优先，小文件优先等等)将旧数据写出磁盘，然后将新的数据加载入内存空间中。

如图1所示，本发明设计文件空间管理模块，文件空间管理模块通过在文件编排层根文件空间下划分多个不同使用场景的文件子空间，文件空间管理模块不负责记录单个文件的文件的路径和物理位置，只记录文件目录级别的路径映射，文件编排层和对象存储系统上的数据不受文件空间管理干预。设计独立的挂载空间，所有的底层文件系统都置于挂载空间的子集被操作，底层的文件系统都会经过文件编排层对外保留通用的数据访问接口。设计虚拟文件集合编辑功能，文件编排层将真实存在于不同底层文件系统的文件目录以多对一的方式映射到虚拟文件集合，提供增加，合并，删除，更改子集合的能力，虚拟文件集合对上层文件系统暴露，并提供等同于真实文件目录访问的效果。设计数据同步机制，文件编排层在不影响对上层数据引擎使用数据的情况下，异步的把文件编排层溢写的文件传输到对象存储系统，在对象存储系统中根据数据指纹算法只保留所有被加载到过内存里的文件的最后状态。设计探路者机制，上层应用读取数据优先报告底层文件系统的真实文件的读取位置，外部计算框架在通过文件编排层访问底层的文件数据不可达时，文件编排层将尝试从自有的对象存储中找寻是否有被溢写出的文件的最新状态，若有则返回对象存储中存储文件的物理地址。设计对外文件读写接口，任一数据空间读取写入的方式不受文件编排层下的底层文件系统和对象存储系统的格式，位置，系统类别影响。文件编排层对下层文件系统的读写接口简称南接口，南接口针对不同的底层文件系统分别设计，文件编排层可接入多少种底层文件系统对应的有多少种南接口。文件编排层对上层数据引擎提供的读写接口，称为北接口，北接口只有三种，用以应对三种不同但通用的读取场景。设计元数据管理模块，元数据管理记录文件空间的创建时间，所有者，权限，虚拟文件集合的映射来源，虚拟文件集合的创建者，创建时间，使用者权限，元数据管理模块管理所有的文件安全限制，拒绝所有非授权用户和非授权应用访问权限以外的文件和缓存内容。设计标签管理模块，标签管理模块作为管理文件内容业务含义的主要模块，对于进出入存储方案的数据，保留数据与业务应用间的对应关系，引入机器学习算法，对可被用户分析引擎使用的数据自动打对应标签，对于不明确业务含义的数据支持手动标签处理，由标签管理模块记录数据类型，数据蕴含的业务类型，数据能够支持的业务系统和业务应用。

设计数据生命周期管理模块，数据生命周期管理模块按数据的使用频次和最后使用时间将数据分层，分为热，温，冷三层数据，热数据为当前和之前一段时间被反复读取过的数据，温数据为近期使用过的数据但是当前没有被频繁读取的数据，冷数据为较长时间内未被使用过的数据，对于热数据将其调入缓存之中，加快读取速度，对于温数据保留其原始状态，以应对随时读取和调入，冷数据明确其数据意义，将无用数据或任务中间状态生成的数据清理，或者将其压缩打包并入冷数据存储数据空间，冷，温，热数据的数据温度随数据应用的需求可随时相互转换，保持存储方案的最佳调度。

如图1所示，本发明能够完成统一的文件空间管理模块，文件空间管理模块通过在文件编排层创建、删除、修改文件目录等操作，对外提供逻辑上的文件空间管理模块功能。包括：通过将底层多个文件系统的文件树映射到一个唯一文件系统的文件树上，对外提供统一的文件目录空间，降低业务用户对底层数据系统的感知程度，遵循“asingle sourceof truth”唯一真知来源原则，仅对存储层之上的应用和框架暴露一个文件系统接口。

如图1所示，本发明能够将数据冗余度低，因为当存在多个不同的互不相同的文件系统中时，同一份文件可能在各个文件系统中，造成重复数据，通过将不同的文件系统挂载为文件编排层的底层文件系统，通过计算所有文件的哈希码，可以发现存储在不同文件系统的重复数据。包括：本系统依赖于统一的文件目录空间，同一份文件可以被多个数据引擎直接使用，减少同一份数据在各个不同文件系统之间流转的可能，提高对整体存储空间的利用率，并且同一份数据减少流转的次数隐形的降低了系统内部节点间的流量，特别对于跨区域的数据中心数据整体访问速度会有提升。

如图1所示，本发明能够实现储算分离：为了将存储和计算分开，需要考虑在计算时加载数据的速率是否会成为计算任务的瓶颈，这里引入文件编排层，得益于文件编排层的内存存储机制，所有对底层的读写操作需要先经过文件编排层工作节点的内存中，对于需要反复读写的热数据直接在内存中操作，不需要将中间计算结果落入磁盘，10GB/S的光纤口的读取速度已经大于市面上普通的机械硬盘的顺序读写速度，都还没有达到内存的读取速度极限，存储节点和计算节点可以位于不同的节点上，甚至不同的集群中，只需要计算节点可以通过网络访问存储平台。

如图1所示，本发明的弱网环境下的可用性高：文件编排层也可以作为一个基于内存的分布式缓存，其所能容纳的数据总量必然是远小于所有底层文件系统，当文件编排层中的数据量达到一个阈值，将文件编排层中从缓存中溢写的数据写入对象存储中，保留所有被加载到过文件编排层的文件的最后状态。当文件编排层底层的文件系统因网络原因访问不畅时，通过访问被备份到对象存储和缓存中的数据，在弱网环境下提供一定程度的数据保障。

如图1所示，本发明的小文件的强兼容能力的实现包括：引入了对象存储系统，对象存储，也叫做基于对象的存储，是用来描述解决和处理离散单元的方法的通用术语，这些离散单元被称作为对象，就像文件一样，对象包含数据，但是和文件不同的是，对象在一个层结构中不会再有层级结构。每个对象都在一个被称作存储池的扁平地址空间的同一级别里，一个对象不会属于另一个对象的下一级。文件和对象都有与它们所包含的数据相关的元数据，但是对象是以扩展元数据为特征的。每个对象都被分配一个唯一的标识符，允许一个服务器或者最终用户来检索对象，而不必知道数据的物理地址。对象存储使用CRUSH算法来计算对象的位置信息，而不是依赖于一个中心化的查询表，不因文件数量的增多造成文件元数据查找速度上的压力。

如图1所示，本发明支持机器学习场景：当前可用数据量大大提高，并且通常更多的数据会带来更好的效果，因此深度学习已经成为机器学习中一种流行趋势。然而，这并不能保证所有训练数据都能够直接用于深度学习框架(Tensorflow,Caffe,torch)。例如，深度学习框架目前正与一些现有的存储系统集成，但并不是所有存储都能够直接完成集成。因此，深度学习框架可能无法直接操作训练数据的某个子集，从而导致较低的能效。文件编排层提供一个叫做用户文件空间系统的接口为用户提供更加便捷和熟悉的使用体验。当文件编排层通过用户文件空间工作时，文件编排层可以挂载本地文件系统。所以说，与文件编排层系统交互就像与本地文件和目录交互一样简单。因此，用户可以继续使用他们各类机器学习框架和模式对数据进行交互。

如图1所示，支持跨计算框架间任务的数据共享：相比于单机的操作系统上进程之间的可以使用信号量，管道，进程间数据调用，运行于分布式系统上的分布式计算任务之间还没有成熟的计算任务间的数据共享机制，而基于文件编排层的多文件存储系统访问能力，将不同的文件系统挂载为文件编排层的子目录，创建计算任务间的共享数据空间，以文件锁的方式定向传递数据元或者信号量，建立类似单机操作系统上的进程间通讯机制。

提升对象存储系统上的计算性能：对象存储系统提供无层级的文件存储服务，可以容纳数以百亿记的文件数量而不影响数据查找和加载速度，但是相对于传统的文件系统，在对象存储之上直接进行数据分析，数据挖掘的性能并不尽如人意，求其根本在于，其一每次文件的拉取都要从远端的对象存储中发送网络请求，大量的网络请求会影响计算任务引入数据的速度；其二，对象存储系统没有类似本地文件系统的本地缓存层，每次读取文件都要从磁盘进行随机读的过程，也是影响数据读取速度的重要因素。将对象存储作为文件编排层的底层文件系统挂载，相当于为对象存储提供了数据的本地性，减少对磁盘随机读的次数和反复从远端拉去数据的时间，使热数据更靠近计算端，对于对象存储上的计算任务加速效果明显。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种支持多文件系统挂载的分布式存储系统，其特征在于，包括：

文件空间管理模块，在文件编排层根文件空间下划分多个不同使用场景的文件子空间，文件空间管理模块记录文件目录级别的路径映射；

元数据管理模块，用于维护文件编排层上挂载的文件的名称、创建时间、拥有者、修改时间、缓存情况和文件权限；标签管理模块，用于进行记录和维护存放在本分布式文件存储系统中的文件涉及到的业务含义标签；数据生命周期管理模块，进行处理在文件存储系统中的文件的冷热温数据不同数据生命阶段的存储策略，冷数据进行打包压缩放入对象存储系统中，温数据放置于文件原本所在底层文件系统中，热数据加载入内存中随时备取，文件编排层挂载外部文件系统，将热数据加载入内存备用，将内存溢写的数据异步的放置于对象存储系统中；对象存储系统作为冷数据的存储系统，对象存储系统的每个对象都被分配一个唯一的标识符，允许一个服务器或者最终用户来检索对象。

2.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，数据生命周期管理模块按数据的使用频次和最后使用时间将数据分层，分为热、温以及冷三层数据，热数据为当前和之前一段时间被反复读取过的数据，温数据为近期使用过的数据但是当前没有被频繁读取的数据，冷数据为较长时间内未被使用过的数据，对于热数据将其调入缓存之中，加快读取速度，对于温数据保留其原始状态，以应对随时读取和调入，冷数据明确其数据意义，将无用数据或任务中间状态生成的数据清理，或者将其压缩打包并入冷数据存储数据空间。

3.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，当在文件编排层创建一个文件对象时，在底层的文件系统中创建相应的文件对象；当底层文件系统的目录第一次被访问时，文件编排层加载文件对象的元信息。

4.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，默认设置下，对象存储系统会在占用文件编排层的工作节点的一部分系统内存，通过使用ramdisk软件将内存模拟为硬盘来使用，当计算框架读取挂载与文件编排层的数据时，文件编排层的工作节点会首先检查本地内存中是否存在该数据，若存在，对外提供该文件的对应的访问接口，若不存在先将该文件拷贝至ramdisk创建的虚拟硬盘中。

5.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，文件编排层的存储机制为动态的，在内存中的数据量到达一个阈值时，动态的根据不同的回收算法将旧数据写出磁盘，然后将新的数据加载入内存空间中。

6.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，文件空间管理模块在文件编排层创建、删除以及修改文件目录操作，通过将底层多个文件系统的文件树映射到一个唯一文件系统的文件树上，对外提供统一的文件目录空间。

7.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，当文件编排层中的数据量达到一个阈值，文件编排层从缓存中溢写的数据写入对象存储中，保留所有被加载到过文件编排层的文件的最后状态。

8.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，文件空间管理模块具有独立的挂载空间，所有的底层文件系统都置于挂载空间的子集被操作，底层的文件系统都会经过文件编排层对外保留通用的数据访问接口。

9.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，文件编排层将存在于不同底层文件系统的文件目录以多对一的方式映射到虚拟文件集合，提供增加，合并，删除，更改子集合的能力，虚拟文件集合对上层文件系统暴露，并提供等同于真实文件目录访问的效果。

10.如权利要求1所述的支持多文件系统挂载的分布式存储系统，其特征在于，文件编排层异步的把文件编排层溢写的文件传输到对象存储系统，在对象存储系统中根据数据指纹算法只保留所有被加载到过内存里的文件的最后状态；

外部计算框架在通过文件编排层访问底层的文件数据不可达时，文件编排层将尝试从自有的对象存储中找寻是否有被溢写出的文件的最新状态，若有则返回对象存储中存储文件的物理地址。