CN103246716A

CN103246716A - 基于对象集群文件系统的对象副本高效管理方法及系统

Info

Publication number: CN103246716A
Application number: CN2013101507856A
Authority: CN
Inventors: 张雷; 朱立谷; 曾赛峰
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2013-04-26
Filing date: 2013-04-26
Publication date: 2013-08-14
Anticipated expiration: 2033-04-26
Also published as: CN103246716B

Abstract

本发明所提供的一种基于对象集群文件系统的对象副本高效管理方法及系统，针对每个对象的关键信息生成对象副本DNA样本，进行汇总创建对象副本DNA样本数据库，并实时更新。当Client端发出对对象副本进行I/O请求时，根据I/O请求对应的对象副本的大小和所属目录层级信息的属性在对象副本DNA样本库里依据配对策略进行查找，找到最佳匹配的对象副本。该方法将大规模对象集群文件系统中的对象副本存取的管理与磁盘的性能相结合，即对象副本总是选取在磁盘寻道时间、旋转次数、能耗等方面最合适的存储器上进行访问,从而降低了访问延迟、节约网络带宽、提高系统性能，最终提高了并发访问处理能力。

Description

基于对象集群文件系统的对象副本高效管理方法及系统

技术领域

本发明涉及一种基于对象集群文件系统的对象副本高效管理方法及系统，属于信息技术领域。

背景技术

随着计算机技术和网络技术的飞速发展，由此产生的各种应用数据呈几何级数爆炸式增长，各种在线数据飞速增长，促使数据存储容量以每年数十倍的速度急剧增长，大量数据密集型的应用，如数字图书馆、数据仓库、数据挖掘、气象数据处理、医药视频图像处理、生命科学研究、多媒体点播、在线数据处理等，对存储系统的性能提出更高的要求，数据访问的压力也在不断的增加，保持高速的数据访问能力并让每个用户获得尽可能高的访问效率是IT行业关注的焦点，这对存储系统的性能，比如I/O带宽、吞吐率、响应时间等提出更高的要求，如何构建一个高性能、高可伸缩、高可用、可管理、安全的存储系统就成为了目前存储系统所面临的一个重要问题。

对象集群文件系统是融合传统NAS（网络连接式存储，Network AttachedStorage）架构和SAN(存储网络，Storage Area Network)架构存储两种经典架构的优点而产生的新的大规模存储系统的体系结构，使多台服务器对外提供统一的功能和强大处理能力的服务特性，具备高性能、高可靠性、负载均衡、数据共享使用等集群自身特点。具体而言，对象集群文件系统是将每个存储设备作为一个存储，通过高速互联网络连接起来，将数据分散开存储在多台独立的设备上，这些设备可以独立运作，相互之间又可以合作。每个I/O不仅可以访问本的存储空间，还可以访问其他的存储空间，所有存储的空间以一个虚拟磁盘的方式提供给客户端用户。对象集群文件系统的核心是将数据通路（数据读或写）和控制通路（元数据）分离，并且基于对象存储服务器集群构建存储系统，每个对象存储服务器能够自动管理其上的数据分布。对象集群文件系统主要包括三部分，分别为客户端（Client）文件集群、元数据服务器集群（MSD，Metadata Storage Device）和对象存储服务器集群（OSD，Object Storage Device），元数据服务器集群又包括Master MSD和Slave MSD，Slave MSD为Master MSD分担部分负荷，达到负荷均衡，同时作为Master MSD出现故障时的备用服务器，Slave MSD上的数据由Master MSD分发；如果数据发生改变Slave MSD仍然需要从Master MSD上获得相应的数据。由于元数据管理（大约有90%的负载）已交由OSD负责，元数据服务器只管理与文件目录有关的元数据（约10%的负载），即将文件目录映射为对象，对象是系统中数据存储的基本单位，一个对象实际上就是文件的数据和一组属性的组合，这些属性可以定义基于文件的数据分布和服务质量等，而传统的存储系统中用文件或块作为基本的存储单位，在块存储系统中还需要始终追踪系统中每个块的属性，对象通过与存储系统通信维护自己的属性。在存储设备中，所有对象都有一个对象标识，通过对象标识OSD命令访问该对象。OSD具有自己的CPU、内存、网络通信接口和磁盘、OS操作系统，目前国际上通常采用刀片式结构实现对象存储的设备。OSD提供三个主要功能：（1）数据存储，OSD管理对象数据，并将它们放置在标准的磁盘系统上，OSD不提供块接口访问方式，Client请求数据时用对象ID、偏移进行数据读写；（2）智能分布，OSD用其自身的CPU和内存优化数据分布，并支持数据的预取。由于OSD可以智能地支持对象的预取，从而可以优化磁盘的性能；（3）每个对象元数据的管理，OSD管理存储在其上对象的元数据，该元数据与传统的inode（索引）元数据相似，通常包括对象的数据块和对象的长度。而在传统的NAS系统中，这些元数据是由文件服务器维护的，对象存储架构将系统中主要的元数据管理工作由OSD来完成，降低了Client的开销。MSD控制Client与OSD对象的交互，主要提供以下几个功能：（1）对象存储访问，MSD构造、管理描述每个文件分布的视图，允许Client直接访问对象，MSD为Client提供访问该文件所含对象的能力，OSD在接收到每个请求时将先验证该能力，然后才可以访问；（2）文件和目录访问管理，MSD在存储系统上构建一个文件结构，包括限额控制、目录和文件的创建和删除、访问控制等；（3）Client Cache一致性，为了提高Client性能，在对象存储文件系统设计时通常支持Client方的Cache（高速缓存）。由于引入Client方的Cache，带来了Cache一致性问题，MSD支持基于Client的文件Cache，当Cache的文件发生改变时，将通知Client刷新Cache，从而防止Cache不一致引发的问题。

长久以来在上千台大规模集群系统中，磁盘的寻道时间和磁盘数据的传输时间很长，成为制约大规模基于对象集群文件系统的最大瓶颈。同时，在上千台集群存储的大规模存储环境下，I/O的能耗方面的优化也是一个需要考虑的关键点。因此，为了保障对象存储系统能够稳定有效地提供高性能存储服务,将副本技术引入对象存储系统,通过创建对象副本,牺牲部分存储容量，保存多个副本，利用空闲系统资源，由多个副本来同时分担访问原对象的I/O请求，从而实现降低访问的延迟、提高存储系统性能的目的。副本技术的引入使得对象存储系统存在了大量的对象副本,这些副本的有效管理至关重要。

目前，基于对象的集群文件系统的存储技术还是在起步阶段，很多方面，特别是性能优化技术方面还有很大的提升空间。现有专利文献CN101980192公开了一种基于对象的集群文件管理方法，通过管理对象、元数据对象和存储数据对象分离，实现系统资源与物理设备无关的灵活配置和部署，并且对系统的负荷进行自动均衡配置，使系统内各对象存储和访问的动态均衡，通过对象备份，将过负荷上的元数据对象服务转移到非过负荷上的备份元数据对象上，将负荷上的存储数据对象的服务转移到非过负荷上的备份存储数据对象上。

上述专利文献只是实现了集群文件系统的自动均衡配置等方面的优化，对该体系架构下的集群文件系统的对象副本的高效存取管理技术并不完善，没有对备份数据（即对象副本）进行有效管理，大大限制了基于对象集群文件系统性能的进一步提高。

发明内容

本发明要解决的技术问题是大规模集群文件系统中对对象副本未进行有效管理带来的磁盘寻道时间长和磁盘碎片多，存储能耗大，访问能力低的问题，从而提供一种基于对象集群文件系统的对象副本高效管理方法及系统。

为了解决上述技术问题，本发明提供了一种对象集群文件系统的对象副本高效管理方法，包括，

初始化步骤：

S10：每个OSD上的对象副本DNA本地生成模块根据所述OSD上包含的所有对象的关键信息生成对象副本DNA样本，并将所述对象副本DNA样本存储在本地的所述OSD中；其中，所述关键信息包括该对象在磁盘上的分布状态、起始扇区和容量信息；

S11：Master MSD的对象副本DNA数据样本采集模块采集存储在所述Master MSD所对应的各个OSD的所述对象副本DNA样本，同时负责汇总所述Master MSD所对应的各个OSD的所述对象副本DNA样本，建立对象副本DNA样本数据库并将所述对象副本DNA样本数据库存储在所述Master MSD中；

S12：所述Master MSD的对象副本DNA控制与管理模块将对象副本DNA样本数据库复制到所述Master MSD所对应的各个Slave MSD中和每个Client端的Cache中；

工作步骤：

S21：当Client端发出对OSD上的对象副本进行I/O请求时，所述Client端的对象副本DNA索引模块接收所述I/O请求，并根据所述I/O请求对应的对象副本的大小和所属目录层级信息的属性在所述对象副本DNA样本库里根据配对策略进行查找，找到最佳匹配的对象副本并完成相应操作；

S22：所述Master MSD的数据一致性管理模块定时检测所述Master MSD和所述Master MSD所对应的各个OSD和Slave MSD之间的通讯情况，并在通讯正常时转入步骤S220;

S220:对象的关键信息发生变化的所述OSD的对象副本DNA本地生成

模块将变动的所述对象副本DNA样本经由对应的所述Master MSD上的数

据一致性管理模块提交给对应的所述Master MSD;

S221：所述Master MSD接收变动的所述对象副本DNA样本后,所述Master MSD上的对象副本DNA控制与管理模块汇总变动的所述对象副本DNA样本，并根据变动的所述对象副本DNA样本更新所述对象副本DNA样本数据库里对应的所述对象副本DNA样本，并将更新后的所述对象副本DNA样本复制到所述对应的各个所述Slave MSD中和所述Client端的Cache中。

步骤S21之前还包括设定配对策略的步骤，设定后的配对策略为如下配对策略中的任意一种：最近最先访问策略、容量最合适策略、性能最合适策略和磁盘能耗最小策略。

所述基于对象集群文件系统的对象副本高效管理方法中的各个步骤的相关信息都由日志管理模块进行记录；其中日志管理模块所记录的相关信息包括：操作类型、操作说明、操作时间、数据一致性、操作优先等级、数据分布策略。

一种基于对象集群文件系统的副本高效管理系统，包括：

对象副本DNA本地生成模块，设置在每个OSD上，根据所述OSD上包含的所有对象的关键信息生成对象副本DNA样本，并将所述对象副本DNA样本存储在本地的所述OSD中；其中，所述关键信息包括该对象在磁盘上的分布状态、起始扇区和容量信息；

数据一致性管理模块，设置在Master MSD上，用于判断Client端对存储在OSD上的对象进行操作是否使得对象的关键信息发生变化，并在判断对象的关键信息发生变化时，对象的关键信息发生变化的所述OSD上的对象副本DNA本地生成模块将变动的所述对象副本DNA样本提交给所述Master MSD的数据一致性管理模块;

对象副本DNA数据样本采集模块，设置在Master MSD上，采集存储在所述Master MSD所对应各个OSD上的所述对象副本DNA样本；同时，负责汇总各个OSD上的所述对象副本DNA样本，建立对象副本DNA样本数据库；

对象副本DNA控制与管理模块，设置在Master MSD上，将对象副本DNA样本数据库复制到所述Master MSD所对应各个Slave MSD中和每个Client端的Cache中；

对象副本DNA索引模块，设置在Client端，用于接收Client端发出对OSD上的对象副本进行I/O请求，并根据所述I/O请求对应的对象副本的大小和所属目录层级信息的属性在所述对象副本DNA样本库里根据配对策略进行查找，找到最佳匹配的对象副本；其中，所述配对策略包括最近最先访问策略、容量最合适策略、性能最合适策略、磁盘能耗最小策略。

还包括设置在所述Client端配对策略设定模块。

还包括日志管理模块，用于记录所述各模块的相关信息。

本发明所述的一种基于对象集群文件系统的对象副本高效管理方法和系统，针对每个对象的关键信息生成对象副本DNA样本，进行汇总创建对象副本DNA样本数据库，并对对象副本DNA样本数据库实时更新，当Client端发出对对象副本进行I/O请求时，根据所述I/O请求对应的对象副本的大小和所属目录层级信息的属性在所述对象副本DNA样本库里依据配对策略进行查找，找到最佳匹配的对象副本。该方法将大规模对象集群文件系统中的对象副本存取的管理与磁盘的性能相结合，即对象副本总是选取在磁盘寻道时间、磁盘的旋转次数、磁盘的能耗等方面最合适的存储上的磁盘进行数据的存储，实现I/O请求的就近响应,从而减少磁盘寻道时间、磁盘旋转次数等各方面的开销，降低了访问延迟、节约网络带宽、提高系统性能，最终提高了并发访问处理能力。

附图说明

为了使本发明的内容更容易被清楚的理解，下面结合附图，对本发明作进一步详细的说明，其中，

图1是本发明所述基于对象集群文件系统的对象副本高效管理方法流程图；

图2是本发明所述基于对象集群文件系统的对象副本高效管理系统的结构框图。

具体实施方式

本实施例提供一种基于对象集群文件系统的对象副本高效管理方法，其流程图如图1所示，包括初始化步骤和工作步骤。

初始化步骤如下：

S10：每个OSD上的对象副本DNA本地生成模块根据所述OSD上包含的所有对象的关键信息生成对象副本DNA样本，并将所述对象副本DNA样本存储在本地的所述OSD中；其中，所述关键信息包括该对象在磁盘上的分布状态、起始扇区和容量信息，这些对象在磁盘上的分布状态、起始扇区和容量信息等关键信息是属于该对象所特有的信息，好像人的DNA是一个人所特有的信息一样，所以将所述对象的关键信息形象的称为DNA样本。如图2所示，对象副本DNA本地生成模块创建本地的单个对象副本的DNA样本

其存储空间内的每一个对象副本对应于一个

其中R_n分别代表对象的对象副本DNA样本，这些对象副本DNA样本存储在本地的OSD中，供对象副本DNA数据样本采集模块采集汇总。

S11：Master MSD的对象副本DNA数据样本采集模块采集存储在所述Master MSD所对应各个OSD的所述对象副本DNA样本，同时负责汇总所述Master MSD所对应各个OSD的所述对象副本DNA样本，建立对象副本DNA样本数据库并将所述对象副本DNA样本数据库存储在所述Master MSD中。如图2所示，在对象存储集群系统中的每一个OSD存储的对象副本DNA样本γ_n创建完成以后，由对象副本DNA数据样本采集模块负责对所述对象副本DNA样本进行汇总为对象副本DNA样本库{γ_n},具体的汇总工作由Master MSD的对象副本DNA数据样本采集模块负责完成，并对这些样本进行汇总，建立对象副本DNA样本数据库并将所述对象副本DNA样本数据库存储在所述Master MSD中。

S12：所述Master MSD的对象副本DNA控制与管理模块将对象副本DNA样本数据库复制到所述Master MSD所对应各个Slave MSD中和每个Client端的Cache中，使所述Master MSD与所对应各个Slave MSD中和每个Client端的Cache中的DNA样本数据保持一致。

工作步骤：

S21：当任一Client端发出对OSD上的对象副本进行I/O请求时，所述Client端的对象副本DNA索引模块接收所述I/O请求，并根据所述I/O请求对应的对象副本的大小和所属目录层级信息的属性集{η_n}，η_n表示大小，所属目录层级信息等属性。在所述对象副本DNA样本库γ_n里，即

里进行搜索、查找。根据对象副本DNA配对策略模块提供的配对策略进行查找，找到最佳匹配的对象副本并完成相应的操作；

S22：所述Master MSD的数据一致性管理模块定时检测所述Master MSD和所述Master MSD所对应的各个OSD、Slave MSD之间的通讯情况，并在通讯正常时转入步骤S220。通常采用心跳信号或者目录方式检测通讯是否正常，心跳信号是为了确认互联的双方在长时间没有通讯的情况下是否都还在线，或者说存在于互联的双方之间的通讯链路是否已经断开，所述Master MSD的数据一致性管理模块定时向所述Master MSD所对应的各个OSD、Slave MSD发送一个信号，所述Master MSD所对应的各个OSD、Slave MSD在收到这个信号后并向所述Master MSD发送一个很小的数据包来检测通讯是否正常；目录方式为所述Master MSD所对应的各个OSD、Slave MSD定时向指定的目录内写入数据，如各个服务器都定时写入了数据，则判断该服务器通讯正常，并在通讯正常时转入步骤S220，否则判断相应的服务器通讯中断。通讯中断的服务器在确定无法继续通讯时一般会被从系统中剔除。

S220：当Client端对存储在OSD上的对象进行操作，例如对对象的删除、文件的增加、文件的重命名、文件的复制等,致使对象的关键信息发生变化，对象的关键信息发生变化的所述OSD的对象副本DNA本地生成模块将变动的所述对象副本DNA样本γ_n经由所述Master MSD上的数据一致性管理模块提交给对应的所述Master MSD;

S221：所述Master MSD接收变动的所述对象副本DNA样本后,所述Master MSD上的对象副本DNA控制与管理模块汇总变动的所述对象副本DNA样本，并根据变动的对象副本DNA样本γ_n更新所述对象副本DNA样本数据库里对应的所述对象副本DNA样本，并将更新后的所述对象副本DNA样本复制到所述对应的各个所述Slave MSD中和所述Client端的Cache中，使所述Master MSD与所对应各个Slave MSD中和每个Client端的Cache中的DNA样本数据保持一致。

本实施例中在所述步骤S21之前还包括设定配对策略的步骤，设定后的所配对策略为如下配对策略中的任意一种：最近最先访问策略：数据分布的位置最近者优先；容量最合适策略：容量匹配最佳者优先；性能最合适策略：性能最高者优先；磁盘能耗最小策略：磁盘的总能耗最小者优先。

作为本发明所述基于对象集群文件系统的对象副本高效管理方法的其它实施例，在上述实施例的基础上，所述配对策略还可根据具体需求进行扩展，进一步完成对Client端I/O性能和节能优化。

作为本发明所述基于对象集群文件系统的对象副本高效管理方法的其它实施例，在上述实施例的基础上，上述基于对象集群文件系统的对象副本高效管理方法中的各个步骤的相关信息都由日志管理模块进行记录，便于对对象副本进行管理。其中日志管理模块所记录的相关信息包括：操作类型、操作说明、操作时间、数据一致性、操作优先等级、数据分布策略。

本发明还提供一种基于对象集群文件系统的副本高效管理系统，集群文件系统中的MSD一般包括多个Master MSD，每个Master MSD对应多个Client端、Slave MSD和OSD，本实施例的一种基于对象集群文件系统的副本高效管理系统仅包括一个Master MSD，一个所述Master MSD用于管理m个Slave MSD和n个OSD，同时可供k个客户端同时访问操作，其中，m、n和k均为正整数，具体结构框图如图2所示，包括：

对象副本DNA本地生成模块，设置在每个OSD上，根据所述OSD上包含的所有对象的关键信息生成对象副本DNA样本，并将所述对象副本DNA样本存储在本地的所述OSD中；其中，所述关键信息包括该对象在磁盘上的分布状态、起始扇区和容量信息。

数据一致性管理模块，设置在Master MSD上，用于Client端对存储在OSD上的对象进行操作，致使对象的关键信息发生变化，对象的关键信息发生变化的所述OSD上的对象副本DNA本地生成模块将变动的所述对象副本DNA样本提交给所述Master MSD。

对象副本DNA数据样本采集模块，设置在Master MSD上，采集存储在所述Master MSD所对应各个OSD上的所述对象副本DNA样本；同时，负责汇总各个OSD上的所述对象副本DNA样本，建立对象副本DNA样本数据库。

对象副本DNA控制与管理模块，设置在Master MSD上，将对象副本DNA样本数据库复制到所述Master MSD所对应各个Slave MSD中和每个Client端的Cache中。

作为本发明所述基于对象集群文件系统的对象副本高效管理系统的其它实施例，在上述实施例的基础上，还包括设置在所述Client端配对策略设定模块。

作为本发明所述基于对象集群文件系统的对象副本高效管理系统的其它实施例，在上述实施例的基础上，还包括日志管理模块，用于记录所述各模块的相关信息。

作为本发明所述基于对象集群文件系统的对象副本高效管理方法的其它实施例，上述基于对象集群文件系统的对象副本高效管理系统中的MSD可包括多个Master MSD，每个Master MSD可以实现数据共享。

本发明所述的一种基于对象集群文件系统的对象副本高效管理方法和系统，针对每个对象的关键信息生成对象副本DNA样本，进行汇总创建对象副本DNA样本数据库，并对对象副本DNA样本数据库进行实时更新，当Client端发出对对象副本进行I/O请求时，根据所述I/O请求对应的对象副本的大小和所属目录层级信息的属性在所述对象副本DNA样本库里根据配对策略进行查找，找到最佳匹配的对象副本。该方法将大规模对象集群文件系统中的对象副本存取的管理与磁盘的性能相结合，即对象副本总是选取在磁盘寻道时间、磁盘的旋转次数、磁盘的能耗等方面最合适的存储上的磁盘进行数据的存储，实现I/O请求的就近响应,从而减少磁盘寻道时间、磁盘旋转次数等各方面的开销，降低了访问延迟、节约网络带宽、提高系统性能，最终提高了并发访问处理能力。

本发明提供的一种对象集群文件系统的高效副本管理方法及系统，特别适用于高性能计算、科学计算、社交存储应用、流媒体存储等大规模、密集访问的应用环境，可以大大提高系统的性能、增强用户体验、保障数据的可靠性和可用性的同时节省很多能耗方面的经济成本，能够有效的面对大数据时代所带来的各种挑战。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于对象集群文件系统的对象副本高效管理方法，其特征在于：包括，

初始化步骤：

工作步骤：

S220:对象的关键信息发生变化的所述OSD的对象副本DNA本地生成模块将变动的所述对象副本DNA样本经由对应的所述Master MSD上的数据一致性管理模块提交给对应的所述MasterMSD;

2.根据权利要求1所述的基于对象集群文件系统的对象副本高效管理方法，其特征在于：步骤S21之前还包括设定配对策略的步骤，设定后的配对策略为如下配对策略中的任意一种：最近最先访问策略、容量最合适策略、性能最合适策略和磁盘能耗最小策略。

3.根据权利要求1或2所述的基于对象集群文件系统的对象副本高效管理方法，其特征在于：所述基于对象集群文件系统的对象副本高效管理方法中的各个步骤的相关信息都由日志管理模块进行记录；其中日志管理模块所记录的相关信息包括操作类型、操作说明、操作时间、数据一致性、操作优先等级、数据分布策略。

4.一种基于对象集群文件系统的副本高效管理系统，其特征在于，包括：

数据一致性管理模块，设置在Master MSD上，用于判断Client端对存储在OSD上的对象进行操作是否使得对象的关键信息发生变化，并在判断对象的关键信息发生变化时，对象的关键信息发生变化的所述OSD上的对象副本DNA本地生成模块将变动的所述对象副本DNA样本提交给所述Master MSD;

对象副本DNA控制与管理模块，设置在Master MSD上，将对象副本DNA样本数据库复制到所述Master MSD对应的各个Slave MSD中和每个Client端的Cache中；

5.根据权利要求4所述的基于对象集群文件系统的副本高效管理系统，其特征在于：还包括设置在所述Client端配对策略设定模块。

6.根据权利要求4或5所述的基于对象集群文件系统的副本高效管理系统，其特征在于：还包括日志管理模块，用于记录所述各模块的相关信息。