CN100451976C

CN100451976C - 基于海量数据分级存储系统的迁移管理方法

Info

Publication number: CN100451976C
Application number: CNB2007101193590A
Authority: CN
Inventors: 舒继武; 陈康; 于得水; 张广艳
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2007-07-23
Filing date: 2007-07-23
Publication date: 2009-01-14
Anticipated expiration: 2027-07-23
Also published as: CN101101563A

Abstract

基于海量数据分级存储系统的迁移管理方法属于数据迁移领域，其特征在于：各前端主机上的并行文件系统客户代理软件实现对VFS访问的支持；元数据服务器负责执行增量扫描，迁移管理以及速率控制等操作，实现对海量数据分级存储系统中前端应用的性能保证。数据服务器按照性能高低划分为快速数据服务器和慢速数据服务器，对元数据服务器发来的增量扫描指令进行处理并返回扫描信息，同时执行元数据服务器发来的文件迁移命令。该方法根据负载情况对数据迁移过程进行调度，根据快速设备剩余空间情况进行主动降级，降低了迁移过程对前端应用的影响，提高了快速设备剩余空间比率，增强了海量数据分级存储系统的自管理性。

Description

基于海量数据分级存储系统的迁移管理方法

技术领域

基于海量数据分级存储系统的迁移管理方法属于数据迁移领域，尤其涉及其中的增量扫描和速率控制领域。

背景技术

基于海量数据分级存储系统的迁移管理方法是指：在海量数据分级存储系统中，根据海量数据的访问规律对其进行数据分级，根据数据级别的变化和设备的使用情况在不同级别的存储子系统之间迁移数据，并对迁移任务进行管理以降低其对前端应用的影响。传统的分级存储系统中较少包含迁移管理和速率控制机制，如果慢速数据服务器上有文件被访问，即将其迁移到快速数据服务器中，没有考虑到迁移对前端应用的影响。同时，传统的分级存储系统对于降级缺乏自适应机制，如果快速数据服务器的磁盘空间已满或者其剩余空间低于某个阈值，才将快速数据服务器上的文件降级，造成系统的突发流量比较大，在磁盘剩余空间低于允许值时，如果要升级一个文件，必须要先从快速数据服务器上降级一个文件以腾出空闲存储空间，提高了升级代价。

本发明提出了一种新的基于海量数据分级存储系统的迁移管理方法，该方法通过增量扫描技术获取设备的访问情况，根据当前访问情况对后续访问情况进行预测以进行速率控制，同时根据磁盘的剩余空间自适应地进行主动降级操作，有效解决了上述问题。

发明内容

本发明的目的在于提供一种能全面满足网络服务和科学计算需要的基于海量数据分级存储系统的迁移管理方法，把迁移过程对前端应用的影响降到最低。本发明的重点在于元数据服务器中增量扫描模块和迁移管理模块的设计，以及数据服务器中扫描处理模块和I/O记录模块的设计。

本发明的特征在于：它是在由以下设备构成的海量分级存储系统中实现的，该系统含有：

各种类型的前端主机，即应用服务器，该前端主机的并行文件系统客户代理模块实现虚拟文件系统层(VFS)的各种文件操作以及从下述元数据服务器读取相应文件的元数据；

元数据服务器，有一台或多台，按照TCP/IP协议经以太网与上述各前端主机相连，把位于不同数据服务器上的数据文件组织成统一的并行文件系统视图，为上述各前端主机提供元数据操作服务，同时执行增量扫描，迁移管理以及速率控制等操作，实现对海量数据分级存储系统中的前端应用的性能保证；

数据服务器，有多台，按照性能高低划分为快速数据服务器和慢速数据服务器。快速数据服务器由数据服务节点和快速设备组成，快速设备通过总线连接到数据服务节点上；慢速数据服务器由数据服务节点和慢速设备组成，慢速设备通过总线连接到数据服务节点上。所述数据服务节点由数据服务模块，I/O记录模块和扫描处理模块等组成。数据服务器保存着每个文件分片后的数据文件，可以为前端主机提供文件I/O操作，记录I/O请求的访问情况，对元数据服务器发来的增量扫描指令进行处理并返回扫描信息，以及执行元数据服务器发来的文件迁移命令；

基于海量数据分级存储系统的迁移管理方法，其特征在于，依次含有以下步骤：

步骤(1).建立海量数据分级存储系统

海量数据分级存储系统由下述各部分组成：前端主机，元数据服务器一台或多台，数据服务器多台；所述数据服务器按照性能高低划分为快速数据服务器和慢速数据服务器；快速数据服务器由数据服务节点和快速设备组成，快速设备通过总线连接到数据服务节点上；慢速数据服务器由数据服务节点和慢速设备组成，慢速设备通过总线连接到数据服务节点上；所述数据服务节点由数据服务模块，I/O记录模块和扫描处理模块等组成；

在作为应用服务器的各种类型的前端主机上部署并行文件系统客户代理模块，以实现虚拟文件系统层VFS的各种文件操作；

在元数据服务器上部署一组运行在Linux系统上的用户空间程序，其中包括：元数据服务模块，迁移管理模块、主动降级模块和增量扫描模块，其中：

元数据服务模块，通过网络通信层接收到并行文件系统客户代理模块发来的元数据访问指令后，提供以下执行元数据操作的接口：文件创建、文件删除、目录创建、目录删除、文件查找以及目录项管理、系统负载获取、所述文件系统统计信息，供通过网络通信层与并行文件系统客户代理模块通信用；

迁移管理模块，对所有文件，维护一个文件访问表，该表采用哈希表结构，键值为文件的inode节点值；文件访问表内容包括：文件inode节点值，文件路径，文件被访问总次数，文件被访问总字节数和文件的位置；对在快速数据服务器上的文件，所述迁移管理模块维护一个最近最少被访问(Least Recently Used，LRU)列表，每个表项的内容包括：文件的inode节点值，指向该文件对应文件访问表中元素的指针，每当增量扫描模块得知某文件被访问之后，迁移管理模块将LRU表中该文件对应的表项移动到LRU表的表头，每当有文件从慢速数据服务器升级到快速数据服务器时，迁移管理模块都为该文件分配一个LRU表项，并放入LRU表的表头，每当有文件从快速数据服务器降级到慢速数据服务器时，迁移管理模块都将该文件对应的LRU表项从LRU表中删除，并释放该表项占用的内存空间；同时，迁移管理模块维护两个有序队列：升级队列和降级队列，分别由升级线程和降级线程处理队列中的任务；

主动降级模块，根据快速数据服务器剩余空间情况，定期从快速数据服务器上文件的LRU队列的队尾取出一个文件，放入降级队列中；

增量扫描模块，在启动时创建增量扫描线程，每隔一个扫描周期，所述扫描线程向所有数据服务器发送增量扫描请求，获取数据服务器在该扫描周期内的被访问情况；

在数据服务器上部署一组运行在Linux系统上的用户空间程序，其中包括：数据服务模块，I/O记录模块和扫描处理模块，其中：

数据服务模块，通过网络通信层收到并行文件系统客户代理模块发来的数据访问指令后，提供以下执行数据操作的接口：数据文件创建、数据文件删除、读数据文件、写数据文件，供通过网络通信层与并行文件系统客户代理模块通信用；

I/O记录模块，维护一个I/O访问记录表，表项内容包括：文件的inode节点值，文件大小，文件在本扫描周期内的被访问字节数，文件在本扫描周期内的被访问次数；数据服务器每收到一个I/O请求，I/O记录模块从中解析出被访问文件的inode节点值，并以该文件的inode节点值为键值查找I/O访问记录表；如果找到，将该文件对应I/O访问记录表中表项中的被访问次数增加1，被访问字节数增加本次I/O请求的大小；否则，创建一个新的I/O访问记录表项，将其inode节点值设为被访问文件的inode节点值，被访问次数初始化为1，被访问字节数初始化为本次I/O访问大小；

扫描处理模块，收到元数据服务器发来的扫描请求之后，遍历I/O访问记录表，对其中的每个被访问文件，从本地文件系统中读取其对应数据文件的大小，并同增量扫描模块建立连接，按照扩展数据表示格式XDR将本周期内的被访问情况发送给所述元数据服务器的增量扫描模块；发送的被访问情况内容包括：I/O访问记录表，本扫描周期内访问文件的数目，本扫描周期内访问的总字节数，本扫描周期内执行迁移的文件总大小；

步骤(2).由步骤(1)所述的并行文件系统依次按以下步骤执行海量数据分级存储系统的迁移管理方法：

步骤(2.1).初始化元数据服务器和数据服务器：

步骤(2.1.1).把配置文件分别读入元数据服务器和数据服务器；

步骤(2.1.2).元数据服务器和数据服务器分别从该配置文件中读取各自的通信地址和服务端口，同时解析出inode节点分配表，根据文件的inode节点值将其映射到对应的数据服务器并存储；同时元数据服务器启动文件迁移模块中的升级线程、降级线程以及增量扫描模块中的文件扫描线程；元数据服务器初始化迁移管理模块维护的文件访问表；

步骤(2.2).初始化并行文件系统客户代理模块：

步骤(2.2.1).把配置文件读入该客户代理模块，

步骤(2.2.2).获取元数据服务器的通信地址和服务端口，

步骤(2.2.3).初始化该代理模块的高速缓存子系统，

步骤(2.2.4).虚拟出子设备，供所述VFS子模块存入用户的VFS访问命令，并在处理完后将返回值写入，供VFS子模块调用；

步骤(2.3).按以下步骤执行文件迁移管理：

步骤(2.3.1).每当并行文件系统客户代理模块调用元数据服务器上的元数据服务模块创建新的文件，迁移管理模块都会在文件访问表中为该文件创建新的访问表项；

步骤(2.3.2).每当并行文件系统客户代理模块调用数据服务器上的数据服务模块对文件进行访问时，I/O记录模块都会根据访问信息更新数据服务器上的I/O访问记录表，并更新本扫描周期内的访问记录变量；

步骤(2.3.3).元数据服务器的增量扫描模块在每个扫描周期结束时向所有数据服务器发送增量扫描指令；

步骤(2.3.4).数据服务器收到元数据服务器发来的增量扫描指令后，同元数据服务器建立连接，将本扫描周期内的访问信息返回给所述的增量扫描模块，同时清空I/O访问记录表和访问记录变量中的内容，以便统计下一个扫描周期内的访问信息；

步骤(2.3.5).元数据服务器中的增量扫描模块将数据服务器返回的访问信息发送给迁移管理模块，迁移管理模块利用该信息更新文件访问表，如果被访问的文件位于快速数据服务器，那么迁移管理模块将该文件在LRU表中对应的表项移动到LRU表的表头；

步骤(2.3.6).迁移管理模块对本周期内文件访问表被更新的文件进行迁移决策，如果文件的访问热度超过了预先设定的升级阈值，将其放入升级队列中，由升级线程处理；同时，如果文件访问表中记录的某个文件未访问时间大于预先设定的降级阈值，将其放入降级队列中，由降级线程处理；

步骤(2.3.7).迁移管理模块对降级线程进行速率控制，它根据增量扫描模块扫描得到的本扫描周期内文件的访问热度，判断当前系统是否处于空闲状态，如果空闲，迁移管理模块通知降级线程，将降级队列中的降级候选文件执行降级操作；迁移管理模块对升级线程不进行速率控制，如果升级线程监测到升级队列中有升级任务，即将该任务从队列中取出，执行降级操作。

本发明的优点如下：

(1)元数据服务器对数据服务器上的文件执行周期性的增量扫描，每次扫描仅更新近期被访问过的文件信息，对近期访问过的文件重新进行迁移价值评价，避免了扫描整个文件系统和文件访问列表。

(2)迁移管理模块对快速数据服务器上的文件执行主动降级操作，在设备剩余空间耗尽之前提前将不重要的数据进行降级，提高了快速数据服务器剩余空间占总空间的比例，避免了设备写满之后才执行降级迁移对前端访问造成的影响。

(3)对迁移过程进行了速率控制，根据以往的系统负载情况来预测下一次系统负载情况，在系统空闲时才执行迁移，将迁移对前端应用造成的影响降到最低。

本发明在清华大学计算机系高性能计算技术研究所进行了测试。结果表明，基于海量数据分级存储系统的迁移管理方法可以根据负载情况完成自动的数据迁移过程，并根据设备剩余空间情况进行主动降级，速率控制机制也使迁移进程对前端应用造成的影响较小。

对海量数据分级存储方法的测试从文件访问的平均响应时间、快速数据服务器的空间利用率和文件访问命中在快速数据服务器上的命中率等三方面衡量。测试环境由一台元数据服务器、一台代表慢速数据服务器的数据服务器，一台代表快速数据服务器的数据服务器，一台前端主机，1台千兆以太网交换机组成。元数据服务器和两台数据服务器均采用64位Intel Itanium 2 1GHZ双CPU服务器，内存2GB，操作系统为Linux，内核版本为2.6.9。我们采用清华大学计算机系高性能计算技术研究所开发的文件trace播放器作为测试工具，使用美国加州大学大学伯克利分校Roselli等人在1997年采集的文件trace：Research作为测试数据，在上述实验环境中对加入迁移管理方法的海量分级存储系统模拟测试了30天，得到了快速设备的空间利用率，同时对该系统实际测试了1小时，得到了文件访问的平均响应时间和文件访问命中在快速设备上的命中率。测试结果见图5，图6。从测试结果中可以看出，迁移调度策略使得迁移过程对前端访问影响很小，平均响应时间较低，同时由于主动降级的作用，快速设备空间利用率始终维持在70％以下。

附图说明

图1.增量扫描示意图。

图2.基于海量数据分级存储系统的迁移管理方法硬件结构图。

图3.基于海量数据分级存储系统的迁移管理方法软件结构图。

图4.基于海量数据分级存储系统的迁移管理方法整体流程图。

图5.基于海量数据分级存储系统的迁移管理方法的文件访问平均响应时间测试结果。

图6.基于海量数据分级存储系统的迁移管理方法的文件访问命中在快速数据服务器上的命中率。

图7.基于海量数据分级存储系统的迁移管理方法的快速数据服务器的空间利用率。

具体实施方式

海量数据分级存储系统主要由元数据服务器、数据服务器和前端主机上的并行文件系统客户代理软件组成。迁移管理方法运行在所述的海量分级存储系统中。

海量分级存储系统中，前端主机，元数据服务器和数据服务器通过以太网交换机连接在一起，按照数据服务器上挂载设备的性能不同，将其划分为快速和慢速数据服务器。被迁移文件的迁移起始端称为源数据服务器，迁移目标端称为目标数据服务器。

元数据服务器上的元数据服务模块完成对元数据的操作，增量扫描模块定期向所有数据服务器发出扫描指令以获取数据服务器在本周期内的访问情况；迁移管理模块维护并更新文件访问表，预测下一周期负载情况，并对降级队列进行速率控制，同时负责生成迁移指令；降级线程定期从快速设备上文件的LRU表中取出队尾表项，放入降级队列中。基于海量数据分级存储系统的迁移管理方法软件结构如图3所示。

增量扫描模块定期向所有数据服务器发出扫描请求，数据服务器收到该请求后将本周期内所有被访问文件的访问情况发送给元数据服务器。文件访问情况的消息格式如下：

Struct access_info{

Struct san_info*scan_info_array；

uint32_t stat_count；

uint32_t stat_io_size；

}；

其中，scan_info_array是指向该数据服务器的I/O记录模块维护的I/O访问记录表的指针，stat_count是I/O访问记录表中的表项数目，stat_io_size是该数据服务器在本周期内收到的所有I/O请求的总访问大小。I/O访问记录表每个表项的格式如下：

Struct scan_info{

uint64_tmeta_handle /*文件的inode节点值*/

uint64_t data_handle /*文件对应数据文件的inode节点值*/

uint64_t dspace_size /*数据文件的大小*/

uint64_t access_size /*该文件在本扫描周期内的访问字节数*/

}；

增量扫描模块收到这些数据之后，通知文件访问表管理器对文件访问表中的相关文件进行更新。文件访问表中一个表项的格式如下：

Typedef struct

{

uint64_t meta_handle /*文件的inode节点值*/

uint64_tfile_size /*文件大小*/

uint32_t lifetime /*文件从创建开始到当前的生存时间*/

uint32_t rereference_time /*文件的平均重复访问间隔*/

uint32_t access_num /*文件的总访问次数*/

uint64_t eccess_bytes /*文件的总访问字节数*/

uint32_t unaccess_time /*文件从上次访问到现在的未访问时间*/

}file_migration

文件访问表管理模块对相关文件更新之后，根据该文件对应访问表项中的访问信息计算文件的访问热度，如果访问热度大于给定的升级阈值，即将其放入升级队列中，由升级线程进行处理；

升、降级队列中每个元素的格式如下：

Struct migration_entry{

uint64_t meta_handle；/*迁移候选文件的inode节点值*/

uint32_t next_atime；/*文件预测的下次访问时间，对升级文件使用*/

char*path；/*文件的路径*/

uint8_t tier；/*文件对应数据文件所在的数据服务器编号*/

}

升级的执行步骤如下：

升级线程从升级队列中获取一个元素并将该元素从升级队列中删除，解析出其inode节点值之后，生成迁移指令并向源数据服务器发送该指令，将该元素从快速设备上文件的LRU表中删除，并将该元素对应的LRU表项在内存中的空间释放，同时将升级成功的命令写入迁移日志文件。

降级的执行步骤如下：

降级线程从降级队列中获取一个元素并将该元素从降级队列中删除，解析出其inode节点值之后，生成迁移指令并向源数据服务器发送该指令，降级迁移完成之后，为该元素分配一个LRU表项并将其插入快速设备上文件的LRU表的表头，同时将降级成功的命令写入迁移日志文件。

主动降级操作按照如下方法执行：

获取快速设备上的总文件大小tier0_total_fiiesize，该值即为快速设备已使用的空间，获取快速设备的总空间大小device_size，则快速设备的剩余可用空间为device_size-tier0_total_filesize，快速设备的剩余可用空间占总空间的比例为：

r＝(device_size-tier0_total_filesize)/device_size

主动降级操作使用下式：

sleeptime＝Tr

来计算两次主动降级之间的时间间隔，其中T是一个可调参数。主动降级操作调用sleep()系统调用睡眠sleeptime时间，然后再从快速设备上文件的LRU表的队尾取出一个元素放入降级队列中。快速设备的剩余空间越小，r值越小，sleeptime越小，主动降级越频繁；快速设备的剩余空间越大，r值越大，sleeptime越大，主动降级越不频繁。该方法可以自适应的根据快速设备的剩余空间情况调整主动降级的频率。

海量数据分级存储方法的整体各模块结构关系图如图3所示。

Claims

1.基于海量数据分级存储系统的迁移管理方法，其特征在于，依次含有以下步骤：