CN111427843A

CN111427843A - 一种面向文件的海量数据分级存储方法

Info

Publication number: CN111427843A
Application number: CN202010295660.2A
Authority: CN
Inventors: 陈宏宇; 王亚强; 曹亮
Original assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Current assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-07-17

Abstract

本发明公开了一种面向文件的海量数据分级存储方法，将存储设备分级为高性能存储层和大容量存储层两个层级，通过软件定义存储的方式，采用一种自动文件价值判别方法将系统中的文件划分为4种不同价值区间的数据，利用文件自动迁移机制和速率控制机制将不同价值区间的数据分别存储到相应成本的存储设备上。本发明通过内部的数据存储调度和迁移调度，以及在业务场景下的数据自动评估方法，实现系统中数据的自动迁移，从而达到在降低数据存储成本的同时保证数据访问的高性能访问的发明目的。

Description

一种面向文件的海量数据分级存储方法

技术领域

本发明涉及计算机领域，主要涉及一种面向文件的海量数据分级存储方法。

背景技术

随着网络技术的发展，数据呈现迅猛的增长态势，根据IDC的调查报告显示，在目前的数据中80％的数据都是非结构化的数据，相较于结构化数据，非结构化数据的增长速度远远高于结构化数据的增长速度。对于激增的非结构化数据，上层应用提出了更高的存储和访问性能要求：高性能、低成本以及高可扩展。因此开发高性能、低价格、可扩展、可管理的存储系统成为一个亟待解决的问题。

在近几年的硬件技术发展中，新型存储设备不断出现，例如SATASSD、PCIeSSD等，可以提供高性能的数据存储和数据访问，但其价格较高。相对而言，传统的硬盘(Hard DiskDevice)性能较差，但价格便宜。另外，许多针对大规模存储系统的研究表明，在所有文件中，只有1％的文件每天使用，而90％的文件几乎不被使用，即文件的访问具有局部性。因此，如果将所有的文件都存储在高性能的存储设备上，虽然可以保证文件的高性能存储和访问，但由于数据量巨大，会导致存储成本急剧上升；而如果将所有文件都存储在大容量的存储设备上，则不能保证系统的整体性能。

目前存在的主要问题：

(1)如果将所有文件都存储在大容量的存储设备上，则不能保证系统的整体性能；

(2)如果将所有的文件都存储在高性能的存储设备上，数据量巨大；

(3)无法区分不同价值区间的数据。

发明内容

针对现有技术中存在的问题，本发明旨在发明一种面向文件的海量数据分级存储方法，其中：

一种面向文件的海量数据分级存储方法，包括以下步骤：

S1.迁移线程；

S2.接收I/O请求文件；

S3.判断I/O请求优先级；

S4.判断请求文件是否在迁移队列中；

S5.继续迁移；

其中，当请求文件在迁移队列中，步骤S4还包括以下子步骤：

S401.中断迁移；

S402.本地命中；

S403.访问结束；

S404.判断请求文件位置处于高性能存储服务器或低速存储服务器。

进一步的，当I/O请求优先级高，还包括以下子步骤：

S301.查询请求文件所在地址；

S302.发送访问请求。

进一步的，还包括与步骤S0，通过计算迁移速率判断文件迁移进行与否；系统监控着数据管理客户端中的I/O队列长度；当其中I/O队列长度比设置的阈值T要高时，则判定前端负载较高，I/O响应时间随着I/O队列的长度增长而增加；所述的迁移速率如下：

通过公式计算得到数据迁移应该等待的时间长度W，W的计算公式如下所示：

其中E是一个常数，L是I/O队列长度，T是设置的阈值。E和T的值是依据经验值得到的。

进一步的，当请求文件位置处于高性能服务器时，重新判断请求文件性质。

进一步的，所述的重新判断请求文件性质，当请求文件性质改变，判断请求文件的状态，请求文件处于正在迁移状态，终止迁移，并删除未完成迁移数据；请求文件处于等待迁移状态，终端将请求文件从迁移队列中删除。

本发明的有益效果：

(1)保证系统的整体性能；

(2)区分不同价值区间的数据；

(3)在业务场景下的数据自动评估方法，实现系统中数据的自动迁移。

附图说明

图1是本发明的数据迁移控制流程图；

图2是本发明的迁移速率控制图。

具体实施方式

针对现有技术中存在的问题，本发明旨在发明一种面向文件的海量数据分级存储方法，其中：一种面向文件的海量数据分级存储方法，包括以下步骤：

S1.迁移线程；

S2.接收I/O请求文件；

S3.判断I/O请求优先级；

S4.判断请求文件是否在迁移队列中；

S5.继续迁移；

S401.中断迁移；

S402.本地命中；

S403.访问结束；

进一步的，当I/O请求优先级高，还包括以下子步骤：

S301.查询请求文件所在地址；

S302.发送访问请求。

为了对本发明的技术特征、目的和效果有更加清楚的理解，先对照附图说明本发明的具体实施方式。

以下结合附图描述根据本发明实施例的海量数据分级存储方法。

图1是根据本发明实例中，数据迁移的控制流程图。迁移队列中的数据状态主要包括等待迁移、正在迁移、已迁移三种状态。等待迁移是指数据以满足迁移条件，但是由于迁移队列已满或按迁移顺序还未轮到的状态；正在迁移是指数据处于迁移队列中，且正在从一级存储设备迁移至另一存储设备的过程中；已迁移是指数据已完全从原有设备中迁移出的状态。

分级存储中数据迁移的同时也会有来自应用程序端的I/O请求，为了保证数据迁移进程的正确执行需要正确处理这些I/O请求和数据的迁移。有来自前台的请求中断时，比较I/O 请求与数据迁移进程的优先级，若优先级高，则需中断数据迁移并保护迀移进程现场，响应和处理I/O请求，处理结束后恢复被中断的数据迁移进程现场，继续执行被中断的数据迁移，反之，则不做任何处理。

图2是根据本发明实例中，迁移速率控制示意图。由于存储系统中I/O访问负载的不确定性，系统使用逻辑上开/关两种状态来调整数据迁移速度。文件迁移进行与否，是依据数据管理客户端中前端应用的负载来确定的。如果前端负载相对较低，则进行数据迁移，如果负载过高，则对文件迁移进行限制。

系统监控着数据管理客户端中的I/O队列长度。当其中I/O队列长度比设置的阈值T要高时，则判定前端负载较高。一般来说，I/O响应时间随着I/O队列的长度增长而增加。具体地，通过公式计算得到数据迁移应该等待的时间长度W，W的计算公式如下所示：

W＝E×(L-T)

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种面向文件的海量数据分级存储方法，其特征在于，包括以下步骤：

S1.迁移线程；

S2.接收I/O请求文件；

S3.判断I/O请求优先级；

S4.判断请求文件是否在迁移队列中；

S5.继续迁移；

S401.中断迁移；

S402.本地命中；

S403.访问结束；

2.根据权利要求1所述的一种面向文件的海量数据分级存储方法，其特征在于，所述的步骤S3，当I/O请求优先级高，还包括以下子步骤：

S301.查询请求文件所在地址；

S302.发送访问请求。

3.根据权利要求1所述的一种面向文件的海量数据分级存储方法，其特征在于，还包括与步骤S0，通过计算迁移速率判断文件迁移进行与否；系统监控着数据管理客户端中的I/O队列长度；当其中I/O队列长度比设置的阈值T要高时，则判定前端负载较高，I/O响应时间随着I/O队列的长度增长而增加；所述的迁移速率如下：

W＝E×(L-T)

4.根据权利要求1所述的一种面向文件的海量数据分级存储方法，其特征在于，所述的步骤S404，当请求文件位置处于高性能服务器时，重新判断请求文件性质。

5.根据权利要求4所述的一种面向文件的海量数据分级存储方法，其特征在于，所述的重新判断请求文件性质，当请求文件性质改变，判断请求文件的状态，请求文件处于正在迁移状态，终止迁移，并删除未完成迁移数据；请求文件处于等待迁移状态，终端将请求文件从迁移队列中删除。