CN111427843A - 一种面向文件的海量数据分级存储方法 - Google Patents
一种面向文件的海量数据分级存储方法 Download PDFInfo
- Publication number
- CN111427843A CN111427843A CN202010295660.2A CN202010295660A CN111427843A CN 111427843 A CN111427843 A CN 111427843A CN 202010295660 A CN202010295660 A CN 202010295660A CN 111427843 A CN111427843 A CN 111427843A
- Authority
- CN
- China
- Prior art keywords
- file
- migration
- data
- request
- queue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013508 migration Methods 0.000 claims abstract description 68
- 230000005012 migration Effects 0.000 claims abstract description 68
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013523 data management Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000013500 data storage Methods 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/119—Details of migration of file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/185—Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向文件的海量数据分级存储方法,将存储设备分级为高性能存储层和大容量存储层两个层级,通过软件定义存储的方式,采用一种自动文件价值判别方法将系统中的文件划分为4种不同价值区间的数据,利用文件自动迁移机制和速率控制机制将不同价值区间的数据分别存储到相应成本的存储设备上。本发明通过内部的数据存储调度和迁移调度,以及在业务场景下的数据自动评估方法,实现系统中数据的自动迁移,从而达到在降低数据存储成本的同时保证数据访问的高性能访问的发明目的。
Description
技术领域
本发明涉及计算机领域,主要涉及一种面向文件的海量数据分级存储方法。
背景技术
随着网络技术的发展,数据呈现迅猛的增长态势,根据IDC的调查报告显示,在目前的数据中80%的数据都是非结构化的数据,相较于结构化数据,非结构化数据的增长速度远远高于结构化数据的增长速度。对于激增的非结构化数据,上层应用提出了更高的存储和访问性能要求:高性能、低成本以及高可扩展。因此开发高性能、低价格、可扩展、可管理的存储系统成为一个亟待解决的问题。
在近几年的硬件技术发展中,新型存储设备不断出现,例如SATASSD、PCIeSSD等,可以提供高性能的数据存储和数据访问,但其价格较高。相对而言,传统的硬盘(Hard DiskDevice)性能较差,但价格便宜。另外,许多针对大规模存储系统的研究表明,在所有文件中,只有1%的文件每天使用,而90%的文件几乎不被使用,即文件的访问具有局部性。因此,如果将所有的文件都存储在高性能的存储设备上,虽然可以保证文件的高性能存储和访问,但由于数据量巨大,会导致存储成本急剧上升;而如果将所有文件都存储在大容量的存储设备上,则不能保证系统的整体性能。
目前存在的主要问题:
(1)如果将所有文件都存储在大容量的存储设备上,则不能保证系统的整体性能;
(2)如果将所有的文件都存储在高性能的存储设备上,数据量巨大;
(3)无法区分不同价值区间的数据。
发明内容
针对现有技术中存在的问题,本发明旨在发明一种面向文件的海量数据分级存储方法,其中:
一种面向文件的海量数据分级存储方法,包括以下步骤:
S1.迁移线程;
S2.接收I/O请求文件;
S3.判断I/O请求优先级;
S4.判断请求文件是否在迁移队列中;
S5.继续迁移;
其中,当请求文件在迁移队列中,步骤S4还包括以下子步骤:
S401.中断迁移;
S402.本地命中;
S403.访问结束;
S404.判断请求文件位置处于高性能存储服务器或低速存储服务器。
进一步的,当I/O请求优先级高,还包括以下子步骤:
S301.查询请求文件所在地址;
S302.发送访问请求。
进一步的,还包括与步骤S0,通过计算迁移速率判断文件迁移进行与否;系统监控着数据管理客户端中的I/O队列长度;当其中I/O队列长度比设置的阈值T要高时,则判定前端负载较高,I/O响应时间随着I/O队列的长度增长而增加;所述的迁移速率如下:
通过公式计算得到数据迁移应该等待的时间长度W,W的计算公式如下所示:
其中E是一个常数,L是I/O队列长度,T是设置的阈值。E和T的值是依据经验值得到的。
进一步的,当请求文件位置处于高性能服务器时,重新判断请求文件性质。
进一步的,所述的重新判断请求文件性质,当请求文件性质改变,判断请求文件的状态,请求文件处于正在迁移状态,终止迁移,并删除未完成迁移数据;请求文件处于等待迁移状态,终端将请求文件从迁移队列中删除。
本发明的有益效果:
(1)保证系统的整体性能;
(2)区分不同价值区间的数据;
(3)在业务场景下的数据自动评估方法,实现系统中数据的自动迁移。
附图说明
图1是本发明的数据迁移控制流程图;
图2是本发明的迁移速率控制图。
具体实施方式
针对现有技术中存在的问题,本发明旨在发明一种面向文件的海量数据分级存储方法,其中:一种面向文件的海量数据分级存储方法,包括以下步骤:
S1.迁移线程;
S2.接收I/O请求文件;
S3.判断I/O请求优先级;
S4.判断请求文件是否在迁移队列中;
S5.继续迁移;
其中,当请求文件在迁移队列中,步骤S4还包括以下子步骤:
S401.中断迁移;
S402.本地命中;
S403.访问结束;
S404.判断请求文件位置处于高性能存储服务器或低速存储服务器。
进一步的,当I/O请求优先级高,还包括以下子步骤:
S301.查询请求文件所在地址;
S302.发送访问请求。
进一步的,还包括与步骤S0,通过计算迁移速率判断文件迁移进行与否;系统监控着数据管理客户端中的I/O队列长度;当其中I/O队列长度比设置的阈值T要高时,则判定前端负载较高,I/O响应时间随着I/O队列的长度增长而增加;所述的迁移速率如下:
通过公式计算得到数据迁移应该等待的时间长度W,W的计算公式如下所示:
其中E是一个常数,L是I/O队列长度,T是设置的阈值。E和T的值是依据经验值得到的。
进一步的,当请求文件位置处于高性能服务器时,重新判断请求文件性质。
进一步的,所述的重新判断请求文件性质,当请求文件性质改变,判断请求文件的状态,请求文件处于正在迁移状态,终止迁移,并删除未完成迁移数据;请求文件处于等待迁移状态,终端将请求文件从迁移队列中删除。
为了对本发明的技术特征、目的和效果有更加清楚的理解,先对照附图说明本发明的具体实施方式。
以下结合附图描述根据本发明实施例的海量数据分级存储方法。
图1是根据本发明实例中,数据迁移的控制流程图。迁移队列中的数据状态主要包括等待迁移、正在迁移、已迁移三种状态。等待迁移是指数据以满足迁移条件,但是由于迁移队列已满或按迁移顺序还未轮到的状态;正在迁移是指数据处于迁移队列中,且正在从一级存储设备迁移至另一存储设备的过程中;已迁移是指数据已完全从原有设备中迁移出的状态。
分级存储中数据迁移的同时也会有来自应用程序端的I/O请求,为了保证数据迁移进程的正确执行需要正确处理这些I/O请求和数据的迁移。有来自前台的请求中断时,比较I/O 请求与数据迁移进程的优先级,若优先级高,则需中断数据迁移并保护迀移进程现场,响应和处理I/O请求,处理结束后恢复被中断的数据迁移进程现场,继续执行被中断的数据迁移,反之,则不做任何处理。
图2是根据本发明实例中,迁移速率控制示意图。由于存储系统中I/O访问负载的不确定性,系统使用逻辑上开/关两种状态来调整数据迁移速度。文件迁移进行与否,是依据数据管理客户端中前端应用的负载来确定的。如果前端负载相对较低,则进行数据迁移,如果负载过高,则对文件迁移进行限制。
系统监控着数据管理客户端中的I/O队列长度。当其中I/O队列长度比设置的阈值T要高时,则判定前端负载较高。一般来说,I/O响应时间随着I/O队列的长度增长而增加。具体地,通过公式计算得到数据迁移应该等待的时间长度W,W的计算公式如下所示:
W=E×(L-T)
其中E是一个常数,L是I/O队列长度,T是设置的阈值。E和T的值是依据经验值得到的。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种面向文件的海量数据分级存储方法,其特征在于,包括以下步骤:
S1.迁移线程;
S2.接收I/O请求文件;
S3.判断I/O请求优先级;
S4.判断请求文件是否在迁移队列中;
S5.继续迁移;
其中,当请求文件在迁移队列中,步骤S4还包括以下子步骤:
S401.中断迁移;
S402.本地命中;
S403.访问结束;
S404.判断请求文件位置处于高性能存储服务器或低速存储服务器。
2.根据权利要求1所述的一种面向文件的海量数据分级存储方法,其特征在于,所述的步骤S3,当I/O请求优先级高,还包括以下子步骤:
S301.查询请求文件所在地址;
S302.发送访问请求。
3.根据权利要求1所述的一种面向文件的海量数据分级存储方法,其特征在于,还包括与步骤S0,通过计算迁移速率判断文件迁移进行与否;系统监控着数据管理客户端中的I/O队列长度;当其中I/O队列长度比设置的阈值T要高时,则判定前端负载较高,I/O响应时间随着I/O队列的长度增长而增加;所述的迁移速率如下:
通过公式计算得到数据迁移应该等待的时间长度W,W的计算公式如下所示:
W=E×(L-T)
其中E是一个常数,L是I/O队列长度,T是设置的阈值。E和T的值是依据经验值得到的。
4.根据权利要求1所述的一种面向文件的海量数据分级存储方法,其特征在于,所述的步骤S404,当请求文件位置处于高性能服务器时,重新判断请求文件性质。
5.根据权利要求4所述的一种面向文件的海量数据分级存储方法,其特征在于,所述的重新判断请求文件性质,当请求文件性质改变,判断请求文件的状态,请求文件处于正在迁移状态,终止迁移,并删除未完成迁移数据;请求文件处于等待迁移状态,终端将请求文件从迁移队列中删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295660.2A CN111427843A (zh) | 2020-04-15 | 2020-04-15 | 一种面向文件的海量数据分级存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295660.2A CN111427843A (zh) | 2020-04-15 | 2020-04-15 | 一种面向文件的海量数据分级存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111427843A true CN111427843A (zh) | 2020-07-17 |
Family
ID=71556922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010295660.2A Pending CN111427843A (zh) | 2020-04-15 | 2020-04-15 | 一种面向文件的海量数据分级存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111427843A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858471A (zh) * | 2020-07-24 | 2020-10-30 | 成都成信高科信息技术有限公司 | 一种实时迁移策略 |
CN117193656A (zh) * | 2023-02-27 | 2023-12-08 | 自然资源部信息中心 | 一种数据分级存储迁移流程方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101563A (zh) * | 2007-07-23 | 2008-01-09 | 清华大学 | 基于海量数据分级存储系统的迁移管理方法 |
-
2020
- 2020-04-15 CN CN202010295660.2A patent/CN111427843A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101563A (zh) * | 2007-07-23 | 2008-01-09 | 清华大学 | 基于海量数据分级存储系统的迁移管理方法 |
Non-Patent Citations (2)
Title |
---|
宋世明: "网络文库中海量存储系统的文件分级存储方法与应用研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
李俊杰: "面向海量存储系统的分层存储技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858471A (zh) * | 2020-07-24 | 2020-10-30 | 成都成信高科信息技术有限公司 | 一种实时迁移策略 |
CN117193656A (zh) * | 2023-02-27 | 2023-12-08 | 自然资源部信息中心 | 一种数据分级存储迁移流程方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9984013B2 (en) | Method, controller, and system for service flow control in object-based storage system | |
CN109947668B (zh) | 存储数据的方法和装置 | |
EP3229142B1 (en) | Read cache management method and device based on solid state drive | |
CN111309732B (zh) | 数据处理方法、装置、介质和计算设备 | |
CN101763437B (zh) | 高速缓冲存储实现方法及装置 | |
CN101866359B (zh) | 一种机群文件系统中的小文件存储和访问方法 | |
US9792231B1 (en) | Computer system for managing I/O metric information by identifying one or more outliers and comparing set of aggregated I/O metrics | |
CN111427843A (zh) | 一种面向文件的海量数据分级存储方法 | |
US20210096977A1 (en) | Handling of workload surges in a software application | |
CN111427844A (zh) | 一种面向文件分级存储的数据迁移系统及方法 | |
CN1480850A (zh) | 动态迁移数据的方法及其存储系统 | |
CN107633045A (zh) | 一种云存储服务中租户数据容量的统计方法及其系统 | |
WO2023160276A1 (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN116662020A (zh) | 应用服务动态管理方法、系统、电子设备及存储介质 | |
US11556835B1 (en) | Distributed quantum computing systems | |
CN103150268A (zh) | 一种cdp中的块级数据捕获方法 | |
EP4062624B1 (en) | Managed data export to a remote network from edge devices | |
CN112711564B (zh) | 合并处理方法以及相关设备 | |
WO2022218218A1 (zh) | 数据处理方法、装置、归约服务器及映射服务器 | |
US20120042062A1 (en) | Method and system for partitioning directories | |
US20230169079A1 (en) | Scaling query processing resources for efficient utilization and performance | |
US10067678B1 (en) | Probabilistic eviction of partial aggregation results from constrained results storage | |
CN115002033A (zh) | 一种流量控制方法、装置、设备、存储介质及计算机产品 | |
CN113467721A (zh) | 一种数据删除系统、方法及装置 | |
CN111131441A (zh) | 一种实时文件共享系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200717 |