CN110362277A - 基于混合存储系统的数据分类存储方法 - Google Patents

基于混合存储系统的数据分类存储方法 Download PDF

Info

Publication number
CN110362277A
CN110362277A CN201910652433.8A CN201910652433A CN110362277A CN 110362277 A CN110362277 A CN 110362277A CN 201910652433 A CN201910652433 A CN 201910652433A CN 110362277 A CN110362277 A CN 110362277A
Authority
CN
China
Prior art keywords
file
storage
frequency
indicate
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910652433.8A
Other languages
English (en)
Other versions
CN110362277B (zh
Inventor
陈咸彰
任津廷
刘铎
谭玉娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201910652433.8A priority Critical patent/CN110362277B/zh
Publication of CN110362277A publication Critical patent/CN110362277A/zh
Application granted granted Critical
Publication of CN110362277B publication Critical patent/CN110362277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机数据存储技术中的一种基于混合存储系统的数据分类存储方法,通过提取文件访问特征,并基于人工智能分类模型对文件的访问热度进行分类判别,然后基于文件访问热度选择和各个存储设备剩余容量进行分配存储,能够有效均衡各个存储设备的存储压力,提升应用程序对各个文件的读写访问速度。

Description

基于混合存储系统的数据分类存储方法
技术领域
本发明涉及计算机数据存储技术,更具体地说,是一种基于混合存储系统的数据分类存储方法。
背景技术
随着边缘云计算的快速发展,应用程序对存储提出了更高的性能要求,并导致存储系统需要处理各种来源的数据。不同来源的数据在大小、滞留时间、读写频率等方面拥有不同的特性,其对存储介质的要求也是多样的。混合存储系统有效地处理这种环境下数据的多样要求。为了提高混合存储性能,除了需要合理的地址管理、高效的软件栈以及稳定的一致性策略,关键问题是如何区分数据冷热,并分配在不同的存储介质上。
现有技术中,计算机对文件的管理大多采用用户自己选定的存储路径或者计算机默认的存储路径,针对混合存储系统而言,缺乏有效的调整机制。
发明内容
针对现有技术中存在的问题,本发明提出一种基于混合存储系统的数据分类存储方法,该方法能够基于系统中文件的访问热度,自适应调整文件的存储位置,使其能够更好的满足应用程序的快速读写需求。
为了实现上述目的,本发明所采用的具体技术方案如下:
一种基于混合存储系统的数据分类存储方法,其关键在于包括以下步骤:
S1:采集文件访问特征的步骤;
S2:基于步骤S1采集的文件访问特征进行文件热度分类的步骤;
S3:基于步骤S2所得的文件热度分类信息并结合各个存储设备剩余容量进行分配存储的步骤;
其中,步骤S2中采用神经网络模型、支持向量机模型或朴素贝叶斯分类模型中的任何一种人工智能分类模型实现。
可选地,步骤S1中采集的文件访问特征包括文件读偏移、文件写偏移、文件读长度、文件写长度、文件读跨度以及文件写跨度六个特征量。
可选地,步骤S2中采用的人工智能分类模型在训练时,其训练样本的文件热度按照以下方式计算:
Score=frequencyrw×frequencyw
其中:avg_frequencyw表示文件平均写频率,avg_frequencyr表示文件平均读频率,write_latencyi表示第i个存储设备的写延迟,read_latencyi表示第i个存储设备的读延迟,ci表示第i个存储设备在整个系统中的容量比例,n表示整个系统中存储设备的个数,ηw表示文件写频率表的权值,frequencyr表示当前文件读频率,frequencyw表示当前文件写频率,Score表示当前文件热度值。
可选地,系统中各个存储设备包括相变存储器、固态硬盘或硬盘驱动器中的至少两种组合。
可选地,步骤S3中采用贪心算法分配文件,先根据文件目前所处的介质以及被分配的介质,计算出文件移动所需要的开销;然后处理目标位置为读写性能最低介质的文件,按移动开销从小到大移动文件;之后再按介质性能依次处理文件直到所有文件处理完毕或当前空余容量不足以进行数据分配为止。
可选地,步骤S1中按照预定时间间隔采集一段时间内的文件访问特征,并以其统计平均值作为步骤S2中人工智能分类模型的输入量进行文件热度分类。
本发明的显著效果是:
本发明通过提取文件访问特征,并基于人工智能分类模型对文件的访问热度进行分类判别,然后基于文件访问热度选择和各个存储设备剩余容量进行分配存储,能够有效均衡各个存储设备的存储压力,提升应用程序对各个文件的读写访问速度。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的系统原理框图。
具体实施方式
为了使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本实施例提供一种基于混合存储系统的数据分类存储方法,包括以下步骤:
S1:采集文件访问特征的步骤;
本步骤将采集文件最近一段时间内的访问特征,本方法选取了六个特征作为文件访问特征采集的目标,分别是文件读偏移、文件写偏移、文件读长度、文件写长度、文件读跨度以及文件写跨度。读偏移和写偏移代表文件访问时的偏移量,读长度与写长度则表示文件访问大小,读跨度与写跨度则代表每次读写与上次读写的偏移量的绝对差。这六个特征将按文件为单位进行采集,每次采集一段时间内所有访问文件的访问情况的平均值。
为了记录这六个特征,本实施例中修改了操作系统中的“do filp open”和“vfswrite”函数,记录操作系统挂载以来的所有文件访问特征,并输出到文件中。
S2:基于步骤S1采集的文件访问特征进行文件热度分类的步骤;
本步骤可以采用神经网络模型、支持向量机模型或朴素贝叶斯分类模型中的任何一种人工智能分类模型实现,可以根据用户需求,选取合适的模型。比如针对数据中心等计算与存储资源充足的环境,可选取神经网络模型进行文件分类,而针对嵌入式设备等资源受限的环境下,可选择朴素贝叶斯分类器,而支持向量机模型则作为两种模型的折中方案。在三个模型中,神经网络模型为三层感知机(输入层、隐含层、输出层),隐含层中神精元的数目根据分类目标的多少有两种配置,如果分类目标有三种及以下,将包含有16个神经元,如果超出三种目标则包含32个神经元。输入层的神经元的个数与文件访问特征数目一致,输出层则与分类目标数目一致(即存储设备中不同存储介质的数目)。支撑向量机选取RBF函数作为其核函数。同时,SVM与朴素贝叶斯的分类目标的设置与神经网络相同。
在模型训练时,需要预先构建训练样本,本例中仍然用文件读偏移、文件写偏移、文件读长度、文件写长度、文件读跨度以及文件写跨度六个特征量作为训练样本的输入向量,以文件热度作为目标,且预先按照以下方式计算出各个文件热度值:
Score=frequencyrw×frequencyw
其中:avg_frequencyw表示文件平均写频率,avg_frequencyr表示文件平均读频率,write_latencyi表示第i个存储设备的写延迟,read_latencyi表示第i个存储设备的读延迟,ci表示第i个存储设备在整个系统中的容量比例,n表示整个系统中存储设备的个数,ηw表示文件写频率表的权值,frequencyr表示当前文件读频率,frequencyw表示当前文件写频率,Score表示当前文件热度值。
本例中,系统中存储设备包括相变存储设备(PCM)、固态硬盘(SSD)和硬盘驱动器(HDD)三种形式,各自的性能特征分别为表1所示:
表1:不同类型存储器特性
类型 读延迟 写延迟 密度 读能耗 写能耗
PCM 48ns 150ns 0.00380 2pJ/bit 19.2pJ/bit
SSD 25us 200us 0.00210 250pJ/bit 250pJ/bit
HDD 3ms 3ms 0.00006 2500pJ/bit 2500pJ/bit
具体实施时,采用“FileBench”工具进行实际测试,该工具可以生成存储访问基准程序。本实施例中将取样采集文件系统挂载后的15000条I/O信息,在计算文件热度后为在此中的每个访问文件打上标签形成训练集。选取前10000条I/O信息作为训练集进行模型训练,将后5000条I/O信息作为测试集,以六个特征作为输入,进行模型分类准确度测试。
S3:基于步骤S2所得的文件热度分类信息并结合各个存储设备剩余容量进行分配存储的步骤;
本实施例中采用贪心算法分配文件,先根据文件目前所处的介质以及被分配的介质,计算出文件移动所需要的开销;然后处理目标位置为读写性能最低介质的文件,按移动开销从小到大移动文件;之后再按介质性能依次处理文件直到所有文件处理完毕或当前空余容量不足以进行数据分配为止。
综上所述,本实施例提供的一种基于混合存储系统的数据分类存储方法,充分运用了各种存储设备的处理能力,均衡了文件处理的压力,有效提升了系统存储文件的访问性能。
最后应当说明的是,上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (6)

1.一种基于混合存储系统的数据分类存储方法,其特征在于包括以下步骤:
S1:采集文件访问特征的步骤;
S2:基于步骤S1采集的文件访问特征进行文件热度分类的步骤;
S3:基于步骤S2所得的文件热度分类信息并结合各个存储设备剩余容量进行分配存储的步骤;
其中,步骤S2中采用神经网络模型、支持向量机模型或朴素贝叶斯分类模型中的任何一种人工智能分类模型实现。
2.根据权利要求1所述的基于混合存储系统的数据分类存储方法,其特征在于:步骤S1中采集的文件访问特征包括文件读偏移、文件写偏移、文件读长度、文件写长度、文件读跨度以及文件写跨度六个特征量。
3.根据权利要求1或2所述的基于混合存储系统的数据分类存储方法,其特征在于:步骤S2中采用的人工智能分类模型在训练时,其训练样本的文件热度按照以下方式计算:
Score=frequencyrw×frequencyw
其中:avg_frequencyw表示文件平均写频率,avg_frequencyr表示文件平均读频率,write_latencyi表示第i个存储设备的写延迟,read_latencyi表示第i个存储设备的读延迟,ci表示第i个存储设备在整个系统中的容量比例,n表示整个系统中存储设备的个数,ηw表示文件写频率表的权值,frequencyr表示当前文件读频率,frequencyw表示当前文件写频率,Score表示当前文件热度值。
4.根据权利要求3所述的基于混合存储系统的数据分类存储方法,其特征在于:系统中各个存储设备包括相变存储器、固态硬盘或硬盘驱动器中的至少两种组合。
5.根据权利要求1所述的基于混合存储系统的数据分类存储方法,其特征在于:步骤S3中采用贪心算法分配文件,先根据文件目前所处的介质以及被分配的介质,计算出文件移动所需要的开销;然后处理目标位置为读写性能最低介质的文件,按移动开销从小到大移动文件;之后再按介质性能依次处理文件直到所有文件处理完毕或当前空余容量不足以进行数据分配为止。
6.根据权利要求1所述的基于混合存储系统的数据分类存储方法,其特征在于:步骤S1中按照预定时间间隔采集一段时间内的文件访问特征,并以其统计平均值作为步骤S2中人工智能分类模型的输入量进行文件热度分类。
CN201910652433.8A 2019-07-19 2019-07-19 基于混合存储系统的数据分类存储方法 Active CN110362277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910652433.8A CN110362277B (zh) 2019-07-19 2019-07-19 基于混合存储系统的数据分类存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910652433.8A CN110362277B (zh) 2019-07-19 2019-07-19 基于混合存储系统的数据分类存储方法

Publications (2)

Publication Number Publication Date
CN110362277A true CN110362277A (zh) 2019-10-22
CN110362277B CN110362277B (zh) 2021-03-02

Family

ID=68220295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910652433.8A Active CN110362277B (zh) 2019-07-19 2019-07-19 基于混合存储系统的数据分类存储方法

Country Status (1)

Country Link
CN (1) CN110362277B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104365A (zh) * 2019-11-25 2020-05-05 深圳市网心科技有限公司 一种文件部署方法、装置、设备及可读存储介质
CN114115730A (zh) * 2021-11-02 2022-03-01 北京银盾泰安网络科技有限公司 一种应用容器存储引擎平台
WO2023030227A1 (zh) * 2021-08-31 2023-03-09 华为技术有限公司 一种数据处理方法、装置及系统
CN117991997A (zh) * 2024-04-07 2024-05-07 深圳市铨兴科技有限公司 一种磁盘存储负载均衡的方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203749A (zh) * 2010-12-31 2011-09-28 华为技术有限公司 多级缓存下固态硬盘的写方法及装置
US20120278569A1 (en) * 2011-04-26 2012-11-01 Hitachi, Ltd. Storage apparatus and control method therefor
CN104376094A (zh) * 2014-11-24 2015-02-25 浪潮电子信息产业股份有限公司 一种考虑访问随机性的文件分级存储方法和系统
US20150149709A1 (en) * 2013-11-27 2015-05-28 Alibaba Group Holding Limited Hybrid storage
CN106528608A (zh) * 2016-09-27 2017-03-22 中国电力科学研究院 一种云架构下的电网gis数据冷热存储方法和系统
CN109033298A (zh) * 2018-07-14 2018-12-18 北方工业大学 一种在异构hdfs集群下的数据分配方法
CN109710587A (zh) * 2018-12-29 2019-05-03 优刻得科技股份有限公司 基于Ceph的数据分层方法、系统、设备和介质
CN109901800A (zh) * 2019-03-14 2019-06-18 重庆大学 一种混合内存系统及其操作方法
CN110019017A (zh) * 2018-04-27 2019-07-16 中国科学院高能物理研究所 一种基于访问特征的高能物理文件存储方法
CN110019939A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 视频热度预测方法、装置、终端设备及介质
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102203749A (zh) * 2010-12-31 2011-09-28 华为技术有限公司 多级缓存下固态硬盘的写方法及装置
US20120278569A1 (en) * 2011-04-26 2012-11-01 Hitachi, Ltd. Storage apparatus and control method therefor
US20150149709A1 (en) * 2013-11-27 2015-05-28 Alibaba Group Holding Limited Hybrid storage
US20180307413A1 (en) * 2013-11-27 2018-10-25 Alibaba Group Holding Limited Control of storage of data in a hybrid storage system
CN104376094A (zh) * 2014-11-24 2015-02-25 浪潮电子信息产业股份有限公司 一种考虑访问随机性的文件分级存储方法和系统
CN106528608A (zh) * 2016-09-27 2017-03-22 中国电力科学研究院 一种云架构下的电网gis数据冷热存储方法和系统
CN110019939A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 视频热度预测方法、装置、终端设备及介质
CN110019017A (zh) * 2018-04-27 2019-07-16 中国科学院高能物理研究所 一种基于访问特征的高能物理文件存储方法
CN109033298A (zh) * 2018-07-14 2018-12-18 北方工业大学 一种在异构hdfs集群下的数据分配方法
CN109710587A (zh) * 2018-12-29 2019-05-03 优刻得科技股份有限公司 基于Ceph的数据分层方法、系统、设备和介质
CN109901800A (zh) * 2019-03-14 2019-06-18 重庆大学 一种混合内存系统及其操作方法
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104365A (zh) * 2019-11-25 2020-05-05 深圳市网心科技有限公司 一种文件部署方法、装置、设备及可读存储介质
WO2023030227A1 (zh) * 2021-08-31 2023-03-09 华为技术有限公司 一种数据处理方法、装置及系统
CN114115730A (zh) * 2021-11-02 2022-03-01 北京银盾泰安网络科技有限公司 一种应用容器存储引擎平台
CN114115730B (zh) * 2021-11-02 2023-06-13 北京银盾泰安网络科技有限公司 一种应用容器存储引擎平台
CN117991997A (zh) * 2024-04-07 2024-05-07 深圳市铨兴科技有限公司 一种磁盘存储负载均衡的方法和装置

Also Published As

Publication number Publication date
CN110362277B (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN110362277A (zh) 基于混合存储系统的数据分类存储方法
US11086523B2 (en) Automatic tiering of storage using dynamic grouping
CN105653591B (zh) 一种工业实时数据分级存储及迁移方法
WO2017076184A1 (zh) 分布式文件系统中的数据写入方法和装置
CN106055277A (zh) 一种去中心化的分布式异构存储系统数据分布方法
CN101013387A (zh) 基于对象存储设备的负载平衡方法
US20140181042A1 (en) Information processor, distributed database system, and backup method
CN107783734A (zh) 一种基于超融合存储系统的资源分配方法、装置及终端
CN105681052B (zh) 一种用于数据中心分布式文件存储的节能方法
CN109033298A (zh) 一种在异构hdfs集群下的数据分配方法
CN107506146A (zh) 一种数据存储系统
US20230229308A1 (en) Storage device read-disturb-based block read temperature utilization system
Mai et al. Dynamic Data Migration in Hybrid Main Memories for In‐Memory Big Data Storage
CN106547472B (zh) 存储阵列管理方法及装置
CN110019017B (zh) 一种基于访问特征的高能物理文件存储方法
CN106844491A (zh) 一种临时数据的写入、读取方法及写入、读取装置
US8666923B2 (en) Semantic network clustering influenced by index omissions
Khan et al. Towards Cloud Storage Tier Optimization with Rule-Based Classification
Li et al. Dynamic consolidation for continual learning
US11868223B2 (en) Read-disturb-based read temperature information utilization system
US20190057023A1 (en) Optimizing dram memory based on read-to-write ratio of memory access latency
US20230244410A1 (en) Read-disturb-based read temperature information access system
US11989441B2 (en) Read-disturb-based read temperature identification system
US11922035B2 (en) Read-disturb-based read temperature adjustment system
US11928354B2 (en) Read-disturb-based read temperature determination system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant