CN117908804B - 基于作业感知的文件条带化方法、装置、设备及介质 - Google Patents
基于作业感知的文件条带化方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117908804B CN117908804B CN202410310701.9A CN202410310701A CN117908804B CN 117908804 B CN117908804 B CN 117908804B CN 202410310701 A CN202410310701 A CN 202410310701A CN 117908804 B CN117908804 B CN 117908804B
- Authority
- CN
- China
- Prior art keywords
- job
- striping
- load
- object storage
- write
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000008447 perception Effects 0.000 title abstract description 5
- 230000003068 static effect Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 abstract description 4
- 101710150311 Dolichyl-phosphooligosaccharide-protein glycotransferase Proteins 0.000 description 27
- 101710202156 Dolichyl-phosphooligosaccharide-protein glycotransferase 1 Proteins 0.000 description 27
- 101710202150 Dolichyl-phosphooligosaccharide-protein glycotransferase 2 Proteins 0.000 description 27
- 238000005457 optimization Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0643—Management of files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于作业感知的文件条带化方法、装置、设备及介质,通过对存储系统的I/O分布以及作业I/O模式探索得出确定适合超级计算机的作业可条带优化的标准,根据作业是否满足可条带优化条件采用静、动态文件条带。本发明根据用户的角度来采用静、动态文件条带,可以较好地使用用户新提交的作业,以及容错恢复措施。
Description
技术领域
本发明属于计算机数据处理技术领域,尤其涉及基于作业感知的文件条带化方法、装置、设备及介质。
背景技术
随着超级计算机的迅速发展,I/O瓶颈成为制约其性能提升的一个重要因素。传统的文件系统经常会因为I/O操作的限制导致系统性能无法得到充分发挥,从而影响了超级计算机的应用性能。随着科学技术的不断发展,超级计算机的计算能力和数据处理量不断增加,对I/O性能的要求也越来越高。
传统的文件系统通常采用非条带化设置,无法充分利用并行文件系统的I/O能力,导致超级计算机I/O效率无法提升的问题。并行文件系统是一种分布式文件系统,可以将存储设备分布在多个结点上,提供更高的存储容量和更快的数据传输速度。但是,由于不同作业的I/O模式对OST的使用情况也有所不同,使得I/O请求无法调用未被充分利用的OST,从而导致系统的并行I/O性能下降。
为了解决这一问题,需要一种能够适应不同作业I/O模式的文件条带化方法,来提升超级计算机的I/O性能。传统的文件条带化方法无法很好地适应不同作业的I/O模式,OST的利用率不足,并且没有容错恢复机制,因此,尽管文件条带化可以提高存储系统的性能和可伸缩性,但在实际应用中,许多超级计算机默认不使用文件条带化。
发明内容
本发明的目的在于,为克服现有技术缺陷,提供了基于作业感知的文件条带化方法、装置、设备及介质, 通过对存储系统的I/O分布以及作业I/O模式探索得出确定适合超级计算机的作业可条带优化的标准,根据用户的角度来采用静、动态文件条带。
本发明目的通过下述技术方案来实现:
一种基于作业感知的文件条带化方法,所述方法包括:
对读写I/O的负载和行为模式进行分析,确定条带化条件;
判断作业是否满足所述条带化条件,若满足则进一步判断所述作业是否能够完全条带化;
若所述作业能够完全条带化,则进行静态条带;若所述作业不能够完全条带化,则进行动态条带;
所述动态条带包括:
对所述作业进行预测,对预测为可条带化的作业提交路径的祖父目录进行条带化设置。
进一步的,所述对读写I/O的负载和行为模式进行分析,确定条带化条件具体包括:
获取并分析一段时间内对象存储目标的整体I/O负载和瞬时I/O负载;
统计所有作业在整个生命周期中使用的对象存储目标数量并计算所述对象存储目标数量占存储系统对象存储目标总数的比例;
通过比较整体I/O负载和瞬时I/O负载以及观察作业I/O的统计分布确定条带化条件。
进一步的,所述整体I/O负载的分析具体包括:
计算写I/O流量和写I/O次数在每个对象存储目标中的占比及写I/O流量和写I/O次数在所有对象存储目标中的平均占比。
进一步的,所述瞬时I/O负载的分析具体包括:
从整体的I/Otrace数据中,保留前X%的I/Otrace,然后统计单位时间间隔内前Y%最繁忙对象存储目标的写I/O流量以及对象存储目标服务的计算结点数量,观察所有时间间隔内前Y%最繁忙对象存储目标的写I/O流量以及对象存储目标服务的计算结点数量分布,计算出前Y%最繁忙对象存储目标承担单位时间间隔内I/O流量以及服务的计算结点数量的平均值,其中,X%、Y%为预设的统计百分比。
进一步的,所述对所述作业进行预测包括:
利用动态条带预测模型对所述作业进行预测,动态条带预测模型使用作业日志中在作业运行前搜集到的作业属性作为预测特征。
进一步的,所述动态条带预测模型还包括:
对作业名称和作业提交路径进行聚类,根据字符保留优先级过滤掉作业名称中的冗余信息,具有相同保留信息的作业名称属于同一类。
进一步的,所述动态条带预测模型的预测标签分别为可条带优化的作业和非条带优化的作业,作业日志按照作业ID排序,分为训练集和测试集,通过过采样方式训练模型。
另一方面,本发明还提供了一种基于作业感知的文件条带化装置,所述装置包括:
条带化条件确定模块,所述条带化条件确定模块对读写I/O的负载和行为模式进行分析,确定条带化条件;
条带化模块,所述条带化模块判断作业是否满足所述条带化条件,若满足则进一步判断所述作业是否能够完全条带化;
若所述作业能够完全条带化,则进行静态条带;若所述作业不能够完全条带化,则进行动态条带;
所述动态条带包括:
对所述作业进行预测,对预测为可条带化的作业提交路径的祖父目录进行条带化设置。
另一方面,本发明还提供了一种计算机设备,计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述的任意一种基于作业感知的文件条带化方法。
另一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述的任意一种基于作业感知的文件条带化方法。
本发明的有益效果在于:
(1)本发明通过对存储系统的I/O分布以及作业I/O模式探索得出确定适合超级计算机的作业可条带优化的标准,并根据用户的角度来采用静、动态文件条带,可以较好地使用用户新提交的作业,以及容错恢复措施。
(2)本发明基于对作业名和提交路径聚类来预测作业是否可条带优化,采用树结构模型,简单高效,适应超级计算机中对作业优化的及时性问题。
附图说明
图1是本发明实施例作业感知条带优化框架示意图;
图2是本发明实施例基于作业感知的文件条带化装置结构框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统的文件条带化方法无法很好地适应不同作业的I/O模式,OST的利用率不足,并且没有容错恢复机制,因此,尽管文件条带化可以提高存储系统的性能和可伸缩性,但在实际应用中,许多超级计算机默认不使用文件条带化。
为了解决上述技术问题,提出了本发明基于作业感知的文件条带化方法、装置、设备及介质的下述各个实施例。
实施例1
一个并行文件系统包含多个对象存储目标(Object Storage Targets, OST)。当写入文件时,一个文件会被分成多个数据条带,并将每个数据条带写入不同的OST。在超级计算机中采用文件条带化技术可以有效地调用未被充分利用的OST,提高整个系统的性能和效率。
本实施例提供了一种应用于超级计算机的条带化方法,具体包括以下步骤:
1、读/写I/O分析
(1)分析OST的整体I/O负载和瞬时I/O负载
存储系统整体I/O负载是指在一段长时间(如一个月)每一个OST的上读/写I/O流量分布,观察存储系统的I/O负载均衡状况。其次,观察存储系统读/写I/O流量和读/写I/O次数构成,主要观察写I/O流量以及写I/O次数在每个OST中占比,计算写I/O流量以及写I/O次数在所有OST的平均占比。
瞬时I/O负载是指按照单位时间间隔内前10%最繁忙OST的写I/O流量以及OST服务的计算结点数量情况。具体操作是,先从整体的I/Otrace数据中,保留前90%的I/Otrace,然后统计单位时间间隔内前10%最繁忙OST的写I/O流量以及OST服务的计算结点数量,观察所有时间间隔内这前10%最繁忙OST的写I/O流量以及OST服务的计算结点数量分布,计算出前10%最繁忙OST承担该单位时间间隔内I/O流量以及服务的计算结点数量的平均值。
整体I/O负载和瞬时I/O负载这对确定优化写I/O操作的条带化策略具有指导意义,整体I/O负载中写I/O负载超过80%,说明文件条带化对提高存储系统I/O效率影响较大;瞬时I/O负载超过80%,说明存储系统负载极度不均匀,少数OST承担大量的写I/O负载,其余OST未被充分利用,此时存储系统需要进行文件条带化。
(2)分析作业的I/O行为模式
统计所有作业在其整个生命周期中使用的OST数量,并计算该数量占存储系统OST总数的比例。本实施例将作业使用的OST数量的比例划分为六个区间:(0, 0.1]、(0.1,0.3]、(0.3, 0.5]、(0.5, 0.7]、(0.7, 0.9]和(0.9, 1],观察每个区间的作业频数分布情况。
同时,将写I/O流量划分为五个区间:(0, 1KB]、(1KB, 1MB]、(1MB, 1GB]、(1GB,1TB]和1TB+,这些区间中作业的分布情况,观察每个区间的作业频数分布情况。
文件条带化会增加存储系统服务的客户端连接数,为了保证系统的稳定性,因此文件条带化的作业属于少数作业,通过观察作业的I/O行为模式的分布,确定可条带优化作业的判定条件。当作业在使用的OST的数量比例的频数高于写I/O流量低于1MB的作业频数15%时,以此OST的数量比例作为可条带优化作业使用OST数量比例的最低限度。一般来说,写I/O流量低于1MB的作业由于I/O量太小,不适合文件条带化,同时本实施例将作业在整个生命周期中90%流量集中在低于20%的OST上视为可条带优化的作业。本实施例对于作业条带配置定为条带大小为1MB,条带计数为4。
2.作业感知条带优化
参照图1,如图1所示是本实施例作业感知条带优化框架示意图。本实施例中的作业感知文件条带优化主要分为两个部分,第一部分主要是通过I/Otrace的分析和探索,同时考虑系统稳定性确定最适合超级计算机存储系统的条带优化条件,若作业符合条带优化的条件,则需进一步判断用户提交的作业是否可完全条带优化。若用户的作业均可以条带优化,则进行静态条带对用户的主目录进行条带化设置;若用户的作业不是完全可条带优化,则进行动态条带,动态条带依赖于预测模型对可条带优化作业进行预测。此外,在动态条带过程中,只对预测为可条带优化的作业提交路径的祖父目录进行条带化设置,以确保能够对当前作业写入相关文件条带化。
作为一种实施方式,为了避免对后续作业的错误影响,本实施例会在作业完成后及时恢复默认设置。
动态条带预测模型使用Slurm作业日志中可以在作业运行前搜集到的作业属性作为预测特征,表1展示了所使用特征的相关介绍。
表1 预测模型的输入特征
其中,需要对作业名和作业提交路径进行聚类操作,本实施例基于字符优先级进行聚类,具体方法如下:
作业名称和作业路径的由字母(Letters, L)、特殊字符(Special Character,SC)和数字(Number, N)构成。作业名称构成模式主要分为三种情况:
字母模式:L, L+SC, L+N, L+SC+N
特殊字符模式:SC, SC+N
数字模式:N
根据字符保留优先级过滤掉工作名称中的冗余信息:字母>特殊字符>数字。其中,对于仅由数字组成的作业名称,作业名称将转换为作业名称字符的长度。保留的作业名称信息如下:
字母模式:L+SC,
示例:A0945-B97 → A-B
特殊字符模式:SC
示例:2021+36=2057 → +=
数字模式:N
示例:83721093 → 8
最后,具有相同保留信息的作业名称属于同一类。
尽管提交路径和作业名的构成部分相同,但提交路径的构成模式只有字母模式。不同之处在于,提交路径具有层次信息,并且提交路径的构成长度比作业名称长得多。因此,只在提交路径中保留字母和特殊字符,并将所有字母转换为小写,这样既保留了提交路径的层次信息,也保留了提交路径的主要语义信息。最后,将具有相同保留信息的提交路径分为同一类。
本实施例预测标签分别为可条带优化的作业和非条带优化的作业。作业日志按照作业ID(JobID)升序排序,分为训练集和测试集,训练集由70%的数据组成,测试集由30%的数据组成。使用预处理过后的特征,即UID、ReqCPUS、NNode、Submit、JobName和Path。其中,JobName和Path是聚类后的特征,并使用哈希编码进行编码。使用随机森林(RandomForest, RF)通过过采样方式训练模型并测试其预测性能。
实施例2
参照图2,如图2所示是本实施例基于作业感知的文件条带化装置结构框图,该装置具体包括以下结构:
条带化条件确定模块,条带化条件确定模块对读写I/O的负载和行为模式进行分析,确定条带化条件;
条带化模块,条带化模块判断作业是否满足条带化条件,若满足则进一步判断作业是否能够完全条带化;
若作业能够完全条带化,则进行静态条带;若作业不能够完全条带化,则进行动态条带;
动态条带包括:
对作业进行预测,对预测为可条带化的作业提交路径的祖父目录进行条带化设置。
实施例3
本优选实施例提供了一种计算机设备,该计算机设备可以实现本申请实施例所提供的基于作业感知的文件条带化方法任一实施例中的步骤,因此,可以实现本申请实施例所提供的基于作业感知的文件条带化方法的有益效果,详见前面的实施例,在此不再赘述。
实施例4
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的基于作业感知的文件条带化方法中任一实施例的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一基于作业感知的文件条带化方法实施例中的步骤,因此,可以实现本发明实施例所提供的任一基于作业感知的文件条带化方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于作业感知的文件条带化方法,其特征在于,所述方法包括:
对读写I/O的负载和行为模式进行分析,确定条带化条件,具体包括:
获取并分析一段时间内对象存储目标的整体I/O负载和瞬时I/O负载;
统计所有作业在整个生命周期中使用的对象存储目标数量并计算所述对象存储目标数量占存储系统对象存储目标总数的比例;
通过比较整体I/O负载和瞬时I/O负载以及观察作业I/O的统计分布确定条带化条件;
条带化条件为:当整体 I/O 负载中写 I/O 负载超过第一预设比例,瞬时 I/O 负载超过第二预设比例时,存储系统需要进行文件条带化;
将作业在整个生命周期中 90%流量集中在低于 20%的对象存储目标上视为可条带优化的作业;
判断作业是否满足所述条带化条件,若满足则进一步判断所述作业是否能够完全条带化;
若所述作业能够完全条带化,则进行静态条带;若所述作业不能够完全条带化,则进行动态条带;
所述动态条带包括:
对所述作业进行预测,对预测为可条带化的作业提交路径的祖父目录进行条带化设置。
2.如权利要求1所述的基于作业感知的文件条带化方法,其特征在于,所述整体I/O负载的分析具体包括:
计算写I/O流量和写I/O次数在每个对象存储目标中的占比及写I/O流量和写I/O次数在所有对象存储目标中的平均占比。
3.如权利要求1所述的基于作业感知的文件条带化方法,其特征在于,所述瞬时I/O负载的分析具体包括:
从整体的I/Otrace数据中,保留前X%的I/Otrace,然后统计单位时间间隔内前Y%最繁忙对象存储目标的写I/O流量以及对象存储目标服务的计算结点数量,观察所有时间间隔内前Y%最繁忙对象存储目标的写I/O流量以及对象存储目标服务的计算结点数量分布,计算出前Y%最繁忙对象存储目标承担单位时间间隔内I/O流量以及服务的计算结点数量的平均值,其中,X%、Y%为预设的统计百分比。
4.如权利要求1所述的基于作业感知的文件条带化方法,其特征在于,所述对所述作业进行预测包括:
利用动态条带预测模型对所述作业进行预测,动态条带预测模型使用作业日志中在作业运行前搜集到的作业属性作为预测特征。
5.如权利要求4所述的基于作业感知的文件条带化方法,其特征在于,所述动态条带预测模型还包括:
对作业名称和作业提交路径进行聚类,根据字符保留优先级过滤掉作业名称中的冗余信息,具有相同保留信息的作业名称属于同一类。
6.如权利要求4或5任一所述的基于作业感知的文件条带化方法,其特征在于,所述动态条带预测模型的预测标签分别为可条带优化的作业和非条带优化的作业,作业日志按照作业ID排序,分为训练集和测试集,通过过采样方式训练模型。
7.一种基于作业感知的文件条带化装置,其特征在于,所述装置包括:
条带化条件确定模块,所述条带化条件确定模块对读写I/O的负载和行为模式进行分析,确定条带化条件,具体包括:
获取并分析一段时间内对象存储目标的整体I/O负载和瞬时I/O负载;
统计所有作业在整个生命周期中使用的对象存储目标数量并计算所述对象存储目标数量占存储系统对象存储目标总数的比例;
通过比较整体I/O负载和瞬时I/O负载以及观察作业I/O的统计分布确定条带化条件;
条带化条件为:当整体 I/O 负载中写 I/O 负载超过第一预设比例,瞬时 I/O 负载超过第二预设比例时,存储系统需要进行文件条带化;将作业在整个生命周期中 90%流量集中在低于 20%的对象存储目标上视为可条带优化的作业;
条带化模块,所述条带化模块判断作业是否满足所述条带化条件,若满足则进一步判断所述作业是否能够完全条带化;
若所述作业能够完全条带化,则进行静态条带;若所述作业不能够完全条带化,则进行动态条带;
所述动态条带包括:
对所述作业进行预测,对预测为可条带化的作业提交路径的祖父目录进行条带化设置。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1-6任一项所述的基于作业感知的文件条带化方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1-6任一项所述的基于作业感知的文件条带化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410310701.9A CN117908804B (zh) | 2024-03-19 | 2024-03-19 | 基于作业感知的文件条带化方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410310701.9A CN117908804B (zh) | 2024-03-19 | 2024-03-19 | 基于作业感知的文件条带化方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117908804A CN117908804A (zh) | 2024-04-19 |
CN117908804B true CN117908804B (zh) | 2024-05-28 |
Family
ID=90686187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410310701.9A Active CN117908804B (zh) | 2024-03-19 | 2024-03-19 | 基于作业感知的文件条带化方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117908804B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9569459B1 (en) * | 2014-03-31 | 2017-02-14 | Amazon Technologies, Inc. | Conditional writes at distributed storage services |
US11093139B1 (en) * | 2019-07-18 | 2021-08-17 | Pure Storage, Inc. | Durably storing data within a virtual storage system |
CN113272781A (zh) * | 2019-01-08 | 2021-08-17 | 国际商业机器公司 | 通过使用工作负载特性在存储层之间传输数据来提高数据性能 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195760B2 (en) * | 2001-01-11 | 2012-06-05 | F5 Networks, Inc. | File aggregation in a switched file system |
US8775868B2 (en) * | 2010-09-28 | 2014-07-08 | Pure Storage, Inc. | Adaptive RAID for an SSD environment |
US9772787B2 (en) * | 2014-03-31 | 2017-09-26 | Amazon Technologies, Inc. | File storage using variable stripe sizes |
US10372685B2 (en) * | 2014-03-31 | 2019-08-06 | Amazon Technologies, Inc. | Scalable file storage service |
-
2024
- 2024-03-19 CN CN202410310701.9A patent/CN117908804B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9569459B1 (en) * | 2014-03-31 | 2017-02-14 | Amazon Technologies, Inc. | Conditional writes at distributed storage services |
CN113272781A (zh) * | 2019-01-08 | 2021-08-17 | 国际商业机器公司 | 通过使用工作负载特性在存储层之间传输数据来提高数据性能 |
US11093139B1 (en) * | 2019-07-18 | 2021-08-17 | Pure Storage, Inc. | Durably storing data within a virtual storage system |
Also Published As
Publication number | Publication date |
---|---|
CN117908804A (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107734052B (zh) | 面向组件依赖的负载均衡容器调度方法 | |
CN105653591B (zh) | 一种工业实时数据分级存储及迁移方法 | |
US5852818A (en) | Non-recursive method for parameter evaluation within an information management system | |
US8209511B2 (en) | Storage management apparatus, a storage management method and a storage management program | |
US7305536B2 (en) | Storage system capable of relocating data | |
WO2020134364A1 (zh) | 一种虚拟机迁移方法、云计算管理平台和存储介质 | |
US20140331235A1 (en) | Resource allocation apparatus and method | |
CN110096350B (zh) | 基于集群节点负载状态预测的冷热区域划分节能存储方法 | |
CN108595254B (zh) | 一种查询调度方法 | |
CN107291539B (zh) | 基于资源重要程度的集群程序调度方法 | |
CN103077197A (zh) | 一种数据存储方法装置 | |
CN118331513B (zh) | 一种数据智能动态调度方法、装置和计算机设备 | |
WO2024114728A1 (zh) | 一种异构处理器及相关调度方法 | |
CN117908804B (zh) | 基于作业感知的文件条带化方法、装置、设备及介质 | |
CN104376094A (zh) | 一种考虑访问随机性的文件分级存储方法和系统 | |
CN109766056A (zh) | 一种存储阵列控制器io队列调度方法与装置 | |
CN116910314A (zh) | 基于键值分离的键值存储系统中范围查询优化方法及装置 | |
CN107018163B (zh) | 一种资源配置方法和装置 | |
US11960939B2 (en) | Management computer, management system, and recording medium | |
CN115993932A (zh) | 数据处理方法、装置、存储介质以及电子设备 | |
CN111984652B (zh) | 一种位图数据中空闲块的查找方法及相关组件 | |
CN106681939B (zh) | 磁盘页面的读取方法和装置 | |
CN111338782A (zh) | 面向共享式突发数据缓存的基于竞争感知的节点分配方法 | |
CN117033397B (zh) | 一种历史数据低存储占用查询的管理方法及系统 | |
CN109344043A (zh) | 一种性能分析方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |