CN116088772B - 动态存储管理方法、装置、存储介质及电子设备 - Google Patents

动态存储管理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116088772B
CN116088772B CN202310368985.2A CN202310368985A CN116088772B CN 116088772 B CN116088772 B CN 116088772B CN 202310368985 A CN202310368985 A CN 202310368985A CN 116088772 B CN116088772 B CN 116088772B
Authority
CN
China
Prior art keywords
performance
file
disk
hot
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310368985.2A
Other languages
English (en)
Other versions
CN116088772A (zh
Inventor
李霄
艾润
高源�
贺光忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yudongyuan Beijing Information Technology Co ltd
Original Assignee
Yudongyuan Beijing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yudongyuan Beijing Information Technology Co ltd filed Critical Yudongyuan Beijing Information Technology Co ltd
Priority to CN202310368985.2A priority Critical patent/CN116088772B/zh
Publication of CN116088772A publication Critical patent/CN116088772A/zh
Application granted granted Critical
Publication of CN116088772B publication Critical patent/CN116088772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本实申请提供一种动态存储管理方法、装置、存储介质及电子设备,涉及存储领域。其中,电子设备获取多个磁盘的历史状态信息;然后,根据历史状态信息,从多个磁盘中确定出预测时段内的高性能磁盘;最后,将热文件迁移至高性能磁盘。如此,从已有的多个磁盘中筛选出性能足够的高性能磁盘,而该高性能磁盘在预测时段内能够为热文件提供足够的访问性能;从而实现对当前已有的磁盘进行有效利用,以提高对热文件在预测时段内的访问效率。

Description

动态存储管理方法、装置、存储介质及电子设备
技术领域
本申请涉及存储领域,具体而言,涉及一种动态存储管理方法、装置、存储介质及电子设备。
背景技术
目前,将文件按照访问热度分为热文件、暖文件以及冷文件,其中,热文件表示需要被高频访问的文件。而为了能够更为高效地对热文件进行访问,通常将热文件存储在易于访问的存储介质中。例如,该易于访问的存储介质可以是内存、高转数的磁盘以及固态硬盘等。经研究发现,为了提供足够的存储空间用于存储热文件,通常采取的方式是购置高性能的存储设备对当前存储空间进行扩充,然而,该方式不能对当前已有的存储介质进行有效利用。
发明内容
为了克服现有技术中的至少一个不足,本申请提供一种动态存储管理方法、装置、存储介质及电子设备,用于对已有磁盘进行动态管理以提高对热文件的访问效率。具体包括:
第一方面,本申请提供一种动态存储管理方法,所述方法包括:
获取多个磁盘的历史状态信息;
根据所述历史状态信息,从所述多个磁盘中确定出预测时段内的高性能磁盘;
将热文件迁移至所述高性能磁盘。
结合第一方面的可选实施方式,所述将热文件迁移至所述高性能磁盘,包括:
建立多个热文件与多个高性能磁盘之间的对应关系;
根据所述对应关系,将所述多个热文件迁移至各自对应的高性能磁盘。
结合第一方面的可选实施方式,所述建立多个热文件与多个高性能磁盘之间的对应关系,包括:
将多个热文件按照各自的热度等级进行排序,获得所述多个热文件的第一排序结果;
将多个高性能磁盘按照各自的性能等级进行排序,获得所述高性能磁盘的第二排序结果;
根据所述第一排序结果与所述第二排序结果,建立所述多个热文件与多个高性能磁盘之间的对应关系。
结合第一方面,所述根据所述对应关系,将所述多个热文件迁移至各自对应的高性能磁盘,包括:
对于每个所述热文件,根据所述热文件对应的高性能磁盘,生成所述热文件的存储策略,所述存储策略包括所述热文件的迁移条件;
若所述热文件在所述预测时段内的文件状态满足所述迁移条件,则将所述热文件迁移至对应的高性能磁盘。
结合第一方面的可选实施方式,所述若所述热文件在所述预测时段内的文件状态满足所述迁移条件,则将所述热文件迁移至对应的高性能磁盘,包括:
若所述热文件在所述预测时段内的文件状态满足所述迁移条件,则获取所述热文件对应高性能磁盘已有业务的数量;
若所述已有业务的数量大于所述数量阈值,则获取所述热文件对应高性能磁盘的拥堵系数,其中,所述拥堵系数表示所述热文件对应高性能磁盘被已有业务同时访问的概率;
若所述拥堵系数小于阈值,则将所述热文件迁移至对应的高性能磁盘。
结合第一方面的可选实施方式,所述存储策略还包括策略执行周期以及策略生命周期,所述策略执行周期用于限制所述存储策略的执行频率,所述策略生命周期用于限制所述存储策略的有效时长。
结合第一方面的可选实施方式,所述方法还包括:
获取多个文件的历史访问信息,其中,所述历史访问信息包括多个文件随时间变化的元数据序列;
将所述元数据序列输入预训练的文件识别模型,得到所述多个文件在所述预测时段内各自的热度等级;
根据所述多个文件各自热度等级,从所述多个文件中确定出热文件。
结合第一方面的可选实施方式,每条元数据对应有所述多个文件的统计周期;
每条所述元数据包括所述多个文件在所述统计周期内访问次数最多的前
Figure SMS_1
文件,访问次数最少的前/>
Figure SMS_2
文件,/>
Figure SMS_3
与/>
Figure SMS_4
分别为大于0的正整数;
每条所述元数据包括还包括每个所述文件的文件块大小、文件大小、历史存储策略以及在所述统计周期内的最晚读写时间。
结合第一方面的可选实施方式,所述历史状态信息包括所述多个磁盘随时间变化的磁盘状态信息序列,所述根据所述多个磁盘的历史状态信息,从所述多个磁盘中确定出预测时段内的高性能磁盘,包括:
将所述磁盘状态信息序列输入预训练的磁盘预测模型,得到所述多个磁盘在所述预测时段内各自的性能等级;
根据所述多个磁盘各自的性能等级,确定出所述高性能磁盘。
结合第一方面的可选实施方式,每条磁盘状态信息对应有所述多个磁盘的统计周期;
每条所述磁盘状态信息包括所述多个磁盘在所述统计周期内空间占用率最高的前
Figure SMS_5
个磁盘以及空间占用率最少的前/>
Figure SMS_6
个磁盘,/>
Figure SMS_7
和/>
Figure SMS_8
分别表示大于0的正整数;
每条所述磁盘状态信息还包括每个所述磁盘的磁盘总容量、剩余容量以及磁盘读写速度。
第二方面,本申请还提供一种动态存储管理装置,所述装置包括:
动态预测模块,用于获取多个磁盘的历史状态信息;
所述动态预测模块,还用于根据所述历史状态信息,从所述多个磁盘中确定出预测时段内的高性能磁盘;
数据迁移模块,用于将热文件迁移至所述高性能磁盘。
第三方面,本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的动态存储管理方法。
第四方面,本申请提供一种电子设备,所述电子设备包括处理器以及存储器,所处存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的动态存储管理方法。
相对于现有技术而言,本申请具有以下有益效果:
本实施例提供一种动态存储管理方法、装置、存储介质及电子设备。其中,电子设备获取多个磁盘的历史状态信息;然后,根据历史状态信息,从多个磁盘中确定出预测时段内的高性能磁盘;最后,将热文件迁移至高性能磁盘。如此,从已有的多个磁盘中筛选出性能足够的高性能磁盘,而该高性能磁盘在预测时段内能够为热文件提供足够的访问性能;从而实现对当前已有的磁盘进行有效利用,以提高对热文件在预测时段内的访问效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的方法流程图;
图2为本申请实施例提供的对应关系示意图之一;
图3为本申请实施例提供的对应关系示意图之二;
图4为本申请实施例提供的装置结构示意图;
图5为本申请实施例提供的电子设备结构示意图。
图标:101-动态预测模块;102-数据迁移模块;201-存储器;202-处理器;203-通信单元;204-系统总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
基于以上声明,研究发现,对于系统中经常被访问的热文件,为了提高其访问效率,通常将热文件存储在高性能的存储介质中,例如,内存、固态硬盘等。这就导致需要针对热文件提供额外的存储空间,对此,通常购置高性能的存储介质对存储空间进行扩充,专门用于存储系统中的热文件;然而,该方式会产生额外的硬件成本支出。
基于上述技术问题的发现,发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本申请做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
鉴于此,本实施例提供一种动态存储管理方法。该方法中,电子设备获取多个磁盘的历史状态信息;然后,根据历史状态信息,从多个磁盘中确定出预测时段内的高性能磁盘;最后,将热文件迁移至高性能磁盘。如此,从已有的多个磁盘中筛选出性能足够的高性能磁盘,而该高性能磁盘在预测时段内能够为热文件提供足够访问性能;从而实现对当前已有的磁盘进行有效利用,以提高对热文件在预测时段内的访问效率。
其中,实施该动态存储管理方法的电子设备可以是运行有存储系统的服务器,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器相对于用户终端,可以是本地的、也可以是远程的。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(Community Cloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等,或者它们的任意组合。在一些实施例中,服务器可以在具有一个或多个组件的电子设备上实现。
下面以服务器为例,结合图1将该方法的各步骤进行详细阐述,但应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。如图1所示,该方法包括:
S101,获取多个磁盘的历史状态信息。
S102,根据历史状态信息,从多个磁盘中确定出预测时段内的高性能磁盘。
其中,高性能磁盘在预测时段内能够为热文件提供足够的访问性能。可选实施方式中,历史状态信息包括多个磁盘随时间变化的磁盘状态信息序列;服务器可以将磁盘状态信息序列输入预训练的磁盘预测模型,得到多个磁盘在预测时段内各自的性能等级;根据多个磁盘各自的性能等级,确定出高性能磁盘。例如,将性能等级大于性能阈值的磁盘视为高性能磁盘。
本实施例中,每条磁盘状态信息对应有多个磁盘的统计周期;每条磁盘状态信息包括多个磁盘在统计周期内空间占用率最高的前
Figure SMS_9
个磁盘以及空间占用率最少的前/>
Figure SMS_10
个磁盘,/>
Figure SMS_11
和/>
Figure SMS_12
分别表示大于0的正整数;每条磁盘状态信息还包括每个磁盘的磁盘总容量、剩余容量以及磁盘读写速度。可选实施方式中,每间隔一统计周期,该服务器则统计多个磁盘在该统计周期内的磁盘状态,从而得到一条关于多个磁盘的原始磁盘状态信息,然后经过归一化处理后得到一条关于多个磁盘的磁盘状态信息。其中,归一化的表达式如下:
Figure SMS_13
假定通过该表达式对其中一个磁盘的原始磁盘总容量
Figure SMS_14
进行归一化处理,则/>
Figure SMS_15
表示经归一化处理后的磁盘容量,/>
Figure SMS_16
表示多个磁盘中的最小原始磁盘容量,/>
Figure SMS_17
表示多个磁盘中的最大原始磁盘容量。
此外,可选实施方式中,该磁盘预测模型可以使用Attention-Based SeriesNet结构的神经网络模型进行训练获得。应理解的是,Attention-Based SeriesNet结构的神经网络模型在SerieNet中应用DDSTCNS(Dilated Depthwise Separable TemporalConvolution,扩张深度可分离时间卷积)和GRU(Gate Recurrent Unit,门控循环单元)来加速训练。此外,该模型还采用了对残差学习模块的CBAM Attention,并对GRU网络提出了HSAM attention,以更好地从输入的时间序列中提取潜在的特征;因此,使用该模型能够在拥有更少参数和更低计算复杂度的同时,拥有更高的准确率和训练效率。
S103,将热文件迁移至高性能磁盘。
其中,热文件与高性能磁盘的数量可以是多个,对此,步骤S103的可选实施方式包括:
S103-1,建立多个热文件与多个高性能磁盘之间的对应关系。
可选实施方式中,服务器可以将多个热文件按照各自的热度等级进行排序,获得多个热文件的第一排序结果;将多个高性能磁盘按照各自的性能等级进行排序,获得高性能磁盘的第二排序结果;根据第一排序结果与第二排序结果,建立多个热文件与多个高性能磁盘之间的对应关系。
示例性的,假定有10个热文件
Figure SMS_20
以及5个高性能磁盘/>
Figure SMS_22
,其中,热文件/>
Figure SMS_25
的热度等级大于/>
Figure SMS_18
,高性能磁盘/>
Figure SMS_23
提供的性能等级大于/>
Figure SMS_26
。如图2所示的,可以将10个热文件与5个高性能磁盘之间建立均匀的对立关系,并且,热文件的热度等级对应高性能磁盘的性能等级成正相关,此时的对应关系可以是/>
Figure SMS_29
、/>
Figure SMS_21
Figure SMS_24
、/>
Figure SMS_27
、/>
Figure SMS_30
;其中,/>
Figure SMS_19
表示热文件
Figure SMS_28
与高性能磁盘/>
Figure SMS_31
相对应。
如图3所示的,服务器还可以根据热度区间与性能等级之间的关系,建立目标区间内的热文件与目标性能等级的高性能磁盘之间的对应关系。假定共有3个热度等级(高中低)以及3个性能等级(高中低);热度等级与性能等级之间的对应关系为高对高、中对中、低对低。
若热文件
Figure SMS_32
的热度等级为高等级,热文件/>
Figure SMS_33
的热度等级为中等级,热文件
Figure SMS_34
的热度等级第等级;而磁盘/>
Figure SMS_35
的性能等级为高等级,/>
Figure SMS_36
的性能等级为中等级,/>
Figure SMS_37
的性能等级为低等级;则可以按照图3所示的方式建立10个热文件与5个高性能磁盘之间的对应关系。当然,以上实施例仅仅是为了便于理解所列举的示例,在实际实施过程中热文件的数量与高性能磁盘的数量、热文件的热度等级数量以及高性能磁盘性能等级的数量可以进行适应性调整。
S103-2,根据对应关系,将多个热文件迁移至各自对应的高性能磁盘。
研究发现,相关技术中一旦确定出热文件与冷文件之后,立即对文件进行迁移,该方式实际并未考虑预测结果与实际结果之间的差异,从而可能会导致频繁移动数据,在生产中,大量数据频繁移动会导致存储系统失衡,导致无法达到更好的网络带宽使用率以及磁盘利用率。
例如,基于Hadoop框架的分布式文件系统,当存储系统失衡后,会触发Hadoop中的Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个衡的状态;此期间会导致数据长时间不可用。鉴于此,对于每个热文件,服务器会根据热文件对应的高性能磁盘,生成热文件的存储策略,存储策略包括热文件的迁移条件;若热文件在预测时段内的文件状态满足迁移条件,则将热文件迁移至对应的高性能磁盘。应理解的是,该热文件若满足迁移条件则意味着热文件的预测结果与实际结果保持一致,从而能够减少无效迁移可能导致的存储系统失衡。
其中,存储策略还包括策略执行周期以及策略生命周期,策略执行周期用于限制存储策略的执行频率,策略生命周期用于限制存储策略的有效时长。
示例性的,本实施例中的每条存储策略包括条件、动作以及规则声明周期三大要素,各要素的作用如下:
1、条件,用于定义存储策略触发的条件,例如,文件大小大于达到2GB,并且,最近10分钟访问次数少于2次等。其中,所有判断条件的参数应为服务器能够获得的参数,例如,对于Hadoop框架的分布式文件系统,该参数可以是元数据。
2、动作,用于定义满足条件后需要执行的动作,所有的动作应为服务器部署的存储系统能够提供的动作。例如,对于Hadoop分布式文件系统,该动作可以包括移动文件至某个磁盘或者删除文件等。
3、规则生命周期,用于定义存储策略生效时间和生效次数,例如,每天下午5点执行,仅执行一次等。
如此,对于预测出的热文件,通过其存储策略使得该文件在预测时段内的实际状态确实达到了需要高性能磁盘支撑其访问效率的条件时,才将其迁移至对应的高性能磁盘。如此,尽可能减少对文件进行无效迁移。
此外,实际实施过程中还发现,对于预测出的高性能磁盘,其在预测时段内的工作状态可能并非没有业务对其进行访问,而是存储有多个业务所需要的数据。该情况下,继续将热文件迁移至该高性能磁盘,可能并不会达到提高该热文件访问效率的目的。鉴于此,若热文件在预测时段内的文件状态满足迁移条件,该服务器则获取热文件对应高性能磁盘已有业务的数量;若已有业务的数量大于数量阈值,则获取热文件对应高性能磁盘的拥堵系数,其中,拥堵系数表示热文件对应高性能磁盘被已有业务同时访问的概率。最终,若拥堵系数小于阈值,该服务则将热文件迁移至对应的高性能磁盘。
此处应理解的是,即便该高性能磁盘上已经存储有多个业务的数据,若这些业务同时运行的概率较低,则即便将热文件迁移至该高性能磁盘上,已有业务也并不会对热文件的访问造成过于明显的干扰。此外,本实施例中的拥堵系数通过对高性能磁盘中已有业务的历史运行信息进行统计获得,若统计发现该高性能磁盘中已有业务长时间处于同时运行的状态,则将热文件迁移至未被存储策略指定的其他高性能磁盘中。
在其他实施方式中,同一高性能磁盘对应有多个热文件,并且,多个热文件具有相同的触发条件,而该高性能磁盘此时因已有业务较多,仅能接受
Figure SMS_38
件热文件,则依据多个热文件预先设定的优先等级,选取等级最高的前/>
Figure SMS_39
件热文件迁移至该高性能磁盘。值得说明的是,以上迁移策略由服务器自动生成,当然该服务器还提供有配置界面,通过该配置界面接收用户的配置操作,从而生成用户自定义的存储策略。
以上实施例中介绍了高性能磁盘的预测方法,与此同理,本实施例中的热文件也并非式中保持不变,而是会对着时间以及业务的变化而变化。鉴于此,该方法还包括:
S104,获取多个文件的历史访问信息。
其中,历史访问信息包括多个文件随时间变化的元数据序列;而在本实施例中,每条元数据对应有多个文件的统计周期;每条元数据包括多个文件在统计周期内访问次数最多的前
Figure SMS_40
文件,访问次数最少的前/>
Figure SMS_41
文件,/>
Figure SMS_42
与/>
Figure SMS_43
分别为大于0的正整数;每条元数据包括还包括每个文件的文件块大小、文件大小、历史存储策略以及在统计周期内的最晚读写时间。
示例性的,以Hadoop框架的分布式文件系统为例,在Hadoop框架中包括有:
Hive,是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言(HiveQL),可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。
HDFS,Hadoop Distributed File System (HDFS),提供高吞吐访rol性能的分布式文件系统。
Hbase,是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为Hadoop提供类似于BigTable规模的服务。因此,它可以容错地存储海量稀疏的数据。Hbase对数据存储管理包括两方面:一是元数据的管理、二是数据的管理。
元数据,Hbase将相应的region信息存储在meta表中,客户端的读写每次都会先读meta表找到响应region所在的server,进而通过RPC直接进行读写操作。如下表所示:
Figure SMS_44
表中姓名、地址、年龄、手机号、邮箱等为元数据,每个元数据对应多个属性值,例如姓名对应的属性值有张三、李四。
而在本实施例中,每条元数据对应有多个文件的统计周期;每条元数据包括多个文件在统计周期内访问次数最多的前
Figure SMS_45
文件,访问次数最少的前/>
Figure SMS_46
文件,/>
Figure SMS_47
与/>
Figure SMS_48
分别为大于0的正整数;每条元数据包括还包括每个文件的文件块大小、文件大小、历史存储策略以及在统计周期内的最晚读写时间。
S105,将元数据序列输入预训练的文件识别模型,得到多个文件在预测时段内各自的热度等级。
可选实施方式中,与磁盘预测模型同理,该文件识别模型同样可以Attention-Based SeriesNet结构的神经网络模型进行训练获得。
S106,根据多个文件各自热度等级,从多个文件中确定出热文件。
可选实施方式中,可以将热度等级大于热度阈值的文件视为热文件。如此,通过以上实施方式能够即时跟踪存储系统中最新的热文件,从而适应业务变化以及时间变化对热文件造成的扰动。本实施例中,该服务器还可以使用工具Prometheus进行数据的采集,并通过工具Grafana的可视化界面对每个预测时段内的热文件以及高性能磁盘以图表的方式进行展示,使管理人员可以明确直观地查看一段时间内的数据变化和未来的预测趋势,帮助管理人员更好的做出决策。
基于以上关于动态存储管理方法的介绍,基于相同的发明构思,本实施例还提供一种动态存储管理装置,动态存储管理装置包括至少一个可以软件形式存储于存储器或固化在电子设备中的软件功能模块。电子设备中的处理器用于执行存储器中存储的可执行模块。例如,动态存储管理装置所包括的软件功能模块及计算机程序等。请参照图4,从功能上划分,动态存储管理装置可以包括:
动态预测模块101,用于获取多个磁盘的历史状态信息;
动态预测模块101,还用于根据历史状态信息,从多个磁盘中确定出预测时段内的高性能磁盘;
数据迁移模块102,用于将热文件迁移至高性能磁盘。
在本实施例中,以上动态预测模块101用于实现图1中的步骤S101、S102,数据迁移模块102用于实现图1中的步骤S103,关于动态预测模块101、数据迁移模块102的详细描述可以参见步骤S101、S102以及S103详细描述。除此之外,值得说明的是,由于与动态存储管理方法具有相同的发明构思,以上动态预测模块101、数据迁移模块102还可以用于实现该方法的其他步骤或者子步骤,对此,本实施例不做具体限定。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
还应理解的是,以上实施方式如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
因此,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现本实施例提供的动态存储管理方法。其中,该计算机可读存储介质可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
请参照图5,图5为本实施例提供一种电子设备,该电子设备可包括处理器202及存储器201。并且,存储器201存储有计算机程序,处理器通过读取并执行存储器201中与以上实施方式对应的计算机程序,实现本实施例所提供的动态存储管理方法。
继续参见图5,该电子设备还包括有通信单元203。该存储器201、处理器202以及通信单元203各元件相互之间通过系统总线204直接或间接地电性连接,以实现数据的传输或交互。
其中,该存储器201可以是基于任何电子、磁性、光学或其它物理原理的信息记录装置,用于记录执行指令、数据等。在一些实施方式中,该存储器201可以是,但不限于,易失存储器、非易失性存储器、存储驱动器等。
在一些实施方式中,该易失存储器可以是随机存取存储器(Random AccessMemory,RAM);在一些实施方式中,该非易失性存储器可以是只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)、闪存等;在一些实施方式中,该存储驱动器可以是磁盘驱动器、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合等。
该通信单元203用于通过网络收发数据。在一些实施方式中,该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
该处理器202可能是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器 (Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
应该理解到的是,在上述实施方式中所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种动态存储管理方法,其特征在于,所述方法包括:
获取多个磁盘的历史状态信息;
根据所述历史状态信息,从所述多个磁盘中确定出预测时段内的多个高性能磁盘;
建立预测出的所述预测时段内的多个热文件与所述多个高性能磁盘之间的对应关系;
对于每个所述热文件,根据所述热文件对应的高性能磁盘,生成所述热文件的存储策略,所述存储策略包括所述热文件的迁移条件;
若所述热文件在所述预测时段内的文件状态满足所述迁移条件,则获取所述热文件对应高性能磁盘已有业务的数量;
若所述已有业务的数量大于数量阈值,则获取所述热文件对应高性能磁盘的拥堵系数,其中,所述拥堵系数表示所述热文件对应高性能磁盘被已有业务同时访问的概率;
若所述拥堵系数小于阈值,则将所述热文件迁移至对应的高性能磁盘。
2.根据权利要求1所述的动态存储管理方法,其特征在于,所述建立多个热文件与多个高性能磁盘之间的对应关系,包括:
将多个热文件按照各自的热度等级进行排序,获得所述多个热文件的第一排序结果;
将多个高性能磁盘按照各自的性能等级进行排序,获得所述高性能磁盘的第二排序结果;
根据所述第一排序结果与所述第二排序结果,建立所述多个热文件与多个高性能磁盘之间的对应关系。
3.根据权利要求1所述的动态存储管理方法,其特征在于,所述方法还包括:
获取多个文件的历史访问信息,其中,所述历史访问信息包括多个文件随时间变化的元数据序列;
将所述元数据序列输入预训练的文件识别模型,得到所述多个文件在所述预测时段内各自的热度等级;
根据所述多个文件各自热度等级,从所述多个文件中确定出热文件。
4.根据权利要求1所述的动态存储管理方法,其特征在于,所述历史状态信息包括所述多个磁盘随时间变化的磁盘状态信息序列,所述根据所述多个磁盘的历史状态信息,从所述多个磁盘中确定出预测时段内的高性能磁盘,包括:
将所述磁盘状态信息序列输入预训练的磁盘预测模型,得到所述多个磁盘在所述预测时段内各自的性能等级;
根据所述多个磁盘各自的性能等级,确定出所述高性能磁盘。
5.一种动态存储管理装置,其特征在于,所述装置包括:
动态预测模块,用于获取多个磁盘的历史状态信息;
所述动态预测模块,还用于根据所述历史状态信息,从所述多个磁盘中确定出预测时段内的高性能磁盘;
数据迁移模块,用于建立预测出的所述预测时段内的多个热文件与所述多个高性能磁盘之间的对应关系;
对于每个所述热文件,根据所述热文件对应的高性能磁盘,生成所述热文件的存储策略,所述存储策略包括所述热文件的迁移条件;
若所述热文件在所述预测时段内的文件状态满足所述迁移条件,则获取所述热文件对应高性能磁盘已有业务的数量;
若所述已有业务的数量大于数量阈值,则获取所述热文件对应高性能磁盘的拥堵系数,其中,所述拥堵系数表示所述热文件对应高性能磁盘被已有业务同时访问的概率;
若所述拥堵系数小于阈值,则将所述热文件迁移至对应的高性能磁盘。
6.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-4任意一项所述的动态存储管理方法。
7.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器,所处存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-4任意一项所述的动态存储管理方法。
CN202310368985.2A 2023-04-10 2023-04-10 动态存储管理方法、装置、存储介质及电子设备 Active CN116088772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310368985.2A CN116088772B (zh) 2023-04-10 2023-04-10 动态存储管理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310368985.2A CN116088772B (zh) 2023-04-10 2023-04-10 动态存储管理方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116088772A CN116088772A (zh) 2023-05-09
CN116088772B true CN116088772B (zh) 2023-06-09

Family

ID=86212368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310368985.2A Active CN116088772B (zh) 2023-04-10 2023-04-10 动态存储管理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116088772B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411542A (zh) * 2011-10-26 2012-04-11 上海文广互动电视有限公司 动态分级存储系统和方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751234B (zh) * 2010-01-21 2011-06-22 浪潮(北京)电子信息产业有限公司 一种磁盘阵列数据分布方法及系统
CN101794199A (zh) * 2010-03-26 2010-08-04 山东高效能服务器和存储研究院 基于高速磁盘缓存的计算机磁盘性能加速方法
US9886195B2 (en) * 2016-01-14 2018-02-06 Microsoft Technology Licensing, Llc Performance-based migration among data storage devices
CN110032340A (zh) * 2019-04-16 2019-07-19 苏州浪潮智能科技有限公司 一种磁盘数据管理方法及相关装置
CN112817540B (zh) * 2021-02-23 2022-11-04 上海交通大学 一种基于磁盘阵列扩展的数据块重分布方法及装置
CN113391765A (zh) * 2021-06-22 2021-09-14 中国工商银行股份有限公司 基于分布式存储系统的数据存储方法、装置、设备及介质
CN115016891A (zh) * 2022-06-01 2022-09-06 阿里巴巴(中国)有限公司 热迁移结果预测方法、热迁移方法、电子设备及存储介质
CN115563032A (zh) * 2022-09-23 2023-01-03 山东云海国创云计算装备产业创新中心有限公司 一种固态硬盘性能优化方法、装置、设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411542A (zh) * 2011-10-26 2012-04-11 上海文广互动电视有限公司 动态分级存储系统和方法

Also Published As

Publication number Publication date
CN116088772A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
US11073999B2 (en) Extent migration in multi-tier storage systems
US10241826B2 (en) Semantic-aware and user-aware admission control for performance management in data analytics and data storage systems
CN108475287B (zh) 用于流数据的离群值检测
US20200311603A1 (en) Utilizing machine learning models to process resource usage data and to determine anomalous usage of resources
US10922316B2 (en) Using computing resources to perform database queries according to a dynamically determined query size
US11086683B2 (en) Redistributing workloads across worker nodes based on policy
US20170068746A1 (en) Dynamic partitioning of graph databases based on edge sampling
CN107567696A (zh) 计算集群内的资源实例群组的自动扩展
US20190164081A1 (en) Predicting geofence performance for optimized location based services
US20200364211A1 (en) Predictive database index modification
CN115039089A (zh) 用于搜索服务的暖层存储
JP6841921B2 (ja) 特定のエンティティタイプにかかわらず接続されたエンティティセットにわたって情報を伝播するためのシステム及び方法
CN116088772B (zh) 动态存储管理方法、装置、存储介质及电子设备
US10535011B2 (en) Predicting capacity based upon database elements
US20170344453A1 (en) Determining dynamic statistics based on key value patterns
JP2023080027A (ja) コンピュータ実装非構造化ドキュメント処理方法、コンピュータプログラム及びシステム(非構造化ドキュメントに関連付けられた重複データブロックの分析)
CN112506875B (zh) 文件存储方法、相关装置及文件存储系统
US20220004895A1 (en) Throughput based sizing for hive deployment
US20220300822A1 (en) Forgetting data samples from pretrained neural network models
CN115248815A (zh) 预测查询处理
US20210158175A1 (en) Asset addition scheduling for a knowledge base
FR3091393A1 (fr) Procédé et dispositif d’aide à la décision pour l’allocation de moyens de calcul sur une infrastructure de calculs hautes performances
US11947538B2 (en) Query processing
US11704278B2 (en) Intelligent management of stub files in hierarchical storage
US11928346B2 (en) Storage optimization based on references

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant