CN114282342A - 存储装置的故障预测方法和装置 - Google Patents

存储装置的故障预测方法和装置 Download PDF

Info

Publication number
CN114282342A
CN114282342A CN202111322071.XA CN202111322071A CN114282342A CN 114282342 A CN114282342 A CN 114282342A CN 202111322071 A CN202111322071 A CN 202111322071A CN 114282342 A CN114282342 A CN 114282342A
Authority
CN
China
Prior art keywords
data
storage device
smart
smart data
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111322071.XA
Other languages
English (en)
Inventor
郝雯雯
权勇雄
刘娜
罗寅
高灿奎
斗李宁
王璐
沈荣燮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung China Semiconductor Co Ltd
Samsung Electronics Co Ltd
Original Assignee
Samsung China Semiconductor Co Ltd
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung China Semiconductor Co Ltd, Samsung Electronics Co Ltd filed Critical Samsung China Semiconductor Co Ltd
Priority to CN202111322071.XA priority Critical patent/CN114282342A/zh
Publication of CN114282342A publication Critical patent/CN114282342A/zh
Priority to KR1020220083476A priority patent/KR20230067486A/ko
Priority to US17/867,086 priority patent/US11994934B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/004Error avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

提供了一种存储装置的故障预测方法和装置,所述方法包括:将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;基于多个基分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。

Description

存储装置的故障预测方法和装置
技术领域
本申请涉及一种存储技术领域,更具体地,涉及一种存储装置的故障预测方法和装置。
背景技术
随着存储技术的发展,大量的存储装置被广泛使用。如果存储装置出现故障,则可能会给用户带来巨大损失。例如,基于闪存的固态硬盘(SSD)作为一种高性能存储介质,已经替代了传统的机械硬盘被广泛的应用于大规模数据中心,不幸的是,近年来闪存密度的增加也使得SSD可靠性降低,例如,数据中心的SSD的故障可导致停机,甚至是数据丢失。因此,如果对SSD故障提前进行预测并进行相应处理,则可以保证数据中心的稳定性,从而降低用户的损失。SMART数据是指硬盘内部管理器通过对硬盘自身进行监测和分析而生成的状态报告,该状态报告可包括硬盘健康度和硬盘异常信息,因此可以通过分析SMART数据对SSD故障进行预测。相关技术的基于SMART数据对SSD进故障预测的方法通常不适用于SSD,需要供应商根据专业领域的先验知识提供的SMART属性值的正常范围,并且目前存在训练正负样本不均衡以及预测模型老化的问题,限制了故障预测准确率的提高。因此,如何提供一种能提高存储装置的故障预测准确度的方案成为当前亟需解决的问题。
发明内容
本发明的目的在于提供一种存储装置的故障预测方法和装置,以至少解决上述相关技术中的问题,也可以不解决任何上述问题。
根据本公开示例性实施例的一个方面,提供一种存储装置的故障预测方法,包括:将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
根据本公开的实施例的存储装置的故障预测方法,通过基于预定时间窗口内获取的多个SMART数据的类别来预测存储装置的故障,可以有效提高预测结果的稳健性。
可选地,每个基分类模型为利用所述多个存储装置的历史SMART数据中的所有故障数据以及所述历史SMART数据中的健康数据的与每个基分类模型相应的第一子集训练而获得的初始基分类模型,其中,所述历史SMART数据中的健康数据被划分为多个第一子集,其中,所述多个第一子集彼此之间无交叉。
基于多数类下采样集成学习的预测方案,通过解决SMART数据中健康(Healthy)/故障(Failed)数据分布不均衡的问题,可有效的提升SSD故障预测的性能。
可选地,每个基分类模型是通过利用在线获取的存储装置的SMART数据对所述初始基分类模型进行训练更新而获得更新的基分类模型,其中,获得每个更新的分类模型利用的训练数据为:在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据的与每个更新的分类模型相应的第二子集,以及在当前时刻之前最近获取的针对处于故障状态的存储装置的SMART数据队列中的SMART数据,其中,所述SMART数据队列具有预定大小,其中,在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据被划分为多个第二子集,所述多个第二子集彼此不交叉。
本公开将在线学习策略应用于SSD故障预测任务中,并采用多数类下采样集成学习的SSD解决方案,解决了模型老化问题以及SMART数据中健康(Healthy)/故障(Failed)数据分布不均衡的问题,有效的提升了SSD故障预测的性能。
可选地,每个基分类模型为长短记忆网络LSTM模型。
可选地,所述方法还包括:通过训练获得每个基分类模型或者从外部设备接收训练好的每个基分类模型。
可选地,所述预测所述存储装置是否存将出现故障的步骤包括:当被确定为故障数据的SMART数据的数量大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将出现故障;和/或,当被确定为故障数据的SMART数据的数量不大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将不出现故障。
通过基于预定时间窗口内获取的多个SMART数据的类别来预测存储装置的故障,可以有效提高预测结果的稳健性。
根据本公开示例性实施方式的另一个方面,提供一种存储装置的故障预测装置,包括:分类单元,被配置为将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;初始确定单元,被配置为基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;最终确定单元,被配置为基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
根据本公开的实施例的存储装置的故障预测装置,通过基于预定时间窗口内获取的多个SMART数据的类别来预测存储装置的故障,可以有效提高预测结果的稳健性。
可选地,每个基分类模型为利用所述多个存储装置的历史SMART数据中的所有故障数据以及所述历史SMART数据中的健康数据的与每个基分类模型相应的第一子集训练而获得初始基分类模型,其中,所述历史SMART数据中的健康数据被划分为多个第一子集,其中,所述多个第一子集彼此之间无交叉。
基于多数类下采样集成学习的预测方案,通过解决SMART数据中健康(Healthy)/故障(Failed)数据分布不均衡的问题,可有效的提升SSD故障预测的性能。
可选地,每个基分类模型是通过利用在线获取的存储装置的SMART数据对所述初始基分类模型进行训练更新而获得更新的基分类模型,其中,获得每个更新的分类模型利用的训练数据为:在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据的与每个更新的分类模型相应的第二子集,以及在当前时刻之前最近获取的针对处于故障状态的存储装置的SMART数据队列中的SMART数据,其中,所述SMART数据队列具有预定大小,其中,在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据被划分为多个第二子集,所述多个第二子集彼此不交叉。
本公开将在线学习策略应用于SSD故障预测任务中,并采用多数类下采样集成学习的SSD解决方案,解决了模型老化问题以及SMART数据中Healthy/Failed数据分布不均衡的问题,有效的提升了SSD故障预测的性能。
可选地,每个基分类模型为长短记忆网络LSTM模型。
可选地,所述故障预测装置还包括:训练单元,通过训练获得每个基分类模型,或者,接收单元,从外部设备接收训练好的每个基分类模型。
可选地,最终确定单元被配置为:当被确定为故障数据的SMART数据的数量大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将出现故障;和/或,当被确定为故障数据的SMART数据的数量不大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将不出现故障。
根据本公开的实施例的存储装置的故障预测方法,通过基于预定时间窗口内获取的多个SMART数据的类别来预测存储装置的故障,可以有效提高预测结果的稳健性。
根据本公开示例性实施方式的另一个方面,提供一种存储装置的故障预测系统,包括:多个存储装置;分类单元,被配置为:将实时采集的多个存储装置中的存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;初始确定单元,被配置为:基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;最终确定单元,被配置为:基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
根据本公开的一方面,提供了一种电子装置,包括:存储器,存储一个或更多个指令;多个存储装置;以及主处理器,被配置为执行所述一个或更多个指令以执行如上所述的存储装置的故障预测方法。
根据本公开的一方面,提供了一种主机存储系统,包括:主机,包括主机存储器和主机控制器;以及存储装置,其中,所述主机存储器存储有当由主机控制器执行时执行如上所述的存储装置的故障预测方法的指令。
根据本公开的一方面,提供了一种通用闪存UFS系统,包括:UFS装置;
UFS主机;以及UFS接口,用于UFS装置和UFS主机之间的通信,其中,所述UFS主机被配置为执行如上所述的存储装置的故障预测方法。
根据本公开的实施例的存储系统或UFS系统,通过基于预定时间窗口内获取的多个SMART数据的类别来预测存储装置的故障,可以有效提高预测结果的稳健性。
根据本公开的实施例,提供了一种存储系统,包括:存储装置,包括多个非易失性存储器NVM;以及存储器控制器,被配置为执行如上所述的存储装置的故障预测方法。
根据本公开的实施例,提供了一种数据中心系统,包括:多个应用服务器;以及多个存储服务器,其中,每个存储服务器包括存储装置,其中,多个应用服务器中的一个被配置为执行如上所述的存储装置的故障预测方法。
根据本公开示例性实施例的又一个方面,提供一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时实现如上所述的存储装置的故障预测方法。
附图说明
通过下面结合示例性地示出一例的附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
图1是示出基于阈值法预测SSD故障的示例的流程图;
图2是示出基于树形结构的机器学习算法的示例的示图;
图3是示出基于LSTM分类方法的示例的示图;
图4是示出基于迁移学习的示例的示图;
图5是示出根据本发明的实施例的存储系统15的框图;
图6是示出根据本公开的实施例的数据中心的示例的示图;
图7是根据本公开的实施例的存储装置的故障预测方法的流程图;
图8是示出在线采集用于更新基模型的训练数据的示例的示图;
图9是示出根据本公开的实施例的获取初始基模型或更新的基模型的示例的示图;
图10是示出根据本公开的实施例的预测输入的SMART数据是健康数据还是故障数据的示例的示图;
图11是示出根据本公开的实施例的存储装置的故障预测方法的示例的示意图;
图12是示出根据本公开的实施例的存储装置的故障预测装置1100的结构的框图;
图13是示出根据本公开的实施例的存储装置的故障预测系统1200的结构框图;
图14是示出根据本公开的实施例的存储装置的故障预测设备的框图;
图15是示出根据本公开的实施例的基于LSTM的故障预测方案以及传统的基于LSTM的算法的预测性能的示图;
图16为根据本公开的实施例的电子装置1000的示意图;
图17是根据本公开的实施例的主机存储系统10的框图;
图18是根据本公开的实施例的通用闪存(Universal Flash Storage,UFS)系统2000的框图;以及
图19是示出根据本公开的示例性实施例的存储装置的故障预测装置的结构的框图。
具体实施方式
在下文中,参照附图对本公开的各种实施例进行描述,其中,相同的标号用于表示相同或相似的元件、特征和结构。然而,不旨在由本文所述的各种实施例将本公开限制于具体实施例,并且旨在于:本公开覆盖本公开的所有修改、等同物和/或替代物,只要它们在所附权利要求及其等同物的范围内。在以下说明书和权利要求书中使用的术语和词语不限于它们的词典含义,而是仅被用于使得能够清楚和一致地理解本公开。因此,对于本领域技术人员应显而易见的是:提供本公开的各种实施例的以下描述仅用于说明的目的,而不是为了限制由所附权利要求和它们的等同物限定的本公开的目的。
应理解,除非上下文另外明确指出,否则单数形式包括复数形式。本文使用的术语“包括”、“包含”和“具有”指示公开的功能、操作或元件的存在,但不排除其它功能、操作或元件。
例如,表述“A或B”、或“A和/或B中的至少一个”可指示A和B、A或者B。例如,表述“A或B”或“A和/或B中的至少一个”可指示(1)A、(2)B或(3)A和B两者。
在本公开的各种实施例中,意图是:当组件(例如,第一组件)被称为与另一组件(例如,第二组件)“耦接”或“连接”或者被“耦接”或者“连接”到另一组件(例如,第二组件)时,所述组件可被直接连接到所述另一组件,或者可通过另一组件(例如,第三组件)被连接。相比之下,当组件(例如,第一组件)被称为与另一组件(例如,第二组件)“直接耦接”或“直接连接”或者被直接耦接到或直接连接到另一组件(例如,第二组件)时,在所述组件和所述另一组件之间不存在另一组件(例如,第三组件)。
在描述本公开的各种实施例中使用的表述“被配置为”可以例如根据情况与诸如“适用于”、“具有…的能力”、“被设计为”、“适合于”、“被制造为”和“能够”的表述互换使用。术语“被配置为”可不一定指示按照硬件“被专门设计为”。相反,在一些情况下的表述“被配置为...的装置”可指示所述装置和另一装置或者部分“能够…”。例如,表述“被配置为执行A、B和C的处理器”可指示用于执行相应操作的专用处理器(例如,嵌入式处理器)或用于通过执行存储在存储器装置中的至少一个软件程序来执行相应的操作的通用处理器(例如,中央处理单元CPU或应用处理器(AP))。
本文使用的术语在于描述本公开的某些实施例,但并不旨在限制其它实施例的范围。除非本文另外指出,否则本文使用的所有术语(包括技术或科学术语)可具有与本领域技术人员通常理解的含义相同含义。通常,词典中定义的术语应被视为具有与相关领域中的上下文含义相同的含义,并且,除非本文明确地定义,否则不应被不同地理解或被理解为具有过于正式的含义。在任何情况下,本公开中定义的术语也不旨在被解释为排除本公开的实施例。的通用处理器(例如,中央处理单元CPU或应用处理器(AP))。
本文使用的术语在于描述本公开的某些实施例,但并不旨在限制其它实施例的范围。除非本文另外指出,否则本文使用的所有术语(包括技术或科学术语)可具有与本领域技术人员通常理解的含义相同含义。通常,词典中定义的术语应被视为具有与相关领域中的上下文含义相同的含义,并且,除非本文明确地定义,否则不应被不同地理解或被理解为具有过于正式的含义。在任何情况下,本公开中定义的术语也不旨在被解释为排除本公开的实施例。
为了更好地理解本公开,首先对相关技术中存在的存储装置故障预测方法进行描述。相关技术中的存储装置故障预测方法主要存在以下几种:
1)阈值法
图1是示出基于阈值法预测SSD故障的示例的流程图。参照图1,采用阈值法进行故障预测时,定期采集SSD的SMART属性值,判断采集到的SMART属性值是否超出预设的SMART属性值的范围,若某一时刻的SMART属性值大于预设SMART属性值的范围中的最大值,或小于预设SMART属性值的范围中的最小值,则发出故障预警。
本领域技术人员应当理解,本文所述的SMART属性具有与现有技术中的术语“SMART属性”具有相同或相似的含义,例如,SMART属性可包括温度·时间(Temp.Time)。本领域技术人员应当理解,SMART属性的类型可以由用户根据需要进行选择,例如SMART属性可包括单个类型的属性或者多个类型的属性。
阈值法是针对HDD(Hard Disk Drive)提出的一种故障预测方法。HDD是一种机械硬盘,它的故障一般表为单个或几个SMART属性值的异常,而SSD无机械部分且故障表现形式更加隐蔽,因此针对于HDD提出的阈值法是不适于直接应用于SSD进行故障预测,如果应用于SSD进行故障预测,则故障预测准确率比较低,在实际运行环境中对SSD故障的检测率通常为3%-10%。另一方面,由于不同数据中心的工作负载不同,不同数据中心的SSD的预设SMART属性值的范围也有较大的差异。因此很难根据单个或者某几个SMART属性的值来确定SSD是否处于故障状态。
2)基于机器学习的分类算法
为了改善基于SMART数据的预测准确率,部分研究者尝试采用基于机器学习分类算法。具体地,建立故障预测模型,并基于存储装置的SMART数据训练故障预测模型,从而利用训练好的故障预测模型预测存储装置故障。基于机器学习的分类算法主要包括以下两种方法:
·基于树形结构的机器学习算法
该算法是常用的监督学习(supervised learning)方法之一。随机森林是常用的一种基于树型结构的存储装置(例如,SSD)的故障检测算法。
图2是示出基于树形结构的机器学习算法的示例的示图。参照图2,随机森林的核心思想为:对训练集进行重采样,组成多个训练子集,每个子集生成一个决策树,组成随机森林,所有决策树通过投票的方式进行决策。基于随机森林的故障预测模型是选择存储装置的历史SMART数据作为训练集,通过采样训练数据集生成多个子数据集,利用决策树算法在生成的子数据集上构建决策树,所有决策树进行组合构成基于随机森林的故障预测模型。预测时将测试SMART数据输入决策树,根据SMART属性值在决策树节点上进行遍历获得随机森林中决策树的预测结果,最后对所有的决策树的结果进行统计投票,得到存储装置的故障预测的结果。
·基于长短记忆网络(Long Short-Term Memory Network,LSTM)的分类方法
LSTM是一种特殊的RNN(Recurrent Neural Network,循环神经网络),对长期依赖有着很好的支持。存储装置的SMART属性值的分布随着时间有一定的变化趋势,因此可以将此特征应用于存储装置的故障预测。
图3是示出基于LSTM的分类方法的示例的示图。参照图3,首先将SMART数据样本按照时间分片构造时序数据,然后,将构造好的时序数据传入LSTM,依次经过输入层(InputLayer),隐藏层(Hidden Layer)和全连接层(Dense Layer),最终得到预测结果。
基于机器学习的分类算法利用数据中心的存储装置的历史SMART数据训练分类模型对SSD故障进行预测,从而利用SMART属性之间的关联来提升SSD故障预测准确率,但也存在两个方面的问题。一方面,基于机器学习的分类算法通常在离线的模式下进行模型训练,之后模型就不会改变,但在实际应用中SMART属性值的分布规律会随着时间产生变化,因此采用基于机器学习的分类算法进行SSD故障预测时会出现模型老化,检测准确率随时间下降的问题。例如,随着数据中心业务类型和业务量的变化,作为重要的故障预警指标的SMART属性值,如温度的变化范围也会随时间不断变化。在线SMART数据的正常状态的温度分布会和离线SMART数据的故障状态的温度分布产生逐渐重合(即,当SSD装置正常工作时实时采集的温度数据分布和先前采集的SSD装置出现故障时的温度数据分布类似),因此在离线数据上训练得到的预测模型,对在线数据故障预测的准确率会随着温度分布的变化随时间不断下降。另一方面,由于SSD故障率远低于机械硬盘,因此通常存在训练数据的正负样本严重不均衡,故障SSD的数据严重不足的问题,在这样的训练集上训练得到的模型对SSD故障预测的准确率是比较低的。
3)迁移学习
迁移学习是一种机器学习技术,其将在某一项任务中训练得到的模型,应用于另一项预测任务中。图4是示出基于迁移学习的示例的示图。参照图4,迁移学习将在型号A的数据集上训练得到的模型用于型号B的SSD进行故障预测。其中,型号A的SSD有大量的SMART历史数据,型号B的SSD没有足够的SMART历史数据。迁移学习应用于SSD故障预测主要是为了解决模型训练中新上线型号的SSD没有足够的SMART历史数据的问题。采用迁移学习来提高SSD故障检测性能时,要求型号A的SMART数据和型号B的SMART数据分布具有相似性。
如上所述,迁移学习可以解决新型号的SSD的数据严重不足的问题,但迁移学习要求拥有大量的与目标SSD的SMART分布相似的另一个型号的SSD的训练数据,而这很难实现,因为即使是同一厂商生产的不同型号的SSD的SMART分布也是存在一定的差异,即使是同一种型号的SSD在不同数据中心的SMART属性取值的分布也是不同的。因此利用迁移学习来提高SSD故障预测的准确率的实现是比较困难的。
下面将对根据本公开的实施例的存储装置的故障预测方法进行描述。
图5是示出根据本发明的实施例的存储系统15的框图。参照图5,存储系统15可以包括存储装置17和存储器控制器16。存储系统15可以支持多个通道CH1至CHm,并且存储装置17可以通过多个通道CH1至CHm连接到存储器控制器16。例如,存储系统15可以实现为诸如SSD的存储装置。
存储装置17可以包括多个NVM装置NVM11至NVMmn。NVM装置NVM11至NVMmn中的每一个可以通过与其相对应的路径(way)连接至多个通道CH1至CHm中的一个。例如,NVM装置NVM11至NVM1n可以通过路径W11至W1n连接到第一通道CH1,并且NVM装置NVM21至NVM2n可以通过路径W21至W2n连接到第二通道CH2。在示例性实施例中,NVM装置NVM11至NVM1n中的每一个可以实现为任意存储元件,其可以根据来自存储器控制器16的单独命令来操作。例如,NVM装置NVM11至NVM1n中的每一个可以实现为芯片(chip)或管芯(die),但是本发明不限于此。
存储器控制器16可以通过多个通道CH1至CHm向存储装置17发送信号和从存储装置17接收信号。例如,存储器控制器16可以通过通道CH1至CHm向存储装置17发送命令CMDa至CMDm、地址ADDRa至ADDRm以及数据DATAa至DATAm,或者从存储装置17接收数据DATAa至DATAm。
存储器控制器16可以从通过使用通道CH1至CHm中的相应的一个从连接到通道CH1至CHm中的每一个的NVM装置NVM11至NVMmn中选择一个,并且向所选择的NVM装置发送信号和从所选择的NVM装置接收信号。例如,存储器控制器16可以从连接到第一通道CH1的NVM装置NVM11至NVM1n中选择NVM装置NVM11。存储器控制器16可以通过第一通道CH1发送命令CMDa、地址ADDRa和数据DATAa到所选择的NVM装置NVM11,或者从所选择的NVM装置NVM11接收数据DATAa。
存储器控制器16可以通过彼此不同的通道并行地向存储装置17发送信号和从存储装置17接收信号。例如,存储器控制器16可以在通过第一通道CH1将命令CMDa发送到存储装置17的同时,通过第二通道CH2发送命令CMDb到存储装置17。例如,存储器控制器16可以在通过第一通道CH1从存储装置17接收数据DATAa的同时,通过第二通道CH2从存储装置17接收数据DATAb。
存储器控制器16可以控制存储装置17的所有操作。存储器控制器16可以将信号发送到通道CH1至CHm,并控制连接到通道CH1至CHm的NVM装置NVM11至NVMmn中的每一个。例如,存储器控制器16可以发送命令CMDa和地址ADDRa到第一通道CH1,并且控制选自NVM装置NVM11至NVM1n中的一个。
NVM装置NVM11至NVMmn中的每一个可以经由存储器控制器16的控制来操作。例如,NVM装置NVM11可以基于提供给第一通道CH1的命令CMDa、地址ADDRa和数据DATAa来对数据DATAa进行编程。例如,NVM装置NVM21可以基于提供给第二通道CH2的命令CMDb和地址ADDb读取数据DATAb,并将所读取的数据DATAb发送到存储器控制器16。
尽管图5示出了存储装置17通过m个通道与存储器控制器16进行通信并且包括与每个通道相对应的n个NVM装置的示例,但是可以改变通道的数量和连接到一个通道的NVM装置的数量。例如,存储控制器可以基于无线网络与每个NVM装置进行通信。
如果不能及时预测例如图5中的存储装置中的将会出现故障的NVM装置,则当NVM装置出现故障时,可能会导致整个存储系统停机,甚至导致数据丢失。
因此,本发明提供的方法或系统可以有效预测将会出现故障的NVM装置从而采取相应的措施。
本领域技术人员应当理解,图5中所述的NVM装置可以指包括NVM的装置,例如,移动终端PC、膝上型计算机、服务器、媒体播放器或汽车装置(例如,导航装置)。
为了便于描述,以数据中心中的存储装置为例进行说明。本领域技术人员应当理解,本文所述的存储装置也可以指其它应用场景下的存储装置,例如,可以收集被广泛使用的同一型号的手机中的存储装置的SMART数据,并预测存储装置是否将出现故障,从而提前将通知发送到相应的手机以通知手机的使用者。
图6是示出根据本公开的实施例的数据中心的示例的示图。
参照图6,数据中心3000可以是收集各种类型的数据并提供服务的设施,并且被称为数据存储中心。数据中心3000可以是用于操作搜索引擎和数据库的系统,并且可以是公司(诸如,银行)或政府机构所使用的计算系统。数据中心3000可以包括应用服务器3100至3100n和存储服务器3200至3200m。根据实施例,可以不同地选择应用3100至3100n的数量和存储服务器3200至3200m的数量。应用服务器3100至3100n的数量和存储服务器3200至3200m的数量可以彼此不同。
应用服务器3100或存储服务器3200可以包括处理器3110和3210以及存储器3120和3220中的至少一个。现在将以存储服务器3200为例进行描述。处理器3210可以控制存储服务器3200的所有操作,访问存储器3220,并且执行加载到存储器3220的指令和/或数据。存储器3220可以是双数据率同步DRAM(DDR SDRAM)、高带宽存储器(HBM)、混合内存立方体(HMC)、双列直插式内存模块(DIMM)、傲腾DIMM(Optane DIMM)或非易失性DIMM(NVMDIMM)。在一些实施例中,存储服务器3200中包括的处理器3210和存储器3220的数量可以被不同地选择。在一实施例中,处理器3210和存储器3220可以提供处理器-存储器对。在一实施例中,处理器3210的数量与存储器3220的数量可以彼此不同。处理器3210可以包括单核处理器或多核处理器。对于存储服务器3200的以上描述可以类似地应用于应用服务器3100。在一些实施例中,应用服务器3100可以不包括存储装置3150。存储服务器3200可以包括至少一个存储装置3250。根据实施例,存储服务器3200中包括的存储装置3250的数量可以被不同地选择。
在数据中心运行过程中,每个存储装置(存储服务器3200-3200m或存储装置3250-3250m)将会产生对应的SMART数据,通过利用存储装置产生的历史SMART数据和/或在线采集的存储装置的SMART数据来训练和/或更新故障预测模型,通过将测试SMART数据输入训练好的模型,则可以有效预测相应的存储装置是否将出现故障。为了便于描述,在下文中以基于SSD的存储装置进行说明,因此,本领域技术人员应当理解,下文中针对SSD描述的方法和装置同样适用于现有的其他类型的非易失性存储装置(例如,HDD)或易失性存储装置以及随着技术的发展出现的新的类型的存储装置。此外,本领域技术人员应当理解,下文所述的SMART数据、SMART属性或SMART信息具有相同或者相似的含义。
图7是示出根据本公开的示例性实施例的存储装置的故障预测方法的流程图。
参照图7,在步骤S701,将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得。
以使用SSD作为存储装置的数据中心为例,由于在数据中心的所有SSD中发生故障的盘只占极小的比例,故障的SMART数据和健康的SMART数据比例严重不均衡。根据统计,健康的SMART数据与故障的SMART数据比例约为1000:1,在这样不均衡的数据集上训练或者更新后得到的模型,对SSD故障预测的准确率是很低的。
本公开基于多数类下采样来解决正负训练样本不均衡的问题。
作为示例,每个基分类模型为利用所述多个存储装置的历史SMART数据中的所有故障数据以及所述历史SMART数据中的健康数据的与每个基分类模型相应的第一子集训练而获得初始基分类模型,其中,所述历史SMART数据中的健康数据被划分为多个第一子集,其中,所述多个第一子集彼此之间无交叉。
具体地,以基于SSD的数据中心为例,历史SMART数据的收集可由数据中心的运维人员花费较长的时间,定期的采集数据中心中所有SSD的SMART数据,并将收集到的SMART数据以及SN(SSD Number)和采集时间存储到文件中或者数据库中,并利用人工标注的方式对数据进行标注。也就是说,历史SMART数据包括健康SSD对应的SMART数据和故障SSD对应的SMART数据。
由于数据中心中的大部分SSD都处于健康状态,因此,健康SMART数据远远多于故障SMART数据。本领域技术人员应当理解,健康SMART数据指示与健康SSD相应的SMART数据,故障SMART数据指示与故障SSD相应的SMART数据。由于健康SMART数据远远多于故障SMART数据,因此,如果直接将健康SMART数据和故障SMART数据作为正负样本直接训练每个基分类模型,则会存在正负样本不均衡的问题。因此,可将健康数据划分为彼此不交叉的多个子集,并利用各个子集和全部的故障SMART数据来训练相应的基分类模型,这样每个基分类模型使用的训练数据的正负样本更加均衡。例如,利用第1个子集和全部的故障数据训练第1个基分类模型,利用第2个子集和全部的故障数据训练第2个基分类模型。
基分类模型的数量可以根据数据中心的健康SSD和故障SSD的数量之比确定,或者由用户预先设置。由于每个基分类模型对应一个子集,因此,子集的数量与基分类模型的数量相等。
作为示例,利用历史SMART数据训练得到初始基分类模型。当将实时获取的SSD的SMART数据输入到每个初始基分类模型时,每个初始基分类模型会输出相应的分类结果,例如,分类结果指示输入的SMART数据为健康数据还是故障数据,由于每个基分类模型利用不同的健康数据的子集进行训练,因此,每个基分类模型的输出结果可能不同,例如,第1个基分类模型输出结果可能指示输入的SMART数据为健康数据,而第二个基分类模型的输出结果可能指示输入的SMART数据为故障数据。
作为另一示例,每个基分类模型是通过利用在线获取的存储装置的SMART数据对所述初始基分类模型进行训练更新而获得更新的基分类模型,其中,获得每个更新的分类模型利用的训练数据为:在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据的与每个更新的分类模型相应的第二子集,以及在当前时刻之前最近获取的针对处于故障状态的存储装置的SMART数据队列中的SMART数据,其中,所述SMART数据队列具有预定大小,其中,在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据被划分为多个第二子集,所述多个第二子集彼此不交叉。
由于SMART属性分布会因为业务类型和业务量的变化随时间不断产生变化,因此采用离线数据集(即历史SMART数据集)训练得到的初始基分类模型会在故障预测过程中出现模型老化,预测准确率下降的问题。
因此可通过增量学习的方式利用在线获取的SSD的SMART数据对初始基分类模型进行更新训练,以得到更新的基分类模型,利用更新的基分类模型可以得到更准确的分类结果。下面对更新初始基分类模型的过程进行描述。
首先在线获取训练初始基分类模型以得到更新基分类模型的训练数据。在线数据的收集或获取可以表示在模型在线使用过程中,将不断到来的数据进行在线标注并暂存到SMART数据池的过程。
图8是示出在线采集用于更新基分类模型的训练数据的示例的示图。参照图8,可对每个SSD设置一个固定大小的数据队列(数据队列的大小根据实际数据特点确定或被预先设置),SMART数据按照采集的时间顺序依次加入队列,队列中的数据是未标注过的,在线数据收集是根据样本移除队列时下一个时刻SSD的状态对其进行标注并将其加入到样本池中的过程。如图8的①所示,若队列已满,下一时刻有新的SMART数据到来则将最早加入队列的样本标注为健康(Healthy)移出队列,并将其加入到样本池中。如图8的②所示若下一个时刻SSD故障发生,则将该SSD对应队列里面的SMART数据全部标注为故障(Failed)并移出队列加入到样本池中。
也就是说,如果当前时刻SSD为故障SSD,则将当前时刻之前最近采集的与该SSD对应的数据队列中的全部SMART数据作为故障数据添加到数据池中,如果当前时刻SSD为健康SSD,则将当前时刻之前最近采集的与该SSD对应的数据队列中的最早采集到的SMART数据作为健康SMART数据添加到数据池中。由于在SSD运行过程中,大部分SSD处于健康状态,因此数据池中的健康数据要多于故障数据。因此,为了保证正负样本的均衡性,将数据池中的健康数据划分为彼此不交叉的多个子集,并利用子集和数据池中的全部故障数据来训练每个初始基分类模型,例如,利用第1子集和数据池中的全部故障数据训练第1初始基分类模型,利用第2子集和数据池中的全部故障数据训练第2初始基分类模型,从而分别得到更新的第1基分类模型和第2基分类模型。
本领域技术人员应当理解,以上初始基分类模型和更新的基分类模型指示将SMART数据作为输入、分类结果作为输出进行训练得到的基分类模型,基分类模型的类型可以是LSTM或其他机器学习模型。
图9是示出根据本公开的实施例的获取初始基分类模型或更新的基分类模型的示例的示图。
参照图9,用对多数类样本进行下采样来解决基分类器训练过程中正负样本不均衡问题,并通过集成的策略为每个基分类器选择互斥的一个多数类样本子集来充分利用训练集中所有样本信息。
作为示例,初始模型和/或更新的模型可以通过故障预测装置进行训练获得,也可以由故障预测装置从外部装置接收训练好的初始基分类模型和/或更新的基分类模型。
返回图7,在步骤S702,基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据。
如上所述,由于每个基分类模型利用的训练数据不同,因此,每个基分类模型输出的结果可能不同,因此可以基于多个基分类模型的分类结果采用投票的方式或者其他方式确定输入的SMART数据是健康数据还是故障数据。例如,如果多数基分类模型的分类结果指示健康SMART数据,则确定输入的SMART数据为健康数据,反之为故障数据。
图10是示出根据本公开的实施例的预测输入的SMART数据是健康数据还是故障数据的示例的示图。
参照图10,该实施例以LSTM为基分类模型,采用集成的策略构建多个LSTM分类模型,并利用多数类下采样方法为每个LSTM模型构建训练集,对模型进行初始训练或者在线调整。多数类下采样方法指的是通过下采样的方式选择部分的多数类(即健康数据)样本和所有的少数类(即故障数据)样本作一个LSTM基分类模型的训练集。利用集成的思想构建n个LSTM基分类模型,并通过投票的方式将n个LSTM基分类模型的预测结果融合来对SSD故障进行预测。对于每个LSTM基分类器利用采样的方法随机的选取1/n的健康数据和所有的故障数据来构建初始或在线训练的训练集,一方面确保了不同基分类模型的差异性,另一方面缓解了健康和故障类别样本比例不均衡的问题。
在步骤S703,基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
作为示例,当被确定为故障数据的SMART数据的数量大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将出现故障;和/或,当被确定为故障数据的SMART数据的数量不大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将不出现故障。
根据本公开的实施例,不是通过某一时刻的SMART数据的分类结果预测SSD是否将出现故障,而是根据预定时间窗口内获取的SMART数据的分类结果综合判断SSD是否将出现故障,使得可以提高预测结果的稳健性。
图11是示出根据本公开的实施例的存储装置的故障预测方法的示例的示意图。
参照图11中的a),通过基分类模型确定输入的SMART数据的类别,参照图11中的b),根据预定时间窗口内被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量预测SSD是否将发生故障。
如上所述,根据本公开的实施例的基于多数类样本下采样集成学习方法充分考虑了在线或初始训练过程中数据集正负样本严重不均衡的问题,将下采样策略和传统的集成学习算法相结合来提升故障预测的性能。
表1示出了根据本公开的实施例的分类方法与现有技术中的分类方法的相关特性。
表1
Figure BDA0003345870180000171
Figure BDA0003345870180000181
基于单分类模型的SSD故障预测算法使用所有的数据集对单个模型进行初始训练或者在线更新,由于正负样本分布的不均衡,采用单分类模型进行SSD故障预测的准确率非常低。
基于下采样的单分类模型在模型初始训练或者在线更新时通过下采样抛弃部分多数类样本,缓解了正负样本不均衡的问题,但由于采用下采样抛弃掉部分的训练样本,造成信息的损失,因此也不能达到较好的故障预测性能。
基于集成学习分类模型的SSD故障预测方法,构建多个基分类模型,并为每个基分类模型选择不同的训练样本。在初始训练或在线更新过程中所有样本都参与到训练中,并通过对所有的基分类模型进行融合来得到比单分类模型更加优越的性能。但基于集成学习分类模型的故障预测方法依然没有解决正负样本分布不均衡的问题。
基于多数类下采样集成学习分类模型的SSD故障预测方法采用基集成的思想,构建多个基分类模型,对于每一个基分类模型采用下采样的方式选择部分的多数类样本和所有的少数类样本进行初始训练或在线更新,来缓解正负样本分布不均衡的问题,同时由于每个基分类模型选择了多数类样本的不同子集,因此所有的多数类样本都可以参与到模型的初始训练和在线更新过程中。最终通过融合所有基分类模型得到更加优越的SSD故障预测性能。
以上参照图1至图11描述了根据本公开的实施例的存储装置的故障预测方法,下面参照图12-图19对根据本公开的实施例的存储装置的故障预测装置或存储系统进行描述。
图12是示出根据本公开的实施例的存储装置的故障预测装置1200的框图。参照图12,所述故障预测装置可包括分类单元1201、初始确定单元1202、最终确定单元1203。
作为示例,分类单元1201可被配置为将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得。
作为示例,初始确定单元1202可被配置为基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据。
作为示例,最终确定单元1203可被配置为基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
作为示例,每个基分类模型为利用所述多个存储装置的历史SMART数据中的所有故障数据以及所述历史SMART数据中的健康数据的与每个基分类模型相应的第一子集训练而获得初始基分类模型,其中,所述历史SMART数据中的健康数据被划分为多个第一子集,其中,所述多个第一子集彼此之间无交叉。
作为示例,每个基分类模型是通过利用在线获取的存储装置的SMART数据对所述初始基分类模型进行训练更新而获得更新的基分类模型,其中,获得每个更新的分类模型利用的训练数据为:在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据的与每个更新的分类模型相应的第二子集,以及在当前时刻之前最近获取的针对处于故障状态的存储装置的SMART数据队列中的SMART数据,其中,所述SMART数据队列具有预定大小,其中,在当前时刻之前最近获取的针对处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据被划分为多个第二子集,所述多个第二子集彼此不交叉。
作为示例,每个基分类模型为长短记忆网络LSTM模型。
作为示例,所述故障预测装置还包括训练单元(未示出)或接收单元(未示出)。
作为示例,训练单元可通过训练获得每个基分类模型。
作为示例,接收单元可从外部设备接收训练好的每个基分类模型。
作为示例,最终确定单元1203可被配置为当被确定为故障数据的SMART数据的数量大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将出现故障;和/或,当被确定为故障数据的SMART数据的数量不大于所述被确定为健康数据的SMART数据的数量时,确定所述存储装置将不出现故障。
作为示例,提供了一种存储装置的故障预测系统。
图13是示出根据本公开的实施例的存储装置的故障预测系统1300的框图。
所述故障预测系统1300可包括多个存储装置1301、分类单元1302、初始确定单元1303、最终确定单元1304。
作为示例,分类单元1302可被配置为:将实时采集的多个存储装置中的存储装置1301的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得。
作为示例,初始确定单元1303可被配置为:基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据。
作为示例,最终确定单元1304可被配置为:基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
图14是示出根据本公开的实施例的存储装置的故障预测设备的框图。
参照图14,故障预测设备可以包括初始训练模块①、在线更新模块②以及在线预测模块③。
初始训练模块①利用历史SMART数据获得初始基分类模型。
作为示例,获得初始基分类模型可包括如下3个步骤:
数据采集:采集服务器上SSD的历史SMART数据,包括健康SSD的SMART数据和故障SSD的SMART数据,对数据进行人工标注,并将标注后的数据存储在数据库或者文件中。
数据预处理:对训练集进行预处理,包括缺失值补全,标准化等。
模型训练:采用上述的多数类下采样集成学习的方法对模型进行训练。
在线更新模块②基于在线获取的SMART数据对初始基分类模型进行训练获得更新的基分类模型。
作为示例,在线更新过程可包括如下3个步骤:
数据采集与标注:将新到来的进行标注并暂存到样本池中。
新数据集预处理:对训练集进行预处理,包括缺失值补全,标准化等。
模型在线更新:采用多数类样本下采样方案为每个基分类模型构建训练样本,并对每个基分类模型进行在线更新。
在线预测模块③利用更新的基分类模型预测SSD是否将发生故障。
针对于SSD故障预测中存在的由SMART分布随时间变化导致的模型老化问题,根据本公开的实施例的SSD故障预测方案,将在线学习策略应用于SSD故障预测任务中,并针对SMART数据中健康和故障数据不均衡的问题对在线学习的预测模型进一步进行了优化,提出了基于在线的多数类下采样集成学习的SSD故障预测方案。通过解决模型老化问题以及SMART数据中健康数据和故障数据分布不均衡的问题,有效的提升了SSD故障预测的性能。
图15是示出根据本公开的实施例的基于LSTM的故障预测方案以及传统的基于LSTM的算法的预测性能的示图。参照图15,基于TPR(true positive rate)性能指标对SSD故障预测的性能进行了评价,从图15可以看出,利用根据本公开的实施例的下采样集成策略能有效的提高SSD故障预测的准确率。
图16为根据本公开的实施例的电子装置1000的示意图。
图16的电子装置1000基本上可以是移动系统,例如便携式通信终端(例如,移动电话)、智能手机、平板个人计算机(PC)、可穿戴装置、医疗保健装置或物联网(IOT)装置。但是,图16的电子装置1000不必限于移动系统,其可以是PC、膝上型计算机、服务器、媒体播放器或汽车装置(例如,导航装置)。
参照图16,电子装置1000可以包括主处理器1100、存储器(例如,1200a和1200b)以及存储装置(例如,1300a和1300b)。并且,电子装置1000可以包括图像捕获装置1410、用户输入装置1420、传感器1430、通信装置1440、显示器1450、扬声器1460、供电装置1470以及连接接口1480中的至少一个。
主处理器1100可以控制电子装置1000的所有操作,更具体地,可以控制电子装置1000中包括的其他组件的操作。主处理器1100可以被实现为通用处理器、专用处理器或应用程序处理器等。
主处理器1100可以包括至少一个中央处理器(CPU)核1110,并且还包括控制器1120,其用于控制存储器1200a和1200b和/或存储装置1300a和1300b。在一些实施例中,主处理器1100可以进一步包括加速器1130,其是用于诸如人工智能(AI)数据操作等的高速数据操作的专用电路。加速器1130可以包括图形处理单元(GPU)、神经处理单元(NPU)和/或数据处理单元(DPU)等,并且被实现为与主处理器1100的其他组件物理上分离的芯片。
存储器1200a和1200b可以用作电子装置1000的主存储装置。尽管存储器1200a和1200b可以分别包括易失性存储器,例如静态随机存取存储器(SRAM)和/或动态随机存取存储器(DRAM)等,但是存储器1200a和1200b可以分别包括非易失性存储器,例如闪存、相变随机存取存储器(PRAM)和/或电阻式随机存取存储器(RRAM)等。存储器1200a和1200b可以在与主处理器1100相同的封装中实现。
存储装置1300a和1300b可以用作非易失性存储装置,其被配置为不管是否被供电都存储数据,并且具有比存储器1200a和1200b更大的存储容量。存储装置1300a和1300b可以分别包括存储器控制器(STRG CTRL)1310a和1310b以及非易失性存储器(NVM)1320a和1320b,其被配置为经由存储器控制器1310a和1310b的控制来存储数据。尽管NVM 1320a和1320b可以包括具有二维(2D)或三维(3D)结构的V-NAND闪存,但是NVM 1320a和1320b可以包括其他类型的NVM,例如PRAM和/或RRAM等。
存储装置1300a和1300b可以与主处理器1100物理上分离并且包括在电子装置1000中,或者可以在与主处理器1100相同的封装中实现。另外,存储装置1300a和1300b可以具有固态装置(SSDs)或存储卡的类型,并且可以通过诸如稍后将描述的连接接口1480之类的接口与系统100的其他组件可移除地结合。存储装置1300a和1300b可以是应用了诸如通用闪存(UFS)、嵌入式多媒体卡(eMMC)或NVMe之类的标准协议的装置,但不限于此。
图像捕获装置1410可以拍摄静止图像或运动图像。图像捕获装置1410可以包括照相机、便携式摄像机和/或网络摄像头等。
用户输入装置1420可以接收由电子装置1000的用户输入的各种类型的数据,并且包括触摸板、键区、键盘、鼠标和麦克风等。
传感器1430可以检测可以从电子装置1000的外部获得的各种类型的物理量,并将所检测的物理量转换成电信号。传感器1430可以包括温度传感器、压力传感器、照度传感器、位置传感器、加速度传感器、生物传感器和/或陀螺仪传感器等。
通信装置1440可以根据各种通信协议在电子装置1000外部的其他装置之间发送和接收信号。通信装置1440可以包括天线、收发器或调制解调器等。
显示器1450和扬声器1460可以用作输出装置,其被配置为分别向电子装置1000的用户输出视觉信息和听觉信息。
供电装置1470可以适当地转换从嵌入在电子装置1000中的电池(未示出)和/或外部电源供应的电力,并且将所转换的电力供应给电子装置1000的每个组件。
连接接口1480可以提供电子装置1000和外部装置之间的连接,该外部装置连接到电子装置1000并且能够向电子装置1000发送数据和从电子装置1000接收数据。连接接口1480可以通过使用各种接口方案来实现,例如,高级技术附件(ATA)、串行ATA(SATA)、外部串行ATA(e-SATA)、小型计算机系统接口(SCSI)、串行SCSI(SAS)、外部设备互连(PCI)、PCIexpress(PCIe)、NVMe、IEEE 1394、通用串行总线(USB)接口、安全数码(SD)卡接口、多媒体卡(MMC)接口、嵌入式多媒体卡(eMMC)接口、UFS接口、嵌入式UFS(eUFS)接口和紧凑式闪存(CF)卡接口等。
根据本公开的实施例,提供了一种存储系统,包括:存储器(例如,图16中的1200a和1200b),存储一个或更多个指令;多个存储装置(例如,图16中的1300a和1300b);以及主处理器(例如,图16中的1100),被配置为执行所述一个或更多个指令以执行如上所述的存储装置的故障预测方法。
例如,主处理器(图16中的1100),被配置为执行所述一个或更多个指令以将实时采集的所述多个存储装置中的存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用所述多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
图17是根据本公开实施例的主机存储系统10的框图。
主机存储系统10可以包括主机100和存储装置200。此外,存储装置200可以包括存储器控制器210和NVM 220。根据本发明的示例性实施例,主机100可以包括主机控制器110和主机存储器120。主机存储器120可以用作缓冲存储器,其被配置为临时存储要发送到存储装置200的数据或从存储装置200接收的数据。
存储装置200可以包括存储介质,其被配置为响应于来自主机100的请求而存储数据。作为示例,存储装置200可以包括SSD、嵌入式存储器和可装卸的外部存储器中的至少一个。当存储装置200是SSD时,存储装置200可以是符合NVMe标准的装置。当存储装置200是嵌入式存储器或外部存储器时,存储装置200可以是符合UFS标准或eMMC标准的装置。主机100和存储装置200均可以根据采用的标准协议来生成包(packet)并发送该包。
当存储装置200的NVM 220包括闪存时,所述闪存可以包括2D NAND存储阵列或3D(或垂直)NAND(VNAND)存储阵列。作为另一示例,存储装置200可以包括各种其他种类的NVM。例如,存储装置200可以包括磁性随机存取存储器(MRAM)、自旋转移扭矩MRAM、导电桥式RAM(CBRAM)、铁电RAM(FRAM)、PRAM、RRAM以及各种其他类型的存储器。
根据一实施例,主机控制器110和主机存储器120可以实现为单独的半导体芯片。或者,在一些实施例中,主机控制器110和主机存储器120可以集成在同一半导体芯片中。作为示例,主机控制器110可以是包括在应用处理器(AP)中的多个模块中的任何一个。所述AP可以实现为片上系统(SoC)。此外,主机存储器120可以是所述AP中包括的嵌入式存储器或所述AP外部的存储器模块。
主机控制器110可以管理将主机存储器120的缓冲区域的数据(例如,写入数据)存储在NVM 220中的操作或将NVM 220的数据(例如,读取数据)存储在缓冲区域中的操作。
存储器控制器210可以包括主机接口211、存储器接口212和CPU 213。另外,存储器控制器210还可以包括闪存转换层(FTL)、包管理器215、缓冲存储器216、纠错码(ECC)引擎217和高级加密标准(AES)引擎218。存储器控制器210可以进一步包括其中装载有FTL 214的工作存储器(未示出)。CPU 213可以执行FTL 214来控制NVM 220上的数据写入和读取操作。
主机接口211可以向主机100发送包和从主机100接收包。从主机100发送到主机接口211的包可以包括命令或要被写入NVM 220的数据等。从主机接口211发送到主机100的包可以包括对命令的响应或从NVM 220读取的数据等。存储器接口212可以将要被写入NVM220的数据发送到NVM 220或接收从NVM 220读取的数据。存储器接口212可以被配置为符合诸如切换(Toggle)或开放NAND闪存接口(ONFI)的标准协议。
FTL 214可以执行各种功能,例如地址映射操作、磨损均衡操作以及垃圾收集操作。地址映射操作可以是将从主机100接收的逻辑地址转换为用于在NVM 220中实际存储数据的物理地址的操作。磨损均衡操作可以是通过允许均匀地使用NVM 220的块来防止特定块的过度退化的技术。作为示例,磨损均衡操作可以通过使用平衡物理块的擦写计数的固件技术来实现。垃圾收集操作可以是通过在将现有块的有效数据复制到新块之后擦除现有块来确保NVM 220中的可用容量的技术。
包管理器215可以根据同意主机100的接口的协议生成包,或者从从主机100接收到的包中解析各种类型的信息。另外,缓冲存储器216可以临时存储要写入NVM 220的数据或要从NVM 220读取的数据。尽管缓冲存储器216可以是包括在存储器控制器210中的组件,但是缓冲存储器216可以在存储器控制器210的外部。
ECC引擎217可以对从NVM 220读取的读取数据执行错误检测和校正操作。更具体地,ECC引擎217可以生成用于要写入到NVM 220的写入数据的奇偶校验位,并且所生成的奇偶校验位可以与写入数据一起存储在NVM 220中。在从NVM 220读取数据期间,ECC引擎217可以通过使用读取数据以及从NVM 220读取的奇偶校验位来校正读取数据中的错误,并输出错误校正后的读取数据。
AES引擎218可以通过使用对称密钥算法对输入到存储器控制器210的数据执行加密操作和解密操作中的至少一个。
根据本公开的实施例,提供了一种主机存储系统,包括:主机(例如图17中的100),包括主机存储器(例如,图17中的110)和主机控制器(例如,图17中的120);以及存储装置(例如,图17中的200),其中,所述主机存储器存储有当由主机控制器执行时执行如上所述的存储装置的故障预测方法的指令。
例如,所述主机存储器存储有当由主机控制器执行时执行以下操作的指令:将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
图18为根据本公开的实施例的UFS系统2000的框图。
UFS系统2000可以是符合电子工程设计发展联合协会(JEDEC)所宣布的UFS标准的系统,并且包括UFS主机2100、UFS装置2200以及UFS接口2300。在不与图18的描述冲突的范围内,对于图16的电子装置1000的以上描述也可以应用于图18的UFS系统2000。
参照图18,UFS主机2100可以通过UFS接口2300连接到UFS装置2200。当图16的主处理器1100为应用处理器时,UFS主机2100可以实现为应用处理器的一部分。UFS主机控制器2110和主机存储器2140可以分别对应于图16的主处理器1100的和控制器1120以及存储器1200a和1200b。UFS装置2200可以对应于图16的存储装置1300a和1300b,并且UFS装置控制器2210和NVM 2220可以分别对应于图16的存储器控制器1310a和1310b以及NVM1320a和1320b。
UFS主机2100可以包括UFS主机控制器2110、应用程序2120、UFS驱动器2130,主机存储器2140和UFS互连(UIC)层2150。UFS装置2200可以包括UFS装置控制器2210、NVM 2220、存储接口2230、装置存储器2240、UIC层2250以及调节器2260。NVM 2220可以包括多个存储元件2221。尽管每个存储元件2221可以包括具有2D结构或3D结构的V-NAND闪存,但是每个存储元件2221可以包括另一种NVM,例如PRAM和/或RRAM等。UFS装置控制器2210可以通过存储接口2230连接到NVM 2220。存储接口2230可以设置为符合诸如Toggle或ONFI的标准协议。
应用程序2120可以指想要与UFS装置2200进行通信以使用UFS装置2200的功能的程序。应用程序2120可以发送输入-输出请求(IOR)到UFS驱动器2130,以用于UFS装置2200上的输入/输出(I/O)操作。IOR可以指数据读取请求、数据存储(或写入)请求和/或数据擦除(或丢弃)请求,但不限于此。
UFS驱动器2130可以通过UFS-主机控制器接口(UFS-HCI)来管理UFS主机控制器2110。UFS驱动器2130可以将由应用程序2120生成的IOR转换为由UFS标准定义的UFS命令,并且将UFS命令发送到UFS主机控制器2110。一个IOR可以被转换成多个UFS命令。尽管UFS命令基本上可以由SCSI标准定义,但是UFS命令可以是专用于UFS标准的命令。
UFS主机控制器2110可以通过UIC层2150和UFS接口2300将由UFS驱动器2130转换的UFS命令发送到UFS装置2200的UIC层2250。在UFS命令的发送期间,UFS主机控制器2110的UFS主机寄存器2111可以用作命令队列(CQ)。
在UFS主机2100一侧上的UIC层2150可以包括移动产业处理器接口(MIPI)M-PHY2151和MIPI UniPro 2152,并且在UFS装置2200一侧上的UIC层2150也可以包括MIPI M-PHY2251和MIPI UniPro 2252。
UFS接口2300可以包括配置为发送参考时钟信号REF_CLK的线、配置为发送UFS装置2200的硬件重置信号RESET_n的线、配置为发送一对差分输入信号DIN_t和DIN_c的一对线以及配置为发送一对差分输出信号DOUT_t和DOUT_c的一对线。
从UFS主机2100提供给UFS装置2200的参考时钟信号REF_CLK的频率可以是19.2MHz、26MHz、38.4MHz和52MHz中的一个,但不限于此。UFS主机2100可以在操作期间,即,在UFS主机2100和UFS装置2200之间的数据发送/接收操作期间,改变参考时钟信号REF_CLK的频率。UFS装置2200可以通过使用锁相环(PLL)从由UFS主机2100提供的参考时钟信号REF_CLK生成具有各种频率的时钟信号。并且,UFS主机2100可以通过使用参考时钟信号REF_CLK的频率来设置UFS主机2100和UFS装置2200之间的数据速率。即,可以根据参考时钟信号REF_CLK的频率来确定数据速率。
UFS接口2300可以支持多个通道,每个通道可以实现为一对差分线。例如,UFS接口2300可以包括至少一个接收通道和至少一个发送通道。在图18中,配置为发送一对差分输入信号DIN_T和DIN_C的一对线可以构成接收通道,并且配置为发送一对差分输出信号DOUT_T和DOUT_C的一对线可以构成发送通道。尽管在图18中示出了一个发送通道和一个接收通道,但是可以改变发送通道的数量和接收通道的数量。
接收通道和发送通道可以基于串行通信方案来发送数据。由于接收通道与发送通道分开的结构,因此可以启用UFS主机2100与UFS装置2200之间的全双工通信。即,在通过接收通道从UFS主机2100接收数据的同时,UFS装置2200可以通过发送通道向UFS主机2100发送数据。此外从UFS主机2100到UFS装置2200的控制数据(例如,命令)和要由UFS主机2100存储在UFS装置2200的NVM 2220中或从NVM 2220中读取的用户数据可以通过同一通道发送。因此,在UFS主机2100和UFS装置2200之间,除了一对接收通道和一对发送通道之外,不需要进一步提供用于数据发送的单独通道。
UFS装置2200的UFS装置控制器2210可以控制UFS装置2200的所有操作。UFS装置控制器2210可以通过使用逻辑单元(LU)2211来管理NVM 2220,该LU 2211是逻辑数据存储单元。LU 2211的数量可以是8,但不限于此。UFS装置控制器2210可以包括FTL,并且通过使用FTL的地址映射信息将从UFS主机2100接收到的逻辑数据地址(例如,逻辑块地址(LBA)转换为物理数据地址(例如,物理块地址(PBA))。配置为在UFS系统2000中存储用户数据的逻辑块可以具有预定范围内的尺寸。例如,可以设置逻辑块的最小尺寸为4Kbyte。
当通过UIC层2250将来自UFS主机2100的命令施加到UFS装置2200时,UFS装置控制器2210可以响应于该命令而执行操作,并且当操作完成时将完成响应发送给UFS主机2100。
作为示例,当UFS主机2100意在将用户数据存储在UFS装置2200中时,UFS主机2100可以向UFS装置2200发送数据存储命令。当从UFS装置2200接收到指示UFS主机2100准备好接收用户数据(就绪传输)的响应(“就绪传输”响应)时,UFS主机2100可以将用户数据发送到UFS装置2200。UFS装置控制器2210可以将接收到的用户数据临时存储在装置存储器2240中,并且基于FTL的地址映射信息,将临时存储在装置存储器2240中的用户数据存储在NVM2220的选定位置。
作为另一示例,当UFS主机2100意在读取存储在UFS装置2200中的用户数据时,UFS主机2100可以向UFS装置2200发送数据读取命令。已经接收到该命令的UFS装置控制器2210可以基于数据读取命令从NVM 2220读取用户数据,并将读取的用户数据临时存储装置存储器2240中。在读取操作期间,UFS装置控制器2210可以通过使用嵌入在其中的ECC引擎(未示出)来检测并校正读取的用户数据中的错误。更具体地,ECC引擎可以生成用于要写入NVM2220的写入数据的奇偶校验位,并且所生成的奇偶校验位可以与写入数据一起存储在NVM2220中。在从NVM 2220读取数据期间,ECC引擎可以通过使用读取数据以及从NVM 2220读取的奇偶校验位来校正读取数据中的错误,并输出错误校正后的读取数据。
另外,UFS装置控制器2210可以将临时存储在装置存储器2240中的用户数据发送到UFS主机2100。并且,UFS装置控制器2210还可以包括AES引擎(未示出)。AES引擎可以通过使用对称密钥算法对发送到UFS装置控制器2210的数据执行加密操作和解密操作中的至少一个。
UFS主机2100可以将要发送到UFS装置2200的命令顺序存储在可以用作公共队列的UFS主机寄存器2111中,并且顺序地将命令发送给UFS装置2200。在这种情况下,即使当先前发送的命令仍由UFS装置2200处理时,即,即使在接收到先前发送的命令已经由UFS装置2200处理的通知之前,UFS主机2100也可以将在CQ中待命的下一命令发送到UFS装置2200。因此,在处理先前发送的命令期间,UFS装置2200还可以从UFS主机2100接收下一命令。可以在CQ中存储的命令的最大数量(或队列深度)可以是例如32。并且,可以将CQ实现为循环队列,其中通过头指针和尾指针指示存储在队列中的命令行的开始和结束。
多个存储元件2221中的每一个可以包括存储单元阵列(未示出)和配置为控制存储单元阵列的操作的控制电路(未示出)。存储单元阵列可以包括2D存储单元阵列或3D存储单元阵列。存储单元阵列可以包括多个存储单元。尽管每个存储单元都是设置为存储1位信息的单层单元(SLC),但是每个存储单元可以是设置为存储2位或更多位信息的单元,例如多层单元(MLC)、三层单元(TLC)和四层单元(QLC)。3D存储单元阵列可以包括垂直NAND串,其中至少一个存储单元垂直定向并位于另一存储单元上。
可以将电压VCC、VCCQ和VCCQ2等作为电源电压施加到UFS装置2200。电压VCC可以是用于UFS装置2200的主电源电压,并且可以在2.4V至3.6V的范围内。电压VCCQ可以是主要用于向UFS装置控制器2210供应低压的电源电压,并且可以在1.14V至1.26V的范围内。电压VCCQ2可以是用于主要向诸如MIPI M-PHY 2251之类的I/O接口供应低于电压VCC并且高于电压VCCQ的电压的电源电压,并且可以在1.7V至1.95V的范围内。可以通过调节器2260将电源电压提供给UFS装置2200的各个组件。调节器2260可以实现为一组单元调节器,其分别连接到上述电源电压中的不同电源电压。
根据本公开的实施例,提供了一种UFS系统,包括:UFS装置(图18中的2200);UFS主机(例如,图18中的2100);以及UFS接口(图18中的2300),用于UFS装置和UFS主机之间的通信,其中,所述UFS主机被配置为执行如上所述的存储装置的故障预测方法。
例如,所述UFS主机可被配置为:将经由UFS接口实时采集的所述UFS装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述UFS装置的SMART数据的分类结果,其中,每个基分类模型利用多个UFS装置的历史SMART数据和/或在线采集的所述多个UFS装置的SMART数据训练而获得;基于多个分类模型的分类结果确定实时采集的所述UFS装置的SMART数据是健康数据还是故障数据;基于预定时间窗口内采集到的所述UFS装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述UFS装置是否将出现故障。
本领域技术人员应当理解,图16中的主处理器、图17中的主机以及图18中的UFS主机可用于执行本文所述的存储装置的故障预测方法。由于在上文中已经对存储装置的故障预测方法进行了详细描述,故在此不做赘述。
根据本公开的实施例,提供了一种存储系统,包括:存储装置(例如,图5中的17),包括多个非易失性存储器NVM(例如,图5中的VNM11-VNMmn);以及存储器控制器(例如,图5中的16),被配置为:将实时采集的所述多个NVM中的NVM的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述NVM的SMART数据的分类结果,其中,每个基分类模型利用所述多个NVM的历史SMART数据和/或在线采集的所述多个NVM的SMART数据训练而获得;基于多个分类模型的分类结果确定实时采集的所述NVM的SMART数据是健康数据还是故障数据;基于预定时间窗口内采集到的所述NVM的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述NVM是否将出现故障。
根据本公开的实施例,提供了根据本公开的实施例,提供了一种数据中心系统(例如,图6中的3000),包括:多个应用服务器(例如,图6中的应用服务器1-N);以及多个存储服务器(例如,图6中的存储服务器1-M),其中,每个存储服务器包括存储装置(例如,图6中的3250-3250m),其中,多个应用服务器中的一个被配置为执行如上所述的存储装置的故障预测方法。
例如,多个应用服务器中的一个可被配置为:将实时采集的所述多个存储服务器中的一个存储服务器的存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述一个存储服务器的存储装置的SMART数据的分类结果,其中,每个基分类模型利用所述多个存储服务器的多个存储装置的历史SMART数据和/或在线采集的所述多个存储服务器的多个存储装置的的SMART数据训练而获得;基于多个分类模型的分类结果确定实时采集的所述一个存储服务器的存储装置的SMART数据是健康数据还是故障数据;基于预定时间窗口内采集到的所述一个存储服务器的存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述一个存储服务器的存储装置是否将出现故障。
根据本公开的示例性实施例,提供了一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时实现如上所述的存储装置的故障预测方法。
图19是示出根据本公开的示例性实施例的存储装置的故障预测装置的结构的框图。该故障预测装置1900例如可以是:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。故障预测装置1900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,故障预测装置1900包括有:处理器1901和存储器1902。
处理器1901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(FieldProgrammable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1901所执行以实现本公开的训练回声消除模型和/或消除回声延迟的方法。
在一些实施例中,故障预测装置1900还可选包括有:外围设备接口1903和至少一个外围设备。处理器1901、存储器1902和外围设备接口1903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1903相连。具体地,外围设备包括:射频电路1904、触摸显示屏1905、摄像头1906、音频电路1907、定位组件1908和电源1909。
外围设备接口1903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1901和存储器1902。在一些实施例中,处理器1901、存储器1902和外围设备接口1903被集成在同一芯片或电路板上;在一些其他实施例中,处理器1901、存储器1902和外围设备接口1903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏1905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1905是触摸显示屏时,显示屏1905还具有采集在显示屏1905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1901进行处理。此时,显示屏1905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1905可以为一个,设置在故障预测装置1900的前面板;在另一些实施例中,显示屏1905可以为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在再一些实施例中,显示屏1905可以是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1905还可以设置成非矩形的不规则图形,也即异形屏。显示屏1905可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1906用于采集图像或视频。可选地,摄像头组件1906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1901进行处理,或者输入至射频电路1904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1901或射频电路1904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1907还可以包括耳机插孔。
定位组件1908用于定位故障预测装置1900的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1908可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1909用于为故障预测装置1900中的各个组件进行供电。电源1909可以是交流电、直流电、一次性电池或可充电电池。当电源1909包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,故障预测装置1900还包括有一个或多个传感器1910。该一个或多个传感器1910包括但不限于:加速度传感器1911、陀螺仪传感器1912、压力传感器1913、指纹传感器1914、光学传感器1915以及接近传感器1916。
加速度传感器1911可以检测以终端1900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1911可以用于检测重力加速度在三个坐标轴上的分量。处理器1901可以根据加速度传感器1911采集的重力加速度信号,控制触摸显示屏1905以横向视图或纵向视图进行用户界面的显示。加速度传感器1911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1912可以检测终端1900的机体方向及转动角度,陀螺仪传感器1912可以与加速度传感器1911协同采集用户对终端1900的3D动作。处理器1901根据陀螺仪传感器1912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1913可以设置在终端1900的侧边框和/或触摸显示屏1905的下层。当压力传感器1913设置在终端1900的侧边框时,可以检测用户对终端1900的握持信号,由处理器1901根据压力传感器1913采集的握持信号进行左右手识别或快捷操作。当压力传感器1913设置在触摸显示屏1905的下层时,由处理器1901根据用户对触摸显示屏1905的压力操作,实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1914用于采集用户的指纹,由处理器1901根据指纹传感器1914采集到的指纹识别用户的身份,或者,由指纹传感器1914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1914可以被设置故障预测装置1900的正面、背面或侧面。当故障预测装置1900上设置有物理按键或厂商Logo时,指纹传感器1914可以与物理按键或厂商Logo集成在一起。
光学传感器1915用于采集环境光强度。在一个实施例中,处理器1901可以根据光学传感器1915采集的环境光强度,控制触摸显示屏1905的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1905的显示亮度;当环境光强度较低时,调低触摸显示屏1905的显示亮度。在另一个实施例中,处理器1901还可以根据光学传感器1915采集的环境光强度,动态调整摄像头组件1906的拍摄参数。
接近传感器1916,也称距离传感器,通常设置在故障预测装置1900的前面板。接近传感器1916用于采集用户与故障预测装置1900的正面之间的距离。在一个实施例中,当接近传感器1916检测到用户与终端1900的正面之间的距离逐渐变小时,由处理器1901控制触摸显示屏1905从亮屏状态切换为息屏状态;当接近传感器1916检测到用户与故障预测装置1900的正面之间的距离逐渐变大时,由处理器1901控制触摸显示屏1905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图19中示出的结构并不构成对故障预测装置1900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的存储装置的故障预测方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的实施例中,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成存储装置的故障预测方法。
根据本公开的实施例的用于存储装置的故障预测的方法、装置、电子设备、计算机可读存储介质能够更准确地预测存储装置的故障。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

Claims (14)

1.一种存储装置的故障预测方法,包括:
将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;
基于多个基分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;
基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
2.如权利要求1所述的方法,其中,每个基分类模型为利用所述多个存储装置的历史SMART数据中的所有故障数据以及所述历史SMART数据中的健康数据的与每个基分类模型相应的第一子集训练而获得的初始基分类模型,其中,所述历史SMART数据中的健康数据被划分为多个第一子集,其中,所述多个第一子集彼此之间无交叉。
3.如权利要求2所述的方法,其中,每个基分类模型是通过利用在线获取的所述多个存储装置的SMART数据对所述初始基分类模型进行训练更新而获得更新的基分类模型,
其中,获得每个更新的分类模型利用的训练数据为:
在当前时刻之前最近获取的针对所述多个存储装置中的处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据的与每个更新的基分类模型相应的第二子集,以及
在当前时刻之前最近获取的针对所述多个存储装置中的处于故障状态的存储装置的SMART数据队列中的SMART数据,
其中,所述SMART数据队列具有预定大小,
其中,在当前时刻之前最近获取的针对所述多个存储装置中的处于健康状态的存储装置的SMART数据队列中的最早采集到的SMART数据被划分为多个第二子集,所述多个第二子集彼此不交叉。
4.如权利要求1所述的方法,其中,每个基分类模型为长短记忆网络LSTM模型。
5.如权利要求2或3所述的方法,还包括:
通过训练获得每个基分类模型或者从外部设备接收训练好的每个基分类模型。
6.如权利要求1所述的方法,其中,所述预测所述存储装置是否将出现故障的步骤包括:
当被确定为故障数据的SMART数据的数量大于被确定为健康数据的SMART数据的数量时,确定所述存储装置将出现故障;
和/或,当被确定为故障数据的SMART数据的数量不大于被确定为健康数据的SMART数据的数量时,确定所述存储装置将不出现故障。
7.一种存储装置的故障预测装置,包括:
分类单元,被配置为将实时采集的所述存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;
初始确定单元,被配置为基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;
最终确定单元,被配置为基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
8.一种存储装置的故障预测系统,包括:
多个存储装置;
分类单元,被配置为:将实时采集的所述多个存储装置中的存储装置的SMART数据输入到多个基分类模型中的每个基分类模型,以获取每个基分类模型输出的针对实时采集的所述存储装置的SMART数据的分类结果,其中,每个基分类模型利用所述多个存储装置的历史SMART数据和/或在线采集的所述多个存储装置的SMART数据训练而获得;
初始确定单元,被配置为:基于多个分类模型的分类结果确定实时采集的所述存储装置的SMART数据是健康数据还是故障数据;
最终确定单元,被配置为:基于预定时间窗口内采集到的所述存储装置的SMART数据被确定为健康数据的SMART数据的数量和被确定为故障数据的SMART数据的数量来预测所述存储装置是否将出现故障。
9.一种电子装置,包括:
存储器,被配置为存储一个或更多个指令;
多个存储装置;以及
主处理器,被配置为执行所述一个或更多个指令以执行如权利要求1-6中的任一项所述的存储装置的故障预测方法。
10.一种主机存储系统,包括:
主机,包括主机存储器和主机控制器;以及
存储装置,
其中,所述主机存储器存储有当由主机控制器执行时执行如权利要求1-6中的任一项所述的存储装置的故障预测方法的指令。
11.一种通用闪存存储(UFS)系统,包括:
UFS装置;
UFS主机;以及
UFS接口,用于UFS装置和UFS主机之间的通信,
其中,所述UFS主机被配置为执行如权利要求1-6中的任一项所述的存储装置的故障预测方法。
12.一种存储系统,包括:
存储装置,包括多个非易失性存储器NVM;以及
存储器控制器,被配置为执行如权利要求1-6中的任一项所述的存储装置的故障预测方法。
13.一种数据中心系统,包括:
多个应用服务器;以及
多个存储服务器,其中,每个存储服务器包括存储装置,
其中,多个应用服务器中的一个被配置为执行如权利要求1-6中的任一项所述的存储装置的故障预测方法。
14.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时实现如权利要求1-6中的任一项所述的存储装置的故障预测方法。
CN202111322071.XA 2021-11-09 2021-11-09 存储装置的故障预测方法和装置 Pending CN114282342A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111322071.XA CN114282342A (zh) 2021-11-09 2021-11-09 存储装置的故障预测方法和装置
KR1020220083476A KR20230067486A (ko) 2021-11-09 2022-07-07 스토리지 장치의 고장 예측 방법 및 장치
US17/867,086 US11994934B2 (en) 2021-11-09 2022-07-18 Failure prediction method and device for a storage device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111322071.XA CN114282342A (zh) 2021-11-09 2021-11-09 存储装置的故障预测方法和装置

Publications (1)

Publication Number Publication Date
CN114282342A true CN114282342A (zh) 2022-04-05

Family

ID=80868854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111322071.XA Pending CN114282342A (zh) 2021-11-09 2021-11-09 存储装置的故障预测方法和装置

Country Status (3)

Country Link
US (1) US11994934B2 (zh)
KR (1) KR20230067486A (zh)
CN (1) CN114282342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115328062A (zh) * 2022-08-31 2022-11-11 济南永信新材料科技有限公司 水刺布生产线智能控制系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189309B1 (en) * 2013-09-25 2015-11-17 Emc Corporation System and method for predicting single-disk failures
CN103559115A (zh) 2013-09-29 2014-02-05 记忆科技(深圳)有限公司 基于smart的ssd智能监控系统
CN108052528B (zh) 2017-11-09 2019-11-26 华中科技大学 一种存储设备时序分类预警方法
CN108228377B (zh) 2017-12-29 2020-07-07 华中科技大学 一种面向磁盘故障检测的smart阈值优化方法
CN108304287B (zh) 2018-01-22 2021-05-28 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108986869B (zh) 2018-07-26 2021-04-30 南京群顶科技有限公司 一种使用多模型预测的磁盘故障检测方法
US11579951B2 (en) 2018-09-27 2023-02-14 Oracle International Corporation Disk drive failure prediction with neural networks
CN111459692B (zh) 2019-01-18 2023-08-18 伊姆西Ip控股有限责任公司 用于预测驱动器故障的方法、设备和计算机程序产品
CN111782491B (zh) 2019-11-15 2022-03-22 华中科技大学 一种磁盘故障预测方法、装置、设备及存储介质
CN111949459B (zh) 2020-08-10 2022-02-01 南京航空航天大学 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN112000288A (zh) 2020-08-20 2020-11-27 苏州浪潮智能科技有限公司 Ssd剩余使用时间预测方法、装置、设备、介质
CN112214369A (zh) 2020-10-23 2021-01-12 华中科技大学 基于模型融合的硬盘故障预测模型建立方法及其应用
CN112395179B (zh) 2020-11-24 2023-03-10 创新奇智(西安)科技有限公司 一种模型训练方法、磁盘预测方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115328062A (zh) * 2022-08-31 2022-11-11 济南永信新材料科技有限公司 水刺布生产线智能控制系统
US11853019B1 (en) 2022-08-31 2023-12-26 Jinan Winson New Materials Technology Co., Ltd. Intelligent control of spunlace production line using classification of current production state of real-time production line data

Also Published As

Publication number Publication date
US20230141749A1 (en) 2023-05-11
US11994934B2 (en) 2024-05-28
KR20230067486A (ko) 2023-05-16

Similar Documents

Publication Publication Date Title
US11921629B1 (en) Method and device for data storage
EP4383059A1 (en) Data storage method and device for data storage
US11994934B2 (en) Failure prediction method and device for a storage device
US20240037027A1 (en) Method and device for storing data
KR20240025451A (ko) 데이터 캐싱을 위한 방법 및 장치
CN106055488B (zh) 数据储存设备及其操作方法
KR20230167729A (ko) 스토리지 장치를 위한 아웃-오브-밴드 관리 방법, 베이스보드 관리 컨트롤러 및 스토리지 장치
CN114974326B (zh) 用于在存储器装置中存储和回收关键数据的方法和装置
CN117495371A (zh) 存储系统、存储装置以及控制存储系统的方法
KR20230071730A (ko) 데이터 프로세싱 장치 및 그것의 동작 방법
EP3992799A1 (en) Electronic device and automotive device
CN115774848A (zh) 存储装置的故障预测方法和装置
US20230393749A1 (en) Method and device of storage data
KR20240085876A (ko) 데이터 저장 방법 및 데이터 저장 장치
US20230409200A1 (en) Method and device for data storage
CN118113506A (zh) 存储装置的故障预测方法和装置
EP4386557A1 (en) Method and device for log structured merge-tree based key-value data storage
EP4148572A1 (en) Computational storage device and storage system including the computational storage device
EP4177758A1 (en) A storage device and an operating method of a storage controller thereof
CN117008826A (zh) 数据压缩方法和装置
CN117055816A (zh) 配置zns ssd的区域的方法和装置
CN114327254A (zh) 存储数据的方法和装置
CN116756106A (zh) 有序字符串表文件的压缩方法和装置
KR20240087548A (ko) 로그 구조 병합 트리 기반의 키-값 데이터 저장 방법 및 장치
KR20230168390A (ko) 스토리지 장치 및 전자 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication