CN115793990B - 存储器健康状态确定方法、装置、电子设备及存储介质 - Google Patents

存储器健康状态确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115793990B
CN115793990B CN202310068394.3A CN202310068394A CN115793990B CN 115793990 B CN115793990 B CN 115793990B CN 202310068394 A CN202310068394 A CN 202310068394A CN 115793990 B CN115793990 B CN 115793990B
Authority
CN
China
Prior art keywords
memory
parameter
feature
determining
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310068394.3A
Other languages
English (en)
Other versions
CN115793990A (zh
Inventor
陈涛涛
胡亚弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202310068394.3A priority Critical patent/CN115793990B/zh
Publication of CN115793990A publication Critical patent/CN115793990A/zh
Application granted granted Critical
Publication of CN115793990B publication Critical patent/CN115793990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种存储器健康状态确定方法、装置、电子设备及存储介质,属于存储器技术领域。包括:获取目标存储器的运行信息;运行信息包括多种存储器参数对应的参数值;基于运行信息进行特征提取,得到存储器特征;将存储器特征输入分类模型,得到分类模型输出的故障置信度;基于故障置信度确定目标存储器的健康状态。能够从多种存储器参数中提取存储器特征,基于存储器特征确定目标存储器的健康状态,使得存储器的健康状态可以综合多种存储器参数进行综合判断获得,能够提升存储器健康状态判定的准确性,还能在存储器未发生实质错误的情况下提前对存储器的健康状态进行判定,减少存储器故障可能造成的损失。

Description

存储器健康状态确定方法、装置、电子设备及存储介质
技术领域
本发明属于存储器技术领域,具体涉及一种存储器健康状态确定方法、装置、电子设备及存储介质。
背景技术
随着大数据和云计算时代的到来,越来越多的机构都依靠数据中心来存储和处理数据,存储器是数据中心和云存储等存储系统的核心硬件,存储器是否能够提供稳定可靠的数据访问能力,直接影响整个系统存储的可用性和可靠性。
相关技术中,为提高系统存储的可用性和可靠性,在一种方式中,通常会对存储器在运行过程中产生的运行日志进行监控,读取存储器的运行日志,并从运行日志中获取存储器的错误信息,再根据错误信息的数量与数量阈值进行比对,从而判断存储器的健康状态。
上述方法中,存储器的运行日志中一旦产生错误信息,存储器可能已经发生影响数据安全的故障,或已经处于崩溃边缘,无法给运维人员预留出足够的时间去更换存储器和备份数据,因此,相关技术中确定存储器健康状态的方式准确性较差。
发明内容
本发明实施例的目的是提供一种存储器健康状态确定方法、装置、电子设备及存储介质,能够解决相关技术中确定存储器的健康状态准确度不佳的问题。
第一方面,本发明实施例提供了一种存储器健康状态确定方法,包括:
获取目标存储器的运行信息;其中,所述运行信息包括多种存储器参数对应的参数值;
基于所述运行信息进行特征提取,得到存储器特征;
将所述存储器特征输入分类模型,得到所述分类模型输出的故障置信度;其中,所述分类模型基于神经网络模型训练得到,所述故障置信度用于表征所述目标存储器的不健康程度;
基于所述故障置信度确定所述目标存储器的健康状态。
可选地,所述获取目标存储器的运行信息,包括:
获取所述目标存储器的自我监测分析及报告技术信息和所述多种存储器参数对应的目标参数标识;
基于所述目标参数标识从所述自我监测分析及报告技术信息中获取所述运行信息。
可选地,所述方法还包括:
在所述运行信息中包含缺失参数值的情况下,从用于训练所述分类模型的模型训练样本中,获取所述缺失参数值的存储器参数对应的样本参数值;
基于所述样本参数值计算平均参数值,采用所述平均参数值填充所述缺失参数值。
可选地,所述存储器参数包括底层数据读取错误率、主轴起旋时间、重映射扇区数、寻道错误率、通电时间累计、无法校正的错误、高飞写入、温度、硬件错误检查和纠正校正信息、读取错误块计数、脱机无法校正的扇区计数中的多种。
可选地,所述基于所述运行信息进行特征提取,得到存储器特征,包括:
基于所述运行信息生成参数特征;
基于所述参数特征,确定所述目标存储器对应的存储器特征。
可选地,所述基于所述运行信息生成参数特征,包括:
将所述运行信息中的参数值,按照预设顺序组合,得到中间特征向量;
对所述中间特征向量中的第一特征元素进行归一化处理,得到所述参数特征。
可选地,所述基于所述参数特征,确定所述目标存储器对应的存储器特征,包括:
基于所述参数特征中的第二特征元素,确定所述参数特征中各个特征维度对应的特征值;
基于所述特征值与所述第二特征元素确定第三特征元素;其中,所述第二特征元素与所述第三特征元素存在一一对应关系;
按照所述第二特征元素在所述参数特征中的排列顺序,组合所述第二特征元素对应的所述第三特征元素,得到所述存储器特征。
可选地,所述健康状态包括正常状态和异常状态,所述异常状态表征所述目标存储器在目标时间区间中会发生故障,所述基于所述故障置信度确定所述目标存储器的健康状态,包括:
在所述故障置信度大于第一阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
在所述故障置信度小于或等于所述第一阈值的情况下,基于所述目标存储器对应的历史置信度和所述故障置信度,确定所述目标存储器的健康状态。
可选地,所述基于所述目标存储器对应的历史置信度和所述故障置信度,确定所述目标存储器的健康状态,包括:
根据所述第一阈值、所述故障置信度和所述历史置信度,确定筛选指标;
在所述筛选指标大于第二阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
在所述筛选指标小于或等于所述第二阈值的情况下,确定所述目标存储器的健康状态为所述正常状态。
可选地,所述方法还包括:
在所述目标存储器不存在历史置信度的情况下,确定所述目标存储器的健康状态为所述正常状态。
可选地,所述方法还包括:
获取模型训练样本;其中,所述模型训练样本包括样本运行信息和所述样本运行信息对应的样本标签;
基于LightGBM算法构建初始神经网络模型;
采用所述模型训练样本对所述初始神经网络模型进行训练,得到所述分类模型。
可选地,所述采用所述模型训练样本对所述初始神经网络模型进行训练,得到所述分类模型,包括:
根据所述样本运行信息生成样本存储器特征;
将所述样本存储器特征输入所述初始神经网络模型,得到所述初始神经网络模型输出的训练置信度;
基于相同模型训练样本对应的训练置信度和样本标签,确定模型损失值;
基于所述模型损失值调整所述初始神经网络模型的模型参数,得到所述分类模型。
第二方面,本发明实施例提供了一种存储器健康状态确定装置,该装置包括:
获取模块,用于获取目标存储器的运行信息;其中,所述运行信息包括多种存储器参数对应的参数值;
存储器特征模块,用于基于所述运行信息进行特征提取,得到存储器特征;
置信度模块,用于将所述存储器特征输入分类模型,得到所述分类模型输出的故障置信度;其中,所述分类模型基于神经网络模型训练得到,所述故障置信度用于表征所述目标存储器的不健康程度;
健康状态模块,用于基于所述故障置信度确定所述目标存储器的健康状态;其中,所述健康状态包括正常状态和异常状态,所述异常状态表征所述目标存储器在目标时间区间中会发生故障。
可选地,所述获取模块包括:
获取子模块,用于获取所述目标存储器的自我监测分析及报告技术信息和所述多种存储器参数对应的目标参数标识;
运行信息子模块,用于基于所述目标参数标识从所述自我监测分析及报告技术信息中获取所述运行信息。
可选地,所述装置还包括:
样本参数值模块,用于在所述运行信息中包含缺失参数值的情况下,从用于训练所述分类模型的模型训练样本中,获取所述缺失参数值的存储器参数对应的样本参数值;
参数值填补模块,用于基于所述样本参数值计算平均参数值,采用所述平均参数值填充所述缺失参数值。
可选地,所述存储器参数包括底层数据读取错误率、主轴起旋时间、重映射扇区数、寻道错误率、通电时间累计、无法校正的错误、高飞写入、温度、硬件错误检查和纠正校正信息、读取错误块计数、脱机无法校正的扇区计数中的多种。
可选地,所述存储器特征模块包括:
参数特征子模块,用于基于所述运行信息生成参数特征;
存储器特征子模块,用于基于所述参数特征,确定所述目标存储器对应的存储器特征。
可选地,所述基于所述运行信息生成参数特征,包括:
中间特征向量子模块,用于将所述运行信息中的参数值,按照预设顺序组合,得到中间特征向量;
参数特征获取子模块,用于对所述中间特征向量中的第一特征元素进行归一化处理,得到所述参数特征。
可选地,所述存储器特征子模块包括:
特征值子模块,用于基于所述参数特征中的第二特征元素,确定所述参数特征中各个特征维度对应的特征值;
第三特征元素子模块,用于基于所述特征值与所述第二特征元素确定第三特征元素;其中,所述第二特征元素与所述第三特征元素存在一一对应关系;
存储器特征获取子模块,用于按照所述第二特征元素在所述参数特征中的排列顺序,组合所述第二特征元素对应的所述第三特征元素,得到所述存储器特征。
可选地,所述健康状态包括正常状态和异常状态,所述异常状态表征所述目标存储器在目标时间区间中会发生故障,所述健康状态模块包括:
第一异常子模块,用于在所述故障置信度大于第一阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
健康状态子模块,用于在所述故障置信度小于或等于所述第一阈值的情况下,基于所述目标存储器对应的历史置信度和所述故障置信度,确定所述目标存储器的健康状态。
可选地,所述健康状态子模块包括:
筛选指标子模块,用于根据所述第一阈值、所述故障置信度和所述历史置信度,确定筛选指标;
第二异常子模块,用于在所述筛选指标大于第二阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
第一正常子模块,用于在所述筛选指标小于或等于所述第二阈值的情况下,确定所述目标存储器的健康状态为所述正常状态。
可选地,所述健康状态子模块还包括:
第二正常子模块,用于在所述目标存储器不存在历史置信度的情况下,确定所述目标存储器的健康状态为所述正常状态。
可选地,所述装置还包括:
样本获取模块,用于获取模型训练样本;其中,所述模型训练样本包括样本运行信息和所述样本运行信息对应的样本标签;
构建模块,用于基于LightGBM算法构建初始神经网络模型;
训练模块,用于采用所述模型训练样本对所述初始神经网络模型进行训练,得到所述分类模型。
可选地,所述训练模块包括:
样本存储器特征子模块,用于根据所述样本运行信息生成样本存储器特征;
训练置信度子模块,用于将所述样本存储器特征输入所述初始神经网络模型,得到所述初始神经网络模型输出的训练置信度;
模型损失值子模块,用于基于相同模型训练样本对应的训练置信度和样本标签,确定模型损失值;
训练子模块,用于基于所述模型损失值调整所述初始神经网络模型的模型参数,得到所述分类模型。
第三方面,本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现上述存储器健康状态确定方法。
第四方面,本发明实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现上述存储器健康状态确定方法。
在本发明实施例中,提供一种存储器健康状态确定方法,包括,获取目标存储器的运行信息;其中,运行信息包括多种存储器参数对应的参数值;基于运行信息进行特征提取,得到存储器特征;将存储器特征输入分类模型,得到分类模型输出的故障置信度;其中,分类模型基于神经网络模型训练得到,故障置信度用于表征目标存储器的不健康程度;基于故障置信度确定目标存储器的健康状态。能够从多种存储器参数中提取存储器特征,并基于存储器特征确定目标存储器的故障置信度,再基于故障置信度确定存储器的健康状态,使得存储器的健康状态可以综合多种存储器参数进行综合判断获得,不仅能够提升存储器健康状态判定的准确性,还能在存储器未发生实质错误的情况下提前对存储器的健康状态进行判定,减少存储器故障可能造成的损失。
附图说明
图1是本发明实施例提供的一种存储器健康状态确定方法的步骤流程图;
图2是本发明实施例提供的另一种存储器健康状态确定方法的步骤流程图;
图3是本发明实施例提供的一种分类模型训练方法的步骤流程图;
图4是本发明实施例提供的一种健康状态判定流程图;
图5是本发明实施例提供的一种存储器健康状态确定装置的框图;
图6是本发明实施例提供的一种电子设备;
图7是本发明实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本发明实施例提供的存储器健康状态确定方法进行详细地说明。
参照图1,图1示出了本发明实施例提供的一种存储器健康状态确定方法的步骤流程图,如图1所示,该方法可以包括:
步骤101,获取目标存储器的运行信息;其中,所述运行信息包括多种存储器参数对应的参数值。
在本发明实施例中,存储器可以包括但不限于只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、机械硬盘(Hard Disk Drive,HDD)、固态硬盘(Solid State Drive,简称SSD)、光盘(Optical disc)等能够实现数据存储功能的介质。
存储器的存储器参数可以包括任何能够从存储器中读取的参数,可以包括但不限于底层数据读取错误率(Raw Read Error Rate)、主轴起旋时间(Spin Up Time)、重映射扇区数(Reallocated Sectors Count)、寻道错误率(Seek Error Rate)、通电时间累计(Power-On Time Count)、无法校正的错误(Reported Uncorrectable Errors)、高飞写入(High Fly Writes)、194温度(Temperature)、硬件错误检查和纠正校正(Hardware ECCRecovered)、当前待映射扇区计数(Current Pending Sector Count)、脱机无法校正的扇区计数(Offline Uncorrectable Sector Count)等等。需要说明的是,由于不同种类、不同品牌的存储器在能够获取的存储参数上可能存在差异,因此,技术人员可以根据目标存储器的种类、品牌定义目标存储器的运行信息中需要包含的存储器参数的种类。
在本发明实施例中,可以向目标存储器发送参数查询指令,目标存储器可以响应参数查询指令,并返回各个存储器参数对应的参数值。目标存储器也可以在预设的存储空间中定期写入各个存储器参数对应的参数值,从而可以在需要时,直接从上述存储空间中直接读取存储器参数对应的参数值。本发明实施例对存储器参数对应的参数值的获取方式并不进行具体限定,例如,还可以通过读取目标存储器的日志信息获取各个存储器参数对应的参数值;可以通过安装在目标存储器内外的传感器获取存储器参数对应的参数值等等。
得到目标存储器的存储器参数对应的参数值后,可以将所有参数值打包得到目标存储器对应的运行信息。
步骤102,基于所述运行信息进行特征提取,得到存储器特征。
在得到目标存储器的运行信息后,可以对运行信息中所有参数值进行特征提取,得到存储器特征。
具体地,在一种实施方式中,可以将运行信息作为整体输入特征提取模型,从而得到特征提取模型输出的存储器特征,特征提取模型可以对输入的数据进行存储器特征的提取。在另一种实时方式中,可以对运行信息中每个参数值进行特征提取,再将每个参数值对应的特征进行融合,得到存储器特征,本发明实施例对此并不进行具体限定。
步骤103,将所述存储器特征输入分类模型,得到所述分类模型输出的故障置信度;其中,所述分类模型基于神经网络模型训练得到。
在本发明实施例中,可以在进行健康状态预测之前,预先训练分类模型,分类模型可以对输入的存储器特征进行分析,从而输出能够体现目标存储器的健康状态的故障置信度。其中,分类模型基于神经网络模型(Neural Networks,NN)训练得到,该神经网络模型可以包括但不限于循环神经网络(Recurrent Neural Network,RNN),卷积神经网络(Convolutional Neural Networks,CNN)等。
其中,分类模型可以包括LightGBM分类模型(LGBMClassifier)、XGBoost分类模型(XGBClassifier)、决策树分类模型(DecisionTreeClassifier)、随机森林分类模型(RandomForestClassifier)、梯度提升决策树分类模型(GradientBoostingClassifier)等,本发明实施例不做具体限定。
得到存储器特征后,可以将存储器特征输入预先训练好的分类模型,得到分类模型输出的故障置信度,其中,该故障置信度可用于表征目标存储器的不健康程度,故障置信度越小则说明目标存储器越健康,反之,则说明目标存储器越不健康。其中,故障置信度的取值区间可以为[0,1],也可以为其他区间,本发明实施例不做赘述。
步骤104,基于所述故障置信度确定所述目标存储器的健康状态。
在本发明实施例中,在得到故障置信度之后,可以根据预设置信度确定目标存储器的健康状态。
健康状态可以包括正常状态和异常状态,由于故障置信度可以反映目标存储器的不健康程度,因此可以设置预设阈值,在故障置信度大于或等于预设阈值的情况下,确定目标存储器的健康状态为异常状态,在故障置信度小于预设阈值的情况下,确定目标存储器的健康状态为正常状态。其中,健康状态为异常状态用于表征目标处理器在未来一段目标时间区间中会发生故障,健康状态为正常状态用于表征目标处理器在未来一段目标时间区间中不会发生故障。
需要说明的是,上述目标时间区间基于训练上述分类模型时,所采用的负样本确定,若负样本是7天内发生故障的存储器的运行信息,则上述目标时间区间为未来7天内,若负样本是30天内发生故障的存储器的运行信息,则上述目标时间区间为未来30天内。
综上,本发明实施例提供的一种存储器健康状态确定方法,包括,获取目标存储器的运行信息;其中,运行信息包括多种存储器参数对应的参数值;基于运行信息进行特征提取,得到存储器特征;将存储器特征输入分类模型,得到分类模型输出的故障置信度;其中,分类模型基于神经网络模型训练得到,故障置信度用于表征目标存储器的不健康程度;基于故障置信度确定目标存储器的健康状态。能够从多种存储器参数中提取存储器特征,并基于存储器特征确定目标存储器的故障置信度,再基于故障置信度确定存储器的健康状态,使得存储器的健康状态可以综合多种存储器参数进行综合判断获得,不仅能够提升存储器健康状态判定的准确性,还能在存储器未发生实质错误的情况下提前对存储器的健康状态进行判定,减少存储器故障可能造成的损失。
参照图2,图2示出了本发明实施例提供的另一种存储器健康状态确定方法的步骤流程图,如图2所示,具体包括以下步骤:
步骤201,获取目标存储器的运行信息;其中,所述运行信息包括多种存储器参数对应的参数值。
此步骤可参见上述步骤101,本发明实施例不再赘述。
可选地,步骤201可以包括:
子步骤2011,获取所述目标存储器的自我监测分析及报告技术信息和所述多种存储器参数对应的目标参数标识。
在本发明实施例中,可以通过目标存储器的自我监测分析及报告技术信息获取目标存储器的运行信息,从而提高运行信息获取的便利性。其中,自我监测分析及报告技术(Self Monitoring Analysis And Reporting Technology,SMART)是一种自动的存储器状态检测与预警系统和规范,自我监测分析及报告技术功能不断从存储器上的各个传感器收集信息,并把信息保存在存储器的系统保留区(service area)内。
自我监测分析及报告技术信息中包含有多种存储器的存储器参数的参数值,这些存储器参数设置有对应的参数标识(SMART ID),在本发明实施例中,可以获取目标存储器的自我监测分析及报告技术信息,以及多种存储器参数对应的目标参数标识,其中目标参数标识可以由技术人员预先根据索要获取的存储器参数的类型进行设置,例如,在本发明实施例中,目标参数标识可以包括1、3、5,9,187,188,192,193、194、197、198这11个参数标识;这些11个参数标识分别对应的存储器参数如下表1所示:
参数标识 存储器参数
1 底层数据读取错误率
3 主轴起旋时间
5 重映射扇区数
9 寻道错误率
187 通电时间累计
188 无法校正的错误
192 高飞写入
193 温度
194 硬件错误检查和纠正校正信息
197 读取错误块计数
198 脱机无法校正的扇区计数
表1
子步骤2012,基于所述目标参数标识从所述自我监测分析及报告技术信息中获取所述运行信息。
由于自我监测分析及报告技术信息中包含大量的参数,可以根据目标参数标识,从自我监测分析及报告技术信息中获取目标参数标识对应的存储器参数的参数值,从而得到由存储器参数的参数值构成的运行信息。
举例来说,若目标参数标识可以包括1、3、5,9,187,188,192,193、194、197、198这11个参数标识,基于目标参数标识从自我监测分析及报告技术信息中获取的11个参数值分别为x1、x2、x3…x11
步骤202,在所述运行信息中包含缺失参数值的情况下,从用于训练所述分类模型的模型训练样本中,获取所述缺失参数值的存储器参数对应的样本参数值,基于所述样本参数值计算平均参数值,采用所述平均参数值填充所述缺失参数值。
由于目标存储器的类型、品牌等原因,可能导致其自我监测分析及报告技术信息中缺失某些需要的存储器参数,例如,在目标存储器为固态硬盘的情况下,其自我监测分析及报告技术信息中不包含主轴起旋时间这一存储器参数。因此,运行信息中可能缺失某些参数值,这种情况下,可以基于模型训练样本对缺失参数值进行补全,以提升本方案的适应范围。
具体地,可以从用于训练分类模型的模型训练样本中,获取缺失参数值的存储器参数对应的样本参数值,并基于样本参数值计算平均参数值,采用平均参数值填充缺失参数值。
步骤203,基于所述运行信息生成参数特征。
在本发明实施例中,可以对运行信息进行第一步的特征提取,得到参数特征,其中参数特征可以基于存储器参数直接计算得到。
可选地,步骤203可以包括:
子步骤2031,将所述运行信息中的参数值,按照预设顺序组合,得到中间特征向量。
在本发明实施例中,可以将运行信息中的参数值,按照预设顺序组合,得到中间特征向量。其中,预设顺序可以与各个参数值在运行信息中的排列顺序相同,也可以不同,本发明实施例不做具体限定。中间特征向量的维度与运行信息中包含的参数值数量相同。
举例来说,若目标存储器的运行信息包括x1、x2、x3…x11这11个参数值,则中间特征向量为一个11维的特征向量{x1、x2、x3…x11}。
子步骤2032,对所述中间特征向量中的第一特征元素进行归一化处理,得到所述参数特征。
在本发明实施例中,中间特征向量包含的特征元素称为第一特征元素,可以对中间特征向量中的各个第一特征元素进行归一化处理,得到由各个归一化后的第一特征元素构成的参数特征。其中,归一化处理的归一化区间可以为[-1,1],也可以为[0,1],技术人员可以根据实际需要灵活选择,本发明实施例不做具体限定。
例如,在中间特征向量为{x1、x2、x3…x11}的情况下,对中间特征向量的一个第一特征元素x1进行归一化处理,得到的归一化后的第一特征元素
Figure GDA0004146154450000131
对上述中间特征向量中的每一个第一特征元素进行归一化处理,可以得到参数特征/>
Figure GDA0004146154450000132
步骤204,基于所述参数特征,确定所述目标存储器对应的存储器特征。
在得到参数特征后,可以对参数特征进行第二步特征提取,得到存储器特征。
具体地,在一种实施方式中,可以将参数特征输入存储器特征提取模型,从而得到存储器特征提取模型输出的存储器特征,存储器特征提取模型可以对输入的数据进行存储器特征的提取。在另一种实时方式中,可以通过存储器特征的运算公式,基于参数特征直接计算存储器特征,本发明实施例对此并不进行具体限定。
可选地,步骤204可以包括:
子步骤2041,基于所述参数特征中的第二特征元素,确定所述参数特征中各个特征维度对应的特征值。
在本发明实施例中,参数特征包含的特征元素称为第二特征元素。例如,在参数特征为
Figure GDA0004146154450000141
的情况下,可以基于以下公式1计算该参数特征的各个特征维度的特征值。
Figure GDA0004146154450000142
其中,wi表示参数特征中第i(i=1,2,3,…,11)维度的特征值,
Figure GDA0004146154450000143
表示参数特征中的第二特征元素。
子步骤2042,基于所述特征值与所述第二特征元素确定第三特征元素;其中,所述第二特征元素与所述第三特征元素存在一一对应关系。
得到参数特征中各个特征维度对应的特征值后,可以基于特征值与第二特征元素确定第三特征元素。具体地,可以将特征值与第二特征元素的乘积作为第三特征元素。
可以采用如下公式2确定第三特征元素:
Figure GDA0004146154450000144
其中,wi表示参数特征中第i维度的特征值,
Figure GDA0004146154450000145
表示参数特征中第i个第二特征元素。
子步骤2043,按照所述第二特征元素在所述参数特征中的排列顺序,组合所述第二特征元素对应的所述第三特征元素,得到所述存储器特征。
在本发明实施例中,可以按照第二特征元素在参数特征中的排列顺序,组合第二特征元素对应的第三特征元素,得到存储器特征。从而,可以通过简单的运算过程直接确定出存储器特征,提升了存储器特征确定的效率。
举例来说,若参数特征为
Figure GDA0004146154450000151
则存储器特征参数的第二特征元素/>
Figure GDA0004146154450000152
对应的第三特征元素为x′1,存储器特征参数的第二特征元素/>
Figure GDA0004146154450000153
对应的第三特征元素为x′2,以此类推,可以得到11个第三特征元素,则存储器特征为{x′1、x′2、x′3…x′11}。
步骤205,将所述存储器特征输入分类模型,得到所述分类模型输出的故障置信度;其中,所述分类模型基于神经网络模型训练得到,所述故障置信度用于表征所述目标存储器的不健康程度。
此步骤可参见上述步骤103,本发明实施例不再赘述。
参照图3,图3示出了本发明实施例提供的一种分类模型训练方法的步骤流程图,如图3所示,在本发明实施例中,分类模型可以通过以下步骤301至步骤303所示的方式预先训练得到:
步骤301,获取模型训练样本;其中,所述模型训练样本包括样本运行信息和所述样本运行信息对应的样本标签。
在本发明实施例中,每个模型训练样本可以包括从样本存储器采集的样本运行信息,以及样本运行信息对应的样本标签,其中,样本标签用于表征采集样本运行信息后的目标时间区间内,样本存储器是否发生故障。
模型训练样本可以由正样本和负样本构成,若一个模型训练样本的样本标签表征样本存储器在目标时间区间内未发生故障,则该模型训练样本为正样本,若一个模型训练样本的样本标签表征样本存储器在目标时间区间内发生故障,则该模型训练样本为负样本。
步骤302,基于LightGBM算法构建初始神经网络模型。
由于存储器发生故障的概率通常较低,导致负样本的收集工作较为困难,因此模型训练样本中可能包含较多的正样本和较少的负样本。
在本发明实施例中,可以基于LightGBM算法构建初始神经网络模型,通过LightGBM算法可以缓解正负样本数量差异较大而导致的正负样本不平衡问题,有助于提升训练得到的分类模型的准确性。其中,基于LightGBM算法构建初始神经网络模型可以包括LightGBM分类模型。
步骤303,采用所述模型训练样本对所述初始神经网络模型进行训练,得到所述分类模型。
在本发明实施例中,可以将模型训练样本输入初始神经网络模型,得到初始神经网络模型输出的训练置信度,并根据训练置信度与模型训练样本对应的样本标签确定模型损失值,再基于模型损失值调整初始神经网络模型中的模型参数,从而完成对分类模型的训练。
具体地,步骤A3可以包括:
子步骤A31、根据所述样本运行信息生成样本存储器特征。
根据样本运行信息生成样本存储器特征的方式,与基于运行信息生成存储器特征的方式类似,具体可参见上述步骤203至步骤204,本发明实施例不再赘述。
子步骤A32、将所述样本存储器特征输入所述初始神经网络模型,得到所述初始神经网络模型输出的训练置信度。
子步骤A33、基于相同模型训练样本对应的训练置信度和样本标签,确定模型损失值。
可以通过损失函数,以及相同模型训练样本对应的训练置信度和样本标签,计算模型损失值。具体地,上述损失函数可以包括但不限于均方差损失函数(Mean SquaredError,MSE)、对数似然损失函数(Log-likelihood Loss)、平方损失函数(Ordinary LeastSquares)、指数损失函数(Adaboost)、平均绝对误差损失函数(Mean Absolute Arror,MAE)、交叉熵损失函数(Cross Entropy Loss)中的一种或多种,技术人员可以根据实际需要选择所需的损失函数,本发明实施例对此并不进行具体限定。
子步骤A34、基于所述模型损失值调整所述初始神经网络模型的模型参数,得到所述分类模型。
步骤206,在所述故障置信度大于第一阈值的情况下,确定所述目标存储器的健康状态为所述异常状态。
在得到分类模型输出的故障置信度后,可以将故障置信度与第一阈值进行比对,若故障置信度大于第一阈值,则可以直接确定故障置信度对应的目标存储器的健康状态为异常状态。其中,异常状态表示目标存储器在未来的目标时间区间中会发生故障。第一阈值可以由技术人员在分类模型的训练过程中进行确定,也可以通过验证集对分类模型进行验证而确定,本发明实施例对此并不进行具体限定。
步骤207,在所述故障置信度小于或等于所述第一阈值的情况下,基于所述目标存储器对应的历史置信度和所述故障置信度,确定所述目标存储器的健康状态。
在本发明实施例中,若故障置信度小于或等于第一阈值,则说明目标存储器不一定会在未来的目标时间区间中发生故障,此时需要进一步根据目标存储器对应的历史置信度和该故障置信度,进一步确定目标存储器的健康状态,以提升健康状态确定的准确性。
其中,目标存储器的历史置信度表示上一次确定目标存储器的健康状态时,分类模型基于目标存储器的历史运行信息,输出的置信度。例如,在上一周获取目标存储器A的运行信息A,并基于运行信息A确定置信度A,根据置信度A确定目标存储器在上一周的健康状态A;在本周获取目标存储器A的运行状态B,并基于运行状态B确定置信度B,则置信度A可以为目标存储器的历史置信度。
可选地,步骤207可以包括:
子步骤2071,根据所述第一阈值、所述故障置信度和所述历史置信度,确定筛选指标。
在本发明实施例中,可以基于以下公式3确定筛选指标:
Figure GDA0004146154450000171
其中,s表示筛选指标,T1表示第一阈值,c1表示故障置信度,c2表示历史置信度。例如,在第一阈值为0.6、故障置信度为0.5、历史置信度为0.3的情况下,可以基于上述公式3计算得到筛选指标为3。
可以看到,若筛选指标小于1,则说明目标存储器最新的健康状态相较于上次有所恶化,若筛选指标大于1,则说明目标存储器最新的健康状态相较于上次有所改善,筛选指标偏离1的程度表明目标存储器的健康状态恶化或改善的程度。
子步骤2072,在所述筛选指标大于第二阈值的情况下,确定所述目标存储器的健康状态为所述异常状态。
在本发明实施例中,可以设置第二阈值(例如2),若筛选指标大于第二阈值,则说明目标存储器目前的故障置信度虽然没有直接表明其健康状态已经处于异常状态,但目标存储器目前的健康状态没有发生改善或恶化速度较快,说明目标存储器存在潜在的风险隐患,此时可以确定目标存储器的健康状态为异常状态,从而可以结合时间维度上的变化情况,确定出更为准确的健康状态。其中,第二阈值可以大于或等于1。
子步骤2073,在所述筛选指标小于或等于所述第二阈值的情况下,确定所述目标存储器的健康状态为所述正常状态。
在本发明实施例中,若筛选指标小于或等于第二阈值,则说明目标存储器目前的故障置信度不但没有直接表明其健康状态已经处于异常状态,且目标存储器的健康状态有所改善或恶化的速度较慢,此时可以确定目标存储器的健康状态为正常状态。
通过上述操作,不仅可以根据目标存储器在当前时刻的故障置信度,确定目标存储器的健康状态,还可以结合目标存储器的历史置信度,根据时间维度上目标存储器的新老置信度的变化情况精确确定其健康状态,提升了确定出的目标存储器的健康状态的准确性。
子步骤2074,在所述目标存储器不存在历史置信度的情况下,确定所述目标存储器的健康状态为所述正常状态。
需要说明的是,目标存储器可能没有历史置信度,例如,在目标存储器第一次进行健康状态确定时,其不会存在历史置信度,或目标存储器的历史置信度丢失。这种情况下,可以在故障置信度小于或等于第一阈值的情况下,直接确定目标存储器的健康状态为正常状态。
参照图4,图4示出了本发明实施例提供的一种健康状态判定流程图,如图4所示,确定出目标存储器对应的目标置信度后,通过步骤401判定目标置信度是否大于第一阈值,若步骤401的判定结果为是,则进入步骤402,确定目标存储器的健康状态为异常状态,若步骤401的判定结果为否,则进入步骤403,在数据库中保存目标置信度,再进入步骤404,从数据库中读取历史置信度,通过步骤405根据目标置信度和历史置信度确定筛选指标,通过步骤406判断筛选指标是否大于第二阈值,若步骤406的判定结果为是,则进入步骤402,确定目标存储器的健康状态为异常状态,若步骤406的判定结果为否,则进入步骤407,确定目标存储器的健康状态为正常状态。
综上,本发明实施例提供的另一种存储器健康状态确定方法,包括,获取目标存储器的运行信息;其中,运行信息包括多种存储器参数对应的参数值;基于运行信息进行特征提取,得到存储器特征;将存储器特征输入分类模型,得到分类模型输出的故障置信度;其中,分类模型基于神经网络模型训练得到,故障置信度用于表征目标存储器的不健康程度;基于故障置信度确定目标存储器的健康状态。能够从多种存储器参数中提取存储器特征,并基于存储器特征确定目标存储器的故障置信度,再基于故障置信度确定存储器的健康状态,使得存储器的健康状态可以综合多种存储器参数进行综合判断获得,不仅能够提升存储器健康状态判定的准确性,还能在存储器未发生实质错误的情况下提前对存储器的健康状态进行判定,减少存储器故障可能造成的损失。
参照图5,图5是本发明实施例提供的一种存储器健康状态确定装置的框图,如图5所示,该存储器健康状态确定装置包括:
获取模块501,用于获取目标存储器的运行信息;其中,所述运行信息包括多种存储器参数对应的参数值;
存储器特征模块502,用于基于所述运行信息进行特征提取,得到存储器特征;
置信度模块503,用于将所述存储器特征输入分类模型,得到所述分类模型输出的故障置信度;其中,所述分类模型基于神经网络模型训练得到,所述故障置信度用于表征所述目标存储器的不健康程度;
健康状态模块504,用于基于所述故障置信度确定所述目标存储器的健康状态;其中,所述健康状态包括正常状态和异常状态,所述异常状态表征所述目标存储器在目标时间区间中会发生故障。
可选地,所述获取模块包括:
获取子模块,用于获取所述目标存储器的自我监测分析及报告技术信息和所述多种存储器参数对应的目标参数标识;
运行信息子模块,用于基于所述目标参数标识从所述自我监测分析及报告技术信息中获取所述运行信息。
可选地,所述装置还包括:
样本参数值模块,用于在所述运行信息中包含缺失参数值的情况下,从用于训练所述分类模型的模型训练样本中,获取所述缺失参数值的存储器参数对应的样本参数值;
参数值填补模块,用于基于所述样本参数值计算平均参数值,采用所述平均参数值填充所述缺失参数值。
可选地,所述存储器参数包括底层数据读取错误率、主轴起旋时间、重映射扇区数、寻道错误率、通电时间累计、无法校正的错误、高飞写入、温度、硬件错误检查和纠正校正信息、读取错误块计数、脱机无法校正的扇区计数中的多种。
可选地,所述存储器特征模块包括:
参数特征子模块,用于基于所述运行信息生成参数特征;
存储器特征子模块,用于基于所述参数特征,确定所述目标存储器对应的存储器特征。
可选地,所述基于所述运行信息生成参数特征,包括:
中间特征向量子模块,用于将所述运行信息中的参数值,按照预设顺序组合,得到中间特征向量;
参数特征获取子模块,用于对所述中间特征向量中的第一特征元素进行归一化处理,得到所述参数特征。
可选地,所述存储器特征子模块包括:
特征值子模块,用于基于所述参数特征中的第二特征元素,确定所述参数特征中各个特征维度对应的特征值;
第三特征元素子模块,用于基于所述特征值与所述第二特征元素确定第三特征元素;其中,所述第二特征元素与所述第三特征元素存在一一对应关系;
存储器特征获取子模块,用于按照所述第二特征元素在所述参数特征中的排列顺序,组合所述第二特征元素对应的所述第三特征元素,得到所述存储器特征。
可选地,所述健康状态包括正常状态和异常状态,所述异常状态表征所述目标存储器在目标时间区间中会发生故障,所述健康状态模块包括:
第一异常子模块,用于在所述故障置信度大于第一阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
健康状态子模块,用于在所述故障置信度小于或等于所述第一阈值的情况下,基于所述目标存储器对应的历史置信度和所述故障置信度,确定所述目标存储器的健康状态。
可选地,所述健康状态子模块包括:
筛选指标子模块,用于根据所述第一阈值、所述故障置信度和所述历史置信度,确定筛选指标;
第二异常子模块,用于在所述筛选指标大于第二阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
第一正常子模块,用于在所述筛选指标小于或等于所述第二阈值的情况下,确定所述目标存储器的健康状态为所述正常状态。
可选地,所述健康状态子模块还包括:
第二正常子模块,用于在所述目标存储器不存在历史置信度的情况下,确定所述目标存储器的健康状态为所述正常状态。
可选地,所述装置还包括:
样本获取模块,用于获取模型训练样本;其中,所述模型训练样本包括样本运行信息和所述样本运行信息对应的样本标签;
构建模块,用于基于LightGBM算法构建初始神经网络模型;
训练模块,用于采用所述模型训练样本对所述初始神经网络模型进行训练,得到所述分类模型。
可选地,所述训练模块包括:
样本存储器特征子模块,用于根据所述样本运行信息生成样本存储器特征;
训练置信度子模块,用于将所述样本存储器特征输入所述初始神经网络模型,得到所述初始神经网络模型输出的训练置信度;
模型损失值子模块,用于基于相同模型训练样本对应的训练置信度和样本标签,确定模型损失值;
训练子模块,用于基于所述模型损失值调整所述初始神经网络模型的模型参数,得到所述分类模型。
综上,本发明实施例提供的一种存储器健康状态确定装置,包括,获取模块,用于获取目标存储器的运行信息;其中,运行信息包括多种存储器参数对应的参数值;存储器特征模块,用于基于运行信息进行特征提取,得到存储器特征;置信度模块,用于将存储器特征输入分类模型,得到分类模型输出的故障置信度;其中,分类模型基于神经网络模型训练得到,故障置信度用于表征目标存储器的不健康程度;健康状态模块,用于基于故障置信度确定目标存储器的健康状态;其中,健康状态包括正常状态和异常状态,异常状态表征目标存储器在目标时间区间中会发生故障。能够从多种存储器参数中提取存储器特征,并基于存储器特征确定目标存储器的故障置信度,再基于故障置信度确定存储器的健康状态,使得存储器的健康状态可以综合多种存储器参数进行综合判断获得,不仅能够提升存储器健康状态判定的准确性,还能在存储器未发生实质错误的情况下提前对存储器的健康状态进行判定,减少存储器故障可能造成的损失。
本发明实施例中的存储器健康状态确定装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为GPU BOX、手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digitalassistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本发明实施例不作具体限定。
本发明实施例中的存储器健康状态确定装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为Linux、Windows操作系统等,还可以为其他可能的操作系统,本发明实施例不作具体限定。
本发明实施例提供的存储器健康状态确定装置能够实现图2至图4的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图6所示,本发明实施例还提供一种电子设备M00,包括处理器M01和存储器M02,存储器M02上存储有可在所述处理器M01上运行的程序或指令,该程序或指令被处理器M01执行时实现上述存储器健康状态确定方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本发明实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图7为实现本发明实施例的一种电子设备的硬件结构示意图。
该电子设备1000包括但不限于:射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器1010,用于获取目标存储器的运行信息;其中,运行信息包括多种存储器参数对应的参数值;基于运行信息进行特征提取,得到存储器特征;将存储器特征输入分类模型,得到分类模型输出的故障置信度;其中,分类模型基于神经网络模型训练得到,故障置信度用于表征目标存储器的不健康程度;基于故障置信度确定目标存储器的健康状态。
综上,本发明能够从多种存储器参数中提取存储器特征,并基于存储器特征确定目标存储器的故障置信度,再基于故障置信度确定存储器的健康状态,使得存储器的健康状态可以综合多种存储器参数进行综合判断获得,不仅能够提升存储器健康状态判定的准确性,还能在存储器未发生实质错误的情况下提前对存储器的健康状态进行判定,减少存储器故障可能造成的损失。
应理解的是,本发明实施例中,输入单元1004可以包括图形处理器(GraphicsProcessing Unit,GPU)10041和麦克风10042,图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的多种。触控面板10071,也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1009可以包括易失性存储器或非易失性存储器,或者,存储器x09可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本发明实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。
处理器1010可包括一个或多个处理单元;可选的,处理器1010集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述存储器健康状态确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本发明实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述存储器健康状态确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本发明实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本发明实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述存储器健康状态确定方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (12)

1.一种存储器健康状态确定方法,其特征在于,所述方法包括:
获取目标存储器的运行信息;其中,所述运行信息包括多种存储器参数对应的参数值;
基于所述运行信息进行特征提取,得到存储器特征;
将所述存储器特征输入分类模型,得到所述分类模型输出的故障置信度;其中,所述分类模型基于神经网络模型训练得到,所述故障置信度用于表征所述目标存储器的不健康程度;
基于所述故障置信度确定所述目标存储器的健康状态;
所述基于所述运行信息进行特征提取,得到存储器特征,包括:
基于所述运行信息生成参数特征;
基于所述参数特征,确定所述目标存储器对应的存储器特征;
所述基于所述运行信息生成参数特征,包括:
将所述运行信息中的参数值,按照预设顺序组合,得到中间特征向量;
对所述中间特征向量中的第一特征元素进行归一化处理,得到所述参数特征;
所述基于所述参数特征,确定所述目标存储器对应的存储器特征,包括:
基于所述参数特征中的第二特征元素,确定所述参数特征中各个特征维度对应的特征值;
基于所述特征值与所述第二特征元素确定第三特征元素;其中,所述第二特征元素与所述第三特征元素存在一一对应关系;
按照所述第二特征元素在所述参数特征中的排列顺序,组合所述第二特征元素对应的所述第三特征元素,得到所述存储器特征。
2.根据权利要求1所述的存储器健康状态确定方法,其特征在于,所述获取目标存储器的运行信息,包括:
获取所述目标存储器的自我监测分析及报告技术信息和所述多种存储器参数对应的目标参数标识;
基于所述目标参数标识从所述自我监测分析及报告技术信息中获取所述运行信息。
3.根据权利要求1所述的存储器健康状态确定方法,其特征在于,所述方法还包括:
在所述运行信息中包含缺失参数值的情况下,从用于训练所述分类模型的模型训练样本中,获取所述缺失参数值的存储器参数对应的样本参数值;
基于所述样本参数值计算平均参数值,采用所述平均参数值填充所述缺失参数值。
4.根据权利要求1所述的存储器健康状态确定方法,其特征在于,所述存储器参数包括底层数据读取错误率、主轴起旋时间、重映射扇区数、寻道错误率、通电时间累计、无法校正的错误、高飞写入、温度、硬件错误检查和纠正校正信息、读取错误块计数、脱机无法校正的扇区计数中的多种。
5.根据权利要求1所述的存储器健康状态确定方法,其特征在于,所述健康状态包括正常状态和异常状态,所述异常状态表征所述目标存储器在目标时间区间中会发生故障,所述基于所述故障置信度确定所述目标存储器的健康状态,包括:
在所述故障置信度大于第一阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
在所述故障置信度小于或等于所述第一阈值的情况下,基于所述目标存储器对应的历史置信度和所述故障置信度,确定所述目标存储器的健康状态。
6.根据权利要求5所述的存储器健康状态确定方法,其特征在于,所述基于所述目标存储器对应的历史置信度和所述故障置信度,确定所述目标存储器的健康状态,包括:
根据所述第一阈值、所述故障置信度和所述历史置信度,确定筛选指标;
在所述筛选指标大于第二阈值的情况下,确定所述目标存储器的健康状态为所述异常状态;
在所述筛选指标小于或等于所述第二阈值的情况下,确定所述目标存储器的健康状态为所述正常状态。
7.根据权利要求6所述的存储器健康状态确定方法,其特征在于,所述方法还包括:
在所述目标存储器不存在历史置信度的情况下,确定所述目标存储器的健康状态为所述正常状态。
8.根据权利要求1所述的存储器健康状态确定方法,其特征在于,所述方法还包括:
获取模型训练样本;其中,所述模型训练样本包括样本运行信息和所述样本运行信息对应的样本标签;
基于LightGBM算法构建初始神经网络模型;
采用所述模型训练样本对所述初始神经网络模型进行训练,得到所述分类模型。
9.根据权利要求8所述的存储器健康状态确定方法,其特征在于,所述采用所述模型训练样本对所述初始神经网络模型进行训练,得到所述分类模型,包括:
根据所述样本运行信息生成样本存储器特征;
将所述样本存储器特征输入所述初始神经网络模型,得到所述初始神经网络模型输出的训练置信度;
基于相同模型训练样本对应的训练置信度和样本标签,确定模型损失值;
基于所述模型损失值调整所述初始神经网络模型的模型参数,得到所述分类模型。
10.一种存储器健康状态确定装置,其特征在于,所述装置包括:
获取模块,用于获取目标存储器的运行信息;其中,所述运行信息包括多种存储器参数对应的参数值;
存储器特征模块,用于基于所述运行信息进行特征提取,得到存储器特征;
置信度模块,用于将所述存储器特征输入分类模型,得到所述分类模型输出的故障置信度;其中,所述分类模型基于神经网络模型训练得到,所述故障置信度用于表征所述目标存储器的不健康程度;
健康状态模块,用于基于所述故障置信度确定所述目标存储器的健康状态;其中,所述健康状态包括正常状态和异常状态,所述异常状态表征所述目标存储器在目标时间区间中会发生故障;
所述存储器特征模块包括:
参数特征子模块,用于基于所述运行信息生成参数特征;
存储器特征子模块,用于基于所述参数特征,确定所述目标存储器对应的存储器特征;
所述参数特征子模块包括:
中间特征向量子模块,用于将所述运行信息中的参数值,按照预设顺序组合,得到中间特征向量;
参数特征获取子模块,用于对所述中间特征向量中的第一特征元素进行归一化处理,得到所述参数特征;
所述存储器特征子模块包括:
特征值子模块,用于基于所述参数特征中的第二特征元素,确定所述参数特征中各个特征维度对应的特征值;
第三特征元素子模块,用于基于所述特征值与所述第二特征元素确定第三特征元素;其中,所述第二特征元素与所述第三特征元素存在一一对应关系;
存储器特征获取子模块,用于按照所述第二特征元素在所述参数特征中的排列顺序,组合所述第二特征元素对应的所述第三特征元素,得到所述存储器特征。
11.一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至9任一项所述的方法。
12.一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至9任一项所述的方法。
CN202310068394.3A 2023-02-06 2023-02-06 存储器健康状态确定方法、装置、电子设备及存储介质 Active CN115793990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310068394.3A CN115793990B (zh) 2023-02-06 2023-02-06 存储器健康状态确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310068394.3A CN115793990B (zh) 2023-02-06 2023-02-06 存储器健康状态确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115793990A CN115793990A (zh) 2023-03-14
CN115793990B true CN115793990B (zh) 2023-06-23

Family

ID=85430054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310068394.3A Active CN115793990B (zh) 2023-02-06 2023-02-06 存储器健康状态确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115793990B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680112B (zh) * 2023-07-28 2023-11-03 苏州浪潮智能科技有限公司 内存状态检测方法、装置、通信设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102435910A (zh) * 2011-09-14 2012-05-02 南京航空航天大学 基于支持向量分类的功率电子电路健康监测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131071A (zh) * 2017-09-18 2020-12-25 华为技术有限公司 一种内存评估的方法及装置
CN108647136B (zh) * 2018-05-10 2021-05-04 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
US20190384255A1 (en) * 2018-06-19 2019-12-19 Honeywell International Inc. Autonomous predictive real-time monitoring of faults in process and equipment
CN109800139A (zh) * 2018-12-18 2019-05-24 东软集团股份有限公司 服务器健康度分析方法,装置,存储介质及电子设备
CN110399237A (zh) * 2019-06-29 2019-11-01 苏州浪潮智能科技有限公司 一种磁盘故障预测方法、系统、终端及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102435910A (zh) * 2011-09-14 2012-05-02 南京航空航天大学 基于支持向量分类的功率电子电路健康监测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Memory Leak Detection Tools: A Comparative Analysis;Dawei Wang et al.;《IEEE Xplore》;全文 *
电喷柴油机的检测与故障诊断;李新甫;;工程机械与维修(第05期);全文 *

Also Published As

Publication number Publication date
CN115793990A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN102541667B (zh) 用散列函数区分存储系统中随机和重复差错的方法和系统
US8724904B2 (en) Anomaly detection in images and videos
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110164501B (zh) 一种硬盘检测方法、装置、存储介质及设备
US10606722B2 (en) Method and system for diagnosing remaining lifetime of storages in data center
KR101970619B1 (ko) 비정상 상황 검출 방법 및 이를 수행하기 위한 시스템
CN112232495B (zh) 预测模型的训练方法、装置、介质和计算设备
CN115793990B (zh) 存储器健康状态确定方法、装置、电子设备及存储介质
US20220327018A1 (en) Behavior-driven die management on solid-state drives
US9665797B2 (en) Environmental-based location monitoring
US20230229738A1 (en) Unsupervised anomaly detection machine learning frameworks
CN115660262B (zh) 一种基于数据库应用的工程智慧质检方法、系统及介质
JPWO2007007410A1 (ja) メッセージ解析装置、制御方法および制御プログラム
CN111124732A (zh) 一种磁盘故障的预测方法、系统、设备及存储介质
US20230177152A1 (en) Method, apparatus, and computer-readable recording medium for performing machine learning-based observation level measurement using server system log and performing risk calculation using the same
US10776240B2 (en) Non-intrusive performance monitor and service engine
CN112737834A (zh) 一种云硬盘故障预测方法、装置、设备及存储介质
US8780471B2 (en) Linking errors to particular tapes or particular tape drives
CN116259110B (zh) Atm防护舱的安全检测方法、装置、设备及存储介质
CN117579393B (zh) 一种信息终端威胁监测方法、装置、设备及存储介质
US20240070534A1 (en) Individualized classification thresholds for machine learning models
CN111382041B (zh) 一种故障检测、数据处理方法、装置及设备
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
CN117667572A (zh) 一种硬盘检测方法、装置、设备及可读存储介质
CN117149481A (zh) 异常修复方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing

Patentee after: Tianyiyun Technology Co.,Ltd.

Address before: 100093 Floor 4, Block E, Xishan Yingfu Business Center, Haidian District, Beijing

Patentee before: Tianyiyun Technology Co.,Ltd.

CP02 Change in the address of a patent holder