CN109214447B - 磁盘寿命预测方法及装置 - Google Patents

磁盘寿命预测方法及装置 Download PDF

Info

Publication number
CN109214447B
CN109214447B CN201810983048.7A CN201810983048A CN109214447B CN 109214447 B CN109214447 B CN 109214447B CN 201810983048 A CN201810983048 A CN 201810983048A CN 109214447 B CN109214447 B CN 109214447B
Authority
CN
China
Prior art keywords
output
classification
model
prediction
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810983048.7A
Other languages
English (en)
Other versions
CN109214447A (zh
Inventor
谢全泉
李娟�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810983048.7A priority Critical patent/CN109214447B/zh
Publication of CN109214447A publication Critical patent/CN109214447A/zh
Application granted granted Critical
Publication of CN109214447B publication Critical patent/CN109214447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种模型训练方法及装置和一种磁盘寿命预测方法及装置,该模型训练方法,包括:获得预先训练好的初始模型;初始模型至少有两类输出;利用初始模型,对目标对象的发展趋势进行多次预测,得到多组预测输出;每组预测输出包括每类输出的分类概率;根据多组预测输出,对初始模型计算的分类概率进行校准,得到校准后的模型;校准后的模型用于对目标对象的发展趋势进行预测。可以根据目标对象的实际使用情况,对模型计算的分类概率进行校准,修正模型的预测误差,从而提高了模型对目标对象发展趋势预测的准确性,利用该校准后的模型可以准确预测磁盘的寿命。

Description

磁盘寿命预测方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型训练方法及装置和一种磁盘寿命预测方法及装置。
背景技术
目前,在对磁盘寿命进行预测时,一般会利用通过机器学习算法构建的磁盘寿命预测模型,将磁盘的自我监测、分析及报告(Self-Monitoring Analysis and ReportingTechnology,SMART)信息作为磁盘寿命预测模型的输入得到磁盘寿命的分类区间。
虽然在测试时磁盘寿命预测模型能够得到较准确的预测结果,但在实际应用中发现,磁盘寿命受实际使用情况影响较大,磁盘寿命预测模型的输出结果并不能准确的得到磁盘的寿命,对磁盘寿命预测不准确。
发明内容
有鉴于此,本申请实施例一方面提供了一种模型训练方法及装置,另一方面提供了一种磁盘寿命预测方法及装置,能够解决现有技术中磁盘寿命预测模型的输出结果并不能准确预测磁盘的寿命的问题。
本申请实施例提供的一种模型训练方法,包括:
获得预先训练好的初始模型;所述初始模型至少有两类输出;
利用所述初始模型,对目标对象的发展趋势进行多次预测,得到多组预测输出;每组预测输出包括每类输出的分类概率;
根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,得到校准后的模型;所述校准后的模型用于对所述目标对象的发展趋势进行预测。
可选的,所述根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,具体包括:
统计所述多组预测输出中每类输出的分类概率均值,得到每类输出的第一概率均值,并获得所述初始预测模型每类输出的分类概率均值,得到每类输出的第二概率均值;所述第二概率均值利用所述初始模型的训练数据集得到;
根据所述第一概率均值和所述第二概率均值,获得每类输出的组间差异;
根据所述组间差异的大小,为每类输出设置对应的分类惩罚系数;所述组间差异越大所述分类惩罚系数的绝对值越大;
利用所述分类惩罚系数修正初始设定的每类输出的分类权重;
使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
可选的,所述根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,具体包括:
根据所述多组预测输出中最近一次预测的预测输出,获得其中分类概率最大的输出类别;
根据所述分类概率最大的输出类别,为所述初始模型的每类输出设置对应的分类趋势系数;输出类别与所述分类概率最大的输出类别差异越小其对应的分类趋势系数越大;
利用所述分类趋势系数修正初始设定的每类输出的分类权重;
使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
可选的,所述使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准,之前还包括:
在获得每类输出的第一概率均值后,根据每类输出的所述第一概率均值和在所述多组预测输出中的概率,获得所述多组预测输出的组内差异;所述第一概率均值为每类输出在所述多组预测输出中分类概率的均值;
判断所述组内差值是否小于预设阈值;
若是,则重置所述每类输出的分类权重。
本申请实施例提供的一种磁盘寿命预测方法,包括:
获取目标磁盘的SMART信息;
将所述SMART信息输入预先得到的预测模型;所述预测模型根据如上述实施例提供的模型训练方法中的任意一种得到;
根据所述预测模型的输出结果,获得所述目标磁盘的寿命;所述预测模型将分类概率最大的类别作为结果输出。
本申请实施例提供的一种模型训练装置,包括:获取模块、预测模块和校准模块;
所述获取模块,用于获得预先训练好的初始模型;所述初始模型至少有两类输出;
所述预测模块,用于利用所述初始模型,对目标对象的发展趋势进行多次预测,得到多组预测输出;每组预测输出包括每类输出的分类概率;
所述校准模块,用于根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,得到校准后的模型;所述校准后的模型用于对所述目标对象的发展趋势进行预测。
可选的,所述校准模块,具体包括:统计子模块、分析子模块、第一设置子模块、第一修正子模块和第一校准子模块;
所述统计子模块,用于统计所述多组预测输出中每类输出的分类概率均值,得到每类输出的第一概率均值,并获得所述初始预测模型每类输出的分类概率均值,得到每类输出的第二概率均值;所述第二概率均值利用所述初始模型的训练数据集得到;
所述分析子模块,用于根据所述第一概率均值和所述第二概率均值,获得每类输出的组间差异;
所述第一设置子模块,用于根据所述组间差异的大小,为每类输出设置对应的分类惩罚系数;所述组间差异越大所述分类惩罚系数的绝对值越大;
所述第一修正子模块,用于利用所述分类惩罚系数修正初始设定的每类输出的分类权重;
所述第一校准子模块,用于使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
可选的,所述校准模块,具体包括:获得子模块、第二设置子模块、第二修正子模块和第二校准子模块;
所述获得子模块,用于根据所述多组预测输出中最近一次预测的预测输出,获得其中分类概率最大的输出类别;
所述第二设置子模块,用于根据所述分类概率最大的输出类别,为所述初始模型的每类输出设置对应的分类趋势系数;输出类别与所述分类概率最大的输出类别差异越小其对应的分类趋势系数越大;
所述第二修正子模块,用于利用所述分类趋势系数修正初始设定的每类输出的分类权重;
所述第二校准子模块,用于使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
可选的,所述装置,还包括:分析模块、判断模块和重置模块;
所述分析模块,用于在获得每类输出的第一概率均值后,根据每类输出的所述第一概率均值和在所述多组预测输出中的概率,获得所述多组预测输出的组内差异;所述第一概率均值为每类输出在所述多组预测输出中分类概率的均值;
所述判断模块,用于判断所述组内差值是否小于预设阈值;
所述重置模块,用于当所述判断模块判断所述组内差值小于所述预设阈值时,重置所述每类输出的分类权重。
本申请实施例提供的一种磁盘寿命预测装置,包括:信息获取单元、模型输入单元和结果获取单元;
所述信息获取单元,用于获取目标磁盘的SMART信息;
所述模型输入单元,用于将所述SMART信息输入预先得到的预测模型;所述预测模型根据如上述实施例提供的模型训练装置中的任意一种得到;
所述结果获取单元,用于根据所述预测模型的输出结果,获得所述目标磁盘的寿命;所述预测模型将分类概率最大的类别作为结果输出。
与现有技术相比,本申请至少具有以下优点:
在本申请实施例中,首先获得预先训练好的初始模型,利用该初始模型对目标对象的发展趋势进行多次预测,得到多组预测输出,然后利用得到的多组预测输出对初始模型计算的分类概率进行校准,得到校准后的模型来继续对目标对象的发展趋势进行预测,可以根据目标对象的实际使用情况,对模型计算的分类概率进行校准,修正模型的预测误差,从而提高了模型对目标对象发展趋势预测的准确性,利用该校准后的模型可以准确预测磁盘的寿命。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种模型训练方法的流程示意图;
图2为本申请实施例提供的另一种模型训练方法的流程示意图;
图3为本申请实施例提供的又一种模型训练方法的流程示意图;
图4为本申请实施例提供的一种磁盘寿命预测方法的流程示意图;
图5为本申请实施例提供的一种模型训练装置的结构示意图;
图6为本申请实施例提供的一种磁盘寿命预测装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A 和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a 和b和c”,其中a,b,c可以是单个,也可以是多个。
目前,利用通过机器学习算法构建的磁盘寿命预测模型,把最大概率的类别作为磁盘状态的类别对磁盘寿命进行预测时,可以在线下测试集上得到较好的预测结果,但是往往在线上测试时,直接使用磁盘寿命预测模型输出的概率对磁盘寿命进行预测,实际输出的分类并不能准确对磁盘寿命进行预测。
本申请的发明人在研究中发现,导致这一问题出现的原因在于现有的磁盘寿命预测模型并未考虑到磁盘本身使用情况等外界因素对其寿命减少的影响,仅仅关注于多个不同磁盘数据构建的训练集,使用通用情况进行模型的训练,不能很好的描述实际一张磁盘寿命的发展趋势,导致对磁盘寿命预测的不准确。
为此,本申请实施例提供了一方面提供了一种模型训练方法及装置,另一方面提供了一种磁盘寿命预测方法及装置,利用同一磁盘在使用周期中磁盘寿命预测的情况,修正模型计算的分类概率使模型的输出更加符合这一磁盘的实际情况,实现对磁盘寿命预测模型的实时修正,以提高预测准确率。
基于上述思想,为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。
参见图1,该图为本申请实施例提供的一种模型训练方法的流程示意图。
本申请实施例提供的模型训练方法,包括如下步骤S101-S103。
S101:获得预先训练好的初始模型。
在本申请实施例中,初始模型可以是利用任意一种模型训练方法根据多个磁盘的SMART信息和其寿命标签所构建的训练数据集训练得到的,可以为任意结构,本申请对此不进行限定。初始模型至少有两类输出,在一个例子中,初始模型的输出可以是磁盘寿命的多个区间。例如,初始模型可以共包括4 类输出X0、X1、X2和X3,其中X0可以对应于[0,7)天、X1可以对应于[7,45) 天、X2可以对应于[45,90)天、X3可以对应于90天及以上。
S102:利用初始模型,对目标对象的发展趋势进行多次预测,得到多组预测输出。
在本申请实施例中,目标对象的发展趋势具体可以是磁盘等设备的使用寿命等,这里不进行限定。多次利用初始模型对同一对象的同一中发展趋势进行预测得到的每组预测输出包括初始模型对每类输出的分类概率。可以理解的是,每次预测的时间不同,例如对磁盘寿命预测时,可以每天对同一磁盘的寿命预测一次,连续n天(如n=7),得到n组预测输出。下表举例示出了初始模型包括4类输出X0、X1、X2和X3时的一种多组预测输出:
X<sub>0</sub> X<sub>1</sub> X<sub>2</sub> X<sub>3</sub>
第一组 P(A<sub>10</sub>) P(A<sub>11</sub>) P(A<sub>12</sub>) P(A<sub>13</sub>)
第二组 P(A<sub>20</sub>) P(A<sub>21</sub>) P(A<sub>22</sub>) P(A<sub>23</sub>)
…… …… …… …… ……
第n组 P(A<sub>n0</sub>) P(A<sub>n1</sub>) P(A<sub>n2</sub>) P(A<sub>n3</sub>)
S103:根据多组预测输出,对初始模型计算的分类概率进行校准,得到校准后的模型;校准后的模型用于对目标对象的发展趋势进行预测。
可以理解的是,由于多组预测输出可以在一定程度上反映出目标对象的发展趋势,以此为依据对初始模型计算的分类概率进行校准,可以纠正模型的输出误差,提高校准后模型对目标对象发展趋势的预测准确度。下面将详细说明具体如何进行校准。
在本申请实施例一些可能的实现方式中,步骤S103至少存在以下三种可能的实现方式。
第一种可能的实现方式,如图2所示,步骤S103具体可以包括:
S201:统计多组预测输出中每类输出的分类概率均值,得到每类输出的第一概率均值,并获得初始预测模型每类输出的分类概率均值,得到每类输出的第二概率均值。
以上表给出的多组预测输出为例,X0的第一概率均值
Figure BDA0001779063750000071
X1的第一概率均值
Figure BDA0001779063750000072
X2的第一概率均值
Figure BDA0001779063750000073
X3的第一概率均值
Figure BDA0001779063750000074
而第二概率均值利用初始模型的训练数据集得到,可以在训练初始模型时,通过统计初始模型对训练数据集中数据输出的每个分类的分类概率得到,具体统计方法与第一概率均值类似,这里不再赘述。
S202:根据第一概率均值和第二概率均值,获得每类输出的组间差异。
在本申请实施例中,组间差异可以反映一组预测输出在不同分类中的误差,即样本预测值在不同分类中的拟合程度。具体可以通过式(1)获得每类输出的组间差异。
Figure BDA0001779063750000081
式中,SSAk为第k类输出的组件差异,
Figure BDA0001779063750000082
为第k类输出的第一概率均值,uk为第k类输出的第二概率均值,s-1为自由度,s为初始模型输出类别的数量。
S203:根据组间差异的大小,为每类输出设置对应的分类惩罚系数。
在本申请实施例中,可以将分类惩罚系数设置为不大于0,且组间差异越大分类惩罚系数的绝对值越大。作为一个示例,当X0、X1、X2和X3四类输出的组件差异逐渐增大,则可以分别将X0、X1、X2和X3四类输出的分类惩罚系数设置为0、-0.1、-0.2和-0.3。
S204:利用分类惩罚系数修正初始设定的每类输出的分类权重。
作为一个示例,初始设定的每类输出的分类权重可以均为1,然后对每类输出将初始的分类权重和对应的分类惩罚系数相加即可实现对分类权重的修正。
需要说明的是,以上分类惩罚系数的设置方式和分类权重的修正方式仅为示例性说明,实际应用中可以根据实际情况具体设定,本申请实施例对此不进行限定,这里不再一一列举。
S205:使用分类权重对初始模型计算的每类输出的分类概率进行校准。
在将分类权重进行修正后,可以对初始模型原始得到的每类输出的分类概率乘以该类输出对应的分类权重,实现对分类概率的校准,使之更加准确,从而提高了模型预测的准确率。
第二种可能的实现方式,如图3所示,步骤S103具体可以包括:
S301:根据多组预测输出中最近一次预测的预测输出,获得其中分类概率最大的输出类别。
即,获得最近一次预测的预测结果。例如,最近一次预测的预测输出中, X0对应的分类概率最大,则最近一次预测的预测结果为X0
S302:根据分类概率最大的输出类别,为初始模型的每类输出设置对应的分类趋势系数。
由于最近一次预测的预测输出与当前时刻最为接近,目标对象(如磁盘寿命)的发展趋势更接近于最近一次预测的预测输出,根据分类概率最大的输出类别可以一定程度上代表目标对象的发展趋势。因此,在本申请实施例中,输出类别与分类概率最大的输出类别差异越小其对应的分类趋势系数越大。
以初始模型可以共包括4类输出X0、X1、X2和X3,其中X0可以对应于[0, 7)天、X1可以对应于[7,45)天、X2可以对应于[45,90)天、X3可以对应于90 天及以上为例,当最近一次预测的预测输出为X0时,可以将X0、X1、X2和X3对应的分类趋势系数分别设置为0.8、0.5、-0.2和-0.5;当最近一次预测的预测输出为X1时,可以将X0、X1、X2和X3对应的分类趋势系数分别设置为0.5、 0.8、0.5和-0.2;当最近一次预测的预测输出为X2时,可以将X0、X1、X2和X3对应的分类趋势系数分别设置为-0.2、0.5、0.8和0.5;当最近一次预测的预测输出为X3时,可以将X0、X1、X2和X3对应的分类趋势系数分别设置为-0.5、 -0.2、0.5和0.8。
S303:利用分类趋势系数修正初始设定的每类输出的分类权重。
作为一个示例,初始设定的每类输出的分类权重可以均为1,然后对每类输出将初始的分类权重和对应的分类趋势系数相加即可实现对分类权重的修正。
需要说明的是,以上分类趋势系数的设置方式和分类权重的修正方式仅为示例性说明,实际应用中可以根据实际情况具体设定,本申请实施例对此不进行限定,这里不再一一列举。
S304:使用分类权重对初始模型计算的每类输出的分类概率进行校准。
在将分类权重进行修正后,可以对初始模型原始得到的每类输出的分类概率乘以该类输出对应的分类权重,实现对分类概率的校准,使之更加准确,从而提高了模型预测的准确率。
第三种可能的实现方式,可以同时获得每类输出的分类惩罚系数和分类趋势系数,对每类输出将初始的分类权重和对应的分类趋势系数以及对应的分类惩罚系数相加实现对分类权重的修正,本申请实施例对分类惩罚系数和分类趋势系数获得先后顺序不进行限定,对分类惩罚系数和分类趋势系数的具体说明参见上述两种可能的实现方式即可,这里不再赘述。
在本申请实施例一些可能的实现方式中,为了防止校准结果过于倾向于某一分类而忽略实际情况的影响,在使用分类权重对初始模型计算的每类输出的分类概率进行校准之前,还可以包括:
在获得每类输出的第一概率均值后,根据每类输出的第一概率均值和在多组预测输出中的概率,获得多组预测输出的组内差异;判断组内差值是否小于预设阈值;若是,则重置每类输出的分类权重。
可以理解的是,第一概率均值为每类输出在多组预测输出中分类概率的均值,具体说明可以参见步骤S201。在本申请实施例中,组内差异可以反映一组预测值内部的测量误差,即样本预测值之间的离散程度。具体可以通过式(2) 获得每类输出的组内差异。
Figure BDA0001779063750000101
式中,SSE为组内差异,P(Aij)为第i组预测输出中第j类的分类概率,
Figure BDA0001779063750000102
为第k类输出的第一概率均值,n-s为自由度,n为多组预测输出的数量,s为初始模型输出类别的数量。
作为一个示例,当组内差异小于0.01时,可以将每类输出的分类权重均重置为1,再对初始模型原始得到的每类输出的分类概率乘以该类输出对应的分类权重,避免校准结果过于倾向于某一分类而造成预测准确率下降的问题。
可以理解的是,实际应用中,可以根据实际情况对预设阈值进行设定,本申请实施例不进行限定。
在本申请实施例中,首先获得预先训练好的初始模型,利用该初始模型对目标对象的发展趋势进行多次预测,得到多组预测输出,然后利用得到的多组预测输出对初始模型计算的分类概率进行校准,得到校准后的模型来继续对目标对象的发展趋势进行预测,可以根据目标对象的实际使用情况,对模型计算的分类概率进行校准,修正模型的预测误差,从而提高了模型对目标对象发展趋势预测的准确性,利用该校准后的模型可以准确预测磁盘的寿命。
基于上述实施例提供的模型训练方法,本申请实施例还提供了一种磁盘寿命预测方法。
参见图4,该图为本申请实施例提供的一种磁盘寿命预测方法的流程示意图。
本申请实施例提供的磁盘寿命预测方法,包括如下步骤S401-S403。
S401:获取目标磁盘的SMART信息。
S402:将SMART信息输入预先得到的预测模型。
在本申请实施例中,输入的预测模型是根据上述实施例提供的模型训练方法中的任意一种训练得到的,具体说明参见上面的相关内容即可,这里不再赘述。
S403:根据预测模型的输出结果,获得目标磁盘的寿命;预测模型将分类概率最大的类别作为结果输出。
在本申请实施例中,首先获得预先训练好的初始模型,利用该初始模型对磁盘寿命进行多次预测,得到多组预测输出,然后利用得到的多组预测输出对初始模型计算的分类概率进行校准,得到校准后的模型来继续对磁盘寿命进行预测,可以根据磁盘的实际使用情况,对模型计算的分类概率进行校准,修正模型的预测误差,从而提高了模型对磁盘寿命预测的准确性。
基于上述实施例提供的模型训练方法,本申请实施例还提供了一种模型训练装置。
参见图5,该图为本申请实施例提供的一种模型训练装置的结构示意图。
本申请实施例提供的模型训练装置,包括:获取模块501、预测模块502 和校准模块503;
获取模块501,用于获得预先训练好的初始模型;初始模型至少有两类输出;
预测模块502,用于利用初始模型,对目标对象的发展趋势进行多次预测,得到多组预测输出;每组预测输出包括每类输出的分类概率;
校准模块503,用于根据多组预测输出,对初始模型计算的分类概率进行校准,得到校准后的模型;校准后的模型用于对目标对象的发展趋势进行预测。
在本申请实施例一些可能的实现方式中,校准模块503,具体可以包括:统计子模块、分析子模块、第一设置子模块、第一修正子模块和第一校准子模块;
统计子模块,用于统计多组预测输出中每类输出的分类概率均值,得到每类输出的第一概率均值,并获得初始预测模型每类输出的分类概率均值,得到每类输出的第二概率均值;第二概率均值利用初始模型的训练数据集得到;
分析子模块,用于根据第一概率均值和第二概率均值,获得每类输出的组间差异;
第一设置子模块,用于根据组间差异的大小,为每类输出设置对应的分类惩罚系数;组间差异越大分类惩罚系数的绝对值越大;
第一修正子模块,用于利用分类惩罚系数修正初始设定的每类输出的分类权重;
第一校准子模块,用于使用分类权重对初始模型计算的每类输出的分类概率进行校准。
在本申请实施例一些可能的实现方式中,校准模块503,具体还可以包括:获得子模块、第二设置子模块、第二修正子模块和第二校准子模块;
获得子模块,用于根据多组预测输出中最近一次预测的预测输出,获得其中分类概率最大的输出类别;
第二设置子模块,用于根据分类概率最大的输出类别,为初始模型的每类输出设置对应的分类趋势系数;输出类别与分类概率最大的输出类别差异越小其对应的分类趋势系数越大;
第二修正子模块,用于利用分类趋势系数修正初始设定的每类输出的分类权重;
第二校准子模块,用于使用分类权重对初始模型计算的每类输出的分类概率进行校准。
在本申请实施例一些可能的实现方式中,该装置还可以包括:分析模块、判断模块和重置模块;
分析模块,用于在获得每类输出的第一概率均值后,根据每类输出的第一概率均值和在多组预测输出中的概率,获得多组预测输出的组内差异;第一概率均值为每类输出在多组预测输出中分类概率的均值;
判断模块,用于判断组内差值是否小于预设阈值;
重置模块,用于当判断模块判断组内差值小于预设阈值时,重置每类输出的分类权重。
在本申请实施例中,首先获得预先训练好的初始模型,利用该初始模型对目标对象的发展趋势进行多次预测,得到多组预测输出,然后利用得到的多组预测输出对初始模型计算的分类概率进行校准,得到校准后的模型来继续对目标对象的发展趋势进行预测,可以根据目标对象的实际使用情况,对模型计算的分类概率进行校准,修正模型的预测误差,从而提高了模型对目标对象发展趋势预测的准确性,利用该校准后的模型可以准确预测磁盘的寿命。
基于上述实施例提供的模型训练方法和磁盘寿命预测方法,本申请实施例还提供了一种磁盘寿命预测装置。
参见图6,该图为本申请实施例提供的一种磁盘寿命预测装置的结构示意图。
本申请实施例提供的磁盘寿命预测装置,包括:信息获取单元601、模型输入单元602和结果获取单元603;
信息获取单元601,用于获取目标磁盘的SMART信息;
模型输入单元602,用于将SMART信息输入预先得到的预测模型。
在本申请实施例中,输入的预测模型是根据上述实施例提供的模型训练方法中的任意一种训练得到的,具体说明参见上面的相关内容即可,这里不再赘述。
结果获取单元603,用于根据预测模型的输出结果,获得目标磁盘的寿命;预测模型将分类概率最大的类别作为结果输出。
在本申请实施例中,首先获得预先训练好的初始模型,利用该初始模型对磁盘寿命进行多次预测,得到多组预测输出,然后利用得到的多组预测输出对初始模型计算的分类概率进行校准,得到校准后的模型来继续对磁盘寿命进行预测,可以根据磁盘的实际使用情况,对模型计算的分类概率进行校准,修正模型的预测误差,从而提高了模型对磁盘寿命预测的准确性。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器 (RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (6)

1.一种磁盘寿命预测方法,其特征在于,所述方法包括:
获取目标磁盘的 SMART 信息;
将所述 SMART 信息输入预先得到的预测模型;所述预测模型根据如下模型训练方法得到;根据所述预测模型的输出结果,获得所述目标磁盘的寿命;所述预测模型将分类概率最大的类别作为结果输出;
其中,所述模型训练方法包括:
获得预先训练好的初始模型;所述初始模型至少有两类输出;
利用所述初始模型,对目标对象的发展趋势进行多次预测,得到多组预测输出;每组预测输出包括每类输出的分类概率;
根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,得到校准后的模型;所述校准后的模型用于对所述目标对象的发展趋势进行预测;
其中,所述根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,具体包括:
统计所述多组预测输出中每类输出的分类概率均值,得到每类输出的第一概率均值,并获得初始预测模型每类输出的分类概率均值,得到每类输出的第二概率均值;所述第二概率均值利用所述初始模型的训练数据集得到;
根据所述第一概率均值和所述第二概率均值,获得每类输出的组间差异;
根据所述组间差异的大小,为每类输出设置对应的分类惩罚系数;所述组间差异越大所述分类惩罚系数的绝对值越大;
利用所述分类惩罚系数修正初始设定的每类输出的分类权重;
使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
2.根据权利要求 1 所述的方法,其特征在于,其中,所述根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,也可以采用如下方法:
根据所述多组预测输出中最近一次预测的预测输出,获得其中分类概率最大的输出类别;
根据所述分类概率最大的输出类别,为所述初始模型的每类输出设置对应的分类趋势系数;输出类别与所述分类概率最大的输出类别差异越小其对应的分类趋势系数越大;
利用所述分类趋势系数修正初始设定的每类输出的分类权重;
使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
3.根据权利要求 2 所述的方法,其特征在于,所述使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准,之前还包括:
在获得每类输出的第一概率均值后,根据每类输出的所述第一概率均值和在所述多组预测输出中的概率,获得所述多组预测输出的组内差异;所述第一概率均值为每类输出在所述多组预测输出中分类概率的均值;
判断组内差值是否小于预设阈值;
若是,则重置所述每类输出的分类权重。
4.一种磁盘寿命预测装置,其特征在于,所述装置包括:信息获取单元、模型输入单元和结果获取单元;
所述信息获取单元,用于获取目标磁盘的 SMART 信息;
所述模型输入单元,用于将所述 SMART 信息输入预先得到的预测模型;所述预测模型根据如下模型训练装置得到;
所述结果获取单元,用于根据所述预测模型的输出结果,获得所述目标磁盘的寿命;所述预测模型将分类概率最大的类别作为结果输出;
其中,所述模型训练装置包括:获取模块、预测模块和校准模块;
所述获取模块,用于获得预先训练好的初始模型;所述初始模型至少有两类输出;
所述预测模块,用于利用所述初始模型,对目标对象的发展趋势进行多次预测,得到多组预测输出;每组预测输出包括每类输出的分类概率;
所述校准模块,用于根据所述多组预测输出,对所述初始模型计算的分类概率进行校准,得到校准后的模型;所述校准后的模型用于对所述目标对象的发展趋势进行预测;
其中,所述校准模块,具体包括:统计子模块、分析子模块、第一设置子模块、第一修正子模块和第一校准子模块;
所述统计子模块,用于统计所述多组预测输出中每类输出的分类概率均值,得到每类输出的第一概率均值,并获得初始预测模型每类输出的分类概率均值,得到每类输出的第二概率均值;所述第二概率均值利用所述初始模型的训练数据集得到;
所述分析子模块,用于根据所述第一概率均值和所述第二概率均值,获得每类输出的组间差异;
所述第一设置子模块,用于根据所述组间差异的大小,为每类输出设置对应的分类惩罚系数;所述组间差异越大所述分类惩罚系数的绝对值越大;
所述第一修正子模块,用于利用所述分类惩罚系数修正初始设定的每类输出的分类权重;
所述第一校准子模块,用于使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
5.根据权利要求 4 所述的装置,其特征在于,所述校准模块,也可以采用如下模块:获得子模块、第二设置子模块、第二修正子模块和第二校准子模块;
所述获得子模块,用于根据所述多组预测输出中最近一次预测的预测输出,获得其中分类概率最大的输出类别;
所述第二设置子模块,用于根据所述分类概率最大的输出类别,为所述初始模型的每类输出设置对应的分类趋势系数;输出类别与所述分类概率最大的输出类别差异越小其对应的分类趋势系数越大;
所述第二修正子模块,用于利用所述分类趋势系数修正初始设定的每类输出的分类权重;
所述第二校准子模块,用于使用所述分类权重对所述初始模型计算的每类输出的分类概率进行校准。
6.根据权利要求 5 所述的装置,其特征在于,所述装置,还包括:分析模块、判断模块和重置模块;
所述分析模块,用于在获得每类输出的第一概率均值后,根据每类输出的所述第一概率均值和在所述多组预测输出中的概率,获得所述多组预测输出的组内差异;所述第一概率均值为每类输出在所述多组预测输出中分类概率的均值;
所述判断模块,用于判断组内差值是否小于预设阈值;
所述重置模块,用于当所述判断模块判断所述组内差值小于所述预设阈值时,重置所述每类输出的分类权重。
CN201810983048.7A 2018-08-27 2018-08-27 磁盘寿命预测方法及装置 Active CN109214447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810983048.7A CN109214447B (zh) 2018-08-27 2018-08-27 磁盘寿命预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810983048.7A CN109214447B (zh) 2018-08-27 2018-08-27 磁盘寿命预测方法及装置

Publications (2)

Publication Number Publication Date
CN109214447A CN109214447A (zh) 2019-01-15
CN109214447B true CN109214447B (zh) 2021-10-29

Family

ID=64985886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810983048.7A Active CN109214447B (zh) 2018-08-27 2018-08-27 磁盘寿命预测方法及装置

Country Status (1)

Country Link
CN (1) CN109214447B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984736B (zh) * 2019-05-21 2024-03-29 腾讯科技(深圳)有限公司 对象类别检测方法、装置、可读存储介质和计算机设备
CN110515752B (zh) * 2019-08-23 2022-04-22 浪潮(北京)电子信息产业有限公司 一种磁盘设备寿命预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122641A (zh) * 2017-04-25 2017-09-01 杭州安石信息技术有限公司 基于使用习惯的智能设备机主识别方法及机主识别装置
CN107194464A (zh) * 2017-04-25 2017-09-22 北京小米移动软件有限公司 卷积神经网络模型的训练方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740687B2 (en) * 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122641A (zh) * 2017-04-25 2017-09-01 杭州安石信息技术有限公司 基于使用习惯的智能设备机主识别方法及机主识别装置
CN107194464A (zh) * 2017-04-25 2017-09-22 北京小米移动软件有限公司 卷积神经网络模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Discussion on the Relation Between SVM Training Sample Size and Correct Forecast Ratio for Simulation Experiment Results";Shuguang Zhu等;《2010 International Conference on Intelligent Computation Technology and Automation》;20100726;第138-141页 *
"基于概率校准的集成学习";姜正申等;《计算机应用》;20160210;第36卷(第2期);第291-294页 *

Also Published As

Publication number Publication date
CN109214447A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109558295B (zh) 一种性能指标异常检测方法及装置
Bornmann et al. How to improve the prediction based on citation impact percentiles for years shortly after the publication date?
CN107480028B (zh) 磁盘可使用的剩余时长的获取方法及装置
AU2018214120B2 (en) System and method for determining an optimum QC strategy for immediate release results
CN110008080B (zh) 基于时间序列的业务指标异常检测方法、装置和电子设备
Shao et al. Model uncertainty and Bayesian model averaged benchmark dose estimation for continuous data
CN110188862B (zh) 用于数据处理的模型超参数的搜索方法、装置、系统
CN109214447B (zh) 磁盘寿命预测方法及装置
Fan et al. Testing and detecting jumps based on a discretely observed process
CN111784160A (zh) 一种河流水文情势变化的评估方法及系统
CN110991761A (zh) 一种供热负荷预测方法及装置
CN118050538A (zh) 一种三维风向检测方法及系统
CN111783883A (zh) 一种异常数据的检测方法及装置
CN112326882A (zh) 空气质量传感器处理方法和装置
US20220349949A1 (en) Processing system and processing method
US11829390B2 (en) Recipe construction system, recipe construction method, computer readable recording media with stored programs, and non-transitory computer program product
Cook Consolidation of analysis methods for sub‐annual extreme wind speeds
CN111367820B (zh) 一种测试案例的排序方法及装置
CN114021302A (zh) 输电线路的寿命评估方法、装置、系统及存储介质
CN112949951A (zh) 数据预测方法、装置、电子设备及存储介质
CN112132435A (zh) 一种基于半定量计算的化工风险评价方法
CN117808052B (zh) 基于真空环境机械臂负载自适应方法及系统
CN112580714B (zh) 一种以错因强化方式动态优化损失函数的物品识别方法
CN117553864B (zh) 一种基于大数据的传感器采集方法及系统
CN114386525B (zh) 一种评估标准的自适应调整方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant