一种多源固态硬盘协同故障诊断方法、系统、设备及介质
技术领域
本发明属于存储器故障和可靠性诊断技术领域,尤其涉及一种多源固态硬盘协同故障诊断方法、系统、设备及介质。
背景技术
目前,固态硬盘泛指由固态电子存储芯片阵列而成的存储元件,在结构上由随机存储器集成的控制单元和闪存存储芯片集成的存储单元两部分组成。固态硬盘在接口的规范和定义、功能及使用方法上上与传统机械硬盘完全相同。但在其结构上由于没有机械结构从而与传统机械硬盘区分开,依赖于内部的固态电子存储芯片特性,具有读写速度快、工作温度范围大、轻便、低耗电、耐震、稳定性高等优点。从而被广泛应用于军事、车载、工控、视频监控、网络监控、网络终端、电力、医疗、航空、导航设备等领域。随着数据规模不断增大以及人们对高速、稳定的云服务需求日益旺盛,数据安全问题日益突出,它不仅关系到个人利益、企业运营,而且直接影响国家安全。新的固态硬盘制造工艺和微电子技术使得其内部存储单元的体积不断缩小,间距不断降低,并且单元体在空间上的堆叠阵列得以应用。越来越高的性能和存储容量要求也带来了数据存储安全上的挑战。针对数据存储环节中的关键部分,固态硬盘的可靠性分析及健康管理手段成为新的研究热点。
目前,在固态硬盘故障诊断领域,多数研究工作都是以硬盘S.M.A.R.T. (Self-Monitoring,Analysis and Reporting Technology)数据为基础开展的。已有的围绕硬盘S.M.A.R.T.数据建立的基于统计和机器学习方法的硬盘故障诊断模型大都依托于已收集到的丰富的数据集,其中包含了已被标记为故障的固态硬盘数据和仍然正常运转硬盘数据。且建立起的评价指标体系仅限于同类型固态硬盘,并不能很好地指导用户对存储设备进行有效地维护。因此,有必要尝试有别于现有的统计和机器学习方法进行固态硬盘故障预报和可靠性评估研究。
在工程实际中,得益于深度学习的迅速发展,基于深度学习的多实例故障诊断技术和基于迁移学习的跨领域故障诊断方法是深度学习领域极具发展前景的工具。从经典的MMD领域概率分布对齐到更受研究人员推崇的域适应方法,已成功应用于目标定位、跟踪、语音识别、语音增强与消噪、系统辨识参数估计以及动态系统的故障检测等领域。加权域适应是一种基于多源域适应的学习方法,其可以跨领域将多个已有丰富标签数据的源域上的知识迁移到缺乏标签信息的目标域上进行模型训练。非常适合解决新型欠缺诊断数据的硬盘的故障诊断问题。值得注意的是,近年来,虽然基于深度学习的故障诊断方法不断被应用于诸如移动机器人、燃气涡轮发动机以及高速列车等极为复杂的大型系统的故障诊断。但针对固态硬盘的故障诊断相对研究较少。因此,针对固态硬盘这类较为复杂的系统,尝试运用域适应方法对其进行故障诊断不失为一种有效弥补统计和机器学习方法不足的解决途径,同时也充满了许多未知的挑战。
通过上述分析,现有技术存在的问题及缺陷为:目前新型固态硬盘欠缺诊断知识,使得固态硬盘的故障诊断由于缺乏必要的数据难以进行,给存储数据带来巨大的安全隐患。
发明内容
针对现有技术存在的问题,本发明提供了一种多源固态硬盘协同故障诊断方法、系统、设备及介质。
本发明是这样实现的,一种多源固态硬盘协同故障诊断方法,所述多源固态硬盘协同故障诊断方法通过固态硬盘运行数据S.M.A.R.T.参数集筛选出用于固态硬盘协同故障诊断的预处理数据集;引入域内特征提取器,提取单个源域与目标域内分布特征;引入加权域适应理论,运用基于相似度加权的域适应网络对齐已知多源域固态硬盘故障分布特征与未知目标域固态硬盘故障分布特征,将已知多源域固态硬盘故障特征知识迁移到未知目标域固态硬盘数据,从而建立故障诊断模型。
进一步,所述多源固态硬盘协同故障诊断方法包括以下步骤:
第一步,根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T. 参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集,为整体技术提供数据支撑;
第二步,构建域内特征提取器,提取不同域内分布特征,为跨域诊断知识迁移提供条件;
第三步,引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型,完成跨域多源域故障诊断知识迁移的核心技术;
第四步,根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断,实现利用已有的诊断数据对新型缺少数据的固态硬盘的故障诊断模型建立。
进一步,所述第一步的闪存芯片的故障类型分为:数据保存错误:固态硬盘存储数据时,由于隧道氧化层与电荷捕获层并非完全绝缘体,电荷存储层中的电荷发生了泄漏,使得该单元保有电荷量下降导致其电荷水平偏移至其他数据状态的电荷水平,并在后续识别中被读取为其他数据值产生数据错误;写入干扰错误与读取干扰错误:由于在字线与位线上施加的电压在隧道氧化层与栅极氧化层中形成微小电容,因存储单元阵列紧密,微小的电压会引起互感,导致旁侧存储单元电荷水平发生偏移引起数据错误;P/E循环错误:固态硬盘随着 P/E循环次数增多,存储单元磨损加剧,所谓磨损就是指电荷捕获层保有电荷能力降低,隧道氧化层中存有电应力,这种电应力使得存储单元中电荷泄露速度加剧,并且在擦除后无法回到最低电位,数据难以正常擦写。
进一步,所述第一步包括:利用与上述故障机理相关的原始S.M.A.R.T.参数作为固态硬盘协同故障诊断方法的参数集;
其次,利用随机森林方法,对所选的S.M.A.R.T.参数集与固态硬盘故障特征的计算相关性程度评价,得到预处理数据集。
进一步,将已知样本的每种不同S.M.A.R.T.参数分为训练集与测试集,在各组训练集上训练出能够识别故障的模型;利用测试集进行评价,将准确率最高的S.M.A.R.T.参数视为与故障特征,选出的用于固态硬盘协同故障诊断的最佳预处理数据集包括:读取错误率,重分配扇区计数,可用保留区块计数,磨损均衡计数,重分配事件计数,不可纠正错误计数。
进一步,所述第二步具体包括:
当t=1时,初始化步:
初始化特征提取器G
dd(θ
dd)与标签分类器G
lc(θ
lc)的参数,设置标签分类器参数θ
lc与初始特征提取器参数θ
dd;将训练集中含标记信息的已知多源域固态硬盘故障特征集合归纳为源域
为源域样本,
为源域标签,n
s为源域样本计数,将缺少标记信息的未知目标域固态硬盘故障特征集合归纳为目标域
为目标域样本,n
T为目标域样本计数;
当t=2:N,训练步,N为训练步数,每一步分为前向传播与反向传播:
前向传播:
从D
S,D
T中取出当前训练步所需样本,G
dd(θ
dd)与G
lc(θ
lc)分别对样本进行计算,得到域判别预测值d
i与特征提取器结果
其中,θ
fe为特征提取器参数;
反向传播:
特征提取器损失LCLS(θfe):
式中,N为源域样本总数,j为源域样本计数,
为输入的样本标签,
为输出的样本标签。
进一步,所述第三步具体包括:
相似度加权计算公式:
为多个源域的样本,j为样本序号,X
t为目标域的样本。
将该权值与各源域内提取特征值做乘积后进行特征融合,该过程为协同融合特征值构建;基于域适应方法利用该协同融合特征,将源域上的知识迁移到目标域上构建协同故障诊断模型;
其域适应损失LDAB(Ds,Dt;θd)函数定义为:
并构建总体损失函数Lglobal:
其中α在训练过程中适度调整,初始设置为0.001;
对损失函数进行优化计算,并反向更新参数,经更新后的参数保存入模型并冻结除最后一层输出层外的模型各层参数,构成加权域适应固态硬盘多源域协同故障诊断模型;
所述第四步具体包括:硬盘可靠性的相关指标数值,包括:
固态硬盘协同故障诊断指标:Pout=Model(Din);
其中nr代表诊断正确的样本,nf代表总体样本;Din表示当前监测固态硬盘输入模型状态数据,Pout表示模型自适应协同故障诊断模型输出值,其取值范围在Pout=[0,1],其值越接近1代表固态硬盘越接近损坏。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的多源固态硬盘协同故障诊断方法。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的多源固态硬盘协同故障诊断方法。
本发明的另一目的在于提供一种实施所述的多源固态硬盘协同故障诊断方法的多源固态硬盘协同故障诊断系统,所述多源固态硬盘协同故障诊断系统包括:
预处理数据集筛选模块,用于根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
分布特征提取模块,用于构建域内特征提取器,提取不同域内分布特征:
诊断模型构建模块,用于引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
协同故障诊断模块,用于根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:本发明基于随机森林方法从多种固态硬盘原始 S.M.A.R.T.参数集中构造的预处理数据集,能更好的反映硬盘工作运行过程中的动态异常行为,有助于故障诊断算法更加高效的检测出故障,以便获得较高的故障硬盘检出率;本发明提出的加权域适应方法,能够有效地对固态硬盘状态监测参数进行特征提取,极大地提高了故障诊断算法的准确率,实现过程简单易掌握;本发明中的多源域加权域适应模型,具有更加简单的应用条件,诊断知识可从已知故障数据的固态硬盘中迁移,对于存储设备维护人员的指导意义更强。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:本发明采用的基于加权域适应方法,即采用加权域适应网络,对齐多源域已知固态硬盘故障特征数据集的概率分布与未知目标域固态硬盘故障特征数据集的概率分布,建立固态硬盘加权域适应故障诊断模型,能更好的解决新型固态硬盘这类欠缺标签数据的故障诊断问题,其估计精度更高,覆盖故障类型更全面,不易产生硬盘故障误报。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
为企业级固态硬盘故障预测提供了一种有效的方法,避免因固态硬盘故障造成的经济损失。
(2)本发明的技术方案填补了国内外业内技术空白:
本发明采用构建的多源固态硬盘协同故障诊断方法,有效的防止了因数据来源受限而无法有效检测新型固态硬盘故障状态的问题和缺陷,给国产固态硬盘提供了一种了考的运维系统,为固态硬盘国产化提供了可能。
(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
提出基于多实例对抗学习的企业级固态硬盘故障预警与可靠性评估方法,对系统中使用的固态硬盘进行故障预警,避免因固态硬盘故障造成的经济损失,提高固态硬盘的可靠性
附图说明
图1是本发明实施例提供的多源固态硬盘协同故障诊断方法流程图;
图2是本发明实施例提供的多源固态硬盘协同故障诊断方法的实现流程图;
图3是本发明实施例提供的利用随机森林数据预处理结果示意图;
图4是本发明实施例提供的100块固态硬盘协同故障诊断准确率的不同准确率图;
图5是本发明实施例提供的100块固态硬盘协同故障诊断不同方法下效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
本发明通过固态硬盘运行数据S.M.A.R.T.参数集筛选出用于固态硬盘协同故障诊断的预处理数据集;引入域内特征提取器,提取单个源域与目标域内分布特征;引入加权域适应理论,运用基于相似度加权的域适应网络对齐已知多源域固态硬盘故障分布特征与未知目标域固态硬盘故障分布特征,将已知多源域固态硬盘故障特征知识迁移到未知目标域固态硬盘数据。该方法能够学习多种固态硬盘多种故障特征知识,充分利用全部有用信息,实现基于固态硬盘状态监测的在线协同故障诊断,并能保证在零误报的情况下,获得高水平的故障检出率,同时输出指示性和指导意义更强的单个固态硬盘健康状态评价。
如图1所示,本发明实施例提供的多源固态硬盘协同故障诊断方法包括以下步骤:
S101:根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T. 参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
S102:构建域内特征提取器,提取不同域内分布特征;
S103:引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
S104:根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
如图2所示,本发明实施例提供的多源固态硬盘协同故障诊断系统包括:
预处理数据集筛选模块,用于根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
分布特征提取模块,用于构建域内特征提取器,提取不同域内分布特征:
诊断模型构建模块,用于引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
协同故障诊断模块,用于根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
如图2所示,本发明的多源固态硬盘协同故障诊断方法,包括以下步骤:
1)根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集。具体过程如下:
首先,由于固态硬盘的主要失效形式常规的故障是由保存数据闪存芯片引起的,而闪存芯片的故障类型主要可分为以下几类:
数据保存错误:固态硬盘存储数据时,由于隧道氧化层与电荷捕获层并非完全绝缘体,电荷存储层中的电荷发生了泄漏,使得该单元保有电荷量下降导致其电荷水平偏移至其他数据状态的电荷水平,并在后续识别中被读取为其他数据值产生数据错误。
写入干扰错误与读取干扰错误:由于在字线与位线上施加的电压在隧道氧化层与栅极氧化层中形成微小电容,因存储单元阵列紧密,微小的电压会引起互感,导致旁侧存储单元电荷水平发生偏移引起数据错误。
P/E循环错误:固态硬盘随着P/E循环次数增多,存储单元磨损加剧,所谓磨损就是指电荷捕获层保有电荷能力降低,隧道氧化层中存有电应力,这种电应力使得存储单元中电荷泄露速度加剧,并且在擦除后无法回到最低电位,数据难以正常擦写。
综上,首先利用与上述故障机理相关的原始S.M.A.R.T.参数作为固态硬盘协同故障诊断方法的参数集。
其次,利用随机森林方法,对所选的S.M.A.R.T.参数集与固态硬盘故障特征的计算相关性程度评价,得到预处理数据集,具体包括以下步骤:
将已知样本的每种不同S.M.A.R.T.参数分为训练集与测试集,在各组训练集上训练出能够识别故障的模型。之后利用测试集进行评价,将准确率最高的 S.M.A.R.T.参数视为与故障特征,各参数准确率参见图3,选出的用于固态硬盘协同故障诊断的最佳预处理数据集包括:读取错误率(Read Error Rate),重分配扇区计数(Reallocated sectorcount),可用保留区块计数(Available reserved blocks),磨损均衡计数(Wear levelingcount),重分配事件计数(Reallocation Event Count),不可纠正错误计数(Uncorrectable Sector Count)。
2)构建域内特征提取器,提取不同域内分布特征:
当t=1时,初始化步:
初始化特征提取器G
dd(θ
dd)与标签分类器G
lc(θ
lc)的参数,设置标签分类器参数θ
lc与初始特征提取器参数θ
dd。将训练集中含标记信息的已知多源域固态硬盘故障特征集合归纳为源域
为源域样本,
为源域标签,n
s为源域样本计数,将缺少标记信息的未知目标域固态硬盘故障特征集合归纳为目标域
为目标域样本,n
T为目标域样本计数。
当t=2:N,训练步,每一步分为前向传播与反向传播:
前向传播:
从D
S,D
T中取出当前训练步所需样本,G
dd(θ
dd)与G
lc(θ
lc)分别对样本进行计算,得到域判别预测值d
i与特征提取器结果
其中,θ
fe为特征提取器参数。
反向传播:
特征提取器损失L(θfe):
式中,N为源域样本总数,j为源域样本计数,
为输入的样本标签,
为输出的样本标签。
3)引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型,具体过程如下:
相似度加权计算公式:
权值:
将该权值与各源域内提取特征值做乘积后进行特征融合,该过程为协同融合特征值构建。基于域适应方法利用该协同融合特征,将源域上的知识迁移到目标域上构建协同故障诊断模型。
其域适应损失函数定义为:
并构建总体损失函数:
其中α在训练过程中适度调整,初始设置为0.001。
对损失函数进行优化计算,并反向更新参数,经更新后的参数保存入模型并冻结除最后一层输出层外的模型各层参数,构成加权域适应固态硬盘多源域协同故障诊断模型。
4)根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断,具体通过如下指标:
硬盘可靠性的相关指标数值,包括:
固态硬盘协同故障诊断指标:Pout=Model(Din);
其中Din表示当前监测固态硬盘输入模型状态数据,Pout表示模型自适应协同故障诊断模型输出值,其取值范围在Pout=[0,1],其值越接近1代表固态硬盘越接近损坏。
通过实施以上四部分流程,由实施例结果表明,本发明提出的基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法,能够在保证获得高水平的协同故障诊断精确度,此外,还能获得对于服务器运营商来说比较合理的模型稳定性,这能充分指导他们进行大规模更换存储备件。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
对某数据中心100块固态硬盘收集到的一年来的每日S.M.A.R.T.监测参数实施基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法,该评估方法效果如图4和图5所示,其中加权域适应方法,为本发明提出方法;方法对照上,设置了现有的主流多种域适应方法等相关领域常见方法为对照组;此外对现有的深度学习方法,域适应,多域适应方法展开对比,同过对比增长的准确率,体现我们方法的优越性。
从图4可以看出,本发明提出的基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法与不同种类的方法对比具有较好的优越性。
从图5可以看出,本发明提出的基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法相较于其他方法而言具有较好的效果。
本发明针对多源固态硬盘协同故障诊断工程实际问题,首先根据固态硬盘主要失效形式选取硬盘原始S.M.A.R.T.数据,并选取与故障最相关的参数集;其次,基于选取出的训练集,运用加权域适应算法对训练集数据进行学习,并得到故障特征预警知识;再次,运用基于对抗迁移域适应方法将故障诊断知识迁移去欠缺标签数据的新型固态硬盘数据集,并进行故障诊断,获得模型预测精度;最后,根据故障统计特征(均值、方差)设定自适应故障判定阈值,统计可靠性评价相关指标。该方法实施简单,效果显著,为多源固态硬盘故障诊断提供了一种有效的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。