CN115543702A - 一种多源固态硬盘协同故障诊断方法、系统、设备及介质 - Google Patents

一种多源固态硬盘协同故障诊断方法、系统、设备及介质 Download PDF

Info

Publication number
CN115543702A
CN115543702A CN202211134732.0A CN202211134732A CN115543702A CN 115543702 A CN115543702 A CN 115543702A CN 202211134732 A CN202211134732 A CN 202211134732A CN 115543702 A CN115543702 A CN 115543702A
Authority
CN
China
Prior art keywords
solid state
state disk
domain
fault diagnosis
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211134732.0A
Other languages
English (en)
Inventor
王宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Yunchen Shuan Intelligent Technology Co ltd
Original Assignee
Suzhou Yunchen Shuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Yunchen Shuan Intelligent Technology Co ltd filed Critical Suzhou Yunchen Shuan Intelligent Technology Co ltd
Priority to CN202211134732.0A priority Critical patent/CN115543702A/zh
Publication of CN115543702A publication Critical patent/CN115543702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明属于存储器故障和可靠性诊断技术领域,公开了一种多源固态硬盘协同故障诊断方法、系统、设备及介质,通过固态硬盘运行数据S.M.A.R.T.参数集筛选出用于固态硬盘协同故障诊断的预处理数据集;引入域内特征提取器,提取单个源域与目标域内分布特征;引入加权域适应理论,运用基于相似度加权的域适应网络对齐已知多源域固态硬盘故障分布特征与未知目标域固态硬盘故障分布特征,将已知多源域固态硬盘故障特征知识迁移到未知目标域固态硬盘数据。本发明中的多源域加权域适应模型,具有更加简单的应用条件,诊断知识可从已知故障数据的固态硬盘中迁移,对于存储设备维护人员的指导意义更强。

Description

一种多源固态硬盘协同故障诊断方法、系统、设备及介质
技术领域
本发明属于存储器故障和可靠性诊断技术领域,尤其涉及一种多源固态硬盘协同故障诊断方法、系统、设备及介质。
背景技术
目前,固态硬盘泛指由固态电子存储芯片阵列而成的存储元件,在结构上由随机存储器集成的控制单元和闪存存储芯片集成的存储单元两部分组成。固态硬盘在接口的规范和定义、功能及使用方法上上与传统机械硬盘完全相同。但在其结构上由于没有机械结构从而与传统机械硬盘区分开,依赖于内部的固态电子存储芯片特性,具有读写速度快、工作温度范围大、轻便、低耗电、耐震、稳定性高等优点。从而被广泛应用于军事、车载、工控、视频监控、网络监控、网络终端、电力、医疗、航空、导航设备等领域。随着数据规模不断增大以及人们对高速、稳定的云服务需求日益旺盛,数据安全问题日益突出,它不仅关系到个人利益、企业运营,而且直接影响国家安全。新的固态硬盘制造工艺和微电子技术使得其内部存储单元的体积不断缩小,间距不断降低,并且单元体在空间上的堆叠阵列得以应用。越来越高的性能和存储容量要求也带来了数据存储安全上的挑战。针对数据存储环节中的关键部分,固态硬盘的可靠性分析及健康管理手段成为新的研究热点。
目前,在固态硬盘故障诊断领域,多数研究工作都是以硬盘S.M.A.R.T. (Self-Monitoring,Analysis and Reporting Technology)数据为基础开展的。已有的围绕硬盘S.M.A.R.T.数据建立的基于统计和机器学习方法的硬盘故障诊断模型大都依托于已收集到的丰富的数据集,其中包含了已被标记为故障的固态硬盘数据和仍然正常运转硬盘数据。且建立起的评价指标体系仅限于同类型固态硬盘,并不能很好地指导用户对存储设备进行有效地维护。因此,有必要尝试有别于现有的统计和机器学习方法进行固态硬盘故障预报和可靠性评估研究。
在工程实际中,得益于深度学习的迅速发展,基于深度学习的多实例故障诊断技术和基于迁移学习的跨领域故障诊断方法是深度学习领域极具发展前景的工具。从经典的MMD领域概率分布对齐到更受研究人员推崇的域适应方法,已成功应用于目标定位、跟踪、语音识别、语音增强与消噪、系统辨识参数估计以及动态系统的故障检测等领域。加权域适应是一种基于多源域适应的学习方法,其可以跨领域将多个已有丰富标签数据的源域上的知识迁移到缺乏标签信息的目标域上进行模型训练。非常适合解决新型欠缺诊断数据的硬盘的故障诊断问题。值得注意的是,近年来,虽然基于深度学习的故障诊断方法不断被应用于诸如移动机器人、燃气涡轮发动机以及高速列车等极为复杂的大型系统的故障诊断。但针对固态硬盘的故障诊断相对研究较少。因此,针对固态硬盘这类较为复杂的系统,尝试运用域适应方法对其进行故障诊断不失为一种有效弥补统计和机器学习方法不足的解决途径,同时也充满了许多未知的挑战。
通过上述分析,现有技术存在的问题及缺陷为:目前新型固态硬盘欠缺诊断知识,使得固态硬盘的故障诊断由于缺乏必要的数据难以进行,给存储数据带来巨大的安全隐患。
发明内容
针对现有技术存在的问题,本发明提供了一种多源固态硬盘协同故障诊断方法、系统、设备及介质。
本发明是这样实现的,一种多源固态硬盘协同故障诊断方法,所述多源固态硬盘协同故障诊断方法通过固态硬盘运行数据S.M.A.R.T.参数集筛选出用于固态硬盘协同故障诊断的预处理数据集;引入域内特征提取器,提取单个源域与目标域内分布特征;引入加权域适应理论,运用基于相似度加权的域适应网络对齐已知多源域固态硬盘故障分布特征与未知目标域固态硬盘故障分布特征,将已知多源域固态硬盘故障特征知识迁移到未知目标域固态硬盘数据,从而建立故障诊断模型。
进一步,所述多源固态硬盘协同故障诊断方法包括以下步骤:
第一步,根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T. 参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集,为整体技术提供数据支撑;
第二步,构建域内特征提取器,提取不同域内分布特征,为跨域诊断知识迁移提供条件;
第三步,引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型,完成跨域多源域故障诊断知识迁移的核心技术;
第四步,根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断,实现利用已有的诊断数据对新型缺少数据的固态硬盘的故障诊断模型建立。
进一步,所述第一步的闪存芯片的故障类型分为:数据保存错误:固态硬盘存储数据时,由于隧道氧化层与电荷捕获层并非完全绝缘体,电荷存储层中的电荷发生了泄漏,使得该单元保有电荷量下降导致其电荷水平偏移至其他数据状态的电荷水平,并在后续识别中被读取为其他数据值产生数据错误;写入干扰错误与读取干扰错误:由于在字线与位线上施加的电压在隧道氧化层与栅极氧化层中形成微小电容,因存储单元阵列紧密,微小的电压会引起互感,导致旁侧存储单元电荷水平发生偏移引起数据错误;P/E循环错误:固态硬盘随着 P/E循环次数增多,存储单元磨损加剧,所谓磨损就是指电荷捕获层保有电荷能力降低,隧道氧化层中存有电应力,这种电应力使得存储单元中电荷泄露速度加剧,并且在擦除后无法回到最低电位,数据难以正常擦写。
进一步,所述第一步包括:利用与上述故障机理相关的原始S.M.A.R.T.参数作为固态硬盘协同故障诊断方法的参数集;
其次,利用随机森林方法,对所选的S.M.A.R.T.参数集与固态硬盘故障特征的计算相关性程度评价,得到预处理数据集。
进一步,将已知样本的每种不同S.M.A.R.T.参数分为训练集与测试集,在各组训练集上训练出能够识别故障的模型;利用测试集进行评价,将准确率最高的S.M.A.R.T.参数视为与故障特征,选出的用于固态硬盘协同故障诊断的最佳预处理数据集包括:读取错误率,重分配扇区计数,可用保留区块计数,磨损均衡计数,重分配事件计数,不可纠正错误计数。
进一步,所述第二步具体包括:
当t=1时,初始化步:
初始化特征提取器Gdddd)与标签分类器Glclc)的参数,设置标签分类器参数θlc与初始特征提取器参数θdd;将训练集中含标记信息的已知多源域固态硬盘故障特征集合归纳为源域
Figure RE-GDA0003930558670000041
Figure RE-GDA0003930558670000042
为源域样本,
Figure RE-GDA0003930558670000043
为源域标签,ns为源域样本计数,将缺少标记信息的未知目标域固态硬盘故障特征集合归纳为目标域
Figure RE-GDA0003930558670000044
Figure RE-GDA0003930558670000045
为目标域样本,nT为目标域样本计数;
当t=2:N,训练步,N为训练步数,每一步分为前向传播与反向传播:
前向传播:
从DS,DT中取出当前训练步所需样本,Gdddd)与Glclc)分别对样本进行计算,得到域判别预测值di与特征提取器结果
Figure RE-GDA0003930558670000046
其中,θfe为特征提取器参数;
反向传播:
特征提取器损失LCLSfe):
Figure RE-GDA0003930558670000047
式中,N为源域样本总数,j为源域样本计数,
Figure RE-GDA0003930558670000048
为输入的样本标签,
Figure RE-GDA0003930558670000049
为输出的样本标签。
进一步,所述第三步具体包括:
相似度加权计算公式:
Figure RE-GDA0003930558670000051
Figure RE-GDA0003930558670000052
为多个源域的样本,j为样本序号,Xt为目标域的样本。
将该权值与各源域内提取特征值做乘积后进行特征融合,该过程为协同融合特征值构建;基于域适应方法利用该协同融合特征,将源域上的知识迁移到目标域上构建协同故障诊断模型;
其域适应损失LDAB(Ds,Dt;θd)函数定义为:
Figure RE-GDA0003930558670000053
并构建总体损失函数Lglobal
Figure RE-GDA0003930558670000054
其中α在训练过程中适度调整,初始设置为0.001;
对损失函数进行优化计算,并反向更新参数,经更新后的参数保存入模型并冻结除最后一层输出层外的模型各层参数,构成加权域适应固态硬盘多源域协同故障诊断模型;
所述第四步具体包括:硬盘可靠性的相关指标数值,包括:
分类准确率(ACC):
Figure RE-GDA0003930558670000055
固态硬盘协同故障诊断指标:Pout=Model(Din);
其中nr代表诊断正确的样本,nf代表总体样本;Din表示当前监测固态硬盘输入模型状态数据,Pout表示模型自适应协同故障诊断模型输出值,其取值范围在Pout=[0,1],其值越接近1代表固态硬盘越接近损坏。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的多源固态硬盘协同故障诊断方法。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的多源固态硬盘协同故障诊断方法。
本发明的另一目的在于提供一种实施所述的多源固态硬盘协同故障诊断方法的多源固态硬盘协同故障诊断系统,所述多源固态硬盘协同故障诊断系统包括:
预处理数据集筛选模块,用于根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
分布特征提取模块,用于构建域内特征提取器,提取不同域内分布特征:
诊断模型构建模块,用于引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
协同故障诊断模块,用于根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:本发明基于随机森林方法从多种固态硬盘原始 S.M.A.R.T.参数集中构造的预处理数据集,能更好的反映硬盘工作运行过程中的动态异常行为,有助于故障诊断算法更加高效的检测出故障,以便获得较高的故障硬盘检出率;本发明提出的加权域适应方法,能够有效地对固态硬盘状态监测参数进行特征提取,极大地提高了故障诊断算法的准确率,实现过程简单易掌握;本发明中的多源域加权域适应模型,具有更加简单的应用条件,诊断知识可从已知故障数据的固态硬盘中迁移,对于存储设备维护人员的指导意义更强。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:本发明采用的基于加权域适应方法,即采用加权域适应网络,对齐多源域已知固态硬盘故障特征数据集的概率分布与未知目标域固态硬盘故障特征数据集的概率分布,建立固态硬盘加权域适应故障诊断模型,能更好的解决新型固态硬盘这类欠缺标签数据的故障诊断问题,其估计精度更高,覆盖故障类型更全面,不易产生硬盘故障误报。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
为企业级固态硬盘故障预测提供了一种有效的方法,避免因固态硬盘故障造成的经济损失。
(2)本发明的技术方案填补了国内外业内技术空白:
本发明采用构建的多源固态硬盘协同故障诊断方法,有效的防止了因数据来源受限而无法有效检测新型固态硬盘故障状态的问题和缺陷,给国产固态硬盘提供了一种了考的运维系统,为固态硬盘国产化提供了可能。
(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:
提出基于多实例对抗学习的企业级固态硬盘故障预警与可靠性评估方法,对系统中使用的固态硬盘进行故障预警,避免因固态硬盘故障造成的经济损失,提高固态硬盘的可靠性
附图说明
图1是本发明实施例提供的多源固态硬盘协同故障诊断方法流程图;
图2是本发明实施例提供的多源固态硬盘协同故障诊断方法的实现流程图;
图3是本发明实施例提供的利用随机森林数据预处理结果示意图;
图4是本发明实施例提供的100块固态硬盘协同故障诊断准确率的不同准确率图;
图5是本发明实施例提供的100块固态硬盘协同故障诊断不同方法下效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
本发明通过固态硬盘运行数据S.M.A.R.T.参数集筛选出用于固态硬盘协同故障诊断的预处理数据集;引入域内特征提取器,提取单个源域与目标域内分布特征;引入加权域适应理论,运用基于相似度加权的域适应网络对齐已知多源域固态硬盘故障分布特征与未知目标域固态硬盘故障分布特征,将已知多源域固态硬盘故障特征知识迁移到未知目标域固态硬盘数据。该方法能够学习多种固态硬盘多种故障特征知识,充分利用全部有用信息,实现基于固态硬盘状态监测的在线协同故障诊断,并能保证在零误报的情况下,获得高水平的故障检出率,同时输出指示性和指导意义更强的单个固态硬盘健康状态评价。
如图1所示,本发明实施例提供的多源固态硬盘协同故障诊断方法包括以下步骤:
S101:根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T. 参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
S102:构建域内特征提取器,提取不同域内分布特征;
S103:引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
S104:根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
如图2所示,本发明实施例提供的多源固态硬盘协同故障诊断系统包括:
预处理数据集筛选模块,用于根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
分布特征提取模块,用于构建域内特征提取器,提取不同域内分布特征:
诊断模型构建模块,用于引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
协同故障诊断模块,用于根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
如图2所示,本发明的多源固态硬盘协同故障诊断方法,包括以下步骤:
1)根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集。具体过程如下:
首先,由于固态硬盘的主要失效形式常规的故障是由保存数据闪存芯片引起的,而闪存芯片的故障类型主要可分为以下几类:
数据保存错误:固态硬盘存储数据时,由于隧道氧化层与电荷捕获层并非完全绝缘体,电荷存储层中的电荷发生了泄漏,使得该单元保有电荷量下降导致其电荷水平偏移至其他数据状态的电荷水平,并在后续识别中被读取为其他数据值产生数据错误。
写入干扰错误与读取干扰错误:由于在字线与位线上施加的电压在隧道氧化层与栅极氧化层中形成微小电容,因存储单元阵列紧密,微小的电压会引起互感,导致旁侧存储单元电荷水平发生偏移引起数据错误。
P/E循环错误:固态硬盘随着P/E循环次数增多,存储单元磨损加剧,所谓磨损就是指电荷捕获层保有电荷能力降低,隧道氧化层中存有电应力,这种电应力使得存储单元中电荷泄露速度加剧,并且在擦除后无法回到最低电位,数据难以正常擦写。
综上,首先利用与上述故障机理相关的原始S.M.A.R.T.参数作为固态硬盘协同故障诊断方法的参数集。
其次,利用随机森林方法,对所选的S.M.A.R.T.参数集与固态硬盘故障特征的计算相关性程度评价,得到预处理数据集,具体包括以下步骤:
将已知样本的每种不同S.M.A.R.T.参数分为训练集与测试集,在各组训练集上训练出能够识别故障的模型。之后利用测试集进行评价,将准确率最高的 S.M.A.R.T.参数视为与故障特征,各参数准确率参见图3,选出的用于固态硬盘协同故障诊断的最佳预处理数据集包括:读取错误率(Read Error Rate),重分配扇区计数(Reallocated sectorcount),可用保留区块计数(Available reserved blocks),磨损均衡计数(Wear levelingcount),重分配事件计数(Reallocation Event Count),不可纠正错误计数(Uncorrectable Sector Count)。
2)构建域内特征提取器,提取不同域内分布特征:
当t=1时,初始化步:
初始化特征提取器Gdddd)与标签分类器Glclc)的参数,设置标签分类器参数θlc与初始特征提取器参数θdd。将训练集中含标记信息的已知多源域固态硬盘故障特征集合归纳为源域
Figure RE-GDA0003930558670000101
Figure RE-GDA0003930558670000102
为源域样本,
Figure RE-GDA0003930558670000103
为源域标签,ns为源域样本计数,将缺少标记信息的未知目标域固态硬盘故障特征集合归纳为目标域
Figure RE-GDA0003930558670000104
Figure RE-GDA0003930558670000105
为目标域样本,nT为目标域样本计数。
当t=2:N,训练步,每一步分为前向传播与反向传播:
前向传播:
从DS,DT中取出当前训练步所需样本,Gdddd)与Glclc)分别对样本进行计算,得到域判别预测值di与特征提取器结果
Figure RE-GDA0003930558670000111
其中,θfe为特征提取器参数。
反向传播:
特征提取器损失L(θfe):
Figure RE-GDA0003930558670000112
式中,N为源域样本总数,j为源域样本计数,
Figure RE-GDA0003930558670000113
为输入的样本标签,
Figure RE-GDA0003930558670000114
为输出的样本标签。
3)引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型,具体过程如下:
相似度加权计算公式:
Figure RE-GDA0003930558670000115
权值:
Figure RE-GDA0003930558670000116
将该权值与各源域内提取特征值做乘积后进行特征融合,该过程为协同融合特征值构建。基于域适应方法利用该协同融合特征,将源域上的知识迁移到目标域上构建协同故障诊断模型。
其域适应损失函数定义为:
Figure RE-GDA0003930558670000117
并构建总体损失函数:
Figure RE-GDA0003930558670000118
其中α在训练过程中适度调整,初始设置为0.001。
对损失函数进行优化计算,并反向更新参数,经更新后的参数保存入模型并冻结除最后一层输出层外的模型各层参数,构成加权域适应固态硬盘多源域协同故障诊断模型。
4)根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断,具体通过如下指标:
硬盘可靠性的相关指标数值,包括:
分类准确率(ACC):
Figure RE-GDA0003930558670000121
固态硬盘协同故障诊断指标:Pout=Model(Din);
其中Din表示当前监测固态硬盘输入模型状态数据,Pout表示模型自适应协同故障诊断模型输出值,其取值范围在Pout=[0,1],其值越接近1代表固态硬盘越接近损坏。
通过实施以上四部分流程,由实施例结果表明,本发明提出的基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法,能够在保证获得高水平的协同故障诊断精确度,此外,还能获得对于服务器运营商来说比较合理的模型稳定性,这能充分指导他们进行大规模更换存储备件。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
对某数据中心100块固态硬盘收集到的一年来的每日S.M.A.R.T.监测参数实施基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法,该评估方法效果如图4和图5所示,其中加权域适应方法,为本发明提出方法;方法对照上,设置了现有的主流多种域适应方法等相关领域常见方法为对照组;此外对现有的深度学习方法,域适应,多域适应方法展开对比,同过对比增长的准确率,体现我们方法的优越性。
从图4可以看出,本发明提出的基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法与不同种类的方法对比具有较好的优越性。
从图5可以看出,本发明提出的基于加权域适应的多源固态硬盘协同故障诊断与可靠性评估方法相较于其他方法而言具有较好的效果。
本发明针对多源固态硬盘协同故障诊断工程实际问题,首先根据固态硬盘主要失效形式选取硬盘原始S.M.A.R.T.数据,并选取与故障最相关的参数集;其次,基于选取出的训练集,运用加权域适应算法对训练集数据进行学习,并得到故障特征预警知识;再次,运用基于对抗迁移域适应方法将故障诊断知识迁移去欠缺标签数据的新型固态硬盘数据集,并进行故障诊断,获得模型预测精度;最后,根据故障统计特征(均值、方差)设定自适应故障判定阈值,统计可靠性评价相关指标。该方法实施简单,效果显著,为多源固态硬盘故障诊断提供了一种有效的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种多源固态硬盘协同故障诊断方法,其特征在于,所述多源固态硬盘协同故障诊断方法通过固态硬盘运行数据S.M.A.R.T.参数集筛选出用于固态硬盘协同故障诊断的预处理数据集;引入域内特征提取器,提取单个源域与目标域内分布特征;引入加权域适应理论,运用基于相似度加权的域适应网络对齐已知多源域固态硬盘故障分布特征与未知目标域固态硬盘故障分布特征,将已知多源域固态硬盘故障特征知识迁移到未知目标域固态硬盘数据。
2.如权利要求1所述的多源固态硬盘协同故障诊断方法,其特征在于,所述多源固态硬盘协同故障诊断方法包括以下步骤:
第一步,根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
第二步,构建域内特征提取器,提取不同域内分布特征;
第三步,引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
第四步,根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
3.如权利要求2所述的多源固态硬盘协同故障诊断方法,其特征在于,所述第一步的闪存芯片的故障类型分为:数据保存错误:固态硬盘存储数据时,由于隧道氧化层与电荷捕获层并非完全绝缘体,电荷存储层中的电荷发生了泄漏,使得该单元保有电荷量下降导致其电荷水平偏移至其他数据状态的电荷水平,并在后续识别中被读取为其他数据值产生数据错误;写入干扰错误与读取干扰错误:由于在字线与位线上施加的电压在隧道氧化层与栅极氧化层中形成微小电容,因存储单元阵列紧密,微小的电压会引起互感,导致旁侧存储单元电荷水平发生偏移引起数据错误;P/E循环错误:固态硬盘随着P/E循环次数增多,存储单元磨损加剧,所谓磨损就是指电荷捕获层保有电荷能力降低,隧道氧化层中存有电应力,这种电应力使得存储单元中电荷泄露速度加剧,并且在擦除后无法回到最低电位,数据难以正常擦写。
4.如权利要求2所述的多源固态硬盘协同故障诊断方法,其特征在于,所述第一步包括:利用与上述故障机理相关的原始S.M.A.R.T.参数作为固态硬盘协同故障诊断方法的参数集;
其次,利用随机森林方法,对所选的S.M.A.R.T.参数集与固态硬盘故障特征的计算相关性程度评价,得到预处理数据集。
5.如权利要求4所述的多源固态硬盘协同故障诊断方法,其特征在于,将已知样本的每种不同S.M.A.R.T.参数分为训练集与测试集,在各组训练集上训练出能够识别故障的模型;利用测试集进行评价,将准确率最高的S.M.A.R.T.参数视为与故障特征,选出的用于固态硬盘协同故障诊断的最佳预处理数据集包括:读取错误率,重分配扇区计数,可用保留区块计数,磨损均衡计数,重分配事件计数,不可纠正错误计数。
6.如权利要求2所述的多源固态硬盘协同故障诊断方法,其特征在于,所述第二步具体包括:
当t=1时,初始化步:
初始化特征提取器Gdddd)与标签分类器Glclc)的参数,设置标签分类器参数θlc与初始特征提取器参数θdd;将训练集中含标记信息的已知多源域固态硬盘故障特征集合归纳为源域
Figure FDA0003851458280000021
Figure FDA0003851458280000022
为源域样本,
Figure FDA0003851458280000023
为源域标签,ns为源域样本计数,将缺少标记信息的未知目标域固态硬盘故障特征集合归纳为目标域
Figure FDA0003851458280000024
Figure FDA0003851458280000025
为目标域样本,nT为目标域样本计数;
当t=2:N,训练步,每一步分为前向传播与反向传播:
前向传播:
从DS,DT中取出当前训练步所需样本,Gdddd)与Glclc)分别对样本进行计算,得到域判别预测值di与特征提取器结果
Figure FDA0003851458280000026
其中,θfe为特征提取器参数;
反向传播:
特征提取器损失L(θfe):
Figure FDA0003851458280000031
式中,N为源域样本总数,j为源域样本计数,
Figure FDA0003851458280000032
为输入的样本标签,
Figure FDA0003851458280000033
为输出的样本标签。
7.如权利要求2所述的多源固态硬盘协同故障诊断方法,其特征在于,所述第三步具体包括:
相似度加权计算公式:
Figure FDA0003851458280000034
权值:
Figure FDA0003851458280000035
将该权值与各源域内提取特征值做乘积后进行特征融合,该过程为协同融合特征值构建;基于域适应方法利用该协同融合特征,将源域上的知识迁移到目标域上构建协同故障诊断模型;
其域适应损失函数定义为:
Figure FDA0003851458280000036
并构建总体损失函数:
Figure FDA0003851458280000037
其中α在训练过程中适度调整,初始设置为0.001;
对损失函数进行优化计算,并反向更新参数,经更新后的参数保存入模型并冻结除最后一层输出层外的模型各层参数,构成加权域适应固态硬盘多源域协同故障诊断模型;
所述第四步具体包括:硬盘可靠性的相关指标数值,包括:
分类准确率(ACC):
Figure FDA0003851458280000041
固态硬盘协同故障诊断指标:Pout=Model(Din);
其中Din表示当前监测固态硬盘输入模型状态数据,Pout表示模型自适应协同故障诊断模型输出值,其取值范围在Pout=[0,1],其值越接近1代表固态硬盘越接近损坏。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~7任意一项所述的多源固态硬盘协同故障诊断方法。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~7任意一项所述的多源固态硬盘协同故障诊断方法。
10.一种实施权利要求1~7任意一项所述的多源固态硬盘协同故障诊断方法的多源固态硬盘协同故障诊断系统,其特征在于,所述多源固态硬盘协同故障诊断系统包括:
预处理数据集筛选模块,用于根据固态硬盘的失效机理,从采集的固态硬盘运行数据S.M.A.R.T.参数集中筛选出用于固态硬盘协同故障诊断的预处理数据集;
分布特征提取模块,用于构建域内特征提取器,提取不同域内分布特征:
诊断模型构建模块,用于引入加权域适应算法思想,根据特征提取器提取到的不同域内分布特征,利用相似度加权对多个域上的特征进行融合,建立加权域适应固态硬盘协同故障诊断模型;
协同故障诊断模块,用于根据所得加权域适应固态硬盘多源域协同故障诊断模型,获得单个固态硬盘的协同故障诊断。
CN202211134732.0A 2022-09-19 2022-09-19 一种多源固态硬盘协同故障诊断方法、系统、设备及介质 Pending CN115543702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134732.0A CN115543702A (zh) 2022-09-19 2022-09-19 一种多源固态硬盘协同故障诊断方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134732.0A CN115543702A (zh) 2022-09-19 2022-09-19 一种多源固态硬盘协同故障诊断方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN115543702A true CN115543702A (zh) 2022-12-30

Family

ID=84728322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134732.0A Pending CN115543702A (zh) 2022-09-19 2022-09-19 一种多源固态硬盘协同故障诊断方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN115543702A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414661A (zh) * 2023-06-08 2023-07-11 北京星辰天合科技股份有限公司 分布式存储的固态硬盘处理方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116414661A (zh) * 2023-06-08 2023-07-11 北京星辰天合科技股份有限公司 分布式存储的固态硬盘处理方法和装置
CN116414661B (zh) * 2023-06-08 2023-09-08 北京星辰天合科技股份有限公司 分布式存储的固态硬盘处理方法和装置

Similar Documents

Publication Publication Date Title
CN111709448B (zh) 一种基于迁移关系网络的机械故障诊断方法
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN106897178A (zh) 一种基于极限学习机的慢盘检测方法及系统
CN113257332B (zh) 一种闪存的有效性预测方法、装置及存储介质
Zhao et al. Adaptive open set domain generalization network: Learning to diagnose unknown faults under unknown working conditions
Bao et al. A deep transfer learning network for structural condition identification with limited real-world training data
CN113342597B (zh) 一种基于高斯混合隐马尔可夫模型的系统故障预测方法
CN112951311B (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
CN105740122A (zh) 一种手机内存泄漏的监测方法及监测系统
CN112395382A (zh) 基于变分自编码器的船舶异常航迹数据检测方法和装置
CN115543702A (zh) 一种多源固态硬盘协同故障诊断方法、系统、设备及介质
CN113609770A (zh) 基于分段线性拟合hi及lstm的滚动轴承rul预测方法
CN115165366A (zh) 一种旋转机械变工况故障诊断方法及系统
CN111949459B (zh) 一种基于迁移学习和主动学习的硬盘故障预测方法及系统
CN116775436A (zh) 芯片故障预测方法、装置、计算机设备和存储介质
CN116167438A (zh) 基于改进量子遗传算法优化svm的变压器故障诊断方法
Zhu et al. A Performance Fault Diagnosis Method for SaaS Software Based on GBDT Algorithm.
CN115981911A (zh) 内存故障的预测方法、电子设备和计算机可读存储介质
CN115658401A (zh) 一种基于多实例对抗学习的企业级固态硬盘故障预警方法
Cai et al. Malfunction diagnosis of main station of power metering system using LSTM-ResNet with SMOTE method
CN113254428A (zh) 一种基于决策树的缺失数据填充方法及系统
CN117007977B (zh) 一种储能电池健康状态诊断方法
Chen et al. SSD drive failure prediction on Alibaba data center using machine learning
CN117216949B (zh) 一种基于深度学习的跨传感器爆管定位域自适应方法
Wu et al. Disk failure prediction with multiple channel convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination