CN112764960A - 磁盘故障预测、检测及无感知更换的方法及系统 - Google Patents

磁盘故障预测、检测及无感知更换的方法及系统 Download PDF

Info

Publication number
CN112764960A
CN112764960A CN202110112972.XA CN202110112972A CN112764960A CN 112764960 A CN112764960 A CN 112764960A CN 202110112972 A CN202110112972 A CN 202110112972A CN 112764960 A CN112764960 A CN 112764960A
Authority
CN
China
Prior art keywords
disk
information
detection
fault
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110112972.XA
Other languages
English (en)
Inventor
王海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202110112972.XA priority Critical patent/CN112764960A/zh
Publication of CN112764960A publication Critical patent/CN112764960A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种磁盘故障预测、检测及无感知更换的方法及系统,所述方法具体包括以下步骤:收集磁盘信息;将所述磁盘信息输入分析检测平台,对磁盘进行故障分析;根据故障分析的结果给出分析报告和优化建议。通过本申请,磁盘检查精度更高,故障定位更加准确,减少人工参与及停机维护时间成本。

Description

磁盘故障预测、检测及无感知更换的方法及系统
技术领域
本发明涉及计算机技术领域。更具体的说,本发明涉及一种磁盘故障预测、检测及无感知更换的方法及系统。
背景技术
互联网迅速发展,网络服务数量骤增,大规模海量数据存储系统是必不可少的支持。由于经济因素的限制,大型数据中心依然采用传统的以磁盘为主的存储系统,但磁盘频繁出现故障造成磁盘中的文件和数据出错、丢失,进而导致服务发生异常,甚至不能提供基本的服务,因此对磁盘的健康状态进行预测显得尤其重要。
现有磁盘检测方式为使用厂商工具进行检测,包括基于厂商工具和系统日志进行磁盘检测、基于半自动化进行故障分析。但上述方法仍存在以下不足:
1、各个厂商都有自己检测工具,工具不统一维护成本;
2、需要维护多个工具,占用大量系统资源;
3、无法对故障进行预测,故障检测精度也不够准确,时常会有磁盘已经故障,但使用工具检测不到情况;
4、更换磁盘时需要业务人员配合更换,耗费人力。
发明内容
本申请实施例提供了一种磁盘故障预测、检测及无感知更换的方法,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种磁盘故障预测、检测及无感知更换的方法,所述方法包括以下步骤:
信息收集步骤:收集磁盘信息;
故障分析步骤:将所述磁盘信息输入分析检测平台,对磁盘进行故障分析;
故障处理步骤:根据故障分析的结果给出分析报告和优化建议。
作为本发明的进一步改进,所述磁盘信息包含但不限于:数据磁盘挂载信息、系统日志信息、服务器带外管理信息。
作为本发明的进一步改进,所述故障分析步骤具体包括以下步骤:
状态获取步骤:通过所述磁盘信息判断磁盘状态;
无异常处理步骤:若所述磁盘状态为无异常,则记录所述磁盘信息,对所述分析检测平台进行信息迭代更新;
异常处理步骤:若所述磁盘状态为异常,则触发异常处理流程。
作为本发明的进一步改进,所述异常处理步骤具体包括以下步骤:
检测步骤:对所述磁盘进行故障检测;
预测步骤:对所述磁盘进行故障预测;
更换步骤:对所述磁盘进行无感知更换。
作为本发明的进一步改进,所述检测步骤具体包括以下步骤:
故障参数获取步骤:基于所述磁盘信息,获取磁盘故障参数;
逻辑判断步骤:通过逻辑判断,若获取的所述磁盘故障参数满足故障参数条件,则判定为故障磁盘,并给出相应的磁盘盘符;
故障参数更新步骤:将所述磁盘故障参数更新到所述分析检测平台,进行信息迭代更新。
作为本发明的进一步改进,所述预测步骤具体包括以下步骤:
检测参数获取步骤:基于所述磁盘信息,获取健康状态检测参数;
参数对比步骤:将获取的所述健康状态检测参数与所述磁盘的现有参数对比,根据对比结果进行所述故障预测;
预测信息更新步骤:将所述健康状态检测参数更新到所述分析检测平台,进行信息迭代更新。
作为本发明的进一步改进,所述更换步骤具体包括以下步骤:
构建步骤:构建虚拟磁盘;
维修步骤:对所述磁盘进行下线并维修;
更换步骤:将维修完成的所述磁盘更换所述虚拟磁盘,并将所述虚拟磁盘的数据进行恢复;
撤销步骤:撤销所述虚拟磁盘。
基于相同发明思想,本发明还基于任一项发明创造所揭示的磁盘故障预测、检测及无感知更换的方法,揭示了一种磁盘故障预测、检测及无感知更换的系统,
所述磁盘故障预测、检测及无感知更换的系统包括:
信息收集模块,收集磁盘信息;
故障分析模块,将所述磁盘信息输入分析检测平台,对磁盘进行故障分析;
故障处理模块,根据故障分析的结果给出分析报告和优化建议。
作为本发明的进一步改进,所述故障分析模块具体包括:
状态获取单元,通过所述磁盘信息判断磁盘状态;
无异常处理单元,若所述磁盘状态为无异常,则记录所述磁盘信息,对所述分析检测平台进行信息迭代更新;
异常处理单元,若所述磁盘状态为异常,则触发异常处理流程。
作为本发明的进一步改进,所述异常处理单元具体包括:
检测单元,对所述磁盘进行故障检测;
预测单元,对所述磁盘进行故障预测;
更换单元,对所述磁盘进行无感知更换。
与现有技术相比,本发明的有益效果如下:
1、提出了一种磁盘故障预测、检测及无感知更换的方法,通过主动扫描或服务器主动推送方式,自动收集所需信息,使用获得的磁盘信息做故障检测和故障预测,使用无感知更换预处理方式提供数据持续可用,并且维修完成故障后信息自动更新到分析检测平台,实现信息迭代更新使用;
2、磁盘检查精度更高,故障定位更加准确,减少人工参与及停机维护时间成本;
3、能够进行磁盘故障预测,提高磁盘整体使用率;
4、消除厂商工具限制,去除依赖,对系统资源占小,无需后台启动,实现多厂商服务器统一方式故障判断、预测以及实现业务无感知更换故障硬件。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例提供的一种磁盘故障预测、检测及无感知更换的方法整体流程图;
图2是本实施例所揭示的技术方案整体流程图;
图3是图1所揭示的步骤S2整体流程图;
图4是图3所揭示的步骤S23整体流程图;
图5是图4所揭示的步骤S231整体流程图;
图6是图4所揭示的步骤S232整体流程图;
图7是图4所揭示的步骤S233整体流程图;
图8是本实施例提供的一种磁盘故障预测、检测及无感知更换的系统结构框架图;
图9是根据本发明实施例的计算机设备的框架图。
以上图中:
1、信息收集模块;2、故障分析模块;3、故障处理模块;21、状态获取单元;22、无异常处理单元;23、异常处理单元;231、检测单元;232、预测单元;233、更换单元;2311、故障参数获取单元;2312、逻辑判断单元;2313、故障参数更新单元;2321、检测参数获取单元;2322、参数对比单元;2323、预测信息更新单元;2331、构建单元;2332、维修单元;2333、更换单元;2334、撤销单元;80、总线;81、处理器;82、存储器;83、通信接口。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不待表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替待,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明可以基于磁盘信息进行磁盘故障预测、检测及无感知更换,磁盘检查精度更高,故障定位更加准确,减少人工参与及停机维护时间成本。
实施例一:
参照图1至图7所示,本实例揭示了一种磁盘故障预测、检测及无感知更换的方法(以下简称“方法”)的具体实施方式。
具体而言,首先介绍所述方法的整体思路。通过对业务层面磁盘挂载目录信息扫描进行信息及所有软件信息日志收集,收集系统日志信息、磁盘阵列卡底层信息、磁盘底层信息、服务器带外管理信息等所需磁盘硬件日志信息,推送或主动拉取到分析检测平台,进行故障检测和故障预测分析,分析故障对磁盘寿命的影响,给出分析报告并提供相应的优化建议。
具体而言,如果检测无异常则对磁盘信息记录,用于对比参考使用,如果有状态异常或是预判将要发生故障,则自动触发磁盘下线分区挂载持续使用任务,通过虚拟磁盘阵列、逻辑卷、磁盘阵列等技术,保障业务数据持续可用,然后进行磁盘下线,进行维修更换。维修完成后自动记录本次故障数据到分析检测平台,增加平台自我迭代信息累积。
具体而言,参照图1和图2所示,本实施例所揭示的方法包括以下步骤:
步骤S1、收集磁盘信息。
具体而言,在其中一些实施例中,所述磁盘信息包含但不限于:数据磁盘挂载信息、系统日志信息、服务器带外管理信息。
然后执行步骤S2、将所述磁盘信息输入分析检测平台,对磁盘进行故障分析。
具体而言,在其中一些实施例中,读取并测试数据磁盘挂载信息,收取运行软件日志信息,将获取的信息推送到日志分析平台(分析检测平台)。
具体而言,收取系统日志(dmesg)信息,使用smartctl(磁盘监控和分析工具)和megacli(阵列卡管理工具)或storcli(阵列卡管理工具)工具进行磁盘状态检测,检测结果推送到日志分析平台。
具体而言,拉取服务器带外管理信息,使用ipmitool工具(硬件维护工具)或是调用带外管理API(应用程序编程接口),基于python selenium web自动化运维收集磁盘故障信息,从系统层面推送和主动拉取相关信息。
具体而言,参照图3所述,所述步骤S2具体包括以下步骤:
S21、通过所述磁盘信息判断磁盘状态;
S22、若所述磁盘状态为无异常,则记录所述磁盘信息,对所述分析检测平台进行信息迭代更新;
S23、若所述磁盘状态为异常,则触发异常处理流程。
具体而言,将收集的所有磁盘信息推送到日志分析平台做日志信息汇总并做重要分析预测。如果正常则只是正常阈值信息迭代,如果异常则触发异常流程及无感知更换流程。
具体而言,参照图4所述,所述步骤S23具体包括以下步骤:
S231、对所述磁盘进行故障检测;
S232、对所述磁盘进行故障预测;
S233、对所述磁盘进行无感知更换。
具体而言,参照图5所述,所述步骤S231具体包括以下步骤:
S2311、基于所述磁盘信息,获取磁盘故障参数;
S2312、通过逻辑判断,若获取的所述磁盘故障参数满足故障参数条件,则判定为故障磁盘,并给出相应的磁盘盘符;
S2313、将所述磁盘故障参数更新到所述分析检测平台,进行信息迭代更新。
具体而言,在其中一些实施例中,磁盘故障参数包括但不限于:故障盘符关键故障参数、磁盘故障关键参数、磁盘硬件故障状态信息、磁盘故障信息字。获得磁盘故障参数后,通过逻辑判断,如果满足故障参数条件则为故障磁盘,并给出相应的磁盘盘符,将磁盘故障参数更新到日志分析平台,做阈值参考,并触发预处理流程。
具体而言,在其中一些实施例中,对磁盘挂载信息进行扫描,若数据盘扫描结果显示输入/输出错误,则对数据盘符进行标记并记录。对所有盘符进行索引,然后进行对系统日志信息进行过滤,得到故障盘符关键故障参数metadata I/O error、do_force_shutdown、blk_update_request:I/O error、Log I/O Error Detected、blk_update_request:critical、medium error,如果存在相关故障参数,则取出故障参数。
具体而言,在其中一些实施例中,使用smartctl(磁盘监控和分析工具)进行磁盘扫描,得到磁盘故障关键参数SMART Health Statu(磁盘健康状况),扫描如果有DATACHANNEL IMPENDING FAILURE DATA ERROR RATE TOO HIGH(数据通道即将发生故障数据错误率太高)、INQUIRY failed(查询失败)、Failed(检测失败)参数,则对磁盘盘符进行标记。
具体而言,在其中一些实施例中,使用megacli(阵列卡管理工具)或storcli(阵列卡管理工具)扫描磁盘硬件状态信息。如果磁盘信息中包含Media Error Count(磁盘存在错误)、Predictive Failure Count(磁盘的预警数)、Other Error Count(磁盘存在未知的错误)、Last Predictive Failure Event Seq Number(最后一条预警的时间序列号)、Firmware state(固件状态)这些磁盘硬件故障状态信息中的一个或多个关键字信息,则对磁盘盘符进行标记记录。
具体而言,在其中一些实施例中,从日志平台拉取服务器带外管理中的重大事件信息,如果事件中含有磁盘故障信息字,则标记磁盘盘位号和故障信息。
具体而言,参照图6所述,所述步骤S232具体包括以下步骤:
S2321、基于所述磁盘信息,获取健康状态检测参数;
S2322、将获取的所述健康状态检测参数与所述磁盘的现有参数对比,根据对比结果进行所述故障预测;
S2323、将所述健康状态检测参数更新到所述分析检测平台,进行信息迭代更新。
具体而言,在其中一些实施例中,通过收集的磁盘信息进行故障预判。健康状态检测参数包括但不限于:SAMRT Health Status(磁盘健康状况)、Total uncorrected errors(不能修复的错误总数)、Non-medium error count(非媒介错误计数)、SMART self-testlog(SMART自检日志)。
具体而言,在其中一些实施例中,通过smartctl扫描获得的信息参数,与现有参数进行对比,如果满足故障发生条件则为将要发生故障,并将预测信息更新到日志分析平台,做阈值参考,并触发预处理流程。
具体而言,参照图7所述,所述步骤S233具体包括以下步骤:
S2331、构建虚拟磁盘;
S2332、对所述磁盘进行下线并维修;
S2333、将维修完成的所述磁盘更换所述虚拟磁盘,并将所述虚拟磁盘的数据进行恢复;
S2334、撤销所述虚拟磁盘。
具体而言,在其中一些实施例中,通过对磁盘故障判定或是预判,如果达到设定的阈值,则触发磁盘预更换操作。使用拟磁盘阵列、逻辑卷、磁盘阵列等技术,临时构建一个虚拟磁盘,用于承载现有数据正常访问,实现业务不中断进行运行,而且读取和写入速度没有影响。然后对故障或预故障进行下线,维修更换。
具体而言,在其中一些实施例中,维修完成后把临时构建磁盘的数据进行恢复,完成维修,并撤销临时虚拟磁盘。此操作过程中业务无需停服务操作,而且业务无任何感知。最后把本次维修记录的故障或预测故障信息在日志分析平台进行阈值更新,提高故障或预故障阈值精确性。以及后期软件磁盘参数调优提供参考。
然后执行步骤S3、根据故障分析的结果给出分析报告和优化建议。
通过本申请实施例所揭示的一种磁盘故障预测、检测及无感知更换的方法,通过主动扫描或服务器主动推送方式,自动收集所需信息,使用获得的磁盘信息做故障检测和故障预测,使用无感知更换预处理方式提供数据持续可用,并且维修完成故障后信息自动更新到分析检测平台,实现信息迭代更新使用;磁盘检查精度更高,故障定位更加准确,减少人工参与及停机维护时间成本;能够进行磁盘故障预测,提高磁盘整体使用率;消除厂商工具限制,去除依赖,对系统资源占小,无需后台启动,实现多厂商服务器统一方式故障判断、预测以及实现业务无感知更换故障硬件。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
实施例二:
结合实施例一所揭示的一种磁盘故障预测、检测及无感知更换的方法,本实施例揭示了一种磁盘故障预测、检测及无感知更换的(以下简称“系统”)的具体实施示例。
参照图8所示,所述系统包括:
信息收集模块1,收集磁盘信息;
故障分析模块2,将所述磁盘信息输入分析检测平台,对磁盘进行故障分析;
故障处理模块3,根据故障分析的结果给出分析报告和优化建议。
具体而言,在其中一些实施例中,所述故障分析模块2具体包括:
状态获取单元21,通过所述磁盘信息判断磁盘状态;
无异常处理单元22,若所述磁盘状态为无异常,则记录所述磁盘信息,对所述分析检测平台进行信息迭代更新;
异常处理单元23,若所述磁盘状态为异常,则触发异常处理流程。
具体而言,在其中一些实施例中,所述异常处理单元23具体包括:
检测单元231,对所述磁盘进行故障检测;
预测单元232,对所述磁盘进行故障预测;
更换单元233,对所述磁盘进行无感知更换。
具体而言,在其中一些实施例中,所述检测单元231具体包括:
故障参数获取单元2311,基于所述磁盘信息,获取磁盘故障参数;
逻辑判断单元2312,通过逻辑判断,若获取的所述磁盘故障参数满足故障参数条件,则判定为故障磁盘,并给出相应的磁盘盘符;
故障参数更新单元2313,将所述磁盘故障参数更新到所述分析检测平台,进行信息迭代更新。
具体而言,在其中一些实施例中,所述预测单元232具体包括:
检测参数获取单元2321,基于所述磁盘信息,获取健康状态检测参数;
参数对比单元2322,将获取的所述健康状态检测参数与所述磁盘的现有参数对比,根据对比结果进行所述故障预测;
预测信息更新单元2323,将所述健康状态检测参数更新到所述分析检测平台,进行信息迭代更新。
具体而言,在其中一些实施例中,所述更换单元233具体包括:
构建单元2331,构建虚拟磁盘;
维修单元2332,对所述磁盘进行下线并维修;
更换单元2333,将维修完成的所述磁盘更换所述虚拟磁盘,并将所述虚拟磁盘的数据进行恢复;
撤销单元2334,撤销所述虚拟磁盘。
本实施例所揭示的一种磁盘故障预测、检测及无感知更换的系统与实施例一所揭示的一种磁盘故障预测、检测及无感知更换的方法中其余相同部分的技术方案,请参考实施例一所述,在此不再赘述。
实施例三:
结合图9所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种磁盘故障预测、检测及无感知更换的方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图9所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于磁盘信息进行磁盘故障预测、检测及无感知更换,从而实现结合图1描述的方法。
另外,结合上述实施例中磁盘故障预测、检测及无感知更换的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种磁盘故障预测、检测及无感知更换的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,基于本发明的有益效果在于,提出了一种磁盘故障预测、检测及无感知更换的方法,通过主动扫描或服务器主动推送方式,自动收集所需信息,使用获得的磁盘信息做故障检测和故障预测,使用无感知更换预处理方式提供数据持续可用,并且维修完成故障后信息自动更新到分析检测平台,实现信息迭代更新使用;磁盘检查精度更高,故障定位更加准确,减少人工参与及停机维护时间成本;能够进行磁盘故障预测,提高磁盘整体使用率;消除厂商工具限制,去除依赖,对系统资源占小,无需后台启动,实现多厂商服务器统一方式故障判断、预测以及实现业务无感知更换故障硬件。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种磁盘故障预测、检测及无感知更换的方法,其特征在于,包括如下步骤:
信息收集步骤:收集磁盘信息;
故障分析步骤:将所述磁盘信息输入分析检测平台,对磁盘进行故障分析;
故障处理步骤:根据故障分析的结果给出分析报告和优化建议。
2.如权利要求1所述的磁盘故障预测、检测及无感知更换的方法,其特征在于,所述磁盘信息包含但不限于:数据磁盘挂载信息、系统日志信息、服务器带外管理信息。
3.如权利要求1所述的磁盘故障预测、检测及无感知更换的方法,其特征在于,所述故障分析步骤具体包括以下步骤:
状态获取步骤:通过所述磁盘信息判断磁盘状态;
无异常处理步骤:若所述磁盘状态为无异常,则记录所述磁盘信息,对所述分析检测平台进行信息迭代更新;
异常处理步骤:若所述磁盘状态为异常,则触发异常处理流程。
4.如权利要求3所述的磁盘故障预测、检测及无感知更换的方法,其特征在于,所述异常处理步骤具体包括以下步骤:
检测步骤:对所述磁盘进行故障检测;
预测步骤:对所述磁盘进行故障预测;
更换步骤:对所述磁盘进行无感知更换。
5.如权利要求4所述的磁盘故障预测、检测及无感知更换的方法,其特征在于,所述检测步骤具体包括以下步骤:
故障参数获取步骤:基于所述磁盘信息,获取磁盘故障参数;
逻辑判断步骤:通过逻辑判断,若获取的所述磁盘故障参数满足故障参数条件,则判定为故障磁盘,并给出相应的磁盘盘符;
故障参数更新步骤:将所述磁盘故障参数更新到所述分析检测平台,进行信息迭代更新。
6.如权利要求4所述的磁盘故障预测、检测及无感知更换的方法,其特征在于,所述预测步骤具体包括以下步骤:
检测参数获取步骤:基于所述磁盘信息,获取健康状态检测参数;
参数对比步骤:将获取的所述健康状态检测参数与所述磁盘的现有参数对比,根据对比结果进行所述故障预测;
预测信息更新步骤:将所述健康状态检测参数更新到所述分析检测平台,进行信息迭代更新。
7.如权利要求4所述的磁盘故障预测、检测及无感知更换的方法,其特征在于,所述更换步骤具体包括以下步骤:
构建步骤:构建虚拟磁盘;
维修步骤:对所述磁盘进行下线并维修;
更换步骤:将维修完成的所述磁盘更换所述虚拟磁盘,并将所述虚拟磁盘的数据进行恢复;
撤销步骤:撤销所述虚拟磁盘。
8.一种磁盘故障预测、检测及无感知更换的系统,其特征在于,包括:
信息收集模块,收集磁盘信息;
故障分析模块,将所述磁盘信息输入分析检测平台,对磁盘进行故障分析;
故障处理模块,根据故障分析的结果给出分析报告和优化建议。
9.如权利要求8所述的磁盘故障预测、检测及无感知更换的系统,其特征在于,所述故障分析模块具体包括:
状态获取单元,通过所述磁盘信息判断磁盘状态;
无异常处理单元,若所述磁盘状态为无异常,则记录所述磁盘信息,对所述分析检测平台进行信息迭代更新;
异常处理单元,若所述磁盘状态为异常,则触发异常处理流程。
10.如权利要求9所述的磁盘故障预测、检测及无感知更换的系统,其特征在于,所述异常处理单元具体包括:
检测单元,对所述磁盘进行故障检测;
预测单元,对所述磁盘进行故障预测;
更换单元,对所述磁盘进行无感知更换。
CN202110112972.XA 2021-01-27 2021-01-27 磁盘故障预测、检测及无感知更换的方法及系统 Pending CN112764960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110112972.XA CN112764960A (zh) 2021-01-27 2021-01-27 磁盘故障预测、检测及无感知更换的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110112972.XA CN112764960A (zh) 2021-01-27 2021-01-27 磁盘故障预测、检测及无感知更换的方法及系统

Publications (1)

Publication Number Publication Date
CN112764960A true CN112764960A (zh) 2021-05-07

Family

ID=75706212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110112972.XA Pending CN112764960A (zh) 2021-01-27 2021-01-27 磁盘故障预测、检测及无感知更换的方法及系统

Country Status (1)

Country Link
CN (1) CN112764960A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180081571A1 (en) * 2016-09-16 2018-03-22 Netscout Systems Texas, Llc System and method for predicting disk failure
CN108681496A (zh) * 2018-05-09 2018-10-19 北京奇艺世纪科技有限公司 磁盘故障的预测方法、装置及电子设备
CN109710505A (zh) * 2019-01-02 2019-05-03 郑州云海信息技术有限公司 一种磁盘故障预测方法、装置、终端及存储介质
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN110737554A (zh) * 2019-09-02 2020-01-31 苏州浪潮智能科技有限公司 一种磁盘故障预测系统、装置及可读存储介质
CN110795261A (zh) * 2019-09-26 2020-02-14 北京浪潮数据技术有限公司 虚拟磁盘故障的检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180081571A1 (en) * 2016-09-16 2018-03-22 Netscout Systems Texas, Llc System and method for predicting disk failure
CN108681496A (zh) * 2018-05-09 2018-10-19 北京奇艺世纪科技有限公司 磁盘故障的预测方法、装置及电子设备
CN109739739A (zh) * 2018-12-28 2019-05-10 中兴通讯股份有限公司 磁盘故障的预测方法、设备及存储介质
CN109710505A (zh) * 2019-01-02 2019-05-03 郑州云海信息技术有限公司 一种磁盘故障预测方法、装置、终端及存储介质
CN110737554A (zh) * 2019-09-02 2020-01-31 苏州浪潮智能科技有限公司 一种磁盘故障预测系统、装置及可读存储介质
CN110795261A (zh) * 2019-09-26 2020-02-14 北京浪潮数据技术有限公司 虚拟磁盘故障的检测方法和装置

Similar Documents

Publication Publication Date Title
CN107025153B (zh) 磁盘的故障预测方法和装置
CN109240886B (zh) 异常处理方法、装置、计算机设备以及存储介质
TWI510916B (zh) 儲存裝置壽命監控系統以及其儲存裝置壽命監控方法
CN108536548B (zh) 一种磁盘坏道的处理方法、装置及计算机存储介质
JP2009205254A (ja) 計算機、ダンププログラムおよびダンプ方法
CN108959526B (zh) 日志管理方法以及日志管理装置
CN110178121A (zh) 一种数据库的检测方法及其终端
CN111258722A (zh) 一种集群的日志采集方法、系统、设备以及介质
CN110471945B (zh) 活跃数据的处理方法、系统、计算机设备和存储介质
US8010834B2 (en) Failure information monitoring apparatus and failure information monitoring method
CN111522703A (zh) 监控访问请求的方法、设备和计算机程序产品
CN109144852A (zh) 静态代码的扫描方法、装置、计算机设备及存储介质
CN111796959A (zh) 宿主机容器自愈方法、装置及系统
CN103092718A (zh) 测试数据备份系统及方法
CN115640233A (zh) 录制流量自动降噪方法、电子设备及计算机可读存储介质
CN114860487A (zh) 一种内存故障识别方法及一种内存故障隔离方法
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
CN112764960A (zh) 磁盘故障预测、检测及无感知更换的方法及系统
CN113778964A (zh) 用于储存多个暂存档案的记录装置及暂存档案的管理方法
CN116501705A (zh) 基于ras的内存信息收集解析方法、系统、设备及介质
CN116820821A (zh) 磁盘故障检测方法、装置、电子设备及计算机可读存储介质
Li et al. From correctable memory errors to uncorrectable memory errors: What error bits tell
CN111274090A (zh) 作业处理方法、装置、介质及电子设备
CN110955710B (zh) 一种数据交换作业中脏数据的处理方法及装置
US11436069B2 (en) Method and apparatus for predicting hard drive failure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination