CN113608959A - 故障硬盘定位方法、系统、终端及存储介质 - Google Patents

故障硬盘定位方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN113608959A
CN113608959A CN202110780429.7A CN202110780429A CN113608959A CN 113608959 A CN113608959 A CN 113608959A CN 202110780429 A CN202110780429 A CN 202110780429A CN 113608959 A CN113608959 A CN 113608959A
Authority
CN
China
Prior art keywords
hard disk
transmission link
disk transmission
error
error rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110780429.7A
Other languages
English (en)
Other versions
CN113608959B (zh
Inventor
唐传贞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110780429.7A priority Critical patent/CN113608959B/zh
Publication of CN113608959A publication Critical patent/CN113608959A/zh
Application granted granted Critical
Publication of CN113608959B publication Critical patent/CN113608959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障硬盘定位方法、系统、终端及存储介质,包括:收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率;根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况;根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。本发明能够快速定位异常硬盘传输链路,明确指示出具体故障问题点,当客服人员现场维修时可以根据指示灯快速定位到问题点,大大提升维修的准确率,节约维修时间。

Description

故障硬盘定位方法、系统、终端及存储介质
技术领域
本发明涉及服务器存储技术领域,具体涉及一种故障硬盘定位方法、系统、终端及存储介质。
背景技术
目前各大互联网运营商对存储类服务器产品需求旺盛,存储类服务器产品多是作为数据备份使用,产品中的硬盘数量少则十多个,多则上百个。针对存储类服务器产品,后期经常遇到的问题便是硬盘报出各种问题,其中最常遇到的多是单个硬盘报错,多个硬盘报错等问题。
当产品上线到客户机房后,研发人员没有办法实时跟进每个机器的问题,多是客服人员跟进。当产品在客户机房报出问题工单时,客服人员在对产品维修时一般会参考客户系统中报出的错误和现场机器的表现来决定怎么维修。针对硬盘类故障,客服人员多是更换硬盘,针对硬盘背板类故障,客户人员多是更换背板解决并结单。例如,多硬盘服务器的连接结构,在主控制器板卡上会有一个SAS卡,SAS卡与expander卡通过SAS信号相连,expander卡上设计有扩展芯片(expander)。此拓扑的目的是为了将少量的SAS通道扩展出更多的SAS通道,最后expander卡的SAS通道通过SAS信号与每个硬盘相连。通过此拓扑可以看出,每个硬盘实际与expander卡,SAS卡,两条SAS通道都有密切关系。当单个硬盘或者多个硬盘出现故障时,直接更换硬盘或者硬盘背板都是不合理的。按照以往的客服维修方式,思路往往时,第一先更换硬盘,如果更换硬盘没有解决,再更换硬盘背板,然后更换expander卡,SAS卡,甚至是更换SAS卡,expander卡,硬盘背板三者之间互联的线缆。直到故障现象消失。
根据长时间的维修经验来看,客服人员在更换硬盘或者更换背板后,同一个产品经常在短时间内报出相同的问题工单,依此来推断客服人员的维修是错误的,而且客户系统的报错信息以及产品现场的表象都不能正确指示出问题根因。这往往会误导客服人员的维修方式。因此现有硬盘故障定位方法存在定位不准且故障解决效率低下的问题。
发明内容
针对现有技术的上述不足,本发明提供一种故障硬盘定位方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种故障硬盘定位方法,包括:
收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率;
根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况;
根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。
进一步的,收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率,包括:
识别所有硬盘传输链路,并将识别到的所有硬盘传输链路识别号保存至识别列表,比对识别列表与预存链路列表一致性,将区别硬盘传输链路对应的故障指示灯点亮;
周期性采集误码检测工具检测到的硬盘传输链路的误码数量,根据所述误码数量和总传输量计算硬盘传输链路的误码率;
将硬盘传输链路的误码率保存至识别列表中所属硬盘传输链路识别号的相应位置,并标记误码率保存时间;
监控识别列表的数据更新情况,若监控到识别列表中的硬盘传输链路更新了误码率,则将除最新误码率和前次误码率以外的误码率清除。
通过在误差检测之前先校正各硬盘传输链路的识别情况,排查不可识别的异常硬盘传输链路,能够避免漏查链路,提高检测准确性。同时监控误码率数据更新情况,并根据更新情况及时清除无用数据能够在硬盘较多的情况下,节省大量存储资源。
进一步的,根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况,包括:
统计识别列表中的硬盘传输链路数量,创建多个线程,线程数量为硬盘传输链路数量的三分之一;
监控到识别列表存在更新后,调取空闲线程读取更新的硬盘传输链路识别号对应的历史误码率和更新误码率,并计算历史误码率和更新误码率的差值。
通过根据硬盘传输链路数量创建多个线程能够实现多进程同步计算存在数据更新的硬盘传输链路的误差率波动差值,提高了数据处理效率,同时也避免线程冗余浪费计算资源。
进一步的,根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯,包括:
比对所述差值与预设波动阈值,若所述差值超过所述波动阈值,则判定所述差值所属的硬盘传输链路异常;
生成硬盘传输链路异常报错信息,并将所述报错信息上传至主控制板卡,所述报错信息用于主控制板卡分析故障类型;
根据异常硬盘传输链路的识别号点亮对应的故障指示灯。
通过点亮异常硬盘传输链路的故障指示灯,为维护人员定位故障硬盘传输链路,同时将报错信息上传至主控制板卡,由主控制板卡根据报错信息分析故障类型,为维护人员维修提供帮助。进而,提高了存储故障修复效率,提升存储性能。
进一步的,比对所述差值与预设波动阈值,若所述差值超过所述波动阈值,则判定所述差值所属的硬盘传输链路异常,包括:
比对所述差值与预设初判阈值,若所述差值超过初判阈值,则在差值所属硬盘传输链路对应的结构体中计数加一,所述初判阈值为波动阈值的90%;
若硬盘传输链路对应的结构体中的计数达到预设次数阈值,则判定所述硬盘传输链路异常。
通过设置初判阈值,并统计硬盘传输链路的差值超过初判阈值的次数,能够排查出疑似异常硬盘传输链路,这是一种异常预测的方法,能够对将要发生异常的硬盘传输链路提前报错,维护人员根据报错信息提前排查异常,避免了硬盘维修的滞后性。
第二方面,本发明提供一种故障硬盘定位系统,包括:
误码统计单元,用于收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率;
波动计算单元,用于根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况;
故障定位单元,用于根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。
进一步的,所述误码统计单元包括:
链路识别模块,用于识别所有硬盘传输链路,并将识别到的所有硬盘传输链路识别号保存至识别列表,比对识别列表与预存链路列表一致性,将区别硬盘传输链路对应的故障指示灯点亮;
误码采集模块,用于周期性采集误码检测工具检测到的硬盘传输链路的误码数量,根据所述误码数量和总传输量计算硬盘传输链路的误码率;
误码保存模块,用于将硬盘传输链路的误码率保存至识别列表中所属硬盘传输链路识别号的相应位置,并标记误码率保存时间;
数据更新模块,用于监控识别列表的数据更新情况,若监控到识别列表中的硬盘传输链路更新了误码率,则将除最新误码率和前次误码率以外的误码率清除。
进一步的,所述波动计算单元包括:
线程创建模块,用于统计识别列表中的硬盘传输链路数量,创建多个线程,线程数量为硬盘传输链路数量的三分之一;
差值计算模块,用于监控到识别列表存在更新后,调取空闲线程读取更新的硬盘传输链路识别号对应的历史误码率和更新误码率,并计算历史误码率和更新误码率的差值。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的故障硬盘定位方法,通过收集硬盘传输链路的误码情况并进一步统计各硬盘传输链路的误码率,根据误码率和预设的波动阈值检验硬盘传输链路是否异常,并将异常硬盘传输链路对应的故障指示灯点亮。本发明能够快速定位异常硬盘传输链路,明确指示出具体故障问题点,当客服人员现场维修时可以根据指示灯快速定位到问题点,大大提升维修的准确率,节约维修时间。
本发明提供的故障硬盘定位系统,通过误码统计单元收集硬盘传输链路的误码情况并进一步统计各硬盘传输链路的误码率,波动计算单元根据误码率计算波动差值,故障定位单元根据预设的波动阈值和波动差值检验硬盘传输链路是否异常,并将异常硬盘传输链路对应的故障指示灯点亮。本发明能够快速定位异常硬盘传输链路,明确指示出具体故障问题点,当客服人员现场维修时可以根据指示灯快速定位到问题点,大大提升维修的准确率,节约维修时间。
本发明提供的终端包括处理器,处理器运行实现故障硬盘定位方法,通过收集硬盘传输链路的误码情况并进一步统计各硬盘传输链路的误码率,根据误码率和预设的波动阈值检验硬盘传输链路是否异常,并将异常硬盘传输链路对应的故障指示灯点亮。本发明能够快速定位异常硬盘传输链路,明确指示出具体故障问题点,当客服人员现场维修时可以根据指示灯快速定位到问题点,大大提升维修的准确率,节约维修时间。
本发明提供的存储介质,存储有执行故障硬盘定位方法的程序,通过收集硬盘传输链路的误码情况并进一步统计各硬盘传输链路的误码率,根据误码率和预设的波动阈值检验硬盘传输链路是否异常,并将异常硬盘传输链路对应的故障指示灯点亮。本发明能够快速定位异常硬盘传输链路,明确指示出具体故障问题点,当客服人员现场维修时可以根据指示灯快速定位到问题点,大大提升维修的准确率,节约维修时间。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的方法的存储架构示意图。
图3是本发明一个实施例的系统的示意性框图。
图4为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
SAS(Serial Attached SCSI)即串行连接SCSI,是新一代的SCSI技术,和现在流行的Serial ATA(SATA)硬盘相同,都是采用串行技术以获得更高的传输速度,并通过缩短连结线改善内部空间等。SAS是并行SCSI接口之后开发出的全新接口。此接口的设计是为了改善存储系统的效能、可用性和扩充性,并且提供与SATA硬盘的兼容性。
本发明设计一种快速定位硬盘故障的检测方法,此方案通过软件和硬件搭配设计,精准定位故障问题点。首先业务系统中需要实时监测硬盘链路的信号状态,可以通过检测信号误码的数量,软件检测机制是找出合理的时间差(比如五分钟),在五分钟的时间段内分两次收集链路的误码,两次收集的链路误码取差值,当链路误码差值超过一定值时,软件检测到链路误码超标,软件会发命令给相关主芯片,控制芯片的具体管脚从而使对应的故障指示灯点亮。达到精准定位故障点的目的。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种故障硬盘定位系统。
如图1所示,该方法包括:
步骤110,收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率;
步骤120,根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况;
步骤130,根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。
为了便于对本发明的理解,下面以本发明故障硬盘定位方法的原理,结合实施例中对故障硬盘进行定位的过程,对本发明提供的故障硬盘定位方法做进一步的描述。
请参考图2,存储架构为在主控制器板卡上会有一个SAS卡,SAS卡与expander卡通过SAS信号相连,expander卡上设计有扩展芯片(expander)。expander卡具有承上启下的作用,往上通过SAS通道与SAS卡相连,往下通过SAS通道与硬盘相连。将expander芯片作为一个集中控制指示的单元,expander芯片预留控制管脚与链路指示灯相连。上层应用系统中加入链路误码检测插件,当误码检测软件检测到某个链路中存在误码等异常时,检测软件会将错误信息传递给expander芯片,expander芯片需要做一些软件的二次开发,将外围的控制管脚开发出来。当接收到错误信息后会通过控制外围管脚点亮相关通道的错误指示灯。比如当expander与SAS卡之间的通过出现误码后,代表上行链路的指示灯会被点亮。客服人员当看到此故障表象后会首先排查SAS卡与expander卡之间的连接情况,而不需要再去更换硬盘和硬盘背板等不相关的动作。
具体的,所述故障硬盘定位方法包括:
S1、收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率。
识别所有硬盘传输链路,并将识别到的所有硬盘传输链路识别号保存至识别列表,比对识别列表与预存链路列表一致性,将区别硬盘传输链路对应的故障指示灯点亮;周期性采集误码检测工具检测到的硬盘传输链路的误码数量,根据所述误码数量和总传输量计算硬盘传输链路的误码率;将硬盘传输链路的误码率保存至识别列表中所属硬盘传输链路识别号的相应位置,并标记误码率保存时间;监控识别列表的数据更新情况,若监控到识别列表中的硬盘传输链路更新了误码率,则将除最新误码率和前次误码率以外的误码率清除。
首先对硬盘传输链路进行识别,通过比对识别列表与预存链路列表的一致性,查找缺失链路,即未识别的硬盘传输链路。
每五分钟执行一次检测,一次检测需要从误码检测工具获取两次硬盘传输链路的误码数量,误码检测工具是能够检测误码数量的现有技术,不做详细阐述。当获取到某个硬盘传输链路的误码率后,将本次检测中最新获取的误码率存储在硬盘传输链路在识别列表中的相应位置,同时删除前次检测数据。
通过在误差检测之前先校正各硬盘传输链路的识别情况,排查不可识别的异常硬盘传输链路,能够避免漏查链路,提高检测准确性。同时监控误码率数据更新情况,并根据更新情况及时清除无用数据能够在硬盘较多的情况下,节省大量存储资源。
S2、根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况。
统计识别列表中的硬盘传输链路数量,创建多个线程,线程数量为硬盘传输链路数量的三分之一;监控到识别列表存在更新后,调取空闲线程读取更新的硬盘传输链路识别号对应的历史误码率和更新误码率,并计算历史误码率和更新误码率的差值。
本实施例通过创建硬盘传输链路数量的三分之一的线程量,能够保证多线程同步计算误差率波动差值的同时不存在冗余的线程。通过根据硬盘传输链路数量创建多个线程能够实现多进程同步计算存在数据更新的硬盘传输链路的误差率波动差值,提高了数据处理效率,同时也避免线程冗余浪费计算资源。
S3、根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。
比对所述差值与预设波动阈值,若所述差值超过所述波动阈值,则判定所述差值所属的硬盘传输链路异常;生成硬盘传输链路异常报错信息,并将所述报错信息上传至主控制板卡,所述报错信息用于主控制板卡分析故障类型;根据异常硬盘传输链路的识别号点亮对应的故障指示灯。
本实施例在排查出异常硬盘传输链路后,在点亮相应故障指示灯的同时还向主控制板卡上报硬盘传输链路异常报错信息,主控制板卡可根据接收的硬盘传输链路异常报错信息判断故障类型,如某个硬盘的上行传输链路和下行传输链路均报错,则说明该硬盘的expander卡引脚故障。主控制板卡根据历史故障对应的报错信息即可分析出当前故障类型。
通过点亮异常硬盘传输链路的故障指示灯,为维护人员定位故障硬盘传输链路,同时将报错信息上传至主控制板卡,由主控制板卡根据报错信息分析故障类型,为维护人员维修提供帮助。进而,提高了存储故障修复效率,提升存储性能。
本实施例设置的波动阈值对应传输已经出现故障的状态,这会导致故障报错的滞后性,无法提前对即将出现故障的硬盘及时处理。基于此本实施例进一步提供了解决方法:比对所述差值与预设初判阈值,若所述差值超过初判阈值,则在差值所属硬盘传输链路对应的结构体中计数加一,所述初判阈值为波动阈值的90%;若硬盘传输链路对应的结构体中的计数达到预设次数阈值,则判定所述硬盘传输链路异常。通过设置初判阈值,并统计硬盘传输链路的差值超过初判阈值的次数,能够排查出疑似异常硬盘传输链路,这是一种异常预测的方法,能够对将要发生异常的硬盘传输链路提前报错,维护人员根据报错信息提前排查异常,避免了硬盘维修的滞后性。
如图3所示,该系统300包括:
误码统计单元310,用于收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率;
波动计算单元320,用于根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况;
故障定位单元330,用于根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。
可选地,作为本发明一个实施例,所述误码统计单元包括:
链路识别模块,用于识别所有硬盘传输链路,并将识别到的所有硬盘传输链路识别号保存至识别列表,比对识别列表与预存链路列表一致性,将区别硬盘传输链路对应的故障指示灯点亮;
误码采集模块,用于周期性采集误码检测工具检测到的硬盘传输链路的误码数量,根据所述误码数量和总传输量计算硬盘传输链路的误码率;
误码保存模块,用于将硬盘传输链路的误码率保存至识别列表中所属硬盘传输链路识别号的相应位置,并标记误码率保存时间;
数据更新模块,用于监控识别列表的数据更新情况,若监控到识别列表中的硬盘传输链路更新了误码率,则将除最新误码率和前次误码率以外的误码率清除。
可选地,作为本发明一个实施例,所述波动计算单元包括:
线程创建模块,用于统计识别列表中的硬盘传输链路数量,创建多个线程,线程数量为硬盘传输链路数量的三分之一;
差值计算模块,用于监控到识别列表存在更新后,调取空闲线程读取更新的硬盘传输链路识别号对应的历史误码率和更新误码率,并计算历史误码率和更新误码率的差值。
图4为本发明实施例提供的一种终端400的结构示意图,该终端400可以用于执行本发明实施例提供的故障硬盘定位方法。
其中,该终端400可以包括:处理器410、存储器420及通信单元430。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器420可以用于存储处理器410的执行指令,存储器420可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器420中的执行指令由处理器410执行时,使得终端400能够执行以下上述方法实施例中的部分或全部步骤。
处理器410为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器410可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元430,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明通过收集硬盘传输链路的误码情况并进一步统计各硬盘传输链路的误码率,根据误码率和预设的波动阈值检验硬盘传输链路是否异常,并将异常硬盘传输链路对应的故障指示灯点亮。本发明能够快速定位异常硬盘传输链路,明确指示出具体故障问题点,当客服人员现场维修时可以根据指示灯快速定位到问题点,大大提升维修的准确率,节约维修时间,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种故障硬盘定位方法,其特征在于,包括:
收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率;
根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况;
根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。
2.根据权利要求1所述的方法,其特征在于,收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率,包括:
识别所有硬盘传输链路,并将识别到的所有硬盘传输链路识别号保存至识别列表,比对识别列表与预存链路列表一致性,将区别硬盘传输链路对应的故障指示灯点亮;
周期性采集误码检测工具检测到的硬盘传输链路的误码数量,根据所述误码数量和总传输量计算硬盘传输链路的误码率;
将硬盘传输链路的误码率保存至识别列表中所属硬盘传输链路识别号的相应位置,并标记误码率保存时间;
监控识别列表的数据更新情况,若监控到识别列表中的硬盘传输链路更新了误码率,则将除最新误码率和前次误码率以外的误码率清除。
3.根据权利要求2所述的方法,其特征在于,根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况,包括:
统计识别列表中的硬盘传输链路数量,创建多个线程,线程数量为硬盘传输链路数量的三分之一;
监控到识别列表存在更新后,调取空闲线程读取更新的硬盘传输链路识别号对应的历史误码率和更新误码率,并计算历史误码率和更新误码率的差值。
4.根据权利要求3所述的方法,其特征在于,根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯,包括:
比对所述差值与预设波动阈值,若所述差值超过所述波动阈值,则判定所述差值所属的硬盘传输链路异常;
生成硬盘传输链路异常报错信息,并将所述报错信息上传至主控制板卡,所述报错信息用于主控制板卡分析故障类型;
根据异常硬盘传输链路的识别号点亮对应的故障指示灯。
5.根据权利要求4所述的方法,其特征在于,比对所述差值与预设波动阈值,若所述差值超过所述波动阈值,则判定所述差值所属的硬盘传输链路异常,包括:
比对所述差值与预设初判阈值,若所述差值超过初判阈值,则在差值所属硬盘传输链路对应的结构体中计数加一,所述初判阈值为波动阈值的90%;
若硬盘传输链路对应的结构体中的计数达到预设次数阈值,则判定所述硬盘传输链路异常。
6.一种故障硬盘定位系统,其特征在于,包括:
误码统计单元,用于收集所有硬盘传输链路的误码情况并统计各硬盘传输链路的误码率;
波动计算单元,用于根据各硬盘传输链路的相邻次获取的误码率计算各硬盘传输链路的误码率波动情况;
故障定位单元,用于根据预设的波动阈值和各硬盘传输链路的误码率波动情况定位异常传输链路,并点亮异常传输链路对应的故障指示灯。
7.根据权利要求6所述的系统,其特征在于,所述误码统计单元包括:
链路识别模块,用于识别所有硬盘传输链路,并将识别到的所有硬盘传输链路识别号保存至识别列表,比对识别列表与预存链路列表一致性,将区别硬盘传输链路对应的故障指示灯点亮;
误码采集模块,用于周期性采集误码检测工具检测到的硬盘传输链路的误码数量,根据所述误码数量和总传输量计算硬盘传输链路的误码率;
误码保存模块,用于将硬盘传输链路的误码率保存至识别列表中所属硬盘传输链路识别号的相应位置,并标记误码率保存时间;
数据更新模块,用于监控识别列表的数据更新情况,若监控到识别列表中的硬盘传输链路更新了误码率,则将除最新误码率和前次误码率以外的误码率清除。
8.根据权利要求7所述的系统,其特征在于,所述波动计算单元包括:
线程创建模块,用于统计识别列表中的硬盘传输链路数量,创建多个线程,线程数量为硬盘传输链路数量的三分之一;
差值计算模块,用于监控到识别列表存在更新后,调取空闲线程读取更新的硬盘传输链路识别号对应的历史误码率和更新误码率,并计算历史误码率和更新误码率的差值。
9.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5任一项所述的方法。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202110780429.7A 2021-07-09 2021-07-09 故障硬盘定位方法、系统、终端及存储介质 Active CN113608959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110780429.7A CN113608959B (zh) 2021-07-09 2021-07-09 故障硬盘定位方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110780429.7A CN113608959B (zh) 2021-07-09 2021-07-09 故障硬盘定位方法、系统、终端及存储介质

Publications (2)

Publication Number Publication Date
CN113608959A true CN113608959A (zh) 2021-11-05
CN113608959B CN113608959B (zh) 2023-07-18

Family

ID=78304358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110780429.7A Active CN113608959B (zh) 2021-07-09 2021-07-09 故障硬盘定位方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN113608959B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333979A (zh) * 2022-08-12 2022-11-11 济南浪潮数据技术有限公司 一种链路误码处理方法、装置及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918221A (zh) * 2019-03-06 2019-06-21 苏州浪潮智能科技有限公司 一种硬盘报错解析方法、系统、终端及存储介质
CN111026591A (zh) * 2019-11-29 2020-04-17 北京浪潮数据技术有限公司 一种后端sas的故障定位方法、系统及相关装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918221A (zh) * 2019-03-06 2019-06-21 苏州浪潮智能科技有限公司 一种硬盘报错解析方法、系统、终端及存储介质
CN111026591A (zh) * 2019-11-29 2020-04-17 北京浪潮数据技术有限公司 一种后端sas的故障定位方法、系统及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115333979A (zh) * 2022-08-12 2022-11-11 济南浪潮数据技术有限公司 一种链路误码处理方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN113608959B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
JP2020027615A (ja) サーバハードウェア障害の分析及びリカバリ
CN102713861B (zh) 操作管理装置、操作管理方法以及程序存储介质
CN101197621B (zh) 一种对网管系统故障进行远程诊断定位的方法及其系统
CN108010305B (zh) 一种综合能源管理平台数据采集故障的自诊断方法
CN115118581B (zh) 一种基于5g的物联网数据全链路监控和智能保障系统
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
CN103207825A (zh) 一种用于管理整机柜的故障的方法及装置
CN108287774A (zh) 一种服务器的故障诊断方法、装置、设备及存储介质
CN113608959A (zh) 故障硬盘定位方法、系统、终端及存储介质
CN110687851A (zh) 一种终端运行监控系统及方法
CN114003417B (zh) 实现raid卡故障自动转存的方法、装置及存储介质
CN114860518A (zh) 功能安全系统的检测方法、系统、电子设备、存储介质
CN117056109B (zh) 数据运维故障分析系统、方法
CN117194154A (zh) 一种基于微服务的apm全链路监控系统及方法
CN117234783A (zh) Pcie设备的检测方法及装置、bios及存储介质
CN107992408B (zh) 一种软件探测器的软件探测方法
CN113408969B (zh) 一种分布式系统的维修方案生成方法及系统
CN112463504B (zh) 一种双控存储产品测试方法、系统、终端及存储介质
CN112131090B (zh) 业务系统性能监控方法及装置、设备及介质
JP2020035297A (ja) 機器状態監視装置及びプログラム
CN114138600A (zh) 一种固件关键信息的存储方法、装置、设备及存储介质
CN114218001A (zh) 故障修复方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant