CN110825542A - 一种分布式系统中故障盘的检测方法、装置及检测系统 - Google Patents

一种分布式系统中故障盘的检测方法、装置及检测系统 Download PDF

Info

Publication number
CN110825542A
CN110825542A CN201810893275.0A CN201810893275A CN110825542A CN 110825542 A CN110825542 A CN 110825542A CN 201810893275 A CN201810893275 A CN 201810893275A CN 110825542 A CN110825542 A CN 110825542A
Authority
CN
China
Prior art keywords
storage node
disk
node
request information
slow request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810893275.0A
Other languages
English (en)
Other versions
CN110825542B (zh
Inventor
刘太良
孙细妹
谢晓周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aijieyun Technology Co ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201810893275.0A priority Critical patent/CN110825542B/zh
Publication of CN110825542A publication Critical patent/CN110825542A/zh
Application granted granted Critical
Publication of CN110825542B publication Critical patent/CN110825542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式系统中故障盘的检测方法、装置及检测系统,其中,该方法包括:控制节点接收慢请求信息,慢请求信息包括存储节点的区域信息和IP地址;当控制节点在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,向目标存储节点发送检测指令,以使目标存储节点基于检测指令检测目标存储节点中的磁盘是否为故障盘。本发明能够初步筛选出可能存在故障盘的存储节点,并只针对被怀疑存在故障盘的存储节点进行深度检测,从而能够有目标地并且小范围地进行检测,能够避免由于盲目地检测,造成不必要的系统消耗,同时也能够快速检测出故障盘,并及时对故障盘进行维护,提高服务器集群的响应速度。

Description

一种分布式系统中故障盘的检测方法、装置及检测系统
技术领域
本发明涉及计算机网络安全技术领域,特别涉及一种分布式系统中故障盘的检测方法、装置及检测系统。
背景技术
随着大数据的广泛应用,分布式系统中的存储服务器节点(一下简称“存储节点”)也越来越多,存储节点可以分布于全国甚至世界各地。存储节点通常使用磁盘进行数据的永久性存储。随着使用时间的推移或者其他原因,磁盘的机械部件和存储介质都可能出现一定程度的老化和损坏,对于出现老化和损坏的故障盘,读写性能会明显降低。
为通过并行的访问提高数据的读写速度,分布式系统将数据条带化的存放在各个存储节点的不同磁盘中。如果分布式系统中出现了故障盘,则会导致整个分布式系统的读写性能明显下降。在特定的应用场景中,甚至导致整个分布式系统瘫痪。但是,目前还没有一种能够快速定位故障盘位置的方法,用于及时对故障盘进行维护,保证用户的使用效果。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种分布式系统中故障盘的检测方法、装置及检测系统。所述技术方案如下:
第一方面,提供了一种分布式系统中故障盘的检测方法,所述方法包括:
控制节点接收慢请求信息,所述慢请求信息包括存储节点的区域信息和IP地址;
当所述控制节点在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,向所述目标存储节点发送检测指令,以使所述目标存储节点基于所述检测指令检测所述目标存储节点中的磁盘是否为故障盘。
可选地,所述慢请求信息还包括磁盘标识,当所述控制节点在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,向所述目标存储节点发送检测指令,包括:
当所述控制节点在预设时间间隔内接收到的目标存储节点的目标磁盘对应的慢请求信息的数量超过预设数量时,向所述目标存储节点发送检测所述目标磁盘的检测指令。
可选地,所述控制节点接收慢请求信息之前,包括:
存储节点接收客户端发送的请求信息;
所述存储节点使用至少一个磁盘响应所述请求信息;
当所述存储节点中的任一磁盘的响应时间超过预设时间时,所述存储节点生成慢请求信息。
可选地,所述存储节点生成慢请求信息之后,包括:
所述存储节点向所述控制节点发送所述慢请求信息。
可选地,所述存储节点生成慢请求信息之后,还包括:
所述存储节点向监控节点发送所述慢请求信息;
所述监控节点接收所述慢请求信息;
所述监控节点向所述控制节点发送所述慢请求信息。
可选地,所述监控节点接收所述慢请求信息之后,还包括:
所述监控节点基于所述慢请求信息生成慢请求日志信息;
所述监控节点向所述控制节点发送包括所述慢请求信息的所述慢请求日志信息。
可选地,所述控制节点向目标存储节点发送检测指令之后,包括:
所述目标存储节点接收所述检测指令;
所述目标存储节点基于所述检测指令测试所述目标存储节点中的磁盘的写速度以及读速度;
当所述磁盘的写速度小于预设写速度或者读速度小于预设读速度时,所述目标存储节点向所述控制节点发送表明所述磁盘为故障盘的检测结果。
可选地,所述控制节点向目标存储节点发送检测指令之后,还包括:
所述控制节点接收所述目标存储节点发送的检测结果;
当所述检测结果表明有磁盘为故障盘时,所述控制节点生成告警信息。
可选地,所述控制节点在确定出在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量之后,还包括:
所述控制节点向监控节点发送包括所述目标存储节点对应的慢请求信息的转发指令;
所述监控节点接收所述控制节点发送的所述转发指令,并基于所述转发指令向所述目标存储节点发送检测指令。
第二方面,提供了一种故障盘的检测装置,包括:
接收单元,用于接收慢请求信息,所述慢请求信息包括存储节点的区域信息和IP地址;
生成单元,用于当在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,生成检测指令;
发送单元,用于向所述目标存储节点发送检测指令,以使所述目标存储节点基于所述检测指令检测所述目标存储节点中的磁盘是否为故障盘。
可选地,所述慢请求信息还包括磁盘标识;
所述生成单元,用于当在预设时间间隔内接收到的目标存储节点的目标磁盘对应的慢请求信息的数量超过预设数量时,生成检测所述目标磁盘的检测指令;
所述发送单元,用于向所述目标存储节点发送检测所述目标磁盘的检测指令。
可选地,所述接收单元,还用于接收所述目标存储节点发送的检测结果;
所述生成单元,还用于当所述检测结果表明有磁盘为故障盘时,生成告警信息。
可选地,所述发送单元,还用于向监控节点发送包括所述目标存储节点对应的慢请求信息的转发指令,以使所述监控节点基于所述转发指令向所述目标存储节点发送检测指令。
第三方面,提供了一种检测系统,所述检测系统包括控制节点以及存储节点;
所述控制节点包括第二方面所述的分布式系统中故障盘的检测装置;
所述存储节点,用于生成慢请求信息,以及接收检测指令,并基于所述检测指令检测所述存储节点中的磁盘是否为故障盘。
可选地,所述存储节点还用于:
向所述控制节点发送所述慢请求信息。
可选地,所述检测系统还包括监控节点;
所述存储节点,还用于向所述监控节点发送所述慢请求信息;
所述监控节点,用于接收所述慢请求信息,并向所述控制节点发送所述慢请求信息。
可选地,所述监控节点,还用于基于所述慢请求信息生成慢请求日志信息,并向所述控制节点发送包括所述慢请求信息的所述慢请求日志信息。
可选地,所述存储节点还用于:
接收检测指令;
基于所述检测指令测试所述存储节点中的磁盘的写速度以及读速度;
当所述磁盘的写速度小于预设写速度或者读速度小于预设读速度时,向所述控制节点发送表明所述磁盘为故障盘的检测结果
本发明实施例能够初步筛选出可能存在故障盘的存储节点,并只针对被怀疑存在故障盘的存储节点进行深度检测,从而能够有目标地并且小范围地进行检测,能够避免由于盲目地检测,造成不必要的系统消耗,同时也能够快速检测出故障盘,并及时对故障盘进行维护,提高服务器集群的响应速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种网络框架示意图;
图2是本发明实施例提供的一种分布式系统中故障盘的检测方法的流程图;
图3是本发明实施例提供的一种检测系统的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种分布式系统中故障盘的检测方法,该方法可以应用于图1所示的网络框架中。该网络框架包括客户端、存储节点、监控节点以及控制节点。存储节点分别连接客户端、监控节点以及控制节点。
客户端可以向存储节点发送请求信息,例如读取请求、写入请求或者删除请求等等。存储节点接收客户端发送的请求信息,进行响应,当响应时间超过预设时间时,生成相应的慢请求信息,所述慢请求信息包括存储节点的区域信息和IP地址。存储节点在响应客户端发送的请求信息时,使用至少一个磁盘响应所述请求信息。每个磁盘在响应请求信息的过程中可以记录响应的起始时刻以及结束时刻,从而确定每个磁盘的响应时间。当所述存储节点中的任一磁盘的响应时间超过预设时间时,生成相应的慢请求信息。所述慢请求信息中的区域信息可以用于表示所述存储节点所在的机房位置。
每个服务器集群中可以设置一个监控节点,用于监控集群中各个节点的运行状态,并生成相应的日志信息。存储节点生成慢请求信息之后,向监控节点发送所述慢请求信息,所述监控节点接收所述慢请求信息,并基于所述慢请求信息生成日志信息,即慢请求(slow request)日志信息,所述慢请求日志信息包括所述慢请求信息,也就是说所述慢请求日志信息包括存储节点的区域信息和IP地址。所述监控节点再向所述控制节点发送所述慢请求日志信息,从而使所述控制节点能够基于所述慢请求日志信息,初步确定出可能存在故障盘的存储节点,进而向该存储节点发送检测该存储节点中的磁盘的检测指令,进一步准确确定该存储节点是否存在故障盘。本发明实施例中的故障盘包括任一性能不满足预设要求的磁盘,例如慢盘。
本发明实施例提供的分布式系统中故障盘的检测方法,能够初步筛选出可能存在故障盘的存储节点,并只针对被怀疑存在故障盘的存储节点进行深度检测,从而能够有目标地并且小范围地进行检测,能够避免由于盲目地检测,造成不必要的系统消耗,同时也能够快速检测出故障盘,并及时对故障盘进行维护,提高服务器集群的响应速度。
参见图2,为本发明实施例提供的一种分布式系统中故障盘的检测方法的流程图,该方法具体可以包括以下步骤。
步骤201,控制节点接收慢请求信息,所述慢请求信息包括存储节点的区域信息和IP地址。
在具体实施中,存储节点生成慢请求信息之后,可以直接将慢请求信息发送给控制节点,从而使控制节点接收存储节点发送的慢请求信息。存储节点生成慢请求信息之后,还可以向监控节点发送慢请求信息,监控节点接收到慢请求信息之后,将慢请求信息发送给存储节点,从而使控制节点接收监控节点发送的慢请求信息。监控节点接收到慢请求信息之后,还可以基于该慢请求信息生成慢请求日志信息,再将包括慢请求信息的慢请求日志信息发送给控制节点。控制节点可以从慢请求日志信息中获取慢请求信息。
步骤202,当所述控制节点在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,向所述目标存储节点发送检测指令,以使所述目标存储节点基于所述检测指令检测所述目标存储节点中的磁盘是否为故障盘。
本发明实施例中的每个预设时间间隔在时间上可以是连续的,也就是说上个预设时间间隔的结束时刻为下个预设时间间隔的起始时刻,每个预设时间间隔在时间上也可以是不连续的。在每个预设时间间隔内,控制节点统计每个存储节点对应的慢请求信息的数量,当有存储节点对应的慢请求信息的数量超过预设数量时,说明该存储节点中存在有故障盘的风险,从而向该存储节点发送检测指令,以使该存储节点检测其所包括的磁盘是否为故障盘。
在具体实施中,慢请求信息还可以包括磁盘标识,该磁盘标识用于表示所述存储节点中响应时间超过预设时间的磁盘。也就是说,存储节点在使用其中的磁盘响应请求信息时,可以确定出响应超时的磁盘,并确定其可能是故障盘,从而也将该磁盘的磁盘标识写入慢请求信息中。该磁盘标识可以使用基于对象的存储设备(Object-based StorageDevice,OSD)编号进行表示。
当慢请求信息包括磁盘标识时,控制节点可以根据磁盘标识确定可能为故障盘的磁盘,所以控制节点可以统计每个存储节点中各个磁盘对应的慢请求信息的数量。当有存储节点中的磁盘对应的慢请求信息的数量超过预设数量时,说明该磁盘可能为故障盘。也就是说,当所述控制节点在预设时间间隔内接收到的目标存储节点的目标磁盘对应的慢请求信息的数量超过预设数量时,可以向所述目标存储节点发送检测所述目标磁盘的检测指令,从而能够更加准确定位可能为故障盘的磁盘的位置,更加快速检测出故障盘。
当慢请求信息包括磁盘标识时,控制节点向目标存储节点发送的检测指令至少包括目标磁盘的磁盘标识,以使目标存储节点根据该磁盘标识确定待检测的磁盘。
由于磁盘在正常使用的过程中,造成其响应速度慢的原因并不一定是由于其本身性能出现问题,还有可能是由于其他原因,例如同时下发给同一磁盘多个任务。所以利用慢请求信息筛选出的存储节点,只能初步怀疑其中存在故障盘,并无法确定其中确实存在故障盘,还需要存储节点进行深度检测。同理,当慢请求信息还包括磁盘标识时,利用慢请求信息筛选出的磁盘,只能初步怀疑其为故障盘,并无法确定其确实为故障盘,还需要存储节点对初步筛选出的磁盘进行深度检测。
步骤203,所述目标存储节点接收所述检测指令。
步骤204,所述目标存储节点基于所述检测指令测试所述目标存储节点中的磁盘的写速度以及读速度。
存储节点在检测磁盘读写性能的过程中,可以测试磁盘在固定时间内能够读取或写入的数据的大小,从而得到磁盘的读速度和写速度;也可以测试磁盘读取或者写入固定大小数据所用的时间,得到磁盘的读速度和写速度。本发明实施例不对存储节点在检测磁盘读写性能时所采用的方法进行具体限定。
步骤205,当所述磁盘的写速度小于预设写速度或者读速度小于预设读速度时,所述目标存储节点向所述控制节点发送表明所述磁盘为故障盘的检测结果。
所述预设写速度以及所述预设读速度可以分别根据每个磁盘出厂时所记载的初始写速度以及初始读速度进行确定。本发明实施例不对预设写速度与初始写速度之间的差值,以及预设读速度与初始读速度之间的差值进行具体限定。
当目标存储节点中的全部磁盘的写速度不小于预设写速度,并且读速度不小于预设读速度时,所述目标存储节点可以向所述控制节点发送表明所述目标存储节点中不存在故障盘的检测结果。
当目标存储节点接收到的检测指令包括磁盘标识时,目标存储节点可以只检测磁盘标识对应的目标磁盘。当所述目标磁盘的写速度小于预设写速度或者读速度小于预设读速度时,所述目标存储节点向所述控制节点发送表明所述目标磁盘为故障盘的检测结果。当所述目标磁盘的写速度不小于预设写速度,并且读速度不小于预设读速度时,所述目标存储节点可以向所述控制节点发送表明所述目标磁盘不是故障盘的检测结果。
存储节点发送的检测结果可以包括区域信息、IP地址、磁盘标识以及故障标识。例如,故障标识为0时,表示目标磁盘不是故障盘,故障标识为1时,表示目标磁盘是故障盘。
步骤206,所述控制节点接收所述目标存储节点发送的检测结果,当所述检测结果表明有磁盘为故障盘时,生成告警信息。
控制节点生成告警信息之后,将告警信息发送至告警组件,告警组件通过短信或推送方式将该告警信息发送至展示层进行展示,以通知运维人员对故障盘进行维护。
在本发明实施例中,控制节点与监控节点可以分别配置于不同的节点服务器中,也可以配置于同一节点服务器中。当控制节点与监控节点配置于同一节点服务器中时,由这一节点服务器实现上述控制节点以及监控节点所要执行的步骤,例如,该节点服务器接收存储节点发送的慢请求信息,并基于所述慢请求信息生成慢请求日志信息以及基于所述慢请求信息向目标存储节点发送检测指令等等。
在本发明实施例中,控制节点与存储节点之间可以通过监控节点连接,而控制节点可以不连接各个存储节点,从而减少分布式系统中所创建的链路数目,并且可以减少控制节点中端口的设置。在控制节点向目标存储节点发送检测目标磁盘的检测指令时,可以通过监控节点向目标存储节点发送所述检测指令。也就是说,控制节点向监控节点发送包括目标存储节点对应的慢请求信息的转发指令,监控节点接收该转发指令,并基于该转发指令向目标存储节点发送检测指令。
在目标存储节点生成检测结果之后,可以通过监控节点向控制节点发送该检测结果。也就是说,目标存储节点向监控节点发送所述检测结果,监控节点接收所述检测结果,并向控制节点发送所述检测结果。
本发明实施例提供的分布式系统中故障盘的检测方法,能够初步筛选出可能存在故障盘的存储节点,并只针对被怀疑存在故障盘的存储节点进行深度检测,从而能够有目标地并且小范围地进行检测,能够避免由于盲目地检测,造成不必要的系统消耗,同时也能够快速检测出故障盘,并及时对故障盘进行维护,提高服务器集群的响应速度。
参照图3,为本发明实施例提供的一种检测系统的结构框图,该检测系统可以包括控制节点31、存储节点32以及监控节点33。
控制节点31包括故障盘的检测装置(图中未画出),该检测装置可以配置于控制节点31中,或者为控制节点31本身,该检测装置包括接收单元311、生成单元312以及发送单元313。
所述存储节点32,用于生成慢请求信息,以及接收检测指令,并基于所述检测指令检测所述存储节点32中的磁盘是否为故障盘。
其中,接收单元311,用于接收慢请求信息,所述慢请求信息包括存储节点32的区域信息和IP地址;
生成单元312,用于当在预设时间间隔内接收到的目标存储节点32对应的慢请求信息的数量超过预设数量时,生成检测指令;
发送单元313,用于向所述目标存储节点32发送检测指令,以使所述目标存储节点32基于所述检测指令检测所述目标存储节点32中的磁盘是否为故障盘。
优选的,所述慢请求信息还包括磁盘标识;
所述生成单元312,用于当在预设时间间隔内接收到的目标存储节点32的目标磁盘对应的慢请求信息的数量超过预设数量时,生成检测所述目标磁盘的检测指令;
所述发送单元313,用于向所述目标存储节点32发送检测所述目标磁盘的检测指令。
优选的,所述接收单元311,还用于接收所述目标存储节点32发送的检测结果;
所述生成单元312,还用于当所述检测结果表明有磁盘为故障盘时,生成告警信息。
优选的,所述发送单元313,还用于向监控节点33发送包括所述目标存储节点32对应的慢请求信息的转发指令,以使所述监控节点33基于所述转发指令向所述目标存储节点32发送检测指令。
优选的,所述存储节点32,还用于向所述控制节点31发送所述慢请求信息。
优选的,所述存储节点32,还用于向所述监控节点33发送所述慢请求信息;
所述监控节点33,用于接收所述慢请求信息,并向所述控制节点31发送所述慢请求信息。
优选的,所述监控节点33,还用于基于所述慢请求信息生成慢请求日志信息,并向所述控制节点31发送包括所述慢请求信息的所述慢请求日志信息。
优选的,所述存储节点32还用于:
接收检测指令;
基于所述检测指令测试所述存储节点32中的磁盘的写速度以及读速度;
当所述磁盘的写速度小于预设写速度或者读速度小于预设读速度时,向所述控制节点31发送表明所述磁盘为故障盘的检测结果。
本发明实施例能够初步筛选出可能存在故障盘的存储节点,并只针对被怀疑存在故障盘的存储节点进行深度检测,从而能够有目标地并且小范围地进行检测,能够避免由于盲目地检测,造成不必要的系统消耗,同时也能够快速检测出故障盘,并及时对故障盘进行维护,提高服务器集群的响应速度。
需要说明的是:上述实施例提供的故障盘的检测装置在创建连接时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的检测系统与故障盘的检测方法的实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种分布式系统中故障盘的检测方法,其特征在于,所述方法包括:
控制节点接收慢请求信息,所述慢请求信息包括存储节点的区域信息和IP地址;
当所述控制节点在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,向所述目标存储节点发送检测指令,以使所述目标存储节点基于所述检测指令检测所述目标存储节点中的磁盘是否为故障盘。
2.根据权利要求1所述的方法,其特征在于,所述慢请求信息还包括磁盘标识,当所述控制节点在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,向所述目标存储节点发送检测指令,包括:
当所述控制节点在预设时间间隔内接收到的目标存储节点的目标磁盘对应的慢请求信息的数量超过预设数量时,向所述目标存储节点发送检测所述目标磁盘的检测指令。
3.根据权利要求1所述的方法,其特征在于,所述控制节点接收慢请求信息之前,包括:
存储节点接收客户端发送的请求信息;
所述存储节点使用至少一个磁盘响应所述请求信息;
当所述存储节点中的任一磁盘的响应时间超过预设时间时,所述存储节点生成慢请求信息。
4.根据权利要求3所述的方法,其特征在于,所述存储节点生成慢请求信息之后,包括:
所述存储节点向所述控制节点发送所述慢请求信息。
5.根据权利要求3所述的方法,其特征在于,所述存储节点生成慢请求信息之后,还包括:
所述存储节点向监控节点发送所述慢请求信息;
所述监控节点接收所述慢请求信息;
所述监控节点向所述控制节点发送所述慢请求信息。
6.根据权利要求5所述的方法,其特征在于,所述监控节点接收所述慢请求信息之后,还包括:
所述监控节点基于所述慢请求信息生成慢请求日志信息;
所述监控节点向所述控制节点发送包括所述慢请求信息的所述慢请求日志信息。
7.根据权利要求1所述的方法,其特征在于,所述控制节点向目标存储节点发送检测指令之后,包括:
所述目标存储节点接收所述检测指令;
所述目标存储节点基于所述检测指令测试所述目标存储节点中的磁盘的写速度以及读速度;
当所述磁盘的写速度小于预设写速度或者读速度小于预设读速度时,所述目标存储节点向所述控制节点发送表明所述磁盘为故障盘的检测结果。
8.根据权利要求1所述的方法,其特征在于,所述控制节点向目标存储节点发送检测指令之后,还包括:
所述控制节点接收所述目标存储节点发送的检测结果;
当所述检测结果表明有磁盘为故障盘时,所述控制节点生成告警信息。
9.根据权利要求1所述的方法,其特征在于,所述控制节点在确定出在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量之后,还包括:
所述控制节点向监控节点发送包括所述目标存储节点对应的慢请求信息的转发指令;
所述监控节点接收所述控制节点发送的所述转发指令,并基于所述转发指令向所述目标存储节点发送检测指令。
10.一种故障盘的检测装置,其特征在于,包括:
接收单元,用于接收慢请求信息,所述慢请求信息包括存储节点的区域信息和IP地址;
生成单元,用于当在预设时间间隔内接收到的目标存储节点对应的慢请求信息的数量超过预设数量时,生成检测指令;
发送单元,用于向所述目标存储节点发送检测指令,以使所述目标存储节点基于所述检测指令检测所述目标存储节点中的磁盘是否为故障盘。
11.根据权利要求10所述的装置,其特征在于,所述慢请求信息还包括磁盘标识;
所述生成单元,用于当在预设时间间隔内接收到的目标存储节点的目标磁盘对应的慢请求信息的数量超过预设数量时,生成检测所述目标磁盘的检测指令;
所述发送单元,用于向所述目标存储节点发送检测所述目标磁盘的检测指令。
12.根据权利要求10所述的装置,其特征在于,
所述接收单元,还用于接收所述目标存储节点发送的检测结果;
所述生成单元,还用于当所述检测结果表明有磁盘为故障盘时,生成告警信息。
13.根据权利要求10所述的控制节点,其特征在于,
所述发送单元,还用于向监控节点发送包括所述目标存储节点对应的慢请求信息的转发指令,以使所述监控节点基于所述转发指令向所述目标存储节点发送检测指令。
14.一种检测系统,其特征在于,所述检测系统包括控制节点以及存储节点;
所述控制节点包括如权利要求10-13任一项所述的分布式系统中故障盘的检测装置;
所述存储节点,用于生成慢请求信息,以及接收检测指令,并基于所述检测指令检测所述存储节点中的磁盘是否为故障盘。
15.根据权利要求14所述的检测系统,其特征在于,所述存储节点还用于:
向所述控制节点发送所述慢请求信息。
16.根据权利要求14所述的检测系统,其特征在于,还包括监控节点,
所述存储节点,还用于向所述监控节点发送所述慢请求信息;
所述监控节点,用于接收所述慢请求信息,并向所述控制节点发送所述慢请求信息。
17.根据权利要求16所述的检测系统,其特征在于,
所述监控节点,还用于基于所述慢请求信息生成慢请求日志信息,并向所述控制节点发送包括所述慢请求信息的所述慢请求日志信息。
18.根据权利要求14所述的检测系统,其特征在于,所述存储节点还用于:
接收检测指令;
基于所述检测指令测试所述存储节点中的磁盘的写速度以及读速度;
当所述磁盘的写速度小于预设写速度或者读速度小于预设读速度时,向所述控制节点发送表明所述磁盘为故障盘的检测结果。
CN201810893275.0A 2018-08-07 2018-08-07 一种分布式系统中故障盘的检测方法、装置及检测系统 Active CN110825542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810893275.0A CN110825542B (zh) 2018-08-07 2018-08-07 一种分布式系统中故障盘的检测方法、装置及检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810893275.0A CN110825542B (zh) 2018-08-07 2018-08-07 一种分布式系统中故障盘的检测方法、装置及检测系统

Publications (2)

Publication Number Publication Date
CN110825542A true CN110825542A (zh) 2020-02-21
CN110825542B CN110825542B (zh) 2023-06-23

Family

ID=69533915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810893275.0A Active CN110825542B (zh) 2018-08-07 2018-08-07 一种分布式系统中故障盘的检测方法、装置及检测系统

Country Status (1)

Country Link
CN (1) CN110825542B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625189A (zh) * 2020-05-19 2020-09-04 无锡华云数据技术服务有限公司 一种数据重平衡状态的检测方法、装置、设备及介质
CN112416639A (zh) * 2020-11-16 2021-02-26 新华三技术有限公司成都分公司 一种慢盘检测方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118397A (ja) * 2002-09-25 2004-04-15 Nec Soft Ltd 磁気ディスク装置の障害発生予測システム
US7987383B1 (en) * 2007-04-27 2011-07-26 Netapp, Inc. System and method for rapid indentification of coredump disks during simultaneous take over
US20110185268A1 (en) * 2008-12-22 2011-07-28 Hiromi Matsushige Storage apparatus and data verification methd in storage apparatus
CN102147708A (zh) * 2010-02-10 2011-08-10 成都市华为赛门铁克科技有限公司 一种磁盘检测方法及装置
US20130024722A1 (en) * 2011-07-22 2013-01-24 Microsoft Corporation Virtual disk replication using log files
CN103761180A (zh) * 2014-01-11 2014-04-30 浪潮电子信息产业股份有限公司 一种集群存储中磁盘故障的预防及检测方法
CN104767655A (zh) * 2015-03-17 2015-07-08 微梦创科网络科技(中国)有限公司 一种模拟结果检测方法及装置
US9141457B1 (en) * 2013-09-25 2015-09-22 Emc Corporation System and method for predicting multiple-disk failures
CN105068901A (zh) * 2015-07-27 2015-11-18 浪潮电子信息产业股份有限公司 一种磁盘检测的方法
CN106407052A (zh) * 2015-07-31 2017-02-15 华为技术有限公司 一种检测磁盘的方法及装置
CN106886471A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种基于linux中磁盘的读写故障检测方法及系统
CN107479836A (zh) * 2017-08-29 2017-12-15 郑州云海信息技术有限公司 磁盘故障监控方法、装置以及存储系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118397A (ja) * 2002-09-25 2004-04-15 Nec Soft Ltd 磁気ディスク装置の障害発生予測システム
US7987383B1 (en) * 2007-04-27 2011-07-26 Netapp, Inc. System and method for rapid indentification of coredump disks during simultaneous take over
US20110185268A1 (en) * 2008-12-22 2011-07-28 Hiromi Matsushige Storage apparatus and data verification methd in storage apparatus
CN102147708A (zh) * 2010-02-10 2011-08-10 成都市华为赛门铁克科技有限公司 一种磁盘检测方法及装置
US20130024722A1 (en) * 2011-07-22 2013-01-24 Microsoft Corporation Virtual disk replication using log files
US9141457B1 (en) * 2013-09-25 2015-09-22 Emc Corporation System and method for predicting multiple-disk failures
CN103761180A (zh) * 2014-01-11 2014-04-30 浪潮电子信息产业股份有限公司 一种集群存储中磁盘故障的预防及检测方法
CN104767655A (zh) * 2015-03-17 2015-07-08 微梦创科网络科技(中国)有限公司 一种模拟结果检测方法及装置
CN105068901A (zh) * 2015-07-27 2015-11-18 浪潮电子信息产业股份有限公司 一种磁盘检测的方法
CN106407052A (zh) * 2015-07-31 2017-02-15 华为技术有限公司 一种检测磁盘的方法及装置
CN106886471A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种基于linux中磁盘的读写故障检测方法及系统
CN107479836A (zh) * 2017-08-29 2017-12-15 郑州云海信息技术有限公司 磁盘故障监控方法、装置以及存储系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡钦超;涂晓东;: "不可靠存储环境下的数据完整性检测技术研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625189A (zh) * 2020-05-19 2020-09-04 无锡华云数据技术服务有限公司 一种数据重平衡状态的检测方法、装置、设备及介质
CN112416639A (zh) * 2020-11-16 2021-02-26 新华三技术有限公司成都分公司 一种慢盘检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110825542B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN108205424B (zh) 基于磁盘的数据迁移方法、装置及电子设备
CN109842651B (zh) 一种业务不间断的负载均衡方法和系统
CN104202375A (zh) 同步数据的方法及系统
CN105373460A (zh) 监控消息的告警方法和系统
WO2023226380A1 (zh) 一种磁盘处理方法、系统及电子设备
CN107453932B (zh) 一种分布式存储系统管理方法及其装置
CN113595836A (zh) 一种高可用集群的心跳检测方法、存储介质和计算节点
CN110825542B (zh) 一种分布式系统中故障盘的检测方法、装置及检测系统
CN116340076A (zh) 硬盘性能测试方法、装置及介质
CN100498961C (zh) 硬盘检测装置及方法
CN114003439B (zh) 数据备份方法、装置、设备及存储介质
CN105553743A (zh) 获得日志的方法、系统、第一网络设备及第三网络设备
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN113190177B (zh) 数据存储方法、终端设备、服务器及系统
CN111158955A (zh) 一种基于卷复制的高可用系统以及多服务器数据同步方法
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
CN103810038A (zh) 一种ha集群中虚拟机存储文件迁移方法及其装置
CN102334315B (zh) 端口阻断方法和路由设备
CN114363334A (zh) 云系统及云桌面虚拟机的网络配置方法、装置及设备
CN111478792B (zh) 一种割接信息处理方法、系统及装置
CN105786648A (zh) 数据处理方法及装置
CN108845772B (zh) 一种硬盘故障处理方法、系统、设备及计算机存储介质
CN112069032A (zh) 一种虚拟机的可用性检测方法、系统及相关装置
CN111737079B (zh) 一种集群网络的监控方法和装置
CN114884836A (zh) 一种虚拟机高可用方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210802

Address after: 518000 b1-1302, building B, Kexing Science Park, No. 15, Keyuan Road, Science Park community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Applicant after: Shenzhen aijieyun Technology Co.,Ltd.

Address before: 5 / F, building a, Guangqi Cultural Plaza, 2899 Xietu Road, Xuhui District, Shanghai, 200030

Applicant before: WANGSU SCIENCE & TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant