CN112799896A - 分布式存储硬盘故障处理方法及装置 - Google Patents

分布式存储硬盘故障处理方法及装置 Download PDF

Info

Publication number
CN112799896A
CN112799896A CN202110124848.5A CN202110124848A CN112799896A CN 112799896 A CN112799896 A CN 112799896A CN 202110124848 A CN202110124848 A CN 202110124848A CN 112799896 A CN112799896 A CN 112799896A
Authority
CN
China
Prior art keywords
hard disk
storage
storage pool
abnormal
storage hard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110124848.5A
Other languages
English (en)
Inventor
张志雄
沈震宇
李秀萍
魏亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110124848.5A priority Critical patent/CN112799896A/zh
Publication of CN112799896A publication Critical patent/CN112799896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种分布式存储硬盘故障处理方法及装置,可用于金融领域或其他技术领域,该分布式存储硬盘故障处理方法包括:对目标存储池进行存储硬盘异常检测;若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。本发明有效的解决了由于存储硬盘出现异常导致的影响应用程序正常运行的问题,有助于提高应用程序的服务质量。

Description

分布式存储硬盘故障处理方法及装置
技术领域
本发明涉及分布式存储技术领域,具体而言,涉及一种分布式存储硬盘故障处理方法及装置。
背景技术
分布式存储是一种通过网络将分散的存储资源构建成一个虚拟的存储资源池,把数据分散存储在多台独立设备上的数据存储技术,拥有高性能的大并发读写、高可用的故障自动隔离、动态扩展以及运维管理自动化和智能化等能力。分布式存储集群一般由多个存储池组成,存储池之间是相互独立的不会互相影响,一个存储池包含多个存储硬盘,数据最终都要写在存储硬盘上。应用程序通过在多个存储池上部署应用虚拟机实现向分布式存储集群读写数据,实现应用程序的正常运行。若存储池出现故障或者性能出现问题,势必会影响应用程序的正常运行。当存储池中的每个存储硬盘出现异常或故障时,都会影响整个存储池的性能,进而会影响到部署在该存储池的应用程序的正常运行。然而如何解决由于存储硬盘出现异常导致的应用程序无法正常运行的问题,现有技术并没有很好的解决方法。
发明内容
本发明为了解决上述背景技术中的技术问题,提出了一种分布式存储硬盘故障处理方法及装置。
为了实现上述目的,根据本发明的一个方面,提供了一种分布式存储硬盘故障处理方法,该方法包括:
对目标存储池进行存储硬盘异常检测;
若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。
可选的,该分布式存储硬盘故障处理方法,还包括:
在各应用的服务器将本应用部署在所述目标存储池的应用虚拟机隔离之后,确定所述目标存储池中的故障硬盘,其中,若所述目标存储池中的存储硬盘在预设的时间内检测出M次异常,则确定该存储硬盘为故障硬盘;
根据所述故障硬盘向分布式存储集群的管理节点发送硬盘故障通知,以使所述管理节点根据所述硬盘故障通知将所述目标存储池中的所述故障硬盘隔离。
可选的,该分布式存储硬盘故障处理方法,还包括:
在将所述故障硬盘隔离之后,向所有在所述目标存储池部署应用虚拟机的应用的服务器发送故障排除通知,以使各应用的服务器根据所述故障排除通知解除本应用部署在所述目标存储池的应用虚拟机的隔离。
可选的,所述对目标存储池进行存储硬盘异常检测,具体包括:
根据预设的检测频率对所述目标存储池进行存储硬盘异常检测;
所述若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,具体包括:
若连续N次的检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知。
可选的,所述对目标存储池进行存储硬盘异常检测,包括:
同时向所述目标存储池中的多个存储硬盘发送异常检测请求,并获取每个存储硬盘针对所述异常检测请求的响应结果;
根据所述响应结果确定每个存储硬盘是否异常;
若至少一个存储硬盘为异常,则确定检测结果为存储硬盘异常。
可选的,所述根据所述响应结果确定每个存储硬盘是否异常,包括:
若响应结果为无响应、返回报错或者响应时延大于预设阈值,则确定存储硬盘为异常。
可选的,所述同时向所述目标存储池中的多个存储硬盘发送异常检测请求,并获取每个存储硬盘针对所述异常检测请求的响应结果,具体包括:
向所述目标存储池的数据读写模块发送异常检测请求,以使所述数据读写模块将所述异常检测请求同时发送给所述目标存储池中的多个存储硬盘;
从所述数据读写模块获取每个存储硬盘针对所述异常检测请求的响应结果。
可选的,所述异常检测请求包括:写IO请求或者读IO请求。
为了实现上述目的,根据本发明的另一方面,提供了一种分布式存储硬盘故障处理装置,该装置包括:
硬盘异常检测单元,用于对目标存储池进行存储硬盘异常检测;
异常通知发送单元,用于若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述分布式存储硬盘故障处理方法中的步骤。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述分布式存储硬盘故障处理方法中的步骤。
本发明的有益效果为:本发明实施例通过对目标存储池进行存储硬盘异常检测,并在检测结果为存储硬盘异常时向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离,有效的解决了由于存储硬盘出现异常导致的影响应用程序正常运行的问题,有助于提高应用程序的服务质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例分布式存储硬盘故障处理方法的第一流程图;
图2是本发明实施例分布式存储硬盘故障处理方法的第二流程图;
图3是本发明实施例进行存储硬盘异常检测的第一流程图;
图4是本发明实施例进行存储硬盘异常检测的第二流程图;
图5是本发明实施例分布式存储硬盘故障处理装置的结构框图;
图6是本发明实施例计算机设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要说明的是,本发明的分布式存储硬盘故障处理方法及装置可用于金融领域,也可以用于其他技术领域。
图1是本发明实施例分布式存储硬盘故障处理方法的第一流程图,如图1所示,本实施例的分布式存储硬盘故障处理方法包括步骤S101至步骤S102。
步骤S101,对目标存储池进行存储硬盘异常检测。
在本发明实施例中,一个分布式存储集群一般由多个存储池组成,存储池之间是相互独立的不会互相被影响,一个存储池由多台存储服务器组成,每台服务器故障都会影响这个存储池的性能(其实服务器故障相当于在各个服务器上的所有存储硬盘故障),一台存储服务器有多个存储硬盘,每个存储硬盘故障也会影响这个存储池的性能,数据最终都要写在存储硬盘上。
本发明为分布式存储集群中的每个存储池设置一个对应的硬盘异常检测装置,硬盘异常检测装置用于对对应的存储池中的各存储硬盘进行异常检测,本步骤的实施主体为目标存储池对应的硬盘异常检测装置。在本发明一个实施例中,硬盘异常检测装置可以为设置在存储池中的探测虚拟机,具体的,本发明在存储集群的各个存储池启用时,自动在存储池中创建一个探测虚拟机并挂载一个卷设备。
步骤S102,若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。
在本发明中,应用程序通常通过在多个存储池上部署应用虚拟机实现高可用部署。当其中一个存储池出现故障时,部署在该存储池上的应用虚拟机可能无法正常读写数据,致使该应用虚拟机无法正常运行,无法为用户提供服务。因此,本发明针对有可能出现故障的存储池,通知所有在该池部署应用虚拟机的应用将该存储池的应用虚拟机隔离,而应用在其他存储池上部署的应用虚拟机仍可正常工作,为用户提供服务。由此本发明可以有效的解决了由于存储硬盘出现异常导致的影响应用程序正常运行的问题,有助于提高应用程序的服务质量,有助于提高用户使用体验。
在本发明实施例中,本步骤的实施主体为硬盘异常检测装置(探测虚拟机)。
在本发明实施例中,本发明在分布式存储集群搭建完成启用时,在分布式存储集群之外自动创建一个调度虚拟机,该调度虚拟机保存存储池和应用虚拟机的对应关系。在本发明一个实施例中,本步骤具体为:若检测结果为存储硬盘异常,硬盘异常检测装置(探测虚拟机)向调度虚拟机发送通知,该通知包含目标存储池的标识;调度虚拟机根据目标存储池的标识以及存储的存储池和应用虚拟机的对应关系,向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。
图2是本发明实施例分布式存储硬盘故障处理方法的第二流程图,实施主体可以为上述硬盘异常检测装置(探测虚拟机),如图2所示,本发明实施例的分布式存储硬盘故障处理方法还包括步骤S201和步骤S202。
步骤S201,在各应用的服务器将本应用部署在所述目标存储池的应用虚拟机隔离之后,确定所述目标存储池中的故障硬盘,其中,若所述目标存储池中的存储硬盘在预设的时间内检测出M次异常,则确定该存储硬盘为故障硬盘。
本发明在对出现故障的存储池中应用虚拟机隔离之后,还需要确定该存储池中的故障硬盘,以对故障进行排除。在本发明实施例中,若一个存储硬盘在预设的时间内检测出M次异常,则确定其为故障硬盘,在本发明可选实施例中,所述预设的时间的取值范围为30秒至2分钟之间,M为大于等于3的整数。
步骤S202,根据所述故障硬盘向分布式存储集群的管理节点发送硬盘故障通知,以使所述管理节点根据所述硬盘故障通知将所述目标存储池中的所述故障硬盘隔离。
在本发明实施例中,本发明在查找出存储池中的故障硬盘之后,向管理节点发送硬盘故障通知,硬盘故障通知包含存储池标识和硬盘标识,管理节点根据所述硬盘故障通知将所述目标存储池中的所述故障硬盘隔离。
在本发明一个实施例中,在上述步骤S202之后本发明实施例的分布式存储硬盘故障处理方法,还包括:
在将所述故障硬盘隔离之后,向所有在所述目标存储池部署应用虚拟机的应用的服务器发送故障排除通知,以使各应用的服务器根据所述故障排除通知解除本应用部署在所述目标存储池的应用虚拟机的隔离。
在本发明实施例中,在将目标存储池中的故障硬盘排除之后,目标存储池恢复正常,此时可以解除在上述步骤S102时对部署在目标存储池的应用虚拟机进行的隔离,部署在目标存储池的应用虚拟机此时可以正常工作。
由此可见,本发明在存储池出现硬盘故障时对应用虚拟机进行隔离,并在硬盘故障排除后解除对应用虚拟机进行隔离,可以有效的解决了由于存储硬盘出现异常导致的影响应用程序正常运行的问题,有助于提高应用程序的服务质量,有助于提高用户使用体验。
在本发明一个实施例中,上述步骤S101的对目标存储池进行存储硬盘异常检测,具体包括:根据预设的检测频率对所述目标存储池进行存储硬盘异常检测。
在本发明一个可选实施例中,所述预设的检测频率可以为一秒一次。
在本发明一个实施例中,上述步骤S102的若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,具体包括:
若连续N次的检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知。
本发明为了提高检测。在本发明一个可选实施例中,N为大于等于2的整数,优选的N等于3。
图3是本发明实施例进行存储硬盘异常检测的第一流程图,如图3所示,上述步骤S101的对目标存储池进行存储硬盘异常检测,具体包括步骤S301至步骤S303。
步骤S301,同时向所述目标存储池中的多个存储硬盘发送异常检测请求,并获取每个存储硬盘针对所述异常检测请求的响应结果。
在本发明一个实施例中,所述异常检测请求包括:写IO请求或者读IO请求。由于写IO请求速度较快,优选的异常检测请求采用写IO请求。
在本发明实施例中,硬盘异常检测装置(探测虚拟机)根据预设的检测频率对所述目标存储池进行存储硬盘异常检测,在每次进行存储硬盘异常检测时,同时向目标存储池中的多个存储硬盘发送异常检测请求。具体的,本发明可以随机从目标存储池的所有存储硬盘中选择出预设数量个存储硬盘发送异常检测请求。
步骤S302,根据所述响应结果确定每个存储硬盘是否异常。
在本发明实施例中,若响应结果为无响应、返回报错或者响应时延大于预设阈值,则确定存储硬盘为异常。
步骤S303,若至少一个存储硬盘为异常,则确定检测结果为存储硬盘异常。
在本发明实施例中,在每次进行存储硬盘异常检测时,若至少一个存储硬盘为异常,则确定本次的检测结果为存储硬盘异常。
图4是本发明实施例进行存储硬盘异常检测的第二流程图,如图4所示,上述步骤S301述同时向所述目标存储池中的多个存储硬盘发送异常检测请求,并获取每个存储硬盘针对所述异常检测请求的响应结果,具体包括步骤S401和步骤S402。
步骤S401,向所述目标存储池的数据读写模块发送异常检测请求,以使所述数据读写模块将所述异常检测请求同时发送给所述目标存储池中的多个存储硬盘。
在本发明实施例中,硬盘异常检测装置(探测虚拟机)根据预设的检测频率对所述目标存储池进行存储硬盘异常检测,在每次进行存储硬盘异常检测时,向目标存储池的数据读写模块发送异常检测请求。进而该数据读写模块根据预设的规则从目标存储池的所有存储硬盘中选择出多个存储硬盘发送异常检测请求。
步骤S402,从所述数据读写模块获取每个存储硬盘针对所述异常检测请求的响应结果。
在本发明实施例中,各存储硬盘向数据读写模块反馈异常检测请求的响应结果,硬盘异常检测装置(探测虚拟机)从数据读写模块获取各存储硬盘的响应结果。
由以上实施例可以看出,本发明提供了一种分布式存储硬盘故障处理方法,通过存储池中创建一个探测虚拟机进行IO可用性探测的方式,对下发到存储服务器各个存储硬盘的IO响应、结果进行分析检测,当出现异常结果时,通知当前存储池内应用虚机进行高可用切换,然后持续对故障盘进行IO探测,确定故障硬盘后将其隔离,快速恢复分布式存储服务能力。本发明的优点如下:
1、自动创建探测虚机进行IO可用性探测,可降低故障的平均检测时间,使业务影响最小;
2、自动调度切换存储上层应用虚机,确保业务不受影响;
3、自动切换加定时探测相结合,编码检测周期短导致的误隔离,更准确的检测故障。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
基于同一发明构思,本发明实施例还提供了一种分布式存储硬盘故障处理装置,可以用于实现上述实施例所描述的分布式存储硬盘故障处理方法,如下面的实施例所述。由于分布式存储硬盘故障处理装置解决问题的原理与分布式存储硬盘故障处理方法相似,因此分布式存储硬盘故障处理装置的实施例可以参见分布式存储硬盘故障处理方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是本发明实施例分布式存储硬盘故障处理装置的结构框图,如图5所示,本发明实施例分布式存储硬盘故障处理装置包括:
硬盘异常检测单元1,用于对目标存储池进行存储硬盘异常检测;
异常通知发送单元2,用于若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。
在本发明一个实施例中,本发明的分布式存储硬盘故障处理装置,还包括:
故障硬盘确定单元,用于在各应用的服务器将本应用部署在所述目标存储池的应用虚拟机隔离之后,确定所述目标存储池中的故障硬盘,其中,若所述目标存储池中的存储硬盘在预设的时间内检测出M次异常,则确定该存储硬盘为故障硬盘;
硬盘故障通知发送单元,用于根据所述故障硬盘向分布式存储集群的管理节点发送硬盘故障通知,以使所述管理节点根据所述硬盘故障通知将所述目标存储池中的所述故障硬盘隔离。
在本发明一个实施例中,本发明的分布式存储硬盘故障处理装置,还包括:
故障排除通知发送单元,用于在将所述故障硬盘隔离之后,向所有在所述目标存储池部署应用虚拟机的应用的服务器发送故障排除通知,以使各应用的服务器根据所述故障排除通知解除本应用部署在所述目标存储池的应用虚拟机的隔离。
在本发明一个实施例中,硬盘异常检测单元1,具体根据预设的检测频率对所述目标存储池进行存储硬盘异常检测;异常通知发送单元2,具体用于若连续N次的检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知。
在本发明一个实施例中,硬盘异常检测单元1,包括:
检测请求发送模块,用于同时向所述目标存储池中的多个存储硬盘发送异常检测请求,并获取每个存储硬盘针对所述异常检测请求的响应结果;
判断模块,用于根据所述响应结果确定每个存储硬盘是否异常;
确定模块,用于若至少一个存储硬盘为异常,则确定检测结果为存储硬盘异常。
在本发明一个实施例中,判断模块,具体用于若响应结果为无响应、返回报错或者响应时延大于预设阈值,则确定存储硬盘为异常。
在本发明一个实施例中,检测请求发送模块,具体用于向所述目标存储池的数据读写模块发送异常检测请求,以使所述数据读写模块将所述异常检测请求同时发送给所述目标存储池中的多个存储硬盘;以及,从所述数据读写模块获取每个存储硬盘针对所述异常检测请求的响应结果。
在本发明一个实施例中,所述异常检测请求包括:写IO请求或者读IO请求。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备。如图6所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述分布式存储硬盘故障处理方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种分布式存储硬盘故障处理方法,其特征在于,包括:
对目标存储池进行存储硬盘异常检测;
若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。
2.根据权利要求1所述的分布式存储硬盘故障处理方法,其特征在于,还包括:
在各应用的服务器将本应用部署在所述目标存储池的应用虚拟机隔离之后,确定所述目标存储池中的故障硬盘,其中,若所述目标存储池中的存储硬盘在预设的时间内检测出M次异常,则确定该存储硬盘为故障硬盘;
根据所述故障硬盘向分布式存储集群的管理节点发送硬盘故障通知,以使所述管理节点根据所述硬盘故障通知将所述目标存储池中的所述故障硬盘隔离。
3.根据权利要求2所述的分布式存储硬盘故障处理方法,其特征在于,还包括:
在将所述故障硬盘隔离之后,向所有在所述目标存储池部署应用虚拟机的应用的服务器发送故障排除通知,以使各应用的服务器根据所述故障排除通知解除本应用部署在所述目标存储池的应用虚拟机的隔离。
4.根据权利要求1所述的分布式存储硬盘故障处理方法,其特征在于,所述对目标存储池进行存储硬盘异常检测,具体包括:
根据预设的检测频率对所述目标存储池进行存储硬盘异常检测;
所述若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,具体包括:
若连续N次的检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知。
5.根据权利要求1所述的分布式存储硬盘故障处理方法,其特征在于,所述对目标存储池进行存储硬盘异常检测,包括:
同时向所述目标存储池中的多个存储硬盘发送异常检测请求,并获取每个存储硬盘针对所述异常检测请求的响应结果;
根据所述响应结果确定每个存储硬盘是否异常;
若至少一个存储硬盘为异常,则确定检测结果为存储硬盘异常。
6.根据权利要求5所述的分布式存储硬盘故障处理方法,其特征在于,所述根据所述响应结果确定每个存储硬盘是否异常,包括:
若响应结果为无响应、返回报错或者响应时延大于预设阈值,则确定存储硬盘为异常。
7.根据权利要求5所述的分布式存储硬盘故障处理方法,其特征在于,所述同时向所述目标存储池中的多个存储硬盘发送异常检测请求,并获取每个存储硬盘针对所述异常检测请求的响应结果,具体包括:
向所述目标存储池的数据读写模块发送异常检测请求,以使所述数据读写模块将所述异常检测请求同时发送给所述目标存储池中的多个存储硬盘;
从所述数据读写模块获取每个存储硬盘针对所述异常检测请求的响应结果。
8.根据权利要求5所述的分布式存储硬盘故障处理方法,其特征在于,所述异常检测请求包括:写IO请求或者读IO请求。
9.一种分布式存储硬盘故障处理装置,其特征在于,包括:
硬盘异常检测单元,用于对目标存储池进行存储硬盘异常检测;
异常通知发送单元,用于若检测结果为存储硬盘异常,则向所有在所述目标存储池部署应用虚拟机的应用的服务器发送异常通知,以使各应用的服务器根据所述异常通知将本应用部署在所述目标存储池的应用虚拟机隔离。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序在计算机处理器中执行时实现如权利要求1至8任意一项所述的方法。
CN202110124848.5A 2021-01-29 2021-01-29 分布式存储硬盘故障处理方法及装置 Pending CN112799896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110124848.5A CN112799896A (zh) 2021-01-29 2021-01-29 分布式存储硬盘故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110124848.5A CN112799896A (zh) 2021-01-29 2021-01-29 分布式存储硬盘故障处理方法及装置

Publications (1)

Publication Number Publication Date
CN112799896A true CN112799896A (zh) 2021-05-14

Family

ID=75812782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110124848.5A Pending CN112799896A (zh) 2021-01-29 2021-01-29 分布式存储硬盘故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN112799896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022257392A1 (zh) * 2021-06-09 2022-12-15 浙江宇视科技有限公司 数据检索预测方法、装置、电子设备及可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053873A (zh) * 2011-01-13 2011-05-11 浙江大学 一种缓存感知的多核处理器虚拟机故障隔离保证方法
US8418000B1 (en) * 2012-03-13 2013-04-09 True Metrics LLC System and methods for automated testing of functionally complex systems
CN105607973A (zh) * 2014-11-19 2016-05-25 中国移动通信集团公司 一种虚拟机系统中设备故障处理的方法、装置及系统
CN106817243A (zh) * 2015-12-01 2017-06-09 广达电脑股份有限公司 服务器资源的管理系统及其管理方法
CN109669762A (zh) * 2018-12-25 2019-04-23 深圳前海微众银行股份有限公司 云计算资源管理方法、装置、设备及计算机可读存储介质
CN111104239A (zh) * 2019-11-21 2020-05-05 北京浪潮数据技术有限公司 一种分布式存储集群的硬盘故障处理方法、系统及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053873A (zh) * 2011-01-13 2011-05-11 浙江大学 一种缓存感知的多核处理器虚拟机故障隔离保证方法
US8418000B1 (en) * 2012-03-13 2013-04-09 True Metrics LLC System and methods for automated testing of functionally complex systems
CN105607973A (zh) * 2014-11-19 2016-05-25 中国移动通信集团公司 一种虚拟机系统中设备故障处理的方法、装置及系统
CN106817243A (zh) * 2015-12-01 2017-06-09 广达电脑股份有限公司 服务器资源的管理系统及其管理方法
CN109669762A (zh) * 2018-12-25 2019-04-23 深圳前海微众银行股份有限公司 云计算资源管理方法、装置、设备及计算机可读存储介质
CN111104239A (zh) * 2019-11-21 2020-05-05 北京浪潮数据技术有限公司 一种分布式存储集群的硬盘故障处理方法、系统及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022257392A1 (zh) * 2021-06-09 2022-12-15 浙江宇视科技有限公司 数据检索预测方法、装置、电子设备及可读介质

Similar Documents

Publication Publication Date Title
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
CN102385541B (zh) 受控的数据中心服务的自动复原
EP3192215B1 (en) Nonintrusive dynamically-scalable network load generation
EP3142011B9 (en) Anomaly recovery method for virtual machine in distributed environment
CN110798375A (zh) 一种增强容器集群高可用性的监控方法、系统及终端设备
US20180143854A1 (en) Methods, systems and apparatus to perform a workflow in a software defined data center
US9575745B1 (en) Immediately launching applications
CN110096407B (zh) 识别成员处的软故障
EP3288239A1 (en) Service availability management method and apparatus, and network function virtualization infrastructure thereof
JP6259522B2 (ja) ソフトウェア障害の位置標定方法、装置及び設備
CN112241350B (zh) 微服务评估方法、装置、计算设备及微服务检测系统
CN113625945A (zh) 分布式存储的慢盘处理方法、系统、终端及存储介质
CN112269694B (zh) 一种管理节点确定方法、装置、电子设备及可读存储介质
CN111866210A (zh) 一种虚拟ip均衡分配方法、系统、终端及存储介质
CN110618853B (zh) 一种僵尸容器的检测方法、装置及设备
CN115373799A (zh) 一种集群管理的方法、装置及电子设备
CN112799896A (zh) 分布式存储硬盘故障处理方法及装置
US20150163131A1 (en) Online application testing of grown application capacity
CN109002348B (zh) 一种虚拟化系统中的负载均衡方法及装置
CN111342986A (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN113626183A (zh) 一种基于超融合基础架构的集群构建方法和装置
CN116633766A (zh) 故障处理方法、装置、电子设备及存储介质
CN115314289A (zh) 受攻击执行体识别方法、输出表决器、设备及存储介质
CN116028263A (zh) 数据库的数据备份方法、装置、计算设备及存储介质
CN107919980B (zh) 一种集群化系统的评测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination