CN110795261B - 虚拟磁盘故障的检测方法和装置 - Google Patents

虚拟磁盘故障的检测方法和装置 Download PDF

Info

Publication number
CN110795261B
CN110795261B CN201910919292.1A CN201910919292A CN110795261B CN 110795261 B CN110795261 B CN 110795261B CN 201910919292 A CN201910919292 A CN 201910919292A CN 110795261 B CN110795261 B CN 110795261B
Authority
CN
China
Prior art keywords
detected
virtual disk
storage
fault
disk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910919292.1A
Other languages
English (en)
Other versions
CN110795261A (zh
Inventor
杨岳川
翟辉
袁艳涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Inspur Data Technology Co Ltd
Original Assignee
Beijing Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Inspur Data Technology Co Ltd filed Critical Beijing Inspur Data Technology Co Ltd
Priority to CN201910919292.1A priority Critical patent/CN110795261B/zh
Publication of CN110795261A publication Critical patent/CN110795261A/zh
Application granted granted Critical
Publication of CN110795261B publication Critical patent/CN110795261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种虚拟磁盘故障的检测方法和装置,接收计算节点发送的存储故障告警信息后,查找存储故障涉及的每一个计算节点,将这些计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个待检测虚拟机均对应有虚拟磁盘,所有待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表,然后对待检测磁盘列表的每一个虚拟磁盘进行故障检测,从而确定出发生故障的虚拟磁盘并输出对应的磁盘故障告警信息。本方案提供的检测方法和装置,能够基于存储故障告警信息及时的检测云平台中各个虚拟机的虚拟磁盘,从而及早发现虚拟磁盘的故障,有效的减少了虚拟磁盘故障造成的损失。

Description

虚拟磁盘故障的检测方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种虚拟磁盘故障的检测方法和装置。
背景技术
云平台包括云平台管理系统,计算节点,以及通过存储网络连接至计算节点的存储设备。计算节点采用运行虚拟机的方式处理任务,每一个虚拟机运行时均配置有对应的虚拟磁盘,虚拟机可以利用自身的虚拟磁盘作为接口,访问存储设备中的数据。
现有技术中,每个计算节点会配置一个监测模块,通过实时检测存储网络的性能指标来判断是否发生存储故障,以确保用户和云平台管理人员能够及时的发现存储故障。
然而,云平台中的存储故障往往会引起相关联的计算节点中的虚拟磁盘的故障,而现有的云平台,只有在虚拟磁盘的故障引起虚拟机的应用程序崩溃,用户数据丢失等重大损失时,才能发现虚拟磁盘的故障。
综上所述,为了减小虚拟磁盘的故障造成的损失,目前亟需一种有效的云平台中的虚拟磁盘的故障的方法。
发明内容
为了解决上述现有技术的缺点,本发明提供一种虚拟机磁盘故障的检测方法,以及时发现虚拟磁盘的故障并相应的进行告警,从而减小虚拟磁盘故障造成的损失。
本发明第一方面提供一种虚拟磁盘故障的检测方法,适用于云平台管理系统,所述检测方法包括:
接收云平台中任意一个计算节点发送的存储故障告警信息;
根据所述存储故障告警信息,查找所述存储故障涉及的每一个计算节点;
针对所述存储故障涉及的每一个计算节点,将所述计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个所述待检测虚拟机均对应有虚拟磁盘,所述云平台中的每一个待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表;
针对所述待检测磁盘列表中的每一个虚拟磁盘,对所述虚拟磁盘进行故障检测,从而确定出所述待检测磁盘列表中发生故障的虚拟磁盘;
输出磁盘故障告警信息;其中,所述磁盘故障告警信息记录有所述待检测磁盘列表中发生故障的虚拟磁盘的标识。
可选的,所述计算节点发送存储故障告警信息的过程,包括:
计算节点利用自身的监测模块实时监测存储网络的性能指标;其中,所述存储网络的性能指标包括传输速率、连接状态和丢包率中的任意一种或者组合;
所述计算节点根据所述存储网络当前的性能指标判断是否发生存储故障;
若判断出发生存储故障,所述计算节点根据所述存储故障生成存储故障告警信息,并向所述云平台管理系统发送所述存储故障告警信息。
可选的,所述接收云平台中任意一个计算节点发送的存储故障告警信息,包括:
通过云平台管理网络,接收所述云平台中任意一个计算节点发送的存储故障告警信息。
可选的,所述对所述虚拟磁盘进行故障检测,包括:
获取所述虚拟磁盘对应的待检测属性列表;其中,所述待检测属性列表记录有所述虚拟磁盘的多项待检测属性,以及每一项所述待检测属性对应的常态属性值;
针对所述虚拟磁盘的每一项待检测属性,判断所述待检测属性的当前属性值与所述待检测属性列表中记录的所述待检测属性对应的常态属性值是否一致;
若所述虚拟磁盘的每一项待检测属性的当前属性值均与所述待检测属性列表中对应的常态属性值一致,则检测出所述虚拟磁盘未发生故障;
若所述虚拟磁盘有至少一项待检测属性的当前属性值与所述待检测属性列表中对应的常态属性值不一致,则检测出所述虚拟磁盘发生故障。
可选的,所述存储故障信息中记录有,发生存储故障的存储设备的标识;
所述根据所述存储故障告警信息,查找所述存储故障涉及的每一个计算节点,包括:
根据所述存储故障告警信息中记录的标识,确定出发生存储故障的存储设备;
将与所述发生存储故障的存储设备连接的计算节点,确定为所述存储故障涉及的计算节点。
本发明第二方面提供一种虚拟磁盘故障的检测装置,包括:
接收单元,用于接收云平台中任意一个计算节点发送的存储故障告警信息;
查找单元,用于根据所述存储故障告警信息,查找所述存储故障涉及的每一个计算节点;
确定单元,用于针对所述存储故障涉及的每一个计算节点,将所述计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个所述待检测虚拟机均对应有虚拟磁盘,所述云平台中的每一个待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表;
检测单元,用于针对所述待检测磁盘列表中的每一个虚拟磁盘,对所述虚拟磁盘进行故障检测,从而确定出所述待检测磁盘列表中发生故障的虚拟磁盘;
输出单元,用于输出磁盘故障告警信息;其中,所述磁盘故障告警信息记录有所述待检测磁盘列表中发生故障的虚拟磁盘的标识。
可选的,所述接收单元接收云平台中任意一个计算节点发送的存储故障告警信息时,具体用于:
通过云平台管理网络,接收所述云平台中任意一个计算节点发送的存储故障告警信息。
可选的,所述检测单元对所述虚拟磁盘进行故障检测时,具体用于:
获取所述虚拟磁盘对应的待检测属性列表;其中,所述待检测属性列表记录有所述虚拟磁盘的多项待检测属性,以及每一项所述待检测属性对应的常态属性值;
针对所述虚拟磁盘的每一项待检测属性,判断所述待检测属性的当前属性值与所述待检测属性列表中记录的所述待检测属性对应的常态属性值是否一致;
若所述虚拟磁盘的每一项待检测属性的当前属性值均与所述待检测属性列表中对应的常态属性值一致,则检测出所述虚拟磁盘未发生故障;
若所述虚拟磁盘有至少一项待检测属性的当前属性值与所述待检测属性列表中对应的常态属性值不一致,则检测出所述虚拟磁盘发生故障。
可选的,所述存储故障信息中记录有,发生存储故障的存储设备的标识;
所述查找单元根据所述存储故障告警信息,查找所述存储故障涉及的每一个计算节点时,具体用于:
根据所述存储故障告警信息中记录的标识,确定出发生存储故障的存储设备;
将与所述发生存储故障的存储设备连接的计算节点,确定为所述存储故障涉及的计算节点。
本申请提供一种虚拟磁盘故障的检测方法和装置,接收计算节点发送的存储故障告警信息后,查找存储故障涉及的每一个计算节点,将这些计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个待检测虚拟机均对应有虚拟磁盘,所有待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表,然后对待检测磁盘列表的每一个虚拟磁盘进行故障检测,从而确定出发生故障的虚拟磁盘并输出对应的磁盘故障告警信息。本方案提供的检测方法和装置,能够基于存储故障告警信息及时的检测云平台中各个虚拟机的虚拟磁盘,从而及早发现虚拟磁盘的故障,有效的减少了虚拟磁盘故障造成的损失。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的云平台架构示意图;
图2为本发明实施例提供的一种虚拟磁盘故障的检测方法的流程图;
图3为本发明实施例提供的一种虚拟磁盘故障的检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的虚拟磁盘故障的检测方法,主要用于对云平台中的虚拟磁盘进行故障检测,以达到及时发现虚拟磁盘的故障的效果。为了更好的理解本申请提供的方案,下面结合图1简要介绍现有的云平台的架构及其工作原理。
如图1所示,云平台100包括计算节点集群200,存储设备集群300以及云平台管理系统400,其中,计算节点集群包括多个计算节点,这些计算节点通过存储网络与存储设备集群中的存储设备连接,一个计算节点可以连接一个或多个存储设备,同时,一个存储设备也可以连接一个或多个计算节点,云平台管理系统通过管理网络与计算节点通信,用户则通过客户端访问云平台管理系统。
用户使用云平台处理运算任务时,首先通过客户端登录云平台管理系统,在云平台管理系统中建立用于处理运算任务的虚拟机,然后云平台管理系统通过管理网络将虚拟机分配至计算节点,计算节点通过运行虚拟机处理对应的运算任务。
在计算节点处理运算任务的过程中,若计算节点需要进行数据的读写,则计算节点会通过虚拟机中的虚拟磁盘访问自身连接的存储设备,从而在存储设备中写入数据,或者从存储设备读取数据。
总而言之,云平台的计算节点通过运行虚拟机实现对运算任务的处理,每个虚拟机均配置有虚拟磁盘,虚拟磁盘作为虚拟机运行时,计算节点访问存储设备的接口。
现有的云平台中,一般每个计算节点均配置有监测模块,用于实时检测自身与存储设备的网络连接是否出现故障,然而,计算节点与存储设备之间的网络连接的故障,往往会进一步引起计算节点的虚拟磁盘的故障,但是目前还没有一种有效的检测虚拟磁盘故障的方法。
综上所述,本申请实施例提供一种虚拟磁盘故障的检测方法,请参考图2,该方法包括以下步骤:
S201、接收云平台中任意一个计算节点发送的存储故障告警信息。
云平台中的计算节点可以利用自身的监测模块,检测自身与连接的存储设备之间的通信情况,从而判断是否发生存储故障,并在判断出发生存储故障时向云平台管理系统发送存储故障告警信息。
具体的,对于云平台的任意一个计算节点A,假设计算节点A分别与存储设备1和存储设备2连接。
计算节点A可以利用自身的监测模块,实时采集计算节点A与存储设备1之间的网络性能指标,网络性能指标可以包括计算节点A与存储设备1之间的传输速率、连接状态和丢包率中的任意一种或者组合。
同时计算节点A的监测模块也会实时采集计算节点A和存储设备2之间的网络性能指标。
若监测模块发现计算节点A与存储设备1之间的网络性能指标不满足预设的条件,例如,发现计算节点A和存储设备1之间有下述任意一种或多种情况:传输速率小于预设的速率阈值,网络连接断开,或者是丢包率大于预设的丢包率阈值,则判断出计算节点A与存储设备1之间发生存储故障,于是想云平台管理系统发送存储故障告警信息。
存储故障告警信息中携带有对应的存储设备的标识,因此,云平台管理系统受到存储故障告警信息后,能够确定是计算节点A和存储设备1之间出现了存储故障。
应当理解,上述以计算节点A和存储设备1为例说明的检测存储故障的方法,可以适用于云平台中的每一个计算节点和每一个存储设备之间。
结合图1所示的云平台的架构,可以理解,上述存储故障告警信息由计算节点通过云平台的管理网络发送至云平台管理系统。
S202、根据存储故障告警信息,查找存储故障涉及的每一个计算节点。
具体的,如步骤S201所述,云平台管理系统受到存储故障告警信息后,可以确定是哪个计算节点和存储设备之间出现存储故障,结合前述例子,语言平台管理系统受到计算节点A的存储故障告警信息后,可以确定出当前计算节点A和存储设备1之间出现存储故障。
进一步的,云平台管理系统根据存储故障告警信息确定是哪个计算节点和存储设备之间出现存储故障后,可以将存储故障告警信息中记录的存储设备连接的每一个计算节点,均确定为本次存储故障涉及的计算节点。
例如,假设上述存储设备1连接有计算节点A,计算节点B和计算节点C,那么,云平台管理系统收到上述存储故障告警信息后,就可以将存储设备1连接的计算节点A、计算节点B和计算节点C确定为本次存储故障涉及的计算节点。
S203、针对存储故障涉及的每一个计算节点,将计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机。
其中,每一个待检测虚拟机均对应有虚拟磁盘,云平台中的每一个待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表。
云平台中每个虚拟机处理运算任务时,都需要涉及数据的读写操作,因此,每个虚拟机均配置有一个或多个虚拟磁盘。
云平台管理系统确定出本次存储故障涉及的计算节点后,可以向这些计算节点发送虚拟磁盘查询请求,计算节点收到虚拟磁盘查询请求后,向云平台管理系统发送自身的处于运行状态的每一个虚拟机的标识,以及每一个虚拟机对应的虚拟磁盘的标识,然后云平台管理系统就可以根据这些虚拟机的标识确定出待检测虚拟机,并将这些待检测虚拟机对应的虚拟磁盘组合,构成待检测磁盘列表。
S204、针对待检测磁盘列表中的每一个虚拟磁盘,对该虚拟磁盘进行故障检测,从而确定出发生故障的虚拟磁盘。
可选的,若经过步骤S204的检测后发现待检测磁盘列表的所有虚拟磁盘均未发生故障,云平台管理系统可以输出提示信息,向用户表明目前未发现虚拟磁盘故障。
可选的,检测一个虚拟磁盘是否发生故障,可以通过以下方式进行:
获取待检测虚拟磁盘对应的待检测属性列表。
其中,待检测属性列表记录有待检测虚拟磁盘的多项待检测属性,以及每一项待检测属性对应的常态属性值。
一个虚拟磁盘可以有多种待检测属性,例如,读写权限,最大读写速率,物理位置,可用存储空间等,云平台管理系统可以在计算节点创建虚拟磁盘时,可以建立这个虚拟磁盘的待检测属性列表,并在待检测属性列表中记录虚拟磁盘正常工作时每个待检测属性的属性值,也就是常态属性值。
例如,可以假设虚拟磁盘X在正常工作时,其读写权限为允许读和写,最大读写速率为20MB/s,物理位置为存储设备1,可用存储空间为1GB。
获取待检测属性列表后,云平台管理系统就可以针对待检测虚拟磁盘的每一项待检测属性,判断待检测属性的当前属性值与待检测属性列表中记录的待检测属性对应的常态属性值是否一致。
若待检测虚拟磁盘的每一项待检测属性的当前属性值均与待检测属性列表中对应的常态属性值一致,则检测出待检测虚拟磁盘未发生故障;
若待检测虚拟磁盘有至少一项待检测属性的当前属性值与待检测属性列表中对应的常态属性值不一致,则检测出待检测虚拟磁盘发生故障。
具体的,对于上述假设的虚拟磁盘X,云平台管理系统可以依次查询虚拟磁盘X当前的待检测属性的属性值,若发现虚拟磁盘X的任意一项或多项待检测属性当前的属性值与预先记录的常态属性值不一致,则判断出虚拟磁盘X发生故障,反之,若虚拟磁盘X的每一项待检测属性当前的属性值均与常态属性值一致,则判断出虚拟磁盘X未发生故障。
例如,若发现虚拟磁盘X当前的读写权限为只读,与预先记录的常态属性值,即允许读和写,不一致,那么就可以认为虚拟磁盘X发生故障。其他的待检测属性类似,例如,若发现虚拟磁盘X当前的最大读写速率不是预先记录的20MB/s,则也可以判断出虚拟磁盘X发生故障。
S205、输出磁盘故障告警信息。
其中,磁盘故障告警信息记录有待检测磁盘列表中发生故障的虚拟磁盘的标识。
步骤S205所述的输出磁盘故障告警信息,可以是,向客户端发送磁盘故障告警信息,使客户端在自身连接的显示设备上显示磁盘故障告警信息。
进一步的,磁盘故障告警信息还可以携带有虚拟磁盘的中发生故障的属性。例如,若前述步骤S204的检测中发现虚拟磁盘X当前的读写权限与预设的待检测属性列表中的读写权限不一致,那么输出的磁盘故障告警信息中可以显示,虚拟磁盘X的读写权限发生故障。
通过显示发生故障的属性,可以辅助用户更快的解决虚拟磁盘的故障。
本申请提供一种虚拟磁盘故障的检测方法,接收计算节点发送的存储故障告警信息后,查找存储故障涉及的每一个计算节点,将这些计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个待检测虚拟机均对应有虚拟磁盘,所有待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表,然后对待检测磁盘列表的每一个虚拟磁盘进行故障检测,从而确定出发生故障的虚拟磁盘并输出对应的磁盘故障告警信息。本方案提供的检测方法和装置,能够基于存储故障告警信息及时的检测云平台中各个虚拟机的虚拟磁盘,从而及早发现虚拟磁盘的故障,有效的减少了虚拟磁盘故障造成的损失。
结合本申请实施例提供的虚拟磁盘故障的检测方法,本申请另一实施例还提供一种虚拟磁盘故障的检测装置,请参考图3,该装置包括以下结构:
接收单元301,用于接收云平台中任意一个计算节点发送的存储故障告警信息。
查找单元302,用于根据所述存储故障告警信息,查找所述存储故障涉及的每一个计算节点。
确定单元303,用于针对所述存储故障涉及的每一个计算节点,将所述计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机。
其中,每一个所述待检测虚拟机均对应有虚拟磁盘,所述云平台中的每一个待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表。
检测单元304,用于针对所述待检测磁盘列表中的每一个虚拟磁盘,对所述虚拟磁盘进行故障检测,从而确定出所述待检测磁盘列表中发生故障的虚拟磁盘。
输出单元305,用于输出磁盘故障告警信息。
其中,所述磁盘故障告警信息记录有所述待检测磁盘列表中发生故障的虚拟磁盘的标识。
可选的,所述接收单元301接收云平台中任意一个计算节点发送的存储故障告警信息时,具体用于:
通过云平台管理网络,接收所述云平台中任意一个计算节点发送的存储故障告警信息。
可选的,所述检测单元304对所述虚拟磁盘进行故障检测时,具体用于:
获取所述虚拟磁盘对应的待检测属性列表;其中,所述待检测属性列表记录有所述虚拟磁盘的多项待检测属性,以及每一项所述待检测属性对应的常态属性值;
针对所述虚拟磁盘的每一项待检测属性,判断所述待检测属性的当前属性值与所述待检测属性列表中记录的所述待检测属性对应的常态属性值是否一致;
若所述虚拟磁盘的每一项待检测属性的当前属性值均与所述待检测属性列表中对应的常态属性值一致,则检测出所述虚拟磁盘未发生故障;
若所述虚拟磁盘有至少一项待检测属性的当前属性值与所述待检测属性列表中对应的常态属性值不一致,则检测出所述虚拟磁盘发生故障。
可选的,所述存储故障信息中记录有,发生存储故障的存储设备的标识;
所述查找单元302根据所述存储故障告警信息,查找所述存储故障涉及的每一个计算节点时,具体用于:
根据所述存储故障告警信息中记录的标识,确定出发生存储故障的存储设备;
将与所述发生存储故障的存储设备连接的计算节点,确定为所述存储故障涉及的计算节点。
本申请实施例提供的虚拟磁盘故障的检测装置,其具体工作原理可以参考本申请实施例提供的虚拟磁盘故障的检测方法,此处不再赘述。
本申请提供一种虚拟磁盘故障的检测装置,接收单元301接收计算节点发送的存储故障告警信息后,查找单元302查找存储故障涉及的每一个计算节点,并由确定单元303将这些计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个待检测虚拟机均对应有虚拟磁盘,所有待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表,然后检测单元304对待检测磁盘列表的每一个虚拟磁盘进行故障检测,从而确定出发生故障的虚拟磁盘,最后通过输出单元305输出对应的磁盘故障告警信息。本方案提供的检测方法和装置,能够基于存储故障告警信息及时的检测云平台中各个虚拟机的虚拟磁盘,从而及早发现虚拟磁盘的故障,有效的减少了虚拟磁盘故障造成的损失。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种虚拟磁盘故障的检测方法,其特征在于,适用于云平台管理系统,所述检测方法包括:
接收云平台中任意一个计算节点发送的存储故障告警信息;其中,所述存储故障告警信息中记录有,发生存储故障的存储设备的标识;
根据所述存储故障告警信息中记录的标识,确定出发生存储故障的存储设备;
将与所述发生存储故障的存储设备连接的计算节点,确定为所述存储故障涉及的计算节点;
针对所述存储故障涉及的每一个计算节点,将所述计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个所述待检测虚拟机均对应有虚拟磁盘,所述云平台中的每一个待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表;
针对所述待检测磁盘列表中的每一个虚拟磁盘,对所述虚拟磁盘进行故障检测,从而确定出所述待检测磁盘列表中发生故障的虚拟磁盘;
输出磁盘故障告警信息;其中,所述磁盘故障告警信息记录有所述待检测磁盘列表中发生故障的虚拟磁盘的标识。
2.根据权利要求1所述的检测方法,其特征在于,所述计算节点发送存储故障告警信息的过程,包括:
计算节点利用自身的监测模块实时监测存储网络的性能指标;其中,所述存储网络的性能指标包括传输速率、连接状态和丢包率中的任意一种或者组合;
所述计算节点根据所述存储网络当前的性能指标判断是否发生存储故障;
若判断出发生存储故障,所述计算节点根据所述存储故障生成存储故障告警信息,并向所述云平台管理系统发送所述存储故障告警信息。
3.根据权利要求1所述的检测方法,其特征在于,所述接收云平台中任意一个计算节点发送的存储故障告警信息,包括:
通过云平台管理网络,接收所述云平台中任意一个计算节点发送的存储故障告警信息。
4.根据权利要求1所述的检测方法,其特征在于,所述对所述虚拟磁盘进行故障检测,包括:
获取所述虚拟磁盘对应的待检测属性列表;其中,所述待检测属性列表记录有所述虚拟磁盘的多项待检测属性,以及每一项所述待检测属性对应的常态属性值;
针对所述虚拟磁盘的每一项待检测属性,判断所述待检测属性的当前属性值与所述待检测属性列表中记录的所述待检测属性对应的常态属性值是否一致;
若所述虚拟磁盘的每一项待检测属性的当前属性值均与所述待检测属性列表中对应的常态属性值一致,则检测出所述虚拟磁盘未发生故障;
若所述虚拟磁盘有至少一项待检测属性的当前属性值与所述待检测属性列表中对应的常态属性值不一致,则检测出所述虚拟磁盘发生故障。
5.一种虚拟磁盘故障的检测装置,其特征在于,包括:
接收单元,用于接收云平台中任意一个计算节点发送的存储故障告警信息;其中,所述存储故障告警信息中记录有,发生存储故障的存储设备的标识;
查找单元,用于:
根据所述存储故障告警信息中记录的标识,确定出发生存储故障的存储设备;
将与所述发生存储故障的存储设备连接的计算节点,确定为所述存储故障涉及的计算节点;
确定单元,用于针对所述存储故障涉及的每一个计算节点,将所述计算节点中的每一个处于运行状态的虚拟机确定为待检测虚拟机;其中,每一个所述待检测虚拟机均对应有虚拟磁盘,所述云平台中的每一个待检测虚拟机对应的虚拟磁盘,构成待检测磁盘列表;
检测单元,用于针对所述待检测磁盘列表中的每一个虚拟磁盘,对所述虚拟磁盘进行故障检测,从而确定出所述待检测磁盘列表中发生故障的虚拟磁盘;
输出单元,用于输出磁盘故障告警信息;其中,所述磁盘故障告警信息记录有所述待检测磁盘列表中发生故障的虚拟磁盘的标识。
6.根据权利要求5所述的检测装置,其特征在于,所述接收单元接收云平台中任意一个计算节点发送的存储故障告警信息时,具体用于:
通过云平台管理网络,接收所述云平台中任意一个计算节点发送的存储故障告警信息。
7.根据权利要求5所述的检测装置,其特征在于,所述检测单元对所述虚拟磁盘进行故障检测时,具体用于:
获取所述虚拟磁盘对应的待检测属性列表;其中,所述待检测属性列表记录有所述虚拟磁盘的多项待检测属性,以及每一项所述待检测属性对应的常态属性值;
针对所述虚拟磁盘的每一项待检测属性,判断所述待检测属性的当前属性值与所述待检测属性列表中记录的所述待检测属性对应的常态属性值是否一致;
若所述虚拟磁盘的每一项待检测属性的当前属性值均与所述待检测属性列表中对应的常态属性值一致,则检测出所述虚拟磁盘未发生故障;
若所述虚拟磁盘有至少一项待检测属性的当前属性值与所述待检测属性列表中对应的常态属性值不一致,则检测出所述虚拟磁盘发生故障。
CN201910919292.1A 2019-09-26 2019-09-26 虚拟磁盘故障的检测方法和装置 Active CN110795261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910919292.1A CN110795261B (zh) 2019-09-26 2019-09-26 虚拟磁盘故障的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910919292.1A CN110795261B (zh) 2019-09-26 2019-09-26 虚拟磁盘故障的检测方法和装置

Publications (2)

Publication Number Publication Date
CN110795261A CN110795261A (zh) 2020-02-14
CN110795261B true CN110795261B (zh) 2022-06-17

Family

ID=69439848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910919292.1A Active CN110795261B (zh) 2019-09-26 2019-09-26 虚拟磁盘故障的检测方法和装置

Country Status (1)

Country Link
CN (1) CN110795261B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112764960A (zh) * 2021-01-27 2021-05-07 北京明略昭辉科技有限公司 磁盘故障预测、检测及无感知更换的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN105068763A (zh) * 2015-08-13 2015-11-18 武汉噢易云计算有限公司 一种针对存储故障的虚拟机容错系统和方法
CN106886471A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种基于linux中磁盘的读写故障检测方法及系统
CN108121497A (zh) * 2016-11-29 2018-06-05 中国电信股份有限公司 存储方法以及存储系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8904389B2 (en) * 2013-04-30 2014-12-02 Splunk Inc. Determining performance states of components in a virtual machine environment based on performance states of related subcomponents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN105068763A (zh) * 2015-08-13 2015-11-18 武汉噢易云计算有限公司 一种针对存储故障的虚拟机容错系统和方法
CN108121497A (zh) * 2016-11-29 2018-06-05 中国电信股份有限公司 存储方法以及存储系统
CN106886471A (zh) * 2017-02-22 2017-06-23 郑州云海信息技术有限公司 一种基于linux中磁盘的读写故障检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Design of intelligent network disk storage system";Xi Yang et al.;《2011 International Conference on Multimedia Technology》;20110830;第4905-4908页 *
"基于智能网络磁盘的安全存储系统研究与设计";王文丰 等;《计算机工程与设计》;20140531;第35卷(第5期);第1602-1606页 *

Also Published As

Publication number Publication date
CN110795261A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
EP2472402B1 (en) Remote management systems and methods for mapping operating system and management controller located in a server
US20080065928A1 (en) Technique for supporting finding of location of cause of failure occurrence
CN105511944A (zh) 一种云系统内部虚拟机的异常检测方法
US20130238319A1 (en) Information processing apparatus and message extraction method
CN105183619B (zh) 一种系统故障预警方法和系统
CN108255620A (zh) 一种业务逻辑处理方法、装置、业务服务器及系统
CN105373460A (zh) 监控消息的告警方法和系统
US12021681B2 (en) Communication device, surveillance server, and log collection method
CN107517110A (zh) 一种分布式系统中单板配置自恢复方法及装置
EP3373162A1 (en) Data persistence method and system in stream computing
CN111478792B (zh) 一种割接信息处理方法、系统及装置
KR20220166760A (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN110795261B (zh) 虚拟磁盘故障的检测方法和装置
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
CN111221890A (zh) 通用指标类自动监控预警方法及装置
CN1979444A (zh) 保证伺服程序不间断运行的系统及其方法
CN111918236B (zh) 物联网安防传感器寻网方法、装置、设备及存储介质
CN102866964B (zh) 一种保护存储设备上数据的方法及装置
CN107483280B (zh) 用于服务节点设备监控的方法及设备
CN109669814A (zh) 一种元数据服务的恢复方法、装置、设备及可读存储介质
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
US20160085638A1 (en) Computer system and method of identifying a failure
CN111324516A (zh) 自动记录异常事件的方法及装置、存储介质、电子设备
US20220035695A1 (en) Computer unit, computer system and event management method
JP3202721B2 (ja) 故障予測システム、故障予測方法および故障予測プログラムを記録した記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231221

Address after: Room 1801, 18th Floor, Jiyun Investment Building, No. 278 Xinyi Road, Zhengdong New District, Zhengzhou City, Henan Province, 450018

Patentee after: Zhengzhou Inspur Data Technology Co.,Ltd.

Address before: 100085 5 / F, building C, No.2, Shangdi Information Road, Haidian District, Beijing

Patentee before: Beijing Inspur Data Technology Co.,Ltd.

TR01 Transfer of patent right