CN105045691B - 一种故障检测方法和系统 - Google Patents

一种故障检测方法和系统 Download PDF

Info

Publication number
CN105045691B
CN105045691B CN201510419679.2A CN201510419679A CN105045691B CN 105045691 B CN105045691 B CN 105045691B CN 201510419679 A CN201510419679 A CN 201510419679A CN 105045691 B CN105045691 B CN 105045691B
Authority
CN
China
Prior art keywords
disk
disk resource
resource
failure
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510419679.2A
Other languages
English (en)
Other versions
CN105045691A (zh
Inventor
成金祥
李大生
刘志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510419679.2A priority Critical patent/CN105045691B/zh
Publication of CN105045691A publication Critical patent/CN105045691A/zh
Application granted granted Critical
Publication of CN105045691B publication Critical patent/CN105045691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种磁盘资源故障检测方法和系统,包括:每次在对磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认磁盘资源是否已经正确挂载在本机。当确认磁盘资源已经正确挂载在本机以后,执行I/O操作。将I/O操作的返回时间与预设的时间阈值进行比较;当返回时间小于时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当返回时间大于或等于时间阈值时,判定磁盘资源故障并修改磁盘文件系统的自检参数。通过本发明的方案,能够精确的反映磁盘的真实状态,并对潜在故障的磁盘进行处理。

Description

一种故障检测方法和系统
技术领域
本发明涉及磁盘资源检测技术,尤其涉及一种故障检测方法和系统。
背景技术
高可用技术是能够保证我们的系统及软件不间断的运行并能提供正常服务,并且在某一节点出现故障,甚至宕机的情况下能迅速恢复正常业务的技术。高可用技术构建的集群系统中可以管理并监控各种资源,包括:数据库资源、IP资源、NIC资源、服务资源及磁盘资源等。
磁盘资源的管理是集群系统比较重要的事务,我们系统及软件的业务数据的载体就是磁盘,磁盘资源出现故障会直接导致我们的业务无法正常运行。利用传统的RW方法检测磁盘状态,无法精确的反映磁盘的真实状态,也缺少对潜在故障磁盘的处理方法。
发明内容
为了解决上述问题,本发明提出了一种故障检测方法和系统,能够精确的反映磁盘的真实状态,并对潜在故障的磁盘进行处理。
为了达到上述目的,本发明提出了一种磁盘资源故障检测方法,该方法包括:
每次在对磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认磁盘资源是否已经正确挂载在本机。
当确认磁盘资源已经正确挂载在本机以后,执行I/O操作。
将I/O操作的返回时间与预设的时间阈值进行比较;当返回时间小于时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当返回时间大于或等于时间阈值时,判定磁盘资源故障并修改磁盘文件系统的自检参数。
优选地,修改磁盘文件系统的自检参数包括:修改磁盘文件系统的自检周期及最大挂载次数。
优选地,该方法还包括;当达到自检周期或最大挂载次数时,触发磁盘文件系统进入自检状态。
优选地,该方法还包括:
当确认磁盘资源没有正确挂载在本机时,判定磁盘资源没有在本机当中,不执行I/O操作。
优选地,该方法还包括:
当判定磁盘资源故障时,停止出现故障的磁盘资源的全部操作流程,并且在停止出现故障的磁盘资源的全部操作流程之前,清除占用出现故障的磁盘资源的I/O操作。
当清除I/O操作成功之后,将出现故障的磁盘资源置为离线状态,并将涉及出现故障的磁盘资源上的所有操作切换到未出现故障的磁盘资源所在的节点上;当清除I/O操作未成功时,重新启动出现故障的磁盘资源所在的节点。
为了达到上述目的,本发明还提出了一种磁盘资源故障检测系统,该系统包括:确认模块、执行模块、比较模块和判定模块。
确认模块,用于每次在对磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认磁盘资源是否已经正确挂载在本机。
执行模块,用于当确认磁盘资源已经正确挂载在本机以后,执行I/O操作。
比较模块,用于将I/O操作的返回时间与预设的时间阈值进行比较。
判定模块,用于当返回时间小于时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当返回时间大于或等于时间阈值时,判定磁盘资源故障并修改磁盘文件系统的自检参数。
优选地,判定模块修改磁盘文件系统的自检参数是指:修改磁盘文件系统的自检周期及最大挂载次数。
优选地,该系统还包括触发模块。
触发模块,用于当达到自检周期或最大挂载次数时,触发磁盘文件系统进入自检状态。
优选地,执行模块还用于:
当确认磁盘资源没有正确挂载在本机时,判定磁盘资源没有在本机当中,不执行I/O操作。
优选地,该系统还包括:清除模块和节点切换模块。
清除模块,用于当判定磁盘资源故障时,停止出现故障的磁盘资源的全部操作流程,并且在停止出现故障的磁盘资源的全部操作流程之前,清除占用出现故障的磁盘资源的I/O操作。
节点切换模块,用于当清除I/O操作成功之后,将出现故障的磁盘资源置为离线状态,并将涉及出现故障的磁盘资源上的所有操作切换到未出现故障的磁盘资源所在的节点上;当清除I/O操作未成功时,重新启动出现故障的所磁盘资源所在的节点。
与现有技术相比,本发明包括:每次在对磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认磁盘资源是否已经正确挂载在本机。当确认磁盘资源已经正确挂载在本机以后,执行I/O操作。将I/O操作的返回时间与预设的时间阈值进行比较;当返回时间小于时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当返回时间大于或等于时间阈值时,判定磁盘资源故障并修改磁盘文件系统的自检参数。。通过本发明的方案,能够精确的反映磁盘的真实状态,并对潜在故障的磁盘进行处理。
附图说明
下面对本发明实施例中的附图进行说明,实施例中的附图是用于对本发明的进一步理解,与说明书一起用于解释本发明,并不构成对本发明保护范围的限制。
图1为本发明的磁盘资源故障检测方法流程图;
图2为本发明的磁盘资源故障检测系统组成框图。
具体实施方式
为了便于本领域技术人员的理解,下面结合附图对本发明作进一步的描述,并不能用来限制本发明的保护范围。
高可用集群技术中,传统的检测磁盘状态的RW方法,仅仅是根据输入/输出I/O返回的大小,检测磁盘状态是否正常,而忽略了I/O返回的时间及检测前磁盘是否已正确挂载,从而,无法精确的检测磁盘资源的真实状态,更无法检测I/O延时比较大的潜在故障磁盘。
本专利发明了一种改进的用于高可用技术中检测磁盘资源状态的方法,通过对磁盘上的块进行I/O操作及查询虚拟文件系统proc系统两个条件来判断磁盘是否处于故障状态;通过I/O请求的返回时间与设置的阈值比较,判断磁盘是否是潜在故障盘,通过修改磁盘文件系统的自检参数来降低磁盘出现文件系统故障的概率。
具体地,本发明提出了一种磁盘资源故障检测方法,如图1所示,该方法包括:
S101、每次在对磁盘资源上的物理块进行I/O操作之前,检查proc系统,确认磁盘资源是否已经正确挂载在本机。
在本发明实施例中,在对磁盘资源上的物理块进行I/O操作之前,需要根据用户提供的通用唯一识别码UUID获取磁盘资源在本地的设备名称(如:/dev/sdc1),并且将磁盘资源挂载到用户指定的挂载点上,只有对于挂载在本机上的磁盘资源才能在其物理块上进行I/O操作。
并且在将磁盘资源挂载到用户指定的挂载点上以后,还需要获取磁盘资源当前的运行状态,并上报到重启客户端CS端控制界面,便于用户实时查看磁盘资源的状态。
S102、当确认磁盘资源已经正确挂载在本机以后,执行I/O操作。
优选地,该方法还包括:
当确认磁盘资源没有正确挂载在本机时,判定磁盘资源没有在本机当中,不执行I/O操作。
S103、将I/O操作的返回时间与预设的时间阈值进行比较;当返回时间小于时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当返回时间大于或等于时间阈值时,判定磁盘资源故障并修改磁盘文件系统的自检参数。
优选地,修改磁盘文件系统的自检参数包括:修改磁盘文件系统的自检周期及最大挂载次数。
优选地,该方法还包括;当达到自检周期或最大挂载次数时,触发磁盘文件系统进入自检状态。
优选地,该方法还包括:
当判定磁盘资源故障时,停止出现故障的磁盘资源的全部操作流程,并且在停止出现故障的磁盘资源的全部操作流程之前,清除占用出现故障的磁盘资源的I/O操作。
当清除I/O操作成功之后,将出现故障的磁盘资源置为离线状态,并将涉及出现故障的磁盘资源上的所有操作切换到未出现故障的磁盘资源所在的节点上;当清除I/O操作未成功时,重新启动出现故障的磁盘资源所在的节点。
为了达到上述目的,本发明还提出了一种磁盘资源故障检测系统01,如图2所示,该系统包括:确认模块02、执行模块03、比较模块04和判定模块05。
确认模块02,用于每次在对磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认磁盘资源是否已经正确挂载在本机。
执行模块03,用于当确认磁盘资源已经正确挂载在本机以后,执行I/O操作。
优选地,执行模块03还用于:
当确认磁盘资源没有正确挂载在本机时,判定磁盘资源没有在本机当中,不执行I/O操作。
比较模块04,用于将I/O操作的返回时间与预设的时间阈值进行比较。
判定模块05,用于当返回时间小于时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当返回时间大于或等于时间阈值时,判定磁盘资源故障并修改磁盘文件系统的自检参数。
优选地,判定模块05修改磁盘文件系统的自检参数是指:修改磁盘文件系统的自检周期及最大挂载次数。
优选地,该系统还包括触发模块06。
触发模块06,用于当达到自检周期或最大挂载次数时,触发磁盘文件系统进入自检状态。
优选地,该系统还包括:清除模块07和节点切换模块08。
清除模块07,用于当判定磁盘资源故障时,停止出现故障的磁盘资源的全部操作流程,并且在停止出现故障的磁盘资源的全部操作流程之前,清除占用出现故障的磁盘资源的I/O操作。
节点切换模块08,用于当清除I/O操作成功之后,将出现故障的磁盘资源置为离线状态,并将涉及出现故障的磁盘资源上的所有操作切换到未出现故障的磁盘资源所在的节点上;当清除I/O操作未成功时,重新启动出现故障的所磁盘资源所在的节点。
与现有技术相比,本发明包括:每次在对磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认磁盘资源是否已经正确挂载在本机。当确认磁盘资源已经正确挂载在本机以后,执行I/O操作。将I/O操作的返回时间与预设的时间阈值进行比较;当返回时间小于时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当返回时间大于或等于时间阈值时,判定磁盘资源故障并修改磁盘文件系统的自检参数。。通过本发明的方案,能够精确的反映磁盘的真实状态,并对潜在故障的磁盘进行处理。
需要说明的是,以上所述的实施例仅是为了便于本领域的技术人员理解而已,并不用于限制本发明的保护范围,在不脱离本发明的发明构思的前提下,本领域技术人员对本发明所做出的任何显而易见的替换和改进等均在本发明的保护范围之内。

Claims (10)

1.一种磁盘资源故障检测方法,其特征在于,所述方法包括:
每次在对所述磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认所述磁盘资源是否已经正确挂载在本机;
仅当确认所述磁盘资源已经正确挂载在本机以后,执行所述I/O操作;
将所述I/O操作的返回时间与预设的时间阈值进行比较;当所述返回时间小于所述时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当所述返回时间大于或等于所述时间阈值时,判定所述磁盘资源故障并修改磁盘文件系统的自检参数用于降低磁盘出现文件系统故障的概率。
2.如权利要求1的故障检测方法,其特征在于,所述修改磁盘文件系统的自检参数包括:修改所述磁盘文件系统的自检周期及最大挂载次数。
3.如权利要求2的故障检测方法,其特征在于,所述方法还包括;当达到所述自检周期或所述最大挂载次数时,触发所述磁盘文件系统进入自检状态。
4.如权利要求1的故障检测方法,其特征在于,所述方法还包括:
当确认所述磁盘资源没有正确挂载在所述本机时,判定所述磁盘资源没有在本机当中,不执行所述I/O操作。
5.如权利要求1的故障检测方法,其特征在于,所述方法还包括:
当判定所述磁盘资源故障时,停止出现故障的所述磁盘资源的全部操作流程,并且在停止所述出现故障的磁盘资源的全部操作流程之前,清除占用所述出现故障的磁盘资源的所述I/O操作;
当清除所述I/O操作成功之后,将所述出现故障的磁盘资源置为离线状态,并将涉及所述出现故障的磁盘资源上的所有操作切换到未出现故障的磁盘资源所在的节点上;当清除所述I/O操作未成功时,重新启动出现故障的所述磁盘资源所在的节点。
6.一种磁盘资源故障检测系统,其特征在于,所述系统包括:确认模块、执行模块、比较模块和判定模块;
所述确认模块,用于每次在对所述磁盘资源上的物理块进行输入/输出I/O操作之前,检查虚拟文件系统proc系统,确认所述磁盘资源是否已经正确挂载在本机;
所述执行模块,用于仅当确认所述磁盘资源已经正确挂载在本机以后,执行所述I/O操作;
所述比较模块,用于将所述I/O操作的返回时间与预设的时间阈值进行比较;
所述判定模块,用于当所述返回时间小于所述时间阈值时,判定磁盘资源正常并对下一次I/O操作进行故障检测;当所述返回时间大于或等于所述时间阈值时,判定所述磁盘资源故障并修改磁盘文件系统的自检参数用于降低磁盘出现文件系统故障的概率。
7.如权利要求6的故障检测系统,其特征在于,所述判定模块修改磁盘文件系统的自检参数是指:修改所述磁盘文件系统的自检周期及最大挂载次数。
8.如权利要求7的故障检测系统,其特征在于,所述系统还包括触发模块;
所述触发模块,用于当达到所述自检周期或所述最大挂载次数时,触发所述磁盘文件系统进入自检状态。
9.如权利要求6的故障检测系统,其特征在于,所述执行模块还用于:
当确认所述磁盘资源没有正确挂载在所述本机时,判定所述磁盘资源没有在本机当中,不执行所述I/O操作。
10.如权利要求6的故障检测系统,其特征在于,所述系统还包括:清除模块和节点切换模块;
所述清除模块,用于当判定所述磁盘资源故障时,停止出现故障的所述磁盘资源的全部操作流程,并且在停止所述出现故障的磁盘资源的全部操作流程之前,清除占用所述出现故障的磁盘资源的所述I/O操作;
所述节点切换模块,用于当清除所述I/O操作成功之后,将所述出现故障的磁盘资源置为离线状态,并将涉及所述出现故障的磁盘资源上的所有操作切换到未出现故障的磁盘资源所在的节点上;当清除所述I/O操作未成功时,重新启动出现故障的所述磁盘资源所在的节点。
CN201510419679.2A 2015-07-16 2015-07-16 一种故障检测方法和系统 Active CN105045691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510419679.2A CN105045691B (zh) 2015-07-16 2015-07-16 一种故障检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510419679.2A CN105045691B (zh) 2015-07-16 2015-07-16 一种故障检测方法和系统

Publications (2)

Publication Number Publication Date
CN105045691A CN105045691A (zh) 2015-11-11
CN105045691B true CN105045691B (zh) 2018-06-22

Family

ID=54452254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510419679.2A Active CN105045691B (zh) 2015-07-16 2015-07-16 一种故障检测方法和系统

Country Status (1)

Country Link
CN (1) CN105045691B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107643877B (zh) * 2016-07-22 2020-08-11 中国电信股份有限公司 磁盘故障检测方法以及装置
CN109992437B (zh) * 2017-12-29 2020-08-14 华为技术有限公司 硬盘闪断的处理方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488077A (zh) * 2009-02-24 2009-07-22 浪潮电子信息产业股份有限公司 冗余磁盘控制服务器系统
JP2011013991A (ja) * 2009-07-03 2011-01-20 Hitachi Ltd ディスクアレイシステムにおける復旧方式
CN102147708A (zh) * 2010-02-10 2011-08-10 成都市华为赛门铁克科技有限公司 一种磁盘检测方法及装置
CN102270173A (zh) * 2011-07-21 2011-12-07 哈尔滨工业大学 基于scsi驱动层的故障注入工具
CN103473158A (zh) * 2013-09-18 2013-12-25 浪潮电子信息产业股份有限公司 一种Linux服务器的磁盘压力测试方法
CN103761180A (zh) * 2014-01-11 2014-04-30 浪潮电子信息产业股份有限公司 一种集群存储中磁盘故障的预防及检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013117922A (ja) * 2011-12-05 2013-06-13 Buffalo Inc ディスクシステム、データ保持装置、及びディスクデバイス

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488077A (zh) * 2009-02-24 2009-07-22 浪潮电子信息产业股份有限公司 冗余磁盘控制服务器系统
JP2011013991A (ja) * 2009-07-03 2011-01-20 Hitachi Ltd ディスクアレイシステムにおける復旧方式
CN102147708A (zh) * 2010-02-10 2011-08-10 成都市华为赛门铁克科技有限公司 一种磁盘检测方法及装置
CN102270173A (zh) * 2011-07-21 2011-12-07 哈尔滨工业大学 基于scsi驱动层的故障注入工具
CN103473158A (zh) * 2013-09-18 2013-12-25 浪潮电子信息产业股份有限公司 一种Linux服务器的磁盘压力测试方法
CN103761180A (zh) * 2014-01-11 2014-04-30 浪潮电子信息产业股份有限公司 一种集群存储中磁盘故障的预防及检测方法

Also Published As

Publication number Publication date
CN105045691A (zh) 2015-11-11

Similar Documents

Publication Publication Date Title
CN108847982B (zh) 一种分布式存储集群及其节点故障切换方法和装置
EP3142011B1 (en) Anomaly recovery method for virtual machine in distributed environment
CN103152419A (zh) 一种云计算平台的高可用集群管理方法
CN110716842B (zh) 集群故障检测方法和装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN105554074A (zh) 一种基于rpc通信的nas资源监控系统及监控方法
US10318392B2 (en) Management system for virtual machine failure detection and recovery
CN103414916A (zh) 一种故障诊断系统及方法
CN110457176A (zh) 用于分布式系统的监控方法、装置、存储介质及电子设备
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN103501290A (zh) 一种基于动态备份虚拟机的高可靠服务系统构建方法
CN105162632A (zh) 一种服务器集群故障自动处理系统
CN101237315A (zh) 一种用于双控高可用系统的同步检测和故障隔离方法
CN106130763A (zh) 服务器集群及适用于该集群的数据库资源组切换控制方法
CN101262479B (zh) 一种网络文件共享的方法、服务器和网络文件共享的系统
CN110618864A (zh) 一种中断任务恢复方法及装置
CN105045691B (zh) 一种故障检测方法和系统
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN107453888B (zh) 高可用性的虚拟机集群的管理方法及装置
CN103309764A (zh) 虚拟机的容错机制的保护方法和装置
CN107491344B (zh) 一种实现虚拟机高可用性的方法及装置
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN103731315A (zh) 一种服务器故障检测方法
CN112100019B (zh) 面向大规模系统的多源故障协同分析定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant