CN103761180A - 一种集群存储中磁盘故障的预防及检测方法 - Google Patents
一种集群存储中磁盘故障的预防及检测方法 Download PDFInfo
- Publication number
- CN103761180A CN103761180A CN201410011802.2A CN201410011802A CN103761180A CN 103761180 A CN103761180 A CN 103761180A CN 201410011802 A CN201410011802 A CN 201410011802A CN 103761180 A CN103761180 A CN 103761180A
- Authority
- CN
- China
- Prior art keywords
- disk
- request
- module
- failure
- requests
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种集群存储中磁盘故障的预防及检测方法,步骤如下:将每个磁盘对应设置一个磁盘请求监控模块,磁盘请求监控模块监控磁盘请求处理过程中每个请求的响应速度,当请求花费的时间超过了规定的阈值时,则磁盘请求监控模块会向磁盘故障判断模块报告其所监控的磁盘出现了请求响应缓慢的情况,并给出最慢的请求所花费的时间;磁盘故障判断模块收集磁盘请求监控模块报告的磁盘请求超时情况,并据此判断是否可能存在潜在故障磁盘,如果发现只有极个别的磁盘发生了超时,则判断该磁盘是潜在故障磁盘;则会发送信息通知磁盘故障处理模块对该磁盘进行处理。本发明能有效的预防磁盘故障导致的数据丢失,提高系统的数据可靠性。
Description
技术领域
本发明涉及计算机存储领域,具体地说是一种集群存储中磁盘故障的预防及检测方法。
背景技术
随着的互联网时代已经到来:社交网络、微博、位置服务等面向普通互联网用户的交互型网站正蓬勃兴起,如Google、Facebook、Twitter以及国内的人人网、微博等,向数以亿计的用户提供基于互联网和无线网络的交互服务。遍布全世界的互联网用户每天都进行多种多样的交互,随时都在制造各种各样的数据,这些数据的数量是单机时代数据量的数倍。
为存储这些数据,各互联网公司在世界各地建立了庞大的数据中心,单个数据中心的主机数量在几百至数万的数量级不等。来自Google的信息表明,Google在全球有数十个数据中心和过千万台服务器,存储其全球用户每天产生的海量数据。在数据中心内部,数据的储存最终需要存储到磁盘上,因此,磁盘的可靠性与数据的可靠性密切相关。
目前,一个数据中心通常包括成千上万块磁盘,在如此庞大的数量下,磁盘的故障被视为一种常态而对待,因此数据冗余功能也成为了基本功能。在磁盘发生故障的时候,通过冗余的数据,可以保证数据的可靠性,同时还可以重新建立数据的冗余,以便应对后续的磁盘故障。目前常用的数据冗余功能包括副本和RAID两种方式,前者主要用于跨数据节点的容灾、后者用于节点内部的容灾。这两种方式都能保证部分磁盘损坏(容灾限度内)的情况下,数据仍然可用。
数据的冗余机制虽然能够在磁盘发生故障时在一定程度上保证数据的安全性,但仍然存在一定的风险,特别是在磁盘发生故障后的冗余数据重建过程中。以双副本数据冗余策略为例,假设一份数据存在A和B两个副本,如果A副本由于磁盘故障丢失后,需要根据B副本重建A副本。此时,数据实际上只存在一份有效的拷贝(B副本)。如果在A副本的重建过程中,B副本所在的磁盘也发生了故障,则有可能导致数据的彻底丢失。改善这一现象固然可以通过增加数据冗余度(例如增加到三副本)进行改善,但会造成额外的空间利用率的损失。
导致数据重建过程中数据安全性较为脆弱的原因,主要是因为现有的数据容灾机制都是一种基于事后的处理方式,即只有当磁盘发生了故障、无法使用后才会进行数据冗余的重建,而无法实现识别潜在的磁盘故障,因此存在一个数据安全系数较低的冗余数据重建阶段。
另一方面,磁盘的损坏通常是一个逐渐发生的过程,其前期特征通常是磁盘的性能出现较大幅度的下降,体现在部分磁盘请求需要较长时间完整或者平均吞吐量出现明显的降低。如果能够通过这些前期特征提前识别出可能发生故障的磁盘,并且在其完全故障前就采取相应的策略,则可以极大的提高数据的安全性。
发明内容
本发明的技术任务是提供一种集群存储中磁盘故障的预防及检测方法。
本发明的技术任务是按以下方式实现的,该预防及检测方法包括磁盘请求监控模块、磁盘故障判断模块和磁盘故障处理模块,所述的检测方法步骤如下:
将每个磁盘对应设置一个磁盘请求监控模块,磁盘请求监控模块监控磁盘请求处理过程中每个请求的响应速度,当请求花费的时间超过了规定的阈值时,则磁盘请求监控模块会向磁盘故障判断模块报告其所监控的磁盘出现了请求响应缓慢的情况,并给出最慢的请求所花费的时间;磁盘故障判断模块收集磁盘请求监控模块报告的磁盘请求超时情况,并据此判断是否可能存在潜在故障磁盘,如果发现只有极个别的磁盘发生了超时,则判断该磁盘是潜在故障磁盘;则会发送信息通知磁盘故障处理模块对该磁盘进行处理。
所述的磁盘故障判断模块判断磁盘是否存在潜在故障的依据主要是根据集群存储的负载平衡原理。
所述的磁盘故障处理模块处理潜在故障磁盘有以下处理方式:在集群状态描述中,将该磁盘标记为潜在故障;发送告警信息,通知系统维护人员该磁盘存在潜在故障;降低该磁盘的权重,减少该磁盘的IO负载,延缓磁盘发生故障的时间;如果集群压力较小,将该磁盘的数据重新分布到其它磁盘中。
本发明的一种集群存储中磁盘故障的预防及检测方法和现有技术相比,能够在磁盘故障前,预先判断出可能发生故障的磁盘,并对这些磁盘执行自动处理操作,包括将该磁盘标记为潜在故障、激活数据冗余的重建、向维护人员发送告警信息等;通过这种方法可以有效的预防磁盘故障导致的数据丢失,提高系统的数据可靠性。
附图说明
附图1为一种集群存储中磁盘故障的预防及检测方法的示意图。
具体实施方式
实施例1:
磁盘对于IO请求的执行情况是磁盘潜在故障的判断依据,对于磁盘IO请求执行情况的监控由磁盘请求监控模块负责。将每一个磁盘对应设置一个磁盘请求监控模块,该模块主要监控磁盘请求处理过程中每个请求的响应速度。如果存在请求花费的时间超过了规定的阈值,例如一个IO请求在30秒之内仍无法完成,则磁盘请求监控模块会向磁盘故障判断模块报告其所监控的磁盘出现了请求响应缓慢的情况,并给出最慢的请求所花费的时间。
磁盘故障判断模块收集磁盘请求监控模块报告的磁盘请求超时情况,并据此判断是否存在潜在故障磁盘。磁盘故障判断模块判断磁盘可能存在潜在故障的依据主要是根据集群存储的负载平衡原理,即:在一个集群中,负载平衡算法会将集群的负载平均的分配到每一个磁盘上,因此每一个磁盘所承担的IO操作的压力是相同的。由于集群的采用的磁盘基本相同,其IO处理能力也相同,因此,在相同压力下,完成请求所有的时间应该也大致相同;反之,如果出现了个别磁盘完成请求所需要的时间大大超过其它磁盘,则该磁盘存在潜在故障的可能性极大。根据以上原理,磁盘故障判断模块如果在其收集到的磁盘请求超时情况中,发现只有极个别的磁盘发生了超时,则判断该磁盘是潜在故障磁盘。
如果磁盘故障判断模块认定某块磁盘是潜在故障磁盘,则会通知磁盘故障处理模块对该磁盘进行处理,磁盘故障处理模块会根据需要对该磁盘进行如下处理:
1)在集群状态描述中,将该磁盘标记为潜在故障;
2)发送告警信息,通知系统维护人员该磁盘存在潜在故障;
3)降低该磁盘的权重,减少该磁盘的IO负载,延缓磁盘发生故障的时间;
4)如果集群压力较小,将该磁盘的数据重新分布到其它磁盘中。
Claims (3)
1.一种集群存储中磁盘故障的预防及检测方法,包括磁盘请求监控模块、磁盘故障判断模块和磁盘故障处理模块,其特征在于,所述的检测方法步骤如下:
将每个磁盘对应设置一个磁盘请求监控模块,磁盘请求监控模块监控磁盘请求处理过程中每个请求的响应速度,当请求花费的时间超过了规定的阈值时,则磁盘请求监控模块会向磁盘故障判断模块报告其所监控的磁盘出现了请求响应缓慢的情况,并给出最慢的请求所花费的时间;磁盘故障判断模块收集磁盘请求监控模块报告的磁盘请求超时情况,并据此判断是否可能存在潜在故障磁盘,如果发现只有极个别的磁盘发生了超时,则判断该磁盘是潜在故障磁盘;则会发送信息通知磁盘故障处理模块对该磁盘进行处理。
2.根据权利要求1所述的一种集群存储中磁盘故障的预防及检测方法,其特征在于,所述的磁盘故障判断模块判断磁盘是否存在潜在故障的依据主要是根据集群存储的负载平衡原理。
3.根据权利要求1所述的一种集群存储中磁盘故障的预防及检测方法,其特征在于,所述的磁盘故障处理模块处理潜在故障磁盘有以下处理方式:在集群状态描述中,将该磁盘标记为潜在故障;发送告警信息,通知系统维护人员该磁盘存在潜在故障;降低该磁盘的权重,减少该磁盘的IO负载,延缓磁盘发生故障的时间;如果集群压力较小,将该磁盘的数据重新分布到其它磁盘中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410011802.2A CN103761180A (zh) | 2014-01-11 | 2014-01-11 | 一种集群存储中磁盘故障的预防及检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410011802.2A CN103761180A (zh) | 2014-01-11 | 2014-01-11 | 一种集群存储中磁盘故障的预防及检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103761180A true CN103761180A (zh) | 2014-04-30 |
Family
ID=50528422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410011802.2A Pending CN103761180A (zh) | 2014-01-11 | 2014-01-11 | 一种集群存储中磁盘故障的预防及检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761180A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268040A (zh) * | 2014-09-16 | 2015-01-07 | 深圳市腾讯计算机系统有限公司 | 一种磁盘性能检测方法及装置 |
CN105045691A (zh) * | 2015-07-16 | 2015-11-11 | 浪潮(北京)电子信息产业有限公司 | 一种故障检测方法和系统 |
CN105242998A (zh) * | 2015-09-01 | 2016-01-13 | 福建新大陆软件工程有限公司 | 一种基于hdfs的磁盘故障检测方法及系统 |
CN106407052A (zh) * | 2015-07-31 | 2017-02-15 | 华为技术有限公司 | 一种检测磁盘的方法及装置 |
WO2017173927A1 (zh) * | 2016-04-07 | 2017-10-12 | 阿里巴巴集团控股有限公司 | 分布式存储系统硬盘挂住故障检测、处理方法及装置 |
CN107643877A (zh) * | 2016-07-22 | 2018-01-30 | 中国电信股份有限公司 | 磁盘故障检测方法以及装置 |
CN110134338A (zh) * | 2019-05-21 | 2019-08-16 | 深信服科技股份有限公司 | 一种分布式存储系统及其数据冗余保护方法和相关设备 |
CN110825542A (zh) * | 2018-08-07 | 2020-02-21 | 网宿科技股份有限公司 | 一种分布式系统中故障盘的检测方法、装置及检测系统 |
CN111124755A (zh) * | 2019-12-06 | 2020-05-08 | 中国联合网络通信集团有限公司 | 集群节点的故障恢复方法、装置、电子设备及存储介质 |
CN111290909A (zh) * | 2020-01-19 | 2020-06-16 | 山东汇贸电子口岸有限公司 | 一种对ceph集群进行监控和告警的系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097531A (zh) * | 2006-06-28 | 2008-01-02 | 联想(北京)有限公司 | 一种计算机raid阵列预警系统及方法 |
CN102147708A (zh) * | 2010-02-10 | 2011-08-10 | 成都市华为赛门铁克科技有限公司 | 一种磁盘检测方法及装置 |
US20130073782A1 (en) * | 2010-09-17 | 2013-03-21 | Ming Tian | Method and device for storing data |
-
2014
- 2014-01-11 CN CN201410011802.2A patent/CN103761180A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097531A (zh) * | 2006-06-28 | 2008-01-02 | 联想(北京)有限公司 | 一种计算机raid阵列预警系统及方法 |
CN102147708A (zh) * | 2010-02-10 | 2011-08-10 | 成都市华为赛门铁克科技有限公司 | 一种磁盘检测方法及装置 |
US20130073782A1 (en) * | 2010-09-17 | 2013-03-21 | Ming Tian | Method and device for storing data |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268040B (zh) * | 2014-09-16 | 2016-04-06 | 深圳市腾讯计算机系统有限公司 | 一种磁盘性能检测方法及装置 |
CN104268040A (zh) * | 2014-09-16 | 2015-01-07 | 深圳市腾讯计算机系统有限公司 | 一种磁盘性能检测方法及装置 |
CN105045691B (zh) * | 2015-07-16 | 2018-06-22 | 浪潮(北京)电子信息产业有限公司 | 一种故障检测方法和系统 |
CN105045691A (zh) * | 2015-07-16 | 2015-11-11 | 浪潮(北京)电子信息产业有限公司 | 一种故障检测方法和系统 |
US10768826B2 (en) | 2015-07-31 | 2020-09-08 | Huawei Technologies Co., Ltd. | Disk detection method and apparatus |
CN106407052A (zh) * | 2015-07-31 | 2017-02-15 | 华为技术有限公司 | 一种检测磁盘的方法及装置 |
CN106407052B (zh) * | 2015-07-31 | 2019-09-13 | 华为技术有限公司 | 一种检测磁盘的方法及装置 |
CN105242998B (zh) * | 2015-09-01 | 2019-05-14 | 福建新大陆软件工程有限公司 | 一种基于hdfs的磁盘故障检测方法及系统 |
CN105242998A (zh) * | 2015-09-01 | 2016-01-13 | 福建新大陆软件工程有限公司 | 一种基于hdfs的磁盘故障检测方法及系统 |
WO2017173927A1 (zh) * | 2016-04-07 | 2017-10-12 | 阿里巴巴集团控股有限公司 | 分布式存储系统硬盘挂住故障检测、处理方法及装置 |
CN107643877A (zh) * | 2016-07-22 | 2018-01-30 | 中国电信股份有限公司 | 磁盘故障检测方法以及装置 |
CN110825542A (zh) * | 2018-08-07 | 2020-02-21 | 网宿科技股份有限公司 | 一种分布式系统中故障盘的检测方法、装置及检测系统 |
CN110134338A (zh) * | 2019-05-21 | 2019-08-16 | 深信服科技股份有限公司 | 一种分布式存储系统及其数据冗余保护方法和相关设备 |
CN111124755A (zh) * | 2019-12-06 | 2020-05-08 | 中国联合网络通信集团有限公司 | 集群节点的故障恢复方法、装置、电子设备及存储介质 |
CN111124755B (zh) * | 2019-12-06 | 2023-08-15 | 中国联合网络通信集团有限公司 | 集群节点的故障恢复方法、装置、电子设备及存储介质 |
CN111290909A (zh) * | 2020-01-19 | 2020-06-16 | 山东汇贸电子口岸有限公司 | 一种对ceph集群进行监控和告警的系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103761180A (zh) | 一种集群存储中磁盘故障的预防及检测方法 | |
TWI746512B (zh) | 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統 | |
US10152382B2 (en) | Method and system for monitoring virtual machine cluster | |
US9201744B2 (en) | Fault tolerant architecture for distributed computing systems | |
US8645769B2 (en) | Operation management apparatus, operation management method, and program storage medium | |
CN103580902B (zh) | 一种计算机信息系统及其动态容灾方法 | |
EP3142011B9 (en) | Anomaly recovery method for virtual machine in distributed environment | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
US9367379B1 (en) | Automated self-healing computer system | |
CN106909307B (zh) | 一种管理双活存储阵列的方法及装置 | |
CN104579765A (zh) | 一种集群系统的容灾方法和装置 | |
CN105988894A (zh) | 一种双活模式的容灾技术 | |
CN111142801B (zh) | 分布式存储系统网络亚健康检测方法及装置 | |
CN103902401A (zh) | 基于监控的虚拟机容错方法及装置 | |
JP2017529797A (ja) | 早期警戒情報データの処理方法及び装置 | |
US9164825B2 (en) | Computing unit, method of managing computing unit, and computing unit management program | |
US20110187404A1 (en) | Method of detecting failure and monitoring apparatus | |
CN111309515B (zh) | 一种容灾控制方法、装置及系统 | |
EP3167372B1 (en) | Methods for facilitating high availability storage services and corresponding devices | |
CN113254245A (zh) | 一种存储集群的故障检测方法和系统 | |
CN106534262A (zh) | 一种网络信息系统故障的切换方法 | |
JP2007280155A (ja) | 分散システムにおける信頼性向上方法 | |
CN109254880B (zh) | 一种处理数据库宕机的方法及装置 | |
CN104639890A (zh) | 设施监视控制系统 | |
KR20140140719A (ko) | 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140430 |
|
WD01 | Invention patent application deemed withdrawn after publication |