CN111858240A - 一种分布式存储系统的监控方法、系统、设备以及介质 - Google Patents
一种分布式存储系统的监控方法、系统、设备以及介质 Download PDFInfo
- Publication number
- CN111858240A CN111858240A CN202010631321.7A CN202010631321A CN111858240A CN 111858240 A CN111858240 A CN 111858240A CN 202010631321 A CN202010631321 A CN 202010631321A CN 111858240 A CN111858240 A CN 111858240A
- Authority
- CN
- China
- Prior art keywords
- state
- abnormal state
- hardware
- monitoring
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002159 abnormal effect Effects 0.000 claims abstract description 120
- 230000007246 mechanism Effects 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000004044 response Effects 0.000 claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 14
- 230000036541 health Effects 0.000 claims description 11
- 238000005299 abrasion Methods 0.000 claims description 7
- 238000005192 partition Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000008439 repair process Effects 0.000 claims description 4
- 239000007787 solid Substances 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
Abstract
本发明公开了一种分布式存储系统的监控方法,包括:分别对每一个节点的IO处理流和硬件的状态进行监控;响应于监控到IO处理流的状态异常并且硬件的状态异常,获取系统的存储特性指标的异常状态;判断硬件的异常状态以及获取到的存储特性指标的异常状态是否符合容错机制;响应于硬件的异常状态以及存储特性指标的异常状态不符合容错机制,判断硬件的异常状态与存储特性指标的异常状态之间是否存在关联;响应于硬件的异常状态与存储特征指标的异常状态之间不存在关联,根据硬件的异常状态以及存储特性指标的异常状态分别确定相应级别的影响因子;根据影响因子的级别进行评分并将评分返回用户。本发明还公开了一种系统、计算机设备以及可读存储介质。
Description
技术领域
本发明涉及分布式存储系统领域,具体涉及一种分布式存储系统的监控方法、系统、设备以及存储介质。
背景技术
分布式存储系统中,存储系统通常包含上百个节点,对于每个节点存储集群运行状态,健康状态的监控和预警非常重要。但是现有的集群管理系统监控大都是从对象的性能或者容量进行监控,这种方法基于性能容量的监控模式,通常是在存储发生故障,业务严重受影响异常之后才能被识别出来,实时性很低,并且并不是所有的异常都一定会在性能中变现出来,因此基于其准确性很低,给用户带来困扰。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种分布式存储系统的监控方法,包括以下步骤:
分别对每一个节点的IO处理流和硬件的状态进行监控;
响应于监控到所述IO处理流的状态异常并且所述硬件的状态异常,获取系统的存储特性指标的异常状态;
判断所述硬件的异常状态以及获取到的所述存储特性指标的异常状态是否符合容错机制;
响应于所述硬件的异常状态以及所述存储特性指标的异常状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联;
响应于所述硬件的异常状态与所述存储特征指标的异常状态之间不存在关联,根据所述硬件的异常状态以及所述存储特性指标的异常状态分别确定相应级别的影响因子;
根据所述影响因子的级别进行评分并将所述评分返回用户。
在一些实施例中,对每一个节点的IO处理流进行监控,进一步包括:
利用预设在主机接口层、IO管理层、缓存层、存储池层设置的故障嗅探器进行业务监控;
其中,所述业务监控包括:对所述主机接口层进行捕获路径调度结果的监控,对所述IO管理层进行捕获数据转发和数据保护类的监控,对所述缓存层进行缓存分区和缓存镜像的监控,对所述存储池层进行不同卷的虚拟化处理状态的监控。
在一些实施例中,对每一个节点的硬件的状态进行监控,进一步包括:
利用预设在硬盘、CPU、主板、风扇、电源、端口和控制器上设置的故障嗅探器进行监控;
其中,所述监控包括:对机械硬盘进行运行状态和健康状态的监控;对固态磁盘进行磨损度的监控;对所述CPU进行温度、故障比例以及运行状态的监控;对所述主板进行温度的监控;对所述风扇进行转速、故障比例以及运行状态的监控;对所述电源进行故障比例以及运行状态的监控;对所述端口进行故障比例、速率和状态的监控;对所述控制器进行运行状态的监控。
在一些实施例中,获取系统的存储特性指标的状态,进一步包括:
获取所述系统的MON状态、OSD状态、BOND状态、配额、SMB状态、MDS故障个数以及三方服务器的状态。
在一些实施例中,判断所述硬件的异常状态以及所述存储特性指标的异常状态是否符合容错机制,进一步包括:
对所述固态硬盘的磨损度、所述风扇的转速、所述硬件的温度、CPU的故障比例、所述风扇的故障比例、所述端口故障比例、所述电源的故障比例以及所述MDS故障个数分别设置对应的阈值;
根据所述阈值判断是否符合容错机制;
响应于符合容错机制,暂时记录异常状态且不进行上报流程。
在一些实施例中,响应于所述硬件的异常状态以及所述存储特性指标的状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联,进一步还包括:
将所述硬盘、所述OSD、所述MDS以及所述控制器作为第一组合,将所述端口、所述SMB以及所述BOND作为第二组合,将所述控制器、所述CPU、所述主板以及所述风扇作为第三组合,将所述硬盘、所述配额以及所述三方服务作为第四组合;
判断异常状态的所述硬件与异常状态的所述存储特性指标是否同时存在于所述第一组合、所述第二组合、所述第三组合或第四组合;
响应于同时存在于所述第一组合、所述第二组合、所述第三组合或第四组合中的一个或多个,则将所述硬件的异常状态与所述存储特性指标的异常状态均设置为高级别的影响因子。
在一些实施例中,根据所述影响因子的级别进行评分并将所述评分返回用户,进一步包括:
在初始分数的基础上减去所述影响因子对应的预设分数以得到最终得分;
将所述最终得分、若干个扣分内容、每一个扣分内容对应的扣分分值以及修复建议封装后上报用户。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种分布式存储系统的监控系统,包括:
监控模块,所述监控模块配置为分别对每一个节点的IO处理流和硬件的状态进行监控;
第一响应模块,所述第一响应模块配置为响应于监控到所述IO处理流的状态异常并且所述硬件的状态异常,获取系统的存储特性指标的异常状态;
判断模块,所述判断模块配置为判断所述硬件的异常状态以及获取到的所述存储特性指标的异常状态是否符合容错机制;
第二响应模块,所述第二响应模块配置为响应于所述硬件的异常状态以及所述存储特性指标的异常状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联;
第三响应模块,所述第三响应模块配置为响应于所述硬件的异常状态与所述存储特征指标的异常状态之间不存在关联,根据所述硬件的异常状态以及所述存储特性指标的异常状态分别确定相应级别的影响因子;
上报模块,所述上报模块配置为根据所述影响因子的级别进行评分并将所述评分返回用户。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种分布式存储系统的监控方法的步骤。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种分布式存储系统的监控方法的步骤。
本发明具有以下有益技术效果之一:本发明提出的方案从硬软件两个层面出发,选用的指标不再是性能容量一些侧面反应存储健康状态的指标,而是硬件和存储本身的特性这种直接属于存储最核心业务逻辑指标作为监控对象,提高整个系统的监控面的准确性和全面性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的实施例提供的分布式存储系统的监控方法的流程示意图;
图2为本发明的实施例提供的分布式存储系统的监控系统的结构示意图;
图3为本发明的实施例提供的计算机设备的结构示意图;
图4为本发明的实施例提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
根据本发明的一个方面,本发明的实施例提出一种分布式存储系统的监控方法,如图1所示,其可以包括步骤:
S1,分别对每一个节点的IO处理流和硬件的状态进行监控;
S2,响应于监控到所述IO处理流的状态异常并且所述硬件的状态异常,获取系统的存储特性指标的异常状态;
S3,判断所述硬件的异常状态以及获取到的所述存储特性指标的异常状态是否符合容错机制;
S4,响应于所述硬件的异常状态以及所述存储特性指标的异常状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联;
S5,响应于所述硬件的异常状态与所述存储特征指标的异常状态之间不存在关联,根据所述硬件的异常状态以及所述存储特性指标的异常状态分别确定相应级别的影响因子;
S6,根据所述影响因子的级别进行评分并将所述评分返回用户。
本发明提出的方案从硬软件两个层面出发,选用的指标不再是性能容量一些侧面反应存储健康状态的指标,而是硬件和存储本身的特性这种直接属于存储最核心业务逻辑指标作为监控对象,提高整个系统的监控面的准确性和全面性。
在一些实施例中,步骤S1中,对每一个节点的IO处理流进行监控,进一步包括:
利用预设在主机接口层、IO管理层、缓存层、存储池层设置的故障嗅探器进行业务监控;
其中,业务监控包括:对所述主机接口层进行捕获路径调度结果的监控,对所述IO管理层进行捕获数据转发和数据保护类的监控,对所述缓存层进行缓存分区和缓存镜像的监控,对所述存储池层进行不同卷的虚拟化处理状态的监控。
具体的,为保证数据的准确性和全面性,在业务处理IO流,即核心业务逻辑以及存储架构逻辑中增加故障嗅探器,监控业务处理传输,主动发现捕获故障。在主机接口层,IO管理层,缓存层、存储池层的IO处理逻辑中每一层增加故障嗅探器,如果业务正常处理则不触发嗅探器,如果业务异常,进入嗅探器中记录错误。其中主机接口层捕获路径调度结果,IO管理层捕获数据转发和数据保护类(快照,远程复制,克隆,镜像)异常,缓存层主动查看缓存分区和缓存镜像的异常,存储池层根据其卷的分类,捕获不同卷的虚拟化处理状态。同时还可以在节点原有的上报机制中捕获异常。通过两层对异常进行捕获,可以实现在不同粒度上的异常捕获。
在一些实施例中,步骤S1中,对每一个节点的硬件的状态进行监控,进一步包括:
利用预设在硬盘、CPU、主板、风扇、电源、端口和控制器上设置的故障嗅探器进行监控;
其中,监控包括:对机械硬盘进行运行状态和健康状态的监控;对固态磁盘进行磨损度的监控;对所述CPU进行温度、故障比例以及运行状态的监控;对所述主板进行温度的监控;对所述风扇进行转速、故障比例以及运行状态的监控;对所述电源进行故障比例以及运行状态的监控;对所述端口进行故障比例、速率和状态的监控;对所述控制器进行运行状态的监控。
具体的,硬盘作为存储系统数据保存据的载体,是首先选择监控的对象。监控的磁盘类型有两类,机械硬盘和固态(SSD)磁盘。机械硬盘读取其运行状态和健康状态,判断数据保存结果,SSD磁盘在日常工作中,更关注其寿命,通过smartctrl工具读取其磨损度作为监控指标;通过分析存储系统硬件故障的主要原因,发现由于温度引起的故障占了很大一部分,因此从温度和散热方面选择监控指标是本发明主张的一种思路,具体指标包含风扇转速,CPU温度,主板温度;存储系统中的同一种硬件通常都会包含多个,可以提供工作效率同时提供故障切换,因此本发明主张对于具有冗余机制的硬件指标进行监控,具体包含CPU故障比例,风扇故障比例,端口故障比例,电源故障比例;对于以上选择构件,其运行状态也是需要关注的重点,具体监控指标包含CPU运行状态,风扇运行状态,电源运行状态,端口速率和端口状态。Ceph架构的存储系统中每个控制器是一个独立的节点单元,其状态直接影响整个存储的对外服务可用性,因此对于控制器选择根据其在存储系统中扮演的角色(主控制器节点,从控制器节点)选择监控运行状态并制定不同的故障影响因子。
在一些实施例中,步骤S2中,获取系统的存储特性指标的状态,进一步包括:
获取所述系统的MON状态、OSD状态、BOND状态、配额、SMB状态、MDS故障个数以及三方服务器的状态。
具体的,MON(Monitors)是Ceph分布式存储系统内的监视器,通过保存集群状态的映射来跟踪监控整个集群的健康状态,对MON状态保证我们能够从架构整体中实现对内部核心逻辑正常与否的监控。数据是否正常存储,除了监控其硬盘状态外,还要监控数据真正保存和落盘,数据存储对象OSD(Object Storage Device)做为Ceph对象存储设备的守护程序,将数据以对象的形式存储到集群中的每个节点的物理磁盘上,OSD负责存储数据、处理数据复制、恢复。在文件存储系统,MDS(Metadata Server)保存了Ceph文件系统的元数据,其正常与否关系了整个文件系统服务的可用性,是我们选择要监控的对象。在存储系统提供给用户操作时,通常会指定用户操作空间的配额,具体文件的配额,而对配额的监控能够保证我们对外提供服务的可用,同时能及时感知统整体容量的变化。在存储工作时,网络传输做为存储工作的基本条件,是我们必需要监控,因此选择监控BOND状态保证我们获悉数据传输是否正常。SMB做为Windows平台共享协议,在Ceph存储系统中用来提供故障切换,保证在一台服务器故障时,客户端请求可以平滑切换到另外一个服务中,实现零宕机,因此对SMB状态的监控,保证我们能够处理故障切换。在实际的存储应用场景中,都会选择一定的三方服务器,可以对最常用的域服务器状态和邮件服务器状态进行监控。
在一些实施例中,步骤S3中,判断所述硬件的异常状态以及所述存储特性指标的异常状态是否符合容错机制,进一步包括:
对所述固态硬盘的磨损度、所述风扇的转速、所述硬件的温度、CPU的故障比例、所述风扇的故障比例、所述端口故障比例、所述电源的故障比例以及所述MDS故障个数分别设置对应的阈值;
根据所述阈值判断是否符合容错机制;
响应于符合容错机制,暂时记录异常状态且不进行上报流程。
具体的,在实际在应用中,因为传输或者业务等待等原因导致的偶发性故障较多,为保证存储集群状态监控的准确性,对于指标根据其作用位置,严重程度,当前存储状态,制定不同容错机制,对于硬件SSD盘磨损度、风扇转速、各硬件温度、各冗余组件的正常个数(也即CPU故障比例,风扇故障比例,端口故障比例,电源故障比例、MDS故障个数)、MDS故障个数,都采用容错机制,划分不同的影响级别阈值范围,只有达到最高级别的异常才进行上报。对于其影响范围不扩及整个存储的指标,我们降低其影响因子,保证对集群健康态故的准确率,其指标包含由于容量引起的存储特性阈值类错误、用于故障转移的SMB、三方服务器类错误。而对于MON、OSD、BOND类存储特性核心业务和架构相关的指标,其运行状态影响存储整个服务的可用性,将其设置为高级别的异常关注对象。容错处理的机制主要是根据故障指标发生的次数,发生的对象,业务处理耗时,当前系统的状态,相关联以及对系统的影响进行判断,是否可以立即进行下一步处理。如果不需要立即处理,则暂时记录此异常,如果需要立即处理则根据指标规则对故障制定影响因子。影响因子取值分为低中高三等。通常具有冗余机制的指标(如硬件温度,硬件转速,多硬件冗余工作)根据冗余策略可以设置不同的影响因子,对于三方服务设置低中级别影响因子,对于集群工作重要的指标设置高的影响因子。通过设置后,将这些故障上报。
在一些实施例中,容错处理机制从以下方式出发,按照错误X发生次数少于M次,X组件当前状态低于告警阈值N。例如,如当前风扇转速高于3000转,但是不满足告警阈值持续20min高于3000转。因此可以暂不上报。或者系统处于升级状态中,数据读取失败,则暂时忽略此类错误,待系统正常后,再看是否有此类报错。
在一些实施例中,步骤S4中,响应于所述硬件的异常状态以及所述存储特性指标的状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联,进一步还包括:
将所述硬盘、所述OSD、所述MDS以及所述控制器作为第一组合,将所述端口、所述SMB以及所述BOND作为第二组合,将所述控制器、所述CPU、所述主板以及所述风扇作为第三组合,将所述硬盘、所述配额以及所述三方服务作为第四组合;
判断异常状态的所述硬件与异常状态的所述存储特性指标是否同时存在于所述第一组合、所述第二组合、所述第三组合或第四组合;
响应于同时存在于所述第一组合、所述第二组合、所述第三组合或第四组合中的一个或多个,则将所述硬件的异常状态与所述存储特性指标的异常状态均设置为高级别的影响因子。
具体的,在进行故障影响因子制定上报时,将硬件和存储特性指标结合使用,如果仅仅是单指标异常,则根据异常制定中级或者低级别印象因子,如果指标异常的同时,引起其它指标故障,则会将故障的指标都设置为高级别影响因子,组合上报。如硬件类故障,会首先判定其满足的冗余机制,以及此时硬件的故障是否已经引起存储软件特性的异常,硬盘错误会判断OSD状态、MDS状态,端口故障会判断SMB服务和BOND状态。即在硬盘、OSD、MDS、控制器的第一组合中,在端口、SMB、BOND的第二组合中,在控制器、CPU、主板、风扇的第三组合中,在硬盘、配额、三方服务的第四组合中,每个组合中任意两个出现异常,则认为是关联指标异常,并且均设置为高/紧急影响因子。
在一些实施例中,在步骤S6中,根据所述影响因子的级别进行评分并将所述评分返回用户,进一步包括:
在初始分数的基础上减去所述影响因子对应的预设分数以得到最终得分;
将所述最终得分、若干个扣分内容、每一个扣分内容对应的扣分分值以及修复建议封装后上报用户。
具体的,为了提升用户体验,同时降低运维人员的工作复杂度,可以对异常提供修复策略,如对于硬盘容量不足提醒用户进行扩容,对于故障盘进行替换磁盘,对于风险盘提醒用户尽快进行数据迁移,对于三方服务,进行服务可用性测试等。为了提高监控系统的准确性,可以增加节点得分项目,节点得分根据影响因子,对上报的报警进行影响因子判断扣分,高影响因子扣30分,中度扣25/20/15分,低级别扣10/5/3分。节点的初始得分为100分,扣完为止,不得负分。然后将节点得分,具体扣分内容,每个扣分内容扣分分值,建议修复措施封装之后上报给用户,方便用户根据异常情况进行异常修复。
本发明提出的方案通过设计合理的整体集群监控系统,其监控的层次不再是业务处理的最上层,而是在核心处理业务流的底层和上层同时进行监控,选用的指标不再是性能容量一些侧面反应存储健康状态的指标,而是硬件和存储本身的特性这种直接属于存储最核心业务逻辑指标作为监控对象。其中硬件指标的选择从数据存储、磁盘类型、设备工作、业务处理方面出发,选择SSD磁盘,机械盘,CPU,主板,风扇,端口,控制器,电源;从分布式存储系统的Ceph架构的特有特性,业务处理,存储工作基础角度出发,选择MON,OSD,BOND,配额,SMB,MDS,三方服务器做为存储特性方面的关键监控指标。对于监控指标上报之前根据监控的规则制定容错处理机制,以及异常上报机制,从而增加系统的容错性和准确性。对于最终上报的故障,不是简单的正常和异常反馈给用户,而是综合起来以健康分数的形式提供给用户,让用户能够明确异常发生的影响程度,以及集群真正的总体健康状态。这样从指标选择的全面性,准确性,从业务处理的覆盖度,从最终结果呈现的清晰度方面,实现基于存储特性和硬件的Ceph分布式存储系统监控模式。
基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种分布式存储系统的监控系统400,如图2所示,包括:
401监控模块,所述监控模块401配置为分别对每一个节点的IO处理流和硬件的状态进行监控;
402第一响应模块,所述第一响应模块402配置为响应于监控到所述IO处理流的状态异常并且所述硬件的状态异常,获取系统的存储特性指标的异常状态;
403判断模块,所述判断模块403配置为判断所述硬件的异常状态以及获取到的所述存储特性指标的异常状态是否符合容错机制;
404第二响应模块,所述第二响应模块404配置为响应于所述硬件的异常状态以及所述存储特性指标的异常状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联;
405第三响应模块,所述第三响应模块405配置为响应于所述硬件的异常状态与所述存储特征指标的异常状态之间不存在关联,根据所述硬件的异常状态以及所述存储特性指标的异常状态分别确定相应级别的影响因子;
406上报模块,所述上报模块406配置为根据所述影响因子的级别进行评分并将所述评分返回用户。
基于同一发明构思,根据本发明的另一个方面,如图3所示,本发明的实施例还提供了一种计算机设备501,包括:
至少一个处理器520;以及
存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行如上的任一种分布式存储系统的监控方法的步骤。
基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行时执行如上的任一种分布式存储系统的监控方法的步骤。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,典型地,本发明实施例公开的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种分布式存储系统的监控方法,其特征在于,包括以下步骤:
分别对每一个节点的IO处理流和硬件的状态进行监控;
响应于监控到所述IO处理流的状态异常并且所述硬件的状态异常,获取系统的存储特性指标的异常状态;
判断所述硬件的异常状态以及获取到的所述存储特性指标的异常状态是否符合容错机制;
响应于所述硬件的异常状态以及所述存储特性指标的异常状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联;
响应于所述硬件的异常状态与所述存储特征指标的异常状态之间不存在关联,根据所述硬件的异常状态以及所述存储特性指标的异常状态分别确定相应级别的影响因子;
根据所述影响因子的级别进行评分并将所述评分返回用户。
2.如权利要求1所述的方法,其特征在于,对每一个节点的IO处理流进行监控,进一步包括:
利用预设在主机接口层、IO管理层、缓存层、存储池层设置的故障嗅探器进行业务监控;
其中,所述业务监控包括:对所述主机接口层进行捕获路径调度结果的监控,对所述IO管理层进行捕获数据转发和数据保护类的监控,对所述缓存层进行缓存分区和缓存镜像的监控,对所述存储池层进行不同卷的虚拟化处理状态的监控。
3.如权利要求1所述的方法,其特征在于,对每一个节点的硬件的状态进行监控,进一步包括:
利用预设在硬盘、CPU、主板、风扇、电源、端口和控制器上设置的故障嗅探器进行监控;
其中,所述监控包括:对机械硬盘进行运行状态和健康状态的监控;对固态磁盘进行磨损度的监控;对所述CPU进行温度、故障比例以及运行状态的监控;对所述主板进行温度的监控;对所述风扇进行转速、故障比例以及运行状态的监控;对所述电源进行故障比例以及运行状态的监控;对所述端口进行故障比例、速率和状态的监控;对所述控制器进行运行状态的监控。
4.如权利要求3所述的方法,其特征在于,获取系统的存储特性指标的状态,进一步包括:
获取所述系统的MON状态、OSD状态、BOND状态、配额、SMB状态、MDS故障个数以及三方服务器的状态。
5.如权利要求4所述的方法,其特征在于,判断所述硬件的异常状态以及所述存储特性指标的异常状态是否符合容错机制,进一步包括:
对所述固态硬盘的磨损度、所述风扇的转速、所述硬件的温度、CPU的故障比例、所述风扇的故障比例、所述端口故障比例、所述电源的故障比例以及所述MDS故障个数分别设置对应的阈值;
根据所述阈值判断是否符合容错机制;
响应于符合容错机制,暂时记录异常状态且不进行上报流程。
6.如权利要求5所述的方法,其特征在于,响应于所述硬件的异常状态以及所述存储特性指标的状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联,进一步还包括:
将所述硬盘、所述OSD、所述MDS以及所述控制器作为第一组合,将所述端口、所述SMB以及所述BOND作为第二组合,将所述控制器、所述CPU、所述主板以及所述风扇作为第三组合,将所述硬盘、所述配额以及所述三方服务作为第四组合;
判断异常状态的所述硬件与异常状态的所述存储特性指标是否同时存在于所述第一组合、所述第二组合、所述第三组合或第四组合;
响应于同时存在于所述第一组合、所述第二组合、所述第三组合或第四组合中的一个或多个,则将所述硬件的异常状态与所述存储特性指标的异常状态均设置为高级别的影响因子。
7.如权利要求1所述的方法,其特征在于,根据所述影响因子的级别进行评分并将所述评分返回用户,进一步包括:
在初始分数的基础上减去所述影响因子对应的预设分数以得到最终得分;
将所述最终得分、若干个扣分内容、每一个扣分内容对应的扣分分值以及修复建议封装后上报用户。
8.一种分布式存储系统的监控系统,其特征在于,包括:
监控模块,所述监控模块配置为分别对每一个节点的IO处理流和硬件的状态进行监控;
第一响应模块,所述第一响应模块配置为响应于监控到所述IO处理流的状态异常并且所述硬件的状态异常,获取系统的存储特性指标的异常状态;
判断模块,所述判断模块配置为判断所述硬件的异常状态以及获取到的所述存储特性指标的异常状态是否符合容错机制;
第二响应模块,所述第二响应模块配置为响应于所述硬件的异常状态以及所述存储特性指标的异常状态不符合容错机制,判断所述硬件的异常状态与所述存储特性指标的异常状态之间是否存在关联;
第三响应模块,所述第三响应模块配置为响应于所述硬件的异常状态与所述存储特征指标的异常状态之间不存在关联,根据所述硬件的异常状态以及所述存储特性指标的异常状态分别确定相应级别的影响因子;
上报模块,所述上报模块配置为根据所述影响因子的级别进行评分并将所述评分返回用户。
9.一种计算机设备,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如权利要求1-7任意一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行如权利要求1-7任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010631321.7A CN111858240B (zh) | 2020-07-03 | 2020-07-03 | 一种分布式存储系统的监控方法、系统、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010631321.7A CN111858240B (zh) | 2020-07-03 | 2020-07-03 | 一种分布式存储系统的监控方法、系统、设备以及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858240A true CN111858240A (zh) | 2020-10-30 |
CN111858240B CN111858240B (zh) | 2023-01-06 |
Family
ID=73153518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010631321.7A Active CN111858240B (zh) | 2020-07-03 | 2020-07-03 | 一种分布式存储系统的监控方法、系统、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858240B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463608A (zh) * | 2020-11-30 | 2021-03-09 | 中国工商银行股份有限公司 | 基于分布式存储的测试方法及系统 |
CN112506725A (zh) * | 2020-12-04 | 2021-03-16 | 苏州浪潮智能科技有限公司 | 一种返修固态硬盘等级判定方法、装置、设备及可读介质 |
CN113204467A (zh) * | 2021-05-12 | 2021-08-03 | 北京百度网讯科技有限公司 | 线上业务系统的监控方法、装置、设备及存储介质 |
WO2022257392A1 (zh) * | 2021-06-09 | 2022-12-15 | 浙江宇视科技有限公司 | 数据检索预测方法、装置、电子设备及可读介质 |
CN115831334A (zh) * | 2022-11-10 | 2023-03-21 | 江苏智先生信息科技有限公司 | 一种用于医疗机构的安全防护管理监测系统及管理平台 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111258856A (zh) * | 2020-02-16 | 2020-06-09 | 苏州浪潮智能科技有限公司 | 一种固态硬盘运行状态监测的方法、系统、设备及介质 |
-
2020
- 2020-07-03 CN CN202010631321.7A patent/CN111858240B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111258856A (zh) * | 2020-02-16 | 2020-06-09 | 苏州浪潮智能科技有限公司 | 一种固态硬盘运行状态监测的方法、系统、设备及介质 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463608A (zh) * | 2020-11-30 | 2021-03-09 | 中国工商银行股份有限公司 | 基于分布式存储的测试方法及系统 |
CN112463608B (zh) * | 2020-11-30 | 2024-01-26 | 中国工商银行股份有限公司 | 基于分布式存储的测试方法及系统 |
CN112506725A (zh) * | 2020-12-04 | 2021-03-16 | 苏州浪潮智能科技有限公司 | 一种返修固态硬盘等级判定方法、装置、设备及可读介质 |
CN112506725B (zh) * | 2020-12-04 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种返修固态硬盘等级判定方法、装置、设备及可读介质 |
CN113204467A (zh) * | 2021-05-12 | 2021-08-03 | 北京百度网讯科技有限公司 | 线上业务系统的监控方法、装置、设备及存储介质 |
CN113204467B (zh) * | 2021-05-12 | 2024-01-30 | 北京百度网讯科技有限公司 | 线上业务系统的监控方法、装置、设备及存储介质 |
WO2022257392A1 (zh) * | 2021-06-09 | 2022-12-15 | 浙江宇视科技有限公司 | 数据检索预测方法、装置、电子设备及可读介质 |
CN115831334A (zh) * | 2022-11-10 | 2023-03-21 | 江苏智先生信息科技有限公司 | 一种用于医疗机构的安全防护管理监测系统及管理平台 |
CN115831334B (zh) * | 2022-11-10 | 2023-10-03 | 江苏智先生信息科技有限公司 | 一种用于医疗机构的安全防护管理监测系统及管理平台 |
Also Published As
Publication number | Publication date |
---|---|
CN111858240B (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858240B (zh) | 一种分布式存储系统的监控方法、系统、设备以及介质 | |
Gunawi et al. | Fail-slow at scale: Evidence of hardware performance faults in large production systems | |
Xu et al. | Improving service availability of cloud systems by predicting disk error | |
US7496796B2 (en) | Apparatus, system, and method for predicting storage device failure | |
CN102880522B (zh) | 面向硬件故障的系统关键文件故障纠正方法及装置 | |
CN110046061A (zh) | 内存错误处理方法和装置 | |
US20070079170A1 (en) | Data migration in response to predicted disk failure | |
US11030038B2 (en) | Fault prediction and detection using time-based distributed data | |
WO2014088559A1 (en) | Determining suspected root causes of anomalous network behavior | |
US10732873B1 (en) | Timeout mode for storage devices | |
CN110750213A (zh) | 一种硬盘管理方法及装置 | |
US10831587B2 (en) | Determination of cause of error state of elements in a computing environment based on an element's number of impacted elements and the number in an error state | |
WO2023226380A1 (zh) | 一种磁盘处理方法、系统及电子设备 | |
CN110291505A (zh) | 减少应用的恢复时间 | |
WO2017220013A1 (zh) | 业务处理方法及装置、存储介质 | |
US8984333B2 (en) | Automatic computer storage medium diagnostics | |
CN111221775A (zh) | 处理器、缓存处理方法及电子设备 | |
US7546489B2 (en) | Real time event logging and analysis in a software system | |
CN110968456B (zh) | 分布式存储系统中故障磁盘的处理方法及装置 | |
JP7082285B2 (ja) | 監視システム、監視方法および監視プログラム | |
CN109542687B (zh) | 一种raid级别转换方法及装置 | |
CN108536822A (zh) | 数据迁移方法、装置、系统及存储介质 | |
CN113485872A (zh) | 故障处理方法、装置及分布式存储系统 | |
CN115686951A (zh) | 一种数据库服务器的故障处理方法和装置 | |
CN112306815B (zh) | Ceph中OSD侧主从间IO信息监控方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |