CN114064374A

CN114064374A - 一种基于分布式块存储的故障检测方法和系统

Info

Publication number: CN114064374A
Application number: CN202111339403.5A
Authority: CN
Inventors: 刘懿
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-18

Abstract

本发明提供一种基于分布式块存储的故障检测方法和系统，该方法，包括：采集存储节点中各个磁盘对用户读写请求的响应速度；判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件；若任一个磁盘对用户读写请求的响应速度不满足预设响应条件，则判定相应的磁盘存在故障；从而实现从软件层面监控分布式块存储系统中磁盘是否故障的方法，可以较早发现磁盘故障，进行故障隔离。

Description

一种基于分布式块存储的故障检测方法和系统

技术领域

本发明属于存储系统的故障检测技术领域，更具体的说，尤其涉及一种基于分布式块存储的故障检测方法和系统。

背景技术

一种分布式存储系统Ceph，其可以支持块存储协议，提供分布式块存储系统服务；该Ceph包含存储节点、管控节点、监控节点；其中，同一份数据存储在多个存储节点上，当单个存储节点上的磁盘故障，如磁盘出现坏道，此时读写该坏道上的数据失败，监控节点对存储节点上的全量数据进行一致性校验，发现多个存储节点上的数据校验值不一致上报管控节点，管控节点收到数据校验值不一致的信息后，会将故障磁盘剔除出集群，等待人工修复或替换该故障磁盘，修复或替换完成后将其重新加入集群。

现有技术对磁盘的监控，都是从物理硬件层面出发，当硬件层面发现故障时，为时较晚。

发明内容

有鉴于此，本发明的目的在于提供一种基于分布式块存储的故障检测方法和系统，用于实现较早发现磁盘故障，进行故障隔离。

本申请第一方面公开了一种基于分布式块存储的故障检测方法，包括：

采集存储节点中各个磁盘对用户读写请求的响应速度；

判断各个所述磁盘对用户读写请求的响应速度是否满足预设响应条件；

若任一个所述磁盘对用户读写请求的响应速度不满足所述预设响应条件，则判定相应的磁盘存在故障。

可选的，在上述基于分布式块存储的故障检测方法中，所述判断各个所述磁盘对用户读写请求的响应速度是否满足预设响应条件，包括：

判断各个所述磁盘在第一预设个数的统计周期中是否存在超过第二预设个数的统计周期为慢周期；其中，所述磁盘在一个统计周期中对用户读写请求的响应速度小于预设响应速度的总时长大于预设时长，则相应的统计周期为慢周期；所述预设时长小于等于所述统计周期，所述第一预设个数大于所述第二预设个数；

若任一个所述磁盘在第一预设个数的统计周期中存在超过第二预设个数的统计周期为慢周期，则判定相应的磁盘对用户读写请求的响应速度不满足所述预设响应条件；

若任一个所述磁盘在第一预设个数的统计周期中存在不超过第二预设个数的统计周期为慢周期，则判定相应的磁盘对用户读写请求的响应速度满足所述预设响应条件。

可选的，在上述基于分布式块存储的故障检测方法中，所述第二预设个数为所述第一预设个数的一半。

可选的，在上述基于分布式块存储的故障检测方法中，在所述判定相应的磁盘存在故障之后，还包括：

将存在故障的磁盘隔离出集群，并将相应存储节点上的冗余磁盘加入所述集群。

可选的，在上述基于分布式块存储的故障检测方法中，将存在故障的磁盘隔离出集群之后，还包括：

使用磁盘修复工具对存在故障的磁盘进行修复；

若修复成功，则将修复成功的磁盘充当相应存储节点的冗余磁盘；

若修复失败，则生成告警信息；其中，所述告警信息包括：修复失败的磁盘信息。

本申请的第二方面公开了一种基于分布式块存储的故障检测系统，包括：

监控节点，用于采集存储节点中各个磁盘对用户读写请求的响应速度；判断各个所述磁盘对用户读写请求的响应速度是否满足预设响应条件；若任一个所述磁盘对用户读写请求的响应速度不满足所述预设响应条件，则判定相应的磁盘存在故障。

可选的，在上述基于分布式块存储的故障检测系统中，监控节点，用于判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件时，具体用于：

可选的，在上述基于分布式块存储的故障检测系统中，所述监控节点还用于将出现故障的磁盘信息及其对应的存储节点IP信息发送至管控节点；

所述管控节点，用于将存在故障的磁盘隔离出集群，并将相应存储节点上的冗余磁盘加入所述集群。

可选的，在上述基于分布式块存储的故障检测系统中，所述存储节点，用于使用磁盘修复工具对存在故障的磁盘进行修复；

若修复成功，则所述存储节点通知所述管控节点已修复成功，以使所述管控节点将已修复成功的磁盘充当相应存储节点的冗余磁盘；

若修复失败，则所述存储节点通知所述管控节点相应的磁盘已损坏，以使所述管控节点将相应的磁盘已损坏的信息推送给告警节点。

可选的，在上述基于分布式块存储的故障检测系统中，所述告警节点，用于将所述管控节点推送的信息关键字组装成告警信息发送至上位机、以通知运维人员。

从上述技术方案可知，本发明提供的一种基于分布式块存储的故障检测方法，包括：采集存储节点中各个磁盘对用户读写请求的响应速度；判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件；若任一个磁盘对用户读写请求的响应速度不满足预设响应条件，则判定相应的磁盘存在故障；从而实现从软件层面监控分布式块存储系统中磁盘是否故障的方法，可以较早发现磁盘故障，进行故障隔离。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于分布式块存储的故障检测方法的流程图；

图2是本发明实施例提供的另一种基于分布式块存储的故障检测方法的流程图；

图3是本发明实施例提供的另一种基于分布式块存储的故障检测方法的流程图；

图4是本发明实施例提供的另一种基于分布式块存储的故障检测方法的流程图；

图5是本发明实施例提供的另一种基于分布式块存储的故障检测方法的流程图；

图6是本发明实施例提供的一种基于分布式块存储的故障检测系统的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要说明的是，分布式块存储系统：分布式块存储系统是指通过网络使用企业中的每台机器上的磁盘空间，并将这些分散的存储资源构成一个虚拟的存储设备，数据分散的存储在企业服务器上，通过多台服务器并行处理来对外提供高性能的读写。

Ceph：一种分布式存储系统，可以支持块存储协议，提供分布式块存储系统服务。

存储节点：数据实际存储的服务器节点，将数据持久化存储到服务器上的物理磁盘中。

管控节点：整个存储集群的控制中心，负责所有元数据的管理以及监控集群健康状况，同时协助存储集群进行快速的故障恢复。

监控节点：监控存储节点数据读取速度，并把监控数据处理上报给管控节点。

本申请实施例提供了一种基于分布式块存储的故障检测方法，用于解决现有技术中对磁盘的监控，都是从物理硬件层面出发，当硬件层面发现故障时，为时较晚的问题。

参见图1，该基于分布式块存储的故障检测方法，包括：

S101、采集存储节点中各个磁盘对用户读写请求的响应速度。

需要说明的是，当获取到用户的读写请求时，该分布式块存储系统将相应用户的请求，进行读写。此时，磁盘的读写速度，也进一步反应了其响应速度。

一般来说，磁盘的正常度越高，其响应速度越快，随着使用过程的损耗和其响应速度会变得越来越慢；另外，在磁盘可能存在故障或者说即将存在故障时，其当前状态会影响其响应速度。

S102、判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件。

由上述说明可知，磁盘的响应速度和磁盘的正常度相关；因此，本步骤通过对磁盘对用户读写请求的响应速度来判断磁盘是否存在故障。

需要说明的是，该预设响应条件可以是磁盘对用户读写请求的响应速度小于预设响应速度。

当然，还可以是设置磁盘对用户读写请求的响应速度小于预设响应速度的时间或者次数是否达到相应阈值来判断是否存在故障。

该步骤S102的具体过程，此处不再一一赘述，视实际情况而定即可，均在本申请的保护范围内。

若任一个磁盘对用户读写请求的响应速度不满足预设响应条件，则执行步骤S103。

S103、判定相应的磁盘存在故障。

在实际应用中，如图2所示，在步骤S102之后，若任一个磁盘对用户读写请求的响应速度满足预设响应条件，则执行步骤S104。

S104、判定相应的磁盘正常。

也即是说，通过软件监控磁盘上的每次读写请求耗时，对于耗时达到故障阈值或者读写请求失败的磁盘判定为故障磁盘，以此来实现故障检测功能。

需要说明的是，Ceph是一种分布式存储系统，具有高性能、高可用性、高可扩展性、易管理、大容量等优势，可以支持块设备存储的调用接口。Ceph相较于其它存储的优势点在于实现存储功能的同时还充分利用了存储节点上的计算能力，在存储数据时，都会通过特定的CRUSH(Controlled Replication UnderScalableHashing可控的、可扩展的、分布式的副本数据放置算法)算法计算得出该数据存储的位置，尽量将数据打散、分布均衡，同时可以由管理员自定义存储节点副本数，使得它不存在传统的单点故障问题。Ceph在运行过程中，磁盘故障是最为常见的故障之一，仅仅依靠磁盘的物理监控的话难以提前发现故障，等到发现时往往为时已晚，影响用户使用。

而本实施例中，通过采集存储节点中各个磁盘对用户读写请求的响应速度；判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件；若任一个磁盘对用户读写请求的响应速度不满足预设响应条件，则判定相应的磁盘存在故障；从而实现从软件层面监控分布式块存储系统中磁盘是否故障的方法，可以较早发现磁盘故障，进行故障隔离。也就是说，分布式块存储系统常用于读写密集型的应用场景当中，磁盘故障率高，相较于现有的磁盘硬件监控，本发明通过软件监控磁盘上数据读写速度来判断磁盘是否存在故障。

在实际应用中，如图3(图3以在图2的基础为例进行展示)所示，步骤S102的具体过程可以为：

S201、判断各个磁盘在第一预设个数的统计周期中是否存在超过第二预设个数的统计周期为慢周期。

其中，在一个统计周期中对用户读写请求的响应速度小于预设响应速度的总时长大于预设时长。

预设时长小于等于统计周期；第二预设个数小于第一预设个数。

在实际应用中，第二预设个数为第一预设个数的一半。当然，该第一预设个数和第二预设个数之间的关系，也可以是其他关系，此处不再一一赘述，只要保证该第二预设个数不大于该第一预设个数即可，均在本申请的保护范围内。

例如，比如以500ms为一个统计周期为例进行说明：在一个统计周期内有50％以上的读写请求响应时长超过200ms，则标记该统计周期为慢周期，若20个统计周期内出现超过10个慢周期，则判定该块磁盘存在故障；若20个统计周期内未出现为超过10个慢周期，则判定该块磁盘不存在故障、正常。

当然，上述预设时长、统计周期、第一预设个数和第二预设个数，仅是一种示例，其具体取值此处不做具体限定，视实际情况而定即可，均在本申请的保护范围内。

若任一个磁盘在第一预设个数的统计周期中存在超过第二预设个数的统计周期为慢周期，则判定相应的磁盘对用户读写请求的响应速度不满足预设响应条件。

若任一个磁盘在第一预设个数的统计周期中存在超过第二预设个数的统计周期为慢周期，则判定相应的磁盘对用户读写请求的响应速度满足预设响应条件。

在本实施例中，现有技术监控硬件状态时效差距达到数天，而本实施例提供的统计周期都是毫秒级别，本申请可以更早发现磁盘故障。

值得说明的是，在发现磁盘故障后，进行有效的隔离与发现，是保证数据的安全的必要手段。

基于此，在实际应用中，参见图4(以在图3的基础为例进行展示)，在步骤S103之后，还包括：

S301、将存在故障的磁盘隔离出集群，并将相应存储节点上的冗余磁盘加入集群。

分布式块存储系统磁盘IO访问频繁，磁盘故障率较高；如果仅对磁盘硬件进行监控，磁盘故障发现时间较晚，故障隔离不及时，长时间影响业务数据读写。

分布式块存储系统要求能够在软件层面实现自动容错，当存储节点出现故障时候，系统能够自动检测出来，将故障的存储节点自动隔离，并将原有的数据和服务迁移到集群中其他正常工作的节点。

值得说明的是，现有技术中检测到磁盘故障并进行隔离后，人工有可能无法立刻进行磁盘替换；此时如果进行数据迁移的话，会影响数据分布的均衡性，且频繁的数据迁移过程中会带来IO争用问题；如果不进行数据迁移的话，会减少可用副本数，降低高可用能力。

相较于传统存储，分布式块存储系统通常提供多个副本存储数据，假设采用3副本存储数据，即将一份数据保存在三台服务器上的磁盘中。当发生单块磁盘故障后，需要运维人员及时进行磁盘替换，否则数据就只保留在两块磁盘当中，降低了高可用能力。

因此，在本实施例中，在每台存储节点增加一块冗余磁盘的方法，在单块硬盘故障时候，管控节点将冗余磁盘加入工作当中，避免进行数据迁移的问题，提高数据高可用性、给人工替换故障磁盘留下充足的时间。

在实际应用中，参见图5，在步骤S301所涉及的存在故障的磁盘隔离出集群之后，还包括：

S401、使用磁盘修复工具对存在故障的磁盘进行修复。

若修复成功，则执行步骤S402。

S402、将修复成功的磁盘充当相应存储节点的冗余磁盘。

需要说明的是，冗余磁盘用于在自身所处存储节点中相应磁盘出现故障时，将该冗余磁盘替换该故障磁盘继续进行读写，避免长时间影响业务数据读写。

若修复失败，则执行步骤S403。

S403、生成告警信息。

其中，告警信息包括：修复失败的磁盘信息。

若修复失败，则说明相应存储节点失去可用的冗余磁盘，虽然目前存储节点已经正常读写，但是为避免该存储节点因为其磁盘故障再次处于故障状态，而无冗余磁盘替换；因此，需要生成告警信息，以警示运维人员替换或人工修复磁盘，以使该存储节点具备可用的冗余磁盘。

本申请另一实施例提供了一种基于分布式块存储的故障检测系统。

该基于分布式块存储的故障检测系统，包括：

监控节点，用于采集存储节点中各个磁盘对用户读写请求的响应速度；判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件；若任一个磁盘对用户读写请求的响应速度不满足预设响应条件，则判定相应的磁盘存在故障。

在实际应用中，监控节点，用于判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件时，具体用于：

判断各个磁盘在第一预设个数的统计周期中是否存在超过第二预设个数的统计周期为慢周期；其中，磁盘在一个统计周期中对用户读写请求的响应速度小于预设响应速度的总时长大于预设时长，则相应的统计周期为慢周期；预设时长小于等于统计周期，第一预设个数大于第二预设个数。

若任一个磁盘在第一预设个数的统计周期中存在不超过第二预设个数的统计周期为慢周期，则判定相应的磁盘对用户读写请求的响应速度满足预设响应条件。

在实际应用中，监控节点还用于将出现故障的磁盘信息及其对应的存储节点IP信息发送至管控节点。

管控节点，用于将存在故障的磁盘隔离出集群，并将相应存储节点上的冗余磁盘加入集群。

在实际应用中，存储节点，用于使用磁盘修复工具对存在故障的磁盘进行修复。

若修复成功，则存储节点通知管控节点已修复成功，以使管控节点将已修复成功的磁盘充当相应存储节点的冗余磁盘。

若修复失败，则存储节点通知管控节点相应的磁盘已损坏，以使管控节点将相应的磁盘已损坏的信息推送给告警节点。

在实际应用中，告警节点，用于将管控节点推送的信息关键字组装成告警信息发送至上位机、以通知运维人员。

具体的，如图6所示，通过监控节点实现软件层面的监控，监控节点实时采集存储节点中每块磁盘对用户读写请求的响应速度，如果某块磁盘对读写请求响应时间过长或响应失败，监控节点对采集到的请求响应时长进行统计分析，根据设置的特定上报策略。

比如以500ms为一个统计周期，在一个统计周期内有50％以上的读写请求响应时长超过200ms，则标记该统计周期为慢周期，20个统计周期内如果出现超过10个慢周期，监控节点则判定该块磁盘存在故障；将存储节点IP信息、磁盘信息上报给管控节点，管控节点将该存储节点上的故障磁盘隔离出集群，同时将存储节点上的冗余磁盘加入集群当中，与其他存储节点上的磁盘组成磁盘对，形成多副本的高可用，同时将其他副本磁盘上的数据拷贝到新加入集群的磁盘当中。

对于故障磁盘，存储节点使用磁盘修复工具进行修复，如果修复成功则通知管控节点故障磁盘已修复成功，可以充当冗余盘；如果修复失败则通知管控节点该磁盘已损坏无法修复，管控节点对接告警节点，将该磁盘已损坏的信息推送给告警节点，告警节点接受管控节点推送的信息关键字组装成告警短信，包括告警时间、告警描述、告警名称、节点IP、磁盘SN(SerialNumber)拼接组装成告警短信发送给运维人员，通知运维人员进行磁盘替换。

各个节点的工作原理和工作过程，详情参见上述实施例提供的基于分布式块存储的故障检测方法，此处不再一一赘述，均在本申请的保护范围内。

在本实施例中，现有技术对故障磁盘的修复、更换流程较为复杂，不能及时更换故障磁盘；本发明在存储节点上提供一块冗余磁盘，正在使用的磁盘发生故障后，管控节点将冗余磁盘加入使用。

本说明书中的各个实施例中记载的特征可以相互替换或者组合，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于分布式块存储的故障检测方法，其特征在于，包括：

采集存储节点中各个磁盘对用户读写请求的响应速度；

2.根据权利要求1所述的基于分布式块存储的故障检测方法，其特征在于，所述判断各个所述磁盘对用户读写请求的响应速度是否满足预设响应条件，包括：

3.根据权利要求1所述的基于分布式块存储的故障检测方法，其特征在于，所述第二预设个数为所述第一预设个数的一半。

4.根据权利要求1所述的基于分布式块存储的故障检测方法，其特征在于，在所述判定相应的磁盘存在故障之后，还包括：

5.根据权利要求4所述的基于分布式块存储的故障检测方法，其特征在于，将存在故障的磁盘隔离出集群之后，还包括：

使用磁盘修复工具对存在故障的磁盘进行修复；

6.一种基于分布式块存储的故障检测系统，其特征在于，包括：

7.根据权利要求6所述的基于分布式块存储的故障检测系统，其特征在于，监控节点，用于判断各个磁盘对用户读写请求的响应速度是否满足预设响应条件时，具体用于：

8.根据权利要求6所述的基于分布式块存储的故障检测系统，其特征在于，所述监控节点还用于将出现故障的磁盘信息及其对应的存储节点IP信息发送至管控节点；

9.根据权利要求8所述的基于分布式块存储的故障检测系统，其特征在于，所述存储节点，用于使用磁盘修复工具对存在故障的磁盘进行修复；

10.根据权利要求9所述的基于分布式块存储的故障检测系统，其特征在于，所述告警节点，用于将所述管控节点推送的信息关键字组装成告警信息发送至上位机、以通知运维人员。