CN115269325A

CN115269325A - 热维修方法、系统及相关装置

Info

Publication number: CN115269325A
Application number: CN202210893999.1A
Authority: CN
Inventors: 闫小龙; 王鹏
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-01

Abstract

本说明书一个或多个实施例公开了一种热维修方法、系统及相关装置，该方案中存储节点对本地维护的数据盘进行故障检测，并将故障信息上报给故障管理节点进行合法性验证，在验证合法后将维修服务下发给存储节点，存储节点请求存储管控节点为故障数据盘进行数据备份，释放故障数据盘的资源；故障管理节点通知运维方热插拔更换故障数据盘，并在检测硬件状态正常时确定完成本次维修服务。整个热维修过程几乎不需要人工参与，实现数据盘尤其是用户态数据盘的自动热维修，保证节点设备在线率，降低维修成本，提升维修效率。

Description

热维修方法、系统及相关装置

技术领域

本文件涉及分布式存储技术领域，尤其涉及一种热维修方法、系统及相关装置。

背景技术

分布式存储，是将数据分散存储在多台独立的设备上。而分布式存储系统普遍构建于Linux系统之上，在Linux系统中硬件驱动程序按照运行的地址空间不同，可以分为内核态和用户态，相应地，每个分布式存储节点中的存储介质被划分为内核态数据盘和用户态数据盘。由于内核态驱动程序的单核性能很低，业界普遍采用用户态驱动程序结合用户态软件栈的方案来提高单核性能。

然而，现有的分布式存储系统并不支持用户态数据盘的热维修，一旦分布式存储系统中一个节点设备出现一块故障的用户态数据盘，需要将该节点设备整机下线离线维修，导致分布式存储系统的节点设备在线率低，且需要较多人工干预，维修效率低。

发明内容

本说明书一个或多个实施例的目的是提供一种热维修方法、系统及相关装置，以实现数据盘尤其是用户态数据盘的自动热维修，保证节点设备的在线率，降低维修成本，提升维修效率。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

第一方面，提出了一种热维修系统，包括：存储管控节点、故障管理节点以及存储节点；其中，

所述存储节点，用于对本地维护的至少一个数据盘进行故障检测，并将检测到的故障信息上报给所述故障管理节点；

所述故障管理节点，用于根据接收到的故障信息为对应的故障数据盘进行合法性验证，并在验证合法后将为所述故障数据盘创建的维修服务下发给所述存储节点；

所述存储节点，还用于根据接收的维修服务在本地创建对应的热维修子服务，并基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据，在完成备份后，释放所述故障数据盘的资源；

所述故障管理节点，还用于在获知所述故障数据盘的资源被释放后，通知运维方采用热插拔方式对所述故障数据盘进行更换，以及，对更换后的新数据盘进行硬件检测，并在检测到硬件状态正常时确定完成本次维修服务。

第二方面，提出了一种热维修方法，适用于包括：存储管控节点、故障管理节点以及存储节点的热维修系统，该热维修方法包括：

存储节点对本地维护的至少一个数据盘进行故障检测，并将检测到的故障信息上报给所述故障管理节点，以便于所述故障管理节点根据接收到的故障信息为对应的故障数据盘进行合法性验证，并在验证合法后将为所述故障数据盘创建的维修服务下发给所述存储节点；

所述存储节点根据接收的维修服务在本地创建对应的热维修子服务，并基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据，在完成备份后，释放所述故障数据盘的资源，以便于所述故障管理节点在获知所述故障数据盘的资源被释放后，通知运维方采用热插拔方式对所述故障数据盘进行更换，以及，对更换后的新数据盘进行硬件检测，并在检测到硬件状态正常时确定完成本次维修服务。

第三方法，提出了一种数据盘的热维修系统，部署在存储节点上，所述数据盘的热维修系统包括：

故障检测模块，用于对本地维护的至少一个数据盘进行故障检测，并将检测到的故障信息上报给所述故障管理节点，以便于所述故障管理节点根据接收到的故障信息为对应的故障数据盘进行合法性验证，并在验证合法后将为所述故障数据盘创建的维修服务下发给所述存储节点；

热维修模块，用于根据接收的维修服务在本地创建对应的热维修子服务，并基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据，在完成备份后，释放所述故障数据盘的资源，以便于所述故障管理节点在获知所述故障数据盘的资源被释放后，通知运维方采用热插拔方式对所述故障数据盘进行更换，以及，对更换后的新数据盘进行硬件检测，并在检测到硬件状态正常时确定完成本次维修服务。

第四方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行第二方面所述的热维修方法。

第五方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行第二方面所述的热维修方法。

由以上说明书一个或多个实施例提供的技术方案可见，通过分别设置存储管控节点和故障管理节点，以提供集中式管控服务，并在存储节点分别部署故障检测服务和热维修服务，这样，可以对存储节点本地维护的一个或多个数据盘进行故障检测，并将故障信息上报给故障管理节点进行合法性验证，并在验证合法后将为故障数据盘创建的维修服务下发给存储节点，接着，存储节点创建热维修子服务，并基于该热维修子服务请求存储管控节点为故障数据盘进行数据备份，在完成备份后，释放故障数据盘的资源；之后，故障管理节点通知运维方以热插拔方式更换故障数据盘，并在检测到更换后的新数据盘的硬件状态正常时确定完成本次维修服务。整个热维修过程几乎不需要人工参与，实现数据盘尤其是用户态数据盘的自动热维修，保证节点设备在线率，降低维修成本，提升维修效率。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对一个或多个实施例或现有技术描述中所需要使用的附图做简单介绍，显而易见地，以下描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本说明书实施例提供的一种热维修系统结构示意图之一。

图1b是本说明书实施例提供的一种热维修系统结构示意图之二。

图2是本说明书实施例提供的一种热维修方法的步骤示意图。

图3是本说明书实施例提供的一种分布式存储系统中数据盘的热维修流程示意图。

图4是本说明书实施例提供的一种数据盘的热维修系统的结构示意图。

图5是本说明书的一个实施例提供的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的一个或多个实施例只是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

考虑到存储系统中，一旦节点设备出现一块故障的数据盘，需要将该节点设备整机下线离线维修，节点设备的停机导致服务被中断，致使存储系统的节点设备在线率低；而且，维修过程需要较多人工干预，容易出错且维修效率低；此外，整个维修方案仅支持内核态数据盘，并不支持用户态数据盘。

鉴于此，本说明书实施例提出了一种新的存储系统中数据盘的热维修方案，通过在存储系统中分别设置存储管控节点和故障管理节点，以提供集中式管控服务，并在存储节点分别部署故障检测服务和热维修服务，这样，可以对存储节点本地维护的一个或多个数据盘进行故障检测，并将故障信息上报给故障管理节点进行合法性验证，并在验证合法后将为故障数据盘创建的维修服务下发给存储节点，接着，存储节点创建热维修子服务，并基于该热维修子服务请求存储管控节点为故障数据盘进行数据备份，在完成备份后，释放故障数据盘的资源；之后，故障管理节点通知运维方以热插拔方式更换故障数据盘，并在检测到更换后的新数据盘的硬件状态正常时确定完成本次维修服务。整个热维修过程几乎不需要人工参与，实现数据盘尤其是用户态数据盘的自动热维修，保证节点设备在线率，降低维修成本，提升维修效率。

参照图1a所示，为本说明书实施例提供的一种热维修系统，包括：存储管控节点102、故障管理节点104以及存储节点106。其中，存储管控节点102上运行有存储系统的管控服务，即为存储节点提供管控服务，例如，备份故障数据盘的数据。故障管理节点104上运行有存储系统的故障管理服务，即为存储节点提供故障管理服务，例如，提供故障上报接口，管理故障处理状态，管理维修服务等。存储节点106是该存储系统中的核心节点，主要利用各自的存储介质提供存储服务；在本说明书实施例中，参照图1b所示，该热维修系统可以包含多个存储节点106，且该存储节点106为分布式存储节点。即该热维修系统可以是针对分布式存储系统所提出的热维修方案。每个存储节点106上还可以运行用户态软件栈、操作系统内核以及用户态驱动等协助存储介质在不同状态下的切换以及驱动；此外，每个存储节点106上还运行有故障检测服务以及热维修服务，从而，协助存储管控节点102以及故障管理节点104完成对故障数据盘的热维修操作。

其实，在本说明书实施例中，分布式存储系统的管控服务以及故障管理服务都是集中式的，故分别运行在分布式存储节点以外的存储管控节点102和故障管理节点104上，类似于管理节点。一种可选的方案是，分布式存储系统的管控服务以及故障管理服务运行在一个节点上，即这里的存储管控节点102和故障管理节点104可以为同一管理节点。

所述存储节点106用于对本地维护的至少一个数据盘进行故障检测，并将检测到的故障信息上报给所述故障管理节点104。

数据盘的类型并不做限定，可以是各类存储介质，例如，机械硬盘HDD、串行固态硬盘SATA SSD、PCIe接口的固态硬盘PCIe SSD等。

应理解，故障检测服务是硬件维修的基础服务，运行在每个存储节点106上，负责本地各类硬件故障的发现和报修。尤其可以针对本地维护的一个或多个数据盘进行故障检测，一般情况下，硬件故障信息会通过日志输出，具体可以根据主动获取到的日志信息发现故障并报修。例如，存储节点106通过故障检测服务获取用户态软件栈的日志，以从日志信息中发现用户态数据盘的故障，同理，也可以通过故障检测服务获取内核态软件栈的日志，以从日志信息中发现内核态数据盘的故障。需要说明的是，该分布式存储系统中存储节点106应对接好不同类型数据盘在驱动使用过程中的日志文件、日志格式以及故障码等，例如，提前区分定义好内核态数据盘的日志信息以及用户态数据盘的日志信息，以为不同类型数据盘做好适配。

所述故障管理节点104用于根据接收到的故障信息为对应的故障数据盘进行合法性验证，并在验证合法后将为所述故障数据盘创建的维修服务下发给所述存储节点106。如上所述，该故障管理节点104提供的是集中式故障管理服务，主要负责分布式存储系统中所有硬件尤其是数据盘的故障管理。

首先，该故障管理节点104基于提供的故障上报接口，接收存储节点106通过故障检测服务上报的故障信息，其中，该故障信息中可以包括故障数据盘的盘信息，例如，序列号、槽位等。

之后，故障管理节点104可以根据故障信息中携带的盘信息，对故障数据盘产生的故障进行合法性验证，例如，检查故障信息中序列号是否在相应分布式存储节点的数据盘列表内；再如，检查故障信息对应的故障数据盘是否在正确的槽位。其实，还可以基于故障信息中其它盘信息对故障数据盘进行合法性验证，在此不做赘述。应理解，在对故障数据盘的故障进行合法性验证时，可以使用故障信息中一项盘信息或几项盘信息的组合进行验证，本说明书并不对此进行限定。

在验证合法后，故障管理节点104会为故障信息对应的每个故障数据盘创建维修服务，并将维修服务下发给对应的存储节点106。需要说明的是，每个故障信息来自一个存储节点106，由于故障管理节点104是提供的集中式服务，因此，故障管理节点104可以同时接收来自多个存储节点106的故障信息，每个故障信息可以携带一个或多个故障数据盘的盘信息。这样，在故障管理节点104创建维修服务时，可以基于每个故障信息创建一个维修服务，即一个故障信息对应一个维修服务，也可以基于每个故障信息中的每个故障数据盘创建一个维修服务，即一个故障数据盘对应一个维修服务。其实，故障管理节点104在创建维修服务时，可以根据接收到的故障信息的先后顺序依次创建，也可以事先在故障管理服务中设计多个创建线程以并行创建；而对于一个故障数据盘对应一个维修服务的情况而言，可以根据故障信息中每个故障数据盘的故障严重程度依次创建维修服务，其中，故障严重程度可以依据故障数据盘的故障类型、存储类型等进行评估。

故障管理节点104在创建维修服务之后，可以将维修服务发送给存储节点106，以通过热维修服务对该维修服务进行服务审批。可见，故障管理节点104不仅创建维修服务，还会对维修服务的服务状态进行管理；其中，维修服务的服务信息可以包含数据盘所在的存储节点ID、数据盘的逻辑ID等；维修服务的服务状态可以包括：待审批状态和审批成功状态；其中，待审批状态：是指维修服务刚创建完成，排队等待故障管理节点104发送给存储节点106的热维修服务进行审批；审批成功状态：是指获悉到故障数据盘完成备份并释放硬件资源后，或接收到故障数据盘完成备份并释放硬件资源后返回的响应消息后，确定审批通过，可以对故障数据盘进行热插拔更换。

所述存储节点106还用于根据接收的维修服务在本地创建对应的热维修子服务，并基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据，在完成备份后，释放所述故障数据盘的资源。

应理解，存储节点106的热维修服务维护有一份数据盘列表，该数据盘列表中记录有当前存储节点106内每个数据盘的盘符、容量、槽位、序列号、逻辑ID、文件系统类型(例如，ext4、用户态文件系统)等。

存储节点106在接收到故障管理节点104下发的维修服务后，可以在本地创建一个或多个热维修子服务；如果维修服务中仅记录有一个故障数据盘的服务信息，那么，可以只创建一个热维修子服务；维修服务中记录有多个故障数据盘的服务信息，可以创建多个热维修子服务；每个热维修子服务的子服务信息包含故障数据盘的逻辑ID，可以根据热维修子服务的子服务信息中携带的数据盘的逻辑ID，从数据盘列表中查询该逻辑ID对应的数据盘信息，并在该数据盘信息中做故障标记，以表示该数据盘信息对应的故障数据盘为旧盘。

在创建完热维修子服务之后，开始对热维修子服务进行审批。在本说明书实施例中，热维修子服务的审批过程包括两部分：数据备份和资源释放；其中，

数据备份，是指在热维修服务收到针对本存储节点的维修服务并创建针对故障数据盘的热维修子服务之后，向存储管控节点102发送备份请求，存储管控节点102基于接收到的备份请求，自动为本次热维修子服务对应的故障数据盘上的数据选择合适的其它新的存储节点，并发起数据复制操作，将故障数据盘上的数据复制到选择的其它分布式存储节点上。存储节点106向存储管控节点102轮询数据复制状态，直至数据复制操作结束确认完成备份。

资源释放，是指在故障数据盘完成数据备份后，热维修服务向本地的用户态软件栈请求释放故障数据盘的硬件资源，以防止在热插拔数据盘时导致用户态软件栈崩溃。

其实，在存储节点106确认故障数据盘完成数据备份以及资源释放之后，还可以自动触发故障数据盘的指示灯保持在闪烁状态，以方便运维方准确快捷的定位故障数据盘。

所述故障管理节点104还用于在获知所述故障数据盘的资源被释放后，通知运维方采用热插拔方式对所述故障数据盘进行更换，以及，对更换后的新数据盘进行硬件检测，并在检测到硬件状态正常时确定完成本次维修服务。

应理解，在本说明书实施例中，热插拔是指在分布式存储系统运行过程中插入或拔出对象设备，其中，这里的对象设备可以是本说明书中的数据盘，具体可以是用户态数据盘，其实也可以是内核态数据盘。

故障管理节点104在确认故障数据盘的资源被成功释放之后，可以通过发送告警消息或是报警的方式通知运维方，这里的运维方可以是数据中心的运维人员，也可以是运维机器人；在运维方收到通知后，携带新的数据盘前往定位好的节点设备处，采用热插拔方式将故障数据盘拔出，并插入新的数据盘。在完成更换后，故障管理节点104可以通过存储节点106对新数据盘进行硬件检测，检测该新数据盘是否能够被成功识别，如果成功识别，则确认检测到硬件状态正常，完成本次维修服务，否则，需要人工干预查找异常原因或进行更换，以便成功识别后确认检测硬件状态正常，完成本次维修服务。

以上维修服务完成，其实仅是完成了硬件的更换，之后，还可以进一步完成新数据盘的软件层面的更新。具体地，在所述故障管理节点104确定完成本次维修服务之后，存储节点106还用于执行以下操作：

①周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查。

具体实现时，可以周期性扫描本地每个槽位的数据盘，基于扫描到的数据盘的序列号与本地维护的数据盘列表进行比对，如果比对出新序列号，则确定扫描到新数据盘；考虑到更换故障数据盘的操作可能是人工执行，存在误操作的可能性，因此，可以对扫描到的新数据盘进行误操作检查，其中，误操作检查至少包括：检查新数据盘的序列号与所在槽位是否匹配，新数据盘是否有脏数据，检查在销毁静默期内是否拔错数据盘。

考虑到更换故障数据盘时，有可能拔错盘并将新数据盘插到本节点设备的其它槽位，因此，需要在发现新数据盘后检查序列号是否在当前数据盘列表中，以及序列号是否与槽位匹配。同时，还可能拔错盘后将新数据盘插到其它节点设备上，此时，需要检查新数据盘上是否有脏数据，如果有脏数据说明插错节点设备了，可以终止当前的热维修服务。为了防止拔错盘后有机会找回被拔错的数据盘，可以设置销毁静默期，例如2周或3周等，以便在发现误操作后及时找回。只有误操作检查通过后，扫描到的新数据盘才可以被认定为是有效的新数据盘。

②在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘。

遍历本地热维修子服务，基于每个未分配新数据盘的热维修子服务中故障数据盘的盘信息，为该热维修子服务确定出厂容量和盘介质类型均匹配的新数据盘。盘信息中可以携带有故障数据盘的盘规格，例如出厂容量、盘介质类型等。基于故障数据盘的盘信息，对新数据盘的盘规格进行校验：

出厂容量：校验新数据盘的出厂容量是否和旧盘(故障数据盘)一致，盘预留空间大小是否一致。从而，避免由于出厂容量不一致影响数据盘的用户可用空间、性能、寿命等。

盘介质类型：校验新数据盘的盘介质类型是否和旧盘一致。从而避免由于盘介质类型不同影响数据盘的性能和寿命。

应理解，在规格校验时，并不包括数据盘的槽位号校验，这是因为槽位可能会漂移，只要换盘时没有误操作、盘规格一致、盘是空盘，就可以认定为新数据盘。

③对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘信息，完成新数据盘上线。

具体实现时，可以将热维修子服务对应的新数据盘格式化成不同大小的逻辑块；如果该新数据盘为用户态数据盘，则将新数据盘和已依附的内核态驱动解绑，并重新将该新数据盘绑定到用户态驱动；为该新数据盘创建用户态文件系统。

在新数据盘插入槽位后，会被操作系统内核扫描到，并默认依附到内核态驱动。在对新数据盘初始化时，可以包括：格式化逻辑块，切换新数据盘的驱动程序，创建用户态文件系统等操作。具体可以根据盘类型选择不同的格式化方式，例如，PCIe SSD通常使用NVMe协议，使用NVMe协议的新数据盘支持多个名字空间，每个名字空间都可以设置不同的逻辑块大小(logical block size)，比如512B，4KB等。另外有些数据盘还支持为每个逻辑块关联一段元数据(metadata)，用来记录循环冗余校验值等元数据。同时，把新数据盘和内核态驱动解绑，然后重新绑定新数据盘到用户态驱动。此外，还可以创建用户态文件系统。其实，新数据盘初始化操作可以有多种实现方式，并不限于上述针对用户态数据盘的初始化操作，可以根据不同文件自动执行对应的初始化功能，比如ext4、用户态文件系统。

在对新数据盘初始化完成后，可以请求用户态软件栈上线新数据盘。用户态软件栈收到请求后，为新数据盘创建对应的数据结构，更新盘状态，完成新数据盘上线。

至此，分布式存储系统中数据盘的热维修处理过程结束。整个维修方案中，故障检测、故障管理以及热维修服务、新数据盘上线等几乎不需要人工参与，最大程度自动化热维修。而且，在热插拔数据盘时不需要将整机的服务终止掉，主机的其它数据盘可以正常工作，保证节点设备的在线率，降低维修成本，提升维修效率。

参照图2所示，为本说明书实施例提供的一种热维修方法的步骤示意图，该方法适用于图1a和图1b所示的热维修系统，该热维修方法可以包括以下步骤：

步骤202：存储节点对本地维护的至少一个数据盘进行故障检测，并将检测到的故障信息上报给所述故障管理节点，以便于所述故障管理节点根据接收到的故障信息为对应的故障数据盘进行合法性验证，并在验证合法后将为所述故障数据盘创建的维修服务下发给所述存储节点；

步骤204：所述存储节点根据接收的维修服务在本地创建对应的热维修子服务，并基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据，在完成备份后，释放所述故障数据盘的资源，以便于所述故障管理节点在获知所述故障数据盘的资源被释放后，通知运维方采用热插拔方式对所述故障数据盘进行更换，以及，对更换后的新数据盘进行硬件检测，并在检测到硬件状态正常时确定完成本次维修服务。

可选地，在确定完成本次维修服务之后，所述存储节点周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查；在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘；对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘信息，完成新数据盘上线。

在本说明书实施例的一种具体实现方式中，所述存储节点在周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查时，具体可以周期性扫描本地每个槽位的数据盘，基于扫描到的数据盘的序列号与本地维护的数据盘列表进行比对，如果比对出新序列号，则确定扫描到新数据盘；对扫描到的新数据盘进行误操作检查，其中，误操作检查至少包括：检查新数据盘的序列号与所在槽位是否匹配，新数据盘是否有脏数据，检查在销毁静默期内是否拔错数据盘。

在本说明书实施例的再一种具体实现方式中，所述热维修子服务携带有故障数据盘的盘信息；所述存储节点在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘时，具体可以遍历本地热维修子服务，基于每个未分配新数据盘的热维修子服务中故障数据盘的盘信息，为该热维修子服务确定出厂容量和盘介质类型均匹配的新数据盘。

在本说明书实施例的再一种具体实现方式中，所述存储节点在对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘状态，完成新数据盘上线时，具体可以将热维修子服务对应的新数据盘格式化成不同大小的逻辑块；如果该新数据盘为用户态数据盘，则将新数据盘和已依附的内核态驱动解绑，并重新将该新数据盘绑定到用户态驱动；为该新数据盘创建用户态文件系统。

图3所示，为本说明书实施例提供的分布式存储系统中数据盘的热维修流程示意图。在该热维修流程中，将分布式存储系统中各节点设备提供的服务之间的交互简单示出。这其中包括：分布式存储节点提供的故障检测服务和热维修服务，故障管理节点提供的故障管理服务，存储管控节点提供的存储管控服务。

S302，检测并发现新故障；

故障检测服务发现本地数据盘存在故障后，上报给故障管理服务。

S304，核验确认新故障；

故障管理服务对新故障进行合法性核验。

S306，故障数据盘下线中；

其实，在故障管理服务对新故障核验无误后，可以对新故障对应的故障数据盘的盘信息进行标记，以表示该故障数据盘发生故障或为旧数据盘。

S308，创建并发起待审批的维修服务；

S310，创建热维修子服务；

热维修服务根据接收到的维修服务在分布式存储节点本地创建热维修子服务。

S312，备份数据；

存储管控服务被触发，开始对故障数据盘的数据进行数据备份。

S314，释放资源；

在备份完成后，热维修服务释放故障数据盘的硬件资源。

S316，维修服务已审批；

在热维修服务释放硬件资源后，即完成维修服务的审批，至此，可视维修服务结束。

S318，故障数据盘已下线；

S320，维修中；

故障管理服务通知运维方进行数据盘的更换，更换时采用热插拔方式操作，不需要关闭整机，保留其它服务继续工作。

S322，维修成功；

更换后反复检测硬件状态，如有异常可通知运维方再次更换，直至正常为止。

S324，新数据盘扫描分配；

热维修服务扫描发现新数据盘，确认没有误操作后，为本地热维修子服务分配规格一致的新数据盘。

S326，新数据盘初始化；

热维修服务初始化新数据盘，包括设置逻辑块大小、创建用户态文件系统等。

S328，新数据盘上线。

热维修服务通知用户态软件中数据盘可以上线，确认用户态软件栈完成数据盘上线后，本地热维修子服务流程结束。

整个热维修过程几乎不需要人工参与，实现数据盘尤其是用户态数据盘的自动热维修，保证节点设备在线率，降低维修成本，提升维修效率。

参照图4所示，为本说明书实施例提供的数据盘的热维修系统，该系统400可以包括：

故障检测模块402，用于对本地维护的至少一个数据盘进行故障检测，并将检测到的故障信息上报给所述故障管理节点，以便于所述故障管理节点根据接收到的故障信息为对应的故障数据盘进行合法性验证，并在验证合法后将为所述故障数据盘创建的维修服务下发给所述分布式存储节点；

热维修模块404，用于根据接收的维修服务在本地创建对应的热维修子服务，并基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据，在完成备份后，释放所述故障数据盘的资源，以便于所述故障管理节点在获知所述故障数据盘的资源被释放后，通知运维方采用热插拔方式对所述故障数据盘进行更换，以及，对更换后的新数据盘进行硬件检测，并在检测到硬件状态正常时确定完成本次维修服务。

其实，该热维修系统400可以部署在分布式存储系统的每个分布式存储节点上，每个分布式存储节点还部署有操作系统内核、用户态软件栈、用户态驱动等。故障检测模块402用于提供故障检测服务，热维修模块404用于提供热维修服务。

可选地，作为一个实施例，在确定完成本次维修服务之后，所述热维修模块404还用于周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查；在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘；对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘信息，完成新数据盘上线。

在本说明书实施例的一种具体实现方式中，所述热维修模块404在周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查时，具体用于：周期性扫描本地每个槽位的数据盘，基于扫描到的数据盘的序列号与本地维护的数据盘列表进行比对，如果比对出新序列号，则确定扫描到新数据盘；对扫描到的新数据盘进行误操作检查，其中，误操作检查至少包括：检查新数据盘的序列号与所在槽位是否匹配，新数据盘是否有脏数据，检查在销毁静默期内是否拔错数据盘。

在本说明书实施例的再一种具体实现方式中，所述热维修子服务携带有故障数据盘的盘信息；所述热维修模块404在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘时，具体用于：遍历本地热维修子服务，基于每个未分配新数据盘的热维修子服务中故障数据盘的盘信息，为该热维修子服务确定出厂容量和盘介质类型均匹配的新数据盘。

在本说明书实施例的再一种具体实现方式中，所述热维修模块404在对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘状态，完成新数据盘上线时，具体用于：将热维修子服务对应的新数据盘格式化成不同大小的逻辑块；如果该新数据盘为用户态数据盘，则将新数据盘和已依附的内核态驱动解绑，并重新将该新数据盘绑定到用户态驱动；为该新数据盘创建用户态文件系统。

通过上述方案可知，分布式存储节点对本地维护的一个或多个数据盘进行故障检测，并将故障信息上报给故障管理节点进行合法性验证，并在验证合法后将为故障数据盘创建的维修服务下发给分布式存储节点，接着，分布式存储节点创建热维修子服务，并基于该热维修子服务请求存储管控节点为故障数据盘进行数据备份，在完成备份后，释放故障数据盘的资源；以便于故障管理节点通知运维方以热插拔方式更换故障数据盘，并在检测到更换后的新数据盘的硬件状态正常时确定完成本次维修服务。整个热维修过程几乎不需要人工参与，实现数据盘尤其是用户态数据盘的自动热维修，保证节点设备在线率，降低维修成本，提升维修效率。

图5是本说明书的一个实施例电子设备的结构示意图。请参考图5，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他服务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成分布式存储系统中数据盘的热维修装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

对本地维护的至少一个数据盘进行故障检测，并将检测到的故障信息上报给所述故障管理节点，以便于所述故障管理节点根据接收到的故障信息为对应的故障数据盘进行合法性验证，并在验证合法后将为所述故障数据盘创建的维修服务下发给所述存储节点；根据接收的维修服务在本地创建对应的热维修子服务，并基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据，在完成备份后，释放所述故障数据盘的资源，以便于所述故障管理节点在获知所述故障数据盘的资源被释放后，通知运维方采用热插拔方式对所述故障数据盘进行更换，以及，对更换后的新数据盘进行硬件检测，并在检测到硬件状态正常时确定完成本次维修服务。

上述如本说明书图2和图3所示实施例揭示的装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图2和图3的方法，并实现相应装置在图2和图3所示实施例的功能，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图2和图3所示实施例的方法，并具体用于执行以下方法：

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述一个或多个实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种热维修系统，包括：存储管控节点、故障管理节点以及存储节点；其中，

2.如权利要求1所述的热维修系统，在所述故障管理节点确定完成本次维修服务之后，所述存储节点，还用于：

周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查；

在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘；

对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘信息，完成新数据盘上线。

3.如权利要求2所述的热维修系统，所述存储节点在周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查时，具体用于：

周期性扫描本地每个槽位的数据盘，基于扫描到的数据盘的序列号与本地维护的数据盘列表进行比对，如果比对出新序列号，则确定扫描到新数据盘；

对扫描到的新数据盘进行误操作检查，其中，误操作检查至少包括：检查新数据盘的序列号与所在槽位是否匹配，新数据盘是否有脏数据，检查在销毁静默期内是否拔错数据盘。

4.如权利要求2所述的热维修系统，所述热维修子服务携带有故障数据盘的盘信息；所述存储节点在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘时，具体用于：

遍历本地热维修子服务，基于每个未分配新数据盘的热维修子服务中故障数据盘的盘信息，为该热维修子服务确定出厂容量和盘介质类型均匹配的新数据盘。

5.如权利要求2所述的热维修系统，所述存储节点在对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘状态，完成新数据盘上线时，具体用于：

将热维修子服务对应的新数据盘格式化成不同大小的逻辑块；

如果该新数据盘为用户态数据盘，则将新数据盘和已依附的内核态驱动解绑，并重新将该新数据盘绑定到用户态驱动；

为该新数据盘创建用户态文件系统。

6.如权利要求1-5任一项所述的热维修系统，所述存储节点在基于创建的热维修子服务请求所述存储管控节点为对应的所述故障数据盘备份数据时，具体用于：

所述存储节点基于创建的热维修子服务向所述存储管控节点发送备份请求；

所述存储管控节点基于所述备份请求为所述故障数据盘上的数据选择其它新的存储节点，并发起数据复制操作；

所述存储节点向所述存储管控节点轮询数据复制状态，直至数据复制操作结束确认完成备份。

7.一种热维修方法，适用于包括：存储管控节点、故障管理节点以及存储节点的热维修系统，该热维修方法包括：

8.如权利要求7所述的热维修方法，在确定完成本次维修服务之后，所述方法还包括：

所述存储节点周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查；

9.如权利要求8所述的热维修方法，所述存储节点在周期性扫描本地数据盘，并对扫描到的新数据盘进行误操作检查时，具体包括：

10.如权利要求8所述的热维修方法，所述热维修子服务携带有故障数据盘的盘信息；所述存储节点在误操作检查通过后，为相应热维修子服务匹配规格一致的新数据盘时，具体包括：

11.如权利要求8所述的热维修方法，所述存储节点在对热维修子服务对应的新数据盘进行格式化处理，并更新新数据盘的盘状态，完成新数据盘上线时，具体包括：

为该新数据盘创建用户态文件系统。

12.一种数据盘的热维修系统，部署在存储节点上，所述数据盘的热维修系统包括：

13.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求7-11任一项所述的热维修方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行权利要求7-11任一项所述的热维修方法。